机器学习过时了吗?
就在几年前,机器学习(ML)是人工智能进步的巅峰——一种被顶级科技公司追捧的精英技能。但如今,随着基础模型和生成式 AI 的兴起,许多人开始问:机器学习是否正在过时? 这种转变对数据科学家意味着什么,他们传统上是从头构建和微调 ML 模型?
在本文中,我们将分析人工智能领域的演变,传统 ML 角色是否面临风险,以及在基础模型时代,数据专业人士的未来会怎样。
1、什么是机器学习?
在讨论其过时之前,值得回顾一下机器学习到底是什么。
机器学习 是人工智能的一个子集,它使系统能够从数据中学习并随着时间的推移而改进,而无需显式编程。它包括:
- 监督学习:从标记的数据中学习(例如,预测房价)。
- 无监督学习:在未标记的数据中寻找模式(例如,客户细分)。
- 强化学习:通过基于奖励的反馈进行学习(例如,机器人、游戏)。
传统上,ML 工作流程包括:
- 清洗和转换数据
- 特征工程
- 模型选择和调整
- 部署和监控
2、转变:进入基础模型
随着基础模型的出现,游戏规则发生了变化——像 GPT、PaLM 和 Claude 这样的大规模预训练模型,它们是在互联网规模的数据集上训练的。这些模型可以执行以前需要单独定制模型的任务。
什么让基础模型与众不同?
- 规模:经过数十亿参数和数万亿个标记的训练
- 多功能性:只需最少的微调即可执行多项任务(即“零样本”或“少样本”学习)
- 可访问性:可通过 API 使用,无需从头开始构建自己的模型
现实世界例子:
- 曾经需要专门 BERT 模型的文本分类现在可以通过提示 GPT-4 来处理。
- 曾经由特定领域意图和模型驱动的客户服务聊天机器人,现在已被通用 LLM 取代。
3、这是否意味着机器学习已经过时?
不完全是——但它的角色正在改变。
传统 ML 仍然胜出的情况:
- 资源限制:LLM 运行成本高昂。对于已知任务,小型模型在规模上更有效。
- 隐私与合规性:在受监管的行业中,内部构建模型可以避免将敏感数据外部化。
- 边缘部署:轻量级模型更容易部署在计算能力有限的设备上。
LLM 正在接管的地方:
- 快速原型设计和实验
- 一般的语言相关任务(如摘要、问答、翻译)
- 用提示工程取代 MLOps 工具链的大部分部分
TL;DR:机器学习并未消亡——它只是从“自己构建”转变为“组合和协调预训练模型”。
4、对数据科学家的意义
数据科学家的角色正从一名模型构建者转变为一名模型协调者。不再是从头训练模型,现在的重点是:
- 提示工程
知道如何有效地指导和引导 LLM 成为一项核心技能。
- 评估与防护机制
基础模型虽然强大但不可预测。数据科学家必须实施稳健的评估指标和安全检查。
- 数据为中心的 AI
高质量的数据仍然至关重要。有了 LLM,输入数据变得更加关键——垃圾输入,幻觉输出。
- 模型选择
了解何时使用传统模型与基础模型现在已成为工作的一部分。
5、分步指南:如何在新的 AI 栈中工作
让我们通过一个例子来讲解:自动简历筛选。
第一步:使用传统 ML 处理结构化数据
- 根据技能、经验等对候选人进行评分。
- 使用逻辑回归或 XGBoost 进行分类。
第二步:使用 LLM 进行文本理解
- 通过 GPT-4 从简历中提取与工作相关的关键词。
- 使用少量样本提示总结申请人的背景。
第三步:结合输出
- 结合结构化模型输出和 LLM 生成的摘要,创建最终评分。
常见陷阱:
- 仅依赖 LLM 处理所有用例
- 忽略成本和延迟问题
- 将基础模型视为黑盒
最佳实践:
- 在可能的情况下微调小型模型
- 将 LLM 用于增强而不是替代
- 总是验证模型输出,特别是对于高风险决策
6、结束语:拥抱变革,不要害怕它
机器学习并未过时——它只是因基础模型的兴起而发生了变化。未来属于那些能够将传统工具与前沿 AI 能力相结合的数据科学家。少关注“模型训练”,多关注“系统设计”。你的价值在于你如何应用这些工具,而不仅仅是如何构建它们。
原文链接:Is Machine Learning obsolete? How data scientists must adapt to stay relevant
汇智网翻译整理,转载请标明出处