从零到AI工程师:我的学习路线图

在这篇博客中,我将分享我从零开始精通机器学习的旅程,从构建对现代 GenAI LLM 架构和前沿技术的理解,到分享资源。

从零到AI工程师:我的学习路线图
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

许多人对人工智能(AI)和机器学习(ML)感到困惑,通常认为它们是相同的,但事实并非如此。AI 是一个更广泛的领域,专注于构建能够智能行为的系统,而 ML 是 AI 的一个子集,使系统能够从数据中学习。ML 模型不是被显式编程的,而是在数据上训练以识别模式并做出未来决策。

现代系统如大语言模型(LLM)和计算机视觉模型主要由 ML 驱动。然而,AI 不仅限于 ML。其他方法也在业界广泛使用,例如基于图的技术(常用于游戏中的智能移动)和进化算法等。

在这篇博客中,我将分享我从零开始精通机器学习的旅程,从构建对现代 GenAI LLM 架构和前沿技术的理解,到分享资源。这不是一段短旅程;有许多技术栈、教训、挑战和洞见,我将在整篇博客中分享。

我没有深入探索 AI 的其他领域。我研究了一些基于图和进化的技术,但我大部分时间都专注于机器学习,这也是我今天继续工作的方向。原因很简单:许多现实世界的问题都可以用 ML 有效地解决。

在此基础上,ML 社区构建了像大语言模型(LLM)这样强大的系统,它们已经彻底改变了许多用例和应用。

1、学习机器学习的先决条件

学习机器学习的先决条件包括对数学的基本理解,因为 ML 在很大程度上基于数学。你应该熟悉概率、微分(微积分)和线性代数等概念。话虽如此,如果你不是这些领域的专家也不必担心。随着你学习和实现不同的模型,你将在实践工作中逐渐建立对这些概念的理解。

此外,对编程的基本理解也很重要。Python 是 ML 的最佳选择,因为它简单且生态系统强大。如果你不熟悉 Python,可以快速入门——大多数初学者教程可以在几小时内让你上手,这足以开始你的旅程。

2、理解传统机器学习

在开始阶段,你应该专注于传统机器学习模型。从理解基本概念开始,比如监督学习与无监督学习、回归与分类。大多数统计 ML 模型都属于这些类别。

你应该涵盖一些基本模型,包括线性回归、逻辑回归、决策树、随机森林、支持向量机(SVM)、K 近邻(KNN)、朴素贝叶斯和梯度提升。这些是构成机器学习基础的核心模型,也是面试中常被问到的。

虽然还有许多其他模型可用,但它们通常更针对特定用例。你可以从下面的链接探索它们,但掌握这些基本模型是最重要的第一步。

3、理解深度学习

在这一步中,你应该从理解神经网络开始深度学习的基础。从人工神经网络(ANN)开始,探索它们的工作原理。

关注关键概念,如激活函数的作用、损失如何计算,以及反向传播如何在训练期间更新模型。你还应该理解不同的损失函数以及学习率在优化模型中的重要性。

此外,学习单层感知器的架构,然后过渡到多层感知器(MLP),它们构成了深度学习模型的基础。

一旦你在神经网络方面建立了坚实的基础,下一步就是并行探索自然语言处理(NLP)和计算机视觉。然而,在深入这些领域之前,重要的是对数据预处理有扎实的理解。

数据预处理是任何 AI 系统的关键部分。它涉及准备和转换数据,使模型能够有效学习。在以下部分中,我们将讨论结构化数据以及文本和图像数据的预处理方式。每个都将在各自的章节中涵盖,让我们从数据预处理的基础开始。

3.1 数据预处理:机器学习的基础

在机器学习中有一件事非常清楚:"垃圾进,垃圾出。" 你提供给模型的数据质量直接影响其预测质量。如果输入数据质量差,模型的输出也将不可靠。

这就是为什么数据预处理是训练任何模型之前的关键步骤。它涉及应用各种转换和技术,使数据变得干净、一致且适合学习。

结构化数据的角度来看,你应该理解以下关键概念:

  • 数据类型(连续和分类)
  • 集中趋势度量(均值、中位数、众数)
  • 离散程度度量(方差和标准差)
  • 数据偏度
  • 处理异常值(使用 IQR 和 z-score 等方法)
  • 协方差和相关性
  • 分箱和平滑
  • 归一化和标准化
  • 降维技术如 PCA

数据转换取决于你的具体用例和使用的模型类型。例如,如果你正在处理分类模型,你可能会应用与回归(连续值预测)不同的技术。转换的选择始终取决于数据的性质和你试图解决的问题。

4、自然语言处理

自然语言处理(NLP)专注于从文本中提取洞察并使系统能够理解人类语言。

要开始并理解 NLP 的每个概念,请参考下图。

4.1 机器学习中的文本预处理

现在让我们谈谈文本数据的预处理方面。机器学习模型不能直接处理原始文本——它们需要数值输入。因此,第一步是将文本转换为数字。

在此之前,我们需要通过删除不太有价值的元素来清理文本。这包括数字(在某些情况下)、像"the"、"a"、"an"这样的常见词(称为停用词)、多余空格和其他不必要的字符。

为了处理这些任务,有几个流行的文本预处理库,如 SpaCy、NLTK 和 Gensim,它们提供了高效的工具来清理和准备文本数据。

5、理解计算机视觉

在计算机视觉中,我们经常听到这样一句话:"一张图片胜过千言万语。"这是因为一张图像包含数千(甚至数百万)个像素,每个像素都为描述图像做出贡献。机器学习模型使用这些像素值来理解图像并执行分类、检测和分割等任务。

为了更好地理解计算机视觉,了解它是如何演变的很有帮助。在机器学习兴起之前,计算机视觉严重依赖传统的图像处理技术,如滤波器和边缘检测。虽然许多这些方法已经被 ML 改进,但操作像素值的核心思想——通常通过滤波器——在现代计算机视觉模型中仍然发挥着基本作用。

要开始并理解计算机视觉的每个概念,请参考下图。

5.1 机器学习中的图像/视频预处理

图像和视频预处理包括图像缩放、归一化、图像增强(旋转、翻转、缩放、裁剪)、降噪、色彩空间转换(RGB 到灰度/HSV)、帧提取(用于视频)、帧采样、填充、直方图均衡化和标准化等技术。

6、理解生成式 AI

要建立对生成式 AI 的深入理解,你需要从其核心基础开始。今天,许多人仅将 GenAI 与使用 LLM API 或构建代理联系起来,但这不是全貌。要真正理解并在这个领域成长,遵循超越 API 使用的结构化学习路径很重要。

7、ML 中的其他重要领域

除了结构化数据、NLP、计算机视觉和生成式 AI 之外,AI 中还有其他几个值得探索的重要领域。这些包括音频和语音处理,模型处理语音识别、说话人识别和音频生成等任务。另一个关键领域是视频理解,将计算机视觉扩展到时序数据,用于动作识别和视频分类等任务。光学字符识别(OCR) 也广泛用于从图像和扫描文档中提取文本。此外,时间序列分析推荐系统强化学习 等领域在跨行业的现实世界 AI 应用中也发挥着重要作用。

8、机器学习和 AI 中常用的工具和库

在机器学习和 AI 中,根据数据类型和问题使用不同的工具和库。

对于结构化数据,PandasNumPyBeautifulSoupSeleniumMatplotlibSeaborn 等库通常用于数据收集、处理和可视化。对于建模,流行的框架包括 Scikit-learnTensorFlowPyTorch

在自然语言处理(NLP)中,预处理通常使用 NLTKSpaCyGensim 等库完成,而建模使用 Scikit-learnTensorFlowPyTorch 和基于 transformer 的库来处理。

对于计算机视觉,预处理通常使用 OpenCVNumPy 执行,建模使用 TensorFlowPyTorch 和基于 transformer 的方法完成。

在生成式 AI 领域,基于 transformer 的框架发挥核心作用,PyTorchTensorFlow 被广泛使用。对于构建检索增强生成(RAG)等应用,LangChain、OpenAI API 和 Claude 等工具常被使用。

工具: 除了核心库之外,几个外部平台和工具在现代 AI 开发中也发挥着重要作用。Hugging Face 被广泛用于访问预训练模型、数据集和基于 transformer 的流水线。其他重要工具包括用于构建基于 LLM 的应用和代理的 LangChain,以及用于高效检索的向量数据库如 PineconeFAISS。这些工具大大简化了构建现实世界生成式 AI 应用的过程。

9、结束语

人工智能是一个广阔的领域,远不止使用 API 或构建简单应用。在这篇博客中,我们探索了一条涵盖机器学习、深度学习、NLP、计算机视觉和生成式 AI 基础的结构化学习路径,以及实践中使用的基本工具和库。我们还看了其他对现实世界 AI 系统做出贡献的重要领域。关键要点是,在 AI 中建立专业知识需要坚实的基础、持续的实践以及对理论和实践应用的清晰理解。


原文链接: From Zero to AI Engineer: My Roadmap from Machine Learning to Generative AI

汇智网翻译整理,转载请标明出处