ALGORITHM - Software 2.0 - 汇智网

Tagged

ALGORITHM

A collection of 35 posts

为智能体工作流优化MLX引擎

在这篇帖子中，我将解释这项更新解决的缓存复用问题、为什么当前开源 LLM 模型让回退（rewinding）变得更困难，以及新的磁盘-backed 缓存是如何工作的。

Boosting 回归模型超参调优指南

Boosting 回归模型超参调优指南

学习如何掌握 XGBoost、CatBoost 和 LightGBM 等提升决策树模型的贝叶斯超参数优化，同时防止过拟合并提高模型泛化能力。

动手理解 BPE 分词器

在不使用任何模块从零探索和构建 LLM 的过程中，我从最低但非常重要的层级开始——基于字符的分词。

MinerU-Diffusion：OCR的新路径

MinerU-Diffusion：OCR的新路径

令人不安的事实是，一些OCR系统看起来比实际更聪明，因为语言帮助它们填补了空白。但当页面不再可预测时，真正的视觉阅读就变得难以伪造。

代码学习: GPT-2 vs LLaMA 3

代码学习: GPT-2 vs LLaMA 3

如何通过真实代码理解现代LLM的架构——从nanoGPT（300行代码，忠实还原2019年论文中的GPT-2）开始，逐步走过导致LLaMA 3的四个刻意变更。每个替换都附有技术动机、代码差异和部署运营影响。

Transformer：共享注意力头

Transformer：共享注意力头

本章涵盖多头注意力、多查询注意力、分组查询注意力和多头潜在注意力——现代LLM如何管理生成文本的内存成本的演进。

$RMSNorm 背后的数学$

RMSNorm 背后的数学

RMSNorm本质上是在做一个赌注：激活向量的方向已经承载了所有有用信息，你只需要归一化幅度来保持训练稳定。

旋转位置编码(RoPE)简明教程

旋转位置编码(RoPE)简明教程

RoPE，即旋转位置编码，采用了一种巧妙的方法来同时融入相对和绝对位置信息。

从 AdamW 到 Muon 优化器

从 AdamW 到 Muon 优化器

在本文中，我们将讨论一种新的优化器——Muon，Muon 优化器生成的损失曲线是每一位 ML 研究者的梦想。

本福特定律：数据中的秘密指纹

数字中隐藏着一个奇特的指纹——一种如此微妙的模式，以至于大多数人从未注意到它，却又如此强大，以至于它揭露了财务欺诈、伪造的选举，甚至是数十亿美元公司里的做假账行为。

MIRAS：语言模型背后的蓝图

MIRAS：语言模型背后的蓝图

Google 的新框架揭示，每一个现代序列模型都在解决同一个四选优化问题

我用GPT蒸馏Llama 3.2-3B

我用GPT蒸馏Llama 3.2-3B

为了节约token成本，我将蒸馏一个紧凑的 Llama 3.2–3B 模型，使其能够模仿大预言模型（GPT）的对话能力。

三步蒸馏大语言模型

蒸馏技术的原理很简单：一个大的"教师"模型回答问题；一个较小的"学生"模型从这些答案以及其背后的概率中学习。

文本扩散模型快速指南

文本扩散模型是大型语言模型（LLM），它使用扩散来"去噪"一组生成的token，而不是像自回归（AR）LLM那样一次预测一个下一个token

Mamba 解密

注意力并非你所需要的一切。事实证明，有时候你需要一条蛇。

Mamba 3：AI架构的真正变革

Mamba 3：AI架构的真正变革

Mamba-3不仅仅是增量改进。它反映了一个更深层的转变——转向能够在现实世界系统中大规模运行的推理优化模型。

最后一种手工设计的架构

我打赌还有另一种新架构等待发现，其带来的增益将与 Transformer 相对于 LSTM 的提升一样大。

JEPA 解读

了解 JEPA（Joint Embedding Predictive Architecture），这是 Yann LeCun 提出的框架，用于在 latent space 中实现稳定的 AI 预测，无需进行生成式解码。

传统机器学习与现代AI

“AI”，更具体地说大语言模型/基础模型，是神经网络，这是一个可以追溯到 1943 的机器学习概念，当时由于二战计算挑战（如破译密码），很多基础 AI 研究浮出水面。

从零实现递归自我改进

只需要一个 JSON 文件、一个评分系统，以及从零信任开始的纪律，你就能实现自我改进的智能体。

向量索引和近似最近邻算法

暴力搜索的隐藏成本，以及ANN、IVF和HNSW如何将查询时间从100秒降低到10毫秒。

构建边缘AI小语言模型

通过SFT、RKD和DPO将你的专业形象提炼到小型语言模型（SLM）中。

LLM后训练技术综合指南

SFT、RLHF、DPO、GRPO、LoRA、PPO、QLoRA、RLVR。这些不是独立的技术。它们是一个单一的进步序列。每个都是因为前一个碰到了瓶颈而被发明出来的。本文完整介绍这个链条，帮助你做出正确选择。

Google TurboQuant 详解

Google TurboQuant 详解

一篇通俗易懂的解读，带你了解这项可能：如何在保持精度的同时将 LLM 内存占用降低 6 倍。

如何合法地逆向SynthID

当我说 "逆向SynthID"时，我指的是这个想法：检测内容中的SynthID水印，以及从内容中消除SynthID水印。