ALGORITHM 为智能体工作流优化MLX引擎 在这篇帖子中,我将解释这项更新解决的缓存复用问题、为什么当前开源 LLM 模型让回退(rewinding)变得更困难,以及新的磁盘-backed 缓存是如何工作的。
ALGORITHM MinerU-Diffusion:OCR的新路径 令人不安的事实是,一些OCR系统看起来比实际更聪明,因为语言帮助它们填补了空白。 但当页面不再可预测时,真正的视觉阅读就变得难以伪造。
ALGORITHM 代码学习: GPT-2 vs LLaMA 3 如何通过真实代码理解现代LLM的架构——从nanoGPT(300行代码,忠实还原2019年论文中的GPT-2)开始,逐步走过导致LLaMA 3的四个刻意变更。每个替换都附有技术动机、代码差异和部署运营影响。
ALGORITHM 本福特定律:数据中的秘密指纹 数字中隐藏着一个奇特的指纹——一种如此微妙的模式,以至于大多数人从未注意到它,却又如此强大,以至于它揭露了财务欺诈、伪造的选举,甚至是数十亿美元公司里的做假账行为。
ALGORITHM JEPA 解读 了解 JEPA(Joint Embedding Predictive Architecture),这是 Yann LeCun 提出的框架,用于在 latent space 中实现稳定的 AI 预测,无需进行生成式解码。
ALGORITHM 传统机器学习与现代AI “AI”,更具体地说大语言模型/基础模型,是神经网络,这是一个可以追溯到 1943 的机器学习概念,当时由于二战计算挑战(如破译密码),很多基础 AI 研究浮出水面。
ALGORITHM LLM后训练技术综合指南 SFT、RLHF、DPO、GRPO、LoRA、PPO、QLoRA、RLVR。这些不是独立的技术。它们是一个单一的进步序列。每个都是因为前一个碰到了瓶颈而被发明出来的。本文完整介绍这个链条,帮助你做出正确选择。