ALGORITHM LLM后训练技术综合指南 SFT、RLHF、DPO、GRPO、LoRA、PPO、QLoRA、RLVR。这些不是独立的技术。它们是一个单一的进步序列。每个都是因为前一个碰到了瓶颈而被发明出来的。本文完整介绍这个链条,帮助你做出正确选择。
ALGORITHM 时序正则化正在革新AI世界模型 来自纽约大学和其他顶级机构专家的最新研究提出了一种受人类生物学启发的解决方案,称为时序正则化。通过强制AI的内部轨迹变得更加平直,从而使机器人和自主系统更容易规划到达目标的路径。
ALGORITHM 并非所有比特都是生而平等的 是时候探索为什么CPU和GPU在处理量化数据方面有着根本不同的特性,以及byteshape.com的研究团队如何揭露了量化世界中的一个静默丑闻:某些格式偷偷地为GPU优化,它们会悄悄地破坏你的CPU性能。
ALGORITHM 稀疏:AI的未来 彩票假设(LTH)指出,大多数神经网络可以剪枝高达 90% 的参数而不会损失性能。这意味着,与其训练一个庞大而复杂的模型,不如训练一个更小、更高效且性能同样出色的模型。
ALGORITHM 从零实现自动语音识别 (ASR) Transformer 架构最初是为解决自然语言处理领域的复杂任务而提出的。然而,我们不能简单地套用标准的Transformer架构,就指望它在所有模态下都能达到最先进的水平。