LFM2:边缘优先的基础模型系列
手机、笔记本电脑和小型 SoC 不需要体积庞大、运行缓慢的模型。它们需要的是启动迅速、响应灵敏且内存占用低的模型。LFM2——专为设备端使用而设计的第二代 Liquid Foundation 模型——应运而生。 Liquid AI (2025) 发布了该系列模型(密集模型,大小分别为 3.5 亿至 26 亿像素;包含 83 亿个有效参数的 MoE;视觉/音频变体;以及 ColBERT 检索器)。
LFM2 的独特之处:
- 边缘优先设计:架构、预训练和后训练均针对设备端约束进行了优化(例如,首词响应时间、稳定的单词延迟和内存占用)。
- 极简混合骨干网络:主要由门控短卷积层和少量分组查询注意力 (GQA) 层组成,速度快且内存效率高。
- 已发布的模型:密集检查点模型(大小分别为 3.5 亿、7 亿、12 亿和 26 亿像素)、MoE 模型(总大小 83 亿像素,有效参数 15 亿)、多模态 LFM2-VL 和 LFM2-Audio 模型,以及 LFM2-ColBERT 检索器。
- 训练技巧:在训练过程中使用长上下文信息,采用解耦的温和Top-K蒸馏将教师知识压缩成小型学生模型,并应用三阶段后训练流程(SFT → 偏好对齐 → 模型合并)。
- 优势:与类似的开放基线模型相比,在手机和笔记本电脑CPU上显著提高了预填充和解码吞吐量——速度通常提高1.5到3倍,且准确率相同或更高。
1、为什么“边缘优先”很重要
大型模型在云端表现出色。但设备端系统面临三个硬性限制:
- 延迟:用户期望即时响应——首次令牌响应时间(TTFT)必须非常短。
- 内存:与数据中心GPU相比,移动设备的RAM和缓存容量非常有限。
- 能量:功率和散热预算非常严格。
LFM2 不要求设备进行调整,而是调整模型。其结果是:真正适用于本地助手、私人副驾驶和传感器驱动的代理循环的实用模型。
2、架构
LFM2 主干是一个极简混合架构:
- 大部分层 = 门控短卷积块(快速局部混合,对 CPU 缓存友好)
- 少数层 = 分组查询注意力机制 (GQA),用于处理远程检索和跨词元交互
- 位置 MLP = SwiGLU,大小由搜索决定
- 注意力机制中使用预归一化 RMSNorm、RoPE 位置编码和 QK-Norm
可以将其理解为“主要由快速局部操作组成,并在关键时刻穿插少量全局注意力层”。
2.1 门控短卷积
# Pseudocode illustrating the gated short-conv block (conceptual)
def gated_short_conv_block(h, conv_kernel):
# h: [L, d] hidden states
B, C, h_tilde = linear_expand(h).split(3) # Linear: Rd -> R3d
y = B * h_tilde # elementwise gate
z = depthwise_conv1d(y, kernel=conv_kernel) # short-range conv
out = linear_project(C * z) # back to d dims
return out该模块实现了局部上下文混合,并具有出色的缓存局部性——非常适合 CPU 运行。
2.2 稀疏混合专家:更高的质量,可控的计算
LFM2–8B-A1B 使用混合专家 (MoE):总共 83 亿个参数,但通过将 token 路由到少量专家,每个 token 只有约 15 亿个有效参数。这能以约 15 亿的解码成本实现 30 亿至 40 亿类别的分类质量——当内存充足用于存储权重但每个词元的计算量必须有限时,这是一个非常划算的方案。
2.3 训练——如何让小型模型发挥大型模型的性能
多阶段预训练:
- 基础预训练:约 10-12 万亿个词元,上下文窗口为 4K。
- 中期训练:1 万亿个更高质量的词元,上下文窗口为 32K(长上下文自适应)。
- 后训练流程(3 个阶段):SFT(基于聊天/指令数据的监督式微调)— 偏好对齐(策略内 + 策略外)— 模型合并(使用混合/线性合并来增强鲁棒性)。
2.4 解耦、温和的 Top-K 蒸馏(直观理解)
当你将一个大型教师模型蒸馏成一个小型学生模型时,通常需要教师概率。存储庞大词汇表上的完整 softmax 函数成本很高。 LFM2 仅存储教师的 Top-K logits (K=32)。为了避免因简单地将温度应用于截断分布而干扰训练,他们将目标函数拆分为两个部分:
- LB:匹配分配给教师 Top-K 的总概率质量(二元伯努利 KL 分布)。
- LT:匹配 Top-K 内部的条件分布(此处应用温度)。
这避免了不匹配的支持并稳定蒸馏进学生模型。
损失函数的概念伪代码:
# PT_topk_mass = sum(teacher_probs[x] for x in topk)
# PS_topk_mass = sum(student_probs[x] for x in topk)
LB = KL(Bernoulli(PT_topk_mass) || Bernoulli(PS_topk_mass))
LT = PT_topk_mass * KL_tempered( PT(·|TopK) || PS(·|TopK) )
LDTK = LB + LT
final_loss = alpha * cross_entropy(hard_targets) + beta * LDTK3、多模态:视觉和音频,轻量级
LFM2-VL(视觉语言):
- 使用轻量级连接器(PixelUnshuffle + MLP)连接 SigLIP2 视觉编码器,将图像块转换为标记空间。
- 支持高分辨率图像的平铺显示,并可选配缩略图以提供全局上下文信息。
- 旨在让您在推理过程中权衡视觉标记预算(以及由此产生的延迟)与准确率。
LFM2-Audio(语音):
- 在同一主干网中使用连续音频编码器(对数梅尔编码 — FastConformer 协议栈)。
- 对于音频输出,它预测 Mimi RVQ 离散编码,并使用轻量级去标记器(基于短时傅里叶变换的生成器)合成波形。
- 支持交错模式(生成过程中混合文本和音频)和顺序模式(文本优先或音频优先),增强了低延迟语音助手的灵活性。
检索:LFM2-ColBERT (350M):
- 基于 350M 主干网构建的后期交互检索器,生成标记级嵌入并使用 MaxSim(ColBERT 风格)——在保持低运行成本的同时,实现强大的多语言检索能力。
4、基准测试与真机性能
Liquid AI 使用 llama.cpp Q4 量化算法,在手机级(骁龙 S25)和笔记本电脑级(Ryzen HX 370)CPU 上对 LFM2 进行了测试。
亮点:
- 预填充和解码吞吐量:LFM2 模型相比规模相近的开放基线模型,性能始终提升约 1.5 到 3 倍,具体提升幅度取决于指标和上下文长度。
- 准确率:在指令跟踪、数学运算和多语言任务中,LFM2 的表现远超其规模——通常优于规模更大的模型。
- 帕累托前沿:LFM2 配置在设备端目标的速度与准确率权衡中占据主导地位。
5、示例:在设备上使用量化的 LFM2 模型
以下是一个简短的概念性 shell 命令(并非可直接使用的脚本),演示了如何使用类似 llama.cpp 的工具在本地运行量化模型。
# conceptual steps (do not copy blindly)
# 1. download quantized LFM2-700M Q4 file (assume it exists)
# 2. run a llama.cpp-like binary to serve single-request low-latency inference
./llama.cpp \
--model lfm2-700m-q4.bin \
--prompt "Write a friendly 3-line summary of LFM2." \
--threads 8 \
--tokens 128 \
--temp 0.8由于 LFM2 的设计初衷是面向 llama.cpp / ExecuTorch / vLLM 等部署目标,因此可以使用这些运行时环境在手机和笔记本电脑上进行实际部署。
6、要点
如果延迟、内存和隐私是主要限制因素,那么模型设计必须从一开始就关注边缘计算——LFM2 正是这种方法的体现。
- 合适的组合:低成本的本地算子与少量全局注意力层相结合,可以在设备预算范围内超越更复杂的混合模型。
- 蒸馏很重要——但蒸馏方式(解耦 Top-K)对于小型模型至关重要。
- 可以使用智能连接器、分块和后期交互技术来设计多模态和检索,以保持设备端功能。
- MoE 仍然有用:通过稀疏激活专家,可以实现更高质量的基于令牌的受控计算。
7、结束语
Liquid AI (2025) 发布了完整的产品组合:密集骨干网络、稀疏模型、多模态变体以及检索模型——所有这些都针对极具挑战性但影响巨大的设备端应用场景进行了优化。工程学原理很简单:首先考虑约束条件,这会带来翻天覆地的变化——您将获得速度更快、体积更小、通常也更优秀的实用模型。
原文链接:LFM2 Breakthrough: Small Models That Outrun Giants on Phones and Laptops
汇智网翻译整理,转载请标明出处