10个最受欢迎的本地LLM

当大多数人想到大型语言模型（LLMs）时，他们会想到庞大的云服务器和高昂的订阅费用。但人工智能革命现在已经触手可及——实际上。由于先进的量化和模型优化，你可以在笔记本电脑或台式机上运行强大的LLMs，即使你的RAM或VRAM不足8GB。让我们探讨如何将先进的AI带到你的本地机器，以及哪些模型正在引领潮流。

解密量化：小型LLM如何适应中等硬件

在深入了解最佳模型之前，让我们分解使本地LLM成为可能的技术。秘诀在于量化——一种将模型权重从16位或32位浮点数缩减为4位或8位整数的过程，从而大幅减少内存需求而不对质量造成重大影响。例如，一个原本需要14GB FP16的7B参数模型，通过4位量化可以在仅4-5GB内存中运行。

关键概念：

VRAM vs. RAM: VRAM（在你的GPU上）速度快，适合LLM推理；RAM（系统内存）较慢但更丰富。为了获得最佳效果，请将模型保留在VRAM中。
GGUF格式: 量化模型的首选格式，兼容大多数本地推理引擎。
量化类型: Q4_K_M 是质量和效率的完美平衡；Q2_K 或 IQ3_XS 节省更多空间但可能降低输出质量。
内存开销: 始终预留模型文件大小的1.2倍来考虑激活和提示上下文。

开始使用：运行本地LLM的工具

Ollama: 一个面向开发者的CLI工具，用于在本地运行LLM。它快速、可脚本化，并支持通过Modelfile打包自定义模型。非常适合程序员和自动化专家。
LM Studio: 更喜欢图形界面？LM Studio提供了一个漂亮的桌面应用程序，内置聊天功能，可以从Hugging Face轻松下载模型，并简单调整参数。非常适合初学者和非技术人员。
Llama.cpp: 许多本地LLM工具背后的C++引擎，针对GGUF模型进行了优化，并支持CPU/GPU加速。

最佳的10个小型本地LLM（全部低于8GB！）

1、Llama 3.1 8B（量化版）

ollama run llama3.1:8b

Meta的Llama 3.1 8B是通用AI的佼佼者，拥有庞大的训练集和智能优化。像Q2_K（3.18GB文件，约7.2GB内存）和Q3_K_M（4.02GB文件，约7.98GB内存）这样的量化版本使其适用于大多数笔记本电脑。它在聊天、代码、摘要和RAG任务中表现出色，是批量处理和代理工作流程的首选。

2、Mistral 7B（量化版）

ollama run mistral:7b

Mistral 7B专为速度和效率而设计，采用GQA和SWA实现顶级性能。Q4_K_M（4.37GB文件，6.87GB内存）和Q5_K_M（5.13GB文件，7.63GB内存）的量化版本非常适合8GB配置。它非常适合实时聊天机器人、边缘设备和商业用途（Apache 2.0许可证）。

3、Gemma 3:4B（量化版）

ollama run gemma3:4b

谷歌DeepMind的Gemma 3:4B虽小却强大。Q4_K_M（1.71GB文件）只需4GB VRAM即可运行，非常适合移动设备和低端PC。非常适合文本生成、问答和OCR任务。

4、Gemma 7B（量化版）

ollama run gemma:7b

更大的Gemma 7B在代码、数学和推理方面更具实力，但仍能容纳在8GB VRAM中（Q5_K_M：6.14GB，Q6_K：7.01GB）。它适用于内容创作、聊天和知识工作。

5、Phi-3 Mini（3.8B，量化版）

ollama run phi3

微软的Phi-3 Mini是一款紧凑的强大工具，适用于逻辑、编程和数学。Q8_0（4.06GB文件，7.48GB内存）完全在8GB限制内。它非常适合聊天、移动设备和低延迟任务。

6、DeepSeek R1 7B/8B（量化版）

ollama run deepseek-r1:7b

DeepSeek的7B和8B模型以推理和代码能力著称。R1 7B Q4_K_M（4.22GB文件，6.72GB内存）和R1 8B（4.9GB文件，6GB VRAM）都适合8GB配置。它们非常适合中小企业、客户服务和高级数据分析。

7、Qwen 1.5/2.5 7B（量化版）

ollama run qwen:7b

阿里巴巴的Qwen 7B模型是多语言且具有丰富的上下文（32K tokens）。Qwen 1.5 7B Q5_K_M（5.53GB）和Qwen2.5 7B（4.7GB，6GB VRAM）非常适合聊天机器人、翻译和编程帮助。

8、Deepseek-coder-v2 6.7B（量化版）

ollama run deepseek-coder-v2:6.7b

Deepseek-coder-v2 6.7B是程序员的梦想——经过微调，专门用于代码生成和理解。在3.8GB（6GB VRAM）下运行，是本地代码补全和开发工具的首选。

9、BitNet b1.58 2B4T

ollama run hf.co/microsoft/bitnet-b1.58-2B-4T-gguf

来自微软的BitNet b1.58 2B4T是效率的奇迹，使用1.58位权重仅需0.4GB内存即可运行。它非常适合边缘设备、物联网和纯CPU推理——比如设备上的翻译和移动助手。

10、Orca-Mini 7B（量化版）

ollama run orca-mini:7b

Orca-Mini 7B基于Llama和Llama 2构建，是一个灵活的模型，适用于聊天、问答和指令遵循。Q4_K_M（4.08GB文件，6.58GB内存）和Q5_K_M（4.78GB文件，7.28GB内存）都是8GB友好的。它是构建AI代理和对话工具的理想选择。

11、结束语

上述模型——Llama 3.1 8B、Mistral 7B、Gemma 3:4B和7B、Phi-3 Mini、DeepSeek R1、Qwen 7B、Deepseek-coder-v2、BitNet b1.58和Orca-Mini——证明了你不需要超级计算机来利用AI。得益于量化和开源创新，你可以在日常硬件上运行先进的语言模型。

为什么这很重要？

隐私: 保持数据本地化——无需云端。
成本: 无需订阅或云费用。
速度: 即时响应，即使离线。
灵活性: 实验、定制和部署到任何地方。

随着量化和边缘AI的持续发展，预计会有更多强大的模型在更小的设备上运行。深入探索，进行实验，并找到适合你工作流程的LLM。

原文链接：10 Must-Try Small Local LLMs That Run on Less Than 8GB RAM/VRAM

汇智网翻译整理，转载请标明出处