10个最受欢迎的本地LLM

当大多数人想到大型语言模型(LLMs)时,他们会想到庞大的云服务器和高昂的订阅费用。但人工智能革命现在已经触手可及——实际上。由于先进的量化和模型优化,你可以在笔记本电脑或台式机上运行强大的LLMs,即使你的RAM或VRAM不足8GB。让我们探讨如何将先进的AI带到你的本地机器,以及哪些模型正在引领潮流。

解密量化:小型LLM如何适应中等硬件

在深入了解最佳模型之前,让我们分解使本地LLM成为可能的技术。秘诀在于量化——一种将模型权重从16位或32位浮点数缩减为4位或8位整数的过程,从而大幅减少内存需求而不对质量造成重大影响。例如,一个原本需要14GB FP16的7B参数模型,通过4位量化可以在仅4-5GB内存中运行。

关键概念:

  • VRAM vs. RAM: VRAM(在你的GPU上)速度快,适合LLM推理;RAM(系统内存)较慢但更丰富。为了获得最佳效果,请将模型保留在VRAM中。
  • GGUF格式: 量化模型的首选格式,兼容大多数本地推理引擎。
  • 量化类型: Q4_K_M 是质量和效率的完美平衡;Q2_K 或 IQ3_XS 节省更多空间但可能降低输出质量。
  • 内存开销: 始终预留模型文件大小的1.2倍来考虑激活和提示上下文。
开始使用:运行本地LLM的工具
  • Ollama: 一个面向开发者的CLI工具,用于在本地运行LLM。它快速、可脚本化,并支持通过Modelfile打包自定义模型。非常适合程序员和自动化专家。
  • LM Studio: 更喜欢图形界面?LM Studio提供了一个漂亮的桌面应用程序,内置聊天功能,可以从Hugging Face轻松下载模型,并简单调整参数。非常适合初学者和非技术人员。
  • Llama.cpp: 许多本地LLM工具背后的C++引擎,针对GGUF模型进行了优化,并支持CPU/GPU加速。
最佳的10个小型本地LLM(全部低于8GB!)

1、Llama 3.1 8B(量化版)

ollama run llama3.1:8b

Meta的Llama 3.1 8B是通用AI的佼佼者,拥有庞大的训练集和智能优化。像Q2_K(3.18GB文件,约7.2GB内存)和Q3_K_M(4.02GB文件,约7.98GB内存)这样的量化版本使其适用于大多数笔记本电脑。它在聊天、代码、摘要和RAG任务中表现出色,是批量处理和代理工作流程的首选。

2、Mistral 7B(量化版)

ollama run mistral:7b

Mistral 7B专为速度和效率而设计,采用GQA和SWA实现顶级性能。Q4_K_M(4.37GB文件,6.87GB内存)和Q5_K_M(5.13GB文件,7.63GB内存)的量化版本非常适合8GB配置。它非常适合实时聊天机器人、边缘设备和商业用途(Apache 2.0许可证)。

3、Gemma 3:4B(量化版)

ollama run gemma3:4b

谷歌DeepMind的Gemma 3:4B虽小却强大。Q4_K_M(1.71GB文件)只需4GB VRAM即可运行,非常适合移动设备和低端PC。非常适合文本生成、问答和OCR任务。

4、Gemma 7B(量化版)

ollama run gemma:7b

更大的Gemma 7B在代码、数学和推理方面更具实力,但仍能容纳在8GB VRAM中(Q5_K_M:6.14GB,Q6_K:7.01GB)。它适用于内容创作、聊天和知识工作。

5、Phi-3 Mini(3.8B,量化版)

ollama run phi3

微软的Phi-3 Mini是一款紧凑的强大工具,适用于逻辑、编程和数学。Q8_0(4.06GB文件,7.48GB内存)完全在8GB限制内。它非常适合聊天、移动设备和低延迟任务。

6、DeepSeek R1 7B/8B(量化版)

ollama run deepseek-r1:7b

DeepSeek的7B和8B模型以推理和代码能力著称。R1 7B Q4_K_M(4.22GB文件,6.72GB内存)和R1 8B(4.9GB文件,6GB VRAM)都适合8GB配置。它们非常适合中小企业、客户服务和高级数据分析。

7、Qwen 1.5/2.5 7B(量化版)

ollama run qwen:7b

阿里巴巴的Qwen 7B模型是多语言且具有丰富的上下文(32K tokens)。Qwen 1.5 7B Q5_K_M(5.53GB)和Qwen2.5 7B(4.7GB,6GB VRAM)非常适合聊天机器人、翻译和编程帮助。

8、Deepseek-coder-v2 6.7B(量化版)

ollama run deepseek-coder-v2:6.7b

Deepseek-coder-v2 6.7B是程序员的梦想——经过微调,专门用于代码生成和理解。在3.8GB(6GB VRAM)下运行,是本地代码补全和开发工具的首选。

9、BitNet b1.58 2B4T

ollama run hf.co/microsoft/bitnet-b1.58-2B-4T-gguf

来自微软的BitNet b1.58 2B4T是效率的奇迹,使用1.58位权重仅需0.4GB内存即可运行。它非常适合边缘设备、物联网和纯CPU推理——比如设备上的翻译和移动助手。

10、Orca-Mini 7B(量化版)

ollama run orca-mini:7b

Orca-Mini 7B基于Llama和Llama 2构建,是一个灵活的模型,适用于聊天、问答和指令遵循。Q4_K_M(4.08GB文件,6.58GB内存)和Q5_K_M(4.78GB文件,7.28GB内存)都是8GB友好的。它是构建AI代理和对话工具的理想选择。

11、结束语

上述模型——Llama 3.1 8B、Mistral 7B、Gemma 3:4B和7B、Phi-3 Mini、DeepSeek R1、Qwen 7B、Deepseek-coder-v2、BitNet b1.58和Orca-Mini——证明了你不需要超级计算机来利用AI。得益于量化和开源创新,你可以在日常硬件上运行先进的语言模型。

为什么这很重要?

  • 隐私: 保持数据本地化——无需云端。
  • 成本: 无需订阅或云费用。
  • 速度: 即时响应,即使离线。
  • 灵活性: 实验、定制和部署到任何地方。

随着量化和边缘AI的持续发展,预计会有更多强大的模型在更小的设备上运行。深入探索,进行实验,并找到适合你工作流程的LLM。


原文链接:10 Must-Try Small Local LLMs That Run on Less Than 8GB RAM/VRAM

汇智网翻译整理,转载请标明出处