UNSLOTH - Software 2.0

MODEL-ZOO

微调一个函数调用小模型

在RidgeRun.ai，我们开始开发自己的小规模、本地运行的函数调用模型，有几个重要的原因。

APPLICATOIN

让LLM学会你的说话风格

使用你自己的社交网络评论来微调一个LLM，并在（相对）廉价的硬件上运行所有微调。

MODEL-ZOO

用Unsloth微调Gemma-3

当大家都在竞相构建基于 ChatGPT 的应用程序时，精明的开发人员正在悄悄发现这个新轻量级 Gemma-3 的微调能力，这是一个隐藏的宝石，可以将通用人工智能转化为你的专业数字专家。

APPLICATION

用GRPO算法训练医疗AI模型

大型语言模型（LLMs）与医疗保健的交叉点带来了令人兴奋的机会，但也带来了独特的挑战。在本教程中，我们将探讨如何使用分组相对策略优化（GRPO）——一种最近由DeepSeek团队引入的有前途的新强化学习技术——来适应阿里巴巴的Qwen-3B模型以用于医学推理。为什么这很重要： 🏥 患者安全第一：医学AI中的幻觉可能是危险的。💡 领域专业化：通用LLMs难以处理临床推理。⚡ 效率：我们的3B参数模型可以在消费级GPU上运行。推理模型如O3和DeepSeek R1在许多具有挑战性的基准测试中显示了前所未有的改进。它们改变了监督微调的趋势，转向实际的强化学习（RL）。我们在深度学习领域的许多突破都来自RL，例如AlphaGo，因为模型能够通过与不同的现实场景互动来学习，而这些场景在监督微调中往往难以提供示例。 DeepSeek R1在几个关键基准上的表现[1]。如果你想了解更多关于推理模型或更多历史细节，我强烈推荐Maarten的文章[2]。DeepSeek工作的美妙之处在于他们实现了一个实用的框架，用于使用GRPO对LLM进行微调。根据Maarten的文章：这个算法背后的直觉是，它使所有导致正确或错误答案的选择更可能或更不可能。这些选择可以是令牌集也可以是推理步骤。正如下面的图片所示：目标是激励模型生成响应，使其在正确的*和*块中以及我们能够轻松验证的最终正确答案中都能产生良好的结果（如数学问题）。 DeepSeek-R1-Zero使用的RL管道[2]好了，背景知识就到这里，让我们开始动手吧。本文使用的代码作为colab笔记本提供，你可以轻松地使用T4免费资源运行。

MODEL-ZOO

推理模型的训练：从原理到实践

我们采用了一个微小的 0.5B 参数模型，在我们的家庭实验室中向它投入了一些 GRPO，并设法教会它一些相当不错的推理技能。

TOOL

用Unsloth训练自己的R1推理模型

DeepSeek 的 R1 研究揭示了一个“顿悟时刻”，其中 R1-Zero 通过使用群组相对策略优化 (GRPO) 自主学习分配更多思考时间而无需人工反馈。你就可以使用 Unsloth和Qwen2.5 (1.5B) 在仅 7GB 的 VRAM 上重现 R1-Zero 的“顿悟时刻”。

MODEL-ZOO

DeepSeek-R1 671B本地运行指南

原始的 DeepSeek R1 是一个 6710 亿参数的语言模型，由 Unsloth AI 团队进行了动态量化，大小减少了 80%（从 720 GB 减少到 131 GB），同时保持了强大的性能。

MODEL-ZOO

DeepSeek-R1微调指南

在这篇博文中，我们将逐步指导你在消费级 GPU 上使用 LoRA（低秩自适应）和 Unsloth 对 DeepSeek-R1 进行微调。

TOOL

Unsloth大模型微调简明教程

在本文中，我们将介绍使用 Unsloth 库训练和微调语言模型的过程。我们将分解所提供代码的每个部分，解释其功能和用途。

TOOL

Unsloth+Ollama低成本定制LLM

我们将探讨如何利用 Ollama 进行高效的模型部署，深入研究量化的世界，并掌握使用最少资源进行微调的艺术。

MODEL-ZOO

视觉语言模型LoRA微调指南

在本文中，我们将探讨如何使用Unsloth、WandB等强大的工具组合来微调 Meta AI 的 Llama-3.2–11B-Vision 模型，并使用vLLM进行模型服务和推理。

MODEL-ZOO

Llama 3.2 Vision医学图像微调

今天，我将带你了解一个令人兴奋的项目：微调 Meta 的 Llama 3.2 Vision 模型来分析放射图像。

MODEL-ZOO

Qwen2.5-Coder 模型微调教程

本文介绍如何在Continue代码助手的开发数据记录基础上，使用 Unsloth 微调Qwen2.5-Coder 7B模型，以完善其代码自动完成能力。

MODEL-ZOO

Llama-3.1微调实现函数调用

本文探讨如何使用 Unsloth微调 Llama-3.1–8B 模型以实现函数调用功能，并使用 vLLM 进行高性能模型推理和服务。

LIBRARY

Unsloth：大模型微调利器

训练时间一直是微调的最大障碍之一。这就是 Unsloth 的用武之地，声称可以使 LLM 训练速度提高 30 倍。

TOOL

15个顶级LLMOps工具

我们已经不再局限于改进大型语言模型 (LLM)，而是专注于使用它们来创建有助于企业的 AI 应用程序。这就是大型语言模型操作 (LLMOps) 工具发挥作用的地方，它简化了创建完全自动化系统的过程，用于构建和部署 LLM 解决方案投入生产。在本文中，我们将介绍不同的工具，如 LLM API、微调框架、实验跟踪工具、LLM 集成生态系统、向量搜索工具、模型服务框架、部署平台和可观察性工具。每种工具都各有特色，旨在解决与 LLM 相关的特定问题。 1、什么是 LLMOps？LLMOps 是一个新兴领域，专注于生产环境中大型语言模型的运营管理。它本质上是专门针对语言和其他多模态模型的 MLOps（机器学习操作）。 LLMOps 涵盖大型语言模型的整个生命周期，包括数据收集、模型训练或微调、测试和验证、集成、部署、优化、监控和维护以及协作。通过构建项目和自动化流程，LLMOps 可帮助你减少错误并有效扩展 AI