Tagged

UNSLOTH

A collection of 16 posts

用GRPO算法训练医疗AI模型
APPLICATION

用GRPO算法训练医疗AI模型

大型语言模型(LLMs)与医疗保健的交叉点带来了令人兴奋的机会,但也带来了独特的挑战。在本教程中,我们将探讨如何使用分组相对策略优化(GRPO)——一种最近由DeepSeek团队引入的有前途的新强化学习技术——来适应阿里巴巴的Qwen-3B模型以用于医学推理。 为什么这很重要: 🏥 患者安全第一:医学AI中的幻觉可能是危险的。💡 领域专业化:通用LLMs难以处理临床推理。⚡ 效率:我们的3B参数模型可以在消费级GPU上运行。推理模型如O3和DeepSeek R1在许多具有挑战性的基准测试中显示了前所未有的改进。它们改变了监督微调的趋势,转向实际的强化学习(RL)。我们在深度学习领域的许多突破都来自RL,例如AlphaGo,因为模型能够通过与不同的现实场景互动来学习,而这些场景在监督微调中往往难以提供示例。 DeepSeek R1在几个关键基准上的表现[1]。如果你想了解更多关于推理模型或更多历史细节,我强烈推荐Maarten的文章[2]。DeepSeek工作的美妙之处在于他们实现了一个实用的框架,用于使用GRPO对LLM进行微调。根据Maarten的文章: 这个算法背后的直觉是,它使所有导致正确或错误答案的选择更可能或更不可能。这些选择可以是令牌集也可以是推理步骤。正如下面的图片所示:目标是激励模型生成响应,使其在正确的*和*块中以及我们能够轻松验证的最终正确答案中都能产生良好的结果(如数学问题)。 DeepSeek-R1-Zero使用的RL管道[2]好了,背景知识就到这里,让我们开始动手吧。本文使用的代码作为colab笔记本提供,你可以轻松地使用T4免费资源运行。

15个顶级LLMOps工具
TOOL

15个顶级LLMOps工具

我们已经不再局限于改进大型语言模型 (LLM),而是专注于使用它们来创建有助于企业的 AI 应用程序。这就是大型语言模型操作 (LLMOps) 工具发挥作用的地方,它简化了创建完全自动化系统的过程,用于构建和部署 LLM 解决方案投入生产。 在本文中,我们将介绍不同的工具,如 LLM API、微调框架、实验跟踪工具、LLM 集成生态系统、向量搜索工具、模型服务框架、部署平台和可观察性工具。每种工具都各有特色,旨在解决与 LLM 相关的特定问题。 1、什么是 LLMOps?LLMOps 是一个新兴领域,专注于生产环境中大型语言模型的运营管理。它本质上是专门针对语言和其他多模态模型的 MLOps(机器学习操作)。 LLMOps 涵盖大型语言模型的整个生命周期,包括数据收集、模型训练或微调、测试和验证、集成、部署、优化、监控和维护以及协作。通过构建项目和自动化流程,LLMOps 可帮助你减少错误并有效扩展 AI