APPLICATION 用GRPO算法训练医疗AI模型 大型语言模型(LLMs)与医疗保健的交叉点带来了令人兴奋的机会,但也带来了独特的挑战。在本教程中,我们将探讨如何使用分组相对策略优化(GRPO)——一种最近由DeepSeek团队引入的有前途的新强化学习技术——来适应阿里巴巴的Qwen-3B模型以用于医学推理。 为什么这很重要: 🏥 患者安全第一:医学AI中的幻觉可能是危险的。💡 领域专业化:通用LLMs难以处理临床推理。⚡ 效率:我们的3B参数模型可以在消费级GPU上运行。推理模型如O3和DeepSeek R1在许多具有挑战性的基准测试中显示了前所未有的改进。它们改变了监督微调的趋势,转向实际的强化学习(RL)。我们在深度学习领域的许多突破都来自RL,例如AlphaGo,因为模型能够通过与不同的现实场景互动来学习,而这些场景在监督微调中往往难以提供示例。 DeepSeek R1在几个关键基准上的表现[1]。如果你想了解更多关于推理模型或更多历史细节,我强烈推荐Maarten的文章[2]。DeepSeek工作的美妙之处在于他们实现了一个实用的框架,用于使用GRPO对LLM进行微调。根据Maarten的文章: 这个算法背后的直觉是,它使所有导致正确或错误答案的选择更可能或更不可能。这些选择可以是令牌集也可以是推理步骤。正如下面的图片所示:目标是激励模型生成响应,使其在正确的*和*块中以及我们能够轻松验证的最终正确答案中都能产生良好的结果(如数学问题)。 DeepSeek-R1-Zero使用的RL管道[2]好了,背景知识就到这里,让我们开始动手吧。本文使用的代码作为colab笔记本提供,你可以轻松地使用T4免费资源运行。
APPLICATION DeepSeek R1驱动的PDF机器人 本指南将引导你使用DeepSeek R1 + RAG构建一个功能性的PDF聊天机器人。逐步学习如何增强AI检索能力,并创建一个能够高效处理和响应文档查询的智能聊天机器人。
APPLICATION DeepSeek API+SearXNG联网搜索 在这篇文章中,我将提供一个快速概述,说明如何使用开源的DeepSeek R1模型和SearXNG搜索引擎在本地搭建一个能够进行网络搜索的聊天机器人。
APPLICATION 金融分析多智能体系统 当我们构建QuantJourney时——这是为零售投资者和量化分析师提供的最全面框架时,我们相信投资者需要上下文感知的基于GPT的可适应系统,而不仅仅是提供原始数据。
APPLICATION AI驱动的投资平台 当我更深入地进入投资世界时,我发现了一个改变游戏规则的东西:像Gemini和ChatGPT这样的AI工具。突然间,我可以比以往任何时候都更高效地进行深入的定性和定量研究。
APPLICATION DeepSeek AI驱动的ReAct代理 在这篇文章中,我将引导你如何在Vertex AI端点上部署DeepSeek模型并使用Langchain构建ReAct Agent,以便你可以评估其性能。
APPLICATION 在.Net应用中集成DeepSeek-R1 本文将引导你了解如何在 GitHub Models 上将 Microsoft.Extensions.AI (MEAI) 库与 DeepSeek R1 结合使用,以便你今天就可以开始尝试使用 R1 模型。