Software 2.0
  • 首页
  • AI应用
  • AI开发包
  • AI数据集
  • AI模型库
  • AI工具箱
  • 在线课程
  • 自学指南
Subscribe
Tagged

RL

A collection of 2 posts

推理模型的训练:从原理到实践
MODEL-ZOO

推理模型的训练:从原理到实践

我们采用了一个微小的 0.5B 参数模型,在我们的家庭实验室中向它投入了一些 GRPO,并设法教会它一些相当不错的推理技能。

admin Feb 10, 2025 • 15 min read
强化学习新手指南
RL

强化学习新手指南

如果你曾经对机器如何学习玩视频游戏、驾驶自动驾驶汽车或优化商业策略感到着迷,那强化学习就是解锁这些可能性的关键。

admin Feb 9, 2025 • 26 min read
Software 2.0 © 2025
Powered by Ghost