RL - Software 2.0 - 汇智网

Tagged

RL

A collection of 2 posts

推理模型的训练：从原理到实践

我们采用了一个微小的 0.5B 参数模型，在我们的家庭实验室中向它投入了一些 GRPO，并设法教会它一些相当不错的推理技能。

强化学习新手指南

如果你曾经对机器如何学习玩视频游戏、驾驶自动驾驶汽车或优化商业策略感到着迷，那强化学习就是解锁这些可能性的关键。