使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独
选自hrishbh作者:Hrishbh Dalal编译:Panda、蛋酱没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗?近日,技术博主 Hrishbh Dalal 的实践表明,这个问题的答案是肯定的。并且他在这个过程中用到
1天前20
选自hrishbh作者:Hrishbh Dalal编译:Panda、蛋酱没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗?近日,技术博主 Hrishbh Dalal 的实践表明,这个问题的答案是肯定的。并且他在这个过程中用到