字节Seed团队PHD
编辑:杜伟最近,DeepSeek-R1 和 OpenAI o103 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务
9小时前00
编辑:杜伟最近,DeepSeek-R1 和 OpenAI o103 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务