字节Seed团队PHD

编辑：杜伟最近，DeepSeek-R1 和 OpenAI o103 等推理大模型在后训练阶段探索了长度扩展（length scaling），通过强化学习（比如 PPO、GPRO）训练模型生成很长的推理链（CoT），并在奥数等高难度推理任务

9小时前00