揭秘DeepSeek R1

机器之心报道机器之心编辑部其实大模型在DeepSeek-V3时期就已经「顿悟」了？DeepSeek-V3-Base 在强化学习（RL）调优之前就已经展现出「顿悟时刻」？RL 调整中不断增加的输出长度可能是由于 GRPO 中的 BIAS 造成

7小时前10