刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
机器之心报道机器之心编辑部一种全新的学习方法。这会是 DeepSeek R2 的雏形吗?本周五,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。当前,强化学习(RL)已广泛应用于大语言模型(LLM)的后期训练。最
7小时前10
机器之心报道机器之心编辑部一种全新的学习方法。这会是 DeepSeek R2 的雏形吗?本周五,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。当前,强化学习(RL)已广泛应用于大语言模型(LLM)的后期训练。最