阿南达文事网
  • 首页
  • 文科汇编
  • 编程日记
首页 >  标签 >  为什么明明很准,奖励模型就是不work新研究准确度 is not
为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need

为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need

机器之心报道编辑:张倩、Panda训练狗时不仅要让它知对错,还要给予差异较大的、不同的奖励诱导,设计 RLHF 的奖励模型时也是一样。我们知道,一个 RLHF 算法是否成功的一大关键在于其奖励模型(RM)的质量。但是,我们应该如何衡量 RM

7小时前00
CopyRight © 2022 All Rights Reserved 阿南达文事网沪ICP备2024057019号-16 友情链接:范文网|IT编程|电脑技术