首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路

首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路

钱成目前是伊利诺伊大学香槟分校 (UIUC) 一年级博士生,导师为季姮教授。本科就读于清华大学,导师为刘知远教授。其工作集中在大语言模型工具使用与推理以及人工智能体方向。曾在 ACL,EMNLP,COLM,COLING,ICLR 等多个学术

9小时前00