首个系统性工具使用奖励范式，ToolRL刷新大模型训练思路

首页
文科汇编
编程日记

首页 > 标签 > 首个系统性工具使用奖励范式，ToolRL刷新大模型训练思路

首个系统性工具使用奖励范式，ToolRL刷新大模型训练思路

首个系统性工具使用奖励范式，ToolRL刷新大模型训练思路

钱成目前是伊利诺伊大学香槟分校 (UIUC) 一年级博士生，导师为季姮教授。本科就读于清华大学，导师为刘知远教授。其工作集中在大语言模型工具使用与推理以及人工智能体方向。曾在 ACL，EMNLP，COLM，COLING，ICLR 等多个学术

9小时前00

CopyRight © 2022 All Rights Reserved 阿南达文事网沪ICP备2024057019号-16 友情链接：范文网|IT编程|电脑技术