中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理
本文第一作者为邓慧琳,中国科学技术大学硕博连读四年级,研究方向为多模态模型视觉理解、推理增强(R1强化学习)、异常检测。在TAI、TASE、ICCV等期刊和顶会发表论文。近年来,随着大型语言模型(LLMs)的快速发展,多模态理解领域取得了前
5小时前00
本文第一作者为邓慧琳,中国科学技术大学硕博连读四年级,研究方向为多模态模型视觉理解、推理增强(R1强化学习)、异常检测。在TAI、TASE、ICCV等期刊和顶会发表论文。近年来,随着大型语言模型(LLMs)的快速发展,多模态理解领域取得了前