强化学习微调(ReFT)来了,AI不再只是“记住答案”!
在为期12天的OpenAI活动中,第二天发布了一项名为“强化学习微调”(Reinforcement Fine-Tuning, ReFT)的技术。这一方法不同于传统的监督微调(SFT),不仅仅是让模型“记住答案”,而是通过高质量的任务数据与参
3小时前10
在为期12天的OpenAI活动中,第二天发布了一项名为“强化学习微调”(Reinforcement Fine-Tuning, ReFT)的技术。这一方法不同于传统的监督微调(SFT),不仅仅是让模型“记住答案”,而是通过高质量的任务数据与参