关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro767人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

快看!!这个女演员近日暴瘦!!哦,知道了……

时尚COSMO 浏览 328

张雨绮风波持续发酵,曝多个商务被取消

扒虾侃娱 浏览 2528

新年第一周,省委书记密集提出新要求!

国是直通车 浏览 2618

王传君评论区沦陷!拿奖感谢白百何惹争议,被质疑内涵对方没有奖

萌神木木 浏览 3422

激光雷达上车 比亚迪新款海豹06EV申报图曝光

网易汽车 浏览 2681

女护士被同居男友杀害 家属:放弃赔偿希望判男方死刑

纵览新闻 浏览 14224

吴速玲曝儿子Joe是恋爱脑

韩小娱 浏览 2698

绿色+棕色,今年秋天最美配色!

LinkFashion 浏览 5613

锦缎观察:AI应用、储能与机器人在2026年的预期差

锦缎研究院 浏览 2658

跨境网赌大佬佘智江将被引渡回中国 被指曾参与KK投资

红星新闻 浏览 33330

配备3C快充 埃安AION i60预售11.98万起

网易汽车 浏览 3473

重回“ABB”,一汽奥迪逆势突破背后的“价值竞争”

桑之未 浏览 2569

她被推上C位,这次谁也没料到

Yuki女人故事 浏览 3146

普通人穿衣别太发愁,学会这些基础穿搭,舒适大方又省时间

静儿时尚达人 浏览 3686

吉利发布全域AI 2.0 千里浩瀚G-ASD全面进化

网易汽车 浏览 2754

8500万血亏?曼联新援0射门!单刀不射痛失绝杀+伤退致队少打1人

我爱英超 浏览 3456

机器人“扎堆”上春晚,谁将成为下一个“顶流”?

雷达财经 浏览 2365

合计亏超22亿元,牧原、温氏一季度双双转亏

中国基金报 浏览 752

62岁"石榴姐"在景区打工 曾饰演过不少"丑女"角色

红星新闻 浏览 7972

《红色电影录音机》背后的:花高片酬请来美国人

随申Hi 浏览 2776

“毛绒外套”今年冬天爆火,这样穿又暖又时髦!

LinkFashion 浏览 3254
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1