关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro765人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

杜克大学开创新型物联网控制语言,手机就能对话所有智能设备

科技行者 浏览 3588

今年最时髦的穿法:长外套+长裤,太高级了!

LinkFashion 浏览 2230

裁判评议:海牛vs海港,裁判回看后取消海牛点球的决定正确

懂球帝 浏览 3893

黄金价格走势疯狂,最牛概念股1年价格飙涨超500%

览富财经网 浏览 2532

上市1月破发20%!“空调屠夫”奥克斯,对不起基石投资者

深蓝财经 浏览 3768

切尔西本赛季英超已有10人取得进球,与阿森纳并列最多

懂球帝 浏览 3732

朱媛媛去世后辛柏青首露正脸,眼神空洞憔悴

胡一舸南游y 浏览 3539

头部基金,争相申报巴西主题QDII!

券商中国 浏览 3788

上海海港三场亚冠比赛仅拿1分,进1球丢6球

懂球帝 浏览 3693

苹果彻查iPhone 17 Pro褪色:问题机型已被回收

快科技 浏览 3658

俄大使:美袭击时 委防空系统远程预警站通信出问题

参考消息 浏览 2595

杨立昆、李飞飞等提出空间超感知范式,用预测未来代替暴力记忆

DeepTech深科技 浏览 3321

格陵兰岛"任何情况下都不接受美接管"

新京报 浏览 2661

丹麦赛石宇奇击败阿塞尔森进决赛

体坛周报 浏览 3686

日本企业搞出“玫瑰香轮胎”

轮胎报官方 浏览 2896

英超积分榜:热刺伯恩茅斯分列二、三 狼队全败 维拉西汉姆5轮3分

直播吧 浏览 3851

男子网购"山羊绒大衣"实为绵羊毛起诉获赔 卖家已去世

红星新闻 浏览 12284

反转才不是「惊蛰无声」的最大看点

吐槽电影院 浏览 1968

俄主动向美通报:核动力巡航导弹上天 射程"几乎无限"

上观新闻 浏览 9066

古偶大女主这碗饭,王鹤润吃得并不香

娱乐圈笔娱君 浏览 508

2026年第一票房惨案诞生了

靠谱电影君 浏览 2748
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1