关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro768人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女子花费2000多元认养老虎 结果虎园隐瞒老虎死讯数月

大风新闻 浏览 31426

此前还有互殴和打队长,盖伊是第三个因打队友染红的英超球员

懂球帝 浏览 3207

刘嘉玲在2.6亿豪宅办跨年宴,28岁侄子首露面

情感大头说说 浏览 2861

荣梓杉出轨约妹照曝光!与李禹熹控诉时间吻合,还曾要求对方删照

萌神木木 浏览 3064

"1999年小朋友捐140元给国家造航母"热传 当事人发声

都市快报橙柿互动 浏览 7779

一年前“掐点”成立 多只基金无缘“翻倍基”

证券时报 浏览 4114

世体:霍安-加西亚恢复顺利,不排除入选本周末联赛大名单

懂球帝 浏览 3544

《红舞鞋》剧组被曝压榨群演!工作11小时仅70元,剧方还威胁学生

萌神木木 浏览 4015

2025年全球PC出货量近2.8亿台 笔记本超2.2亿台

快科技 浏览 2687

数十农民工被拖欠百万工钱 劳务公司:争取春节前兑付

大风新闻 浏览 5651

停不下来,肯扬-马丁继续怼追梦:没有库里和克莱你只是队内第12人

懂球帝 浏览 3189

苹果CEO库克上海两日行:看LABUBU,首次“直播带货”,直言“太爱中国人和中国文化”

澎湃新闻 浏览 3849

松岛辉空颁奖毫无喜色!世排升第8生涯新高 日球迷高呼比张本可靠

颜小白的篮球梦 浏览 3464

全国人大代表梁伟:用AI打通中国芯片弯道超车的 “任督二脉” | 代表在这里

封面新闻 浏览 1821

官方:利物浦签下15岁曼城青训门将阿尔菲-杜利

懂球帝 浏览 3943

辛纳晋级中网男单八强

体坛周报 浏览 4082

《逍遥》大结局:秉烛结束了红烨,肖瑶曾为妖王!

肆季娱乐 浏览 2810

日产全新中大型SUV曝光!配激光雷达+800V平台,增程/纯电双动力

小史谈车 浏览 3082

全是感动!《许我耀眼》33集大结局,是我今年看过最泪奔的大结局

娱乐圈笔娱君 浏览 3722

价值10万的皮肤“到手价”仅6000元?腾讯手游《金铲铲之战》“翻车”

国际金融报 浏览 2996

AI电力卷到太空了!Meta要在太空部署1000颗卫星以获取太阳能

智东西 浏览 504
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1