关闭广告

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

机器之心Pro765人阅读

本文第一作者李梦琦为香港中文大学（深圳）计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作，并在香港中文大学（深圳）孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里，多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号，只使用模型自身生成的答案进行自训练，是否仍然能够提升推理能力？是的！SePT（Self-evolving Post-Training）给出肯定答案，简洁的自训练方法，可在数学推理任务准确率直升10个点！

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

杜克大学开创新型物联网控制语言，手机就能对话所有智能设备

科技行者浏览 3588

今年最时髦的穿法：长外套+长裤，太高级了！

LinkFashion 浏览 2230

裁判评议：海牛vs海港，裁判回看后取消海牛点球的决定正确

懂球帝浏览 3893

黄金价格走势疯狂，最牛概念股1年价格飙涨超500%

览富财经网浏览 2532

上市1月破发20%！“空调屠夫”奥克斯，对不起基石投资者

深蓝财经浏览 3768

切尔西本赛季英超已有10人取得进球，与阿森纳并列最多

懂球帝浏览 3732

朱媛媛去世后辛柏青首露正脸，眼神空洞憔悴

胡一舸南游y 浏览 3539

头部基金，争相申报巴西主题QDII！

券商中国浏览 3788

上海海港三场亚冠比赛仅拿1分，进1球丢6球

懂球帝浏览 3693

苹果彻查iPhone 17 Pro褪色：问题机型已被回收

快科技浏览 3658

俄大使：美袭击时委防空系统远程预警站通信出问题

参考消息浏览 2595

杨立昆、李飞飞等提出空间超感知范式，用预测未来代替暴力记忆

DeepTech深科技浏览 3321

格陵兰岛＂任何情况下都不接受美接管＂

新京报浏览 2661

丹麦赛石宇奇击败阿塞尔森进决赛

体坛周报浏览 3686

日本企业搞出“玫瑰香轮胎”

轮胎报官方浏览 2896

英超积分榜：热刺伯恩茅斯分列二、三狼队全败维拉西汉姆5轮3分

直播吧浏览 3851

男子网购＂山羊绒大衣＂实为绵羊毛起诉获赔卖家已去世

红星新闻浏览 12284

反转才不是「惊蛰无声」的最大看点

吐槽电影院浏览 1968

俄主动向美通报:核动力巡航导弹上天射程＂几乎无限＂

上观新闻浏览 9066

古偶大女主这碗饭，王鹤润吃得并不香

娱乐圈笔娱君浏览 508

2026年第一票房惨案诞生了

靠谱电影君浏览 2748

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

奔驰2026...

佘诗曼《正义...

孙红雷夫妇现...

小米、小鹏拿...

中马智库机构...

AI也能写学...

负债亏损盈利：三家央企新能源谁更胜一筹？

范戴克：我们不会忘记这样的结果，必须反思出了哪些问题

MIT最新发现：这十年，算法进步被高估了

杜克大学开创新型物联网控制语言，手机就能对话所有智能设备

今年最时髦的穿法：长外套+长裤，太高级了！

裁判评议：海牛vs海港，裁判回看后取消海牛点球的决定正确

黄金价格走势疯狂，最牛概念股1年价格飙涨超500%

上市1月破发20%！“空调屠夫”奥克斯，对不起基石投资者

切尔西本赛季英超已有10人取得进球，与阿森纳并列最多

朱媛媛去世后辛柏青首露正脸，眼神空洞憔悴

头部基金，争相申报巴西主题QDII！

上海海港三场亚冠比赛仅拿1分，进1球丢6球

苹果彻查iPhone 17 Pro褪色：问题机型已被回收

俄大使：美袭击时委防空系统远程预警站通信出问题

杨立昆、李飞飞等提出空间超感知范式，用预测未来代替暴力记忆

格陵兰岛＂任何情况下都不接受美接管＂

丹麦赛石宇奇击败阿塞尔森进决赛

日本企业搞出“玫瑰香轮胎”

英超积分榜：热刺伯恩茅斯分列二、三狼队全败维拉西汉姆5轮3分

男子网购＂山羊绒大衣＂实为绵羊毛起诉获赔卖家已去世

反转才不是「惊蛰无声」的最大看点

俄主动向美通报:核动力巡航导弹上天射程＂几乎无限＂

古偶大女主这碗饭，王鹤润吃得并不香

2026年第一票房惨案诞生了

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

奔驰2026...

佘诗曼《正义...

孙红雷夫妇现...

小米、小鹏拿...

中马智库机构...

AI也能写学...

负债亏损盈利：三家央企新能源谁更胜一筹？

范戴克：我们不会忘记这样的结果，必须反思出了哪些问题

MIT最新发现：这十年，算法进步被高估了

杜克大学开创新型物联网控制语言，手机就能对话所有智能设备

今年最时髦的穿法：长外套+长裤，太高级了！

裁判评议：海牛vs海港，裁判回看后取消海牛点球的决定正确

黄金价格走势疯狂，最牛概念股1年价格飙涨超500%

上市1月破发20%！“空调屠夫”奥克斯，对不起基石投资者

切尔西本赛季英超已有10人取得进球，与阿森纳并列最多

朱媛媛去世后辛柏青首露正脸，眼神空洞憔悴

头部基金，争相申报巴西主题QDII！

上海海港三场亚冠比赛仅拿1分，进1球丢6球

苹果彻查iPhone 17 Pro褪色：问题机型已被回收

俄大使：美袭击时 委防空系统远程预警站通信出问题

杨立昆、李飞飞等提出空间超感知范式，用预测未来代替暴力记忆

格陵兰岛＂任何情况下都不接受美接管＂

丹麦赛石宇奇击败阿塞尔森进决赛

日本企业搞出“玫瑰香轮胎”

英超积分榜：热刺伯恩茅斯分列二、三 狼队全败 维拉西汉姆5轮3分

男子网购＂山羊绒大衣＂实为绵羊毛起诉获赔 卖家已去世

反转才不是「惊蛰无声」的最大看点

俄主动向美通报:核动力巡航导弹上天 射程＂几乎无限＂

古偶大女主这碗饭，王鹤润吃得并不香

2026年第一票房惨案诞生了

俄大使：美袭击时委防空系统远程预警站通信出问题

英超积分榜：热刺伯恩茅斯分列二、三狼队全败维拉西汉姆5轮3分

男子网购＂山羊绒大衣＂实为绵羊毛起诉获赔卖家已去世

俄主动向美通报:核动力巡航导弹上天射程＂几乎无限＂