关闭广告

o1之后下一个范式?隐式CoT大突破,让推理不再「碎碎念」

机器之心Pro1453人阅读



魏熙林为本篇文章第一作者。魏熙林是复旦大学博士生,师从林达华教授,研究兴趣主要集中在 multi-modal LLMs 和 efficient AI。目前在上海人工智能实验室实习,指导 mentor 是臧宇航、王佳琦。

今天推荐一个 Implicit Chain-of-Thought(隐式推理) 的最新进展 ——SIM-CoT(Supervised Implicit Chain-of-Thought)。它直击隐式 CoT 一直「扶不起来」的核心痛点:隐式 token 一旦 scale 上去,训练就容易塌缩到同质化的 latent 状态,推理语义直接丢失。

SIM-CoT 的关键招式是一个 plug-and-play 的 step-level 监督模块:训练时用辅助解码器把每个 latent token「拉回」到可对齐的推理步骤上,既稳住优化、避免 collapse,又让隐式推理第一次真正可解释 —— 你甚至能把每个 latent token 解码成人类可读的中间推理步骤。

更爽的是:推理阶段零额外开销(辅助解码器训练完就丢),但效果却很猛:在 GPT-2 上相

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

凯斯因病退赛,小米辣放弃泼天富贵,压力娃登场即可稳拿百万巨奖

网球之家 浏览 2524

姆巴佩已完成职业生涯400球,为最年轻达成此成就球员

懂球帝 浏览 2143

胡润榜财富增长较快的雷军李书福,每分钟净赚37万和15万?

BT财经 浏览 2561

我国最“不靠谱”专家,公开在央视“忽悠”人

来科点谱 浏览 1648

英伟达向CoreWeave追加投资20亿美元,首推独立CPU芯片

华尔街见闻官方 浏览 1521

争夺女性用户,李想抢不过雷军

字母榜 浏览 2832

上海贵酒遭遇釜底抽薪

斑马消费 浏览 2933

对话比亚迪路天:王朝的真正对手 是"未来的自己"

网易汽车 浏览 2355

REDMI K90 Pro Max 可与 iPhone / 小米 17 Pro Max 通用钢化膜

IT之家 浏览 2697

以军称已有87万巴勒斯坦人从加沙城撤离

环球网资讯 浏览 2801

专家:高市早苗收敛了一贯对华强硬的鹰派色彩

北京日报客户端 浏览 13428

不在乎中国市场?全智贤方风波后仍未道歉,昔日傲慢模样全被扒

扒虾侃娱 浏览 3427

李书福罕见发声,吉利豪掷20亿“苦练安全内功”

华山论剑 浏览 2141

蓝军太难黑猫太黑!切尔西一周内两张脸

体坛周报 浏览 2685

蜜雪冰城开到公交站乘车享折扣 执法局的人却上门了

每日经济新闻 浏览 32665

租电版本售15.79万 乐道L60紫罗兰限定版上市

网易汽车 浏览 1944

智能座舱也能“深度思考”?荣威M7 DMH做到了

IT之家 浏览 2552

《逍遥》最大谜团:村民献祭妹妹给树妖,为何秉烛只恨妖不恨人?

肆季娱乐 浏览 1794

曝窦骁婚变原因!何超莲曾怀孕又流产,相关照片被扒女方变化明显

萌神木木 浏览 2754

亲善大使!大加转发阿贾当选MVP内容:4xMVP 继续创造历史吧!

直播吧 浏览 2979

天马推出高端 OLED 技术品牌“天马天工屏”

IT之家 浏览 3555
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1