爆点资讯

当我们训练人工智能写代码或解数学题时，就像教小孩做作业一样，需要给它很多练习题。但问题来了：有些题目太简单，AI一下就会了；有些题目太难，AI怎么也学不会。更麻烦的是，按照传统方法，不管题目难易，我们都给每道题分配同样的练习时间和次数。这就像让学霸和学渣都花同样时间做同一套题——既浪费了学霸的时间，也帮不到学渣。

来自伊利诺伊大学香槟分校、微软研究院和阿姆斯特丹大学的研究团队，在2025年10月发表了一项名为"Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training"的研究。这项研究就像给AI学习装上了"智能调节器"，让它能够根据题目难度自动分配练习时间，既不浪费计算资源，又能确保每道题都学得扎实。

研究团队的核心发现是：当前主流的AI训练方法GRPO（组相对策略优化）存在一个严重问题——当AI对某道题的所有尝试都得到相同结果时（要么全对要么全错），系统就收不到有用的学习信号，就像老师看到学生交上来的作业要么全是满分要么全是零分，无法判断学生的真实水平。

为了解决这个问

AI让机器写代码变得更聪明：伊利诺伊大学团队破解训练瓶颈新方法

高市早苗再有...

从0比5巴西...

冲着陈晓去看...

中国公民需谨...

科贝：卡尼萨...

OPPO F...

智元新一代机器人精灵G2已获数亿元订单，并开启首批商用交付

视帝扛起大旗，终于有90后当主角的年代剧了

长城魏牌9年8换CEO，哈弗总经理赵永坡接任冯复之

上年纪的女人买“裤子”，不妨按照这3个原则试试，显瘦时髦

砸1亿元跨界，百亿巨头老板电器杀入机器人赛道

这些才是最接地气的日常穿搭！多穿衬衫、腰线明显，舒适显瘦

特朗普：乌克兰无牌可打错过解决俄乌问题的最佳时机

卫星互联网低轨 12 组卫星发射成功，长征系列火箭 600 次里程碑

1499元飞天茅台上线“秒空”，茅台金融属性退潮是伪命题吗？

她一夜爆火，成了年度互联网嘴替

西班牙足协主席：我们会充分照顾球员利益，俱乐部可以放心

委反对派领导人把自己的诺贝尔和平奖赠予特朗普

小鹏汽车正式登陆卡塔尔多款产品亮相

华为“三界”入局高端MPV混战白热化

中佛罗里达大学破解仿真优化难题：让计算机在噪声中找到最优解

英国教授来中国考察被震撼：堪称人类史上最伟大功绩

租客死亡4年后房东以＂房屋贬值＂把中介告了法院判了

新势力洗牌激烈：零跑、华为双雄争霸方程豹斗败“蔚小理”

韩华航空航天公司与挪威签署9.22亿美元火箭发射器供应合同

特朗普称与伊朗或在“一周内”达成协议

Windows 10，即将“停服”

男子驾车撞死一家三口获死缓被害人家属递交抗诉申请

小S二女儿疑曝出恋情，在墨尔本和一男子游玩

任泽平发声回应但斌“认错”：理性讨论比对错更重要