关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2674人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

米体:尤文愿承担恩-内斯里400万欧年薪,奥托利尼已到土耳其

懂球帝 浏览 1596

刚说淘汰中国激光雷达,最后希望的 Luminar 就破产了?

差评XPIN 浏览 1990

企业在自然保护区建研学机构烂尾7年 致百亩农田荒废

封面新闻 浏览 7761

对话Memories.ai:“人的记忆本质上是视觉,AI也该如此”

硅星人 浏览 2329

《风林火山》亏了4.2亿,古天乐终于拿出这部藏了6年的动作大片

靠谱电影君 浏览 2799

依旧神仙打架!沈腾吴京易烊千玺齐聚春节档

梦小娱 浏览 1669

中秋节快乐!

黎贝卡的异想世界 浏览 2374

不止镜头、手柄,OPPO 推出“行业首款”哈苏专业磁吸闪补光环灯

IT之家 浏览 2736

全球最大稳定币遭质疑 标普将评级降至“最差一档”

财联社 浏览 2271

《我的山与海》遭受痛批,年代剧要的是接地气

娱乐圈笔娱君 浏览 739

转战舞池,前意大利网球名将弗格尼尼斩获《与星共舞》冠军

懂球帝 浏览 2641

女人不管多大都可以这样穿衣搭配,不花哨、不臃肿,优雅舒适

静儿时尚达人 浏览 2341

曝杨威与儿子失联!杨阳洋父母情绪崩溃

有趣的胡侃 浏览 2462

从素人到涨粉30万,她全靠这些穿搭“小心思”?

黎贝卡的异想世界 浏览 705

单刀打空门!47岁德罗巴再现经典:滑跪庆祝 三道杠只剩两条

叶青足球世界 浏览 2844

这样的“恶女”人设,真太爽了!

伊周潮流 浏览 2444

聚辰半导体冲刺港股:9个月营收9.3亿利润3.1亿陈作涛控制24%股权

雷递 浏览 1600

每体:老佛爷想立即解雇阿隆索,但身边人士说服他不让其下课

懂球帝 浏览 2043

巴勒斯坦多派别谴责以方持续违反停火协议

国际在线 浏览 1457

2号种子险爆冷!张本智和打满5局逆转日本悍将,8强战约战勒布伦

乒谈 浏览 2698

重新定义边界,吉利全域安全进入 2.0 时代

网易汽车 浏览 2077
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1