关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者4228人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

德约科维奇发布退赛声明令人担忧,身体康复状况存疑

网球之家 浏览 3366

离婚四年后再看赵丽颖冯绍峰,答案早已一目了然

手工制作阿歼 浏览 4050

或2027年发布 全新丰田凌放Harrier谍照曝光

车质网 浏览 3457

"1999年小朋友捐140元给国家造航母"热传 当事人发声

都市快报橙柿互动 浏览 8429

宋伊人新剧被传谣,是要逼人“剖腹取粉”吗?

麻辣婊 浏览 3658

任正非最新讲话:没有网络的算力是信息孤岛

澎湃新闻 浏览 3663

美国微软公司:10月14日起Windows 10将“停服”

财闻 浏览 4322

特朗普:格陵兰岛非常重要 北约若离开了美国啥也不是

澎湃新闻 浏览 12909

BBC两高管宣布辞职 特朗普:他们试图"介入总统选举"

红星新闻 浏览 9151

首败!76人无缘24分逆转1分惜败绿军 恩比德丢绝杀布朗32+6

醉卧浮生 浏览 4193

baby近照撞脸刘嘉玲,苹果肌下垂脸变僵,没了事业心近乎退圈

萌神木木 浏览 3882

两场硬仗,一个拐点,蔚来穿越最长谷底

雪豹财经社 浏览 4238

房贷年利率从3.8变8.7 客户还款5年才发现猫腻

南京零距离 浏览 57521

阿森纳:是巨大的错失机会还是宝贵的一分?唯有时间能证明

绿茵情报局 浏览 3249

迟蓬:65岁,我不急

时尚COSMO 浏览 6504

好久没跟大家线下见面啦,快来找我玩

黎贝卡的异想世界 浏览 3014

媒体:高市"拜鬼"同天允许出口杀伤性武器 日本露獠牙

国是直通车 浏览 36130

智元新增人形机器人生产订单超万台,具身本体路线还能卷多久? | 独家

钛媒体APP 浏览 1296

“万元定价”已成新趋势?人形机器人也打起了价格战

澎湃新闻 浏览 4318

首富卷入惊天丑闻,妻子被瞒一无所知

Yuki女人故事 浏览 3095

天马推出高端 OLED 技术品牌“天马天工屏”

IT之家 浏览 5108
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1