爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

连刷6集，这...

男子50多万...

张子宇加盟首...

“六小龙”齐...

文章近况曝光...

2025年首...

签下千亿锂电大单？容百科技，被证监会立案调查！

达成停火22天内仅有商定数量24%的卡车进入加沙

宝能姚振华实名举报，相关部门回应：举报不实，拍卖正常推进

德约科维奇发布退赛声明令人担忧，身体康复状况存疑

离婚四年后再看赵丽颖冯绍峰，答案早已一目了然

或2027年发布全新丰田凌放Harrier谍照曝光

＂1999年小朋友捐140元给国家造航母＂热传当事人发声

宋伊人新剧被传谣，是要逼人“剖腹取粉”吗？

任正非最新讲话：没有网络的算力是信息孤岛

美国微软公司：10月14日起Windows 10将“停服”

特朗普:格陵兰岛非常重要北约若离开了美国啥也不是

BBC两高管宣布辞职特朗普：他们试图＂介入总统选举＂

首败！76人无缘24分逆转1分惜败绿军恩比德丢绝杀布朗32+6

baby近照撞脸刘嘉玲，苹果肌下垂脸变僵，没了事业心近乎退圈

两场硬仗，一个拐点，蔚来穿越最长谷底

房贷年利率从3.8变8.7 客户还款5年才发现猫腻

阿森纳：是巨大的错失机会还是宝贵的一分？唯有时间能证明

迟蓬：65岁，我不急

好久没跟大家线下见面啦，快来找我玩

媒体：高市＂拜鬼＂同天允许出口杀伤性武器日本露獠牙

智元新增人形机器人生产订单超万台，具身本体路线还能卷多久？ | 独家

“万元定价”已成新趋势？人形机器人也打起了价格战

首富卷入惊天丑闻，妻子被瞒一无所知

天马推出高端 OLED 技术品牌“天马天工屏”