爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

香港三天两夜...

不是谁弱谁有...

＂民营船王＂...

中东多个海水...

Here w...

海军四川舰顺...

恩里克：我们在23分钟内丢了3个球？那是对手球员的实力所致

陈思诚新作《10间敢死队》定档五一

日政坛震荡首相或换人石破茂一句话判高市早苗＂死刑＂

我用1秒成为陈妍希梦女，你也来试试吧

科瓦奇：本塞拜尼能出战奥格斯堡；迪朗维尔先去二队恢复体能

特朗普邀请普京加入和平委员会欧洲官员：实属荒唐

张元英又作大死？香港相关言论炸锅了

336万年薪请来的CEO，上任两个月就“失联”，高鑫零售的转型阵痛期

特斯拉陶琳：印度首批Model Y交付，全部来自特斯拉上海工厂

OpenMind 开源全球首个“AI 原生”机器人系统 OM1 Beta

马筱梅吐槽老公，称嫁到大陆鲜花都是粉丝送的，汪小菲只送过一次

赛力斯闯关港股但故事才刚刚开始

智元机器人回应赴港上市传闻：不实消息

杭州银行年薪252万副行长获提拔，行长空缺大半年后终于敲定

中航成飞：第三季度净利润12.56亿元同比增长170%

方程豹钛3拆车：情绪烘托到这份儿上，你会买单吗？

韩国最大军工企业爆炸已造成5人死亡

今年最流行的5条半裙，怎么搭都好看！

委内瑞拉先发制人战斗机开火美军进退两难特朗普难办

新鹏城豪取两连胜！7分领先保级在望，中超首胜三镇，连破4魔咒

NASA阿耳忒弥斯3号SLS火箭芯级启运，为明年发射铺路

埃里克：对上赛季4-3赢皇马印象最深；弗里克总会激励球队

《长安二十四计》惊天逆转：虎贲竟是好人？

酷睿Ultra X9处理器388H体验：电竞级核显，续航超持久