爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

50万往上的...

马斯克宣布X...

强生爽身粉致...

28亿次播放...

新兴市场套利...

彻底对标苹果...

推广中奖名单-更新至2025年12月19日推广

跨境网赌大佬佘智江将被引渡回中国被指曾参与KK投资

巨人网络80后CEO张栋辞职前任刘伟再掌舵

中国最北端宜家即将闭店东三省仅剩辽宁有宜家可逛

汕小伙5000元创业，如今3家工厂10家店，“睡地板也要当老板”

剖析一路繁花2：何赛飞心不坏只是太真实，真正精明的另有其人

兴业银行大连分行多人被罚，不久前才吃了470万元罚单

今日热点：《闪灵》今日上映；保险公司确认金晨方曾放弃索赔……

再见美拉德，今年流行的“新高智风”时髦又高级！

爱泼斯坦案最新文件公布有记录显示来电人为特朗普

瓜帅：我确信塞门约很出色；进10球表明了我们对对手的尊重

德科：C罗是我见过最谦逊的人，他和梅西是不同类型的天才

白宫又爆丑闻：为特朗普老婆拍片烧7500万

每体：球打到巴萨球员手臂就会判点；轮到皇马就要“解读”

司晓迪怒斥周奇脚踏两条船，近期还约她见面，网友喊话向涵之快跑

记者：詹姆斯复出后将湖人的快攻水平从倒数后5提升到正数前5

从北京到平壤的火车线路被指将于周四开通外交部回应

兰帕德有能，考文垂队史首次取得单赛季联赛六连胜

马德里竞技，贝蒂斯国王杯四分之一决赛对手

云拒科技推出Yunjue Agent：能够从零开始自我进化的助手系统

超70亿独角兽“原地解散”，无人车赛道却将爆发？

香港重磅活动，17日盛大开启！

揭秘广州男篮打NBA季前赛：获马刺快船森林狼邀请还能赚出场费

2月19日正式发布全新奥迪RS 5预告图曝光