关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2682人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

苏永康被曝出轨!劣迹太多网友呼吁封杀?

萌神木木 浏览 2415

巩俐的前夫是圈外高级打工人,75岁在新加坡养老

白面书誏 浏览 2733

美媒承认:乌重镇即将被攻克

环球时报国际 浏览 2544

斯卡洛尼:如果处理得更好比赛早结束了;我想尝试532阵型

懂球帝 浏览 2777

沪电股份:前三季度净利润同比增长47.03%

网易财经 浏览 2631

企业在自然保护区建研学机构烂尾7年 致百亩农田荒废

封面新闻 浏览 7774

特朗普:达不成协议 哈马斯将遭“彻底消灭”

环球时报新闻 浏览 2770

穆里尼奥明确回应重返皇马传闻:别把我算进这场肥皂剧里

懂球帝 浏览 1677

台学者:台当局不办光复节活动 人民无法接受

环球时报新闻 浏览 8220

郭富城夫妇合体看赛马,透露三胎预产期

疯说时尚 浏览 2797

全球牛肉“通胀”,中国市场价格为何“独稳”

北京商报 浏览 2512

双节假日即将拉开序幕:酒店民宿预订率均超去年,第一批拼假游客已抵达酒店

澎湃新闻 浏览 3268

特朗普按下葫芦亲自去浮瓢:巴以未了结 俄乌又点炮

新民晚报 浏览 6253

2025年,记住她们的名字!

时尚COSMO 浏览 1429

辛纳晋级中网男单八强

体坛周报 浏览 3201

北京自闭症男童苍山走失身亡 父亲1周7天扎在单位加班

红星新闻 浏览 7589

威少:梦想打橄榄球的我从未想过能有如今成就,希望我能激励到其他人

懂球帝 浏览 1949

照赫本这样穿,灰色很时髦!

Yuki女人故事 浏览 1677

东方港湾董事长但斌:致敬白酒投资者,这两年其他的人都吃香的喝辣的

红星资本局 浏览 2064

每秒可传 1250 万部高清电影,亚马逊启动跨大西洋海底光缆项目

IT之家 浏览 2538

外媒聚焦中国“最强航母”:看得清清楚楚 很冲击了

观察者网 浏览 6746
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1