关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012528人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊朗最高领袖哈梅内伊转入地堡 日常事务交由儿子接管

极目新闻 浏览 6052

郭晶晶白天带孩子爬山,晚上在大学演讲

小娱乐悠悠 浏览 565

哈马斯同意“20点计划”提议:释放所有以色列人质

央视新闻客户端 浏览 2954

大带宽+低时延!F5G如何撑起城域“毫秒用算”?

览富财经网 浏览 2779

力鸿一号未来技术成熟后,可提供亚轨道太空旅游服务

IT之家 浏览 1761

重兵压境与谈判信号并行 美国“极限施压”究竟想要什么

国际在线 浏览 1474

台北袭击案行凶者被造谣是"大陆籍" 蒋万安驳斥

看看新闻Knews 浏览 13182

年薪180万!众泰汽车副总裁被罢免

经理人杂志 浏览 3011

巴列卡诺2-1马略卡,帕拉松点射、德弗鲁托斯破门

懂球帝 浏览 1665

联合国特使就也门问题与胡塞武装及阿曼官员会谈

国际在线 浏览 1759

华南理工大学发生车祸致1死1伤 目击者:车头明显受损

封面新闻 浏览 36281

以总理办公室:内塔尼亚胡28日将启程访美

上观新闻 浏览 1512

张凯丽34岁嫁给作家,偏偏生了个不省心的女儿?

娱乐看阿敞 浏览 2614

记者:阿布拉汗应该是河南第一签,阿奇姆彭难留

懂球帝 浏览 1771

降入20万价格区间 曝廉价版特斯拉即将国产

车质网 浏览 2850

于晓光做梦没想到,李在明访华秋瓷炫竟火出圈

草莓解说体育 浏览 1652

弗里克:相信阿隆索会有新工作;坎塞洛明天有可能上

懂球帝 浏览 1707

2名以方被扣押人员失联 卡桑旅要求以军暂停空袭24小时

极目新闻 浏览 3314

搭上芯片“黑马”新凯来的光伏龙头,高管集体减持,股价大跌超7%

红星资本局 浏览 2793

全球21队已锁定2026世界杯资格,阿根廷、巴西、日本、韩国在列

懂球帝 浏览 2865

2026春夏八大流行趋势

LinkFashion 浏览 1447
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1