爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

83岁的何享...

售出3900...

西安街头邂逅...

限时售9.2...

39岁工人公...

辽宁98-8...

女子被堂妹邀请合伙做生意发现不对劲:我可是你姐姐啊

还得是她！杀疯了，也杀爽了！

时隔34年维京队再夺挪超冠军，球迷冲入球场内疯狂庆祝

福建一无人岛垃圾泛滥岛上有140万根玄武岩石柱群

8699元学习机成“大板砖”！维修要2499元，家长：交了智商税

丹麦尴尬：抵制美国代价高昂却眼睁睁看着格陵兰离开

阿隆索：西超杯没那么重要

泽连斯基新年致辞：我们不要“乌克兰的终结”

美联储的“十字路口”

陈乔恩带老公和父母聚餐，Alan负责拍照

集微咨询发布《2025中国半导体后道设备行业上市公司研究报告》

东北大学团队突破人类移动预测难题：让AI像人类一样理解出行规律

以色列宣布：将扣押的数百名活动人士驱逐出境

东体：300名盐城球迷为海港加油，多位海港梯队球员为盐城队效力

32岁黄子韬径山寺祈福，生图脸肿嘴黑金发毛躁，走路抻脖毫无星味

东部第一！活塞双杀步行者13连胜平队史纪录坎宁安24+11+6

美媒：日本欲采购攻击型核潜艇标志一个重大战略转变

5公里盘山路超1000米落差！小鹏GX挑战东川49道拐一把过

大普微浸没式液冷版蛟容5企业级固态硬盘实现正式应用落地

马斯切拉诺：我对穆勒的记忆并不美好；希望运气在我们这边

楊千嬅开live老公乱入因一事说离婚

高端海鲜“老炮儿”，开始扎堆做小火锅

以军称打死哈马斯武器装备部门负责人

深圳水贝“杰我睿”最新进展：有消费者收到兑付方案，20g黄金+9000多元余额，兑付本金4856元