爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

E句话| 恭...

特雷·扬和老...

海底捞小便案...

范明与妻子庆...

曝英特尔、A...

美军测试“一...

美军：不会容忍伊朗在军演中的“不安全行为”

数字孪生+AI智能体技术突破，新思科技重塑芯片设计

比亚迪明星高管赵长江确认离职，已在比亚迪工作16年

地点未定摩擦又起美伊核谈判开启前变数频生

奔驰小G谍照，或搭混动或燃油动力

足球报：海牛资金有困难，但追加奖金第一时间就发到球队手中

张泉灵硬核督战，CEO当场跑路，万千惠真的被做局了？

都在等金银开盘！洪灏：坚定看多长期价值，招行：调整继续，但能到6500

潘江：大家的思想包袱还是太重，希望奈特能保持这样的状态

AI狂热不敌冷峻现实：企业下调AI代理预期，实现全自动化仍需数年时间

广东移动发布三大提速行动，开启“算力即服务”新时代

曼联传奇警告梅努绝不能租借离队

科技巨头再投500亿瞄准这个赛道

镁信健康将亮相第八届进博会，发布三大产业级AI应用方案｜进距离

四名日本U17国脚在阿贾克斯试训，并与富安健洋、板仓滉合影

奖金1.5万元，破赛事新纪录，张水华拿下2026年第一个冠军

美股三大指数收盘齐创新高，英特尔涨超22%

量产版明年上市 AUDI E SUV概念车亮相

相伴25年，76岁张艺谋尽显沧桑，44岁陈婷仍年轻

东升西降？拆解全球车企三季报，中国车企业绩更稳

三瑞智能实控人一股独大，国泰海通前员工火速入职，子公司与大客户疑似“隐秘关联”|读懂IPO

剑指关键矿产，美牵头多国签署《硅和平宣言》

看到洪水冲毁花莲桥梁大声讪笑台官员被批＂冷血＂

刘强东“10年1元年薪”之约到期，律师解构高净值人群如何妥善处理财产