当前位置：首页 >新媒易动态 >视频号购买

当新赛道挤满了摩拳擦掌的选手，场边的裁判员也应运而生

2023-07-26

当新赛道挤满了摩拳擦掌的选手，场边的裁判员也应运而生。

内容显现，截至5月28日，国内10亿级参数规模以上基础大模型至少已发布79个。

每一个亮相时，都少不了“职业领先”“技能革新”诸如此类的标签。不免引来质疑：如何直观地评判哪一款大模型在技能和性能上更为杰出？那些宣称“榜首”的评价规范与数据来历又是怎样的？

一把衡量不同模型效能基准的“尺子”亟待打造。

前不久，国际咨询公司IDC发布《AI大模型技能能力评价陈述2023》，调研了9家我国市场干流大模型技能厂商。其他不少研讨机构和团队也投入资源，发布了对应的点评规范和深度陈述。

这背面所显露的现象和趋势，更值得深层次的讨论。

一、评测基准百家争鸣

ChatGPT 带火了大模型使用的相关研讨，评测基准亦成为关注焦点所在。

日前，微软亚洲研讨院公开了介绍大模型评测领域的总述文章《A Survey on Evaluation of Large Language Models》。

依据不完全统计（见下图），大模型评测方面文章的宣布呈上升趋势，越来越多的研讨着眼于设计更科学、更好衡量、更精确的评测方法来对大模型的能力进行更深入的了解。

文中总共列出了19个受欢迎的基准测验，每个都侧重于不同的方面和评价规范，为其各自的领域提供了名贵的奉献。

为了更好地总结，研讨员将这些基准测验分为两类：通用基准（General benchmarks）和具体基准（Specific benchmarks），其间不乏一些深具盛名的大模型基准。

Chatbot Arena，就被职业人士遍及认为是最具公平性与广泛接受度的渠道。其背面的推手——LMSYS Org，是一个敞开的研讨安排，由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立。

这个立异性的评价规范，为各大AI研讨机构与技能爱好者，提供了一个既共同又具有激烈竞争力的场所，专门用于点评和比对不同谈天机器人模型的实践使用作用。

用户能够与其间的匿名模型进行实时互动，然后经过在线投票体系表达他们对于某一模型的满意度或喜爱。