仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-306
请扫码咨询

新媒易动态

NEWS CENTER

当新赛道挤满了摩拳擦掌的选手,场边的裁判员也应运而生

2023-07-26

当新赛道挤满了摩拳擦掌的选手,场边的裁判员也应运而生。

内容显现,截至5月28日,国内10亿级参数规模以上基础大模型至少已发布79个。

每一个亮相时,都少不了“职业领先”“技能革新”诸如此类的标签。不免引来质疑:如何直观地评判哪一款大模型在技能和性能上更为杰出?那些宣称“榜首”的评价规范与数据来历又是怎样的?

一把衡量不同模型效能基准的“尺子”亟待打造。

前不久,国际咨询公司IDC发布《AI大模型技能能力评价陈述2023》,调研了9家我国市场干流大模型技能厂商。其他不少研讨机构和团队也投入资源,发布了对应的点评规范和深度陈述。

这背面所显露的现象和趋势,更值得深层次的讨论。

一、评测基准百家争鸣

ChatGPT 带火了大模型使用的相关研讨,评测基准亦成为关注焦点所在。

日前,微软亚洲研讨院公开了介绍大模型评测领域的总述文章《A Survey on Evaluation of Large Language Models》。

依据不完全统计(见下图),大模型评测方面文章的宣布呈上升趋势,越来越多的研讨着眼于设计更科学、更好衡量、更精确的评测方法来对大模型的能力进行更深入的了解。


文中总共列出了19个受欢迎的基准测验,每个都侧重于不同的方面和评价规范,为其各自的领域提供了名贵的奉献。

为了更好地总结,研讨员将这些基准测验分为两类:通用基准(General benchmarks)和具体基准(Specific benchmarks),其间不乏一些深具盛名的大模型基准。


Chatbot Arena,就被职业人士遍及认为是最具公平性与广泛接受度的渠道。其背面的推手——LMSYS Org,是一个敞开的研讨安排,由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立。

这个立异性的评价规范,为各大AI研讨机构与技能爱好者,提供了一个既共同又具有激烈竞争力的场所,专门用于点评和比对不同谈天机器人模型的实践使用作用。

用户能够与其间的匿名模型进行实时互动,然后经过在线投票体系表达他们对于某一模型的满意度或喜爱。


相关推荐