新媒易动态
NEWS CENTER
NEWS CENTER
2023-07-26
当新赛道挤满了摩拳擦掌的选手,场边的裁判员也应运而生。
内容显现,截至5月28日,国内10亿级参数规模以上基础大模型至少已发布79个。
每一个亮相时,都少不了“职业领先”“技能革新”诸如此类的标签。不免引来质疑:如何直观地评判哪一款大模型在技能和性能上更为杰出?那些宣称“榜首”的评价规范与数据来历又是怎样的?
一把衡量不同模型效能基准的“尺子”亟待打造。
前不久,国际咨询公司IDC发布《AI大模型技能能力评价陈述2023》,调研了9家我国市场干流大模型技能厂商。其他不少研讨机构和团队也投入资源,发布了对应的点评规范和深度陈述。
这背面所显露的现象和趋势,更值得深层次的讨论。
ChatGPT 带火了大模型使用的相关研讨,评测基准亦成为关注焦点所在。
日前,微软亚洲研讨院公开了介绍大模型评测领域的总述文章《A Survey on Evaluation of Large Language Models》。
依据不完全统计(见下图),大模型评测方面文章的宣布呈上升趋势,越来越多的研讨着眼于设计更科学、更好衡量、更精确的评测方法来对大模型的能力进行更深入的了解。
文中总共列出了19个受欢迎的基准测验,每个都侧重于不同的方面和评价规范,为其各自的领域提供了名贵的奉献。
为了更好地总结,研讨员将这些基准测验分为两类:通用基准(General benchmarks)和具体基准(Specific benchmarks),其间不乏一些深具盛名的大模型基准。
Chatbot Arena,就被职业人士遍及认为是最具公平性与广泛接受度的渠道。其背面的推手——LMSYS Org,是一个敞开的研讨安排,由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立。
这个立异性的评价规范,为各大AI研讨机构与技能爱好者,提供了一个既共同又具有激烈竞争力的场所,专门用于点评和比对不同谈天机器人模型的实践使用作用。
用户能够与其间的匿名模型进行实时互动,然后经过在线投票体系表达他们对于某一模型的满意度或喜爱。