仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-306
请扫码咨询

新媒易动态

NEWS CENTER

大模型评测或许会被某些公司或机构用作营销工具,经过发布其模型的高分评测成果来招引大众的注意力,以期提高产品的市场份额

2023-07-26

此前就有观点认为,跟着AI技能的发展,大模型评测或许会被某些公司或机构用作营销工具,经过发布其模型的高分评测成果来招引大众的注意力,以期提高产品的市场份额。

现在也有一些杰出的现象佐证:在某些特定评测榜单中抢先的厂商,放到其他不同的榜单评测中,却未能够保持其优势位置。

不能排除存在着客观原因。当时阶段,关于大模型的评估机制和具体评测目标,并没有到达一个职业一致,更遑论出现统一的的评测规范。不同的使用环境和任务规范,就会发生天壤之别的点评结构和需求。

此外,大模型评测一般依赖于两大主要办法:主动评测和人工评测。

主动评测是根据准确的计算机算法和一系列预定义的目标进行,而人工评测更多着重人类专家的片面见解、经历和质量断定。

遇到大模型生成诗歌或短文这类任务时,人工评测的片面性变得尤为显著。自古“文无第一,武无第二”,不同的评定者或许会对同一著作给出不同的点评。

然而,从相关搜索成果中不难发现,大模型评测早已被某些厂商视为一个营销的竞技场。毕竟在一个竞赛剧烈的市场中,每一个厂商都希望自己的产品能够脱颖而出。

因此有充分的动机去选择那些能够突显自己产品优势的评测目标,而忽略那些或许暴露弱项的目标。

这种选择性的展示,即便有机会带来短期的市场优势,可是关于顾客和整个职业来说,必然是有害的。

一时的误导一旦歪曲了市场的竞赛格局,或许使得真实有价值的创新被埋没。劣币驱赶良币之下,那些只是为了宣传而进行的“创新”反而会趋之若鹜。

从这个角度动身,大模型评测基准仍是应该回归其本质,即为了更好地理解和比较不同模型的性能,为研发者和终端用户提供反馈,而不是为了产品厂商的短期利益。

已然要当裁判员,仍是要尽量做到独立、客观、第三方。

相关推荐