当前位置：首页 >新媒易动态 >视频号购买

大模型评测或许会被某些公司或机构用作营销工具，经过发布其模型的高分评测成果来招引大众的注意力，以期提高产品的市场份额

2023-07-26

此前就有观点认为，跟着AI技能的发展，大模型评测或许会被某些公司或机构用作营销工具，经过发布其模型的高分评测成果来招引大众的注意力，以期提高产品的市场份额。

现在也有一些杰出的现象佐证：在某些特定评测榜单中抢先的厂商，放到其他不同的榜单评测中，却未能够保持其优势位置。

不能排除存在着客观原因。当时阶段，关于大模型的评估机制和具体评测目标，并没有到达一个职业一致，更遑论出现统一的的评测规范。不同的使用环境和任务规范，就会发生天壤之别的点评结构和需求。

此外，大模型评测一般依赖于两大主要办法：主动评测和人工评测。

主动评测是根据准确的计算机算法和一系列预定义的目标进行，而人工评测更多着重人类专家的片面见解、经历和质量断定。

遇到大模型生成诗歌或短文这类任务时，人工评测的片面性变得尤为显著。自古“文无第一，武无第二”，不同的评定者或许会对同一著作给出不同的点评。

然而，从相关搜索成果中不难发现，大模型评测早已被某些厂商视为一个营销的竞技场。毕竟在一个竞赛剧烈的市场中，每一个厂商都希望自己的产品能够脱颖而出。

因此有充分的动机去选择那些能够突显自己产品优势的评测目标，而忽略那些或许暴露弱项的目标。

这种选择性的展示，即便有机会带来短期的市场优势，可是关于顾客和整个职业来说，必然是有害的。

一时的误导一旦歪曲了市场的竞赛格局，或许使得真实有价值的创新被埋没。劣币驱赶良币之下，那些只是为了宣传而进行的“创新”反而会趋之若鹜。

从这个角度动身，大模型评测基准仍是应该回归其本质，即为了更好地理解和比较不同模型的性能，为研发者和终端用户提供反馈，而不是为了产品厂商的短期利益。

已然要当裁判员，仍是要尽量做到独立、客观、第三方。