仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-306
请扫码咨询

新媒易动态

NEWS CENTER

在评测 LLMs 的功能时,挑选适宜的使命和范畴关于展示大型言语模型的体现、优势和下风至关重要

2023-07-26

为了着眼于综合点评大模型的才能,使其能全面地测验大模型的效果,又能调查模型在中文上特有使命的了解和积累,SuperCLUE从三个不同的维度点评模型的才能:根底才能、专业才能和中文特性才能。

实践上,这些维度只是冰山一角。

在评测 LLMs 的功能时,挑选适宜的使命和范畴关于展示大型言语模型的体现、优势和下风至关重要。

微软亚洲研究院将现有的使命划分为了7个不同的类别:

  1. 自然言语处理:包含自然言语了解、推理、自然言语生成和多言语使命
  2. 鲁棒性、道德、成见和真实性
  3. 医学运用:包含医学问答、医学考试、医学教育和医学帮手
  4. 社会科学
  5. 自然科学与工程:包含数学、通用科学和工程
  6. 署理运用:将 LLMs 作为署理运用
  7. 其他运用

纵观当时AI范畴的发展趋势,大模型的评测基准测验不再只是是一个单一的技能环节,而是已经逐步成为整个上下游产业链中的重要配套。

二、正确地运用“尺子”

存在即合理。大模型评测基准的诞生和继续优化,之所以呈现出愈演愈烈的势头,无疑与其所能带来的巨大价值和业界的广泛认同是密不可分的。

可以看到,经过深入的大模型评测基准分析,能够更为清晰和系统地揭示大模型在各种运用场景中的优势与局限性。这种专业的评价不仅为AI范畴的研制者提供了清晰的指导,同时也助力用户最终作出更为正确的技能挑选。

在复杂的研制过程中,判断技能方案或特定模型的优越性往往是一个应战。C-Eval数据集和其相关榜单,含义不只是是一系列的数字或排名,而是为大模型的研制者提供了一套客观、系统的评价东西。

用C-Eval项目团队的话来说,“咱们的最重要方针是辅佐模型开发”。

详细来看,研制团队可以与企业紧密协作,将大模型评测基准整合到他们的开发和测验工作流程中。这不仅可以在实践运用环境中验证模型的功能,还能经过两边的深度沟通,找到在测验过程中或许遇到的技能难题和应战,然后实现更为高效和精确的模型优化。

正是基于这一点,多家头部大模型厂商不仅在模型研制上继续投入,同时也在评测基准的拟定与优化上下足了功夫。

譬如科大讯飞经过认知智能全国重点实验室牵头规划了通用认知大模型评测系统,覆盖7大类481个细分使命类型。阿里巴巴达摩院多言语NLP团队发布了首个多言语多模态测验基准M3Exam,共涵盖12317道标题,等等。

不过也正如C-Eval项目团队所强调的:关于大模型厂商,单纯地寻求榜单的高位排名,并不应成为其主要寻求。

当厂商将榜单成果作为首要方针时,或许会为了寻求高分而选用过度拟合榜单的策略,这样就很简单损失模型的广泛适用性。

更为关键的是,若只是着眼于排名,厂商或许为了短期的成果而企图寻找捷径,然后违背了真正结壮的科研精力与价值观。

再看终端用户的视角中,大模型测评基准提供了一个全面的、结构化的参考框架,然后充分地辅佐用户在很多技能选项中做出更为理性和正确的决策。

这种评测不仅降低了技能采用的风险,也保证了用户能够从所选模型中取得最佳的投资回报率。

尤其关于那些还未拥有深厚大模型研制实力的企业来说,深入了解大模型的技能边界,并能够针对自身需求高效地进行技能选型,是至关重要的。

综上,不论是关于背后的研制团队仍是产品侧的终端用户,大模型评测基准都承载着不可估量的价值和含义。

相关推荐