仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-306
请扫码咨询

新媒易动态

NEWS CENTER

除了在产品上进行了洗心革面式的改进,还对模型的评价体系进行了优化

2023-08-08

从GPT3.5完全出圈后,大模型的影响力开端蜚声国际。一段时间内,国内科技公司可谓被ChatGPT按在地上打,毫无还手之力。

彼时,许多企业还不知大模型为何物,GPT3.5就已够生成比如营销案牍、小说、诗篇等高质量的中文文本。一时间,买课小贩和相关开发者大行其道。

现如今,在国内厂商严肃对待OpenAI后,状况发生了改变。

在揭露资料中,就有360、复旦大学、科大讯飞等企业表达了在中文才能上逾越ChatGPT的消息。现在,时间进入2023年8月份,声称逾越国外竞品的公司变得越来越多。

一、中文模型进击:ChatGPT“不香”了

客观地说,在GPT-3推出后,OpenAI曾经在中文文本输出中占得先机。其一经推出,便可掩盖比如营销案牍、小说和诗篇等范畴的文生文需求。几个月前,这种先手优势养活了国内一众卖课达人以及相关产品。

不过,很快,这些功能便被国内众多厂商逾越,变成了大模型的“标配”功能。

依据第三方监测组织SimilarWeb的数据显示,ChatGPT从4月开端就呈现出了明显放缓的趋势。以至于在2023年的第二季度,人们的朋友圈内几乎没有了OpenAI的踪迹。在科技圈,这被归结为竞争对手大批量涌入、垂直模型兴起和新技能迭代所导致。

8月初,中文大模型的“千模大战”已进入白热化阶段。以数科星球团队所把握的信息来看,越来越多的企业开端重视下沉商场、并致力于推动详细工作和大模型产品的结合。

这种趋势的成果是,可能会有更多的企业和组织挑选使用本土产品,同时也对国外模型的商场份额造成必定影响。在数科星球团队体验二十余款中文大模型后,所得到的观感和上述言辞趋同:即中文大模型正在变得越来越好用,并变得越来越聪明。

更为要害的是,政策层面临国内产品的拔擢力度正在加强,而出于安全和自主可控等要素,ChatGPT的“没落”(至少在国内)好像已成板上钉钉。

但国内厂商的野心还远不止“内卷”国内商场——一些公司已然将目光瞄准了海外。

科大讯飞董事长刘庆峰此前表明,其星火大模型中文已逾越ChatGPT,在英文中也已挨近,虽还有细微差别,但目前在进一步优化中。

二、中文大模型变聪明的背后

为了根究国内中文大模型的开展状况,在曩昔的几个月中,数科星球团队与几十家公司进行了百余次交流。成果是,科技圈的大佬和创业新星们对待OpenAI的情绪严肃且仔细。

除了在产品上进行了洗心革面式的改进,还对模型的评价体系进行了优化。

为了弥补中文大模型在评测范畴的缺失,日前由清华大学、上海交通大学和爱丁堡大学协作构建的面向中文语言模型的综合性考试评测集于不久前推出,该评测名为C-Eval,受到了工作内的广泛重视。

在一些专业人士看来,此评测的初衷是用“锱铢必较”的方式找出中文大模型的比较优势。和以往由第三方咨询公司所主导的、带有倾向性甚至定制化的工作评比所不同的是,无论在进程和成果上,C-Eval愈加通明和揭露。

据了解,全套测验包含13948道多项挑选题,包括52个不同学科和四个难度级别。其中前四名包括为清华智谱的ChatGLM2、OpenAI的GPT-4、商汤的SenseChat,APUS的AiLMe-100Bv1。

比照由微软亚洲研究院(Microsoft Research Asia)开发的基准测验AGIEval,C-Eval掩盖的范畴更广。APUS技能专家张旭称:“AGIEval只掩盖了中国高考题、公务员考试题等几个类别,而C-Eval掩盖了注册电气工程师、注册计量师……等范畴”,掩盖规模的拓展意味着,除高考、公务员考试等场景外,在其他特定工作范畴也能够测定大模型的才能。


从另一个视点说,C-Eval是一个对大模型从人文到社科到理工多个大类的综合知识才能进行测评的竞赛。一般,高阶难度测验是考验大模型性能的要害动作,面临复杂且有应战性的任务,大多大模型性能会大幅下降。在C-Eval发布的评比成果中,APUS的AiLMe-100Bv1除了在平均分上进入四强,还在难题处理方面逾越GPT-4*,排名第一。


据悉,C-Eval Hard(难题)类别是首个供给中文复杂推理才能的测验,“即便是GPT-4来做这个题也会很费劲,”张旭提及,“这是‘闭卷考试’,而以往如AGIEval和MMLU是‘开卷考试’,也就是说,AGIEval和MMLU是各公司自己测验、自己打分、自己发布成果,而C-Eval Hard的评比显然愈加客观、可信。”

的确,C-Eval测评难度比其他测评更高且更严格。在打分流程上,C-Eval更像是学校中为学生准备的大考形式,各个公司参与一致考试并由体系自动打分、C-Eval团队人工审阅成果并发布,所以,就成果上看,其测评所发布的成果真实性更高。

相关推荐