仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-306
请扫码咨询

新媒易动态

NEWS CENTER

抖音号购买点首页,加微信联系

2024-01-04

刚刚曩昔的 2023 年是大模型元年,在国产大模型数量狂飙突进的一同——现已跨越 200 个,“套壳”一直是萦绕在大模型头上的言论阴云。

在预练习完成之后,来到了微调阶段。实际上,这一阶段才是大部分“套壳”大模型翻车的原因,它与数据集的质量有直接关系。

数据的运用贯穿在大模型预练习、SFT、RLHF 的每个阶段。在预练习阶段,数据“在多而不在精”。因为预练习运用互联网公开数据,不同大模型最终所取得的常识储备是趋近的。

显着的差异点发生在微调阶段,数据“在精而不在多”。比方,Llama 2 的研讨人员在做微调时发现大部分第三方的 SFT 数据集多样性与质量都不足,因而他们自己构建了 27540 个高质量标注数据集,能够显着提高 SFT 的作用。

但不是一切的公司都像 Meta 相同财大气粗。有没有更高效的获取高质量数据集的方法?

有,经过“偷” ChatGPT 等对话模型的数据。

这儿的偷并非指偷盗,而是直接利用 ChatGPT 或 GPT-4 等对话模型生成的数据来做微调。这些合成数据,既保证了数据的多样性,又是经过 OpenAI 对齐后的高质量数据。

美国电商初创公司 Rebuy 的AI总监、深度学习博士 Cameron R. Wolfe 将这种大模型研讨方法称为“仿照学习”(Imitation Learning),并表明仿照学习显着受到“常识蒸馏”(Knowledge Distillation)的启示。

常识蒸馏是一种机器学习中标准的模型压缩方法,它将复杂的模型看做“教师模型”,把简略的模型看做“学生模型”,经过教师教学生的方法将常识迁移曩昔。


仿照学习的原理,图片来自Cameron R. Wolfe的博客

在 Meta 发布了 Llama 1 系列模型后,敏捷在开源社区催生了各类仿照模型的诞生,比较知名的包括由斯坦福大学、加州大学伯克利分校等高校机构推出的 Alpaca、Vicuna、Koala,以及 NomicAI 推出的GPT4ALL,这些模型都用到了 ChatGPT 的对话数据来做微调。

值得一提的是,OpenAI 在服务条款中明确制止运用 ChatGPT 生成的数据开发与 OpenAI 竞争的模型。所以,上述仿照模型不能用于商业用途。

但事实上,各类商业模型都在经过“偷”数据的方法来走微调的捷径,这已经是公开的秘密,并且不限国别。

2023 年 12 月,字节跳动、谷歌 Gemini 的“疑似套壳”事情正是来源于此。依据字节跳动的回应,2023 年初部分工程师曾将 OpenAI 的 API 服务应用于实验性的模型研讨,但并未上线,后来已经制止该行为。从实际视点来说,字节跳动“仅仅犯了一个天下一切模型都会犯的错误”。

一位做NLP研讨的科学家告诉「甲子光年」:“OpenAI 或许预感到字节跳动能够花钱堆一个模型出来,所以提早镇压一下。但实际上,这对于约束字节跳动练习大模型没有任何作用,纯粹便是想‘谩骂’一下。”

谷歌 Gemini 也是类似状况。因为缺乏高质量的中文数据集,谷歌极有或许经过文心一言取得很多的中文对话数据来做 Gemini 的“教师”。可是,或许因为追赶 OpenAI 心切,数据清洗、自我认知对齐等工作没有做到位,导致 Gemini 把教师文心一言当成了自己。

一位国产大模型公司的算法工程师向「甲子光年」吐槽道:“我们相互薅羊毛,要用,但要小心用,一不小心就尴尬了。”

四、把“壳”做厚才是竞争力

在预练习阶段仿照 Llama 2、在微调阶段“偷” ChatGPT 的数据,是两类产生“套壳”争议的主要场景,也是大模型练习过程中决定模型能力的要害场景。如果把规模扩展到模型的推理与应用,“套壳”的场景还会更多。

前语雀设计师,现 AI 助手 Monica 联合创始人 Suki 在即刻上分享了“套壳”的四重进阶:

一阶:直接引用 OpenAI 接口,ChatGPT 答复什么,套壳产品答复什么。卷UI、形态、本钱。

二阶:构建 Prompt。大模型能够类比为研制,Prompt 能够类比为需求文档,需求文档越明晰,研制完成得越精准。套壳产品能够积累自己的优质 Prompt,卷 Prompt 质量高,卷 Prompt 分发。

三阶:Embedding 特定数据集。把特定数据集进行向量化,在部分场景构建自己的向量数据库,以达到能够答复 ChatGPT 答复不出来的问题。比方笔直领域、私家数据等。Embedding 能够将段落文本编码成固定维度的向量,然后便于进行语义类似度的比较,相较于 Prompt 能够进行更精准的检索然后取得更专业的答复。

四阶:微调 Fine-Tuning。运用优质的问答数据进行二次练习,让模型更匹配对特定使命的了解。相较于 Embedding 和 Prompt 两者需要耗费很多的 Token,微调是练习大模型本身,耗费的 token 更少,响应速度也更快。


相关推荐