新媒易动态
NEWS CENTER
NEWS CENTER
2024-01-04
刚刚曩昔的 2023 年是大模型元年,在国产大模型数量狂飙突进的一同——现已跨越 200 个,“套壳”一直是萦绕在大模型头上的言论阴云。
在预练习完成之后,来到了微调阶段。实际上,这一阶段才是大部分“套壳”大模型翻车的原因,它与数据集的质量有直接关系。
数据的运用贯穿在大模型预练习、SFT、RLHF 的每个阶段。在预练习阶段,数据“在多而不在精”。因为预练习运用互联网公开数据,不同大模型最终所取得的常识储备是趋近的。
显着的差异点发生在微调阶段,数据“在精而不在多”。比方,Llama 2 的研讨人员在做微调时发现大部分第三方的 SFT 数据集多样性与质量都不足,因而他们自己构建了 27540 个高质量标注数据集,能够显着提高 SFT 的作用。
但不是一切的公司都像 Meta 相同财大气粗。有没有更高效的获取高质量数据集的方法?
有,经过“偷” ChatGPT 等对话模型的数据。
这儿的偷并非指偷盗,而是直接利用 ChatGPT 或 GPT-4 等对话模型生成的数据来做微调。这些合成数据,既保证了数据的多样性,又是经过 OpenAI 对齐后的高质量数据。
美国电商初创公司 Rebuy 的AI总监、深度学习博士 Cameron R. Wolfe 将这种大模型研讨方法称为“仿照学习”(Imitation Learning),并表明仿照学习显着受到“常识蒸馏”(Knowledge Distillation)的启示。
常识蒸馏是一种机器学习中标准的模型压缩方法,它将复杂的模型看做“教师模型”,把简略的模型看做“学生模型”,经过教师教学生的方法将常识迁移曩昔。
仿照学习的原理,图片来自Cameron R. Wolfe的博客
在 Meta 发布了 Llama 1 系列模型后,敏捷在开源社区催生了各类仿照模型的诞生,比较知名的包括由斯坦福大学、加州大学伯克利分校等高校机构推出的 Alpaca、Vicuna、Koala,以及 NomicAI 推出的GPT4ALL,这些模型都用到了 ChatGPT 的对话数据来做微调。
值得一提的是,OpenAI 在服务条款中明确制止运用 ChatGPT 生成的数据开发与 OpenAI 竞争的模型。所以,上述仿照模型不能用于商业用途。
但事实上,各类商业模型都在经过“偷”数据的方法来走微调的捷径,这已经是公开的秘密,并且不限国别。
2023 年 12 月,字节跳动、谷歌 Gemini 的“疑似套壳”事情正是来源于此。依据字节跳动的回应,2023 年初部分工程师曾将 OpenAI 的 API 服务应用于实验性的模型研讨,但并未上线,后来已经制止该行为。从实际视点来说,字节跳动“仅仅犯了一个天下一切模型都会犯的错误”。
一位做NLP研讨的科学家告诉「甲子光年」:“OpenAI 或许预感到字节跳动能够花钱堆一个模型出来,所以提早镇压一下。但实际上,这对于约束字节跳动练习大模型没有任何作用,纯粹便是想‘谩骂’一下。”
谷歌 Gemini 也是类似状况。因为缺乏高质量的中文数据集,谷歌极有或许经过文心一言取得很多的中文对话数据来做 Gemini 的“教师”。可是,或许因为追赶 OpenAI 心切,数据清洗、自我认知对齐等工作没有做到位,导致 Gemini 把教师文心一言当成了自己。
一位国产大模型公司的算法工程师向「甲子光年」吐槽道:“我们相互薅羊毛,要用,但要小心用,一不小心就尴尬了。”
在预练习阶段仿照 Llama 2、在微调阶段“偷” ChatGPT 的数据,是两类产生“套壳”争议的主要场景,也是大模型练习过程中决定模型能力的要害场景。如果把规模扩展到模型的推理与应用,“套壳”的场景还会更多。
前语雀设计师,现 AI 助手 Monica 联合创始人 Suki 在即刻上分享了“套壳”的四重进阶:
一阶:直接引用 OpenAI 接口,ChatGPT 答复什么,套壳产品答复什么。卷UI、形态、本钱。
二阶:构建 Prompt。大模型能够类比为研制,Prompt 能够类比为需求文档,需求文档越明晰,研制完成得越精准。套壳产品能够积累自己的优质 Prompt,卷 Prompt 质量高,卷 Prompt 分发。
三阶:Embedding 特定数据集。把特定数据集进行向量化,在部分场景构建自己的向量数据库,以达到能够答复 ChatGPT 答复不出来的问题。比方笔直领域、私家数据等。Embedding 能够将段落文本编码成固定维度的向量,然后便于进行语义类似度的比较,相较于 Prompt 能够进行更精准的检索然后取得更专业的答复。
四阶:微调 Fine-Tuning。运用优质的问答数据进行二次练习,让模型更匹配对特定使命的了解。相较于 Embedding 和 Prompt 两者需要耗费很多的 Token,微调是练习大模型本身,耗费的 token 更少,响应速度也更快。