新媒易动态
NEWS CENTER
NEWS CENTER
2024-01-04
刚刚过去的 年是大模型元年,在国产大模型数量狂飙突进的一起——现已逾越 200 个,“套壳”一直是萦绕在大模型头上的言论阴云。
在绵长的预练习之后会得到一个基座模型(Base Model),在基座模型的根底上参加特定职业的数据集做进一步的微调,就会得到一个微调模型(Fine-tuning Model),或许称为职业模型、笔直模型。
微调通常分为两个进程——SFT(有监督微调)+RLHF(人类反馈强化学习),其间 RLHF是 OpenAI 的创新规划,它决议了模型能够与人类目的与价值观对齐,是练习一个牢靠的对话模型不可或缺的环节。
预练习本钱极高,因而每年或几个月才会做一次。OpenAI 练习 ChatGPT 大约花费了大约 1200 万美元,Meta 练习 Llama 65B 花费了 500 万美元。相比之下,微调本钱较低,可能只需要短短几天乃至一天。
正因如此,只要充足的算力、财力的大公司与资本支持的雄心勃勃的创业公司,才会进入基座模型。“百模大战”中的国产大模型数量虽然多,但只要大约 10% 的模型是基座模型,90% 的模型是在开源模型根底上参加特定数据集做微调的职业模型、笔直模型。其间,应用最广的开源基座模型,目前便是 Meta 的 Llama 2。
从大模型的练习进程来看,没有人会对架构挑选——“套壳” Transformer 有异议。但围绕架构之后的预练习,成为了一个套壳与否的隐秘角落。
预练习是大模型最中心的环节,也是“套壳”与“自研”争议较多的环节。
前面说到,模型架构仅仅大模型的菜谱——目前有 BERT、T5 与 GPT 三大菜谱,而每个菜谱上会有详细的菜名——预练习结构。依照预练习结构的菜谱炒菜,便是预练习的进程。
一个能够肯定的事实是,所有的定位做基座模型的公司,都是从头开端投入真金白银做了完好的预练习,但菜谱的由来,却分成了两派。
榜首派,便是规范含义的“自研派”,从菜谱开端研究,自研了预练习结构。
这一派的共同点便是布局较早,能够追溯到 2020 年之前,远远早于 ChatGPT 诞生而打响的大模型竞赛的发令枪。
百度是其间一家。2019年,百度就发布了自研的预练习结构 ERNIE,也便是今日的文心大模型,今日现已更新到ERNIE-4.0。值得一提的是,谷歌 BERT 与百度 ERNIE 姓名取材于美国闻名儿童节目《芝麻街》中的人物,两者是一对好友。
《芝麻街》中的 ERNIE 与 BERT,图片来自网络
另一家早期自研预练习结构的大模型公司是智谱 AI 。智谱 AI 成立于 2019 年,并在 2020 年底开端自研预练习结构 GLM。GLM 与 谷歌 T5 相似,也是根据Encoder-Decoder 架构。2022 年 11 月,斯坦福大学大模型中心对全球 30 个干流大模型进行了全方位的评测,GLM-130B 是亚洲唯一当选的大模型。
百度与智谱 AI 之外,还有一部分闭源大模型没有公开自己的技能细节,代表性公司为Minimax、月之暗面等。有投资人对「甲子光年」表明,这几家也有自己的预练习结构,但无法精确核实。
总的来说,国内根据自研预练习结构的大模型公司数量较少,大约只要 5 家左右。
第二派大模型公司也从头开端做完好的预练习进程,但预练习结构是在开源结构——主要是 Llama 2 的根底上修改部分参数而来,能够称之为“仿照派”。
关于开源社区而言,这是一套十分正常的做法,开源的含义便是公开自己的研究成果,促进技能的沟通与同享,让开源社区内更多的研究者受益。
Llama 2 也是站在过去开源模型的膀子上一步步发展而来。比如,Llama 2 的模型架构中, Pre-normalization(预归一化)受 GPT-3 启示,SwiGLU(激活函数)受 PaLM 的启示,Rotary Embeddings(方位编码)受 GPT-Neo 的启示。其他模型也经常魔改这几个参数来做预练习。
零一万物创始人李开复表明:“全球大模型架构一路从 GPT2 –> Gopher –> Chinchilla –> Llama 2-> Yi,职业逐步形成大模型的通用规范,就像做一个手机 app 开发者不会去自创 iOS、Android 以外的全新根底架构。”
仿照 Llama 2 并非代表没有中心竞争力。零一万物在文章中说到,模型练习进程好比做一道菜,架构仅仅决议了做菜的原材料和大致进程,要练习出好的模型,还需要更好的“原材料”(数据)和对每一个进程细节的把控(练习方法和详细参数)。