当前位置：首页 >新媒易动态 >视频号购买

抖音号购买点首页，加微信联系

2024-01-04

刚刚过去的年是大模型元年，在国产大模型数量狂飙突进的一起——现已逾越 200 个，“套壳”一直是萦绕在大模型头上的言论阴云。

在绵长的预练习之后会得到一个基座模型（Base Model），在基座模型的根底上参加特定职业的数据集做进一步的微调，就会得到一个微调模型（Fine-tuning Model），或许称为职业模型、笔直模型。

微调通常分为两个进程——SFT（有监督微调）+RLHF（人类反馈强化学习），其间 RLHF是 OpenAI 的创新规划，它决议了模型能够与人类目的与价值观对齐，是练习一个牢靠的对话模型不可或缺的环节。

预练习本钱极高，因而每年或几个月才会做一次。OpenAI 练习 ChatGPT 大约花费了大约 1200 万美元，Meta 练习 Llama 65B 花费了 500 万美元。相比之下，微调本钱较低，可能只需要短短几天乃至一天。

正因如此，只要充足的算力、财力的大公司与资本支持的雄心勃勃的创业公司，才会进入基座模型。“百模大战”中的国产大模型数量虽然多，但只要大约 10% 的模型是基座模型，90% 的模型是在开源模型根底上参加特定数据集做微调的职业模型、笔直模型。其间，应用最广的开源基座模型，目前便是 Meta 的 Llama 2。

从大模型的练习进程来看，没有人会对架构挑选——“套壳” Transformer 有异议。但围绕架构之后的预练习，成为了一个套壳与否的隐秘角落。

二、“原创派”与“仿照派”

预练习是大模型最中心的环节，也是“套壳”与“自研”争议较多的环节。

前面说到，模型架构仅仅大模型的菜谱——目前有 BERT、T5 与 GPT 三大菜谱，而每个菜谱上会有详细的菜名——预练习结构。依照预练习结构的菜谱炒菜，便是预练习的进程。

一个能够肯定的事实是，所有的定位做基座模型的公司，都是从头开端投入真金白银做了完好的预练习，但菜谱的由来，却分成了两派。

榜首派，便是规范含义的“自研派”，从菜谱开端研究，自研了预练习结构。

这一派的共同点便是布局较早，能够追溯到 2020 年之前，远远早于 ChatGPT 诞生而打响的大模型竞赛的发令枪。

百度是其间一家。2019年，百度就发布了自研的预练习结构 ERNIE，也便是今日的文心大模型，今日现已更新到ERNIE-4.0。值得一提的是，谷歌 BERT 与百度 ERNIE 姓名取材于美国闻名儿童节目《芝麻街》中的人物，两者是一对好友。

《芝麻街》中的 ERNIE 与 BERT，图片来自网络

另一家早期自研预练习结构的大模型公司是智谱 AI 。智谱 AI 成立于 2019 年，并在 2020 年底开端自研预练习结构 GLM。GLM 与谷歌 T5 相似，也是根据Encoder-Decoder 架构。2022 年 11 月，斯坦福大学大模型中心对全球 30 个干流大模型进行了全方位的评测，GLM-130B 是亚洲唯一当选的大模型。

百度与智谱 AI 之外，还有一部分闭源大模型没有公开自己的技能细节，代表性公司为Minimax、月之暗面等。有投资人对「甲子光年」表明，这几家也有自己的预练习结构，但无法精确核实。

总的来说，国内根据自研预练习结构的大模型公司数量较少，大约只要 5 家左右。

第二派大模型公司也从头开端做完好的预练习进程，但预练习结构是在开源结构——主要是 Llama 2 的根底上修改部分参数而来，能够称之为“仿照派”。

关于开源社区而言，这是一套十分正常的做法，开源的含义便是公开自己的研究成果，促进技能的沟通与同享，让开源社区内更多的研究者受益。

Llama 2 也是站在过去开源模型的膀子上一步步发展而来。比如，Llama 2 的模型架构中， Pre-normalization（预归一化）受 GPT-3 启示，SwiGLU（激活函数）受 PaLM 的启示，Rotary Embeddings（方位编码）受 GPT-Neo 的启示。其他模型也经常魔改这几个参数来做预练习。

零一万物创始人李开复表明：“全球大模型架构一路从 GPT2 –> Gopher –> Chinchilla –> Llama 2-> Yi，职业逐步形成大模型的通用规范，就像做一个手机 app 开发者不会去自创 iOS、Android 以外的全新根底架构。”

仿照 Llama 2 并非代表没有中心竞争力。零一万物在文章中说到，模型练习进程好比做一道菜，架构仅仅决议了做菜的原材料和大致进程，要练习出好的模型，还需要更好的“原材料”（数据）和对每一个进程细节的把控（练习方法和详细参数）。

上一篇：抖音号购买点首页，加微信联系

下一篇：抖音号购买点首页，加微信联系