仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-306
请扫码咨询

新媒易动态

NEWS CENTER

抖音号购买点首页,加微信联系

2024-01-04

刚刚过去的 2023 年是大模型元年,在国产大模型数量狂飙突进的一起——现已逾越 200 个,“套壳”一直是萦绕在大模型头上的舆论阴云。

从年初到年底,从百度文心一言到零一万物,从字节跳动到谷歌 Gemini,各种“涉嫌套壳”的事情多次冲上热搜,随后又被相关方解释弄清。

非 AI 从业者,视套壳如洪水猛兽;真正的 AI 从业者,对套壳讳莫如深。但由于“套壳”本身并没有清晰、精确的界说,导致行业对套壳的理解也是一千个读者有一千个哈姆雷特。

当我们在谈论套壳的时分,到底在谈论什么?

抛开具体场景谈套壳都是在贴标签。为了厘清大模型套壳的逻辑,「甲子光年」访谈了一些AI从业者、投资人,结合 OpenAI、Meta 以及国内大模型相关技术论文,从一个大模型的“炼丹”进程下手,看看在哪些进程、哪些环节,存在套壳的空间。

2024 年或许是大模型大规模落地的元年,一些 AI Native 的使用将会连续呈现。在活跃发展大模型使用生态之时,期望行业对于“套壳”的讨论能够抛开心情,回归现实。

一、大模型的一致“内核”

为了更好地理解套壳,有必要差异“外壳”与“内核”的差异。

今日,一切大模型的内核,都起源于 2017 年谷歌大脑团队(Google Brain,2023年 4 月与谷歌收买的AI公司 DeepMind 合并为 Google DeepMind )发布的Transformer 神经网络架构。

Transformer 一经面世,逐渐替代了过去的 RNN(循环神经网络)与 CNN(卷积神经网络),成为 NLP(自然言语处理)前沿研讨的标准范式。

在 Transformer 诞生的十年前,有一部好莱坞大片《变形金刚》在全球上映,这部电影的英文名字就叫“Transformers”。就像电影中能够灵活变身的变形金刚一样,作为神经网络架构的 Transformer 也能够通过改动架构组件与参数,衍生出不同的变体。

Transformer 的原始架构包含两个中心组件——编码器(Encoder)与解码器(Decoder),编码器担任理解输入文本,解码器担任生成输出文本。在 Transformer 的原始架构上“魔改”衍生出三个变体架构——只选用编码器(Encoder-only),只选用解码器(Decoder-only),以及两者的混合体(Encoder-Decoder)。


这三个变体架构分别有一个代表性模型——谷歌的 BERT ,OpenAI 的 GPT 系列模型,以及谷歌的 T5。今日,这三个模型称号一般也指代了其背面的模型架构称号(后文也以此指代)。


Transformer的模型架构图,左边为Encoder,右侧为Decoder。图片来自谷歌论文

在 2020 年之前,NLP 的模型研讨基本都是环绕算法打开,根据 BERT、T5 与 GPT 架构的模型百花齐放。这一时期模型参数较小,基本都在 10 亿以内量级。其中,谷歌 BERT 的体现独领风骚,根据 BERT 架构的模型一度在阅览理解的竞赛排行榜中屠榜。

直到 2020 年,OpenAI 发布一篇论文,初次提出了 Scaling Laws(尺度规律),NLP 的研讨才正式进入大模型年代——大模型根据“大算力、大参数、大数据”,模型功能就会像摩尔规律一样持续提高,直到“智能涌现”的时刻。

在此期间,GPT 架构的功能体现逐渐逾越 BERT 与 T5,成为大模型的干流挑选。今日百亿参数以上的干流大模型中,除了谷歌最新发布的 Gemini 是根据 T5 架构,几乎清一色都是从 GPT 架构衍生而来。能够说,GPT 完成了一场大模型架构内核的大一统。


大模型进化树,其中 GPT 系列枝繁叶茂。图片来自Github,作者Mooler0410

从大模型的进化头绪来看,今日一切的模型都是在“套壳” Transformer 以及其变体架构。

当然,Transformer 也有“不肯套壳”的挑战者。比如,2023 年 12 月 5 日,两位分别来自卡内基梅隆大学与普林斯顿大学的教授,发布了一款名为“Mamba”(曼巴)的新架构,在言语建模功能媲美 Transformer 的一起,还解决了一些扩展性的限制。但这个新架构的具体体现,还需要时刻的检验。

模型架构挑选仅仅第一步。百川智能创始人、CEO 王小川在一个月前的2023甲子引力年终盛典上将大模型练习比作“炒菜”,模型架构仅仅一个菜谱。要想得到一盘完好的菜,还需要烹饪,也便是大模型练习的进程;以及食材,也便是数据。

大模型的进程能够粗略地分为预练习(Pre Train)与微调(Fine-Tune)两大阶段。

预练习是大模型练习最中心的环节,通过把大量的文本信息压缩到模型中,就像一个学生寒窗苦读的进程,来让模型具备世界知识。OpenAI 创始人之一、特斯拉前 AI 总监安德烈·卡帕西(Andrej Karpathy)在 2023 年 5 月的微软 Build 大会上泄漏:“预练习便是在超级计算机中使数千个 GPU 以及可能进行数月时刻来处理互联网规模数据集的地方,占有练习时刻的99%。”

相关推荐