当前位置：首页 >新媒易动态 >视频号购买

推理的计划与构建通用大型言语模型和谈天机器人的计划密切相关

2023-08-20

最近，许多关于较小模型的研讨取得了令人振奋的对话才能，这让人们想象，是否较小的模型能具有与像 GPT-3.5 这样的大型模型相当的功能。

一般来说，言语模型具有多维才能，所以模型之间的相互比照较为困难。找到正确的衡量标准对于开发强壮的言语模型至关重要。在现在阶段，研讨者们急切想知道什么是度量大言语模型潜力的要害要素。

在 GPT-4 发布博客中，作者写道：

“在一次随意的谈话中，GPT-3.5 和 GPT-4 之间的差异或许是微妙的。当使命的杂乱程度到达足够的阈值时，差异就会显现出来。”

这意味着杂乱使命很或许是大型和小型言语模型的要害差异要素。

更重要的是，杂乱推理为基于言语模型构建大量应用程序供给了机会，从而使言语模型有机会成为下一代核算渠道 / 操作系统。这有或许从根本上改变人类与机器的交互方式，重塑整个核算生态系统。

在这篇文章中，咱们将仔细分析评论怎么让大言语模型拥有强壮的杂乱推理才能。

以下为本文目录，建议结合关键进行针对性阅览。

动机：大言语模型作为新一代核算渠道
增加大言语模型推理才能的计划
杂乱推理的提示词工程
点评大言语模型的推理才能
定论

01 动机：大言语模型作为新一代核算渠道

咱们研讨杂乱推理的原因有两个：

杂乱推理是标志着小模型与大模型差异的要害要素，这一点在 GPT-4 发布文章中现已评论过；
杂乱推理是使模型成为下一代操作系统的中心才能。

将言语模型视为下一代操作系统的愿景尤为风趣，由于它为构建新应用程序和创立基于言语模型的核算生态系统（或许比超级应用程序如 ChatGPT 供给更大的机会）开辟了无数或许性。杂乱推理才能是基础，由于假如咱们希望模型成为新的操作系统，它需求能够经过与工具、用户和外部环境的所有元素互动来完结杂乱的指令。

本文研讨了怎么练习具有强壮杂乱推理才能的模型，怎么进行提示工程以充分发挥模型的推理才能，以及怎么评价模型的推理功能。本文的内容分为以下几部分：

在第 2 部分，咱们评论了构建具有强壮杂乱推理才能的言语模型的现有办法。杂乱推理的计划与通用大型言语模型（LLM）开发的计划类似，包括三个阶段：继续练习 (continue training)、指令微调 (instruction finetuning) 和强化学习 (reinforcement learning)。咱们还会进一步评论代码与推理之间令人惊讶的耦合关系；

在第 3 部分，咱们评论了杂乱推理的提示工程 (prompt engineering) 技能。当言语模型成为新一代操作系统内核时，提示工程 / 场景学习将成为新一代脚本编程 (shell script)；

在第 4 部分，咱们评论了怎么评价大型言语模型的推理才能。咱们介绍 Chain-of-thought Hub，这是一个包括 100 多个推理使命的数据调集，清楚地标明了大型与小型模型的差异。咱们重点介绍了 LLaMA 65B 的出色体现。咱们以为它具有非常强壮的潜力，可作为再现 ChatGPT-3.5 的基座模型。

02 增加大言语模型推理才能的计划

推理的计划与构建通用大型言语模型和谈天机器人的计划密切相关。总共有三个阶段：

预练习 / 继续练习：在这个阶段，咱们通常在大型数据集（如科学文献或代码数据）上练习大型模型；
有监督微调：在这个阶段，咱们对模型进行微调，以便完结杂乱使命的指令；
强化学习：在这个阶段，咱们使用比如使命是否已悉数/部分完结的信号作为奖励。

您能够经过文末阅览原文进一步回忆在代码上进行练习也能够进步模型推理才能的假定。因而，在咱们的文献分析中，需同时考虑推理和编码。咱们将看到，就学习办法而言，这两者之间存在惊人的相关性。

预练习与继续练习咱们分析以下几项研讨：

1. Lewkowycz et. al. 2022. Minerva: Solving Quantitative Reasoning Problems with Language Models在来自 Arxiv 论文的 38.5B 的 token 上继续练习 PaLM 540B；

在 MATH （一个需求使用 LaTeX 格式回答问题的困难数据集）上的得分为 33.6（GPT-4 的得分是 42.5）。

2. Taylor et. al. 2022. Galactica: A Large Language Model for Science

在包括论文、代码、参考资料、知识库和其他内容的 106B token 上预练习一个 120B 言语模型；

在 MATH 上的体现为 20.4（Minerva 33.6，GPT-4 42.5）。

3. Chen et. al. 2021. Codex: Evaluating Large Language Models Trained on Code

在 159GB 代码数据上继续练习 12B GPT-3 模型，进步了 HumanEval 数据集上的代码功能。

上一篇：咱们将评论怎么有用地提示模型以充分释放模型的潜力。

下一篇：接入大模型API 并继续结合传统模型的方法，结合LLM给出的成果对传统模型进行效果改进