仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-306
请扫码咨询

新媒易动态

NEWS CENTER

咱们将评论怎么有用地提示模型以充分释放模型的潜力。

2023-08-20

 杂乱推理的提示词工程

在评论了怎么构建具有强壮推理才能的模型之后。在本节中,咱们将评论怎么有用地提示模型以充分释放模型的潜力。

1. 根底思想链提示词工程

以下论文推荐给初学者:

1. Wei et. al. 2022. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models本文是第一篇发现当运用链式思想进行提示时,存在一个相变现象,标明大型模型在很大程度上优于较小的模型,这进一步导致了呈现才能的发现。

2. Wang et. al. 2022. Self-Consistency Improves Chain of Thought Reasoning in Language Models

对采样的 CoT 推理途径进行大都投票,明显进步了推理功能。

3. Suzgun et. al. 2022. Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them

运用 CoT 处理 big-bench 中困难的使命。这篇论文的一个有含义的副产品是 BigBench Hard 数据集,它在测验模型推理才能方面十分有用。

2. 进阶技巧及剖析

以下论文评论了高级 CoT 提示实践:

1. Fu et. al. 2023. Complexity-Based Prompting for Multi-Step Reasoning

运用杂乱链代替简略链作为上下文示例。

2. Khot et. al. 2023. Decomposed Prompting: A Modular Approach for Solving Complex Tasks

将杂乱使命分解为更简略的使命,然后逐个处理。

通常,关于杂乱使命,首要将其分解为更简略的使命,然后逐渐处理更简略的使命。

以下论文评论了上下文学习为什么起效果:

1. Xie et. al. 2021. An Explanation of In-context Learning as Implicit Bayesian Inference言语模型在提示中的示例之间推断出一个潜在概念,并进入相应的使命方式。

2. Wei et. al. 2023. Larger language models do in-context learning differently

当呈现与先验知知趣对立的上下文示例时,虽然大型模型或许具有更强的语义先验,大型模型能够根据提示词来覆盖语义先验。

简而言之,上下文学习的要点是提示中的示例使模型进入相应的使命方式,然后执行使命。以下论文评论了模型在进行思想链推理时的行为:

1. Min et. al. 2022. Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?当某些标签错误时,模型依然能够做出正确的预测。这标明模型更受提示的 [格局] 影响,而不是提示的 [含义] 。

2. Wang et. al. 2022. Towards UnderstandingChain-of-Thought Prompting: An Empirical Study of What Matters

即使提示中的推理错误,模型依然能够正确推理,但提示的相关性和推理过程的顺序更为重要 —— 这再次标明,模型更受提示的 [格局] 影响,而不是提示的[含义]。

3. Madaan and Yazdanbakhsh. 2022. Text and Patterns: For Effective Chain of Thought, It Takes Two to Tango

详细剖析显现,提示的格局能够改善 CoT 推理(虽然内容的正确性或许不起到强烈效果)。

简而言之,模型只重视提示的格局,但或许不会遭到提示正确性的明显影响。但是,模型在多大程度上会遭到提示正确性的影响,或许提示能够在多大程度上覆盖模型的先验信仰,还是一个尚待研讨的问题。以下论文评论了怎么经过改善和反应来进步模型功能:

1. Madaan. et. al. 2023. Self-refine: Iterative refinement with self-feedback

模型能够在多个场景中(包含代码优化、数学推理、对话呼应生成等)对自身的推理进行优化和改善。

2. Madaan et. al. 2023. Learning Performance-Improving Code Edits

在程序轨道上进行练习能够改善编码。

简而言之,以自然言语方式(而非强化学习中的奖赏方式)对模型进行改善和反应十分有用,能够进一步进步言语模型的功能(不管是经过上下文学习还是微调)。

04 评价大言语模型的推理才能

在评论了练习强壮模型的办法和提示技巧之后,现在咱们评论对言语模型推理才能的评价。

1. 评价办法的根底常识

在谈论评价时,有三个重要因素需求考虑:数据格局、才能类型和模型类型。首要,提示时有四种数据格局:


其中:

  • In-context 指的是在测验问题之前附加一系列上下文示例;
  • Zero-shot 是指在没有上下文示例的情况下直接将测验问题输入给模型;
  • Chain-of-thought 是指在回答之前生成推理;
  • Answer-only 是指没有链式思想,直接给答案。

关于模型才能,有两种大致正交的才能类型:

  • 常识 knowledge:模型是否了解国际;
  • 推理 reasoning:模型是否能够根据其常识进行推理。

这两个方面并不是严厉正交的,由于一些推理规矩也能够被视为某种方式的常识。但是,在评价时,这两种才能有明显的差异:

  • 一些数据集更重视对常识的评价,如 MMLU,它测验模型是否具有高达大学水平的常识;
  • 一些数据集更重视对推理的评价,如 BBH,它测验模型是否具有逐渐处理问题的才能;
  • 关于常识,链式思想与仅回答的体现类似(拜见 FlanPaLM 论文);
  • 关于推理,链式思想比仅回答体现得更好(拜见原始 CoT 论文,然后拜见 FlanPaLM 论文)。

在实践中,由于 CoT 在到达或优于 Answer-only 的体现,而且 CoT 更加用户友爱(由于它告知用户考虑过程),现代聊天机器人总是布置 CoT(不管你问 ChatGPT 什么,它都会告知你一堆它的想法)。

最终,在评价方面,咱们区分了两种类型的模型:预练习之后的 checkpoint 和指令微调之后的 checkpoint。

  • 预练习 checkpoint 具有 in-context learning 的才能。大大都预练习模型能够进行 in-context answer-only,一些更好的模型能够进行 in-context chain-of-thought(但现在尚不清楚为什么某些预练习模型能够进行 CoT 而其他模型却不能)。但是,预练习 checkpoint 或许无法进行 zero-shot,由于它们没有经过这方面的练习(但某些预练习检查点依然能够进行 zero-shot CoT,请参阅 “让咱们逐渐考虑” 的论文)。
  • 指令微调过后的 checkpoint 既具有 zero-shot 又有 in-context 的才能。这里需求留意的是,假如没调好,指令微调之后 in-context 功能或许会稍有下降。

综上所述,咱们主张运用 in-context chain-of-thought 进行评价:

  • In-context 是评价 pretrained checkpoint 的更好办法,由于它更好地提醒了模型潜力。Zero-shot 或许轻视模型功能,尤其是关于不支持 Zero-shot chain-of-thought 的(“让咱们逐渐考虑”)的模型。
  • Chain-of-thought prompting 是评价推理才能的更好办法,由于它比 answer-only prompting 更充分地发挥了模型的推理功能。

2. Chain-of-thought Hub 简介

在评论了一切评价根底常识之后,咱们介绍 Chain-of-thought Hub,这是一个正在进行的作业,期望成为评价言语模型推理才能的统一平台。

咱们汇编了一个包含数学(GSM8K)、科学(MATH)、符号(BBH)、常识(MMLU)等杂乱推理使命的列表,以衡量哪些模型的确更好。下面是当时的排行榜。虽然许大都字还没跑出来,但当时的内容依然能给一个大概的模型排名:


相关推荐