新媒易动态
NEWS CENTER
NEWS CENTER
2023-08-20
在评论了怎么构建具有强壮推理才能的模型之后。在本节中,咱们将评论怎么有用地提示模型以充分释放模型的潜力。
以下论文推荐给初学者:
1. Wei et. al. 2022. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models本文是第一篇发现当运用链式思想进行提示时,存在一个相变现象,标明大型模型在很大程度上优于较小的模型,这进一步导致了呈现才能的发现。
2. Wang et. al. 2022. Self-Consistency Improves Chain of Thought Reasoning in Language Models
对采样的 CoT 推理途径进行大都投票,明显进步了推理功能。
3. Suzgun et. al. 2022. Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them
运用 CoT 处理 big-bench 中困难的使命。这篇论文的一个有含义的副产品是 BigBench Hard 数据集,它在测验模型推理才能方面十分有用。
以下论文评论了高级 CoT 提示实践:
1. Fu et. al. 2023. Complexity-Based Prompting for Multi-Step Reasoning
运用杂乱链代替简略链作为上下文示例。
2. Khot et. al. 2023. Decomposed Prompting: A Modular Approach for Solving Complex Tasks
将杂乱使命分解为更简略的使命,然后逐个处理。
通常,关于杂乱使命,首要将其分解为更简略的使命,然后逐渐处理更简略的使命。
以下论文评论了上下文学习为什么起效果:
1. Xie et. al. 2021. An Explanation of In-context Learning as Implicit Bayesian Inference言语模型在提示中的示例之间推断出一个潜在概念,并进入相应的使命方式。
2. Wei et. al. 2023. Larger language models do in-context learning differently
当呈现与先验知知趣对立的上下文示例时,虽然大型模型或许具有更强的语义先验,大型模型能够根据提示词来覆盖语义先验。
简而言之,上下文学习的要点是提示中的示例使模型进入相应的使命方式,然后执行使命。以下论文评论了模型在进行思想链推理时的行为:
1. Min et. al. 2022. Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?当某些标签错误时,模型依然能够做出正确的预测。这标明模型更受提示的 [格局] 影响,而不是提示的 [含义] 。
2. Wang et. al. 2022. Towards UnderstandingChain-of-Thought Prompting: An Empirical Study of What Matters
即使提示中的推理错误,模型依然能够正确推理,但提示的相关性和推理过程的顺序更为重要 —— 这再次标明,模型更受提示的 [格局] 影响,而不是提示的[含义]。
3. Madaan and Yazdanbakhsh. 2022. Text and Patterns: For Effective Chain of Thought, It Takes Two to Tango
详细剖析显现,提示的格局能够改善 CoT 推理(虽然内容的正确性或许不起到强烈效果)。
简而言之,模型只重视提示的格局,但或许不会遭到提示正确性的明显影响。但是,模型在多大程度上会遭到提示正确性的影响,或许提示能够在多大程度上覆盖模型的先验信仰,还是一个尚待研讨的问题。以下论文评论了怎么经过改善和反应来进步模型功能:
1. Madaan. et. al. 2023. Self-refine: Iterative refinement with self-feedback
模型能够在多个场景中(包含代码优化、数学推理、对话呼应生成等)对自身的推理进行优化和改善。
2. Madaan et. al. 2023. Learning Performance-Improving Code Edits
在程序轨道上进行练习能够改善编码。
简而言之,以自然言语方式(而非强化学习中的奖赏方式)对模型进行改善和反应十分有用,能够进一步进步言语模型的功能(不管是经过上下文学习还是微调)。
在评论了练习强壮模型的办法和提示技巧之后,现在咱们评论对言语模型推理才能的评价。
在谈论评价时,有三个重要因素需求考虑:数据格局、才能类型和模型类型。首要,提示时有四种数据格局:
其中:
关于模型才能,有两种大致正交的才能类型:
这两个方面并不是严厉正交的,由于一些推理规矩也能够被视为某种方式的常识。但是,在评价时,这两种才能有明显的差异:
在实践中,由于 CoT 在到达或优于 Answer-only 的体现,而且 CoT 更加用户友爱(由于它告知用户考虑过程),现代聊天机器人总是布置 CoT(不管你问 ChatGPT 什么,它都会告知你一堆它的想法)。
最终,在评价方面,咱们区分了两种类型的模型:预练习之后的 checkpoint 和指令微调之后的 checkpoint。
综上所述,咱们主张运用 in-context chain-of-thought 进行评价:
在评论了一切评价根底常识之后,咱们介绍 Chain-of-thought Hub,这是一个正在进行的作业,期望成为评价言语模型推理才能的统一平台。
咱们汇编了一个包含数学(GSM8K)、科学(MATH)、符号(BBH)、常识(MMLU)等杂乱推理使命的列表,以衡量哪些模型的确更好。下面是当时的排行榜。虽然许大都字还没跑出来,但当时的内容依然能给一个大概的模型排名: