当前位置：首页 >新媒易动态 >视频号购买

GPT大模型是一种依据深度学习的自然言语处理模型，也便是LLM

2024-02-04

在人工智能的领域，大模型在去年现已成为了一个抢手的话题。各大厂商如谷歌、微软、OpenAI等，都在积极研发和使用大模型技能。这些模型在言语理解、图像识别、引荐体系等方面都体现出了惊人的才干，甚至在某些任务上，现已逾越了人类的体现。

或许你用过，惊叹于它的奇特，或许你没有用过，听着它的传奇。无论怎么，都懂那么一点点，但很难讲的清，它到底是怎么生成的？

咱们接下来就讲透它生成的原理，并了解四种构建AI使用的大模型技能架构。

一、大模型的生成原理

首要，咱们要了解的是，GPT大模型是一种依据深度学习的自然言语处理模型，也便是LLM。

（敲黑板，LLM是一种生成文字的模型，文生图比方DALL·E，它和LLM都是多模态言语模型的分支）它的作业原理能够简略地理解为“学习言语的规则”，它的生成方法只是依据上文，猜下一个词的概率。

那它为什么会把握这么多的知识？那是因为在模型练习进程中，GPT模型会阅读很多的文本数据，然后学习这些文本中的言语规则。

这个进程能够类比为人类学习言语的方法。当咱们是婴儿时，咱们会经过听爸爸妈妈和周围的人说话，学习言语的规则。

比方，咱们会学习到“我”一般后面会跟“是”，“你”一般后面会跟“好”等等。这便是一种言语规则。GPT模型便是经过相似的方法，学习言语的规则。

但是，GPT模型的学习才干远超人类。

它能够阅读数以亿计的文本，学习到十分杂乱的言语规则。这便是为什么GPT模型能够生成十分自然、连贯的文本。

提到这儿，需求咱们了解一下GPT模型的内部结构。GPT模型是由多层神经网络组成的。每一层神经网络都能够抽取文本的某种特征。比方：

经过这种层层抽取，GPT模型能够学习到十分深层次的言语规则。

当GPT模型生成文本时，它会依据已有的文本，猜测下一个单词，全体便是经过这种方法，生成连贯的文本。

当然，这只是一个十分简化的版别。实际上，GPT模型的作业原理还涉及到许多杂乱的数学和计算机科学知识。

大模型的厉害之处，其实不止在于它很像咱们人学习言语，而更大的效果在于它未来会改变咱们的日子和职场。从全体现有最新的架构来看，其实有四种大模型的使用架构，从上往下，顺次从简略到杂乱。

指令工程听着如同很遥远，其实便是经过下面这个输入框触发的：

看上去简略，但这个很考验一个人写prompt的“功力”。

prompt的效果便是经过引导模型生成特定类型的文本。一个好的prompt能够引导模型以希望的方法生成文本。例如，如果咱们想让模型写一篇关于全球变暖的文章，咱们能够给模型一个prompt，如“全球变暖是一个严峻的问题，因为…”。模型会依据这个prompt生成一篇文章。

这种方法的长处是简略直观，但缺陷是或许需求很多的测验才干找到一个好的prompt。

Function calling是一种更深入的使用架构，它经过调用模型的内部函数，直接获取模型的某些特性。

例如，咱们能够调用模型的词向量函数，获取单词的词向量。