仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-306
请扫码咨询

新媒易动态

NEWS CENTER

GPT大模型是一种依据深度学习的自然言语处理模型,也便是LLM

2024-02-04

在人工智能的领域,大模型在去年现已成为了一个抢手的话题。各大厂商如谷歌、微软、OpenAI等,都在积极研发和使用大模型技能。这些模型在言语理解、图像识别、引荐体系等方面都体现出了惊人的才干,甚至在某些任务上,现已逾越了人类的体现。

或许你用过,惊叹于它的奇特,或许你没有用过,听着它的传奇。无论怎么,都懂那么一点点,但很难讲的清,它到底是怎么生成的?

咱们接下来就讲透它生成的原理,并了解四种构建AI使用的大模型技能架构。

一、大模型的生成原理

首要,咱们要了解的是,GPT大模型是一种依据深度学习的自然言语处理模型,也便是LLM。

(敲黑板,LLM是一种生成文字的模型,文生图比方DALL·E,它和LLM都是多模态言语模型的分支)它的作业原理能够简略地理解为“学习言语的规则”,它的生成方法只是依据上文,猜下一个词的概率。


那它为什么会把握这么多的知识?那是因为在模型练习进程中,GPT模型会阅读很多的文本数据,然后学习这些文本中的言语规则。

这个进程能够类比为人类学习言语的方法。当咱们是婴儿时,咱们会经过听爸爸妈妈和周围的人说话,学习言语的规则。


比方,咱们会学习到“我”一般后面会跟“是”,“你”一般后面会跟“好”等等。这便是一种言语规则。GPT模型便是经过相似的方法,学习言语的规则。

但是,GPT模型的学习才干远超人类。

它能够阅读数以亿计的文本,学习到十分杂乱的言语规则。这便是为什么GPT模型能够生成十分自然、连贯的文本。

二、GPT模型怎么学习言语的规则

提到这儿,需求咱们了解一下GPT模型的内部结构。GPT模型是由多层神经网络组成的。每一层神经网络都能够抽取文本的某种特征。比方:

  • 第一层神经网络或许会抽取出单词的拼写规则;
  • 第二层神经网络或许会抽取出词性的规则;
  • 第三层神经网络或许会抽取出句子的语法规则等等。

经过这种层层抽取,GPT模型能够学习到十分深层次的言语规则。

当GPT模型生成文本时,它会依据已有的文本,猜测下一个单词,全体便是经过这种方法,生成连贯的文本。

当然,这只是一个十分简化的版别。实际上,GPT模型的作业原理还涉及到许多杂乱的数学和计算机科学知识。

三、大模型的四种使用技能架构

大模型的厉害之处,其实不止在于它很像咱们人学习言语,而更大的效果在于它未来会改变咱们的日子和职场。从全体现有最新的架构来看,其实有四种大模型的使用架构,从上往下,顺次从简略到杂乱。

第一种:Prompt(指令工程)

指令工程听着如同很遥远,其实便是经过下面这个输入框触发的:


看上去简略,但这个很考验一个人写prompt的“功力”。

prompt的效果便是经过引导模型生成特定类型的文本。一个好的prompt能够引导模型以希望的方法生成文本。例如,如果咱们想让模型写一篇关于全球变暖的文章,咱们能够给模型一个prompt,如“全球变暖是一个严峻的问题,因为…”。模型会依据这个prompt生成一篇文章。

这种方法的长处是简略直观,但缺陷是或许需求很多的测验才干找到一个好的prompt。

第二种:Function calling(函数调用)

Function calling是一种更深入的使用架构,它经过调用模型的内部函数,直接获取模型的某些特性。

例如,咱们能够调用模型的词向量函数,获取单词的词向量。

相关推荐