什么是大语言模型（LLM）# AI大模型#AI科普#通义千问

欢迎收看人人都能懂的a i大模型科普课，第二节之啥是大禹语言模型。二零二二年十一月三十日open ai发布chat g p t，一跃成为当下最快达到一百万用户的线上产品，也带动大语言模型成为了时下热点，更多a i聊天助手雨后春笋一般出现在大家的视野里。那你真的了解大语言模型吗？大语言模型也叫l l m linh language model，是用于做自然语言相关任务的深度学习模型。给模型一些文本内容输入，它能返回相应的输出，完成的具体任务可以是生成、分类、总结、改写等等。

单元模型首先需要通过大量文本进行无监督学习。以g p t三为例，它的训练数据有多个互联网文本语料库，覆盖线上书籍、新闻文章、科学论文、维基百科、社交媒体帖子等等。借助海量的训练文本数据模型，能更多了解单词与上下文之间的关系，从而更好的理解文本的含义，并生成更准确的预测。但大语言模型的大指的不仅仅是训练数据巨大，而是参数数量巨大。

参数是模型内部的变量，可以理解为是模型在训练过程中学到的知识。参数决定了模型如何对输入数据做出反应，从而决定模型的行为。在过去的语言模型研究中发现，用更多的数据和算力来训练具有更多参数的模型，很多时候能带来更好的模型表现。这就像要a i学习做蛋糕，只允许a i调整面粉、糖蛋的量和允许a i调整面粉、糖、蛋、奶油、牛奶、苏打粉、可可粉的量，以及烤箱的时长和温度。

后者由于可以调整的变量更多，更能让ai模仿做出更好吃的蛋糕。随着参数的增加，他甚至有能力做出别的玩意儿，创造一些全新的品种。所以如今语言模型的参数数量可能是曾经的数万倍甚至数百万倍。以open i的第一个大模型g p t一为例，它有一点一七亿个参数。

到了g p t二参数有十五亿个，而g p t三的参数又增长到了一千七百五十亿个。这让大模型不像小模型那样局限于单项或某几项任务。而是具有更加广泛的能力。比如在这之前，我们可能要训练单独的模型，分别去做总结、分类、提取等等任务。

但现在一个大模型就可以搞定这一切。像chat、g p t cloud、文心一言言通义千问等ai聊天助手都是基于大语言模型的应用。如果说二零二二年年底chat g p t的惊艳亮相，是大语言模型公众认知被显著提升的里程碑。那它技术发展的里程碑其实要回溯到二零一七年。

二零一七年六月，谷歌团队发表论文attention is all it，提出了transformer架构。自此自然语言处理的发展方向被改变了，随后出现了一系列基于transformer架构的模型。二零一八年open a i发布g p t一点零，谷歌发布bert二零一九年open a i发布g p t二点零，百度发布a i一点零等等。所以大语言模型的发展早就如火如荼了，并不是像很多人以为的到了二零二二年才有所突破。

但因为chat g p t直接向公众开放，而且能让用户在网页上用对话的方式进行交互，体验很流畅丝滑。大众的目光才被吸引过去。chat g p t背后的模型，g p t首字母分别表示generative prechamber transformer、生成式预训练transformer，也表明transformer是其中的关键。所以要了解大语言模型就无法跳过transformer。

在transformer架构被提出之前，语言模型的主流架构主要是循环神经网络，简称r n。r n按顺序逐字处理，每一步的输出取决于先前的隐藏状态和当前的输入。要等上一个步骤完成后才能进行当前的计算，因此无法并行计算，训练效率低。而且呢r n不擅长处理长序列，也就是长文本。

由于r n n的架构特点，此时间距离越远，前面对后面的影响越弱，所以它难以有效捕获到长距离的语义关系。但在人类自然语言中，依赖信息之间距离较远是很常见的情况。比如这句话里正确预测下一个词的关键是距离很远的广东。如果用r n生成后续内容，到了这里的时候，他可能已经把前面的信息忘没了。

为了捕获长距离依赖性，后来也出现了r n的改良版本，l s t m长短期记忆网络。但是这也并没有解决传统r n无法并行计算的问题。而且在处理非常长的序列时也依然受到限制。后来transformer他的七彩祥云出现了。

它有能力学习输入序列里所有词的相关性和上下文。不会受到短时记忆的影响。能做到这一点的关键在于transformer的自注意力机制。也正如论文标题所说。

attention is all you need. 注意力就是你所需要的一切。简单来说。transformer在处理每个词的时候，不仅会注意这个词本身。以及它附近的词，还会去注意输入序列里所有其他的词。

然后其余每个词不一样的注意力权重。权重是模型在训练过程中通过大量文本逐渐习得的。因此transformer有能力知道当前这个词和其他词之间的相关性有多强，然后去专注于输入里真正重要的部分。即使两个词的位置隔得很远，transforming依然可以捕获到它们之间的依赖关系。

比如这个例子，单从语法上来讲，it可以指的是离得更近的street，也可以是离得更远的animal。这里自注意力机制捕获到了it和animal之间更强的关系。因此更集中在animal上。除了自注意力机制，transformer的另一项关键创新是位置编码。

在语言里顺序很重要，即使句子里包含的字都是一样的，但顺序不一样也能导致意思大相径庭。这也是为什么自然语言处理领域会用序列这个词，因为它表示一系列按照特定顺序排序的元素。前面提到r n和人类阅读文本一样，对输入序列同样是按顺序依次处理。这就造成了训练速度的瓶颈。

因为只能串行，没办法并行，也就是没法同时去学习所有信息。transform再把磁输入给神经网络前，除了会先对词进行嵌入转换成向量，也就是把磁各用一串数字表示，还会把每个词在句子中的位置也各用一串数字表示，添加到输入序列的表示中。然后把这个结果给神经网络，那模型既可以理解每个词的意义，又能够捕获词在句子中的位置，从而理解不同词之间的顺序关系。借助位置编码词可以不按顺序输入给transformer模型可以同时处理输入序列里的所有位置，而不需要像r a n那样依次处理。

那么在计算时，每个输出都可以独立的计算，不需要等待其他位置的计算结果，这大大提高了训练速度。训练速度一快，训练出巨大的模型也不是那么难了。自attention is all you need。fiber之后，transformer以及它的变体已经被普遍运用在大型数据集上来训练大语言模型。

所以呢transworld架构对我们当下能拥有那么多牛叉的大语言模型功不可没。如果你好奇transformer具体是如何工作的，以及chat g p t背后的g p t模型是如何生成文本的。下一节会有详细的介绍。我们下个视频见。

什么是大语言模型（LLM）# AI大模型#AI科普#通义千问

图文助手更多>>