登录会员系统用户名  密 码     
|
当前位置:首页 >> 业界动态 >> 业界动态
GPT 的原理
2024/11/7 13:05:39    新闻来源:中国仿真学会生命系统建模仿真专业委员会

从GPT 的命名上来看一下它的原理:GPT是「Generative Pre-trained Transformer」的缩写,意为生成式预训练变换器。接下来,我们先看看传统技术流方式如何解释 G、P、T 三个字母所代表的含义:

(1)G 代表 Generative(生成式):这是一种机器学习模型,其目标是学习数据的分布,并能生成与训练数据相似的新数据。在自然语言处理(NLP)领域,生成式模型可以生成类似于人类所写的文本。GPT模型作为一个生成式模型,能够根据给定的上下文生成连贯的文本。

生成式模型就是通过学习对应内容的规则和形式,然后生成符合要求的内容。

比如 GPT 就是学习大量的人类文本,了解到什么样的文本内容对人类来讲是合理的,然后生成我们人类认为通顺有意义的文本内容。另一个同样火爆的 Diffusion 模型,则是学习大量的人类图像内容,然后生成我们人类认为合理的图像。

大家可以把简单把 AI 本身理解为我们应该都很熟悉的一次函数,只不过拥有很多参数:

y = (w1 * x1 + w2 * x2 + w3 * x3 + ……) + b

x 可以看出我们输入给 AI 的内容,w 我们已经得到的参数,b 是一个偏置值。

我们所说的 AI 或者说机器学习,学习到某样东西,就是指 AI 通过参考数据集里面无数的 x 和 y ,经过无数次试错,得到合适的参数 w1,w2,w3……的值,和一个合适的 b 偏置值,使得我们的输入 x1,x2……会输出贴近我们最终要求的 y。

当前,按照目前的技术路线,这些模型本质上仍然是通过一系列复杂的数学函数和训练数据学习映射关系,最多可能作为未来新技术路线可能的探索,目前人工神经网络与生物神经网络的结构和计算方式还是存在着明显区别,人工神经网络在许多方面更简化,真实的生物神经网络会有更多复杂的特征和连接。

不过人类的智能之所以诞生,很大程度上离不开我们大脑里面神经元复杂的数量和信息传递,但神经活动底层本质上仍然是电信号的简单传递。到后面我们会了解到 AI 的「涌现」特性,展现了数学逻辑其实也有可能是另一种「神经活动」的基础,只不过之前的机器学习模型规模限制导致无法产生自发的「涌现」。

(2)P 代表 Pre-trained(预训练):预训练是深度学习领域的一种常见方法,通过在大规模数据集上进行训练,模型学习到一般的知识和特征。这些预训练的模型可以作为基础模型,针对具体任务进行微调。GPT模型通过预训练,在无标签的大规模文本数据集上学习语言模式和结构,为后续的任务提供基础。

预训练其实也很好理解,就是上面 AI「学习」得到 w1、w2……和 b,也就是总结一般规律的过程。

而训练集就是我们收集喂给 AI 的大量数据,在这个过程中数据的数量和质量同等重要。数量不够,AI 便无法得出正确的参数值;质量不够,AI 得到的参数值是生成的内容,可能和我们要求相差甚远。

GPT 模型并不算一个很新的概念,而之所以 GPT3.5 和 GPT4 效果突然突飞猛进,离不开 OpenAI 在数据集上下的功夫。

首先是数据准备:在训练和微调GPT模型之前,需要收集大量的文本数据。这些数据可能来自各种来源,如网页、书籍、新闻文章等。数据的质量和多样性对模型的表现至关重要。原始数据需要经过预处理,以消除噪音并使其适用于训练。预处理步骤可能包括去除特殊字符、分词、去除停用词等。这部分会决定最后的模型有多「通用」。

然后是用上一些数据集能够提升模型生成效果的手段,这里简单列举两个:

  • 掩码机制:在预训练阶段,GPT 会采用到掩码语言模型(Masked Language Model,MLM)的策略(GPT3/4 本身是基于自回归机制 CLM)。在这个过程中,输入文本的一部分会被随机替换成特殊的掩码符号,模型需要根据上下文信息预测被掩码的词。这有助于模型学习更好地理解上下文,并提高预测能力。
  • 微调:GPT的预训练阶段学到的是通用的知识和语言特征。为了使模型在特定任务上表现得更好,需要对其进行微调。微调是指在有标签(需要人工给数据添加标注)的小规模数据集上继续训练模型,使其适应特定任务。这种方法可以显著提高模型在特定领域的性能。在训练和微调过程中,人工干预可能包括选择合适的超参数,如学习率、批量大小、层数等。这些参数会影响模型的性能和训练时间。

(3)T 代表 Transformer(变换器):Transformer 是一种在自然语言处理中广泛使用的神经网络结构。它通过自注意力(Self-Attention)机制有效地捕捉上下文信息,处理长距离依赖关系,并实现并行计算。GPT模型采用Transformer结构作为基础,从而在处理文本任务时表现出优越性能。

Transformer 是一种神经网络结构,它利用了自注意力(self-attention)机制和多层编码器(encoder)与解码器(decoder)层,从而有效地处理长距离依赖关系和捕获不同层次的文本信息。

Transformer 解决的问题,就是 AI 如何快速准确地理解上下文,并且以通用且优雅、简洁的方式。而「注意力机制」就是解决这个问题的关键。

自注意力机制:自注意力是一种计算文本中不同位置之间关系的方法。它为文本中的每个词分配一个权重,以确定该词与其他词之间的关联程度。通过这种方式,模型可以了解上下文信息,以便在处理一词多义和上下文推理问题时作出合适的决策。


地址:北京市海淀区学院路37号工程训练中心637室 电话:010-82317098 传真:010-82317098 
中国仿真学会 版权所有 电子邮箱:cassimul@vip.sina.com
京ICP备17016611号-1; 技术支持:北京中捷京工科技发展有限公司(010-88516981)