ChatGPT在金融营销领域的应用(3)
2023-05-03 来源:飞速影视
5. 输出层(Output Layer)
将解码器的输出序列经过一个全连接层进行处理,得到最终的输出结果。通常使用SoftMax函数将输出转换为概率分布,以进行分类等任务。
总的来说,Transformer架构可以看作是对输入序列进行编码和解码的过程,并使用自注意力机制捕捉序列中的依赖关系,以便更准确地处理长序列数据。
在这个处理过程中,语言文本中的单词都被转化为向量表示,这个向量就是词向量。词向量将单词表示为一个固定长度的向量,其中每个维度代表了单词在不同语境下的含义。向量之间的距离与词语之间的语义相似度保持一致,这样单词之间的相似性和关联性就可以在词向量空间中获得表示。这种方式将单词转换为计算机可以处理的数值形式,从而可以方便地进行各种自然语言处理任务。
ChatGPT是使用无监督学习的方式进行训练的。在训练ChatGPT模型时,需要定义一个损失函数,它可以帮助我们评估模型的性能并指导其学习——即训练模型的目标是使损失函数最小化。
在ChatGPT的训练中,损失函数一般是基于语言模型的交叉熵损失函数。交叉熵损失函数的目标是最小化模型预测的概率分布与实际概率分布之间的差异。两者之间的差异越小,则代表模型的性能就越好。GPT最早期使用的是一种基于自回归模型的语言模型,它通过最大化给定输入序列的下一个单词出现的概率来预训练模型。自回归模型的目标是最大化模型对无标注文本数据的似然性,即最大化模型在给定无标注文本数据下的对数似然函数。这样,训练出来的模型可以在当前输入文本序列的基础上,预测下一个单词出现的概率。预测概率的一个重要指标就是似然性,即当前模型预测的结果与实际观测值之间的相似程度。
在GPT-2,GPT-3中,在模型预训练阶段还引入了掩码语言模型(MLM,Masked Language Model,和Bert中的一样)。MLM的目标是在输入序列中随机遮盖一些单词,并让模型预测这些被遮盖的单词。掩码语言模型的似然函数表示为:
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号