ChatGPT在金融营销领域的应用(4)

2023-05-03 来源:飞速影视
其中Wi表示第i个位置的被遮蔽的单词,通常在文本中用一个特殊符号“[MASK]”标记,Wi表示第i个位置之后的单词序列,表示文本序列的长度。使用MLM技术可以迫使模型学习到上下文信息,并在预测下一个标记时考虑到前面已经出现的标记。MLM损失函数的目标是最小化模型预测被替换标记的概率分布与真实标记的概率分布之间的差异,即使上述似然函数最大。
在训练ChatGPT模型时,需要使用梯度下降算法对模型参数进行优化,以最小化模型的损失函数。ChatGPT 使用随机梯度下降 (SGD) 的变体进行训练,称为 Adam 优化器。Adam 优化器结合了 SGD 和均方根传播 (RMSProp) 优化算法的优点,在训练过程中可以自适应地调整学习率,有助于模型更快、更准确地收敛。
从GPT-1到GPT-3,GPT模型的几个重要参数都在迅速增大。词向量的维度从768维快速增加到12888维;上下文窗口大小从1024增加到2048;每层Transformer的注意头从12个增加到96个,Transformer的层数从12层增加到96层。模型参数从1.17亿急剧增加到1750亿,训练的代价也从几百万美元增加到上亿美元。随着模型参数量急剧增大,模型甚至涌现出一些人们预料之外的能力。

03 模型优化和微调


模型微调的训练数据来自多个NLP任务(如分类、相似、选择和蕴含推理等)的公开数据集,这些数据集有明确的标注,规模相对较小。OpenAI未公开所使用的数据集,一些常用的NLP数据集列举如下:

ChatGPT在金融营销领域的应用


模型微调时只训练输出层和分隔符的嵌入值。利用分隔符使模型能使用相同的方式(预测下一个单词)来处理不同的NLP任务。ChatGPT微调时使用的数据集包括Cornell Movie Dialogs Corpus、Persona-Chat、DailyDialog等,这些数据集覆盖了不同领域和类型的对话,包括电影对话、个性化对话、日常对话等。通过使用这些数据集,ChatGPT可以更好地理解和模拟人类对话,从而提高其生成对话的质量和流畅度。
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号