ChatGPT在金融营销领域的应用(5)

2023-05-03 来源:飞速影视
一般的模型在训练时以预测下一个单词的方式和最小化损失函数来建模,未能引入人的偏好和主观意见。ChatGPT在模型优化和微调时使用了指令微调 (Instruction Fine-Tuning,IFT),有监督微调 (Supervised Fine-tuning, SFT)和人类反馈强化学习 (Reinforcement Learning From Human Feedback,RLHF)等方法来提高生成文本的质量。
指令微调可以让模型学会以正确的方式遵循用户的指令。指令范式由三个主要部分组成:指令,输入和输出。IFT 的训练数据通常是人工编写的指令及用语言模型自举生成的实例的集合。在自举时,先输入一些指令样本给LLM 用于提示它,随后要求 LLM 生成新的指令、输入和输出。每一轮都会从人工编写的样本和模型生成的样本中各选择一些高质量指令输入到模型中。然而经过指令微调的模型并不总是生成有帮助的和安全的响应,所以还需要在高质量的人类标注数据上使用SFT来微调模型,以提高有用性和无害性。
RLHF的思想是使用强化学习的方式直接优化带有人类反馈的语言模型。RLHF使得在一般文本数据语料库上训练的语言模型能和复杂的人类价值观对齐。RLHF的训练过程可以分解为三个核心步骤:1.预训练语言模型;2.收集数据并训练奖励模型;3.通过强化学习微调LM。RLHF的实现包括两个重要的组成部分:奖励模型和人类反馈收集。奖励模型是一个用于评估生成文本质量的模型,它基于已有的训练数据和人类反馈,学习生成文本的质量,并给出相应的奖励或惩罚。奖励模型的目标是最大化模型得到的总体奖励。
在ChatGPT中,奖励模型是通过对人类反馈进行监督学习得到的,这些反馈包括对生成文本的评价和改进建议。人类反馈收集是RLHF的另一个重要组成部分,它用于训练奖励模型并提供奖励或惩罚。在ChatGPT中,人类反馈收集主要通过两种方式实现。一种是在线收集人类反馈,即让人类用户在与聊天机器人对话时,对机器人生成的文本进行评价和反馈。另一种是离线收集人类反馈,即从已有的人类对话记录中提取生成文本和人类反馈,用于奖励模型的训练和模型参数的微调。
最后使用近端策略优化 (Proximal Policy Optimization,PPO) 微调初始 LM 的部分或全部参数。PPO 算法确定的奖励函数具体计算如下:将提示输入初始 LM 和当前微调的 LM,分别得到了输出文本,将来自当前策略的文本传递给 RM 得到一个标量的奖励 ,将两个模型的生成文本进行比较,计算差异的惩罚项。在每个训练批次中,这一项被用于惩罚 RL策略生成的文本大幅偏离初始模型,以确保模型输出合理连贯的文本。最后根据 PPO 算法,我们按当前批次数据的奖励指标进行优化。PPO 算法是一种信赖域优化 (Trust Region Optimization,TRO) 算法,它使用梯度约束确保更新步骤不会破坏学习过程的稳定性。
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号