GPT-4大模型硬核解读!看完成半个专家(14)

2023-05-03 来源:飞速影视
此时的SFT模型在遵循指令/对话方面已经优于GPT-3.5,但对多模态的解答不一定符合人类偏好。
▲GPT-4训练过程(基于GPT-4技术报告绘制)
第二阶段:训练奖励模型(RRM)和基于规则的奖励模型(RBRM)这一阶段包括基于规则的奖励模型(Rule-Based Reward Model,RBRM)和奖励模型(Reward Mode,RM)首先基于安全规则设计基于规则的奖励模型并完成验证。这一模型与传统NLP领域的规则模型设计方法一致。然后在数据集中抽取问题,使用第一阶段生成的模型,对于每个问题,生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。(有点像互联网企业的审图师)接下来,使用这个排序结果数据来训练GPT-4的奖励模型。对多个排序结果,两两组合,形成多个训练数据对。RM模型接受一个输入,给出评价回答质量的分数。这样,对于一对训练数据,调节参数使得高质量回答的打分比低质量的打分要高。这一过程类似于教练或老师辅导。
▲PPO算法示意(来源:澳大利亚Monash大学)
第三阶段:采用PPO(Proximal Policy Optimization,近端策略优化)强化学习来优化策略PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy,即将在线学习转化为离线学习,这个转化过程被称之为Importance Sampling。这一阶段利用第二阶段训练好的奖励模型和基于规则的奖励模型,靠奖励打分来更新预训练模型参数。在GPT-4数据集中抽取问题,使用PPO模型生成回答,并用上一阶段训练好的RM RBRM模型给出质量分数。把回报分数依次传递,由此产生策略梯度,通过强化学习的方式以更新PPO模型参数。如果不断重复第二和第三阶段,通过迭代,会训练出更高质量的GPT-4模型。整个训练的核心在于高质量数据集/Prompt的构建、思维链的训练技术、大算力工程能力、早期训练空间的预测和优选。
数据量反而不那么重要,并不是富裕人家的孩子看的电视剧越多,就越能够考上好大学。3.3模型训练参数空间的早期筛选这一部分讲的是降低训练量的技术,或者说是节约大量购买服务器的经费的技术。据论文Scaling Laws for Neural Language Models (2020),可以通过三个要素计算通过交叉熵损失预估GPT-4/GPT-3.5预训练模型性能。这三个要素是模型参数数量、训练期间计算量以及训练数据大小。这三个因素与损失之间存在幂律关系。这意味须将计算量、数据和参数量增加10倍才能将损失减少一个单位,增加100倍才能将损失减少两个单位,依此类推。为了提升GPT模型性能(主要是精度),比较经济的做法是在相对少量的数据上训练较大的模型,并在更多的训练步骤或数据上投入更多的计算,以最大限度地减少精度损失。
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号