当前位置：首页 > 资讯 >

GPT-4大模型硬核解读！看完成半个专家(14)

2023-05-03 来源:飞速影视

此时的SFT模型在遵循指令/对话方面已经优于GPT-3.5，但对多模态的解答不一定符合人类偏好。
▲GPT-4训练过程（基于GPT-4技术报告绘制）
第二阶段：训练奖励模型（RRM）和基于规则的奖励模型（RBRM）这一阶段包括基于规则的奖励模型（Rule-Based Reward Model，RBRM）和奖励模型（Reward Mode，RM）首先基于安全规则设计基于规则的奖励模型并完成验证。这一模型与传统NLP领域的规则模型设计方法一致。然后在数据集中抽取问题，使用第一阶段生成的模型，对于每个问题，生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。（有点像互联网企业的审图师）接下来，使用这个排序结果数据来训练GPT-4的奖励模型。对多个排序结果，两两组合，形成多个训练数据对。RM模型接受一个输入，给出评价回答质量的分数。这样，对于一对训练数据，调节参数使得高质量回答的打分比低质量的打分要高。这一过程类似于教练或老师辅导。
▲PPO算法示意（来源：澳大利亚Monash大学）
第三阶段：采用PPO（Proximal Policy Optimization，近端策略优化）强化学习来优化策略PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy，即将在线学习转化为离线学习，这个转化过程被称之为Importance Sampling。这一阶段利用第二阶段训练好的奖励模型和基于规则的奖励模型，靠奖励打分来更新预训练模型参数。在GPT-4数据集中抽取问题，使用PPO模型生成回答，并用上一阶段训练好的RM RBRM模型给出质量分数。把回报分数依次传递，由此产生策略梯度，通过强化学习的方式以更新PPO模型参数。如果不断重复第二和第三阶段，通过迭代，会训练出更高质量的GPT-4模型。整个训练的核心在于高质量数据集/Prompt的构建、思维链的训练技术、大算力工程能力、早期训练空间的预测和优选。
数据量反而不那么重要，并不是富裕人家的孩子看的电视剧越多，就越能够考上好大学。3.3模型训练参数空间的早期筛选这一部分讲的是降低训练量的技术，或者说是节约大量购买服务器的经费的技术。据论文Scaling Laws for Neural Language Models (2020)，可以通过三个要素计算通过交叉熵损失预估GPT-4/GPT-3.5预训练模型性能。这三个要素是模型参数数量、训练期间计算量以及训练数据大小。这三个因素与损失之间存在幂律关系。这意味须将计算量、数据和参数量增加10倍才能将损失减少一个单位，增加100倍才能将损失减少两个单位，依此类推。为了提升GPT模型性能（主要是精度），比较经济的做法是在相对少量的数据上训练较大的模型，并在更多的训练步骤或数据上投入更多的计算，以最大限度地减少精度损失。

1 ...12 13 14 15 16 ...23 查看全文

GPT-4大模型硬核解读！看完成半个专家(14)

量产型璃子-模型女子的人生组装记-

量产型璃子-另一位模型女子的人生组装记-

混乱的韩国模特圈，模特们为成名费尽心机，令人大饱眼福的电影

硬核亨利

硬核机器人

我能看到成功率动态漫画第4季

这部惊悚电影太生猛，看完才知道为什么只能网盘看，后劲真大

一口气盘清《魔戒》三部曲，深度解读中土大战的各族势力