当前位置：首页 > 资讯 >

GPT-4大模型硬核解读！看完成半个专家(7)

2023-05-03 来源:飞速影视

3、规则的学习效率有下降可能：由于模型需要在给定的规则集合中探索最佳策略，在规则设计不理想的情况下，基于规则的奖励模型可能导致较低的学习效率或过拟合。1.6优化技术——近端策略优化（PPO）算法GPT-4/ChatGPT中的近端策略优化（Proximal Policy Optimization，PPO）算法是一种高效的强化学习优化策略算法，由OpenAI的John Schulman等人于2017年提出。在GPT-4/ChatGPT里的使用应该算是新瓶装旧酒。PPO的前辈TRPO（Trust Region Policy Optimization）相对复杂，并且与包含噪声（例如Dropout）或参数共享（在策略和价值函数之间，或辅助任务）的架构不兼容。PPO算法试图解决上述问题，以及计算复杂性和难以调整的超参数。
PPO通过简化优化问题并限制策略更新的幅度，实现了更高效、更稳定的学习过程，具有实现简单、能同时处理离散连续动作空间问题、可大规模训练等优势。
▲PPO算法与同类其他算法的比较（来源：OpenAI）
PPO算法衍生于早期的策略梯度（Policy Gradient）算法，但通过一些技巧改进了其性能和稳定性，能够处理连续动作空间的问题。PPO在策略更新时限制新策略与旧策略之间的差异，从而确保策略改进的稳定性。这通过在目标函数中引入一个“代理”目标函数来实现，该代理目标函数限制了新策略和旧策略之间的KL散度。PPO算法的核心思想是在每次迭代中，通过一种称为近端策略优化（Proximal Policy Optimization）的方法来更新策略参数，以最大化预期收益。具体来说，PPO算法采用两个神经网络来表示模型的策略：一个执行动作（Actor），另一个处理奖励（Critic）。在每次迭代中，PPO算法会从环境中采样一批经验数据，并使用这些数据来更新策略参数和价值参数。更新的策略将被ε-clip到一个小区域，以防止可能具有不可恢复危害的巨大更新。
换句话说，优化的步伐不能太大也不能过小。PPO算法的主要特点如下：1）裁剪的目标函数：PPO通过裁剪策略比率（新策略概率与旧策略概率之比）来限制更新幅度。这种裁剪保证了新策略在旧策略的附近，使得更新更加稳定。2）重要度采样：PPO利用重要度采样来估计策略梯度，从而可以重复使用之前的经验来更新策略。这使得PPO在数据效率上更具优势。3）多次更新：PPO算法在每次收集一批数据后，对策略进行多次更新。这可以提高算法的收敛速度和稳定性。4）简化的优化问题：相比于其他方法，如TRPO，PPO算法将优化问题简化为一阶优化问题，这大大减少了计算复杂性。1.7安全技术——多模态幻觉检测大型语言模型（Large Language Model，LLM）的幻觉（Hallucination）指的是模型生成的输出包含一些与输入不符合的信息，这些信息可能是错误的、无关的或者荒谬的。

1 ...5 6 7 8 9 ...23 查看全文

GPT-4大模型硬核解读！看完成半个专家(7)

量产型璃子-模型女子的人生组装记-

量产型璃子-另一位模型女子的人生组装记-

混乱的韩国模特圈，模特们为成名费尽心机，令人大饱眼福的电影

硬核亨利

硬核机器人

我能看到成功率动态漫画第4季

这部惊悚电影太生猛，看完才知道为什么只能网盘看，后劲真大

一口气盘清《魔戒》三部曲，深度解读中土大战的各族势力