当前位置：首页 > 资讯 >

为什么所有GPT-3复现都失败了？使用ChatGPT你应该知道这些(4)

2023-04-30 来源:飞速影视

PaLM 采用了 Pathways，这是一个基于 TPU 的模型并行和数据并行系统。GPT-3 的训练系统的细节仍然未知，但它们至少在一定程度上使用了模型并行（一些人称它使用了 Ray）。不同的训练系统和硬件可能导致不同的训练时的现象。显然，一些在 PaLM 的文章中呈现的、用于 TPU 训练的设置，可能并不适用于其它所有模型使用的 GPU 训练。
硬件和训练框架的一个重要的影响是，人们是否可以使用 bfloat16 去存储模型权重和中间层激活值等。这已经被证明是稳定训练的一个重要因素，因为 bfloat16 可以表示更大范围的浮点数，能够处理在损失尖峰时出现的大数值。在 TPU 上 bfloat16 是默认设置，这可能是 PaLM 能够成功的一个秘密。但是在 GPU 上，以前人们主要使用 float16，这是 V100 中混合精度训练的唯一选择。
OPT 使用了 float16，这可能是其不稳定的因素之一。BLOOM 发现了这样的问题并最终在 A100GPU 上使用了 bfloat16，但它没有意识到这种设置的重要性，因此在第一个词向量层后引入额外的层归一化（layer normalization），用于解决他们使用 float16 的初步实验中的不稳定性。然而，这种层归一化已被证明会导致更糟糕的零样本泛化（zero-shot generalization），这可能是 BLOOM 失败的一个因素。
2. 训练过程中的修改。OPT 做了很多中途调整并从最近的 checkpoint 重启训练，包括改变截断梯度范数 (clip gradient norm) 和学习率，切换到简单的 SGD 优化器然后回到 Adam，重置动态损失标量 (dynamic loss scalar)，切换到更新版本的 Megatron 等等。
这种中途调整可能是 OPT 失败的原因之一。相比之下，PaLM 几乎没有做任何中途调整。它只是当损失尖峰出现时，从尖峰开始前大约 100 步的 checkpoint 重新开始训练，并跳过了大约 200-500 个 batch 的数据。仅仅依靠这种简单的重启，PaLM 就取得神奇的成功。这是由于它在预训练数据构建期间就已经完成采样，因此模型具有在 Bit 意义上的确定性，以及它对模型架构和训练设置进行了许多修改以获得更好的稳定性。PaLM 中的此类修改在下一点中展示。

1 2 3 4 5 6 ...14 查看全文

为什么所有GPT-3复现都失败了？使用ChatGPT你应该知道这些(4)

那一晚，我知道你做了什么

我知道你去年夏天干了什么第一季

这部惊悚电影太生猛，看完才知道为什么只能网盘看，后劲真大

我们只知道这些

为什么猫都叫不来

为什么老师会在这里！？

抄袭？开黄腔？玩烂梗吃老本？成龙最新电影为什么争议这么大

爱情有什么道理