当前位置：首页 > 资讯 >

为什么所有GPT-3复现都失败了？使用ChatGPT你应该知道这些(6)

2023-04-30 来源:飞速影视

我们应该在哪些任务上使用 GPT-3.5 或 ChatGPT？
我尝试解释我们应该在哪些任务和应用上使用 GPT-3，而哪些则不该使用。为了展示 GPT-3 是否适合某个特定任务，我主要比较了带有提示（prompting）的 GPT-3 和经过微调的更小的模型，这些小模型有时还加入了其他特殊的设计。鉴于最近出现的更小的而且可以微调的 FLAN-T5 模型的良好性能，这一问题更加重要。
在理想情形下，如果微调 GPT-3 的负担是能够承担的，它可能带来更进一步的提升。然而，在一些任务上通过微调 PaLM-540B 带来的提升是如此有限，让人们怀疑在一些任务中微调 GPT-3 是否是值得的。从科学的角度来看，更公平的比较应在微调 GPT-3 和提示 GPT-3 之间进行。然而，要使用 GPT-3，人们可能更关心将提示 GPT-3 和微调一个更小的模型去进行对比。
注意到，我主要关心的是将完成任务的精确度作为度量，但仍然存在很多其它重要的维度，例如：有害性（toxicity）、公平性等，它们也应该在决定是否使用 GPT-3 时被纳入考虑，正如 HELM 的文章中所呈现的。下图展示了一个粗略的决策流程，希望它能够作为一个有用的实践指南，无论对于已有任务还是一个全新的任务。

注 1：由于在对话场景下的良好对齐，ChatGPT 作为一个聊天机器人表现优异。但我们通常使用 GPT-3、InstructGPT (GPT-3.5)、以及 Codex 这些 ChatGPT 背后的模型作为在更多任务和使用场景下的通用模型。
注 2：这一节中的结论是基于一些对模型当前版本的发现得到的，这可能不适用于未来的更强的模型。因为，使用更多与目标数据集接近的预训练数据、学术数据集指令调整（例如提示一个 FLAN-PaLM 可能会带来更强的性能，它仍未公开）或者通过 RLHF 以使得模型对目标任务的更好对齐，这些都可能使得模型在目标任务中表现更好，即使有时这会牺牲在其他场景下的能力（例如，InstructGPT 的 “对齐税 / Alignment tax”）。

1 ...4 5 6 7 8 ...14 查看全文

为什么所有GPT-3复现都失败了？使用ChatGPT你应该知道这些(6)

那一晚，我知道你做了什么

我知道你去年夏天干了什么第一季

这部惊悚电影太生猛，看完才知道为什么只能网盘看，后劲真大

我们只知道这些

为什么猫都叫不来

为什么老师会在这里！？

抄袭？开黄腔？玩烂梗吃老本？成龙最新电影为什么争议这么大

爱情有什么道理