当前位置：首页 > 资讯 >

为什么所有GPT-3复现都失败了？使用ChatGPT你应该知道这些(8)

2023-04-30 来源:飞速影视

3. 分布外（Out-of-distribution, OOD）泛化。给定一些训练数据，传统的微调可能会过拟合训练集并且有较差的分布外泛化能力；而少样本的上下文学习（in-context learning）能够有更好的分布外泛化性。例如，带有提示的 PaLM 能够在对抗自然语言推断任务（Adversarial Natural Language Inference，ANLI）上超越经过微调的 SOTA 模型，而它在正常的语言推断任务上可能仍然劣于微调的 SOTA。
另一个例子是提示 LLM 比微调模型显示出更好的组合泛化能力。更好的分布外泛化性可能是因为在上下文学习期间不需要更新参数，避免了过拟合；或者因为那些过去的分布外样例对于 LLM 而言是分布内的。这种使用场景被阐释为 GPT-3 的初始设计目标之一：“微调模型在特定任务的数据集上的性能可以达到所谓的人类水平，实际上可能夸大了在真实世界中该任务上的性能，这是因为模型只是学到了训练集中存在的虚假的相关性，以及模型过度拟合了这个训练集狭窄的分布。”
4. 需要处理多种任务的能力，而非关注特定任务上的卓越表现。聊天机器人就是这样一种场景，其中，用户期待它能够正确地响应各种各样的任务。这可能就是为什么 ChatGPT 是 GPT-3 最成功的使用场景之一。
5. 那些检索不可行的知识密集型任务。存储在 LLM 中的知识可以显著地提高在知识密集型任务的性能，例如闭卷问答和 MMLU（一个基准数据集，包括来自于 STEM、人文、社科等 57 个学科的选择题，它用于测试 LLM 的世界知识和问题解答的能力）。然而，如果预先检索的步骤可以被加入来做检索增强的生成，一个微调的更小的模型（例如 Atlas 模型）甚至可以有更好的性能（在闭卷的 NaturalQuestions 和 TrivialQA 数据集上，Atlas 比 PaLM 和最新的 InstructGPT 都要更好）。
检索或者传统的搜索同样是将 GPT-3 或 ChatGPT 整合到搜索引擎中的一个必要的步骤，这可以提升生成的准确性，并且提供更多的参考链接以增强说服力。但我们应该承认，在某些情况下，检索是不允许或者不容易的，比如参加 USMLE (美国医学执照考试)，谷歌已经证明基于 FLAN-PaLM 的模型可以在其中做得很好。

1 ...6 7 8 9 10 ...14 查看全文

为什么所有GPT-3复现都失败了？使用ChatGPT你应该知道这些(8)

那一晚，我知道你做了什么

我知道你去年夏天干了什么第一季

这部惊悚电影太生猛，看完才知道为什么只能网盘看，后劲真大

我们只知道这些

为什么猫都叫不来

为什么老师会在这里！？

抄袭？开黄腔？玩烂梗吃老本？成龙最新电影为什么争议这么大

爱情有什么道理