当前位置：首页 > 资讯 >

为什么所有GPT-3复现都失败了？使用ChatGPT你应该知道这些(11)

2023-04-30 来源:飞速影视

在很多多语言任务和机器翻译任务中，使用少样本的提示 GPT 仍然要比微调的更小的模型更差。这很可能是由于除英语之外的其它语言在预训练语料库中占比很少。
当从英语翻译为其他语言，以及翻译高资源语言到英语时，PaLM 和 ChatGPT 仍然比在机器翻译任务上微调的更小的模型要差。对于多语言问答任务来说，在少样本的 PaLM-540B 和微调的更小模型之间还存在较大差距。对于多语言文本生成（包括文本摘要和数据到文本生成），在少样本的 PaLM-540B 和微调的更小模型之间还存在较大差距。在大部分任务上即使微调的 PaLM-540B 也仅仅比微调的 T5-11B 有有限的提升，并仍然劣于微调的 SOTA。
对于常识推理任务，在最好的少样本提示 LLM 和微调的 SOTA 之间仍然存在着较大的差距，例如：OpenbookQA，ARC（包括 Easy 和 Challenge 版本）以及 CommonsenseQA（甚至使用了 CoT 提示）。对于机器阅读理解任务，在最好的少样本提示 LLM 和微调的 SOTA 之间仍然存在着较大的差距。在大多数数据集上，这个差距可能非常巨大。这可能是因为所有回答问题所需的知识都已经包含在给出的文本中，并不需要 LLM 中的额外知识。
总结一下，上面的这些任务可以被归为以下类别之一：
1. 一些 NLU 任务，既不需要额外的知识也不需要 LLM 的生成能力。这意味着测试数据大多数都和手头的训练数据在同一个分布之中。在这些任务上，过去微调的较小模型已经表现很好了。
2. 一些不需要额外的来自 LLM 中知识的任务，因为每一个例子已经在上下文或者提示中包含了足够的知识，例如机器阅读理解。
3. 一些需要额外知识，但不太可能从 LLM 中获得这样的知识，或者 LLM 不太可能见过类似分布的任务，例如一些低资源语言中的任务，LLM 在这些语言中只有有限的预训练样本。
4. 一些任务，需要与 LLM 中包含的知识所不一致的知识，或者并非基于现实世界的语言数据的知识。因为 LLM 是在现实世界的语言数据上训练的，它难以在新的任务中利用反事实知识覆盖原有知识。除了在逆规模定律挑战中的 “重新定义数学符号” 问题之外，还有另一个任务，即复述有细微改动的名言，其中 LLM 被要求复述一个在 prompt 中出现的被修改的名言。在这种情况下，LLM 倾向于重复出名言的原始版本，而非修改过后的版本。

1 ...9 10 11 12 13 14 查看全文

为什么所有GPT-3复现都失败了？使用ChatGPT你应该知道这些(11)

那一晚，我知道你做了什么

我知道你去年夏天干了什么第一季

这部惊悚电影太生猛，看完才知道为什么只能网盘看，后劲真大

我们只知道这些

为什么猫都叫不来

为什么老师会在这里！？

抄袭？开黄腔？玩烂梗吃老本？成龙最新电影为什么争议这么大

爱情有什么道理