当前位置：首页 > 资讯 >

“怪胎”ChatGPT的前世今生，以及未来(4)

2023-04-30 来源:飞速影视

最终训练所得的模型在问答、文本相似性评估、语义蕴含判定、以及文本分类这四种语言场景，都取得了比基础Transformer模型更优的结果，成为了新的业内第一。
2019年，该公司公布了一个具有15亿个参数的模型：GPT-2。该模型架构与GPT-1原理相同，主要区别是GPT-2的规模更大（10倍）。同时，他们发表了介绍这个模型的论文“Language Models are Unsupervised Multitask Learners” （语言模型是无监督的多任务学习者）[3]。在这项工作中，他们使用了自己收集的以网页文字信息为主的新的数据集。不出意料，GPT-2模型刷新了大型语言模型在多项语言场景的评分记录。在文中，他们提供了GPT-2模型回答新问题（模型训练数据中未出现过的问题及其答案）的结果。

GPT-2模型回答新问题的结果（图片来源[3])
2020年，这个创业团队再次战胜自己，发表论文“Language Models are Few-Shot Learner”（语言模型是小样本学习者）[4]，并推出了最新的GPT-3模型——它有1750亿个参数。GPT-3模型架构与GPT-2没有本质区别，除了规模大了整整两个数量级以外。GPT-3的训练集也比前两款GPT模型要大得多：经过基础过滤的全网页爬虫数据集（4290亿个词符）、维基百科文章（30亿词符）、两个不同的书籍数据集（一共670亿词符）。
由于巨大的参数数目以及训练所需数据集规模，训练一个GPT-3模型保守估计需要五百万美元至两千万美元不等——如果用于训练的GPU越多，成本越高，时间越短；反之亦然。可以说，这个数量级的大型语言模型已经不是普通学者、一般个人能负担得起研究项目了。面对如此庞大的GPT-3模型，用户可以仅提供小样本的提示语、或者完全不提供提示而直接询问，就能获得符合要求的高质量答案。小样本提示是指用户在提问时先给模型提供几个例子，然后再提出自己的语言任务（翻译、创作文本、回答问题等）。

1 2 3 4 5 6 ...9 查看全文

“怪胎”ChatGPT的前世今生，以及未来(4)

整形归来3：前世今生

反同运动的前世今生

太傅和公主的“前世今生”

前世今生

未来发生之前

潘金莲之前世今生

七月半2：前世今生

姐弟互怼的爆笑场面，前世的冤家今生的姐弟