当前位置：首页 > 资讯 >

GPT-4大模型硬核解读！看完成半个专家(10)

2023-05-03 来源:飞速影视

2018年6月，OpenAI发表了GPT-1，GPT家族首次登上历史舞台。GPT-1模型训练使用了BooksCorpus数据集。训练主要包含两个阶段：第一个阶段，先利用大量无标注的语料预训练一个语言模型，接着，在第二个阶段对预训练好的语言模型进行精调，将其迁移到各种有监督的NLP任务。也就是前面提到过的“预训练精调”模式。GPT-1的核心是Transformer。Transformer在数学上是大矩阵的计算，通过计算不同语义之间的关联度（概率）来生成具有最高概率的语义反馈。GPT-1着重解决两个问题：1）通过无监督训练解决需要大量高质量标注数据的问题。2）通过大量语料训练解决训练任务的泛化问题。
▲BERT与GPT的技术基本架构对比（图中En为输入的每个字，Tn为输出回答的每个字）
GPT-22019年，OpenAI发表了另一篇关于他们最新模型GPT-2的论文（Language Models are Unsupervised Multitask Learners）。该模型开源并在一些NLP任务中开始使用。相对GPT-1，GPT-2是泛化能力更强的词向量模型，尽管并没有过多的结构创新，但是训练数据集（WebText，来自于Reddit上高赞的文章）和模型参数量更大。目前很多开源的GPT类模型是基于GPT-2进行的结构修改或优化。GPT-32020年6月，OpenAI发表了另一篇关于GPT-3模型的论文（Language Models are Few-Shot Learners）。该模型的参数是GPT-2的100倍（175B），并且在更大的文本数据集（低质量的Common Crawl，高质量的WebText2，Books1，Books2和Wikipedia）上进行训练，从而获得更好的模型性能。
GPT-3实际上由多个版本组成的第3代家族，具有不同数量的参数和所需的计算资源。包括专门用于代码编程的code系列。GPT-3的后继知名版本包括InstructGPT和ChatGPT。
▲GPT-3家族
GPT-3.5/ChatGPT2022年3月15日，OpenAI发布了名为“text-davinci-003”的新版GPT-3，该模型被描述为比以前版本的GPT更强大。目前有若干个属于GPT-3.5系列的模型分支，其中code-davinci针对代码完成任务进行了优化。ChatGPT是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架构开发的对话AI模型，是InstructGPT的兄弟模型。ChatGPT很可能是OpenAI在GPT-4正式推出之前的演练，或用于收集大量对话数据。OpenAI使用RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）技术对ChatGPT进行了训练，且加入了更多人工监督进行微调。

1 ...8 9 10 11 12 ...23 查看全文

GPT-4大模型硬核解读！看完成半个专家(10)

量产型璃子-模型女子的人生组装记-

量产型璃子-另一位模型女子的人生组装记-

混乱的韩国模特圈，模特们为成名费尽心机，令人大饱眼福的电影

硬核亨利

硬核机器人

我能看到成功率动态漫画第4季

这部惊悚电影太生猛，看完才知道为什么只能网盘看，后劲真大

一口气盘清《魔戒》三部曲，深度解读中土大战的各族势力