ChatGPT的前世今生,以及未来(10)

2023-05-03 来源:飞速影视
分类:判断输入文本是指定的哪个类别。
将无监督学习的结果用于左右有监督模型的预训练目标,因此叫做生成式预训练(Generative Pre-training,GPT)。这种半监督学习方法,由于用大量无标注数据让模型学习“常识”,就无需标注信息了。
2018年6月,在谷歌的 Transformer 模型诞生一周年时,OpenAI公司发表了论文“Improving Language Understanding by Generative Pre-training”《用生成式预训练提高模型的语言理解力》,推出了具有1.17亿个参数的GPT-1(Generative Pre-training Transformers, 生成式预训练变换器)模型。
GPT-1 使用了经典的大型书籍文本数据集(BookCorpus)进行模型预训练,之后,又针对四种不同的语言场景、使用不同的特定数据集对模型进行进一步的训练(又称为微调,fine-tuning)。最终训练所得的模型在问答、文本相似性评估、语义蕴含判定、以及文本分类这四种语言场景,都取得了比基础Transformer模型更优的结果,成为了新的业内第一。
由于 GPT-1 的诞生,这一年也被称为NLP(自然语言处理)的预训练模型元年。
从此以后,自然语言识别的主流模式就是GPT-1这样的:先在大量无标签的数据上预训练一个语言模型,然后再在下游具体任务上进行有监督的fine-tune,以此取得还不错的效果。
GPT-1 具体是怎么做的呢?
首先,预训练模型是用了transformer的decoder部分,利用语言模型的目标来训练预训练模型。
其次,GPT-1 采取预训练 FineTuning两个阶段,它采取Transformer的decoder作为特征抽取器,总共堆叠12个。
预训练阶段采用“单向语言模型”作为训练任务,把语言知识编码到decoder里。
第二阶段,在第一阶段训练好的模型基础上,将预训练模型学习的知识迁移到下游任务,适配能力强。GPT-1通过统一的表征形式,对下游各种任务只需要很少的适配,具体适配方式就是加不同的任务分类头,另外,对不同任务的输入形式做了设计。

ChatGPT的前世今生,以及未来


相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号