“怪胎”ChatGPT的前世今生,以及未来(2)
2023-04-30 来源:飞速影视
想要理解ChatGPT这款对话机器人,需要倒叙理解InstructGPT,GPT-3,GPT-2,GPT,Transformer,以及在此之前的自然语言处理领域常用的RNN模型。
1. ChatGPT的前世
2017年,谷歌大脑团队(Google Brain)在神经信息处理系统大会(NeurIPS,该会议为机器学习与人工智能领域的顶级学术会议)发表了一篇名为“Attention is all you need”(自我注意力是你所需要的全部)的论文[1]。作者在文中首次提出了基于自我注意力机制(self-attention)的变换器(transformer)模型,并首次将其用于理解人类的语言,即自然语言处理。
在这篇文章面世之前,自然语言处理领域的主流模型是循环神经网络(RNN,recurrent neural network)。循环神经网络模型的优点是,能更好地处理有先后顺序的数据,比如语言,但也因为如此,这种模型在处理较长序列,例如长文章、书籍时,存在模型不稳定或者模型过早停止有效训练的问题(这是由于模型训练时的梯度消失或梯度爆炸现象而导致,在此不具体展开),以及训练模型时间过长(因必须顺序处理数据,无法同时并行训练)的问题。
最初的变换器(Transformer)模型的架构(图源:参考文献[1])
2017年提出的Transformer模型,则能够同时并行进行数据计算和模型训练,训练时长更短,并且训练得出的模型可用语法解释,也就是模型具有可解释性。
这个最初的Transformer模型,一共有6500万个可调参数。谷歌大脑团队使用了多种公开的语言数据集来训练这个最初的Transformer模型。这些数据集包括2014年英语-德语机器翻译研讨班(WMT)数据集(有450万组英德对应句组),2014年英语-法语机器翻译研讨班数据集(3600万英法对应句组),以及宾夕法尼亚大学树库语言数据集中的部分句组(分别取了其中来自《华尔街日报》的4万个句子,以及另外在该库中选取1700万个句子)。而且,谷歌大脑团队在文中提供了模型的架构,任何人都可以用其搭建类似架构的模型来并结合自己手上的数据进行训练。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号