ChatGPT的前世今生,以及未来(8)
2023-05-03 来源:飞速影视
在这篇文章发布之前,自然语言处理领域的主流模型是循环神经网络(RNN,recurrent neural network)。循环神经网络模型的优点是,能更好地处理有先后顺序的数据,它被广泛地用于自然语言处理中的语音识别,手写识别,时间序列分析以及机器翻译等领域。但这种模型也有不少缺点:在处理较长序列,例如长文章、书籍时,存在模型不稳定或者模型过早停止有效训练的问题,以及训练模型时间过长的问题。
而论文中提出的Transformer模型,能够同时并行进行数据计算和模型训练,训练时长更短,并且训练得出的模型可用语法解释,也就是模型具有可解释性。
最初的变换器(Transformer)模型的架构
谷歌大脑团队使用了多种公开的语言数据集来训练最初的Transformer模型,一共有6500万个可调参数。
经过训练后,这个最初的Transformer模型在包括翻译准确度、英语成分句法分析等各项评分上都达到了业内第一,成为当时最先进的大型语言模型(Large Language Model, LLM),其最常见使用场景就是输入法和机器翻译。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号