当前位置：首页 > 资讯 >

ChatGPT的前世今生，以及未来(8)

2023-05-03 来源:飞速影视

在这篇文章发布之前，自然语言处理领域的主流模型是循环神经网络（RNN，recurrent neural network）。循环神经网络模型的优点是，能更好地处理有先后顺序的数据，它被广泛地用于自然语言处理中的语音识别，手写识别，时间序列分析以及机器翻译等领域。但这种模型也有不少缺点：在处理较长序列，例如长文章、书籍时，存在模型不稳定或者模型过早停止有效训练的问题，以及训练模型时间过长的问题。
而论文中提出的Transformer模型，能够同时并行进行数据计算和模型训练，训练时长更短，并且训练得出的模型可用语法解释，也就是模型具有可解释性。

最初的变换器（Transformer）模型的架构
谷歌大脑团队使用了多种公开的语言数据集来训练最初的Transformer模型，一共有6500万个可调参数。
经过训练后，这个最初的Transformer模型在包括翻译准确度、英语成分句法分析等各项评分上都达到了业内第一，成为当时最先进的大型语言模型（Large Language Model, LLM），其最常见使用场景就是输入法和机器翻译。

1 ...6 7 8 9 10 ...38 查看全文

ChatGPT的前世今生，以及未来(8)

整形归来3：前世今生

反同运动的前世今生

太傅和公主的“前世今生”

前世今生

未来发生之前

七月半2：前世今生

潘金莲之前世今生

姐弟互怼的爆笑场面，前世的冤家今生的姐弟