当前位置：首页 > 资讯 >

ChatGPT的前世今生，以及未来(20)

2023-05-03 来源:飞速影视

6 ）有时产生无用信息
因为GPT-3无法知道它的输出哪些是正确的，哪些是错误的，它无法阻止自己向世界输出不适当的内容。使用这样的系统产生的内容越多，造成互联网的内容污染越多。在互联网上找到真正有价值的信息已经越来越困难。随着语言模型吐出未经检查的话语，可能正在降低互联网内容的质量，使人们更难获得有价值的知识。
2021年1月，1.6万亿参数的Switch Transformer
2021年1月，在GPT-3 发布仅几个月后，谷歌大脑团队就重磅推出了超级语言模型Switch Transformer，有1.6万亿个参数，是GPT-3 参数的9倍。万亿参数，超出GPT一个数量级。看起来，大模型的大成为了竞争的关键。

研究人员在论文中指出，大规模训练是通向强大模型的有效途径，具有大量数据集和参数计数的简单架构可以远远超越复杂的算法，但目前有效的大规模训练主要使用稠密模型。
作为对比，William等人提出的 Switch Transformer 采用了“稀疏激活”技术。所谓稀疏，指的是对于不同的输入，只激活神经网络权重的子集。
根据作者介绍，Switch Transformer是在MoE的基础上发展而来的，而MoE则是90年代初首次提出的AI模型。MoE 将多个“专家”或专门从事不同任务的模型放在一个较大的模型中，并有一个“门控网络”来选择对于任何给定数据要咨询哪些/个“专家”。尽管MoE取得了一些显著成功，但复杂性、通信成本和训练不稳定阻碍了其广泛采用。
Switch Transformer的新颖之处在于，它有效地利用了为稠密矩阵乘法（广泛用于语言模型的数学运算）而设计的硬件——例如GPU和Google TPU。研究人员为不同设备上的模型分配了唯一的权重，因此权重会随着设备的增多而增加，但每个设备上仅有一份内存管理和计算脚本。

1 ...18 19 20 21 22 ...38 查看全文

ChatGPT的前世今生，以及未来(20)

整形归来3：前世今生

反同运动的前世今生

太傅和公主的“前世今生”

前世今生

未来发生之前

七月半2：前世今生

潘金莲之前世今生

姐弟互怼的爆笑场面，前世的冤家今生的姐弟