ChatGPT的前世今生,以及未来(20)

2023-05-03 来源:飞速影视
6 )有时产生无用信息
因为GPT-3无法知道它的输出哪些是正确的,哪些是错误的,它无法阻止自己向世界输出不适当的内容。使用这样的系统产生的内容越多,造成互联网的内容污染越多。在互联网上找到真正有价值的信息已经越来越困难。随着语言模型吐出未经检查的话语,可能正在降低互联网内容的质量,使人们更难获得有价值的知识。
2021年1月,1.6万亿参数的Switch Transformer
2021年1月,在GPT-3 发布仅几个月后,谷歌大脑团队就重磅推出了超级语言模型Switch Transformer,有1.6万亿个参数,是GPT-3 参数的9倍。万亿参数,超出GPT一个数量级。看起来,大模型的大成为了竞争的关键。

ChatGPT的前世今生,以及未来


研究人员在论文中指出,大规模训练是通向强大模型的有效途径,具有大量数据集和参数计数的简单架构可以远远超越复杂的算法,但目前有效的大规模训练主要使用稠密模型。
作为对比,William等人提出的 Switch Transformer 采用了“稀疏激活”技术。所谓稀疏,指的是对于不同的输入,只激活神经网络权重的子集。
根据作者介绍,Switch Transformer是在MoE的基础上发展而来的,而MoE则是90年代初首次提出的AI模型。MoE 将多个“专家”或专门从事不同任务的模型放在一个较大的模型中,并有一个“门控网络”来选择对于任何给定数据要咨询哪些/个“专家”。尽管MoE取得了一些显著成功,但复杂性、通信成本和训练不稳定阻碍了其广泛采用。
Switch Transformer的新颖之处在于,它有效地利用了为稠密矩阵乘法(广泛用于语言模型的数学运算)而设计的硬件——例如GPU和Google TPU。研究人员为不同设备上的模型分配了唯一的权重,因此权重会随着设备的增多而增加,但每个设备上仅有一份内存管理和计算脚本。

ChatGPT的前世今生,以及未来


相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号