ChatGPT的前世今生,以及未来(35)
2023-05-03 来源:飞速影视
模型大小(数十亿参数)。图片由Nvidia提供。
此外,模型越大,微调它的成本就越高。GPT3训练起来足够难,也很昂贵,但如果你把模型的大小增加100倍,就计算能力和模型所需的训练数据量而言,将是极其昂贵的。
因此,OpenAI在GPT-4中拥有100万亿参数的可能性很小,因为如果训练数据也没有按比例增加,那么仅仅增加训练参数的数量并不会带来任何显著的改善。大型模型通常是未经优化的(以Megatron-Turing NLG为例)。训练模型非常昂贵,公司经常不得不在AI模型精度和训练成本之间进行权衡。例如,GPT-3只训练了一次,尽管AI模型存在错误,但OpenAI认为成本太高而没有再次训练模型。
这一切都意味着OpenAI可能会开始避免“越大越好”的方法,而是专注于模型本身的质量。最有可能的是,GPT-4的大小与GPT-3大致相同。
更有趣的是,OpenAI可能会将重点转移到影响模型性能的其他方面,例如算法和对齐。GPT-4可能是第一个以稀疏为核心的大型AI模型。稀疏模型使用条件计算来降低计算成本——并非AI模型中的所有神经元在任何给定时间都处于活动状态。该模型可以轻松扩展到超过万亿个参数而不会产生高昂的计算成本。稀疏模型还可以更好地理解上下文——它们可以根据用户提供的内容保留更多的“下一个单词/句子”选择。因此,稀疏模型比它们的前辈更类似于实际的人类思维。
4
总结
从OpenAI和谷歌的竞争来看,在语言模型技术方面各有所长。
从结果来看,分成三个维度的竞争:在模型的规模上,在模型的效率上,模型的应用领域上。
虽然谷歌推出了1.6万亿的Switch Transformer模型,貌似优势很大。但OpenAI从模型效率更胜一筹。而商业应用,效率决定了迭代速度和成本。从2022年3月,OpenAI推出InstructGPT开始,两家的竞争分化了。更强的是,GPT-3的模型也迁移到了图像生成和代码生成方面。因此,OpenAI在2个维度上获胜。
可以预测是,GPT-4将继续延续这个效率竞争的路线,将会推动新一轮的AI模型竞争。
虽然许多人都因为ChatGPT而形成对GPT-4 的巨大乐观情绪,但从技术迭代的周期看,GPT-4 在架构上与 GPT-3 基本相同。可以预期这种方法仍然会受到其根本缺陷的困扰,目前存在的许多问题并不能被解决。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号