GPT-4大模型硬核解读!看完成半个专家(9)
2023-05-03 来源:飞速影视
从训练的角度看,这么大的模型膨胀可能会消耗更多的训练资源和训练周期的过度延长。
▲GPT-4与GPT-3.5的执行速度对比(来源:ARK投资)
根据ARK的分析,GPT-4的执行时间大概是GPT-3.5的3.7倍。由此我们初步估算GPT-4的文本语言部分的大小大约是62B-650B之间。根据目前GPT模型性能的发展趋势,以及多模态技术的加持,预计GPT-4的模型参数大概为62B-1500B之间。
02.GPT-4的原理是什么?
GPT-4这一代,是严格意义上的多模态模型,可以支持图像和文字两类信息的同时输入。之前的ChatGPT多模态感知是实现通用人工智能的必要条件,无论是知识/能力获取还是与现实物理世界的交互。之前的ChatGPT就像AI蒙上双眼在那里盲答,而多模态就是AI一边看一边思考。多模态技术将语言模型的应用拓宽了到更多高价值领域,例如多模态人机交互、文档处理和机器人交互技术。在GPT-4中,多模态输入的图像和文本基于Transformer作为通用接口,图形感知模块与语言模块对接进行进一步计算。通过在多模态语料库上训练模型,包括文本数据、任意交错的图像和文本,以及图像-字幕对,可以使模型获得原生支持多模态任务的能力。下面先介绍GPT家族,然后引申到GPT-4的多模态架构和独特性。2.1从GPT-1到ChatGPT说到GPT-4,就不得不提到GPT家族。
GPT之前有几个的前辈,包括GPT-1、GPT-2和GPT-3和ChatGPT。GPT家族与BERT模型都是知名的NLP模型族,都基于Transformer技术。GPT-1只有12层,而到了GPT-3,则增加到96层。GPT-4增加了额外的视觉语言模块,理论上具有更大的模型尺寸和输入窗口。
▲视觉与语言Transformer技术的演进
GPT和BERT之前的时代最早的NLP技术是基于规则的,即基于特定的规则使用程序进行固定模式的对话,所有的应答都是固定模式的。在深度学习诞生后,NLP技术逐渐进入基于模型的时代。文本生成是通过递归神经网络(RNN)或各种长短时记忆神经网络(LSTM)实现的。这些模型能够较好的进行模式识别,在输出单个单词或短语方面表现良好,但无法生成高精度的多轮对话,更无法实现逻辑推理能力。
▲GPT-1模型的Transformer结构
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号