GPT-4大模型硬核解读!看完成半个专家(12)
2023-05-03 来源:飞速影视
常见的多模态大模型包括:1)图像描述生成或文本生成图像。例如最近知名的CLIP、Stable Diffusion。2)图文问答。例如带有图示的物理题求解或图表分析。3)文本到图像或图像到文本的检索。4)视频流描述。
▲多模态模型的5种典型结构(来源:深圳鹏城实验室)
根据鹏城实验室新发出的论文归纳,目前常见的多模态模型架构主要包括以下几种:1)合并注意力架构(Merge-attention):如上图(a),多个输入模态调整为同一的特征表示,多个模态的特征在自注意力之前被合并,共同进入Transformer。2)共同注意力架构(Co-attention):如上图(b),每个输入模态都具备私有自注意力通道,用于模态独立特征的导入,然后再使用共同的交叉注意力层融合多模态特征。3)交叉注意力架构(Cross-attention):对于多模态任务,将图像与语言分别结合,实现图文信息的相互嵌入与问答。4)三角Transformer架构(Tangled-transformer):使用三组Transformer模块同时处理动作、图形对象和语言特征,通过特定的三角连接关系,注入其他模态的Transformer网络,以不同模态的信息融合。
5)模态间对比学习架构(Inter-Modality Contrastive Learning):不同模态的信息被分解,通过矩阵结构建立多模态对比学习关联。目前评估OpenAI采用该种交叉注意力架构的研发GPT-4的代价最小,可以大幅度使用ChatGPT中已经构建的语言模块。从笔者团队的分析看,GPT-4很有可能正是采用这类架构。2.3 GPT-4的独特性GPT-4是最新且最先进的OpenAI多模态大模型。并在多个基准任务上取得了非常好的成绩,包括图像字幕、图文问答、代码生成和法律推理。优秀的图文分析和逻辑推理能力铸就了GPT-4的护城河。
▲GPT-4在大部分任务上优于人类水平平均值(来源:LifeArchitect)
GPT-4能够生成比GPT-3.5或其他语言模型更符合事实的准确陈述,确保更高的可靠性和可信度。GPT-4也可接受图文信息作为输入并生成说明、分类和分析。尽管GPT-4已经投入商业使用,但大多数用户仍需要等待图文能力的正式开放。
▲GPT-4与其他大模型的比较(来源:Janna Lipenkova)
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号