当前位置：首页 > 资讯 >

GPT-4大模型硬核解读！看完成半个专家(12)

2023-05-03 来源:飞速影视

常见的多模态大模型包括：1）图像描述生成或文本生成图像。例如最近知名的CLIP、Stable Diffusion。2）图文问答。例如带有图示的物理题求解或图表分析。3）文本到图像或图像到文本的检索。4）视频流描述。
▲多模态模型的5种典型结构（来源：深圳鹏城实验室）
根据鹏城实验室新发出的论文归纳，目前常见的多模态模型架构主要包括以下几种：1）合并注意力架构（Merge-attention）：如上图(a)，多个输入模态调整为同一的特征表示，多个模态的特征在自注意力之前被合并，共同进入Transformer。2）共同注意力架构（Co-attention）：如上图(b)，每个输入模态都具备私有自注意力通道，用于模态独立特征的导入，然后再使用共同的交叉注意力层融合多模态特征。3）交叉注意力架构（Cross-attention）：对于多模态任务，将图像与语言分别结合，实现图文信息的相互嵌入与问答。4）三角Transformer架构（Tangled-transformer）：使用三组Transformer模块同时处理动作、图形对象和语言特征，通过特定的三角连接关系，注入其他模态的Transformer网络，以不同模态的信息融合。
5）模态间对比学习架构（Inter-Modality Contrastive Learning）：不同模态的信息被分解，通过矩阵结构建立多模态对比学习关联。目前评估OpenAI采用该种交叉注意力架构的研发GPT-4的代价最小，可以大幅度使用ChatGPT中已经构建的语言模块。从笔者团队的分析看，GPT-4很有可能正是采用这类架构。2.3 GPT-4的独特性GPT-4是最新且最先进的OpenAI多模态大模型。并在多个基准任务上取得了非常好的成绩，包括图像字幕、图文问答、代码生成和法律推理。优秀的图文分析和逻辑推理能力铸就了GPT-4的护城河。
▲GPT-4在大部分任务上优于人类水平平均值（来源：LifeArchitect）
GPT-4能够生成比GPT-3.5或其他语言模型更符合事实的准确陈述，确保更高的可靠性和可信度。GPT-4也可接受图文信息作为输入并生成说明、分类和分析。尽管GPT-4已经投入商业使用，但大多数用户仍需要等待图文能力的正式开放。
▲GPT-4与其他大模型的比较（来源：Janna Lipenkova）

1 ...10 11 12 13 14 ...23 查看全文

GPT-4大模型硬核解读！看完成半个专家(12)

量产型璃子-模型女子的人生组装记-

量产型璃子-另一位模型女子的人生组装记-

混乱的韩国模特圈，模特们为成名费尽心机，令人大饱眼福的电影

硬核亨利

硬核机器人

我能看到成功率动态漫画第4季

这部惊悚电影太生猛，看完才知道为什么只能网盘看，后劲真大

一口气盘清《魔戒》三部曲，深度解读中土大战的各族势力