当前位置：首页 > 资讯 >

GPT-4大模型硬核解读！看完成半个专家(11)

2023-05-03 来源:飞速影视

ChatGPT具有以下特征：1）可以主动承认自身错误。若用户指出其错误，模型会听取意见并优化答案。2）ChatGPT可以质疑不正确的问题。例如被询问“哥伦布2015年来到美国的情景”的问题时，机器人会说明哥伦布不属于这一时代并调整输出结果。3）ChatGPT可以承认自身的无知，承认对专业技术的不了解。4）支持连续多轮对话。与大家在生活中用到的各类智能音箱和“人工智障”不同，ChatGPT在对话过程中会记忆先前使用者的对话讯息，即上下文理解，以回答某些假设性的问题。ChatGPT可实现连续对话，极大的提升了对话交互模式下的用户体验。
▲从GPT-1到GPT-4的对比（含BERT，笔者团队绘制）
2.2 GPT-4的多模态架构到了GPT-4，技术内涵产生的飞跃其实超过了ChatGPT。有些人认为GPT-4仅仅是GPT-3.5的升级优化，这其实是一种误解。大部分人可能还未看到GPT-4带来的巨大影响。人类或其他高等生物的认知能力通常与从多种模式中学习有关。例如，苹果这一概念包括从视觉和语言获得的多重语义。包括苹果的颜色、形状、纹理以及吃苹果的声音，苹果在词典或其他网络媒体的相应定义等等。我们大多数人在学习认字的时候，也是先看到苹果的卡片图像，然后再记住对应的文字。与BERT模型类似，GPT-4之前的ChatGPT或GPT-3.5都是根据输入语句，根据语言/语料概率来自动生成回答的每一个字（词语）。从数学或从机器学习的角度来看，语言模型是对词语序列的概率相关性分布的建模，即利用已经说过的语句（语句可以视为数学中的向量）作为输入条件，预测下一个时刻不同语句甚至语言集合出现的概率分布。
包括“苹果”在GPT-3.5和之前的GPT中只是单纯的语义符号和概率。GPT-4等模型新出现的多模态输入的能力对语言模型至关重要，使得“苹果”等单纯的符号语义扩展为更多的内涵。第一，多模态感知使语言模型能够获得文本描述之外的常识性知识。第二，感知与语义理解的结合为新型任务提供了可能性，例如机器人交互技术和多媒体文档处理。第三，通过感知统一了接口。图形界面其实是最自然和高效的人机自然交互方式。多模态大语言模型可通过图形方式直接进行信息交互，提升交互效率。多模态模型可以从多种来源和模式中学习知识，并使用模态的交叉关联来完成任务。通过图像或图文知识库学习的信息可用于回答自然语言问题；从文本中学到的信息也可在视觉任务中使用。截至2023年初，多模态大模型正经历将图文信息进行对齐，进行模态认知管理，进一步形成多模态决策或生成。

1 ...9 10 11 12 13 ...23 查看全文

GPT-4大模型硬核解读！看完成半个专家(11)

量产型璃子-模型女子的人生组装记-

量产型璃子-另一位模型女子的人生组装记-

混乱的韩国模特圈，模特们为成名费尽心机，令人大饱眼福的电影

硬核亨利

硬核机器人

我能看到成功率动态漫画第4季

这部惊悚电影太生猛，看完才知道为什么只能网盘看，后劲真大

一口气盘清《魔戒》三部曲，深度解读中土大战的各族势力