GPT-4大模型硬核解读!看完成半个专家(11)
2023-05-03 来源:飞速影视
ChatGPT具有以下特征:1)可以主动承认自身错误。若用户指出其错误,模型会听取意见并优化答案。2)ChatGPT可以质疑不正确的问题。例如被询问“哥伦布2015年来到美国的情景”的问题时,机器人会说明哥伦布不属于这一时代并调整输出结果。3)ChatGPT可以承认自身的无知,承认对专业技术的不了解。4)支持连续多轮对话。与大家在生活中用到的各类智能音箱和“人工智障”不同,ChatGPT在对话过程中会记忆先前使用者的对话讯息,即上下文理解,以回答某些假设性的问题。ChatGPT可实现连续对话,极大的提升了对话交互模式下的用户体验。
▲从GPT-1到GPT-4的对比(含BERT,笔者团队绘制)
2.2 GPT-4的多模态架构到了GPT-4,技术内涵产生的飞跃其实超过了ChatGPT。有些人认为GPT-4仅仅是GPT-3.5的升级优化,这其实是一种误解。大部分人可能还未看到GPT-4带来的巨大影响。人类或其他高等生物的认知能力通常与从多种模式中学习有关。例如,苹果这一概念包括从视觉和语言获得的多重语义。包括苹果的颜色、形状、纹理以及吃苹果的声音,苹果在词典或其他网络媒体的相应定义等等。我们大多数人在学习认字的时候,也是先看到苹果的卡片图像,然后再记住对应的文字。与BERT模型类似,GPT-4之前的ChatGPT或GPT-3.5都是根据输入语句,根据语言/语料概率来自动生成回答的每一个字(词语)。从数学或从机器学习的角度来看,语言模型是对词语序列的概率相关性分布的建模,即利用已经说过的语句(语句可以视为数学中的向量)作为输入条件,预测下一个时刻不同语句甚至语言集合出现的概率分布。
包括“苹果”在GPT-3.5和之前的GPT中只是单纯的语义符号和概率。GPT-4等模型新出现的多模态输入的能力对语言模型至关重要,使得“苹果”等单纯的符号语义扩展为更多的内涵。第一,多模态感知使语言模型能够获得文本描述之外的常识性知识。第二,感知与语义理解的结合为新型任务提供了可能性,例如机器人交互技术和多媒体文档处理。第三,通过感知统一了接口。图形界面其实是最自然和高效的人机自然交互方式。多模态大语言模型可通过图形方式直接进行信息交互,提升交互效率。多模态模型可以从多种来源和模式中学习知识,并使用模态的交叉关联来完成任务。通过图像或图文知识库学习的信息可用于回答自然语言问题;从文本中学到的信息也可在视觉任务中使用。截至2023年初,多模态大模型正经历将图文信息进行对齐,进行模态认知管理,进一步形成多模态决策或生成。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号