GPT-4大模型硬核解读!看完成半个专家(4)

2023-05-03 来源:飞速影视
▲语言模型的4种研究范式(来源:卡内基梅隆大学)
大概在2017-2019年间,语言模型的研究重心逐渐从传统特定领域的有监督学习模式(基于非神经网络或神经网络)转移到预训练模型上。在那时,基于预训练语言模型的研究范式通常是“预训练 精调”(Pre-train Fine-tune),即在精调阶段,根据下游任务对预训练模型进行微调,以获得更好效果。但是由于模型越来越大,以及预训练阶段和下游任务之间的差距可能很大,对各个细分领域Fine-tune的计算资源要求、训练数据需求和时间成本也在快速上涨。大量爆发的下游任务也使得175B这个级别模型预训练和精调变得异常复杂。在这种背景下,随着GPT-3的发布,提示工程成为了预训练模型的新方向。形象的说,提示有点类似于老师在学生回答问题时指点回答方向。
▲提示方法(来源:卡内基梅隆大学)
GPT-4/GPT-3模型中提示的新范式可归纳为“预训练 提示 预测”(Pre-train Prompt Predict)。在这一范式中,各种下游任务被调整为类似预训练任务的形式。通过选取合适的提示,使用者可以控制模型预测输出,从而一个完全预训练模型可以被用来解决多样的下游任务。这里举一个填充提示的简单例子。(上图)我们从输入x(比如电影评论)开始,然后输出期望值y。其中一个任务是使用提示函数重新模板化此输入,其输出表示为x"。此时语言模型的任务仅仅是预测z值(句子中的一个词)来代替占位符Z。然后对于Z被答案填充的提示,我们将其称为填充提示。通过这一提示方式,在对应细分场景下,语言模型将原来的问题的期望值y(一句话)简化为答案z(一个词)的计算,明显降低了应答的复杂度。
▲提示工程使得GPT-3模型在训练样本较少时获得了更高精度(来源:OpenAI)
而GPT-4则针对多模态数据集,设计了对应的提示。GPT-4的提示工程涉及几个步骤,包括选择合适的模型架构和参数、设计提示格式和结构、选择合适的任务和训练数据,以及使用选定的提示和数据微调模型。更多GPT-4的提示细节还需等待OpenAI发布。
▲多模态提示示例(来源:微软)
提示工程同时也提高了语言模型“可操纵性”,即模型根据用户要求更改其行为的能力。例如,用户可以命令GPT-4以不同的风格、语气或内容特征来回答。例如“你是一个唠叨的数据专家”或“你是一个言简意赅的数据专家”来开始提示,让模型解释一个数据科学概念。这里“唠叨”和“言简意赅”操纵了模型回答的语言量。1.4关键技术——人类反馈强化学习GPT-4/ChatGPT与GPT-3.5的主要区别在于,新加入了被称为RLHF(ReinforcementLearning from Human Feedback,人类反馈强化学习)的技术。这一训练范式增强了人类对模型输出结果意向(Intent)的调节,并且对结果进行了更具理解性的排序。OpenAI在其早期的学术报告中公开表示,与人类偏好保持一致,是许多领域人工智能研究和部署的核心组成部分。
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号