ChatGPT的前世今生,以及未来(24)
2023-05-03 来源:飞速影视
在2021年,微软推出了Azure OpenAI服务,该产品的目的是让企业访问OpenAI的AI系统,包括GPT-3以及安全性,合规性,治理和其他以业务为中心的功能。让各行各业的开发人员和组织将能够使用Azure的最佳AI基础设施、模型和工具链来构建和运行他们的应用程序。
这个领域的成功,可以说是神来之笔,确实,微软子公司Github的数据资源很关键。更重要的是,探索出人工智能编程后,对整个IT行业有长远的意义。可以说OpenAI在与谷歌的竞争中开启了新赛道,预计还将持续保持优势。
2022年3月,13亿参数的InstructGPT
2022年3月,OpenAI发布了InstructGPT。并发表论文“Training language models to follow instructions with human feedback”(结合人类反馈信息来训练语言模型使其能理解指令)。
InstructGPT的目标是生成清晰、简洁且易于遵循的自然语言文本。
InstructGPT模型基于GPT-3模型并进行了进一步的微调,在模型训练中加入了人类的评价和反馈数据,而不仅仅是事先准备好的数据集。开发人员通过结合监督学习 从人类反馈中获得的强化学习。来提高GPT-3的输出质量。在这种学习中,人类对模型的潜在输出进行排序;强化学习算法则对产生类似于高级输出材料的模型进行奖励。
一般来说,对于每一条提示语,模型可以给出无数个答案,而用户一般只想看到一个答案(这也是符合人类交流的习惯),模型需要对这些答案排序,选出最优。所以,数据标记团队在这一步对所有可能的答案进行人工打分排序,选出最符合人类思考交流习惯的答案。这些人工打分的结果可以进一步建立奖励模型——奖励模型可以自动给语言模型奖励反馈,达到鼓励语言模型给出好的答案、抑制不好的答案的目的,帮助模型自动寻出最优答案。
该团队使用奖励模型和更多的标注过的数据继续优化微调过的语言模型,并且进行迭代。经过优化的模型会生成多个响应。人工评分者会对每个回复进行排名。在给出一个提示和两个响应后,一个奖励模型(另一个预先训练的GPT-3)学会了为评分高的响应计算更高的奖励,为评分低的回答计算更低的奖励。最终得到的模型被称为InstructGPT。
通过这样的训练,获得了更真实、更无害,而且更好地遵循用户意图的语言模型 InstructGPT。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号