“怪胎”ChatGPT的前世今生,以及未来(5)

2023-04-30 来源:飞速影视

“怪胎”ChatGPT的前世今生,以及未来


GPT-3可以根据用户给的提示语(类似于例子)而更好的回答问题(图片来源:[4])
GPT-3模型面世时,未提供广泛的用户交互界面,并且要求用户提交申请、申请批准后才能注册,所以直接体验过GPT-3模型的人数并不多。根据体验过的人们在网上分享的体验,我们可以知道GPT-3可以根据简单的提示自动生成完整的、文从字顺的长文章,让人几乎不能相信这是机器的作品。GPT-3还会写程序代码、创作菜谱等几乎所有的文本创作类的任务。早期测试结束后,OpenAI公司对GPT-3模型进行了商业化:付费用户可以通过应用程序接口(API)连上GPT-3,使用该模型完成所需语言任务。2020年9月,微软公司获得了GPT-3模型的独占许可,意味着微软公司可以独家接触到GPT-3的源代码。该独占许可不影响付费用户通过API继续使用GPT-3模型。
2022年3月,OpenAI再次发表论文“Training language models to follow instructions with human feedback”(结合人类反馈信息来训练语言模型使其能理解指令),并推出了他们基于GPT-3模型并进行了进一步的微调的InstructGPT模型。InstructGPT的模型训练中加入了人类的评价和反馈数据,而不仅仅是事先准备好的数据集。
GPT-3公测期间用户提供了大量的对话和提示语数据,而OpenAI公司内部的数据标记团队也生成了不少人工标记数据集。这些标注过的数据(labelled data),可以帮助模型在直接学习数据的同时学习人类对这些数据的标记(例如某些句子、词组是不好的,应尽量少使用)。
OpenAI公司第一步先用这些数据对GPT-3用监督式训练(supervised learning)进行了微调。
第二步,他们收集了微调过的模型生成的答案样本。一般来说,对于每一条提示语,模型可以给出无数个答案,而用户一般只想看到一个答案(这也是符合人类交流的习惯),模型需要对这些答案排序,选出最优。所以,数据标记团队在这一步对所有可能的答案进行人工打分排序,选出最符合人类思考交流习惯的答案。这些人工打分的结果可以进一步建立奖励模型——奖励模型可以自动给语言模型奖励反馈,达到鼓励语言模型给出好的答案、抑制不好的答案的目的,帮助模型自动寻出最优答案。
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号