当前位置：首页 > 资讯 >

“怪胎”ChatGPT的前世今生，以及未来(5)

2023-04-30 来源:飞速影视

GPT-3可以根据用户给的提示语（类似于例子）而更好的回答问题（图片来源：[4]）
GPT-3模型面世时，未提供广泛的用户交互界面，并且要求用户提交申请、申请批准后才能注册，所以直接体验过GPT-3模型的人数并不多。根据体验过的人们在网上分享的体验，我们可以知道GPT-3可以根据简单的提示自动生成完整的、文从字顺的长文章，让人几乎不能相信这是机器的作品。GPT-3还会写程序代码、创作菜谱等几乎所有的文本创作类的任务。早期测试结束后，OpenAI公司对GPT-3模型进行了商业化：付费用户可以通过应用程序接口（API）连上GPT-3，使用该模型完成所需语言任务。2020年9月，微软公司获得了GPT-3模型的独占许可，意味着微软公司可以独家接触到GPT-3的源代码。该独占许可不影响付费用户通过API继续使用GPT-3模型。
2022年3月，OpenAI再次发表论文“Training language models to follow instructions with human feedback”（结合人类反馈信息来训练语言模型使其能理解指令），并推出了他们基于GPT-3模型并进行了进一步的微调的InstructGPT模型。InstructGPT的模型训练中加入了人类的评价和反馈数据，而不仅仅是事先准备好的数据集。
GPT-3公测期间用户提供了大量的对话和提示语数据，而OpenAI公司内部的数据标记团队也生成了不少人工标记数据集。这些标注过的数据（labelled data），可以帮助模型在直接学习数据的同时学习人类对这些数据的标记（例如某些句子、词组是不好的，应尽量少使用）。
OpenAI公司第一步先用这些数据对GPT-3用监督式训练（supervised learning）进行了微调。
第二步，他们收集了微调过的模型生成的答案样本。一般来说，对于每一条提示语，模型可以给出无数个答案，而用户一般只想看到一个答案（这也是符合人类交流的习惯），模型需要对这些答案排序，选出最优。所以，数据标记团队在这一步对所有可能的答案进行人工打分排序，选出最符合人类思考交流习惯的答案。这些人工打分的结果可以进一步建立奖励模型——奖励模型可以自动给语言模型奖励反馈，达到鼓励语言模型给出好的答案、抑制不好的答案的目的，帮助模型自动寻出最优答案。

1 ...3 4 5 6 7 ...9 查看全文

“怪胎”ChatGPT的前世今生，以及未来(5)

整形归来3：前世今生

反同运动的前世今生

太傅和公主的“前世今生”

前世今生

未来发生之前

潘金莲之前世今生

七月半2：前世今生

姐弟互怼的爆笑场面，前世的冤家今生的姐弟