GPT-4大模型硬核解读!看完成半个专家(13)
2023-05-03 来源:飞速影视
03.GPT-4训练技术分析
3.1 GPT-4训练数据集GPT-4的训练数据集是基于GPT-3和GPT-3.5的训练数据集构建的,并在两者基础上增加了多模态数据集。仅当时GPT-3.5的训练数据收集就是由一项艰巨且重要的任务:数据集贡献来自一个由30-50名OpenAI员工组成的团队,并另外从第三方网站雇佣了固定的大约50-100名固定的标注员。到了GPT-4又增加了大量多模态数据。
▲GPT-4数据集构成(预测)
OpenAI在预训练阶段过滤GPT-4的数据集组合,以专门减少不适当的文本内容的数量。并通过结合内部训练的分类器和基于词典的方法来识别含有不当内容的数据。其中来自GPT-3的预训练数据集包括约570GB(该大小为去重过滤后的,去重过滤前大概45TB)的CommonCrawl数据,大概是410B字节对编码的令牌,以及19B的WebText2数据,合计67B的书籍数据和3B Wiki数据。这些数据被整合为约300B大小的GPT-3预训练数据集。其中Wiki数据质量最高,在训练中平均被重复使用了3.4次。
▲GPT-3.5标注员学历和国籍构成
GPT-3.5的数据集包括SFT数据集、RM数据集和PPO训练数据集。在最关键的SFT训练集中,标注员撰写比例为89.3%,100%由标注员标记。RM模型较小但是训练集数量更多,达到33K。可以看出,无论是GPT-3还是GPT-3.5的训练集中,数据质量的重要性都远超过数据的数量。(互联网大厂或许只剩下资金、应用和渠道优势?)其中训练GPT-3.5 175B SFT模型仅需要算力资源4.9 petaflops/s-days,训练GPT-3.5175B PPO-ptx模型需要60 petaflops/s-days,而预训练GPT-3却需要3640 petaflops/s-days的算力资源,是175B PPO-ptx的60.7倍。极少量的高质量标注数据却显著提升了GPT-3.5的应答能力。这就好比好的教材胜过大量普通书籍。
GPT-4的多模态训练数据集由图片和文本共同构成(一般是单幅图片 多行文本)。根据GPT-4的技术报告,可以分析GPT-4的多模态数据集包括图表推理、物理考试、图像理解、论文总结、漫画图文等不同类型。目前GPT-4的多模态应用还处于实验中,并未对公众开放。3.2 GPT-4训练流程分析我们根据GPT-4的技术报告,初步分析其训练流程如下:第一阶段:构建交叉注意力架构预训练模型,收集数据并进行有监督策略精调GPT-4模型是基于GPT-3.5构建的,增加了视觉语言模型组件(在图形Transformer阶段完成的视觉预训练模型)。为了预训练模型在多模态领域进行初步调优,首先会在文本数据集和多模态数据集中抽取问题,由人类标注员,给出高质量答案,然后用这些人工标注好的数据来精调GPT-4初始模型(获得SFT模型,Supervised Fine-Tuning)。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号