ChatGPT的前世今生,以及未来(17)
2023-05-03 来源:飞速影视
谷歌T5编写的通用知识训练语料库中的片段来自Common Crawl网站,该项目每个月从网络上爬取大约20TB的英文文本。
具体做法分为三步:
(1) 「任务收集」:收集一系列监督的数据,这里一个任务可以被定义成<数据集,任务类型的形式>,比如“基于SQuAD数据集的问题生成任务”。
(2) 「形式改写」:因为需要用单个语言模型来完成超过1800 种不同的任务,所以需要将任务都转换成相同的“输入格式”喂给模型训练,同时这些任务的输出也需要是统一的“输出格式”。
(3) 「训练过程」:采用恒定的学习率以及Adafactor优化器进行训练;同时会将多个训练样本“打包”成一个训练样本,这些训练样本直接会通过一个特殊的“结束token”进行分割。训练时候在每个指定的步数会在“保留任务”上进行模型评估,保存最佳的checkpoint。
尽管微调的任务数量很多,但是相比于语言模型本身的预训练过程,计算量小了非常多,只有0.2%。所以通过这个方案,大公司训练好的语言模型可以被再次有效的利用,应用方只需要做好“微调”即可,不用重复耗费大量计算资源再去训一个语言模型。
从竞赛排行榜看,T5以绝对的优势胜出。
2020年5月,1750亿参数的GPT-3
面临谷歌这样强大的对手,OpenAI并不服输。
在所有跟进、研究Transformer模型的团队中,OpenAI公司是少数一直在专注追求其极限的一支团队。
不同于谷歌总在换策略,OpenAI 的策略更单一,就是持续迭代 GPT,由于之前的算力和数据限制,GPT的潜力还没挖掘出来。
而在 GPU 多机多卡并行算力和海量无标注文本数据的双重支持下,预训练模型实现了参数规模与性能齐飞的局面。
预训练模型规模以平均每年10倍的速度增长(最后一列计算时间为使用单块NVIDIA V100 GPU训练的估计时间。M-百万,B-十亿)
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号