当前位置：首页 > 资讯 >

ChatGPT的前世今生，以及未来(17)

2023-05-03 来源:飞速影视

谷歌T5编写的通用知识训练语料库中的片段来自Common Crawl网站，该项目每个月从网络上爬取大约20TB的英文文本。
具体做法分为三步：
(1) 「任务收集」：收集一系列监督的数据，这里一个任务可以被定义成<数据集，任务类型的形式>，比如“基于SQuAD数据集的问题生成任务”。
(2) 「形式改写」：因为需要用单个语言模型来完成超过1800 种不同的任务，所以需要将任务都转换成相同的“输入格式”喂给模型训练，同时这些任务的输出也需要是统一的“输出格式”。
(3) 「训练过程」：采用恒定的学习率以及Adafactor优化器进行训练；同时会将多个训练样本“打包”成一个训练样本，这些训练样本直接会通过一个特殊的“结束token”进行分割。训练时候在每个指定的步数会在“保留任务”上进行模型评估，保存最佳的checkpoint。
尽管微调的任务数量很多，但是相比于语言模型本身的预训练过程，计算量小了非常多，只有0.2%。所以通过这个方案，大公司训练好的语言模型可以被再次有效的利用，应用方只需要做好“微调”即可，不用重复耗费大量计算资源再去训一个语言模型。
从竞赛排行榜看，T5以绝对的优势胜出。
2020年5月，1750亿参数的GPT-3
面临谷歌这样强大的对手，OpenAI并不服输。
在所有跟进、研究Transformer模型的团队中，OpenAI公司是少数一直在专注追求其极限的一支团队。
不同于谷歌总在换策略，OpenAI 的策略更单一，就是持续迭代 GPT，由于之前的算力和数据限制，GPT的潜力还没挖掘出来。
而在 GPU 多机多卡并行算力和海量无标注文本数据的双重支持下，预训练模型实现了参数规模与性能齐飞的局面。

预训练模型规模以平均每年10倍的速度增长(最后一列计算时间为使用单块NVIDIA V100 GPU训练的估计时间。M-百万，B-十亿)

1 ...15 16 17 18 19 ...38 查看全文

ChatGPT的前世今生，以及未来(17)

整形归来3：前世今生

反同运动的前世今生

太傅和公主的“前世今生”

前世今生

未来发生之前

七月半2：前世今生

潘金莲之前世今生

姐弟互怼的爆笑场面，前世的冤家今生的姐弟