GPT-4大模型硬核解读!看完成半个专家(15)
2023-05-03 来源:飞速影视
因此“大型预训练模型 少量高质量标注”成为当前语言模型领域的主流。
▲缩放定律图示(来源:OpenAI)
对于计算量每增加10倍,该论文大约建议将参数数量增加5倍,将训练令牌的数量增加2倍,将串行训练步骤的数量增加1.2倍。这也可以说明,GPT-3等模型越来越大,是从综合训练成本考虑的。缩放定律不仅影响到模型的设计要素,也影响到基于算力的训练策略。OpenAI开发了针对性的算力基础设施和优化方法,在多个尺度预测GPT-4模型的训练效果,从而能在只使用大概千分之一的算力消耗时提前探索GPT-4训练的解空间,而无需完全遍历所有可能的训练参数设置。换句话说,投资人也可以提前预知自己投的创企大概能训练出多高精度的模型。缩放定律可以量化为公式L(C) = aCb c,从而只要在每个参数模型的早期使用小一些的算力就可以拟合该曲线,提前估算在该训练参数集下能达到的模型精度。这一方法大大加速了GPT-4模型训练调优的进程。
▲较小算力模型准确的预测了GPT-4的训练精度(来源:OpenAI)
4 GPT-4的算力基座由GPT-4/ChatGPT及其下游需求,带动了大量的模型设计与产业应用需求,带动了从服务器集群到大算力芯片的海量计算需求。这一需求业导致了A100 GPU的价格在近几个月内暴涨。那么,在多模态大模型逐渐火热之后,GPU会是唯一的算力选择吗?GPU会不会导致模型企业同质化竞争的加剧?根据IDC预计,到2026年AI推理的负载比例将进一步提升至62.2%,特别是大模型将成为AI开发的新范式。对于GPT-4等大模型设计或应用企业,算力的需求体现在如下三个细分阶段。1)GPT-4预训练与应用微调阶段。这一阶段从无到有建立预训练模型,通过大量通用数据训练和验证预训练模型。(形成模型的“通识”)然后针对具体的商用或应用场景的特定数据,对预训练进行针对性的微调,加强对场景的应答准确度。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号