GPT-4大模型硬核解读!看完成半个专家(16)
2023-05-03 来源:飞速影视
在这一阶段,一般需要超算级别或数十台服务器来进行一个大模型的训练计算,计算以大量矩阵计算和求解为主。这一阶段的算力可通过上述的缩放定律来进行预测和缩减不必要的训练参数集合所需的算力(非必要参数集分支大概可缩减到千分之一)。2)GPT-4推理与部署阶段。根据场景微调后的大模型,就可部署到实际生产环境中应用。相对训练来说,部署要求的算力较低,但是基数很大。对于大量在线交互来说,部署阶段的服务器/芯片成本要远远超过训练阶段。在这一阶段,每台AI服务器可以部署一个GPT-4模型,集群上会有大量服务器进行并行的网络服务,计算以大量矩阵计算和存储调度为主。同时,在这些场景下,特别是端侧应用场景,也会有硬件性价比和反应延迟的特定要求,目前的GPU就不一定适合。3)GPT-4模型迭代的微调阶段。每使用一段时间,就会根据使用者或者客户反馈,对模型进行调整,以提高客户满意度,特别是提升模型的安全度以确保合规。
这个过程就是模型迭代的过程,一般相当于小规模的训练,训练所用的数据规模不大,计算以大量矩阵计算和求解为主。
04.GPT-4的算力基座
4.1 GPT-4计算服务器架构
▲计算服务器架构对比
针对GPT-4这类大模型的计算架构,按照计算芯片的组合方式,一般可以分为:“CPU GPGPU”,“CPU DSA”,和“CPU DSA GPGPU”三种类型。这三种类型目前都已在云计算场景广泛应用和部署。DSA即领域专用加速器,是用于一些特定场景或算法族计算的芯片级加速。最早的GPU也属于DSA,也就是图形加速的DSA。随着GPU逐渐演化,将非常小的CPU核心加入GPU形成GPGPU架构后,才具备了通用化的计算能力。1)CPU GPGPU是较早且部署众多的一种。由于这种架构的计算灵活度高,也可用于模型训练和非AI类计算。适合任务种类繁多且差异化大的云计算场景。2)CPU DSA是目前Google云计算(GCP)应用较多的方式。例如Google去年发布的Pathways计算系统(包含6144块TPU)就是这类架构的典型代表。
这类架构计算灵活性稍低一点,但是计算性能和成本都非常明显优于CPU GPGPU模式,非常用于GPT-4或其他算法部署场景。例如早些年的AlphaGo的性能突破很大程度上来自于Google自研的TPU。当时如果用GPU,估计超过人类棋手的集群成本恐是当年的Google也难以承受的。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号