GPT-4大模型硬核解读!看完成半个专家(17)
2023-05-03 来源:飞速影视
▲Google Pathways “CPU DSA”训练集群基础架构(来源:Google)
3)CPU DSA GPGPU介于前两者之间,充分提高了灵活性又明显降低了计算成本。这类架构需要算法设计/部署人员有丰富的异构架构部署经验。计算卡间的高速互连对GPT-4计算的影响排在单卡算力之后。对于多数GPU来说,由于一般需要多卡才能放下一个模型,因此整体的计算效率受限于互连带宽和单卡有效算力密度。(算力密度大可以减少互连交互的总数据量)
▲AI服务器内部的卡间互连
以英伟达为例,HGX平台上有六个NVSwitch。每个NVSwitch连接2块GPU,总共有12个最短数据通道直连,形成接近立方体式的数据交互网。这里之所以说接近,是因为0123和4567平面之间的连接还不是两两互连,这一结构会限制GPU所能运行的模型的规模效率。计算服务器之间的高速互连通过Infiniband实现。每个NVIDIA A100/H100可以访问服务器Infiniband结构,通过Infiniband提升服务器间的数据交互带宽,而大带宽的Infiniband一般通过光纤连接(使用SerDes技术)来减少损耗。Infiniband网络基于“以应用程序为中心”的观点,目标是让应用程序访问其他应用程序以及存储尽可能的简单、高效和直接,避免网络分层带来的延迟。这种结构大大提高了GPT-4训练的速度。
4.2 GPT-4计算相关芯片对于GPT-4这类大模型来说,其部署需要大量的大算力计算、存储和数据交互芯片,包括:
AI计算:算力>100TFLOPS的GPGPU或大算力AI芯片
CPU:核数>8的CPU
存储:内存/GDDR/HBM/NVMe
数据交互:Infiniband卡
在Transformer技术兴起之后,传统CUDA核心的算力支持能力已表现出劣势,英伟达便在其GPU中添加Tensor Core这类DSA单元,以适应算力需求的变化。考虑到GPU这类通用架构芯片在计算效率和算力上已经暂时落后于GPT-4/ChatGPT这类大模型的发展速度,从芯片/半导体的历史发展规律看,预计近几年可能会有新的专用架构大发展来填补这一需求。这类新架构也许是针对大模型的DSA,或者是更接近于DSA的GPGPU。
▲CPU、GPU和存算一体芯片的架构对比
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号