当前位置：首页 > 资讯 >

GPT-4大模型硬核解读！看完成半个专家(17)

2023-05-03 来源:飞速影视

▲Google Pathways “CPU DSA”训练集群基础架构（来源：Google）
3）CPU DSA GPGPU介于前两者之间，充分提高了灵活性又明显降低了计算成本。这类架构需要算法设计/部署人员有丰富的异构架构部署经验。计算卡间的高速互连对GPT-4计算的影响排在单卡算力之后。对于多数GPU来说，由于一般需要多卡才能放下一个模型，因此整体的计算效率受限于互连带宽和单卡有效算力密度。（算力密度大可以减少互连交互的总数据量）
▲AI服务器内部的卡间互连
以英伟达为例，HGX平台上有六个NVSwitch。每个NVSwitch连接2块GPU，总共有12个最短数据通道直连，形成接近立方体式的数据交互网。这里之所以说接近，是因为0123和4567平面之间的连接还不是两两互连，这一结构会限制GPU所能运行的模型的规模效率。计算服务器之间的高速互连通过Infiniband实现。每个NVIDIA A100/H100可以访问服务器Infiniband结构，通过Infiniband提升服务器间的数据交互带宽，而大带宽的Infiniband一般通过光纤连接（使用SerDes技术）来减少损耗。Infiniband网络基于“以应用程序为中心”的观点，目标是让应用程序访问其他应用程序以及存储尽可能的简单、高效和直接，避免网络分层带来的延迟。这种结构大大提高了GPT-4训练的速度。
4.2 GPT-4计算相关芯片对于GPT-4这类大模型来说，其部署需要大量的大算力计算、存储和数据交互芯片，包括：
AI计算：算力>100TFLOPS的GPGPU或大算力AI芯片
CPU：核数>8的CPU
存储：内存/GDDR/HBM/NVMe
数据交互：Infiniband卡
在Transformer技术兴起之后，传统CUDA核心的算力支持能力已表现出劣势，英伟达便在其GPU中添加Tensor Core这类DSA单元，以适应算力需求的变化。考虑到GPU这类通用架构芯片在计算效率和算力上已经暂时落后于GPT-4/ChatGPT这类大模型的发展速度，从芯片/半导体的历史发展规律看，预计近几年可能会有新的专用架构大发展来填补这一需求。这类新架构也许是针对大模型的DSA，或者是更接近于DSA的GPGPU。
▲CPU、GPU和存算一体芯片的架构对比

1 ...15 16 17 18 19 ...23 查看全文

GPT-4大模型硬核解读！看完成半个专家(17)

量产型璃子-模型女子的人生组装记-

量产型璃子-另一位模型女子的人生组装记-

混乱的韩国模特圈，模特们为成名费尽心机，令人大饱眼福的电影

硬核亨利

硬核机器人

我能看到成功率动态漫画第4季

这部惊悚电影太生猛，看完才知道为什么只能网盘看，后劲真大

一口气盘清《魔戒》三部曲，深度解读中土大战的各族势力