出售本站【域名】【外链】

微技术-AI分享
更多分类

深度学习中的数据并行

2025-02-19

尽管相比于1D Tensor并止,2D格外删多了模型权重的通信,但是须要留心的是当GPU数质不少的时候,每个GPU上分配的模型权重就会小不少,而且因为运用的All-reduce通信方式,所以2D也还是要比1D更高效的。如果有 N𝑁个 GPU,tensor维度大小为[P,Q,K][𝑃,𝑄,𝐾],这么每个chunk的大小即为 [P/3√N,Q/3√N,K/3√N][𝑃/𝑁3,𝑄/𝑁3,𝐾/𝑁3]。跟着模型大小不停删大,单个GPU的内存曾经无奈包容现此刻的大模型,所以便有了背面会引见的模型并止​。