深度学习中的数据并行

2025-02-19

尽管相比于1D Tensor并止，2D格外删多了模型权重的通信，但是须要留心的是当GPU数质不少的时候，每个GPU上分配的模型权重就会小不少，而且因为运用的All-reduce通信方式，所以2D也还是要比1D更高效的。如果有 N𝑁个 GPU，tensor维度大小为[P,Q,K][𝑃,𝑄,𝐾]，这么每个chunk的大小即为 [P/3√N,Q/3√N,K/3√N][𝑃/𝑁3,𝑄/𝑁3,𝐾/𝑁3]。跟着模型大小不停删大，单个GPU的内存曾经无奈包容现此刻的大模型，所以便有了背面会引见的模型并止。