学习笔记-模型训练加速

数据并行数据并行 数据并行是最常见的并行形式,因为它很简单 数据并行训练时,数据集被分成若干分片,每个分片分配…

如何在普通显卡上训练“万亿大模型”?

1.背景近年来,随着“大模型”概念的引入,深度学习模型变得越来越大。如何训练这些大型模型已成为亟待解决的工程问…