大语言模型训练过程中，如何提供稳定训练断点保存和恢复的存储能力？

大模型训练过程比传统的分布式训练复杂,训练周期长达数月。本议题核心研讨如何运用存储技术手段提高大模型训练的数据存储效率。

收起

关注7

参与20

查看其它 5 个回答catalinaspring的回答

catalinaspring

副处长金融

增加 checkpoint frequency ，减少 checkpoint time 和 retrieval time 有助于提升故障恢复的效率。因此，从两方面优化：一方面，把断点尽量保存在 CPU 内存中， CPU 内存可以使本地或者远端的，从而避免去读写磁盘。另一方面，增加 checkpoint frequency ，减少算力浪费的时间。实现这两点有挑战：
第一点，用 CPU 内存存断点需要设计备份策略。因为如果一个节点出故障，那么这个节点 CPU 内存的内容肯定也没了。这就需要把这个 CPU 存的断点数据在其他地方备份一份，类似分布式文件系统的三副本原则。备份的地方可以包括其他节点的 CPU 内存或者是磁盘，这就要搞成一个层次化存储空间，因此就需要有些设计副本策略，来增加从 CPU 内存中恢复的概率。
第二点，上述存储断点的层次化存储空间是分布式的，这就需要不同节点的通信，这可能会和模型训练的通信互相干扰。稍有不慎增加了训练的总体开销，相比故障恢复的时间的节省反而得不偿失了。所以，如何避免额外通信引发的问题也有挑战。

银行 · 2024-02-05

查看赞同的人

大语言模型训练过程中，如何提供稳定训练断点保存和恢复的存储能力？

查看其它 5 个回答catalinaspring的回答

回答者

catalinaspring 最近回答过的问题

回答状态