大语言模型训练过程中,如何提供稳定训练断点保存和恢复的存储能力?

大模型训练过程比传统的分布式训练复杂,训练周期长达数月。本议题核心研讨如何运用存储技术手段提高大模型训练的数据存储效率。显示全部

大模型训练过程比传统的分布式训练复杂,训练周期长达数月。本议题核心研讨如何运用存储技术手段提高大模型训练的数据存储效率。

收起
参与20

查看其它 5 个回答catalinaspring的回答

catalinaspringcatalinaspring联盟成员副处长金融

增加 checkpoint frequency ,减少 checkpoint time 和 retrieval time 有助于提升故障恢复的效率。因此,从两方面优化:一方面,把断点尽量保存在 CPU 内存中, CPU 内存可以使本地或者远端的,从而避免去读写磁盘。另一方面,增加 checkpoint frequency ,减少算力浪费的时间。实现这两点有挑战:
第一点,用 CPU 内存存断点需要设计备份策略。因为如果一个节点出故障,那么这个节点 CPU 内存的内容肯定也没了。这就需要把这个 CPU 存的断点数据在其他地方备份一份,类似分布式文件系统的三副本原则。备份的地方可以包括其他节点的 CPU 内存或者是磁盘,这就要搞成一个层次化存储空间,因此就需要有些设计副本策略,来增加从 CPU 内存中恢复的概率。
第二点,上述存储断点的层次化存储空间是分布式的,这就需要不同节点的通信,这可能会和模型训练的通信互相干扰。稍有不慎增加了训练的总体开销,相比故障恢复的时间的节省反而得不偿失了。所以,如何避免额外通信引发的问题也有挑战。

银行 · 2024-02-05
浏览518

回答者

catalinaspring
副处长金融
擅长领域: 人工智能数据库大数据

catalinaspring 最近回答过的问题

回答状态

  • 发布时间:2024-02-05
  • 关注会员:7 人
  • 回答浏览:518
  • X社区推广