LLM-分布式训练工具01-DeepSpeed：ZeRO-1、ZeRO-2、ZeRO-3配置【DeepSpeed的核心就在于，GPU显存不够，CPU内存来凑】

比眉伴天荒 2023-10-12 15:06 7阅读 0赞

发表评论取消回复

表情：

评论列表（有 0 条评论，7人围观）

还没有评论，来说两句吧...

相关阅读

相关 LLM-分布式训练工具01-DeepSpeed：ZeRO系列【将显存优化进行到底】

前言目前训练超大规模语言模型主要有两条技术路线：TPU + XLA + TensorFlow/JAX 和 GPU + PyTorch + Megatron-LM + D

青旅半醒/ 2023年10月12日 16:39/ 0 赞/ 12 阅读

相关 LLM-分布式训练工具01-DeepSpeed：ZeRO-1、ZeRO-2、ZeRO-3配置【DeepSpeed的核心就在于，GPU显存不够，CPU内存来凑】

现在的模型越来越大，动辄几B甚至几百B。但是显卡显存大小根本无法支撑训练推理。例如，一块RTX2090的10G显存，光把模型加载上去，就会`OOM`，更别提后面的训练优化。

比眉伴天荒/ 2023年10月12日 15:06/ 0 赞/ 8 阅读

相关 LLM-分布式训练工具（一）：DeepSpeed【微软】【大模型分布式训练工具，实现ZeRO并行训练算法】【zero3配置将模型参数切分后分配到不同的显卡中，突破单张显卡容量不足以加载模型参数的限制】

DeepSpeed是微软推出的大规模模型分布式训练的工具，主要实现了ZeRO并行训练算法。原始文档链接： [DeepSpeed][] 一、DeepSpeed目前支持的

偏执的太偏执、/ 2023年10月12日 13:44/ 0 赞/ 19 阅读

相关 GPU — 分布式训练

目录文章目录目录分布式训练的挑战算法挑战工程挑战分布式范式 NCCL MPI 共享存储

爱被打了一巴掌/ 2023年10月06日 23:20/ 0 赞/ 50 阅读

相关显存不够，如何训练大型神经网络

> 之前写过一篇PyTorch节省显存的文章，在此基础上进行补充 > [老博文传送门][Link 1] [本篇参考自夕小瑶的卖萌屋公众号][Link 2] 一、单卡加

分手后的思念是犯贱/ 2023年07月11日 05:52/ 0 赞/ 22 阅读

相关 GPU 核心和 CPU 核心

GPU 核心和 CPU 核心费林分类法 (Flynn’s Taxonomy) 单指令单数据 (single instruction, single data，SI

分手后的思念是犯贱/ 2023年02月19日 10:25/ 0 赞/ 52 阅读

相关 520 表白不够，521 来凑！！！

文章开头提一嘴，http://www.cxy521.com 的相亲板块昨天上线了，目前还没有脱单的小伙伴，速度进群了。 ![金属质感分割线][aa413e0431f16009

朴灿烈づ我的快乐病毒、/ 2022年10月14日 13:56/ 0 赞/ 155 阅读

相关 mxnet 显存配置，cpu过高配置

mxnet自动调用尽量多的cpu多核，多人训练，别人就不方便用了。这个起作用，控制cpu核数占用。 os.environ\['OMP\_NUM\_THREADS'\] =

喜欢ヅ旅行/ 2022年09月08日 15:53/ 0 赞/ 109 阅读

相关 2. Trailing Zeros

2. Trailing Zeros Description Write an algorithm which computes the number of

灰太狼/ 2022年05月26日 20:44/ 0 赞/ 227 阅读

相关解决tensorflow运行显存不够的问题

在训练模型的过程中遇到程序报错，结果发现时因为电脑显存不够，资源都已经分配完了。根据多方查阅，找到了此问题的解决方法，在这里记录和分享一下~ 出现问题错误：Error

拼搏现实的明天。/ 2022年01月05日 12:27/ 0 赞/ 752 阅读