LLM-分布式训练工具01-DeepSpeed：ZeRO系列【将显存优化进行到底】

青旅半醒 2023-10-12 16:39 11阅读 0赞

发表评论取消回复

表情：

评论列表（有 0 条评论，11人围观）

还没有评论，来说两句吧...

相关阅读

相关【LLM系列之Tokenizer】如何科学地训练一个LLM分词器

1 背景与基础 1.1 为什么需要分词对于人而言，在我们学会阅读之前，仍然可以理解语言。比如当你开始上学时，即使你不知道名词和动词之间的区别，但是你已经可以

短命女/ 2023年10月13日 17:23/ 0 赞/ 24 阅读

相关 LLM-分布式训练工具01-DeepSpeed：ZeRO系列【将显存优化进行到底】

前言目前训练超大规模语言模型主要有两条技术路线：TPU + XLA + TensorFlow/JAX 和 GPU + PyTorch + Megatron-LM + D

青旅半醒/ 2023年10月12日 16:39/ 0 赞/ 12 阅读

相关 LLM-分布式训练工具01-DeepSpeed：ZeRO-1、ZeRO-2、ZeRO-3配置【DeepSpeed的核心就在于，GPU显存不够，CPU内存来凑】

现在的模型越来越大，动辄几B甚至几百B。但是显卡显存大小根本无法支撑训练推理。例如，一块RTX2090的10G显存，光把模型加载上去，就会`OOM`，更别提后面的训练优化。

比眉伴天荒/ 2023年10月12日 15:06/ 0 赞/ 7 阅读

相关 LLM-分布式训练工具（一）：DeepSpeed【微软】【大模型分布式训练工具，实现ZeRO并行训练算法】【zero3配置将模型参数切分后分配到不同的显卡中，突破单张显卡容量不足以加载模型参数的限制】

DeepSpeed是微软推出的大规模模型分布式训练的工具，主要实现了ZeRO并行训练算法。原始文档链接： [DeepSpeed][] 一、DeepSpeed目前支持的

偏执的太偏执、/ 2023年10月12日 13:44/ 0 赞/ 19 阅读

相关显存不够，如何训练大型神经网络

> 之前写过一篇PyTorch节省显存的文章，在此基础上进行补充 > [老博文传送门][Link 1] [本篇参考自夕小瑶的卖萌屋公众号][Link 2] 一、单卡加

分手后的思念是犯贱/ 2023年07月11日 05:52/ 0 赞/ 22 阅读

相关 MySQL优化系列14-优化MySQL内存

备注:测试数据库版本为MySQL 8.0 文章目录一. MySQL如何使用内存二.监控MySQL内存使用三.开始large page支持

╰半橙微兮°/ 2023年01月23日 13:56/ 0 赞/ 48 阅读

相关深度学习训练降低显存指南

一、小模块API参数inplace设置为True（省一点点）比如：Relu()有一个默认参数inplace，默认设置为False，当设置为True时，计算时的得到的新值

Myth丶恋晨/ 2022年10月18日 00:59/ 0 赞/ 320 阅读

相关显存(Video Memory)

原文：[http://happyseeker.github.io/kernel/2016/03/01/about-Video-Memory.html][http_happyse

忘是亡心i/ 2022年10月17日 10:36/ 0 赞/ 266 阅读

相关深度学习训练降低显存分析

这一篇博客主要是帮助分析显存为什么炸裂的，不单独提具体的技术。技术可以参见另一篇博客 [深度学习训练降低显存指南\_Zjhao666的博客-CSDN博客][Zjhao666_

柔光的暖阳◎/ 2022年09月06日 04:47/ 0 赞/ 220 阅读

相关手机游戏资源特效显存分析工具

http://blog.sina.com.cn/s/blog\_73bed4520102w4tt.html step.1 准备工具 1.adb连接工具（我用的co

╰半夏微凉°/ 2022年07月28日 06:16/ 0 赞/ 175 阅读