Pytorch使用DDP加载模型时出现多进程在GPU0上占用过多显存的问题_pytorch占用显存占用太多_背着代码的蜗牛的博客

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

很拉风的红酒 · 太空工程师转子炮塔图文教程--k73游戏之家· 10 月前 ·

老实的松鼠 · 北京盈科（杭州）律师事务所· 1 年前 ·

慷慨的白开水 · 【东瀛故事】庭院幽深，我自张狂——来谈谈日本 ...· 1 年前 ·

一身肌肉的伤疤 · 关于做好房屋建筑和市政基础设施工程质量事故报 ...· 1 年前 ·

文雅的牛肉面 · 《晚清人物丛考-(全二册)》 - 淘书团· 1 年前 ·

使用pytorch DDP(DistributedDataParallel，分布式数据并行)可以进行多卡训练，涉及到模型保存与加载问题时，一般会涉及到以下两种需求：

将多卡训练的模型保存到磁盘。
从磁盘加载模型，在多卡上继续训练。

如何无bug且高效的解决以上需求 ？（假设训练设备为“单机4卡”）

对于需求1，由于DDP在多卡中维护了相同的模型参数（通过在4张GPU上确保模型初始化以及广播相同的梯度来保证4张卡中的模型参数是完全相同的），因此只需要在其中一张卡保存模型即可：

def save_checkpoint(local_rank, ddp_model, path):
    #只在GPU 0 上保存模型
    if local_rank== 0:
        state = {
            'model': ddp_model.module.state_dict(),
            'optimizer': optimizer.state_dict(),
        torch.save(state, path)

对于需求2，一般会使用torch.load()方法从磁盘加载文件：

def load_checkpoint(path):
    checkpoint = torch.load(path)
    model = Net()
    model.load_state_dict(checkpoint['model'])
    model = DDP(model, device_ids=[gpu])
    return model

但是此时往往会遇到多进程在GPU0上占用过多显存的问题：

使用nvidia-smi命令：

上图中，在所有使用GPU0的进程中，除了PID为62250的进程外，还存在其他三个进程，而这三个进程还分别使用GPU1\2\3。这三个额外进程在GPU0占用了725MB*3的显存空间，这可能会导致GPU0在训练时出现爆显存的问题。

在DDP中，会为每张卡单独创建一个进程：

上图的情况是正常的，每个进程只会使用与其对应的一张显卡。

该问题出现的原因是：torch.load()的不正确使用。

在pytorch对 torch. load() 方法的官方文档中，有以下说明：

If map_location is missing, torch.load will first load the module to CPU and then copy each parameter to where it was saved

意思是，如果map_location参数是空的，则torch.load方法会先把模型加载到CPU，然后把模型参数复制到 保存它的地方 （根据上文，保存模型的位置恰好是GPU 0）。

跑在GPU1上的进程在执行到torch.load方法后，会先加载模型到CPU，之后该进程顺理成章地调用GPU0，把一部分数据复制到GPU0，也就出现了前面图中的问题。

与其说是bug，倒不如说没仔细阅读文档。

两种解决方法方法。

一，将map_location指定为CPU：

def load_checkpoint(path):
    #加载到CPU
    checkpoint = torch.load(path,map_location='cpu')
    model = Net()
    model.load_state_dict(checkpoint['model'])
    model = DDP(model, device_ids=[gpu])
    return model

二，将map_location指定为local_rank对应的GPU：

def load_checkpoint(path):
    #加载到CPU
    checkpoint = torch.load(path,map_location='cuda:{}'.format(local_rank))
    model = Net()
    model.load_state_dict(checkpoint['model'])
    model = DDP(model, device_ids=[gpu])
    return model

本文主要解决 pytorch 在进行模型训练时出现 GPU 的0卡占用显存比其他卡要多的问题。如下图所示：本机 GPU 卡为TITAN RTX，显存 24220M，batch_size = 9，用了三张卡。第0卡显存占用 24207M，这时仅仅是刚开始运行，数据只是少量的移到显卡上，如果数据在多点，0卡的显存肯定撑爆。出现 0卡显存更高的原因：网络在反向传播的时候，计算loss的梯度默认都在0卡上计算。因此会比其他显卡多用一些显存，具体多用多少，主要还要看网络的结构。因此，为了防止训练由于 out of memory

某次训练 深度学习 模型时，使用 *** roberta-large 模型作为基础模块，起初使用 DataParallel *** 的方式，进行单机多卡训练，卡数为2，每张卡显存为10G。训练期间发现，无法使用较大的batch_size，batch_size最大为4。同时，训练时间增加到3个小时一个epoch，时间开销太大。观察 GPU 利用显存率，0卡占用显存明显比1卡占用的要多，这也是*** DataParallel *** 这种模式的弊端。 *** DataParallel *** 数据传输过程包括：模型并行模型并行主要应用于模型相比显存来说更大，一块 device 无法加载的场景，通过把模型切割为几个部分，分别加载到不同的 device 上。比如早期的 AlexNet，当时限于显卡，模型就是分别加载在两块显卡上的。这个是日常会应用的比较多的情况。每一个 device 上会加载一份模型，然后把数据分发到每个 device 并行进行计算，加快训练速度。如果要再细分，又可以分

感谢知乎作者 https://www.zhihu.com/question/67209417/answer/866488638 在使用 DDP 进行单机多卡分布式训练时，出现了在加载预训练权重时显存不够的现象，但是相同的代码单机单卡运行并不会出现问题，后来发现是在多卡训练时，额外出现了3个进程同时占用了0卡的部分显存导致的，而这3个进程正是另外3张卡load进来的数据，默认这些数据被放在了0卡上。解决的方法是把load进来的数据放在cpu（也就是内存）里。 # 原来代码，load进的数据放在 gpu 里 # pre

1. 搭建自己的简单二分类网络，使用 pytorch 训练和测试； 2. 将 pytorch 训练的pth 模型转换成ONNX，并编码测试； 3. 含训练和测试数据，含训练ok的pth 模型和ONNX 模型，含完整python和C++实现； 4. 使用方法：首先运行“TrainTestConvertOnnx.py”执行“训练数据读入、模型训练、模型测试、导出onnx”，再运行“TestOnnx.cpp”测试onnx（需要配置OpenCV）；

在公司用多卡训练模型，得到权值文件后保存，然后回到实验室，没有多卡的环境，用单卡训练，加载模型时出错，因为单卡机器上，没有使用 DataParallel来加载模型，所以会出现加载错误。 DataParallel包装的模型在保存时，权值参数前面会带有module字符，然而自己在单卡环境下，没有用DataParallel包装的模型权值参数不带module。本质上保存的权值文件是一个有序字典。 1.在单卡环境下，用DataParallel包装模型。 2.自己重写Load函数，灵活。 from collections import OrderedDict def myOwnLoa

如果在python内调用 pytorch 有可能显存和 GPU 占用不会被自动释放，此时需要加入如下代码 torch.cuda.empty_cache() 我们来看一下官方文档的说明 Releases all unoccupied cached memory currently held by the caching allocator so that those can be used in other GPU application and visible in nvidia-smi. empty_cache() doesn’t increase the amount of GPU me

问题描述首先说明: 由于我的测试集很大, 因此需要对测试集进行分批次推理. 在写代码的时候发现进行训练的时候大概显存只占用了2GB左右, 而且训练过程中显存占用量也基本上是不变的. 而在测试的时候, 发现显存在每个batch数据推理后逐渐增加, 直至最后导致爆显存 , 程序fail. 这里放一下我测试的代码: y, y_ = torch.Tensor(), torch.Tensor() for batch in tqdm(loader): x, batch_y =

PyTorch 是一个流行的 深度学习 框架，支持使用单个 GPU 或多个 GPU s进行训练和测试。在使用单个 GPU 时，需要将模型和数据加载到 GPU 上。使用单个 GPU 进行训练和测试的示例代码如下：示例代码如下： ```python #将模型加载到 GPU device = torch.device('cuda:0') #选择第一个 GPU model.to(device) #将数据加载到 GPU x = x.to(device) y = y.to(device) #在 GPU 上进行前向传播 y_pred = model(x) #计算损失 loss = criterion(y_pred, y) #在 GPU 上进行反向传播 loss.backward() #更新权重 optimizer.step() 使用多个 GPU 可以加快训练和测试的速度。 PyTorch 提供了两种多 GPU 的方法：DataParallel和DistributedDataParallel（ DDP ）。其中，DataParallel是在单台机器上使用多个 GPU 的方法，而 DDP 是在多台机器上使用多个 GPU 的方法。使用 DataParallel 时，可以将模型和数据加载到单个 GPU 上，然后使用 torch.nn.DataParallel将模型复制到其他 GPU 上。使用 DataParallel进行训练和测试的示例代码如下：示例代码如下： ```python #将模型加载到 GPU device = torch.device('cuda:0') #选择第一个 GPU model.to(device) # 使用 DataParallel将模型复制到其他 GPU 上 if torch.cuda.device_count() > 1: model = nn.DataParallel(model) #将数据加载到 GPU x = x.to(device) y = y.to(device) #在 GPU 上进行前向传播 y_pred = model(x) #计算损失 loss = criterion(y_pred, y) #在 GPU 上进行反向传播 loss.backward() #更新权重 optimizer.step() 使用 DDP 时，需要在多台机器上安装 PyTorch 和NCCL库，并按照官方文档中的说明进行配置。使用 DDP 进行训练和测试的示例代码如下： ```python #在每个进程中选择一个 GPU device = torch.device('cuda', rank % torch.cuda.device_count()) # 使用 DistributedDataParallel初始化模型 model = nn.parallel.DistributedDataParallel(model, device_ids=[device]) #在 GPU 上进行前向传播 y_pred = model(x) #计算损失 loss = criterion(y_pred, y) #在 GPU 上进行反向传播 loss.backward() #更新权重 optimizer.step() 以上就是 PyTorch 使用单个 GPU 和多个 GPU 进行训练和测试的方法。具体使用哪种方法，需要根据硬件和应用场景的要求进行选择。

玩转CIFAR10—Pytorch复现LeNet,AlexNet,VGG,GoogLeNet,MobileNet,ResNet,DenseNet,Vision Transformer等模型（持续更新）在VS Code中使用jupyter notebook，输出过多时show more显示不正常，出现乱码问题的解决方案