训练之中发生OOM的解决问题办法

118 阅读 0 评论 78 点赞

我是靠谱客的博主活泼乌龟，最近开发中收集的这篇文章主要介绍训练之中发生OOM的解决问题办法，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

训练中发生OOM很有可能是一个批次对应的数据过长，导致一次GPU不能够完全地容纳地下
比如如下的情况：

for token_ids,segment_ids in tqdm(self.sample(random)):
#传入的数据在下面定义train_generator = data_generator(train_data, batch_size)
    batch_token_ids.append(token_ids)
    batch_segment_ids.append(segment_ids)

此时由于批次之中有数据过长，因此会发生OOM的情况，修改的方法很简单，将对应内容改为下面的内容即可

for token_ids,segment_ids in tqdm(self.sample(random)):
#传入的数据在下面定义train_generator = data_generator(train_data, batch_size)
    if len(token_ids) > self.maxlen:
        token_ids = token_ids[:self.maxlen]
        segment_ids = segment_ids[:self.maxlen]
    batch_token_ids.append(token_ids)
    batch_segment_ids.append(segment_ids)