【问题及解决】训练一段时间卡住GPU Memory Usage满但是GPU-Util 是0%
猜测这次的无故卡死是因为多线程读取数据导致内存爆炸,大内存很重要,这里8和4都试过了,因此选择调小num_works:8->4->2。扩充了数据集的种类并且整合之后使用yolov7nohup挂起训练,结果到了epoch45的时候卡住了,一直不动。居然是因为找不到图像,应该是我数据处理步骤较多,有的没检查清楚,结果导致了这样的结果,万万没想到啊无语死了。Workers继续调小,变成2,结果还是会出现一样的情况。可以看到显存使用几乎是满的,但是GPU使用率一直是0.结果卡了好久,我发现出