我是靠谱客的博主 自信翅膀,最近开发中收集的这篇文章主要介绍【问题及解决】训练一段时间卡住GPU Memory Usage满但是GPU-Util 是0%,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

【问题描述】

扩充了数据集的种类并且整合之后使用yolov7nohup挂起训练,结果到了epoch45的时候卡住了,一直不动。
并且观察显卡使用情况:
在这里插入图片描述
可以看到显存使用几乎是满的,但是GPU使用率一直是0.

【尝试解决】

nohup python train.py --workers 8 --device 0,1 --batch-size 64 --data data/construction_site.yaml --img 640 640 --cfg cfg/training/yolov7-tiny.yaml --weights ‘’ --name yolov7-tiny --hyp data/hyp.scratch.tiny.yaml >> kk-output-0302.log 2>&1 &

猜测这次的无故卡死是因为多线程读取数据导致内存爆炸,大内存很重要,这里8和4都试过了,因此选择调小num_works:8->4->2
Workers继续调小,变成2,结果还是会出现一样的情况。

【问题原因】
结果卡了好久,我发现出现报错了!
在这里插入图片描述
居然是因为找不到图像,应该是我数据处理步骤较多,有的没检查清楚,结果导致了这样的结果,万万没想到啊无语死了。

【参考】

出现这个问题首先检查数据标签是否有问题,也有一些其他原因导致的,列出来链接可以参考:
1.https://www.zhihu.com/question/584925830?utm_id=0
2.https://github.com/bubbliiiing/yolov4-pytorch/issues/49
3.https://blog.csdn.net/weixin_57234928/article/details/123557131
4.https://blog.csdn.net/qq_24407657/article/details/103992170

最后

以上就是自信翅膀为你收集整理的【问题及解决】训练一段时间卡住GPU Memory Usage满但是GPU-Util 是0%的全部内容,希望文章能够帮你解决【问题及解决】训练一段时间卡住GPU Memory Usage满但是GPU-Util 是0%所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(105)

评论列表共有 0 条评论

立即
投稿
返回
顶部