如何优雅的提醒对方(你丫的别占着显卡不拉屎)
用户抱怨他人占用GPU资源导致实验受阻,社区建议通过行政手段或调度系统解决。
关键信息与痛点
楼主(#3)因显卡被占用且无法查看其他用户任务详情,仅敢向管理员发送抱怨邮件。核心矛盾在于资源分配不公:部分用户(如#5提到的发垃圾Paper者、#7用GPU跑MATLAB者、#20占L40s仅用500MB显存者)长期低效占用高性能显卡,导致其他用户(如#5的CVPR实验、#20排了两天才轮到跑的evaluate任务)无法及时使用资源。
解决方案与管理策略
社区提出了多种技术与管理层面的应对方案:
- 自动Kill机制:#6建议实施“低利用率Job Killer”,对于平均GPU利用率低于50%的任务自动终止;#2指出可直接kill进程。
- 调度系统优化:#18和#20强烈建议使用Slurm等作业调度系统,以解决优先级和资源排队问题(#20提到Slurm下低优先级任务虽可运行但会长期阻塞高优先级任务)。
- 行政与政策:#9建议询问管理员是否存在明确的使用政策;#4提议建立“每周空闲GPU排行榜”进行公开监督。
- 技术对抗:#8戏谑建议将对方进程迁移至CPU,体验极致缓慢。
闲聊与环境吐槽
/uploads/short-url/aWHxONqfC8W7FpQe3X43TJzXPPb.jpeg?dl=1
给他kill了
只敢给admin发个抱怨邮件
搞个 weekly idle gpu leaderboard
只能下次自己也占上。。。之前遇到过发垃圾paper还占着gpu不放的,搞得我CVPR实验没做完
需要enforce low utilization job killer。我们是average utilization 50%以下的job都会被自动kill。
好家伙用GPU跑MATLAB可还行。
经典GPU显存当硬盘用,下次直接把他的进程迁移到CPU上体验一下什么叫真正的慢
ask admin. there should be policy
interactive的也会吗
这颜色太阴间了,你平时就用绿色的命令行吗
黑客帝国是三十年前的电影了
绿色护眼
我们的job只能看到自己job分配到的显卡…你们这个隐私不够啊,你看不到就不会有困扰了
我感觉要瞎了
想起来当年用学校的破显卡生成福瑞色图,跑到死机还登不进去了。不知道他们后来发现是什么反应
古法配色
你们需要Slurm
把这个帖子发给对方?
slurm也是一样的 总有这种神经病只需要500mb显存然后占L40s的 而且长程任务一跑就是两天 虽然优先级很低 但是奈何他天天提交天天跑 别人很难用得上 456是我排了两天才能跑的一个evaluate… /uploads/short-url/en1hBuwt2BOQSqQHqdxFf5jfysC.png?dl=1