技术解析

Linux 下的用户任务队列
0
2021-06-24 18:55:52
idczone

研究室只有 2 台服务器,每台上面 8 块显卡。每天都很多人要跑实验,经常出现抢显卡打架的情况。

是否有现成的工具可以满足下面的需求呢:

  1. 每个用户登陆到服务器之后,提交跑实验的命令,而不是直接自己开始跑。
  2. 服务器会自动在这 2 台服务器上调度任务:
  3. 如果当前没有 GPU 可用,队列里的任务就都等着
  4. 如果有 GPU 空出来了,队首的任务就开始跑
  5. 并且能做到公平分配 GPU 运行时间给每个用户,比如刚跑了一个耗时很长的实验的用户在一段时间内不会再让他跑

自己以前实验室没这么紧张,没具体弄过。不知道你们做啥实验,生物信息的话可以拿 autodock,zdock 之类的关键字搜搜日本大学或国内大学的公共实验平台,可以看他们的管理方法。另外一些商业软件运算自带这种系统的。

sungrid

https://github.com/Qihoo360/XLearning

最传统的 IBM 的 LSF 应该就可以, 使用方法就是你描述的那样.

好问题,关注,组里 DL 大户太狠了……

自己写一个吧,周末应该可以写一个能用的

挖矿很不错啊不错
数据地带为您的网站提供全球顶级IDC资源
在线咨询
专属客服