研究室只有 2 台服务器,每台上面 8 块显卡。每天都很多人要跑实验,经常出现抢显卡打架的情况。
是否有现成的工具可以满足下面的需求呢:
- 每个用户登陆到服务器之后,提交跑实验的命令,而不是直接自己开始跑。
- 服务器会自动在这 2 台服务器上调度任务:
- 如果当前没有 GPU 可用,队列里的任务就都等着
- 如果有 GPU 空出来了,队首的任务就开始跑
- 并且能做到公平分配 GPU 运行时间给每个用户,比如刚跑了一个耗时很长的实验的用户在一段时间内不会再让他跑
自己以前实验室没这么紧张,没具体弄过。不知道你们做啥实验,生物信息的话可以拿 autodock,zdock 之类的关键字搜搜日本大学或国内大学的公共实验平台,可以看他们的管理方法。另外一些商业软件运算自带这种系统的。
sungrid
https://github.com/Qihoo360/XLearning
最传统的 IBM 的 LSF 应该就可以, 使用方法就是你描述的那样.
好问题,关注,组里 DL 大户太狠了……
自己写一个吧,周末应该可以写一个能用的
挖矿很不错啊不错