技术解析
就是一个脚本的 restart.sh 脚本,stop start 停止和启动都会 ps -C 看进程在不在,可是 1000 台机器里时不时有 1,2 台有问题,进程 start 失败
诡异的日志
2018-09-18 08:33:45 check rsvr4 :exist pid[24927] 进程在 2018-09-18 08:33:45 stop rsvr4[24927] begin 开始停 2018-09-18 08:33:45 check rsvr4 :exist pid[24927] 还在 2018-09-18 08:33:46 check rsvr4 :not exist *不在 2018-09-18 08:33:46 stop rsvr4[24927] ok check outtime:1s 记录停成功 2018-09-18 08:33:46 check rsvr4 :not exist *进程不在 2018-09-18 08:33:46 start rsvr4 begin 开始启动 2018-09-18 08:33:46 check rsvr4 :exist pid[24927] *进程又在 2018-09-18 08:33:46 start rsvr4[24927] ok check outtime:0s 记录进程启动成功
实际 24927 会在脚本执行完成后真正 stop 到,然后进程就没有了。。。
关键就在这诡异 ps -C 为什么时不时进程 ps 不到呢,是有 bug 吗?
2018-09-18 08:33:45 check rsvr3 :exist pid[24921]
2018-09-18 08:33:45 stop rsvr3[24921] begin
2018-09-18 08:33:45 check rsvr3 :exist pid[24921]
2018-09-18 08:33:46 check rsvr3 :not exist
2018-09-18 08:33:46 stop rvr3[24921] ok check outtime:1s
2018-09-18 08:33:46 check rsvr3 :not exist
2018-09-18 08:33:46 start rsvr3 begin
2018-09-18 08:33:46 check rsvr3 :exist pid[24934]
2018-09-18 08:33:46 start rsvr3[24934] ok check outtime:0s