定时任务:
*/1 * * * * bash /opt/rocket/bin/monitor.sh
shell 脚本代码如下:
#!bin/bash
source ~/.bash_profile
LOG_FILE='/opt/rocket/bin/logs/monitor_sh.log'
# 打印日志,传一个参数($1 日志体)
function log() {
local time=$(date "+%Y-%m-%d %H:%M:%S")
echo "[$time] $0 : $1 " >> ${LOG_FILE}
}
# 用来搜进程有几条,没有就返回 0
# $1 : 进程名
function checkProcess() {
if [ -z $1 ];
then
log "Input parameter is empty."
return 0
fi
pid=`ps -ef | grep "rocket" | grep -v grep | awk '{print $2}'`
echo $pid
}
declare -i pid #声明变量为整形
pName="rocket" #要查看的进程名
pid=`checkProcess ${pName}`
if [ $pid -eq 0 ]
then
log "No specified ${pName} service starts."
bash start.sh
else
log "The specified service ${pName} has been started, pid=${pid}."
fi
日志文件(部分)如下:
- [2019-07-17 16:57:54] monitor.sh : The specified service rocket has been started, pid=15460.
- [2019-07-17 16:58:01] /opt/rocket/bin/monitor.sh : No specified rocket service starts.
- [2019-07-17 16:58:45] monitor.sh : The specified service rocket has been started, pid=15460.
- [2019-07-17 16:59:01] /opt/rocket/bin/monitor.sh : No specified rocket service starts.
- [2019-07-17 17:00:01] /opt/rocket/bin/monitor.sh : No specified rocket service starts.
- [2019-07-17 17:01:01] /opt/rocket/bin/monitor.sh : No specified rocket service starts.
- [2019-07-17 17:01:16] monitor.sh : The specified service rocket has been started, pid=15460.
- [2019-07-17 17:02:01] /opt/rocket/bin/monitor.sh : No specified rocket service starts.
- [2019-07-17 17:03:01] /opt/rocket/bin/monitor.sh : No specified rocket service starts.
- [2019-07-17 17:04:01] /opt/rocket/bin/monitor.sh : No specified rocket service starts.
- [2019-07-17 17:05:01] /opt/rocket/bin/monitor.sh : No specified rocket service starts.
shell 脚本用途是检测 java 进程是否存在,若不存在就执行另一个启动脚本,此处场景是存在的,即我手动执行时打印的 15460 号
看日志打印的文件名, 只有文件名 monitor.sh 的是我手动执行的,绝对路径是定时任务执行的。
那么问题来了,这是个什么情况? 如何解决?
写 shell 脚本不多 , 也不知道是不是我写的代码有问题?
start.sh 也用绝对路径看看
按照逻辑来说进入这个能执行 start.sh 的代码块就已经错误了 = =
正常情况应该是进 else 的,毕竟已经有对应进程在执行了
看看环境变量是否有影响,cron 用户执行的环境变量不一致可能会导致失败,在定时任务里直接加. /etc/profile 或. ~/.bash_profile 试试呢
checkProcess()这个函数查询 pid 的时候有问题吧,这样只 grep rocket 不是会查询到多个 pid 吗?
代码第二行就是呀,没有作用。。
环境变量不一致
为何不用 pgrep ?
把 checkProcess 里的 pid 打到 log 看看
sudo -u xxx /bin/bash /opt/rocket/bin/monitor.sh
一般不会,这服务器里包含这个名字的就他一个 jar 包。有可能查出多个话,那我也不知道该用什么命令了= =
因为我没有听过呢...
如果是环境变量的锅,我应该如何设置呢? 是不是我代码第二行书写错误。
你先用你的账号,比如说 xxx,试下是否正常,所有的命令都用全路径,比如 /bin/bash
crontab 里执行的时候也用 sudo -u 切换到你的 xxx 用户,保证环境变量完全一致
set -ex & crontab 输出从定向到某个文件看看
看到了相对路径,想起了以前踩过的坑。。。cron 执行的脚本里全换成绝对路径,包括安装的程序。
绝对路径里面有 rocket,你手动绝对路径拉一下
应该是环境变量的问题,可以看一下 /var/mail/user 里的日志会打印 cron 执行时的环境变量
在 crontab 执行中最好用服务器的绝对路径,我以前就被这个坑过。。。
crontab 里面用绝对路径 /bin/bash 执行,并把 crontab 里面加上重定向日志,看看执行有没有错误。最后监控脚本林也用绝对路径执行 start.sh 试试?
是 cron 行里加入,不是脚本里加
5 楼是对的,原因确实是获取到了多个 pid。
手动执行是用相对路径,进程列表里会有 rocket.jar 和 monitor.sh ,grep 匹配出来的只有一个 rocket.jar 的进程 id。cron 执行是用绝对路径,进程列表里会有 rocket.jar 和 /opt/rocket/bin/monitor.sh ,这两个进程都有关键字 rocket,grep 匹配出两个进程 id。
而脚本声明 pid 变量为整形,所以函数 checkProcess 里 pid 赋值那一步就报错了,这个函数的标准输出是空白。函数外边 pid=`checkProcess ${pName}` 这一句就是把空白值赋给 pid,等价与把 0 赋给 pid。