技术解析
我维护的一个软件在一个客户那每隔 2、3 天就自动退出一次,没有产生 core 文件,刚开始以为是新版本问题,后来回退到旧版本也自动退出,客户在现场排查运行环境问题,但估计程序也有一部分问题,请教各位大佬:
客户使用“ egrep -i -r 'kill' /var/log ”和“ dmesg | egrep -i -B50 'killed process'”没有结果,使用“ egrep -i -r 'aicid' /var/log ”命令得到以下结果( aicid 是部分程序名):
/var/log/audit/audit.log.3:type=ANOM_ABEND msg=audit(1511928861.267:5624442): auid=555 uid=555 gid=666 ses=923844 pid=6943 comm="aicidmdb_nattra" sig=7
/var/log/audit/audit.log.3:type=ANOM_ABEND msg=audit(1511928861.267:5624445): auid=555 uid=555 gid=666 ses=923844 pid=46407 comm="aicidmdb_nattra" sig=7
/var/log/audit/audit.log.3:type=ANOM_ABEND msg=audit(1511928861.267:5624446): auid=555 uid=555 gid=666 ses=923844 pid=15017 comm="aicidmdb_nattra" sig=7
type 为 ANOM_ABEND,Redhat 官网说“ ANOM_ABEND[a] Triggered when a processes ends abnormally (with a signal that could cause a core dump, if enabled)”,说明确实程序异常退出了。
但后面的 sig=7 看不懂,哪位大佬讲下什么意思?
还有一个问题是客户使用 dstat 命令发现网络收发包比 10:1 (如下图),这个会导致程序退出吗?(这台服务器上部署了 2 个多线程程序,总线程数约为 700-1000 )
https://wx1.sinaimg.cn/mw690/006RJudPly1fm8c0fwaymj30ka0dadg0.jpg
( https://wx1.sinaimg.cn/mw690/006RJudPly1fm8c0fwaymj30ka0dadg0.jpg)
!( https://wx1.sinaimg.cn/mw690/006RJudPly1fm8c0fwaymj30ka0dadg0.jpg)
https://ws2.sinaimg.cn/large/006RJudPly1fm8btwxbwej30ka0dadg0.jpg