技术解析

小机器跑 linux 莫名其妙地死机, 一脸迷茫
0
2021-07-01 14:24:09
idczone

接 https://www.v2ex.com/t/312648 个帖子, 买了占美 5005u 的小机器,跑 Arch,很好,发热也不高,但最近发现要莫名其妙地死机,死得很奇葩。

1,把网线拔给其它计算机用了一段时间,再插回去,网卡灯不亮,死了,Num Lock 都切换不了。

2,没拨网线,关了路由器,早上出门,晚上回来,死了,

3,早上拔了网线,晚上回家,死了

4,同第二次

共同情况: 断开网络,网卡灯不亮,死机后机身微热

故障不易复现...断网一会儿不会遇到这个问题

其它情况: 有网络的情况下,最长连续 5 天不死机,有网络有负载时,从未死机。机器不存在过热问题。

死机后,没有任何日志什么的,故障又不易复现,简直头大。。。

不知道大家有什么找 bug 的建议,谢谢了!


会是固件问题么?或者有灰什么的。擦擦内存和固态的金手指试试

固件→硬件

全新的,我也从不用手接触金手指

r8169: can't disable ASPM; OS doesn't have ASPM control
dmesg 中有这个输出,不知道是不是 ASPM 的锅

赶快申请换机,就说不定期死机,要求必须更换,自己记住主板的特征,可以用刀在主板的侧边做个记号(不是板面上),只有自己记得,好用来区分回来的是新主板还原来的。
这些无风扇主机的主板品控就那么回事,虽然用料还可以,那也没用。

硬件问题。你看那些跑 linux 的路由,都没这样的。肯定是硬件问题。

驱动没装好吧

无风扇还是不现实的,稍微有点空气对流温度就会下降很多,最好的选择是静音风扇,然后定期清灰。

硬件问题+1

有网时不死机?
1 、可以考虑换个其他 linux 或者 windows 观测一下。、
2 、另外可以尝试 bios 禁用网卡,看看死不死。
3 、也有可能是待机醒不过来了,可以在 bios 关掉一些电源管理选项试一试。

我家的占美买回来一年了,用到现在好好的,包括夏天里摸着有点烫也没事

你真的用过无风扇主机吗?无意引战,只是觉得没有用过就没有发言权。我的笔记本用的 core m5 , nas 用的 N3150 ,均无风扇,从没有出过问题。

我也买的占美的小主机,遇到过同样的问题。你可以尝试升级下内核。

怀疑是网卡驱动问题,最好看下

日志

日志回家再贴,现在发现是拔网线后就死机,晚上闲置一晚,早上拔网线后,系统日志就断了,没有 Link down 这条记录。
Arch 内核目前是 4.8 。
没有设置待机, bios 禁不了网卡,正在 Windows 10 测试看看。

重编内核,求快速可直接复制这个 linux 救援 CD 内的 kernel.config 去编译,
www.system-rescue-cd.org/SystemRescueCd_Homepage
也可以复制这个设定后,再次编辑参数,把核心侦错的项目都打勾,尤其是讯息显示的部分.
换完核心后,你再次死机就有很大的机会看到问题点的讯息.
有时候不是温度问题,而是硬体,韧体,有根本上的瑕疵,而你触发了.

家里两三个 ATOM , hp 的 T550 改造了一个,自己买配件组装了一个,都热得烫手。硬盘温度超过 60 度寿命就会大幅下降,而且这玩意儿毕竟性能有限,多跑几个爬虫就不行了。帮别人组装过真正的 0 分贝主机,用的海韵 X400FL 电源,无风扇设计, CPU 散热器用的 Zalman FX100 ,上的 i7 2600k ,根本压不住,游戏半个小时 CPU 温度就到了 85 的样子。加了个 500 RPM 的 12 寸风扇侧吹,温度马上降到 58 度。目前来看,完全无风扇只能做到可用,温度太高还是有很大的危害的,所以我说稍微加上一个低转速风扇让空气流动一下就很不一样。
我现在自己搭了一个服务器,用的联想 T168 老箱子,低功耗 Xeon E3-1260L , 1 个 SSD , 1 个 2T 硬盘,挂爬虫挂 NAS ,待机在 30w 的样子,全速在 74w 的样子, CPU 散热器用的是热管 + 低速大风扇,前面板挂了个 12 寸风扇进风,刚好对准硬盘吹。整机噪音非常小,几乎听不见。
其实功耗和温度有两个隐形的死角我们往往不会注意,第一是电源一定要用转换率高的 80plus 电源,特别是在全速运行的时候, 80plus platinum 电源能达到 90%+的电能转换率,一年能节省不少电费;第二就是 intel 的 PCH 芯片组其实温度也不低,我试过了,从 H55 开始一直到现在的 Z170 ,没有不烫手的,我硬盘少,硬盘间缝隙大,前面板的大风扇吹的风能正对着 PCH 上面的散热片吹,即使是这样,我把原来的小散热片也改成了大铝片。
终极的解决方案,我认为还是风道+低转速风扇+大散热片,噪音,灰尘,散热都能得到有效解决。

谢谢,我也准备开启 kdump 看看,但是死机时显示器关闭

死机时显示器关闭了,黑屏状态怎么办?

知道有持续 LOG 到硬碟的选项和设定但没用过,所以无法回答你.
我有时候被当机搞到火大
就直接把 SystemRescueCd 内的核心跟模组档案
直接复制到我的主机内用这个救援核心去跑
还蛮稳的,
他码的自己编的没有这个稳= =

妥妥的硬件稳定性差

我会试试看,谢谢。

关闭 PCI 设备的 PM 后,故障没再出现了

怎么关闭 pci 设备的 pm ?遇到了同样的问题

不知道你的 CPU 是什么型号的?能不能复现死机或者找到死机时的共同特点呢?
分享下我当时的思路:
1. 更新 cpu microcode , 有些 CPU 有 bug ,最好更新
2. 使用 powertop 命令,切换到 Tunable 选项卡下,注意看看 网卡和 PCI 设备 PM 是否为 bad ,比如我的(关闭 PCI PM 后没有 bug 时):
Bad Runtime PM for PCI Device Realtek Semiconductor ... PCI Express Gigabit Ethernet Controller
之前是我将笔记本的一些 PM 设置复制过去,结果就遇到了本贴描述的 bug ,不知道是谁的锅,主要是这个 udev 规则开启了所有 PCI 设备的 PM :
ACTION=="add", SUBSYSTEM=="pci", ATTR{power/control}="auto"
在 powertop 的 Tunable 选项卡里面如果不确定的话,先将 PCI 设备的 PM 状态调成 bad 观察下,这些设置重启会还原成系统默认的,不必担心
还有就是据说一些新的赛扬 /奔腾 SoC 跑 Linux 并使用睡眠的话确实是有问题的,具体我也不清楚,没用过,但是这些 SoC 似乎 s3 睡眠是有点不一样的,在 Windows 里面, CherryTrail SoC 通过 powercfg /a 命令显示不支持 s3 睡眠,转而使用 Microsoft 所谓的“现代待机”了,不知道这是不是和硬件固件有关还是 Windows 自己搞的新一套

我也想搞个经济型的 Linux 机器放家里充当服务器,选来选去一直没什么中意的

数据地带为您的网站提供全球顶级IDC资源
在线咨询
专属客服