最近遇到了 3 次非常难查的问题，很无助

请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 369 days ago, the information mentioned may be changed or developed.

本人是 sre ，负责 k8s 和一些如 kafka zk 的中间件的运维，最近遇到了 3 个问题好久都没查出来。第一次是 3 节点 zk 集群夜间突然 1 台 cpu 拉到 100%几分钟后 cpu 掉下来了，但节点不可用，然后 2 个小时后另外一台又这样了，也挂了，然后集群不可用了。第二次是 6 节点 kafka 突然有一台 cpu 很高，重启没用，停掉后部分业务又开始报错，提高 cpu 配置（容器），并迁移了受影响的一个业务后启动后突然就一切正常，cpu 使用率也没那么高了，其他业务也没事了。第三个是 docker info 、docker images 突然 hang 住，几个小时自己恢复了，然后又开始反复。这几次中间件除了 zk 那个日志被清理了看不到当时报错，其他都没有什么报错，无从查起，很无力，领导又要结果。

Kafka

Docker

26 replies 2025-05-10 16:28:18 +08:00

F281M6Dh8DXpD1g2

May 8, 2025

gc log 都不看的话确实没啥结果

zhoudaiyu

PRO

May 8, 2025

@liprais 这准备加呢，之前确实有的集群没有，有的有，这次赶上的都没有

seers

May 8, 2025

有点像是磁盘 io 出问题了，建议这个方向看看

ronen

May 8, 2025

接着 #3 问，你们的基础设施是自建的，还是云上的， op 能力或人力不足的时候，就拆一部分到云厂商去，规避一个人要同时关注过长技术链条。

zhoudaiyu

PRO

May 9, 2025 via iPhone

@ronen 是自建的，用的是上级集团的自建机房，找他们他们查过，永远一句话，一切正常

zhoudaiyu

PRO

May 9, 2025 via iPhone

@seers 您说的是 Kafka 吧？从监控看 io ok 的，用的是 nvme 的固态，响应时间一直比较快

tomatocici2333

May 9, 2025

给领导说你排查下来没什么问题，需要上级机房一起排查看看能不能让领导协助一下

zhoudaiyu

PRO

May 9, 2025

@tomatocici2333 #7 机房就一句话，一切 OK ，要么就是坏了才告诉我们（其实之前就知道了，就故意不告）

k0m8MNz2Ywf0OLeH

May 9, 2025

转开发吧，已经我也是运维，遇到问题天天脑带大，还要 7*24 。现在开发，天天摸鱼。运维，狗都不干

Ethan24067

May 9, 2025

@Liv1Dad 难转吗

zhoudaiyu

PRO

May 9, 2025

@Liv1Dad #9 我之前确实是运维开发（告警平台、中间件运维平台这些），但是近两年部门有变动，我就变运维了，开发倒是也可以搞

jellysheep

May 9, 2025

负载高吗

tomatocici2333

May 9, 2025

@zhoudaiyu #8 这种情况下你就要告诉 +1 了，让他去拉上开发还有机房一起去查。责任面扩大一下

defunct9

May 9, 2025

开 ssh ，让我上去看看

Huelse

May 9, 2025

99%是硬盘问题，固态硬盘故障有时就是玄学，可以往这方面排查下

SmiteChow

May 9, 2025

可能是网卡问题，这也是为什么我推荐拉取信息而不是推送信息做监测的原因，有时候网卡能发不能收，有时候能收不能发。

edisonwong

May 9, 2025

atop 或者 sar 监控

sjkdsfkkfd

May 9, 2025

整点 bpf 啥的？学好了还能跳个槽

zhoudaiyu

PRO

May 9, 2025

@Huelse #15 是集中式存储（ ZK ），估计是 HDD ，然后 Kafka 用的是 nvme 的 ssd ，从 dmseg 、带外、监控看都正常，docker 这个机械盘反正确实性能比较差，但是 30 多台机器就只有 3 台这样

@edisonwong #17 sar 每次抓数据间隔时间太长了

@SmiteChow #16 网卡也是正常的

@sjkdsfkkfd #18 内核太好了 2.6 和 3.10 的
@defunct9 #14 这给我开监狱去了

sjkdsfkkfd

May 9, 2025

> 内核太好了 2.6 和 3.10 的

啊这，那确实很无力了

zhoudaiyu

PRO

May 9, 2025

@sjkdsfkkfd #20 也有 4.19 的几台，但是没出这些幺蛾子

k0m8MNz2Ywf0OLeH

May 10, 2025

@clocean #10 都是搬砖，也没啥难不难的。

hellolinuxer

May 10, 2025

这也叫 sre 吗

feedcode

May 10, 2025

kafka JVM 的 thread stack, heap dump 有吗？
dockerd 的 stack, trace 有吗？
没有的话只能靠猜

zhoudaiyu

PRO

May 10, 2025

@hellolinuxer 那您理解啥叫 SRE ？

zhoudaiyu

PRO

May 10, 2025

@feedcode docker strace 了一下，发现是一直在扫镜像 imagedb/sha256 中的文件，都是小文件所以慢 kafka 没打 dump 和 jstack