
1 F281M6Dh8DXpD1g2 220 天前 gc log 都不看的话确实没啥结果 |
3 seers 220 天前 有点像是磁盘 io 出问题了,建议这个方向看看 |
4 ronen 220 天前 接着 #3 问,你们的基础设施是自建的,还是云上的, op 能力或人力不足的时候,就拆一部分到云厂商去,规避一个人要同时关注过长技术链条。 |
7 tomatocici2333 219 天前 |
8 zhoudaiyu OP PRO @tomatocici2333 #7 机房就一句话,一切 OK ,要么就是坏了才告诉我们(其实之前就知道了,就故意不告) |
9 k0m8MNz2Ywf0OLeH 219 天前 |
10 Ethan24067 219 天前 @Liv1Dad 难转吗 |
12 jellysheep 219 天前 负载高吗 |
13 tomatocici2333 219 天前 @zhoudaiyu #8 这种情况下你就要告诉 +1 了,让他去拉上开发还有机房一起去查。责任面扩大一下 |
14 defunct9 219 天前 开 ssh ,让我上去看看 |
15 Huelse 219 天前 99%是硬盘问题,固态硬盘故障有时就是玄学,可以往这方面排查下 |
16 SmiteChow 219 天前 可能是网卡问题,这也是为什么我推荐拉取信息而不是推送信息做监测的原因,有时候网卡能发不能收,有时候能收不能发。 |
17 edisonwong 219 天前 atop 或者 sar 监控 |
18 sjkdsfkkfd 219 天前 整点 bpf 啥的?学好了还能跳个槽 |
19 zhoudaiyu OP PRO @Huelse #15 是集中式存储( ZK ),估计是 HDD ,然后 Kafka 用的是 nvme 的 ssd ,从 dmseg 、带外、监控看都正常,docker 这个机械盘反正确实性能比较差,但是 30 多台机器就只有 3 台这样 @edisonwong #17 sar 每次抓数据间隔时间太长了 @SmiteChow #16 网卡也是正常的 @sjkdsfkkfd #18 内核太好了 2.6 和 3.10 的 @defunct9 #14 这给我开监狱去了 |
20 sjkdsfkkfd 219 天前 > 内核太好了 2.6 和 3.10 的 啊这,那确实很无力了 |
21 zhoudaiyu OP PRO @sjkdsfkkfd #20 也有 4.19 的几台,但是没出这些幺蛾子 |
22 k0m8MNz2Ywf0OLeH 219 天前 @clocean #10 都是搬砖,也没啥难不难的。 |
23 hellolinuxer 218 天前 这也叫 sre 吗 |
24 feedcode 218 天前 kafka JVM 的 thread stack, heap dump 有吗? dockerd 的 stack, trace 有吗? 没有的话只能靠猜 |
25 zhoudaiyu OP PRO @hellolinuxer 那您理解啥叫 SRE ? |