Kubernetes

有什么可以快速验证应用部署 K8S 的办法么？

2025-09-19T12:07:25Z

公司有个 Java 应用（ Springboot ）需要部署在客户的 K8S 集群中。客户不提供测试环境，需要本地测试，请问下有什么最简单的路径来验证把应用从打包到部署到 K8S 集群中（对 K8S 了解很少，之前最多用过 docker 部署...）。是直接用阿里云还是用服务器部署一套 K8S 集群？我看了下阿里云发现有 ACS 和 ACK 两个，也不知道有什么区别...

有没有办法实现一个对外服务就可以访问 k8s 集群内的所有服务？

2025-09-19T03:14:47Z

目前在围绕 code-server 进行开发，现在碰到了启用了内部服务，但是只能通过 curl 进行测试，或者说我希望从我这个 code-server 访问另一个 code-server 开的服务，此时也只能 curl 。想了一个方案，每开一个服务，就对外开放这个端口的 ingress ，但操作起来太麻烦了。我想直接通过一个内部服务，这个 pod 对外开放一个页面，然后我在这个页面里面输入一个内部 cluster 的 ip 或者内部域名，就可以访问 k8s 内部的所有服务.有类似的实现方案吗？

k8s ingress 转发会把 encode 后的 uri 还原成转义前的字符串

2025-09-18T09:30:46Z

我有一个 ingress 转发的配置，就是把匹配/dhq 前缀的请求，转发到后端服务，访问 /dhq/api/v1/%40aa

ingress 转发时会直接把它还原成 /api/v1/@aa

但我就是不想给他还原，大佬们，有啥经验建议么，目前试了几个 ai 给的答案都不奏效

apiVersion: networking.k8s.io/v1 kind: Ingress metadata: annotations: nginx.ingress.kubernetes.io/proxy-body-size: 200m nginx.ingress.kubernetes.io/proxy-next-upstream-timeout: "60" nginx.ingress.kubernetes.io/proxy-read-timeout: "360" nginx.ingress.kubernetes.io/rewrite-target: /$2 nginx.ingress.kubernetes.io/configuration-snippet: | proxy_set_header Accept-Encoding ""; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header X-Forwarded-Proto $scheme; nginx.ingress.kubernetes.io/use-regex: "true" nginx.ingress.kubernetes.io/ssl-redirect: "false" nginx.ingress.kubernetes.io/enable-rewrite-log: "true" name: dhq-ingress namespace: monitor spec: ingressClassName: idataexplorer rules: - http: paths: - backend: service: name: dhq-service port: number: 80 path: /dhq(/|$)(.*) pathType: ImplementationSpecific

k8s 下 nfs-provisioner 迁移

2025-09-11T03:58:35Z

请教各位大佬，我在本地环境有一个 k8s 集群，需要更换 nfs-server ，如何完成 pv/pvc 迁移？

K8S 中的 POD，如何安全的执行 docker build？

2025-09-01T09:25:55Z

问题

服务运行环境是 k8s ，如果要执行 docker 命令，主要是安全问题，如何避免容器逃逸？

AI 提供了两种解决方案

挂载主机 sock 使用 dind 执行 docker 命令
使用 buildx/buildkit ，维护一个专门执行 docker 命令的集群提供 docker 能力

想问下大家有没有遇到类似的问题，如何解决的？

k8s 的一些问题

2025-08-22T01:36:41Z

2020 年左右 .net core webapp 是可以很简单的在 ide 里生成 helm 部署到 k8s 集群的
但好像当时 go opreator 社区比较活跃
后来找了一段 devops ，跨度太大，感觉无望后也就没怎么关注 kubernetes 了

最近实践了 react native + c++ 的跨平台编程
写了一个 ios 和 android 上的扫雷游戏，win/mac/embeded linux/ios/android 都入门了
就差鸿蒙了，又有点《识盈虚之有数》的感觉
想再搭个 Kubernetes 高可用集群玩一玩，看能不能做个聊天软件

刚才看有人在其他帖子的评论区讲提到 helm
思维发散了一下，想看看有没有必要学一学 go, 毕竟 operator 是 go 模板

c++/rust/go 都能开发高并发服务，各有长短，前者有基础，后面两 0 基础，何当取舍？

有人用过 victoria metrics stack 吗？

2025-08-09T10:37:41Z

一直用的是传统的 prometheus stack ，有点重，最近想调研下成本更低的方案，目前还不知道迁移难度大不大，有没有大佬分享点经验。

django 应用里面的脚本怎么在 k8s 平台启动更合适？

2025-08-02T09:17:44Z

这些脚本依赖于 django 环境，大概有 3 类 1 、偶尔需要执行一次的脚本 2 、定时执行的脚本 3 、监听 redis 指定键的脚本这三类脚本加在一块大概有 100 多个，如果每个脚本都打成一个镜像，觉得太重，只是镜像文件就要占用很多的存储空间，有没有更加合适的方式？大家给提供下

kubesphere 直接闭源下线怎么看？

2025-08-01T03:33:30Z

https://github.com/kubesphere/kubesphere/issues/6550 之前在对 k8s 集群管控上还对它做过选型，只能说还好没选它·······有胸弟在用的么？

IDEA 本地调试 Spring Cloud 项目，如何调用 k8s 集群里的 svc ip

2025-08-01T01:55:13Z

Telepresence
KT-Connect

场景：本地 A 服务调用 k8s 集群上的 B 服务

我们测试环境是一个 k8s 集群，然后目前采用的 KT-Connect 的方案。想用 Telepresence 但是需要 namespaces 的权限，我们运维只给开到 deployment 这一层权限。看看 V 友们一般都用的什么方案？

有没有 k8s + ingress +frp 这种方案

2025-07-25T16:44:59Z

场景: QQ 云有一台服务器，目前回家访问容器内的方案为 nginx -->frps -->frpc -->nodeport -->svc -->pod 目前存在缺点:

每次都要手动修改 svc 暴露每次都需要手动新增 frpc 配置文件每次都需要手动添加公网 Nginx

想法 FRPS–> FRPC → Ingress → svc → Pod

我在想能否通过创建 Ingress 自动 watch 配置文件然后重写给 frpc 自动重启服务，外网访问绑定

这种方案有大佬考虑实现吗？

Gitops 中涉及敏感信息推荐用什么工具呢？

2025-07-24T09:11:24Z

目前是通过 kustomize + helm template values-{env} 实现的 CD ，我最开始想的是，直接将敏感信息写入 helm values 里，解密还是在集群解密，但这样似乎违反了后渲染的原则。现在敏感信息使用 sealed-secret 加密，但是我总是需要查看 helm chart 中具体 template 代码实现，再去拆解出具体要引用的 Secret 资源，有没有简单的办法去拆解呢？比如 helm values 中有一个 admin.password 敏感信息，我需要查看 template 内部实现，构建出类似下面这种 Secret 。

# Source: argo-cd/templates/argocd-configs/argocd-secret.yaml apiVersion: v1 kind: Secret metadata: name: argocd-secret namespace: argocd type: Opaque data: admin.password: 'xxx' admin.passwordMtime: 'xxx'

但是，helm chart 中通常会动态注入标签、注解，单独去查看标签、注解的实现逻辑去进行构建感觉似乎更麻烦了，如果直接去掉标签、注解，完全自己生成 secret ，似乎又依赖 chart 本身的质量（担心有依赖关系），各位有没有好的方案。

你认为什么规模的公司适合使用 k8s?

2025-07-23T00:52:30Z

k8s 运维平台现在已经很流行了，但也有说认为只有大公司才能使用，小公司使用反而麻烦，你认为呢？

请问大家所在公司的 k8s 集群 cni 和 cri 选型是什么？

2025-07-11T15:02:30Z

我们生产集群都是 Calico+containerd ，图个成熟稳定，用的人多。但是后续想把 cni 换成 kube-ovn ，想用他的多集群互通、固定 ip 等特有功能，就是不知道稳定不稳定。也在看 cillium ，他也支持集群互通。各位的公司用的都是什么呢？据我了解 containerd 基本已经是 cri 第一选择了，但 cni 就五花八门了

求大神指点在 k3s 上面启动容器报错 libc.so.6: invalid ELF header milvus 应该怎么入手排查

2025-07-10T05:44:21Z

同事在一台用 VmWare 创建的虚拟机（x86_64）上面，安装了 Debian 12 ，在其上安装了 k3s 1.28.15

随后在这个 k3s 上面部署了一些服务比如 minio, docker registry 之类的，都是正常启动运行的。但是部署 milvus 时老是起不来，报错

/tini: error while loading shared libraries: /lib/x86_64-linux-gnu/libc.so.6: invalid ELF header milvus

我随后尝试使用 ctr 创建容器进入 shell 环境，也是不行

k3s ctr run --rm -t --platform linux/amd64 docker.io/milvusdb/milvus:v2.4.5 milvus /bin/bash

还是一样的报错。

我一开始怀疑是我们拉取的镜像有问题，怀疑是用了 arm 架构的镜像，但是随后我使用 crictl inspeci 查看了镜像确实是是 linux/amd64 的，另外我看了下 milvus 的 Dockerfile 看着也中规中规，目前还没找出原因，也不知道如何入手排查。

随后我在这台虚拟机上面安装了 docker 并创建容器，是可以成功启动的，看起来问题可能在 k3s 用的 containerd 这里，但是不知道该从哪里排查了。

附：该虚拟机 CPU 情况

root@debian1:~/ccdinstaller# lscpu Architecture: x86_64 CPU op-mode(s): 32-bit, 64-bit Address sizes: 45 bits physical, 48 bits virtual Byte Order: Little Endian CPU(s): 16 On-line CPU(s) list: 0-15 Vendor ID: GenuineIntel BIOS Vendor ID: GenuineIntel Model name: 11th Gen Intel(R) Core(TM) i7-11700 @ 2.50GHz BIOS Model name: 11th Gen Intel(R) Core(TM) i7-11700 @ 2.50GHz CPU @ 2.5GHz BIOS CPU family: 2 CPU family: 6 Model: 167 Thread(s) per core: 1 Core(s) per socket: 16 Socket(s): 1 Stepping: 1 BogoMIPS: 4991.99 Flags: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon nopl xtopolo gy tsc_reliable nonstop_tsc cpuid tsc_known_freq pni pclmulqdq ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hyperviso r lahf_lm abm 3dnowprefetch invpcid_single ssbd ibrs ibpb stibp fsgsbase tsc_adjust bmi1 avx2 smep bmi2 invpcid avx512f avx512dq rdseed adx smap avx512ifma clflushopt avx5 12cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves arat avx512vbmi umip avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg avx512_vpopcntdq rdpid md_cle ar flush_l1d arch_capabilities Virtualization features: Hypervisor vendor: VMware Virtualization type: full Caches (sum of all): L1d: 768 KiB (16 instances) L1i: 512 KiB (16 instances) L2: 8 MiB (16 instances) L3: 16 MiB (1 instance) NUMA: NUMA node(s): 1 NUMA node0 CPU(s): 0-15 Vulnerabilities: Gather data sampling: Unknown: Dependent on hypervisor status Itlb multihit: Not affected L1tf: Not affected Mds: Not affected Meltdown: Not affected Mmio stale data: Mitigation; Clear CPU buffers; SMT Host state unknown Retbleed: Mitigation; IBRS Spec rstack overflow: Not affected Spec store bypass: Mitigation; Speculative Store Bypass disabled via prctl Spectre v1: Mitigation; usercopy/swapgs barriers and __user pointer sanitization Spectre v2: Mitigation; IBRS, IBPB conditional, STIBP disabled, RSB filling, PBRSB-eIBRS Not affected Srbds: Not affected Tsx async abort: Not affected

搞了一个 kubernetes dashboard

2025-06-26T08:30:02Z

嫌原生太丑，嫌 KubeSphere 太重。

于是就有了这个

https://github.com/zxh326/kite

gitlab runner in k8s 构建镜像的最佳实战是什么

2025-06-25T04:02:00Z

我使用 gitlab runner in k8s

kaniko

一直用这个，不过最近发现和 gitlab runner 新版本兼容有问题，出现

kaniko should only be run inside of a container, run with the --force flag if you are sure you want to continue

然后发现 kaniko 已经不维护了。

docker in docker

这个必须要开启特权模式容器，需要启动守护进程

另外

buildah 、podman 没测试，不知道是否适合 CI 场景使用。

问题

哪个在 gitlab runner in k8s 好用

认真请教有什么好的方式可以深入了解学习 k8s

2025-06-17T08:09:47Z

在云计算行业做产品，目前在探索新方向，对容器和 k8s 比较有兴趣，自己跟着一些教程、书籍进行了比较基础的实践，自己搭了一套比较小的集群，但是现在我没有更多可以使用的场景，所以总感觉还有很大很大的偏差，和理解上的肤浅。

真诚请教，我应该有什么更好的方式可以深入一些些了解、学习 k8s 相关。例如可以用来探索的场景或者诸如此类的。

各位是如何在 k8s 中做镜像构建的？

2025-06-17T02:21:27Z

集群里有两台机器用作 jenkins kubernetes agent 做 CICD ，以前 k8s 在 1.24 以下时主机使用 docker engine ，我可以通过挂载 docker.sock 直接使用主机的 docker 做镜像，后来 k8s 升级后使用 kaniko 构建镜像，昨天看 kaniko 的 github 已经在两周前归档了，想换掉它，有没有 kaniko 的替代品。

KubeCon China 2025 见闻

2025-06-16T05:13:39Z

新鲜出炉的 KubeCon China 2025 见闻，罗列了一些我觉得不错的 Talks 并附上几句个人感想，欢迎评论区交流～

https://thiscute.world/posts/kubecon-china-2025/

单机能不能用来学习 K8S

2025-06-13T13:42:26Z

RT ，个人单机能不能用来学习 K8S ，一定要多台服务器构件机群吗？想从尝试玩玩 SealOS 开始，不知道单机能不能用？

k8s 使用调研

2025-06-13T03:18:26Z

各位 V 友们，你们现在公司或者个人都在用哪些云厂商的 k8s 服务，还是自建？

阿里云 ACK SAE
腾讯云 TKE
AWS EKS
华为云 CCE

请问现在大佬们公司都是用的什么 k8s 可视化工具

2025-05-25T16:47:47Z

最近又开始学 k8s 了，还是看的尚硅谷的，视频有点旧，好像主推 KubeSphere ；

其实上家公司也有用到 k8s ，用的官方的 dashboard ，不知道现在主流的用哪个多点；

还有如果想完整打通 dev-ops ，又应该用那一套比较好，各流程分别用什么比较舒服？

[开源自荐] 搞了一个 SSH 和 K8s 连接信息的管理小工具（仅限 Mac）

2025-05-25T14:44:18Z

对于终端党是友好的，当 SSH 主机和 K8s 的 kubeconfig 太多之后，在通过文本编辑的方式不是很方便。特别是 kubeconfig 还会有合并出错的风险。

所以弄了一个 ConfigForge ，主要功能就是提供界面化配置管理，支持一些备份的功能，降低出错。

也体验了下 Vibe Coding 的乐趣。

https://github.com/samzong/ConfigForge

然后有一个 cf 的命令，可以快速的查看 ssh 主机，和 kubeconfig ，支持快速连接和切换。

(base) x in ~ λ cf k l Available Kubernetes configurations: * 1. card4090-1year-kubeconfig.yaml (active) 2. new-config-5-16-25,_13-18.yaml Use 'cf k set ' or 'cf k set ' to switch configuration Use 'cf k current' to show current active configuration (base) x in ~ λ cf k set 2 Selected configuration 2: new-config-5-16-25,_13-18.yaml Successfully switched active Kubernetes configuration to 'new-config-5-16-25,_13-18.yaml' (base) x in ~ λ cf l Available SSH hosts: 1. * 2. blog 3. sf 4. 45.70 5. 10.6.14.200 6. dev-156 7. dev-157 8. dev-155 Use 'cf c ' or 'cf c ' to connect Use 'cf s ' or 'cf s ' to show details (base) x in ~ λ cf c 2 Connecting to 2. blog... Last login: Sun May 25 22:42:40 2025 from 121.233.138.88 Welcome to Alibaba Cloud Elastic Compute Service ! ➜ ~

开源小白，最近开源了个练手新项目 CILIKUBE，欢迎大佬们 Star！

2025-05-16T10:57:55Z

哈喽，V2EX 的小伙伴们！

最近我开源了一个新项目——CILIKUBE ，一个专为新手设计的 Kubernetes 资源管理平台！它是用 Vue3 + TypeScript + Go (Gin) 打造，目标是“小而美”，让 K8s 管理更简单，代码学习更友好！一周内已经收到不少 SRE 、云原生爱好者和全栈开发者的反馈，今天想邀请 V2EX 的大家来体验、吐槽和贡献！

CILIKUBE 是什么 CILIKUBE 是一个开源的 K8s 资源管理平台，核心特点：简单直观：优雅的 UI ，轻松管理 K8s 资源（增删改查）

学习友好：代码清晰，基于 Vue3 和 Go ，适合学习全栈开发或 K8s 二次开发

易于扩展：支持自定义功能，满足你的个性化需求

为什么做这个？ CILIKUBE 源于我学习 Vue3 、Go 和 K8s 的实践，学习过程中得到了社区小伙伴的帮助，这不就想着打造一个“新手友好”的开源项目。

项目地址

后端：github.com/ciliverse/cilikube

前端：github.com/cilliantech/cilikube-web

文档：cilikube.cillian.website

想听听 V2EX 大佬的意见！

对小白开发 K8s 管理工具有什么期待？

欢迎体验 CILIKUBE ，点个 Star ，一起打造一个新手友好的 K8s 管理工具！期待大家的反馈和贡献！

再也不用记 k8s 的命令了

2025-04-30T20:00:28Z

https://github.com/GoogleCloudPlatform/kubectl-ai

救救我~~， k8s 的 containerd 的镜像加速还有那些办法可以用呀

2025-04-29T10:04:35Z

配置以下方式失败~~

 [plugins."io.containerd.grpc.v1.cri".registry] [plugins."io.containerd.grpc.v1.cri".registry.mirrors] [plugins."io.containerd.grpc.v1.cri".registry.mirrors."docker.io"] endpoint = ["https://bqr1dr1n.mirror.aliyuncs.com"] [plugins."io.containerd.grpc.v1.cri".registry.mirrors."k8s.gcr.io"] endpoint = ["https://registry.aliyuncs.com/k8sxio"]

昨天 rancher 给我挖了一个大坑

2025-04-25T08:07:05Z

下班后，给生产系统添加一个节点，就用参照文档，用网站上的脚本给添加了

curl -sfL https://rancher-mirror.rancher.cn/rke2/install.sh | INSTALL_RKE2_MIRROR=cn sh -

结果系统崩了，网络全部不能访问了。

排查发现，他把我的 calico 相关的都删了，准备添加 canal 网络，我擦，我赶紧删了这个节点，修复生产系统，calico-system 的 namespace 也被删了，网络系统全部崩溃，我当时一头猛汗，口中问候了他家各种。

网路不行，longhorn 也开始卡，然后系统因为 nfs 卡死很多命令也开始。

先将所有 deploy replicas 设为 0 ，强制 umount nfs ，kubectl 开始能正常操作了。

在 gpt 的帮助下，尝试了各种方案，后来发现，删除 helmchart ，重启 rke2 让它重建 calico 网络

kubectl delete helmchart rke2-calico -n kube-system && kubectl delete helmchart rke2-calico-crd -n kube-system && systemctl restart rke2-server

重建过程中也遇到好多坑，折腾到晚上 3：00 才搞定。

复盘发现是添加的 rke2 版本很新，在/var/lib/rancher/rke2/server/manifests提供了 rke2-canal.yaml，而不是 calico 相关配置，导致 rke2 自动取删除 calico 相关网络，安装 canal 网络。

真是个教训。

不懂就问： kubeadm 能否用于生产？和 kubespray 区别是什么？

2025-04-24T08:01:45Z

打算部署 k8s ，现在疑惑使用静态 Pod 还是 systemd ，使用 kubeadm 还是 kubespray 。

新人练手请教

2025-04-22T09:32:42Z

照着这个（ https://segmentfault.com/a/1190000043201145 ）部署 K8S ，前面都没问题，在第 2.1.4 配置网络插件
里，下面这一步时，开始不一样，显示 noready ，是怎么回事呢？

# 查看 Master 节点状态，此时节点会提示 Ready ，Master 节点安装完成
kubectl get nodes

换了他的 yml 也不行。

或者求个傻瓜式教程

大家公司的基础服务有哪些是二进制包方式部署在服务器上的？

2025-04-21T08:18:22Z

比如 IAM 、dns 、jenkins 、git server 、mq 、database 各种，有没有 all in k8s 的？

想学习 K8S，请问大佬们应该怎么入门呢？

2025-04-01T09:04:45Z

作为一个运维人员，目前想学习 K8S 相关的内容和知识（本人新手），想问问大佬们是买课呢还是怎么学习？如果要买课哪里比较靠谱（个人倾向于视频课程）；

有人用过 open-local

2025-03-31T03:01:07Z

最近刚发现的搞过来玩玩结合 kubeblocks 搭建数据可行吗 https://github.com/alibaba/open-local.git https://github.com/apecloud/kubeblocks

k8s 命名空间问题

2025-03-31T02:00:22Z

创建 deployment 时的报错信息：admission webhook "node-affinity.k8s.io" denied the request: failed to get namespace info from cache: test

目前只能用一个指定的命名空间（比如 first ）创建 deployment 时不会报错，这个 first 命名空间也是一开始创建 deployment 使用的一个，后面换其他的命名空间都会报上面这个错误。大佬们知道如何排查解决么？

顺利成为 Kubestronaut 成员

2025-03-13T13:44:41Z

前言

3 年内成功通过 CNCF 旗下云原生相关的 5 个证书，并顺利获得 kubestronaut 的领航员的一个称谓，其实我对于证书不是很感冒，证书也证明不了能力，最多只能证明你曾经学习过。

大概在 3 年以前，公司针对认证证书有一定优惠补助，另外加之当时逢黑色星期五优惠力度很大，所有购买了 CKA 认证考试，没有怎么学一周就通过了，因为个人对于 kubernetes 是有一定的运维和管理基础的，2022 年 3 月 10 日完成了第一个证书。那个时候的证书有效期还是 3 年的，截止 2025 年的 3.10 日，我完成了最后一个 KCSA 考试，并获得了 kubestronaut ，当时收到邮件获得该证书我很是意外和惊喜。 https://www.ljohn.cn/posts/66cd6d39/1741871200815.png

这个时间非常极限，我一度以为 CNCF 官方不会承认我的这个 5 个证书是在同一个有效期内，无法得到 kubestronaut 。

为何要做这件事？

起因是由于公司鼓励大家学习提升自身并能够用于工作中，提升整理的技术水平，这是我做这件事情最开始的一个动机。

后来促使我继续参加如下 4 门考试主要因为我个人对于技术的渴望和追求吧，不然我也想不到有什么更合适的理由了。因为人家造个车都借车（我说的是雷总）几百台，就为了体验不同的产品背后的逻辑，还考了赛车照，肯定不是为了证明自己多牛逼。这里不敢大言不惭和雷布斯比较，我只是觉得如果你认真的对待任何一项技术，相信你的时间也不会白浪费吧。这里不是希望大家在考证书这件事情上浪费时间，但我相信坚持，相信 3w 小时定律。

后面有什么规划？

后面其实规划很简单，就是继续在云原生的道路上继续前行，学习 AI 相关的技术，探索新的机遇。另外个人还是希望自己继续不忘初心，继续扎实做事，低调做人，行稳才能致远。

by my blog

https://www.ljohn.cn/posts/66cd6d39/

最近面试，云原生相关， k8s 调优和排查思路回答

2025-03-10T01:22:05Z

最近面试了好几个公司，云原生相关的，好几个都问了 k8s 中遇到了哪些问题，以及如何排查调优，请问有没有什么专门的文档或者经验帖子呢

云原生社区日 KCD 北京 3 月 15 日下周六举行

2025-03-04T06:11:20Z

报名链接： https://www.huodongxing.com/event/1795289527100?td=5232105481696

主题预计本周会公布

往届 KCD 视频回顾可以看 https://space.bilibili.com/1274679632/channel/collectiondetail?sid=2842495 小破站

KCD 全称 Kubernetes Community Day ，目前其实是 Cloud Native Community Day 的感觉，不止是 Kubernetes 。

KCD Beijing 3 月 15 日欢迎参加

2025-03-04T03:09:11Z

新需求，要求所有 k8s 里的服务把日志都保存到本地磁盘

2025-03-03T14:40:41Z

机房托管，自建的 k8s ，几台 es 物理机做日志集群。

k8s 里跑的普通业务，没有什么特殊要求。

现在是要求把 k8s 里跑的各种服务打印的日志全部保存到本地磁盘，理由是日志服务器会挂，会丢日志。。。

您正在运行的最大的 Kubernetes 集群是什么？你的痛点是什么？

2025-03-03T09:38:46Z

https://www.reddit.com/r/kubernetes/comments/1husfza/whats_the_largest_kubernetes_cluster_youre/

同样的问题在这再发一遍，之前在 reddit 上还收到了不少反馈

对国内的情况来说，更想了解下像 deepseek 、其他 AI 训练平台，更倾向于单个大集群还是多个小集群？

感觉单个大集群更简单一点，但是可能会触发相关的性能瓶颈，而使用多集群就涉及到跨集群的训练。

Kubernetes 集群有没有比较简单的不停机修改所有节点 hostname 地址的的办法

2025-02-24T07:10:19Z

我管理的 Kubernetes 集群当前所有节点（包括控制节点）的 hostname （例如 node-1.example.com ）需要批量修改为新的域名（例如 node-1.new-domain.com ）
以下条件：

服务不中断：确保修改过程中集群内运行的应用持续对外提供服务。
外部访问一致性：外部客户端通过原 hostname 访问服务，需平滑过渡到新 hostname ，避免 DNS 缓存或配置强制更新。
集群组件稳定性：控制平面（如 kube-apiserver 、etcd ）和节点注册信息需适配新 hostname ，避免证书或通信故障。

现在考虑的方案：

直接建新的集群，再逐步迁移服务

想知道有没有简单稳定的办法。

k8s 使用 flannel 组件的 cni0 问题

2025-02-24T02:54:03Z

在 k8s 某个 node 节点重启后，此节点上的 pod 启动时会报错：Failed to set bridge addr: cni0'' already has an IP address different from X.X.X.X

表象是：此 node 的 cni0 虚拟网卡的子网与其他 node 重复了。

根据网上搜索的解决方案，执行如下脚本可解决
ifconfig cni0 down
ip link delete cni0

但是这个措施只能事后解决，而不能提前预防彻底根治（每次重启 node 节点都会复现），在生产环境上肯定不合适。

求教大佬，可有解决办法~

ps：如果实在没办法最后的保底方案是切换到 calico ，泪奔~

KubeVPN-重新定义 Kubernetes 本地开发体验

2025-02-22T04:51:05Z

为什么需要 KubeVPN ？

在 Kubernetes 时代，开发者面临一个关键矛盾：云端集群的复杂性与本地开发便捷性的冲突。传统开发流程中，开发者要么：

忍受频繁的kubectl port-forward和kubectl exec操作
或在本地搭建迷你 Kubernetes 环境（如 minikube ）
甚至直接部署到开发集群影响他人

KubeVPN 通过云原生网络隧道技术，将 Kubernetes 集群网络无缝延伸至本地开发环境，实现三大突破：

🚀 零改造接入：无需修改代码即可访问集群内服务
💻 真实环境调试：在本地 IDE 调试云端服务
🔄 双向流量管理：拦截指定流量到本地或转发到集群

核心功能全景

1. 集群网络直连

kubevpn connect

执行后即可：

✅ 通过 Service 名称访问集群服务（如productpage.default.svc）
✅ 直接 Ping 通 Pod IP
✅ 使用原生 Kubernetes DNS 解析

➜ curl productpage:9080 # 直接访问集群服务  ...

2. 智能流量拦截

通过 Header 条件实现精准流量控制：

kubevpn proxy deployment/productpage --headers user=dev-team

含user=dev-team的请求 → 路由到本地服务
其他请求 → 保持原集群处理

3. 多集群协同

同时连接两个集群：

kubevpn connect -n dev --kubeconfig ~/.kube/cluster1 # 主集群 kubevpn connect -n prod --kubeconfig ~/.kube/cluster2 --lite # 第二集群

4. 本地容器化开发

将云端 Pod 复刻到本地 Docker：

kubevpn dev deployment/authors --entrypoint sh

启动的容器具备：

🌐 相同网络命名空间
📁 完全一致的 Volume 挂载
⚙️ 一致的环境变量

技术架构揭秘

KubeVPN 通过三层架构实现魔法：

组件	功能描述	核心技术
流量管理器	集群端流量劫持	MutatingWebhook + iptables
VPN 隧道	建立本地-集群加密通道	tun 设备 + WireGuard
控制平面	配置管理和状态同步	gRPC 长连接 + CRD

graph TD Local[本地环境] -->|加密隧道| Tunnel[VPN 网关] Tunnel -->|服务发现| K8sAPI[Kubernetes API] Tunnel -->|流量代理| Pod[业务 Pod] subgraph K8s 集群 K8sAPI --> TrafficManager[流量管理器] TrafficManager --> Pod end

性能实测对比

我们针对 100QPS 压力测试：

场景	平均延迟	CPU 消耗	内存消耗
直接集群访问	28ms	12%	256MB
KubeVPN 代理	33ms	15%	300MB
Telepresence	41ms	22%	420MB

数据显示 KubeVPN 在性能损耗上优于同类方案。

快速入门指南

安装方式

# macOS/Linux brew install kubevpn # Windows scoop install kubevpn # 或使用 Krew 插件 kubectl krew install kubevpn/kubevpn

典型工作流

连接集群

kubevpn connect --namespace dev

开发调试

# 本地启动服务 ./my-service & # 拦截带 debug 标记的请求 kubevpn proxy deployment/frontend --headers x-debug=true

验证访问

curl -H "x-debug: true" frontend.dev.svc/cluster-api

社区生态

KubeVPN 已形成完整工具链：

🔌 VS Code 插件：可视化流量管理
🧩 CI/CD Pipeline：自动化测试部署
📊 监控看板：实时显示网络指标

加入开发者社区：

# 提交你的第一个 PR git clone https://github.com/kubenetworks/kubevpn.git make kubevpn

项目地址：https://github.com/kubenetworks/kubevpn
中文文档：完整使用手册
技术支持：Slack

通过 KubeVPN ，开发者终于可以在享受咖啡的同时，优雅地调试云端服务 ☕️🚀

k8s 大佬请给点建议

2025-02-18T08:59:40Z

各位大佬好，我最近入职了一家从事 K8s 相关任务的公司。之前对 K8s 了解不多，刚开始也是磕磕绊绊的，现在工作逐渐稳定下来了。现在想好好研究下 k8s 和云原生最前沿的技术，想请教下各位大佬有什么推荐的书籍或者公众号?

兄弟们，你们遇到 Java /Spring 微服务项目中最大挑战是什么？ K8S 最大挑战是什么呢？谢谢先!

2025-02-15T01:47:44Z

各位工作的公司生产 k8s 是怎么维护应用的 request 和 limit 的？

2025-01-24T15:41:33Z

首次上线的时候怎么定？靠压力测试？后续应用不停上线、甚至改配置可能会导致内存、cpu 的变化，如何持续迭代更新每个应用的 request 和 limit 呢？

最近在学 kubernetes，需要学习搭子

2025-01-17T01:12:17Z

请问有比较活跃的讨论 k8s 相关技术的群么

如何顺畅的搭建 K8S

2025-01-16T03:37:54Z

RT ，一堆网络不通，难受！！！

给 K8s 装了个可视化 AI 助手，开源给大家玩

2025-01-15T09:46:07Z

写了个工具解决自己的痛点，顺便开源出来。本质就是不想再对着终端 kubectl + grep + 来回切集群 context 查问题了 😅

几个好玩的功能：

一键搜全部集群（再也不用记那么多 context ） Pod 挂了个一键 AI 诊断按钮（省得一个个去看日志）看到啥 YAML 配置都能让 AI 解释下（再也不用查 k8s 文档）浏览器打开就能用代码在这： https://github.com/KusionStack/karpor

今天刚上 Product Hunt ，有兴趣的老哥可以帮忙点个赞： https://www.producthunt.com/posts/karpor