![]() | 1 pacoxu OP 补充下相关信息 问题: - 您部署或管理过的最大 Kubernetes 集群是什么? - 您最大的挑战或痛点是什么?(例如,扩展、联网、API 服务器瓶颈等) - 有什么技巧或工具可以帮助您克服这些挑战吗? 关联的一些博客: - OpenAI:将 Kubernetes 扩展到 2500 个节点( 2018 年),后来扩展到 7500 个节点( 2021 年)。 - 蚂蚁集团:管理 10,000+ 个节点( 2019 年)。 - 字节跳动:使用 KubeBrain 扩展到 20,000 个节点( 2022 年)。 - Google Kubernetes Engine ( GKE ):扩展到 65000+ 个节点( 2024 年)。 一些常见问题: - API Server 瓶颈 - etcd 性能问题 - 网络和存储挑战 - 大规模节点管理和监控 如果您有兴趣更深入地了解,以下是一些其他资源: - 关于扩展大型集群的 Kubernetes 官方文档。 - OpenShift 的性能调优指南。 - 一篇关于微调 Kubernetes 集群 ( google cloud ) 的精彩 Medium 文章。 - 在 KubeOps 最近关于 v1.32 的博客中,它提到 https://kubeops.net/blog/the-world-of-kubernetes-cluster-topologies-a-guide-to-choosing-the-right-architecture“支持多达 20,000 个节点,使用 TLS 1.3 保护敏感数据,并利用优化的存储和路由功能”。我找不到关于这方面的官方评论。这可能与“WatchList”功能有关? 链接比较多,可以参考 reddit 帖子 |
2 ljf 221 天前 一些常见问题: - API Server 瓶颈:扩容 apiserver ,Node 节点本地 lvs 负载均衡到不同的 apiserver - etcd 性能问题:etcd 分库 - 网络和存储挑战:优化网络控制器,提高 IP 分配性能 - 大规模节点管理和监控:Prometheus 顶不住,换 metrics server |
![]() | 3 RedisMasterNode 216 天前 @ljf Try VictoriaMetrics |
![]() | 4 kennylam777 200 天前 其去到 OpenAI 的模, 遇到的底更多, 例如 - 多 regions 的 scheduling, 在 Managed k8s 只有 GKE 能做, IPAM 及後面的 BGP 始得重要, 一般 Managed k8s 做不了 - Single Cluster 上千 nodes 的 etcd 及 API server 都要做均衡了 - Pod Security 需要更化 - 或者要考 Multiple cluster 的 Federation, 按分割出不同 k8s cluster, 再用的 Load balancer 互通 AI 相的更注重 GPU 源分配吧, nVidia Kubernetes device plugin 是不用的, 必需要有更致的方案 |