您正在运行的最大的 Kubernetes 集群是什么?你的痛点是什么? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
pacoxu
V2EX    Kubernetes

您正在运行的最大的 Kubernetes 集群是什么?你的痛点是什么?

  •  
  •   pacoxu 221 天前 2249 次点击
    这是一个创建于 221 天前的主题,其中的信息可能已经有所发展或是发生改变。
    https://www.reddit.com/r/kubernetes/comments/1husfza/whats_the_largest_kubernetes_cluster_youre/

    同样的问题在这再发一遍,之前在 reddit 上还收到了不少反馈

    对国内的情况来说,更想了解下像 deepseek 、其他 AI 训练平台,更倾向于 单个大集群还是多个小集群?

    感觉单个大集群更简单一点,但是可能会触发相关的性能瓶颈,而使用多集群就涉及到跨集群的训练。
    4 条回复    2025-03-24 17:57:14 +08:00
    pacoxu
        1
    pacoxu  
    OP
       221 天前
    补充下相关信息

    问题:

    - 您部署或管理过的最大 Kubernetes 集群是什么?
    - 您最大的挑战或痛点是什么?(例如,扩展、联网、API 服务器瓶颈等)
    - 有什么技巧或工具可以帮助您克服这些挑战吗?

    关联的一些博客:
    - OpenAI:将 Kubernetes 扩展到 2500 个节点( 2018 年),后来扩展到 7500 个节点( 2021 年)。
    - 蚂蚁集团:管理 10,000+ 个节点( 2019 年)。
    - 字节跳动:使用 KubeBrain 扩展到 20,000 个节点( 2022 年)。
    - Google Kubernetes Engine ( GKE ):扩展到 65000+ 个节点( 2024 年)。

    一些常见问题:
    - API Server 瓶颈
    - etcd 性能问题
    - 网络和存储挑战
    - 大规模节点管理和监控

    如果您有兴趣更深入地了解,以下是一些其他资源:

    - 关于扩展大型集群的 Kubernetes 官方文档。
    - OpenShift 的性能调优指南。
    - 一篇关于微调 Kubernetes 集群 ( google cloud ) 的精彩 Medium 文章。
    - 在 KubeOps 最近关于 v1.32 的博客中,它提到 https://kubeops.net/blog/the-world-of-kubernetes-cluster-topologies-a-guide-to-choosing-the-right-architecture“支持多达 20,000 个节点,使用 TLS 1.3 保护敏感数据,并利用优化的存储和路由功能”。我找不到关于这方面的官方评论。这可能与“WatchList”功能有关?


    链接比较多,可以参考 reddit 帖子
    ljf
        2
    ljf  
       221 天前
    一些常见问题:
    - API Server 瓶颈:扩容 apiserver ,Node 节点本地 lvs 负载均衡到不同的 apiserver
    - etcd 性能问题:etcd 分库
    - 网络和存储挑战:优化网络控制器,提高 IP 分配性能
    - 大规模节点管理和监控:Prometheus 顶不住,换 metrics server
    RedisMasterNode
        3
    RedisMasterNode  
       216 天前
    @ljf Try VictoriaMetrics
    kennylam777
        4
    kennylam777  
       200 天前
    其去到 OpenAI 的模, 遇到的底更多, 例如

    - 多 regions 的 scheduling, 在 Managed k8s 只有 GKE 能做, IPAM 及後面的 BGP 始得重要, 一般 Managed k8s 做不了
    - Single Cluster 上千 nodes 的 etcd 及 API server 都要做均衡了
    - Pod Security 需要更化
    - 或者要考 Multiple cluster 的 Federation, 按分割出不同 k8s cluster, 再用的 Load balancer 互通

    AI 相的更注重 GPU 源分配吧, nVidia Kubernetes device plugin 是不用的, 必需要有更致的方案
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     892 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 20:48 PVG 04:48 LAX 13:48 JFK 16:48
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86