![]() | 1 billzhuang 2024-06-06 20:44:29 +08:00 via iPhone autoscaler 呢 |
2 hwcloudnative OP @billzhuang 原生的 autoscaler 只管把 pod 调度到 node 上,并不关心如何高性价比的选择 EC2 Node |
3 whileFalse 2024-06-06 21:01:18 +08:00 via Android spot fleet 设置了吗 ondemond 和 spot 的比例如何计算的 有没有考虑过迁移到 arm |
![]() | 4 Frankcox 2024-06-06 21:47:48 +08:00 我们部分应用切换到了 arm 实例,然后自己弄了类似 autoscaler 的定时自动扩缩容程序 |
![]() | 5 billzhuang 2024-06-06 22:01:17 +08:00 via iPhone OP 可以先分享些心得体会,不急着加微信 |
6 lidong88 2024-06-06 23:12:20 +08:00 via Android 直接搞个'折扣不更香吗 |
![]() | 8 kennylam777 2024-06-07 00:02:45 +08:00 我的心得是, 大型 instances 的 overhead 比小型的好, 所以如果出 6 台以上的 static node pool, 就是利用率比固定的那, 倒是可以看看大一倍例把 node 量持在 3 左右, 而 autoscale 的小型 instances 就分一 node pool, 控制突用量的成本。 有跨 AZ 的, Pod 之的通, 如非必要就留在同一 zone , 也可以省不少。 我的是, 快速後, 坐下研究一下利用率, 最高能省 80%, 但某程度上是因之前的 devs 不注重成本效益, 公司也不差啦。 |
9 hancai2 2024-06-07 09:30:51 +08:00 我把成本优化了, 下一步老板就要优化我了。 |
10 hwcloudnative OP @whileFalse 都研究过: 1. 设置 spot percentage 是个好办法,但是治标不治本,因为 spot 总会中断,我觉得核心有两点,一是业务架构要做高可用改造,比如 replica 设置大于 1 ,多 AZ 部署,二是对于 Spot 黑盒要做画像预测,根据我们的经验,AWS 回收 Spot 是有迹可循的,完全可以在回收前做回退的工作 2. 我们主要是 Java 应用,ARM 还在测试,迁移成本也挺高,其实效果吧也一般,远不如把 spot 用好,因为 spot 价格大概只有按需的 1 折,arm 实例对比同规格 x86 的,也就便宜 20% |
11 hwcloudnative OP @billzhuang 好的呀,大家一起讨论讨论,多交流 |
12 hwcloudnative OP @lidong88 中小企业现在拿不到什么折扣了,即使有,力度也就一点点,不如自己研究效果大 |
13 hwcloudnative OP @kennylam777 说的很棒,但是这些工作手工完成,大部分 SRE 或者 DevOps 工程师都不愿意搞,自动化是关键,这里面就涉及到调度策略、性能,BTW ,网络流量成本已经成为仅次于 EC2 成本的最大部分了 |
14 hwcloudnative OP @hancai2 说反了老哥,企业的 IT 预算是包含人工和云成本一起的,是一个总包,如果云成本不降,那就在优化人员了哈哈哈 |
15 hancai2 2024-06-07 11:09:53 +08:00 @hwcloudnative 也是有个相对平衡的点,我上家公司的 cto 经常吹把 100 人的运维团队优化成了 10 个人。他说起来是很骄傲的业绩,我听起就不爽。 |
16 crackidz 2024-06-08 23:12:13 +08:00 @hwcloudnative 至少几千美金拿得到吧 |
17 hwcloudnative OP @crackidz 杯水车薪,spot 能节省十几万美金 |
18 nevill 2024-06-12 19:18:39 +08:00 跟 EKS 无关,但想喷一句,RDS 竟然是根据 IOPS 收费的,太恐怖。 最近才出了一个 I/O Optimized 类型的 RDS ,可以节省不少费用。 |