![]() | 1 rrfeng 2023-12-01 15:44:22 +08:00 via Android 肯定是 k8s 但是问题是怎么拆分你的任务,除非你的计算框架自己支持分布式 |
2 jgh004 2023-12-01 15:46:42 +08:00 我记得天河还是哪个超算是开放的吧,你试试呗。 |
3 jgh004 2023-12-01 15:47:43 +08:00 http://www.cngrid.org/yhfw/zhsq1/ 试用免费,1 个月。 |
4 Philippa 2023-12-01 16:00:53 +08:00 k8s + ray |
![]() | 5 litguy 2023-12-02 15:31:18 +08:00 算法并行化的工作量不小 先单机挖掘挖掘瓶颈吧 就算上云,也可以 on-demand 方式临时租借高配置主机 集群并行计算要有个路径规划 |
![]() | 6 dogcraft 2023-12-03 09:44:43 +08:00 slurm |
![]() | 7 joynvda 2023-12-03 10:29:09 +08:00 可考虑 MLOps 的框架,类似 Kubeflow 。虽然基于 k8s ,上层有为算法和学习优化的模块。 实现这个也不容易,运维的要会写代码。 至于多云,不要轻易尝试。 |