有大规模集群的运维( 1200 台服务器)和完整的云化改造到 CI/CD 经验,写过 Operator
AI 相关的做过 argoworkflow+ray 做异构编排,kubeflow 和 GPU 的调度也了解( DRA )
base 江浙沪或者远程都可以
VX:RkxNMjEwCg==
AI 相关的做过 argoworkflow+ray 做异构编排,kubeflow 和 GPU 的调度也了解( DRA )
base 江浙沪或者远程都可以
VX:RkxNMjEwCg==

1 fourhu Nov 28, 2025 这经验找 ai infra 的应该很好找吧 |
2 sevensun007 Nov 28, 2025 会 C++ 不 |
3 tommydong Nov 28, 2025 这个 1200 台服务器包括多少台 gpu ? |