假设在一个 k8s 集群中每一个节点有 4 张 4090, 这些显卡可以分配给 Pod ,但目前一个 Pod 独占整数张 4090.
想要的效果是:2 个(or 多个) Pod 可以同时共享一张显卡。
看了一下 NVIDIA 官方的方案:
需求是:
请问站内有无大佬有相关的实践/思路/方案?
![]() | 1 adsryen 2024-07-19 18:04:55 +08:00 蹲答案就是学习 嘻嘻 |
2 yinwai 2024-07-19 18:17:42 +08:00 via Android 这个需求直接 nvidia-docker 不就可以了,可指定每个容器分配哪几张,单张 gpu 可映射到多个容器,不过这样做没法像 mig 一样对每个容器调节 gpu 性能。 https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html |
4 piero66 2024-07-19 18:44:07 +08:00 via Android 没有可能,游戏卡开 vgpu 止步于 20 系 |
5 piero66 2024-07-19 18:45:26 +08:00 via Android 建议用 nvidia-docker 竞技场,资源先到先得 |
![]() | 6 choury 2024-07-19 18:47:34 +08:00 via Android 要是能让你这样搞,那些计算卡卖给谁 |
7 yinwai 2024-07-19 21:31:03 +08:00 via Android ![]() |
![]() | 8 skrbug 2024-07-19 22:03:30 +08:00 |
![]() | 9 carmark 2024-07-19 22:40:52 +08:00 ![]() 具体的方案可以参考这里: https://zhuanlan.zhihu.com/p/398369404 参考方案就是阿里的 cGPU ,腾讯的 qGPU 。 主要实现的思路就是 ioctl 层面的拦截,干预调度和显存管理。 |
11 longredzzz 2024-07-19 23:08:25 +08:00 ![]() https://github.com/Project-HAMi/HAMi 推荐这个项目,支持显存切分,算力切分,虚拟显存。 |