NVIDIA 消费级显卡有没有免费靠谱的多个容器共享的方案? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cinlen
V2EX    NVIDIA

NVIDIA 消费级显卡有没有免费靠谱的多个容器共享的方案?

  •  
  •   cinlen 2024-07-19 18:00:21 +08:00 3890 次点击
    这是一个创建于 448 天前的主题,其中的信息可能已经有所发展或是发生改变。

    假设在一个 k8s 集群中每一个节点有 4 张 4090, 这些显卡可以分配给 Pod ,但目前一个 Pod 独占整数张 4090.

    想要的效果是:2 个(or 多个) Pod 可以同时共享一张显卡。

    看了一下 NVIDIA 官方的方案:

    1. MIG(把物理显卡划分成 7 个 GPU 实例), 缺点是 : 只能划分 7 个实例,且只有例如 blackwell 等架构显卡才能用。
    2. vGPU(有分时方案和 MIG 方案),缺点是不免费,且一样挑显卡。

    需求是:

    • 支持同一张显卡在同一时间被多个容器使用
    • 在消费级显卡上可用
    • 免费
    • 有在比较大规模集群上稳定跑过

    请问站内有无大佬有相关的实践/思路/方案?

    11 条回复    2024-07-19 23:08:25 +08:00
    adsryen
        1
    adsryen  
       2024-07-19 18:04:55 +08:00
    蹲答案就是学习 嘻嘻
    yinwai
        2
    yinwai  
       2024-07-19 18:17:42 +08:00 via Android
    这个需求直接 nvidia-docker 不就可以了,可指定每个容器分配哪几张,单张 gpu 可映射到多个容器,不过这样做没法像 mig 一样对每个容器调节 gpu 性能。
    https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
    cinlen
        3
    cinlen  
    OP
       2024-07-19 18:28:35 +08:00
    @yinwai 漏了一个需求,要求这个 Pod 只能使用这张显卡的有限能力(例如 30%,不能超过上限)。
    piero66
        4
    piero66  
       2024-07-19 18:44:07 +08:00 via Android
    没有可能,游戏卡开 vgpu 止步于 20 系
    piero66
        5
    piero66  
       2024-07-19 18:45:26 +08:00 via Android
    建议用 nvidia-docker 竞技场,资源先到先得
    choury
        6
    choury  
       2024-07-19 18:47:34 +08:00 via Android
    要是能让你这样搞,那些计算卡卖给谁
    yinwai
        7
    yinwai  
       2024-07-19 21:31:03 +08:00 via Android   2
    @cinlen 那可以试试下面这个项目,可以 hack 消费级显卡开 vgpu
    https://github.com/DualCoder/vgpu_unlock
    skrbug
        8
    skrbug  
       2024-07-19 22:03:30 +08:00
    @piero66 这个代表的意思是? 先运行的容器将一直占着这张显卡,哪怕没有进程调用 GPU

    nvidia-docker 竞技场是说的什么? 大佬科普下
    carmark
        9
    carmark  
       2024-07-19 22:40:52 +08:00   1
    具体的方案可以参考这里: https://zhuanlan.zhihu.com/p/398369404

    参考方案就是阿里的 cGPU ,腾讯的 qGPU 。

    主要实现的思路就是 ioctl 层面的拦截,干预调度和显存管理。
    piero66
        10
    piero66  
       2024-07-19 22:45:29 +08:00
    @skrbug 就是字面意思,资源先到先得,游戏卡基本做不了资源切割
    longredzzz
        11
    longredzzz  
       2024-07-19 23:08:25 +08:00   2
    https://github.com/Project-HAMi/HAMi
    推荐这个项目,支持显存切分,算力切分,虚拟显存。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5567 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 36ms UTC 08:58 PVG 16:58 LAX 01:58 JFK 04:58
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86