搭建实验室使用的深度学习服务器 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
w1573007
V2EX    问与答

搭建实验室使用的深度学习服务器

  •  1
     
  •   w1573007 2020-09-16 09:25:41 +08:00 via Android 2896 次点击
    这是一个创建于 1858 天前的主题,其中的信息可能已经有所发展或是发生改变。

    实验室资金有限只买了一台服务器。128 的内存,i5cpu,v100 卡。现在想让多人使用计算。

    我想的方案是 dock,但不知道性能怎么样。老师给出的方案是 Jupiter 多用户多虚拟环境。

    主要大家都要跑 bert,怕内存爆了导致所有人的实验都爆了。

    大佬们有什么建议或者方案嘛。

    13 条回复    2020-09-17 11:08:21 +08:00
    yangyaofei
        1
    yangyaofei  
       2020-09-16 09:55:08 +08:00
    v100 单卡? 那只够一两个人跑 BERT 吧.... 怎么都会爆的感觉
    w1573007
        2
    w1573007  
    OP
       2020-09-16 10:07:31 +08:00 via Android
    @yangyaofei 实验室好多少人,cpu,gpu 都用
    sleeepyy
        3
    sleeepyy  
       2020-09-16 11:04:33 +08:00
    直接多用户 ssh 进去自己匀时间用啊,炼丹的机器还搞那么复杂干什么。
    另外单卡可能真的不太行,gpu 的多任务其实挺难受的
    Tony042
        4
    Tony042  
       2020-09-16 11:07:49 +08:00
    可以搞个 slurm 系统,所有人上去按先后和权重一个一个任务算,和 hpc 一样管理就行了
    zhucegeqiu
        5
    zhucegeqiu  
       2020-09-16 11:18:29 +08:00
    让领导加预算
    我公司的服务器 Xeon(R) Gold 6240, 内存 512,P100 * 2,我一个人炼丹都嫌不够
    实在不行,2080Ti 多买几张,多人用比单卡方便
    misaka19000
        6
    misaka19000  
       2020-09-16 11:40:22 +08:00
    加预算
    chizuo
        7
    chizuo  
       2020-09-16 11:42:41 +08:00
    搞个服务器管理系统,貌似有这种适用于 gpu 管理的,联系你买服务器的供应商,找他们要
    yangyaofei
        8
    yangyaofei  
       2020-09-16 13:58:34 +08:00
    @w1573007 那基本只能每次一个人了
    w1573007
        9
    w1573007  
    OP
       2020-09-16 14:43:50 +08:00 via Android
    @Tony042 大佬有教程么
    594duck
        10
    594duck  
       2020-09-16 15:32:46 +08:00 via iPhone
    你老师的意见是对的。

    最烦干什么都上 docker
    Andiry
        11
    Andiry  
       2020-09-16 15:35:28 +08:00
    多买几张 V100,跑的时候用 CUDA_VISIBLE_DEVICES 指定 GPU
    Tony042
        12
    Tony042  
       2020-09-16 21:23:00 +08:00
    s0ne4ver
        13
    s0ne4ver  
       2020-09-17 11:08:21 +08:00
    实验室导师让我们自己找云主机然后报销,我们用过比较实惠的是 mistgpu.com 的,体验挺好。
    阿里云华为云滴滴云腾讯云等等各大云服务提供商也都有带 gpu 的服务器,只是价格可能贵一些,像宽带存储都得单独扣费。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2919 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 03:18 PVG 11:18 LAX 20:18 JFK 23:18
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86