满腔热血:在家里搭建一台 GPU 云服务共享给人工智能和大数据爱好者 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
warmheartli
V2EX    程序员

满腔热血:在家里搭建一台 GPU 云服务共享给人工智能和大数据爱好者

 
  •   warmheartli
    lcdevelop 2017-01-17 07:24:46 +08:00 13133 次点击
    这是一个创建于 3188 天前的主题,其中的信息可能已经有所发展或是发生改变。

    怀着一番热情想要研发一款开源的聊天机器人,但手中只有一台公司配的 mac ,每做一次训练要三四天的时间,想要购置一台高配 GPU 的台式机却囊中羞涩,租阿里云的 GPU 一小时收我 20 块钱,每用一个小时心里都在滴血,于是有了一个想法 http://www.shareditor.com/blogshow/?blogId=122

    79 条回复    2017-01-19 14:49:04 +08:00
    v1024
        1
    v1024  
       2017-01-17 07:28:30 +08:00 via iPhone
    然后被拿来挖矿了
    lydasia
        2
    lydasia  
       2017-01-17 07:30:54 +08:00
    然后楼主跑路了哈哈哈
    lydasia
        3
    lydasia  
       2017-01-17 07:37:14 +08:00   1
    楼主的意思, 800 个人,信任你,每个人给你 9.9 ,然后你拿着 8000 块钱凑台服务器?给每个人用仨小时?首先人家凭啥信任你,其次你的网络质量如何,服务器稳定性如何,管理系统是否可靠,客户的数据安全能否保障?而且你这也没有可扩展性,可延续性。别的方面,不说后续的, 800 个人,每人 3 小时, 2400 小时,后面的人这要排三个月都不止?
    loading
        4
    loading  
       2017-01-17 07:44:59 +08:00 via Android   1
    你们好不容易找到的车牌,楼主每天回家就能看你们的车开撸, 233
    bearqq
        5
    bearqq  
       2017-01-17 07:50:15 +08:00 via Android
    @lydasia 他面向的应该是玩神经网络的人,玩字很重要,因为可以回避很多问题

    但我还要提一个问题, 3 小时不够训练语料。。。基本训练不了稍微大点的东西。玩玩 neural-style 倒是够了。
    而且写控制台页面和接口会消耗巨大的精力,考虑到安全性和易用性,我也觉得你应该放弃。直接放个捐款页面就好。
    如果硬要做,还提一个,散热必须做好,室温 15 度拿风扇吹机箱拖个 1070 还 80 度的老机箱真是心疼。
    codesaler
        6
    codesaler  
       2017-01-17 07:56:04 +08:00
    相对写 gpu 计算的程序,有这个时间和精力考虑这个,买个 1080 也不贵啊
    tigerstudent
        7
    tigerstudent  
       2017-01-17 07:57:27 +08:00 via Android   15
    这居然是个成年人的想法
    ihuotui
        8
    ihuotui  
       2017-01-17 09:04:14 +08:00
    买个神舟笔记本。。。
    guoxu1231
        9
    guoxu1231  
       2017-01-17 09:10:21 +08:00 via iPhone
    有点意思啊 我之前也算过一笔账, 4 核 16g 内存 ECS 一年费用 8000 多,都够我买一台高配物理机了.

    于是我买了一台 Alienware 15R2 ,平常放在家中,网络唤醒, Windows 宿主机远程桌面进行 GUI 操作, CPU 型计算在 Virtualbox 虚拟环境中隔离进行,需要的服务通过路由器端口映射出来.

    我顶楼主,共享经济和虚拟化不是什么天方夜谭。
    ihuotui
        10
    ihuotui  
       2017-01-17 09:29:13 +08:00
    然后开发一个共享平台,然后数据 p2p 传送,然后通过共享平台操作。
    zonghua
        11
    zonghua  
       2017-01-17 09:55:53 +08:00
    你家的取暖器不错啊
    leafleave
        12
    leafleave  
       2017-01-17 10:11:36 +08:00
    http://www.equn.com/
    还不如在这里添加一个项目
    zhidian
        13
    zhidian  
       2017-01-17 10:16:45 +08:00
    突然想到那个 [每天多学习 1% 的时间,推导出可以每天学习 25 小时] 的埂……
    hadoop
        14
    hadoop  
       2017-01-17 10:50:37 +08:00
    @guoxu1231 为啥不买个 server ?
    BingoXuan
        15
    BingoXuan  
       2017-01-17 12:22:17 +08:00
    这个想法老早就想过了,之前还写在了市场营销课的期末作业里面去……这个想法是很不错,但是有很多问题的:

    1.当时我算了一下,如果商业化运营,光是初始投入都已经天文数字了。后期维护又是一笔费用。

    2.营销重点在 gpu ,而 gpu 技术迭代太快,也就意味着差不多每两年需要更新硬件,成本远比 CPU 要贵得多。深度学习是很吃 gpu 的。也就意味着对于用户来说,长期上其实并不划算。而且基本上都是用老黄的核弹,价格也是核弹级别。当然,如果能写个成熟的完美支持 a 卡的 ML 库的话,说不定农企会和你 py 交易一下。

    3.自己也弄 ML 业务,把自己深度学习的平台放在自己的云上面去,充分利用资源,摊分成本,对用户来说更为好。可是自己 ML 业务又是更多的成本,增加运营难度。

    不过当时写这想法时候, alphago 还没战胜人类。感觉当时 ML 还不如现在火。或许现在弄也许会成功。()
    warmheartli
        16
    warmheartli  
    OP
       2017-01-17 13:13:01 +08:00
    @lydasia 9 块 9 你买不了吃亏, 9 块 9 你买不了上当
    warmheartli
        17
    warmheartli  
    OP
       2017-01-17 13:14:54 +08:00
    @bearqq “ 3 小时不够训练语料”,你提醒了我,这里有商机啊
    warmheartli
        18
    warmheartli  
    OP
       2017-01-17 13:16:45 +08:00
    @codesaler 街头放个钱箱弹唱卖艺的多数都是开着宝马过去的,重点在于成就自己成就大家
    warmheartli
        19
    warmheartli  
    OP
       2017-01-17 13:17:28 +08:00
    @tigerstudent 成年人的心思不懂了吧
    warmheartli
        20
    warmheartli  
    OP
       2017-01-17 13:18:21 +08:00
    @guoxu1231 “通过路由器端口映射”,这个有文档说明吗?分享下吧
    warmheartli"
        21
    warmheartli  
    OP
       2017-01-17 13:19:24 +08:00
    @ihuotui hiahiahia, 你是资深人士,我懂了
    Nitromethane
        22
    Nitromethane  
       2017-01-17 13:27:08 +08:00
    有话直说:一个 GTX1070 解决不了的问题,买 4 路泰坦同样解决不了~
    ihuotui
        23
    ihuotui  
       2017-01-17 13:27:17 +08:00 via iPhone
    @warmheartli 你很有想法,我看好你
    Vizogood
        24
    Vizogood  
       2017-01-17 13:36:49 +08:00
    买 100 台神舟笔记本......不管想法有多糟糕,支持你 哈哈哈
    spice630
        25
    spice630  
       2017-01-17 13:38:53 +08:00
    如法炮制,我有 9.6G 妹子图(性感 自拍 日台), 9.9 包邮谁感兴趣 2333
    warlue
        26
    warlue  
       2017-01-17 14:00:00 +08:00
    @spice630 9.9 毛的话我可以买 96G..
    spice630
        27
    spice630  
       2017-01-17 14:08:27 +08:00
    @warlue
    你没看懂我的意思呀
    ProkillerJ
        28
    ProkillerJ  
       2017-01-17 14:11:14 +08:00 via iPhone
    我感觉至少先是买了设备再说分担租用 比先众筹再买会好很多 9.9 招 800 人 别人等的时间都把活干完了
    warlue
        29
    warlue  
       2017-01-17 14:11:41 +08:00
    @spice630 开个玩笑 =.=别认真~~其实我硬盘满了~#手动滑稽
    enenaaa
        30
    enenaaa  
       2017-01-17 14:30:23 +08:00
    楼主貌似忘了一点, 花 20 元可以随时上机, 在你这只要 9.9 但是得排队呀。
    另外,看了楼主这系列的文章受益匪浅, 不过好多内容过于简略, 不上不下, 有点难受。
    enenaaa
        31
    enenaaa  
       2017-01-17 14:40:55 +08:00
    @warmheartli 看起来你的聊天机器人是 seq2seq 。
    我也在关注自然语言处理的相关内容, 不过不是聊天机器人,而是文章分析提炼敏感内容。最近查阅了一些 RNN LSTM 的资料,感觉没有太好的实现模型啊。
    roist
        32
    roist  
       2017-01-17 14:43:23 +08:00
    不是连着网给别人用就叫“云**”的,你这顶多是个上世纪就有的时分系统
    ovear
        33
    ovear  
       2017-01-17 14:47:47 +08:00
    原谅我家网络差,几分钟了 lz 的网站还是打不开
    langmoe
        34
    langmoe  
       2017-01-17 14:53:14 +08:00   1
    guoxu1231
        35
    guoxu1231  
       2017-01-17 17:38:11 +08:00 via iPhone
    @hadoop server 的需求不大,主要是充分利用我的高配家用笔记本. 平常在家可以玩游戏办公,开发的时候有需要就通过公网访问 virtualvox 里的虚拟主机
    realpg
        36
    realpg  
    PRO
       2017-01-17 18:40:21 +08:00
    且不说其他, 1 小时 20 块钱那个性能是你这组的多少倍?
    总共 8000 块钱,人家预付给你,有人要排三个月的队用三小时,最后机器归你,这小算盘打的真牛逼……

    三个月一个节点净赚 8000 ,这买卖阿里云估计都口水流一地……
    kulove
        37
    kulove  
       2017-01-17 18:58:07 +08:00
    @langmoe 这个不错
    airqj
        38
    airqj  
       2017-01-17 19:01:52 +08:00 via Android
    楼主的网站很不错
    menc
        39
    menc  
       2017-01-17 19:26:36 +08:00
    @BingoXuan 重点根本不是 GPU ,是网络带宽,我的训练数据 20G ,拿什么传给他?
    TimLang
        40
    TimLang  
       2017-01-17 19:45:07 +08:00 via Android
    楼主博客不错,收藏了。
    jyf
        41
    jyf  
       2017-01-17 20:39:48 +08:00
    其实我觉得一般人电脑还是有的 真有兴趣搞这个花个一两千买个卡来玩玩也是可以的
    sbbeta
        42
    sbbeta  
       2017-01-17 20:52:17 +08:00 via Android
    @menc 哈哈,顺丰到家,快递开门
    pc10201
        43
    pc10201  
       2017-01-17 21:29:57 +08:00
    @langmoe 这是什么网站啊?
    bxb100
        44
    bxb100  
       2017-01-17 21:37:07 +08:00
    @menc 蓝盘 顺丰 23333
    MangozZ
        45
    MangozZ  
       2017-01-17 21:41:25 +08:00
    @pc10201 搜一下 sixa 怎么难吗。
    HLT
        46
    HLT  
       2017-01-17 21:59:53 +08:00
    看了楼主哥们的博客,对于 8K 而会囊中羞涩 表示非常不可思议。。。
    mandymak
        47
    mandymak  
       2017-01-17 22:18:39 +08:00
    @langmoe 刚看了是用亚马逊。
    hyuwang
        48
    hyuwang  
       2017-01-17 22:20:52 +08:00
    这个行业都存在多少年了
    楼主听说过 GPU Farm 么
    都是按几角钱每核心每小时的起价算。。。
    还只按运行时间算钱

    至于阿里 20 一个小时的机器
    起一个等环境搭好一天都过去了
    它不是这么用的啊
    xderam
        49
    xderam  
       2017-01-17 23:30:47 +08:00
    ucloud 的 GPU 云主机看了下好像只要 4.76/小时 不过貌似要提工单开权限。利益相关:俺是 u 厂的。
    @hyuwang 说的对, GPU Farm 存在了那么多年了,以前看美院的同学用的比较多。不知道现在能不能用在 ML 上。
    20015jjw
        50
    20015jjw  
       2017-01-18 02:57:11 +08:00 via Android
    看 lz 的博客这么厉害 怎么买台电脑的钱都没有呢...
    ShiHou
        51
    ShiHou  
       2017-01-18 03:25:57 +08:00
    ShiHou
        52
    ShiHou  
       2017-01-18 03:29:09 +08:00
    供个参考吧. 我现在用的训练机子是上图,训练满载时风扇隔着一扇门都能听到,同时散热还是专门找人设计的风道,用的大型 tower case 。

    nlp 中 seq2seq 相关任务,在这样的机子中,需要 2 ~ 3 天才能收敛到一个较好的 performance 。 在众多模型中,选出一个能用,至少要做 30 ~ 50 次训练。不止这样能否让楼主的热血冷静些
    anuxs
        53
    anuxs  
       2017-01-18 08:03:19 +08:00 via iPhone
    共享的还满腔热血?有多少热血?
    vvniu
        54
    vvniu  
       2017-01-18 08:55:10 +08:00
    无 GPU 不机器学习,有 GPU 赶紧下个 stream
    tim1008
        55
    tim1008  
       2017-01-18 09:11:21 +08:00   1
    说的我心痒痒的,我想众筹买个房。
    deleted
        56
    deleted  
       2017-01-18 09:18:38 +08:00 via Android
    这是否说明,做机器学习是没钱途的
    akakcolin
        57
    akakcolin  
       2017-01-18 10:44:01 +08:00
    @deleted 最有钱途的是 nvidia
    tjxjj
        58
    tjxjj  
       2017-01-18 10:46:56 +08:00
    玩这个 8000 你都不想出?
    Lmius
        59
    Limius  
       2017-01-18 11:19:48 +08:00
    LZ 只是不想自己出钱,顺便动了下脑筋,来到这里看到大家不买账,不过我觉得别处还是有人买账的啊哈哈~
    realpg
        60
    realpg  
    PRO
       2017-01-18 13:05:48 +08:00
    @ShiHou
    我对这行一窍不通
    这个训练操作时候 CPU 和 GPU 都满载么? CPU 和 GPU 的性能要求都如何?对存储介质 IO 的速度要求高么?
    我这单位倒是有大量带宽,不要钱的电力,基本硬件也不贵哪去,还有大量淘汰的服务器 CPU 可用,也就是需要自己采购 GPU ,可以搞搞这个玩玩。
    BlueCloud
        61
    BlueCloud  
       2017-01-18 13:17:17 +08:00
    @realpg 基本上都是满载。对性能要求挺高的。 GPU 起码要 Tesla P100 的级别了吧。
    realpg
        62
    realpg  
    PRO
       2017-01-18 13:23:16 +08:00
    @BlueCloud
    硬件满载可以预计

    CPU GPU 同时满载是同时跑不同算法还是拆分同样任务?
    想了解一下调度细节 还有对存储访问速度的要求
    kklt007
        63
    kklt007  
       2017-01-18 13:56:16 +08:00 via Android
    @realpg 我们没有 gpu ,只在集群的 cpu 上跑。

    数据并行或者任务并行都有相应的并行算法,不过数据并行相对简单一些。

    核心可以简单理解为一个迭代优化的式子,目的是使参数收敛。就好像求抛物线的那个最小值,一点一点求梯度,一点一点逼近。

    同步异步算法都有,太快了收敛性不好,收敛稳定的速度会很慢,所以有的时候需要具体问题具体分析,根据不同算法的特点进行平衡。

    存储访问指的是内存还是硬盘?我们是都读到内存里的…… 内存肯定是越快越好,另外如果跨节点需要相互通信的话这个地方也容易成为瓶颈,所以我们用的 infiniband 。
    ShiHou
        64
    ShiHou  
       2017-01-18 14:16:24 +08:00
    @realpg 自己淘个二手 750ti 来跑一次就知道了。

    训练时 gpu 满载, cpu 空闲,硬盘 IO 根据数据集而定。

    一个显卡不能同时跑多个训练,所以众筹肯定不靠谱的。
    realpg
        65
    realpg  
    PRO
       2017-01-18 14:17:47 +08:00
    @kklt007
    现有常用 X86 架构下, RAM 最大也就 192G 了,不知道这些训练算法本身是否极吃内存。毕竟感觉这种学习数据源可能动不动就 80G 的
    很多纯计算领域内存都是爆炸的利用,反而不太敢把原始数据都拉到内存里面去
    只是粗略的想了解一下通用领域的这种性能的机器的实际开销模型

    感觉看前面的意思 可能并不吃 CPU 只是非常吃 GPU
    realpg
        66
    realpg  
    PRO
       2017-01-18 14:20:20 +08:00
    @ShiHou
    单位硬件很多, Tesla 也不是不能借一块过来临时用用,还是基本一窍不通的问题,先了解了解模型,做做硬件结构设计的估算
    zwh8800
        67
    zwh8800  
       2017-01-18 14:27:17 +08:00
    @guoxu1231 关键放家里噪音问题是个大问题,我前两天把家里 660Ti 老电脑收拾出来组了个 raid 想做爬虫+舆情分析服务器用,结果因为噪音太大被女朋友否决了
    ShiHou
        68
    ShiHou  
       2017-01-18 14:47:06 +08:00
    @realpg 从回复来看,你对 deep learning 这块了解不足。 学而不思则罔嘛,个人建议是不要想太多,找几个热门模型直接上手体验。
    kklt007
        69
    kklt007  
       2017-01-18 14:48:03 +08:00 via Android
    @realpg 单结点 64G 内存,多结点就很多了,一部分一部分加载到内存也不是不可以,就像外部排序那样,不过应该避免等待读数据,我嫌麻烦一般都是直接全读进去的。

    吃 CPU 跟吃 GPU 区别不大,吃的都是计算资源,只不过一般都不喜欢 CPU+GPU 混合编程,单独对比 CPU 和 GPU 可能 GPU 性价比好一些?不过我确实没用过 GPU ,说不准。

    单位硬件多的话可以拿现有资源组个小集群试试,有没有 GPU 都能跑。
    realpg
        70
    realpg  
    PRO
       2017-01-18 14:57:38 +08:00
    @ShiHou
    @kklt007

    我并不是想介入这个领域去搞点啥
    只是想了解这块对硬件的需求和使用率等一般情况,有个初步认识
    因为可以预见到未来会有需求 需要让我搭建这种环境去跑点啥东西
    kklt007
        71
    kklt007  
       2017-01-18 15:25:12 +08:00 via Android
    @realpg 嗯,我对硬件的理解是性能好就跑的快一些,性能一般就跑的慢一些,同样需要迭代循环 10k 次,差别就在于哪个的单次循环快。另外核心多也相当于并行了。

    我以前在 2010 年的惠普本上装 caffe 一样跑,现在在集群上跑无非快一些,也有土豪在单机上装四路泰坦或者组 GPU 集群的。都能跑,看你们是想跑的有多快。

    另外机器学习的任务主要是训练模型的时间长,模型训练好了之后实际做分类预测之类的任务花的时间就不长了,资源利用率高不高主要看你们这方面的任务多不多。

    所以我觉得如果不是专门搞这个方向的话,不是很有必要新买一堆 GPU 卡。
    hadoop
        72
    hadoop  
       2017-01-18 15:44:37 +08:00
    @realpg 192G 是怎么得来的结论?
    guoxu1231
        73
    guoxu1231  
       2017-01-18 15:51:42 +08:00 via iPhone
    @zwh8800 该除除灰了~
    realpg
        74
    realpg  
    PRO
       2017-01-18 16:02:24 +08:00
    @hadoop
    不是结论 是通行的不特意砸钱的服务器(一般是双路)基本最大都堆到 192G 不产生非线性成本
    cpygui
        75
    cpygui  
       2017-01-19 04:27:14 +08:00
    aws g2.2 large 每小时 0.7usd
    我在用这个
    cpygui
        76
    cpygui  
       2017-01-19 04:29:02 +08:00
    如果是 gan 网络,我觉得硬件成本还要加
    droiz
        77
    droiz  
       2017-01-19 10:41:43 +08:00
    楼主的链接访问不了啊,是不已经被 v 友玩坏了
    AsisA
        78
    AsisA  
       2017-01-19 14:41:29 +08:00
    Azure 现在也有 GPU 主机了, NC 系列是 K80 , NV 系列是 M60 ,其中最便宜的是 NC6 ,每月$493.83 ,平均下来每小时$0.686 , 6 核心 E5-2690v3 , 56G 内存, 380G SSD , 1 x K80
    AsisA
        79
    AsisA  
       2017-01-19 14:49:04 +08:00
    [接上面]
    最贵的是 NV24 , 24 核心 E5-2690v3 , 224G 内存, 1.44TB SSD , 4 x M60 ,每月$2172.85 ,平均每小时$3
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2414 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 15:35 PVG 23:35 LAX 08:35 JFK 11:35
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86