ai 小白请教,大模型必须要 gpu 服务器吗,单纯推理是不是 cpu 就可以了。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
hoodjannn
V2EX    程序员

ai 小白请教,大模型必须要 gpu 服务器吗,单纯推理是不是 cpu 就可以了。

  •  
  •   hoodjannn 312 天前 3637 次点击
    这是一个创建于 312 天前的主题,其中的信息可能已经有所发展或是发生改变。

    纯 ai 小白,我想做一个特定类型的 AI ,类似于给人翻译或者聊天这种。

    想了想,可不可以在自己的本地的高配置 GPU 电脑上训练好模型,再把大模型丢到阿里云的 ECS 服务器上。我理解只是使用模型并不需要 gpu 吧,普通的 1c2g 的服务器是不是也可以,之后要迭代大模型,再次本地训练上传上去。 搜了一圈资料,都说需要 gpu ,大家都是线上一边训练一遍推理的吗

    26 条回复    2024-12-03 04:05:54 +08:00
    cbythe434
        1
    cbythe434  
       312 天前
    直接调用 api
    lance07
        2
    lance07  
       312 天前
    模型推理计算量也很大的, 不用 gpu 会非常慢, 而且...你 2g 内存连模型都装不下
    hoodjannn
        3
    hoodjannn  
    OP
       312 天前
    @lance07 以前弄那种人脸识别的 tensorflow 模型我直接用的这种服务器,甚至有几个业务为了省成本直接放到了用户端。现在的大模型是运行都有很大计算量吗
    raycool
        4
    raycool  
       312 天前
    现在的大模型和以前的人脸识别,算力那是天壤之别。
    lance07
        5
    lance07  
       312 天前
    @hoodjannn 人脸那种很小的, 现在你描述的能翻译聊天的大模型推理也要十几个 G 显存的(不用量化啥的, 而且用了也不会有数量级上变化)
    hoodjannn
        6
    hoodjannn  
    OP
       312 天前
    @lance07 好的 多谢告知
    vishun
        7
    vishun  
       312 天前
    现在的开源大模型都是已经训练好的了,但部署使用仍然要 gpu ,不然的话显卡也不会卖这么贵。
    CannedFishsan
        8
    CannedFishsan  
       312 天前
    纯推理的话也需要很大的 GPU 硬件需求的……纯 CPU 的话要么就直接花钱调 API (最佳方案),要么试试轻量化后的小参数 LLM (我怀疑可行性)
    R4rvZ6agNVWr56V0
        9
    R4rvZ6agNVWr56V0  
       312 天前
    对于参数量级超过 7b 的模型,只有高性能 gpu 才能发挥出推理性能啊。cpu 目前还是不太行。
    Donaldo
        10
    Donaldo  
       312 天前
    @lance07 #5 没数量级的变化,但是很可能不量化塞不下,量化了塞得下。。
    Solix
        11
    Solix  
       312 天前
    主要是看并发,只有你自己用,CPU 也可以,但是给用户用,服务器不得冒烟了
    HetFrame
        12
    HetFrame  
       312 天前
    买 api ,才试了阿里百炼的通义模型,有些内容也不是很快
    hoodjannn
        13
    hoodjannn  
    OP
       312 天前
    感谢楼上各位大佬回复。总结了一下,不知道说得对不对,个人开发者最好的方案是使用现成的 ai 大模型服务调 api ,感觉有点推翻了我这个小白之前的认知。那我理解,大家的 ai 业务应用本质上不是一模一样吗?用的都是一样的公用的现成大模型,我在一个爱情聊天机器人里问健康食谱也是可以。
    hoodjannn
        14
    hoodjannn  
    OP
       312 天前
    那大家目前在应用领域在竞争的点在于哪里,用户理论上直接使用 chatgpt,kimi 和豆包就能够实现所有需求了。
    me1onsoda
        15
    me1onsoda  
       312 天前
    有竞争力的产品肯定是自己训练自己部署。你说的那些给业务人套一下 prompt ,业务直接就寄了,就是个赛博斗蛐蛐的乐子
    WonderfulRush
        16
    WonderfulRush  
       312 天前
    普通 1c2g 肯定是不行的,7b 模型 13600k int4 量化推理只有大概 7token/s
    june4
        17
    june4  
       312 天前
    @hoodjannn 怎么会一样,写提示也是个大工程。那个 v0 ,这么牛逼的东西,也只是个调公用模型的 app ,但是你看看有人扒出来的巨型提示,提示才是核心技术。
    unco020511
        18
    unco020511  
       312 天前
    大模型你可以理解为知识基础服务,上层的应用也是很关键的,各种错综复杂的大模型推理步骤结合起来,最终组成一个 AI 产品
    raptor
        19
    raptor  
       312 天前   1
    docker 跑个 ollama ,下个不太大的模型试试就知道了,反正我用 16 核的 4800U 跑 13b 的模型都是一分钟蹦一个字的样子。
    skallz
        20
    skallz  
       312 天前
    cpu 只能跑轻量化的,翻译之前我也尝试过一个轻量化的模型,cpu 能用,但是效果非常差,速度也不太行
    skallz
        21
    skallz  
       312 天前
    同样价格的 cpu 和 gpu ,同个模型用 gpu 几乎都快实时翻译了,cpu 还在那里等结果。。。
    qiniu2025
        22
    qiniu2025  
       312 天前
    现在模型够强了,不需要你再训练了,把提示词写好就可以了,你可以用公共大模型 API,用你的提示词做个网站,用户用手机都可以访问
    rus4db
        23
    rus4db  
       312 天前
    本质上是矩阵运算,CPU 不是不能干,只是太慢而已。

    不妨试试我的智障电子鹦鹉,浏览器 CPU 推理的,并不实用,只是为了说明语言模型推理的原理:
    https://bd4sur.com/Nano/infer/
    qiniu2025
        24
    qiniu2025  
       312 天前
    @hoodjannn #14 chatgpt,kimi 哪些聊天机器人,干不了正经事,比如翻译一部视频字幕,需要一个工作流,先提取字幕,调用大模型翻译(字幕翻译需要很多技巧),压制字幕,这些都可以大量周边软件支持,聊天机器人根本不行,这种工作流就是做应用的机会,大模型相当于操作系统
    zuotun
        25
    zuotun  
       312 天前
    成本最低的方案就是调 API ,想要自己训练就用本地显卡跑然后内网穿透出去。效果最好的还是 GPU 服务器直接部署在机房同时准备一套备用的 API 以免业务寄了,但看你需求感觉是想做个没什么大流量的偏自用服务,这样一切从简就好。
    看得出你对这方面的知识几乎为零,不要折腾自己了,有时间还是先去学一下基础点的东西吧,不要一上来就想着做出产品。
    falconwang0110
        26
    falconwang0110  
       311 天前
    无 GPU 推理有两个方案:
    1. 调用 API ,这样你自己的服务端只需要接受用户输入并返回模型输出即可,1c2g 应该问题不大。
    2. 线上推理,对于语言模型也可以用 CPU 进行 inference ,但是会很慢,量化为 INT4 后,4 代 Xeon 大概能做到每个 token 20~80ms ( 3B~20B 模型),reference: [Efficient LLM Inference on CPUs]
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2858 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 14:24 PVG 22:24 LAX 07:24 JFK 10:24
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86