我模仿 nanochat 全栈 llm 流程, 在 8 x H100 芯片训练了 500m 参数的 llm, 以下感悟 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wangshuo6
V2EX    Local LLM

我模仿 nanochat 全栈 llm 流程, 在 8 x H100 芯片训练了 500m 参数的 llm, 以下感悟

  •  
  •   wangshuo6 62 天前 2557 次点击
    这是一个创建于 62 天前的主题,其中的信息可能已经有所发展或是发生改变。

    花费了 8w 个 token, 110$的 gpu 服务器成本(一般时间花在 debug 上,一半时间训练)

    感受是 gpu 价格及其贵,代码出现 1 个 bug = 10min debug -> 至少 1.2$花销

    bug 出现频率高: python 容易写出语法/变量名错误,超参数填的的不对会导致 gpu 计算错误,cuda 和 pytorch 版本问题也会导致出错

    总结就是:

    1. 犯错的代价是严重的,务必用小批量数据测试代码是否写的正确

    2. ai 基建大概率不是泡沫

    以上 gpu 是租的便宜的小厂商的,主流云服务价格翻倍

    16 条回复    2025-11-06 17:15:57 +08:00
    YanSeven
        1
    YanSeven  
       62 天前
    “AI 基建大概率不是泡沫”,这句话是什么意思。
    cmos
        2
    cmos  
       62 天前
    1. cuda 和 pytorch 版本:我们是用 docker 环境,固定死的。
    2. 服务器成本贵、花费高:热度炒起来导致的,我用 Tesla K40 的时候,计算卡还是正常价格,A100 开始疯涨。
    3. bug 出现频率高:不熟导致的,先在 RTX PRO 6000 上测试,通过后用集群跑。
    4. ai 基建大概率不是泡沫:工业上是很有用的,“民用”上,什么时候能直出黄图、视频,什么时候才能算基建。
    importmeta
        3
    importmeta  
       62 天前
    @YanSeven AI 股票的泡沫论
    wangshuo6
        4
    wangshuo6  
    OP
       62 天前 via iPhone
    @importmeta 我不觉得是泡沫
    wangshuo6
        5
    wangshuo6  
    OP
       62 天前 via iPhone
    @YanSeven 进 4 个月 ai 基建(电力和数据中心)涨幅平均都有 200% 认为过热的言论很多
    wangshuo6
        6
    wangshuo6  
    OP
       62 天前 via iPhone
    @cmos 有道理
    xjoker
    7
    xjoker  
       62 天前
    大佬是租用哪个小厂家的,也想自己玩玩
    huaweii
        8
    huaweii  
       62 天前 via Android
    你用的哪家小厂 gpu 算力服务
    cctvbnm111X1
        9
    cctvbnm111X1  
       62 天前
    AI 基建还得看国产,等纯国产 3nm 、GDDR7 、HBM3 生产线全部落地,价格就便宜了
    lingeo
        10
    lingeo  
       62 天前
    @cctvbnm111X1 国产不会便宜,首先产能就供不上,其次有产能也是优先给政府单位,还有不是把硬件造出来就行了,配套的驱动、生态都要维护,这块可以看看腾社区的提问。
    iwdmb
        11
    iwdmb  
       62 天前
    @xjoker @huaweii

    应该是 Hyperbolic 主打便宜 GPU 租赁
    https://app.hyperbolic.ai/
    riceball
        12
    riceball  
       61 天前
    500M 用得上云跑吗? 本地有一个 16G VRAM ,大概应该也够吧。 或者直接 CPU run,慢就慢。
    c0xt30a
        13
    c0xt30a  
       61 天前
    训练的数据集方便透漏下么?
    8w 个 token, 是 8B token 的笔误么?
    xjoker
        14
    xjoker  
       61 天前
    @iwdmb 感谢
    wangshuo6
        15
    wangshuo6  
    OP
       59 天前 via iPhone
    @c0xt30a 是 b 打错了、pretrain 数据集是 fineweb 的一部分
    wangshuo6
        16
    wangshuo6  
    OP
       59 天前 via iPhone
    @iwdmb yes
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5368 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 41ms UTC 08:28 PVG 16:28 LAX 00:28 JFK 03:28
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86