Nvidia Jetson AGX Ori 开发者套件 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sunmacarenas
V2EX nbsp;  NVIDIA

Nvidia Jetson AGX Ori 开发者套件

  •  
  •   sunmacarenas 2023-09-19 10:53:39 +08:00 3677 次点击
    这是一个创建于 758 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有了解 Nvidia Jetson Agx ori 的吗? 想入手一个 64G 的用来玩玩,chatglm2 和 SD,看参数有 270Tops 运算能力。

    第 1 条附言    2023-09-19 15:00:02 +08:00
    看到有大佬的教程,跑 llama2 7B 和 13B ,感觉推理速度还可以,有兴趣的可以看下链接内容
    https://www.hackster.io/pjdecarlo/llama-2-llms-w-nvidia-jetson-and-textgeneration-web-ui-96b070
    42 条回复    2023-09-19 22:18:04 +08:00
    sunmacarenas
        1
    sunmacarenas  
    OP
       2023-09-19 11:01:24 +08:00
    有 Nvidia 大佬吗,能给个优惠码么?
    ysc3839
        2
    ysc3839  
       2023-09-19 11:28:51 +08:00 via Android
    坑多,个人感觉意义不大,虽然都支持 CUDA ,但相关软件未必像 N 卡那样能开箱即用。而且视频编解码接口是完全不兼容 N 卡的那套的,至少老产品是不兼容的。
    leimao
        3
    leimao  
       2023-09-19 11:35:56 +08:00
    是 Orin 不是 Ori
    sunmacarenas
        4
    sunmacarenas  
    OP
       2023-09-19 11:36:01 +08:00 via Android
    @ysc3839 主要为了折腾,坑多倒是不怕。YouTube 上看了一些视频,跑 llama2-13b 能有 2tokens 左右的速度,主要看它体积小,如果换 n 卡 4090 的话体积太大,功耗太高,而且两张 4090 有些超预算了。
    sunmacarenas
        5
    sunmacarenas  
    OP
       2023-09-19 11:36:18 +08:00 via Android
    @leimao 多谢指正
    leimao
        6
    leiao  
       2023-09-19 11:39:06 +08:00
    @ysc3839 Orin 上有低功耗的 Deep Learning Accelerator ,这个是 data center GPU 不具备的。
    leimao
        7
    leimao  
       2023-09-19 11:40:44 +08:00
    @sunmacarenas llama 我没怎么用过,建议去找一下 NVIDIA 官方 examples 或者询问社区。计算机视觉的一些模型运行起来速度还是很快的,比上一代 Xavier 快了特别多。
    leimao
        8
    leimao  
       2023-09-19 11:44:18 +08:00
    @sunmacarenas 另外,这个 270TOPS 的运算能力有相当大一部分是 Deep Learning Accelerator 的 TOPS 。而目前 Deep Learning Accelerator 对于 LLM 模型的支持,可能还在开展中。如果 LLM 是主要应用的话,建议提前做好调研。
    sunmacarenas
        9
    sunmacarenas  
    OP
       2023-09-19 11:46:35 +08:00 via Android
    @leimao 好的,非常感谢大佬
    WuSiYu
        10
    WuSiYu  
       2023-09-19 12:20:04 +08:00 via iPhone
    jetson 是给嵌入式(比如车机)用的,规模和普通 GPU 还是差不少,那个 270TOPS 是 int8+稀疏,实际跑常见的 fp16 非稀疏得除 4 ,实际性能会比 3070 还低一两倍,跑 sd 会非常慢。另外 nvdla 主要是低功耗用途,性能不高,跑大模型没帮助
    sunmacarenas
        12
    sunmacarenas  
    OP
       2023-09-19 12:27:57 +08:00 via Android
    @WuSiYu 跑 int4 的量化模型呢,速度也非常慢吗?
    elechi
        13
    elechi  
       2023-09-19 13:29:08 +08:00
    淘宝
    ambition117
        14
    ambition117  
       2023-09-19 13:34:46 +08:00 via iPhone
    orin 出了好久了,而且最近有传言 DLA 要被放弃
    mushuanl
        15
    mushuanl  
       2023-09-19 13:56:00 +08:00 via iPhone
    计算力上去后大模型主要跟内存速度有关,要跑大模型并且想简单,还是建议 mac + llama.cpp, 800gb/s 速度可以直接跑 falcon 180b (得 192g 内存版本的) 个人觉得这个模型虽然微调难度大,但微调结果超过 gpt3.5
    wodong
        16
    wodong  
       2023-09-19 14:17:49 +08:00
    一直在 Orin 上做无人机自动识别相关,但完全没考虑到太多性能问题 ,但是比上一代确实流畅太多了,公司购买的 16+256 4G 版本,8200 左右(设备全都封装好了,开箱即用)
    timeance
        17
    timeance  
       2023-09-19 14:18:20 +08:00
    @ambition117 #14 22 年中才出的 AGX Orin ,而且相比上一代这代 NV 推的力度还是比较大的

    而且 Jetson 这个板子,主打的是低功耗 跑推理用的。拿来做训练不合适
    timeance
        18
    timeance  
       2023-09-19 14:20:14 +08:00
    @wodong #16 如果是 16g ,我猜是 Orin NX ,这个价格真的贵了(

    市场价在 6-7k 是比较合适的
    sunmacarenas
        19
    sunmacarenas  
    OP
       2023-09-19 14:44:28 +08:00
    @timeance 64G 的,主要是用来推理,价格大概 16000 左右。是 Jetson AGX ORIN 64G
    wodong
        20
    wodong  
       2023-09-19 14:46:32 +08:00
    @timeance #18 没办法,自己公司没有封装封装能力,就只能给人家转这笔钱了
    sunmacarenas
        21
    sunmacarenas  
    OP
       2023-09-19 14:47:59 +08:00
    @mushuanl 也有考虑过 Mac Studio Ultra 192G+2T 版本,但预算有点超太多了,而且本来也是学习玩票的性质,感觉没啥必要,主要是穷,下不去手。
    sunmacarenas
        22
    sunmacarenas  
    OP
       2023-09-19 14:50:28 +08:00
    @ambition117 DLA 被放弃,那有下一代的消息么,主要是看他统一交换内存,64G 够大,还能跑 CUDA,价格还合适
    timeance
        23
    timeance  
       2023-09-19 14:53:54 +08:00
    @sunmacarenas #19

    64G 开发者套件确实要 1.6w ,不便宜

    现在用这个的还不够多,我也很奇怪这个芯片这么贵,什么地方用会合适一些
    另外内存是 LPDDR5 ,12 核 A78AE ,2048 Ampere + 64 Tensor ;会影响性能吗?
    ShadowPower
        24
    ShadowPower  
       2023-09-19 15:00:26 +08:00 via Android
    有段时间我也想弄一个这种玩意,后来深入研究一下发现不如买一块显卡。

    比如 bitsandbytes 这玩意理论上支持 CUDA ,实际上不支持 Jetson 。

    有像这样的坑。
    sunmacarenas
        25
    sunmacarenas  
    OP
       2023-09-19 15:02:32 +08:00
    @timeance #23
    这个倒是没太了解,不过看了几个大佬的教程和视频,感觉没太影响性能
    sunmacarenas
        26
    sunmacarenas  
    OP
       2023-09-19 15:05:47 +08:00
    @ShadowPower #24
    不是买显卡的问题,主要是买了显卡还要配一整套环境,感觉就像为了这点醋,特意包了顿饺子。
    而且一整套环境,体积太大了,桌面和桌子底下也没地方,功耗还高。
    ambition117
        27
    ambition117  
       2023-09-19 15:26:52 +08:00
    @sunmacarenas DLA 对 transformer 没啥用,transformer memory bound 。而且 drive thor 这个下一代也没提 DLA 了
    yewuya
        28
    yewuya  
       2023-09-19 16:38:14 +08:00
    @wodong 第一次在 V2EX 遇见跟我做差不多业务的研发,不容易
    wodong
        29
    wodong  
       2023-09-19 16:40:11 +08:00
    @yewuya #28 好兄弟你做啥的
    yewuya
        30
    yewuya  
       2023-09-19 16:46:12 +08:00
    @wodong 我业务做点机载端算法部署,主要是做无人机飞行控制,处理业务逻辑相关的,航线飞行,推流,数据传输乱七八糟的。
    wodong
        31
    wodong  
       2023-09-19 16:46:38 +08:00
    @yewuya #30 来加波好友吗?我也差不多就这样的
    yewuya
        32
    yewuya  
       2023-09-19 16:50:42 +08:00
    @wodong VX : d3VqaW5odWkwMjA2
    lingeo
        33
    lingeo  
       2023-09-19 16:57:13 +08:00
    工作需要,搞过 nano 和 nx ,我的工作偏数采,另一个同事负责模型。我的感觉就是性能不够,视频编解码方面,官方比较侧重用 gstreamer ,学习成本高,ffmpeg 官方只提供了解码功能,社区里有人提供了 ffmpeg 的编码支持。可能是因为我们公司用的都是丐版。
    mushuanl
        34
    mushuanl  
       2023-09-19 20:45:05 +08:00 via iPhone
    要跑 llama213b 那么 13900+ddr5 也够了, llama.cpp 大概 1 秒 5token ,跟得上自己的速度。但是关键是现在没有 ai 应用场景,也就是除了 gpt4 场景外 其他的比较弱,如果你不喜欢玩 roleplay ,并且没有自己的 ai 想法,那么可能过段新鲜感时间后基本就不玩了
    mushuanl
        35
    mushuanl  
       2023-09-19 20:49:38 +08:00 via iPhone
    现在开源大模型除了企业研究外其他普通人一般就用来生成 s 文和 s 聊天,功能太弱,最大的那个 180b 刚出,看看有没人调教,我体验过基本超过 gpt3.5 但是没到 gpt4, 不知道是否有人能发挥出它的性能
    WuSiYu
        36
    WuSiYu  
       2023-09-19 20:52:04 +08:00
    @sunmacarenas
    首先跑 LLM 和跑 stable diffusion 是截然不同的工况,LLM 如果你个人用,也就是 batch 1 的话,对计算的需求很低,GPU 上基本都跑不满,但 llama2-13b 2token/s 也不算快的了。
    int4 量化仅是权重是 int4 的,主要还是为了节省显存,实际推理的时候都是 fp16 (更常见)或者 int8 ,并且都不是稀疏。

    而 stable diffusion 非常的计算密集(尤其是跑大图),对显存容量需求不高,十几 G 肯定够用,4090 是最合适的,从浮点算力上估计会比 orin agx 快 5 到 10 倍
    WuSiYu
        37
    WuSiYu  
       2023-09-19 20:56:18 +08:00
    @sunmacarenas 作为参考,A100 上跑推理大概能到 3000+ token/s ,当然这是比较大 batch 的情况
    sunmacarenas
        38
    sunmacarenas  
    OP
       2023-09-19 21:39:23 +08:00 via Android
    @mushuanl 后续可能会在企业中微调生成行业模型
    sunmacarenas
        39
    sunmacarenas  
    OP
       2023-09-19 21:41:55 +08:00 via Android
    @mushuanl 个人先玩玩,企业会用 H100 之类的微调吧
    sunmacarenas
        40
    sunmacarenas  
    OP
       2023-09-19 21:43:16 +08:00 via Android
    @WuSiYu 个人玩具,其实慢一点也就能接受。
    mushuanl
        41
    mushuanl  
       2023-09-19 22:16:52 +08:00 via iPhone
    企业微调要求全尺寸 nv gpu ,个人玩可以用量化模型。另外现在企业微调的效果并不是很好,包括 rag(提供上下文进行推理),所以现在大模型开始有点冷了,就看看谷歌出的模型如何了。
    mushuanl
        42
    mushuanl  
       2023-09-19 22:18:04 +08:00 via iPhone
    全尺寸模型,也就是 gpu 内存要求很大微调成本很高。一般就租云服务器去练习。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5085 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 58ms UTC 09:21 PVG 17:21 LAX 02:21 JFK 05:21
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86