看个这个视频,感觉苹果是不是真的偷了变形金刚的技术了? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
justincnn
V2EX    macOS

看个这个视频,感觉苹果是不是真的偷了变形金刚的技术了?

  •  
  •   justincnn 2023-07-01 19:13:39 +08:00 8498 次点击
    这是一个创建于 837 天前的主题,其中的信息可能已经有所发展或是发生改变。
    41 条回复    2023-07-04 10:57:49 +08:00
    stoneabc
        1
    stoneabc  
       2023-07-01 19:43:38 +08:00
    NVLink:你说啥?
    AOK123
        2
    AOK123  
       2023-07-01 19:43:59 +08:00   3
    个人认为这个 Up 的受众群体是学生
    苹果芯片跑点自己的练手小项目没问题,用它做科研和工程就会吃苦头了
    stoneabc
        3
    stoneabc  
       2023-07-01 19:47:03 +08:00   1
    @AOK123 看到热评里“cuda 要靠苹果打破”就绷不住了…典型的学生思维。
    iloveoovx
        4
    iloveoovx  
       2023-07-01 19:48:34 +08:00
    只能靠苦 NV 久矣的大佬企业和农企联合
    pikaconan
        5
    pikaconan  
       2023-07-01 20:05:39 +08:00   3
    我现在已经不太敢点进苹果相关的视频了,正反的极端观点都太多...
    felixcode
        6
    felixcode  
       2023-07-01 20:06:11 +08:00 via Android
    终于能突破美国的显卡封锁了,用苹果就对了。
    LeonParker
        7
    LeonParker  
       2023-07-01 20:58:18 +08:00
    tensorflow-metal 这个包现在有些 optimizer 都不太能跑。。真不至于
    neopenx
        8
    neopenx  
       2023-07-01 21:34:46 +08:00
    Transformer 的实际需要空间复杂度有很多技术降下去,果子这点小聪明只能说聊胜于无
    跑的大部分都是矩阵乘法,M2U 也就和 3060 五五开
    aptx4689
        9
    aptx4689  
       2023-07-01 21:39:31 +08:00
    别吹了,m 系列 cpu 是有一些进步,但你要真拿他干活就知道了
    paopjian
        10
    paopjian  
       2023-07-01 23:12:46 +08:00
    有个开头是好的,就怕吹过了,这人压根没详细测试,看看乐子得了.
    我记得几年前有个公司还说 m1 吊打 3090 呢
    agagega
        11
    agagega  
       2023-07-01 23:39:50 +08:00 via iPhone   13
    数码圈 B 友是这样的,始终理解不了世界的多样性,要么看到苹果发 M1 就要进军服务器搞死 IA ,要么觉得自己用不上苹果就觉得用苹果的都是傻逼,苹果这公司就该死。

    要么觉得 ARM 一定干死 x86 ,要么喷 ARM 是垃圾还敢碰瓷高贵的 x86 ,然而可能连这两个都只听过名字,问他们什么是指令集,还有哪些指令集,指令集和什么东西有关,一问三不知。
    pC0oc4EbCSsJUy4W
        12
    pC0oc4EbCSsJUy4W  
       2023-07-02 02:07:43 +08:00
    不如等 AMD
    wclebb
        13
    wclebb  
       2023-07-02 02:16:09 +08:00   6
    人家说的是显存吧……
    30 系和 40 系撑死也是 24G ,像楼上说的那个 NVlink 也是要几张卡,价格就上去了。价格不光上去,电源、主板等都要上去。有时候看一个角度吧,Apple 还真奇怪的角度会很好抓住痛点。

    尝鲜者:太贵了,我想跑 AI ,动不动 100G 显存我买不起 几十万。
    Apple:给你了,统一内存只要 四万就能跑。

    显示器:太贵了,为什么这个显示器要 xx 万块。
    Apple:给你了,Pro Display XDR ,自己看价格吧。

    似乎在一些高端领域方面,Apple 倒是很好当成了小米,价格屠杀。

    而且 Nvidia 闲置的时候,显存是没啥用的……
    但 Apple Silicon 架构下,内存是共用的……(这内存本来就娇贵,HBM )
    AOK123
        14
    AOK123  
      &nsp;2023-07-02 05:22:02 +08:00   4
    @wclebb #13
    当今很多深度学习的库是要用 nvcc 编译的,然而 nvcc 根本不支持 macOS ,再大显存也没用...拿显存说事的也就初学者和尝鲜者了
    另外,8 卡 4090 的整机也就 10 万,哪来几十万?
    zpole
        15
    zpole  
       2023-07-02 06:52:17 +08:00   1
    我个人认为 mac studio 加大内存很适合将来个人做 ai (尤其是大模型)的推理和 fintune 的工作,容易获得,功耗和噪音小,性价比高(要获得同样的 192g 显存 n 卡得用 tesla 计算卡+nvlink )。复杂模型的训练还是得上 n 卡集群,但这是组织的事。至于说因为各种工具还不能很好的在 mac 使用的问题,只要社区认为有价值都是可以更新补全的。
    beijing999923
        16
    beijing999923  
       2023-07-02 07:58:01 +08:00
    评论区真有趣
    sharpy
        17
    sharpy  
       2023-07-02 08:05:46 +08:00   1
    总的来说,速度不行,显存还可以。
    这方面希望 amd 出一些大显存卡,来打破老黄的垄断,我觉得更靠谱。
    James369
        18
    James369  
       2023-07-02 09:01:20 +08:00
    具体没写清楚,有多少并行处理单元
    murmur
        19
    murmur  
       2023-07-02 09:59:26 +08:00   1
    热评第一就是说苹果不靠谱啊

    ai 出图一次都是出几十张 几百张 供选择 这才是生产力用法 一次出一张图那不就是玩具么 2060 级别的矿卡都可以轻松搞定
    murmur
        20
    murmur  
       2023-07-02 10:00:48 +08:00
    @wclebb 你说如果苹果做成统一显存,这个得卖多少钱,他现在还是统一内存

    这么牛逼的内存和 cpu ,游戏帧率一定很高吧
    0m9ionbP8wuvs8S3
        21
    a href="/member/0m9ionbP8wuvs8S3" class="dark">0m9ionbP8wuvs8S3  
       2023-07-02 10:05:47 +08:00
    这种哗众取宠的标题我都懒得看
    yzbythesea
        22
    yzbythesea  
       2023-07-02 10:22:43 +08:00
    我 steam deck ,16G unifi memory ,完爆什么 3080 这些垃圾。只要 350 刀。
    vv2023
        23
    vv2023  
       2023-07-02 10:30:00 +08:00   1
    @stoneabc b 站 现在有向民科聚集地 ,发展趋势
    vv2023
        24
    vv2023  
       2023-07-02 10:32:17 +08:00   1
    @AOK123 这哥们看回答内容 典型的 b 小将啊
    liantian
        25
    liantian  
       2023-07-02 10:37:08 +08:00
    V2 不应该是"No BB ,Show me code~"嘛。

    统一内存那么强大。别说 M2 Ultra 干翻 8 张 4090 了。 M2 Pro 32G 干翻 4090 24G 都没见过..
    echo1937
        26
    echo1937  
       2023-07-02 11:13:38 +08:00   4
    什么赛博坦科技,别闹了好吗,相关技术、概念和产品一直都在发展,benchmark 成绩的话谨慎看待。

    1 、最早的时候, 没有核显这个概念,最多算是集显,俗称 IGP ,是主板 PCB 上独立的一个芯片;

    2 、随后厂商将显示部分和芯片组中的北桥芯片合二为一,风靡了数年。以 intel 为例,之前 intel 销售的带集成显卡的北桥芯片型号均有一个 G 作为后缀,代表此款北桥芯片中有显示部分。

    3 、不久以后,内存控制器被集成到了 CPU 中,那为啥 GPU 就不能这么做呢? Intel 于 2011 年发布了基于 QPI 总线互联的胶水核显 CPU ,代号 Clarkdale 。参考资料 https://www.expreview.com/79385.html

    4 、AMD 收购了 ATI 以后,对于 CPU 和 GPU 协同工作的前景非常看好,推出了 HSA 联盟,HSA 特性包括很多分项,比如说共享电源管理、HSA-aware MMU (内存管理单元)、GPU Compute C++,而不仅仅是把 CPU 和 GPU 集成到一起。在这个背景下,AMD 在 2011 年发布第一代 APU ,GPU 和 CPU 不再是胶水,真正意义上的核显。

    5 、2014 年 PS4 发布,使用了 AMD 的 APU Kaveri APU ,实现了名为 Heterogeneous Memory Management 的特性,CPU 的 MMU 和 GPU 的 IOMMU 共享相同的地址空间,从硬件层面实现“共同地址空间”。PS5 沿用了这个技术路线,AMD 有个叫 4700s 的型号,用的就是 PS5 阉割掉 gpu 的 soc ,使用 gddr6 做内存。

    6 、看过 4700S 极客湾测评就知道,由于 gddr 频率和带宽大,但是 延迟高( gddr6 vs ddr4 ,测评成绩来看,延迟 144.1ns vs 67.8 ns ),所以日常使用体验并不好。

    7 、果子出场了,体验不好是吧,俺有钞能力啊。延迟高是吧,那我换 ddr ;功耗大是吧,那我上 lpddr ;带宽不够是吧,普通 ddr4 内存和控制器的位宽是 64 位,m1 用了 128bit 的内存控制器,m1 pro 使用了 256bit 的内存控制器,m1 max 是 512bit 内存控制器,带宽和延迟都齐活了。

    8 、大模型时代来了,显存大小和带宽的重要性反而超过算力。苏妈一看,我生态不行,ROCm 是真打不过 CUDA ,堆料谁不会啊,APU 和 Chiplet 还是我历史强项。

    MI300A - 6 XCDs (Up To 228 CUs), 3 CCDs (Up To 24 Zen 4 Cores), 8 HBM3 Stacks (128 GB)
    MI300X - 8 XCDs (Up To 304 CUs), 0 CCDs (Up To 0 Zen 4 Cores), 8 HBM3 Stacks (192 GB)

    其中 MI300A 就是一个最高 24 核,228CU ,128GB HBM3 内存的的 APU ,引用一下 AMD 的官方内容:

    “AMD 的 Instinct MI300 APU 系列将与名为 SH5 的全新插槽兼容,允许使用最新的 Infinity Fabric 互连和新的互连交换机将最多四个此类芯片配置在一起,以实现更快的带宽和互连速度。该服务器解决方案将以 AMD Instinct 平台的形式出现,该平台由 8 个 MI300 芯片组成,具有高达 1.5 TB 的 HBM3 内存,全部采用行业标准设计。”

    Intel 和 NV 也有类似的,其中 INTEL 的产品计划叫 Falcon Shores ,定于 2025 年发布。
    AyaseEri
        27
    AyaseEri  
       2023-07-02 11:19:45 +08:00   1
    在一个满是学生、matlab 和 cad 需要在自己电脑跑的社区,讨论生产力,无疑是一种浪费时间的行为。
    murmur
        28
    murmur  
       2023-07-02 11:21:53 +08:00
    @AyaseEri 对啊,难道你们公司和实验室买不到 A100 显卡么,这东西虽然对 H 禁售,但是想买总是有渠道的,而且不是有定制版本卖么

    至于国外,人家买 A100 又没什么难度,最多是等发货慢点

    所以个人要这么好的机器干嘛,个人就是用 2080ti o22g 就够了
    locoz
        29
    locoz  
       2023-07-02 12:19:52 +08:00
    @wclebb #12 问题在于,对于只想尝鲜的人来说,跑大模型完全可以使用租机的方式解决,几万块够用很久了,使用体验完全碾压苹果,而且三分钟热度也不用担心浪费钱,配置过时了也不用担心没法升级。而对于需要实际长期使用大模型,或者是对大模型做微调,甚至是自己训练大模型的人来说,苹果那点算力又根本不够看。更别提对于绝大多数人来说根本都没有必须私有化部署的必要,几万块拿来调 GPT4 的 API 或者买别人的会员,实际使用时长都不用说,使用体验更是没法比。

    至于内存闲置利用,如果只是尝鲜这种轻度使用情况,为了跑大模型而买的大内存,那对于大内存大概率也没有需求,实际买来的内存还是在浪费;如果是重度一点的使用情况,那这内存也闲置不下来,全被大模型吃完了,跑不了什么别的东西。

    另外苹果的 XDR 显示器很大程度上是因为显示器厂商认为那个领域太过小众,面板平均水平还没提升到那种程度,没有必要特意为了小众用户而做那种产品。但对于苹果来说,自己的核心受众群体就是那部分在显示器厂商眼中小众的用户,它当然愿意去特意做个产品卖,成本也摊得开,价格在这种情况下看起来当然会有优势。

    只能说不要尬吹苹果什么高端领域价格低,那只是因为小众群体没人在乎,可选项少而已。可选项一多起来,苹果毫无价格优势。
    WuSiYu
        30
    WuSiYu  
       2023-07-02 16:15:16 +08:00
    假设你能搞定一切环境的问题(没 kernel ?自己写!),m2 ultra 的唯一优势也只是显存,然而算力仅有 30TFLOPs 不到(无论是 GPU 还是 ANE ),比起主流炼丹卡 A100 的 156 FLOPS ( TF32 )就是图一乐,甚至远不如 3090 ,并且一个 10Gb 口也可以告别分布式训练了。

    唯一场景是个人玩家跑大模型和推理,或者跑龟速的 finetune ,但有这钱其实不如搞个 8 卡 3090/4090 更实用、且生态和泛用性更好
    shijingshijing
        31
    shijingshijing  
       2023-07-02 17:18:00 +08:00   3
    苹果这个内存只是单纯的 SiP 封装了几个 LPDDR5 内存颗粒,NVIDIA 的是 CoWoS 技术封装的 HBM2e/HBM3 内存,两者根本不再一个 level 上,更不谈 NVIDIA 可怕的算力和 CUDA 生态护城河,这种吃流量的视频也就骗骗伪科技小白还可以。



    4BVL25L90W260T9U
        32
    4BVL25L90W260T9U  
       2023-07-02 17:59:03 +08:00
    Transformer 翻译成变形金刚?非要翻译的话,也应该是变形器或者变换器。
    ickoo
        33
    sickoo  
       2023-07-02 22:02:46 +08:00
    @ospider 有个电影院翻译:变性者 7 超能...
    julyclyde
        34
    julyclyde  
       2023-07-02 22:27:24 +08:00
    好像,性能除以功耗之后勉强说得过去?
    但现在做这行的老板们根本不在乎功耗啊
    只看原始的性能测量值
    byicer
        35
    byicer  
       2023-07-03 09:31:21 +08:00
    @sickoo #33 这翻译让人笑疯了
    fengtianze
        36
    fengtianze  
       2023-07-03 10:44:59 +08:00
    @AOK123 八张游戏卡咋连一起,不是双卡都给阉割了?
    fengtianze
        37
    fengtianze  
       2023-07-03 10:47:32 +08:00
    @aptx4689 真是不辞辛苦啊,其他帖子下刷到过一次不差的回复,见到 mac 就 ctrl v ?
    aptx4689
        38
    aptx4689  
       2023-07-03 21:26:37 +08:00
    phub2020
        39
    phub2020  
       2023-07-04 10:18:40 +08:00
    厂家有竞争了,就是好事
    AyaseEri
        40
    AyaseEri  
       2023-07-04 10:40:03 +08:00
    @echo1937 MI300A 看起来可以当 M2 Ultra 的平替?
    echo1937
        41
    echo1937  
       2023-07-04 10:57:49 +08:00 via iPhone
    @AyaseEri 应该叫上位替代,这玩意肉眼可见地贵。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5577 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 06:31 PVG 14:31 LAX 23:31 JFK 02:31
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86