可选配 512GB 统一内存,有人冲吗?
![]() | 1 ShadowPower 219 天前 太贵了,能按月订阅 42 年的 cursor 了 |
2 SkywalkerJi 219 天前 via Android 7w5 可以五张 4090 了 |
![]() | 3 F281M6Dh8DXpD1g2 219 天前 ![]() @SkywalkerJi 你那五张 4090 有多少显存来着? |
![]() | 4 alexcding 219 天前 |
![]() | 5 slowgen 219 天前 ![]() 32B 模型 4bit 量化在 M2 Ultra 可以跑到 42token/s (开启 KV Cache ),而 deepseek v3 和 r1 的激活参数量都是 37B ,总参数量 671B ,在 512GB 内存上跑 4bit 量化为主,大体上也是 40~45token/s 左右(对比 M2 Ultra 算力和带宽的提升和激活参数变化所得)。 对比 deepseek 现在的官网价格,v3 每百万 token 输出为 8 元,r1 是 16 元,用 Mac Studio M3 Ultra 512GB 拿来跑 deepseek v3 的话大概是 74249/8 * 1000000 / 45 / 86400 = 2387 天回本,跑 r1 回本速度快一倍,只需 1193 天。 |
![]() | 7 icyalala 219 天前 ![]() 虽然但是,你买个 API 就只能聊天聊到死,但你买个 Mac 还能写代码跑渲染,还能剪视频 |
![]() | 8 Lanayaaa 219 天前 这。。。。等于是 macstudio 不配上 m4ultra . 还是说 直接跳过了 m4ultra 来了个 m4extreme? |
![]() | 9 ZE3kr 219 天前 via iPhone 打算冲丐版 |
![]() | 10 WuSiYu 219 天前 512 对 LLM 负载意义不大了,对于这个量级的 memory ,mac 的 memory bandwidth 和 gpu peak flops 都不太够看,用人话说就是跑更大的模型能跑但慢到没法用 |
![]() | 12 billytom 219 天前 根据目前 M4 max 128GB 跑 R1 qwen 70b 就只有 18-20tk 来看,这玩意如果跑 R1 671b ,估摸也就是 9-10tks |
![]() | 16 kenniewwwww 218 天前 谢谢,我选择 revolut metal 免费送的 perplexity pro |
17 bytesfold 218 天前 via iPhone 似乎不支持 ECC ? |
![]() | 18 ZeekChatCom 218 天前 这个价格,鹤岗可以买 2 套房子了 |
19 loveshuyuan 218 天前 不知道什么时候可以上国补 |
![]() | 20 qxmqh 218 天前 ![]() Apple M3 Ultra (32 核中央处理器、80 核图形处理器和 32 核神经网络引擎) 512GB 统一内存 16TB 固态硬盘 正面:两个雷雳 5 端口,一个 SDXC 卡插槽 背面:四个雷雳 5 端口,两个 USB-A 端口,一个 HDMI 端口,一个 10Gb 以太网端口,一个耳机插孔 顶配需要:RMB 4531/月 (24 期)或 RMB 108,749 |
![]() | 21 wy315700 218 天前 好家伙,512G 内存。800G/s 内存带宽 |
23 chandlerbing9317 218 天前 ![]() @ShadowPower #1 本来还感觉不到到底有多贵,你那么一说我就发现是真的贵了,毕竟一个月的 cursor 我都不舍得开 |
![]() | 24 ShadowPower 218 天前 @bytesfold 只支持所有 DDR5 都支持的片上 ECC ,不过那是因为 DDR5 没有这玩意无法稳定使用…… 像 Intel 、AMD 那种 CPU 和内存之间的 ECC 确实没有。 |
![]() | 26 alexcding 218 天前 @srwxyz studio 应该是 Max 起步吧. M5 系列芯片将采用台积电的 SoIC (系统级集成芯片)封装技术。这种高密度 3D 芯片堆叠技术允许多个芯片直接垂直堆叠,从而实现更高的集成度和性能。特别是,苹果计划在 M5 Pro 、M5 Max 和 M5 Ultra 等高端型号中采用 SoIC-MH (水平成型) 2.5D 封装方式,以优化散热性能和生产良率。 |
![]() | 27 auta 218 天前 @loveshuyuan 国补限额 2000 ,只能相当于一张优惠券。 |
28 mkdirmushroom 218 天前 @shuimugan 有人测 192GB 的 M2 Ultra 1.5bit 量化后的 671b R1 速度是 14t/s |
29 mkdirmushroom 218 天前 @shuimugan 在内存带宽基本上没怎么变的情况下,我个人猜测目前即使是 512GB 的统一内存,速度也不会超过 20t/s |
31 bytesfold 218 天前 via iPhone @ShadowPower 长时间使用感觉还是用得上,最大 512G 结果没 ECC 。。话说 Nvidia 专业卡和非专业卡主要区别就是 ECC ,显存了 |
32 loveshuyuan 218 天前 @auta 2000 也不少了,在想要等国补还是首发买 |
![]() | 33 WuSiYu 218 天前 @icyalala 算了下,都 q6 量化的话,只考虑权重访存,70b dense 模型(如 qwen )的理论极限是 20+ token/s ,R1 671B 的 moe 模型,每次激活 37B 参数,理论极限 40+ token/s ,实际考虑计算和 context 大概折半,用 q6 等量化还要打折 不算不能用,但也不算快,100b+的模型只能推 moe 的,但 moe 模型恰恰就是大规模场景才能把成本降下来(冗余专家并行)。所以除非有涉密需求,不如与其 7w+买个这,还是租 API 比较划算 |
![]() | 36 icyalala 218 天前 @WuSiYu 其实如果单纯考虑 LLM 调用性价比的话,无论如何本地部署都比不上在线 API ,毕竟本地部署用户量上不来,也用不上 batch ,总的吞吐量肯定不那么经济。。。 但是单纯说 Mac 的话,它不一定只用于 LLM ,所以性价比没法直接比较 |
![]() | 41 slowgen 217 天前 via Android @dongfanga 但是两者的激活参数差不多,速度上差距不大,得具体实测所有题目才好说,我只测了代码能力。而且 qwq-32b 跑起来条件太简单了,搞两张 16-24g 显存的卡,2 张 a770 都可以没什么压力 |
![]() | 42 slowgen 217 天前 @mkdirmushroom @jqknono 我的 Mac Studio 就是 192GB 的 M2 Ultra ,对于 M3 Ultra 跑 deepseek V3/R1 的速度我意见和 33 楼一致,最多是随着上下文越大速度不断衰减 |
43 dongfanga 217 天前 @shuimugan 主要是综合来看,本地跑非类似 r1 这种庞大的模型,mac studio 综合来看真的性价比高,省电噪音少,pc 平台真的感觉自己在开飞机 |
![]() | 44 feikaras 217 天前 via iPhone @dongfanga 为啥不是 eypc 量大管饱? mac 他啥时候性价比了。本地部署大模型应该和个人用户无关,个人只管用别人给你做好的入口。 |
![]() | 46 slowgen 208 天前 ![]() @mewking pcie 通道速度不会降低多少性能,现阶段 ExoLabs 的方案是靠网络通信都能玩,推理模型交换数据挺少的,刚好新鲜出炉一个部署案例 https://www.bilibili.com/video/BV1FvQrYQEPc |