苹果刚刚推出了新款 Mac Studio

Mac Studio

统一内存

512gb

46 条回复 2025-03-16 08:38:44 +08:00

1

ShadowPower

219 天前

太贵了，能按月订阅 42 年的 cursor 了

2

SkywalkerJi

219 天前 via Android

7w5 可以五张 4090 了

3

F281M6Dh8DXpD1g2

219 天前

3

@SkywalkerJi 你那五张 4090 有多少显存来着?

4

alexcding

219 天前

M3 Ultra 是最后一代胶水, 肯花这个钱不如等今年的 Mac Pro, 有单独设计的 M4 Ultra, 估计带宽更大

5

slowgen

219 天前

3

32B 模型 4bit 量化在 M2 Ultra 可以跑到 42token/s （开启 KV Cache ），而 deepseek v3 和 r1 的激活参数量都是 37B ，总参数量 671B ，在 512GB 内存上跑 4bit 量化为主，大体上也是 40~45token/s 左右（对比 M2 Ultra 算力和带宽的提升和激活参数变化所得）。
对比 deepseek 现在的官网价格，v3 每百万 token 输出为 8 元，r1 是 16 元，用 Mac Studio M3 Ultra 512GB 拿来跑 deepseek v3 的话大概是 74249/8 * 1000000 / 45 / 86400 = 2387 天回本，跑 r1 回本速度快一倍，只需 1193 天。

6

Themyth

219 天前

@shuimugan 赞！你这样的人销售都骗不到。。。。。

7

icyalala

219 天前

1

虽然但是，你买个 API 就只能聊天聊到死，但你买个 Mac 还能写代码跑渲染，还能剪视频

8

Lanayaaa

219 天前

这。。。。等于是 macstudio 不配上 m4ultra . 还是说直接跳过了 m4ultra 来了个 m4extreme?

9

ZE3kr

219 天前 via iPhone

打算冲丐版

10

WuSiYu

219 天前

512 对 LLM 负载意义不大了，对于这个量级的 memory ，mac 的 memory bandwidth 和 gpu peak flops 都不太够看，用人话说就是跑更大的模型能跑但慢到没法用

11

icyalala

219 天前

@WuSiYu 上面说 40~45token/s ，Twitter 上有人预估 20token/s ，也算能用了

12

billytom

219 天前

根据目前 M4 max 128GB 跑 R1 qwen 70b 就只有 18-20tk 来看，这玩意如果跑 R1 671b ，估摸也就是 9-10tks

13

FlashEcho

218 天前

@shuimugan #5 官方满血版是大部分 fp8 （还有一些 bp16 和 fp32 ），int4 效果肯定差一点，而且电也是要钱的

14

srwxyz

218 天前 via iPhone

@alexcding 有道理，不过以后不用胶水技术了，studio 上也会上和 pro 一样的芯吗，这差距要怎么拉开

15

gxt92

218 天前

@alexcding M4 Ultra 有啥消息么？这次只出了 M3 Ultra 有点奇怪，藏着掖着

16

kenniewwwww

218 天前

谢谢，我选择 revolut metal 免费送的 perplexity pro

17

bytesfold

218 天前 via iPhone

似乎不支持 ECC ？

18

ZeekChatCom

218 天前

这个价格，鹤岗可以买 2 套房子了

19

loveshuyuan

218 天前

不知道什么时候可以上国补

20

qxmqh

218 天前

1

Apple M3 Ultra (32 核中央处理器、80 核图形处理器和 32 核神经网络引擎)
512GB 统一内存
16TB 固态硬盘
正面：两个雷雳 5 端口，一个 SDXC 卡插槽
背面：四个雷雳 5 端口，两个 USB-A 端口，一个 HDMI 端口，一个 10Gb 以太网端口，一个耳机插孔
顶配需要：RMB 4531/月 (24 期)或 RMB 108,749

21

wy315700

218 天前

好家伙，512G 内存。800G/s 内存带宽

22

noahhhh

218 天前 via Android

@bytesfold 所有苹果芯片的机器都不支持，那么大内存没 ECC 半个月就会出点问题

23

chandlerbing9317

218 天前

1

@ShadowPower #1 本来还感觉不到到底有多贵，你那么一说我就发现是真的贵了，毕竟一个月的 cursor 我都不舍得开

24

ShadowPower

218 天前

@bytesfold 只支持所有 DDR5 都支持的片上 ECC ，不过那是因为 DDR5 没有这玩意无法稳定使用……
像 Intel 、AMD 那种 CPU 和内存之间的 ECC 确实没有。

25

alexcding

218 天前

@gxt92 流言是晚些时候出新的 Mac Pro

26

alexcding

218 天前

@srwxyz studio 应该是 Max 起步吧.

M5 系列芯片将采用台积电的 SoIC （系统级集成芯片）封装技术。这种高密度 3D 芯片堆叠技术允许多个芯片直接垂直堆叠，从而实现更高的集成度和性能。特别是，苹果计划在 M5 Pro 、M5 Max 和 M5 Ultra 等高端型号中采用 SoIC-MH （水平成型） 2.5D 封装方式，以优化散热性能和生产良率。

27

auta

218 天前

@loveshuyuan 国补限额 2000 ，只能相当于一张优惠券。

28

mkdirmushroom

218 天前

@shuimugan 有人测 192GB 的 M2 Ultra 1.5bit 量化后的 671b R1 速度是 14t/s

29

mkdirmushroom

218 天前

@shuimugan 在内存带宽基本上没怎么变的情况下，我个人猜测目前即使是 512GB 的统一内存，速度也不会超过 20t/s

30

bytesfold

218 天前 via iPhone

@noahhhh 这确实很让人担心，这还怎么生产力呢。。

31

bytesfold

218 天前 via iPhone

@ShadowPower 长时间使用感觉还是用得上，最大 512G 结果没 ECC 。。话说 Nvidia 专业卡和非专业卡主要区别就是 ECC ，显存了

32

loveshuyuan

218 天前

@auta 2000 也不少了，在想要等国补还是首发买

33

WuSiYu

218 天前

@icyalala 算了下，都 q6 量化的话，只考虑权重访存，70b dense 模型（如 qwen ）的理论极限是 20+ token/s ，R1 671B 的 moe 模型，每次激活 37B 参数，理论极限 40+ token/s ，实际考虑计算和 context 大概折半，用 q6 等量化还要打折

不算不能用，但也不算快，100b+的模型只能推 moe 的，但 moe 模型恰恰就是大规模场景才能把成本降下来（冗余专家并行）。所以除非有涉密需求，不如与其 7w+买个这，还是租 API 比较划算

34

WuSiYu

218 天前

@WuSiYu 打错了，前面是 q4

35

YsHaNg

218 天前

@billytom R1 qwen 70b 不是 moe 模型

36

icyalala

218 天前

@WuSiYu 其实如果单纯考虑 LLM 调用性价比的话，无论如何本地部署都比不上在线 API ，毕竟本地部署用户量上不来，也用不上 batch ，总的吞吐量肯定不那么经济。。。

但是单纯说 Mac 的话，它不一定只用于 LLM ，所以性价比没法直接比较

37

jqknono

218 天前

@shuimugan 跑 R1 就未必是 45token/s 的输出了

38

noahhhh

217 天前 via Android

@bytesfold 4090 也可以开 ecc ，只是有 1.5G 显存用于校验，性能也会损失

39

dongfanga

217 天前

@shuimugan 现在 qwen 新出的 32B 跟 R1 接近，那么用新的 Mac Studio 是否更具可用性？

40

slowgen

217 天前 via Android

@dongfanga 可行啊，我玩了一天了，6bit 量化下回答质量和 grok3 差不多

41

slowgen

217 天前 via Android

@dongfanga 但是两者的激活参数差不多，速度上差距不大，得具体实测所有题目才好说，我只测了代码能力。而且 qwq-32b 跑起来条件太简单了，搞两张 16-24g 显存的卡，2 张 a770 都可以没什么压力

42

slowgen

217 天前

@mkdirmushroom
@jqknono
我的 Mac Studio 就是 192GB 的 M2 Ultra ，对于 M3 Ultra 跑 deepseek V3/R1 的速度我意见和 33 楼一致，最多是随着上下文越大速度不断衰减

43

dongfanga

217 天前

@shuimugan 主要是综合来看，本地跑非类似 r1 这种庞大的模型，mac studio 综合来看真的性价比高，省电噪音少，pc 平台真的感觉自己在开飞机

44

feikaras

217 天前 via iPhone

@dongfanga 为啥不是 eypc 量大管饱？ mac 他啥时候性价比了。本地部署大模型应该和个人用户无关，个人只管用别人给你做好的入口。

45

mewking

212 天前

@shuimugan 请问这个 2*770 的玩法有没有部署例子？貌似是最便宜的 16G 卡。如果 PCIE 槽一个 X16 ，一个 X4 ，会降低很多性能吗

46

slowgen

208 天前

1

@mewking pcie 通道速度不会降低多少性能，现阶段 ExoLabs 的方案是靠网络通信都能玩，推理模型交换数据挺少的，刚好新鲜出炉一个部署案例 https://www.bilibili.com/video/BV1FvQrYQEPc