在人工智能使用方面,尤其是 LLMs.
Mac Studio 128GB 仍然比 A100 80GB 便宜得多。
![]() | 1 coinbase OP 等 M3 的 Mac Studio 出来,感觉比 A100 性价比舒服很多 |
![]() | 2 june4 2024-02-24 21:01:25 +08:00 比的是内存大小?那确实 m2 便宜,不过小米更便宜 |
![]() | 4 kaichen PRO ![]() 那你可以对比 96G 的价格,从推理来说,能效方面 apple silicon 比较高,并且买回来就能用,买个 A100 还要组个主机 但是推理速度会被吊打,基本上差一个量级 - https://towardsdatascience.com/how-fast-is-mlx-a-comprehensive-benchmark-on-8-apple-silicon-chips-and-4-cuda-gpus-378a0ae356a0 - https://owehrens.com/whisper-nvidia-rtx-4090-vs-m1pro-with-mlx/ |
![]() | 5 kaichen PRO ![]() 在 reddit 的 local llama 上,比较推崇的是买两块 3090 组 nvlink ,这样有 48G ,可以刚刚好跑个 70b 的 q5 量化版 |
![]() | 6 stimw 2024-02-24 22:37:12 +08:00 这只是对于一部分 LLM ,可能 apple silicon 显得非常有性价比。 但是对于 SD ,SVD 等任务来说就不是这么一回事了。可用性并不高。 |
![]() | 7 awah 2024-02-24 22:41:51 +08:00 via iPhone 推理速度太不行,只是能用 |
![]() | 8 litguy 2024-02-25 10:45:04 +08:00 感觉性能是 奥拓 vs 奥迪 |
![]() | 9 coinbase OP |
![]() | 11 stimw 2024-02-25 15:49:28 +08:00 @coinbase #9 你别拉到最后看结果啊。4090 慢的原因是超显存了,结果就是需要过 pcie 过 cpu 过内存。 事实上 70b 的 llama 完全可以用两块 3090 组 nvlink ,你看还慢不慢? 买 apple silicon 的结果就是,除了围绕 llama.cpp 做文章,干其他事的可用性对比 cuda 约等于 0 。 |
12 Alias4ck 2024-02-26 11:17:13 +08:00 @stimw 也不完全是 llama.cpp, apple 去年也有出自己的 ml 框架(mlx( https://github.com/ml-explore/mlx) ) 用来转 coreml 有很多应用的例子 : https://github.com/ml-explore/mlx-examples 比如你可以在 apple silicon 上跑大语言模型的微调等 |
13 xz410236056 2024-02-26 11:36:25 +08:00 @Alias4ck #12 MLX 这东西跟用 pytorch 调用 MPS 训练,然后将成果使用 coreml tool 转成 coreml 模型什么区别呢。 |
![]() | 14 stimw 2024-02-26 12:04:55 +08:00 via Android |