https://github.com/jundot/omlx
有人说这个可以加速 3 倍, 特别是对首字节, 希望有人试下并反馈.
为什么我自己不试呢, 因为我的笔记本太垃圾了, 我还特意买了 32G 内存的, 现在跑了个千问 3.5-9B 的, 内存已经爆表了.
有人说这个可以加速 3 倍, 特别是对首字节, 希望有人试下并反馈.
为什么我自己不试呢, 因为我的笔记本太垃圾了, 我还特意买了 32G 内存的, 现在跑了个千问 3.5-9B 的, 内存已经爆表了.

1 testboy Mar 28 这个是针对 macos 的吧 |
2 keithwhisper Mar 29 首字节加速得益于 MLX 专门为 Metal 设计的, 你用其他 mlx inference engine 也有这效果. 说 omlx 快 3 倍, 其实是指比 mlx 快 3 倍, 因为 mlx 的 kv cache 没有优化, omlx 引入了 disk cache 缓解, 让 mlx 可以实际用于 agentic loop. 我正好在设计这个, 过两天发个 alpha 你可以试下 |
3 keithwhisper Mar 29 不过现阶段还是推荐用 gguf 的模型, 因为量化质量更好. mlx 的模型主要还是均匀量化(这几天出了几个 mixed precision quantization, 还没有尝试), 质量不如 gguf 的量化版本. |
4 Hermitist OP @keithwhisper 期待. |