个人电脑，适合跑哪个本地大模型？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 115 天前的主题，其中的信息可能已经有所发展或是发生改变。

自己电脑配置：mac mini m2 16g

通过 ollama ，安装了

qwen3:8b
qwen3:4b
gemma3:4b
mistral:7b

目的是为了优化公众号文章标题：

import re from langchain_ollama import ChatOllama from langcain_core.prompts import ChatPromptTemplate from langchain_core.output_parsers import StrOutputParser # 初始化 Ollama 模型 llm = ChatOllama( model="gemma3:4b", ) # 定义提示模板 prompt_template = ChatPromptTemplate.from_template( """ 假设你是个具有丰富的爆文经验的微信公众号作者，现提供的"{question}"文章标题，优化标题，只输出最优的那个，结果不需要解释。 """ ) # 创建处理链 chain = prompt_template | llm | StrOutputParser() # 示例问题 question = "女人离我远点" # 调用链并获取纯答案 answer = chain.invoke({"question": question}) clean_text = re.sub(r"<think>.*?</think>", "", answer, flags=re.DOTALL).strip() # 输出结果 print(clean_text)

分别用了上面的几个模型，跑下来，都比较慢，有没有其他性价比比较高的？

本地大模型

Mac mini M2

Qwen3

23 条回复 2025-09-05 17:49:03 +08:00

highkay

115 天前

你没有显卡肯定慢啊……，而且我觉得感觉你这个是任务的质量大于速度的，从结果讲推荐新版的 r1 蒸馏的 qwen3-8b ，同级别的模型输出的 token 越多，质量越好，一般来讲。

rogerer

115 天前

@highkay 据说苹果线上就有服务是跑在 mac mini 上

DendimoN

115 天前

1. mlx 格式的快一些
2. 你用的 ollama 是不是只会使用 cpu ？看一下 metal llama.cpp 这个项目，或者直接用 lmstudio 起服务试一下。

wfhtqp

115 天前

ollama 怎么用的？ docker 的话有没有挂载 gpu 进去？

yoreee

115 天前

没有必要本地部署，效果差

Reficul

115 天前

7b 的模型太小，效果不太理想。

cF06myaQ57WHKMBv

115 天前

本地部署，大的跑不动，小的弱智，还不如直接调用 API 方便，

lcingOnTheCake

115 天前

要跑的大模型的话，最起码有 4090D ，比如你安装的 qwen3:8b ，不使用量化版本的话，要吃 20GB 显存，普通显卡根本吃不消

yuuluu

115 天前

个人电脑不太适合跑本地大模型.

对于优化公众号标题这个需求, 应该没有本地化的必要吧...

uprit

115 天前

你用 M2 肯定慢啊，带宽才 100G ，跑 Q4 量化模型 7B 的也就 20 多 t/s ，速度勉强能接受，能力一塌糊涂。
你想快，要么就换带宽更高的，比如 M1 ultra ，800G 带宽。或者换 N 卡平台，比如 5070ti ，差不多 900G 带宽
要么就得用更小的模型，比如 1.5B 的，快是快了，但能干的活儿不多，只能处理非常非常简单的任务，你这种优化标题的任务就别想了。
再说了，你真要用这种 7B 以下的模型，有些官方的 API 都是免费的，你折腾这个干嘛。