自己电脑配置:mac mini m2 16g
通过 ollama ,安装了
目的是为了优化公众号文章标题:
import re from langchain_ollama import ChatOllama from langcain_core.prompts import ChatPromptTemplate from langchain_core.output_parsers import StrOutputParser # 初始化 Ollama 模型 llm = ChatOllama( model="gemma3:4b", ) # 定义提示模板 prompt_template = ChatPromptTemplate.from_template( """ 假设你是个具有丰富的爆文经验的微信公众号作者,现提供的"{question}"文章标题,优化标题,只输出最优的那个,结果不需要解释。 """ ) # 创建处理链 chain = prompt_template | llm | StrOutputParser() # 示例问题 question = "女人离我远点" # 调用链并获取纯答案 answer = chain.invoke({"question": question}) clean_text = re.sub(r"<think>.*?</think>", "", answer, flags=re.DOTALL).strip() # 输出结果 print(clean_text)
分别用了上面的几个模型,跑下来,都比较慢,有没有其他性价比比较高的?
![]() | 1 highkay 115 天前 你没有显卡肯定慢啊……,而且我觉得感觉你这个是任务的质量大于速度的,从结果讲推荐新版的 r1 蒸馏的 qwen3-8b ,同级别的模型输出的 token 越多,质量越好,一般来讲。 |
![]() | 3 DendimoN 115 天前 1. mlx 格式的快一些 2. 你用的 ollama 是不是只会使用 cpu ?看一下 metal llama.cpp 这个项目,或者直接用 lmstudio 起服务试一下。 |
4 wfhtqp 115 天前 ollama 怎么用的? docker 的话有没有挂载 gpu 进去? |
5 yoreee 115 天前 没有必要本地部署,效果差 |
![]() | 6 Reficul 115 天前 7b 的模型太小,效果不太理想。 |
![]() | 7 cF06myaQ57WHKMBv 115 天前 本地部署,大的跑不动,小的弱智,还不如直接调用 API 方便, |
8 lcingOnTheCake 115 天前 要跑的大模型的话,最起码有 4090D ,比如你安装的 qwen3:8b ,不使用量化版本的话,要吃 20GB 显存,普通显卡根本吃不消 |
![]() | 9 yuuluu 115 天前 个人电脑不太适合跑本地大模型. 对于优化公众号标题这个需求, 应该没有本地化的必要吧... |
10 uprit 115 天前 你用 M2 肯定慢啊,带宽才 100G ,跑 Q4 量化模型 7B 的也就 20 多 t/s ,速度勉强能接受,能力一塌糊涂。 你想快,要么就换带宽更高的,比如 M1 ultra ,800G 带宽。或者换 N 卡平台,比如 5070ti ,差不多 900G 带宽 要么就得用更小的模型,比如 1.5B 的,快是快了,但能干的活儿不多,只能处理非常非常简单的任务,你这种优化标题的任务就别想了。 再说了,你真要用这种 7B 以下的模型,有些官方的 API 都是免费的,你折腾这个干嘛。 |
![]() | 11 wu67 115 天前 没必要, 本地跑‘小’模型, 跑出来的有点像弱智+复读机 |
![]() | 12 laijh OP 感谢大佬意见,已改用 deepseek 的线上模型 |
![]() | 13 ly001 115 天前 chatbox + api 随便用,简直不要太方便 |
![]() | 14 nailuoGG 115 天前 |
![]() | 15 goodhellonice 115 天前 本来我也准备部署本地的。。后来发现远不如在线的。。。现在主要用 gemini grok kimi |
![]() | 16 loganovo 114 天前 本地只能玩玩, 过了新鲜感后, 再也不想点开 |
17 fredweili 114 天前 这个配置能跑 8b ,4b 就更能了,用流式模式 |
![]() | 19 huizai2022 114 天前 用硅基流动吧 免费的 8b 模型 |
![]() | 20 coefu 113 天前 pc 而言,除了 mac studio m3 ultra 512 之外,就没有能用的了。 |
21 mili100 108 天前 内存足够的话也许试试看 Qwen3:30B-A3B ,激活参数仅 3B ,品质接近 32B (虽然对于 16G ,iQ2 UD 量化可能都有些捉襟见肘) |
22 kevin249 52 天前 evo-x2 幻 X2025 之类的 AI MAX 395 的主机 |
![]() | 23 SSang 35 天前 看看 ggml 的模型: https://huggingface.co/collections/ggml-org ggml-org/Qwen3-0.6B-GGUF ggml-org/Qwen2.5-Coder-0.5B-Q8_0-GGUF ggml-org/gemma-3-270m-GGUF |