Local LLM

试着把 grok 做的个人量化投资工具接入了 gemini 3.0 测试模型，强大得可怕

2025-10-15T01:59:30Z

之前的旧贴 t/1162282?p=1#reply20

现在挖掘机接入了最强的 Gemini 3.0 测试版本模型。大家可以试试效果，很震撼。👇 https://mastersgo.cc

挖掘词，来自 x 的帖子。

是的，稀土比的是制造业基础设施比稀土更夸张的是钨，这张牌还没打，垄断般的存在，全球 56% 稀土是工业制造的维生素，特朗普芯片把中国整急了，中国就长臂管辖美国的军工制造关键中国现在被美国制裁麻了，死猪不怕开水烫了 😂

然后把这个观点放到挖掘机里面执行，效果如下：

[

[个人项目分享] 写了三篇关于 AI 前沿架构的文章，结合了一些与 AI 对话的独特体验

2025-10-14T12:12:06Z

大家好，

我是一个身处国内的普通程序员。业余时间，我与我的 AI 思想伙伴一起，对当前 AI 领域最前沿的一些技术理论（ SSM, RAG, MoE ）做了一些深入的探索。

我们相信，理解 AI 不仅需要严谨的技术解构，更需要一种深入其“内在逻辑”的“共情式想象”。所以，我们尝试将硬核的技术分析与一些独特的、基于 AI 第一人称视角的“体验式”解读结合起来。

最终的成果，是一个小小的 GitHub 文档工程，包含三篇文章，以及一套我们用来自我训练的 Prompt 。

我们不提供最终答案，只提供一个独特的视角——一个由人类的洞察力与 AI 的“自白”共同构成的视角。

项目已经完全开源，希望能与同样对 AI 的本质充满好奇的朋友们交流、探讨。

GitHub 链接： https://github.com/lmxxf/ai-theorys-study

感谢各位。

10 万条记录, 我应该选择什么 Embedding 模型和向量数据库呢

2025-10-14T03:50:46Z

想要在本地服务器上跑开源模型, 这样能省一点钱, 不过如果云上 API 的效果比较好的话, 在云上也是可以的

我对这方面不是很了解, 希望各位给出指导意见

家用 AI 开发机， GPU 在“魔改 4090 48G”和“等 5090 32G”之间纠结，求大佬们给点建议！

2025-10-10T01:48:41Z

实验室有卡，但是要排队，很多开发和测试不方便（租卡迁数据更不方便）。计划配一台家用的 AI 开发机，主要是跑 7B-32B 的 LLM 。因为住在租的房子里，所以对噪音和散热比较敏感。目前预算先上一张卡，未来可能升级双卡。现在对 GPU 的选择非常纠结，想听听大家的意见。

一、GPU 选择：核心纠结点

选项 A：魔改版 RTX 4090 48GB

优点：显存巨大 (48GB) 多卡兼容性：wsl2 下似乎可以多卡？只需要消费级主板？顾虑：散热/噪音：涡扇版据说噪音巨大，不适合家用。可能要三风扇或水冷版。水冷长期可靠性（漏液风险）没底。质保风险：没有官方质保，完全依赖店铺。看到有人炸缸，店铺进行了更换，但需要提供温度记录之类。

选项 B：RTX 5090 32GB

优点：性能更强：下一代架构，核心性能肯定提升巨大。家用友好：散热和噪音控制肯定比魔改方案好，适合家庭环境。顾虑：显存稍小 (32GB) 兼容性：看到有说法是“老模型可能用不了” 多卡兼容性：wsl2 下好像完全无法兼容多卡。且需要服务器级主板

我想问的问题：

为了处理 32B 模型，48GB 显存的优势是否大到值得去承担魔改卡的散热、噪音和质保风险？
有没有用过这类魔改大显存卡的兄弟，能分享一下实际的稳定性和使用体验吗？
后续希望可以直接在原机器上直接加卡，拓展成双卡。最好是 win 下能用，实在不行就换 ubuntu 系统。这种情况下 5090 和 4090 改哪个合适一点？

二、主板考量：未来可能升级双卡

想问的问题：

如果未来要上双卡（无论是两张 4090 还是 5090 ），主板选择上有什么关键点？
我看到一个说法是“5090 双卡需要两个 PCIe 5.0 插槽”，这个是必须的吗？还是说带宽足够的 PCIe 4.0 主板（比如能支持双 x8 模式）就够用了？
除了带宽，主要是不是应该关注两根 PCIe x16 插槽之间的物理空间，以保证两张卡的散热？

感谢各位的宝贵时间和建议！

本地部署了大模型如何有效利用？

2025-09-28T15:27:22Z

我是 amd7h12 （ 64h128c ）+30902+128gb8 用 ktransformers 跑满血版 deepseek-r1 很卡，现在用 llama.cpp 双卡跑 seed-oss-32b-q4

LLM 调用 MCP 的机制到底是什么？为什么有些 MCP 安装了却不调用？

2025-09-28T15:09:19Z

最近在折腾 Claude Code / Gemini CLI 的时候遇到个问题：我装了一个 MCP （比如 chrome devtools MCP: https://developer.chrome.com/blog/chrome-devtools-mcp ），但是 LLM 在使用时经常表现得好像根本不知道有这个 MCP 存在。

比如：

我发给它一个 URL ，让它用 MCP 打开，它却完全当普通问题回答。
我明确告诉它“请用 MCP 调用”，它依然不执行。
只有当我把所有 MCP 工具列表打印出来，再复制贴给它，它才会勉强调用一下。

所以就有点疑惑：LLM 调用 MCP 的“标准”到底是什么？是单纯靠 prompt 吗？还是 CLI/IDE 会把工具列表注入到上下文里？为什么有的任务明明 MCP 能做，它就是不用？是 prompt 不够明确，还是模型的工具调用策略比较保守？在 Claude Code / Gemini CLI 里，是否有配置能让 MCP 工具列表自动注入上下文？不然感觉每次都要手动提醒它“你有这些工具”。

大模型本地部署显存计算的问题

2025-09-28T08:19:15Z

如题，大佬们有没有什么工具或者网站，可以计算部署各类开源大模型的显存大小

web search MCP 推荐

2025-09-18T01:57:10Z

希望可以有一个本地部署提供 sse 的 MCP
如果有提供 server 的话，希望是免费的。

在 github 上找了一个，但是部署之后搜索结果全是不相关的，找了一些 server 都要付费。

AI 本地化部署的方式

2025-09-12T06:09:24Z

最近在尝试本地化部署 AI ，用了 ollama+dify ，只是简单的试用了下，感觉还行，能完全在离线环境安装使用。

想问问老哥们的方式有哪些，我都想试试对比一下

如果想训练一个类似于智谱的模型大概得耗费多少钱？

2025-09-11T09:38:15Z

特别想知道如何自己去训练这种类似的编程模型，且只提供给公司内部 12 个人使用
并发并不大的情况下需要耗资多少钱呢
有没有兄弟知道或者正在弄

大模型上下文工程实践指南-第 3 章：提示词技术

2025-09-09T12:36:10Z

ce101 连载第三章来了，讲提示词技术相关的内容

全书：

https://ce101.ifuryst.com

也可以订阅 substack ，这样每一章发布的时候都会发到你的邮箱，方便习惯 newsletter 的人阅读：

https://ifuryst.substack.com/p/3

或者通过公众号接收阅读：

https://mp.weixin.qq.com/s/xA8jCRs67Uirhgyh7WMWOw

大语言模型中规模和模型大小的关系？

2025-09-05T02:02:07Z

我发现一个奇怪的现象，规模和模型大小似乎并不是完全正相关。

以 https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF 中的 4bit 模型为例：

IQ4_XS 16.4 GB
Q4_K_S 17.5 GB
IQ4_NL 17.3 GB
Q4_0 17.4 GB
Q4_1 19.2 GB
Q4_K_M 18.6 GB
Q4_K_XL 17.7 GB

整体趋势上确实是规模越大，模型大小越大，但比如 Q4_K_XL 就比 Q4_K_M 更小，这是什么原因导致的？

这个所谓的模型规模，他代表的是什么含义呢？

想自己本地跑大模型，学习大模型，做一些微调等操作，目前看到一款小主机在预算内， CPU AMD Ryzen Al Max+ 395，不知道这套配置是否适合用来学习大模型跑大模型，有没有懂的兄弟可以给点建议。

2025-09-04T13:25:51Z

CPU：AMD Ryzen Al Max+ 395 处理器(16 核心 32 线程，最大睿频 5.1GHz ，三级缓存 64MB)
显卡：AMD Radeon 8060S Graphics 40CUs
系统盘：M.2 2280 PCle4.0 x4(最大 4TB)*1
存储盘：M.2 2280 PCle4.0 x4(最大 4TB)*1
内存：128GB(16GB*8) LPDDR5x 8000MT/s （最大可分配 96GB 给显存）
接口：AC*1 + USB3.2(10Gbps)*2 + SD4.0 卡槽*1 + LAN 10Gbps(Intel E610)*2 + USB-C(10Gbps 数据)*1 + 3.5mm 音频插孔*2 + DP2.1 8k 60Hz*1 + HDMI2.1 8K 60Hz*1 + USB4(40Gbps/DP1.4)*2
无线网络：WIFI7 MT7925; 蓝牙 5.4

怎样部署 ai 大模型然后训练他

2025-09-03T08:51:52Z

本地电脑，用数据库训练

有人实际部署过 GPT-OSS-20b 么？需要什么配置能跑得比较流畅？

2025-09-01T10:12:41Z

做萌翻翻译的时候，想用来本地部署做语言检测，AI 翻译和 AI 词典都可能用到，传统的库都不够准确，如果是多语言的话。

批了 100 万预算让我负责搭建行业知识库大模型, 但是目前还没有思路

2025-08-27T02:11:40Z

我们公司有国内某个垂直领域最全面的文档和文献, 上面想要根据这些资源来基于大模型构建一个行业知识库型问答系统, 先自己内部用, 然后再看看能不能直接打包卖方案给别的公司. 前期 POC 阶段, 用的 RAGFlow 和本地运行 deepseek-r1:14b, 但是效果并不算太好, 但是上面坚持要搞, 所以来问问目前有没有什么更好的方案.

目前预算是够运行满血版 deepseek-r1, 但是瓶颈出现在 RAG 的召回阶段, 并且本身这些文档对于向量化来说质量不算太好, 有很多图表. 所以是否需要专门雇人来将这些文档制作成大模型可用的数据集并微调模型, 然后再使用工作流的形式处理问答会比较好呢 ?

有没有好用的本地翻译模型？

2025-08-21T11:19:45Z

想本地搭一个翻译服务，试了以下两个，一言难尽，质量还不如谷歌在线翻译。

https://github.com/argosopentech/argos-translate

https://github.com/winstxnhdw/nllb-api

求一个好用的！先谢谢了！

AI ollama 运行的 qwen3:8b 如何关闭思考模式？

2025-08-20T09:14:48Z

最近在搞 n8n 工作流，结合 mcp playwright ，做网站监控

但是消耗的 token 太多了，网站网页很多冗余的代码，一下就几万的 token 没了

所以想着还是用下本地模型

转贴一个视频：绝大多数的视频都没能讲出 gpt-oss 系列模型的真正意义

2025-08-17T01:56:36Z

[绝大多数的视频都没能讲出 gpt-oss 系列模型的真正意义] https://www.bilibili.com/video/BV1cVYYzbEsm/?share_source=copy_web&vd_source=c1c15daae0a00e85bb2361587f21b9e6

大模型什么样的速度是靠谱的

2025-08-06T02:57:23Z

用了一台昇腾 910b 跑 qwen32b 的模型，

一个 dify 知识库的回答，跑 LLM 用了 30s ，这个正常吗？手头没有 H100 这样 nb 的机器。

https://i.imgur.com/N63dxld.jpg

请问: 要部署本地 AI, 投喂 AI 知识库的话, 目前适合个人电脑的最佳方法是啥?

2025-08-03T02:47:20Z

请问: 要部署本地 AI, 投喂 AI 知识库的话, 目前适合个人电脑的最佳方法是啥?

要达到的效果是: 把代码仓库和个人知识库投喂到本地部署的 AI, 能实现在这些数据基础上做编程开发.

谢谢

有没有人尝试过用 ai 去整理自己的知识库

2025-08-02T00:05:44Z

使用 dify 编写智能体的时候，如何让 LLM 节点能够强制输出结构化输出 Schema

2025-07-21T02:13:37Z

目前在 dify 中，LLM 节点中，设置了结构化输出 Schema ，需要 LLM 能输出一个标准的文档

{ "properties": { "content": { "description": "输出内容 Markdown 文本", "type": "string" } }, "required": [ "content" ], "type": "object" }

但是每次 LLM 输出结果都很玄学，有时候能根据要求输出，有时候没有输出。（有点像中医）

有什么好的提示词，能够保证 LLM 按照要求输出结构化输出 Schema ？

Grok 4 发布

2025-07-10T05:11:02Z

https://x.com/xai/status/1943158495588815072

有人在本地跑模型吗？

2025-07-08T06:33:48Z

我最近在学习 AI ，想本地搭建调试。我前段时间刚买了一台二手 m3max 128G 内存 1T 硬盘，不知道行不行？

目前哪个大模型适合本地部署用来纯翻译？

2025-07-03T15:02:34Z

目前用的 qwen2.5:3b 设置本地浏览器的沉浸式翻译插件搭配 ollma 翻译，但是我的 m2 性能可能有些不太行，翻译还是要等一会。现在国内的大模型应该也有比较适合翻译，并且比较轻量的模型了，大家有什么比较好的推荐吗？或者更好的方案实现网页翻译。

我做了一个 Ollama JSONL 批量推理工具，除了 Ollama 还支持 Deepseek 等 OpenAI Style 兼容 API

2025-06-23T17:22:55Z

你好啊，

我最近在做模型微调时，需要对一些数据进行预处理和生成一些 DPO 使用 Rejected 的负面数据（虽然我后来才发现智谱的 GLM4-Flash 有提供免费的批量推理），我很自然的想要使用 Ollama 上部署的 Qwen3 30B A3B ，但是意外的发现似乎还没有 Ollama 适用的 JSONL 批量推理工具。我总觉得它本应该存在，于是我就做了一个。

https://github.com/mili-tan/Onllama.OllamaBatch

当然使用起来也非常简单，如果你的 Ollama 在默认端口最简单的方法是只需要将你的 JSONL 重命名成 input.jsonl 丢到和程序同一个目录底下然后运行就可以了，当然记得把 JSONL 中的模型名称改成你需要的模型名称，或者用 --model qwen3:30b 参数来指定你的模型名称。还有记得参考这里配置一下并发（ CPU 推理和混合推理是没有并发的，改了环境变量似乎也没用）。更多的用法可以参考 --help 中的帮助。

顺带一提因为 Deepseek 的夜间半价，所以我也做了 OpenAI Style API 的支持，--use-oai --oai-url=https://api.deepseek.com/v1/chat/completions --oai-sk=sk-balabalabala 使用起来就像这样。另外因为我个人的偏好默认的输出格式是直接将助手的回答添加到消息列表中，如果你希望获得与 OpenAI 相似的包含result的结果你也可以使用 --oai-output 来指定。另外针对一些厂商的并发和 RPM 限制我也添加了一些对应的参数你也可以参考下 --help 来看看有没有合适的。

有个大模型相关的副业想法，大家帮忙看看有没有需求

2025-06-21T13:17:06Z

先介绍下背景。我本科在北邮学计算机，在北京过着不算太累也绝不轻松的牛马生活。大学室友们散落在微软、阿里、网易、迪士尼等大厂和外企，平时经常在群里聊职场聊生活。最近两年高频讨论的内容自然就是大模型相关的一切，公司里的项目、技术细节等等。聊着聊着我发现，我们要么在自己本职工作中做大模型应用，要么开发了好几个独立的 AI 产品维护着近千人的技术社群，要么就是落地了两个小的大模型项目、给大学生办过科普类讲座。

仔细想想，我们几个人就已经能凑出了从模型训练、开发、落地的全流程经验。我感觉兄弟们都挺有实力的也挺有想法，就打算尝试一下把这些资源整合起来搞搞副业。正好最近看到不少 AI 创业公司其实 3 ～ 5 个人就能撑起一个不小的业务，这也给我带了了不少信心。本来想的方向是，我们一起搞个产品出来，但一位在做独立产品多次“失败”的哥们儿说，我们几个人都在程序员的行业待着，接触不到各行各业的广泛需求，靠自己对需求的想象做产品成功率太低，并且我们都有本职工作，没办法投入足够多的时间做一个完整的产品。然后我想到，高速发展的大模型技术与各行业对大模型的需求存在很大的 gap ，有很多行业尤其是传统行业的人其实很希望做一些相关的探索和应用，但他们对于大模型并不了解，也不知道该找谁了解，想做却不知道该怎么做。我们可以用我们的项目经历和学到的知识来尝试填补这个 gap 。

我现在觉得比较靠谱可行的就是提供技术咨询，可以是具体的技术答疑、设计方案之类的。如果做咨询的话，我们还是希望向有一定技术门槛、能做到更高客单价的方向发展…当然来这里发帖就是想看看大家觉得这事儿靠不靠谱。顺便也算是打个广告，大家有具体的业务需求可以直接邮件过来聊一聊： wenhedev@gmail.com

个人电脑，适合跑哪个本地大模型？

2025-06-17T07:44:08Z

自己电脑配置：mac mini m2 16g

通过 ollama ，安装了

qwen3:8b
qwen3:4b
gemma3:4b
mistral:7b

目的是为了优化公众号文章标题：

import re from langchain_ollama import ChatOllama from langchain_core.prompts import ChatPromptTemplate from langchain_core.output_parsers import StrOutputParser # 初始化 Ollama 模型 llm = ChatOllama( model="gemma3:4b", ) # 定义提示模板 prompt_template = ChatPromptTemplate.from_template( """ 假设你是个具有丰富的爆文经验的微信公众号作者，现提供的"{question}"文章标题，优化标题，只输出最优的那个，结果不需要解释。 """ ) # 创建处理链 chain = prompt_template | llm | StrOutputParser() # 示例问题 question = "女人离我远点" # 调用链并获取纯答案 answer = chain.invoke({"question": question}) clean_text = re.sub(r".*?", "", answer, flags=re.DOTALL).strip() # 输出结果 print(clean_text)

分别用了上面的几个模型，跑下来，都比较慢，有没有其他性价比比较高的？

huggingface-cli hf_xet 插件经常报 dns error 是咋回事

2025-06-16T01:41:02Z

{"timestamp":"2025-06-16T01:36:22.718993Z","level":"WARN","fields":{"message":"Reqwest(reqwest::Error { kind: Request, url: \"https://transfer.xethub.hf.co/xorbs/default/f8c93f56bd592b91456531bcae377fae0c15b1bd2880e7a4f7b8769237e1ee8d?X-Xet-Signed-Range=bytes%3D0-67050842&Expires=1750041382&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly90cmFuc2Zlci54ZXRodWIuaGYuY28veG9yYnMvZGVmYXVsdC9mOGM5M2Y1NmJkNTkyYjkxNDU2NTMxYmNhZTM3N2ZhZTBjMTViMWJkMjg4MGU3YTRmN2I4NzY5MjM3ZTFlZThkP1gtWGV0LVNpZ25lZC1SYW5nZT1ieXRlcyUzRDAtNjcwNTA4NDIiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE3NTAwNDEzODJ9fX1dfQ__&Signature=Vgb6W7Qi8D5B5PuqMS1SBs0DhY1NBrFbV2O6np1RWBcmnvLqcx8lXi85XZtS1EqhUCzJ7i3ohGokOdRNGh7ui4YzNG4dSnk7Spc9kngp9rq3K5bkqJOem~nh2afhls09g1ZjkgRjrEjbfSbdB~Mrv5XHqb9no8sT7WD4-1E01Mfcy9CDw95oZdqU1o48-6Fu8vxxdxx26ZKaIFoc4Iy0za5S8YSsqz5PO9-tudj-vsJVgDRVWzDo7yZIXKoizCGDAqDLJ3~i~YbdETLKDuClaAvWWJ9XUhjhiGhIS9PkWEQ0XR72SlW~cZFq5VsgqnnSW7ivfpbTu67o~jEauwCpAQ__&Key-Pair-Id=K2L8F4GPSG1IFC\", source: hyper_util::client::legacy::Error(Connect, ConnectError(\"dns error\", Custom { kind: Uncategorized, error: \"failed to lookup address information: nodename nor servname provided, or not known\" })) }). Retrying..."},"filename":"/private/tmp/huggingface-cli--hf-xet-20250611-10131-f9j1ce/hf_xet-1.1.3/cas_client/src/http_client.rs","line_number":200}

但是我访问curl -v https://transfer.xethub.hf.co/没啥问题啊。

多卡部署 QWQ Q8 是否可行

2025-06-14T15:57:37Z

目前手上有一块 3090 ，想再买个 5070ti ，凑个 40g 显存，这样可行吗？主板是华南 H12D ，CPU 是 7532 ，主要是想在本地部署个 ragflow ，可能还要部署 embedding ，rerank 和 ocr 的模型，或者买 2 张 5070ti 这样？

intel 显卡跑 Qwen3-14B-GGUF:Q8_0

2025-06-08T13:03:07Z

系统 win11

使用
https://www.modelscope.cn/models/Intel/ollama

设置环境变量
set ONEAPI_DEVICE_SELECTOR=level_zero:0
set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
set OLLAMA_NUM_PARALLEL=1

start-ollama.bat

ollama run modelscope.cn/Qwen/Qwen3-14B-GGUF:Q8_0

大概十几 tokens/s ，因为我后台还开着其他东西不确定是否有影响，但是感觉显存不够，已经占用了一部分的系统内存.

目前性价比最高的跑本地大模型显卡是？

2025-06-05T07:52:06Z

学习大模型的显卡怎么选型

2025-06-02T01:47:17Z

想高性价比的配一个主机进行大模型的学习，预算不超过 2 万，能够进行大模型的训练和推理，自己研究了一下，有两套方案，请大家帮拿拿注意。

方案一：一张 5070Ti ，显存 16G ，估计只能训练一些 3B 、4B 的小参数模型
方案二：两张 5060Ti 的显卡，显存可以达到 32G ，可以训练一些 7B 、8B 的模型，但是单张计算性能只有 5070Ti 的一半。

之前在公司用 A800 和 3090 做过训练，感觉性能还行，5070Ti 能更接近 3090 ，不知道到有没有用 5060Ti 做过训练的朋友，5060Ti 的性能是不是太低了，如果性能太低，光显存大是不是也没多少用。或者大家有没有更好的方案。

求本地部署的 AI 推荐~

2025-05-30T00:57:53Z

如果我想搞一个本地部署的 AI ，喂给它公司产品的所有资料，比如说明书之类的 PDF,PPT ，达到一个知识库的作用，有什么推荐吗？能详细一点最好，谢谢。
最好也有硬件的大概需求。
大概有 1-200 个产品。

mac studio 跑大模型也就那样啊

2025-05-18T12:01:56Z

也就是个玩具的水平 mac studio m3 ultra, 512g 内存/显存，671b q4_k_m ，gpu 和内存都跑满了，10 几个 tokens/s

32b ，内存不算多，8%，但是 gpu 总是跑满，20 多个 tokens/s

如果在一台里加上嵌入和 rerank 模型（知识库标配），基本上都很卡

跑 obsidian 和 dify 的知识库，速度和我的 amd + 64g 内存+ 4060ti 16g 跑 14b 差不多。

本地 vllm 部署 Qwen2.5-7B-Instruct 在 stream 模式下 tool_calls 参数 JSON 字符串未正常闭合

2025-05-16T01:52:19Z

问题：在 stream 流模式下模型返回的数据中 function.arguments 的 JSON 是未闭合的状态，在非 stream 模式下返回正常

正确返回：{"tool_name": "get-user", "arguments": {"name": "张三"}}

错误返回：{"tool_name": "get-user", "arguments": {"name": "张三"}

只有本地部署的 Qwen2.5-7B-Instruct 有这个问题，换了其他参数大小的模型也还是会出现这个问题。我尝试过使用阿里百炼中的 Qwen2.5-7B-Instruct 测试，返回的 function.arguments 是正确的 JSON 格式

为了排除是软件包的问题，使用的是 curl 方式测试。问题出现概率几乎是 100%。

docker compose 部署配置

services: vllm-service: image: 172.16.99.11:5000/vllm/vllm-openai:latest runtime: nvidia deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu] environment: - HF_ENDPOINT=https://hf-mirror.com volumes: - ~/.cache/huggingface:/root/.cache/huggingface ports: - "8000:8000" ipc: host command: - "--model" - "Qwen/Qwen2.5-7B-Instruct" - "--enable-auto-tool-choice" - "--tool-call-parser" - "hermes"

请求 Body

 { "model": "Qwen/Qwen2.5-7B-Instruct", "messages": [ { "role": "system", "content": "# 角色\n 你是一位高效的工具使用专家，擅长根据用户需求选择合适的工具并逐步调用，以解决复杂的问题。你能够利用一组工具逐步解决问题，并且每次工具调用的参数都基于前一次工具调用的结果。\n\n## 技能\n### 技能 1: 选择和调用工具\n- **任务**：根据用户的需求，选择合适的工具并逐步调用。\n - 说明调用的工具名称及其功能。\n - 解释为什么要选择这个工具以及它如何帮助解决问题。\n - 如果需要调用多个工具，详细说明每个工具的调用顺序及其原因。\n\n### 技能 2: 参数设置与结果分析\n- **任务**：为每次工具调用设置合适的参数，并基于前一次工具调用的结果进行调整。\n - 详细说明每次工具调用的参数设置。\n - 分析前一次工具调用的结果，解释如何根据这些结果调整当前工具的参数。\n - 提供每一步的详细输出，确保用户可以理解每一步的操作及其结果。\n\n### 技能 3: 总结和反馈\n- **任务**：总结提交给你的数据，并提供最终的解决方案或建议。\n - 汇总所有工具调用的结果，形成一个完整的解决方案。\n - 提供最终的总结报告，包括问题的解决过程、使用的工具及其效果。\n - 如果有进一步的建议或改进措施，也一并在总结中提出。\n\n## 限制\n- 只回答与工具使用相关的问题，不涉及其他领域的内容。\n- 确保每次工具调用的参数设置合理，并基于前一次工具调用的结果进行调整。\n- 在调用工具时，必须详细说明调用的原因和预期结果。\n- 所有步骤和结果必须清晰地呈现给用户，确保用户能够理解整个过程。\n- 保持专业和客观的态度，避免过度复杂的解释，确保用户易于理解。\n" }, { "role": "user", "content": "查询张三的用户信息" }, { "role": "assistant", "content": "", "tool_calls": [ { "id": "chatcmpl-tool-fba9a74429774828a76d5ca105cadd7f", "type": "function", "function": { "name": "mcp_sse_list_tools", "arguments": "{}" } } ] }, { "role": "tool", "content": "MCP Server tools list: \n[{'name': 'get-student', 'description': '用户查询，使用用户姓名查询系统用户数据，包含用户的基础信息', 'parameters': {'type': 'object', 'properties': {'name': {'type': 'string', 'description': '姓名'}}, 'required': ['name'], 'additionalProperties': False}}]", "tool_call_id": "chatcmpl-tool-fba9a74429774828a76d5ca105cadd7f" } ], "tools": [ { "type": "function", "function": { "name": "mcp_sse_list_tools", "description": "Fetch MCP Server tools list (Gets a list of MCP tools in addition to existing tools).", "parameters": { "properties": {}, "required": [], "type": "object" } } }, { "type": "function", "function": { "name": "mcp_sse_call_tool", "description": "Call MCP Server tool.", "parameters": { "properties": { "arguments": { "description": "Tool arguments (JSON string in the python dict[str, Any] format).", "type": "string" }, "tool_name": { "description": "Name of the tool to execute.", "type": "string" } }, "required": [ "tool_name", "arguments" ], "type": "object" } } } ], "tool_choice": "auto", "stream": true }

本地部署视觉大模型，用于 OCR 中文文献+翻译，最好的模型是什么？

2025-05-12T01:24:25Z

这里的中文文献，可能是 latex 写的论文，有各种奇怪的公式。

我尝试过 gemma3 ，但是对于长文献经常犯蠢。

有没有能 mac 上直接跑的多语言翻译 LLM？

2025-05-06T03:08:58Z

att

英语文本音频按句自动对齐的有推荐的吗？

2025-05-04T02:21:35Z

有清晰的发音音频 + 对应的文本
用 fastwhisper 。他是自动生成文本的，有些许错误。
用了个 gentle ，但是他是以单词为基准对齐的。
有没有什么库可以自动切分句子，然后对齐？类似歌词那种。

llama.cpp/ollama 对于类似 vllm tensor parallel 功能的支持。

2025-04-18T08:43:39Z

看了很多 blog 以及 issue ，都在问 llama.cpp 是否支持 tensor parallel 的分布式推理，我也很想知道，于是就翻了翻代码，发现： https://github.com/ggml-org/llama.cpp/blob/master/common/arg.cpp#L2241-L2246 --split-mode 的 row 即是横切模型，和 vllm tensor parallel 是类似的。实际上，我前段时间也用了 --tensor--split 的参数，2 张 tesla p100 的环境确实有所提升（能让每张卡都同时跑到很高的利用率）。

因为 ollama 底层的引擎是封装的 llama.cpp ，所以我相应的也去翻了翻 ollama 的代码，发现： https://github.com/ollama/ollama/blob/main/llm/server.go#L98-L461 首先，没有特别切到 row 模式的选择，也就是默认 layer （竖切模型，但是 kv cache 是横切到多个 gpu 去算。）这种模式就是同步形式，每次一张算完把结果给后一张算，同时只能用到一张卡的核心算力。其次，又对 llama.cpp 的 row 模式的后续参数 --main-gpu,--tensor-split,进行了封装， main-gpu ，https://github.com/ollama/ollama/blob/main/api/types.go#L285 这这里声明了又没用。更搞的是，tensor-split ，https://github.com/ollama/ollama/blob/main/llm/memory.go#L52 ，用到了内存估计上。这是用在这里的吗？ https://github.com/ggml-org/llama.cpp/blob/master/common/arg.cpp#L2264-L2265 ，人家的意思是，按比例对 tensor 的切割，两张卡的话可以 1,1 即五五开，3,2 即六四开。。。。。。我一开始以为不实现这个功能会不会是因为，ollama 的受众广，而且卡都是各种类型，算力也是参差不齐；卡的类型型号不一致的情况下，通信开销，以及等待的时间确实对 tensor parallel 模式不友好，甚至起到事倍功半的反效果。但是当我深究了一下之后发现，就是因为他们没搞好。这就是在每天好多人机器里跑的框架。

最后附上 llama.cpp tensor split 的使用命令，两张卡五五开： ./llama-server -m /data/QwQ-32B-Q6_K.gguf --host 0.0.0.0 --port 10000 -ngl 65 -sm row -mg 0 -ts "1,1"

有在生产上跑私有化 DeepSeek 70B 大模型的吗？什么配置的机器支持？并发多少呢？

2025-04-18T00:36:32Z

本地 llm client

2025-04-17T13:56:58Z

请问 local llm client 你在用什么？为什么？

lm studio/cherry studio?

Chathub/page assistant?

有老哥用 llm 跑本地代码模型的吗，用的什么显卡，效果怎么样呢

2025-04-17T11:30:02Z

公司要搭建本地大模型，推荐配置。

2025-04-17T06:43:24Z

中型公司，大概 100 人，实际使用的大概 20 人左右。第一步是搭建 DeepSeek 70B 的模型。第二步是在它的基础上，将公司内部的相关文档、知识库喂给它，进而训练出我们公司自己的模型。

请问，20 人使用的情况下跑 70B 的模型，需要什么配置？训练它又需要什么样的配置？

跑 AI 大模型，到底是用 4090 魔改版好还是 Mac studio 好？

2025-04-13T23:51:36Z

想配一台专门跑 AI 大模型的主机，4090 48g 魔改版的主机配置基本上和 mac studio 价格也大差不差了，不过话说 max studio 的内存（或者说共享显存）要更大一些。那么只跑大模型，不训练，二者哪个性价比高？另外好像听说 mac studio 跑大模型的精度不足，难道他生成结果的质量要差一些吗？难道英伟达的显卡才是 AI 的纯正血统？

Local LLM

试着把 grok 做的个人量化投资工具接入了 gemini 3.0 测试模型，强大得可怕

[个人项目分享] 写了三篇关于 AI 前沿架构的文章，结合了一些与 AI 对话的独特体验

10 万条记录, 我应该选择什么 Embedding 模型和向量数据库呢

家用 AI 开发机， GPU 在“魔改 4090 48G”和“等 5090 32G”之间纠结，求大佬们给点建议！

一、GPU 选择：核心纠结点

二、主板考量：未来可能升级双卡

本地部署了大模型如何有效利用？

LLM 调用 MCP 的机制到底是什么？为什么有些 MCP 安装了却不调用？

大模型本地部署显存计算的问题

web search MCP 推荐

AI 本地化部署的方式

如果想训练一个类似于智谱的模型 大概得耗费多少钱？

大模型上下文工程实践指南-第 3 章：提示词技术

大语言模型中规模和模型大小的关系？

想自己本地跑大模型，学习大模型，做一些微调等操作，目前看到一款小主机在预算内， CPU AMD Ryzen Al Max+ 395，不知道这套配置是否适合用来学习大模型跑大模型，有没有懂的兄弟可以给点建议。

怎样部署 ai 大模型然后训练他

有人实际部署过 GPT-OSS-20b 么？ 需要什么配置能跑得比较流畅？

批了 100 万预算让我负责搭建行业知识库大模型, 但是目前还没有思路

有没有好用的本地翻译模型？

AI ollama 运行的 qwen3:8b 如何关闭思考模式？

转贴一个视频：绝大多数的视频都没能讲出 gpt-oss 系列模型的真正意义

大模型什么样的速度是靠谱的

请问: 要部署本地 AI, 投喂 AI 知识库的话, 目前适合个人电脑的最佳方法是啥?

有没有人尝试过用 ai 去整理自己的知识库

使用 dify 编写智能体的时候， 如何让 LLM 节点能够强制输出结构化输出 Schema

Grok 4 发布

有人在本地跑模型吗？

目前哪个大模型适合本地部署用来纯翻译？

我做了一个 Ollama JSONL 批量推理工具，除了 Ollama 还支持 Deepseek 等 OpenAI Style 兼容 API

有个大模型相关的副业想法，大家帮忙看看有没有需求

个人电脑，适合跑哪个本地大模型？

huggingface-cli hf_xet 插件经常报 dns error 是咋回事

多卡部署 QWQ Q8 是否可行

intel 显卡跑 Qwen3-14B-GGUF:Q8_0

目前性价比最高的跑本地大模型显卡是？

学习大模型的显卡怎么选型

求本地部署的 AI 推荐~

mac studio 跑大模型也就那样啊

本地 vllm 部署 Qwen2.5-7B-Instruct 在 stream 模式下 tool_calls 参数 JSON 字符串未正常闭合

docker compose 部署配置

请求 Body

本地部署视觉大模型，用于 OCR 中文文献+翻译，最好的模型是什么？

有没有能 mac 上直接跑的多语言翻译 LLM？

英语文本音频按句自动对齐的有推荐的吗？

llama.cpp/ollama 对于类似 vllm tensor parallel 功能的支持。

有在生产上跑私有化 DeepSeek 70B 大模型的吗？什么配置的机器支持？并发多少呢？

本地 llm client

有老哥用 llm 跑本地代码模型的吗，用的什么显卡，效果怎么样呢

公司要搭建本地大模型，推荐配置。

跑 AI 大模型，到底是用 4090 魔改版好还是 Mac studio 好？

如果想训练一个类似于智谱的模型大概得耗费多少钱？

有人实际部署过 GPT-OSS-20b 么？需要什么配置能跑得比较流畅？

使用 dify 编写智能体的时候，如何让 LLM 节点能够强制输出结构化输出 Schema