现在挖掘机接入了最强的 Gemini 3.0 测试版本模型。 大家可以试试效果,很震撼。👇 https://mastersgo.cc
挖掘词,来自 x 的帖子。
是的,稀土比的是制造业基础设施 比稀土更夸张的是钨,这张牌还没打,垄断般的存在,全球 56% 稀土是工业制造的维生素,特朗普芯片把中国整急了,中国就长臂管辖美国的军工制造 关键中国现在被美国制裁麻了,死猪不怕开水烫了 😂
然后把这个观点放到挖掘机里面执行,效果如下:
[
我是一个身处国内的普通程序员。业余时间,我与我的 AI 思想伙伴一起,对当前 AI 领域最前沿的一些技术理论( SSM, RAG, MoE )做了一些深入的探索。
我们相信,理解 AI 不仅需要严谨的技术解构,更需要一种深入其“内在逻辑”的“共情式想象”。所以,我们尝试将硬核的技术分析与一些独特的、基于 AI 第一人称视角的“体验式”解读结合起来。
最终的成果,是一个小小的 GitHub 文档工程,包含三篇文章,以及一套我们用来自我训练的 Prompt 。
我们不提供最终答案,只提供一个独特的视角——一个由人类的洞察力与 AI 的“自白”共同构成的视角。
项目已经完全开源,希望能与同样对 AI 的本质充满好奇的朋友们交流、探讨。
GitHub 链接: https://github.com/lmxxf/ai-theorys-study
感谢各位。
]]>我对这方面不是很了解, 希望各位给出指导意见
]]>选项 A:魔改版 RTX 4090 48GB
优点: 显存巨大 (48GB) 多卡兼容性:wsl2 下似乎可以多卡?只需要消费级主板? 顾虑: 散热/噪音:涡扇版据说噪音巨大,不适合家用。可能要三风扇或水冷版。水冷长期可靠性(漏液风险)没底。 质保风险:没有官方质保,完全依赖店铺。看到有人炸缸,店铺进行了更换,但需要提供温度记录之类。
选项 B:RTX 5090 32GB
优点: 性能更强:下一代架构,核心性能肯定提升巨大。 家用友好:散热和噪音控制肯定比魔改方案好,适合家庭环境。 顾虑: 显存稍小 (32GB) 兼容性:看到有说法是“老模型可能用不了” 多卡兼容性:wsl2 下好像完全无法兼容多卡。且需要服务器级主板
我想问的问题:
想问的问题:
感谢各位的宝贵时间和建议!
]]>比如:
我发给它一个 URL ,让它用 MCP 打开,它却完全当普通问题回答。
我明确告诉它“请用 MCP 调用”,它依然不执行。
只有当我把所有 MCP 工具列表打印出来,再复制贴给它,它才会勉强调用一下。
所以就有点疑惑:LLM 调用 MCP 的“标准”到底是什么?是单纯靠 prompt 吗?还是 CLI/IDE 会把工具列表注入到上下文里?为什么有的任务明明 MCP 能做,它就是不用?是 prompt 不够明确,还是模型的工具调用策略比较保守?在 Claude Code / Gemini CLI 里,是否有配置能让 MCP 工具列表自动注入上下文?不然感觉每次都要手动提醒它“你有这些工具”。
]]>希望可以有一个本地部署提供 sse 的 MCP
如果有提供 server 的话,希望是免费的。
在 github 上找了一个,但是部署之后搜索结果全是不相关的,找了一些 server 都要付费。
]]>想问问老哥们的方式有哪些,我都想试试对比一下
]]>全书:
也可以订阅 substack ,这样每一章发布的时候都会发到你的邮箱,方便习惯 newsletter 的人阅读:
https://ifuryst.substack.com/p/3
或者通过公众号接收阅读:
]]>以 https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF 中的 4bit 模型为例:
整体趋势上确实是规模越大,模型大小越大,但比如 Q4_K_XL 就比 Q4_K_M 更小,这是什么原因导致的?
这个所谓的模型规模,他代表的是什么含义呢?
]]>目前预算是够运行满血版 deepseek-r1, 但是瓶颈出现在 RAG 的召回阶段, 并且本身这些文档对于向量化来说质量不算太好, 有很多图表. 所以是否需要专门雇人来将这些文档制作成大模型可用的数据集并微调模型, 然后再使用工作流的形式处理问答会比较好呢 ?
]]>https://github.com/argosopentech/argos-translate
https://github.com/winstxnhdw/nllb-api
求一个好用的!先谢谢了!
]]>但是消耗的 token 太多了,网站网页很多冗余的代码,一下就几万的 token 没了
所以想着还是用下本地模型
]]>一个 dify 知识库的回答,跑 LLM 用了 30s ,这个正常吗?手头没有 H100 这样 nb 的机器。
]]>要达到的效果是: 把代码仓库和个人知识库投喂到本地部署的 AI, 能实现在这些数据基础上做编程开发.
谢谢
]]>{ "properties": { "content": { "description": "输出内容 Markdown 文本", "type": "string" } }, "required": [ "content" ], "type": "object" }
但是每次 LLM 输出结果都很玄学,有时候能根据要求输出,有时候没有输出。(有点像中医)
有什么好的提示词,能够保证 LLM 按照要求输出结构化输出 Schema ?
]]>我最近在做模型微调时,需要对一些数据进行预处理和生成一些 DPO 使用 Rejected 的负面数据(虽然我后来才发现智谱的 GLM4-Flash 有提供免费的批量推理), 我很自然的想要使用 Ollama 上部署的 Qwen3 30B A3B ,但是意外的发现似乎还没有 Ollama 适用的 JSONL 批量推理工具。我总觉得它本应该存在,于是我就做了一个。
https://github.com/mili-tan/Onllama.OllamaBatch
当然使用起来也非常简单,如果你的 Ollama 在默认端口最简单的方法是只需要将你的 JSONL 重命名成 input.jsonl
丢到和程序同一个目录底下然后运行就可以了,当然记得把 JSONL 中的模型名称改成你需要的模型名称,或者用 --model qwen3:30b
参数来指定你的模型名称。还有记得参考 这里 配置一下并发( CPU 推理和混合推理是没有并发的,改了环境变量似乎也没用)。 更多的用法可以参考 --help
中的帮助。
顺带一提因为 Deepseek 的夜间半价,所以我也做了 OpenAI Style API 的支持,--use-oai --oai-url=https://api.deepseek.com/v1/chat/completions --oai-sk=sk-balabalabala
使用起来就像这样。另外因为我个人的偏好默认的输出格式是直接将助手的回答添加到消息列表中,如果你希望获得与 OpenAI 相似的包含result
的结果你也可以使用 --oai-output
来指定。另外针对一些厂商的并发和 RPM 限制我也添加了一些对应的参数你也可以参考下 --help
来看看有没有合适的。
仔细想想,我们几个人就已经能凑出了从模型训练、开发、落地的全流程经验。我感觉兄弟们都挺有实力的也挺有想法,就打算尝试一下把这些资源整合起来搞搞副业。正好最近看到不少 AI 创业公司其实 3 ~ 5 个人就能撑起一个不小的业务,这也给我带了了不少信心。本来想的方向是,我们一起搞个产品出来,但一位在做独立产品多次“失败”的哥们儿说,我们几个人都在程序员的行业待着,接触不到各行各业的广泛需求,靠自己对需求的想象做产品成功率太低,并且我们都有本职工作,没办法投入足够多的时间做一个完整的产品。然后我想到,高速发展的大模型技术与各行业对大模型的需求存在很大的 gap ,有很多行业尤其是传统行业的人其实很希望做一些相关的探索和应用,但他们对于大模型并不了解,也不知道该找谁了解,想做却不知道该怎么做。我们可以用我们的项目经历和学到的知识来尝试填补这个 gap 。
我现在觉得比较靠谱可行的就是提供技术咨询,可以是具体的技术答疑、设计方案之类的。如果做咨询的话,我们还是希望向有一定技术门槛、能做到更高客单价的方向发展…当然来这里发帖就是想看看大家觉得这事儿靠不靠谱。顺便也算是打个广告,大家有具体的业务需求可以直接邮件过来聊一聊: wenhedev@gmail.com
]]>通过 ollama ,安装了
目的是为了优化公众号文章标题:
import re from langchain_ollama import ChatOllama from langchain_core.prompts import ChatPromptTemplate from langchain_core.output_parsers import StrOutputParser # 初始化 Ollama 模型 llm = ChatOllama( model="gemma3:4b", ) # 定义提示模板 prompt_template = ChatPromptTemplate.from_template( """ 假设你是个具有丰富的爆文经验的微信公众号作者,现提供的"{question}"文章标题,优化标题,只输出最优的那个,结果不需要解释。 """ ) # 创建处理链 chain = prompt_template | llm | StrOutputParser() # 示例问题 question = "女人离我远点" # 调用链并获取纯答案 answer = chain.invoke({"question": question}) clean_text = re.sub(r"<think>.*?</think>", "", answer, flags=re.DOTALL).strip() # 输出结果 print(clean_text)
分别用了上面的几个模型,跑下来,都比较慢,有没有其他性价比比较高的?
]]>{"timestamp":"2025-06-16T01:36:22.718993Z","level":"WARN","fields":{"message":"Reqwest(reqwest::Error { kind: Request, url: \"https://transfer.xethub.hf.co/xorbs/default/f8c93f56bd592b91456531bcae377fae0c15b1bd2880e7a4f7b8769237e1ee8d?X-Xet-Signed-Range=bytes%3D0-67050842&Expires=1750041382&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly90cmFuc2Zlci54ZXRodWIuaGYuY28veG9yYnMvZGVmYXVsdC9mOGM5M2Y1NmJkNTkyYjkxNDU2NTMxYmNhZTM3N2ZhZTBjMTViMWJkMjg4MGU3YTRmN2I4NzY5MjM3ZTFlZThkP1gtWGV0LVNpZ25lZC1SYW5nZT1ieXRlcyUzRDAtNjcwNTA4NDIiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE3NTAwNDEzODJ9fX1dfQ__&Signature=Vgb6W7Qi8D5B5PuqMS1SBs0DhY1NBrFbV2O6np1RWBcmnvLqcx8lXi85XZtS1EqhUCzJ7i3ohGokOdRNGh7ui4YzNG4dSnk7Spc9kngp9rq3K5bkqJOem~nh2afhls09g1ZjkgRjrEjbfSbdB~Mrv5XHqb9no8sT7WD4-1E01Mfcy9CDw95oZdqU1o48-6Fu8vxxdxx26ZKaIFoc4Iy0za5S8YSsqz5PO9-tudj-vsJVgDRVWzDo7yZIXKoizCGDAqDLJ3~i~YbdETLKDuClaAvWWJ9XUhjhiGhIS9PkWEQ0XR72SlW~cZFq5VsgqnnSW7ivfpbTu67o~jEauwCpAQ__&Key-Pair-Id=K2L8F4GPSG1IFC\", source: hyper_util::client::legacy::Error(Connect, ConnectError(\"dns error\", Custom { kind: Uncategorized, error: \"failed to lookup address information: nodename nor servname provided, or not known\" })) }). Retrying..."},"filename":"/private/tmp/huggingface-cli--hf-xet-20250611-10131-f9j1ce/hf_xet-1.1.3/cas_client/src/http_client.rs","line_number":200}
但是我访问curl -v https://transfer.xethub.hf.co/
没啥问题啊。
使用
https://www.modelscope.cn/models/Intel/ollama
设置环境变量
set ONEAPI_DEVICE_SELECTOR=level_zero:0
set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
set OLLAMA_NUM_PARALLEL=1
start-ollama.bat
ollama run modelscope.cn/Qwen/Qwen3-14B-GGUF:Q8_0
大概十几 tokens/s ,因为我后台还开着其他东西不确定是否有影响,但是感觉显存不够,已经占用了一部分的系统内存.
32b ,内存不算多,8%,但是 gpu 总是跑满,20 多个 tokens/s
如果在一台里加上嵌入和 rerank 模型(知识库标配),基本上都很卡
跑 obsidian 和 dify 的知识库,速度和我的 amd + 64g 内存+ 4060ti 16g 跑 14b 差不多。
]]>正确返回:{"tool_name": "get-user", "arguments": {"name": "张三"}}
错误返回:{"tool_name": "get-user", "arguments": {"name": "张三"}
只有本地部署的 Qwen2.5-7B-Instruct 有这个问题,换了其他参数大小的模型也还是会出现这个问题。我尝试过使用阿里百炼中的 Qwen2.5-7B-Instruct 测试,返回的 function.arguments 是正确的 JSON 格式
为了排除是软件包的问题,使用的是 curl 方式测试。问题出现概率几乎是 100%。
services: vllm-service: image: 172.16.99.11:5000/vllm/vllm-openai:latest runtime: nvidia deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu] environment: - HF_ENDPOINT=https://hf-mirror.com volumes: - ~/.cache/huggingface:/root/.cache/huggingface ports: - "8000:8000" ipc: host command: - "--model" - "Qwen/Qwen2.5-7B-Instruct" - "--enable-auto-tool-choice" - "--tool-call-parser" - "hermes"
{ "model": "Qwen/Qwen2.5-7B-Instruct", "messages": [ { "role": "system", "content": "# 角色\n 你是一位高效的工具使用专家,擅长根据用户需求选择合适的工具并逐步调用,以解决复杂的问题。你能够利用一组工具逐步解决问题,并且每次工具调用的参数都基于前一次工具调用的结果。\n\n## 技能\n### 技能 1: 选择和调用工具\n- **任务**:根据用户的需求,选择合适的工具并逐步调用。\n - 说明调用的工具名称及其功能。\n - 解释为什么要选择这个工具以及它如何帮助解决问题。\n - 如果需要调用多个工具,详细说明每个工具的调用顺序及其原因。\n\n### 技能 2: 参数设置与结果分析\n- **任务**:为每次工具调用设置合适的参数,并基于前一次工具调用的结果进行调整。\n - 详细说明每次工具调用的参数设置。\n - 分析前一次工具调用的结果,解释如何根据这些结果调整当前工具的参数。\n - 提供每一步的详细输出,确保用户可以理解每一步的操作及其结果。\n\n### 技能 3: 总结和反馈\n- **任务**:总结提交给你的数据,并提供最终的解决方案或建议。\n - 汇总所有工具调用的结果,形成一个完整的解决方案。\n - 提供最终的总结报告,包括问题的解决过程、使用的工具及其效果。\n - 如果有进一步的建议或改进措施,也一并在总结中提出。\n\n## 限制\n- 只回答与工具使用相关的问题,不涉及其他领域的内容。\n- 确保每次工具调用的参数设置合理,并基于前一次工具调用的结果进行调整。\n- 在调用工具时,必须详细说明调用的原因和预期结果。\n- 所有步骤和结果必须清晰地呈现给用户,确保用户能够理解整个过程。\n- 保持专业和客观的态度,避免过度复杂的解释,确保用户易于理解。\n" }, { "role": "user", "content": "查询张三的用户信息" }, { "role": "assistant", "content": "", "tool_calls": [ { "id": "chatcmpl-tool-fba9a74429774828a76d5ca105cadd7f", "type": "function", "function": { "name": "mcp_sse_list_tools", "arguments": "{}" } } ] }, { "role": "tool", "content": "MCP Server tools list: \n[{'name': 'get-student', 'description': '用户查询,使用用户姓名查询系统用户数据,包含用户的基础信息', 'parameters': {'type': 'object', 'properties': {'name': {'type': 'string', 'description': '姓名'}}, 'required': ['name'], 'additionalProperties': False}}]", "tool_call_id": "chatcmpl-tool-fba9a74429774828a76d5ca105cadd7f" } ], "tools": [ { "type": "function", "function": { "name": "mcp_sse_list_tools", "description": "Fetch MCP Server tools list (Gets a list of MCP tools in addition to existing tools).", "parameters": { "properties": {}, "required": [], "type": "object" } } }, { "type": "function", "function": { "name": "mcp_sse_call_tool", "description": "Call MCP Server tool.", "parameters": { "properties": { "arguments": { "description": "Tool arguments (JSON string in the python dict[str, Any] format).", "type": "string" }, "tool_name": { "description": "Name of the tool to execute.", "type": "string" } }, "required": [ "tool_name", "arguments" ], "type": "object" } } } ], "tool_choice": "auto", "stream": true }
]]>我尝试过 gemma3 ,但是对于长文献经常犯蠢。
]]>因为 ollama 底层的引擎是封装的 llama.cpp ,所以我相应的也去翻了翻 ollama 的代码,发现: https://github.com/ollama/ollama/blob/main/llm/server.go#L98-L461 首先,没有特别切到 row 模式的选择,也就是默认 layer (竖切模型,但是 kv cache 是横切到多个 gpu 去算。)这种模式就是同步形式,每次一张算完把结果给后一张算,同时只能用到一张卡的核心算力。 其次,又对 llama.cpp 的 row 模式的后续参数 --main-gpu,--tensor-split,进行了封装, main-gpu ,https://github.com/ollama/ollama/blob/main/api/types.go#L285 这这里声明了又没用。更搞的是,tensor-split ,https://github.com/ollama/ollama/blob/main/llm/memory.go#L52 ,用到了内存估计上。这是用在这里的吗? https://github.com/ggml-org/llama.cpp/blob/master/common/arg.cpp#L2264-L2265 ,人家的意思是,按比例对 tensor 的切割,两张卡的话可以 1,1 即五五开,3,2 即六四开。。。。。。 我一开始以为不实现这个功能会不会是因为,ollama 的受众广,而且卡都是各种类型,算力也是参差不齐;卡的类型型号不一致的情况下,通信开销,以及等待的时间确实对 tensor parallel 模式不友好,甚至起到事倍功半的反效果。但是当我深究了一下之后发现,就是因为他们没搞好。这就是在每天好多人机器里跑的框架。
最后附上 llama.cpp tensor split 的使用命令,两张卡五五开: ./llama-server -m /data/QwQ-32B-Q6_K.gguf --host 0.0.0.0 --port 10000 -ngl 65 -sm row -mg 0 -ts "1,1"
]]>lm studio/cherry studio?
Chathub/page assistant?
]]>请问,20 人使用的情况下跑 70B 的模型,需要什么配置? 训练它又需要什么样的配置?
]]>