最近在尝试本地化部署 AI ,用了 ollama+dify ,只是简单的试用了下,感觉还行,能完全在离线环境安装使用。
想问问老哥们的方式有哪些,我都想试试对比一下
![]() | 1 byby 27 天前 都半斤八,最後都要老老上 api |
2 songyoucai 27 天前 超微 7049 128g 内存 2080ti22g * 2 pve+Ubuntu + vllm 部署了 千问 30b |
3 SGL 27 天前 本地化部署的是不是都是“弱智”AI ,有实际应用价值不 |
![]() | 4 MIUIOS 27 天前 多少 B 的? 本地部署大语言模型纯降智成智障,还不如接 api 真的,花点钱还省了多少电费 |
![]() | 5 davidyin 27 天前 via Android 在 16G 内存的 i5 6500 上跑过 十几 b 的模型,反应速度还行。 |
6 visper 27 天前 本地就 ollama 玩玩就行了啊。又或者 xinference 之类的可以部署其他格式的模型。 |
![]() | 7 usVexMownCzar 27 天前 via iPhone 本地聊天的那种没意思。 生成图片视频的还不错,但是对设备的要求太高 |
8 justtokankan 27 天前 用来做量化交易用应该不错吧 |
9 sdwgyzyxy 27 天前 cnb 每个月可以白嫖 1600 核时,h20 的 gpu ,可以跑 gpt-oss:120b ,挺好的 |
14 youtubbbbb 27 天前 本地部署的意义是什么?即使你有隐私的考虑,租服务器也好很多 |
![]() | 15 wenkgin OP @youtubbbbb 有些涉密内容的知识库或者公司内部的一些东西,不能公开的 |
16 silomrelephant 27 天前 8b 可以稳定工具调用了,20b oss 能用用。硬件可以考虑 ai pc ,32g 统一大内存足够,2/4 通道板载内存速度够用。 |
![]() | 17 wenkgin OP @silomrelephant 我这够吗? <img src="https://i.mji.rip/2025/09/12/876a350e56245a7659d2ca98b33874d8.png" alt="876a350e56245a7659d2ca98b33874d8.png" border="0"> |
![]() | 18 wenkgin OP |
![]() | 19 wenkgin OP [Imgur]( https://imgur.com/wXEtddV) |
![]() | 20 wenkgin OP  |
![]() | 21 wenkgin OP  |
22 silomrelephant 27 天前 via Android @wenkgin cpu 应该问题不大,没研究过这个 r9 ,目前主要瓶颈看内存速度,成品机 ai pc 板载 ddr5 多通道的,一般比自己组的速度高很多,自己找大模型算一下 token 每秒多少 |
![]() | 23 8o8 27 天前 本地部署性能有点跟不上,我在本地跑的 15b phi4 用来进行编程,感觉上下文长度限制很大,经常写着写着就忘了要干什么,总之很不好用。如果有哪位大佬本地调好了请指点一下。 在三个配置上都试了: 1.台式机,14900K+256GB 内存,使用 cpu 跑 2.笔记本电脑,14900K+64G 内存+4070 3.服务器,至强 6138*2+512G 内存+3080-12GB*4 |
24 songyoucai 27 天前 @8o8 #23 我们可以交流交流 我现在编程 部署的 30b 感觉够用 |
![]() | 28 wtks1 26 天前 有没有那种本地部署,家用 pc 也能带的动的翻译模型? |
![]() | 29 iorilu 26 天前 说实话, 本地部署唯一有点用的就是翻译 翻译说实话确实不需要太大模型, 8b 就行了 其他的还是算了, 真想干点活, 还得上 api, 除非你有能力部署那种满血 deepseek, 那是另一回事 |
30 busier 26 天前 via iPhone lm studio 操作界面友好些 |
![]() | 31 slowgen 26 天前 @wenkgin 内存小小,带宽小小,只能找 [激活参数 < 5B] 的模型的 4bit 量化了。 Qwen3-Next-80B-A3B 系列、Qwen3-30B-A3B-2507 系列、ERNIE-4.5-21B-A3B-Thinking 、SmallThinker-21BA3B-Instruct 这些都能在低配置玩,里面的 A3B 的意思就是激活的参数只有 3B ,4bit 量化后 DDR4-3200 双通道的带宽 50GB/s 左右也能跑个 15token/s 左右(单人勉强用),像锐龙 AI Max+ 395 的 256GB/s 的内存带宽就能跑个 55token/s 左右。 其实本地模型现在已经很能打了,从 Mixtral-8x7B 开始打 ChatGPT3.5 的时候 MoE 架构模型应该成为主流,可惜国内一直没怎么跟,直到 DeepSeek V2.5 V3 R1 这些出来国内才跟进大搞 MoE 模型,今年出的模型都是 MoE 为主的了。 而且模型越大提升的能力分数并不是线性增加的,关注现在的模型跑分就能得出结论,就像前几天的 Qwen3-Max-Preview ,1000B 的参数,比自家 Qwen3-235B-A22B-2507 多了 765B ,这个差距差不多能塞一个 DeepSeek + gpt-oss-120b 了,然而性能提升连 10%都没有,所以现在选模型有点像玩游戏选个甜品卡那样,根据你的任务难度和硬件选一个合适的模型(你的任务里跑分高的)就行了。 你这个硬件看起来像是个笔记本带个小显存的 N 卡,模型从上面 A3B 里挑一个,部署方案首选 https://github.com/kvcache-ai/ktransformers (合理分配好模型活跃的专家到 GPU 跑得快点),次选 LM Studio 这种傻瓜式部署方案 |
32 youtubbbbb 26 天前 @wenkgin 这种情况下用私有云的集成方案就好了,没必要自己手搓,ai infra 的成本还是挺高的。 |
![]() | 33 mewking 23 天前 @shuimugan ktransformers (合理分配好模型活跃的专家到 GPU 跑得快点) 请问,这个项目的加成能有多少?我找不到相关(目标硬件和模型)性能测试 假定是家用平台:DDR5 6400 256G RAM ,A770 16G * 2 内存带宽 102GB/s ,单卡显存带宽 560GB/s,这两张卡的带宽能叠加吗?能把上下文和激活专家平均放在两张卡上,相当于 1120GB/s 带宽? Qwen3 235B ,int8 ,激活参数 22GB ,加上下文,应该能放在 32G 显存里?假定不发生专家交换,也无法叠加显存带宽,这时理论速度应该有 560/22=25.5 token/s ,跑 Q4 量化就有 50t/s 。可一旦发生专家交换就崩了吧,掉到 4-5t/s ? 我是想知道这套硬件跑 235b 实际平均速度到底会怎样,Intel 那个 ipex llm 项目,有人问测试分数,开发人员回应说保密……保密…………Intel 咋还没倒闭 |
![]() | 34 mewking 23 天前 @shuimugan 好吧,刚才 ipex llm 项目下面看到一个 4 张 a770 ,Q3 量化的 235b ,只有 2.99 t/s ,这是哪里没搞对吧,GPU 显存 64G ,完全没利用到 |
![]() | 35 slowgen 23 天前 @mewking 22B 的 Q8 量化加上 KV Cache ,32G 显存还真不一定放得下,你可以用这个 https://smcleod.net/vram-estimator/ 算一下。带宽的话叠加不了,一般是计算分层,Q4 量化推理速度都不一定能到 30 ,我肉眼看 https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/flashmoe_quickstart.md 这里的 gif 估摸着单卡速度也就 12token/s 的样子,这个配置还是跑新出的 Qwen3-Next-80B-A3B 系列实在,和 235B 的百分比差距很小了 |
![]() | 36 mewking 23 天前 @shuimugan 这个链接我是看了,所以说 Intel 活该卖大楼,一个 demo gif ,分辨率低的看不清,也不公布具体配置,还说测试数据需要审计不能公布。那个 demo 可能用了志强,8 或者 12 通道,再来个 amx 加速,桌面级 cpu 和 ddr5 双通道比不了 如果跑 Qwen3-Next-80B-A3B int8 ,是不是单单 96G DDR5 6400 就够了,不用 256G 和独立显卡吧? 102/3 = 34 tokens/s 如果 Q6 量化更快,还能留出更多内存给上下文? 我还没买硬件呢,不然就自己实测了。现在 a770 价格比三年前还高,b770 也马上来了,可能还有铭那个 B60 ,ddr5 价格也涨了不少。如果 80b 和 235b 差距不大,那省不少钱呀 |
![]() | 37 slowgen 23 天前 ![]() @mewking 如果跑 Qwen3-Next-80B-A3B 的 int8 ,单 96G DDR5 6400 确实够了,但是这个系列分推理和非推理模型,我日常是 2 个模型都会常驻的,如果你也像我一样操作那 96G 内存就不太够。 但是如果你仔细观察 Qwen3-Next-80B-A3B-Thinking 的跑分,会发现它比 Qwen3-30B-A3B-2507-Thinking 提升也不到 10%……估计你手头现有硬件都能跑了。 这些跑分提升不到 10%是什么概念?我最近用这些模型来测编程能力,发现了一个很有趣的现象,理论上大模型现在写 python 、Javascript 能力最好,但是 golang 因为关键字就 25 个,特性也少足够简陋,所以 Qwen3 这 30B 级别的模型写出来的 golang 代码居然和更大更顶级的模型差距非常小,准确度超级高 |
![]() | 38 mewking 23 天前 @shuimugan 所以,就是尽量拆解问题,尽可能缩小和封闭空间(相当于减少关键字),想错都难,但这样也就跟写伪代码差不多了,模型差不多就是补全一下。ruby 那种花样繁多的可能容易 gg |
![]() | 39 slowgen 23 天前 via Android ![]() @mewking 也不能说写伪代码,正常提需求是可以的,举个例子 https://chat.qwen.ai/s/e80b06a7-f08b-4c10-b556-ab71b158a0b1?fev=0.0.208 30B 参数写的 https://chat.qwen.ai/s/1a84cca6-4818-43fc-a131-24b48bbc7d41?fev=0.0.208 80B 参数写的 https://yuanbao.tencent.com/bot/app/share/chat/Ua8dLAdHJBHj 671B 参数写的,还开了推理 几乎没差别,但是你把问题换成其它编程语言看看? https://chat.qwen.ai/s/0d258b03-a808-415b-8523-a76b33ba27a9?fev=0.0.208 这里一下用 3 个模型同时回答,只有 480B 的 Qwen-Coder 意识到高性能要用 asyncio ,写出来的代码能跑,但是也有 2 个语法问题:finally 代码块里的变量作用域不对。 |
41 ragnarok19 11 天前 via Android Amd7h12+3090*2+8*128 ktransforms 满血版 r1 很慢,现在 llama.cpp 双卡跑 seed-oss-32b |
42 ragnarok19 11 天前 via Android 有没有交流群,想学习下 |