V2EX jinsongzhaocn
 jinsongzhaocn's recent timeline updates
jinsongzhaocn

jinsongzhaocn

V2EX member #460727, joined on 2019-12-22 23:54:22 +08:00
jinsongzhaocn's recent replies
向国产海光 DCU 过度应该挺方便吧,投资未来 5 年
@zsj1029 本地 qwen3.6 27b 慢吗?玩过阅读代码出总结,速度比在线的 GLM 快多了. 你是用 ollama 跑还是 vllm? vllm+上 mpt 优化速度才能起来哦
@passion336699 下滑最快的三个里面就有 go ,你的体感有问题啊。
js ts go 下降,java 平,其他都在上涨。趋势就是难的语言都在上涨,应该是因为 AI 编程普及导致吧
ESP 和 RxRPC , 一个是 VPN 用的,一个是分布式文件系统的。没那么害怕
@PeterTanJJ 27b 的速度,参数和 post 结构影响很大. 我经历过 11 秒到 1 秒的提速
文档写得好认真, 感觉丢给 AI 可以开始写出来了. Kwcode 最难的可能是定位了, CC 的定位其实挺完善的, 非常难竞争. CC 很开放,它可以对接第三方大模型,对接本地模型也足够写汇总规划,引流方面这已经是极致了吧,对比其他大厂推出的 coding 工具,都是适配自家模型; 虽然禁止国内访问, 但这也是最契合它的商业定位.毕竟中国是超级流量,但是总体消费水平还不够高,大量的多人共享账号,哪怕实名制也够呛能控制. 应该算是把开放性和成本控制都做到了最佳实现.再偏袒用户一点,估计就是允许多路由了,选不同模型切换不同的供应商, 这个又被 OpenCode 实现了, 但也验证了开了这个口子,收入大减,OpenCode 的兼容适配速度这么慢就知道缺少资源投入.
参考这里的回复: t/1210011?p=1#reply7
跑过 lightRAG 的配置
24GB 显存的推荐一个实用的组合:
# LLM 模型+嵌入模型+24GB 显存组合配置(2026-04-30)
## Qwen-9B 19252MB LLM 模型
docker run -d --name vllm-qwen3.5-9b-awq-bf16-int4 --gpus all \
-p 8100:8000 \
-e VLLM_USE_MODELSCOPE=True \
-v /home/tab/docs/vllm_model:/models \
vllm/vllm-openai:v0.19.0-ubuntu2404 \
--model /models/cyankiwi/Qwen3___5-9B-AWQ-BF16-INT4 \
--served-model-name Qwen3-9B \
--host 0.0.0.0 \
--port 8000 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--enable-auto-tool-choice \
--max-model-len auto \
--max-num-seqs 4 \
--enable-prefix-caching \
--speculative-config '{"method":"mtp","num_speculative_tokens":2}' \
--gpu-memory-utilization 0.80

## bge-m3(1024 维度) 嵌入模型
docker run -d \
--gpus all \
--name vllm-baai-bge-m3 \
--ipc=host \
-p 8101:8000 \
-v /home/tab/docs/vllm_model:/models \
-e VLLM_USE_MODELSCOPE=True \
vllm/vllm-openai:v0.19.0-ubuntu2404 \
--model /models/BAAI/bge-m3 \
--served-model-name bge-m3 \
--gpu-memory-utilization 0.2
这种配置要亏死你, 你的成本怎么可能做得过算力云供应商. 就算自己也用, 也是极其浪费的.
About     Help     Advertise     Blog     API     FAQ     Solana     3122 Online   Highest 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 14ms UTC 03:05 PVG 11:05 LAX 20:05 JFK 23:05
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86