jinsongzhaocn's recent timeline updates

jinsongzhaocn

V2EX member #460727, joined on 2019-12-22 23:54:22 +08:00

tab.sh.cn

jinsongzhaocn 提问技术话题好玩工作信息交易信息城市相关

jinsongzhaocn's recent replies

4 days ago

Replied to a topic by babymonster Local LLM 都 2026 年了，为什么还有人觉得 AMD 比 Nvidia 更适合部署本地大模型？

向国产海光 DCU 过度应该挺方便吧,投资未来 5 年

5 days ago

Replied to a topic by zsj1029 Vibe Coding Deekseek v4 真不错，一天时间写了一个 rust 的 trojan 的服务端

@zsj1029 本地 qwen3.6 27b 慢吗?玩过阅读代码出总结,速度比在线的 GLM 快多了. 你是用 ollama 跑还是 vllm? vllm+上 mpt 优化速度才能起来哦

8 days ago

Replied to a topic by doraemonki 程序员一个新的编程语言排行榜：基于 30 天内 github 活跃仓库数量

@passion336699 下滑最快的三个里面就有 go ，你的体感有问题啊。

8 days ago

Replied to a topic by doraemonki 程序员一个新的编程语言排行榜：基于 30 天内 github 活跃仓库数量

js ts go 下降，java 平，其他都在上涨。趋势就是难的语言都在上涨，应该是因为 AI 编程普及导致吧

8 days ago

Replied to a topic by Cabana 信息安全 Linux 内核又双现严重本地提权漏洞

ESP 和 RxRPC ，一个是 VPN 用的，一个是分布式文件系统的。没那么害怕

13 days ago

Replied to a topic by Livid Local LLM 用 antirez 的 llama.cpp fork 把 DeepSeek v4 Flash 在本地跑起来了

@PeterTanJJ 27b 的速度,参数和 post 结构影响很大. 我经历过 11 秒到 1 秒的提速

13 days ago

Replied to a topic by KaiWuBOSS Local LLM 能一起给本地部署的开源模型做个适配的 coding agent 吗？我憋了口气

文档写得好认真, 感觉丢给 AI 可以开始写出来了. Kwcode 最难的可能是定位了, CC 的定位其实挺完善的, 非常难竞争. CC 很开放,它可以对接第三方大模型,对接本地模型也足够写汇总规划,引流方面这已经是极致了吧,对比其他大厂推出的 coding 工具,都是适配自家模型; 虽然禁止国内访问, 但这也是最契合它的商业定位.毕竟中国是超级流量,但是总体消费水平还不够高,大量的多人共享账号,哪怕实名制也够呛能控制. 应该算是把开放性和成本控制都做到了最佳实现.再偏袒用户一点,估计就是允许多路由了,选不同模型切换不同的供应商, 这个又被 OpenCode 实现了, 但也验证了开了这个口子,收入大减,OpenCode 的兼容适配速度这么慢就知道缺少资源投入.

13 days ago

Replied to a topic by ken2025 Local LLM 请问各位大神，在隔离环境中，有本地 qwen 大模型，有没什么解决方案，做本地的知识库的方案，类似谷歌那个 notebooklm ，也勉强可以？

参考这里的回复: t/1210011?p=1#reply7
跑过 lightRAG 的配置

13 days ago

Replied t a topic by stefwoo Local LLM github 看到一个项目， 3090 跑 27B， 129tps，最高 207tps

24GB 显存的推荐一个实用的组合:
# LLM 模型+嵌入模型+24GB 显存组合配置(2026-04-30)
## Qwen-9B 19252MB LLM 模型
docker run -d --name vllm-qwen3.5-9b-awq-bf16-int4 --gpus all \
-p 8100:8000 \
-e VLLM_USE_MODELSCOPE=True \
-v /home/tab/docs/vllm_model:/models \
vllm/vllm-openai:v0.19.0-ubuntu2404 \
--model /models/cyankiwi/Qwen3___5-9B-AWQ-BF16-INT4 \
--served-model-name Qwen3-9B \
--host 0.0.0.0 \
--port 8000 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--enable-auto-tool-choice \
--max-model-len auto \
--max-num-seqs 4 \
--enable-prefix-caching \
--speculative-config '{"method":"mtp","num_speculative_tokens":2}' \
--gpu-memory-utilization 0.80

## bge-m3(1024 维度) 嵌入模型
docker run -d \
--gpus all \
--name vllm-baai-bge-m3 \
--ipc=host \
-p 8101:8000 \
-v /home/tab/docs/vllm_model:/models \
-e VLLM_USE_MODELSCOPE=True \
vllm/vllm-openai:v0.19.0-ubuntu2404 \
--model /models/BAAI/bge-m3 \
--served-model-name bge-m3 \
--gpu-memory-utilization 0.2

13 days ago

Replied to a topic by Hermitist 程序员买了一台 256G 显存, 96G 内存电脑放家里, 如何对外出租出售剩余算力?

这种配置要亏死你, 你的成本怎么可能做得过算力云供应商. 就算自己也用, 也是极其浪费的.

More replies by jinsongzhaocn