V2EX slowgen 的所有回复 第 1 页 / 共 27 页
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX    slowgen    全部回复第 1 页 / 共 27 页
回复总数  527
1  2  3  4  5  6  7  8  9  10 ... 27  
跟着这个 roadmap 走就行了 https://roadmap.sh/backend?r=backend-beginner ,最多加个消息队列 RabbitMQ 和搜索引擎 Elasticsearch ,非要去 java 屎里淘金干啥…首选 node 和 go ,选对已经成功一半了。

目标是“软件工程师”而不是“x 语言程序员”,先掌握更多的后端架构知识才是正确的道路。
很多时候做技术方案不是越多越好,一股脑做加法的都是菜得抠脚的人,你看 java 那些课程觉得人家内容多,我看过去还觉得是一开始方向错了只能引入更多的蹩脚方案来弥补,疯狂堆屎山。做减法才有技术含量。

我搜了下你那些充电桩、AI 、网约车课程,给你理一理里面内容:

充电桩:
SpringBoot3:正常的 web 框架,没啥特别的;
MQTT:RabbitMQ 加插件;
WebSocket:node 、go 更擅长,甚至 deno 和 bun 在标准库里都实现好了;
Netty:就是 Javascript 在 async/await 之前的回调地狱的时代那套东西;
时序数据库:PostgreSQL 装个 TimescaleDB 插件搞定;
Protobuf:好坏参半的 RPC ,复杂度增加很多,真要用你还得考虑很多东西,不如纯 http 调用接口,最多加个 Dapr 在中间;

AI 课:
LangChain4j:一个库,你用 LlamaIndex.TS 就得了;
RAG:LlamaIndex 里就有,3 行代码的事 https://developers.llamaindex.ai/typescript/framework/modules/rag/chat_engine/ ,原理在 https://github.com/run-llama/llama_index/blob/81d4b871143ddd4a7cb90333a3d103fbb1f269c5/llama-index-core/llama_index/core/prompts/chat_prompts.py#L21 这 15 行代码,说白了就是拆分问题里可以搜的东西,搜出来相关内容再 rerank ,然后拼接成字符串贴在上下文里,又回到了 Elasticsearch 或者 PostgreSQL 的 pgvector ,其实难点在召回高质量内容,和 java 没啥关系;
记忆: https://developers.llamaindex.ai/typescript/framework/modules/data/memory/#configuring-memory-for-an-agent 有效代码不到 20 行…还是字符串拼接;
tools + MCP: https://developers.llamaindex.ai/typescript/framework/modules/agents/tool/#tool-function 有效代码加起来不到 50 行…

AI 课:和 java 有点关系但不多,算是一个 API Caller 加点项目设计吧,这也能水 13 小时课程,看得我也想去卖课了……

网约车课:
SpringCloud 微服务体系:有 k8s 之后没它什么事,也就 java 存量项目在用,真正要学的是 k8s 这套体系,结合你的代码正确的跑在 k8s 上面。

要是会打一个极简的 docker 镜像然后自己在云厂商的容器服务/serverless 里跑起来再配置一个网关入口你已经超越 98%的同行了。要是在云厂商通过界面操作点点点配置好弹性伸缩你已经超越 99%同行了。此时一部分 java 还在解决容器太大启动太慢和内存占用太高的问题,一部分 java 在看某屎山动态线程池方案想办法给自己的服务从 50 并发优化到 100 并发,而你在喷云厂商为啥我 1 核 512MB 内存的容器明明能抗三五千并发,你的共享型 API 网关并发额度才给到我 500 。

要是框架选了 honojs 然后部署到 cloudflare worker 你就已经超越 99.5%的同行了,你的应用现在已经打不死了,能打死你的是下游扛不住的各种组件和你的账单。

AI 写代码正确性最高的语言:
Go (语法简陋、特性少、概念少、标准库质量高,已经被 AI 学透了,从 30B 到 1000B 级别的 AI 写出来都差不多,反正遇事不决可以让 AI 当场搓一个库给你)
Javascript/TypeScript(高质量代码库多,毕竟前端娱乐圈一言不合开个 NPM 仓库,9 行代码的 is-odd 都要搞一个包,还写一堆测试代码和 lint ,产能超强,喜欢追新,AI 容易学到新内容);
Python (高质量代码库多,但是异步生态垃垮所以高质量异步代码少,AI 写同步代码还行,写异步代码能力差)

你在 groq 里创建个免费 api key ,选个 gpt-oss-120b (速度接近 500token/s )或者 kimi-k2-instruct-0905(速度 220token/s),用来写这 3 个语言正确率都能有 95%甚至更高,你看都来不及,何苦去用 java 呢,限制你的只有你的后端体系知识,因为每个 AI 给的方案可能都不一样,你需要判断这“上中下策”里哪一个才是“上策”,所以按照最开始的 roadmap 打好基础才是正道。
现在只是为当时的选择还债而已,5 年前就应该迁移到 go 了,再不济迁移到 nodejs 也好过继续 php 。
你现在迁移到 go 有个好处就是 AI 写 go 的能力几乎是溢出的,比其它语言准确性高很多,在 AI 加持下迁移应该很快
21 天前
回复了 PilgrimSun 创建的主题 Solana 关于我买和卖 v 币的说明
哈哈,来点代币,打赏有价值的帖子还挺有意思
23 天前
回复了 wenkgin 创建的主题 Local LLM AI 本地化部署的方式
@mewking 也不能说写伪代码,正常提需求是可以的,举个例子
https://chat.qwen.ai/s/e80b06a7-f08b-4c10-b556-ab71b158a0b1?fev=0.0.208 30B 参数写的

https://chat.qwen.ai/s/1a84cca6-4818-43fc-a131-24b48bbc7d41?fev=0.0.208 80B 参数写的

https://yuanbao.tencent.com/bot/app/share/chat/Ua8dLAdHJBHj 671B 参数写的,还开了推理

几乎没差别,但是你把问题换成其它编程语言看看?
https://chat.qwen.ai/s/0d258b03-a808-415b-8523-a76b33ba27a9?fev=0.0.208

这里一下用 3 个模型同时回答,只有 480B 的 Qwen-Coder 意识到高性能要用 asyncio ,写出来的代码能跑,但是也有 2 个语法问题:finally 代码块里的变量作用域不对。
23 天前
回复了 wenkgin 创建的主题 Local LLM AI 本地化部署的方式
@mewking 如果跑 Qwen3-Next-80B-A3B 的 int8 ,单 96G DDR5 6400 确实够了,但是这个系列分推理和非推理模型,我日常是 2 个模型都会常驻的,如果你也像我一样操作那 96G 内存就不太够。

但是如果你仔细观察 Qwen3-Next-80B-A3B-Thinking 的跑分,会发现它比 Qwen3-30B-A3B-2507-Thinking 提升也不到 10%……估计你手头现有硬件都能跑了。

这些跑分提升不到 10%是什么概念?我最近用这些模型来测编程能力,发现了一个很有趣的现象,理论上大模型现在写 python 、Javascript 能力最好,但是 golang 因为关键字就 25 个,特性也少足够简陋,所以 Qwen3 这 30B 级别的模型写出来的 golang 代码居然和更大更顶级的模型差距非常小,准确度超级高
23 天前
回复了 wenkgin 创建的主题 Local LLM AI 本地化部署的方式
@mewking 22B 的 Q8 量化加上 KV Cache ,32G 显存还真不一定放得下,你可以用这个 https://smcleod.net/vram-estimator/ 算一下。带宽的话叠加不了,一般是计算分层,Q4 量化推理速度都不一定能到 30 ,我肉眼看 https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/flashmoe_quickstart.md 这里的 gif 估摸着单卡速度也就 12token/s 的样子,这个配置还是跑新出的 Qwen3-Next-80B-A3B 系列实在,和 235B 的百分比差距很小了
没切 deno 前确实有 zod 类型推导延迟这个问题,webstorm 更加严重根本反应不过来类型已经变更了……
24 天前
回复了 Sirius8 创建的主题 程序员 长时间不关电脑网速下降
@shuimugan 进入“控制面板 > 电源选项 > 更改计划设置 > 更改高级电源设置”,找到“无线适配器设置 > 电源保存模式”,将其从“最大省电”改为“最大性能”
24 天前
回复了 Sirius8 创建的主题 程序员 长时间不关电脑网速下降
感觉前几天就看到过这种案例,案例好像就是联想,解决方案是电源策略里面找一个和无线网卡相关的改掉大概是持续高性能,别节能就解决了。如果是插网线的话可能是扁线的锅
注意戴好头盔,配好前后灯。
我每个月用山地车骑河边路 500~800 公里的骑行量,匀速 22 公里,心率控制在 130~140 ,单次骑行 2~5 小时。骑行一年了,也就前半年控制饮食的时候掉了 6 斤,然后爱吃什么就吃什么,体重也没什么增长,比较稳定了。
我把我的情况和 AI 对话了之后,它建议单次骑行最好控制在 2 小时以内(否则骑行时要注意碳水和蛋白质补给,不然开始分解肌肉),加上力量训练效果更好
这种工具永远架不住有猪队友把生产的 token 等敏感信息放进去,肯定要用本地化的。
https://www.postman.com/trust/security/ postman 的安全都做到这个程度了,你搜漏洞和安全事件还是有,更何况官网连安全策略都没披露的,攻击者的最爱。
26 天前
回复了 wenkgin 创建的主题 Local LLM AI 本地化部署的方式
@wenkgin 内存小小,带宽小小,只能找 [激活参数 < 5B] 的模型的 4bit 量化了。

Qwen3-Next-80B-A3B 系列、Qwen3-30B-A3B-2507 系列、ERNIE-4.5-21B-A3B-Thinking 、SmallThinker-21BA3B-Instruct 这些都能在低配置玩,里面的 A3B 的意思就是激活的参数只有 3B ,4bit 量化后 DDR4-3200 双通道的带宽 50GB/s 左右也能跑个 15token/s 左右(单人勉强用),像锐龙 AI Max+ 395 的 256GB/s 的内存带宽就能跑个 55token/s 左右。

其实本地模型现在已经很能打了,从 Mixtral-8x7B 开始打 ChatGPT3.5 的时候 MoE 架构模型应该成为主流,可惜国内一直没怎么跟,直到 DeepSeek V2.5 V3 R1 这些出来国内才跟进大搞 MoE 模型,今年出的模型都是 MoE 为主的了。

而且模型越大提升的能力分数并不是线性增加的,关注现在的模型跑分就能得出结论,就像前几天的 Qwen3-Max-Preview ,1000B 的参数,比自家 Qwen3-235B-A22B-2507 多了 765B ,这个差距差不多能塞一个 DeepSeek + gpt-oss-120b 了,然而性能提升连 10%都没有,所以现在选模型有点像玩游戏选个甜品卡那样,根据你的任务难度和硬件选一个合适的模型(你的任务里跑分高的)就行了。

你这个硬件看起来像是个笔记本带个小显存的 N 卡,模型从上面 A3B 里挑一个,部署方案首选 https://github.com/kvcache-ai/ktransformers (合理分配好模型活跃的专家到 GPU 跑得快点),次选 LM Studio 这种傻瓜式部署方案
人口换轻量应用服务器呗,200MB 峰值带宽
这个太低水平了,你需要见识一下 NSFW 的顶尖生产力 https://www.reddit.com/r/unstable_diffusion/
@mewking 这个问题,首先要看不同编程语言是否有高质量的庞大的数据集,比如在 https://huggingface.co/datasets?sort=trending 搜数据集看加起来的行数,以及 github 仓库上 star 数多的各语言仓库。

结合这个榜单也能看出来 https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard ,不过这个榜单很久没更新过了,现阶段只能靠自己测了。

其次看自己的水平了,使用 context7 这种 MCP Server 或者手工在上下文补全最新文档可以大幅度降低模型幻觉,加上现阶段小模型对于主流编程语言的语法没啥问题(关键词、类型、循环、判断、函数等),写出来的代码头头是道的。但是对于一些理论、概念的理解程度就不好说了。

我一般假定 Q6 级别量化已经近乎无损了,然后去模型官网比如 https://chat.qwen.ai/ 选择 Qwen3-Coder-Flash 、Qwen3-30B-A3B-2507 这种 30B 级别的问一下看看,它能写对的话那么 Q6 级别的量化也能写对,Q4 的话可能再差个 1%到 2%,大不了我给它纠正。其实上限在于用户自己,比如我 java 水平不行,它写得头头是道我也评判不出好坏,因为语法已经没问题了,甚至库也用对了,但是实际上跑起来碰到 bug 就一脸懵逼。要是 CRUD 这种还好,要是问题底层一些的话 30B 级别的解决起来很容易像是鬼打墙一样,跑了几十 k 上下文也没有个结果。

比如我自己最爱用来测大模型的一道题:“用 [x 语言] 的实现一个高性能的 HTTP Proxy ,要求支持普通 HTTP 请求转发和 HTTPS 隧道 (HTTP CONNECT,尽可能使用标准库”,把 [x 语言] 换成你最熟悉的那个然后让模型来跑几次,先看 api 有没有用对来判断幻觉大不大,再看能不能完成需求跑起来,反正在 c#、java 、rust 这种语言就经常搞不定,能一次性写对的就成为我常用的模型。

也就是因为这个原因,我现在考虑把技术栈从 node 往 golang 转移,开源的模型写 golang 的能力挺不错,以前不想碰 golang 是因为水平差的人写起来就像是用 php 堆屎山一样,维护性、可读性太没下限了。现在有 ai ,默认就是中高级的水平,而且我本地跑 gpt-oss-120b 实在是太快了,写 golang 准确性也非常高,代码的可读性、可维护性、性能下限、资源占用都有保障了。
@mewking 这个问题要看你写什么语言的,Qwen3 30B-A3B 没必要追求 BF16 ,Q6 就差不多了,我测 unsloth 的 Q6_K_XL 那档动态量化和 mlx 的 4bit DWQ 没啥区别,接入 Roo Code 自助完成一些 Node 和 Go 的任务都差不多,但是写 Rust 的话 Qwen3 Coder 30B-A3B 会在写了 50 多 K 上下文之后决定删除所有文件重头开始一个简单的版本…丢给 GLM 4.5 Air 4bit 就能完成而且修复一些 bug 都是点一下 Fix With Roo Code 就搞定了。

我本地 192GB 的 M2 Ultra 现在常驻内存的是 GLM 4.5 Air 4bit 和 gpt-oss-120B ,再留一个 mellum 做补全和 text-embedding-nomic-embed-text-v1.5 做代码 embedding
你先明确学习的内容是什么。

首先排除训练,Llama 3.1 8B 训练使用 1024 张 H100 80G 训练了一个月也就那样;

然后就微调,显存小就跑个 gpt-oss-20b 和 Qwen3-30B-A3B 的规模,https://docs.unsloth.ai/basics/gpt-oss-how-to-run-and-fine-tune https://docs.unsloth.ai/basics/qwen3-how-to-run-and-fine-tune 大点的模型还不如去 https://www.together.ai/ 导入你的数据集点几下按钮就开始微调了。

然后是推理,推理吃的是带宽和显存,这个价格你直接在 https://apxml.com/zh/tools/vram-calculator 选你要跑的模型和设备来看模拟推理的速度心里就有数了,这个配置性价比最高的也就是跑 gpt-oss-120b 的 mxfp4 量化,其次是 GLM 4.5 Air 的 4bit 量化,速度也就那样,选择 M4 Max 看速度然后除以二就懂了。

再然后是 RAG ,说白了就是找出相关内容然后字符串拼接,你本地跑和调用 API 也没区别,看 llamaindex 代码就懂了,知识库都是围绕那三五十行代码做各种业务和 UI 的封装。
https://github.com/run-llama/llama_index/blob/81d4b871143ddd4a7cb90333a3d103fbb1f269c5/llama-index-core/llama_index/core/prompts/chat_prompts.py#L21

剩下的就是画色图、写黄文、声音转文本、文本转声音、声线克隆
@hmbb
这配置比调用 api 体验更差,没有学习的价值,除非你要跑 Huihui-GLM-4.5-Air-abliterated 写黄文
@tmkook 主要看模型能力,如果模型太小的话可能会抽卡,可以加个 context7 这个 MCP 服务 https://github.com/upstash/context7 ,对话时需要参考文档的话就在末尾加一句 use context7 ,插件检测到就会和 context7 沟通来判断要读取什么文档然后去读取
1  2  3  4  5  6  7  8  9  10 ... 27  
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     858 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 36ms UTC 21:53 PVG 05:53 LAX 14:53 JFK 17:53
Do have faith in what you're doing.
ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86