CURD 工程师,纯模型训练外行。想请教下目前训练一个垂直领域的 AI 机器人模型,大致成本分布是什么样的呢?数据层面公司有很多,包括文字、图片,视频。训练流程应该包括哪些方面的成本呢?(我只知道需要 gpu )。请大家不吝赐教。当然也可以花钱让别的公司给训练(主要还是数据不想交出去),靠谱的渠道公司一般会如何报价呢,交付流程又是什么样呢。(公司没有大模型团队)。
1 KenThompson1729 104 天前 具体什么任务 预算能有多少 |
![]() | 2 younger027 OP @KenThompson1729 语言教学,预算不限,1kw rmb 左右都可以接受。这个价格只是随口一报,如果效果好,预算也可以提 |
![]() | 3 chy2v 104 天前 主要是你想达到什么效果,有什么要求 |
![]() | 4 106npo 104 天前 via Android 你这预算都可以直接联系一手厂商 ,智谱 阿里之类的都行。他们来你本地安装服务器协助训练。报价是服务器购买或租赁价格和工程师费用。 |
![]() | 5 frandy 104 天前 我能想到的训练流程应该包括哪些方面的成本: 1 、硬件成本( GPU ) 2 、人力成本(虽然有很多数据,但是喂给模型的数据需要进行整理) 3 、维护成本(肯定要迭代更新吧) 都预算不限了,那就看在这个垂类行业效果了,一开始训练一个参数集小的垂类模型,试试水,根据具体业务情况进行调整,觉得不错了,再扩大数据集。 |
6 KenThompson1729 104 天前 @younger027 语言教学这个题目太大了,如果能具体细化到功能 比如说口语打分,实时陪练,写作批改 那还可以估计一下具体的成本 |
nbsp; 7 penzi 104 天前 via iPhone 根本就不要训练,调 prompt ,调 tools 调用 |
![]() | 8 helone 104 天前 @younger027 真有 1kw rmb 预算直接联系阿里云这种厂商,会有人一对一对接的 |
![]() | 9 younger027 OP @chy2v 能充当一个 AI 教辅的职责,下面那个哥们说的,口语打分,纠音,实时陪练,写作批改这些都希望有。是不是又得在这些里面细分更垂类的模型呢。专家小模型? |
![]() | 10 younger027 OP @xmumiffy 明白,直接就驻场了是吧。那费用呢,比如说半年内要个可用的模型,应该报价多少呢?您了解嘛 |
![]() | 11 younger027 OP @frandy 明白,除了模型产出的成本,还得要维护更新,应该分两个阶段的成本统计。感谢回复。 |
![]() | 12 younger027 OP @maggch97 这种方案有在作,还是想尝试下垂类模型这块。毕竟我们自己的数据还是多的。希望有自己的壁垒 |
![]() | 13 younger027 OP @helone 嗯嗯,明白啦,感谢。我去咨询下细节 |
![]() | 14 Clannad0708 104 天前 1 下载大模型 2 使用对应的微调方案 3 准备对应显存的算力按照 发布版本乘以 4 的显存需求购买 4 微调参数+重新训练 5 部署使用,可以外挂 rag 来做更好的垂直准备 |
![]() | 15 Clannad0708 104 天前 最简单的试水就是本地部署 deepseek+rag 方案。不需要训练也可以看到成果。如果你觉得不够只能就只能自己训练模型了 |
16 penzi 104 天前 别幻想,微调都是扯淡骗钱。美股市值前几的企业的大模型应用都是调 prompt 。好好学习最新的 AI 产品比如 claude code ,Gemini cli 怎么实现的才是正途,别幻想阿里之类的作坊能给你解决什么问题。 |
![]() | 17 luobingit 104 天前 AI 陪练吗 |
![]() | 18 luobingit 104 天前 正好公司前段时间想整这玩意 跟几个厂商聊过 sass 的 本地私有化部署应该也有 但是大模型底座还是 API 调用的方式 token 计费 |
![]() | 19 cwr31 104 天前 RAG 才是正道 |
![]() | 21 loryyang 104 天前 这个你们有人吗?如果这个 1kw 钱投到 GPU 里面,你可以去看看,现在的价格,这个妥妥的够用了。但你要说,你没人会,那还得招人啥的,就麻烦的去了 大模型训练(其实算微调)看着好像是这么回事,自己看看学习下,感觉自己会了。但因为黑盒性质,这里面的不确定性太大了,作为正常投入,你肯定要有产出,但其实没这么容易。 |
22 tickingMachine 104 天前 具体来说,训练分两类,预训练和后训练(叫微调也可以,只不过后训练的范围更宽,微调更多直接对接使用方向)。 如果你的训练数据非常巨大,那推荐从预训练开始,从头打造专属的垂直大模型,给个参考,开源模型 Qwen2.5 是 18 万亿个 token ,Qwen3 约 36 万亿个 token ,预训练的成本也非常大,机器+训练+实验+调优等,但是 1kw 的预算可以 cover 全流程了,找国内做模型这块的厂可以直接包个团队来做全套。 如果没有那么大量的数据,“prompt + RAG + 微调 + 大量工程化” 这套流程更加推荐,这方面的教程非常多,金钱成本也非常的低,但是需要大量时间做调研和实验。 |
23 piero66 104 天前 感觉微调 qwen3 够用了,很便宜 |