中型公司,大概 100 人,实际使用的大概 20 人左右。 第一步是搭建 DeepSeek 70B 的模型。 第二步是在它的基础上,将公司内部的相关文档、知识库喂给它,进而训练出我们公司自己的模型。
请问,20 人使用的情况下跑 70B 的模型,需要什么配置? 训练它又需要什么样的配置?
![]() | 1 MrLonely 175 天前 顶配 Mac Studio 是它所在的那个价位的最佳 LLM 性能。我只知道训练普遍是比推理要高一个数量级的硬件的。 |
![]() | 2 tool2dx 175 天前 70B 的模型,只需要买两块 A6000 GPU 就能跑了吧。 知识库不用训练,用一个本地嵌入模型,把文件向量化就够了。 如果训练,第一你源数据一定要整整齐齐,第二听说很容易训练后降低智商。 |
![]() | 3 calmlyman 175 天前 按阿里云文档里,给的最低配置是 2 卡 GU120 ( 2 * 96GB 显存) |
![]() | 4 wxm1997 PRO 70b 模型 BF16 精度 2 张 a100/a800 ,int4 要 1 张,买不到可以换成 4 张 4090 |
![]() | 5 wxw752 175 天前 训练?部署 dify ,文档塞到知识库里,直接就可以配合大模型问答了。 |
6 terranboy 175 天前 啥叫知识库喂给他 目前很多企业这 2 个搞不清楚, 企业私有知识 RAG 难点在于资料整理, 多模态的资料如何识别 |
![]() | 7 frayesshi1 PRO 喂给它是不是 OP 想训练模型,训练大模型一般万卡以上。很多训练和部署推理没有搞清楚,机器学习或者深度学习本质就是一个方程,训练是根据样本求方程的参数,而推理是把 x 值带入方程求出结论,用 DS 的模型就是用别人的参数,把问题带入模型得到结论。 |
8 mumbler 175 天前 deepseek 70B 并不好用,推荐 qwq 32B 或者 gemma3 27B ,可以直接跟 deepseek 671B 满血打的 本地部署大模型+知识库的一键安装包: qwq.flashai.com.cn gemma3.flashai.com.cn |
![]() | 9 coefu 175 天前 2.2 你们没有那个实力做到,搞个 rag 顶天。不要想太多。 |
![]() | 10 coefu 175 天前 @frayesshi1 他可能以为,训练 70B 的模型就像使用 elasticsearch 那么容易。就算微调 70B 的模型都够呛。 |