想入一张显卡研究下 AI 。对比下来觉得要么 3090TI ,要么 4070TIS ,倾向于 3090TI ,因为 24g 显存宽裕一点,照现在模型的发展 16g 担心以后会不够用。16g 跑现阶段的模型大部分时候压力都不大,但比如开个 SDXL+四五个 lora ,估计 16g 也带不动了。
现在的问题是对显卡一无所知看到说 30 系默认全矿的,又有说 3090TI 不是矿的。想问下老哥们,309ti 现在能入吗,能的话什么渠道比较靠谱,合理的价格大概多少?
另外我不玩游戏,实话说如果没有太大的性能差异我是能接受矿卡的,就怕以为是轻度锻炼没想到是深度锻炼,那就不能接受了。。
![]() | 1 09EdgqomQp5z019t 2024-05-18 08:56:22 +08:00 ![]() 如果只是玩 llm ,建议 mac pro |
2 hunk 2024-05-18 09:09:54 +08:00 要不要考虑租用主机,试用先,4090 我记得有的才 3-5 块/小时。 硬件投入感觉变数大。 |
![]() | 3 x86 2024-05-18 09:38:30 +08:00 试试 2080ti 改 22g 的方案? |
![]() | 4 go522000 2024-05-18 09:43:10 +08:00 现在能用,但明年就不一定了,我的显存 12G 只能下载别人量化好的来用。 我看到群友们是搞魔改版本 22G * 4 , 才能跑 72b 的模型,而 110b 以上模型得自己量化为 4bit 才能跑。 |
![]() | 5 jamfer 2024-05-18 09:48:33 +08:00 最近刚好看到一个视频,说苹果的统一内存(显存),对训练大模型很有用,本人不太懂,仅给 LZ 一个参考: https://www.bilibili.com/video/BV1MH4y1g77V |
![]() | 7 sleepyfevniv 2024-05-18 10:33:27 +08:00 ![]() 虽然我不懂跑 ai 模型的需求,但是为啥这里也有无脑吹 mac 的果粉啊 |
![]() | 10 rabbbit 2024-05-18 11:28:07 +08:00 先按需租个试试,便宜的几块钱一小时,L4 T4 v100 A100 型号一大堆。 |
![]() | 11 plasticman64 2024-05-18 11:28:33 +08:00 ![]() @sleepybear1113 所以你不懂为什么要出来叫,M 芯片跑 LLM 性能确实很好啊 |
![]() | 12 libook 2024-05-18 11:48:33 +08:00 via Android 显存大小是硬性需求,算力只是速度快慢的问题。 看你要玩的模型要多大显存,另外训练和推理需要的显存大小可能是不一样的,以及你是否有需要同时加载多个模型。 |
13 pinecone1 2024-05-18 12:31:51 +08:00 M 芯片因为有统一内存结构,笔记本都上 36G-48G 的统一内存了,是能跑起更大参数量的模型的。但是推理速度会比 4090 慢好多 |
14 pinecone1 2024-05-18 12:32:58 +08:00 @pinecone1 即使 ultra 128 个 G 的统一内存能跑起 70b 的模型,估计一秒钟都吐不出几个 token |
15 WilliamZuo 2024-05-18 12:34:53 +08:00 不了解硬件,但如果 AI 无法在短时间内把推理硬件门槛降低到 3090Ti 或者 4060 ,那这个行业真的值得被长期看好吗? |
![]() | 16 imoru 2024-05-18 12:36:06 +08:00 ![]() 偶尔使用的话推荐租用 GPU,我用的是这个平台 https://www.autodl.com/ 只花了 150 都不到就退烧了,因为其实真的没有那么多喜欢的角色 lora 需要训练,而且画了快一万张图感觉有点腻了 ![]() |
17 jadehare 2024-05-18 12:41:25 +08:00 ![]() @plasticman64 性能确实好性价比确实好么?买下来加内存买下来比 4090 还贵,跑下来还不如 4090 。有 mac 可以不用买显卡,但是已经有台式机更新肯定是更新显卡,推荐 mac 不是搞耍? |
18 sweat89 2024-05-18 12:42:21 +08:00 @sleepybear1113 所以你不懂还要在这尬喷?人麻了都 |
![]() | 19 neteroster 2024-05-18 12:51:38 +08:00 via Android ![]() 真要考虑 Apple Silicon 跑 LLM 的话先看看这个: https://github.com/ggerganov/llama.cpp/discussions/4167 不是所有 M 芯片都是那么快的。等级森严在苹果这里也是不会变的。 除非你非跑超大模型不可,否则就性能而言 M 芯片的性价比是不如 NVIDIA 的。总之就是先想清楚需求。 然后就是如果涉猎比较广泛,不止玩 LLM ,当然还是 NVIDIA ,毕竟生态再这里。 |
![]() | 20 devlnt 2024-05-18 13:03:07 +08:00 ![]() @pinecone1 #14 m3max 64G 跑 llama3:70b 能达到 9tokens/s ,而 4090+64G 内存只能 2tokens/s 。8b 的话 4090 能 100tokens/s, m3max 是 50 多 tokens/s 。 |
![]() | @sleepybear1113 虽然你什么都不懂 ,但是也不妨碍你看到苹果就咬啊 |
![]() | 22 neteroster 2024-05-18 13:36:06 +08:00 @neteroster 再补充几句,70B 还没到 Mac 的适应区间,2 * 3090 就能拉爆 M3 Max 了,还是在便宜的多的情况下。拉高 batch size 差距应该会更加显著。 再大的模型?那就要想清楚你是不是真的需要那么大的模型了,现在大部分模型都集中在 <100B 区间,就算 >100B 的模型 Mac 也跑不快的。唯一有优势的可能是 MoE ,不过现阶段并不多,可能战未来吧。 |
![]() | 23 Caitlyn 2024-05-18 13:58:06 +08:00 我的 4070tis 跑 ai 绘图、ai 唱歌,速度非常快,显存占用基本在 14g 左右,我觉得 70tis 性价比很高,4080s 贵了 1500 提升不是很大不划算了 |
![]() | 24 JayZXu 2024-05-18 13:58:16 +08:00 如果只是玩一玩,组个 GPU 的钱也就几块钱一个小时,就当上网吧了,而且环境配置时还不算钱,挺合算。自己试试真实需求再下手不迟 如果是真的深入要微调模型啊之类的需求,买一张 3090ti 也不顶用。 哪怕是 24G 跑大模型也顶多只能跑个优化好的 13B ,14B 。70B 就不要想了。 画图参数拉高了,显存一样不够用。 |
25 thinkershare 2024-05-18 14:37:01 +08:00 租卡是最合适的,弄个 A100*2 或者 3090*4 的集群,基本啥都能跑。。另外你是要搞推理还是训练? 等到你真的需要自己训练大模型时,你一样需要专业的集群,而不能靠你手头那点资源。 |
26 clear 2024-05-18 14:44:11 +08:00 ![]() 上面吹 Mac 跑大模型的自己真的用过吗,那么多坑都淌完了? 还是看了个视频张口就来了。 来自顶配 Studio 用户的评论。 另附:租用目前是最合适的,退烧快,性价比高,以 AI 名义打游戏另说。 |
27 tr1v1z 2024-05-18 15:01:29 +08:00 via Android ![]() 说 mac 的基本就是限定了顶配,然后只适用 llama.cpp ,然后呢,买回来纯推理 llama ?楼主都说了 sdxl ,怎么可能推荐 mac ,不知道咋想的… 至于为啥 4090 看上去拉,因为显存不够只能走 pcie 走 内存走 cpu 。换成 2x3090 就会立竿见影。话又说回来,sd 又不特别吃显存,4090 绝对是好选择。 不要只看评测视频吧。。 |
28 kenvix 2024-05-18 16:24:35 +08:00 有很多人说 mac 跑 LLM 很好,我比较好奇,这个跑是推理还是微调? mac 能 SFT 微调 LLM 吗? |
29 LaurelHarmon 2024-05-18 16:53:28 +08:00 3090 很好的,跑跑模型没啥问题,训练推理都在行,老当益壮 |
![]() | 30 herozzm 2024-05-18 17:00:47 +08:00 小模型可以,稍大就抓瞎 |
![]() | 31 ansor 2024-05-18 18:13:33 +08:00 mac 跑 LLM,跟 wsl 跑 LLM 有什么区别,价格还更便宜。 |
![]() | 32 sola97 2024-05-18 19:02:37 +08:00 via Android 推理速度太慢没有实用价值,什么 14b 都不如免费的 kimi |
![]() | 33 lithiumii 2024-05-18 19:17:20 +08:00 via Android @sleepybear1113 因为老黄的显存跟果子的统一内存都是金子价。果子 96G 内存的机器是一台可以拎走的笔记本,同等价格 96G 显存的机器是一台体积功耗噪音都惊人的服务器。个人玩特别大的模型,苹果忽然就有性价比了。 |
34 sighforever 2024-05-18 20:05:22 +08:00 @ansor mac 现在是统一内存,内存也是显存,mac 有个 192G 版本的,相当于有 150+ 的显存了,等于 6 块 4090 了 |
35 SkywalkerJi 2024-05-18 20:17:13 +08:00 via Android ![]() 果粉只考虑显存大小,不考虑算力的吗? gt610 大狂牛? |
![]() | 36 michaelzxp 2024-05-18 20:34:21 +08:00 就等苹果 wwdc 看会不会发布自己的 ai ,年底上 m4 大内存版本 |
37 1138743695 2024-05-18 20:43:45 +08:00 感觉想学习不管是从成本还是便利性上都推荐用租的,能避免很多问题(我是本科 ai 专业,长时间的课题自然用实验室的,平时自己想试点什么就用租的,我用的 autodl ) |
39 BernieDu 2024-05-18 21:20:37 +08:00 @tr1v1z Mac 跑 sdxl 有什么问题吗,sdxl 这种啥机器跑不了,无非是快点慢点,大部分家庭需求还在乎时间?后台慢慢生成就是了。 |
![]() | 40 secondwtq 2024-05-18 21:32:56 +08:00 SD 和 LLM 这两个需求其实是不一样的 LLM 看个人需求,跑得快当然好,有的场景慢一点也无所谓 但是 SD 实际使用中需要迭代调参才能试出相对满意的结果,这种情况下能快速推理生成预览是非常有用的 就像过去 3D 建模调材质,CPU 渲染很慢影响效率,但是后来 CPU 核数上来了,又可以用 GPU 硬件加速光追,效率指数级上升 |
41 kenvix 2024-05-18 21:37:14 +08:00 @ansor #31 WSL 也是统一内存,但只限软件层面,然后 x86 兼容机的内存和 CPU 离得很远,又受接口带宽限制,导致速度非常慢 |
![]() | 42 muxiaofei 2024-05-18 21:56:08 +08:00 请教一下大佬们,如果只是做向量模型来跑模型,以及微调模型,这种需求是买 3090ti 还是 4070 呀 |
43 muxiaofei 2024-05-18 22:15:40 +08:00 或者说做一个定制化的企业知识库用的模型进行微调需要什么显卡( CHATGLM2 和 M3E ) 或者笔记本也行。 |
![]() | 44 r6cb 2024-05-18 22:41:09 +08:00 @muxiaofei #43 只是知识库就只需要推理就行,显存能放下模型的显卡就够用了。但是微调 CHATGLM2 要多张 A100/A800 级别的 GPU 才干得了 |
46 NewHere 2024-05-18 23:00:04 +08:00 @sleepybear1113 统一内存比较吃香,老黄要 80g 的显存得 A100 和 H100 了,mac 可以几万拿下一整套,老黄价格比这贵还只是一张显卡 |
![]() | 47 PeneceaQwQ 2024-05-18 23:11:09 +08:00 首先,先建议租一下显卡试一试,说不定吃不满。可以尝试的平台:autodl ,vast.ai 关于矿卡:3090ti 发布的比较晚,而且对矿老板性价比不高,就算挖的话也挖不了多久 关于矿卡的危害:问题就是不稳定。连续高温满载工作。首先显存可能先炸(如果是 3090 到手建议换显存),硅脂因为高温会渗出硅油,除此之外还可能会有各种各样的小问题。可以捡,但是做好心理预期,建议观摩一下靓女维修佬的视频,做好功课再说。捡到个人买家也不是不可能() |
![]() | 48 iixy 2024-05-18 23:38:50 +08:00 @plasticman64 问题 op 明确了需求是 SDXL+四五个 lora ,你哪里看到有 LLM 了? |
![]() | 49 iixy 2024-05-18 23:40:52 +08:00 这楼我没看完都不知道你们能吵这么多关于 mac 的,SDXL+lora 几个大字看不见疯狂辩论 LLM ,绝绝子 |
50 hunk 2024-05-19 00:02:54 +08:00 |
![]() | 52 muxiaofei 2024-05-19 01:50:49 +08:00 @r6cb 感谢大佬的回复,我现在如果是想用 llama3 进行中文微调的话(其实我也只是一个小白),大概需要什么样子的显卡呢? 目前有一台 3060 12GB |
![]() | 53 muxiaofei 2024-05-19 01:53:20 +08:00 @1138743695 您好,想了解下,如果租用算力来微调自己的模型,这样是可行的吗? |
![]() | 54 ljyst 2024-05-19 02:43:49 +08:00 ai 说到底还是 cpu 语法套模版。玩的是硬件.没意思 |
![]() | 55 neteroster 2024-05-19 08:04:08 +08:00 @muxiaofei 中文微调推荐 Qwen 系列,llama3 预训练估计没多少中文语料。 微调分不同类型,全量,LoRA ,QLoRA 等,最近也有一些新兴技术。例如,llama3 8b 用 LoRA 基本 24G 能满足,但是全量微调这个大小则是天方夜谭。部分任务下 LoRA 等技术和全量微调效果接近甚至更好,但是也有很多任务是不及全量微调的,需要实际测试。 租算力完全可行。 另外,知识库不推荐微调,先试试 RAG 。 |
![]() | 56 locoz 2024-05-19 10:07:39 +08:00 via Android 玩图片生成买个二手 3090 玩没啥问题,无论是要长期放着跑还是玩腻了打游戏都可以,不过 3090 会很热、风扇很吵,这个可能要考虑一下。 如果明确只是短期玩玩,使用频率和时长没那么高,那租硬件是最具有性价比的选择,性能又好,实际产生的成本又低,又省事。 吹苹果的看看就得了,拿苹果统一内存跑起来了大模型又怎么样?就那点速度完全不具备可用性。说白了就是个放企业级场景嫌慢、个人场景嫌贵的鸡肋。而且买了高配之后不想玩了干其他事又是纯浪费,想卖二手这过高的配置又不好出手,麻烦得很。 |
57 cnevil 2024-05-19 11:17:48 +08:00 @WilliamZuo 因为你要是不执著于本地部署的话,你没显卡都能用 |
![]() | 58 HojiOShi 2024-05-19 12:05:32 +08:00 现在 5090 都要出了,就算有 3090TI ,别人凭什么把体质好的锻炼少的卡卖给你啊。。。 |
![]() | 59 leconio 2024-05-19 13:57:09 +08:00 via iPhone MacOS 可以跑 llm 呀,有这个示例工程工程 https://github.com/ml-explore/mlx-examples ,有人在 macos 跑起了 32B 的大模型,lora 微调。。。而用 cuda 要 64 显存 |
![]() | 60 leconio 2024-05-19 14:00:50 +08:00 via iPhone 但 huggingface 上的大部分模型,开发者只给出 cuda 的例子,除非你特别知道自己在干什么,否则为了生态我还是劝你入英伟达 40 系列显卡 |
![]() | 62 Tuatara OP @hunk 我之前就是租用云 gpu ,这个主要弊端是只能 linux ,很多大神的整合包都是 windows ,另外每次用完都要重新搭建环境,时间长了也挺麻烦的。。 |
![]() | 67 Tuatara OP @WilliamZuo 硬件要求确实也在降低中,外国很多老哥在把模型优化成 12g 显存能跑。不过也都是开源小模型,毕竟有一定局限性 |
![]() | 68 Tuatara OP @imoru 这个我试过,国内的 autodl ,国外的 runpod ,说实话都还不错。主要问题是只能 linux 没有图形界面,但很多整合包还是要图形界面操作,时间长了觉得租的还是不方便 |
![]() | 69 Tuatara OP @neteroster 我估计最多也就跑个 70b 了,再大确实也没啥必要,而且也可以租 gpu 来玩 |
![]() | 72 Tuatara OP @thinkershare 我自己玩主要是推理,训练确实可以租 gpu 。有点之前忘说了,云 gpu 主要是只能 linux 有些大神的整合包用不了,而且每次都要重新搭建环境,时间长了感觉有点蛋疼 |
![]() | 74 Tuatara OP @1138743695 我之前也都是租,但我看很多大神出的整合包都是 windows 的,租的 gpu 都是 linux 用不了。加上每次要重新配环境有点蛋疼,这才考虑组机器。前面这两问题老哥怎么解决的? @Francost 我之前也是用 runpod (现在上面都还有钱笑死),租卡主要是这俩问题,老哥有啥好办法吗 @secondwtq 蛮有道理的,能快速生成预览还蛮重要的 @leconio 老哥点解,为啥为了生态要选 40 系? 30 和 40 的生态不一样吗,我理解都是 cuda |
![]() | 75 Tuatara OP 大家讨论好多,很感谢哈哈哈 原题忘了说了,我之前也一直是租 GPU 的,主要是 runpod 和 autodl 两个平台上。性价比上绝对是租划算,主要问题是 1 )想玩一些大神的整合包,但只能 windows/可视化,租的 gpu 都是只有 linux 这种整合包就跑不了;再来租的每次都要重新搭环境,时间长了有点蛋疼,这才考虑组机器。 不过说实话我动手也没有那么多,看了一圈下来大家分歧还是比较大 准备再租 gpu 一段时间,真要入的话目前倾向 4070tis 了。 至于 mac ,我工作电脑是个 M2 pro 芯片,跑 llm 倒是挺好。sd 的话还是慢的过分了,我感觉体验不是很能接受。但更新的 M3 + 统一内存没试过,我理解速度上还是不如显卡?因为它只是显存大,计算还是得 cpu |
76 BernieDu 2024-05-19 16:12:05 +08:00 @tr1v1z m3max 3 秒一张图和 3090 2 秒一张图差多少? 而且楼主是为了研究 ai ,3090 能跑 llam 70b ? 跑内存里是吧。这就不是浪费时间了? |
![]() | 77 Oct31Dec25 2024-05-19 16:37:36 +08:00 |
78 wsbqdyhm 2024-05-19 17:54:50 +08:00 目前使用 mac m1max 只会用 sd ,出图有点慢,搭车问下,mac 有没有一些免费项目可以训练自己的语音,然后用文本可以输出自己的专属语音。 |
![]() | 79 neteroster 2024-05-19 18:45:42 +08:00 |
80 1138743695 2024-05-19 20:21:04 +08:00 @Tuatara #74 这个我跟你的想法恰好相反,大多数开源的代码不应该都是基于 linux 的吗,所以才会主力用 mac 和云服务器做实验(不管是 github repo 还是 HuggingFace 默认都是 linux 吧),不过我猜你说的可能是 ai 绘画的整合包,这个我确实不是很了解 |
![]() | 81 Tuatara OP @1138743695 对,我看的很多是 b 站 up 的 SD 教程,大多是要图形化工具,而且是打包好的只有 windows |
![]() | 82 Tuatara OP @1138743695 其实还有一些工具也都是只有 windows ,我之前做 ai 孙燕姿,要做人声分离,用到的软件就只有 win |
83 first2wood 2024-05-19 21:21:05 +08:00 刚好看到这个,我看好多人用的 P100 和 P40 。https://www.reddit.com/r/LocalLLaMA/comments/1cu7p6t/llama_3_70b_q4_running_24_toks/ |
![]() | 84 ShadowPower 2024-05-20 02:29:54 +08:00 via Android 我想起这个模型: https://civitai.com/models/332076/kohaku-xl-delta 用两块 3090 显卡,在 360 万张图片(只比初代 NovelAI 少一点)上微调 SDXL 不到一个月得到的模型…… |