背景: 想部署一个大概 10B 以下参数量的模型、对用户提供服务、QPS 预计 100 左右、平均耗时 500ms 左右,这种程度的服务情况下的成本是多少呢?
![]() | 1 Kaiyuan 2023-08-11 18:03:44 +08:00 如果 Mac 能步处的话,128 内存 Mac mini 算是性价不相对较高的。毕竟内存能当显存用。 |
![]() | 2 israinbow 2023-08-11 18:54:03 +08:00 via Android 一个用户保守一万, 起步价十万. |
![]() | 3 106npo 2023-08-11 18:58:04 +08:00 有大模型能 500ms 返回么? 现在大模型处理时都是满载的,所以你这 QPS 100,500ms 那就意味着要部署 50 台设备. |
![]() | 5 mushuanl 2023-08-12 08:02:39 +08:00 via iPhone 有 a100 之类的卡吗?搞上 5 个以上,然后上 vllm, 但是 10b 以下可用性太差,能满足功能要求吗?一般都是 13b 起步,如果 33b 发布那么更好建议是 33b |
6 Roger1007380462 OP 了解,看上去这成本有点高啊 |
7 Roger1007380462 OP @Kaiyuan mac 部署有什么可用的模型吗? |
![]() | 8 Kaiyuan 2023-08-12 11:26:11 +08:00 ![]() |
9 Cola90 2023-08-12 11:41:08 +08:00 via iPhone 别用 mac |
![]() | 10 chinabrowser 2023-08-12 19:20:14 +08:00 via Android @Kaiyuan 这价格都能买好几张 3090 了,10B 量化 8bit 用 3090 应该完全没问题 |
11 Roger1007380462 OP @Kaiyuan 多谢多谢 |