
如题,单卡部署了 api 服务,能多用户并发提问吗,还是说一张卡只能同时支持一个用户的回答
1 lingyidxx 2023-07-17 09:01:18 +08:00 跑一下压测就知道了 |
3 paopjian 2023-07-17 09:33:48 +08:00 单卡都是蹦字出,负载都满了,能多用户? |
4 laipidov 2023-07-17 10:31:50 +08:00 消息队列,至于消费者有几个,就看你这张卡的显存了 |
5 laipidov 2023-07-17 10:32:09 +08:00 卡显存够是 ok 的 |
6 thorneLiu 2023-07-17 11:09:42 +08:00 via Android 就 fastertransformer 而言 权重加载是共享的 但用于推理的 modelinstance 可以构建多个 所以是支持多用户推理的 但理论上 其实多用户输入进队列拼 batch 用一个 modelinstance 推理会比多 instance 单 batch 推理效果好一点 |
7 zooo 2023-07-17 11:10:50 +08:00 打听下 op 部署了什么模型 |
8 thorneLiu 2023-07-17 11:12:12 +08:00 via Android 取决于你后面部署的推理服务怎么个策略 |
9 wzwwzw 2023-07-17 11:50:46 +08:00 反正每秒吐出来的 token 数量是差不多的,用户量越多就每个人每秒收到的越少,用户量多的情况下,打 batch 效果会稍微好一点。 |
10 tanranran 2023-07-17 12:43:03 +08:00 可以多并发,但是你没法商用,你猜为什么大公司都在囤 A100 H100 |
11 kenvix 2023-07-17 12:58:20 +08:00 根据我部署模型的经验,并发量完全取决于你的显存大小 |
12 cbythe434 2023-07-17 14:55:12 +08:00 加载一份模型,多用户并发高可以缓存收集一个 batch 批量推理 吞吐量 = model 个数 * batch_size 单卡一般就一个 model ,低并发就一条一个 batch |
13 lyang OP @thorneLiu chatglm 这个,我看模型就一个 model ,没有多个实例,https://github.com/THUDM/ChatGLM-6B/blob/main/web_demo.py ,https://huggingface.co/THUDM/chatglm-6b/blob/main/modeling_chatglm.py ,但这个 stream_chat 听别人可以同时回答,这个是并发的吗 |
15 thorneLiu 2023-07-17 18:27:11 +08:00 via Android |
16 aleimu2 2023-07-17 18:58:16 +08:00 |