有人实际部署过 GPT-OSS-20b 么? 需要什么配置能跑得比较流畅? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
totty
V2EX    Local LLM

有人实际部署过 GPT-OSS-20b 么? 需要什么配置能跑得比较流畅?

  •  
  •   totty 38 天前 2551 次点击
    这是一个创建于 38 天前的主题,其中的信息可能已经有所发展或是发生改变。

    做萌翻翻译的时候,想用来本地部署做语言检测,AI 翻译和 AI 词典都可能用到,传统的库都不够准确,如果是多语言的话。

    30 条回复    2025-09-02 21:45:26 +08:00
    usVexMownCzar
        1
    usVexMownCzar  
       38 天前 via iPhone
    官方说 16G 的 Mac 就能跑。我自己的 64G 跑起来 毫无压力。

    做个参考
    totty
        2
    totty  
    OP
       38 天前
    @chiaf 你测试的时候主要就是对话不?流畅嘛
    usVexMownCzar
        3
    usVexMownCzar  
       38 天前 via iPhone
    @totty 我的配置还是非常流畅。不过没咋测试,20b 还是小
    YsHaNg
        4
    YsHaNg  
       38 天前 via iPhone
    不如 qwen3 30b
    totty
        5
    totty  
    OP
       38 天前
    @YsHaNg 但是我用 qwen 30b 有一种说不出来幻觉感啊,很多时候有点无语,答非所问占比很高。
    totty
        6
    totty  
    OP
       38 天前
    @chiaf 不过你的配置令人羡慕!!!
    YsHaNg
        7
    YsHaNg  
       38 天前
    @totty 这个级别幻觉很难避免 但是 qwen3 快很多 gpt-oss 架构 graph 部分内存占用也更大
    usVexMownCzar     8
    usVexMownCzar  
       38 天前 via iPhone
    @totty 当初为了跑本地的模型买的

    后面就都是用商业的了。

    现在也就是个高配的 Mac ,开发挺爽的
    bearqq
        9
    bearqq  
       38 天前
    24g 内存 8845HS 集显跑 14.17 token/s 。
    我还是更喜欢用 qwen3-32b ,显卡跑。
    katsusan
        10
    katsusan  
       38 天前
    16G 能跑的前提是需要英伟达 50 系 blackwell 的 FP4 ,其它平台应该要更多
    privil
        11
    privil  
       38 天前
    @chiaf #1 跑个量化的字节开源模型 seed-oss-36b 试试,其实比 gpt-oss-20b 还给力点。
    totty
        12
    totty  
    OP
       38 天前
    @YsHaNg 我再去试试判断语言,幻觉在这个场景下感觉还好。
    totty
        13
    totty  
    OP
       38 天前
    @bearqq 这个速度感觉有点压力,一次翻译文本输入就得大几百 token ,用户要等太久
    totty
        14
    totty  
    OP
       38 天前
    @privil 问对地方了
    Pteromyini
        15
    Pteromyini  
       38 天前
    翻译最好还是用字节专门的 seed 或者用翻译数据集微调一个小规模的模型。小规模的通用模型包括 gpt-oss 实在不太行,激活参数本身也太小了,幻觉难免。
    tomclancy
        16
    tomclancy  
       38 天前
    我是 9900x 3090 ,思考的时候 GPU 直接满负荷狂转,思考完直接安静了
    totty
        17
    totty  
    OP
       37 天前
    totty
        18
    totty  
    OP
       37 天前
    @tomclancy 火星子既视感
    kennylam777
        19
    kennylam777  
       37 天前
    @katsusan 不用, 我用 3090 + Llama.cpp 能直接跑 FP4 的 GGUF, 速度也不, 100tps

    而 5090 可以血跑 context 128k, 160tps 以上
    bmin
        20
    bmin  
       37 天前
    笔记本电脑 5070ti ( 12G ),完全加载进 GPU 跑,上下文 8192 ,可以跑 35-40 token/s
    BlueSkyXN
        21
    BlueSkyXN  
       37 天前
    Macbook Air M4 24G 推理速度
    Qwen3-4b:16tps
    Deepseek-r1-8b: 15tps
    GPT-oss-20b:19tps

    RTX4080 没测
    ByteCat
        22
    ByteCat  
       37 天前
    要求很低,我用 RTX A4000 跑,只吃 12G 显存,速度还行,50tokens/s
    zhengfan2016
        23
    zhengfan2016  
       37 天前
    我用ollama 4060ti 16G 能跑啊
    totty
        24
    totty  
    OP
       37 天前
    @zhengfan2016 我也想用这个配置,速度如何?
    mengdodo
        25
    mengdodo  
       37 天前
    用一台独立服务器跑过,64G 内存 Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz * 2 的,结果慢的一匹,你可以自己试试
    yjhatfdu2
        26
    yjhatfdu2  
       37 天前
    M3 ultra 跑 gpt-oss-120B 可以跑到 75t/s 左右,跑 gpt-oss-20b 能跑 120t/s 左右
    zhengfan2016
        27
    zhengfan2016  
       37 天前
    @totty #24
    totty
        28
    totty  
    OP
       36 天前
    @zhengfan2016 收到
    totty
        29
    totty  
    OP
       36 天前
    @yjhatfdu2 收到
    totty
        30
    totty  
    OP
       36 天前
    @mengdodo 你这主要问题是用 CPU:)
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2783 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 13:14 PVG 21:14 LAX 06:14 JFK 09:14
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86