本地部署的小模型(小于 16G 显存)适合轻任务,哪一个模型比较好用? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Kinnikuman
V2EX    Local LLM

本地部署的小模型(小于 16G 显存)适合轻任务,哪一个模型比较好用?

  •  
  •   Kinnikuman 216 天前 3145 次点击
    这是一个创建于 216 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有一个 16G 显存的显卡闲置,跑了几个模型,测试过一阵子了。

     $ ollama list NAME ID SIZE llama.1:latest 46e0c10c039e 4.9 GB gemma2:latest ff02c3702f32 5.4 GB deepseek-coder-v2:16b 63fb193b3a9b 8.9 GB 

    具体的任务是内容标题生成和翻译。

    llama3.1 是 8b 参数,gemmma2 是 9b ,deepseek-coder-v2 是 16b 。

    内容标题生成来讲,不是很能对比出差别。因为生成的标题即使有偏差也大差不差。但是对于翻译,需要一定的翻译质量。

    对于翻译来讲 deepseek-coder-v2 > gemma2 > llama3.1 。

    平时用到的翻译是 Bob 翻译+沉浸式翻译,用的还挺频繁的。

    所以大家还有什么小一点的模型推荐跑一跑试一下?主要做一些小任务。

    13 条回复    2025-03-08 22:31:46 +08:00
    forgottencoast
        1
    forgottencoast  
       216 天前
    微软好像有好几个小模型。
    tozp
        2
    tozp  
       216 天前
    微软刚发布的 phi4-mini 3.8b 是目前效果最好的小模型,可以去看 hf 介绍,我在 Orin Nano 上部署了一个用,很不错。
    lchynn
        3
    lchynn  
       216 天前
    @tozp phi4-mini 这个审核太过分了, 让它模拟川普口吻写一个发言稿, 立刻拒绝了, 特么美国粉红模型啊
    BernieDu
        4
    BernieDu  
       216 天前
    小模型肯定是新出的 qwq32 最好,不过 ollama 默认 q4 需要 20g 显存,你可以等等看有没有人量化 q2 的
    Kinnikuman
        5
    Kinnikuman  
    OP
       216 天前
    $ ollama run phi4
    pulling manifest
    pulling fd7b6731c33c... 54% 4.9 GB/9.1 GB 104 MB/s 44s



    @tozp 我试试这个 phi4
    listenfree
        6
    listenfree  
       216 天前
    Q2 量化,我测试了,很不好使
    wwhc
        7
    wwhc  
    216 天前
    推荐 Qwen2.5-14B-Instruct-1M-Q5_K_L.gguf 或 Qwen2.5-7B-Instruct-1M-Q6_K_L.gguf ,不建议 Distill 版本,Distill 版本更于擅长于解决推理或数学问题。另外建议直接使用 llama.cpp
    Leon6868
        8
    Leon6868  
       216 天前
    Qwen2.5 14B .不要用 QwQ ,QwQ 是刷分模型
    tabc2tgacd
        9
    tabc2tgacd  
       215 天前
    @BernieDu q4 量化后的效果并不好,ollama 提供的就是这种,我昨天测试直接一直卡在思考中了
    uncleroot
        10
    uncleroot  
       215 天前
    中英翻译和取标题,Qwen 系列应该是开源系列效果最好的。
    mU9vX912XopmAoE1
        11
    mU9vX912XopmAoE1  
       215 天前
    @tozp
    @BernieDu

    https://huggingface.co/spaces/Jellyfish042/UncheatableEval

    根的榜, 最好的是 Llama-3.2-3B 第二 Qwen2.5-3B 第三 RWKV-x070-World-2.9B-v3-20250211-ctx4096
    mortal
        12
    mortal  
       215 天前 via iPhone
    我用 glm-4-9b
    tool2dx
        13
    tool2dx  
       215 天前 via Android
    @tozp 测试了一下,好强。能秒一堆低参数模型,差不多赶上 deepseek 14b 了。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5077 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 32ms UTC 03:52 PVG 11:52 LAX 20:52 JFK 23:52
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86