小米的 MIMO 7B 小模型怎么没什么评测呢？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 198 天前的主题，其中的信息可能已经有所发展或是发生改变。

我记得上个月 MIMO 发布官方声称性能很强的，7B 的小模型打败了很多大模型，小米那天股价也飙涨了一波，抖音蛮多自媒体都在吹 MIMO 。但等了这么久没看到多少关于 MIMO 的实际使用评测的视频，怎么没人关心这个模型实际表现怎么样吗？

mimo

评测

38 条回复 2025-06-06 15:54:25 +08:00

play78

198 天前

一切尽在不研中。
----莫研
开完玩笑，说实在的，小米本身就没有什么技术研究底蕴，为什么一定要选这个模型呢，有其他那么多开源模型。

murmur

198 天前

模型领先的国内还是阿里和 deepseek 吧，这个领域要用就用最好的，甚至买商业服务的满血版，没必要为了小舍弃体验

小模型的使用场景非常固定，也就是做做查找和简单的翻译、语音识别、语音合成这些

tanszhe

198 天前

@play78 你在小米上班？

本打算测试一下，发现 ollama 上没有，运行起来麻烦

Cheez

PRO

198 天前

换句话说，7B 的模型有多少得到评测了呢？大家还是赞叹于 4o 的神奇，c4 的聪明。哪怕是 DeepSeek 也是一个几百 B 的大模型了，很少有人专门去测小模型。

mengdu

198 天前

风味小模型

tf2

198 天前

7B 的小模型打败了很多大模型不就是评测出来的吗？

moya

198 天前

因为有更好的 DeepSeek-R1-0528-Qwen3-8B

asdblue

198 天前

小模型讲究的是在小的前提下效果不错，但是跟大模型比就太弱了。
大家只想看你有多强，能不能再出一些奇观，你多小多大又怎么样呢？

nowant

198 天前

@Cheez 小模型意味着不是太吃算力，本地部署的门槛就更低了，我看 qwq32B 小模型就不少人实际部署评测，mimo 几乎没有。

nowant

198 天前

@lambdaq 那只是小米自己公布的数据，很多模型公布的是那么一回事，实际体验又是另一回事。

tf2

198 天前

@nowant 你自己把自己问题回答了。

别人评测是别人的挑选的使用场景，你自己业务是否适合是另外一回事。

robinchina

198 天前

@murmur 本地化小爱同学，如果小米中枢网关集成一个这个，那猛得一批

ihainan

198 天前

最近在做视频异常检测，目前用的 Qwen 2.5 VL ，晚点我自己部署一个小米的模型跑一下看看效果如何。

dhb233

198 天前

7b 这种小模型就是为了手机上离线用的吧，能打败的也只能是其他 7b 模型。换个其他 32b 模型，妥妥被碾压

rogerer

198 天前

@nowant 我一直没想明白本地部署的意义，现在 api 已经很便宜了

duanxianze

198 天前

因为没人用啊，没人会特意去本地部署一个 7b 的小模型

asdblue

198 天前

@rogerer 一般是商业上用的，数据隐私问题，比如金融领域里面信用数据、交易数据

pkoukk

198 天前

指甲刀打败了再多指甲刀，也还是指甲刀，大家不感兴趣很正常

caozhu

198 天前

小米的就算了，目前用 grok xAI ，写小说可太牛了。

nowant

198 天前

@ihainan 期待效果

rogerer

198 天前

@asdblue 我理解这个叫私有化部署，可以直接买全套方案，我比较疑惑的是个人用户部署一个 LLM 在自己的机器上

alading11

198 天前

@caozhu #19 大纲怎么准备的，我发现 grok 依旧需要你给出非常明确的大纲，并且还会存在多章节重复类似内容的情况

ciki

198 天前

国内除了 deepseek 和 qwen ，其他模型都没人用，7B 这种应用场景太小更没什么人关注

crackidz

198 天前

很多人其实不是很了解，小参数量的 SLM 其实有市场的，比如国内的 MiniCPM 。不过没什么水花意味着一般人其实也不怎么关注就是了，因为 SLM 的知识/智能本身确实有限，决定了它的应用范围本身不大。一般人觉得能用的模型至少也是 30B 以上尺寸的，目前低于这个尺寸的模型，要不然知识也跟不上，要么智能也跟不上，要么都两者都跟不上；只有在某些特定领域才可以达到能用的标准。同样的，小米的这个模型也没什么特点：DeepSeek 已经证明过了纯 RL 可以实现的事，重新实现一遍，放出来更像是一个复现实验，没必要特别关注。同样的 DeepSeek 重新开了一炉，效果对比可要好太多了 https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

crackidz

198 天前

@alading11 目前 AI 写小说跟人工写小说的方式差不多，就是工作流执行...

YsHaNg

198 天前

@nowant 因为这次 28 号 DeepSeek 发布了新蒸馏的 Qwen3-8B 然后才是 MiMo-7B-RL-0530：我明明是 5 月 30 号出生的，却被一颗来自 5 月 28 号的子弹打到了

QAZXCDSWE

198 天前

@tanszhe 朋友，说实话小米确实没有任何技术研究底蕴。问就是 HR 均寿

murmurkerman

198 天前 via iPhone

小模型即使再小，也要消耗大量系统资源。几天前试了下 Google 的 Gemma3n 4b 在 pixel 9 pro 上的表现，推理时候整个界面就开始卡了，已经不是内存的问题了。

JensenQian

198 天前

7b 的都玩具
32b 的我都觉得是

PrinceofInj

198 天前

模型不准确宁愿不用。就跟自动驾驶一样，没有达到完全自动，宁愿不用。

hanbing135

197 天前

尽在不言中小米字研

gg2018

197 天前

@rogerer #21 你可以想象一下，为什么不开通腾讯视频、爱奇艺视频呢？反而去买 NAS 搭建影视中心呢？本地化搭建成本特高，为什么呢？其实道理相通的。。。

lts9165

197 天前

自媒体逮什么吹什么，目的只是为了曝光量，毕竟吹两分钟的视频，他们可能半小时就能做出来，真让他评测这种冷门小模型，折腾半天，他测出来效果肯定比不上商用的几个巨头，没啥能吸引眼球的地方，肯定不会去做的。
7b 的模型，只有搞科研或者本职就是从事大模型研发的人的会去研究研究，这些人也不会去做自媒体那种日常场景的评测，因为这种模型的意义就是拿来蒸馏、微调，特定场景用（计算能力限制的终端）或者节约成本的。你只要看业界是否广泛用起来，就知道这个模型价值如何了。