我目前在做图像识别和分类的相关开发工作,(识别性别年龄) 刚开始用的 clip 模型, 但是速度跟不上, 已经上了 5090 * 6, 加 l20 * 4, 速度都不太理想, 吞吐量不行, 后面问了同行, 他们用的是 MobileNetV2 训练调优的, 速度还不错, 我就也想试试了,
训练一圈下来识别率很低(当然这里可能是我写的代码都不行
训练 mobilenet 前问 claude 和 grok, 说 clip 的确笨重, 用 mobilenet 怎么好怎么好
今天效果不满意, 我问 gemini3, 你猜怎么着, 他建议我用 clip 模型, 多模态啊 咋地, 你说他们狗不狗
优点: 懂语义:它看过几十亿张图,知道"骑马的人"长啥样,不会被背景搞晕。 无需训练:不用洗数据,不用跑 epoch ,直接推理。 泛化强:全身照、半身照、卡通图都能认。 