测试了几个 OCR

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 271 天前的主题，其中的信息可能已经有所发展或是发生改变。

今天下载了一个 DVD 视频，字幕格式为 dvd_subtitle ，字幕锯齿感严重，因此想利用 OCR 把字幕识别成文字。
于是我在 github 找到了这么一个项目： https://github.com/vincrichard/VobSub-ML-OCR ，运行之后，发现自带的 easyocr 效果不太好，所以就又找了几个 ocr 的项目测试。
这是原图：

这是使用飞桨 PP-OCRv4 的效果（测试地址： https://aistudio.baidu.com/community/app/91660/webUI ）：
高效率模型方案

高精度模型方案

这是使用微信提取出来的 OCR 测试的效果（来源于 t/1120897 ）：
"ocr_response": [
{
"bottom": 391.0640563964844,
"left": 199.8789825439453,
"rate": 0.9488778710365295,
"right": 513.5093383789062,
"text": "那麽我无论如何",
"top": 349.4739685058594
},
{
"bottom": 429.15313720703125,
"left": 220.19375610351562,
"rate": 0.9376645088195801,
"right": 492.0656433105469,
"text": "都要噌试一下",
"top": 392.0796813964844
}
]

这是使用阿里云百炼（地址： https://help.aliyun.com/zh/model-studio/models#55c81ba3ccgct ）通义千问 OCR qwen-vl-ocr-latest 识别的结果：

OCR

字幕

测试

20 条回复 2025-04-06 22:16:16 +08:00

Doraemontree

271 天前

是不是繁体的不好识别

ShenZhen

271 天前

综合哪个好用？

pxiphx891

271 天前

@Lucoie 通义千问 OCR 和微信 OCR 效果都很好，飞桨不行

docx

271 天前 via iPhone

如果是简体呢

pxiphx891

271 天前

@docx 如果是简体，所有模型都是秒杀

ha1o

271 天前

想问下，假设识别率 100%，后续是要把原字幕完全替换一遍生成新字幕吗？那岂不是要输入加载原字幕的视频？

SakuraYuki

271 天前

苹果自带的这个好像还行

pxiphx891

271 天前

@SakuraYuki 这是什么软件？

pxiphx891

271 天前

@ha1o VobSub-ML-OCR 这个项目是可以生成 srt 的，可以了解一下

BluePadge

271 天前

Google AI Studio 中的 Gemini pro 2.5 识别结果

PRStarDust

271 天前

试了一下 RapidOCR-API ，直接跳过了繁体哈哈哈
```json
{
"0": {
"dt_boxes": [
[
206,
354
],
[
513,
355
],
[
513,
392
],
[
206,
390
]
],
"rec_txt": "那我无论如何",
"score": "0.9971"
},
"1": {
"dt_boxes": [
[
228,
394
],
[
490,
394
],
[
490,
430
],
[
228,
430
]
],
"rec_txt": "都要试一下",
"score": "0.9877"
}
}
```