测试了几个 OCR - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
pxiphx891
0.01D
V2EX    分享发现

测试了几个 OCR

  •  
  •   pxiphx891 271 天前 3007 次点击
    这是一个创建于 271 天前的主题,其中的信息可能已经有所发展或是发生改变。
    今天下载了一个 DVD 视频,字幕格式为 dvd_subtitle ,字幕锯齿感严重,因此想利用 OCR 把字幕识别成文字。
    于是我在 github 找到了这么一个项目: https://github.com/vincrichard/VobSub-ML-OCR ,运行之后,发现自带的 easyocr 效果不太好,所以就又找了几个 ocr 的项目测试。
    这是原图:


    这是使用飞桨 PP-OCRv4 的效果(测试地址: https://aistudio.baidu.com/community/app/91660/webUI ):
    高效率模型方案


    高精度模型方案


    这是使用微信提取出来的 OCR 测试的效果(来源于 t/1120897 ):
    "ocr_response": [
    {
    "bottom": 391.0640563964844,
    "left": 199.8789825439453,
    "rate": 0.9488778710365295,
    "right": 513.5093383789062,
    "text": "那麽我无论如何",
    "top": 349.4739685058594
    },
    {
    "bottom": 429.15313720703125,
    "left": 220.19375610351562,
    "rate": 0.9376645088195801,
    "right": 492.0656433105469,
    "text": "都要噌试一下",
    "top": 392.0796813964844
    }
    ]

    这是使用阿里云百炼(地址: https://help.aliyun.com/zh/model-studio/models#55c81ba3ccgct )通义千问 OCR qwen-vl-ocr-latest 识别的结果:
    20 条回复    2025-04-06 22:16:16 +08:00
    Doraemontree
        1
    Doraemontree  
       271 天前
    是不是繁体的不好识别
    ShenZhen
        2
    ShenZhen  
       271 天前
    综合哪个好用?
    pxiphx891
        3
    pxiphx891  
    OP
       271 天前
    @Lucoie 通义千问 OCR 和微信 OCR 效果都很好,飞桨不行
    docx
        4
    docx  
       271 天前 via iPhone
    如果是简体呢
    pxiphx891
        5
    pxiphx891  
    OP
       271 天前
    @docx 如果是简体,所有模型都是秒杀
    ha1o
        6
    ha1o  
       271 天前
    想问下,假设识别率 100%,后续是要把原字幕完全替换一遍生成新字幕吗?那岂不是要输入加载原字幕的视频?
    SakuraYuki
        7
    SakuraYuki  
       271 天前
    苹果自带的这个好像还行
    pxiphx891
        8
    pxiphx891  
    OP
       271 天前
    @SakuraYuki 这是什么软件?
    pxiphx891
        9
    pxiphx891  
    OP
       271 天前
    @ha1o VobSub-ML-OCR 这个项目是可以生成 srt 的,可以了解一下
    BluePadge
        10
    BluePadge  
       271 天前

    Google AI Studio 中的 Gemini pro 2.5 识别结果
    PRStarDust
        11
    PRStarDust  
       271 天前
    试了一下 RapidOCR-API ,直接跳过了繁体哈哈哈
    ```json
    {
    "0": {
    "dt_boxes": [
    [
    206,
    354
    ],
    [
    513,
    355
    ],
    [
    513,
    392
    ],
    [
    206,
    390
    ]
    ],
    "rec_txt": "那我无论如何",
    "score": "0.9971"
    },
    "1": {
    "dt_boxes": [
    [
    228,
    394
    ],
    [
    490,
    394
    ],
    [
    490,
    430
    ],
    [
    228,
    430
    ]
    ],
    "rec_txt": "都要试一下",
    "score": "0.9877"
    }
    }
    ```
    rqYzyAced2NbD8fw
        12
    rqYzyAced2NbD8fw  
       271 天前
    要不是现在的 vision llm 无法返回每个字的坐标,传统 OCR 估计直接被淘汰了
    因为就算是人眼,识别文字也要靠上下文。比方说有些人可能会把看成葡萄。但是如果我说,“我要用插你屁眼”,那这两个字是什么一眼就明白了
    icemaple
        13
    icemaple  
       271 天前
    一直在用 abbyy
    SakuraYuki
        14
    SakuraYuki  
       271 天前
    @pxiphx891 #8 bob ,调用自带的 ocr 接口
    Mar5
        15
    Mar5  
       271 天前
    现在 OCR 我都丢给 Gemini ,我儿子小学 5 年级,字很差的 400 字作文 OCR 就错了 3 个字
    obeyatonce
        16
    obeyatonce  
       269 天前
    api 调用百度高精度 ocr 的识别结果:那麽我无论如何都要嘈试一下
    zggsong
        17
    zggsong  
       269 天前


    微信 OCR 还是很好用的
    lozzow
        18
    lozzow  
       268 天前
    可以尝试拆字后识别再重新合并,会有包不错的提升
    iorilu
        19
    iorilu  
       267 天前
    @zggsong 这是什么项目阿, 自己部署的吗, 求分享
    zggsong
        20
    zggsong  
       266 天前 via iPhone
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5188 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 39ms UTC 01:32 PVG 09:32 LAX 17:32 JFK 20:32
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86