我花了一天,做了一款和「百度」比肩的 OCR 图片识字工具 iText - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
quietjosen
V2EX    分享创造

我花了一天,做了一款和「百度」比肩的 OCR 图片识字工具 iText

  •  
  •   quietjosen
    atjason 2017-11-13 08:31:08 +08:00 15532 次点击
    这是一个创建于 2960 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这是我第 7 款 macOS 产品了:iText

    iText 是一款 从图片中识别文字 的 OCR 工具。

    • 集成百度深度学习算法(所以可以和百度 PK),识别结果惊人的准确
    • 配合截图、拖拽、选择图片文件等方式,操作非常便利

    通过截图识别

    选择屏幕任意区域,立即识别其中的文字。

    配合快捷键,截图更方便。默认快捷键为 1;当然,你可以在 iText 偏好设置中修改。

    通过拖拽识别

    比如,你在网上看到了一张图片、或者本地有个图片文件,都可以拖拽至 iText 菜单栏图标进行识别。

    通过选择图片文件识别

    当然,你也可以在 iText 菜单中选择图片文件进行识别。

    下载

    你会发现,对于 看扫描版 PDF 文件、登录才能复制文字的网页、对方以手机截图的方式发电话号码、等场景,iText 快速识字的功能,很有用、也很好用。

    目前,iText 还处于封闭内测期。如需体验,请联系:[email protected]

    第 1 条附言    2017-11-13 19:52:12 +08:00
    求:有没有设计师朋友想给 iText 设计个脸面(Logo)啊?谢谢
    第 2 条附言    2017-11-30 19:49:59 +08:00

    iText 已上架 Mac App Store,点此下载

    89 条回复    2018-01-20 10:13:27 +08:00
    Willjim
        1
    Willjim  
       2017-11-13 08:38:27 +08:00 via Android
    哇,发现你特别喜欢通过状态栏做文章啊!东西感觉不错。
    ixixixe2
        2
    ixixixe2  
       2017-11-13 08:42:07 +08:00
    厉害了
    yu099
        3
    yu099  
       2017-11-13 08:43:00 +08:00 via Android
    三个点只识别出一个
    Telegram
        4
    Telegram  
       2017-11-13 08:44:02 +08:00
    看上去好棒
    quietjosen
        6
    quietjosen  
    OP
       2017-11-13 08:47:31 +08:00
    @yu099 你这种挑剔的精神,刺激了人们进步
    quietjosen
        7
    quietjosen  
    OP
       2017-11-13 08:47:46 +08:00
    @Telegram 试试也不错的 :)
    cxl008
        8
    cxl008  
       2017-11-13 08:50:22 +08:00
    没有下载地址? app store 搜不到啊
    houbaron
        9
    houbaron  
       2017-11-13 08:51:50 +08:00 via Android
    @cxl008 #8 楼主说封闭内测了
    Telegram
        10
    Telegram  
       2017-11-13 08:59:32 +08:00
    @quietjosen #7 可是我是 PC,无奈。
    AdamChrist
        11
    AdamChrist  
       2017-11-13 08:59:41 +08:00
    厉害了...点赞...
    gitgit
        12
    gitgit  
       2017-11-13 09:10:14 +08:00
    windows 版本有吗
    mokeyjay
        13
    mokeyjay      2017-11-13 09:11:21 +08:00
    Win 哭出声
    quickma
        14
    quickma  
       2017-11-13 09:24:27 +08:00   1
    这种很正规的识别怎么样都不会差,会差的是图文混排,字体倾斜,字体粗细不一致,可见程度不一致,等~~~~
    但还是很厉害的,我做一个验证码识别也就能到 70---------
    privil
        15
    privil  
       2017-11-13 09:26:05 +08:00   4
    很标题党了 = =
    VShawn
        16
    VShawn  
       2017-11-13 09:28:22 +08:00 via Android   1
    这种很规整的文章 tesseractOCR 就搞定了
    leeyom
        17
    leeyom  
       2017-11-13 09:38:32 +08:00
    太棒了,好东西噢
    CEBBCAT
        18
    CEBBCAT  
       2017-11-13 09:41:27 +08:00 via Android
    看起来不错,一看图就想起来 Snipaste 了,希望也是个很棒的软件
    only0jac
        19
    only0jac  
       2017-11-13 09:41:54 +08:00 via Android
    @gitgit
    @mokeyjay
    win 有什么可哭的,这种工具一大堆,秒 osx 几条街
    gitgit
        20
    gitgit  
       2017-11-13 09:43:11 +08:00
    @only0jac 元如此
    zzutmebwd
        21
    zzutmebwd  
       2017-11-13 09:43:52 +08:00 via Android   2
    @mokeyjay abbyy 秒一切
    quietjosen
        22
    quietjosen  
    OP
       2017-11-13 09:48:15 +08:00
    @x7395759 欢迎整个这种图来调戏一下 iText,看看它表现如何。
    wplct
        23
    wplct  
       2017-11-13 10:03:15 +08:00
    这种做交互上的创新也很不错。lz 厉害
    xuanboyi
        24
    xuanboyi  
       2017-11-13 10:05:18 +08:00 via iPhone
    真大神,收下膝盖
    Hayek
        25
    Hayek  
       2017-11-13 10:05:20 +08:00
    看标题以为在吹牛 x。
    点进来看内容是真牛 x。
    虽然识别使用的是接口,但是实现上还是挺好的。
    freefcw
        26
    freefcw  
       2017-11-13 10:09:36 +08:00
    不错不错,很方便的感觉
    xwartz
        27
    xwartz  
       2017-11-13 10:17:53 +08:00
    优秀
    quietjosen
        28
    quietjosen  
    OP
       2017-11-13 10:39:19 +08:00
    @Hayek 哈哈,看回复吓了一跳;识别这种事,还是有技术难度的;自己搞,肯定不如大公司。
    hester
        29
    hester  
       2017-11-13 10:44:34 +08:00   4
    太标题党了!
    看来 LZ 在此道越走越远...

    为什么说标题党呢?
    因为 文中 压根也没有拿出任何 “证据” 证实与百度比肩 是什么意思...

    另外,应该用了第三方的库,这种 OCR 类 App 同质化的比较严重,如果楼主能开源的话,供大家学习的话,或许还有些用处。
    livc
        30
    livc  
       2017-11-13 10:48:09 +08:00
    资词
    quietjosen
        31
    quietjosen  
    OP
       2017-11-13 10:50:54 +08:00
    @hester 请看正文第三行。
    hester
        32
    hester  
       2017-11-13 10:53:42 +08:00
    @quietjosen #31
    我就是看了
    集成百度深度学习算法(所以可以和百度 PK),识别结果惊人的准确

    才说的,所以才是标题党,我有说错吗?
    quietjosen
        33
    quietjosen  
    OP
       2017-11-13 10:57:44 +08:00
    @hester 好吧,听出了痛心疾首的感觉。
    icylogic
        34
    icylogic  
       2017-11-13 11:01:45 +08:00
    楼上想要 Windows 版的 …… Windows 有的,支持 100 多种语言

    https://i.loli.net/2017/11/13/5a090a6837c29.png

    顺便连翻译也有了

    https://ooo.0o0.ooo/2017/11/13/5a090a684990a.png
    quietjosen
        35
    quietjosen  
    OP
       2017-11-13 11:07:17 +08:00
    @icylogic 看来还是 Windows 软件生态丰富,去瞧瞧,关键是看看识别率。
    z0z
        36
    z0z  
       2017-11-13 11:10:20 +08:00
    这个需要在线识别吗?
    lwbjing
        37
    lwbjing  
       2017-11-13 11:29:58 +08:00 via iPhone
    一天,哈哈,,,李彦宏看了要流泪…
    quietjosen
        38
    quietjosen  
    OP
       2017-11-13 11:35:09 +08:00
    @z0z 需要,因为调用的是百度的服务。
    quietjosen
        39
    quietjosen  
    OP
       2017-11-13 11:36:01 +08:00
    @lwbjing 你错了,他笑还来不及,我昨晚刚给百度充值了 100 信仰币…
    hester
        40
    hester  
       2017-11-13 11:36:18 +08:00
    @quietjosen #33
    到没有那么夸张,但我的确很不喜欢纯标题党。(如果仅仅是自娱自乐 + 自黑 的话,我到觉得挺正常。)
    就好比,某些导购,明明东西不错,但是导购用的“话术”很是恶心,听着就没有购买的欲望了。
    (并不是针对你,或其他某些具体的人)
    quietjosen
        41
    quietjosen  
    OP
       2017-11-13 11:37:07 +08:00   1
    @hester 恩,明白。
    deadEgg
        42
    deadEgg  
       2017-11-13 11:53:07 +08:00
    嘿 cool
    artandlol
        43
    artandlol  
       2017-11-13 11:57:13 +08:00 via iPhone
    非年轻人还这么喜欢折腾 点赞
    icylogic
        44
    icylogic  
       2017-11-13 11:59:59 +08:00   1
    @quietjosen 七八年前开发的,好像没有用到 Deep Learning 吧,只是功能相对完善。

    我也好奇你的软件或者说百度的算法,有干扰的情况调教地怎么样。你的截图和我发的图其实都是最容易识别的情景。对于 OCR 来说也就是 MNIST 这个级别的工作吧 …… 不妨试试这两张,看看效果怎么样 ……

    https://i.loli.net/2017/11/13/5a0914552cfff.png
    https://i.loli.net/2017/11/13/5a09145667ffc.png

    原本就在屏幕上渲染的字体,比如视频中的字幕,更复杂的 b 站弹幕,这些文本其实本身可识别率非常高,只是背景有干扰。

    另一方面比如手写体、照片、扫描文档,这些字体有变形,识别率就更低了。

    后者其实我目前见到做得最好的也就是 Google 翻译 App,摄像头对着文本实时识别加翻译,App 会直接用翻译文本在手机取景界面上把原文替换掉,识别对了效果非常好。不过也经常完全识别错。微软的也不错,不过需要拍一下,一张一张扫。
    quietjosen
        45
    quietjosen  
    OP
       2017-11-13 12:05:44 +08:00
    @icylogic 我试了你提供的第 2 张图:



    第 1 张图也是可以的,你也可以自己试试。
    qdwang
        46
    qdwang  
       2017-11-13 12:11:05 +08:00 via iPhone
    看效果相当不错,应该很好用
    lanfeng007
        47
    lanfeng007  
       2017-11-13 12:24:38 +08:00
    mark 一下!
    notreami
        48
    notreami  
       2017-11-13 12:26:19 +08:00
    亮点在哪里?没有创新小 Demo,就不要放上来赶英超美了。
    gzlock
        49
    gzlock  
       2017-11-13 12:33:55 +08:00
    quietjosen
        50
    quietjosen  
    OP
       2017-11-13 13:08:45 +08:00
    @gzlock 是的
    BlackCat02
        51
    BlackCat02  
       2017-11-13 13:24:10 +08:00
    试了一下,对中文的识别不错。对 vim 里的代码识别了一下,就感觉有点差强人意。不知道百度这个接口是不是本身就不是针对英文的
    quietjosen
        52
    quietjosen  
    OP
       2017-11-13 13:37:35 +08:00
    @BlackCat02 恩,毕竟百度是中文起家的;如果是英文,估计得选择国外的服务。不过,代码不是英语,无法使用英语的规则对结果进行优化。
    surewen
        53
    surewen  
       2017-11-13 13:44:28 +08:00
    是用了百度云的 SDK ?曾经和你的想法一样,想做成 app ……

    接口啥都调完了,不过后面犯懒没做完……

    支持
    quietjosen
        54
    quietjosen  
    OP
       2017-11-13 13:57:22 +08:00
    @surewen 百度没有 macOS SDK,我是封装了其 REST API
    menc
        55
    menc  
       2017-11-13 14:35:54 +08:00
    调用了人家的服务,应该叫“给百度套了个壳”,不是叫做“比肩百度”,你得自己做一个才好意思比较。
    ty321ty
        56
    ty321ty  
       2017-11-13 14:38:12 +08:00
    @icylogic 找来找去这软件只有截图功能啊 几百 K 的大小 是我下载错软件了吗..
    surewen
        57
    surewen  
       2017-11-13 14:42:48 +08:00
    @quietjosen 嗯嗯,我说的就是 rest api。

    当时我还试过自己下载字库的图片,批量裁出来然后用 tesseract 来训练,结果中文的效果还是很差。
    quietjosen
        58
    quietjosen  
    OP
       2017-11-13 14:47:36 +08:00
    @menc 应该叫站在「百度肩膀」
    quietjosen
        59
    quietjosen  
    OP
       2017-11-13 14:48:05 +08:00
    @surewen 感觉这种离线的库,不如云服务;后者有天然优势,可以实时更新识别能力。
    dong3580
        60
    dong3580  
       2017-11-13 14:48:35 +08:00
    @ty321ty
    好像是这个,还是开源的,真是大牛,
    https://sourceforge.net/projects/capture2text/
    xy19009188
        61
    xy19009188  
       2017-11-13 15:25:40 +08:00
    那么有 Windows 版么
    quietjosen
        62
    quietjosen  
    OP
       2017-11-13 15:33:28 +08:00
    @xy19009188 没; Windows 应该有的,可以试试上面说的 Capture2text (我没试过)
    BlackCat02
        63
    BlackCat02  
       2017-11-13 15:57:34 +08:00
    @quietjosen 是的,代码并不符合自然语法规则
    Izual_Yang
        64
    Izual_Yang  
       2017-11-13 16:13:02 +08:00
    @mokeyjay #13
    curl.exe -s -F "action=submit" -F 'pic=@"本地图片.jpg"' http://ocr.shouji.sogou.com/v2/ocr/json | jq.exe -r ".result | .[].content"
    Izual_Yang
        65
    Izual_Yang  
       2017-11-13 16:14:05 +08:00
    @icylogic #44
    弹幕本来就是文本不是图片啊,你直接从 xml 里提取文字不就行了
    aver4vex
        66
    aver4vex  
       2017-11-13 16:31:10 +08:00
    我去找个变态验证码试试,好的话,爬虫就有指望了。O(∩_∩)O 哈哈~
    ialva
        67
    ialva  
       2017-11-13 18:21:32 +08:00 via Android
    还差一台 MacBook 就能用上了
    quietjosen
        68
    quietjosen  
    OP
       2017-11-13 18:29:45 +08:00
    @aver4vex 变态码…别想了,有的连码它妈都不认识…
    xy19009188
        69
    xy19009188  
       2017-11-13 18:52:04 +08:00 via Android
    @quietjosen 试了下,识别不太好
    quietjosen
        70
    quietjosen  
    OP
       2017-11-13 19:15:31 +08:00
    @xy19009188 方便的话,把图片发过来,我这边也试试。
    tnx2014
        71
    tnx2014  
       2017-11-13 21:13:03 +08:00   2
    看标题,我还以为是楼主自己的算法,结果还是调用别人的接口,这一点也不稀奇( Windows 下一堆调用百度、搜狗识别引擎的真的很多),虽然楼主也付出了一定的劳动,但既然用了别人的东西还说“比肩”那真的是用词不当,站在巨人肩膀上不等于比肩,如果楼主认为两者等价那我只能遗憾地表示我认为您语文不太好。

    当然楼主说“比肩”也可能有调侃意味,不过我建议本着说话负责的态度,有些东西还是别开玩笑。楼主做一个小工具给他人用值得表扬,但是既然核心算法是他人的,还是低调一些为好。

    我说话有时候不好听,对事不对人,如有让你不舒服的地方我先表示抱歉。
    quietjosen
        72
    quietjosen  
    OP
       2017-11-13 21:28:44 +08:00
    @tnx2014 我花了一天,做了一款站在「百度」肩膀上的 OCR 图片识字工具 iText
    mainjzb
        73
    mainjzb  
       2017-11-13 23:06:16 +08:00
    @hester 试了一下。。识别率低下。。。中文。 样品是百度随便搜索了一下出来的页面
    WhiteSJ
        74
    WhiteSJ  
       2017-11-13 23:36:43 +08:00
    厉害了, 很有用啊
    cptbtp
        75
    cptbtp  
       2017-11-14 08:08:36 +08:00
    厉害了。
    xiaogu0322
        76
    xiaogu0322  
       2017-11-14 09:13:06 +08:00
    @leeyom 你真棒~
    awfe
        77
    awfe  
       2017-11-14 15:03:07 +08:00
    看到 iText 这个名字还以为是搞 pdf 的……

    https://itextpdf.com/
    quietjosen
        78
    quietjosen  
    OP
       2017-11-14 19:19:17 +08:00
    @awfe 其实 iText 这个名字是随意想的,毕竟总共做这个东西才几天;不过也挺契合我的其他产品名( iPic/iTimer/iHosts/iPaste ),估计不打算改了。
    jwangkun
        79
    jwangkun  
       2017-11-15 12:14:10 +08:00
    试用了一下,非常好,以后再也不用百度文库下载券了,我看试用期只有 30 天,之后是要收费么
    sangmong
        80
    sangmong  
       2017-11-15 14:12:42 +08:00
    有没有 iphone 上的呢
    quietjosen
        81
    quietjosen  
    OP
       2017-11-16 00:20:01 +08:00
    @jwangkun 30 天之内,估计还会有新的内测版。不过,发布后肯定是收费产品,可能是订阅或按次收费。
    quietjosen
        82
    quietjosen  
    OP
       2017-11-16 00:20:12 +08:00
    @sangmong iPhone 下试试「白描」
    Jibunuo
        83
    Jibunuo  
       2017-11-17 16:32:28 +08:00 via Android
    厉害!
    hvsy
        84
    hvsy  
       2017-11-17 22:46:57 +08:00
    好厉害,已经发邮件了.希望能够试用一下.
    Marsss
        85
    Marsss  
       2017-12-07 09:59:57 +08:00
    中英文混合的识别率怎么样?
    quietjosen
        86
    quietjosen  
    OP
       2017-12-07 10:09:30 +08:00 via iPhone
    腾讯在这方面还行,感觉百度英文稍差些,iText 用的是腾讯。

    iText 已上架 MAS,何不下载试试?
    quietjosen
        87
    quietjosen  
    OP
       2017-12-07 20:02:45 +08:00
    @Marsss 楼上回复忘记 @ 了
    zhihuixiangying
        88
    zhihuixiangying  
       2018-01-20 00:21:55 +08:00
    体验感觉挺不错的。
    quietjosen
        89
    quietjosen  
    OP
       2018-01-20 10:13:27 +08:00
    @zhihuixiangying 吃的就是这碗饭,体验必须搞好
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2501 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 02:42 PVG 10:42 LAX 18:42 JFK 21:42
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86