爬虫的几个问题,请教一下大佬, - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
yixiugegegege
V2EX    Python

爬虫的几个问题,请教一下大佬,

  •  1
     
  •   yixiugegegege 2018-04-15 09:17:34 +08:00 4929 次点击
    这是一个创建于 2741 天前的主题,其中的信息可能已经有所发展或是发生改变。

    爬取一个网站

    1,会出现一个 5 位的 数字+字母的 干扰线验证码,请问哪里有可以学习这种识别验证码的文章或者源码。(已经百度,但是都是用 tesseract 最低级的验证码破解。我试了,识别不了)。

    2,这个网站需要增量爬取。静态页面 ,页数 3w+ 怎么才能有快捷的方法实现增量呢(想到:重新爬一遍,然后和数据库对比)

    3,定时爬取,(每天晚上 11 点)

    soli
        1
    soli  
       2018-04-15 09:24:58 +08:00
    验证码简单的话,可以试试机器学习搞。图省事儿的话,用打码平台。
    winsky
        2
    winsky  
       2018-04-15 10:00:16 +08:00   1
    增量:每次从最新的开始爬,校验获取的数据是不是已经有了,如果已经存在(或者已经有的数据超过一定条数),就直接结束
    qwertyegg
        3
    qwertyegg  
       2018-04-15 10:06:11 +08:00
    @soli 我有跟 lz 同样的疑问,现在我已经抓下来很多验证码的例子了,问题是怎么训练呢,用什么数据来训练比较好?
    Rufeer
        4
    Rufeer  
       2018-04-15 10:15:16 +08:00 via iPhone
    通常网站用的第三方的验证码方案,你可以看看源码里面的验证码怎么出来的,然后用这个可以生成足够的图片,参考 mnist 手写识别进行机器学习
    sheep3
        5
    sheep3  
       2018-04-15 10:23:08 +08:00
    1. 验证码接打码平台
    2. 你这个数据量不就是判断有没有,没有就抓去插入吗
    3. corntab 了解一下
    xuxueli
        6
    xuxueli  
       2018-04-15 10:32:56 +08:00 via Android
    分布式爬虫: https://github.com/xuxueli/xxl-crawler

    任务调度: https://github.com/xuxueli/xxl-job/

    (验证码接云识别服务)
    lihongming
        7
    lihongming  
       2018-04-15 10:49:27 +08:00 via Android
    简单的验证码用开源识别算法搞定,复杂的扔给扔给打码兔之类的平台搞定。能用钱解决的问题都不要花费时间,除非你想做研究而不是用于生产
    lvsemi1
        8
    lvsemi1  
       2018-04-15 12:51:13 +08:00 via Android
    我的做法,做成交互式的,验证码识别丢给实习生
    alvin666
        9
    alvin666  
       2018-04-15 13:46:49 +08:00 via Android
    5 楼正解,另外如果验证码不是生成的可以全爬下来做个数据库,有新的验证码直接在数据库里面找( 12306 的验证码识别就是这么干的)
    cyy564
        10
    cyy564  
       2018-04-15 14:12:12 +08:00
    图像处理之后再用 tesseract 识别
    golmic
        11
    golmic  
       2018-04-15 17:22:27 +08:00 via Android
    验证码识别:
    https://www.zhihu.com/answer/120141781

    如果需要可以联系我,方式见微信公众号 pydatame。

    增量抓取可以采用数据库对比或者本地记录爬取过的 url 等方式实现。
    jeffreychiu95
        12
    jeffreychiu95  
       2018-04-15 23:55:01 +08:00   1
    1. 搜索引擎、github 上面找一下是否已有关于目标网站验证码的代码实现。如果没有,可以看看有没有别的网站用同类型的验证码,再搜索。如果有研究的兴趣,学习图像处理和机器学习的相关知识。接入打码平台很便宜,同时你可以获取到标注好的数据集。之后自己训练模型去识别。
    2. 如果是像微博、知乎用户动态等 feed 流的,有明显的先后顺序的,可以考虑每次取出已有的最新的 id(或者其它标识),开始爬取,当爬到这个 id 时就停止。如果想获取像 v 站新发的帖子,新发布的网页这种的。数据量小的话,可以将已有的 url/id 读取到内存,看是否已经有。数据量大的话,Redis 了解一下~
    3. corntab
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2374 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 15:55 PVG 23:55 LAX 08:55 JFK 11:55
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86