搜狗微信的反爬虫规则是怎么样的?我每 2 分钟抓取一次可以吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
akaayy
V2EX    问与答

搜狗微信的反爬虫规则是怎么样的?我每 2 分钟抓取一次可以吗?

  •  
  •   akaayy 2016-03-03 23:07:14 +08:00 via Android 11950 次点击
    这是一个创建于 3529 天前的主题,其中的信息可能已经有所发展或是发生改变。
    或者每五分钟呢?(我说抓一次就是说抓一页)
    我要监控和抓的内容就是几个公众号,我可以尽量把频率隔的长一些

    如果被 ban 了,我是过多长时间才能再次正常使用?
    15 条回复    2016-03-29 15:29:45 +08:00
    gimp
        1
    gimp  
       2016-03-03 23:52:45 +08:00   1
    ban 了,你就开代理呗
    jessynt
        2
    jessynt  
       2016-03-03 23:56:13 +08:00   2
    尽可能模拟真实用户请求, 2 分钟一次当然没问题,如果被 Ban ,开代理 或者更换 IP ,网上很多免费代理的,不过要注意自己验证一下代理可用性
    shiny
        3
    shiny  
       2016-03-04 00:11:34 +08:00   1
    2014 年的时候分析过并绕过了搜狗的微信反爬虫规则,无需换 ip 就能大规模采集。
    只是采集来的微信内容很多有非法信息,被网警找过一次。
    akaayy
        4
    akaayy  
    OP
       2016-03-04 00:18:26 +08:00 via Android
    @shiny 怎么绕过的?分享一下思路啊


    @jessynt 真是用户访问多了都会出现验证码… -_-||
    raycloud
        5
    raycloud  
       2016-03-04 00:36:24 +08:00 via Android
    @akaayy 不知验证码被破次数多了会怎样?
    shiny
        6
    shiny  
       2016-03-04 00:39:50 +08:00   3
    @shiny 2014 年的策略现在可能过期了吧,我提供下当时的笔记吧:

    一、现象分析
    1. 如果没有完全模拟浏览器,会在访问数页之后进入 antispider 页面要求输入验证码
    2. 复制当前浏览器 cookies 后,可以访问更多页数,但一段时间后还是会触发验证码
    . 清理该 cookies 后无需验证码又可以访问
    4. 此系统属于搜狗平台化运维体系 http://wenku.baidu.com/view/1fa63e39b90d6c85ec3ac6c5.html

    二、两处 cookies 注入点
    1. 访问首页注入 cookie SUID 标识了一次会话
    2. antispider 页面有两种类型,第一次触发时仅仅使用 Javascript 注入 cookies SNUID ,表示此次访问的不是 spider ;第二次触发后显示验证码,但是只要重新访问首页获取新的 SUID ,就可以避免验证码识别或者更换 IP
    3. 自行拼接参数发送请求,可能导致嫌疑程度增加
    4. user-agent 含 spider/bot 的具有重大作案嫌疑,触发时直接返回 403

    三、反屏蔽机制尽量模拟浏览器
    1. 涉及 cookies 注入的图片和网页都访问一遍
    2. 使用 Javascript 注入的 cookies 全部抓取一遍并 setCookie
    3. 如果 antispider 页面( http://www.sogou.com/antispider/) 出现验证码,清理旧 cookies ,重新发起请求

    EOF.
    est
        7
    est  
       2016-03-04 09:36:22 +08:00
    搜狗收录不全的。我问过搜狗的哥们,他们也在绞尽脑汁想办法破解 微信 app
    814084764
        8
    814084764  
       2016-03-04 17:41:41 +08:00
    Mark 。。
    incompatible
        9
    incompatible  
       2016-03-06 14:13:03 +08:00 via iPhone
    @est 你这不是张口就讲胡话吗
    搜狗现在是腾讯的半个儿子,不需要做什么破解微信 APP 之类的事儿
    est
        10
    est  
       2016-03-06 16:27:25 +08:00
    @incompatible 你厉害。隔空判断真理。
    incompatible
        11
    incompatible  
       2016-03-06 21:16:53 +08:00
    @est 呵呵。你哥们在搜狗哪个部门啊? 我还真想去打听打听他们打算怎么破解微信 app 呢。
    est
        12
    est  
       2016-03-07 09:18:17 +08:00
    @incompatible 这样吧,拿事实说话,搜狗能检索 “招商银行” 这个公众号发的文章吗?
    incompatible
        13
    incompatible  
       2016-03-07 14:43:48 +08:00 via iPhone
    @est 搜不到。但是这并不能证明搜狗在做“绞尽脑汁去破解微信 app ”
    如果你真的有个哥们儿在搜狗且说过这样的话,你不妨透露一下他的部门。
    我作为搜狗前雇员,去打听一下“ 1 到底有没有这个部门 2 这个部门到底有没有在绞尽脑汁破解微信 app ”并不是什么难事儿。
    est
        14
    est  
       2016-03-07 15:20:10 +08:00
    @incompatible 好吧。我重新叙述一遍,“绞尽脑汁”是我夸张了。我所知道的情况是一位或者多位搜狗的开发者对逆向微信 app 很感兴趣而且做出了这方面尝试的努力。我进一步了解的细节是 weixin.sogou.com 并不能拿到全部的公众号数据所以他们产品需要另辟蹊径。用他们的话说,签合同入股不等于不使绊子,也不等于数据无保留全部开放。
    czzsean
        15
    czzsean  
       2016-03-29 15:29:45 +08:00
    发现传送门文章更新频率比搜狗微信的还及时。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     883 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 22:09 PVG 06:09 LAX 15:09 JFK 18:09
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86