关于复杂网站的前端并行爬取方式 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
webee
V2EX    分享创造

关于复杂网站的前端并行爬取方式

  •  
  •   webee
    webee 2019-07-03 17:14:06 +08:00 3540 次点击
    这是一个创建于 2372 天前的主题,其中的信息可能已经有所发展或是发生改变。
    朋友让我帮忙爬取一些数据,由于目标网站( http://epub.sipo.gov.cn/gjcx.jsp) 采用的防爬虫策略,简单的模拟请求不行,使用 headless browser 简单试了一下,也不行; 由于我并不怎么做爬虫这块,想到在前端使用 js 爬取再提交到后端应该是最简单的,于是在浏览器中简单实验之后发现是可行的。

    于是写了一个后端服务用于分配任务和收集结果
    https://github.com/webee/PatentFetcher
    后端提供两个接口给前端爬虫使用:分配任务,提交结果

    前端提供一个 user script 执行具体爬取
    打开多个标签(注:浏览器有单个 ip 连接数限制),或多个浏览器, 甚至开不同的机器就可以实现分布式并行前端爬取了。

    搞定这个事情之后,就有个想法:
    前端爬取其实跟使用 headless browser ( Selenium,PhantomJS 等)原理一样的,都是模拟真实的前端环境,但这里的关键是分散地使用真实的客户端, 利用人们空闲的计算和流量资源,而不是使用自己的服务器。
    这可以解决许多复杂爬取面临地很多痛点:ip 限制,人机验证,足够的服务器,爬取速率等

    是否可以使这个方法通用化,类似众包的方式,搞一个任务平台,设计不同的执行前端( pc 客户端,浏览器 user script, app sdk, 专门的 app ),通过给用户付费,或者给开发者任务积分实现互助爬取,以解决一些复杂网站的爬取问题?

    我搜索了一下关于前端爬虫的项目,有些是纯独立客户端的前端爬取,有个类似想法的 DSpider,没怎么开发了。

    一个人的想法总是有局限的,
    欢迎大家讨论一下,这个事儿是否有意义,是否可行?
    9 条回复    2019-07-11 17:30:48 +08:00
    ho121
        1
    ho121  
       2019-07-03 17:46:25 +08:00 via Android
    买代理不行?
    webee
        2
    webee  
    OP
       2019-07-03 18:00:45 +08:00
    @ho121 这里主要不是代理的问题,如果能简单的在后端爬取,代理当然可行。
    这里的问题是对于复杂的不那么好爬取的网站使用前端爬取,解决各种后端爬取的痛点,同时实现资源共享。
    qilishasha
        3
    qilishasha  
       2019-07-03 18:01:15 +08:00
    在某宝有人出售肉鸡 API,便宜得很,不知道是不是有法律风险
    silencefent
        4
    silencefent  
       2019-07-04 08:59:46 +08:00
    流量宝这个软件听说过吗,理论上和你这个差不多一个意思
    Fcsle
        5
    Fcsle  
       2019-07-04 10:33:23 +08:00
    @qilishasha 关键词是啥
    qilishasha
        6
    qilishasha  
       2019-07-04 13:02:22 +08:00
    @Fcsle 所有的卖代理的都有
    webee
        7
    webee  
    OP
       2019-07-04 15:31:19 +08:00
    @silencefent 流量宝还是使用自己的的服务器来做刷流量的事情,其实我想的是真实用户共享合作来分享算力和流量,和众包是一个意思。
    webee
        8
    webee  
    OP
       2019-07-04 15:34:40 +08:00
    @silencefent 不好意思,仔细了解了一下,流量宝,确实也是共享的思想。。
    yangweijie
        9
    yangweijie  
       2019-07-11 17:30:48 +08:00
    专利这块爬取是很麻烦的,包括天眼查 和 zf 统一信用代码 甚至用上了 极验验证码。我都奔溃了,然后搞了个和你们思路一样的人肉采集,本来想开发 像京价宝 这样的插件的,时间未允许,后来就直接书签 写动态 js 采集 并请求后端更新数据,但是 必须协议一致。https 必须也 https。然后老板嫌麻烦 买了企查查的接口。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3150 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 11:00 PVG 19:00 LAX 03:00 JFK 06:00
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86