请教:亿级数据,且有一定的反爬机制,爬虫怎么避免惊动监控且快速爬取 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
ton4
V2EX    程序员

请教:亿级数据,且有一定的反爬机制,爬虫怎么避免惊动监控且快速爬取

  ton4 2018-04-15 22:40:22 +08:00 6600 次点击
这是一个创建于 2742 天前的主题,其中的信息可能已经有所发展或是发生改变。

当爬虫遇到数据量巨大且防爬机制做的好的网站时,就很尴尬,爬的太快,会被封;速度降下来,进度条就不再前进了。 请教各位 V 友们,面对大型网站随时可能更改反爬策略,需要做出如何选择呢?

1、放慢速度,尽量不被发现,以时间换数量

2、全速爬取,能爬多少是多少,被封了再想办法

3、还有其他好方法吗,求教

28 条回复    2018-04-16 19:31:34 +08:00
R18
    1
R18  
   2018-04-15 22:47:36 +08:00 via Android
代理池了解一下
zhjits
    2
zhjits  
   2018-04-15 22:48:00 +08:00
多买 IP 地址
golmic
    3
golmic  
   2018-04-15 22:59:17 +08:00 via Android
愿意付费我可以接
ton4
    4
ton4  
OP
   2018-04-15 23:04:34 +08:00
@R18 @zhjits 目前用的这个 https://github.com/jhao104/proxy_pool 能找到百来个代理。
几亿的数据 几百个代理够用吗
boom7
    5
boom7  
   2018-04-15 23:11:44 +08:00 via Android
都亿级数据了你还想着用免费代理…差这点钱?
beforeuwait
    6
beforeuwait  
   2018-04-15 23:12:30 +08:00
这种情况哈,多代理的是必须的。
ton4
    7
ton4  
OP
   2018-04-15 23:18:51 +08:00
@boom7 哈哈 刚开始玩数据
ton4
    8
ton4  
OP
   2018-04-15 23:23:01 +08:00
@beforeuwait 多代理搞起啊,有好用的推荐一下
ton4
    9
ton4  
OP
   2018-04-15 23:23:28 +08:00
@golmic 加你了
sw10
    10
sw10  
   2018-04-15 23:26:17 +08:00
几百个代理,有点少。我维护的一个商用代理池,一天的代理量都有 40 万。

感兴趣的话,可以了解下:
/t/424630
golmic
    11
golmic  
   2018-04-15 23:40:13 +08:00 via Android
@ton4 微信没收到请求
golmic
    12
golmic  
   2018-04-15 23:40:34 +08:00 via Android
@ton4 公众号 pydatame 有我联系方式
woscaizi
    13
woscaizi  
   2018-04-15 23:43:48 +08:00 via iPhone
@sw10 私密代理是如何达到 10 万的呢,好奇。
woscaizi
    14
woscaizi  
   2018-04-15 23:44:43 +08:00 via iPhone
@sw10 宽带重播吗?
ton4
    15
ton4  
OP
   2018-04-15 23:49:19 +08:00
@golmic OK 加你公众号了,明天找你聊
lihongming
    16
lihongming  
   2018-04-15 23:53:53 +08:00 via Android   2
免费不太可能。
我知道一家跟你差不多的,亿级数据,有反爬措施。不仅如此,要爬的信息还是付费的,每个付费账号只能爬几千条。
他们在公司附近租了个民房,里面拉了 N 条宽带,电信联通移动等,能拉的都拉,能装几条就装几条(本来联通限制每个地址只能装 2 条,但搞定装机师傅,可以以邻居的地址装)。房间里放个机柜,服务器上跑的全是爬虫,爬几条就重新拨号换 IP、换账号……
gabon
    17
gabon  
   2018-04-15 23:57:16 +08:00 via Android
某代理网站买动态代理爬了一亿多的微博数据。
gabon
    18
gabon  
   2018-04-15 23:58:12 +08:00 via Android
@lihongming 原来是这样。。之前买的时候还在想他们怎么搞的
knightdf
    19
knightdf  
   2018-04-16 00:19:09 +08:00
@lihongming 牛逼
simonsww
    20
simonsww  
   2018-04-16 00:40:39 +08:00
@lihongming 这种的话,在一个地方,不停的拨号每天能获取的 ip 也是有限的吧,就算电信+联通+移动,每天 ip 数应该有限吧。(不过我没试验过)
Antidictator
    21
Antidictator  
   2018-04-16 01:09:52 +08:00
emmmmm,趁监控不注意?(看到"怎么避免惊动",突然想皮一下)
ton4
    22
ton4  
OP
   2018-04-16 09:16:45 +08:00 via iPhone
@Antidictator 刚觉得它没注意你,立马就被封掉的失落感啊
afpro
    23
afpro  
   2018-04-16 09:32:08 +08:00
现在爬人家数据都这么明目张胆的嘛
afpro
    24
afpro  
   2018-04-16 09:32:51 +08:00
就没考虑过发个邮件购买一份数据?
vtwoextb
    25
vtwoextb  
   2018-04-16 10:14:25 +08:00
重启路由器 机制 源码 https://github.com/hizdm/dynamic_ip
ton4
    26
ton4  
OP
   2018-04-16 12:27:35 +08:00
@afpro 发个邮件给谁
ton4
    27
ton4  
OP
   2018-04-16 12:31:33 +08:00
总结下来,简单粗暴的方法就是买非常多的代理 IP。但是还是有问题的,同类型的服务请求数量剧增,同样会引起注意,最好能模拟用户,在用户活跃的时间点里浑水摸鱼。
fate0
    28
fate0  
   2018-04-16 19:31:34 +08:00   1
免费的 https://github.com/fate0/proxylist 了解一下
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     979 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 28ms UTC 19:06 PVG 03:06 LAX 12:06 JFK 15:06
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86