当爬虫遇到数据量巨大且防爬机制做的好的网站时,就很尴尬,爬的太快,会被封;速度降下来,进度条就不再前进了。 请教各位 V 友们,面对大型网站随时可能更改反爬策略,需要做出如何选择呢?
1、放慢速度,尽量不被发现,以时间换数量
2、全速爬取,能爬多少是多少,被封了再想办法
3、还有其他好方法吗,求教
![]() | 1 R18 2018-04-15 22:47:36 +08:00 via Android 代理池了解一下 |
![]() | 2 zhjits 2018-04-15 22:48:00 +08:00 多买 IP 地址 |
3 golmic 2018-04-15 22:59:17 +08:00 via Android 愿意付费我可以接 |
4 ton4 OP |
5 boom7 2018-04-15 23:11:44 +08:00 via Android 都亿级数据了你还想着用免费代理…差这点钱? |
![]() | 6 beforeuwait 2018-04-15 23:12:30 +08:00 这种情况哈,多代理的是必须的。 |
8 ton4 OP @beforeuwait 多代理搞起啊,有好用的推荐一下 |
![]() | 16 lihongming 2018-04-15 23:53:53 +08:00 via Android ![]() 免费不太可能。 我知道一家跟你差不多的,亿级数据,有反爬措施。不仅如此,要爬的信息还是付费的,每个付费账号只能爬几千条。 他们在公司附近租了个民房,里面拉了 N 条宽带,电信联通移动等,能拉的都拉,能装几条就装几条(本来联通限制每个地址只能装 2 条,但搞定装机师傅,可以以邻居的地址装)。房间里放个机柜,服务器上跑的全是爬虫,爬几条就重新拨号换 IP、换账号…… |
17 gabon 2018-04-15 23:57:16 +08:00 via Android 某代理网站买动态代理爬了一亿多的微博数据。 |
18 gabon 2018-04-15 23:58:12 +08:00 via Android @lihongming 原来是这样。。之前买的时候还在想他们怎么搞的 |
![]() | 19 knightdf 2018-04-16 00:19:09 +08:00 @lihongming 牛逼 |
20 simonsww 2018-04-16 00:40:39 +08:00 @lihongming 这种的话,在一个地方,不停的拨号每天能获取的 ip 也是有限的吧,就算电信+联通+移动,每天 ip 数应该有限吧。(不过我没试验过) |
![]() | 21 Antidictator 2018-04-16 01:09:52 +08:00 emmmmm,趁监控不注意?(看到"怎么避免惊动",突然想皮一下) |
22 ton4 OP @Antidictator 刚觉得它没注意你,立马就被封掉的失落感啊 |
23 afpro 2018-04-16 09:32:08 +08:00 现在爬人家数据都这么明目张胆的嘛 |
24 afpro 2018-04-16 09:32:51 +08:00 就没考虑过发个邮件购买一份数据? |
![]() | 25 vtwoextb 2018-04-16 10:14:25 +08:00 重启路由器 机制 源码 https://github.com/hizdm/dynamic_ip |
27 ton4 OP 总结下来,简单粗暴的方法就是买非常多的代理 IP。但是还是有问题的,同类型的服务请求数量剧增,同样会引起注意,最好能模拟用户,在用户活跃的时间点里浑水摸鱼。 |
![]() | 28 fate0 2018-04-16 19:31:34 +08:00 ![]() 免费的 https://github.com/fate0/proxylist 了解一下 |