
1 alanv2 2019-07-16 16:28:37 +08:00 制定 url 的匹配规则(正则),符合规则的 url 才爬,其他的过滤 |
2 cwjokaka 2019-07-16 16:35:07 +08:00 设置一个爬取深度 |
4 yumenoks OP @alanv2 开始是直接获取整个页面的链接,然后进行过滤,对 URL 的长度,后缀进行了过滤, 如果设置成 域名带有 WWW 的才保存的话,数量就很少.如果不这样设置的话就会跑到蜘蛛池里面去.所以有点尴尬. |
5 ClericPy 2019-07-17 00:49:19 +08:00 国外的有域名就有 ip,有 ip 就有地域吧,一大堆速度超快的 ip 转地域的,淘宝啊搜狐啊腾讯啊 遇到爬虫陷阱爬虫蜜罐或者脏数据混淆等反爬手段,没啥好办法啊,socket 连一下试试域名存在性?控制友好频率上代理池才是正路子,就算撇开是否合法,频率太高会被当作 dos 攻击告你的 |