很多网站对爬虫都会有 IP 访问频率的限制。如果你的爬虫只用一个 IP 来爬取,那就只能设置爬取间隔,来避免被网站屏蔽。但是这样爬虫的效率会大大下降,这个时候就需要使用代理 IP 来爬取数据。一个 IP 被屏蔽了,换一个 IP 继续爬取。此项目就是提供给你免费代理的。
需要免费代理的可以试试,如果对您有帮助,希望给个 Star ,谢谢!
Github 项目地址 gavin66 / proxy_list
爬取、验证、存储、Web API 多进程分工合作。
验证代理有效性时使用协程来减少网络 IO 的等待时间。
持久化(目前使用 Redis )爬取下来的代理。
提供 Web API,随时提取与删除代理。
使用 Python3.6 开发的项目,没有对其他版本 Python 测试
克隆源码
git clone [email protected]:gavin66/proxy_list.git
安装依赖
pip install -r requirements.txt
运行脚本
python run.py
![]() | 1 Cooky 2017-09-04 12:55:15 +08:00 via Android 手动点赞 |
2 Le4fun 2017-09-04 13:35:33 +08:00 好东西,mark |
![]() | 3 est 2017-09-04 13:39:52 +08:00 ![]() 很好。我已经把这些 ip 全部加黑名单了。 |
5 oneofwower 2017-09-04 13:53:58 +08:00 via iPhone @est 此帖终结 |
![]() | 6 lwghappy 2017-09-04 13:55:56 +08:00 有测试过爬虫的效率怎么样? |
![]() | 7 ksaa0096329 OP @lwghappy 你指的是哪一方面?是使用这些代理的效率还是爬取这些代理的效率?如果是爬取的话,每个代理都会访问一遍 `https://httpbin.org/` 确定代理可用。也就是使用已持久化下来的,都是保证可用的,使用 Web API 获取的时候都会获取连接速度最快的。 |
![]() | 8 ksaa0096329 OP |
![]() | 9 ksaa0096329 OP |
![]() | 10 ksaa0096329 OP @est |
![]() | 11 Itanium 2017-09-04 14:45:00 +08:00 反爬界的福音 |
![]() | 13 gyh 2017-09-04 19:04:11 +08:00 和 [IPProxyPool]( https://github.com/qiyeboy/IPProxyPool) 比有什么优势么 |
![]() | 14 lj0014 2017-09-04 19:45:31 +08:00 via iPhone 顶,收藏备用 |
![]() | 15 fhefh 2017-09-04 20:23:09 +08:00 顶 收藏备用 |
![]() | 16 Soar360 2017-09-04 21:08:32 +08:00 我也做了一个,话说,这个成本真的不高啊…… https://ip.coderbusy.com/ |
![]() | 17 Orzzzz 2017-09-04 23:13:07 +08:00 |
18 suantong 2017-09-05 08:17:53 +08:00 via Android 刚在 tending 看到了 |
19 flyingfz 2017-09-05 09:37:39 +08:00 话说 会不会 用的人多了之后, 被扒的网站 很容易就 把所有(或者大部分)的代理池分辨出来, 然后大家都没得玩了。 |
![]() | 20 ksaa0096329 OP @gyh 我原来用的就是这个项目,后来看了源码感觉很多地方复杂了,我又有代码洁癖。所以有了这个项目,如果看源码,有很多我是借鉴 IPProxyPool 的。 |
![]() | 21 ksaa0096329 OP @flyingfz 再找其他的免费代理网站 |
22 jfry 2017-09-05 13:49:57 +08:00 顶 收藏备用 |
![]() | 23 pengdu 2017-09-05 16:45:03 +08:00 楼主帮忙科普下: 1,爬虫是怎么使用 IP 代理的? 2,如何贡献自己的 IP 作为爬虫代理? 谢谢! |