V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

Learn Python the Hard Way

Python Sites

PyPI - Python Package Index

http://diveintopython.org/toc/index.html

Pocoo

值得关注的项目

PyPy

Celery

Jinja2

Read the Docs

gevent

pyenv

virtualenv

Sentry

Shovel

Pyflakes

pytest

Python 编程

pep8 Checker

Styles

PEP 8

Google Python Style Guide

Code Style from The Hitchhiker's Guide

这是一个创建于 2957 天前的主题，其中的信息可能已经有所发展或是发生改变。

proxy_list

很多网站对爬虫都会有 IP 访问频率的限制。如果你的爬虫只用一个 IP 来爬取，那就只能设置爬取间隔，来避免被网站屏蔽。但是这样爬虫的效率会大大下降，这个时候就需要使用代理 IP 来爬取数据。一个 IP 被屏蔽了，换一个 IP 继续爬取。此项目就是提供给你免费代理的。

需要免费代理的可以试试，如果对您有帮助，希望给个 Star ，谢谢！

Github 项目地址 gavin66 / proxy_list

特性

爬取、验证、存储、Web API 多进程分工合作。
验证代理有效性时使用协程来减少网络 IO 的等待时间。
持久化（目前使用 Redis ）爬取下来的代理。
提供 Web API，随时提取与删除代理。

使用

使用 Python3.6 开发的项目，没有对其他版本 Python 测试

克隆源码

git clone [email protected]:gavin66/proxy_list.git

安装依赖

pip install -r requirements.txt

运行脚本

python run.py

Web API

查看文档

文档截图

直接获取一个速度最快的代理

获取 https 的匿名代理，取前 5 个速度最快的

代理

Python

API

爬虫

24 条回复 2017-09-05 22:47:03 +08:00

Cooky

2017-09-04 12:55:15 +08:00 via Android

手动点赞

Le4fun

2017-09-04 13:35:33 +08:00

好东西，mark

est

2017-09-04 13:39:52 +08:00

很好。我已经把这些 ip 全部加黑名单了。

qiukun

2017-09-04 13:43:41 +08:00

@est 漂亮

oneofwower

2017-09-04 13:53:58 +08:00 via iPhone

@est 此帖终结

lwghappy

2017-09-04 13:55:56 +08:00

有测试过爬虫的效率怎么样？

ksaa0096329

2017-09-04 14:29:07 +08:00

@lwghappy 你指的是哪一方面？是使用这些代理的效率还是爬取这些代理的效率？如果是爬取的话，每个代理都会访问一遍 `https://httpbin.org/` 确定代理可用。也就是使用已持久化下来的，都是保证可用的，使用 Web API 获取的时候都会获取连接速度最快的。

ksaa0096329

2017-09-04 14:42:17 +08:00

@Cooky

ksaa0096329

2017-09-04 14:42:39 +08:00

@Le4fun

ksaa0096329

207-09-04 14:43:14 +08:00

@est

Itanium

2017-09-04 14:45:00 +08:00

反爬界的福音

former

2017-09-04 16:22:20 +08:00

@Itanium 反爬界是不是也每天爬一遍加 blocklist..

gyh

2017-09-04 19:04:11 +08:00

和 [IPProxyPool]( https://github.com/qiyeboy/IPProxyPool) 比有什么优势么

lj0014

2017-09-04 19:45:31 +08:00 via iPhone

顶，收藏备用

fhefh

2017-09-04 20:23:09 +08:00

顶收藏备用

Soar360

2017-09-04 21:08:32 +08:00

我也做了一个，话说，这个成本真的不高啊……
https://ip.coderbusy.com/

Orzzzz

2017-09-04 23:13:07 +08:00

搭车： https://github.com/wrfly/gus-proxy

把所有代理当一个来用。

suantong

2017-09-05 08:17:53 +08:00 via Android

刚在 tending 看到了

flyingfz

2017-09-05 09:37:39 +08:00

话说会不会用的人多了之后，被扒的网站很容易就把所有（或者大部分）的代理池分辨出来，然后大家都没得玩了。

ksaa0096329

2017-09-05 09:45:08 +08:00

@gyh 我原来用的就是这个项目，后来看了源码感觉很多地方复杂了，我又有代码洁癖。所以有了这个项目，如果看源码，有很多我是借鉴 IPProxyPool 的。

ksaa0096329

2017-09-05 09:46:28 +08:00

@flyingfz 再找其他的免费代理网站

jfry

2017-09-05 13:49:57 +08:00

顶收藏备用

pengdu

2017-09-05 16:45:03 +08:00

楼主帮忙科普下：
1，爬虫是怎么使用 IP 代理的？
2，如何贡献自己的 IP 作为爬虫代理？

谢谢！

wingyiu

2017-09-05 22:47:03 +08:00

@est 干得漂亮

推广 Github 项目：爬取免费可用代理，供爬虫等工具使用

proxy_list

特性

使用

Web API