
这是一个 ip 代理池项目
https://github.com/lujqme/proxy_pool
还有一个 Python 数据交流社群,数百名小伙伴们在这里交流数据抓取数据分析以及数据挖掘的内容,如果你有兴趣,也欢迎你加入!
微信群现有用户数百人,考虑增开分群。
为鼓励群里小伙伴动手写代码,让小伙伴们学习数据抓取的内容,群主会为每个成功贡献代码的小伙伴发红包,现在群昵称为 @指间沙、 @Vincent--LC 等数名小伙伴已经获得了近百元的红包奖励~~
如果你也对数据感兴趣,或者闲来无聊想写点代码,又有钱赚何乐而不为呢?
群早已超 100 人不能扫码进入,请加微信拉你入群,方式见
1 jjc27017 2017-11-18 13:11:40 +08:00 实测,群员之一,努力在学习,表示群里都是大神,群主也比较好耐心哈哈哈哈哈用¥来鼓励我们学习 |
2 ljhygh 2017-11-18 13:13:44 +08:00 本人目前群里一只小菜鸡,努力学习当中 |
3 NLL 2017-11-18 13:14:08 +08:00 可以的,练手挺好,坐等楼主项目完成 |
4 smileghost 2017-11-18 13:19:26 +08:00 超好玩的呀,群主大神带着我们飞,还有红包拿,美滋滋~(~ ̄ ̄)~ |
5 dlsflh 2017-11-18 13:21:39 +08:00 via Android 这楼上的回复我都觉得是机器人。点开除了第一个又好像没啥问题… |
8 xuyl 2017-11-18 13:27:29 +08:00 粗略看了下项目, 用 scrapy 做爬虫,pipelines 里数据持久化到 mongodb,只不过 process_items 方法有点小问题,没有去重。改成这样也许更好: ``` def process_item(self, item, spider): self.db['proxys'].update({'ip': item['ip']}, dict(item), True) return item ``` |
10 gamecreating 2017-11-18 15:48:20 +08:00 网站跪了 |
11 sunchen 2017-11-18 16:25:42 +08:00 爬的买的代理 IP 都是垃圾,ADSL 才是王道 |
12 cyancat0525 2017-11-18 17:19:32 +08:00 via Android 你确定这个是"池"吗 |
13 golmic OP @gamecreating #10 没有啊,一直正常 |
14 golmic OP @cyancat0525 #12 确定,后面还有一个打分系统 |
15 steveway 2017-11-18 19:31:59 +08:00 via Android 微信群并加不进去 |
19 gamecreating 2017-11-20 09:57:13 +08:00 @golmic 北京电信 无法链接 |
20 YMB 2017-11-20 10:42:07 +08:00 = = |
21 golmic OP @gamecreating #19 其他小伙伴没有反馈。我北京联通正常 |
22 Soar360 2017-11-21 11:28:48 +08:00 爬虫工程师的自()嗨 https://proxy.coderbusy.com/ |
25 beshe 2017-11-23 15:14:43 +08:00 |
26 golmic OP @beshe #25 这个项目我读过源码,存在多线程异步锁未释放问题,排查起来异常复杂,并且现在你去看看 issue 很多人提这个问题。所以自己基于 Scrapy 重写了一套,我也写了一套更完善的打分系统,后续也会开源出来。 |
27 doun 2017-11-25 08:21:47 +08:00 via Android 不是用 TOR 来做 IP 池比较好吗? |
28 sangmong 2017-11-27 21:50:09 +08:00 如何区分雌性雄性? |
29 sangmong 2017-11-27 21:50:33 +08:00 回复错了,尴尬。。。 |