这个项目写了一段时间了,主要功能就是实时爬取 googlesearch 的结果。google 反爬很严格,我这边也没有很好的办法,后面可能也不太搞了,就整理了开源出去,希望能给其他人一些思路。 github: https://github.com/FastSchnell/googlebridge
目前只支持 python2.7,有兴趣的可以试一下 下载 wget http://googlebridge.com/googlebridge.py 运行 python googlebridge.py
1 mingyun 2017-08-29 23:08:38 +08:00 支持 py3 啊 |
![]() | 3 mckelvin 2017-08-30 00:03:18 +08:00 ![]() 楼主代码写得挺认真的,建议了解下 requests, urlparse, pyquery 或 BeautifulSoup, jinja2 这几个库,能剩不少代码。 |
![]() | 4 viosey 2017-08-30 00:08:52 +08:00 有办法爬 Google image 吗? |
![]() | 5 gaotongfei 2017-08-30 00:11:55 +08:00 via iPhone @mckelvin jinja 在爬虫中有什么应用? |
![]() | 6 mckelvin 2017-08-30 07:58:15 +08:00 via iPhone @gaotongfei 我也好奇呢。但楼主代码里有 html 模版。 |
![]() | 8 xiaozizayang 2017-08-30 08:25:06 +08:00 via Android 关键是对谷歌反爬机制的研究 我也写过一个 轮循谷歌全球域名 有点效果 https://github.com/howie6879/MagicGoogle |
9 jisibencom 2017-08-30 09:29:16 +08:00 难道用反代不是更方便些不? |
![]() | 10 Fing OP |