虽然大家都说 58 同城的假数据较多,可我还是按耐不住抓取的热情。代码已实现 Scrapyd 部署,反反爬措施,Mysql 异步存储,UA、Retry 中间件等主要功能。但代码存在某处 Bug, 欢迎提交 issue。也欢迎您来 pull, 希望自己能长期维护更新下去。
Github 地址: https://github.com/Northxw/City58。欢迎 star。
![]() | 1 ReturnNull1 2019-04-09 08:29:53 +08:00 404 了 |
![]() | 2 lulinux 2019-04-09 08:41:00 +08:00 via Android 搞这个东西是不可怕的 |
3 rawidn 2019-04-09 08:51:30 +08:00 via iPhone 律师函警告 |
4 Northxw OP @lavenderkissyou emmm... 去浏览器访问, 应该可以进去的。 |
7 ccoming 2019-04-09 09:18:53 +08:00 加链接最好后面多留一个空格,免得: https://github.com/Northxw/City58%E3%80%82%E6%AC%A2%E8%BF%8E |
![]() | 9 stop9125 2019-04-09 10:21:12 +08:00 提几个建议 1.上传代码的时候去除多余的东西,类似于 _py* 和 *.pyc 2.密码不要暴露 3.那个 BUG 和邮箱服务关系不大,你可以再看一下 |
10 Northxw OP @stop9125 嗯嗯,比如我在.git 设置了忽略.idea,但是我之前已经上传了;然后关于密码,都已经作过更改或者失效了,哈哈;然后,那个 Bug, 慢慢研究吧 |
![]() | 11 guyeu 2019-04-09 10:48:37 +08:00 如果要 ignore 已经被 track 的文件,可以`git rm --cached ***` |
13 BB0923 2019-04-09 11:07:28 +08:00 好东西,小白怎样使用? |
![]() | 14 div class="sep3"> mokeyjay 2019-04-09 11:09:48 +08:00 58 的假数据不是较多,而是基本全都是= = |
![]() | 16 li02 2019-04-09 11:37:09 +08:00 去年搞了个跑在 Console 里的爬虫,爬自己的城市足够了 |
![]() | 20 luoleng 2019-06-23 21:06:28 +08:00 楼主研究过那个手势验证码嘛? |