自觉写得很烂,放上来听听各位大神的意见。
https://github.com/XIAZY/ComicFetcher.git
动机是因为想看的漫画没有打包好的,就只能写一个了。目前处于_只是能用_的状态。
![]() | 1 broono 2015-12-24 17:34:12 +08:00 666 今晚看看学习学习 |
![]() | 2 Earthman 2015-12-24 17:35:04 +08:00 楼主有空的话把其他的 ACG 站也抓一下吧,圣诞节迎来一波关闭潮。 |
![]() | 3 TJT 2015-12-24 17:36:51 +08:00 via Android 我也写过一个爬虫来收集工口漫画的,还能识别是黑白的还是彩色的,大概收集了一万多部,写得太烂就不贴出来了 动机? |
nbsp; 4 RqPS6rhmP3Nyn3Tm OP @Earthman 为啥会关闭? |
6 RqPS6rhmP3Nyn3Tm OP @broono 写得很烂,可能会误入岐途…… 还是多看看大神的代码吧 |
7 RqPS6rhmP3Nyn3Tm OP @TJT 动机非常健康…… |
![]() | 9 WildCat 2015-12-24 17:42:12 +08:00 自己用 scrapy + py2.7 发现好多字符集报错的地方无法定位。。。有空还是不用 scrapy 了 |
![]() | 12 Allianzcortex 2015-12-24 17:51:41 +08:00 写的代码挺好的啊:-) 分工也很合理 |
![]() | 13 xingo 2015-12-24 17:55:48 +08:00 利用闲暇时间乱写了 win 下一个利用 pixiv 移动端 API 的实现_(:3 」∠)_求轻拍,欢迎维护(。 https://blog.xingoxu.com/2015/12/PixInTouch/ |
14 RqPS6rhmP3Nyn3Tm OP @Allianzcortex 真的吗好感动 |
16 zhao511117 2015-12-24 18:14:20 +08:00 求教, python 爬虫入门看什么比较好?直接学框架吗? |
17 RqPS6rhmP3Nyn3Tm OP @zhao511117 我觉得直接学框架吧,毕竟 Python 还是要快速开发 |
![]() | 18 FrozenYogurtPuff 2015-12-24 18:18:42 +08:00 @BXIA 最近轻国被 jc 抓了 据说是腾讯举报的。。。 |
![]() | 21 kepenj 2015-12-24 18:34:01 +08:00 二次元友人,手动点赞 |
22 RqPS6rhmP3Nyn3Tm OP @FrozenYogurtPuff 那个据说是站长作死,把元老都赶出去了…… |
23 Andy1999 2015-12-24 18:45:21 +08:00 via iPhone 老司机愿意一起做 ACG 站吗 |
![]() | 24 Earthman 2015-12-24 18:49:54 +08:00 @FrozenYogurtPuff 腾讯的新闻写的是广州角川举报 |
![]() | 25 xuzywozz 2015-12-24 18:50:56 +08:00 前段时间用了 scrapy 感觉还挺不错的 |
26 RqPS6rhmP3Nyn3Tm OP @Andy1999 想倒是想,就是水平不够 做站基本就是 wordpress 的水平 |
27 Andy1999 2015-12-24 19:07:32 +08:00 via iPhone |
![]() | 28 caixiexin 2015-12-24 19:13:12 +08:00 via Android 年初用 py2.x 写过一个爬爱漫画网站的,下下来放电纸书看,结果到现在只看完一本 233333 lz 加油, mark |
![]() | 30 bdbai 2015-12-24 19:32:23 +08:00 via iPhone @Andy1999 为什么你这句话各种违和呢。 @BXIA 很佩弧你第一次写爬虫写这么好。这是我用 Python 写的第一个脚本,用来抓微博图片的。不能更丑了。 https://github.com/bdbai/weibopic-crawler |
![]() | 31 icedx 2015-12-24 19:36:11 +08:00 https://gist.github.com/anonymous/c95fd30a078b74e83e32 这个是我写的 抓取 DMZJ 的日漫 本来是想作为插件的... 但是一直写不好插件化的架构 放出来互相学习一个 这个是学习 Python 一周的早期作品 PEP8 什么的完全不知道 23333333333 |
![]() | 33 Bryan0Z 2015-12-24 19:43:21 +08:00 via Android I completely understand that English-speaking people won't use this crawler. Just scroll down for Chinese explanation. 为什么总感觉楼主在卖萌 2333 |
![]() | 34 limbo0 2015-12-24 20:44:30 +08:00 |
![]() | 36 limbo0 2015-12-24 20:46:25 +08:00 不知道封不封 IP 啊 可以改个多线程下 |
![]() | 37 FrozenYogurtPuff 2015-12-24 20:49:10 +08:00 @Earthman 想想看 角川在国内和谁合作啊 |
![]() | 38 binux 2015-12-24 21:28:52 +08:00 那, 既然 README 说要按格式写出正则, 那至少把可配置的部分独立出来, 好让人知道在哪改吧, 不然还得看代码. 然后既然可以配置了, 不可能每次配置复制一份代码吧, 所以把它做成类, 把参数传进去可好. |
39 RqPS6rhmP3Nyn3Tm OP @binux 有点没理解。就是说把正则匹配的那块做成类暴露给用户? |
41 RqPS6rhmP3Nyn3Tm 2015-12-24 21:48:18 +08:00 via iPad @binux 本来是想直接用命令行参数的,后来发现会被 bash 吃掉…… |
43 RqPS6rhmP3Nyn3Tm OP @binux 对哦有道理 谢谢巨巨 |
44 Pythagodzilla 2015-12-24 22:05:27 +08:00 |
![]() | 45 TJT 2015-12-25 07:52:09 +08:00 |
47 Andy1999 2015-12-25 09:22:12 +08:00 via iPhone |
![]() | 48 xavierskip 2015-12-25 10:31:02 +08:00 哈,我以前写过一爬虫,用来爬虎扑相册上的图片。后来我把灌篮高手传到虎扑上去,然后就利用虎扑做图床做了个站点,在线看灌篮高手了。哈 |
![]() | 49 zengyu 2015-12-25 12:57:31 +08:00 mark |
![]() | 51 samael 2015-12-25 13:42:06 +08:00 嗯... 都是爬本子 |
![]() | 52 aceseo 2015-12-25 16:43:00 +08:00 楼主你可以的~ |
53 annielong 2015-12-25 17:01:47 +08:00 爬过几十个 G 的 H 漫画,结果一个也没看 |
54 qnnnnez 2015-12-25 20:13:07 +08:00 via iPhone |
56 k1wangziyu 2016-07-24 20:04:00 +08:00 虽然知道这是坟贴,但我想问一句,似乎每个人都说自己学了一周就搞出来个什么什么 |