仅供练习使用,代码注释很详细
收集了一些各大网站登陆方式, 和一些网站的爬虫程序,有的是通过 selenium 登录,有的是通过抓包直接模拟登录,有的是利用 scrapy,希望对小白有所帮助,本项目用于研究和分享各大网站的模拟登陆方式,和爬虫程序,会持续更新。。。
昨天加了个班,对一些老代码进行了重构和测试,大部分都可以用。
欢迎 star
模拟登陆基本采用的是直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间,B 站,如果采用 selenium 就相对轻松一些。
虽然在登录的时候采用的是 selenium,为了效率,我们可以在登录过后得到的 cookie 维护起来,然后调用 requests 或者 scrapy 等进行数据采集,这样数据采集的速度可以得到保证。
![]() | 1 CriseLYJ OP ![]() 顶一下 |
2 ThunderMonkey 2019-03-07 10:10:10 +08:00 已 star,正好学习 |
![]() | 3 zhihaofans 2019-03-07 10:10:28 +08:00 via Android 厉害 |
4 kylix 2019-03-07 10:12:19 +08:00 顶一下,已 star |
5 zhila 2019-03-07 10:12:46 +08:00 感谢大佬分享 |
![]() | 6 zhihaofans 2019-03-07 10:13:13 +08:00 via Android Done 的 github 打错了 |
7 CallMeReznov 2019-03-07 10:14:52 +08:00 |
![]() | 8 zhangneww 2019-03-07 10:22:34 +08:00 支持一下! 项目里并没有 V2EX 的登录呀? |
![]() | 9 senggai 2019-03-07 10:25:03 +08:00 妙啊... |
![]() | 10 ARhen 2019-03-07 10:45:21 +08:00 厉害 |
![]() | 11 toono 2019-03-07 10:48:50 +08:00 via iPhone 优秀 |
![]() | 12 CriseLYJ OP 多谢支持,真心感谢 |
![]() | 13 CriseLYJ OP @zhihaofans 我去改掉,嘻嘻 |
![]() | 15 hellojay 2019-03-07 11:02:09 +08:00 厉害厉害 |
![]() | 16 exceloo 2019-03-07 11:03:18 +08:00 验证码是怎么解决的? |
![]() | 17 bonfy 2019-03-07 11:06:59 +08:00 好像 repo 里没有 V2 啊,我没看错吧 |
18 coeo91 2019-03-07 11:12:23 +08:00 via iPhone 验证码怎么过的 |
19 newmind 2019-03-07 11:15:04 +08:00 这么多网站 也是个强人 |
20 zxcvsh 2019-03-07 11:29:57 +08:00 via iPhone 项目没看,但是楼主有自动化识别验证码方面的研究可以单独开贴讲解一下 |
![]() | 23 claymore94 2019-03-07 11:33:42 +08:00 验证码看了下是下载验证码图片到本地 input 阻塞,手动输入的 |
![]() | 24 tanranran 2019-03-07 11:35:08 +08:00 666 mobaidalao |
![]() | 25 CriseLYJ OP 还是要你们多多支持,嘻嘻 |
![]() | 26 Lninn 2019-03-07 12:26:52 +08:00 via Android 不得不承认你很强 |
![]() | 27 fazero 2019-03-07 12:33:42 +08:00 via iPhone 雪球网可以吗 |
![]() | 28 ikw 2019-03-07 12:39:14 +08:00 via iPhone 解决了广大爬虫的第一步,有想法 |
![]() | 30 CriseLYJ OP 我会去尝试你们给我提的建议! |
![]() | 31 daydaydayup 2019-03-07 13:00:21 +08:00 via iPhone star 一波 |
![]() | 32 CriseLYJ OP @daydaydayup 多谢支持,哈哈 |
![]() | 33 wulin 2019-03-07 13:15:55 +08:00 star 支持一波 |
![]() | 35 CriseLYJ OP 评论是怎样加图片的啊啊啊啊啊啊 |
36 exip 2019-03-07 13:27:30 +08:00 via Android 像微信这种需要手机端扫码的怎么破? |
38 leesymbol 2019-03-07 13:41:59 +08:00 谢谢 |
39 xpresslink 2019-03-07 13:45:23 +08:00 star 为敬。 |
![]() | 40 CriseLYJ OP @xpresslink 多谢兄弟 |
![]() | 41 Etuloser 2019-03-07 13:57:40 +08:00 |
![]() | 42 CriseLYJ OP 谢谢你们 |
![]() | 43 martyartrt1 2019-03-07 14:05:15 +08:00 1688 搞一个 |
![]() | 44 CriseLYJ OP OOK |
![]() | 45 CriseLYJ OP @martyartrt1 可以尝试 |
![]() | 46 wutiaojian 2019-03-07 14:12:13 +08:00 验证码是滑块的,请问有么? |
![]() | 47 justff 2019-03-07 14:13:46 +08:00 淘宝登录脚本 测试结果是 File "taobao.py", line 32, in login login_links.click() selenium.common.exceptions.ElementNotVisibleException: Message: element not visi ble |
![]() | 48 WaJueJiPrince 2019-03-07 14:14:18 +08:00 @CriseLYJ 嗨,我看了您的 github 中的采集淘宝的爬虫代码,您采用的是 Sphash 的方式,但是淘宝应该需要登陆才能采集商品页面吧?也就是当我点击一类商品的时候会出现这种页面 https://i.loli.net/2019/03/07/5c80b61730d91.png 也就是要求登陆,请问您是怎么解决的呢?而且我在代码中似乎没有看到有关 Cookie 的信息。 |
![]() | 49 beneo 2019-03-07 14:18:05 +08:00 @WaJueJiPrince 我也有同样的疑问,哈哈 |
![]() | 50 CriseLYJ OP @wutiaojian bilibili 那个就是 |
![]() | 51 WaJueJiPrince 2019-03-07 14:31:01 +08:00 @beneo 您破解过淘宝登陆的验证码的那个吗?淘宝现在好像又升级了,似乎能检测到 Selenium,您有什么解决方案吗? |
![]() | 52 CriseLYJ OP 等我写说明文档 |
![]() | 53 tikazyq 2019-03-07 14:45:20 +08:00 via iPhone 支持,可以加入到 crawlab 做测试哈 |
![]() | 55 Liang 2019-03-07 14:52:13 +08:00 大众点评、美团 |
57 dadama 2019-03-07 14:52:59 +08:00 via Android 想问一下淘宝的登录,验证码 |
![]() | 58 CriseLYJ OP 哈哈 |
![]() | 59 ligthdawn 2019-03-07 15:18:56 +08:00 楼主有试过淘宝登录的吗?公司的电脑,不管上淘宝的哪个商品网页,一律要登录,手动拉滑动条都登录不了。因为前阵子一直在用 selenium 绕过淘宝的登录,也绕不过去,一直提示拉滑动条,后面不了了之。怀疑公司的 ip 给拉进淘宝的恶意名单了,不管上哪个淘宝商品网页就要登录,切到另一个淘宝商品网页又要登录,很烦。楼主有好办法吗? |
![]() | 60 littleangel 2019-03-07 15:19:29 +08:00 star 已递给大佬 |
![]() | 61 woshipanghu 2019-03-07 15:20:55 +08:00 美团外卖试试看 挺难搞定的 |
![]() | 62 jucelin 2019-03-07 16:03:46 +08:00 LZ 试试这个 http://wsjs.saic.gov.cn |
![]() | 63 oszlso 2019-03-07 16:12:19 +08:00 登陆 Apple ID |
![]() | 64 saltxy 2019-03-07 16:34:37 +08:00 大佬,已 star |
65 konikoo 2019-03-07 16:35:43 +08:00 淘宝的反爬虫很厉害,不知道 lz 这个的成功率是多少。 之前查过比较好的解决方案是用 pyppeteer |
66 konikoo 2019-03-07 16:39:19 +08:00 @ligthdawn 用 pyppeteer, 不要用 selenium,webdriver 一启动就直接被判定为爬虫,之后哪怕手动输入密码都不会验证通过。 或者玄学一下,用 firefox59.0.2 这个版本。同样的脚本和 selenium。这个版本的火狐绝大概率不会出现反爬虫。 |
![]() | 67 WaJueJiPrince 2019-03-07 16:45:53 +08:00 @konikoo 淘宝的判断 Selenium 的原理是什么呢? |
![]() | 68 laoyuan 2019-03-07 16:55:33 +08:00 没有煎蛋妹子图差评 |
69 konikoo 2019-03-07 17:04:08 +08:00 @WaJueJiPrince 你可以上网搜下,记得是会检查一个属性是不是为真。直接在浏览器的控制台也可以查看,手动启动和 selenium 启动之后的属性是相反的。 |
![]() | 70 CriseLYJ OP 被禁言了。。。 |
71 ismyyym 2019-03-07 17:23:25 +08:00 你这个背景颜色,看着字好难受 |
![]() | 73 aoe2ex 2019-03-07 17:27:03 +08:00 加星星,加星星 |
74 whitewolf 2019-03-07 17:28:50 +08:00 赶紧 star 一下 t |
![]() | 76 halfer53 2019-03-07 17:38:32 +08:00 @WaJueJiPrince window.navigator.webdriver === true,当然,这只是最基本的反爬虫 |
![]() | 77 WaJueJiPrince 2019-03-07 17:40:23 +08:00 @halfer53 谢谢 这个看到了 但是感觉淘宝应该不会只是设置了这个 |
![]() | 78 hiyouli 2019-03-07 17:49:18 +08:00 哎哟,这个不得了呢。 |
![]() | 79 CriseLYJ OP 多谢支持 |
80 becauseIdo 2019-03-07 18:07:51 +08:00 66666 |
![]() | 81 zhou00 2019-03-07 18:45:49 +08:00 感谢分享 |
![]() | 82 lance7in 2019-03-07 19:29:59 +08:00 佩服佩服 |
![]() | 83 CriseLYJ OP 多谢支持 |
![]() | 84 CriseLYJ OP ♂♂♂ |
![]() | 86 CriseLYJ OP 可以回去再试试 |
![]() | 87 515576745 2019-03-07 22:17:45 +08:00 淘宝那个之前研究过几天,发现用 selenium 基本都是暴毙,不管怎么修改 driver 内部属性淘宝还是能检测出来,直接出来滑动条。期待 lz 更新。~ 另外知乎 lz 是自己分析 js 吗?我看好多网上的爬虫分析都是到 js 这块就放弃了。。 |
![]() | 89 CriseLYJ OP 新增下载网易云的音乐!如果时间够多,我会尝试下载会员音乐! |
![]() | 90 CriseLYJ OP 帖子不能沉, |
![]() | 91 kajweb 2019-03-08 00:30:53 +08:00 https://mp.dayu.com 这个搞一下? |
92 lovestudykid 2019-03-08 01:07:47 +08:00 有 reCAPTCHA 的登陆怎么搞 |
![]() | 93 May725 2019-03-08 01:08:05 +08:00 强啊 |
![]() | 94 enrolls 2019-03-08 01:41:38 +08:00 关于对无头的检测,@konikoo 提及的 navigator.plugins.length == 0 是特征之一。https://antoinevastel.com/bot%20detection/2017/08/05/detect-chrome-headless.html |
95 theks 2019-03-08 02:39:58 +08:00 via Android 不错。如果能持续维护、适配就好了。加油。 |
![]() | 97 CriseLYJ OP 顶一下 |
![]() | 98 Sxxiong 2019-03-08 10:02:05 +08:00 大佬你好 我是个初学者 想问问 selenium+webdriver 能很好的判断网页加载完成吗 因为看到有时候浏览器标签页 logo 还在 loading 代码执行了登录 另外还有模拟点击的话 怎么避免网络影响 有没有适合初学者看的文档推荐一下 附一个用 request 没解决的网站: https://eu.battle.net/shop/zh/checkout/key-lookup |
![]() | 99 cmlhaha 2019-03-08 10:07:08 +08:00 via Android 顶一下,标记 |