
上周看到有人在论坛问爬虫懒加载的问题,正好也有朋友在做这个爬虫练习项目, 分享一下,仅供参考,欢迎交流爬虫技术和场景
使用网页自动化的方式,而且使用的是用户浏览器,不易被反扒监测。 数据量不大的话,也无需所分布式,是一个很好的选择哈。
1 i8k 2022-09-11 12:58:25 +08:00 没有把图片按文章目录分类啊 |
2 automation2022 OP @i8k 嗯,这个就比较简单了,拿到 album 的名字,在 picture 下建子目录就可以的 |
3 i8k 2022-09-11 13:03:36 +08:00 @automation2022 好,我自己补一下 |
&nbp; 4 websql 2022-09-11 15:48:16 +08:00 1 、要用 ip 池子,不然很容易被网站屏蔽了爬虫 IP 2 、图片下载失败后,删除本地文件,重新下载图片 |
5 Puteulanus 2022-09-11 16:01:27 +08:00 练习项目更建议手工爬,操作浏览器看起来简单,练到的东西也就少了 |
6 automation2022 OP @websql 嗯,说的对。 数据量不大的话,搞个代理,自动切换代理服务器, 不过没有做这方面的测试 |
7 Dart 2022-09-13 11:24:27 +08:00 厉害!学习到了不少东西 |
8 cy1027 2022-09-13 16:17:58 +08:00 selenium 换代理太麻烦了,我反正只会删除实例再创建一个然后改代理,真想学还是建议研究研究逆向什么的,模拟器还是不太够用 |
9 automation2022 OP @Dart 欢迎多交流 |