要爬网页的时候,每次用 python 写都是容易跳出验证,有些要登录的更麻烦,后来我发现写浏览器扩展,直接操作当前的页面好像不用考虑那么多情况,爬到的数据直接发到接口处理。所以问下大家,我这个是 Python 用得不好,技能点歪了吗?
1 cyhlnj 231 天前 扩展怎么写的 |
![]() | 2 aladd 231 天前 同策略,因为我不会写代码,过验证对我来说太难了,外加我维护的小玩具难度太低了,有结果就行。 所以我一直这么玩的,并很满意! |
![]() | 3 callmejoejoe 231 天前 看需求,简单少量的数据爬取用扩展也可以,就是速度慢,还得开着电脑浏览器不休眠 |
4 fidcz123 231 天前 尝试过事件以及网上大部分操作都无效 对于多页之类的总不可能一个个手动点 |
![]() | 5 815979670 231 天前 写扩展也麻烦 可以写油猴插件 JS 就能操作 |
![]() | 7 lisxour 231 天前 无头啊,浏览器扩展不觉得很受限嘛?完全吃力不讨好 |
![]() | 8 TimePPT PRO playwright+无头浏览器,解决 80%问题 |
![]() | 10 yahon 231 天前 简单的我一般用这个插件 https://tenrabbits.github.io/user-js-css-docs/ |
11 irever 231 天前 简单使用的话可以试试 WebScraper |
![]() | 12 picone 231 天前 量少的话确实很方便,直接兼容所有反爬策略,验证码除外。 我喜欢用 automa 这个插件,不用自己手写。 |
13 ruaRobot 231 天前 确实,经常用 puppeteer 做 |
14 sofukwird 231 天前 via Android t/1028977#reply50 把页面资源通过 http proxy 代理暴露出来 |
![]() | 15 hanssx 231 天前 不是,你扩展怎么就能过 cf 了吗?还是说你手动过了 cf ,扩展再工作,那你这顶多半自动化。 |
![]() | 16 kkk1234567 231 天前 selenium ,直接用浏览器爬 |
![]() | 17 Vegetable 231 天前 没歪,这样挺好的。 包括使用 MITM 代理+手动翻页,都是可行的方案。前提是看你什么需求。 对自动化要求高、规模大的当然不行,但很多爬虫其实不是这样的需求。 |
19 mumbler 231 天前 无头浏览器才是正确姿势 |
![]() | 20 freewind 231 天前 C# + webview2 自己做浏览器爬 扩展限制了很多权限 |
![]() | 24 cutecore 231 天前 一样,难搞的会用浏览器,用 Bulk URL Opener 和 Tampermonkey 来做。 |
![]() | 26 s2555 OP 有些网站我只要模拟点击下一页,然后拦截请求,就可以获取那些 api 的数据,但是有很多不行,半桶水水平。 |
![]() | 27 s2555 OP @callmejoejoe 用 python 模拟的话也要开着电脑啊,而且你还不能干别的了,浏览器扩展的话,我只要开着那个网页就行了。 |
![]() | 28 dawn009 231 天前 |
![]() | 29 Chatterleys 231 天前 简单的可以,但是风控都很难过,我平常做扩展类工具比较多,电商类的自动化工具 |
![]() | 30 soar0712 231 天前 我用 java 多,我的解决办法 1 、不复杂的话,用 java 操作无头浏览器,能抓住八成的数据; |
![]() | 32 cctv6 231 天前 via Android 哈哈,我之前做了一个,写着玩的没开源。 浏览器装上了插件之后,会同步当前的 tab 到服务端,用 websocket 个服务器同步状态。 服务器会下发命令,执行 js ,获取网页内容等等。 服务端下发任务的时候,可以随机分配任务到连接的客户端上,执行分布式任务。。 做出来了之后特别像后门软件,可以在没有察觉的情况下监控浏览器的上网情况。。。 |
![]() | 33 NerdHND 231 天前 无头浏览器爬虫可以看(这篇)[gaoconghui.github.io/2019/06/无头浏览器反爬与反反爬/] |
![]() | 34 abigeater 230 天前 用油猴写 教会怎么用油猴就好, 浏览器扩展没发布得启用开发者模式,教别人安装这个太麻烦了不同浏览器的扩展打包也麻烦 |
36 macaodoll 230 天前 我选择直接定制浏览器, |
39 guaguaguaxia1 230 天前 不管黑猫白猫 |
![]() | 40 iorilu 230 天前 插件怎么个玩法, 有没有开源得参考下 有时候也想爬点数据 |