都说 python 最擅长爬虫
但实际上我以前没啥需求, 没怎么实践过
请推荐下实际生产项目中好用的爬虫框架或方案
![]() | 1 xiaoriri666 277 天前 用 Scrapy 爬虫主要还是加解密其实跟语言的关系不大 |
2 xiebow 277 天前 scrapy +1 |
![]() | 3 4BVL25L90W260T9U 277 天前 爬虫不需要框架,选个 http 请求库可能更重要,比如 curl-cffi |
![]() | 4 Emma24 277 天前 入门:爬过时的数据 进阶:爬已有的数据 天堂:爬实时的数据 地狱:爬没有的数据 |
5 nyxsonsleep 277 天前 已经有人说 scrapy 了,那我加一个 playwright |
6 chenqh 277 天前 直接硬爬? |
![]() | 7 iorilu OP |
8 luzihang 276 天前 自己写脚本-->使用 feapder scrapy ……-->遇到问题具体问题,自己写脚本框架,scrapy 也用,主要看解决什么问题和开发速度而定 |
![]() | 9 Cy86 276 天前 我觉得 requests 应该够了吧, 直接把接口抓出来比较简单,我最近也在鼓捣爬虫练手, 你这是要爬啥网站呢 |
10 randy552162 276 天前 @iorilu 你说的这些好像都跟框架没啥关系,哪个框架都要你自己处理一下这些问题 |
11 yinft 276 天前 ![]() 其实没必要非纠结库,整个过程无非就是 构建请求-->解析数据-->存储存储。基于 aiohttp 随便玩 |
![]() | 12 iorilu OP @randy552162 有框架能处理部分这种问题的 , 当然了, 具体还要看怎么实践, 爬虫这东西其实细节很多, 爬 10 条数据和爬 1 万条完全两回事的 |
![]() | 13 llsquaer 276 天前 按照你这个要求其实不用框架,用框架反而增加负担,直接 requests 手撸开始。写多了,慢慢的你就写成自己的框架了。 |
14 adaonline 276 天前 自己手撸起来就行了 |
15 brianXGOGO 276 天前 DrissionPage 好用 |
16 fanjk 276 天前 我基本都是 requests 直接搞,不同的项目只需要替换对应的数据处理模块就行 |
![]() | 18 Cy86 272 天前 楼主不理我,我再捞一下, 目前我负责的爬虫抓取量每天在百万级, 月抓取量在亿级,主做舆情的 推荐: 百条用 requests 就行 几十万条有时效性就 aiohttp 同一个网站大量数据, scrapy 和 feapder 都可以 上亿条自己开发爬虫框架 你说的这几个问题: 访问限制, 需要登陆, 代理轮询, 执行 js, 错误重试 访问限制, 需要登陆: 对于反爬都是针对目标单独定制的,市面上没有能包含所有反爬的的框架 代理轮询最简单的就自己整个队列, 每次爬虫轮着取代理 ip, 对于账号绑定 IP 的,就单独开个服务针对要爬的渠道固定 IP 执行 js 可以单独作为一个服务旁运行, 需要执行的 js 扔进去只关注返回结果就好 感觉你可以说说你的整体目标是啥 |
![]() | 19 iorilu OP @Cy86 感谢你的分享 我不是主做爬虫业务的 ,只是最近个人有个想法, 另外想实践下 我的目标是个国外网站, 毕竟国内网站碰了有风险, 数量也就几万到几十万之间的级别, 总之是想给自己找个项目实践下爬虫相关, 当然我的主要目的不仅仅是爬数据, 另外也想实践下我上面说的各种其他爬虫相关的技术要点 |
![]() | 21 linxiaojialin 258 天前 @Cy86 请问一下,发起请求能跑满上行带宽的吗?用 aiohttp 单进程跑,好像也只有几 M 上行 |
![]() | 22 godall 256 天前 @Cy86 #18 有没有处理过网页请求指纹加密的处理?比如京东的价格保护,以前直接访问 url ,然后自己浏览器登录后 cookie 保存,然后提交每天跑就行了,现在不行了,他有个 t 的时间戳,超过一定时间比如 10 小时后就无效了,必须用新的时间戳加上本机指纹数据形成一个 h5st 的数据包作为 form 表单数据才行,难道要自己破解他的加密算法? ![]() |
![]() | 23 godall 256 天前 对于防爬虫的网站,我发现最后只能用 seliunium 模拟浏览器访问了,就是效率太差,但其他一概都搞不定。。。。 |
![]() | 24 sead 222 天前 @godall https://github.com/seadfeng/headless-browser-clusters 最早用无头,感觉确实效率很低, 后面再次尝试用,其实没那么糟糕;碰到硬茬逆向搞不定能有什么办法 |