V2EX Cy86 的所有回复 第 1 页 / 共 5 页
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX    Cy86    全部回复第 1 页 / 共 5 页
回复总数  90
1  2  3  4  5  
别买假了, 我之前住的地方很多蟑螂, 蟑螂药他们都当零食吃
@iorilu 那还是得上手干, 遇到问题处理完了之后再总结出一个通用方案, 爬虫最需要考虑的是反爬, 其他的都比较简单,没太多需要考虑的
楼主不理我,我再捞一下, 目前我负责的爬虫抓取量每天在百万级, 月抓取量在亿级,主做舆情的
推荐:
百条用 requests 就行
几十万条有效性就 aiohttp
同一个网站大量数据, scrapy 和 feapder 都可以
上亿条自己开发爬虫框架
你说的这几个问题: 访问限制, 需要登陆, 代理轮询, 执行 js, 错误重试
访问限制, 需要登陆: 对于反爬都是针对目标单独定制的,市面上没有能包含所有反爬的的框架
代理轮询最简单的就自己整个队列, 每次爬虫轮着取代理 ip, 对于账号绑定 IP 的,就单独开个服务针对要爬的渠道固定 IP
执行 js 可以单独作为一个服务旁运行, 需要执行的 js 扔进去只关注返回结果就好

感觉你可以说说你的整体目标是啥
我觉得 requests 应该够了吧, 直接把接口抓出来比较简单,我最近也在鼓捣爬虫练手, 你这是要爬啥网站呢
把这活儿外包出去, 嘴上说让他们手动点击(后端是爬虫), 速度别太快, 这样你就安全了
2024-05-20 10:12:32 +08:00
回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
@macaodoll #29 感谢建议, 目前只是突然想到了技术上的问题, 在纠结 Python 为啥并发上不去, 卡点在哪
2024-05-20 10:10:44 +08:00
回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
@shanyaoxingtong #31 后面接了 5 家的代理池, 每天的总请求 13 亿, qps 能达到 15K, 咱们先讨论技术再讨论代理
2024-05-20 10:08:06 +08:00
回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
@chengxiao #28 每错是舆情
2024-05-14 18:12:02 +08:00
回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
@chengxiao #26 日常监控 30 万个网站的更新, 每 5 分钟跑一次, 不需要账号和风控, 单站点请求一分钟一次都没有
2024-05-14 16:41:24 +08:00
回复了 gezimonkey 创建的主题 信息安全 发现一个诈骗网站,有没有人替天行道一下?
@fkdtz #42 哦哦, 我以为你用了啥放大原理, 用很小的流量大比如 1:100 打他, 我这是杀敌 1000, 自损 1000
2024-05-06 11:30:49 +08:00
回复了 gezimonkey 创建的主题 信息安全 发现一个诈骗网站,有没有人替天行道一下?
@fkdtz 求教程, 我这一星期收好几次, 我目前用 vps 跑, 只能跑到 50MB/s
2024-04-28 11:18:35 +08:00
回复了 Moyyyyyyyyyyye 创建的主题 推广 T 楼! T 楼! 每一百层送两个 Xterminal 年会员
64e807229ba63310b923360e
谢谢老板
有啥方式可以白嫖永久会员么? 比如写文章,或者写文档之类的
2024-04-12 09:43:46 +08:00
回复了 busterian 创建的主题 家里服务器配置相当于多少钱的云主机?
最大的成本在上行带宽, 北京 200M 上行平均下来每个月 260 左右, 如果在云服务器就贵上天
2024-01-29 20:04:30 +08:00
回复了 alexhx 创建的主题 北京 所以有什么渠道可以买到点烟花?
@fredweili #20 注意别买错了, 不然点半天点不着, 仔细一看是 TM 焊条
大家手速都太快了, 没有了
2022-11-03 21:56:56 +08:00
回复了 biuyixia 创建的主题 程序员 单页 html 加上密码的这种方式安全吗?
如果需求中的安全仅对于小白, 且页面没有很大的商业价值也是可以的
反正只要对方想爬你, 你又不是大公司, 对反爬也没那么严格, 他们怎么着都能爬, 不如节省成本挡住小白足够
愿意的话加点难度,搞一个接口验证返回数据插到 body 里
1  2  3  4  5  
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     866 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 31ms UTC 21:48 PVG 05:48 LAX 14:48 JFK 17:48
Do have faith in what you're doing.
ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86