请教一下爬虫技术 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
yurman
V2EX    程序员

请教一下爬虫技术

  •  
      yurman 2024-03-05 10:23:12 +08:00 4848 次点击
    这是一个创建于 592 天前的主题,其中的信息可能已经有所发展或是发生改变。

    淘宝的生意参谋,这种平台为啥有全网各平台的数据,甚至还可以看竞争对手的数据。。。 我用 rpa 试过模拟人的操作去获取,效率低不说还经常会被封号。它们这种平台是如何做到不会被封号,还能实时更新最新数据,这是怎么做到的?

    20 条回复    2024-03-05 17:53:23 +08:00
    ZnductR0MjHvjRQ3
        1
    ZnductR0MjHvjRQ3  
       2024-03-05 10:24:58 +08:00
    你难道就没想过 有 openAPI 吗?
    securityCoding
        2
    securityCoding  
       2024-03-05 10:27:22 +08:00
    买的数据
    looplj
        3
    looplj  
       2024-03-05 10:27:31 +08:00
    应该是互相爬的吧。
    前段时间还有新闻,京东的爬虫被 pdd 屏蔽了。https://36kr.com/p/2610860492414852
    looplj
        4
    looplj  
       2024-03-05 10:28:10 +08:00
    爬虫是有技术的,淘宝的听说就挺难搞的。
    yurman
        5
    yurman  
    OP
       2024-03-05 10:33:24 +08:00
    @Motorola3 有猜过是走接口,老板不知道哪里看的别人说是用啥爬虫技术实现的,我觉得不可能有这样的能够大量爬取还能防封
    yurman
        6
    yurman  
    OP
       2024-03-05 10:34:37 +08:00
    @ZSeptember 淘宝是很麻烦,已经是低量数据爬取,完全模拟人为操作。偶尔还是能触发警告
    BeiChuanAlex
        7
    BeiChuanAlex  
       2024-03-05 10:38:51 +08:00
    很简单,买数据,给钱就能办到。你陷入到了技术的思维漩涡,线下花钱可以办到线上花大力气都办不到的事情。
    yurman
        8
    yurman  
    OP
       2024-03-05 10:52:34 +08:00
    @BeiChuanAlex 我是觉得是没有啥技术能做到,可惜我只是个打工仔,老板不信 :(
    wanniwa
        9
    wanniwa  
       2024-03-05 10:59:27 +08:00
    有的公司是专门成立爬虫组,立项去攻克研究的。投入成本就会有收获。一步步去拆解剖析
    DT27
        10
    DT27  
       2024-03-05 11:03:00 +08:00
    淘宝我真人去访问都费劲,动不动就弹验证,还经常验证失败。。。
    yahooer
        11
    yahooer  
       2024-03-05 11:08:25 +08:00
    也有第三方接口供应商 像淘宝的比如这个 www.idatariver.com/zh-cn/projects
    lilei2023
        12
    lilei2023  
       2024-03-05 11:21:02 +08:00
    淘宝这个真人访问,都经常弹,被人机器了,真恶心,
    GBdG6clg2Jy17ua5
        13
    GBdG6clg2Jy17ua5  
       2024-03-05 11:24:25 +08:00
    商业级爬,是需要资源的。
    你有多少个独立的 ip 地址?你有多少个用户号?
    曾经在某旅游网站做个爬友商相关的项目,光买 ip 资源就用了三百万,还不包含自己机房的 ip
    该花的钱还是得花。
    corcre
        14
    corcre  
       2024-03-05 11:29:11 +08:00
    淘宝的反爬做的挺好的(甚至能防正常用户), 目前说到低成本爬淘宝数据站立的老哥一个个都是摇头
    Blanke
        15
    Blanke  
       2024-03-05 12:51:00 +08:00
    有商业的成熟方案,很多数据公司内部都是全网怕,tb jd pdd 这些都是基操了,只要花得起升本,肯定能搞定
    Blanke
        16
    Blanke  
       2024-03-05 12:51:41 +08:00
    @Blanke 打错。有商业的成熟方案,很多数据公司内部都是全网爬,tb jd pdd 这些都是基操了,只要花得起成本,肯定能搞定
    lizhenda
        17
    lizhenda  
       2024-03-05 14:26:37 +08:00
    @angryfish 我觉得这 300w 大概率是被中间吃回扣吃掉了
    sergio948
        18
    sergio948  
       2024-03-05 14:33:01 +08:00
    我最近看豆瓣的反爬也是挺 6 的,第一次遇到,看抓包情况好像是做了加密,反正没看懂
    wanniwa
        19
    wanniwa  
       2024-03-05 15:18:51 +08:00
    @sergio948 #18 豆瓣可是以前所有爬虫新手的最爱爬的网站了。估计被爬怕了
    hackerfans
        20
    hackerfans  
       2024-03-05 17:53:23 +08:00
    淘客有 API
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2683 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 33ms UTC 14:20 PVG 22:20 LAX 07:20 JFK 10:20
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86