APP 非抓包数据爬取方案征集 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
ahhhhhh888
V2EX    程序员

APP 非抓包数据爬取方案征集

  •  
  •   ahhhhhh888 2023-12-04 16:22:11 +08:00 5953 次点击
    这是一个创建于 753 天前的主题,其中的信息可能已经有所发展或是发生改变。
    • 需求:爬取封闭 APP 中的公开数据,比如微信内公众号的数据、朋友圈数据、美团内的商家数据等。
    • 问题:这些数据场景的共同特征是无法通过 HTTPS 抓包的方式获取,且相关 APP 都没有开放可以爬取的 H5 页面,或 H5 版本的页面信息不足。
    • 方案:
      1. 通过 Appium 抓取(方案待实践验证);
      2. 通过自动脚本录屏后,由 AI 根据特征对进行视频内画面信息提取实现数据爬取(尚未发现此类工具)。

    针对这两个方案,有建议或其他思路,恳请赐教。

    10 条回复    2023-12-06 03:16:39 +08:00
    q11391
        1
    q11391  
       2023-12-04 17:52:45 +08:00 via iPhone
    怎么可能抓不了包
    Gilmty
        2
    Gilmty  
       2023-12-04 18:02:19 +08:00
    微信 MMTLS ,美团 TCP
    tool2d
        3
    tool2d  
       2023-12-04 18:04:24 +08:00
    @q11391 抓了也没用,好一点 APP 大部分都是流量加密的,你还要去破解。

    有这功夫,不如写点 OCR 脚本识别文字靠谱。
    x86
        4
    x86  
       2023-12-04 18:07:18 +08:00
    截屏再 ORC
    dapang1221
        5
    dapang1221  
       2023-12-04 18:40:53 +08:00
    root 了么,用 frida 加 hook ,或者去内存里捞吧
    owen800q
        6
    owen800q  
       2023-12-05 09:40:51 +08:00 via iPhone
    @dapang1221 在新的 app 大部分都是 flutter, 法用 frida hook dart
    ming61177
        7
    ming61177  
       2023-12-05 10:45:31 +08:00
    autoxjs + clip 技术
    luzihang
        8
    luzihang  
       2023-12-05 15:55:57 +08:00   1
    实现过,运行半年没什么问题。airtest+阿里云手机+百度飞桨 ocr+自己代码调度整体流程
    ahhhhhh888
        9
    ahhhhhh888  
    OP
       2023-12-05 18:53:01 +08:00
    @luzihang #8 这个不错,赞!
    capehorn
        10
    capehorn  
       2023-12-06 03:16:39 +08:00
    App 爬虫 Android 无障碍爬即可。 联系我 linode16
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     844 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 21:55 PVG 05:55 LAX 13:55 JFK 16:55
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86