抓取静态网页 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
mingtdlb
V2EX    程序员

抓取静态网页

  •  
  •   mingtdlb 2021-01-01 17:55:15 +08:00 1251 次点击
    这是一个创建于 1751 天前的主题,其中的信息可能已经有所发展或是发生改变。

    问下 v 友们,有没有哪个比较好用的工具可以抓取整个网站的所有网页,都是静态的。

    这网站在国外,科学上网了还是慢,想给他全部抓下来,离线看。试了 idm 的站点抓取,提示“连接超时,无法下载文件”,抓不到网页!

    13 条回复    2021-01-07 10:53:58 +08:00
    sedgwickz
        1
    sedgwickz  
       2021-01-01 18:22:48 +08:00   1
    musi
        2
    musi  
       2021-01-01 19:05:25 +08:00 via iPhone
    写个爬虫放到国外的服务器运行就好了
    mingtdlb
        3
    mingtdlb  
    OP
       2021-01-01 22:53:50 +08:00
    土办法 wget 应该是搞定了
    oneoyn
        4
    oneoyn  
       2021-01-02 19:11:36 +08:00
    网站发来 我试试
    xuanzz
        5
    xuanzz  
       2021-01-03 14:12:32 +08:00   2
    试试在国外的服务器、
    wget -r -p -np -k ./ https://xxx.com
    mingtdlb
        6
    mingtdlb  
    OP
       2021-01-03 23:23:25 +08:00
    @xuanzz 我没加 np 选项,下载是下载下来了,不过没有扩展名,得批量改名为.html,用浏览器打开才正常。这个 np 是啥意思呢
    Y29tL2gwd2Fy
        7
    Y29tL2gwd2Fy  
       2021-01-04 03:39:36 +08:00 via Android
    github 。com/gildas-lormeau/SingleFile
    mingtdlb
        8
    mingtdlb  
    OP
       2021-01-04 09:32:31 +08:00
    @Y29tL2gwd2Fy 你这个不行,我要全站!当页 ctrl+s 可以的
    wangritian
        9
    wangritian  
       2021-01-04 09:44:07 +08:00
    研究下为什么上网慢?我怀疑是网站使用的某个第三方字体或脚本,没在 gfwlist 中,打开 F12 看看吧
    mingtdlb
        10
    mingtdlb  
    OP
       2021-01-04 11:49:25 +08:00
    @wangritian 我挂了$$了,还是不行。非常慢,无奈 就想着给他抓下来了。但抓下来的,又全是没有扩展名的,浏览器打开是源码,我还得搞个本地的 nginx
    wangritian
        11
    wangritian  
       2021-01-04 13:46:10 +08:00
    @mingtdlb 只是打开$$不一定走代理,还要确认工作模式,如果是 PAC,会有一个域名列表,包含在内的才走代理,其余直连;全局模式是无脑走代理。切换到全局模式试一下
    xuanzz
        12
    xuanzz  
       2021-01-06 15:05:20 +08:00   1
    @mingtdlb #6
    $ man wget,然后搜索 -np 就有了

    -np
    --no-parent
    Do not ever ascend to the parent directory when retrieving recursively. This is a useful option, since it guarantees that only
    the files below a certain hierarchy will be downloaded.
    mingtdlb
        13
    mingtdlb  
    OP
       2021-01-07 10:53:58 +08:00
    @wangritian 这个我确认过了,我用 clash,在 log 里是有看到
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1081 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 22ms UTC 18:21 PVG 02:21 LAX 11:21 JFK 14:21
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86