打包下载一个网站的所有网页和资料,用哪款软件比较好? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
iray1991
V2EX    问与答

打包下载一个网站的所有网页和资料,用哪款软件比较好?

  •  
  •   iray1991 2012-06-25 14:17:55 +08:00 9845 次点击
    这是一个创建于 4870 天前的主题,其中的信息可能已经有所发展或是发生改变。
    准备雅思口语重考中,理工类高分子材料专业,一战Overall 7,L 8.5,R 8,W 6, S 5,口语悲剧了;

    申请CSC够用了,但是申请英联邦的理工类大学至少均分达到6。

    目前准备十二月份再考一次,不知那时候来不来得及申请?还是提早到十月份好一点?

    以上是背景

    想要拉取的资料是这个网站的:
    http://ielts-yasi.englishlab.net/

    现在找到的资料版本是2009年从这个网站上拉取的:
    http://club.topsage.com/thread-2380637-1-1.html

    因为做了不少改动,加上雅思口语的时效性比较强,我这边又不能经常上网,所以希望能模仿上面的抓包把最新版的整个网页抓取下来。

    想要问一下有什么工具软件能实现这个网站资料的拉取?需要怎么样的设置?到哪里可以找到具体的教程?

    如果有人能帮忙拉取后发送到我的邮箱,那就更加爱感激不尽!我会想办法转20银币(数量再讨论)给你(不知目前的金币系统是否可以直接转账?还是只能通过点击“感谢”来实现金币转移?)

    不知V2EX是否支持悬赏功能的@livid?我觉得对于一些对门内人不是很复杂对门外人显得有些复杂的Task都可以尝试用这个功能解决:)
    29 条回复    2018-09-13 19:19:03 +08:00
    Alcar
        1
    Alcar  
       2012-06-25 14:22:58 +08:00   1
    一般用wget吧
    013231
        2
    013231  
       2012-06-25 14:24:06 +08:00   1
    wget
    主搜索"wget 全站像".
    013231
        3
    013231  
       2012-06-25 14:33:55 +08:00   2
    打包好的文件下:
    http://654321.org/ielts-yasi.zip
    saturn
        4
    saturn  
       2012-06-25 14:40:23 +08:00   1
    我都为你这个成绩感到可惜啊,瘸腿的厉害。12月估计来不及,等你成绩单出了,黄花菜都凉了。话说你现在申请学校没?拿到COE了吗?申请学校是不需要雅思成绩的啊,建议COE先行,可以早半年。想入学的时候,补交成绩然后催签就可以了。

    建议早考,而且口语这东西短期内很难提高,那么就只能靠运气和发挥了;闲得蛋疼可以一次性报两个,先后去考,更保险。

    考雅思,战术很重要。
    iray1991
        5
    iray1991  
    OP
       2012-06-25 15:08:24 +08:00
    @Alcar
    @013231
    好多命令行,看不懂,自己在用IDM自带的站点抓取,抓的不是很全;
    @saturn
    实在不行,就去荷兰德国法国,那边没有语言要求,目前看好荷兰的Delft,华人聚集地,而且荷兰的高等教育也是全球出名,不过还是准备考一次,就是不大希望八月份去考,估计两个月口语进展不大;
    老实讲,其实是博士生导师让我考的,看他的说法是到时候直接凭借私人关系推荐过去,这样的话学校可能就是有他给我推荐;尽管如此雅思成绩肯定是必须的,就是不知能不能在年底拿到conditional offer,这样不行的话就要等一年,我比较倾向于现在出去,但是一下子报两次,好拼人品呐,一次1500,肉疼。

    那么十月份考是否来得及?还是说看具体的学校?

    坦白讲八月份去还真没信心


    @013231 已下载,非常感谢!怎么样把其余的银币转给你呢?
    013231
        6
    013231  
       2012-06-25 15:12:45 +08:00
    @iray1991 在有功能, 以後再吧.
    gucheen
        7
    gucheen  
       2012-06-25 15:16:50 +08:00
    我喜欢用Teleport
    saturn
        8
    saturn  
       2012-06-25 15:18:33 +08:00
    @iray1991 你问下具体学校的Admission office那些MM就好了,根据入学时间来安排雅思成绩和COE申请事宜。对于时间的预留,我见过大量的案例,主要不是因为学校的offer问题,而是签证的处理时长问题。

    比如,南半球一般在2月底、7月底分别入学,你12月考试,能否赶上也很难说,因为中间有个圣诞节,学校和签证处一般都会放长假(国内的签证处、使领馆很多还会跟着中国人一起放春节假),所以这个时间节点最好不要用来申请签证。

    一句话,雅思考试安排得要a.s.a.p 两年有效期嘛,怕啥。
    iray1991
        9
    iray1991  
    OP
       2012-06-25 15:28:47 +08:00
    @013231 我主题里提到的2009年的资料包里是按照对应主题建立了子文件夹的,不知道对方是手动操作还是使用的拉取方式不同。
    不过这只是一个小瑕疵,毕竟内容是王道,下载下来就可以自己根据需要慢慢整理了。

    @saturn 那么十月份或者九月底会否好一点?此外就是大三的这个暑假就要开始,是不是抓紧这个暑假时间在学校里开好相关的学分证明?

    最近刚考完试开始泡留学论坛,一无所知啊,有比较推荐的网页让我自己去查找相关留学准备信息不?谢谢!
    013231
        10
    013231  
       2012-06-25 15:30:04 +08:00
    使用wget行全站抓取的命令:
    wget -mkp -e robots=off -U "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6" "http://www.example.com/"
    含:
    -m, --mirror, 表示命令用於像, 置一些什的.
    -k, --convert-links, 中的接. 如果用, 接是指向源站的.
    -p, --page-requisites, 把正示所需的片, 式表什的一保存下.
    -e robots=off, 忽略robots.txt, 有些站使用robots.txt禁止抓取.
    -U "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6" , --user-agent, 把自己成器. 有些站只允器.
    saturn
        11
    saturn  
       2012-06-25 15:40:50 +08:00
    @iray1991 对的,4年制的本科学位只需要3年的成绩就可以申请了(毕业了之后需要补交全4年的),你现在就可以去教务处开大学前3年的成绩单、翻译、公证就可以去申请学校了。

    一无所知的话,最好去问下留学中介。这里我有比较好的描述(#61):

    http://www.v2ex.com/t/40430#reply61
    capthy
        12
    capthy  
       2012-06-25 16:09:52 +08:00
    iray1991
        13
    iray1991  
    OP
       2012-07-19 08:22:33 +08:00
    @013231
    大神,那个网站最近有更新,能否麻烦您再下载一个包给我?
    我自己试过用IDM的整站抓取下载,装到goodreader里面发现有问题:点击某个网页中的的链接的时候不会跳到这个包里面其他的网页;但是导入您那个包却能实现网页链接间的跳转;
    我自己尝试过用CMD的方式运行wget自行抓取,但是cmd真不会操作,不会进入也不知道在哪里调入命令,如果您这次能在下载一次的话,可否录个像给我?我自己琢磨看看,老麻烦您真不好意思呀
    iray1991
        14
    iray1991  
    OP
       2012-07-19 08:25:42 +08:00
    @013231 自行操作结果如下,不知下一步该怎么进行:
    013231
        15
    013231  
       2012-07-19 09:28:36 +08:00   1
    我已更新http://654321.org/ielts-yasi.zip, 你可以重新下.
    http://654321.org/ielts-yasi.zip 文件每天0自更新. 如果你需要更高的更新率, 告我.
    iray1991
        16
    iray1991  
    OP
       2012-07-24 10:30:34 +08:00
    @013231
    有一个小想法;
    可否直接抓取那些有更新的页面,直接打包?这样就不用每次有更新后都下载150M+的压缩包,而且转移到iPad也会方便很多
    更新页面在这里:http://ielts-yasi.englishlab.net/Site_Changes_P6.htm
    不过有点担心如果只是更新那些有变动的部分,就无法实现链接间的跳转,毕竟链接间的跳转才能保证离线使用起来和直接登录网站的体验是一样的;所以这点实现起来困难的话只是一点小缺陷,不强求;
    再次感谢你!V2EX真的有不少技术好人呐!
    013231
        17
    013231  
       2012-07-24 19:03:40 +08:00   1
    @iray1991 你可以从这里:
    http://654321.org/ielts-yasi/Site_Changes_P6.htm
    单独下载更新的页面. http://654321.org/ielts-yasi/ 是原网站的镜像.
    顺便说一下, 由于程序Bug, 前几日的压缩包未能正确更新.
    iray1991
        18
    iray1991  
    OP
       2012-07-25 09:49:55 +08:00
    @013231
    请问一下,这个页面如何单独下载呢:http://654321.org/ielts-yasi/Site_Changes_P6.htm

    http://654321.org/ielts-yasi.zip 依然可以下载,非常感谢
    013231
        19
    013231  
       2012-07-25 10:35:00 +08:00   1
    @iray1991 直接把接"另存"就可以了. 面的接都是的.
    iray1991
        20
    iray1991  
    OP
       2012-08-06 09:22:07 +08:00
    @013231
    大神,这个网页可否抓取?

    http://www.ielts-simon.com/

    我在谷歌上搜索很久,都没找到自己能看懂的命令行操作wget方式,无奈之下还是来找您了:)
    013231
        21
    013231  
       2012-08-06 20:39:27 +08:00   1
    iray1991
        22
    ira1991  
    OP
       2012-08-16 18:07:58 +08:00
    @013231
    新增一个需要下载的网站:

    http://grammar.ccc.commnet.edu/grammar/textonly.htm

    Much Thanks!
    013231
        23
    013231  
       2012-08-16 20:06:32 +08:00   1
    iray1991
        24
    iray1991  
    OP
       2012-08-17 21:35:06 +08:00
    @013231

    需要下载的网站:

    http://www.esl-lab.com/

    Much Thanks!
    013231
        25
    013231  
       2012-08-18 00:40:17 +08:00
    shpasspass
        26
    shpasspass  
       2013-05-09 17:07:05 +08:00
    @013231 能帮忙下载一下这个站吗?http://www.shgrandindustries.com/ 谢谢
    013231
        27
    013231  
       2013-05-10 07:12:04 +08:00   2
    shpasspass
        28
    shpasspass  
       2013-05-10 10:47:27 +08:00
    @013231 多谢啦~~~
    ty10086
        29
    ty10086  
       2018-09-13 19:19:03 +08:00
    @013231 您好大兄弟,是否可以帮忙下载一个网页?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     864 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 37ms UTC 19:44 PVG 03:44 LAX 12:44 JFK 15:44
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86