Linux 上如何快速高效的对几个大文件进行合并? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wwttc
V2EX    问与答

Linux 上如何快速高效的对几个大文件进行合并?

  •  
  •   wwttc 2016-03-23 21:51:11 +08:00 4954 次点击
    这是一个创建于 3488 天前的主题,其中的信息可能已经有所发展或是发生改变。

    假如现在我有一个 100G 的大文件,内容为文本。现在想要将文件的本身进行复制,得到一个大约 1T 的文件。 我想到的一种方法是对这个 100G 的文件进行复制,然后将多个文件进行 merge 。

    copy 100G.txt another100G.txt cat another100G.txt >> 100G.txt 

    就是利用 copy 和 cat 命令。但是,这样做还是太慢。有没有什么高效的做法呢?

    5 条回复    2016-03-24 02:58:01 +08:00
    zxgngl
        1
    zxgngl  
       2016-03-23 22:29:25 +08:00
    能更具体地讲一下你的应用场景吗?通过你的描述我还是不太清楚是什么导致你有这样的需求。
    zxgngl
        2
    zxgngl  
       2016-03-23 22:33:51 +08:00
    但是我可以提供一点思路:节省时间可以通过减少对硬盘的“读”或“写”操作,如果你每次写的都是一样的内容(这 100 G 的大文件),那么可以通过把它放到内存中,这样就不用每次都“读”了。然后你可以写一个程序多次把内存中的这 100 G 的数据写入到目标文件中。这只是一个简陋的思路,具体操作可能还有优化的余地。
    SoloCompany
        3
    SoloCompany  
       2016-03-24 02:46:40 +08:00
    for i in `seq 4` ; do
    cat 1.txt | tee -a 1.txt > /dev/null
    done

    循环执行 4 次,你的 1.txt 就自增 16 倍

    嗯,建议循环 64 次作死一下试试
    SoloCompany
        4
    SoloCompany  
       2016-03-24 02:49:29 +08:00
    不想重复 io 的话其实人体蜈蚣一下就可以了
    cat 1.txt | tee -a 1.txt | … 此处省略一千字 ... | tee -a 1.txt | tee -a 1.txt > /dev/null
    lhbc
        5
    lhbc  
       2016-03-24 02:58:01 +08:00 via Android
    其实大文件分割成几个小的不是更容易处理吗……
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5454 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 43ms UTC 08:34 PVG 16:34 LAX 01:34 JFK 04:34
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86