Python文件读取疑惑 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
flyaway
V2EX    问与答

Python文件读取疑惑

  •  
      flyaway 2013 年 11 月 6 日 3989 次点击
    这是一个创建于 4466 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我正在用python处理一个比较大的数据文件,因为这些数据是用来训练模型的,由于模型的限制,必须一次性把数据读入内中,不能使用生成器。数据文件有634M,但是我发现读取文件的过程中,内存开销非常大,还没有完全读完数据,内存使用已经超过3G,我非常好奇这是什么原因导致的?是不是python底层实现的问题?

    详细情况:
    OS: windows 7 64位
    python: 3.3.2
    操作: 仅仅是读数据,然后把读入的数据转成数字型,读取过程是按行处理的。
    第 1 条附言    2013 年 11 月 6 日
    刚才试了一下,不做任何类型转换,单纯的读数据,放到列表中,内存消耗大概1.2G,但是对每一行做split()操作之后,一瞬间就飙到到2G以上,而且还在不断增加。看来是对数据的操作过程带来了大量的内存消耗……
    11 条回复    1970-01-01 08:00:00 +08:00
    cloudzhou
        1
    cloudzhou  
       2013 年 11 月 6 日
    这种情况不一定是python读取文件的问题,你可以先实现一个python脚本,只读取到内存,什么都不做,看看需要占用多少内存
    yuelang85
        2
    yuelang85  
       2013 年 11 月 6 日
    应该是把数据转换成python对象造成的开销吧
    flyaway
        3
    flyaway  
    OP
       2013 年 11 月 6 日 via iPhone
    机子内存只有4g,有没有什么解决方案呢?
    yelite
        4
    yelite  
       2013 年 11 月 6 日
    @flyaway 在需要使用的时候再转换类型?
    flyaway
        5
    flyaway  
    OP
       2013 年 11 月 6 日 via iPhone
    把读取过程做成生成器,然后在生成器之上对每条数据进行类型转换,这样会不会减少内存消耗呢?我现在在上课,只能暂时和大家纸上谈兵了…
    yuelang85
        6
    yuelang85  
       2013 年 11 月 6 日   1
    @flyaway 如果你之前转的数据不消灭,这样内存还是会一点一点变大。。。。
    sethverlo
        7
    sethverlo  
       2013 年 11 月 6 日   1
    我记得好像「python range xrange」这个关键词可以帮到楼主。
    flyaway
        8
    flyaway  
    OP
       2013 年 11 月 6 日 via iPhone
    可是现在的模型算法需要把训练数据整体传过去,内存消耗不可避免,可是我不明白的是,为什么600多m的数据在内存中成为python对象之后会占用如此之多的内存
    lookhi
        9
    lookhi  
       2013 年 11 月 6 日
    又想马儿跑的快,又想马儿不吃草。
    难啊
    chlx
        10
    chlx  
       2013 年 11 月 6 日 via Android
    我也遇到类似的问题,是用ndarray的两个矩阵拼接时内存开销很大,数据量大时机器吃不消
    dreampuf
        11
    dreampuf  
       2013 年 11 月 6 日
    反序列化带来的开销
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5360 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 08:54 PVG 16:54 LAX 00:54 JFK 03:54
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86