一个读取和分析大文件的 python script 的优化问题

老板要写一个script 来分析几个文档,一个文档大约28,000,000 行(文件大小700M - 1G左右),有六个类似文档。
要求就是把里面同一个user id, 同一月里是同一hour,同一个weekday的数据加和,然后写出文档。
比如5.1号2点和5.8号2点的数据要加起来,如果时间段没相关数据,则为0
(文档里数据为2012年5月到12月)

script 写好了,在小文件上试验都可以跑而且结果是对的,现在问题是用在大文档上面了,已经跑了20个小时左右了,才跑了十分之一左右,若照现在的进度，这个script 跑完应该要花四五天。

我怀疑的瓶颈大约有两个一个有可能在文件读写IO,另一个可能是我的for loop (遍历5-12月,monday - sunday, 00点到23点)里花了太长时间process, 目前我还没想到可以优化的方法。

文件格式和现在的现在script都放在gist 里了,哪位大神给看看?

谢谢!

文档

script

15 replies 1970-01-01 08:00:00 +08:00

wangfengmadking

Feb 27, 2014

这种大文件，最好用

with open("file_name", 'r') as input:
for line in input:
#process

JerryKan

Feb 27, 2014

@airbob
对于大文件最好不要使用readlines

exch4nge

Feb 27, 2014

疑问：每个用户即使在某个时间段没有记录也需要去输出Log吗？

你那个循环总共循环月数 * 7 * 24 * 这个User的记录数。肯定会慢吧。。。
你应该按照User的记录进行循环，分析每条记录，分析出是哪月星期几几时，然后原值上加上这条记录的值。

airbob

Feb 27, 2014

@wangfengmadking ＠JerryKwan 好的, 我试下with open("file_name", 'r') as input: 然后计算下时间

airbob

Feb 27, 2014

@exch4nge 嗯，要求是没记录也log,这样每个user有相同数目的data point.

你说的很对,good point! 确实没有必要3个for loop, 可以直接定义个起始都为0 的2D array ( 3 x 8*7*24 ) 来存记录，这样遍历一遍有符合的相加就可以了。

非常感谢!

family

Feb 27, 2014

先把文件拆分为方便计算的子文件，可以按照时间一共拆分24个文件，然后统计。

exch4nge

Feb 27, 2014

@airbob 提个建议啊

- python支持 a, b = ['a', 'b'] 这类的赋值。
- 可以开辟array来记录，但中间你需要做字符串--数字的映射关系。如果用dict来记录的话，可以省很多事。
- python中的字符串是不可变的，所以每次outputCOnTENT= outputCONTENT + contents[0] 好像会增加内存使用量的。你这例子还好，内存够用，如果再大点，就得注意内存问题了。

airbob

Feb 27, 2014

@exch4nge @family 谢谢大家,改好了,现在跑一遍10-20分钟,6个文档已经跑完了，week-modified.py更新了放在gist 上了~

likuku

Feb 28, 2014

嗯，dict 或者 dict　的嵌套作状态记录很方便,查询更新也方便。

lixm

Feb 28, 2014

导入mysql，直接sql查询

oio

Feb 28, 2014

我也来试试看....不适用于乱序数据....

<script src="https://gist.github.com/onia/9263792.js"></script>

exch4nge

Feb 28, 2014

@oio 学习了csv, groupby等炫酷的玩意

anguskwan

Feb 28, 2014

导入mysql ^ ^

oio

Mar 1, 2014

@exch4nge，我总觉得满足 PEP8 每行 <79 很难，怎么破....

exch4nge

Mar 1, 2014

@oio 2格缩进 + 合理的换行?