老板要写一个script 来分析几个文档,一个文档大约28,000,000 行(文件大小700M - 1G左右),有六个类似文档。
要求就是把里面同一个user id, 同一月里是同一hour,同一个weekday的数据加和,然后写出文档。
比如5.1号2点和5.8号2点的数据要加起来,如果时间段没相关数据,则为0
(文档里数据为2012年5月到12月)
script 写好了,在小文件上试验都可以跑而且结果是对的,现在问题是用在大文档上面了,已经跑了20个小时左右了,才跑了十分之一左右,若照现在的进度,这个script 跑完应该要花四五天。
我怀疑的瓶颈大约有两个一个有可能在文件读写IO,另一个可能是我的for loop (遍历5-12月,monday - sunday, 00点到23点)里花了太长时间process, 目前我还没想到可以优化的方法。
文件格式和现在的现在script都放在gist 里了,哪位大神给看看?
谢谢!
要求就是把里面同一个user id, 同一月里是同一hour,同一个weekday的数据加和,然后写出文档。
比如5.1号2点和5.8号2点的数据要加起来,如果时间段没相关数据,则为0
(文档里数据为2012年5月到12月)
script 写好了,在小文件上试验都可以跑而且结果是对的,现在问题是用在大文档上面了,已经跑了20个小时左右了,才跑了十分之一左右,若照现在的进度,这个script 跑完应该要花四五天。
我怀疑的瓶颈大约有两个一个有可能在文件读写IO,另一个可能是我的for loop (遍历5-12月,monday - sunday, 00点到23点)里花了太长时间process, 目前我还没想到可以优化的方法。
文件格式和现在的现在script都放在gist 里了,哪位大神给看看?
谢谢!
