背景
使用 pandas 库处理一个性能参数的 csv 文件,但是 csv 文件是分片的,格式如下
| time | A | B | C | D |
|---|---|---|---|---|
| 20:00 | 0 | 1 | 2 | 3 |
| time | E | F | G | H |
| 20:00 | 4 | 5 | 6 | 7 |
| ... |
现在想读成如下格式,存成一个 dataframe 便于下游继续处理
| time | A | B | C | D | E | F | G | H | ... |
|---|---|---|---|---|---|---|---|---|---|
| 20:00 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | ... |
现在方案及问题
现在是通过跳过 n 行读取,然后拼接的方案,会存在多次调用 pandas.read_csv,性能太差了,想请教一个 python 大佬们有什么高效的办法
pandas.read_csv(target_file, skiprows=skip_rows, nrows=range, skipinitialspace=True) skip_rows = skip_rows + range
