我是靠谱客的博主 稳重哈密瓜,最近开发中收集的这篇文章主要介绍python导入data文件,内存高效将许多数据文件导入Python中的panda DataFrame,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

我将|-delimited.dat文件的目录导入到熊猫DataFrame目录中。下面的代码有效,但我最终用完了MemoryError:。

import pandas as pd

import glob

temp = []

dataDir = 'C:/users/richard/research/data/edgar/masterfiles'

for dataFile in glob.glob(dataDir + '/master_*.dat'):

print dataFile

temp.append(pd.read_table(dataFile, delimiter='|', header=0))

masterAll = pd.concat(temp)有没有更高效的内存方法?或者我应该整个猪去数据库? (我最终会转移到数据库,但我正在向熊猫迈步。)谢谢!

FWIW,这是一个示例.dat文件的头部:

cik|cname|ftype|date|fileloc

1000032|BINCH JAMES G|4|2011-03-08|edgar/data/1000032/0001181431-11-016512.txt

1000045|NICHOLAS FINANCIAL INC|10-Q|2011-02-11|edgar/data/1000045/0001193125-11-031933.txt

1000045|NICHOLAS FINANCIAL INC|8-K|2011-01-11|edgar/data/1000045/0001193125-11-005531.txt

1000045|NICHOLAS FINANCIAL INC|8-K|2011-01-27|edgar/data/1000045/0001193125-11-015631.txt

1000045|NICHOLAS FINANCIAL INC|SC 13G/A|2011-02-14|edgar/data/1000045/0000929638-11-00151.txt

最后

以上就是稳重哈密瓜为你收集整理的python导入data文件,内存高效将许多数据文件导入Python中的panda DataFrame的全部内容,希望文章能够帮你解决python导入data文件,内存高效将许多数据文件导入Python中的panda DataFrame所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(42)

评论列表共有 0 条评论

立即
投稿
返回
顶部