我是靠谱客的博主 高高大白,最近开发中收集的这篇文章主要介绍数据量太大,节省内存的几种方式,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1、使用nrows和skip_rows来读取。提前申明dtype和usecols,可以节省内存空间。

train_data=pd.read_csv(train_dir,skiprows=range(1,SKIP_ROWS),nrows=TRAIN_ROWS,dtype=dtypes,usecols=use_cols)

2、如果要兼顾内存和速度。可以使用reader来分块阅读。在创建reader的时候,并没有真正读取数据,等到for循环的时候才读取。

train_reader=pd.read_csv(train_dir,iterator=True,chunksize=chunk_size,dtype=dtypes,usecols=use_cols)

    在for循环中,才真正读取数据。

for chunk in train_reader : 
  train_data=pd.concat([train_data,chunk],ignore_index=True)

3、要善用垃圾回收,及时删除不需要的变量

del test_data
gc.collect()

4、对数据进行类型转换,及时减少内存。

train_data[col_name]=train_data[col_name].astype('uint8')

最后

以上就是高高大白为你收集整理的数据量太大,节省内存的几种方式的全部内容,希望文章能够帮你解决数据量太大,节省内存的几种方式所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(56)

评论列表共有 0 条评论

立即
投稿
返回
顶部