pandas学习下 - Task01

301 阅读 0 评论 199 点赞

我是靠谱客的博主愤怒耳机，这篇文章主要介绍pandas学习下 - Task01，现在分享给大家，希望可以做个参考。

【问题一】如何删除缺失值占比超过25%的列？

df.info()获取缺失值占比，然后通过drop 一个个删除
自定义一个函数，通过df[col].isna().sum()获取某列的缺失值数量，然后除以行数，大于25%就删除该列

【问题二】什么是Nullable类型？请谈谈为什么要引入这个设计？

原来处理缺失值的时候没考虑清楚，导致包含缺失值的时候出现问题，比如把数值转换成float，把字符转换成object等。因此为了不影响原代码的基础上，新增了一个能很好的处理缺失值的类nullable，类型命名分别为Int64，boolean与 string。当新的命名规范被广泛使用时，便可逐步丢弃旧的类型了。

【问题三】对于一份有缺失值的数据，可以采取哪些策略或方法深化对它的了解？

练习

【练习一】现有一份虚拟数据集，列类型分别为string/浮点/整型，请解决如下问题：

（a）请以列类型读入数据，并选出C为缺失值的行。

xt1 = pd.read_csv(‘data/Missing_data_one.csv’).convert_dtypes()
xt1[xt1[‘C’].isna()]

（b）现需要将A中的部分单元转为缺失值，单元格中的最小转换概率为25%，且概率大小与所在行B列单元的值成正比。

选取B列最小值，确保系数大于等于1，则转换概率不会小于25%
minb = xt1[‘B’].min()
xt1[‘A’] = xt1.apply(lambda x: x.A if np.random.rand() > 0.25 * x.B / minb else pd.NA, axis = 1)

【练习二】现有一份缺失的数据集，记录了36个人来自的地区、身高、体重、年龄和工资，请解决如下问题：

（a）统计各列缺失的比例并选出在后三列中至少有两个非缺失值的行。

xt2 = pd.read_csv(‘data/Missing_data_two.csv’).convert_dtypes()
xt2.isna().sum()/36
用到apply 里的axis = 1 对列求和。
xt2[xt2[[‘体重’,‘年龄’,‘工资’]].isna().apply(lambda x: x.sum(), axis = 1)>1]

（b）请结合身高列和地区列中的数据，对体重进行合理插值。

xt2[‘体重’] = xt2.sort_values(by = [‘地区’,‘身高’])[‘体重’].interpolate()

最后

以上就是愤怒耳机最近收集整理的关于pandas学习下 - Task01的全部内容，更多相关pandas学习下内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：Datawhale pandas开源课程
浏览次数：301 次浏览
发布日期：2023-10-30 18:01:41

pandas学习下 - Task01

【问题一】如何删除缺失值占比超过25%的列？

【问题二】什么是Nullable类型？请谈谈为什么要引入这个设计？

【问题三】对于一份有缺失值的数据，可以采取哪些策略或方法深化对它的了解？

练习

【练习一】现有一份虚拟数据集，列类型分别为string/浮点/整型，请解决如下问题：

（a）请以列类型读入数据，并选出C为缺失值的行。

（b）现需要将A中的部分单元转为缺失值，单元格中的最小转换概率为25%，且概率大小与所在行B列单元的值成正比。

【练习二】现有一份缺失的数据集，记录了36个人来自的地区、身高、体重、年龄和工资，请解决如下问题：

（a）统计各列缺失的比例并选出在后三列中至少有两个非缺失值的行。

（b）请结合身高列和地区列中的数据，对体重进行合理插值。

最后

评论列表共有 0 条评论

发表评论取消回复

pandas学习下 - Task01

【问题一】 如何删除缺失值占比超过25%的列？

【问题二】 什么是Nullable类型？请谈谈为什么要引入这个设计？

【问题三】 对于一份有缺失值的数据，可以采取哪些策略或方法深化对它的了解？

练习

【练习一】现有一份虚拟数据集，列类型分别为string/浮点/整型，请解决如下问题：

（a）请以列类型读入数据，并选出C为缺失值的行。

（b）现需要将A中的部分单元转为缺失值，单元格中的最小转换概率为25%，且概率大小与所在行B列单元的值成正比。

【练习二】 现有一份缺失的数据集，记录了36个人来自的地区、身高、体重、年龄和工资，请解决如下问题：

（a）统计各列缺失的比例并选出在后三列中至少有两个非缺失值的行。

（b）请结合身高列和地区列中的数据，对体重进行合理插值。

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

【问题一】如何删除缺失值占比超过25%的列？

【问题二】什么是Nullable类型？请谈谈为什么要引入这个设计？

【问题三】对于一份有缺失值的数据，可以采取哪些策略或方法深化对它的了解？

【练习二】现有一份缺失的数据集，记录了36个人来自的地区、身高、体重、年龄和工资，请解决如下问题：

发表评论取消回复