我是靠谱客的博主 眼睛大黑裤,最近开发中收集的这篇文章主要介绍Pandas 基础知识点总结(python),觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

参考连接

pandas 数据结构

维数名称描述
1Series带标签的一维同构数组
2DataFrame带标签的,大小可变的,二维异构表格
  • 用值列表生成 Series 时,Pandas 默认自动生成整数索引,
  • DataFrame 的每一列都可以看作一个 Series

Pandas 所有数据结构的值都是可变的,但数据结构的大小并非都是可变的,比如,Series 的长度不可改变,但 DataFrame 里就可以插入列。

Pandas 里,绝大多数方法都不改变原始的输入数据,而是复制数据,生成新的对象。 一般来说,原始输入数据不变更稳妥。

遍历 DataFrame
#index(行)即 默认值axis=0;或 columns(列),即 axis=1
for col in df.columns:
    series = df[col]
    # do something with series

head() 与 tail() 用于快速预览 Series 与 DataFrame,默认显示 5 条数据,也可以指定显示数据的数量。

含义属性
查看后5条数据df.tail()
查看数据类型df2.dtypes
显示索引与列名df.index 行, df.columns 列
按轴排序df.sort_index(axis=1, ascending=False)
按值排序df.sort_values(by=‘B’)
函数计算 Series 与 DataFrame 数据列的各种数据统计量,这里排除了空值。对于混合型的 DataFrame 对象, describe() 只返回数值列的汇总统计量,如果没有数值列,则只显示类别型的列。df.describe()
将数据转换成 numpy对象,输出不包含行索引和列标签DataFrame.to_numpy()

数据选择

属性含义
选择单列df[‘列名’]
选择前3行,用 index 名切片行df[0:3] 或者 df[“index_name0” : “index_name2”]
用 标签 选择df.loc[ “A”]
用 位置 选择df.iloc[3]
df.iloc[3:5, 0:2]
df.iloc[[1, 2, 4], [0, 2]]
删除Dataframe指定行列drop()
返回 最大值/最小值的索引,当多行或多列中存在多个最大值或最小值时,只返回匹配到的第一个值的 Index:idxmax() 与 idxmin()
对Series里面的每个值进行计数并且排序,默认降序。value_counts(),.value_counts(ascending=True)(升序))
把一组数据分割成离散的区间,并设置标签pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=‘raise’)

缺失值

Pandas 主要用 np.nan 表示缺失数据。 计算时,默认不包含空值。

删除所有含缺失值的行df1.dropna(how=‘any’)
填充缺失值df1.fillna(value=5)

统计

函数描述
count统计非空值数量
sum汇总值
mean平均值
mad平均绝对偏差
median算数中位数
min最小值
max最大值
mode众数
abs绝对值
prod乘积
std贝塞尔校正的样本标准偏差
var无偏方差
sem平均值的标准误差
skew样本偏度 (第三阶)
kurt样本峰度 (第四阶)
quantile样本分位数 (不同 % 的值)
cumsum累加
cumprod累乘
cummax累积最大值
cummin累积最小值

最后

以上就是眼睛大黑裤为你收集整理的Pandas 基础知识点总结(python)的全部内容,希望文章能够帮你解决Pandas 基础知识点总结(python)所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(45)

评论列表共有 0 条评论

立即
投稿
返回
顶部