概述
参考连接
pandas 数据结构
维数 | 名称 | 描述 |
---|---|---|
1 | Series | 带标签的一维同构数组 |
2 | DataFrame | 带标签的,大小可变的,二维异构表格 |
- 用值列表生成 Series 时,Pandas 默认自动生成整数索引,
- DataFrame 的每一列都可以看作一个 Series
Pandas 所有数据结构的值都是可变的,但数据结构的大小并非都是可变的,比如,Series 的长度不可改变,但 DataFrame 里就可以插入列。
Pandas 里,绝大多数方法都不改变原始的输入数据,而是复制数据,生成新的对象。 一般来说,原始输入数据不变更稳妥。
遍历 DataFrame
#index(行)即 默认值axis=0;或 columns(列),即 axis=1
for col in df.columns:
series = df[col]
# do something with series
head() 与 tail() 用于快速预览 Series 与 DataFrame,默认显示 5 条数据,也可以指定显示数据的数量。
含义 | 属性 |
---|---|
查看后5条数据 | df.tail() |
查看数据类型 | df2.dtypes |
显示索引与列名 | df.index 行, df.columns 列 |
按轴排序 | df.sort_index(axis=1, ascending=False) |
按值排序 | df.sort_values(by=‘B’) |
函数计算 Series 与 DataFrame 数据列的各种数据统计量,这里排除了空值。对于混合型的 DataFrame 对象, describe() 只返回数值列的汇总统计量,如果没有数值列,则只显示类别型的列。 | df.describe() |
将数据转换成 numpy对象,输出不包含行索引和列标签 | DataFrame.to_numpy() |
数据选择
属性 | 含义 |
---|---|
选择单列 | df[‘列名’] |
选择前3行,用 index 名切片行 | df[0:3] 或者 df[“index_name0” : “index_name2”] |
用 标签 选择 | df.loc[ “A”] |
用 位置 选择 | df.iloc[3] |
df.iloc[3:5, 0:2] | |
df.iloc[[1, 2, 4], [0, 2]] | |
删除Dataframe指定行列 | drop() |
返回 最大值/最小值的索引,当多行或多列中存在多个最大值或最小值时,只返回匹配到的第一个值的 Index: | idxmax() 与 idxmin() |
对Series里面的每个值进行计数并且排序,默认降序。 | value_counts(),.value_counts(ascending=True)(升序)) |
把一组数据分割成离散的区间,并设置标签 | pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=‘raise’) |
缺失值
Pandas 主要用 np.nan 表示缺失数据。 计算时,默认不包含空值。
删除所有含缺失值的行 | df1.dropna(how=‘any’) |
---|---|
填充缺失值 | df1.fillna(value=5) |
统计
函数 | 描述 |
---|---|
count | 统计非空值数量 |
sum | 汇总值 |
mean | 平均值 |
mad | 平均绝对偏差 |
median | 算数中位数 |
min | 最小值 |
max | 最大值 |
mode | 众数 |
abs | 绝对值 |
prod | 乘积 |
std | 贝塞尔校正的样本标准偏差 |
var | 无偏方差 |
sem | 平均值的标准误差 |
skew | 样本偏度 (第三阶) |
kurt | 样本峰度 (第四阶) |
quantile | 样本分位数 (不同 % 的值) |
cumsum | 累加 |
cumprod | 累乘 |
cummax | 累积最大值 |
cummin | 累积最小值 |
最后
以上就是眼睛大黑裤为你收集整理的Pandas 基础知识点总结(python)的全部内容,希望文章能够帮你解决Pandas 基础知识点总结(python)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复