我是靠谱客的博主 要减肥大树,最近开发中收集的这篇文章主要介绍python seaborn_Python数据可视化—Seaborn,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

点击上方“算法数据侠”,选择“星标”公众号

第一时间获取最新推文与资源分享 f727ca20c123c1f5df5758873c09d6b7.png

小侠客们好呀,我是oubahe。今天为大家分享的小技巧是python的可视化画图库Seaborn。相信很多小侠客用过matplotlib、pyecharts等可视化库,可是为什么还要介绍Seaborn呢?因为它修复了上述两个库的一些缺点,比如Seaborn提供了大量的高级接口和自定义主题,而matplotlib没有这些接口使得很难确定哪些设置来自定义图表。另外,matplotlib等里面的库函数不能很好地处理数据流,而Seaborn可以胜任。好啦,话不多说,一起来看看这个强大的数据可视化库有哪些常用且美观的可视化操作吧(可视化操作和图表较多哟,慢慢吸收)~

caa8468d32ef3288e50754f1f05a70fe.png

01

载入数据

我们选择了一个“预测投票数”的数据集命名为train.csv(小侠客们也可以根据自己的数据集来进行可视化),首先通过pandas读取csv格式文件,然后查看数据的大致情况。

import pandas as pddf = pd.read_csv(r"train.csv")df.head()

d58c152f5afc09e8001b6a0c5b7aaf69.png

02

散点图

使用seaborn库的replot函数来绘制散点图,它是可视化统计关系的图形级角色,默认情况下,replot会生成散点图。
import seaborn as snssns.replot(x="Views", y="Upvotes", data = df)

048b336f746ed9024a37f86ff4735ee2.png

还可以在散点图中加入与数据相关的标签,仅仅需要设置replot函数的hue属性就可以实现。 ‍
sns.replot(x="Views", y="Upvotes", hue = "Tag", data = df)

194348de383c70ad49e2cb34b7578851.png

03

抖动hue图

假如我们需要看到数据中教育变量“eduction”和avg_training_score图中的性别分布,就可以使用下面操作实现抖动hue图的绘制。 ‍
sns.catplot(x="eduction", y="avg_training_score", hue = "gender", data = df)

e473a2d1e06fd02d10d4463b41563aa9.png

04

箱线图

我们还可以绘制另一种绘图叫箱线图,它可以显示分布的三个四分位值以及最终只。箱线图的每个值对应于数据中的实际观察值。
sns.catplot(x="eduction", y="avg_training_score", kind = "box", data = df)

557db41bea7cfd26a453dbad0b7442e6.png

05

小提琴图

我们还可以绘制小提琴图,小提琴图结合了箱线图和核密度估计程序,可以提供更加丰富的值分布描述,且四分位数显示在小提琴内部。
sns.catplot(x="eduction", y="avg_training_score", kind = "violin", hue = "is_promoted", data = df)

ef981cf7decf5ff27e04c6f8c046db6a.png

06

条形图

我们通过Boxplot绘制条形图,它对整个数据集进行操作,默认情况下获取平均值。
sns.catplot(x="eduction", y="avg_training_score", kind = "bar", hue = "is_promoted", data = df)

9b901ca78d3694c13cecffa4a38cd60c.png

07

单变量分布

我们在研究变量分布时,最常见的一个图就是柱状图。默认情况下,displot函数绘制柱状图并适合内核密度估计,下面看看年轻是如何分布在数据中的。
sns.distplot(df.age)

50477dbd6bb8d4dbc93144fd2f3b5712.png

08

双变量二元分布

在单变量分布的基础上,我们可以绘制双变量二元分布来观察两个变量之间的分布关系。
sns.jointplot(x="avg_training_score", y="age", data=df)

2de32ce96d89d42d62f0779a2c355743.png

09

双变量直方图

Hexplot是一个双变量的直方图,因为它显示了在六边形区域内的观察次数。这是一个非常容易处理大数据集的图。可以通过把kind属性设置为hex来绘制Hexplot。
sns.jointplot(x="avg_training_score", y="age", kind = "hex", data=df)

f9096e0e9024a0034af3b19bfe31d767.png

10

KDE图

还没有结束哟,接下来是绘制KDE图。通过KDE图可以很好地可视化双变量分布,让我们看看用jointplot函数并将属性kind设置为kde来实现绘制KDE图。
sns.jointplot(x="avg_training_score", y="age", kind = "kde", data=df)

4a75b53be245f14193265a498de6ec07.png

11

相关度热力图

相信这个很多小侠客都很熟悉了,得到各个变量之间的相关度大小,并提供热力图进行可视化显示。
corrmat = df.corr()f, ax = plt.subplot(figsize = (12, 6))sns.heatmap(corrmat, square=True)

0ebe4e48236885afd6cbf51a7cf2a5a4.png

12

变量二元分布图

最后的最后啦,我们还可以使用paiplot函数来绘制数据集的多个二元分布。这个可以显示数据库中每一列之间的关系,并绘制各个变量在对角线上的单变量分布图,一起看看是啥样子吧 。
sns.pairplot(df)

eef619de03795655ceae837edc790704.png

13

结语

好啦,关于seaborn可视化库及其常用的一些库函数的介绍就到这里啦。这些强大的可视化技巧, 你学废了吗!?通过一些常用且美观的seaborn可视化操作,我们可以很容易观察到数据的内在相关性与分布关系,帮助我们更好地建立算法模型。好啦,学习的时间总是短暂的。我是oubahe,下次再见啦~ 码字虽少,原创不易。分享是快乐的源泉,来个素质三连 —>点击左下角分享 —> 右下角点赞+在看本文,可以汇聚好运气召唤神龙哟~ d68b316a436983d797d1dbab5e1a7cc7.png

d25ba1fcd5763d0105f45cb65b73959f.png

最后

以上就是要减肥大树为你收集整理的python seaborn_Python数据可视化—Seaborn的全部内容,希望文章能够帮你解决python seaborn_Python数据可视化—Seaborn所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(61)

评论列表共有 0 条评论

立即
投稿
返回
顶部