我是靠谱客的博主 酷炫冰淇淋,最近开发中收集的这篇文章主要介绍技术解析|如何绘制密度分布图,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

点击上方『早起python』关注早起

和我一起,成为更好的自己

前言

在前几天对数据分析师与算法工程师进行岗位对比分析的文章中,我们使用了密度分布图和箱线图对薪资水平与学历对薪资的影响进行了分析,那么早起就对这两种图形的绘制方法进行解析,也借着这个机会讲一下我最喜欢的绘图包:ggplot2

密度分布图

频率分布直方图中,当样本容量充分放大时,图中的组距就会充分缩短,这时图中的阶梯折线就会演变成一条光滑的曲线,这条曲线就称为总体的密度分布曲线。这条曲线排除了由于取样不同和测量不准所带来的误差,能够精确地反映总体的分布规律,密度分布图其实就是密度分布曲线的填充。

原文的的密度分布图的绘制软件为R,为啥不用Python?研究了一圈绘制出来图形都不够好看那么具体怎么画呢?首先把数据整理成这样????

一列是职位名称一列是对应的薪资,然后启动R读取数据并修改两个列名

#读取数据
data = read.csv('gongzi.csv')
#修改列名
names(data)[1:2]<-c("professional","salary")

接着使用下面的代码加载ggplot2,并设置x轴,此时图形长这样????

接下来我们使用下面代码添加密度曲线

p + geom_density()

此时虽然整出来密度曲线,但是并没有根据两个岗位进行区分,因此我们使用下面代码区分开两个岗位,注意里面函数里面color就是指定岗位

p + geom_density(aes(color = professional))

OK,成功对不同岗位进行了区分,只剩下最后一步填充,并且有没有发现坐标轴是以科学计数法呈现的,我们也对这一块处理一下

options(scipen=200)
p + geom_density(aes(fill = professional), alpha=0.4) + xlim(0,80000)

options(scipen=200)就是用来处理坐标轴的科学计数法,并且我们的x轴不需要那么大的范围,因此使用xlim(0,80000)来调整,这样我们就做出了漂亮的密度分布图

为了读者可以从图中读到更多信息,我们再将两个岗位的平均薪资线添加进去,首先计算两个岗位的平均薪资并创建为dataframe

接着使用下面一行命令即可

p + geom_density(aes(fill = professional), alpha=0.4) + xlim(0,80000) + geom_vline(data = mean, aes(xintercept = salary,color=professional),linetype="dashed")

来看看最终效果,学会了吗

结束语

以上就是使用R绘制漂亮的密度分布图过程,我已将原始数据放在公众号后台回复招聘获取,感兴趣的读者可以利用原始数据自己使用python进行处理得到我们需要的数据格式再绘制,最后留一个问题,怎样绘制学历关于薪资的箱线图?怎样实现箱子大小根据不同样本量而变化?且看下回推文。

往期内容(????猛戳可查看)

热门文章:

➤情人节网站➤岗位对比分析➤爬取网易云音乐

➤爬取钉钉评价➤自动追踪快递➤Python画樱花树

➤Python斗地主➤Matplotlib神器➤全球疫情动态图

数据分析:

➤统计检验➤数据分析报告➤数据分析技巧

➤数据可视化➤Pandas学习➤缺失值处理

➤Python库整理➤数据降维➤疫情数据汇总

记得点个在看支持下~????

最后

以上就是酷炫冰淇淋为你收集整理的技术解析|如何绘制密度分布图的全部内容,希望文章能够帮你解决技术解析|如何绘制密度分布图所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(38)

评论列表共有 0 条评论

立即
投稿
返回
顶部