概述
分析目的:通过分析,了解谷歌应用商店app的总体情况。
- 加载数据, 使用 head 方法查看前5条数据, 初步浏览数据基本内容。
- 使用 describe 和 info 方法看下数据的大概分布情况。
- 数据清洗
# 重复值,空值
df[df['App'].duplicated()] # app名字重复值
df[df.duplicated()] # 完全重复的,需要最后删除
df[df.Type.isnull()] # 有个null值,需要其他文件数据校对
# 异常值
df['Category'].value_counts(dropna=False)
df[df['Category']=='1.9']
df.drop(index=10472,inplace=True)
df['Rating'].value_counts(dropna=False)
df['Rating'].fillna(value=df['Rating'].mean(),inplace=True)
df['Size'].value_counts(dropna=False)
df['Size']=df['Size'].str.replace('Varies with device','0') # 先弄为特殊值,再用平均值填充
df['Size'].replace(0,df['Size'].mean(),inplace=True)
# 数据类型
df.info()
df['Reviews']=df['Reviews'].astype('i8')
df['Size']=df['Size'].astype('f8') # 有小数
df['Installs']=df['Installs'].astype('i8')
df.describe() # 结果看看
# 特殊数据处理
df['Size']=df['Size'].str.replace('M','e+6')
df['Size']=df['Size'].str.replace('k','e+3') # e指10**,科学计数法
df['Installs']=df['Installs'].str.replace('+','')
df['Installs']=df['Installs'].str.replace(',','')
# 最后删除重复值
df.drop(df[df.duplicated()].index,inplace=True)
df[df.duplicated()] 检查一下
4.清洗完毕,开始分析
#分析Category维度
#每类App的数量排序,得出哪些类的APP最受开发者欢迎
#各类APP的评论排序:社交,游戏类APP评论多,热度高
#各类APP的安装排序: 社交类APP安装数量最多
#各类APP评分排序: 教育类APP评分最高
#Rating各区间的app分布
#分析Category和Type两个维度
#在免费和收费两种类型下,各类app的分布
#在免费和收费两种类型下,各类app的评论比较
#评论安装比
#相关性:评论数和安装数强相关,其他的0.1都不到,可以认为不相关(0.5以上可以认为是强相关)
总结:通过对这份数据的分析,大概了解了谷歌app商店总体情况,得出了一些结论,对app开发场景有了初步的认识。
最后
以上就是无情水蜜桃为你收集整理的【Python数据分析】google play store的app数据分析的全部内容,希望文章能够帮你解决【Python数据分析】google play store的app数据分析所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复