我是靠谱客的博主 舒服糖豆,最近开发中收集的这篇文章主要介绍对google play store app的数据分析与实用的报表生成1. 对google play store的app数据分析很实用的一种数据报告生成方法,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1. 对google play store的app数据分析

从网上爬取谷歌商店数据并进行数据分析
分析步骤:
1.数据清洗(脏数据),数据处理(异常值,非结构化数据转换为结构化数据)
2.数据分析 使用pandas提取指定数据进行分析,并使用matplotlib绘图。

最后介绍了pandas_profiling,一种实用的数据报表生成方法。

1.数据清洗

1.读取并简单查看数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#Genres内容分级
#加载文件
#分析'App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type'
df = pd.read_csv('./googleplaystore.csv', usecols=(0, 1, 2, 3, 4, 5, 6))
df.head()

在这里插入图片描述

df.describe()

在这里插入图片描述

#查看行数量
df.shape

在这里插入图片描述

#查看各列非空数据量
df.count()

在这里插入图片描述

2.数据处理

#对category列进行处理
df['Category'].value_counts(dropna=False)

在这里插入图片描述

#存在1.9这个异常值,将其删除
df.drop(df[df['Category']=1.9].index,inplace=True)
#类似的,对Rating处理
df['Rating'].value_counts(dropna=False)
#用平均值填充nan值
df['Rating'].fillna(value=df['Rating'].mean(),inplace=True)

#对Reviews处理
df['Reviews'].value_counts(dropna=False)
#将字符串转为int,直接写会生成一个新的值,所以想覆盖需要对原值赋值
df['Reviews'] = df['Reviews'].astype('i8')

#对Size处理
df['Size'].value_counts()
#发现有M(1e6)和k(1e3),对其转换
df['Size'].str.replace('M','e+6')
df['Size'].str.replace('k','e+3')
df['Size'] = df['Size'].astype('f8')
#对0值取平均值
df['Size'].replace(0,df[’Size‘].mean(),inplace=True)

#对installs处理,将’,‘与'+'删除
df['installs'] = df['installs'].str.replace('+','')
df['installs'] = df['installs'].str.replace(',','')
df['installs'] = df['installs'].astype('f8')

#对Type处理,查看是否有nan值,若有则删除
df['Type'].value_counts()
df[df['Type'].isnull()]
#最后查看是否有重复的值
df[df.duplicated()]

在这里插入图片描述

#df.drop(df[df.duplicated()].index,inplace=True)

2.数据分析

整体查看

df.describe()
df.count()

具体分析
1.查看每个分类的app的数量

df.groupby('Category').count().sort_values('App',ascending=False)['App']

2.查看每个分类评论数量多

df.groupby('Category').mean().sort_values('Reviews', ascending=False)['Reviews']

3.查看app的type数据

df.groupby('Type').count()

4.将分类与type一起分析

df.groupby(['Type','Category']).mean.sort_values('Reviews',ascending=False)

5.收费与不收费的app评论比率

g = df.groupby(['Type','Category']).mean
(g['Reviews']/g['Installs']).sort_values(ascending=False)

6.查看列之间的相关性

df.corr()

在这里插入图片描述

7.查看不同安装数量段的数据

#bins_arr两个数之间即为分段
bins_arr = np.arange(0,10000000,1000000)
bins = pd.cut(df['Reviews'],bins_arr)
total_counts = df['Reviews'].groupby(bins).count()

在这里插入图片描述
绘制曲线图

plt.figure(figsize=(10,10))
total_counts.plot()

在这里插入图片描述

很实用的一种数据报告生成方法

使用pandas_profiling

import pandas_profiling
#df为刚刚导入的数据

#直接显示
#pandas_profiling.ProfileReport(df)

#如果要导出报告则
prf = pandas_profiling.ProfileReport(df)
prf.to_file('report.html')

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

最后

以上就是舒服糖豆为你收集整理的对google play store app的数据分析与实用的报表生成1. 对google play store的app数据分析很实用的一种数据报告生成方法的全部内容,希望文章能够帮你解决对google play store app的数据分析与实用的报表生成1. 对google play store的app数据分析很实用的一种数据报告生成方法所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(76)

评论列表共有 0 条评论

立即
投稿
返回
顶部