我是靠谱客的博主 舒服糖豆,最近开发中收集的这篇文章主要介绍对google play store app的数据分析与实用的报表生成1. 对google play store的app数据分析很实用的一种数据报告生成方法,觉得挺不错的,现在分享给大家,希望可以做个参考。
概述
1. 对google play store的app数据分析
从网上爬取谷歌商店数据并进行数据分析
分析步骤:
1.数据清洗(脏数据),数据处理(异常值,非结构化数据转换为结构化数据)
2.数据分析 使用pandas提取指定数据进行分析,并使用matplotlib绘图。
最后介绍了pandas_profiling,一种实用的数据报表生成方法。
1.数据清洗
1.读取并简单查看数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#Genres内容分级
#加载文件
#分析'App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type'
df = pd.read_csv('./googleplaystore.csv', usecols=(0, 1, 2, 3, 4, 5, 6))
df.head()
df.describe()
#查看行数量
df.shape
#查看各列非空数据量
df.count()
2.数据处理
#对category列进行处理
df['Category'].value_counts(dropna=False)
#存在1.9这个异常值,将其删除
df.drop(df[df['Category']=1.9].index,inplace=True)
#类似的,对Rating处理
df['Rating'].value_counts(dropna=False)
#用平均值填充nan值
df['Rating'].fillna(value=df['Rating'].mean(),inplace=True)
#对Reviews处理
df['Reviews'].value_counts(dropna=False)
#将字符串转为int,直接写会生成一个新的值,所以想覆盖需要对原值赋值
df['Reviews'] = df['Reviews'].astype('i8')
#对Size处理
df['Size'].value_counts()
#发现有M(1e6)和k(1e3),对其转换
df['Size'].str.replace('M','e+6')
df['Size'].str.replace('k','e+3')
df['Size'] = df['Size'].astype('f8')
#对0值取平均值
df['Size'].replace(0,df[’Size‘].mean(),inplace=True)
#对installs处理,将’,‘与'+'删除
df['installs'] = df['installs'].str.replace('+','')
df['installs'] = df['installs'].str.replace(',','')
df['installs'] = df['installs'].astype('f8')
#对Type处理,查看是否有nan值,若有则删除
df['Type'].value_counts()
df[df['Type'].isnull()]
#最后查看是否有重复的值
df[df.duplicated()]
#df.drop(df[df.duplicated()].index,inplace=True)
2.数据分析
整体查看
df.describe()
df.count()
具体分析
1.查看每个分类的app的数量
df.groupby('Category').count().sort_values('App',ascending=False)['App']
2.查看每个分类评论数量多
df.groupby('Category').mean().sort_values('Reviews', ascending=False)['Reviews']
3.查看app的type数据
df.groupby('Type').count()
4.将分类与type一起分析
df.groupby(['Type','Category']).mean.sort_values('Reviews',ascending=False)
5.收费与不收费的app评论比率
g = df.groupby(['Type','Category']).mean
(g['Reviews']/g['Installs']).sort_values(ascending=False)
6.查看列之间的相关性
df.corr()
7.查看不同安装数量段的数据
#bins_arr两个数之间即为分段
bins_arr = np.arange(0,10000000,1000000)
bins = pd.cut(df['Reviews'],bins_arr)
total_counts = df['Reviews'].groupby(bins).count()
绘制曲线图
plt.figure(figsize=(10,10))
total_counts.plot()
很实用的一种数据报告生成方法
使用pandas_profiling
import pandas_profiling
#df为刚刚导入的数据
#直接显示
#pandas_profiling.ProfileReport(df)
#如果要导出报告则
prf = pandas_profiling.ProfileReport(df)
prf.to_file('report.html')
最后
以上就是舒服糖豆为你收集整理的对google play store app的数据分析与实用的报表生成1. 对google play store的app数据分析很实用的一种数据报告生成方法的全部内容,希望文章能够帮你解决对google play store app的数据分析与实用的报表生成1. 对google play store的app数据分析很实用的一种数据报告生成方法所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复