我是靠谱客的博主 无聊冰棍,最近开发中收集的这篇文章主要介绍不知道换什么手机?看看买过的怎么说,JD热门手机评论爬取与可视化,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

20年初,受疫情影响,各家厂商的手机发布会在4月份如雨后春笋,接踵而至.

买那个手机呢?俗话说群众的眼睛是雪亮的,看看买过的人怎么说.本文主要爬取热门的华为40Pro 与小米10的评论进行分析

首先分析网页结构:

发现有个包含Comment 的请求,看看响应

发现评论就在这里面.每一页是10条

然后看看请求头

URL:

请求方式为GET.

请求参数在最下面:

分析发现,productId 对应不同的商品,score对应不同的评价类型,有全部评论,好评,中评,差评这几个分类.

另外一个需要我们注意的是page,通过分析发现网站最多展示100页的数据,可以采用循环的方式进行遍历.判断如果没有评论内容直接退出就可以了.

因为需要登录.这边使用世界最大同性交友网站的开源模块进行登录

返回的session可以保存到本地,这样不需要重复登录了.

然后就是构建完整的url,请求返回评论数据

数据解析

最后数据保存

修改参数,分别爬取好评与差评.接下来就是数据分析的过程

这里使用pandas,matplotlib,seaborn 这几个包.

import jieba
import wordcloud
import imageio
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
plt.rcParams['font.sans-serif'] = ['SimHei']
%matplotlib inline

读取数据

df = pd.read_csv('comments.csv')
bd_df = pd.read_csv("comments_bad.csv")

发现没有为空的字段

将creationTime 转化成日期字段,并且新增加一个日期的列

df['creationTime'] = pd.to_datetime(df['creationTime'])
df['date'] = df.creationTime.dt.date

首先看看不同日期的评论数

f,ax = plt.subplots(figsize=(10,4))
sns.countplot(df['date'],data=df)
plt.xlabel("日期")
plt.ylabel("评论数量")
plt.title("华为P40Pro 不同日期的评论数",fontsize=20)
plt.xticks(rotation=45)

f,ax = plt.subplots(figsize=(10,4))
sns.countplot(df['productColor'],data=df)
plt.xlabel("颜色")
plt.ylabel("销售量")
plt.title("华为P40Pro 不同颜色的销售量",fontsize=20)

f,ax = plt.subplots(figsize=(10,4))
sns.countplot(df['productSize'],data=df)
plt.xlabel("规格配置")
plt.ylabel("销售量")
plt.title("华为P40Pro 不同规格配置的销售量",fontsize=20)

最后看看用户评论的关键词有哪些,使用jieba,wordcloud模块做词云

comments_list = df['content'].values.tolist()
[i.strip() for i in comments_list]
comments_str = "".join(comments_list)
txtlist = jieba.lcut(comments_str)
string = " ".join(txtlist)
mk = imageio.imread("star.png")
w = wordcloud.WordCloud(mask=mk)

w = wordcloud.WordCloud(width=1000,
                        height=700,
                        background_color='white',
                        font_path='C:WindowsFontssimfang.ttf',
                        mask=mk,
                        scale=15
                       )
w.generate(string)
w.to_file('P40Pro.png')

如图所示,基本与发布会上所宣传的亮点是对应的.拍照毫无疑问是最大的亮点.

另外对差评也做了一个词云

有吐槽拍照的,吐槽音效的,还有大挖孔,续航这些等等.

小米10的我就不上代码了,代码跟上面是一致的,修改一下参数就可以了,直接上图:

好评词云:

差评词云:

由于网站只能显示100页的数据,数据量只有接近1000条左右.数据量还是有点小,分析结果就是这样.看了这些,你知道换什么手机了吗?如果想了解其他的手机,可以将PproductID这个参数换成你想要了解的手机ID,就可以了.

 

最后

以上就是无聊冰棍为你收集整理的不知道换什么手机?看看买过的怎么说,JD热门手机评论爬取与可视化的全部内容,希望文章能够帮你解决不知道换什么手机?看看买过的怎么说,JD热门手机评论爬取与可视化所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(34)

评论列表共有 0 条评论

立即
投稿
返回
顶部