概述
起点,作为一个8年的老书虫肯定是知道。既然学习了数据分析,就看看起点的数据。
1 获取数据
首先,肯定要先获取数据,巧妇难为无米之炊,没有数据也是白搭。没有现成的数据,只能通过爬虫来爬取我们需要的数据,这里就不写怎么获取数据了。爬虫的代码是我写的第一个爬虫,准确的说应该是复制粘贴。写得也真是够烂的,爬取过程一直断,只好分小说类型一点一点爬取。庆幸的是起点中文网并没有什么反爬虫措施,不然连数据都拿不到。
主要爬取的内容有:
属性
说明
id
小说在起点的id
title
小说名
author
作者
chapter_nums
章节数
word_nums
字数
last_update_date
最后更新时间
first_update_date
第一次更新时间
category
一级分类
sub_category
二级分类
rate
评分
discuss_nums
讨论数
click_nums
点击数
commend_nums
推荐数
sex
性别
crawl_time
爬取时间
爬取到的数据存储到mysql,主要是对mysql比较熟悉,数据量有点大存到文本就有点不适合了。
2 分析
导包和配置
%matplotlib in
最后
以上就是愉快水蜜桃为你收集整理的python 小说分析_Python起点小说数据分析的全部内容,希望文章能够帮你解决python 小说分析_Python起点小说数据分析所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复