我是靠谱客的博主 失眠火,最近开发中收集的这篇文章主要介绍基于大数据可视化技术的2022年微博#国庆相关话题的中文情感识别研究,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

目 录

1引言 2
2基于大数据可视化技术的微博获取与清理 3
2.1 概述 3
2.2 微博的反爬虫机制 3
2.2.1 通过Headers反爬虫 3
2.2.2 基于用户行为的爬虫 3
2.2.3 动态页面的反爬虫 3
2.2.4 微博的反爬虫 3
2.3 微博的获取 4
2.3.1 微博API的获取 4
2.3.2 模拟登录 5
2.3.3 微博抓取与存储 5
2.4 微博的分词与降噪 5
2.4.1 概念 5
2.4.2 分词 5
2.4.3 删除URL 6
2.4.4 删除用户名 6
2.4.5 去除停用词 6
3利用贝叶斯定理进行情感分析 8
3.1 引言 8
3.2 贝叶斯定理 8
3.2.1 高斯朴素贝叶斯 9
3.2.2 伯努利贝叶斯 10
3.2.3 多项式朴素贝叶斯定理 10
4微博国庆相关话题的中文情感识别 11
4.1算法过程 11
4.2拉普拉斯平滑 11
4.3实验 12
4.3.1分词 12
4.3.2特征提取 12
4.3.3 向量化 13
4.3.4 朴素贝叶斯分类 13
4.3.5 测试 13
4.3.6 计算准确率 14
总 结 15
参考文献 16
致谢辞 17
2基于大数据可视化技术的微博获取与清理
2.1 概述
从上一章的研究背景所述,微博已成为社交平台的十分突出的新媒体。该平台以特定的方式授权开发者获取微博的部分数据,以此让开发者分析、发布、处理等,并且能够让开发者深入研究和商业运作。
针对微博数据的抓取和存储,目前主要有两种方式:
(1)根据微博官方提供的API接口。这些接口基于REST实现的HTTP协议,以JSON结构化的方式作出响应。但是,这种接口需要一定的权限,还有接口的请求频次限制次数,甚至对于接口的限制的速率限制。
(2)基于微博网页的解析。这种方式需要解析网页,如果网页代码有改动,响应的抓取方式也要有改变,对于大量的抓取,需要破解微博的反爬虫机制(使用代理ip,不同账号等)。
2.2 微博的反爬虫机制
防止爬虫一般从三个方面入手:分析网页请求的headers,监督用户访问网站的行为,调整网站中的目录和数据加载的方式。前面两种比较常见,大部分网站都是从这两个角度来反爬虫。第三种会应用一些ajax来反爬虫。
2.2.1 通过Headers反爬虫
目前,一般网站都会检测网页请求中Headers的User-Agent,有的甚至还要检查网站的Referer。如果遇到这类反爬虫机制,我们可以直接在代码中添加Headers和Referer以此来绕过检查。对于这些网站,在代码中添加或修改其中的Headers和Refer就能很好的绕过。
2.2.2 基于用户行为的爬虫
用户访问网站的行为也是目前主流网站常用的检测手段,比如:同一IP在短时间内多次访问了同一个页面,还有的事同一个账户短时间内多次进行相同操作。对于这种情况,我们可以使用IP代理来解决。现在网上有收费的和免费的IP代理,我们可以爬去这些IP代理存储起来,然后每请求几次就更换一次IP。
2.2.3 动态页面的反爬虫
还有一部分网站,数据是通过ajax或者js请求生成的。我们可以使用浏览器对访问网站中的请求的进行分析。如果能找到ajax请求,分析其含义后可以使用上面两种方法解决,获取对应的数据。
如果不能获取ajax的请求,可以调用selenium+phantomjs框架,调用其浏览器内核,来模拟人为操作以及触发页面的js脚本。
2.2.4 微博的反爬虫
微博中的反爬虫使用了以上三种机制,验证客户端的Headers,同时对访问量多大的同意IP进行禁止访问,使用Ajax进行数据传输。要想破解此类爬虫,必须使用IP代理,同一账号不同时间访问,添加Headers等。微博中的Headers添加如下:

conn.request('post', '/oauth2/authorize', postdata,
             {'referer': self._author_url,
              'content-type': 'application/x-www-form-urlencoded',
              'user-agent': 'mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/50.0.2661.102 safari/537.36',
              'cookie': 'your cookie'})

本实验中,主要是基于微博开放平台提供API,然后申请一个statuses/public_timeline接口,获取到最新的公共微博。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

最后

以上就是失眠火为你收集整理的基于大数据可视化技术的2022年微博#国庆相关话题的中文情感识别研究的全部内容,希望文章能够帮你解决基于大数据可视化技术的2022年微博#国庆相关话题的中文情感识别研究所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(32)

评论列表共有 0 条评论

立即
投稿
返回
顶部