概述
Hello大家好呀,这篇文章紧接上一篇文章《python金融分析小知识(8)——NLP初探之结巴分词的使用》,链接我放这里啦:python金融分析小知识(8)——NLP初探之结巴分词的使用_君子以自强不息python的博客-CSDN博客在上一篇文章中我们通过使用结巴分词工具已经成果将某段文章进行了分词,那么是不是我们文字处理的任务就已经做完了?当然不是的,我们有没有考虑到一个问题:是不是所有分好的词都是有意义的?
其实无论是在中文中还是在英文中,我们都会遇到一些对于我们理解整个文本来说意义不大的词语,比如一些语气助词、介词、连词等等。举一些例子比如:“嗯”,“啊”,“和”等等,这些词对于我们进行文本分析来说基本上属于是噪声数据,我们应该去除它们。
上述所提到的这些词语我们统称为停用词,在处理文本数据时我们应该去除他们。
那么我们应该怎么去除这些停用词呢?首先我们需要建立一个停用词表,可以我们自己手动建立,也可以去网上下载(当然最好是在网上下载,因为这样停用词表的内容会比较全面),这里给大家附上一个下载停用词表的链接:停用词表下载
在得到停用词表后我们打开看看,它其实可以保存为一个TXT文档:
可以看出,这个停用词表甚至还包含了一些符号。
接下来就是使用停用词来处理我们上一篇文章已经分好词的文本啦:
分好词的文本如下:
words = '国务院新闻办 今天 ( 6 月 8 日 ) 举行 发布会 , 邀请 相关 部委 和 海南省 负责人 介绍 《 海南 自由贸易 港 建设 总体方案 》 有关 情况 并 答记者问 。 海南 自由贸易 试验区 成立 两年 多来 , 先后 有 77 项 制度 创新 发布 , 其中 许多 是 全国 首创 。 两年 来 , 新增 市场主体 超过 44 万户 , 比 两年 前 增长 66% , 这些 都 为 海南 自由贸易 港 的 建设 奠定 了 基础 。 根据 方案 , 2025 年前 将 适时 启动 全岛 封关 运作 。 在此之前 , 率先 对 部分 进口商品 实施 零关税 , 免征 进口关税 、 进口 环节 增值税 和 消费税 。 此外 , 大幅 放宽 离岛 免税 购物 政策 , 海南 离岛 免税 购物 限额 提至 每人每年 10 万元 , 进一步 扩大 免税 商品种类 。 海南 自由贸易 港 将 实行 “ 非禁 即入 ” , 对 企业 实行 备案制 、 承诺制 , 承诺 符合条件 就 可以 开展业务 。 从 现在 开始 到 2025 年 , 对 符合条件 的 企业 和 个人 减免 所得税 , 对 在 海南 自贸港 工作 的 高端 和 紧缺 人才 , 如果 在 海南岛 内待 满 183 天 , 个人所得税 实际 税负 超过 15% 的 那 部分 将 免征 。 按照 规划 , 海南 自由贸易 港 将 在 2035 年前 全面实现 贸易 自由 便利 、 投资 自由 便利 、 跨境 资金 流动 自由 便利 、 人员 进出 自由 便利 、 运输 来往 自由 便利 和 数据安全 有序 流动 , 推进 建设 高水平 自由贸易 港 。'
接下来调用停用词,处理文本:
word = '' #创建一个空字符串
#逐行读取停用词表 存入列表中
stopwords = [line.strip() for line in open('stopwords.txt',encoding='UTF-8').readlines()]
for element in words: #原文本中的元素,按照每一个 “字” 为单位进行筛选!
if element not in stopwords: #如果原文本中元素不在停用词表中,则不停用
word += element #保存不停用的词
print(word)
让我们打印一下使用了停用词表后的结果看看:
'国务院新闻办 天 月 日 举行 发布 邀请 相关 部委 海南省 负责 介绍 海南 贸易 港 建设 总体案 关 情况 答记问 海南 贸易 试验区 成 两年 先 项 制度 创新 发布 中 许 全国 首创 两年 新增 市场主体 超 万户 两年 前 增长 海南 贸易 港 建设 奠 基础 根 案 年前 适时 启动 全岛 封关 运作 前 率先 部分 进口商品 实施 关税 免征 进口关税 进口 环节 增值税 消费税 外 幅 放宽 岛 免税 购物 政策 海南 岛 免税 购物 限额 提 年 万元 进步 扩 免税 商品类 海南 贸易 港 实行 非禁 入 企业 实行 备案制 承诺制 承诺 符合条件 开展业务 现 开始 年 符合条件 企业 减免 税 海南 贸港 工作 高端 紧缺 果 海南岛 天 税 实际 税负 超 部分 免征 规划 海南 贸易 港 年前 全面实现 贸易 利 投资 利 跨境 资金 流动 利 员 进 利 运输 利 数安全 序 流动 推进 建设 高水平 贸易 港 '
大家可以仔细对比一下这张图和上一张图的不同之处,这些不同的地方就是停用词表所带来的影响,这些以前存在的词如今就被停用了。
今天的文章就分享到这里啦!
最后
以上就是温柔鸡翅为你收集整理的python金融分析小知识(9)——NLP初探之结巴分词停用词的全部内容,希望文章能够帮你解决python金融分析小知识(9)——NLP初探之结巴分词停用词所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复