我是靠谱客的博主 悲凉墨镜,最近开发中收集的这篇文章主要介绍如何在java中去除中文文本的停用词,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

 

1.  整体思路

第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。

第二步:使用停用词表,去除分好的词中的停用词。

2.  中文文本分词环境配置

使用的HanLP-汉语言处理包进行中文文本分词。

·HanLP-汉语言处理包下载,可以去github上下载

·HanLP 的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.properties。

·官方环境配置步骤也可以在github上查询到。

·环境配置好后,java使用HanLP进行中文分词文档如下:hanlp.linrunsoft.com/doc.html

3.  下载停用词表

停用词表可以去百度或者其他搜索引擎检索一份,很容易就找到!

4.  去除停用词工具类

使用这个工具类的之前,请先完成中文文本分词环境配置,并测试一下。停用词 .txt 文件路径请修改为自己的本地路径。

 

图1.jpg

5.  工具类测试

5.1  测试代码

public class test {

    public static void main(String args[]) {

        try {

            System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。举头望明月,低头思故乡。"));

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

 

5.2  测试结果

图2.jpg


 


转载于:https://blog.51cto.com/13993767/2386445

最后

以上就是悲凉墨镜为你收集整理的如何在java中去除中文文本的停用词的全部内容,希望文章能够帮你解决如何在java中去除中文文本的停用词所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(50)

评论列表共有 0 条评论

立即
投稿
返回
顶部