我是靠谱客的博主 粗暴天空,最近开发中收集的这篇文章主要介绍Java汉语言处理工具:HanLP初体验HanLP安装初测,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

最近需要用分词系统对新闻文本做一些处理,之前用了jieba做的,但jiaba识别人名、地名、各种名字的表现很差,所以要么自己写识别算法,要么换分词工具。HanLP看了下介绍,感觉挺不错的,功能能扣得上我的需求。言归正传,往下走。

HanLP

HanLP是清华大学开发的,由一系列模型与算法组成的开源Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料。(转自官网,有修改)
官网:http://hanlp.linrunsoft.com/index.html

安装

不得不说maven真是个好东西,繁杂的配置工程,只用在pom.xml里加几行这个,就ok了,真的造福我们这种懒人。

<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.2.8</version>
</dependency>

加上以后记得要在maven build里面compile一下

如果不是maven工程,可以跟着官网文档的步骤慢慢来:
http://hanlp.linrunsoft.com/doc.html

初测

compile之后,一定要耐心等一会

我当时立马兴奋的试了一下官网给的demo

import java.util.List;
import com.hankcs.hanlp.*;
import com.hankcs.hanlp.seg.common.Term;
public class HanTest {
public static void main(String[] args) {
// TODO Auto-generated method stub
System.out.println(HanLP.segment("你好,欢迎使用HanLP!"));
List<Term> termList = HanLP.segment("商品和服务");
System.out.println(termList);
}
}

但运行成功却没出预计结果,只报了这个:
Usage: MapFile inFile outFile
查了半天没查出来这是个啥错,emm???

十几分钟后,不死心再试一次,结果居然好了!
输出结果:

[你好/l, ,/w, 欢迎/v, 使用/v, HanLP/nx, !/w]
[商品/n, 和/c, 服务/vn]

之前应该是maven还没把整个包下载好导致的

安装成功,可以用了,清爽、舒服!

最后

以上就是粗暴天空为你收集整理的Java汉语言处理工具:HanLP初体验HanLP安装初测的全部内容,希望文章能够帮你解决Java汉语言处理工具:HanLP初体验HanLP安装初测所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(49)

评论列表共有 0 条评论

立即
投稿
返回
顶部