我是靠谱客的博主 炙热纸鹤,最近开发中收集的这篇文章主要介绍日语分词工具MeCab的安装和使用,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

由于工作的需要,需要使用到分词工具,结果调研之后发现有专门的日语分词工具可以很好地对日语进行分词,于是记录下来安装和简单的使用测试过程。

首先使用的系统是Mac OSX,python版本是python3.

1. 有直接源码可以安装的,但是为了方便还是使用HomeBrew来进行安装。下面使用HomeBrew进行安装。

$ brew install mecab
$ brew install mecab-ipadic
2. 然后可以直接使用pip安装python接口了。

$ pip install mecab-python3
3. 之后可以在python环境下测试是否安装成功。

>>> import MeCab
如果没有提示则说明安装成功。


下面就可以进行一些简单的使用例子了。

import MeCab
mecab = MeCab.Tagger ("-Ochasen")
sentence = '太郎はこの本を二郎を見た女性に渡した。'
print(mecab.parse(sentence))


太郎	タロウ	太郎	名詞-固有名詞-人名-名
は	ハ	は	助詞-係助詞
この	コノ	この	連体詞
本	ホン	本	名詞-一般
を	ヲ	を	助詞-格助詞-一般
二	ニ	二	名詞-数
郎	ロウ	郎	名詞-一般
を	ヲ	を	助詞-格助詞-一般
見	ミ	見る	動詞-自立	一段	連用形
た	タ	た	助動詞	特殊・タ	基本形
女性	ジョセイ	女性	名詞-一般
に	ニ	に	助詞-格助詞-一般
渡し	ワタシ	渡す	動詞-自立	五段・サ行	連用形
た	タ	た	助動詞	特殊・タ	基本形
。	。	。	記号-句点
EOS

当然上面输出的是带词性标注的,我们可以使用另一种方法来输出没有词性标注的,仅仅是分词。

import MeCab
mecab = MeCab.Tagger ("-Owakati")
sentence = '太郎はこの本を二郎を見た女性に渡した。'
print(mecab.parse(sentence))

太郎 は この 本 を 二 郎 を 見 た 女性 に 渡し た 。


基本的使用就是这些,更详细的使用Google吧。

 

---------------------EOF--------------------


参考文献:

http://mollydesjardin.com/guides/mecabinstructions.html

https://github.com/SamuraiT/mecab-python3

http://stackoverflow.com/questions/7892007/python-2-7-how-do-you-write-mecab-parsed-information-to-a-text-file

https://shogo82148.github.io/blog/2012/12/15/mecab-python/


最后

以上就是炙热纸鹤为你收集整理的日语分词工具MeCab的安装和使用的全部内容,希望文章能够帮你解决日语分词工具MeCab的安装和使用所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(53)

评论列表共有 0 条评论

立即
投稿
返回
顶部