我是靠谱客的博主 优雅诺言,最近开发中收集的这篇文章主要介绍日语分词工具mecab安装配置以及使用MeCab介绍安装MeCab(python 3)安装MeCab(python 2.7),觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

MeCab介绍

mecab 是基于CRF 的一个日文分词系统,代码使用 c++ 实现, 基本上内嵌了 CRF++ 的代码, 同时提供了多种脚本语言调用的接口(python, perl, ruby 等).整个系统的架构采用通用泛化的设计, 用户可以通过配置文件定制CRF训练中需要使用的特征模板。 甚至, 如果你有中文的分词语料作为训练语料,可以在该架构下按照其配置文件的规范定制一个中文的分词系统。

日文NLP 界有几个有名的开源分词系统, Juman, Chasen, Mecab. Juman 和 Chasen 都是比较老的系统了, Mecab 系统比较新, 在很多方面都优于 Juman 和 Chasen, mecab 目前开发也比较活跃。 Mecab 虽然使用 CRF 实现, 但是解析效率上确相当高效, 据作者的介绍, Mecab 比基于 HMM 的 Chasen 的解析速度要快。 笔者在一台 Linux 机器上粗略测试过其速度,将近达到 2MB/s, 完全达到了工程应用的需求, 该系统目前在日文 NLP 界被广泛使用。

安装MeCab(python 3)

  • 安装包下载
  • https://download.csdn.net/download/hengwen1991/10958377  
  • 使用系统
  • Linux

修改setup.py文件:

vi setup.py 

将以下代码进行修改:

def cmd2(str):    

      return string.split (cmd1(str))

变更后的文本:

def cmd2(str):    

     return cmd1(str).split()

python setup.py build

sudo python setup.py install

 

安装MeCab(python 2.7)

sudo apt-get install mecab libmecab-dev mecab-ipadic

sudo apt-get install mecab-ipadic-utf8

sudo apt-get install python-mecab

最后

以上就是优雅诺言为你收集整理的日语分词工具mecab安装配置以及使用MeCab介绍安装MeCab(python 3)安装MeCab(python 2.7)的全部内容,希望文章能够帮你解决日语分词工具mecab安装配置以及使用MeCab介绍安装MeCab(python 3)安装MeCab(python 2.7)所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(43)

评论列表共有 0 条评论

立即
投稿
返回
顶部