Elasticsearch分词器介绍、内置分词器及配置中文分词器

293 阅读 0 评论 194 点赞

我是靠谱客的博主能干鱼，这篇文章主要介绍Elasticsearch分词器介绍、内置分词器及配置中文分词器，现在分享给大家，希望可以做个参考。

1、分词器、

分词器是从一串文本中切分一个个的词条，并对每个词条进行标准化，包含三个部分：

character filter：分词之前的预处理，过滤掉HTML标签、特殊符号转换（例如，将&符号转换成and、将|符号转换成or）等。
tokenizer：分词
token filter：标准化

2、内置分词器

standard分词器：（默认的）它将词汇单元转换成小写形式，并去掉停用词（a、an、the等没有实际意义的词）和标点符号，支持中文采用的方法为单字切分（例如，‘你好’切分为‘你’和‘好’）。
simple分词器：首先通过非字母字符来分割文本信息，然后将词汇单元同一为小写形式。该分析器会去掉数字类型的字符。
Whitespace分词器：仅仅是去除空格，对字符没有lowcase（大小写转换）化，不支持中文；并且不对生成的词汇单元进行其他的标准化处理。
language分词器：特定语言的分词器，不支持中文。

3、配置中文分词器（ayalysis-ik）

//下载中文分词器https://github.com/medcl/elasticsearch-ayalysis-ik
git clone https://github.com/medcl/elasticsearch-ayalysis-ik
//解压elasticsearch-ayalysis-ik-master.zip
unzip elasticsearch-ayalysis-ik-master.zip
//进入elasticsearch-ayalysis-ik-master，编译源码(这里使用maven进行编译（需要提前安装配置maven），Dmaven.test.skip=true是跳过测试)
mvn clean install —Dmaven.test.skip=true
//在es的plugins目录下创建ik目录
mkdir ik
//将编译后生成的elasticsearch-analysis-ik-版本.zip移动至ik目录下，并解压即可
cp elasticsearch-analysis-ik-版本.zip /opt/elasticsearch/plugins/ik
unzip elasticsearch-analysis-ik-版本.zip

Centos7-Minimal 版编译安装maven