概述
1、分词器、
分词器是从一串文本中切分一个个的词条,并对每个词条进行标准化,包含三个部分:
- character filter:分词之前的预处理,过滤掉HTML标签、特殊符号转换(例如,将&符号转换成and、将|符号转换成or)等。
- tokenizer:分词
- token filter:标准化
2、内置分词器
- standard分词器:(默认的)它将词汇单元转换成小写形式,并去掉停用词(a、an、the等没有实际意义的词)和标点符号,支持中文采用的方法为单字切分(例如,‘你好’切分为‘你’和‘好’)。
- simple分词器:首先通过非字母字符来分割文本信息,然后将词汇单元同一为小写形式。该分析器会去掉数字类型的字符。
- Whitespace分词器:仅仅是去除空格,对字符没有lowcase(大小写转换)化,不支持中文;并且不对生成的词汇单元进行其他的标准化处理。
- language分词器:特定语言的分词器,不支持中文。
3、配置中文分词器(ayalysis-ik)
//下载中文分词器https://github.com/medcl/elasticsearch-ayalysis-ik
git clone https://github.com/medcl/elasticsearch-ayalysis-ik
//解压elasticsearch-ayalysis-ik-master.zip
unzip elasticsearch-ayalysis-ik-master.zip
//进入elasticsearch-ayalysis-ik-master,编译源码(这里使用maven进行编译(需要提前安装配置maven),Dmaven.test.skip=true是跳过测试)
mvn clean install —Dmaven.test.skip=true
//在es的plugins目录下创建ik目录
mkdir ik
//将编译后生成的elasticsearch-analysis-ik-版本.zip移动至ik目录下,并解压即可
cp elasticsearch-analysis-ik-版本.zip /opt/elasticsearch/plugins/ik
unzip elasticsearch-analysis-ik-版本.zip
Centos7-Minimal 版编译安装maven
最后
以上就是能干鱼为你收集整理的Elasticsearch分词器介绍、内置分词器及配置中文分词器的全部内容,希望文章能够帮你解决Elasticsearch分词器介绍、内置分词器及配置中文分词器所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复