我是靠谱客的博主 能干鱼,最近开发中收集的这篇文章主要介绍Elasticsearch分词器介绍、内置分词器及配置中文分词器,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1、分词器、

分词器是从一串文本中切分一个个的词条,并对每个词条进行标准化,包含三个部分:

  • character filter:分词之前的预处理,过滤掉HTML标签、特殊符号转换(例如,将&符号转换成and、将|符号转换成or)等。
  • tokenizer:分词
  • token filter:标准化
2、内置分词器
  • standard分词器:(默认的)它将词汇单元转换成小写形式,并去掉停用词(a、an、the等没有实际意义的词)和标点符号,支持中文采用的方法为单字切分(例如,‘你好’切分为‘你’和‘好’)。
  • simple分词器:首先通过非字母字符来分割文本信息,然后将词汇单元同一为小写形式。该分析器会去掉数字类型的字符。
  • Whitespace分词器:仅仅是去除空格,对字符没有lowcase(大小写转换)化,不支持中文;并且不对生成的词汇单元进行其他的标准化处理。
  • language分词器:特定语言的分词器,不支持中文。
3、配置中文分词器(ayalysis-ik)
//下载中文分词器https://github.com/medcl/elasticsearch-ayalysis-ik
git clone https://github.com/medcl/elasticsearch-ayalysis-ik
//解压elasticsearch-ayalysis-ik-master.zip
unzip elasticsearch-ayalysis-ik-master.zip
//进入elasticsearch-ayalysis-ik-master,编译源码(这里使用maven进行编译(需要提前安装配置maven),Dmaven.test.skip=true是跳过测试)
mvn clean install —Dmaven.test.skip=true
//在es的plugins目录下创建ik目录
mkdir ik
//将编译后生成的elasticsearch-analysis-ik-版本.zip移动至ik目录下,并解压即可
cp elasticsearch-analysis-ik-版本.zip /opt/elasticsearch/plugins/ik
unzip elasticsearch-analysis-ik-版本.zip

Centos7-Minimal 版编译安装maven

最后

以上就是能干鱼为你收集整理的Elasticsearch分词器介绍、内置分词器及配置中文分词器的全部内容,希望文章能够帮你解决Elasticsearch分词器介绍、内置分词器及配置中文分词器所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(55)

评论列表共有 0 条评论

立即
投稿
返回
顶部