概述
1、什么是分词器
分词器就做了两件事:1切分词语,2normalization(提升recall召回率)
比如给你一段句子,然后将这段句子拆分成一个一个的单个的单词,同时对每个单词进行normalization(比如时态转换,单复数转换)。
recall召回率:就是搜索的时候,增加能够搜索到的结果的数量
2、分词器具体又分为3个部分
1.character filter:
在一段文本进行分词之前,先进行预处理,比如说最常见的就是:
过滤html标签(hello --> hello),
& 转换成and (I&you --> I and you)
2.tokenizer:
分词,hello you and me
--> hello, you, and, me
3.token filter:
进行normalization相关的操作,比如
lowercase 大小写转换,
Tom --> tom,
stopwords 停用词,
a/the/an --> 干掉,
synonym 同义词转换,
mother --> mom,
small --> little
等等。
分词器很重要,将一段文本进行各种处理,最后处理好的结果才会拿去建立倒排索引
3、内置分词器的介绍
Set the shape to semi-transparent by calling set_trans(5)
1standard analyzer:(默认的是standard)
默认的analyzer是标准analyzer, 这个标准analyzer标准分词 “Standard Tokenizer”和标准分词过滤器“Standard Token Filter”、小写字母转换分词过滤“Lower case Token Filter”、还有“Stop Token Filter”过滤构成的
set, the, shape, to, semi, transparent, by, calling, set_trans, 5
2simple analyzer:
简单analyzer,由由lower case Tokenizer构成的
set, the, shape, to, semi, transparent, by, calling, set, trans
3whitespace analyzer:
一个whitespace类型的analyzer是由Whitespace Tokenizer构成
Set, the, shape, to, semi-transparent, by, calling, set_trans(5)
4language analyzer(特定的语言的分词器,比如说,english,英语分词器):
一个用于解析特殊语言文本的analyzer集合。( arabic
,armenian
, basque
, brazilian
, bulgarian
, catalan
, cjk
, czech
, danish
, dutch
, english
, finnish
, french
,galician
, german
, greek
, hindi
, hungarian
, indonesian
, irish
, italian
, latvian
, lithuanian
, norwegian
,persian
, portuguese
, romanian
, russian
, sorani
, spanish
, swedish
, turkish
, thai
.)可惜没有中文。
set, shape, semi, transpar, call, set_tran, 5
更多的内置分词器与详细介绍可参考官网
https://www.elastic.co/guide/en/elasticsearch/reference/5.6/analysis-analyzers.html
最后
以上就是会撒娇唇膏为你收集整理的33分词器的内部组成到底是什么,以及内置分词器的介绍1、什么是分词器2、分词器具体又分为3个部分3、内置分词器的介绍的全部内容,希望文章能够帮你解决33分词器的内部组成到底是什么,以及内置分词器的介绍1、什么是分词器2、分词器具体又分为3个部分3、内置分词器的介绍所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复