33分词器的内部组成到底是什么，以及内置分词器的介绍1、什么是分词器2、分词器具体又分为3个部分3、内置分词器的介绍

77 阅读 0 评论 51 点赞

我是靠谱客的博主会撒娇唇膏，这篇文章主要介绍33分词器的内部组成到底是什么，以及内置分词器的介绍1、什么是分词器2、分词器具体又分为3个部分3、内置分词器的介绍，现在分享给大家，希望可以做个参考。

1、什么是分词器

分词器就做了两件事：1切分词语，2normalization（提升recall召回率）

比如给你一段句子，然后将这段句子拆分成一个一个的单个的单词，同时对每个单词进行normalization（比如时态转换，单复数转换）。

recall召回率：就是搜索的时候，增加能够搜索到的结果的数量

2、分词器具体又分为3个部分

1.character filter：

在一段文本进行分词之前，先进行预处理，比如说最常见的就是：

过滤html标签（hello --> hello），

& 转换成and （I&you --> I and you）

2.tokenizer：

分词，hello you and me

--> hello, you, and, me

3.token filter：

进行normalization相关的操作，比如

lowercase 大小写转换，

Tom --> tom，

stopwords 停用词，

a/the/an --> 干掉，

synonym 同义词转换，

mother --> mom，

small --> little

等等。

分词器很重要，将一段文本进行各种处理，最后处理好的结果才会拿去建立倒排索引

3、内置分词器的介绍

复制代码

1
2
Set the shape to semi-transparent by calling set_trans(5)

1standard analyzer：（默认的是standard）

默认的analyzer是标准analyzer, 这个标准analyzer标准分词 “Standard Tokenizer”和标准分词过滤器“Standard Token Filter”、小写字母转换分词过滤“Lower case Token Filter”、还有“Stop Token Filter”过滤构成的

复制代码

1
2
set, the, shape, to, semi, transparent, by, calling, set_trans, 5

2simple analyzer：

简单analyzer，由由lower case Tokenizer构成的

复制代码

1
2
set, the, shape, to, semi, transparent, by, calling, set, trans

3whitespace analyzer：

一个whitespace类型的analyzer是由Whitespace Tokenizer构成

复制代码

1
2
Set, the, shape, to, semi-transparent, by, calling, set_trans(5)

4language analyzer（特定的语言的分词器，比如说，english，英语分词器）：

一个用于解析特殊语言文本的analyzer集合。（ arabic,armenian, basque, brazilian, bulgarian, catalan, cjk, czech, danish, dutch, english, finnish, french,galician, german, greek, hindi, hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian,persian, portuguese, romanian, russian, sorani, spanish, swedish, turkish, thai.）可惜没有中文。

复制代码

1
2
set, shape, semi, transpar, call, set_tran, 5

更多的内置分词器与详细介绍可参考官网

https://www.elastic.co/guide/en/elasticsearch/reference/5.6/analysis-analyzers.html

最后

以上就是会撒娇唇膏最近收集整理的关于33分词器的内部组成到底是什么，以及内置分词器的介绍1、什么是分词器2、分词器具体又分为3个部分3、内置分词器的介绍的全部内容，更多相关33分词器内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：# ElasticSearch
浏览次数：77 次浏览
发布日期：2024-01-11 10:30:24
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_23_ogf0_14_j_2_x.html

33分词器的内部组成到底是什么，以及内置分词器的介绍1、什么是分词器2、分词器具体又分为3个部分3、内置分词器的介绍

1、什么是分词器

2、分词器具体又分为3个部分

1.character filter：

2.tokenizer：

3.token filter：

3、内置分词器的介绍

1standard analyzer：（默认的是standard）

2simple analyzer：

3whitespace analyzer：

4language analyzer（特定的语言的分词器，比如说，english，英语分词器）：

最后

评论列表共有 0 条评论

发表评论取消回复

33分词器的内部组成到底是什么，以及内置分词器的介绍1、什么是分词器2、分词器具体又分为3个部分3、内置分词器的介绍

1、什么是分词器

2、分词器具体又分为3个部分

1.character filter：

2.tokenizer：

3.token filter：

3、内置分词器的介绍

1standard analyzer：（默认的是standard）

2simple analyzer：

3whitespace analyzer：

4language analyzer（特定的语言的分词器，比如说，english，英语分词器）：

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

微信扫一扫：分享

发表评论取消回复