我是靠谱客的博主 会撒娇唇膏,最近开发中收集的这篇文章主要介绍33分词器的内部组成到底是什么,以及内置分词器的介绍1、什么是分词器2、分词器具体又分为3个部分3、内置分词器的介绍,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1、什么是分词器

分词器就做了两件事:1切分词语,2normalization(提升recall召回率)

比如给你一段句子,然后将这段句子拆分成一个一个的单个的单词,同时对每个单词进行normalization(比如时态转换,单复数转换)。

recall召回率:就是搜索的时候,增加能够搜索到的结果的数量

2、分词器具体又分为3个部分

1.character filter:

在一段文本进行分词之前,先进行预处理,比如说最常见的就是:

​ 过滤html标签(hello --> hello),

​ & 转换成and (I&you --> I and you)

2.tokenizer:

分词,hello you and me

​ --> hello, you, and, me

3.token filter:

进行normalization相关的操作,比如

​ lowercase 大小写转换,

​ Tom --> tom,

​ stopwords 停用词,

​ a/the/an --> 干掉,

​ synonym 同义词转换,

​ mother --> mom,

​ small --> little

​ 等等。

分词器很重要,将一段文本进行各种处理,最后处理好的结果才会拿去建立倒排索引

3、内置分词器的介绍

Set the shape to semi-transparent by calling set_trans(5)

1standard analyzer:(默认的是standard)

默认的analyzer是标准analyzer, 这个标准analyzer标准分词 “Standard Tokenizer”和标准分词过滤器“Standard Token Filter”、小写字母转换分词过滤“Lower case Token Filter”、还有“Stop Token Filter”过滤构成的

set, the, shape, to, semi, transparent, by, calling, set_trans, 5

2simple analyzer:

简单analyzer,由由lower case Tokenizer构成的

set, the, shape, to, semi, transparent, by, calling, set, trans

3whitespace analyzer:

一个whitespace类型的analyzer是由Whitespace Tokenizer构成

Set, the, shape, to, semi-transparent, by, calling, set_trans(5)

4language analyzer(特定的语言的分词器,比如说,english,英语分词器):

一个用于解析特殊语言文本的analyzer集合。( arabic,armenian, basque, brazilian, bulgarian, catalan, cjk, czech, danish, dutch, english, finnish, french,galician, german, greek, hindi, hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian,persian, portuguese, romanian, russian, sorani, spanish, swedish, turkish, thai.)可惜没有中文。

set, shape, semi, transpar, call, set_tran, 5

更多的内置分词器与详细介绍可参考官网

https://www.elastic.co/guide/en/elasticsearch/reference/5.6/analysis-analyzers.html

最后

以上就是会撒娇唇膏为你收集整理的33分词器的内部组成到底是什么,以及内置分词器的介绍1、什么是分词器2、分词器具体又分为3个部分3、内置分词器的介绍的全部内容,希望文章能够帮你解决33分词器的内部组成到底是什么,以及内置分词器的介绍1、什么是分词器2、分词器具体又分为3个部分3、内置分词器的介绍所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(40)

评论列表共有 0 条评论

立即
投稿
返回
顶部