33分词器的内部组成到底是什么,以及内置分词器的介绍1、什么是分词器2、分词器具体又分为3个部分3、内置分词器的介绍
1、什么是分词器分词器就做了两件事:1切分词语,2normalization(提升recall召回率)比如给你一段句子,然后将这段句子拆分成一个一个的单个的单词,同时对每个单词进行normalization(比如时态转换,单复数转换)。recall召回率:就是搜索的时候,增加能够搜索到的结果的数量2、分词器具体又分为3个部分1.character filter:在一段文本进行分词之前,先进行预处理,比如说最常见的就是: 过滤html标签(hello --> hello),