浅谈elasticsearch的分词原理

72 阅读 0 评论 48 点赞

我是靠谱客的博主辛勤可乐，最近开发中收集的这篇文章主要介绍浅谈elasticsearch的分词原理，觉得挺不错的，现在分享给大家，希望可以做个参考。

这篇文章主要是来浅谈一下elasticsearch的分词原理，让各位同学对分词不再陌生~

废话不多说，我们直接上干货

前言一

PUT test/_doc/1
{
  "msg":"乔丹是篮球之神"
}

POST /test/_search
{
  "query": {
    "match": {
      "msg": "乔丹"
    }
  }
}

PUT test/_mapping
{
  "properties": {
    "msg_chinese":{
      "type":"text",
      "analyzer": "ik_max_word"
    }
  }
}

POST test/_doc/1
{
  "msg":"乔丹是篮球之神",
  "msg_chinese":"乔丹是篮球之神"
}

POST /test/_search
{
  "query": {
    "match": {
      "msg_chinese": "乔"
    }
  }
}

POST /test/_search
{
  "query": {
    "match": {
      "msg": "乔"
    }
  }
}

POST test/_analyze
{
  "field": "msg",
  "text": "乔丹是篮球之神"
}

乔，丹，是，篮，球，之，神

POST test/_analyze
{
  "field": "msg_chinese",
  "text": "乔丹是篮球之神"
}

乔丹， 是， 篮球， 之神

由于读时分词器默认与写时分词器默认保持一致，拿上面的例子，你搜索 msg 字段，那么读时分词器为 Standard ，搜索 msg_chinese 时分词器则为 ik_max_word。这种默认设定也是非常容易理解的，读写采用一致的分词器，才能尽最大可能保证分词的结果是可以匹配的。
允许读时分词器单独设置

POST test/_search
{
  "query": {
    "match": {
      "msg_chinese": {
        "query": "乔丹",
        "analyzer": "standard"
      }
    }
  }
}

分析器(analyzer)有三部分组成
- char filter ：字符过滤器
- tokenizer ：分词器
- token filter ：token过滤器
char filter（字符过滤器）
- 字符过滤器以字符流的形式接收原始文本，并可以通过添加、删除或更改字符来转换该流。一个分析器可能有0个或多个字符过滤器。
tokenizer (分词器)
- 一个分词器接收一个字符流，并将其拆分成单个token （通常是单个单词），并输出一个token流。比如使用whitespace分词器当遇到空格的时候会将文本拆分成token。"eating an apple" >> [eating, and, apple]。一个分析器必须只能有一个分词器
```
POST _analyze
{
  "text": "eating an apple",
  "analyzer": "whitespace"
}
```
token filter (token过滤器)
- token过滤器接收token流，并且可能会添加、删除或更改tokens。比如一个lowercase token filter可以将所有的token转成小写。一个分析器可能有0个或多个token过滤器，它们按顺序应用。
standard分析器
- tokenizer
  - Stanard tokenizer
- token filters
  - Standard Token Filter
  - Lower Case Token Filter