对ES官网的reference的翻译,同时也是备忘,ES版本为7.5
下面是正文翻译,附上原文链接:
https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-metrics-extendedstats-aggregation.html
==================================================================================================
扩展统计聚合
多值指标聚合,计算从聚合的文档中提取出来的数值的统计,这些值可以从文档中某些特定的数值字段中提取出来,也可以使用给定的脚本生成。
扩展统计聚合是统计聚合的扩展版本,在扩展统计聚合中,添加了其他额外的指标,比如sum_of_squares,
variance,
std_deviation以及
std_deviation_bounds。
假设数据由代表学生测试成绩(0-100)的文档组成:
1
2
3
4
5
6
7
8
9
10
11
12curl http://host_ip:host_port/exams/_search?pretty -H 'content-type: application/json' -d '{ "size": 0, "aggs": { "grades_stats": { "extented_stats": { "field": "grade" } } } }'
上面的聚合会计算所有文档的成绩数据。聚合类型为extended_stats, field设置定义了文档中被统计的具体的数值字段。上面的请求会返回:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19{ ... "aggregations": { "grades_stats": { "count": 2, "min": 50.0, "max": 100.0, "avg": 75.0, "sum": 150.0, "sum_of_squares": 12500.0, "variance": 625.0, "std_deviation": 25.0, "std_deviation_bounds": { "upper": 125.0, "lower": 25.0 } } } }
聚合的名称(这里的grades_stats)也能作为从返回的响应中提取除聚合结果的key。
标准偏差界限
默认的,extended_stats指标会返回名为std_deviation_bounds的对象,该对象提供的是一个区间,表示均值加上或者减去两个标准偏差得到的区间(比如上面均值=75,标准偏差=25,那么75-2*25=25,75+2*25=125,因此标准偏差界限就是25-125的区间),这也是视觉化你的数据的多样性的一种有用的方式。如果你想要不同的界限,比如说三个标准偏差的界限,你可以设置请求体中的sigma参数,sigma会控制从均值偏移多少标准偏差:
1
2
3
4
5
6
7
8
9
10
11
12
13curl http://host_ip:host_port/exams/_search?pretty -H 'content-type: application/json' -d '{ "size": 0, "aggs": { "grades_stats": { "extented_stats": { "field": "grade", "sigma": 3 } } } }'
sigma可以是任意非负浮点数,这意味着我们可以请求非整数的值比如1.5.sigma=0是有效值,但这样upper和lower界限就都只会返回平均值。
NOTE:标准偏差和界限需要范式。默认情况下显示标准差和它的界限,但这两个指标并不一定对所有数据集都适合。你的数据需要是正态分布的才能让这两个指标有意义。标准差背后的统计远离假设的就是正态分布的数据,因此,如果你的数据向左或向右严重倾斜,则返回的值将产生误导。
脚本
可以基于下面的脚本计算成绩统计:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15curl http://host_ip:host_port/exams/_search?pretty -H 'content-type: application/json' -d '{ "size": 0, "aggs": { "grades_stats": { "extented_stats": { "script": { "source": "doc['grade'].value", "lang": "painless" } } } } }'
上面的请求将会把script参数当作painless脚本语言编写的无参数的内联脚本。要使用缓存的脚本可以用下面的语句:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17curl http://host_ip:host_port/exams/_search?pretty -H 'content-type: application/json' -d '{ "size": 0, "aggs": { "grades_stats": { "extented_stats": { "script": { "id": "my_script", "params": { "field": "grade" } } } } } }'
值脚本
假若exam的难度远超过学生的水平,我们现在需要进行成绩校准。可以使用下面的值脚本来获取新的统计数据:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19curl http://host_ip:host_port/exams/_search?pretty -H 'content-type: application/json' -d '{ "size": 0, "aggs": { "grades_stats": { "extented_stats": { "field": "grade" "script": { "lang": "painless", "source": "_value*params.correction", "params": { "correction": 1.2 } } } } } }'
缺失的值
missing参数定义了缺失某些值的文档应该如何处理。默认的,这些文档会被忽略但我们也能把这些文档当作有值来处理:
1
2
3
4
5
6
7
8
9
10
11
12
13curl http://host_ip:host_port/exams/_search?pretty -H 'content-type: application/json' -d '{ "size": 0, "aggs": { "grades_stats": { "extented_stats": { "field": "grade" "missing": 0 } } } }'
grade字段缺失值的文档会落入跟grade=0的文档一样的桶中。
最后
以上就是无限樱桃最近收集整理的关于ES官网reference翻译文章(14)—Extended Stats Aggregation扩展统计聚合的全部内容,更多相关ES官网reference翻译文章(14)—Extended内容请搜索靠谱客的其他文章。
发表评论 取消回复