ES官网reference翻译文章(14)—Extended Stats Aggregation扩展统计聚合

336 阅读 0 评论 222 点赞

我是靠谱客的博主无限樱桃，这篇文章主要介绍ES官网reference翻译文章(14)—Extended Stats Aggregation扩展统计聚合，现在分享给大家，希望可以做个参考。

对ES官网的reference的翻译，同时也是备忘，ES版本为7.5

下面是正文翻译，附上原文链接：

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-metrics-extendedstats-aggregation.html

==================================================================================================

扩展统计聚合

多值指标聚合，计算从聚合的文档中提取出来的数值的统计，这些值可以从文档中某些特定的数值字段中提取出来，也可以使用给定的脚本生成。

扩展统计聚合是统计聚合的扩展版本，在扩展统计聚合中，添加了其他额外的指标，比如sum_of_squares，variance，std_deviation以及std_deviation_bounds。

假设数据由代表学生测试成绩（0-100）的文档组成：

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
"size": 0,
"aggs": {
"grades_stats": {
"extented_stats": {
"field": "grade"
}
}
}
}'

上面的聚合会计算所有文档的成绩数据。聚合类型为extended_stats, field设置定义了文档中被统计的具体的数值字段。上面的请求会返回：

{
...
"aggregations": {
"grades_stats": {
"count": 2,
"min": 50.0,
"max": 100.0,
"avg": 75.0,
"sum": 150.0,
"sum_of_squares": 12500.0,
"variance": 625.0,
"std_deviation": 25.0,
"std_deviation_bounds": {
"upper": 125.0,
"lower": 25.0
}
}
}
}

聚合的名称（这里的grades_stats）也能作为从返回的响应中提取除聚合结果的key。

标准偏差界限

默认的，extended_stats指标会返回名为std_deviation_bounds的对象，该对象提供的是一个区间，表示均值加上或者减去两个标准偏差得到的区间（比如上面均值=75，标准偏差=25，那么75-2*25=25，75+2*25=125，因此标准偏差界限就是25-125的区间），这也是视觉化你的数据的多样性的一种有用的方式。如果你想要不同的界限，比如说三个标准偏差的界限，你可以设置请求体中的sigma参数，sigma会控制从均值偏移多少标准偏差：

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
"size": 0,
"aggs": {
"grades_stats": {
"extented_stats": {
"field": "grade",
"sigma": 3
}
}
}
}'

sigma可以是任意非负浮点数，这意味着我们可以请求非整数的值比如1.5.sigma=0是有效值，但这样upper和lower界限就都只会返回平均值。

NOTE：标准偏差和界限需要范式。默认情况下显示标准差和它的界限，但这两个指标并不一定对所有数据集都适合。你的数据需要是正态分布的才能让这两个指标有意义。标准差背后的统计远离假设的就是正态分布的数据，因此，如果你的数据向左或向右严重倾斜，则返回的值将产生误导。

脚本

可以基于下面的脚本计算成绩统计：

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
"size": 0,
"aggs": {
"grades_stats": {
"extented_stats": {
"script": {
"source": "doc['grade'].value",
"lang": "painless"
}
}
}
}
}'

上面的请求将会把script参数当作painless脚本语言编写的无参数的内联脚本。要使用缓存的脚本可以用下面的语句：

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
"size": 0,
"aggs": {
"grades_stats": {
"extented_stats": {
"script": {
"id": "my_script",
"params": {
"field": "grade"
}
}
}
}
}
}'

值脚本

假若exam的难度远超过学生的水平，我们现在需要进行成绩校准。可以使用下面的值脚本来获取新的统计数据：

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
"size": 0,
"aggs": {
"grades_stats": {
"extented_stats": {
"field": "grade"
"script": {
"lang": "painless",
"source": "_value*params.correction",
"params": {
"correction": 1.2
}
}
}
}
}
}'

缺失的值

missing参数定义了缺失某些值的文档应该如何处理。默认的，这些文档会被忽略但我们也能把这些文档当作有值来处理：

curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
"size": 0,
"aggs": {
"grades_stats": {
"extented_stats": {
"field": "grade"
"missing": 0
}
}
}
}'

grade字段缺失值的文档会落入跟grade=0的文档一样的桶中。