概述
对ES官网的reference的翻译,同时也是备忘,ES版本为7.5
下面是正文翻译,附上原文链接:
https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-metrics-extendedstats-aggregation.html
==================================================================================================
扩展统计聚合
多值指标聚合,计算从聚合的文档中提取出来的数值的统计,这些值可以从文档中某些特定的数值字段中提取出来,也可以使用给定的脚本生成。
扩展统计聚合是统计聚合的扩展版本,在扩展统计聚合中,添加了其他额外的指标,比如sum_of_squares,
variance,
std_deviation以及
std_deviation_bounds。
假设数据由代表学生测试成绩(0-100)的文档组成:
curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
"size": 0,
"aggs": {
"grades_stats": {
"extented_stats": {
"field": "grade"
}
}
}
}'
上面的聚合会计算所有文档的成绩数据。聚合类型为extended_stats, field设置定义了文档中被统计的具体的数值字段。上面的请求会返回:
{
...
"aggregations": {
"grades_stats": {
"count": 2,
"min": 50.0,
"max": 100.0,
"avg": 75.0,
"sum": 150.0,
"sum_of_squares": 12500.0,
"variance": 625.0,
"std_deviation": 25.0,
"std_deviation_bounds": {
"upper": 125.0,
"lower": 25.0
}
}
}
}
聚合的名称(这里的grades_stats)也能作为从返回的响应中提取除聚合结果的key。
标准偏差界限
默认的,extended_stats指标会返回名为std_deviation_bounds的对象,该对象提供的是一个区间,表示均值加上或者减去两个标准偏差得到的区间(比如上面均值=75,标准偏差=25,那么75-2*25=25,75+2*25=125,因此标准偏差界限就是25-125的区间),这也是视觉化你的数据的多样性的一种有用的方式。如果你想要不同的界限,比如说三个标准偏差的界限,你可以设置请求体中的sigma参数,sigma会控制从均值偏移多少标准偏差:
curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
"size": 0,
"aggs": {
"grades_stats": {
"extented_stats": {
"field": "grade",
"sigma": 3
}
}
}
}'
sigma可以是任意非负浮点数,这意味着我们可以请求非整数的值比如1.5.sigma=0是有效值,但这样upper和lower界限就都只会返回平均值。
NOTE:标准偏差和界限需要范式。默认情况下显示标准差和它的界限,但这两个指标并不一定对所有数据集都适合。你的数据需要是正态分布的才能让这两个指标有意义。标准差背后的统计远离假设的就是正态分布的数据,因此,如果你的数据向左或向右严重倾斜,则返回的值将产生误导。
脚本
可以基于下面的脚本计算成绩统计:
curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
"size": 0,
"aggs": {
"grades_stats": {
"extented_stats": {
"script": {
"source": "doc['grade'].value",
"lang": "painless"
}
}
}
}
}'
上面的请求将会把script参数当作painless脚本语言编写的无参数的内联脚本。要使用缓存的脚本可以用下面的语句:
curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
"size": 0,
"aggs": {
"grades_stats": {
"extented_stats": {
"script": {
"id": "my_script",
"params": {
"field": "grade"
}
}
}
}
}
}'
值脚本
假若exam的难度远超过学生的水平,我们现在需要进行成绩校准。可以使用下面的值脚本来获取新的统计数据:
curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
"size": 0,
"aggs": {
"grades_stats": {
"extented_stats": {
"field": "grade"
"script": {
"lang": "painless",
"source": "_value*params.correction",
"params": {
"correction": 1.2
}
}
}
}
}
}'
缺失的值
missing参数定义了缺失某些值的文档应该如何处理。默认的,这些文档会被忽略但我们也能把这些文档当作有值来处理:
curl http://host_ip:host_port/exams/_search?pretty
-H 'content-type: application/json'
-d '{
"size": 0,
"aggs": {
"grades_stats": {
"extented_stats": {
"field": "grade"
"missing": 0
}
}
}
}'
grade字段缺失值的文档会落入跟grade=0的文档一样的桶中。
最后
以上就是无限樱桃为你收集整理的ES官网reference翻译文章(14)—Extended Stats Aggregation扩展统计聚合的全部内容,希望文章能够帮你解决ES官网reference翻译文章(14)—Extended Stats Aggregation扩展统计聚合所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复