百分位数桶聚合
编辑百分位数桶聚合编辑
一个兄弟管道聚合,它计算指定指标在兄弟聚合的所有桶中的百分位数。指定指标必须是数值类型,兄弟聚合必须是多桶聚合。
语法编辑
一个 percentiles_bucket
聚合在孤立状态下看起来像这样
{ "percentiles_bucket": { "buckets_path": "the_sum" } }
表 76. percentiles_bucket
参数
参数名称 | 描述 | 必需 | 默认值 |
---|---|---|---|
|
我们要查找百分位数的桶的路径(有关更多详细信息,请参阅 |
必需 |
|
|
在数据中发现间隙时要应用的策略(有关更多详细信息,请参阅 处理数据中的间隙) |
可选 |
|
|
输出值的 DecimalFormat 模式。如果指定,格式化的值将返回在聚合的 |
可选 |
|
|
要计算的百分位数列表 |
可选 |
|
|
标志,它将范围作为哈希而不是键值对数组返回 |
可选 |
|
以下代码段计算每月总 sales
桶的百分位数
response = client.search( index: 'sales', body: { size: 0, aggregations: { sales_per_month: { date_histogram: { field: 'date', calendar_interval: 'month' }, aggregations: { sales: { sum: { field: 'price' } } } }, percentiles_monthly_sales: { percentiles_bucket: { buckets_path: 'sales_per_month>sales', percents: [ 25, 50, 75 ] } } } } ) puts response
POST /sales/_search { "size": 0, "aggs": { "sales_per_month": { "date_histogram": { "field": "date", "calendar_interval": "month" }, "aggs": { "sales": { "sum": { "field": "price" } } } }, "percentiles_monthly_sales": { "percentiles_bucket": { "buckets_path": "sales_per_month>sales", "percents": [ 25.0, 50.0, 75.0 ] } } } }
|
|
|
以下可能是响应
{ "took": 11, "timed_out": false, "_shards": ..., "hits": ..., "aggregations": { "sales_per_month": { "buckets": [ { "key_as_string": "2015/01/01 00:00:00", "key": 1420070400000, "doc_count": 3, "sales": { "value": 550.0 } }, { "key_as_string": "2015/02/01 00:00:00", "key": 1422748800000, "doc_count": 2, "sales": { "value": 60.0 } }, { "key_as_string": "2015/03/01 00:00:00", "key": 1425168000000, "doc_count": 2, "sales": { "value": 375.0 } } ] }, "percentiles_monthly_sales": { "values" : { "25.0": 375.0, "50.0": 375.0, "75.0": 550.0 } } } }
Percentiles_bucket 实现编辑
百分位数桶返回最接近的输入数据点,该数据点不大于请求的百分位数;它不会在数据点之间进行插值。
百分位数是精确计算的,而不是近似值(与百分位数指标不同)。这意味着实现维护一个内存中的排序数据列表来计算百分位数,然后丢弃数据。如果您尝试在一个 percentiles_bucket
中计算数百万个数据点的百分位数,可能会遇到内存压力问题。