› › ›

序列差分聚合

序列差分是一种技术，其中时间序列中的值从自身在不同时间滞后或周期中减去。例如，数据点 f(x) = f(x_t) - f(x_t-n)，其中 n 是正在使用的周期。

周期为 1 等效于没有时间归一化的导数：它只是从一个点到下一个点的变化。单个周期对于去除常数、线性趋势很有用。

单个周期对于将数据转换为平稳序列也很有用。在本例中，道琼斯指数在约 250 天内绘制。原始数据不是平稳的，这将使其难以使用某些技术。

通过计算一阶差分，我们对数据进行去趋势化（例如，去除常数、线性趋势）。我们可以看到数据变成了一个平稳序列（例如，一阶差分随机分布在零附近，并且似乎没有表现出任何模式/行为）。转换揭示了数据集遵循随机游走；该值是前一个值 +/- 一个随机量。这种见解允许选择进一步的分析工具。

图 14. 道琼斯指数绘制并通过一阶差分使其平稳

较大的周期可用于去除季节性/循环行为。在本例中，人工生成了一群旅鼠，其中包含正弦波 + 常数线性趋势 + 随机噪声。正弦波的周期为 30 天。

一阶差分消除了常数趋势，只留下正弦波。然后将第 30 次差分应用于一阶差分以去除循环行为，留下一个适合其他分析的平稳序列。

图 15. 旅鼠数据绘制并通过第一和第三十次差分使其平稳

语法

编辑

serial_diff 聚合在孤立状态下如下所示

{
  "serial_diff": {
    "buckets_path": "the_sum",
    "lag": 7
  }
}

表 80. serial_diff 参数

参数名称	描述	是否必需	默认值
`buckets_path`	目标指标的路径（有关详细信息，请参阅`buckets_path` 语法）	是否必需
`lag`	要从当前值中减去的历史桶。例如，滞后 7 将从当前值中减去 7 个桶之前的值。必须是正整数且非零	可选	`1`
`gap_policy`	确定在遇到数据间隙时应该发生什么。	可选	`insert_zeros`
`format`	输出值的DecimalFormat 模式。如果指定，则格式化后的值将返回到聚合的 `value_as_string` 属性中	可选	`null`

serial_diff 聚合必须嵌入到 histogram 或 date_histogram 聚合中

resp = client.search(
    size=0,
    aggs={
        "my_date_histo": {
            "date_histogram": {
                "field": "timestamp",
                "calendar_interval": "day"
            },
            "aggs": {
                "the_sum": {
                    "sum": {
                        "field": "lemmings"
                    }
                },
                "thirtieth_difference": {
                    "serial_diff": {
                        "buckets_path": "the_sum",
                        "lag": 30
                    }
                }
            }
        }
    },
)
print(resp)

response = client.search(
  body: {
    size: 0,
    aggregations: {
      my_date_histo: {
        date_histogram: {
          field: 'timestamp',
          calendar_interval: 'day'
        },
        aggregations: {
          the_sum: {
            sum: {
              field: 'lemmings'
            }
          },
          thirtieth_difference: {
            serial_diff: {
              buckets_path: 'the_sum',
              lag: 30
            }
          }
        }
      }
    }
  }
)
puts response

const response = await client.search({
  size: 0,
  aggs: {
    my_date_histo: {
      date_histogram: {
        field: "timestamp",
        calendar_interval: "day",
      },
      aggs: {
        the_sum: {
          sum: {
            field: "lemmings",
          },
        },
        thirtieth_difference: {
          serial_diff: {
            buckets_path: "the_sum",
            lag: 30,
          },
        },
      },
    },
  },
});
console.log(response);

POST /_search
{
   "size": 0,
   "aggs": {
      "my_date_histo": {                  
         "date_histogram": {
            "field": "timestamp",
            "calendar_interval": "day"
         },
         "aggs": {
            "the_sum": {
               "sum": {
                  "field": "lemmings"     
               }
            },
            "thirtieth_difference": {
               "serial_diff": {                
                  "buckets_path": "the_sum",
                  "lag" : 30
               }
            }
         }
      }
   }
}

	在 "timestamp" 字段上构建一个名为 "my_date_histo" 的 `date_histogram`，间隔为一天
	使用 `sum` 度量来计算字段的总和。这可以是任何度量（sum、min、max 等）
	最后，我们指定一个 `serial_diff` 聚合，它使用 "the_sum" 度量作为其输入。

序列差分是首先在字段上指定 histogram 或 date_histogram 来构建的。然后，您可以选择在该直方图内添加普通度量，例如 sum。最后，serial_diff 嵌入到直方图中。然后使用 buckets_path 参数“指向”直方图内的其中一个同级度量（有关 buckets_path 语法的描述，请参阅buckets_path 语法）。

« 百分位桶聚合统计桶聚合 »