序列差分聚合编辑

序列差分是一种技术,它将时间序列中的值从自身在不同时间滞后或周期内减去。例如,数据点 f(x) = f(xt) - f(xt-n),其中 n 是使用的周期。

周期为 1 等效于没有时间归一化的导数:它只是从一个点到下一个点的变化。单周期对于消除常数线性趋势很有用。

单周期也有助于将数据转换为平稳序列。在此示例中,道琼斯指数在约 250 天内绘制。原始数据不是平稳的,这将使其难以使用某些技术。

通过计算一阶差分,我们去除了数据的趋势(例如,消除了常数线性趋势)。我们可以看到数据变成了平稳序列(例如,一阶差分随机分布在零附近,并且似乎没有表现出任何模式/行为)。这种转换表明数据集遵循随机游走;该值是前一个值 +/- 一个随机量。这种洞察力允许选择进一步的分析工具。

dow
图 12. 道琼斯指数绘制并通过一阶差分使其平稳

较大的周期可用于消除季节性/循环行为。在此示例中,旅鼠种群是使用正弦波 + 常数线性趋势 + 随机噪声合成生成的。正弦波的周期为 30 天。

一阶差分消除了常数趋势,只留下正弦波。然后将 30 阶差分应用于一阶差分以消除循环行为,留下一个平稳序列,该序列适合其他分析。

lemmings
图 13. 旅鼠数据绘制并通过 1 阶和 30 阶差分使其平稳

语法编辑

一个 serial_diff 聚合在孤立状态下看起来像这样

{
  "serial_diff": {
    "buckets_path": "the_sum",
    "lag": 7
  }
}

表 77. serial_diff 参数

参数名称 描述 必需 默认值

buckets_path

目标指标的路径(有关更多详细信息,请参见 buckets_path 语法

必需

lag

要从当前值中减去的历史桶。例如,滞后为 7 将从当前值中减去 7 个桶之前的值。必须是正的非零整数

可选

1

gap_policy

确定遇到数据间隙时应发生什么。

可选

insert_zeros

format

DecimalFormat 模式 用于输出值。如果指定,则格式化的值将返回到聚合的 value_as_string 属性中

可选

null

serial_diff 聚合必须嵌入在 histogramdate_histogram 聚合中

response = client.search(
  body: {
    size: 0,
    aggregations: {
      my_date_histo: {
        date_histogram: {
          field: 'timestamp',
          calendar_interval: 'day'
        },
        aggregations: {
          the_sum: {
            sum: {
              field: 'lemmings'
            }
          },
          thirtieth_difference: {
            serial_diff: {
              buckets_path: 'the_sum',
              lag: 30
            }
          }
        }
      }
    }
  }
)
puts response
POST /_search
{
   "size": 0,
   "aggs": {
      "my_date_histo": {                  
         "date_histogram": {
            "field": "timestamp",
            "calendar_interval": "day"
         },
         "aggs": {
            "the_sum": {
               "sum": {
                  "field": "lemmings"     
               }
            },
            "thirtieth_difference": {
               "serial_diff": {                
                  "buckets_path": "the_sum",
                  "lag" : 30
               }
            }
         }
      }
   }
}

一个名为 "my_date_histo" 的 date_histogram 在 "timestamp" 字段上构建,间隔为一天

一个 sum 指标用于计算字段的总和。这可以是任何指标(sum、min、max 等)

最后,我们指定一个 serial_diff 聚合,它使用 "the_sum" 指标作为其输入。

序列差分是通过首先在字段上指定一个 histogramdate_histogram 来构建的。然后,您可以选择在该直方图内添加普通指标,例如 sum。最后,serial_diff 嵌入在直方图内。然后使用 buckets_path 参数来“指向”直方图内的其中一个兄弟指标(有关 buckets_path 语法的描述,请参见 buckets_path 语法)。