Elasticsearch 中的数据流生命周期设置

编辑

Elasticsearch 中的数据流生命周期设置编辑

此功能处于技术预览阶段,可能会在未来的版本中更改或删除。Elastic 将努力解决任何问题,但技术预览版中的功能不受官方 GA 功能支持 SLA 的约束。

以下是用于配置数据流生命周期的设置。

集群级别设置编辑

data_streams.lifecycle.poll_interval
(动态时间单位值) Elasticsearch 检查所有具有内置生命周期的数据流的下一个操作的频率。默认为 5m
cluster.lifecycle.default.rollover

(动态,字符串) 此属性接受键值对格式的字符串,并配置在配置了 lifecycle 时触发数据流滚动的条件。此属性是实现细节,可能会发生变化。目前,它默认为 max_age=auto,max_primary_shard_size=50gb,min_docs=1,max_primary_shard_docs=200000000,这意味着如果满足以下任何条件,您的数据流将滚动

  • 任何主分片达到 50GB 的大小,
  • 或任何主分片包含 200.000.000 个文档
  • 或索引达到某个年龄,这取决于数据流的保留时间,
  • 并且 至少有一个文档。
data_streams.lifecycle.target.merge.policy.merge_factor
(动态,整数) 数据流生命周期通过更新目标后备索引的 lucene 合并策略因子来实现尾部合并。合并因子既是要合并在一起的段数,也是我们希望在给定层级上找到的最大段数。此设置控制数据流生命周期在目标索引上配置的值。它默认为 16。该值将在目标索引的 index.merge.policy.merge_factor 索引设置下可见。
data_streams.lifecycle.target.merge.policy.floor_segment
(动态) 数据流生命周期通过更新目标后备索引的 lucene 合并策略底层段来实现尾部合并。此底层段大小是一种防止索引具有很长的小段尾部的方法。此设置控制数据流生命周期在目标索引上配置的值。它默认为 100MB
data_streams.lifecycle.signalling.error_retry_interval
(动态,整数) 表示数据流生命周期必须为错误步骤中的索引执行的重试次数,以便发出信号表明索引未进行(即,它卡在错误步骤中)。当前的信号机制是在 error 级别记录语句,但是,将来可以扩展信号机制。默认为 10 次重试。

索引级别设置编辑

以下索引级别设置通常在数据流的后备索引上配置。

index.lifecycle.prefer_ilm
(动态,布尔值) 此设置确定哪个功能正在管理数据流的后备索引(如果且仅当后备索引具有索引生命周期管理 (ILM) 策略并且数据流也具有内置生命周期)。当 true 时,此索引由 ILM 管理,当 false 时,后备索引由数据流生命周期管理。默认为 true
index.lifecycle.origination_date
(动态,长整型) 如果指定,则是在此后备索引滚动后用于计算后备索引生成年龄的时间戳。生成年龄用于确定数据保留,因此,如果您创建包含较旧数据的后备索引,并且希望确保根据数据的原始时间戳(而不是它们被索引的时间戳)应用保留期或生命周期的其他部分,则可以使用此设置。指定为以毫秒为单位的 Unix 时间戳值。