教程:使用 ILM 自动执行滚动

编辑

教程:使用 ILM 自动执行滚动编辑

当您将带时间戳的文档连续索引到 Elasticsearch 时,您通常会使用 数据流,以便您可以定期 滚动 到新的索引。这使您能够实现 热-温-冷架构,以满足您对最新数据的性能要求,控制随时间的成本,执行保留策略,并充分利用您的数据。

数据流 最适合 仅追加 用例。如果您需要更新或删除现有时间序列数据,您可以直接对数据流支持索引执行更新或删除操作。如果您经常使用相同的 _id 发送多个文档,并期望最后写入获胜,您可能需要使用带有写入索引的索引别名。您仍然可以使用 ILM 来管理和 滚动 别名的索引。跳到 在没有数据流的情况下管理时间序列数据

使用数据流管理时间序列数据编辑

要使用 ILM 自动执行数据流的滚动和管理,您需要

  1. 创建生命周期策略,该策略定义了适当的 阶段操作
  2. 创建索引模板创建数据流 并应用 ILM 策略以及支持索引的索引设置和映射配置。
  3. 验证索引是否按预期在生命周期阶段中移动

当您为 Beats 或 Logstash Elasticsearch 输出插件启用索引生命周期管理时,生命周期策略会自动设置。您无需执行任何其他操作。您可以通过 Kibana 管理 或 ILM API 修改默认策略。

创建生命周期策略编辑

生命周期策略指定了索引生命周期中的阶段以及在每个阶段要执行的操作。生命周期最多可以有五个阶段:hotwarmcoldfrozendelete

例如,您可以定义一个 timeseries_policy,它有两个阶段

  • 一个 hot 阶段,它定义了一个滚动操作,以指定索引在达到 max_primary_shard_size 为 50 GB 或 max_age 为 30 天时滚动。
  • 一个 delete 阶段,它将 min_age 设置为在滚动后 90 天删除索引。

min_age 值相对于滚动时间,而不是索引创建时间。了解更多

您可以通过 Kibana 或使用 创建或更新策略 API 创建策略。要从 Kibana 创建策略,请打开菜单并转到 堆栈管理 > 索引生命周期策略。单击 创建策略

Create policy page
API 示例
response = client.ilm.put_lifecycle(
  policy: 'timeseries_policy',
  body: {
    policy: {
      phases: {
        hot: {
          actions: {
            rollover: {
              max_primary_shard_size: '50GB',
              max_age: '30d'
            }
          }
        },
        delete: {
          min_age: '90d',
          actions: {
            delete: {}
          }
        }
      }
    }
  }
)
puts response
PUT _ilm/policy/timeseries_policy
{
  "policy": {
    "phases": {
      "hot": {                                
        "actions": {
          "rollover": {
            "max_primary_shard_size": "50GB", 
            "max_age": "30d"
          }
        }
      },
      "delete": {
        "min_age": "90d",                     
        "actions": {
          "delete": {}                        
        }
      }
    }
  }
}

min_age 默认值为 0ms,因此新索引会立即进入 hot 阶段。

满足任一条件时触发 rollover 操作。

在滚动后 90 天将索引移入 delete 阶段。

当索引进入删除阶段时触发 delete 操作。

创建索引模板以创建数据流并应用生命周期策略编辑

要设置数据流,首先创建一个索引模板以指定生命周期策略。由于模板用于数据流,因此它还必须包含 data_stream 定义。

例如,您可以创建一个 timeseries_template 用于将来名为 timeseries 的数据流。

要使 ILM 能够管理数据流,模板配置了一个 ILM 设置

  • index.lifecycle.name 指定要应用于数据流的生命周期策略的名称。

您可以使用 Kibana 创建模板向导添加模板。从 Kibana 打开菜单并转到 堆栈管理 > 索引管理。在 索引模板 选项卡中,单击 创建模板

Create template page

此向导会调用 创建或更新索引模板 API 以使用您指定的选项创建索引模板。

API 示例
response = client.indices.put_index_template(
  name: 'timeseries_template',
  body: {
    index_patterns: [
      'timeseries'
    ],
    data_stream: {},
    template: {
      settings: {
        number_of_shards: 1,
        number_of_replicas: 1,
        'index.lifecycle.name' => 'timeseries_policy'
      }
    }
  }
)
puts response
PUT _index_template/timeseries_template
{
  "index_patterns": ["timeseries"],                   
  "data_stream": { },
  "template": {
    "settings": {
      "number_of_shards": 1,
      "number_of_replicas": 1,
      "index.lifecycle.name": "timeseries_policy"     
    }
  }
}

将模板应用于将文档索引到 timeseries 目标时。

用于管理数据流的 ILM 策略的名称。

创建数据流编辑

要开始,请将文档索引到 索引模板index_patterns 中定义的名称或通配符模式。只要现有数据流、索引或索引别名尚未使用该名称,索引请求就会自动创建一个相应的数据流,其中包含单个支持索引。Elasticsearch 会自动将请求的文档索引到此支持索引中,该索引也充当流的 写入索引

例如,以下请求创建 timeseries 数据流和第一个生成的支持索引,名为 .ds-timeseries-2099.03.08-000001

response = client.index(
  index: 'timeseries',
  body: {
    message: 'logged the request',
    "@timestamp": '1591890611'
  }
)
puts response
POST timeseries/_doc
{
  "message": "logged the request",
  "@timestamp": "1591890611"
}

当生命周期策略中的滚动条件满足时,rollover 操作会

  • 创建第二个生成的支持索引,名为 .ds-timeseries-2099.03.08-000002。由于它是 timeseries 数据流的支持索引,因此 timeseries_template 索引模板中的配置将应用于新索引。
  • 由于它是 timeseries 数据流的最新生成索引,因此新创建的支持索引 .ds-timeseries-2099.03.08-000002 成为数据流的写入索引。

每次满足滚动条件时,此过程都会重复。您可以使用 timeseries 数据流名称搜索所有由 timeseries_policy 管理的数据流支持索引。写入操作应发送到数据流名称,该名称会将其路由到其当前写入索引。对数据流的读取操作将由其所有支持索引处理。

检查生命周期进度编辑

要获取已管理索引的状态信息,您可以使用 ILM 解释 API。这使您能够了解以下内容

  • 索引处于哪个阶段以及何时进入该阶段。
  • 当前操作以及正在执行的步骤。
  • 是否发生任何错误或进度是否被阻止。

例如,以下请求获取有关 timeseries 数据流支持索引的信息

response = client.ilm.explain_lifecycle(
  index: '.ds-timeseries-*'
)
puts response
GET .ds-timeseries-*/_ilm/explain

以下响应显示数据流的第一个生成支持索引正在等待 hot 阶段的 rollover 操作。它将保持这种状态,并且 ILM 将继续调用 check-rollover-ready,直到满足滚动条件。

{
  "indices": {
    ".ds-timeseries-2099.03.07-000001": {
      "index": ".ds-timeseries-2099.03.07-000001",
      "index_creation_date_millis": 1538475653281,
      "time_since_index_creation": "30s",        
      "managed": true,
      "policy": "timeseries_policy",             
      "lifecycle_date_millis": 1538475653281,
      "age": "30s",                              
      "phase": "hot",
      "phase_time_millis": 1538475653317,
      "action": "rollover",
      "action_time_millis": 1538475653317,
      "step": "check-rollover-ready",            
      "step_time_millis": 1538475653317,
      "phase_execution": {
        "policy": "timeseries_policy",
        "phase_definition": {                    
          "min_age": "0ms",
          "actions": {
            "rollover": {
              "max_primary_shard_size": "50gb",
              "max_age": "30d"
            }
          }
        },
        "version": 1,
        "modified_date_in_millis": 1539609701576
      }
    }
  }
}

用于通过 max_age 计算何时滚动索引的索引的年龄

用于管理索引的策略

用于过渡到下一阶段的索引的年龄(在本例中,它与索引的年龄相同)。

ILM 在索引上执行的步骤

当前阶段的定义(hot 阶段)

在没有数据流的情况下管理时间序列数据编辑

虽然 数据流 是扩展和管理时间序列数据的便捷方式,但它们被设计为仅追加。我们认识到可能存在需要就地更新或删除数据的用例,而数据流不支持直接删除和更新请求,因此需要直接在数据流支持索引上使用索引 API。在这些情况下,我们仍然建议使用数据流。

如果您经常使用相同的 _id 发送多个文档,并期望最后写入获胜,您可以使用索引别名而不是数据流来管理包含时间序列数据的索引,并定期滚动到新的索引。

要使用 ILM 自动执行使用索引别名的索引的滚动和管理,您需要

  1. 创建一个生命周期策略,该策略定义了适当的阶段和操作。请参阅上面的 创建生命周期策略
  2. 创建索引模板 以将策略应用于每个新索引。
  3. 引导索引 作为初始写入索引。
  4. 验证索引是否按预期在生命周期阶段中移动

创建索引模板以将生命周期策略应用于索引编辑

要自动将生命周期策略应用于滚动时的新写入索引,请在用于创建新索引的索引模板中指定策略。

例如,您可以创建一个 timeseries_template,它应用于名称与 timeseries-* 索引模式匹配的新索引。

要启用自动滚动,模板配置了两个 ILM 设置

  • index.lifecycle.name 指定要应用于与索引模式匹配的新索引的生命周期策略的名称。
  • index.lifecycle.rollover_alias 指定了在触发索引的滚动操作时要滚动的索引别名。

您可以使用 Kibana 创建模板向导添加模板。要访问向导,请打开菜单并转到 堆栈管理 > 索引管理。在 索引模板 选项卡中,单击 创建模板

Create template page

示例模板的创建模板请求如下所示

PUT _index_template/timeseries_template
{
  "index_patterns": ["timeseries-*"],                 
  "template": {
    "settings": {
      "number_of_shards": 1,
      "number_of_replicas": 1,
      "index.lifecycle.name": "timeseries_policy",      
      "index.lifecycle.rollover_alias": "timeseries"    
    }
  }
}

如果新索引的名称以 timeseries- 开头,则将模板应用于该索引。

要应用于每个新索引的生命周期策略的名称。

用于引用这些索引的别名的名称。对于使用滚动操作的策略来说是必需的。

使用写入索引别名引导初始时间序列索引edit

为了开始,您需要引导一个初始索引,并将其指定为索引模板中指定的滚动别名的写入索引。此索引的名称必须与模板的索引模式匹配,并以数字结尾。在滚动时,此值会递增以生成新索引的名称。

例如,以下请求创建一个名为 timeseries-000001 的索引,并将其设为 timeseries 别名的写入索引。

PUT timeseries-000001
{
  "aliases": {
    "timeseries": {
      "is_write_index": true
    }
  }
}

当满足滚动条件时,rollover 操作

  • 创建一个名为 timeseries-000002 的新索引。这与 timeseries-* 模式匹配,因此 timeseries_template 中的设置将应用于新索引。
  • 将新索引指定为写入索引,并将引导索引设为只读。

每次满足滚动条件时,此过程都会重复。您可以使用 timeseries 别名搜索 timeseries_policy 管理的所有索引。写入操作应发送到别名,别名会将它们路由到其当前写入索引。

检查生命周期进度edit

检索已管理索引的状态信息与数据流情况非常相似。有关更多信息,请参阅数据流 检查进度部分。唯一的区别是索引命名空间,因此检索进度将需要以下 API 调用

response = client.ilm.explain_lifecycle(
  index: 'timeseries-*'
)
puts response
GET timeseries-*/_ilm/explain