修改数据流编辑

更改数据流的映射和设置编辑

每个数据流都有一个匹配的索引模板。此模板中的映射和索引设置将应用于为流创建的新支持索引。这包括流的第一个支持索引,该索引在创建流时自动生成。

在创建数据流之前,我们建议您仔细考虑要包含在此模板中的映射和设置。

如果您以后需要更改数据流的映射或设置,则有以下几种选择

如果您的更改包括对现有字段映射或静态索引设置的修改,通常需要重新索引才能将更改应用于数据流的支持索引。如果您已经在执行重新索引,则可以使用相同的过程添加新的字段映射并更改动态索引设置。请参阅使用重新索引更改映射或设置

向数据流添加新的字段映射编辑

要将新字段的映射添加到数据流,请执行以下步骤

  1. 更新数据流使用的索引模板。这可确保将新的字段映射添加到为流创建的未来支持索引中。

    例如,my-data-stream-templatemy-data-stream 使用的现有索引模板。

    以下创建或更新索引模板请求将新字段 message 的映射添加到模板中。

    PUT /_index_template/my-data-stream-template
    {
      "index_patterns": [ "my-data-stream*" ],
      "data_stream": { },
      "priority": 500,
      "template": {
        "mappings": {
          "properties": {
            "message": {                              
              "type": "text"
            }
          }
        }
      }
    }

    添加新 message 字段的映射。

  2. 使用更新映射 API 将新的字段映射添加到数据流中。默认情况下,这会将映射添加到流的现有支持索引中,包括写入索引。

    以下更新映射 API 请求将新的 message 字段映射添加到 my-data-stream 中。

    PUT /my-data-stream/_mapping
    {
      "properties": {
        "message": {
          "type": "text"
        }
      }
    }

    要仅将映射添加到流的写入索引,请将更新映射 API 的 write_index_only 查询参数设置为 true

    以下更新映射请求仅将新的 message 字段映射添加到 my-data-stream 的写入索引。新的字段映射不会添加到流的其他支持索引中。

    PUT /my-data-stream/_mapping?write_index_only=true
    {
      "properties": {
        "message": {
          "type": "text"
        }
      }
    }

更改数据流中的现有字段映射编辑

每个映射参数的文档都指明了是否可以使用更新映射 API 为现有字段更新它。要为现有字段更新这些参数,请执行以下步骤

  1. 更新数据流使用的索引模板。这可确保将更新后的字段映射添加到为流创建的未来支持索引中。

    例如,my-data-stream-templatemy-data-stream 使用的现有索引模板。

    以下创建或更新索引模板请求将 host.ip 字段的ignore_malformed 映射参数的参数更改为 true

    PUT /_index_template/my-data-stream-template
    {
      "index_patterns": [ "my-data-stream*" ],
      "data_stream": { },
      "priority": 500,
      "template": {
        "mappings": {
          "properties": {
            "host": {
              "properties": {
                "ip": {
                  "type": "ip",
                  "ignore_malformed": true            
                }
              }
            }
          }
        }
      }
    }

    host.ip 字段的 ignore_malformed 值更改为 true

  2. 使用更新映射 API 将映射更改应用于数据流。默认情况下,这会将更改应用于流的现有支持索引,包括写入索引。

    以下更新映射 API 请求以 my-data-stream 为目标。该请求将 host.ip 字段的 ignore_malformed 映射参数的参数更改为 true

    response = client.indices.put_mapping(
      index: 'my-data-stream',
      body: {
        properties: {
          host: {
            properties: {
              ip: {
                type: 'ip',
                ignore_malformed: true
              }
            }
          }
        }
      }
    )
    puts response
    PUT /my-data-stream/_mapping
    {
      "properties": {
        "host": {
          "properties": {
            "ip": {
              "type": "ip",
              "ignore_malformed": true
            }
          }
        }
      }
    }

    要仅将映射更改应用于流的写入索引,请将放置映射 API 的 write_index_only 查询参数设置为 true

    以下更新映射请求仅更改 my-data-stream 的写入索引的 host.ip 字段的映射。该更改不会应用于流的其他支持索引。

    response = client.indices.put_mapping(
      index: 'my-data-stream',
      write_index_only: true,
      body: {
        properties: {
          host: {
            properties: {
              ip: {
                type: 'ip',
                ignore_malformed: true
              }
            }
          }
        }
      }
    )
    puts response
    PUT /my-data-stream/_mapping?write_index_only=true
    {
      "properties": {
        "host": {
          "properties": {
            "ip": {
              "type": "ip",
              "ignore_malformed": true
            }
          }
        }
      }
    }

除支持的映射参数外,我们不建议您更改现有字段的映射或字段数据类型,即使在数据流的匹配索引模板或其支持索引中也是如此。更改现有字段的映射可能会使已编入索引的任何数据失效。

如果需要更改现有字段的映射,请创建一个新的数据流并将数据重新索引到其中。请参阅使用重新索引更改映射或设置

更改数据流的动态索引设置编辑

要更改数据流的动态索引设置,请执行以下步骤

  1. 更新数据流使用的索引模板。这可确保将设置应用于为流创建的未来支持索引。

    例如,my-data-stream-templatemy-data-stream 使用的现有索引模板。

    以下创建或更新索引模板请求将模板的 index.refresh_interval 索引设置更改为 30s(30 秒)。

    PUT /_index_template/my-data-stream-template
    {
      "index_patterns": [ "my-data-stream*" ],
      "data_stream": { },
      "priority": 500,
      "template": {
        "settings": {
          "index.refresh_interval": "30s"             
        }
      }
    }

    index.refresh_interval 设置更改为 30s(30 秒)。

  2. 使用更新索引设置 API 更新数据流的索引设置。默认情况下,这会将设置应用于流的现有支持索引,包括写入索引。

    以下更新索引设置 API 请求更新 my-data-streamindex.refresh_interval 设置。

    response = client.indices.put_settings(
      index: 'my-data-stream',
      body: {
        index: {
          refresh_interval: '30s'
        }
      }
    )
    puts response
    PUT /my-data-stream/_settings
    {
      "index": {
        "refresh_interval": "30s"
      }
    }

要更改 index.lifecycle.name 设置,请先使用删除策略 API 删除现有的 ILM 策略。请参阅切换生命周期策略

更改数据流的静态索引设置编辑

静态索引设置只能在创建支持索引时设置。您无法使用更新索引设置 API 更新静态索引设置。

要将新的静态设置应用于未来的支持索引,请更新数据流使用的索引模板。该设置将自动应用于更新后创建的任何支持索引。

例如,my-data-stream-templatemy-data-stream 使用的现有索引模板。

以下创建或更新索引模板 API 请求将新的 sort.fieldsort.order index 设置添加到模板中。

PUT /_index_template/my-data-stream-template
{
  "index_patterns": [ "my-data-stream*" ],
  "data_stream": { },
  "priority": 500,
  "template": {
    "settings": {
      "sort.field": [ "@timestamp"],             
      "sort.order": [ "desc"]                    
    }
  }
}

添加 sort.field 索引设置。

添加 sort.order 索引设置。

如果需要,您可以滚动更新数据流 以立即将设置应用于数据流的写入索引。这会影响滚动更新后添加到流中的任何新数据。但是,它不会影响数据流的现有支持索引或现有数据。

要将静态设置更改应用于现有支持索引,您必须创建一个新的数据流并将数据重新索引到其中。请参阅使用重新索引更改映射或设置

使用重新索引更改映射或设置编辑

您可以使用重新索引来更改数据流的映射或设置。这通常需要更改现有字段的数据类型或更新支持索引的静态索引设置。

要重新索引数据流,请先创建或更新索引模板,使其包含所需的映射或设置更改。然后,您可以将现有数据流重新索引到与模板匹配的新流中。这会将模板中的映射和设置更改应用于添加到新数据流中的每个文档和支持索引。这些更改还会影响新流创建的任何未来支持索引。

请执行以下步骤

  1. 为新的数据流选择一个名称或索引模式。此新数据流将包含来自您现有流的数据。

    您可以使用解析索引 API 检查名称或模式是否与任何现有索引、别名或数据流匹配。如果是这样,您应该考虑使用其他名称或模式。

    以下解析索引 API 请求检查以 new-data-stream 开头的任何现有索引、别名或数据流。如果没有,则可以使用 new-data-stream* 索引模式创建新的数据流。

    response = client.indices.resolve_index(
      name: 'new-data-stream*'
    )
    puts response
    GET /_resolve/index/new-data-stream*

    API 返回以下响应,表明没有匹配此模式的现有目标。

    {
      "indices": [ ],
      "aliases": [ ],
      "data_streams": [ ]
    }
  2. 创建或更新索引模板。此模板应包含您要应用于新数据流的支持索引的映射和设置。

    此索引模板必须满足数据流模板的要求。它还应在 index_patterns 属性中包含您之前选择的名称或索引模式。

    如果您只是添加或更改一些内容,我们建议您通过复制现有模板并根据需要对其进行修改来创建新模板。

    例如,my-data-stream-templatemy-data-stream 使用的现有索引模板。

    以下 创建或更新索引模板 API 请求创建了一个新的索引模板,new-data-stream-templatenew-data-stream-template 使用 my-data-stream-template 作为基础,并进行了以下更改

    • index_patterns 中的索引模式匹配以 new-data-stream 开头的任何索引或数据流。
    • @timestamp 字段映射使用 date_nanos 字段数据类型,而不是 date 数据类型。
    • 该模板包含 sort.fieldsort.order 索引设置,而原始的 my-data-stream-template 模板中没有这些设置。
    response = client.indices.put_index_template(
      name: 'new-data-stream-template',
      body: {
        index_patterns: [
          'new-data-stream*'
        ],
        data_stream: {},
        priority: 500,
        template: {
          mappings: {
            properties: {
              "@timestamp": {
                type: 'date_nanos'
              }
            }
          },
          settings: {
            'sort.field' => [
              '@timestamp'
            ],
            'sort.order' => [
              'desc'
            ]
          }
        }
      }
    )
    puts response
    PUT /_index_template/new-data-stream-template
    {
      "index_patterns": [ "new-data-stream*" ],
      "data_stream": { },
      "priority": 500,
      "template": {
        "mappings": {
          "properties": {
            "@timestamp": {
              "type": "date_nanos"                 
            }
          }
        },
        "settings": {
          "sort.field": [ "@timestamp"],          
          "sort.order": [ "desc"]                 
        }
      }
    }

    @timestamp 字段映射更改为 date_nanos 字段数据类型。

    添加 sort.field 索引设置。

    添加 sort.order 索引设置。

  3. 使用 创建数据流 API 手动创建新的数据流。数据流的名称必须与新模板的 index_patterns 属性中定义的索引模式匹配。

    我们不建议 通过索引新数据来创建此数据流。稍后,您需要将现有数据流中的旧数据重新索引到此新流中。这可能会导致一个或多个后备索引包含新旧数据的混合。

    在数据流中混合新旧数据

    虽然混合新旧数据是安全的,但它可能会干扰数据保留。如果您删除较旧的索引,则可能会意外删除同时包含新旧数据的后备索引。为了防止过早的数据丢失,您需要保留此类后备索引,直到您准备好删除其最新数据。

    以下创建数据流 API 请求的目标是 new-data-stream,它与 new-data-stream-template 的索引模式匹配。因为没有现有的索引或数据流使用此名称,所以此请求将创建 new-data-stream 数据流。

    response = client.indices.create_data_stream(
      name: 'new-data-stream'
    )
    puts response
    PUT /_data_stream/new-data-stream
  4. 如果您不想在新数据流中混合新旧数据,请暂停对新文档的索引。虽然混合旧数据和新数据是安全的,但它可能会干扰数据保留。请参阅 在数据流中混合新旧数据
  5. 如果您使用 ILM 自动执行滚动,请减少 ILM 轮询间隔。这可确保当前写入索引在等待滚动检查时不会变得过大。默认情况下,ILM 每 10 分钟检查一次滚动条件。

    以下 集群更新设置 API 请求将 indices.lifecycle.poll_interval 设置降低到 1m(一分钟)。

    response = client.cluster.put_settings(
      body: {
        persistent: {
          'indices.lifecycle.poll_interval' => '1m'
        }
      }
    )
    puts response
    PUT /_cluster/settings
    {
      "persistent": {
        "indices.lifecycle.poll_interval": "1m"
      }
    }
  6. 使用 createop_type 将数据重新索引到新的数据流。

    如果要按照数据最初索引的顺序对数据进行分区,则可以运行单独的重新索引请求。这些重新索引请求可以使用单个后备索引作为源。您可以使用 获取数据流 API 来检索后备索引列表。

    例如,您计划将数据从 my-data-stream 重新索引到 new-data-stream。但是,您希望为 my-data-stream 中的每个后备索引提交一个单独的重新索引请求,从最旧的后备索引开始。这将保留数据最初索引的顺序。

    以下获取数据流 API 请求检索有关 my-data-stream 的信息,包括其后备索引列表。

    response = client.indices.get_data_stream(
      name: 'my-data-stream'
    )
    puts response
    GET /_data_stream/my-data-stream

    响应的 indices 属性包含流的当前后备索引数组。数组中的第一项包含有关流的最旧后备索引的信息。

    {
      "data_streams": [
        {
          "name": "my-data-stream",
          "timestamp_field": {
            "name": "@timestamp"
          },
          "indices": [
            {
              "index_name": ".ds-my-data-stream-2099.03.07-000001", 
              "index_uuid": "Gpdiyq8sRuK9WuthvAdFbw",
              "prefer_ilm": true,
              "managed_by": "Unmanaged"
            },
            {
              "index_name": ".ds-my-data-stream-2099.03.08-000002",
              "index_uuid": "_eEfRrFHS9OyhqWntkgHAQ",
              "prefer_ilm": true,
              "managed_by": "Unmanaged"
            }
          ],
          "generation": 2,
          "status": "GREEN",
          "next_generation_managed_by": "Unmanaged",
          "prefer_ilm": true,
          "template": "my-data-stream-template",
          "hidden": false,
          "system": false,
          "allow_custom_routing": false,
          "replicated": false,
          "rollover_on_write": false
        }
      ]
    }

    my-data-streamindices 数组中的第一项。此项包含有关流的最旧后备索引 .ds-my-data-stream-2099.03.07-000001 的信息。

    以下 重新索引 API 请求将文档从 .ds-my-data-stream-2099.03.07-000001 复制到 new-data-stream。请求的 op_typecreate

    response = client.reindex(
      body: {
        source: {
          index: '.ds-my-data-stream-2099.03.07-000001'
        },
        dest: {
          index: 'new-data-stream',
          op_type: 'create'
        }
      }
    )
    puts response
    POST /_reindex
    {
      "source": {
        "index": ".ds-my-data-stream-2099.03.07-000001"
      },
      "dest": {
        "index": "new-data-stream",
        "op_type": "create"
      }
    }

    您还可以使用查询来仅重新索引每个请求中的一部分文档。

    以下 重新索引 API 请求将文档从 my-data-stream 复制到 new-data-stream。该请求使用 range 查询 来仅重新索引时间戳在过去一周内的文档。请注意,请求的 op_typecreate

    response = client.reindex(
      body: {
        source: {
          index: 'my-data-stream',
          query: {
            range: {
              "@timestamp": {
                gte: 'now-7d/d',
                lte: 'now/d'
              }
            }
          }
        },
        dest: {
          index: 'new-data-stream',
          op_type: 'create'
        }
      }
    )
    puts response
    POST /_reindex
    {
      "source": {
        "index": "my-data-stream",
        "query": {
          "range": {
            "@timestamp": {
              "gte": "now-7d/d",
              "lte": "now/d"
            }
          }
        }
      },
      "dest": {
        "index": "new-data-stream",
        "op_type": "create"
      }
    }
  7. 如果您之前更改了 ILM 轮询间隔,请在重新索引完成后将其更改回原始值。这可以防止主节点上的不必要负载。

    以下集群更新设置 API 请求将 indices.lifecycle.poll_interval 设置重置为其默认值。

    response = client.cluster.put_settings(
      body: {
        persistent: {
          'indices.lifecycle.poll_interval' => nil
        }
      }
    )
    puts response
    PUT /_cluster/settings
    {
      "persistent": {
        "indices.lifecycle.poll_interval": null
      }
    }
  8. 使用新的数据流恢复索引。现在,对此流的搜索将查询您的新数据和重新索引的数据。
  9. 确认所有重新索引的数据在新数据流中都可用后,就可以安全地删除旧流。

    以下 删除数据流 API 请求将删除 my-data-stream。此请求还会删除流的后备索引及其包含的任何数据。

    response = client.indices.delete_data_stream(
      name: 'my-data-stream'
    )
    puts response
    DELETE /_data_stream/my-data-stream

更新或添加数据流的别名编辑

使用 别名 API 更新现有数据流的别名。更改现有数据流在其索引模式中的别名没有任何效果。

例如,logs 别名指向单个数据流。以下请求交换别名的流。在此交换过程中,logs 别名没有停机时间,并且永远不会同时指向两个流。

response = client.indices.update_aliases(
  body: {
    actions: [
      {
        remove: {
          index: 'logs-nginx.access-prod',
          alias: 'logs'
        }
      },
      {
        add: {
          index: 'logs-my_app-default',
          alias: 'logs'
        }
      }
    ]
  }
)
puts response
POST _aliases
{
  "actions": [
    {
      "remove": {
        "index": "logs-nginx.access-prod",
        "alias": "logs"
      }
    },
    {
      "add": {
        "index": "logs-my_app-default",
        "alias": "logs"
      }
    }
  ]
}