修改数据流
编辑修改数据流编辑
更改数据流的映射和设置编辑
每个数据流都有一个匹配的索引模板。此模板中的映射和索引设置将应用于为流创建的新支持索引。这包括流的第一个支持索引,该索引在创建流时自动生成。
在创建数据流之前,我们建议您仔细考虑要包含在此模板中的映射和设置。
如果您以后需要更改数据流的映射或设置,则有以下几种选择
如果您的更改包括对现有字段映射或静态索引设置的修改,通常需要重新索引才能将更改应用于数据流的支持索引。如果您已经在执行重新索引,则可以使用相同的过程添加新的字段映射并更改动态索引设置。请参阅使用重新索引更改映射或设置。
向数据流添加新的字段映射编辑
要将新字段的映射添加到数据流,请执行以下步骤
-
更新数据流使用的索引模板。这可确保将新的字段映射添加到为流创建的未来支持索引中。
例如,
my-data-stream-template
是my-data-stream
使用的现有索引模板。以下创建或更新索引模板请求将新字段
message
的映射添加到模板中。 -
使用更新映射 API 将新的字段映射添加到数据流中。默认情况下,这会将映射添加到流的现有支持索引中,包括写入索引。
以下更新映射 API 请求将新的
message
字段映射添加到my-data-stream
中。PUT /my-data-stream/_mapping { "properties": { "message": { "type": "text" } } }
要仅将映射添加到流的写入索引,请将更新映射 API 的
write_index_only
查询参数设置为true
。以下更新映射请求仅将新的
message
字段映射添加到my-data-stream
的写入索引。新的字段映射不会添加到流的其他支持索引中。PUT /my-data-stream/_mapping?write_index_only=true { "properties": { "message": { "type": "text" } } }
更改数据流中的现有字段映射编辑
每个映射参数的文档都指明了是否可以使用更新映射 API 为现有字段更新它。要为现有字段更新这些参数,请执行以下步骤
-
更新数据流使用的索引模板。这可确保将更新后的字段映射添加到为流创建的未来支持索引中。
例如,
my-data-stream-template
是my-data-stream
使用的现有索引模板。以下创建或更新索引模板请求将
host.ip
字段的ignore_malformed
映射参数的参数更改为true
。 -
使用更新映射 API 将映射更改应用于数据流。默认情况下,这会将更改应用于流的现有支持索引,包括写入索引。
以下更新映射 API 请求以
my-data-stream
为目标。该请求将host.ip
字段的ignore_malformed
映射参数的参数更改为true
。response = client.indices.put_mapping( index: 'my-data-stream', body: { properties: { host: { properties: { ip: { type: 'ip', ignore_malformed: true } } } } } ) puts response
PUT /my-data-stream/_mapping { "properties": { "host": { "properties": { "ip": { "type": "ip", "ignore_malformed": true } } } } }
要仅将映射更改应用于流的写入索引,请将放置映射 API 的
write_index_only
查询参数设置为true
。以下更新映射请求仅更改
my-data-stream
的写入索引的host.ip
字段的映射。该更改不会应用于流的其他支持索引。response = client.indices.put_mapping( index: 'my-data-stream', write_index_only: true, body: { properties: { host: { properties: { ip: { type: 'ip', ignore_malformed: true } } } } } ) puts response
PUT /my-data-stream/_mapping?write_index_only=true { "properties": { "host": { "properties": { "ip": { "type": "ip", "ignore_malformed": true } } } } }
除支持的映射参数外,我们不建议您更改现有字段的映射或字段数据类型,即使在数据流的匹配索引模板或其支持索引中也是如此。更改现有字段的映射可能会使已编入索引的任何数据失效。
如果需要更改现有字段的映射,请创建一个新的数据流并将数据重新索引到其中。请参阅使用重新索引更改映射或设置。
更改数据流的动态索引设置编辑
要更改数据流的动态索引设置,请执行以下步骤
-
更新数据流使用的索引模板。这可确保将设置应用于为流创建的未来支持索引。
例如,
my-data-stream-template
是my-data-stream
使用的现有索引模板。以下创建或更新索引模板请求将模板的
index.refresh_interval
索引设置更改为30s
(30 秒)。 -
使用更新索引设置 API 更新数据流的索引设置。默认情况下,这会将设置应用于流的现有支持索引,包括写入索引。
以下更新索引设置 API 请求更新
my-data-stream
的index.refresh_interval
设置。response = client.indices.put_settings( index: 'my-data-stream', body: { index: { refresh_interval: '30s' } } ) puts response
PUT /my-data-stream/_settings { "index": { "refresh_interval": "30s" } }
更改数据流的静态索引设置编辑
静态索引设置只能在创建支持索引时设置。您无法使用更新索引设置 API 更新静态索引设置。
要将新的静态设置应用于未来的支持索引,请更新数据流使用的索引模板。该设置将自动应用于更新后创建的任何支持索引。
例如,my-data-stream-template
是 my-data-stream
使用的现有索引模板。
以下创建或更新索引模板 API 请求将新的 sort.field
和 sort.order index
设置添加到模板中。
PUT /_index_template/my-data-stream-template { "index_patterns": [ "my-data-stream*" ], "data_stream": { }, "priority": 500, "template": { "settings": { "sort.field": [ "@timestamp"], "sort.order": [ "desc"] } } }
如果需要,您可以滚动更新数据流 以立即将设置应用于数据流的写入索引。这会影响滚动更新后添加到流中的任何新数据。但是,它不会影响数据流的现有支持索引或现有数据。
要将静态设置更改应用于现有支持索引,您必须创建一个新的数据流并将数据重新索引到其中。请参阅使用重新索引更改映射或设置。
使用重新索引更改映射或设置编辑
您可以使用重新索引来更改数据流的映射或设置。这通常需要更改现有字段的数据类型或更新支持索引的静态索引设置。
要重新索引数据流,请先创建或更新索引模板,使其包含所需的映射或设置更改。然后,您可以将现有数据流重新索引到与模板匹配的新流中。这会将模板中的映射和设置更改应用于添加到新数据流中的每个文档和支持索引。这些更改还会影响新流创建的任何未来支持索引。
请执行以下步骤
-
为新的数据流选择一个名称或索引模式。此新数据流将包含来自您现有流的数据。
您可以使用解析索引 API 检查名称或模式是否与任何现有索引、别名或数据流匹配。如果是这样,您应该考虑使用其他名称或模式。
以下解析索引 API 请求检查以
new-data-stream
开头的任何现有索引、别名或数据流。如果没有,则可以使用new-data-stream*
索引模式创建新的数据流。response = client.indices.resolve_index( name: 'new-data-stream*' ) puts response
GET /_resolve/index/new-data-stream*
API 返回以下响应,表明没有匹配此模式的现有目标。
{ "indices": [ ], "aliases": [ ], "data_streams": [ ] }
-
创建或更新索引模板。此模板应包含您要应用于新数据流的支持索引的映射和设置。
此索引模板必须满足数据流模板的要求。它还应在
index_patterns
属性中包含您之前选择的名称或索引模式。如果您只是添加或更改一些内容,我们建议您通过复制现有模板并根据需要对其进行修改来创建新模板。
例如,
my-data-stream-template
是my-data-stream
使用的现有索引模板。以下 创建或更新索引模板 API 请求创建了一个新的索引模板,
new-data-stream-template
。new-data-stream-template
使用my-data-stream-template
作为基础,并进行了以下更改index_patterns
中的索引模式匹配以new-data-stream
开头的任何索引或数据流。@timestamp
字段映射使用date_nanos
字段数据类型,而不是date
数据类型。- 该模板包含
sort.field
和sort.order
索引设置,而原始的my-data-stream-template
模板中没有这些设置。
response = client.indices.put_index_template( name: 'new-data-stream-template', body: { index_patterns: [ 'new-data-stream*' ], data_stream: {}, priority: 500, template: { mappings: { properties: { "@timestamp": { type: 'date_nanos' } } }, settings: { 'sort.field' => [ '@timestamp' ], 'sort.order' => [ 'desc' ] } } } ) puts response
-
使用 创建数据流 API 手动创建新的数据流。数据流的名称必须与新模板的
index_patterns
属性中定义的索引模式匹配。我们不建议 通过索引新数据来创建此数据流。稍后,您需要将现有数据流中的旧数据重新索引到此新流中。这可能会导致一个或多个后备索引包含新旧数据的混合。
以下创建数据流 API 请求的目标是
new-data-stream
,它与new-data-stream-template
的索引模式匹配。因为没有现有的索引或数据流使用此名称,所以此请求将创建new-data-stream
数据流。response = client.indices.create_data_stream( name: 'new-data-stream' ) puts response
PUT /_data_stream/new-data-stream
- 如果您不想在新数据流中混合新旧数据,请暂停对新文档的索引。虽然混合旧数据和新数据是安全的,但它可能会干扰数据保留。请参阅 在数据流中混合新旧数据。
-
如果您使用 ILM 自动执行滚动,请减少 ILM 轮询间隔。这可确保当前写入索引在等待滚动检查时不会变得过大。默认情况下,ILM 每 10 分钟检查一次滚动条件。
以下 集群更新设置 API 请求将
indices.lifecycle.poll_interval
设置降低到1m
(一分钟)。response = client.cluster.put_settings( body: { persistent: { 'indices.lifecycle.poll_interval' => '1m' } } ) puts response
PUT /_cluster/settings { "persistent": { "indices.lifecycle.poll_interval": "1m" } }
-
使用
create
的op_type
将数据重新索引到新的数据流。如果要按照数据最初索引的顺序对数据进行分区,则可以运行单独的重新索引请求。这些重新索引请求可以使用单个后备索引作为源。您可以使用 获取数据流 API 来检索后备索引列表。
例如,您计划将数据从
my-data-stream
重新索引到new-data-stream
。但是,您希望为my-data-stream
中的每个后备索引提交一个单独的重新索引请求,从最旧的后备索引开始。这将保留数据最初索引的顺序。以下获取数据流 API 请求检索有关
my-data-stream
的信息,包括其后备索引列表。response = client.indices.get_data_stream( name: 'my-data-stream' ) puts response
GET /_data_stream/my-data-stream
响应的
indices
属性包含流的当前后备索引数组。数组中的第一项包含有关流的最旧后备索引的信息。{ "data_streams": [ { "name": "my-data-stream", "timestamp_field": { "name": "@timestamp" }, "indices": [ { "index_name": ".ds-my-data-stream-2099.03.07-000001", "index_uuid": "Gpdiyq8sRuK9WuthvAdFbw", "prefer_ilm": true, "managed_by": "Unmanaged" }, { "index_name": ".ds-my-data-stream-2099.03.08-000002", "index_uuid": "_eEfRrFHS9OyhqWntkgHAQ", "prefer_ilm": true, "managed_by": "Unmanaged" } ], "generation": 2, "status": "GREEN", "next_generation_managed_by": "Unmanaged", "prefer_ilm": true, "template": "my-data-stream-template", "hidden": false, "system": false, "allow_custom_routing": false, "replicated": false, "rollover_on_write": false } ] }
以下 重新索引 API 请求将文档从
.ds-my-data-stream-2099.03.07-000001
复制到new-data-stream
。请求的op_type
为create
。response = client.reindex( body: { source: { index: '.ds-my-data-stream-2099.03.07-000001' }, dest: { index: 'new-data-stream', op_type: 'create' } } ) puts response
POST /_reindex { "source": { "index": ".ds-my-data-stream-2099.03.07-000001" }, "dest": { "index": "new-data-stream", "op_type": "create" } }
您还可以使用查询来仅重新索引每个请求中的一部分文档。
以下 重新索引 API 请求将文档从
my-data-stream
复制到new-data-stream
。该请求使用range
查询 来仅重新索引时间戳在过去一周内的文档。请注意,请求的op_type
为create
。response = client.reindex( body: { source: { index: 'my-data-stream', query: { range: { "@timestamp": { gte: 'now-7d/d', lte: 'now/d' } } } }, dest: { index: 'new-data-stream', op_type: 'create' } } ) puts response
POST /_reindex { "source": { "index": "my-data-stream", "query": { "range": { "@timestamp": { "gte": "now-7d/d", "lte": "now/d" } } } }, "dest": { "index": "new-data-stream", "op_type": "create" } }
-
如果您之前更改了 ILM 轮询间隔,请在重新索引完成后将其更改回原始值。这可以防止主节点上的不必要负载。
以下集群更新设置 API 请求将
indices.lifecycle.poll_interval
设置重置为其默认值。response = client.cluster.put_settings( body: { persistent: { 'indices.lifecycle.poll_interval' => nil } } ) puts response
PUT /_cluster/settings { "persistent": { "indices.lifecycle.poll_interval": null } }
- 使用新的数据流恢复索引。现在,对此流的搜索将查询您的新数据和重新索引的数据。
-
确认所有重新索引的数据在新数据流中都可用后,就可以安全地删除旧流。
以下 删除数据流 API 请求将删除
my-data-stream
。此请求还会删除流的后备索引及其包含的任何数据。response = client.indices.delete_data_stream( name: 'my-data-stream' ) puts response
DELETE /_data_stream/my-data-stream
更新或添加数据流的别名编辑
使用 别名 API 更新现有数据流的别名。更改现有数据流在其索引模式中的别名没有任何效果。
例如,logs
别名指向单个数据流。以下请求交换别名的流。在此交换过程中,logs
别名没有停机时间,并且永远不会同时指向两个流。
response = client.indices.update_aliases( body: { actions: [ { remove: { index: 'logs-nginx.access-prod', alias: 'logs' } }, { add: { index: 'logs-my_app-default', alias: 'logs' } } ] } ) puts response
POST _aliases { "actions": [ { "remove": { "index": "logs-nginx.access-prod", "alias": "logs" } }, { "add": { "index": "logs-my_app-default", "alias": "logs" } } ] }