数据流

编辑

数据流允许您跨多个索引存储仅追加的时间序列数据,同时为您提供一个用于请求的单一命名资源。数据流非常适合日志、事件、指标和其他持续生成的数据。

您可以将索引和搜索请求直接提交到数据流。该流会自动将请求路由到存储流数据的后备索引。您可以使用索引生命周期管理 (ILM)来自动化管理这些后备索引。例如,您可以使用 ILM 将较旧的后备索引自动移动到成本较低的硬件,并删除不需要的索引。ILM 可以帮助您在数据增长时降低成本和开销。

您应该使用数据流吗?

编辑

要确定是否应该为您的数据使用数据流,您应该考虑数据的格式以及您期望的交互。使用数据流的理想候选者将符合以下标准:

  • 您的数据包含时间戳字段,或者可以自动生成一个时间戳字段。
  • 您主要执行索引请求,偶尔进行更新和删除操作。
  • 您在索引文档时没有 _id,或者在索引具有显式 _id 的文档时,您期望先写入获胜的行为。

对于大多数时间序列数据用例,数据流将是一个不错的选择。但是,如果您发现您的数据不属于这些类别(例如,如果您经常使用相同的 _id 发送多个文档并期望后写入获胜),您可能需要使用带有写入索引的索引别名。有关更多信息,请参阅在没有数据流的情况下管理时间序列数据的文档。

请记住,某些功能(例如时间序列数据流 (TSDS)数据流生命周期)需要数据流。

后备索引

编辑

数据流由一个或多个隐藏的、自动生成的后备索引组成。

data streams diagram

数据流需要匹配的索引模板。该模板包含用于配置流的后备索引的映射和设置。

索引到数据流的每个文档都必须包含一个 @timestamp 字段,该字段被映射为 datedate_nanos 字段类型。如果索引模板未指定 @timestamp 字段的映射,则 Elasticsearch 会将 @timestamp 映射为具有默认选项的 date 字段。

同一个索引模板可以用于多个数据流。您不能删除正在被数据流使用的索引模板。

后备索引的名称模式是实现细节,不应从中推断出任何智能。唯一不变的是每个数据流生成索引都将具有唯一的名称。

读取请求

编辑

当您向数据流提交读取请求时,该流会将请求路由到其所有后备索引。

data streams search request

写入索引

编辑

最近创建的后备索引是数据流的写入索引。该流仅将新文档添加到此索引。

data streams index request

您不能将新文档添加到其他后备索引,即使通过直接向索引发送请求也不行。

您也不能对写入索引执行可能会妨碍索引的操作,例如:

滚动更新

编辑

滚动更新会创建一个新的后备索引,该索引将成为流的新写入索引。

我们建议使用ILM在写入索引达到指定的年龄或大小时自动滚动更新数据流。如果需要,您也可以手动滚动更新数据流。

生成

编辑

每个数据流都跟踪其生成:一个六位数的、以零填充的整数,从 000001 开始。

创建后备索引时,该索引使用以下约定命名:

.ds-<data-stream>-<yyyy.MM.dd>-<generation>

<yyyy.MM.dd> 是后备索引的创建日期。具有较高生成的后备索引包含较新的数据。例如,web-server-logs 数据流的生成为 34。该流的最新后备索引于 2099 年 3 月 7 日创建,名为 .ds-web-server-logs-2099.03.07-000034

某些操作(例如收缩恢复)可以更改后备索引的名称。这些名称更改不会从其数据流中删除后备索引。

数据流的生成可能会在没有向数据流添加新索引的情况下发生变化(例如,当现有后备索引收缩时)。这意味着某些生成的后备索引将永远不会存在。您不应从后备索引名称中推断出任何智能。

仅追加(主要)

编辑

数据流设计用于很少更新现有数据的用例。您不能直接向数据流发送现有文档的更新或删除请求。但是,您仍然可以通过将请求直接提交到文档的后备索引来更新或删除数据流中的文档。

如果您需要更新数据流中的大量文档,可以使用按查询更新按查询删除API。

如果您经常使用相同的 _id 发送多个文档并期望后写入获胜,您可能需要使用带有写入索引的索引别名。请参阅在没有数据流的情况下管理时间序列数据