数据管理

编辑

您存储在 Elasticsearch 中的数据通常分为以下两类:

  • 内容:您想要搜索的项目集合,例如产品目录
  • 时间序列数据:不断生成的带时间戳的数据流,例如日志条目

内容可能会频繁更新,但内容的价值随着时间的推移相对保持不变。您希望能够快速检索项目,无论它们有多旧。

时间序列数据随着时间的推移不断累积,因此您需要制定策略来平衡数据的价值与存储成本。随着时间的推移,它往往变得不那么重要,访问频率也降低,因此您可以将其移动到成本较低、性能较低的硬件上。对于您最旧的数据,重要的是您可以访问数据。如果查询需要更长的时间才能完成,那也没关系。

为了帮助您管理数据,Elasticsearch 为您提供:

内置的数据流生命周期处于技术预览阶段,可能会在未来的版本中更改或删除。Elastic 将努力修复任何问题,但此功能不受官方 GA 功能的支持 SLA 约束。

ILM 可用于管理索引和数据流,它允许您:

  • 定义数据的保留期限。保留期限是您的数据在 Elasticsearch 中存储的最短时间。超过此期限的数据可以被 Elasticsearch 删除。
  • 定义具有不同性能特征的多个数据层
  • 根据您的性能需求和保留策略,自动将索引转换到不同的数据层。
  • 利用存储在远程存储库中的可搜索快照,为您的旧索引提供弹性,同时降低运营成本并保持搜索性能。
  • 对存储在性能较低的硬件上的数据执行异步搜索

数据流生命周期的功能较少,但专注于简单性,因此您可以轻松地:

  • 定义数据的保留期限。保留期限是您的数据在 Elasticsearch 中存储的最短时间。超过此期限的数据可以在稍后被 Elasticsearch 删除。
  • 通过执行后台操作来优化数据流的存储方式,从而提高数据流的性能。