提取、筛选和转换内容

编辑

Elastic 连接器提供多种工具,用于从第三方数据源提取、筛选和转换内容。每个连接器都有其特定于数据源的默认逻辑,并且每个 Elastic Search 部署都使用默认的摄取管道来提取和转换数据。 还有一些工具可用于更高级的用例。

下图概述了如何在连接器的数据管道中协调内容提取、同步规则和摄取管道。

Architecture diagram of data pipeline with content extraction

默认情况下,只有连接器特定的逻辑 (2) 和默认的 ent-search-generic-ingestion 管道 (6) 会提取和转换您的数据,这在您的部署中配置。

以下工具可用于更高级的用例

  • 高级同步规则 (1)。在数据到达连接器之前,在数据源级别进行远程筛选。
  • 基本同步规则 (4) 或 提取服务 (3)。由连接器控制的集成筛选。
  • 摄取管道 (6)。自定义管道筛选,其中 Elasticsearch 在索引之前筛选数据。

请在以下文档链接中了解更多信息。

内容提取

编辑

连接器具有默认的内容提取服务,以及用于高级用例的 自托管提取服务

有关详细信息,请参阅内容提取

同步规则

编辑

使用同步规则来帮助控制第三方数据源和 Elasticsearch 之间同步哪些文档。同步规则使您能够在数据管道的早期筛选数据,这更高效和安全。

  • 基本同步规则对于所有连接器都是相同的。
  • 高级同步规则特定于数据源。它们涵盖了复杂的查询和筛选场景,在 DSL JSON 片段中定义。

有关详细信息,请参阅同步规则

摄取管道

编辑

摄取管道是处理器的一个用户定义序列,它们在文档被索引到 Elasticsearch 之前修改文档。使用摄取管道进行数据丰富、标准化等。

Elastic 连接器使用默认的摄取管道,您可以复制和自定义该管道以满足您的需求。

请参阅 Elasticsearch 文档中的搜索中的摄取管道