提取、筛选和转换内容
编辑提取、筛选和转换内容
编辑Elastic 连接器提供多种工具,用于从第三方数据源提取、筛选和转换内容。每个连接器都有其特定于数据源的默认逻辑,并且每个 Elastic Search 部署都使用默认的摄取管道来提取和转换数据。 还有一些工具可用于更高级的用例。
下图概述了如何在连接器的数据管道中协调内容提取、同步规则和摄取管道。
默认情况下,只有连接器特定的逻辑 (2) 和默认的 ent-search-generic-ingestion
管道 (6) 会提取和转换您的数据,这在您的部署中配置。
以下工具可用于更高级的用例
- 高级同步规则 (1)。在数据到达连接器之前,在数据源级别进行远程筛选。
- 基本同步规则 (4) 或 提取服务 (3)。由连接器控制的集成筛选。
- 摄取管道 (6)。自定义管道筛选,其中 Elasticsearch 在索引之前筛选数据。
请在以下文档链接中了解更多信息。
内容提取
编辑连接器具有默认的内容提取服务,以及用于高级用例的 自托管提取服务。
有关详细信息,请参阅内容提取。
同步规则
编辑使用同步规则来帮助控制第三方数据源和 Elasticsearch 之间同步哪些文档。同步规则使您能够在数据管道的早期筛选数据,这更高效和安全。
- 基本同步规则对于所有连接器都是相同的。
- 高级同步规则特定于数据源。它们涵盖了复杂的查询和筛选场景,在 DSL JSON 片段中定义。
有关详细信息,请参阅同步规则。
摄取管道
编辑摄取管道是处理器的一个用户定义序列,它们在文档被索引到 Elasticsearch 之前修改文档。使用摄取管道进行数据丰富、标准化等。
Elastic 连接器使用默认的摄取管道,您可以复制和自定义该管道以满足您的需求。
请参阅 Elasticsearch 文档中的搜索中的摄取管道。