内容同步

编辑

Elastic 连接器有两种类型的内容同步:

全量同步

编辑

我们建议在修改同步规则时运行全量同步。

全量同步会将第三方数据源中的所有文档同步到 Elasticsearch。

它还会删除 Elasticsearch 中不再存在于第三方数据源中的任何文档。

根据定义,全量同步比增量同步花费更长的时间,但它确保了完整的数据一致性。

所有连接器都提供全量同步。

您可以计划手动触发全量同步作业。

增量同步

编辑

增量同步仅同步自上次全量或增量同步以来的数据更改。

只有在成功完成初始全量同步后,才能进行增量同步。否则,增量同步将会失败。

您可以计划手动触发增量同步作业。

增量同步性能

编辑

在增量同步期间,您的连接器仍然会从第三方数据源获取所有数据。如果数据包含时间戳,连接器框架会比较文档 ID 和时间戳。如果 Elasticsearch 中已存在具有相同时间戳的文档,则此文档不需要更新,也不会发送到 Elasticsearch。

增量同步性能的决定因素是摄取的原始数据量。对于少量数据,使用增量同步的性能提升将微不足道。对于大量数据,性能影响可能是巨大的。此外,增量同步不太可能受到 Elasticsearch 的限制,因此当 Elasticsearch 处于高负载时,它的性能比全量同步更好。

具有节流和低吞吐量,但在 Elasticsearch 中存储少量数据的第三方数据源(如 GitHub、Jira 或 Confluence)不会从增量同步中看到显著的性能提升。

但是,一个快速、可访问的第三方数据源,在 Elasticsearch 中存储大量数据,如 Azure Blob Storage、Google Drive 或 S3,可以从增量同步中获得显著的性能提升。

SharePoint OnlineGoogle Drive 连接器的增量同步使用特定的逻辑。所有其他连接器对增量同步使用相同的共享连接器框架逻辑。

增量同步的可用性

编辑

以下连接器可使用增量同步: