内容同步
编辑内容同步
编辑Elastic 连接器有两种类型的内容同步:
全量同步
编辑我们建议在修改同步规则时运行全量同步。
全量同步会将第三方数据源中的所有文档同步到 Elasticsearch。
它还会删除 Elasticsearch 中不再存在于第三方数据源中的任何文档。
根据定义,全量同步比增量同步花费更长的时间,但它确保了完整的数据一致性。
所有连接器都提供全量同步。
增量同步
编辑增量同步仅同步自上次全量或增量同步以来的数据更改。
只有在成功完成初始全量同步后,才能进行增量同步。否则,增量同步将会失败。
增量同步性能
编辑在增量同步期间,您的连接器仍然会从第三方数据源获取所有数据。如果数据包含时间戳,连接器框架会比较文档 ID 和时间戳。如果 Elasticsearch 中已存在具有相同时间戳的文档,则此文档不需要更新,也不会发送到 Elasticsearch。
增量同步性能的决定因素是摄取的原始数据量。对于少量数据,使用增量同步的性能提升将微不足道。对于大量数据,性能影响可能是巨大的。此外,增量同步不太可能受到 Elasticsearch 的限制,因此当 Elasticsearch 处于高负载时,它的性能比全量同步更好。
具有节流和低吞吐量,但在 Elasticsearch 中存储少量数据的第三方数据源(如 GitHub、Jira 或 Confluence)不会从增量同步中看到显著的性能提升。
但是,一个快速、可访问的第三方数据源,在 Elasticsearch 中存储大量数据,如 Azure Blob Storage、Google Drive 或 S3,可以从增量同步中获得显著的性能提升。
SharePoint Online 和Google Drive 连接器的增量同步使用特定的逻辑。所有其他连接器对增量同步使用相同的共享连接器框架逻辑。
增量同步的可用性
编辑以下连接器可使用增量同步: