用于搜索用例的采集
Elastic Stack Serverless
注意
此页面涵盖专门用于搜索用例的采集方法。如果您正在处理不同的用例,请参阅采集概述,以获取更多选项。
搜索用例通常侧重于一般的**内容**,通常是不带时间戳的文本密集型数据。 这可能是知识库、网站内容、产品目录等数据。
一旦您决定如何部署 Elastic,下一步就是将您的内容导入 Elasticsearch。 您对采集方法的选择取决于您的内容所在的位置以及您需要如何访问它。
有几种方法可以将数据采集到 Elasticsearch 中以用于搜索用例。 根据您的要求选择一种或多种。
提示
如果您只想进行快速测试,可以使用 UI 将示例数据加载到您的 Elasticsearch 集群中。
您可以使用_bulk
API 将数据添加到您的 Elasticsearch 索引,使用任何 HTTP 客户端,包括 Elasticsearch 客户端库。
虽然 Elasticsearch API 可用于任何数据类型,但 Elastic 提供了专门的工具,可以优化特定用例的采集。
您可以使用这些专用工具将一般内容添加到 Elasticsearch 索引。
方法 | 描述 | 备注 |
---|---|---|
网络爬虫 | 以编程方式发现和索引来自网站和知识库的内容 | 抓取面向公众的 Web 内容或通过 HTTP 代理访问的内部站点 |
搜索连接器 | 与流行的内容来源(如数据库、云存储和业务应用程序)的第三方集成 | 从一系列 Elastic 构建的连接器中进行选择,或者使用 Elastic 连接器框架在 Python 中构建您自己的连接器 |
文件上传 | 通过 UI 进行一次性手动上传 | 适用于测试或非常小规模的用例,但不建议用于生产工作流程 |
您还可以使用采集管道在采集时转换和丰富您的内容。
Elastic UI 具有一组工具,用于创建和管理针对搜索用例优化的索引。 您还可以在此 UI 中管理您的采集管道。 在用于搜索用例的采集管道中了解更多信息。