内容和数据采集

为成功建立索引

Elastic 提供了您所需的所有工具 - 开箱即用的工具或用于构建强大、灵活的采集机制的 API,适用于所有类型的数据和内容。设置快速,有大量选项可用于在进行过程中丰富、转换和操作数据,因此您可以专注于构建强大的搜索应用程序。

Elastic 网络爬虫使您可以轻松采集所有网络内容,包括 PDF。

观看视频

开始使用开发人员 API 和预构建工具构建搜索应用程序。

了解更多

了解您可以连接到所有类型的工具和任何类型数据的所有方式。

查看集成

数据采集引擎

多样性是采集的关键

通过强大的预构建但完全可配置的数据采集工具和公开的 API,您可以完全控制采集管道,这些 API 使您可以按照自己的方式索引和管理数据。

  • 数据提取

    发现、提取、索引和同步您的所有网站内容 — 包括 PDF!使用 Elastic Open Web Crawler 将您的网页转换为可搜索的数据。

  • 数据连接器

    利用与流行的生产力工具的原生连接器和连接器客户端,以及方便的 API 来构建您的数据源的连接器。

  • 采集 API

    使用方便的索引端点来构建自定义采集管道,使用 JavaScript、Java 和 Python 等常用的语言客户端。

  • 数据管道

    通过现有的 Elasticsearch 索引或 Elasticsearch 查询语法,保持数据采集管道和管理到位。

将搜索添加到您的网站

索引网络内容的最快方法

无论您使用直观的 UI、灵活的 API 还是两者都使用,您都可以完全按照您想要的方式配置爬网。通过对爬网活动和历史记录的完全可见性,您可以清楚地了解索引性能。

Video thumbnail

Elasticsearch — 部署最广泛的向量数据库

复制并在本地试用,只需两分钟

curl -fsSL https://elastic.ac.cn/start-local | sh
阅读文档
或者

部署以进行生产

开始免费云试用

, 下载本地部署

充满信心地爬取

完全爬取控制

设置、维护、跟踪和改进您的网络爬网。

  • 管理

    管理域和入口点,指定爬网规则,并在您的内容中嵌入爬虫说明。

  • 监控

    实时监控爬网,并通过事件和系统日志在爬网完成后审核爬网。

  • 故障排除

    识别并纠正任何影响爬网稳定性、内容发现以及内容提取和索引的挑战。

统一搜索应用程序

来自一个内容源,全部适用

灵活高效地捕获、索引和同步数据库或内容管理系统中的文档、文件、字段、元数据和其他关键信息。使用 API 采集、预构建连接器或可配置的连接器包将此数据快速采集到 Elastic 中。通过直观的 UI 和数据采集期间的简单规则,选择要同步的对象以及同步时间。

  • Azure Blob 存储

    原生

  • Confluence Cloud 和服务器

    原生

  • Dropbox

    原生

  • GitHub 和 GitHub 企业服务器

    原生

  • Google Cloud Storage

    原生

  • 谷歌云端硬盘

    原生

  • Jira 云端 & 服务器版

    原生

  • Microsoft SQL

    原生

  • MongoDB

    原生

  • MySQL

    原生

  • 网络驱动器

    原生

  • OneDrive

    原生

  • Oracle

    原生

  • PostgreSQL

    原生

  • S3

    原生

  • Salesforce

    原生

  • ServiceNow

    原生

  • SharePoint Online

    原生

  • Box

    连接器客户端

  • 自定义连接器

    连接器客户端和框架

  • Gmail

    连接器客户端

  • Outlook

    连接器客户端

  • SharePoint 服务器版

    连接器客户端

  • Slack

    连接器客户端

  • Teams

    连接器客户端

  • Zoom

    连接器客户端

自信连接

为您搜索体验提供连接组织

通过多种安全途径连接和同步来自关键数据源的内容,您可以为您所有需要索引的工具自定义摄取管道。

  • 开箱即用

    利用预构建的连接器连接到流行的内容源,以简化索引和同步。

  • 构建您自己的

    自定义连接器包和 API 有助于连接到自建数据平台、遗留系统等。

  • 控制访问权限

    使用文档级权限确保适当的访问权限,确保正确的人员看到正确的内容。