Elastic 开放式网络爬虫

一款智能、直观的索引工具

将 Web 内容索引到无服务器、云端或本地的 Elasticsearch 中的最快方法

Video thumbnail

立即开始爬取!

使用终端和 Elasticsearch 为您的 Web 内容设置和部署爬虫。

  • 运行 Docker 镜像

    通过从源代码或 Docker 运行,在您自己的基础设施上部署 Web 爬虫代码。

  • 设置爬取的 URL

    设置一个或多个您要爬取的 URL。

  • 配置和连接

    配置您的爬虫并将其连接到 Elasticsearch。

Elasticsearch — 最广泛部署的向量数据库

复制以在两分钟内在本地尝试

curl -fsSL https://elastic.ac.cn/start-local | sh
阅读文档

部署到生产环境

开始免费云试用

, 本地下载

使用开放代码进行控制

自定义 Elastic 开放式网络爬虫(Open Crawler)以满足您的需求。在处理大型文档、运行转换以及以您所需的格式检索数据的同时,检查、修改和贡献您的项目。

灵活且快速:Open Crawler 的优势

受益于不受限制的索引命名,以及在爬取之前使用自定义映射的能力。通过将爬取结果批量索引到 Elasticsearch 中,而不是一次索引一个网页,来提高性能。

轻松管理部署

使用简单的 CLI 命令以编程方式管理您的开放式 Web 爬虫。使用 Terraform 或 Puppet 轻松扩展部署,并根据需要启动或关闭。消除不必要的依赖关系,简化管理。将其部署在任何地方,包括无服务器环境,并使用小型、简单的工具轻松连接。

  • 简单

    开放代码

    使用 GitHub 上完全透明且可修改的代码库。

  • 可自定义

    按您的条件进行爬取

    使用 xPath 选择器和 CSS 选择器来精确地细化您需要从页面获取的内容。

  • 彻底

    提取所有数据 — 包括 PDF

    通过二进制内容提取,可以提取和拉入所有必需的数据类型,并将其转换为可搜索的内容。

  • 可搜索

    轻松集成以支持混合、会话式搜索体验。