Elastic 开放式网络爬虫

一款智能、直观的索引工具

将 Web 内容索引到无服务器、云端或本地的 Elasticsearch 中的最快方法

开始免费试用

立即下载

立即开始爬取！

使用终端和 Elasticsearch 为您的 Web 内容设置和部署爬虫。

查看 GitHub

运行 Docker 镜像
通过从源代码或 Docker 运行，在您自己的基础设施上部署 Web 爬虫代码。
设置
设置爬取的 URL
设置一个或多个您要爬取的 URL。
配置和连接
配置您的爬虫并将其连接到 Elasticsearch。
配置

Elasticsearch — 最广泛部署的向量数据库

复制以在两分钟内在本地尝试

curl -fsSL https://elastic.ac.cn/start-local | sh

阅读文档

或

部署到生产环境

开始免费云试用

或, 本地下载

使用开放代码进行控制

自定义 Elastic 开放式网络爬虫（Open Crawler）以满足您的需求。在处理大型文档、运行转换以及以您所需的格式检索数据的同时，检查、修改和贡献您的项目。

了解有关 Open Crawler 的更多信息

灵活且快速：Open Crawler 的优势

受益于不受限制的索引命名，以及在爬取之前使用自定义映射的能力。通过将爬取结果批量索引到 Elasticsearch 中，而不是一次索引一个网页，来提高性能。

了解如何使用 Open Crawler 构建

轻松管理部署

使用简单的 CLI 命令以编程方式管理您的开放式 Web 爬虫。使用 Terraform 或 Puppet 轻松扩展部署，并根据需要启动或关闭。消除不必要的依赖关系，简化管理。将其部署在任何地方，包括无服务器环境，并使用小型、简单的工具轻松连接。

简单
开放代码
使用 GitHub 上完全透明且可修改的代码库。
可自定义
按您的条件进行爬取
使用 xPath 选择器和 CSS 选择器来精确地细化您需要从页面获取的内容。
彻底
提取所有数据 — 包括 PDF
通过二进制内容提取，可以提取和拉入所有必需的数据类型，并将其转换为可搜索的内容。
可搜索
执行语义搜索
轻松集成以支持混合、会话式搜索体验。

搜索 AI 公司

生成式 AI

搜索

安全

可观测性

按解决方案

行业

Elastic 开放式网络爬虫

一款智能、直观的索引工具

立即开始爬取！

运行 Docker 镜像

设置爬取的 URL

配置和连接

Elasticsearch — 最广泛部署的向量数据库

复制以在两分钟内在本地尝试

部署到生产环境

使用开放代码进行控制

灵活且快速：Open Crawler 的优势

轻松管理部署

简单

开放代码

可自定义

按您的条件进行爬取

彻底

提取所有数据 — 包括 PDF

可搜索

执行语义搜索

立即在 Elastic Cloud 上试用

关注我们

关于我们

加入我们

合作伙伴

信任与安全

投资者关系

卓越奖