使用开放代码进行控制
自定义 Elastic 开放式网络爬虫(Open Crawler)以满足您的需求。在处理大型文档、运行转换以及以您所需的格式检索数据的同时,检查、修改和贡献您的项目。
灵活且快速:Open Crawler 的优势
受益于不受限制的索引命名,以及在爬取之前使用自定义映射的能力。通过将爬取结果批量索引到 Elasticsearch 中,而不是一次索引一个网页,来提高性能。
轻松管理部署
使用简单的 CLI 命令以编程方式管理您的开放式 Web 爬虫。使用 Terraform 或 Puppet 轻松扩展部署,并根据需要启动或关闭。消除不必要的依赖关系,简化管理。将其部署在任何地方,包括无服务器环境,并使用小型、简单的工具轻松连接。