Google Cloud Storage 连接器
编辑Google Cloud Storage 连接器
编辑Elastic Google Cloud Storage 连接器是用于 Google Cloud Storage 数据源的连接器。
Elastic 托管连接器参考
编辑查看Elastic 托管连接器参考
可用性和先决条件
编辑此连接器自8.12.0起在 Elastic Cloud 中原生可用。要在 Elastic Cloud 中使用此连接器,请满足所有托管连接器要求。
使用
编辑Google Cloud Storage 服务帐户必须具有(至少)以下范围和角色
-
resourcemanager.projects.get
-
serviceusage.services.use
-
storage.buckets.list
-
storage.objects.list
-
storage.objects.get
Google Cloud Storage 服务帐户凭据存储在 JSON 文件中。
配置
编辑需要以下配置字段来设置连接器
- 存储桶
- 要索引的存储桶列表。
*
将索引所有存储桶。 - Google Cloud 服务帐户 JSON
- 从 Google Cloud Storage 生成的服务帐户凭据(JSON 字符串)。有关更多信息,请参阅Google Cloud 文档。
文档和同步
编辑连接器将提取服务帐户有权访问的所有存储桶和路径。
不会提取Owner
字段,因为read_only
范围不允许连接器提取 IAM 信息。
- 不会提取大于 10 MB 的文件的内容。(自托管连接器可以使用自托管本地提取服务来处理更大的二进制文件。)
- 权限不会同步。索引到 Elastic 部署的所有文档对于可以访问该 Elastic 部署的所有用户都是可见的。
同步类型
编辑默认情况下,所有连接器都支持完全同步。
此连接器还支持增量同步。
同步规则
编辑基本同步规则对于所有连接器都是相同的,并且默认可用。
此连接器的当前版本中不提供高级同步规则。目前,过滤由提取管道控制。
内容提取
编辑请参阅内容提取。
$ make ftest NAME=google_cloud_storage
为了更快地测试,请添加DATA_SIZE=small
标志
make ftest NAME=google_cloud_storage DATA_SIZE=small
已知问题
编辑此连接器目前没有已知问题。
故障排除
编辑请参阅故障排除。
安全性
编辑请参阅安全性。
框架和源代码
编辑此连接器是使用Elastic 连接器框架构建的。
查看此连接器的源代码(分支8.17,与 Elastic 8.17 兼容)。
自托管连接器参考
编辑查看自托管连接器参考
可用性和先决条件
编辑此连接器可用作自托管的自托管连接器。此自托管连接器与 Elastic 版本 8.6.0+ 兼容。要使用此连接器,请满足所有自托管连接器要求。
使用
编辑Google Cloud Storage 服务帐户必须具有(至少)以下范围和角色
-
resourcemanager.projects.get
-
serviceusage.services.use
-
storage.buckets.list
-
storage.objects.list
-
storage.objects.get
Google Cloud Storage 服务帐户凭据存储在 JSON 文件中。
配置
编辑需要以下配置字段来设置连接器
-
buckets
- 要索引的存储桶列表。
*
将索引所有存储桶。 -
service_account_credentials
- 从 Google Cloud Storage 生成的服务帐户凭据(JSON 字符串)。有关更多信息,请参阅Google Cloud 文档。
-
retry_count
- 在对 Google Cloud Storage 的调用失败后重试的次数。默认值为
3
。
使用 Docker 部署
编辑您可以使用 Docker 将 Google Cloud Storage 连接器部署为自托管连接器。请按照以下说明进行操作。
步骤 1:下载示例配置文件
下载示例配置文件。您可以手动下载它,也可以运行以下命令
curl https://raw.githubusercontent.com/elastic/connectors/main/config.yml.example --output ~/connectors-config/config.yml
如果您的目录名称不同,或者您想使用不同的配置文件名,请记住更新--output
参数值。
步骤 2:更新自托管连接器的配置文件
使用以下设置更新配置文件以匹配您的环境
-
elasticsearch.host
-
elasticsearch.api_key
-
connectors
如果您针对 Docker 化的 Elasticsearch 和 Kibana 版本运行连接器服务,则您的配置文件将如下所示
# When connecting to your cloud deployment you should edit the host value elasticsearch.host: http://host.docker.internal:9200 elasticsearch.api_key: <ELASTICSEARCH_API_KEY> connectors: - connector_id: <CONNECTOR_ID_FROM_KIBANA> service_type: google_cloud_storage api_key: <CONNECTOR_API_KEY_FROM_KIBANA> # Optional. If not provided, the connector will use the elasticsearch.api_key instead
使用elasticsearch.api_key
是推荐的身份验证方法。但是,您也可以使用elasticsearch.username
和elasticsearch.password
来使用您的 Elasticsearch 实例进行身份验证。
注意:您可以通过简单地取消注释配置文件中的特定设置并修改它们的值来更改其他默认配置。
步骤 3:运行 Docker 镜像
使用以下命令运行带有连接器服务的 Docker 镜像
docker run \ -v ~/connectors-config:/config \ --network "elastic" \ --tty \ --rm \ docker.elastic.co/enterprise-search/elastic-connectors:8.17.0.0 \ /app/bin/elastic-ingest \ -c /config/config.yml
有关更多详细信息,请参阅elastic/connectors
存储库中的DOCKER.md
。
在官方注册表中查找所有可用的 Docker 镜像。
我们还提供使用 Docker Compose 的快速入门自托管选项,因此您可以一次启动所有必需的服务:Elasticsearch、Kibana 和连接器服务。有关更多信息,请参阅elastic/connectors
存储库中的此 README。
文档和同步
编辑连接器将提取服务帐户有权访问的所有存储桶和路径。
不会提取Owner
字段,因为read_only
范围不允许连接器提取 IAM 信息。
- 默认情况下,不会提取大于 10 MB 的文件的内容。您可以使用自托管本地提取服务来处理更大的二进制文件。
- 权限不会同步。索引到 Elastic 部署的所有文档对于可以访问该 Elastic 部署的所有用户都是可见的。
同步类型
编辑默认情况下,所有连接器都支持完全同步。
此连接器还支持增量同步。
同步规则
编辑基本同步规则对于所有连接器都是相同的,并且默认可用。
此连接器的当前版本中不提供高级同步规则。目前,过滤由提取管道控制。
内容提取
编辑请参阅内容提取。
端到端测试
编辑连接器框架使操作员能够针对真实数据源运行功能测试。有关更多详细信息,请参阅连接器测试。
要对 Google Cloud Storage 连接器执行 E2E 测试,请运行以下命令
$ make ftest NAME=google_cloud_storage
为了更快地测试,请添加DATA_SIZE=small
标志
make ftest NAME=google_cloud_storage DATA_SIZE=small
已知问题
编辑此连接器目前没有已知问题。
故障排除
编辑请参阅故障排除。
安全性
编辑请参阅安全性。
框架和源代码
编辑此连接器是使用Elastic 连接器框架构建的。
查看此连接器的源代码(分支8.17,与 Elastic 8.17 兼容)。