› › ›

创建推理 API

创建一个推理端点来执行推理任务。

推理 API 使您能够使用某些服务，例如内置的机器学习模型（ELSER、E5）、通过 Eland 上传的模型、Cohere、OpenAI、Mistral、Azure OpenAI、Google AI Studio、Google Vertex AI、Anthropic、Watsonx.ai 或 Hugging Face。
对于内置模型和通过 Eland 上传的模型，推理 API 提供了一种使用和管理已训练模型的替代方法。但是，如果您不打算使用推理 API 来使用这些模型，或者您想使用非 NLP 模型，请使用机器学习训练模型 API。

PUT /_inference/<task_type>/<inference_id>

<inference_id>

（必需，字符串）推理端点的唯一标识符。

<task_type>

（必需，字符串）模型将执行的推理任务类型。

请参阅API 描述部分中的服务列表，了解可用的任务类型。

创建推理 API 使您能够创建推理端点并配置机器学习模型以执行特定的推理任务。

创建推理端点时，如果关联的机器学习模型尚未运行，则会自动部署该模型。
创建端点后，请等待模型部署完成再使用它。您可以使用获取已训练模型统计 API 来验证部署状态。在响应中，查找 "state": "fully_allocated" 并确保 "allocation_count" 与 "target_allocation_count" 匹配。
除非必要，否则请避免为同一模型创建多个端点，因为每个端点都会消耗大量资源。

以下服务可通过推理 API 获得。您可以在服务名称旁边找到可用的任务类型。单击链接查看服务的配置详细信息

阿里云 AI 搜索 (completion, rerank, sparse_embedding, text_embedding)
Amazon Bedrock (completion, text_embedding)
Anthropic (completion)
Azure AI Studio (completion, text_embedding)
Azure OpenAI (completion, text_embedding)
Cohere (completion, rerank, text_embedding)
Elasticsearch (rerank, sparse_embedding, text_embedding - 此服务用于内置模型和通过 Eland 上传的模型)
ELSER (sparse_embedding)
Google AI Studio (completion, text_embedding)
Google Vertex AI (rerank, text_embedding)
Hugging Face (text_embedding)
Mistral (text_embedding)
OpenAI (completion, text_embedding)
Watsonx 推理服务 (text_embedding)

Elasticsearch 和 ELSER 服务在 Elasticsearch 集群中的机器学习节点上运行。其余服务连接到外部提供商。

自适应分配允许推理服务根据当前负载动态调整模型分配的数量。

启用自适应分配后

有关自适应分配和资源的更多信息，请参阅已训练模型自动缩放文档。