创建推理 API
编辑创建推理 API
编辑创建一个推理端点来执行推理任务。
- 推理 API 使您能够使用某些服务,例如内置的机器学习模型(ELSER、E5)、通过 Eland 上传的模型、Cohere、OpenAI、Mistral、Azure OpenAI、Google AI Studio、Google Vertex AI、Anthropic、Watsonx.ai 或 Hugging Face。
- 对于内置模型和通过 Eland 上传的模型,推理 API 提供了一种使用和管理已训练模型的替代方法。但是,如果您不打算使用推理 API 来使用这些模型,或者您想使用非 NLP 模型,请使用机器学习训练模型 API。
请求
编辑PUT /_inference/<task_type>/<inference_id>
先决条件
编辑- 需要
manage_inference
集群权限(内置的inference_admin
角色授予此权限)
路径参数
编辑-
<inference_id>
- (必需,字符串)推理端点的唯一标识符。
-
<task_type>
-
(必需,字符串)模型将执行的推理任务类型。
请参阅API 描述部分中的服务列表,了解可用的任务类型。
描述
编辑创建推理 API 使您能够创建推理端点并配置机器学习模型以执行特定的推理任务。
- 创建推理端点时,如果关联的机器学习模型尚未运行,则会自动部署该模型。
- 创建端点后,请等待模型部署完成再使用它。您可以使用获取已训练模型统计 API 来验证部署状态。在响应中,查找
"state": "fully_allocated"
并确保"allocation_count"
与"target_allocation_count"
匹配。 - 除非必要,否则请避免为同一模型创建多个端点,因为每个端点都会消耗大量资源。
以下服务可通过推理 API 获得。您可以在服务名称旁边找到可用的任务类型。单击链接查看服务的配置详细信息
-
阿里云 AI 搜索 (
completion
,rerank
,sparse_embedding
,text_embedding
) -
Amazon Bedrock (
completion
,text_embedding
) -
Anthropic (
completion
) -
Azure AI Studio (
completion
,text_embedding
) -
Azure OpenAI (
completion
,text_embedding
) -
Cohere (
completion
,rerank
,text_embedding
) -
Elasticsearch (
rerank
,sparse_embedding
,text_embedding
- 此服务用于内置模型和通过 Eland 上传的模型) -
ELSER (
sparse_embedding
) -
Google AI Studio (
completion
,text_embedding
) -
Google Vertex AI (
rerank
,text_embedding
) -
Hugging Face (
text_embedding
) -
Mistral (
text_embedding
) -
OpenAI (
completion
,text_embedding
) -
Watsonx 推理服务 (
text_embedding
)
Elasticsearch 和 ELSER 服务在 Elasticsearch 集群中的机器学习节点上运行。其余服务连接到外部提供商。
自适应分配
编辑自适应分配允许推理服务根据当前负载动态调整模型分配的数量。
启用自适应分配后
- 当负载增加时,分配数量会自动增加。
- 当负载减少时,分配会缩小到最小值 0,从而节省资源。
有关自适应分配和资源的更多信息,请参阅已训练模型自动缩放文档。