创建训练模型词汇表 API

编辑

创建训练模型词汇表。此操作仅支持自然语言处理 (NLP) 模型。

请求

编辑

PUT _ml/trained_models/<model_id>/vocabulary/

先决条件

编辑

需要 manage_ml 集群权限。此权限包含在 machine_learning_admin 内置角色中。

描述

编辑

词汇表存储在索引中,如训练模型定义的 inference_config.*.vocabulary 中所述。

路径参数

编辑
<model_id>
(必需,字符串) 训练模型的唯一标识符。

请求体

编辑
vocabulary
(数组) 模型词汇表。不能为空。
merges
(可选,数组) 字节对编码中使用的模型合并。合并必须是子标记对,以空格分隔,并按优先级排序。示例:["f o", "fo o"]。必须为 RoBERTa 和 BART 风格的模型提供。
scores
(可选,数组) sentence-piece 分词使用的词汇表值分数。必须与 vocabulary 的长度相同。对于像 XLMRoberta 和 T5 这样的 unigram sentence-piece 分词模型是必需的。

示例

编辑

以下示例演示如何为先前存储的训练模型配置创建模型词汇表。

PUT _ml/trained_models/elastic__distilbert-base-uncased-finetuned-conll03-english/vocabulary
{
  "vocabulary": [
    "[PAD]",
    "[unused0]",
    ...
  ]
}

API 返回以下结果

{
    "acknowledged": true
}