文本分类
编辑文本分类
编辑这些 NLP 任务使您能够识别文本的语言,并对非结构化输入文本进行分类或标记
语言识别
编辑语言识别模型在您的 Elasticsearch 集群中开箱即用。您可以在“内置模型”部分下的语言识别页面上找到该模型的文档。
文本分类
编辑文本分类将输入文本分配给最能描述该文本的多个类别之一。所使用的类别取决于模型和用于训练它的数据集。根据类别的数量,存在两种主要的分类类型:二元分类,其中类别的数量正好是两个;多类分类,其中类别的数量超过两个。
此任务可以帮助您分析文本中是否存在正面或负面情绪的标记,或者将文本分类到不同的主题中。例如,您可以使用训练好的模型执行情感分析,并确定以下文本是“正面”还是“负面”
{ docs: [{"text_field": "This was the best movie I’ve seen in the last decade!"}] } ...
同样,您可以使用训练好的模型执行多类分类,并确定以下文本是与“体育”、“商业”、“本地”还是“娱乐”相关的新闻主题
{ docs: [{"text_field": "The Blue Jays played their final game in Toronto last night and came out with a win over the Yankees, highlighting just how far the team has come this season."}] } ...
零样本文本分类
编辑零样本分类任务提供了在不针对特定类别集训练模型的情况下对文本进行分类的能力。相反,您可以在部署模型时或在推理时提供类别。它使用一个在大型数据集上训练过的模型,该模型已经获得了通用的语言理解能力,并询问模型您提供的标签与您的文本的匹配程度。
即使您没有足够的训练数据来训练文本分类模型,此任务也使您能够分析和分类您的输入文本。
例如,您可能希望执行多类分类,并确定新闻主题是否与“体育”、“商业”、“本地”或“娱乐”相关。但是,在这种情况下,该模型不是专门为新闻分类而训练的;相反,可能的标签与推理时的输入文本一起提供
{ docs: [{"text_field": "The S&P 500 gained a meager 12 points in the day’s trading. Trade volumes remain consistent with those of the past week while investors await word from the Fed about possible rate increases."}], "inference_config": { "zero_shot_classification": { "labels": ["SPORTS", "BUSINESS", "LOCAL", "ENTERTAINMENT"] } } }
该任务返回以下结果
... { "predicted_value": "BUSINESS" ... } ...
您可以使用相同的模型对不同的类别执行推理,例如
{ docs: [{"text_field": "Hello support team. I’m writing to inquire about the possibility of sending my broadband router in for repairs. The internet is really slow and the router keeps rebooting! It’s a big problem because I’m in the middle of binge-watching The Mandalorian!"}] "inference_config": { "zero_shot_classification": { "labels": ["urgent", "internet", "phone", "cable", "mobile", "tv"] } } }
该任务返回以下结果
... { "predicted_value": ["urgent", "internet", "tv"] ... } ...
由于您可以在执行推理时调整标签,因此这种类型的任务非常灵活。但是,如果您始终使用相同的标签,则最好使用微调的文本分类模型。