什么是大型语言模型 (LLM)?

大型语言模型定义

大型语言模型 (LLM) 是一种深度学习算法,可以执行各种 自然语言处理 (NLP) 任务。大型语言模型使用 Transformer 模型,并使用海量数据集进行训练——因此规模很大。这使它们能够识别、翻译、预测或生成文本或其他内容。

大型语言模型也被称为 神经网络 (NN),这是一种受人脑启发的计算系统。这些神经网络使用分层节点网络工作,就像神经元一样。

除了向人工智能 (AI) 应用程序教授人类语言外,大型语言模型还可以接受训练以执行各种任务,例如理解蛋白质结构、编写软件代码等等。与人脑一样,大型语言模型必须经过预训练,然后进行微调,以便能够解决文本分类、问答、文档摘要和文本生成问题。它们的解决问题的能力可以应用于医疗保健、金融和娱乐等领域,在这些领域中,大型语言模型服务于各种 NLP 应用程序,例如翻译、聊天机器人、AI 助手等等。

大型语言模型还具有大量的参数,这些参数类似于模型在从训练中学习时收集的记忆。可以将这些参数视为模型的知识库。

观看此视频,深入了解 LLM。


那么,什么是 Transformer 模型?

Transformer 模型是大型语言模型最常见的架构。它由编码器和解码器组成。Transformer 模型通过对输入进行标记化来处理数据,然后同时进行数学方程式运算以发现标记之间的关系。这使得计算机能够看到人类在收到相同查询时会看到的模式。

Transformer 模型使用自注意力机制工作,这使得模型能够比长短期记忆模型等传统模型更快地学习。自注意力机制使 Transformer 模型能够考虑序列的不同部分或句子的整个上下文来生成预测。

相关内容: 将 Transformer 应用于您的搜索应用程序


大型语言模型的关键组件

大型语言模型由多个神经网络层组成。循环层、前馈层、嵌入层和注意力层协同工作,以处理输入文本并生成输出内容。

嵌入层从输入文本创建 嵌入。大型语言模型的这一部分捕获输入的语义和句法含义,以便模型能够理解上下文。

大型语言模型的前馈层 (FFN)由多个全连接层组成,这些层对输入嵌入进行转换。在这样做的过程中,这些层使模型能够收集更高级别的抽象——也就是说,理解用户使用文本输入的意图。

循环层按顺序解释输入文本中的单词。它捕获句子中单词之间的关系。

注意力机制使语言模型能够专注于与手头任务相关的输入文本的单个部分。该层允许模型生成最准确的输出。

大型语言模型主要有三种

  • 通用或原始语言模型根据训练数据中的语言预测下一个单词。这些语言模型执行信息检索任务。
  • 指令微调语言模型经过训练,可以预测对输入中给出的指令的响应。这使它们能够执行 情感分析,或生成文本或代码。
  • 对话微调语言模型经过训练,可以通过预测下一个响应来进行对话。想想聊天机器人或对话式 AI。

大型语言模型和生成式 AI 之间有什么区别?

生成式 AI是一个总称,指的是能够生成内容的人工智能模型。生成式 AI 可以生成文本、代码、图像、视频和音乐。生成式 AI 的例子包括 Midjourney、DALL-E 和 ChatGPT。

大型语言模型是一种生成式 AI,经过文本训练并生成文本内容。ChatGPT 是生成式文本 AI 的一个流行示例。

所有大型语言模型都是生成式 AI1


大型语言模型是如何工作的?

大型语言模型基于 Transformer 模型,其工作原理是接收输入、对其进行编码,然后对其进行解码以生成输出预测。但在大型语言模型可以接收文本输入并生成输出预测之前,它需要进行训练,以便能够实现一般功能,还需要进行微调,使其能够执行特定任务。

训练:大型语言模型使用来自维基百科、GitHub 或其他网站的大型文本数据集进行预训练。这些数据集包含数万亿个单词,其质量将影响语言模型的性能。在此阶段,大型语言模型进行无监督学习,这意味着它会在没有特定指令的情况下处理提供给它的数据集。在此过程中,LLM 的 AI 算法可以学习单词的含义以及单词之间的关系。它还学习根据上下文区分单词。例如,它将学习理解“right”是指“正确”还是“left”的反义词。

微调:为了使大型语言模型执行特定任务(例如翻译),必须针对该特定活动对其进行微调。微调可以优化特定任务的性能。

提示微调的功能与微调类似,它通过少样本提示或零样本提示训练模型执行特定任务。提示是向 LLM 发出的指令。少样本提示通过使用示例来教导模型预测输出。例如,在此情感分析练习中,少样本提示如下所示

Customer review: This plant is so beautiful!
Customer sentiment: positive

Customer review: This plant is so hideous!
Customer sentiment: negative

语言模型将通过“hideous”的语义,以及因为提供了一个相反的例子,来理解第二个例子中的客户情绪是“负面的”。

或者,零样本提示不使用示例来教导语言模型如何响应输入。相反,它将问题表述为“‘This plant is so hideous’中的情绪是……”。它清楚地表明了语言模型应该执行的任务,但没有提供解决问题的示例。


大型语言模型用例

大型语言模型可用于多种用途

  • 信息检索: 想想必应或谷歌。每当您使用它们的搜索功能时,您都在依赖大型语言模型来生成对查询的响应信息。它能够检索信息,然后以对话的方式总结和传达答案。
  • 情感分析作为自然语言处理的应用,大型语言模型使公司能够分析文本数据的情感。
  • 文本生成:大型语言模型是生成式 AI(如 ChatGPT)背后的推手,可以根据输入生成文本。它们可以在收到提示时生成文本示例。例如:“以艾米莉·狄金森的风格为我写一首关于棕榈树的诗。”
  • 代码生成:与文本生成一样,代码生成也是生成式 AI 的一种应用。LLM 能够理解模式,这使它们能够生成代码。
  • 聊天机器人和对话式 AI:大型语言模型使客户服务聊天机器人或对话式 AI 能够与客户互动、解释其查询或响应的含义,并依次回应。

除了这些用例之外,大型语言模型还可以完成句子、回答问题和总结文本。

凭借如此广泛的应用,大型语言应用可以在众多领域中找到

  • 科技:从使搜索引擎能够响应查询到协助开发人员编写代码,大型语言模型的应用无处不在。
  • 医疗保健和科学:大型语言模型能够理解蛋白质、分子、DNA 和 RNA。这种能力使 LLM 能够协助开发疫苗、寻找疾病的治疗方法以及改进预防性护理药物。LLM 还可用作医疗聊天机器人,以执行患者入院或基本诊断。
  • 客户服务:LLM 在各行各业中用于客户服务目的,例如聊天机器人或对话式 AI。
  • 营销:营销团队可以使用 LLM 执行情感分析,以快速生成活动创意或文本作为推销示例等等。
  • 法律:从搜索海量文本数据集到生成法律术语,大型语言模型可以为律师、律师助理和法律人员提供帮助。
  • 银行:LLM 可以支持信用卡公司检测欺诈行为。

在企业中开始使用生成式 AI。观看此网络研讨会,探索生成式 AI 在您的企业环境中的挑战和机遇。


大型语言模型的优势

大型语言模型具有广泛的应用范围,对于解决问题非常有益,因为它们以清晰、对话式的风格提供信息,易于用户理解。

广泛的应用集:它们可用于语言翻译、句子完成、情感分析、问题解答、数学方程式等等。

不断改进:大型语言模型的性能在不断提高,因为随着更多数据和参数的添加,它会不断增长。换句话说,它学得越多,就越好。更重要的是,大型语言模型可以表现出所谓的“上下文学习”。一旦对 LLM 进行了预训练,少样本提示就可以使模型从提示中学习,而无需任何额外的参数。通过这种方式,它可以不断学习。

它们学习速度快:在展示上下文学习时,大型语言模型的学习速度很快,因为它们不需要额外的权重、资源和参数来进行训练。从不需要太多示例的意义上来说,它很快。


大型语言模型的局限性和挑战

大型语言模型可能会让我们觉得它们理解含义并且可以准确地对其做出反应。然而,它们仍然是一种技术工具,因此,大型语言模型面临着各种挑战。

幻觉:当 LLM 生成错误的输出或与用户意图不符的输出时,就会出现幻觉。例如,声称自己是人,有情感,或者爱上了用户。因为大型语言模型会预测下一个语法正确的单词或短语,所以它们无法完全理解人类的含义。结果有时可能就是所谓的“幻觉”。

安全:如果管理或监控不当,大型语言模型会带来重大的安全风险。它们可能会泄露人们的私人信息,参与网络钓鱼诈骗,并产生垃圾邮件。怀有恶意的人可能会根据自己的意识形态或偏见对 AI 进行重新编程,并助长错误信息的传播。其后果在全球范围内可能是灾难性的。

偏见:用于训练语言模型的数据将影响给定模型生成的输出。因此,如果数据代表单一的人口统计数据或缺乏多样性,则大型语言模型生成的输出也将缺乏多样性。

同意:大型语言模型是在数万亿个数据集上训练的,其中一些数据集可能未经同意获得。在从互联网上抓取数据时,众所周知,大型语言模型会忽略版权许可、剽窃书面内容以及在未经原始所有者或艺术家许可的情况下重新利用专有内容。当它产生结果时,无法跟踪数据来源,并且通常不会归功于创作者,这可能会使用户面临侵犯版权的问题。

它们还可能会抓取个人数据,例如照片描述中的主题或摄影师姓名,这可能会损害隐私。2 LLM 已经遇到了诉讼,包括 Getty Images3 提起的一起著名诉讼,原因是侵犯了知识产权。

扩展:扩展和维护大型语言模型可能很困难,而且耗时耗资源。

部署:部署大型语言模型需要深度学习、Transformer 模型、分布式软件和硬件以及全面的技术专长。


大型语言模型的未来发展

ChatGPT 的到来使大型语言模型走到了前台,并引发了人们对未来可能是什么样子的猜测和激烈辩论。

随着大型语言模型不断发展壮大并提高对自然语言的掌握,人们对其发展对就业市场的影响感到非常担忧。很明显,大型语言模型将发展出取代某些领域工人的能力。

如果使用得当,大型语言模型能够提高生产力和流程效率,但这对其在人类社会中的使用提出了伦理问题。

相关内容:2024 年开源 LLM 指南


Elasticsearch Relevance Engine 简介

为了解决 LLM 当前的局限性,Elasticsearch Relevance Engine (ESRE) 是一种为人工智能驱动的搜索应用程序构建的相关性引擎。借助 ESRE,开发人员能够构建自己的语义搜索应用程序,利用自己的 Transformer 模型,并结合NLP生成式 AI 来增强客户的搜索体验。

使用 Elasticsearch Relevance Engine 增强您的相关性

Diagram illustrating how Elasticsearch uses a large language model to deliver search query results.


探索更多大型语言模型资源


您接下来应该做什么

无论您何时准备就绪... 我们都可以通过以下 4 种方式帮助您将数据引入您的业务

  1. 开始免费试用,了解 Elastic 如何帮助您的业务。
  2. 浏览我们的解决方案,了解 Elasticsearch 平台的工作原理以及它们如何满足您的需求。
  3. 了解如何设置您的 Elasticsearch 集群,并通过我们 45 分钟的网络研讨会开始数据收集和提取。
  4. 与您认识的喜欢阅读本文的人分享本文。 通过电子邮件、LinkedIn、Twitter 或 Facebook 与他们分享。

脚注

1 Myer, Mike. “生成式 AI 和大型语言模型是同一回事吗?” Quiq,2023 年 5 月 12 日,quiq.com/blog/generative-ai-vs-large-language-models/。

2 Sheng, Ellen. “在生成式 AI 法律蛮荒西部,法庭斗争才刚刚开始,”CNBC,2023 年 4 月 3 日,https://www.cnbc.com/2023/04/03/in-generative-ai-legal-wild-west-lawsuits-are-just-getting-started.html(访问时间:2023 年 6 月 29 日)

3 Getty Images 声明,Getty Images,2023 年 1 月 17 日 https://newsroom.gettyimages.com/en/getty-images/getty-images-statement(访问时间:2023 年 6 月 29 日)