什么是机器学习?

机器学习定义

机器学习 (ML) 是人工智能 (AI) 的一个分支,专注于使用数据和算法来模仿人类学习的方式,随着时间的推移逐渐提高准确性。 它最早由计算机科学家和 AI 创新者 Arthur Samuel 在 1950 年代定义为“赋予计算机学习能力,而无需明确编程的领域”。

机器学习涉及将大量数据输入计算机算法,以便它们可以学习识别该数据集中的模式和关系。然后,算法开始根据其分析结果做出自己的预测或决策。随着算法接收新数据,它们会继续完善其选择并提高其性能,就像一个人通过练习在某项活动中变得更熟练一样。

机器学习的四种类型是什么?

机器学习的四种类型是监督式机器学习无监督式机器学习半监督式学习强化学习

监督式机器学习是最常见的机器学习类型。在监督式学习模型中,算法从标记的训练数据集中学习,并随着时间的推移提高其准确性。它旨在构建一个模型,当它接收到以前从未见过的新数据时,可以正确预测目标变量。例如,人类标记并输入玫瑰和其他花的图像。然后,算法可以正确识别玫瑰,当它接收到一张新的、未标记的玫瑰图像时。

无监督式机器学习是指算法在未标记且没有目标变量的数据中搜索模式。目标是找到数据中人类可能尚未识别的模式和关系,例如检测日志、跟踪和指标中的异常,以发现系统问题和安全威胁。

半监督式学习是监督式和无监督式机器学习的混合体。在半监督式学习中,算法在标记数据和未标记数据上进行训练。它首先从一小部分标记数据中学习,根据可用信息做出预测或决策。然后,它使用更大的未标记数据集通过查找数据中的模式和关系来完善其预测或决策。

强化学习是指算法通过试错学习,通过对其行为的奖励或惩罚形式的反馈来学习。一些例子包括:训练 AI 代理玩电子游戏,它在升级时获得正向奖励,在失败时获得惩罚;优化供应链,代理因最小化成本和最大化交付速度而获得奖励;或推荐系统,代理推荐产品或内容,并因购买和点击而获得奖励。

机器学习是如何工作的?

机器学习可以以不同的方式工作。您可以将训练好的机器学习模型应用于新数据,或者可以从头开始训练新的模型。

将训练好的机器学习模型应用于新数据通常是一个更快、资源消耗更少的过程。您不需要通过训练来开发参数,而是使用模型的参数对输入数据进行预测,这个过程称为推理。您也不需要评估其性能,因为它在训练阶段已经过评估。但是,它确实要求您仔细准备输入数据,以确保它与用于训练模型的数据格式相同。

训练新的机器学习模型涉及以下步骤

数据收集

首先选择您的数据集。数据可以来自各种来源,例如系统日志、指标和跟踪。除了日志和指标之外,还有几种其他类型的时序数据在机器学习训练中很重要,包括

  • 金融市场数据,例如股票价格、利率和外汇汇率。这些数据通常用于构建用于交易和投资目的的预测模型。
  • 交通时序数据,例如交通量、速度和行驶时间。这可以用于优化路线和减少交通拥堵。
  • 产品使用数据,例如网站流量和社交媒体参与度。这可以帮助公司了解客户行为并确定改进领域。

无论您使用什么数据,它都应该与您试图解决的问题相关,并且应该代表您想要进行预测或决策的人群。

数据预处理
收集完数据后,您需要对其进行预处理,使其可供机器学习算法使用。这有时涉及对数据进行标记,或为数据集中的每个数据点分配一个特定的类别或值,这使机器学习模型能够学习模式并进行预测。

此外,它可能涉及删除缺失值,将时间序列数据转换为更紧凑的格式(通过应用聚合),以及对数据进行缩放以确保所有特征具有相似的范围。拥有大量标记的训练数据是深度神经网络(如大型语言模型 (LLM))的要求。对于经典的监督模型,您不需要处理那么多。

特征选择
某些方法要求您选择模型将使用的特征。本质上,您必须确定与您试图解决的问题最相关的变量或属性。相关性是识别特征的一种基本方法。为了进一步优化,许多 ML 框架都提供并支持自动特征选择方法。

模型选择
现在您已经选择了特征,您需要选择一个适合您试图解决的问题的机器学习模型。一些选择包括回归模型、决策树和神经网络。(参见下面的“机器学习技术和算法”。)

训练
选择模型后,您需要使用收集和预处理的数据对其进行训练。训练是算法学习识别数据中的模式和关系并将它们编码到模型参数中的过程。为了获得最佳性能,训练是一个迭代过程。这可能包括调整模型超参数以及改进数据处理和特征选择。

测试
现在模型已经过训练,您需要在它以前从未见过的新数据上对其进行测试,并将它的性能与其他模型进行比较。您选择性能最佳的模型,并在单独的测试数据上评估其性能。只有以前未使用的數據才能为您提供模型部署后可能表现如何的良好估计。

模型部署
一旦您对模型的性能感到满意,您就可以将其部署到生产环境中,在那里它可以实时进行预测或决策。这可能涉及将模型与其他系统或软件应用程序集成。与流行的云计算提供商集成的 ML 框架使模型部署到云变得非常容易。

监控和更新
模型部署后,您需要监控其性能并定期更新它,因为新数据变得可用或您试图解决的问题随着时间的推移而演变。这可能意味着使用新数据重新训练模型、调整其参数或完全选择不同的 ML 算法。

为什么机器学习很重要?

机器学习很重要,因为它学习使用示例执行复杂的任务,而无需编程专门的算法。与传统的算法方法相比,机器学习使您能够实现更多自动化,改善客户体验,并创建以前不可行的创新应用程序。而且,机器学习模型可以在使用过程中迭代地改进自身!示例包括

  • 预测趋势以改进业务决策
  • 个性化推荐,从而提高收入和客户满意度
  • 自动化复杂应用程序和 IT 基础设施的监控
  • 识别垃圾邮件和发现安全漏洞

机器学习技术和算法

有许多可用的机器学习技术和算法。您选择的方法将取决于您试图解决的问题和数据的特征。以下是其中一些更常见方法的简要概述:当目标是预测连续变量时,使用线性回归。

线性回归假设输入变量和目标变量之间存在线性关系。例如,将房价预测为平方英尺、位置、卧室数量和其他特征的线性组合。

逻辑回归用于二元分类问题,其中目标是预测是/否结果。逻辑回归根据输入变量的线性模型估计目标变量的概率。例如,根据申请人的信用评分和其他财务数据预测贷款申请是否会获得批准。

决策树遵循树状模型来将决策映射到可能的结果。每个决策(规则)都代表对一个输入变量的测试,并且可以按照树状模型依次应用多个规则。它使用每个树节点上最重要的特征将数据分成子集。例如,决策树可用于根据客户的人口统计特征和兴趣来识别营销活动的潜在客户。

随机森林组合多个决策树以提高预测精度。每个决策树都使用训练数据的随机子集和输入变量的子集进行训练。随机森林比单个决策树更准确,并且能够更好地处理复杂数据集或缺失数据,但它们可能变得相当大,在推理时需要更多内存。

增强决策树训练一系列决策树,每个决策树都比前一个决策树有所改进。增强过程会获取先前决策树错误分类的数据点,并重新训练一个新的决策树以改进对这些先前错误分类点的分类。流行的 XGBoost Python 包实现了该算法。

支持向量机努力找到一个超平面,该超平面最能将一类数据点与另一类数据点分开。它通过最小化类之间的“边距”来实现。支持向量指的是识别分离超平面的位置的少数观察结果,该超平面由三个点定义。标准 SVM 算法仅适用于二元分类。多类问题被简化为一系列二元问题。

神经网络受到人脑结构和功能的启发。它们由相互连接的节点层组成,这些节点可以通过调整它们之间连接的强度来学习识别数据中的模式。

聚类算法用于根据数据点的相似性将它们分组到聚类中。它们可用于客户细分和异常检测等任务。它对图像分割和处理特别有用。

机器学习的优势是什么?

机器学习的优势很多。它可以帮助您的团队在以下类别中实现更高水平的性能

  1. 自动化:对于人类来说具有挑战性的认知任务(由于重复性或客观难度)可以通过机器学习实现自动化。例如,监控复杂的网络系统、识别复杂系统中的可疑活动以及预测设备何时需要维护。
  2. 客户体验:机器学习模型提供的智能可以提升用户体验。对于搜索驱动的应用程序,捕获意图和偏好使您能够提供更相关和个性化的结果。用户可以搜索并找到他们想要的东西。
  3. 创新:机器学习解决了使用专用算法无法解决的复杂问题。例如,搜索非结构化数据(包括图像或声音)、优化交通模式并改善公共交通系统以及诊断健康状况。

了解机器学习如何将搜索提升到新的水平

机器学习用例

以下是一些机器学习子类别及其用例

情感分析是使用自然语言处理分析文本数据并确定其整体情感是正面、负面还是中性的过程。对于寻求客户反馈的企业来说,它非常有用,因为它可以分析各种数据源(例如 Twitter 上的推文、Facebook 评论和产品评论)以衡量客户的意见和满意度水平。

异常检测是使用算法识别数据中可能表明问题的异常模式或异常值的过程。异常检测用于监控 IT 基础设施、在线应用程序和网络,以及识别可能表明潜在安全漏洞或可能导致网络中断的活动。异常检测还用于检测欺诈性银行交易。了解有关 AIOps 的更多信息。

图像识别分析图像并识别图像中的物体、面部或其他特征。除了常用的工具(如 Google 图片搜索)之外,它还有各种应用。例如,它可用于农业中监控作物健康状况并识别害虫或疾病。自动驾驶汽车、医学影像、监控系统和增强现实游戏都使用图像识别。

预测分析分析历史数据并识别可用于预测未来事件或趋势的模式。这可以帮助企业优化运营、预测需求或识别潜在风险或机会。一些示例包括产品需求预测、交通延误以及制造设备可以安全运行多长时间。

了解有关预测性维护的更多信息

Elastic machine learning capabilities and its use cases

机器学习的缺点是什么?

机器学习的缺点包括

  • 依赖于高质量的训练数据:如果数据存在偏差或不完整,模型也可能存在偏差或不准确。
  • 成本:训练模型和预处理数据可能需要很高的成本。话虽如此,它仍然低于为完成相同任务而编程专用算法的更大成本,并且很可能不会那么准确。
  • 缺乏可解释性:大多数机器学习模型(如深度神经网络)缺乏其操作方式的透明度。通常被称为“黑盒”模型,这使得理解模型如何做出决策变得具有挑战性。
  • 专业知识:有许多类型的模型可供选择。如果没有专门的数据科学团队,组织可能会在超参数调整方面遇到困难,以实现最佳性能。训练的复杂性,尤其是对于转换器、嵌入和大型语言模型,也可能是采用障碍。

机器学习最佳实践

机器学习的一些最佳实践包括

  • 确保您的数据干净、组织良好且完整。
  • 选择适合您当前问题和数据的正确方法。
  • 使用技术来防止过度拟合,即模型在训练数据上表现良好,但在新数据上表现不佳。
  • 通过在完全看不见的数据上测试模型来评估模型的性能。您在开发和优化模型时测量的性能不能很好地预测它在生产中的表现。
  • 调整模型的设置以找到最佳性能——称为超参数调整。
  • 除了标准模型精度之外,选择指标来评估模型在实际应用和业务问题背景下的性能。
  • 维护详细记录以确保其他人能够理解和复制您的工作。
  • 保持模型更新,以确保它在处理新数据时继续保持良好的性能。

开始使用 Elastic 机器学习

Elastic 机器学习继承了我们 可扩展的 Elasticsearch 平台 的优势。它与 可观察性安全搜索解决方案 集成,并提供开箱即用的价值,这些解决方案使用模型,这些模型需要更少的训练即可启动和运行。借助 Elastic,您可以收集新的见解,为您的内部用户和客户提供革命性的体验,所有这些都可以在规模上保持可靠性。

了解如何

从数百个来源摄取数据,并在您的数据驻留的位置应用机器学习和自然语言处理,并利用内置集成。

以最适合您的方式应用机器学习。根据您的用例,从预配置模型中获得开箱即用的价值:用于自动监控和威胁狩猎的预配置模型、用于实现 NLP 任务(如情感分析或问答交互)的预训练模型和转换器,以及 Elastic Learned Sparse Encoder™ 用于一键实现语义搜索。或者,如果您的用例需要优化和自定义模型,请使用您的数据训练监督模型。Elastic 为您提供了灵活性,可以应用适合您的用例并匹配您的专业知识水平的方法!

机器学习术语词汇表

  • 人工智能 是机器执行通常需要人类智能的任务的能力,例如学习、推理、解决问题和决策。
  • 神经网络 是一种机器学习算法,它由相互连接的节点层组成,这些节点层处理和传输信息。它受到人脑结构和功能的启发。
  • 深度学习 是神经网络的一个子领域,它具有许多层,使其能够学习比其他机器学习算法更复杂的关联。
  • 自然语言处理 (NLP) 是人工智能的一个子领域,专注于使机器能够理解、解释和生成人类语言。
  • 向量搜索 是一种搜索算法,它使用向量嵌入和 k 近邻搜索从大型数据集中检索相关信息。