什么是搜索相关性?
搜索相关性定义
搜索相关性衡量搜索引擎提供的搜索结果与用户的查询和意图的匹配程度。搜索结果的质量可以通过显示的信息与用户的期望匹配的准确程度来确定。
提高搜索相关性和性能涉及语言分析、排名算法和上下文因素。这些可能包括用户行为分析、位置数据、受欢迎程度和搜索历史。搜索相关性是客户体验的一个重要因素,通过适当的平衡,可以优化搜索以满足企业及其用户的需求。
了解相关性对搜索引擎如此重要的原因,以及如何使用 Elasticsearch 实现最佳相关性排名能力。此视频重点介绍了构建现代搜索应用程序如何帮助最终用户实时找到相关结果。
搜索相关性算法
搜索相关性由评估、处理、检索和排名信息的复杂算法提供支持。搜索相关性算法解码关键字和意图的语义,评估来源的权威性,并解码诸如参与度、地理位置和个人偏好等信号。
常见的搜索相关算法包括
TF-IDF(词频-逆文档频率)用于评估关键词的重要性,奖励在目标文档中频繁出现但在其他文档中不频繁出现的词。
RankBrain是 Google 开发的一种 AI 驱动的算法,它使用机器学习来解释和处理查询,以更好地理解用户意图,而用户意图通常是细微或模糊的。
向量空间模型的工作原理是将文档和查询表示为维度空间中的向量,从而实现比较和排名。
潜在语义分析使用统计方法识别词语之间的潜在关系,以处理相关的词语和短语。
自然语言处理 (NLP) 是一种机器学习技术,它使搜索引擎能够更好地理解搜索中使用的自然语言的上下文和语义。
搜索相关性的关键因素
搜索相关性的关键因素包括从关键词密度到参与度指标等信号。搜索引擎抓取内容和链接,收集并索引数据,并将相关性分配给每个页面,根据大量标准对结果进行评分、排序和排名。然后,它们必须剖析关键词和语音的上下文,以提供搜索者实际要查找的内容。
搜索相关性的关键因素包括
- 文本分析和关键词相关性
将查询词与文章、页面、文档和产品列表的内容进行匹配的过程对于建立相关性至关重要。自然语言措辞、同义词、词语变体、拼写错误、区域拼写变体和语音拼写等复杂性使这项任务变得复杂。 - 内容质量
权威内容因其可信度和准确性的评估而往往排名更高。时效性也发挥着作用,较新的内容对于某些查询来说被认为更相关。 - 词项权重
在确定哪些关键词应优先考虑时,会为每个词项分配数值,这些数值对于结果的准确性至关重要。 - 用户意图
算法有助于确定用户的真正目标,既要处理明确的搜索查询,也要处理其背后的语义语境。 - 个性化和本地化
上下文相关性允许搜索引擎根据用户特定的因素(包括地理位置、语言、设备类型以及浏览和搜索历史记录)来定制结果。 - 用户参与度指标
点击率有助于衡量用户参与度。没有结果的搜索和/或没有点击的搜索可以提供关于用户对搜索结果满意度的洞察。
为什么搜索相关性很重要?
搜索相关性对于用户满意度至关重要。当用户能够快速有效地找到他们正在寻找的信息时,这会大大改善他们的体验。根据您的业务,这可能意味着更多的购物者转化为客户,更多的随意浏览者转化为定期读者或消费者,或者更多的团队成员能够完成任务并做出重要决策。
43% 的用户1 在浏览网站时会直接进入搜索栏,并且比非搜索用户转化为客户的可能性高出三倍。对于企业而言,搜索通常是与潜在客户或顾客互动的第一个接触点。因此,它对于建立用户信任、参与度和收入至关重要。在内部,简化相关信息的传递可以节省时间和精力。
糟糕的搜索相关性会导致挫败感,并可能导致用户放弃网站,转而在其他渠道上进行查询,并且一去不复返。对于在线零售商而言,这意味着会失去那些找不到他们正在寻找的产品的购物者。相关的结果转化为更高的转化率和增加的收入。在线零售商还可以受益于搜索驱动的电子商务体验,这些体验可以增加购物车规模,例如“购物者也购买了”或“类似商品”选项卡。
对于制作内容的企业而言,更高的搜索相关性意味着更高的可见性和更广泛的受众覆盖范围。对于研究人员、医生、学生和专业人士来说,准确的结果可以带来更好的工作成果。
如何评估和衡量搜索相关性
每个搜索者的需求和意图都不同。准确或系统地衡量相关性具有挑战性。行业基准提供了一些指导,例如 Benchmarking-IR (BEIR),它是一个预训练的转换器,用于评估信息检索方法在排名系统上的效果。例如,MS-MARCO(微软机器阅读理解)是 BEIR 基准的一部分,它有一个问答数据集来评估搜索的有效性。虽然这提供了搜索相关性的指示,但没有绝对的评分方法。
一种了解搜索效果的方法是查找用户行为的趋势,并不断寻求改进的增量方法。
搜索有效性可以通过用户找到正确信息所需的搜索词的输入量、重新输入量和修改量来衡量。搜索效率由用户为找到所需信息所付出的总体努力量来定义。两者都提供了对您整体搜索相关性的了解。搜索分析还可以提供有关用户搜索频率、搜索内容以及是否找到所需内容的见解。
召回率是指检索到的相关记录占相关记录总数的比例。精确率是指相关结果与相关和不相关记录总数的比率。虽然召回率和精确率是关键的衡量指标,但它们通常需要一定程度的人工评估和监督才能进行评估,这可能会成本高昂。通过调查或交互式按钮收集用户反馈,可以以较低的成本了解用户如何看待搜索结果的相关性。
搜索者行为指标提供了间接但隐含的相关性判断。一个有价值的定量指标是点击率 (CTR),它衡量用户在查看结果后点击结果的百分比。较高的点击率表示更高的相关性。停留时间,即用户在点击搜索结果链接后在页面上花费的时间,是另一个关键指标,较长的停留时间与更相关、高质量的内容相关。另一方面,用户在未进行交互就离开页面的百分比,即所谓的跳出率,可以表明内容不符合预期。
提高搜索相关性的技术
提高搜索相关性是一个持续的过程。除了采用最新的机器学习算法、自然语言处理功能和实体识别之外,以下是一些可以随着时间的推移提高搜索相关性的技术
- 扩大查询理解
为了扩大结果的范围,扩大由定义和范围连接的相关术语或关键词同义词的查询理解,这些同义词是指与您的搜索词具有相同或相似含义的词或短语。还可以扩展到包括部分匹配结果,如果不是全部,则匹配查询的某些部分。自动语言检测也可以用来建议与以前的搜索类似的文本。 - 提高拼写错误容忍度
提高拼写错误容忍度意味着您的用户仍然可以获得所需的结果,即使拼写错误。拼写错误容忍度使搜索更加顺畅,因为用户不必重新输入他们的查询。与其依赖完全匹配,不如通过改进您的自动更正和拼写检查功能来增加对拼写错误和打字错误的容忍度。您还可以使用“您是不是要找”功能来建议替代方案并更正搜索词。 - 合并刻面和过滤器
刻面,也称为智能过滤器,可帮助用户缩小搜索范围。刻面和过滤器在信息量大的网站上最有用。自动检测过滤器或使用户能够根据相关属性(如位置、主题、价格、类别和日期)缩小搜索结果范围。 - 拥抱个性化
根据用户偏好、位置、搜索和购买历史以及行为自定义结果可以提高相关性。通过对最相关的搜索进行更高的排名,从而为您的用户量身定制结果。个性化也是预测搜索的关键部分,通过用户过去的搜索来预测他们未来的需求。 - 利用用户反馈
鼓励用户提供有关结果质量的反馈有助于搜索引擎学习和改进。用户反馈是衡量搜索实际相关性的最佳方法。利用反馈可以使您的搜索引擎不断改进。 - 优化您的用户体验
通过删除过时的页面、重复的内容、未使用的关键字或标签以及损坏的链接来清理您的网站。简化您的用户体验设计,例如使搜索栏易于找到且易于使用。构建您的网站,以确保搜索引擎可以更有效地抓取和索引您的内容。 - 优先处理高价值站点区域
为了向用户显示最有价值的内容,提高您网站高质量内容区域的结果权重,包括具有最强参与度、权威性、反向链接和转化率的页面。
搜索相关性中的挑战和限制
与低质量的搜索结果作斗争可能是一个令人沮丧的过程,而且解决方案并非总是透明的。在解释具有多种含义的查询时,始终会存在固有的歧义。在没有其他更多信息的情况下解读真实意图是一门不完美的科学。真正相关的搜索是一个认知的迷宫,即使是最先进的人工智能也尚未解决。
为了保持最新,搜索引擎必须快速适应世界各地每秒钟产生的不断增长的内容海洋,这些内容来自各种不断变化的语言、方言、俚语和区域细微差别。虽然个性化的搜索结果对相关性有很大贡献,但它们也会产生泡沫,限制对不同视角的接触。
对于组织而言,优化搜索相关性通常会让人感到神秘。并且,向用户提供相关搜索结果的短暂时间窗口似乎总是在缩短。
搜索相关性的未来趋势
目前,有一些先进的搜索技术可以帮助在搜索相关性方面取得重大进展。
语义搜索解释用户查询的含义,它使用上下文来响应他们的意图,而不是逐字搜索。向量搜索通常用于语义搜索,使用近似最近邻 (ANN) 算法查找相似的数据,以产生更相关的结果。混合搜索使用向量搜索和关键字搜索方法的组合。
随着这些搜索类型的演变,搜索相关性指标也将发生转变,以考虑它们的影响。其他技术创新也将影响搜索相关性的未来。
在几乎所有文化和企业领域,人工智能驱动的搜索引擎有望通过减少组织的手工工作来大幅提高搜索相关性。人工智能将实现自动同义词检测、从指标和反馈中自我学习的排名算法,以及可以预测客户需求的实时用户活动跟踪等功能,甚至在他们想到要问之前。
在电子商务中,可以处理图像和视频中的视觉信息的智能多语言搜索栏将彻底改变购物,它能够推荐客户实际想要的精确产品,包括精确的颜色、品牌和尺寸,从而消除数小时的滚动。准确的语音搜索将会普及。随着准确性的提高,生成式人工智能将为查询产生超相关的上下文答案,并提供具体的、更有帮助的建议,而不是结果列表。机器学习已经开启了搜索相关性的广阔新领域。
深入探讨 2024 年技术搜索趋势。观看此网络研讨会,了解最佳实践、新兴方法以及顶级趋势如何在 2024 年影响开发人员。
使用 Elasticsearch 的搜索相关性
Elasticsearch 相关性引擎可帮助用户准确找到他们需要的内容,通过最先进的机器学习,提供高度相关、个性化的人工智能驱动的搜索体验。
我们全面的拖放式相关性调整工具还可以让您分析、优化和个性化,从而提供更精确的结果。通过自适应相关性,您可以根据搜索分析的自动数据驱动的建议,将效果最佳的结果置于首位。您还可以通过生成式人工智能、向量搜索、对 NLP 转换器模型的支持和第三方模型管理来提高语义相关性。
浏览更多搜索相关性资源
接下来您应该做什么
当您准备好时… 这里有四种方法可以帮助您利用业务数据中的见解
- 开始免费试用,了解 Elastic 如何帮助您的企业。
- 浏览我们的解决方案,了解 Elasticsearch 平台的工作原理,以及我们的解决方案如何满足您的需求。
- 了解如何设置您的 Elasticsearch 集群,并通过我们 45 分钟的网络研讨会开始进行数据收集和摄取。
- 与您认识的喜欢阅读这篇文章的人分享此文章。通过电子邮件、LinkedIn、Twitter 或 Facebook 与他们分享。
搜索相关性常见问题解答
如何调整搜索相关性?
可以通过查询级别或索引级别调整搜索相关性。允许更广泛的查询理解有助于产生更好的结果。在索引级别,可以通过使用更多数据集训练模型来微调搜索相关性。
个性化如何影响搜索相关性?
个性化根据个人用户的偏好、行为和地理位置定制搜索结果,从而提高提供符合他们期望并与他们相关且有意义的内容的可能性。
脚注
1 来自 Forrester 的“必备电子商务功能”,Sucharita Kodali 和 Scott Compton,2022 年 2 月 18 日,https://www.forrester.com/report/MustHave-eCommerce-Features/RES89561