什么是搜索引擎?

搜索引擎定义

搜索引擎是一种软件程序或系统,旨在帮助用户查找存储在互联网或特定数据库中的信息。搜索引擎的工作原理是:对来自各种来源的内容进行索引和编目,然后根据用户的搜索查询提供相关结果列表。

对于希望快速有效地找到特定信息的的用户来说,搜索引擎是一种非常有用的工具。它们在范围、功能和索引的内容类型方面各不相同。这种多功能性可以满足不同环境下用户的特定需求。搜索引擎可以是旨在对网络上的所有内容进行编目的庞大互联网搜索引擎,也可以是旨在在组织内部使用的企业搜索引擎,以便更轻松地发现内部信息。它们甚至包括对本地网络上的文件进行索引的桌面搜索引擎。


搜索引擎简史

搜索引擎的概念比互联网早了几十年。在范内瓦·布什 1945 年发表在《大西洋月刊》上的一篇著名文章中1,这位科学研究与发展办公室主任建议美国应该开展一个“记忆扩展器”项目。这个拟议的自动个人归档系统将“实现机械化,以便可以极其快速和灵活地进行查询”。

20 世纪 50 年代,第一批自动信息检索系统问世。20 世纪 50 年代后期,像杰拉德·索尔顿这样的研究人员开始为文本自动信息检索系统奠定基础。索尔顿在 20 世纪 60 年代初开发了 SMART(文本机械分析和检索系统)信息检索系统。这一里程碑式的系统使用数学和统计方法来分析和检索相关的文本信息。它还引入了相关性排名的概念。

在整个 20 世纪 60 年代和 70 年代,各种信息检索系统不断发展,并结合了新的技术,如布尔搜索和向量空间模型(一种将文本等对象表示为向量的数学模型)。20 世纪 80 年代标志着自然语言处理技术被整合到信息检索系统中,这使得对用户查询和文档内容的分析更加复杂。1996 年,第一个自动网络搜索引擎 WebCrawler 的问世是一个重要的转折点。谷歌在 1998 年的加入,凭借其 PageRank 算法彻底改变了互联网搜索,显著提高了搜索的相关性。

20 世纪 90 年代末和 21 世纪初见证了搜索引擎的多样化。企业搜索引擎的出现是为了应对商业数据日益数字化的趋势。2010 年代,开源企业选项的兴起为企业构建自己的搜索功能提供了灵活性和可扩展性。其他新的搜索引擎包括垂直搜索引擎(专注于特定主题)和社交媒体搜索。如今,在人工智能的帮助下,搜索引擎将继续改进和多样化。


搜索引擎是如何工作的?

搜索引擎的工作遵循一个多步骤的过程,旨在找到与用户查询最相关的结果。从企业搜索引擎到互联网搜索,大多数搜索引擎都遵循类似的过程。

对于基于互联网的搜索引擎,搜索引擎会部署称为网络爬虫或蜘蛛的自动机器人来查找信息。这些机器人首先访问一组已知的网页。然后,它们会从这些网页中提取并跟踪指向其他网页的链接,从而创建一张相互连接的网页地图。在企业搜索引擎中,会使用不同的方法来浏览组织内部的数据库、文档和其他存储库,通常是 API 和专门构建的连接器。

抓取完成后,就开始进行索引。爬虫会分析每个网页、内部文档或其他数据片段的内容,以提取相关信息、关键字和元数据。然后,收集到的信息会被组织到一个索引中。索引是一个结构化的数据库,允许快速有效地检索信息。它通常包括有关内容以及网页或文档位置的详细信息。

接下来的步骤是查询提交和分析。当用户输入搜索查询时,搜索引擎会处理该查询以了解用户的意图。它通过识别关键字、短语和用户上下文来分解查询。如今,许多搜索引擎都使用自然语言处理 (NLP) 技术来更好地理解词语背后的含义。

然后,搜索引擎会将用户的查询与索引内容进行匹配。它会识别包含相关关键字或短语的文档或网页。相关结果将从索引中检索。搜索引擎会根据其算法生成潜在匹配项列表。

算法排名会根据相关性或来源权威性等各种因素对结果进行排序。有些是根据内容相关性进行衡量,有些则考虑跳出率和历史参与度等指标,而另一些则衡量点击率,甚至根据用户参与度数据提供自动建议。通常,搜索引擎会使用专有算法和复杂的排名算法来确定结果列表的顺序。在企业搜索中,可以对分层结果列表进行调整,甚至可以对其进行策划以优先显示某些结果。

最后,搜索引擎会在搜索引擎结果页面 (SERP) 上向用户显示排名结果。每个结果通常包括标题、描述和 URL 或其他信息位置。用户可以点击搜索结果以访问网页或文档的完整内容。

搜索引擎不断地抓取、索引和优化其算法,以便为用户提供最相关和最新的信息。它们还会持续监控用户行为,包括点击率和页面停留时间。这些数据有助于改进排名算法,并随着时间的推移提高结果相关性。


为什么搜索引擎很重要?

搜索引擎非常重要,因为它们是通往互联网和各种数字平台上海量信息的网关。在充斥着数据的世界中,搜索引擎充当着导航工具,帮助用户快速找到他们正在寻找的任何信息。

无论是用于学术研究、企业业务查询,还是仅仅是在线购物,搜索引擎都可以通过索引和组织在线信息和内部数据,使其易于访问,从而简化搜索过程。

搜索引擎在不同行业提供了不同的可能性。例如,在电子商务领域,它们可以充当内容创作者和消费者之间的桥梁,促进数字生态系统的发展。对于各级学术机构的研究人员和学生来说,搜索引擎是教育和发现的重要工具。搜索引擎可以通过提供对法律信息和数据库的访问来支持法律发现。同样,它们可以通过索引文件和汇总医学期刊的信息来支持医疗保健专业人员。在大多数行业中,搜索引擎支持并简化了研究和发现过程,使其成为我们日常生活中的重要组成部分。


搜索引擎的类型

搜索引擎有多种形式,每种形式都旨在满足特定的需求和环境。以下是一些不同类型的搜索引擎

互联网搜索引擎:通过索引和检索互联网上的信息,互联网搜索引擎可以接收用户查询并生成相关的网页、图像、视频等。请注意,互联网搜索引擎与网络浏览器不同,后者是显示网页的软件应用程序。网络浏览器用于访问搜索引擎。

企业搜索引擎:专为内部组织使用而设计,企业搜索引擎索引和检索公司数据库、文档和内部网中的信息。

桌面搜索引擎:通过索引用户个人计算机或本地网络上的文件、应用程序和文档,桌面搜索引擎为用户提供快速本地搜索功能。

学术搜索引擎:专注于学术内容,包括研究论文、文章和学术出版物,学术搜索引擎满足研究人员和学生的需要。

社交媒体搜索引擎:社交媒体搜索引擎可以索引社交媒体平台上的内容,这允许用户搜索与帖子和讨论相关的主题,以及查找其他用户资料。

元搜索引擎:它们聚合来自多个搜索引擎的结果,为用户提供更广泛的视角,通常用于比较结果。

垂直搜索引擎和专业搜索引擎:这些术语有时可以互换使用。但是,它们之间存在重要区别。主要区别在于覆盖范围。专业搜索引擎通常具有更窄的焦点,专注于独特的内容类型,而垂直搜索引擎则涵盖特定行业或主题内的更广泛范围。


搜索引擎优化 (SEO)

搜索引擎优化 (SEO) 主要与互联网搜索引擎相关联。SEO 策略旨在提高网站在特定关键字和查询的搜索引擎结果页面 (SERP) 中的可见性和排名。

SEO 的原则也可以应用于其他类型的搜索引擎,具体取决于环境。例如,组织可以在其企业搜索引擎中采用 SEO 技术来优化其内部内容。专业搜索引擎的开发人员可以修改 SEO 技术,并将其应用于图像、视频或其他类型的内容。即使进行了这些修改,SEO 的核心原则仍然保持一致。

在互联网搜索引擎的背景下,使用了不同的 SEO 子类型

  • 技术 SEO 优化网站的技术方面,以增强其搜索引擎可见性和用户体验。网站速度、移动友好性、网站架构和 HTTPS 安全性是技术 SEO 中的众多考虑因素。
  • 页面 SEO 优化网站上的各个页面,以提高排名并吸引相关流量。关键字优化、元标记、标题标记、URL 结构和页面内容都是页面 SEO 的因素。
  • 页面外 SEO 涉及在网站外部执行的活动,以提高其排名。这可能涉及从其他信誉良好的网站获取相关反向链接、利用社交媒体平台以及其他外部推广活动,例如影响者推广。

使用 Elastic 进行搜索

Elastic 是为您的企业构建个性化、可扩展的 AI 搜索体验的完美选择。借助 Elastic,您将获得一流的文本、向量、混合和语义搜索、生成式 AI 集成,以及对 NLP Transformer 模型和第三方模型管理的支持。详细了解为什么 Elastic 是当今构建 AI 搜索应用程序的行业标准


搜索引擎资源


您接下来应该做什么

只要您准备好了... 我们可以通过以下 4 种方式帮助您将数据引入您的企业

  1. 开始免费试用,了解 Elastic 如何帮助您的企业。
  2. 浏览我们的解决方案,了解 Elasticsearch 平台的工作方式,以及我们的解决方案如何满足您的需求。
  3. 了解如何设置 Elasticsearch 集群,并通过我们 45 分钟的网络研讨会开始数据收集和提取。
  4. 与您认识的喜欢阅读本文的人分享本文。通过电子邮件、LinkedIn、Twitter 或 Facebook 与他们分享。

脚注

Vannevar Bush,“正如我们所想”,1945 年 7 月,《大西洋月刊》,https://www.theatlantic.com/magazine/archive/1945/07/as-we-may-think/303881/