什么是搜索引擎?

搜索引擎定义

搜索引擎是一种软件程序或系统,旨在帮助用户查找存储在互联网上或特定数据库中的信息。搜索引擎的工作原理是索引和编目来自各种来源的内容,然后根据用户的搜索查询向他们提供相关结果列表。

搜索引擎是用户查找特定信息的有用工具,可以快速高效地找到。它们的范围、功能和索引内容类型各不相同。这种多功能性满足了不同背景下特定用户的需求。搜索引擎可以是旨在编目网络上所有内容的庞大互联网搜索引擎,也可以是旨在在组织内使用的企业搜索引擎,以简化内部信息发现。它们甚至包括索引本地网络上文件的桌面搜索引擎。


搜索引擎简史

搜索引擎的概念比互联网早了几十年。在 Vannevar Bush 1945 年在《大西洋》杂志上发表的著名文章中1,科学研究与发展办公室主任提出,美国应开展一项“记忆库”项目。这个拟议的自动个人文件系统将“机械化,以便可以非常快速和灵活地进行查阅”。

在 20 世纪 50 年代,引入了第一个自动化信息检索系统。在 20 世纪 50 年代末,Gerard Salton 等研究人员开始为文本的自动化信息检索系统奠定基础。Salton 在 20 世纪 60 年代初开发了 SMART(文本的机械分析和检索系统)信息检索系统。这个里程碑使用了数学和统计方法来分析和检索相关的文本信息。它还引入了相关性排名的概念。

在整个 20 世纪 60 年代和 70 年代,各种信息检索系统不断发展,并融入了布尔搜索和向量空间模型(一种将文本等对象表示为向量的数学模型)等新技术。20 世纪 80 年代标志着自然语言处理技术集成到信息检索系统中,这使得可以更复杂地分析用户查询和文档内容。1996 年,第一个自动化网络搜索引擎 WebCrawler 的首次亮相成为一个重要的转折点。Google 在 1998 年的加入及其 PageRank 算法彻底改变了互联网搜索,显著提高了搜索相关性。

20世纪90年代末和21世纪初,搜索引擎呈现多元化发展趋势。随着商业数据日益数字化,企业搜索引擎应运而生。21世纪10年代,开源企业级选项的兴起为企业构建自有搜索功能提供了灵活性和可扩展性。其他新型搜索引擎包括垂直搜索引擎(专注于特定主题)和社交媒体搜索。如今,在人工智能的帮助下,搜索引擎将继续改进和多元化。


搜索引擎如何工作?

搜索引擎通过多步骤流程工作,旨在找到与用户查询最相关的结果。从企业搜索引擎到互联网搜索,大多数都遵循类似的流程。

对于基于互联网的搜索引擎,搜索引擎会部署称为网络爬虫或蜘蛛的自动化机器人来查找信息。这些机器人首先访问一组已知的网页。然后,它们从这些页面提取并跟踪指向其他页面的链接,从而创建互连网页的地图。在企业搜索引擎中,通常使用 API 和专门构建的连接器等不同方法来探索组织内部的数据库、文档和其他存储库。

抓取之后,开始索引。爬虫分析每个网页、内部文档或其他数据的内容,以提取相关信息、关键词和元数据。然后,将收集到的信息组织成索引。索引是一个结构化数据库,可以快速有效地检索信息。它通常包括有关内容以及网页或文档位置的详细信息。

接下来的步骤是查询提交和分析。当用户输入搜索查询时,搜索引擎会处理该查询以理解用户的意图。它通过识别关键词、短语和用户上下文来分解查询。如今,许多搜索引擎都使用自然语言处理 (NLP) 技术来更好地理解词语背后的含义。

然后,搜索引擎会将用户的查询与索引内容进行匹配。它会识别包含相关关键词或短语的文档或网页。从索引中检索相关结果。搜索引擎根据其算法生成潜在匹配列表。

算法排名会根据各种因素(如相关性或来源的权威性)组织结果。有些按内容相关性衡量,有些则考虑诸如跳出率和历史互动等指标,而另一些则衡量点击率,甚至根据用户互动数据提供自动建议。通常,搜索引擎使用专有算法和复杂的排名算法来确定结果的列出顺序。在企业搜索中,可以调整甚至策划分层结果列表,以优先考虑某些结果。

最后,搜索引擎会在搜索引擎结果页面 (SERP) 上向用户呈现排名后的结果。每个结果通常包括标题、描述和 URL 或其他信息位置。用户可以单击搜索结果以访问网页或文档的完整内容。

搜索引擎不断地抓取、索引和改进其算法,以便为用户提供最相关和最新的信息。它们还会持续监控用户行为,包括点击率和在页面上的停留时间。这些数据有助于改进排名算法,并随着时间的推移提高结果的相关性。


为什么搜索引擎如此重要?

搜索引擎之所以重要,是因为它们充当着通往互联网和各种数字平台上大量信息的门户。在数据泛滥的世界中,搜索引擎充当着导航工具,帮助用户快速找到他们正在寻找的任何信息。

无论用于学术研究、企业商务查询,还是仅仅用于在线购物,搜索引擎都会通过索引和组织在线信息以及内部数据来简化搜索过程,使其易于访问。

搜索引擎在不同行业提供不同的可能性。例如,在电子商务领域,它们可以充当内容创作者和消费者之间的桥梁,从而促进数字生态系统的发展。对于各个学术层次的研究人员和学生来说,搜索引擎是教育和发现的重要工具。搜索引擎可以通过提供对法律信息和数据库的访问来支持法律发现。同样,它们可以通过索引文件并汇总来自医学期刊的信息来支持医疗保健专业人员。在大多数行业中,搜索引擎都支持和简化研究和发现过程,使其成为我们日常生活中不可或缺的一部分。


搜索引擎的类型

搜索引擎有多种形式,每种形式都旨在满足特定的需求和环境。以下是一些不同类型的搜索引擎

互联网搜索引擎:通过索引和检索来自互联网的信息,互联网搜索引擎可以接收用户查询并生成相关的网页、图像、视频等。请注意,互联网搜索引擎与网页浏览器不同,网页浏览器是显示网页的软件应用程序。网页浏览器用于访问搜索引擎。

企业搜索引擎:专为内部组织使用而设计,企业搜索引擎可以索引和检索公司数据库、文档和内联网内的信息。

桌面搜索引擎:通过索引用户个人计算机或本地网络上的文件、应用程序和文档,桌面搜索引擎为用户提供快速的本地搜索功能。

学术搜索引擎:专注于学术内容,包括研究论文、文章和学术出版物,学术搜索引擎满足研究人员和学生的需求。

社交媒体搜索引擎:社交媒体搜索引擎可以索引社交媒体平台上的内容,这使用户可以搜索与帖子和讨论相关的主题,以及查找其他用户个人资料。

元搜索引擎:这些引擎汇总来自多个搜索引擎的结果,以便为用户提供更广泛的视角,并且通常用于比较结果。

垂直搜索引擎和专业搜索引擎:这两个术语有时可以互换使用。但是,它们之间存在重要的区别。主要区别在于覆盖范围。专业搜索引擎通常具有较窄的关注点,专注于独特的内容类型,而垂直搜索引擎则涵盖特定行业或主题内更广泛的范围。


搜索引擎优化 (SEO)

搜索引擎优化 (SEO) 主要与互联网搜索引擎相关联。SEO 策略旨在提高网站在特定关键词和查询的搜索引擎结果页面 (SERP) 中的可见性和排名。

SEO 原则也可以应用于其他类型的搜索引擎,具体取决于环境。例如,组织可以在其企业搜索引擎中采用 SEO 技术来优化其内部内容。专业搜索引擎的开发人员可以修改 SEO 技术并将其应用于图像、视频或其他类型的内容。即使进行这些修改,SEO 的核心原则仍然保持一致。

在互联网搜索引擎的环境中使用了不同的 SEO 子类型

  • 技术 SEO 优化网站的技术方面,以提高其搜索引擎的可见性和用户体验。网站速度、移动友好性、站点架构和 HTTPS 安全性是技术 SEO 中需要考虑的许多因素。
  • 页面 SEO 优化网站上的各个页面,以获得更高的排名并吸引相关的流量。关键词优化、元标记、标题标记、URL 结构和页面内容都是页面 SEO 中的因素。
  • 页面外 SEO 涉及在网站外部执行的活动,以提高其排名。这可能包括从其他信誉良好的网站获取相关反向链接、利用社交媒体平台以及其他外部推广,例如影响者拓展。

使用 Elastic 进行搜索

Elastic 是为您的企业构建个性化、可扩展的 AI 搜索体验的完美选择。借助 Elastic,您将获得一流的文本、向量、混合和语义搜索、生成式 AI 集成,以及对 NLP 转换器模型和第三方模型管理的支持。详细了解为什么 Elastic 是当今构建 AI 搜索应用程序的行业标准


搜索引擎资源


下一步应该怎么做

当您准备好时...这里有 4 种方法可以帮助您将数据带入您的业务

  1. 开始免费试用,了解 Elastic 如何帮助您的业务。
  2. 了解我们的解决方案,看看 Elasticsearch 平台是如何工作的,以及我们的解决方案如何满足您的需求。
  3. 学习如何设置您的 Elasticsearch 集群,并通过我们 45 分钟的网络研讨会开始数据收集和摄取。
  4. 将这篇文章分享给您认识的喜欢阅读的人。通过电子邮件、LinkedIn、Twitter 或 Facebook 与他们分享。

脚注

Vannevar Bush, "As We May Think," 1945 年 7 月,The Atlantic, https://www.theatlantic.com/magazine/archive/1945/07/as-we-may-think/303881/