首頁 » 主题本体中的搜索词分类

主题本体中的搜索词分类

将搜索查询置于主题上下文中是查询处理的第一步。基于此分类,可以进一步解释搜索查询并选择相关文档的主题语料库。在经典的非语义搜索引擎中,会对搜索词中使用的关键词和主题集群的典型术语进行比较,以便对搜索查询进行主题分配。对于大多数搜索引擎来说,这个过程相对简单,因为可以根据所使用的术语将搜索查询分配给主题上下文。

语义搜索引擎试图更好地理解搜索查询背后的含义,以便能够对甚至模糊的搜索查询进行分类。

对于新术语或搜索查询来说,这变得更加困难。谷歌于 2015 年推出了 Rankbrain,以对新的、以前未知的搜索查询进行分类。

以下是 Google 的一项专利:

利用词语共现和二分图共聚类改进搜索查询的语义主题聚类

谷歌的一篇科学论文提供了一些有趣的见解,说明谷歌目前如何将搜索查询分类到不同的主题领域。

本文档介绍了 Google 用于将 电报数据 搜索查询情境化的两种方法。在词语共现聚类中,所谓的提升分数起着核心作用:

公式中,“Wi”代表所有与词根密切相关的词,例如拼写错误、复数、单数或同义词。

“a” 可以是任何用户交互,例如搜索特定搜索词或访问特定页面。

例如,如果提升度分数为5,则搜索“Wi”的概率比一般搜索“Wi”的概率高5倍。

“较大的提升度分数有助于我们围绕有意义而不是无趣的词语构建主题。实际上,可以使用最近时间窗口内的 Google 搜索历史中的词频来估计概率。”

这样,在搜索汽车零部件时,可以 这是一个吸引人的标语 将术语分配给特定实体,例如梅赛德斯和/或主题上下文类“汽车”。然后可以为上下文类和/或实体分配经常与搜索词同时出现的术语。这使得创建特定主题的术语云变得容易。提升度分数的高低决定了与主题的亲和力:

“我们使用提升度对单词的重要性进行排序,然后对其进行阈值处理以获得一组与上下文高度相关的单词。”

这种方法尤其适用于“Wi”已知 粉絲數據 的情况下,例如搜索已知的品牌或类别时。如果由于同一主题的搜索词差异太大而无法明确定义“Wi”,Google 可以使用第二种方法——“加权双图聚类”。

该方法基于两个假设。

  1. 具有相同意图的用户会以不同的方式制定搜索查询。然而,搜索引擎产生的搜索结果是相同的。
  2. 相反,与搜索查询相似的 URL 会显示在第一个搜索结果中。

该方法将搜索词与排名靠前的 URL 进行比较,并创建查询/ URL对,其关系根据用户点击率和展示次数进行额外加权。这样,即使是没有相同词根的搜索词之间也可以建立相似性,从而形成语义聚类。

 

Rankbrain 是一个基于实体的搜索查询处理器

当谷歌于 2015 年宣布推出 Rankbrain 以更好地解释搜索查询时,SEO 行业对此有很多假设和意见。例如,有人谈论谷歌机器学习或人工智能的诞生。正如我在我的文章《机器学习、人工智能和 Rankbrain 对 SEO 和谷歌的重要性》中所解释的那样,自 2011 年以来,谷歌一直积极参与深度学习,作为谷歌大脑项目的一部分。然而,Rankbrain 是谷歌首次官方确认机器学习也用于谷歌搜索。

到目前为止,谷歌关于 Rankbrain 最精确的信息可能是在2015 年 10 月的彭博社采访中 。

采访中的一句话,引发了很多人对Rankbrain的误解。

RankBrain 是进入算法的“数百个”信号之一,该算法决定了 Google 搜索页面上会出现哪些结果以及它们的排名。在部署的几个月内,RankBrain 已经成为影响搜索查询结果的第三大重要信号。

许多 SEO 媒体将该声明解读为 Rankbrain 是三大最重要的排名因素之一。但信号并不是一个因素。 Rankbrain 对搜索结果的选择和排序方式有很大影响,但它并不像内容或链接的某些组成部分那样重要。

这次采访中还有一句很有意思的话:

RankBrain 使用人工智能将大量书面语言嵌入到计算机可以理解的数学实体(称为向量)中。如果 RankBrain 看到不熟悉的单词或短语,机器可以猜测哪些单词或短语可能具有相似的含义,并相应地过滤结果,从而更有效地处理前所未见的搜索查询。

Rankbrain 识别搜索查询中的实体并将其与知识图谱中的事实进行比较。如果术语有歧义,Google 会使用向量空间分析来找出最适合该术语的可能实体。搜索词中的周围词语是确定上下文的第一个指标。这也可能是为什么 Rankbrain 用于长尾搜索查询等的原因。

Rankbrain 时代之前的问题是在知识图谱中识别和创建实体缺乏可扩展性。知识图谱目前主要基于来自维基数据的信息,这些信息经过维基百科实体和维基百科本身的验证——一个手动维护的、因此相当静态且不可扩展的系统。

“维基百科经常被用作实体映射系统的基准。如第 3.5 节所述,这会带来足够好的结果,并且我们认为,如果在该领域进一步努力能够带来合理的收益,那将是令人惊讶的。”
资料来源:从 Freebase 到 Wikidata – 大迁徙

您可以在本系列的其他部分中找到有关此内容的更多信息:

的搜索词

Scroll to Top