了解自然语言处理在使 Google 搜索更加语义化和基于上下文方面所发挥的作用。
自然语言处理为 Google 的语义搜索打开了大门。
SEO 需要了解基于实体的搜索的转变,因为这是 Google 搜索的未来。
在本文中,我们将深入研究自然语言处理以及 Google 如何使用它来解释搜索查询和内容、实体挖掘等。
什么是自然语言处理?
自然语言处理(NLP)可以理解单词、句子和文本的含义,从而生成信息、知识或新文本。
它包括自然语言理解(NLU)——允许对文本和自然语言进行语义解释——和自然语言生成(NLG)。
NLP 可用于:
语音识别(文本到语音和语音到文本)。
将先前捕获的语音分割成单个单词、句子和短语。
识别词的基本形式并获取语法信息。
识别句子中单个单词的功能(主语、动词、宾语、冠词等)
提取句子的含义以及句子或短语的部分含义,例如形容词短语(例如“too long”)、介词短语(例如“to the river”)或名词短语(例如“the long party”)。
识别句子上下文、句子关系和实体。
语言文本分析、情感分析、翻译(包括语音助手的翻译)、聊天机器人和底层问答系统。
以下是NLP的核心组件:
Google 的自然语言处理 API。
了解 Google 的自然语言处理 API
标记化:将句子分成不同的术语。
词类标记:按宾语、主语、谓语、形容词等对单词进行分类。
词语依赖性:根据语法规则识别词语之间的关系。
词形还原:确定单词是否有不同形式,并将变体规范化为基本形式。例如,“cars”的基本形式是“car”。
解析标签:根据依赖关系连接的两个单词之间的关系来标记单词。
命名实体分析与提取:识别具有“已知”含义的单词,并将其分配给实体类型的类别。一般来说,命名实体是组织、人、产品、地点和事物(名词)。在句子中,主语和宾语将被识别为实体。
使用 Google Natural Processing API 进行实体分析。
使用 Google Natural Processing API 进行实体分析。
显著性评分:确定文本与主题的关联程度。显著性通常由网络上单词的共引情况以及 Wikipedia 和 Freebase 等数据库中实体之间的关系决定。经验丰富的 SEO 人员从TF-IDF 分析中了解类似的方法。
情感分析:识别文本中表达的有关实体或主题的意见(观点或态度)。
文本分类:从宏观层面来看,NLP 将文本分为内容类别。文本分类有助于确定文本的大致内容。
文本分类和功能:NLP 可以进一步确定内容的预期功能或目的。将搜索意图与文档进行匹配非常有趣。
内容类型提取:基于结构模式或上下文,搜索引擎无需结构化数据即可确定文本的内容类型。文本的 HTML、格式和数据类型(日期、位置、URL 等)无需使用标记即可识别其是食谱、产品、事件还是其他内容类型。
根据结构识别隐含含义:文本的格式可以改变其隐含含义。标题、换行符、列表和接近度传达了对文本的二次理解。例如,当文本显示在 HTML 排序列表或一系列带有数字的标题中时,它很可能是列表或排名。结构不仅由 HTML 标记定义,还由渲染期间的视觉字体大小/粗细和接近度定义。
NLP 在搜索中的应用
多年来,Google一直在训练BERT或MUM等语言模型来解释文本、搜索查询,甚至视频和音频内容。这些模型通过自然语言处理提供数据。
Google搜索主要在以下领域使用自然语言处理:
搜索查询的解释。
文件的主题和目的的分类。
文档、搜索查询和社交媒体帖子中的实体分析。
用于生成语音搜索中的精选片段和答案。
解释视频和音频内容。
知识图谱的扩展和完善。
谷歌在 2019 年 10 月发布 BERT 更新时强调了理解搜索中的自然语言的重要性。
“从本质上讲,搜索就是理解语言。我们的工作就是弄清楚您在搜索什么,并从网络上找到有用的信息,无论您如何拼写或组合查询中的单词。虽然多年来我们一直在不断提高我们的语言理解能力,但有时我们仍然做得不够好,尤其是在处理复杂或对话式查询时。事实上,这就是人们经常使用“关键词语”的原因之一,他们输入的单词串是他们认为我们会理解的,但实际上并不是他们自然提问的方式。”
BERT 和 MUM:用于解释搜索查询和文档的 NLP
BERT 被称为是继RankBrain之后谷歌搜索几年来最关键的进步。此次更新基于 NLP,旨在改善搜索查询解释,最初影响了所有搜索查询的10% 。
BERT 不仅在查询解释中发挥作用,还在排名和编译精选片段以及解释文档中的文本问卷中发挥作用。
“通过将 BERT 模型应用于搜索中的排名和精选摘要,我们可以更好地帮助您找到有用的信息。事实上,在排名结果方面,BERT 将帮助搜索更好地理解美国十分之一的英语搜索,并且我们会随着时间的推移将其推广到更多语言和地区。”
MUM 更新的推出是在Search On ’21上宣布的。MUM 也基于 NLP,支持多种语言,使用多模式数据回答复杂的搜索查询,并处理来自不同媒体格式的信息。除了文本,MUM 还能理解图像、视频和音频文件。
MUM 结合了多种技术,使Google 搜索更加语义化和基于上下文,从而改善用户体验。
通过 MUM,Google 希望能够以不同的媒体格式回答复杂的搜索查询,从而让用户参与到客户旅程中。
正如 BERT 和 MUM 一样,NLP 是实现更好的语义理解和更加以用户为中心的搜索引擎的重要一步。
通过实体理解搜索查询和内容标志着从“字符串”到“事物”的转变。谷歌的目标是开发对搜索查询和内容的语义理解。
通过识别搜索查询中的实体,含义和搜索意图变得更加清晰。搜索词中的单个单词不再是独立的,而是在整个搜索查询的上下文中考虑的。
解释搜索词的神奇之处在于查询处理。此处以下步骤很重要:
识别搜索查询所在的主题本体。如果主题上下文清晰,Google 可以选择文本文档、视频和图像的内容语料库作为可能合适的搜索结果。对于模糊的搜索词,这尤其困难。
识别搜索词中的实体及其含义(命名实体识别)。
理解搜索查询的语义含义。
识别搜索意图。
搜索查询的语义注释。
优化搜索词。
获取搜索营销人员所依赖的新闻通讯。
企业电子邮件地址
关于 SEO、PPC、AI、职业等方面的可信见解。
查看条款。
NLP 是实体挖掘最重要的方法
自然语言处理将在谷歌识别实体及其含义方面发挥最重要的作用,从而使得从非结构化数据中提取知识成为可能。
在此基础上,可以创建实体与知识图谱之间的关系。语音标记在一定程度上有助于此。
名词是潜在实体,动词通常表示实体之间的关系。形容词描述实体,副词描述关系。
NLP 构建知识图谱的示例。
NLP 构建知识图谱的示例:从文本挖掘知识图谱 (WSDM 2018)。
到目前为止,谷歌仅极少使用非结构化信息来充实知识图谱。
可以假设:
目前知识图谱中记录的实体只是冰山一角。
谷歌还额外向另一个知识库提供有关长尾实体的信息。
NLP 在提供这一知识库方面发挥着核心作用。
Google 在 NLP 方面已经做得相当不错,但在评估自动提取信息的准确性方面还没有取得令人满意的结果。
从网站等非结构化数据中挖掘知识图谱等知识数据库的数据非常复杂。
除了信息的完整性,正确性也至关重要。如今,Google 通过 NLP 保证了大规模的完整性,但证明正确性和准确性却很困难。
这大概就是为什么谷歌对于在 SERP 中直接定位长尾实体信息仍持谨慎态度的原因。
基于实体的索引与基于内容的传统索引
Hummingbird 更新的推出为语义搜索铺平了道路。它还使知识图谱(以及实体)成为焦点。
知识图谱是 Google 的实体索引。所有属性、文档和数字图像(如个人资料和域)都围绕实体在基于实体的索引中进行组织。
Google 实体索引和经典索引如何工作的示例。
知识图谱目前与经典的 Google 索引并行用于排名。
假设 Google 在搜索查询中识别出该查询与知识图谱中记录的实体有关。在这种情况下,将访问两个索引中的信息,以实体为重点,同时考虑与该实体相关的所有信息和文档。
经典的 Google 索引和知识图谱或其他类型的知识库之间需要一个接口或 API,以便在两个索引之间交换信息。
这个实体内容界面是为了找出:
某段内容中是否有实体。
内容是否存在主要实体。
主要实体可以被分配给哪个或哪些本体。
该内容被分配给哪个作者或哪个实体。
内容中的实体如何相互关联。
要将哪些特性或属性分配给实体。
它可能看起来像这样:
实体内容界面的一个例子。
由于 Google 很难理解单个实体的含义,因此我们才刚刚开始感受到基于实体的搜索对 SERP 的影响。
实体是按照社会相关性自上而下理解的。最相关的实体分别记录在 Wikidata 和 Wikipedia 中。
最大的任务是识别和验证长尾实体。目前还不清楚谷歌会检查哪些标准来将实体纳入知识图谱。
在 2019 年 1 月的德国网站站长聚会上,谷歌的 John Mueller 表示,他们正在研究一种更直接的方式为每个人创建实体。
“我认为我们没有明确的答案。我认为我们有不同的算法来检查类似的东西,然后我们使用不同的标准将整个事物整合在一起,将其分开,并识别哪些事物是真正独立的实体,哪些只是变体或不太独立的实体……但就我而言,我已经看到了这一点,这是我们正在努力扩展它的东西,我想它也会让它更容易在知识图谱中展示。但我不知道具体计划是什么。”
NLP 在扩大这一挑战中发挥着至关重要的作用。
diffbot 演示中的示例展示了 NLP 如何很好地用于实体挖掘和构建知识图谱。
来自 diffbot 演示的示例。
谷歌搜索中的 NLP 将继续存在
RankBrain 被引入来通过以前从未以这种方式使用过的向量空间分析来解释搜索查询和术语。
BERT 和 MUM 使用自然语言处理来解释搜索查询和文档。
除了对搜索查询和内容的解释之外,MUM 和 BERT 还使知识图谱等知识数据库能够大规模增长,从而推动了 Google 的语义搜索发展。
Google 搜索通过核心更新的发展也与 MUM 和 BERT 密切相关,并且最终与 NLP 和语义搜索密切相关。
未来,我们将看到越来越多的基于实体的谷歌搜索结果取代经典的基于短语的索引和排名。