CN115495636A

CN115495636A - 网页搜索方法、装置及存储介质

Info

Publication number: CN115495636A
Application number: CN202110683570.5A
Authority: CN
Inventors: 蒋昊; 曹朝; 张鑫宇; 伍永康
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2022-12-20
Also published as: WO2022262632A1

Abstract

本申请公开了一种网页搜索方法、装置及存储介质。该方法包括：获取查询语句的语义向量；根据查询语句的语义向量以及多个网页中每个网页的特征信息，确定查询语句与每个网页之间的相似度，每个网页的特征信息用于表征每个网页的第一语义聚合信息以及至少一个第二语义聚合信息，其中，第一语义聚合信息是对多个网页的语义信息进行语义聚合得到的，至少一个第二语义聚合信息是对多个网页中与每个网页具有相同主题的网页的语义信息进行语义聚合得到的，在对每个网页进行语义聚合过程中每个网页的权重大于参与语义聚合过程中的其他网页的权重；根据查询语句与每个网页之间的相似度，得到查询语句的查询结果。本申请实施例有利于提高网页搜索精度。

Description

网页搜索方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种网页搜索方法、装置及存储介质。

背景技术

搜索是互联网领域的关键技术之一，直接影响到用户获取信息的效率。另一方面，搜索也是谷歌、百度等互联网大厂生态布局中的关键应用。例如，谷歌2019年业务收入共1607.43亿美元，其中，谷歌搜索的广告收入就达981.15亿美元，占比高达61.0％。

对于网页搜索来说，主要包括几个步骤：分析网页库中的网页并将网页库中的网页索引到某个空间内；在线分析用户输入并投射到和网页库相同的空间内；在该空间内完成用户输入和网页之间的匹配；并按匹配度排序，将搜索结果反馈给用户。

在传统的网页搜索技术中，基于候选网页和用户输入的文本字符进行关键词分析和相似度计算，这种搜索效率较慢，且搜索精度低。为了持续提升网页搜索体验和产品竞争力，网页搜索技术一直处于持续的更迭和改进中，逐渐从基于文本匹配的符号化搜索向基于语义匹配的深度语义搜索演进。在深度语义搜索的过程中，通过深度神经网络的深度表示模型(例如，BERT模型)来表示候选网页和用户输入。通过深度表示模型将两者的文本字符等显性信息表示为隐性的语义向量，在语义空间中计算语义向量之间的匹配度来完成搜索排序过程。

虽然，深度语义搜索能够解决部分复杂语义场景下的搜索问题，但是都是孤立确定每个网页的语义向量，影响匹配度的计算，导致搜索质量较低。

发明内容

本申请提供了一种网页搜索方法、装置及存储介质，通过聚合具有相同主题的网页的语义信息构造每个网页的特征信息，提高了网页搜索的精度。

第一方面，本申请实施例提供一种网页搜索方法，包括：获取查询语句的语义向量；根据查询语句的语义向量以及多个网页中每个网页的特征信息，确定查询语句与每个网页之间的相似度，每个网页的特征信息用于表征每个网页的第一语义聚合信息以及至少一个第二语义聚合信息，其中，第一语义聚合信息是对多个网页的语义信息进行语义聚合得到的，至少一个第二语义聚合信息是对多个网页中与每个网页具有相同主题的网页的语义信息进行语义聚合得到的，在对每个网页进行语义聚合过程中每个网页的权重大于参与语义聚合过程中的其他网页的权重；根据查询语句与每个网页之间的相似度，得到查询语句的查询结果，查询结果为多个网页中的至少一个。

需说明的是，“对所述每个网页进行语义聚合过程中”，这个指的是，得到每个网页的第一语义聚合信息以及至少一个第二语义聚合信息的过程，也就是对所述多个网页的语义信息进行语义聚合得到“所述每个网页”的第一语义聚合信息的过程，以及对所述多个网页中与“所述每个网页”具有相同主题的网页的语义信息进行语义聚合得到至少一个第二语义聚合信息的过程，这两个子过程中，要被计算第一语义聚合信息以及至少一个第二语义聚合信息的网页的权重大于该多个网页中其他网页的权重。

示例性的，针对第一网页来说，其中，第一网页为多个网页中的任意一个网页，在对第多个网页的语义信息进行语义聚合，得到第一网页的第一语义聚合信息的过程中，可根据多个网页中每个网页的权重对多个网页的语义信息进行语义聚合。应理解，在进行语义聚合的过程中，第一网页的权重大于多个网页中除第一网页之外的其他网页的权重。比如，第一网页的权重为1，其他网页中与第一网页存在直接链接关系的网页的权重为r(r小于1)，与第一网页不存在链接关系(包括直接链接和间接链接)的网页的权重为0。同样，在得到第一网页的第二语义聚合信息的过程中，第一网页的权重为1，其他具有相同主题的网页的权重小于1，然后，基于与第一网页具有相同主题的网页(包括第一网页)的权重，对具有相同主题的网页的语义信息进行语义聚合，得到第一网页的第二语义聚合信息。

可以看出，在本申请实施例中，每个网页的特征信息包括对多个网页进行语义聚合得到的第一语义聚合信息，以及对具有相同主题的网页进行语义聚合得到的第二语义聚合信息，因此，每个网页的特征信息不是由每个网页的语义信息孤立组成的，包含了跟该网页有关的网页的语义信息，从而使每个网页的特征信息更加的丰富和准确，提高了查询语句和网页之间的匹配精度，进而提高了网页的搜索精度。

在一些可能的实施方式中，对于第一网页，其中，第一网页为多个网页中的任意一个；第一网页的第一语义聚合信息通过第二向量表示，第二向量是对多个网页中每个网页的第一向量进行语义聚合得到的，每个网页的第一向量用于表示每个网页的语义信息；第一网页的至少一个第二语义聚合信息通过至少一个第三向量表示；第一网页的至少一个第二语义聚合信息通过至少一个第三向量表示；至少一个第三向量中的每一个第三向量都对应第一网页包括的一个主题，且至少一个第三向量中的每一个第三向量对应的主题都不同；其中，至少一个第三向量中，每个第三向量是对第一网页的第一向量以及第二网页的第一向量进行语义聚合得到的，第二网页是多个网页中，包含与每个第三向量对应的主题的网页。

可以看出，在实施方式中，对多个网页的第一向量进行语义聚合，得到第一网页的第一向量，即第一语义聚合信息；然后，对多个网页中包含与第一网页具有相同的主题的网页的第一向量进行语义聚合，得到第一网页的至少一个第二向量，即至少一个第二语义聚合信息。因此，在获取每个网页的第二语义聚合信息时，只聚合具有相同主题的网页的第一向量，从而实现在聚合时不会引入噪声，使获取到的每个网页的第二语义聚合信息的精度比较高，进而提高网页搜索精度。

在一些可能的实施方式中，第一网页的至少一个第三向量还与拓扑图有关，拓扑图指示多个网页之间的关联关系。

可以看出，在本实施方式中，通过构建拓扑图，可以基于构建的拓扑图快速找到与每个网页具有相同主题的网页，快速的构建出每个网页的至少一个第二语义聚合信息，提高每个网页的特征信息的构建效率。

在一些可能的实施方式中，拓扑图包括至少一个子拓扑图，即从拓扑图中抽取包含有第一网页的主题的网页组成子拓扑图，得到至少一个子拓扑图，至少一个第三向量中的每一个第三向量都对应至少一个子拓扑图中的一个子拓扑图，且至少一个第三向量中的每一个第三向量对应的子拓扑图都不相同；每个第三向量对应的子拓扑图中的网页包括第一网页以及第二网页；每个第三向量是对每个第三向量对应的子拓扑图中的第一网页和第二网页进行语义聚合得到。

可以看出，在本实施方式中，从拓扑图中获取包含有第一网页的主题的至少一个子拓扑图，然后，分别对每个子拓扑图中的网页进行语义聚合，得到第一网页的至少一个第一语义聚合信息。从拓扑图可以直接抽取子拓扑图，无需重新构造子拓扑图，从而可以快速得到第一网页的至少一个第二语义聚合信息。

在一些可能的实施方式中，至少一个子拓扑图中的每一个子拓扑图都对应至少一个网页组中的一个网页组，且至少一个子拓扑图中的每一个子拓扑图对应的网页组都不相同，其中，至少一个网页组中的每个网页组是由多个网页中包含有与每个网页组对应的主题的网页组成；至少一个子拓扑图中的每个子拓扑图是将每个子拓扑图对应的网页组中的网页从拓扑图中抽取出来的。

可以看出，先对多个网页的主题进行分组，从而得到可以得到每个网页组下的网页的第二向量，最后，依据第一网页所属的至少一个网页组，快速得到第一网页的至少一个第二向量，不用重复构建与多个网页的子拓扑图，提高了网页的特征信息的构建效率。举例来说，网页A和网页B，如果从每个网页包含的主题出发，获取网页A在该主题下的第二向量时，需要先构建网页A在该主题下的子拓扑图，然后，对该子拓扑图下的网页进行语义聚合，得到网页A在该主题下的第二向量，在构建网页B在该主题下的第二向量时，又要再一次构建该子拓扑图，再次对该子拓扑图下的网页进行语义聚合，得到网页B在该主题下的第二向量，因此先对多个网页的主题进行分组，可以直接得到该主题所属的网页组对应的子拓扑图，同时得到网页A和网页B在这个子拓扑图下的第二向量，提高了网页的特征信息的构建效率。

在一些可能的实施方式中，每个网页的特征信息还包括每个网页的第一向量，每个网页的第一向量指示每个网页的语义信息。

可以看出，在本实施方式中，每个网页的特征信息还包括每个网页的第一向量，即包含了每个网页自身的语义信息，从而使每个网页的特征信息更加丰富和精确，进而提高后续网页搜索的精度。

在一些可能的实施方式中，每个网页的特征信息以一个矩阵表示，根据查询语句的语义向量以及多个网页中每个网页的特征信息，确定查询语句与每个网页之间的相似度之前，该方法还包括：根据矩阵中各个向量的权重，将每个网页对应的矩阵转化为目标向量，目标向量指示每个网页的特征信息；根据查询语句的语义向量以及多个网页中每个网页的特征信息，确定查询语句与每个网页之间的相似度，包括：计算查询语句的语义向量与目标向量的相似度，相似度指示查询语句与目标向量对应的网页的相关性。

可以看出，在本实施方式中，将每个网页的多个向量以矩阵的形式表示，从而便于后面将每个网页的多个向量转化为目标向量，为计算查询语句和网页之间的匹配度创造了条件。

在一些可能的实施方式中，根据矩阵中各个向量的权重，将每个网页对应的矩阵转化为目标向量之前，该方法还包括：确定查询语句的语义向量与矩阵中各个向量之间的相似度；根据查询语句的语义向量与矩阵中各个向量之间的相似度，确定矩阵中各个向量的权重。

可以看出，在本实施方式中，通过自注意力机制确定每个网页的多个向量中各个向量的权重，可以使多个向量中与查询语句的语义向量匹配的向量保留下来，使求出的每个网页的目标向量与查询语句更加匹配，提高网页搜索的精度。

第二方面，本申请实施例提供一种网页搜索装置，有益效果可以参见第一方面的描述此处不再赘述。网页搜索装置具有实现上述第一方面的方法实例中行为的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中，网页搜索装置包括获取单元和处理单元；获取单元，用于获取查询语句；处理单元，用于获取查询语句的语义向量；根据查询语句的语义向量以及多个网页中每个网页的特征信息，确定查询语句与每个网页之间的相似度，每个网页的特征信息用于表征每个网页的第一语义聚合信息以及至少一个第二语义聚合信息，其中，第一语义聚合信息是对多个网页的语义信息进行语义聚合得到的，至少一个第二语义聚合信息是对多个网页中与每个网页具有相同主题的网页的语义信息进行语义聚合得到的，在对每个网页进行语义聚合过程中每个网页的权重大于参与语义聚合过程中的其他网页的权重；根据查询语句与每个网页之间的相似度，得到查询语句的查询结果，查询结果为多个网页中的至少一个。

在一些可能的实施方式中，对于第一网页，其中，第一网页为多个网页中的任意一个；第一网页的第一语义聚合信息通过第二向量表示，第二向量是对多个网页中每个网页的第一向量进行语义聚合得到的，每个网页的第一向量用于表示每个网页的语义信息；第一网页的至少一个第二语义聚合信息通过至少一个第三向量表示；至少一个第三向量中的每一个第三向量都对应第一网页包括的一个主题，且至少一个第三向量中的每一个第三向量对应的主题都不同；其中，至少一个第三向量中，每个第三向量是对第一网页的第一向量以及第二网页的第一向量进行语义聚合得到的，第二网页是多个网页中，包含与每个第三向量对应的主题的网页。

在一些可能的实施方式中，拓扑图包括至少一个子拓扑图，至少一个第三向量中的每一个第三向量都对应至少一个子拓扑图中的一个子拓扑图，且至少一个第三向量中的每一个第三向量对应的子拓扑图都不相同；每个第三向量对应的子拓扑图中的网页包括第一网页以及第二网页；每个第三向量是对每个第三向量对应的子拓扑图中的第一网页和第二网页进行语义聚合得到。

在一些可能的实施方式中，每个网页的特征信息以一个矩阵表示，根据查询语句的语义向量以及多个网页中每个网页的特征信息，处理单元确定查询语句与每个网页之间的相似度之前，处理单元，还用于根据矩阵中各个向量的权重，将每个网页对应的矩阵转化为目标向量，目标向量指示每个网页的特征信息；在处理单元根据查询语句的语义向量以及多个网页中每个网页的特征信息，确定查询语句与每个网页之间的相似度方面，处理单元，具体用于：计算查询语句的语义向量与目标向量的相似度，相似度指示查询语句与目标向量对应的网页的相关性。

在一些可能的实施方式中，处理单元根据矩阵中各个向量的权重，将每个网页对应的矩阵转化为目标向量之前，处理单元，还用于：确定查询语句的语义向量与矩阵中各个向量之间的相似度；根据查询语句的语义向量与矩阵中各个向量之间的相似度，确定矩阵中各个向量的权重。

第三方面，本申请实施例提供了一种网页搜索装置，包括：存储器，用于存储程序；处理器，用于执行存储器存储的程序；当存储器存储的程序被执行时，处理器用于实现上述第一方面。

第四方面，本申请实施例提供了提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于实现上述第一方面中的方法。

第五方面，本申请实施例提供了提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机实现上述第一方面中的方法。

第六方面，本申请实施例提供了提供一种芯片，该芯片包括处理器与数据接口，处理器通过数据接口读取存储器上存储的指令，实现上述第一方面中的方法。

可选地，作为一种实现方式，芯片还可以包括存储器，存储器中存储有指令，处理器用于执行存储器上存储的指令，当指令被执行时，处理器用于实现上述第一方面中的方法。

附图说明

图1为本申请实施例提供的一种网页搜索***的架构图；

图2为本申请实施例提供的一种构建网页的特征信息的流程示意图；

图3为本申请实施例提供的一种拓扑图的示意图；

图4为本申请实施例提供的一种子拓扑图的示意图；

图5为本申请实施例提供的一种获取Albert Einstein的***的第一向量的示意图；

图6为本申请实施例提供的一种构造包含Albert Einstein的***的拓扑图的示意图；

图7为本申请实施例提供的一种包含Albert Einstein的***的子拓扑图的示意图；

图8为本申请实施例提供的一种网页搜索方法的流程示意图；

图9为本申请实施例提供的一种网页搜索装置的结构示意图；

图10为本申请实施例提供的另一种网页搜索装置的结构示意图。

具体实施方式

首先说明，本申请中的网页可以理解为能够建立关联关系的网页文档，比如，网页文档可以为信息搜索时所见的网页，也可以为具有引用关系的文献、论文，等等。本申请中主要以网页文档为信息搜索时所见的网页为例进行说明。

参阅图1，图1为本申请实施例提供的一种网页搜索***的架构图。网页搜索***10包括离线模块101和在线模块102；

离线模块101包括以下功能中的一种或多种：

数据清洗、初始表示生成、全图构建、子图构建、变长表示生成以及向量索引构建；

数据清洗是指离线模块101对网页进行数据清洗，筛选出多个高质量的网页，该多个网页可以为网页库中的部分或全部网页，以及对网页中的文本进行数据清洗，从网页中筛选出高质量的文本；

初始表示生成是指离线模块101对多个网页中的每个网页进行向量化表示，得到每个网页的第一向量，其中，每个网页的第一向量用于表示每个网页的语义信息；

全图构建是指离线模块101基于多个网页之间的关联关系构造多个网页之间的拓扑图；

子图构建是指离线模块101基于每个网页的主题，从多个网页的拓扑图中选取具有相同的主题的网页，并基于这些具有相同的主题的网页之间的关联关系构造这些具有相同的主题的网页之间的关联关系；

变长表示生成是指离线模块101计算每个网页在拓扑图下的语义聚合信息，以及每个网页在该网页所包含的主题对应的子拓扑图下的语义聚合信息，并将两种语义聚合信息进行堆叠生成每个网页的变长表示，得到每个网页的特征信息；

向量索引构建是指离线模块101为每个网页的变长表示建立索引，便于高效的查询每个网页的变长表示。

在线模块102主要包括以下功能：预处理、查询语句表示生成、变长表示融合、相似度计算以及网页排序。

预处理是指在线模块102对用户输入的查询语句(Query)进行预处理，得到高质量的查询语句，比如，预处理可以为去除查询语句中的特殊字符，其中，特殊字符可以为乱码字符或者无语义的字符，比如，字符“@”、“#”、“*”、等等；

查询语句表示生成是指在线模块102将经预处理后的查询语句进行向量化表示，得到预处理后的查询语句的语义向量；

变长表示融合是指在线模块102基于查询语句的语义向量，对每个网页的变长表示进行融合，得到每个网页的目标向量。

相似度计算是指在线模块102计算查询语句的语义向量与每个网页的目标向量之间的相似度，其中，向量的相似度计算方法有欧氏距离、余弦相似度，等等；

网页排序是指在线模块102对多个网页与查询语句之间的相似度进行排序，比如，可以按照相似度从大到小的顺序进行排序，便于后续输出相似度最大的网页。

下面结合附图详细说明对网页进行离线处理，得到网页的特征信息的过程。

参阅图2，图2为本申请实施例提供的一种构建网页的特征信息的流程示意图。该方法应用于上述的网页搜索***。该方法包括以下步骤：

201：根据多个网页中网页之间的关联关系，构建与多个网页对应的拓扑图。

其中，该多个网页可以为网页库中的全部网页，也可以为网页库中的部分网页，本申请对此不做限定。

可选的，网页间的关联关系可以通过网页之间的超链接确定，比如，网页A中包含有网页B的超链接，则确定网页A和网页B之间存在关联关系。

可选的，网页之间的关联关系还可以通过网页中的文字描述确定，比如，网页A中有关于网页B的文字描述，则确定网页A和网页B之间存在关联关系。

可选的，网页之间的关联关系还可以根据网页之间的上级网页确定，比如，网页A和网页B的上级网页都是网页C，则确定网页A和网页B之间存在关联关系。

因此，本申请不对两个网页之间存在关联关系的类型进行限定。

可选的，将该多个网页中的各个网页作为节点，且若两个网页之间存在关联关系，则可以为两个网页对应的两个节点构建边，若两个网页之间不存在关联关系，则不为两个网页对应的两个节点构建边，得到与多个网页对应的拓扑图。

举例来说，多个网页包括网页A、网页B、网页C和网页D，且网页A和网页B存在关联关系，网页B和网页C存在关联关系，而网页D不与任何网页存在关联关系，则可以按照网页间的关联关系构建出如图3所示的拓扑图。

示例性的，图3所示的拓扑图中具有关联关系的节点之间的边可以是有向的，也可以是无向，也就是说该拓扑图可以是有向图，也可以是无向图。且后面涉及到的子拓扑图可以是有向图，也可以是无向图，本申请对此均不做限定。本申请中以无向图为例进行说明。

202：根据拓扑图以及每个网页包括的至少一个主题，确定每个网页的特征信息。

示例性的，调用主题识别模型获取每个网页包括的至少一个主题。主题识别模型可以为隐狄利克雷分布(Latent Dirichlet Allocation，LDA)模型。示例性的，每个网页包括的至少一个主题可以为“政治”、“经济”、“教育”、“医疗”，等等。可以理解的，识别每个网页的至少一个主题就是为每个网页打上标签的过程，即为每个网页打上“政治”、“经济”、“教育”、“医疗”等标签，因此每个网页的至少一个主题可以通过为每个网页打上的至少一个标签指示。

示例性的，每个网页的特征信息包括每个网页的第一语义聚合信息以及每个网页对应的至少一个第二语义聚合信息。

下面以第一网页为例说明获取第一网页的第一语义聚合信息和至少一个第二语义聚合信息的过程，其他网页的第一语义聚合信息和至少一个第二语义聚合信息的获取过程与第一网页类似，不再叙述。其中，第一网页可以为多个网页中的任意一个网页。

可选的，第一网页的第一语义聚合信息通过第二向量表示。

具体的，对拓扑图中的多个网页的第一向量进行语义聚合，得到每个网页的第二向量，即得到第一网页的第二向量，其中，每个网页的第一向量用于表示每个网页的语义信息，且每个网页的第一向量可以通过训练好的语义信息提取模型对每个网页进行语义信息提取得到，比如，语义信息提取模型可以为Bert模型。

示例性的，对多个网页的第一向量进行语义聚合过程就是根据拓扑图中多个网页的权重对多个网页的第一向量进行语义聚合。对于获取第一网页的第二向量来说，第一网页的权重为1，其他网页的权重根据与第一网页的连接关系以及与第一网页在拓扑图中的距离确定。具体的，当某个网页与第一网页不具有连接关系时，确定该网页的权重为0；当某个网页与第一网页具有连接关系时，根据该网页与第一网页在拓扑图中的距离确定该网页的权重，其中，与第一网页具有连接关系的网页包括：具有直接连接关系的网页和间接连接关系的网页。例如，第一网页为图3中的网页A，则网页B为与网页A具有直接连接关系的网页，网页C为与网页A具有间接连接关系的网页。其中，两个网页在拓扑图中的距离，可以理解为两个网页之间间隔的网页的数量，比如，网页C和网页A的距离为1，即间隔了一个网页B，网页A和网页B的距离为0，即没有间隔网页。

因此，第一网页的第二向量可以通过公式(1)表示：

其中，y为第一网页的第二向量，α_i为多个网页中第i个网页的权重，e_i为第i个网页的第一向量，n为多个网页的数量。

示例性的，当第i个网页为第一网页时，则α_i为1；当第i个网页为与第一网页不具有关联关系的网页时，α_i为0；当第i个网页为与第一网页具有关联关系的网页时，α_i＝γ^m+1，其中，γ为预设参数，小于1，m为第i个网页与第一网页之间间隔的网页的数量。

需要说明，后续对子拓扑图中的网页的第一向量进行语义聚合的过程，与上述对拓扑图中的多个网页的第一向量进行语义聚合的过程类似，不再叙述。

可选的，第一网页的至少一个第二语义聚合信息通过至少一个第三向量表示，该至少一个第三向量可以根据上述的拓扑图以及多个网页中的每个网页的第一向量确定，其中，至少一个第三向量中的每个第三向量都对应第一网页包括的一个主题，且每个第三向量对应的主题不同，即至少一个第三向量与第一网页包括的第一主题一一对应。每个第三向量是对第一网页的第一向量以及第二网页的第一向量进行语义聚合得到的，其中，第二网页是多个网页中包含与每个第三向量对应的主题的网页。

在本申请的一个实施方式中，遍历拓扑图中每个网页的主题，确定拓扑图中包含有主题E的第二网页，其中，主题E为第一网页包含的至少一个主题中的任意一个主题。将包含有主题E的第二网页以及第一网页从拓扑图中抽取出来，得到与主题E对应的子拓扑图。因此，每个子拓扑图中的网页包括第一网页以及与第一网页具有相同主题的第二网页。针对第一网页的至少一个主题均执行与主题E类似的操作，得到与第一网页对应的至少一个子拓扑图。最后，对每个子拓扑图中的网页的第一向量进行语义聚合，即对每个子拓扑图中的第一网页的第一向量和第二网页的第一向量进行语义聚合，得到第一网页在每个子拓扑图中的第三向量，进而可以得到第一网页在至少一个子拓扑图中的至少一个第三向量，其中，至少一个第三向量中的每个第三向量都对应至少一个子拓扑图中的一个子拓扑图，且至少一个第三向量中的每个第三向量对应的子拓扑图都不相同，即至少一个第三向量与至少一个子拓扑图一一对应。

在本申请的另一个实施方式中，将多个网页的所有主题进行合并与去重，得到主题集；然后，将多个网页中包含有第一主题的网页分到同一组，得到多个网页组，其中，第一主题为主题集中的任意一个，即类似倒排索引的方式，将主题集中的每个主题作为一个特征，对多个网页进行分组。比如，多个网页包括网页1和网页2，其中，网页1包括主题1、主题2和主题3，网页2包括主题1和主题2；因此，对主题进行合并与去重，得到的主题集为主题1、主题2和主题3。将包含有主题1的网页组成的网页组为网页1和网页2，包含有主题2的网页组成的网页组为网页1和网页2，包含有主题3的网页组成的网页组为网页1。

然后，根据第一网页的至少一个主题，确定多个网页组中与第一网页对应的至少一个网页组；然后，从拓扑图中将至少一个网页组中的每个网页组所包含的网页抽取出来，得到与每个网页组对应的子拓扑图，进而得到与至少一个网页组对应的至少一个子拓扑图，其中，至少一个子拓扑图中的每个子拓扑图都对应至少至少一个网页组中的一个网页组，且至少一个子拓扑图中的每个子拓扑图对应的网页组都不相同，即至少一个网页组与至少一个子拓扑图一一对应；最后，对每个子拓扑图中的网页的第一向量进行语义聚合，即对每个子拓扑图中的第一网页的向量和第二网页的第二向量进行语义聚合，得到第一网页在每个子拓扑图中的第三向量，进而可以得到第一网页在至少一个子拓扑图中的至少一个第三向量。

最后，将第一网页的第二向量与第一网页对应的至少一个第三向量进行组合，得到第一网页的特征信息。示例性的，可以以矩阵的形式将第一网页的第二向量以及第一网页的至少一个第三向量进行组合，并将组合后的矩阵作为每个网页的特征信息。

应说明，在从拓扑图中抽取网页组成子拓扑图时，不改变网页在拓扑图中的关联关系。

举例来说，某个网页组中包含的网页有网页A、网页B和网页D，则可以将网页A、网页B和网页D从拓扑图中抽取出来，得到与该网页组对应的子拓扑图，即如图4所示的子拓扑图。

在本申请的一个实施方式中，对网页的语义信息进行语义聚合可以通过图神经网络实现，该图神经网络可以为图卷积神经网络(Graph Convolutional Networks，GCN)或者图注意力网络(Graph Attention Networks，GAT)，等等。例如，对拓扑图中的多个网页的第一向量进行语义聚合时，将拓扑图(即多个网页之间的关联关系)以及拓扑图中每个网页的第一向量作为图神经网络的输入数据，通过图神经网络将拓扑图中的多个网页的语义信息(即第一向量)进行语义聚合，可得到每个网页的第二向量，其中，得到每个网页的第二向量也是按照上述每个网页的权重对每个网页的第一向量进行聚合得到，不再叙述。

应理解，在通过图神经网络进行语义聚合过程中，对于每个节点来说，只会将与这个节点有直接关联关系(直接连接)或者有间接关联关系(间接连接)的节点的语义信息进行聚合。如图3所示，则对拓扑图中的网页A来说，会将网页B以及网页C的语义信息与该网页A的语义信息聚合到一起，得到网页A的第二向量，不会聚合网页D的语义信息。对于拓扑图中完全孤立的网页来说，比如，网页D的第二向量即为网页D所对应的第一向量。

在本申请的一个实施方式中，第一网页的特征信息还包括第一网页的第一向量，即将第一网页的第三向量，第一网页包括的至少一个主题下的至少一个第二向量，以及第一网页的第一向量组成第一网页的特征信息。由于特征信息中包含有每个网页本身的语义信息，从而使构建出的特征信息更加精确，进一步提高后续网页搜索的准确度。

在本申请的一个实施方式中，获取每个网页的第一向量之前，先对每个网页进行数据清洗，得到每个网页中的高质量文本，将高质量文本输入到语义信息提取模型中得到每个网页的第一向量，其中，每个网页中的高质量文本为网页中语义完整，且困惑度低于阈值的文本。

在本申请的一个实施方式中，在构建每个网页的特征信息之前，可以先对网页进行数据清洗，以从网页库中筛选出多个高质量的网页，即本申请的多个网页。

下面以第一网页为阿尔伯特·爱因斯坦(Albert Einstein)的***为例说明构建网页的特征信息的过程。

步骤1：下载当前最新的***网页数据，得到多个网页。

步骤2：如图5所示，通过数据处理，得到多个网页中每个网页的文本信息；然后，将每个网页的文本信息，输入到Bert模型中，得到每个网页的第一向量。

步骤3：如图6所示，基于多个网页的超链接构建拓扑图。图6下划线标记的词语为Albert Einstein的***中的一个超链接。因此，Albert Einstein的***通过超链接与多个网页中的其他网页进行关联，将与Albert Einstein的***存在超链接的网页节点的进行连接，得到拓扑图。该拓扑图中的每个节点为与每个节点对应的网页的第一向量，如图6中黑色的节点代表Albert Einstein的***的第一向量。其中，AlbertEinstein的***与其他网页的超链接在拓扑图中以节点之间的边连接体现。

步骤4：通过LDA主题识别模型识别拓扑图中的每个网页的主题。

步骤5：如图7所示，从拓扑图中抽取包含有Albert Einstein的***包含的主题构成子拓扑图，子拓扑图的数量与Albert Einstein的***包含的主题的数量相同。如图7所示，从拓扑图中分别抽取出了分别与主题1、…、主题n对应的子拓扑图1、…、子拓扑图n；利用图神经网络对拓扑图中的网页的第一向量进行语义聚合，得到Albert Einstein的***对应的第三向量，利用图神经网络对各个子拓扑图中的网页进行语义聚合，得到Albert Einstein的***在各个子拓扑图下的第二向量。然后，将Albert Einstein的***在拓扑图下的第二向量，以及在各个子拓扑图下的第三向量进行组合，得到Albert Einstein的***的特征信息。

从构造Albert Einstein的***的特征信息可以看出，网页的变长表示(特征信息)主要体现在网页的特征信息中所包含的向量的数量与网页的主题数量相关。

参阅图8，图8为本申请实施例提供的一种网页搜索方法的流程示意图。该方法应用于上述的网页搜索***。该方法包括以下步骤内容：

801：获取查询语句的语义向量。

示例性的，获取用户输入的查询语句(Query)，并对查询语句进行向量表示，得到查询语句的语义向量，查询语句的语义向量用于表示查询语句的语义信息，其中，对查询语句进行向量表示可以通过语义信息提取模型实现，比如，通过上述的Bert模型对查询语句进行向量表示。

802：根据查询语句的语义向量以及多个网页中每个网页的特征信息，确定查询语句与每个网页之间的相似度。

其中，多个网页中每个网页的特征信息可以通过图2示出的特征信息构建方法得到，不再叙述。

示例性的，根据每个网页的特征信息中的各个向量的权重，将每个网页的特征信息转化为目标向量，比如，根据每个网页的特征信息中各个向量的权重对特征信息中的各个向量进行加权处理，得到每个网页的目标向量；然后，计算查询语句的语义向量与每个网页的目标向量的相似度，得到查询语句与每个网页之间的相似度，比如，可以计算查询语句的语义向量与每个网页的目标向量之间的余弦相似度，将余弦相似度作为查询语句与每个网页之间的相似度。

具体的，确定查询语句的语义向量与每个网页的特征信息中的各个语义向量之间的相似度，对查询语句的语义向量与各个语义向量之间的相似度进行归一化处理，并将归一化后的结果作为各个语义向量的权重。

以第一网页的特征信息包括第一网页对应的第二向量以及至少一个第三向量为例说明，确定查询语句与第一网页之间的相似度的过程。

示例性的，确定查询语句的语义向量与第二向量之间的相似度，以及与每个第三向量之间的相似度；然后，将查询语句的语义向量与第二向量之间的相似度，以及与每个第三向量之间的相似度进行归一化处理，得到与第二向量对应的权重，以及与每个第三向量对应的权重；根据第二向量对应的权重以及每个第三向量对应的权重，对第二向量以及至少一个第三向量进行加权处理，得到第一网页对应的目标向量；最后，确定第一网页的目标向量和查询语句的语义向量之间的相似度，得到查询语句与第一网页之间的相似度。

803：根据查询语句与每个网页之间的相似度，得到查询语句的查询结果。

其中，查询结果为多个网页中的至少一个。示例性的，按照查询语句与每个网页之间的相似度从大到小的顺序，对多个网页进行排序，将前K个网页作为查询语句的查询结果，并可以在可视化界面展示该查询结果，其中，K的取值为大于或等于1的整数。

可以看出，在本申请实施例中，在构建每个网页的特征信息时，将与每个网页存在关联的网页的语义信息也融合进来，而不是单纯的只利用每个网页本身的语义信息构建特征信息，而且，仅融合与每个网页具有相同主题的网页的语义信息，从而在信息融合的过程中不会引入噪声(比如，融合了无关的网页的语义信息)，从而使构造出的特征信息的精度比较高。由于构建的特征信息比较高，则查询语句与网页进行匹配时，可以提高查询语句与网页之间的匹配精度，提高了网页搜索精度与用户的搜索体验。

参阅图9，图9为本申请实施例提供的一种网页搜索装置的结构示意图。如图9所示，网页搜索装置900包括获取单元901和处理单元902；

获取单元901，用于获取查询语句的语义向量；

处理单元902，用于根据查询语句的语义向量以及多个网页中每个网页的特征信息，确定查询语句与每个网页之间的相似度，每个网页的特征信息用于表征每个网页的第一语义聚合信息以及至少一个第二语义聚合信息，其中，第一语义聚合信息是对多个网页的语义信息进行语义聚合得到的，至少一个第二语义聚合信息是对多个网页中与每个网页具有相同主题的网页的语义信息进行语义聚合得到的，在对每个网页进行语义聚合过程中每个网页的权重大于参与语义聚合过程中的其他网页的权重；根据查询语句与每个网页之间的相似度，得到查询语句的查询结果，查询结果为多个网页中的至少一个。

关于上述获取单元901和处理单元902更详细的描述，可参考上述方法实施例中的相关描述，在此不再说明。

参阅图10，图10为本申请实施例提供的另一种网页搜索装置的结构示意图。网页搜索装置1000可以为上述的网页搜索装置；或者，为上述网页搜索装置中的芯片或芯片***。

图10所示的网页搜索装置1000包括存储器1001、处理器1002、通信接口1003以及总线1004。其中，存储器1001、处理器1002、通信接口1003通过总线1004实现彼此之间的通信连接。

存储器1001可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器1001可以存储程序，当存储器1001中存储的程序被处理器1002执行时，处理器1002和通信接口1003用于执行本申请实施例的数据流传输方法中的各个步骤。

处理器1002可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的音频特征补偿装置或音频识别装置中的单元所需执行的功能，或者执行本申请方法实施例的数据流传输方法。

处理器1002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的数据流传输方法中的各个步骤可以通过处理器1002中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1002还可以是通用处理器、数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field ProgrammableGate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1001，处理器1002读取存储器1001中的信息，结合其硬件完成本申请实施例的用户设备或头戴设备中包括的单元所需执行的功能，或者执行本申请方法实施例的数据流传输方法中的各个步骤。

通信接口1003可以为收发器一类的收发装置，来实现网页搜索装置1000与其他设备或通信网络之间的通信；通信接口1003也可以为输入-输出接口，来实现网页搜索装置1000与输入-输出设备之间的数据传输，其中，输入-输出设备包括但不限于键盘、鼠标、显示屏、U盘以及硬盘。

总线1004可包括在装置网页搜索装置1000各个部件(例如，存储器1001、处理器1002、通信接口1003)之间传送信息的通路。

应理解，上述的处理单元902相当于网页搜索装置1000中的处理器1002。

应注意，尽管图10所示网页搜索装置1000仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，网页搜索装置1000还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，网页搜索装置1000还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，网页搜索装置1000也可仅仅包括实现本申请实施例所必须的器件，而不必包括图10中所示的全部器件。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。在本申请的文字描述中，字符“/”，一般表示前后关联对象是一种“或”的关系；在本申请的公式中，字符“/”，表示前后关联对象是一种“相除”的关系。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种网页搜索方法，其特征在于，包括：

获取查询语句的语义向量；

根据所述查询语句的语义向量以及多个网页中每个网页的特征信息，确定所述查询语句与所述每个网页之间的相似度，所述每个网页的特征信息用于表征所述每个网页的第一语义聚合信息以及至少一个第二语义聚合信息，其中，所述第一语义聚合信息是对所述多个网页的语义信息进行语义聚合得到的，所述至少一个第二语义聚合信息是对所述多个网页中与所述每个网页具有相同主题的网页的语义信息进行语义聚合得到的，在对所述每个网页进行语义聚合过程中所述每个网页的权重大于参与所述语义聚合过程中的其他网页的权重；

根据所述查询语句与所述每个网页之间的相似度，得到所述查询语句的查询结果，所述查询结果为所述多个网页中的至少一个。

2.根据权利要求1所述的方法，其特征在于，对于第一网页，其中，所述第一网页为所述多个网页中的任意一个；

所述第一网页的第一语义聚合信息通过第二向量表示，所述第二向量是对所述多个网页中每个网页的第一向量进行语义聚合得到的，所述每个网页的第一向量用于表示所述每个网页的语义信息；

所述第一网页的至少一个第二语义聚合信息通过至少一个第三向量表示；所述至少一个第三向量中的每一个第三向量都对应所述第一网页包括的一个主题，且所述至少一个第三向量中的每一个第三向量对应的主题都不同；其中，所述至少一个第三向量中，每个第三向量是对所述第一网页的第一向量以及第二网页的第一向量进行语义聚合得到的，所述第二网页是所述多个网页中，包含与所述每个第三向量对应的主题的网页。

3.根据权利要求2所述的方法，其特征在于，

所述第一网页的至少一个第三向量还与拓扑图有关，所述拓扑图指示所述多个网页之间的关联关系。

4.根据权利要求3所述的方法，其特征在于，

所述拓扑图包括至少一个子拓扑图，所述至少一个第三向量中的每一个第三向量都对应所述至少一个子拓扑图中的一个子拓扑图，且所述至少一个第三向量中的每一个第三向量对应的子拓扑图都不相同；所述每个第三向量对应的子拓扑图中的网页包括所述第一网页以及所述第二网页；

所述每个第三向量是对所述每个第三向量对应的子拓扑图中的所述第一网页和所述第二网页进行语义聚合得到。

5.根据权利要求4所述的方法，其特征在于，

所述至少一个子拓扑图中的每一个子拓扑图都对应至少一个网页组中的一个网页组，且所述至少一个子拓扑图中的每一个子拓扑图对应的网页组都不相同，其中，所述至少一个网页组中的每个网页组是由所述多个网页中包含有与所述每个网页组对应的主题的网页组成；

所述至少一个子拓扑图中的每个子拓扑图是将所述每个子拓扑图对应的网页组中的网页从所述拓扑图中抽取出来的。

6.根据权利要求1-5中任一项所述的方法，其特征在于，

所述每个网页的特征信息还包括所述每个网页的第一向量，所述每个网页的第一向量指示所述每个网页的语义信息。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述每个网页的特征信息以一个矩阵表示，根据所述查询语句的语义向量以及多个网页中每个网页的特征信息，确定所述查询语句与所述每个网页之间的相似度之前，所述方法还包括：

根据所述矩阵中各个向量的权重，将所述每个网页对应的矩阵转化为目标向量，所述目标向量指示所述每个网页的特征信息；

所述根据所述查询语句的语义向量以及多个网页中每个网页的特征信息，确定所述查询语句与所述每个网页之间的相似度，包括：

计算所述查询语句的语义向量与所述目标向量的相似度，所述相似度指示所述查询语句与所述目标向量对应的网页的相关性。

8.根据权利要求7述的方法，其特征在于，根据所述矩阵中各个向量的权重，将所述每个网页对应的矩阵转化为目标向量之前，所述方法还包括：

确定所述查询语句的语义向量与所述矩阵中各个向量之间的相似度；

根据所述查询语句的语义向量与所述矩阵中各个向量之间的相似度，确定所述矩阵中各个向量的权重。

9.一种网页搜索装置，其特征在于，包括获取单元和处理单元；

所述获取单元，用于获取查询语句；

所述处理单元，用于获取所述查询语句的语义向量；根据所述查询语句的语义向量以及多个网页中每个网页的特征信息，确定所述查询语句与所述每个网页之间的相似度，所述每个网页的特征信息用于表征所述每个网页的第一语义聚合信息以及至少一个第二语义聚合信息，其中，所述第一语义聚合信息是对所述多个网页的语义信息进行语义聚合得到的，所述至少一个第二语义聚合信息是对所述多个网页中与所述每个网页具有相同主题的网页的语义信息进行语义聚合得到的，在对所述每个网页进行语义聚合过程中所述每个网页的权重大于参与所述语义聚合过程中的其他网页的权重；根据所述查询语句与所述每个网页之间的相似度，得到所述查询语句的查询结果，所述查询结果为所述多个网页中的至少一个。

10.根据权利要求9所述的装置，其特征在于，

对于第一网页，其中，所述第一网页为所述多个网页中的任意一个；

11.根据权利要求10所述的装置，其特征在于，

12.根据权利要求9或10所述的装置，其特征在于，

13.根据权利要求9或10所述的装置，其特征在于，

14.根据权利要求9-13中任一项所述的装置，其特征在于，

15.根据权利要求9-14中任一项所述的装置，其特征在于，

所述每个网页的特征信息以一个矩阵表示，根据所述查询语句的语义向量以及多个网页中每个网页的特征信息，在所述处理单元确定所述查询语句与所述每个网页之间的相似度之前，所述处理单元，还用于根据所述矩阵中各个向量的权重，将所述每个网页对应的矩阵转化为目标向量，所述目标向量指示所述每个网页的特征信息；

在所述处理单元根据所述查询语句的语义向量以及多个网页中每个网页的特征信息，确定所述查询语句与所述每个网页之间的相似度方面，所述处理单元，具体用于：

16.根据权利要求15所述的装置，其特征在于，所述处理单元根据所述矩阵中各个向量的权重，将所述每个网页对应的矩阵转化为目标向量之前，所述处理单元，还用于：

17.一种网页搜索装置，其特征在于，包括：存储器，用于存储程序；处理器，用于执行存储器存储的程序；当存储器存储的程序被执行时，处理器用于实现权利要求1-8中任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储用于设备执行的程序代码，所述程序代码包括用于实现权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得实施计算机执行权利要求1-8中任一项所述的方法。