CN108763321A

CN108763321A - 一种基于大规模相关实体网络的相关实体推荐方法

Info

Publication number: CN108763321A
Application number: CN201810408517.2A
Authority: CN
Inventors: 李舟军; 陈小明; 王芳
Original assignee: Shenzhen Smart Technology Co Ltd
Current assignee: Shenzhen Smart Technology Co Ltd
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2018-11-06
Anticipated expiration: 2038-05-02
Also published as: CN108763321B

Abstract

本发明涉及一种基于大规模相关实体网络的相关实体推荐方法：S1.相关实体网络构建，从互联网中海量的实体描述页面抽取大规模相关实体，并利用标题实体与正文实体之间的描述与被描述关系构建大规模相关实体网络；S2.实体相关度计算，基于大规模相关实体网络，采用基于实体概念和共邻近实体的语义相似度，以及基于图结构的链接分析技术计算实体相关度，以此作为特征用于相关实体排序；S3.相关实体推荐，基于上述两个步骤为给定查询实体推荐相关实体。本发明可快速有效地基于海量Web文本，挖掘数百万的高质量实体以及千万级的实体关系，构建跨领域、大规模、高质量的相关实体网络；本发明可显著提升实体推荐的准确率和新颖性。

Description

一种基于大规模相关实体网络的相关实体推荐方法

技术领域

本发明涉及一种基于大规模相关实体网络的相关实体推荐方法，属于信息检索技术领域。

背景技术

自上世纪90年代互联网搜索引擎出现以来，互联网搜索已经成为人们日常生活必不可少的一部分。当前的搜索引擎主要基于关键词匹配的检索模式，导致用户查询通常长度较短、有噪音、带歧义。査询推荐旨在向用户推荐与其输入的查询相关的查询。该技术不仅能帮助用户定位搜索意图，还能够为用户提供与原查询相关的不同查询，引导或预测用户的下一步查询，是改善用户搜索体验、提高搜索引擎服务质量的一种重要方法。

实体查询作为Web查询的一个重要组成部分，在产品搜索、图片搜索等垂直搜索引擎中极为常见。由于实体查询的长度很短，且可能存在歧义性，在这种情况下准确捕捉用户的查询意图非常困难。如果仅考虑推荐内容与原实体查询的相关性，很可能造成冗余推荐。而已有的研究工作大多以查询日志或查询相关文档为数据源，采用基于查询词项、查询共点击或查询共现的相关性计算方法进行相关查询推荐，较多地关注于推荐内容的相关性，而对于引导和启发用户的点击兴趣方面研究的较少。

发明内容

本发明技术解决问题：面向Web实体查询，提供一种基于大规模相关实体网络的相关实体推荐方法。首先利用开放域信息抽取技术，从互联网中海量的实体描述页面抽取大规模相关实体，并利用标题实体与正文实体之间的描述与被描述关系构建大规模相关实体网络；然后利用实体排序技术，以大规模相关实体网络为新的推荐数据源，进行相关实体推荐。

本发明技术解决方案：一种基于大规模相关实体网络的相关实体推荐方法，包括以下步骤：相关实体网络构建、实体相关度计算以及相关实体推荐；其中：

S1.相关实体网络构建，从互联网中海量的实体描述页面抽取大规模相关实体，并利用标题实体与正文实体之间的描述与被描述关系构建大规模相关实体网络。

S2.实体相关度计算，基于步骤S1所构建的大规模相关实体网络，采用基于实体概念和共邻近实体的语义相似度，以及基于图结构的链接分析技术计算实体相关度，以此作为特征用于相关实体排序。

S3.相关实体推荐，基于上述两个步骤为给定查询实体推荐相关实体，具体地，以大规模相关实体网络为新的相关实体推荐数据源，从相关实体网络中提取给定查询的相关实体，结合多种实体相关度特征，采用排序学习技术对相关实体进行排序，选择排位靠前的相关实体用作推荐。

进一步的，步骤S1相关实体网络构建，具体包括以下子步骤；

S1.1识别实体描述页面：首先从网络中爬取了大量的实体描述页面候选集，然后从这些页面中识别出实体描述页面，进而进行相关实体抽取。具体的识别规则为：如果某一网页的标题中包含且仅包含一个实体时，则认为该网页是该实体的描述页面；

S1.2标题实体的提取：给定一个实体描述网页d，首先对其HTML代码进行解析，然后采用基于规则的方法从title标签中提取标题实体，记为

S1.3正文实体的提取：采用基于词典与CRF模型机器学习相结合的混合实体识别方法来抽取相关实体；

S1.4相关实体三元组统计：在信息抽取过程中，以三元组的形式保存抽取结果，即<e_i，e_j，n_ij>，其中e_j表示被描述实体，e_j是其相关实体，n_ij表示e_j在e_i的所有描述页面中出现的总次数；

S1.5实体网络构建：上述步骤S1.2和S1.3所提取的所有实体构成了相关实体网络的实体集合V；利用标题实体和正文实体之间的描述与被描述关系构建相关实体网络；具体地，在相关实体网络中，若存在一条e_j指向e_i的有向边则表明e_j与曾经出现在e_i的描述页面中。形式化地，本发明采用如下方式关联两个相关实体：

其中，d_m为实体e_i的一个描述页面，是该页面提取的相关实体所构成的集合。

进一步的，步骤S2实体相关度计算，具体包括以下子步骤；

S2.1基于实体概念计算实体间的相关度：基于概念向量表示，采用Jaccard和Cosine两种方法计算两个实体之间的语义相似度；

S2.2基于共近邻实体计算实体相关度：与概念层面的相似度计算方法类似，同样使用Jaccard和Cosine计算两个实体在邻近实体上的相关度；

S2.3基于图结构计算实体相关度：采用PageRank和HITS两种链接分析方法对相关实体进行排序；此外基于所构建的相关实体网络，采用度中心性、紧密度中心性和介数中心性三种中心性度量方法计算实体中心性，进而用作实体相关度特征。

进一步的，步骤S3相关实体推荐，具体包括以下子步骤；

S3.1相关实体标注数据集：包含1728个相关实体对，每对由被描述实体和相关实体构成。数据来源为：从10个类别中选出具有代表性的10个被描述实体，每个被描述实体与其在实体网络中的相关实体构成实体对，具体类别有地理、历史、社会、技术、经济、日常生活、艺术、体育、人物和汽车，具有代表性的10个被描述实体包括China、Tang Dynasty、Psychology、Microsoft、Dollar、Chocolate、Gone with the wind、Baseball、WarrenBuffett以及SUV；具体标注方法为：雇佣三个人对1728对相关实体的相关性进行标注，若两实体无关则标注为0，不确定两实体是否相关标注为1，两实体比较相关标注为2，两实体非常相关标注为3。若对于某一实体对，三个标注者意见不统一，则取中间结果。

S3.2实体相关度特征：根据实体相关度计算中的计算方法计算训练数据中实体对之间的相关度，具体特征包括基于概念向量表示的Jaccard和Cosine语义相似度、使用Jaccard和Cosine计算两个实体在邻近实体上的相关度、采用PageRank和HITS算法计算基于图结构的实体相关度、采用度中心性、紧密度中心性和介数中心性三种中心性度量方法计算基于相关实体网络计算实体中心性；

S3.3排序模型训练：结合多种相关度计算方法进行实体推荐，具体地，将每一种相关度计算方法得到的分值作为一维特征，采用排序学习的方法对相关实体进行综合排序；

S3.4实体推荐：针对给定查询实体，从相关实体网络中查找该查询实体的相关实体，依据步骤S3.2计算相关实体与查询实体的相关度特征，最后利用训练好的排序模型对相关实体进行排序，选择排位靠前的相关实体作为推荐结果。

本发明一种基于大规模相关实体网络的相关实体推荐方法，其优点及功效在于：1)利用文档标题实体与正文实体之间的强关联性，可快速有效地基于海量Web文本，挖掘数百万的高质量实体以及千万级的实体关系，构建跨领域、大规模、高质量的相关实体网络；2)提出基于大规模相关实体网络的相关实体推荐方法，综合利用多种实体相关度计算方法进行特征挖掘，采用排序模型进行相关实体推荐，可显著提升实体推荐的准确率和新颖性。此外，所提方法在实际应用中取得了非常好的推荐效果，服务于面向实体的相关话题推荐应用，在电影和音乐频道的实体推荐场景中，点击率(CTR，Click-Through-Rate)分别提升了36.8％和80.0％。

附图说明

图1为本发明***的组成框图；

图2为本发明相关实体网络构建模块框架

图3为本发明正文实体抽取流程；

图4为本发明相关实体网络示例；

图5为本发明相关实体推荐模型框架。

具体实施方式

下面结合附图，对本发明的技术方案做进一步的说明。

如图1所示，本发明一种基于大规模相关实体网络的相关实体推荐方法，包括如下步骤：相关实体网络构建：首先利用网络中海量的实体描述页面提取大量相关实体，然后利用标题实体与正文实体之间的描述与被描述关系构建相关实体网络；实体相关度计算：基于所构建的相关实体网络，采用多种相关度计算方法度量实体之间的相关度，包括基于共近邻实体和共近邻概念的语义相似度以及基于图结构的链接分析技术等，以此作为实体相关度特征；相关实体推荐：综合利用相关实体之间的多种相关度特征，采用排序学习技术进行相关实体推荐。

具体描述如下：

S1.相关实体网络构建

主要从网络中爬取实体描述页面，并从页面中提取标题实体与正文实体，以此构建相关实体网络。本发明所构建的相关实体网络(related entity network,缩写为REN)，是一个有向图，其中；

V＝{e₁，e₂，...，e_n}，是图中所有实体构成的集合，从百万级的实体页面中抽取而来；

是图中有向变构成的集合；

为权重度量函数，为每一个条边赋予一个权值w。

具体包括实体描述页面识别、标题实体提取、正文实体提取以及实体网络构建等工作。如图2给出的流程框图。

S1.1识别实体描述页面

本发明首先从网络中爬取了大量的实体描述页面候选集，包括***页面和从垂直电商网站中爬取的电影、音乐、书籍、产品等页面。然后，从这些页面中识别出实体描述页面，进而进行相关实体抽取。具体的识别规则为：如果某一网页的标题中包含且仅包含一个实体时，则认为该网页是该实体的描述页面。

S1.2标题实体的提取

受到文章标题一般能够反映文章的主要内容这一事实的启发，本发明提出从页面标题中提取被描述实体。具体地，给定一个实体描述网页d，本发明首先对其HTML代码进行解析，然后采用基于规则的方法从title标签中提取标题实体，记为举例来说，以Movies.com网站中的“Spectre”页面为例，其中的<title>标签为<title>Spectre—Movies.com<title>，可以很容易地定义规则来提取实体“Spectre”：<title>(.*)—Movies.com<title>。这样一条规则即是一个封装器(wrapper)。

S1.3正文实体的提取

给定标题实体的页面d，本发明进一步解析页面中的正文文本，进而从正文中提取的相关实体。正文实体的提取流程如图3所示。具体而言，本发明采用基于词典与CRF模型机器学习相结合的混合实体识别方法来抽取相关实体。具体而言，本文使用Freebase作为实体词典，利用SharpNLP进行文本解析，包括断句、句法分析等，并利用Stanford NER识别句中命名实体，最后综合词典和工具识别出的相关实体。为过滤噪音，本文去掉了仅包含一个字节、数字以及出现次数小于3的相关实体。

S1.4相关实体三元组统计

在信息抽取过程中，本发明以三元组的形式保存抽取结果，即<e_i,e_j,n_ij>，其中e_i表示被描述实体，e_j是其相关实体，n_ij表示e_j在e_i的所有描述页面中出现的总次数，例如<iron man 3,tony,4>。本发明主要使用***为主要的数据源，同时考虑了一些面向特定领域的垂直网站，最终共计提取了3.9M(百万)的实体以及77M的标题实体与正文实体关系。

S1.5实体网络构建

上述S1.2和S1.3步骤所提取的所有实体构成了相关实体网络的实体集合V。如前文所述，本发明利用标题实体和正文实体之间的描述与被描述关系构建相关实体网络。具体地，在相关实体网络中，若存在一条e_j指向e_i的有向边则表明e_j与曾经出现在e_i的描述页面中。形式化地，本发明采用如下方式关联两个相关实体：

其中，d_m为实体e_i的一个描述页面，是该页面提取的相关实体所构成的集合。本发明所构建的相关实体网络包含大量相关实体。图4给出了相关实体网络的示意图，其中边上权值为tf-idf。从图4可以看出，对于被描述实体ipad，其相关实体包括apple inc.、touchscreen、wireless、tablet、apple store等。与此同时，ipad也是iphone的相关实体。可以看出，在相关实体网络中，被描述实体与其相关实体具有很强的关联关系。注意本发明并不涉及具体的关系提取，通过计算这种隐式的关联关系强度，相关实体网络可以服务相关实体推荐。

S2.实体相关度计算

主要完成基于相关实体网络的实体相关度计算工作，下面具体介绍本发明使用的相关度计算方法。

S2.1基于实体概念计算实体间的相关度

从实体概念层面考虑，属于相似概念的实体彼此间具有语义相似性。比如AppleInc.和Google两个实体语义相关，因为它们同属于IT公司。为获取实体概念层面的语义信息，本发明通过Probase知识库为待测实体赋予一个概念集。具体而言，本发明以Probase包含的所有实体为词典，以查表的方式为待测实体提取概念向量。对于给定实体，通过查表获取其所有可能的概念，进而利用概念典型性typicality概率对候选概念进行排序，最后凭经验选取前20个概念作为该实体的概念向量表示。基于概念向量表示，本发明采用Jaccard和Cosine两种方法计算两个实体之间的语义相似度。比如，Concept_jac(China,India)＝0.99说明China和India两个实体在概念层面非常相似，两者同属于Country、DevelopingCountry、Asia等概念。

S2.2基于共近邻实体计算实体相关度

从邻近实体角度考虑，在相关实体网络中具有相似邻居的实体彼此间也具有相似性。与概念层面的相似度计算方法类似，本发明同样使用Jaccard和Cosine计算两个实体在邻近实体上的相关度。

S2.3基于图结构计算实体相关度

在相关实体网络中，实体的图结构特征比如PageRank分值可以反映出该实体的流行度或重要度方面的信息。以iPhone为例，在REN中Steven Jobs的PageRank分值就高于Hutchison 3G。越流行/重要的实体用户越可能感兴趣，从这个角度考虑，实体的重要度特征对实体相关度排序有影响。PageRank和HITS是两种著名的链接分析方法，本文主要采用这两种方法对相关实体进行排序。此外，在网络分析中，节点的中心性反应了网络节点的重要程度。本发明基于所构建的相关实体网络，采用度中心性、紧密度中心性和介数中心性三种中心性度量方法计算实体中心性，进而用作实体相关度特征。

S3.相关实体推荐

根据用户输入的实体查询，从相关实体网络中按照全字匹配的方式定位网络实体，进而从相关实体网络中获取与该实体相连的所有实体作为相关实体，采用排序学习技术对相关实体进行排序，最终选择排位靠前的相关实体用作推荐。图5给出了工作流程图，主要包括标注数据集、相关度特征提取、排序模型训练以及实体推荐。下面给出具体介绍。

S3.1相关实体标注数据集

本发明构建了一个数据集用来训练排序模型。具体地，本发明从相关实体网络中收集了1728对相关实体，其中每一个实体对由一个被描述实体和它的一个相关实体构成。具体地，从十个类别中选出了十个具有代表性的实体：China(地理)、Tang Dynasty(历史)、Psychology(社会)、Microsoft(技术)、Dollar(经济)、Chocolate(日常生活)、Gone withthe wind(艺术)、Baseball(体育)、Warren Buffett(人物)以及SUV(汽车)。以这些实体为实体查询，从REN中获取其相关实体，进行人工标注。然后，雇佣三个人对1728对相关实体的相关性进行标注。两实体无关则标注为0，不确定两实体是否相关标注为1，两实体比较相关标注为2，两实体非常相关标注为3。若对于某一实体对，三个标注者意见不统一，则取中间结果。

S3.2实体相关度特征

本发明根据实体相关度计算模块中的计算方法计算训练数据中实体对之间的相关度。具体而言，标注数据中包含1728个标注的实体对。对于每一个实体查询，随机选取20个标注结果作为一个测试组，共计81组相关实体排序数据。本发明实现了四种语义相似度以及PageRank、Hits和节点度中心性三种图结构相关度。

S3.3排序模型训练

本发明结合多种相关度计算方法进行实体推荐。具体地，将每一种相关度计算方法得到的分值作为一维特征，采用排序学习(learning to rank)的方法对相关实体进行综合排序。本发明使用Ranking SVM作为学习模型。

S3.4实体推荐

在实体推荐中，本发明针对给定查询实体，从相关实体网络中查找该查询实体的相关实体，依据步骤3.2计算相关实体与查询实体的相关度特征，最后利用训练好的排序模型对相关实体进行排序，选择排位靠前的相关实体作为推荐结果。例如，给定查询实体“iphone 6”，推荐“galaxy s7”、“oppo r9”、“iPad mini”等。

Claims

1.一种基于大规模相关实体网络的相关实体推荐方法，其特征在于：该方法包括以下步骤：相关实体网络构建、实体相关度计算以及相关实体推荐；其中：

S1.相关实体网络构建，从互联网中海量的实体描述页面抽取大规模相关实体，并利用标题实体与正文实体之间的描述与被描述关系构建大规模相关实体网络；

S2.实体相关度计算，基于步骤S1所构建的大规模相关实体网络，采用基于实体概念和共邻近实体的语义相似度，以及基于图结构的链接分析技术计算实体相关度，以此作为特征用于相关实体排序；

2.根据权利要求1所述的一种基于大规模相关实体网络的相关实体推荐方法，其特征在于：所述步骤S1相关实体网络构建，具体包括以下子步骤；

S1.1 识别实体描述页面：首先从网络中爬取了大量的实体描述页面候选集，然后从这些页面中识别出实体描述页面，进而进行相关实体抽取；具体的识别规则为：如果某一网页的标题中包含且仅包含一个实体时，则认为该网页是该实体的描述页面；

S1.2 标题实体的提取：给定一个实体描述网页d，首先对其HTML代码进行解析，然后采用基于规则的方法从title标签中提取标题实体，记为

S1.3 正文实体的提取：采用基于词典与CRF模型机器学习相结合的混合实体识别方法来抽取相关实体；

S1.4 相关实体三元组统计：在信息抽取过程中，以三元组的形式保存抽取结果，即＜e_i，e_j，n_ij>，其中e_i表示被描述实体，e_j是其相关实体，n_ij表示e_j在e_i的所有描述页面中出现的总次数；

S1.5 实体网络构建：上述步骤S1.2和S1.3所提取的所有实体构成了相关实体网络的实体集合V；利用标题实体和正文实体之间的描述与被描述关系构建相关实体网络；具体地，在相关实体网络中，若存在一条e_j指向e_i的有向边则表明e_j与曾经出现在e_i的描述页面中；形式化地，采用如下方式关联两个相关实体：

3.根据权利要求1所述的一种基于大规模相关实体网络的相关实体推荐方法，其特征在于：所述步骤S2实体相关度计算，具体包括以下子步骤：

S2.1 基于实体概念计算实体间的相关度：基于概念向量表示，采用Jaccard和Cosine两种方法计算两个实体之间的语义相似度；

S2.2 基于共近邻实体计算实体相关度：与概念层面的相似度计算方法类似，同样使用Jaccard和Cosine计算两个实体在邻近实体上的相关度；

S2.3 基于图结构计算实体相关度：采用PageRank和HITS两种链接分析方法对相关实体进行排序；此外基于所构建的相关实体网络，采用度中心性、紧密度中心性和介数中心性三种中心性度量方法计算实体中心性，进而用作实体相关度特征。

4.根据权利要求1所述的一种基于大规模相关实体网络的相关实体推荐方法，其特征在于：所述步骤S3相关实体推荐，具体包括以下子步骤：

S3.1 相关实体标注数据集：包含1728个相关实体对，每对由被描述实体和相关实体构成；数据来源为：从10个类别中选出具有代表性的10个被描述实体，每个被描述实体与其在实体网络中的相关实体构成实体对，具体类别有地理、历史、社会、技术、经济、日常生活、艺术、体育、人物和汽车，具有代表性的10个被描述实体包括China、Tang Dynasty、Psychology、Microsoft、Dollar、Chocolate、Gone with the wind、Baseball、WarrenBuffett以及SUV；具体标注方法为：雇佣三个人对1728对相关实体的相关性进行标注，若两实体无关则标注为0，不确定两实体是否相关标注为1，两实体比较相关标注为2，两实体非常相关标注为3；若对于某一实体对，三个标注者意见不统一，则取中间结果；

S3.2 实体相关度特征：根据实体相关度计算中的计算方法计算训练数据中实体对之间的相关度，具体特征包括基于概念向量表示的Jaccard和Cosine语义相似度、使用Jaccard和Cosine计算两个实体在邻近实体上的相关度、采用PageRank和HITS算法计算基于图结构的实体相关度、采用度中心性、紧密度中心性和介数中心性三种中心性度量方法计算基于相关实体网络计算实体中心性；

S3.3 排序模型训练：结合多种相关度计算方法进行实体推荐，具体地，将每一种相关度计算方法得到的分值作为一维特征，采用排序学习的方法对相关实体进行综合排序；

S3.4 实体推荐：针对给定查询实体，从相关实体网络中查找该查询实体的相关实体，依据步骤S3.2计算相关实体与查询实体的相关度特征，最后利用训练好的排序模型对相关实体进行排序，选择排位靠前的相关实体作为推荐结果。