CN107958068B

CN107958068B - 一种基于实体知识库的语言模型平滑方法

Info

Publication number: CN107958068B
Application number: CN201711265786.XA
Authority: CN
Inventors: 赵峰; 田泽亮; 沈燏; 金海�
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2020-02-14
Anticipated expiration: 2037-12-05
Also published as: CN107958068A

Abstract

本发明公开一种基于实体知识库的语言模型平滑方法，包括：预先确定实体知识库；采用最大似然估计法，对语料库中的每篇文档构建原始文档语言模型，以及对整个语料库构建语料库语言模型；使用命名实体识别技术识别每篇文档中的命名实体，使用命名实体链接技术将识别的命名实体链接到实体知识库中实体上，将每篇文档与实体知识库之间建立联系；根据实体链接，提取每篇文档中的命名实体在实体知识库中的信息，融合成每篇文档的背景知识文档，采用最大似然估计法，构建背景知识语言模型；结合背景知识语言模型和语料库语言模型两种语言模型信息，对原始文档语言模型进行两次平滑。本发明提高了平滑后语言模型的鲁棒性。

Description

一种基于实体知识库的语言模型平滑方法

技术领域

本发明涉及计算机信息检索技术领域，更具体地，涉及一种基于实体知识库的语言模型平滑方法。

背景技术

语言模型是描述自然语言内在规律的数学模型。它广泛地应用于语音识别、手写体文字识别、机器翻译、信息检索和词性识别等自然语言处理领域。在信息检索中，许多著名的检索模型都是以语言模型为基础的，如，SDM(sequential dependence model)、LDA(latent dirichlet allocation)、RM3(relevance mode)等。给定文档的语言模型，根据概率计算公式

可以计算出从文档d的主题中采样得到查询语句q的概率，从而衡量查询语句q和文档d之间的语义相关性。

由上可知，首先要估算文档的语言模型，才能计算文档与查询语句之间的相关性。通常最简单计算方式的是使用最大似然估计法来估计文档的语言模型，即

其中count(w_i,d)表示单词w_i在文档d中出现的次数，分母是统计所有单词w′在文档d中出现次数之和，即文档的单词总数。但是这种方法存在两个缺点：1)对于文档中没有出现的缺失词，是没有办法估算它的概率；2)计算得到的单词概率只反映了单词文档中的频率信息，不能完全反映单词与文档的语义相关性。

针对上述缺点，学术界和工业界提出了很多平滑方法。大致可以分为三类：1)基于语料库的平滑方法，这类方法首先根据语料库中的所有文档构建语料库语言模型，再通过插值或回退的方法，把原文档语言模型和语料库语言模型进行相加，得到最后平滑后的语言模型；2)文档扩展技术(Document Expansion)，这类方法没有显式的对文档进行平滑，是隐式的向文档中添加与文档相关的文本信息来修正文档语言模型，通常文档相关信息来源有超链接、用户历史查询语句和用户批注三类；3)基于图的平滑方法，这类方法通过文档构建单词图谱，利用类似于PageRank的算法来计算单词的重要度，根据得到的单词重要度来估算单词的概率。

我们认为一个准确的语言模型应该是与文档主题相关，应该是反映单词在文档主题的背景下的概率分布，应该能够通过概率反映单词与文档主题之间的相关性，进而才能正确的反映查询语句和文档之间的相关性。

而上述现有的平滑方法中：第一类方法使用的是通用的语料库语言模型，是文档无关的，没有考虑文档中的任何语义信息，自然也不能很好的估计单词与文档主题的相关性；第二类方法提取文档相关信息的方法不具有普遍性，不是所有的文档都能搜集到相关信息，而且信息来源的质量得不到保证；第三类方法也没有直接衡量单词与文档主题的相关性，并且仅局限于文档中的单词，对于文档缺失词中的相关单词无法进行优化。

发明内容

针对现有技术的缺陷，本发明的目的在于解决现有平滑方法使用的是通用的语料库语言模型，是文档无关的，没有考虑文档中的任何语义信息，自然也不能很好的估计单词与文档主题的相关性；且提取文档相关信息的方法不具有普遍性，不是所有的文档都能搜集到相关信息，而且信息来源的质量得不到保证；以及没有直接衡量单词与文档主题的相关性，并且仅局限于文档中的单词，对于文档缺失词中的相关单词无法进行优化的技术问题。

为实现上述目的，本发明提供一种基于实体知识库的语言模型平滑方法，包括以下步骤：

(1)预先确定实体知识库，所述实体知识库作为命名实体链接的目标，根据实体对实体知识库中的实体信息建立索引，以方便后续步骤中检索查询实体知识库中的实体信息；

(2)采用最大似然估计法，对语料库中的每篇文档构建原始文档语言模型，以及对整个语料库构建语料库语言模型；

(3)使用命名实体识别技术识别每篇文档中的命名实体，使用命名实体链接技术将识别的命名实体链接到实体知识库中实体上，将每篇文档与实体知识库之间建立联系，以方面后续从实体知识库中提取和文档主题相关的信息；

(4)根据实体链接，提取每篇文档中的命名实体在实体知识库中的信息，融合成每篇文档的背景知识文档，采用最大似然估计法，构建背景知识语言模型，这样的背景知识语言模型是以文档中的实体作为桥梁，从实体知识库中得到的，包含文档背景知识语义信息的语言模型，它与文档语义主题密切相关的，可以用来衡量查询语句中的单词与文档语义主题之间的相关性；

(5)结合背景知识语言模型和语料库语言模型两种语言模型信息，对原始文档语言模型进行两次平滑，使得平滑后的语言模型具有更高的鲁棒性和准确度。

可选地，步骤(1)包括以下子步骤：

(1-1)根据***中包含的文档的特点，构建或选取已有的合适的实体知识库，作为文档中命名实体链接的目标；

(1-2)对实体知识库进行过滤处理，只保留描述实体信息的文本；

(1-3)根据能唯一确定一个实体的实体ID，对与该实体ID对应的文本建立索引。

可选地，步骤(2)包括以下子步骤：

(2-1)对语料库中的每篇文档，采用最大似然估计方法，建立原始文档语言模型，表示为θ_d原，计算公式为

其中P(w_i|θ_d原)表示单词w_i在原始文档语言模型θ_d原中的概率，count(w_i,d)表示单词w_i在文档d中出现的次数，|d|表示文档中的单词总个数；

(2-2)采用最大似然估计方法，对整个语料库建立语料库语言模型，表示为θ_D，计算公式为

其中P(w_i|θ_D)表示单词w_i在语料库语言模型θ_D中的概率，count(w_i,D)表示单词w_i在语料库D中出现的次数，|D|表示语料库中的单词总个数。

可选地，步骤(3)包括以下子步骤：

(3-1)对语料库中的每篇文档依次进行处理，当前正在处理的文档表示为d，使用命名实体识别链接工具，将每篇文档中的命名实体链接到步骤(1)中构建的实体知识库上，得到命名实体在实体知识库中的实体ID，其中所述命名实体识别链接工具可以使用TagMe或Wikifier。

可选地，步骤(4)包括以下子步骤：

(4-1)对于语料库中的每篇文档依次进行处理，当前正在处理的文档表示为d，建立该文档对应的背景知识文档，表示为d_E，初始时d_E为空；

(4-2)根据步骤(3-1)，可以在文档d中识别命名实体以及对应的实体ID，检索步骤(1-3)中建立的索引，得到相应的实体文本信息，表示为e_kb；

(4-3)将文档d中得到的所有实体文本信息e_kb添加到背景知识文档d_E中；

(4-4)采用最大似然估计方法，对背景知识文档d_E建立背景知识语言模型，表示为θ_{d_E}，计算公式为

其中P(w_i|θ_{d_E})表示单词w_i在背景知识语言模型θ_{d_E}中的概率，count(w_i,d_E)表示单词w_i在背景知识文档d_E中出现的次数，|d_E|表示背景知识文档中的单词总个数。

可选地，步骤(5)包括以下子步骤：

(5-1)对于语料库中的每篇文档d，获取步骤(2)中得到的原始文档语言模型θ_d原和步骤(4)中得到的背景知识语言模型θ_{d_E}，根据计算公式

得到一级平滑语言模型θ₁，其中P(w_i|θ₁)表示单词w_i在一级平滑语言模型θ₁中的概率，|d|表示文档d中的单词总个数；

(5-2)根据语料库语言模型θ_D对子步骤(5-1)中得到一级平滑语言模型θ₁进行二级平滑，计算公式为

计算得到最终平滑后的语言模型θ_{d_smoothed}，其中P(w_i|θ_{d_smoothed})表示单词w_i在最终平滑后的语言模型θ_{d_smoothed}中的概率，|d|表示文档d中的单词总个数，α和β需要确定的两个自由参数；

(5-3)步骤(5-2)中所述自由参数α和β，可以使用grid search方法来学***均准确率(Mean Average Precision，MAP)，训练数据集可以使用信息检索领域中公开的测试集，所述训练测试集可以使用clueweb09或clueweb12；

(5-4)步骤(5-2)中计算得到平滑后的语言模型θ_{d_smoothed}为对背景知识语言模型进行两级平滑的最终结果。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

1、首次提出利用实体知识库中的信息，构建背景知识语言模型，来估计在文档主题下单词概率分布：本发明认为文档中的实体及它们之间的关系构成了文档的主题，而这些实体在实体知识库中的背景知识信息公共构成了文档主题的背景知识，利用这些知识信息可以构建关于文档的背景知识语言模型，这样的背景知识语言模型代表的是在文档主题下单词的概率分布，这样的背景知识语言模型是文档主题相关的，这样的背景知识语言模型可以较为全面的覆盖与文档主题相关的单词，进而很好的区分文档相关单词和文档不相关单词，尤其是可以很好的识别缺失词中的与文档相关的单词。

2、通用、便捷、高质量的平滑信息提取方法：实体作为基本的语义单位，普遍、大量存在于文档之中，而实体知识库通常是由人工或可靠技术层层提炼、总结得到的高质量语义信息源，通过文档中实体链接到实体知识库中来搜集与文档相关的语义信息的方法，具有广泛通用性，且信息源质量高。而现有的文档扩展的平滑方法中，通常要采用一定的手段去搜集与文档相关的文本。首先搜集方法并不是对所有文档都通用，可能出现部分文档搜集不到相关文本的情况。其次根据相关性评价方法的不同和文本信息来源的不同，相关文本的质量得不到保证。

3、多层次的、高鲁棒性的平滑公式：本发明首次提出结合原始文档语言模型、背景知识语言模型和语料库语言模型三种信息源的语言模型计算公式，公式为

从多维度、全方面的衡量单词与文档之间的相关性，避免了单一信息源估计单词概率时出现偏执现象，从而提高平滑后语言模型的鲁棒性。

附图说明

图1是本发明提供的基于实体知识库的语言模型平滑方法的整体流程图；

图2是本发明提供的文档语言模型、背景知识语言模型、语料库语言模型的关系示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

首先对本发明中的技术术语进行解释和说明：

文档：指包含文本信息的文档。如：在信息检索***中被检索的网页、论文、PPT等。

语料库：指一个***中它所包含的所有文档的集合。如：在一个信息检索***中，它用爬虫爬到，并索引的所有文档构成的集合。

实体：客观存在并可相互区别的事物称之为实体。实体可以是具体的人、事、物，也可以是抽象的概念或联系。

实体知识库：本发明中涉及的实体知识库指以实体为中心的知识库。如：***、百度百科、FreeBase、DBpeida等实体知识库。实体知识库每个词条都对应一个具体的实体，并包含丰富的关于该实体的文本解释信息。

语言模型：语言模型是一种概率分布模型，表示单词w从该语言模型中采样得到的概率。本发明中的语言模型特指一元语言模型。

本发明公开一种基于实体知识库的语言模型平滑方法。其思想在于创新性的通过实体作为桥梁，利用实体在实体知识库中的背景知识信息，构建文档主题相关的背景知识语言模型，来对原文档语言模型进行平滑。在传统的平滑方法中，大多是利用语料库模型来对原始文档语言模型进行平滑，而语料库模型是文档无关的，是从全局的角度来统计单词的概率分布，没有考虑单词与文档之间的相关性。本发明认为文档中的实体及它们之间的关系构成了文档的主题，而这些实体在实体知识库中的背景知识信息公共构成了文档主题的背景知识，利用这些知识信息可以构建关于文档的背景知识语言模型，这样的背景知识语言模型代表的是在文档主题下单词的概率分布，这样的背景知识语言模型是文档主题相关的。相对传统的平滑方法，本发明公开的方法可以更加准确的估计文档相关单词的概率，尤其是缺失词中文档相关单词的概率。

本发明认为对语言模型进行平滑的目的应该是让单词在语言模型中概率能够更加准确的反映单词与文档主题之间的相关性，或者说是平滑后的语言模型应该更加准确的反映的是在文档主题下的单词的概率分布。所以不同于第一类平滑方法，我们认为应该使用文档主题相关的外部信息来对语言模型进行平滑，而不是通用的语料库语言模型。因为语料库中的信息是与单个文档主题无关的，反映的是全局的，泛化的信息。

我们发现，绝大多数的文档主题都可以用文档中的实体以及它们之间的关系进行概括，所以我们将计算文档主题下单词概率分布的问题，转化为计算多个实体及其关系下单词概率分布的问题。如果能够得到每个实体主题下的单词概率分布，我们就可以根据实体在文档主题中的重要性，对文档主题中涉及的所有实体的语言模型加权相加得到文档主题下的单词概率分布。这样就可以估计得到一个文档主题下的单词概率分布，这个概率分布是与文档主题相关的，用它对原文档语言模型进行平滑，可以使得原文档语言模型更加接近文档的主题。

在第二类方法中也是从外部获取文档相关信息对原文档进行平滑，但信息源的质量得不到保证。介于此，我们这里考虑使用高质量的实体知识库作为评估实体主题下单词概率分布的信息源。对于文档主题中的每一个实体，我们都可以在实体知识库中找到相应的全面的描述信息。这些描述信息都是围绕该实体主题所编写的，反映的是该实体主题下单词的概率分布。由于实体知识库大多是经过人工编写的，或者由高质量算法严格筛选得到的，所以用实体知识库中关于实体的描述信息来估计该实体主题下的单词概率分布，是较为全面准确的。所以通过实体知识库可以较为准确的得到单个实体主题下单词的概率分布。

而且，与文档主题相关的单词，通常都会与文档中的一个或者多个实体相关。因为实体知识库可以覆盖关于一个实体的所有相关信息，所以可以文档主题中涉及的所有实体的语言模型加权相加得到文档主题下的单词概率分布可以全面的覆盖于文档主题相关的单词，尤其是可以覆盖那些与文档主题相关，但是没有出现在文档中的相关单词。

鉴于上述分析，本发明提出一种基于实体知识库的语言模型平滑方法，希望通过构建文档主题的背景知识语言模型，来获取文档主题下的单词的概率分布。本发明方法特点在于首次提出利用文档中实体作为桥梁，利用实体在实体知识库中的背景知识信息，构建得到文档主题相关的背景知识语言模型，接着对原文档语言模型进行两次平滑处理。

在传统的平滑方法中，大多是利用语料库模型来对原始文档语言模型进行平滑，而语料库模型是文档无关的，是从全局的角度来统计单词的概率分布，没有考虑单词与文档之间的相关性。本发明认为文档中涉及大量的实体，而这些实体以及它们之间的关系构成了文档的语义主题。这些与实体相关的实体背景知识与文档的语义主题也相关。所以文档中的所有实体在实体知识库中的信息，共同构成了文档主题的背景知识。而且实体知识库通常会较为全面的覆盖与实体相关的所有信息。因此，通过实体知识库构建的背景知识语言模型，可以较为全面的覆盖与文档主题相关的单词。这样的背景知识语言模型可以全面准确的代表的是在文档主题下单词的概率分布，这样的背景知识语言模型是文档主题相关的。

相对传统的平滑方法，本发明公开的方法可以更加准确的估计文档相关单词的概率，尤其是缺失词中文档相关单词的概率。

如图1所示，本发明公开的基于实体的语言模型平滑方法，包括以下步骤：

(1)预先构建或下载已有的实体知识库，作为命名实体链接的目标，根据实体对实体知识库中的实体信息建立索引，方便后续步骤中检索查询实体知识库中的实体信息。

步骤(1)具体包括以下子步骤：

(1-1)根据***中包含的文档的特点，选取合适实体知识库，假设***包含的都是英文文档，则可以选取英文***作为实体知识库。

(1-2)根据英文***网站公布的接口，将英文***下载到本地，去除英文***网页中的Html标签、脚本等标记信息，只保留英文***网页中的文本信息。

(1-3)根据实体词条ID对英文***网页中的文本信息建立索引，方便后续步骤查询检索。

(2)采用最大似然估计法，对语料库中的每篇文档构建原始文档语言模型，以及对整个语料库构建语料库语言模型。

步骤(2)具体包括以下子步骤：

其中count(w_i,d)表示单词w_i在文档d中出现的次数，|d|表示文档中的单词总个数。

(2-2)采用最大似然估计方法，对整个语料库建立语料库语言模型，表示为θ_D，计算公式为其中count(w_i,D)表示单词w_i在语料库D中出现的次数，|D|表示语料库中的单词总个数。

(3)使用命名实体识别技术识别文本中的命名实体，使用命名实体链接技术将识别的命名实体链接到实体知识库中实体上。

步骤(3)具体包括以下子步骤：

(3-1)对语料库中的每篇文档，使用英文命名实体识别链接工具TagMe，将每篇文档中的命名实体链接到英文***词条上，在数据库中保存每篇文档中识别出来的所有命名实体，表示为E_d。

(4)根据实体链接，提取实体在实体知识库中的信息，融合成文档的背景知识文档，采用最大似然估计法，构建背景知识语言模型。

步骤(4)具体包括以下子步骤：

(4-1)对于语料库中的每篇文档，表示为d，建立文档对应的背景知识文档，表示为d_E，初始时d_E为空。

(4-2)接着从数据库中取出步骤(3)中生成的与文档d相对应的命名实体集合E_d。

(4-3)判断E_d是否为空，若为空则进入子步骤(4-7)，若不为空则进入子步骤(4-4)。

(4-4)从命名实体集合E_d中的取出一个命名实体，表示为e，并将该命名实体e从命名实体集合E_d中删除。

(4-5)使用命名实体e，索引步骤(1)中建立的实体索引，得到命名实体e在英文***中相对应的***文档，表示为e_wiki。

(4-6)将得到的***文档e_wiki的文本内容追加到背景知识文档d_E的末尾。

(4-7)采用最大似然估计方法，对背景知识文档d_E建立背景知识语言模型，表示为θ_{d_E}，计算公式为

其中count(w_i,d_E)表示单词w_i在背景知识文档d_E中出现的次数，|d_E|表示背景知识文档中的单词总个数。

(5)根据背景知识语言模型和语料库语言模型对原始文档语言模型进行两次平滑，得到最后的文档语言模型。

步骤(5)具体包括以下子步骤：

(5-1)根据背景知识语言模型θ_{d_E}对原始文档语言模型θ_d原进行一级平滑，计算公式为

得到一级平滑语言模型θ₁，其中|d|表示文档d中的单词总个数，β是需要确定的自由参数。

(5-2)根据语料库语言模型θ_D对一级平滑语言模型θ₁进行二级平滑，计算公式为计算得到最终平滑后的语言模型θ_{d_smoothed}，其中|d|表示文档d中的单词总个数，α和β需要确定的两个自由参数。

(5-3)使用grid search方法来学习得到参数的最优值，其中设定α和β的取值从{0,0.1,0.2,…,0.9,1}中选取，评价指标为MAP，训练数据集可以使用信息检索领域中公开的测试集，如：clueweb09、clueweb12料库中的每篇文档d，获取步骤(2)中得到的原始文档语言模型θ_d原。

其中，文档语言模型、背景知识语言模型、语料库语言模型的关系参照图2所示。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于实体知识库的语言模型平滑方法，其特征在于，包括以下步骤：

(3)使用命名实体识别技术识别每篇文档中的命名实体，使用命名实体链接技术将识别的命名实体链接到实体知识库中实体上，将每篇文档与实体知识库之间建立联系，以方便后续从实体知识库中提取和文档主题相关的信息；

(4)根据实体链接，提取每篇文档中的命名实体在实体知识库中的信息，融合成每篇文档的背景知识文档，采用最大似然估计法，构建背景知识语言模型，这样的背景知识语言模型是以文档中的实体作为桥梁，从实体知识库中得到的，包含文档背景知识语义信息的语言模型，它与文档语义主题密切相关的，用来衡量查询语句中的单词与文档语义主题之间的相关性；

(5)结合背景知识语言模型和语料库语言模型两种语言模型信息，对原始文档语言模型进行两次平滑，使得平滑后的语言模型具有更高的鲁棒性和准确度；

所述步骤(5)包括以下子步骤：

(5-3)步骤(5-2)中所述自由参数α和β，使用grid search方法来学***均准确率，训练数据集使用信息检索领域中公开的测试集，所述训练测试集使用clueweb09或clueweb12；

2.根据权利要求1所述的基于实体知识库的语言模型平滑方法，其特征在于，所述步骤(1)包括以下子步骤：

3.根据权利要求1所述的基于实体知识库的语言模型平滑方法，其特征在于，所述步骤(2)包括以下子步骤：

4.根据权利要求2所述的基于实体知识库的语言模型平滑方法，其特征在于，所述步骤(3)包括以下子步骤：

(3-1)对语料库中的每篇文档依次进行处理，当前正在处理的文档表示为d，使用命名实体识别链接工具，将每篇文档中的命名实体链接到步骤(1)中构建的实体知识库上，得到命名实体在实体知识库中的实体ID，其中所述命名实体识别链接工具使用TagMe或Wikifier。

5.根据权利要求4所述的基于实体知识库的语言模型平滑方法，其特征在于，所述步骤(4)包括以下子步骤：

(4-2)根据步骤(3-1)，在文档d中识别命名实体以及对应的实体ID，检索步骤(1-3)中建立的索引，得到相应的实体文本信息，表示为e_kb；