CN103218432A

CN103218432A - 一种基于命名实体识别的新闻搜索结果相似度计算方法

Info

Publication number: CN103218432A
Application number: CN201310129580XA
Authority: CN
Inventors: 陆月明; 党秋月; 张吉伟
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2013-04-15
Filing date: 2013-04-15
Publication date: 2013-07-24

Abstract

本发明提出一种基于命名实体识别的新闻搜索结果相似度计算方法，该发明采用命名实体识别技术对新闻搜索结果建立多个关键词子集，对应每个子集建立一个词项矩阵，并在各个词项矩阵中分别计算相似度，最后将多个相似度加权得到最终相似度。本发明突出了新闻的特征要素，能够有效降低词项矩阵的维数，减少相似度计算时不同类别词项之间的相互影响。本发明具有基于命名实体识别提取关键词、基于关键词子集建立多个词项矩阵、基于多个词项矩阵计算加权相似度三个特点。

Description

一种基于命名实体识别的新闻搜索结果相似度计算方法

技术领域

本发明涉及一种基于命名实体识别的新闻搜索结果相似度计算方法，主要应用于搜索引擎的聚类及文本分类应用，属于计算机科学技术领域。

背景技术

目前搜索引擎是用户在互联网上获取信息的主要途径,给人们带来了极大的便利。但是，随着互联网上信息量的增加，搜索引擎返回的检索结果日益繁杂，人们需要在大量的检索结果中筛选才能获取真正想要的信息。因此，一些研究人员采用信息检索中的聚类技术对搜索结果进行聚类，将其按类目呈现给用户，提高了搜索结果的可浏览性。

搜索结果聚类技术的原则是最小化类内相似度，最大化类间相似度。因此，搜索结果的相似度是搜索结果聚类技术的基础。传统的搜索结果相似度度量方法是基于向量空间模型（Vector Space Model）的，即将搜索结果表示成一组关键词的集合，分析每个词在各个搜索结果出现的次数以及整个搜索结果集合中出现的次数，进而利用这些词频信息将搜索结果建模成一个词项矩阵，并利用向量之间的几何距离（如余弦距离，Jaccard距离）计算搜索结果的相似度。

上述方法构建的词项矩阵中存在高维稀疏问题，并且在计算相似度的时候词与词之间会互相影响导致区分度下降。针对以上问题，本发明提出了一种基于命名实体识别的新闻搜索结果相似度计算方法，该发明通过命名实体识别技术对新闻搜索结果的关键词类别进行区分，对新闻相关性强的多个类别的关键词建立词项矩阵，并在多个词项矩阵中分别计算相似度，以达到数据降维和提高区分度的效果。

发明内容

本发明“一种基于命名实体识别的新闻搜索结果相似度计算方法”的目的在于提出一种适用于新闻搜索结果的创新型相似度计算方法。技术方案如下：

本发明由关键词提取模块、向量空间模型建模模块以及相似度加权计算模块三个部分组成。参照图1：

（1）关键词提取模块

关键词提取模块包括命名实体识别和中文分词两个组成部分。命名实体识别针对新闻搜索结果具有时间、地点、人物等特征，提取词语，并依据时间、地点、人物等新闻相关词语，进行分类，形成时间类、地点类、人物类等词语子集（这里把这些词语子集称为关键词子集）。文档的多个关键词子集组成一个集合，该集合称为关键词集合。除这些命名实体词能够表示新闻的主题外，剩余的非命名实体类名词和动词也能较好的表征新闻的主题。因此，关键词提取模块经过命名实体别后又利用分词技术筛选出剩余的非命名实体类名词和动词，作为一个关键词子集（其它类词语）添加在关键词集合的末尾，构成最终的关键词集合。关键词提取模块旨在对新闻搜索结果进行关键词提取。

（2）向量空间模型建模模块

向量空间模型建模模块主要包括关键词子集合并、权重计算和词项矩阵构建三个组成部分。关键词子集合并是对多个文档在关键词提取模块中形成的关键词子集按时间类、地点类、人物类、其它类等进行分别合并，形成按时间类、地点类、人物类等分类的新的关键词集合；权重计算是针对关键词集合中的每个词语按词频的数值计算对应的权重；词项矩阵构建是针对按时间类、地点类、人物类、其它等形成的多个关键词子集，分别建立多个与关键词子集对应的以词语权重为值的词项矩阵。向量空间模型建模模块旨在基于向量空间模型对新闻搜索结果进行数学建模。

（3）相似度加权计算模块

相似度加权计算模块主要包括子集相似度计算和相似度加权两个组成部分。子集相似度计算是针对多个文档按时间类、地点类、人物类、其它类等分类形成的词项矩阵，计算这些分类中每个类的相似度（这里称为子集相似度）；相似度加权是针对子集相似度，按文档包含的多个分类相似度进行加权，以获得文档的综合相似度。相似度加权计算模块旨在获得新闻搜索文档之间的综合相似度。

（4）本发明的执行步骤

参照图2，本发明的具体实现步骤如下：

步骤1：对输入的多个新闻搜索文档，关键词提取模块对每个文档的词语进行命名实体识别，即针对新闻文档中的时间、地点、人物等特征，提取词语，并依据时间、地点、人物等新闻相关词语，进行分类，形成时间类、地点类、人物类等关键词子集。

步骤2：关键词提取模块通过中文分词技术提取各条新闻搜索文档中非命名实体词（名词和动词），作为一个关键词子集（其它类）添加在步骤1中的关键词集中。

步骤3：向量空间模型建模模块将新闻搜索多个文档中各条搜索结果的关键词集合按照地点、时间、事件、其它等类别进行关键词子集分别合并，得到新的关键词集合。这个关键词集合仍然包括多个关键词子集。

步骤4：向量空间模型建模模块对步骤3中关键词集合，分别计算每个文档中各个关键词的词频作为关键词的权重。

步骤5：向量空间模型建模模块对关键词集合中的各个关键子集分别建立词项矩阵，

步骤6：相似度加权计算模块在步骤5得到的各个词项矩阵中分别计算关键词子集相似度，即计算任两条新闻搜索结果所对应的行向量之间的相似度距离。计算如下：

通过步骤5后，一个新闻搜索结果集合S对应多个词项矩阵。假设有m条新闻搜索结果S₁、S₂、……、S_m，n个词项矩阵M₁、M₂、……、M_n。S中任意两条新闻搜索结果S_i、S_j在n个词项矩阵中各对应两个行向量，计算这两个行向量之间的相似度距离作为子集相似度（S_i、S_j的余弦距离）。

步骤7：相似度加权计算模块将步骤6中的各个子集相似度加权，得到任意两条新闻搜索结果的综合相似度。计算如下：

相似度加权计算模块将多个子集相似度加权得到两条新闻搜索结果S_i、S_j的综合相似度Sim(S_i,S_j)：

Sim(S_i,S_j)＝a₁×dist(M₁(i),M₁(j))+a₂×dist(M₂(i),M₂(j))+……+a_n×dist(M_n(i),M_n(j))

上式中，M_k(i)表示词项矩阵M_k的第i个行向量，加权参数a_k由词项矩阵M_k中的关键词数目L_k（即M_k的列数）除以总的关键词数目（即n个词项矩阵的列数之和）获得。dist(M_k(i),M_k(j))表示两个行向量的相似度距离，即子集相似度。

附图说明

图1基于命名实体识别的新闻搜索结果相似度计算方法模块示意图

图2基于命名实体识别的新闻搜索结果相似度计算方法步骤示意图

具体实施方式

下面将结合本发明的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例也仅仅是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了说明基于命名实体识别的新闻搜索结果相似度计算方法,这里给出一个包含两条新闻搜索结果的实施实例。第一条新闻搜索结果是“2013年3月10日，日本神户，日本将迎来福岛核事故两周年，神户市民举行反核大游行”，用S₁表示。第二条新闻搜索结果是“2013年3月10日，日本东京，在日本311大地震两周年前夕,日本民众参加反核集会”，用S₂表示。

结合图2，基于命名实体识别的新闻搜索结果相似度计算方法的具体处理过程如下：

(1).关键词提取阶段

首先，关键词提取模块对S₁、S₂进行分词并进行命名实体识别，标注出命名实体词。关键词提取模块把S₁标注为:“2013年\时间3月10日\时间，日本\地名神户\地名，日本\地名将迎来福岛\地名核事故两周年\时间，神户\地名市民举行反核大游行”。关键词提取模块把S₂标注为:“2013年\时间3月10日\时间，日本\地名东京\地名，在日本\地名311大地震两周年\时间前夕,日本\地名民众参加反核集会”。

其次，关键词提取模块将S₁、S₂表示成关键词集合的形式，时间类命名实体词作为第一个关键词子集，地点类命名实体词作为第二个关键词子集。

S₁={{2013年,3月10日,两周年},{日本,神户,福岛}}

S₂={{2013年,3月10日,两周年},{日本,东京}}

最后，关键词提取模块用分词技术筛选出S₁、S₂中除命名实体词外的名词和动词，作为一个关键词子集并入S₁、S₂集合中。

S₁={{2013年,3月10日,两周年},{日本,神户，福岛},{核事故,市民,举行,反核,游行}}

S₂={{2013年,3月10日,两周年},{日本,东京},{地震,民众,参加,反核,集会}}

(2).向量空间模型建模阶段

首先，向量空间模型建模模块合并S₁、S₂的关键词子集，形成新的关键词集合，表示为T。

T={{2013年,3月10日,两周年},{日本,神户,福岛，东京},{核事故,市民,举行,反核,游行,地震,民众,参加,集会}}

其次，向量空间模型建模模块对T中的三个关键词子集，分别建立三个词项矩阵M₁，M₂，M₃，矩阵中的分量值通过二值法获得（也可以通过其他方法获得）。

M_{1} = (\begin{matrix} 1 & 1 & 1 \\ 1 & 1 & 1 \end{matrix})

M_{2} = (\begin{matrix} 1 & 1 & 1 & 0 \\ 1 & 0 & 0 & 1 \end{matrix})

M_{3} = (\begin{matrix} 1 & 1 & 1 & 1 & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 & 0 & 1 & 1 & 1 & 1 \end{matrix})

(3).相似度加权计算阶段

首先，相似度加权计算模块分别计算M₁、M₂、M₃中两个行向量的余弦距离C₁、C₂、C₃，获得

C₁＝1,C₂＝0.447,C₃＝0.2

其次，相似度加权计算模块计算M₁、M₂、M₃的三个参数a₁、a₂、a₃：

a₁＝0.187,a₂＝0.25,a₃＝0.562

最后，相似度加权计算模块得到加权相似度Sim(S₁,S₂)：

Sim(S₁,S₂)＝0.187×1+0.25×0.447+0.562×0.2＝0.411

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.本发明是一种基于命名实体识别的新闻搜索结果相似度计算方法，由关键词提取模块、向量空间模型建模模块、相似度加权计算模块三部分组成。

2.根据权利要求1所述方法，其特征在于对新闻文档进行命名实体识别，对新闻搜索结果中的时间、地点等进行标注，将不同类别的实体词组成多个关键词子集，多个关键词子集合成关键词集。

3.根据权利要求1所述方法，其特征在于基于关键词子集建立多个词项矩阵。

4.根据权利要求1所述方法，其特征在于基于多个词项矩阵计算加权相似度。