CN1828609A

CN1828609A - 一种基于簇排列的面向主题或查询的多文档摘要方法

Info

Publication number: CN1828609A
Application number: CN 200610072587
Authority: CN
Inventors: 万小军; 杨建武; 吴於茜; 陈晓鸥; 肖建国
Original assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Peking University; Peking University Founder Group Co Ltd
Current assignee: Peking University
Priority date: 2006-04-13
Filing date: 2006-04-13
Publication date: 2006-09-06
Anticipated expiration: 2026-04-13
Also published as: CN100418093C

Abstract

本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法，属于语言文字处理技术领域。现有的多文档摘要方法，在用户搜索感兴趣的主题时，不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学习算法即基于簇排列的算法，该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系，从而使得生成的摘要既能包含文档集的主要信息，又能诠释主题或回答查询，同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求，返回相关的新闻信息，从而得到更好的面向主题或查询的多文档摘要，可以满足不同用户的个性化需求。

Description

一种基于簇排列的面向主题或查询的多文档摘要方法

技术领域

本发明属于语言文字处理技术领域，具体涉及一种基于簇排列(manifold-ranking)的面向主题或查询的多文档摘要方法。

背景技术

多文档摘要是自然语言处理领域的一个核心问题，近年来被广泛应用于文本/Web检索等应用中。例如，Google、百度等搜索引擎都提供了新闻服务，通过采集网络上的新闻信息形成多个新闻专题，为了方便用户浏览感兴趣的新闻专题，需要利用多文档摘要技术为每个新闻专题生成一个简明扼要的摘要。而面向主题或查询的多文档摘要则可以看作是一种特殊的多文档摘要任务，该任务生成的多文档摘要需要反映用户指定的某个主题或查询(或称为用户属性)，也就是说，生成的摘要能够解释或者回答用户关注的焦点或提出的信息需求。在上述的新闻服务产品中，个性化新闻服务越来越受到重视，用户通常只关心自己感兴趣的新闻主题，根据用户定义的兴趣爱好等属性，要求新闻服务产品能够返回相关的新闻信息和面向用户属性的摘要。在一些智能问答***中，我们也要求***能从相关文档中生成能够回答用户提问的摘要，这种摘要也是一种典型的面向主题或查询的多文档摘要。

面向主题或查询的多文档摘要的困难之处在于：第一，和普通多文档摘要的困难一样，由于不同文档中包含的信息存在很大程度的重复和冗余，因此一个好的多文档摘要方法要能有效地融合不同文档中的信息，即既要使生成的摘要保留原文档中的主要信息，又要使摘要中的信息保持一定的新颖性。第二，与普通多文档摘要不同的是，面向主题或查询的多文档摘要要求其包含的信息要与主题或查询相关，能够诠释主题和回答查询，因此在摘要过程中要充分利用用户提供的主题或查询信息。近年来，多文档摘要已经成为自然语言处理领域和信息检索领域的热门研究课题，其研究进展反映在一系列关于自动文档摘要的学术会议上，包括NTCIR，DUC以及ACL，COLING和SIGIR.

概括来说，普通多文档摘要方法可分为基于句子抽取的方法(Extraction)和基于句子生成的方法(Abstraction)。基于句子抽取的方法比较简单实用，不需要利用深层的自然语言理解技术；该方法在对文本进行分句之后，对每个句子赋予一定权重，反映其重要性，然后选取权重最大的若干个句子形成摘要。基于句子生成的方法则需要利用深层的自然语言理解技术，在对原文档进行句法、语义分析之后，利用信息抽取或自然语言生成技术产生新的句子，从而形成摘要。

目前大部分多文档摘要方法都基于句子抽取技术，现有文献中也记载了多篇关于多文档摘要的方法。文章Centroid-based summarization ofmultiple documents(该文作者是：D.R.Radev，H.Y.Jing，M.Stys andD.Tam，发表于2004年出版的期刊Information Processing andManagement)公开了一种基于中心点的句子抽取方法，该方法是目前比较流行的一种基于句子抽取的摘要方法，MEAD是利用该方法实现的一个原型摘要***，它在赋予句子权重的过程中，综合考虑了句子级以及句子之间的特征，包括类簇中心点，句子位置，TF*IDF等。文章From Single toMulti-document Summarization：A Prototype System and its Evaluation(作者：C.-Y.Lin and E.H.Hovy，发表于2002年出版的期刊：Proceedingsof the 40th Anniversary Meeting of the Association for ComputationalLinguistics(ACL-02)，)公开了一种名为NeATS的句子抽取***，该***是ISI开发的一个多文档摘要***，它源于单文档摘要***-SUMMARIST，该***选择重要句子时考虑了句子位置、词语频率、主题签名和词语类簇等多个特征，同时利用MMR技术对句子消重。文章Cross-documentsummarization by concept classification(作者：H.Hardy，N.Shimizu，T.Strzalkowski，L.Ting，G.B.Wise，and X.Zhang，发表于2003年出版的期刊：Proceedings of SIGIR’02)公开了一种名为XdoX的句子抽取***，该***适合为大规模的文档集生成摘要，它首先通过段落聚类检测出文档集中最重要的主题，然后抽取反映重要主题的句子形成摘要。文章Topic themes for multi-document summarization(作者S.Harabagiuand F.Lacatusu，发表于2005年出版的期刊Proceedings of SIGIR’05)公开了Harabagiu和Lacatusu的方法，该方法探讨了五种不同的多文档主题表现方式并且提出了一种新的主题表现方式。

基于图结构的方法也被用来对句子的重要性进行排序。文章Summarizing Similarities and Differences Among Related Documents(作者：I.Mani and E.Bloedorn，发表于2000年出版的期刊InformationRetrieval)公开了一种名为WebSumm的方法，该方法利用图连接模型，根据与多个其他顶点相连接的顶点具有较高重要性这个假设来对句子的重要性进行排序。文章LexPageRank：prestige in multi-document textsummarization(作者：G.Erkan and D.Radev，发表于2004年出版的期刊：Proceedings of the Conference on Empirical Methods in NaturalLanguage Processing(EMNLP’04))公开了一种名为LexPageRank的方法，该方法首先构建句子连接矩阵，然后基于类似PageRank的算法来计算句子重要性。文章Alanguage independent algorithmfor single and multipledocument summarization(作者：R.Mihalcea and P.Tarau，发表于2005年出版的期刊：Proceedings of the Second International JointConference on Natural Language Processing(IJCNLP’05))公开了一种名为Mihalcea和Tarau的方法，该方法也提出了一个类似的基于PageRank和HITS的算法计算句子重要性。

面向主题或查询的多文档摘要方法通常基于普通多文档摘要方法，在摘要过程中集成主题或查询信息，使得摘要能够满足用户的特定信息需求，现有文献中也记载了多篇关于多文档摘要的方法。文章Robust genericand query-based summarization(作者：H.Saggion，K.Bontcheva，andH.Cunningham，发表于2005出版的期刊Proceedings of EACL-2003)公开了一种面向主题或查询的多文档摘要方法，该方法利用基于查询的权重计算器计算每个句子和查询的相似度，然后在基于查询的摘要过程中考虑这个相似度值。文章Approaches to event-focused summarization basedon named entities and query words(作者：J.Ge.，X.Huang，and L.Wu，发表于2003年出版的期刊Proceedings of the 2003 DocumentUnderstanding Workshop)公开了一种面向主题或查询的多文档摘要方法，文章CLASSY query-based multi-document summarization(作者：J.M.Conroy and J.D.Schlesinger，发表于2005年出版的期刊Proceedingsof the 2005 Document Understanding Workshop)也公开了一种面向主题或查询的多文档摘要方法，这两种多文档摘要的方法探讨了主题描述中查询词和命名实体对面向事件或查询的多文档摘要的作用。文章CATS atopic-oriented multi-document summarization system at DUC 2005(作者：A.Farzindar，F.Rozon，and G.Lapalme，发表于2005年出版的期刊Proceedings of the 2005 Document Understanding Workshop)公开了一种面向主题或查询的多文档摘要方法，该方法首先对文档进行主题分析，然后将得到的主题和用户提供的主题进行匹配，最后得到面向主题的多文档摘要。但是，上述方法仍然存在一些不足，这些方法未能综合考虑句子的面向主题或查询的信息丰富程度和信息新颖程度，因而不能精确地根据用户定义的兴趣爱好等属性，返回相关的新闻信息和面向用户属性的摘要。

发明内容

针对现有技术中存在的缺陷，本发明的目的是提供一种基于簇排列(manifold-ranking)的面向主题或查询的多文档摘要方法，该方法能够综合考虑句子的面向主题或查询的信息丰富程度和信息新颖程度，并且利用簇排列算法自然一体地考虑句子之间的相互关系以及用户主题或查询的信息可以实现在给定主题或查询的情况下为多个文档形成更符合用户需求的摘要。

为达到以上目的，本发明采用的技术方案是：一种基于簇排列的面向主题或查询的多文档摘要方法，包括以下步骤：

(1)读入主题或查询以及文档，对主题或查询描述以及每个文档进行分句，句子集合为χ＝{x₁，...，x_p，x_p+1，...，x_n}R^m，其中x₁到x_p表示p个从主题或查询中得到的句子，x_p+1到x_n表示n-p个从文档中得到的句子。计算这n个句子中任意两个句子的相似度，构建句子关系图，其对应的规范化的句子相似矩阵为S；

(2)采用簇排列算法迭代计算文档中每个句子的排列值，所述的排列值即初始权重值；

(3)对句子进行差异性惩罚，得到每个句子的最终权重值；

(4)根据每个句子的最终权重值，从文档中选择权重值大的句子形成摘要。

进一步来说，步骤(2)中所述的簇排列算法具体方法如下：

令f：χ→R表示一个排列函数，对句子集合χ中每个句子x_i，其中，1≤i≤n，赋予一个排列值f_i，将f看作一个向量f＝[f₁，...，f_n]^T，同时，定义一个向量y＝[y₁，...，y_n]^T，其中对于1≤i≤p有y_i＝1，表示这p个句子来自用户给定的主题或查询，而对于文档中的n-p个句子均有y_i＝0(p+1≤i≤n)，其中，T表示向量转置；

根据下式迭代计算每个句子的排列值，直到收敛：

f(t+1)＝αSf(t)+(1-α)y (1)

其中f(t)表示第t次迭代得到的向量，t为正整数，S是步骤(1)得到的规范化的句子相似矩阵，α是[0，1]之间的一个参数，决定着某个句子的排列值计算过程中其相邻句子的排列值和初始排列值相对的贡献大小；每一次迭代过程均基于上次迭代计算得到的排列值，利用上式计算每个句子的新的排列值，直到所有句子的前后两次迭代计算得到的排列值不再变化为止，实际计算时只要所有句子的排列值的变化小于阈值时算法即停止，通常令f(1)＝y；令f_i ^*表示算法收敛后句子x_i得到的排列值。

上述算法的基本思想是相邻接的句子之间的排列值在一定程度上应该相近，因此每个句子都将自身的排列值扩散到它的相邻句子，直到这个过程达到一个全局的稳定状态为止，最后每个文档中的句子都获得了一个排列值，反映该句子的面向用户主题或查询的信息丰富程度，

上述算法可以从理论上证明收敛到

f^*＝β(I-αS)^-1y (2)

其中β＝1-α，f^*表示得到的排列值向量，I是单位矩阵；

进一步，为使本发明获得更好的发明效果，步骤(1)中所述的主题或查询信息是跟特定用户有关的个性化描述，包括用户属性、用户提问、用户查询，这些描述由用户直接提供，或者从用户的行为分析得到。

再进一步，步骤(1)中将主题或查询信息分成1到5个句子，也即是p的取值范围为1到5。

进一步，为使本发明获得更好的发明效果，步骤(1)中计算句子相似度，构建句子关系图时，具体方法如下：

1)对用户给定的主题或查询分句，得到x₁到x_p这p个句子，对所有文档进行分句得到x_p+1到x_n这n-p个句子，对这n个句子分词，然后利用下面的余弦公式对句子集合χ＝{x₁，...，x_p，x_p+1，...，x_n}R^m中的任意两个句子x_i和x_j计算相似度值：

sim (x_{i}, x_{j}) = \cos ({\overset{ρ}{x}}_{i}, {\overset{ρ}{x}}_{j}) = \frac{{\overset{ρ}{x}}_{i} \cdot {\overset{ρ}{x}}_{j}}{| | {\overset{ρ}{x}}_{i} | | \cdot | | {\overset{ρ}{x}}_{j} | |} - - - (3)

其中和

为两个句子对应的词向量表示，向量中词t对应的权重根据tf_t*isf_t公式计算，tf_t表示词t在句子中的频率，isf_t表示词t倒排句子频率，也就是1+log(N/n_t)，其中N是句子的总数量，n_t是包含词t的句子数量；

2)将每个句子当作一个顶点，如果两个句子x_i和x_j之间的相似度值大于阈值，那么在这两个句子之间建立一条边，边的权重为句子之间的相似度值，从而得到一个带权图G，令W表示图G对应的邻接矩阵，如果句子x_i和x_j之间存在边，那么W_ij＝sim(x_i，x_j)，且对于所有的i，W_ii＝0；

3)对于得到的带权图G，本发明区分其中文档内句子关系和文档间句子关系，如果两个句子属于同一文档，那么它们之间的关系为文档内句子关系；如果两个句子分属不同文档，那么它们之间的关系为文档间句子关系。为了区分这两种关系的不同重要性，本发明将得到的邻接矩阵分解为：

\tilde{W} = λ_{1} W_{intra} + λ_{2} W_{inter} - - - (4)

其中W_intra是仅包含表示文档内句子关系的边的邻接矩阵(表示文档间句子关系的边权值设为0)，W_inter则是仅包含表示文档间句子关系的边的邻接矩阵(表示文档内句子关系的边权值设为0)，λ₁，λ₂∈[0，1]；

4)对新的邻接矩阵进行规范化得到新的相似矩阵

S = D^{- 1 / 2} \tilde{W} D^{- 1 / 2},

其中D是对角矩阵，第(i，i)个元素等于的第i行元素之和；令对原邻接矩阵W进行同样规范化得到的矩阵为

再进一步，为使本发明获得更好的发明效果，步骤(1)中设定两个句子x_i和x_j之间的相似度值大于阈值时，阈值设定为0.01。

进一步，为使本发明获得更好的发明效果，步骤(1)中区分文档内句子关系和文档间句子关系时，公式(4)中λ₁设为0.3，λ₂设为1。

进一步，为使本发明获得更好的发明效果，步骤(2)中公式(1)中α设定为0.6。

进一步，为使本发明获得更好的发明效果，步骤(2)中设定句子的排列值的变化小于阈值时，阈值设定为0.0001。

进一步，为使本发明获得更好的发明效果，步骤(3)中对句子进行差异性惩罚时，采用贪心算法来对每个句子进行差异性惩罚，从而保证候选句子的新颖性，具体方法如下：

1)初始化两个集合A＝φ，B＝{x_i|i＝p+1，...，n}，每个句子的最终权重值初始化为其排列值，也就是说RankScore(x_i)＝f_i ^*，i＝p+1，...n；

2)按照当前最终权重值降序排列B中的句子；

3)假定x_i是排名最高的句子，也就是序列中第一个句子，将x_i从B移到A，并且对B中每一个和x_i相邻接的句子x_j(j≠i)进行如下的差异性惩罚：

RankScore (x_{j}) = RankScore (x_{j}) - ω \cdot {\hat{S}}_{ji} \cdot f_{i}^{*} - - - (5)

其中ω＞0是惩罚程度因子，ω越大，差异性惩罚越强；如果ω为0，那么就没有差异性惩罚；

4)循环执行步骤2)和步骤3)，直到B＝φ。

再进一步，为使本发明获得更好的发明效果，步骤3)中公式(5)中所述的惩罚程度因子ω设定为8。

进一步，步骤(4)中，从文档句子x_p+1到x_n中选择权重值最大的2-10个句子形成摘要。

本发明的效果在于：采用本发明所述的方法，能够全面考虑了句子之间的相互关系以及用户主题或查询的信息，实现了使生成的多文档摘要既能包含文档集的主要信息，又能诠释主题或回答查询，能够得到更好的面向主题或查询的多文档摘要。

本发明之所以具有上述发明效果，是因为本发明具有下述特点：本发明提出了一种全新的摘要方法，该方法基于一种新的半监督学习算法-基于簇排列的算法，一体化考虑句子之间的相互关系以及用户主题或查询的信息，从而使得生成的摘要既能包含文档集的主要信息，又能诠释主题或回答查询，同时利用差异性惩罚算法来保证生成摘要的新颖性。该方法在基于簇排列的算法中还区别对待了文档内句子关系和文档间句子关系这两种不同的关系，赋予文档间句子关系更大的贡献权重。

附图说明

图1是本发明所述方法的流程图；

图2是使用本发明提出的方法改善文档检索的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述：

如图1所示，一种基于簇排列的面向主题或查询的多文档摘要方法，包括以下步骤：

(1)读入文档，将主题或查询信息作为句子，对每个文档及主题或查询信息分句、分词，计算句子相似度，构建句子关系图；

本实施例中所述的主题包括用户属性、用户提问、用户查询等跟特定用户有关的个性化描述，这些描述是由用户直接提供，当然也可以从用户的行为分析得到；如果主题过长，可以将主题分成多个句子，最好是分成1到5个句子。由于本实施例中的主题较短，所以就将主题当作一个句子，也就是令p＝1。

本实施例中计算句子相似度，构建句子关系图时，采用具体方法如下：

将用户给定的主题当作一个句子x₁，对每个文档分句得到n-1个句子，同时得到句子集合χ＝{x₁，X₂，...，x_n}R^m，其中x₁表示用户给定的主题或查询，x₂，...，x_n表示文档中的n-1个句子；对这n个句子分词，然后利用下面的余弦公式对句子集合χ＝{x₁，x₂，...，x_n}R^m中的任意两个句子x_i和x_j计算相似度值：

sim (x_{i}, x_{j}) = \cos ({\overset{ρ}{x}}_{i}, {\overset{ρ}{x}}_{j}) = \frac{{\overset{ρ}{x}}_{i} \cdot {\overset{ρ}{x}}_{j}}{| | {\overset{ρ}{x}}_{i} | | \cdot | | {\overset{ρ}{x}}_{j} | |} - - - (3)

其中

和

为两个句子对应的词向量表示，向量中词t对应的权重根据tf_t*isf_t公式计算，tf_t表示词t在句子中的频率，isf_t表示词t倒排句子频率，也就是1+log(N/n_t)，其中N是句子的总数量，n_t是包含词t的句子数量。

将每个句子当作一个顶点，如果两个句子x_i和x_j之间的相似度值大于阈值，本实施例中，设定阈值为0.01；那么在这两个句子之间建立一条边，边的权重为句子之间的相似度值，从而得到一个带权图G。令W表示图G对应的邻接矩阵，如果句子x_i和x_j之间存在边，那么W_ij＝sim(x_i，x_j)，且对于所有的i，W_ij＝0。

对于得到的带权图G，本发明区分其中文档内句子关系和文档间句子关系。如果两个句子属于同一文档，那么它们之间的关系为文档内句子关系；如果两个句子分属不同文档，那么它们之间的关系为文档间句子关系。为了区分这两种关系的不同重要性，本发明将得到的邻接矩阵分解为：

\tilde{W} = λ_{1} W_{intra} + λ_{2} W_{inter} - - - (4)

其中W_intra是仅包含表示文档内句子关系的边的邻接矩阵(表示文档间句子关系的边权值设为0)，W_inter则是仅包含表示文档间句子关系的边的邻接矩阵(表示文档内句子关系的边权值设为0)，λ₁，λ₂∈[0，1]，本实施例中，设定设λ₁＝0.3，λ₂＝1，从而对文档间句子关系赋予更多重要性。

对新的邻接矩阵

进行规范化得到新的相似矩阵

S = D^{- 1 / 2} \tilde{W} D^{- 1 / 2},

其中D是对角矩阵，第(i，i)个元素等于

的第i行元素之和；令对原邻接矩阵W进行同样规范化得到的矩阵为

(2)采用簇排列算法迭代计算文档中每个句子的排列值；

本实施例中，簇排列算法具体方法如下：

令f：χ→R表示一个排列函数，对每个句子x_i(1≤i≤n)赋予一个排列值f_i.我们可以将f看作一个向量f＝[f₁，...，f_n]^T。同时，我们定义一个向量y＝[y₁，...，y_n]^T，其中y₁＝1反映了句子x₁表示用户给定的主题或查询，而对于文档中的所有句子均有y_i＝0(2≤i≤n)。

根据下式迭代计算每个句子的排列值，直到收敛：

f(t+1)＝αSf(t)+(1-α)y (1)

其中f(t)表示第t次迭代得到的向量，α是[0，1]之间的一个参数，决定着某个句子的排列值计算过程中其相邻句子的排列值和初始排列值相对的贡献大小，本实施例中α设定为为0.6；通常令f(1)＝y，每一次迭代过程均基于上次迭代计算得到的排列值，利用上式计算每个句子的新的排列值，直到所有句子的前后两次迭代计算得到的排列值不再变化为止，实际计算时只要所有句子的排列值的变化小于阈值时算法即停止，本实施例中，阈值设定为0.0001；令f_i ^*表示算法收敛后句子x_i得到的排列值。

上述算法的基本思想是相邻接的句子之间的排列值在一定程度上应该相近，因此每个句子都将自身的排列值扩散到它的相邻句子，直到这个过程达到一个全局的稳定状态为止。最后每个文档中的句子都获得了一个排列值，反映该句子的面向用户主题或查询的信息丰富程度。

上述算法可以从理论上证明收敛到

f^*＝β(I-αS)^-1y (2)

其中β＝1-α。

(3)对句子进行差异性惩罚，得到每个句子的最终权重值；

对句子进行差异性惩罚时，采用贪心算法来对每个句子进行差异性惩罚，从而保证候选句子的新颖性，具体方法如下：

1)初始化两个集合A＝φ，B＝{x_i|i＝2，...，n}，每个句子的最终权重值初始化为其排列值，也就是说RankScore(x_i)＝f_i ^*，i＝2，...n；

2)按照当前最终权重值降序排列B中的句子；

RankScore (x_{j}) = RankScore (x_{j}) - ω \cdot {\hat{S}}_{ji} \cdot f_{i}^{*} - - - (5)

其中ω＞0是惩罚程度因子，ω越大，差异性惩罚越强，本实施例中，惩罚程度因子ω设定为8；如果ω为0，那么就没有差异性惩罚；

4)循环执行步骤2)和步骤3)，直到B＝φ。

(4)根据每个句子的最终权重值，从x₂，...，x_n中选择权重值大的句子形成摘要，一般来说选择权重值最大的2-10个句子形成摘要即可，本实施例中，选择权重值最大的8个句子形成摘要。

如图2所示为使用本发明提出的方法改善文档检索的示意图。

为了验证本发明的有效性，采用文档理解大会(DUC)大会(http：//duc.nist.gov)的评测数据和任务。我们采用了DUC2003和DUC2005的面向主题或查询的多文档摘要评测任务，也就是DUC2003的第2个评测任务，第3个评测任务以及DUC2005的唯一评测任务。DUC2003的第2个评测任务提供了30个文档集和30个TDT的事件主题，要求参评者提供100词长度以内的面向事件主题的摘要。DUC和第3个评测任务提供了30个文档集和30个用户观点，要求参评者提供100词以内长度的面向用户观点的摘要。DUC2005的唯一摘要任务提供了50个文档集和50个用户属性及DUC主题，要求参评者提供250词以内长度的面向用户属性及DUC主题的摘要。参评者提交的摘要将与人工摘要做对比。我们采用了流行的文档摘要评测方法ROUGE评测方法来评测本发明的方法，包括三个评价指标ROUGE-1，ROUGE-2和ROUGE-W，ROUGE值越大，效果越好，ROUGE-1值是最主要的评价指标。本发明的方法和参评者之中表现最优异的三个***以及两个基准***作比较，实验结果分别如表1和表2所示：

表1：在DUC2003第2个任务上评测的比较结果

***	ROUGE-1	ROUGE-2	ROUGE-W
***	ROUGE-1	ROUGE-2	ROUGE-W	本发明S12S13S16CoverageBaselineLeadBaseline	0.419650.387840.377920.376470.328900.31385	0.106910.092010.096390.091920.075600.06094	0.138050.124530.122020.121510.106880.10154

表2：在DUC2003第3个任务上评测的比较结果

***	ROUGE-1	ROUGE-2	ROUGE-W
***	ROUGE-1	ROUGE-2	ROUGE-W	本发明S16S13S17CoverageBaselineLead Baseline	0.373320.350010.319860.318090.302900.28200	0.076770.073050.058310.049810.059680.04468	0.118690.109690.100160.098870.096780.09077

表3：在DUC2005唯一任务上评测的比较结果

***	ROUGE-1	ROUGE-2	ROUGE-W
***	ROUGE-1	ROUGE-2	ROUGE-W	本发明S4S15S17CoverageBaselineLead Baseline	0.384340.373960.373830.369010.345680.30470	0.073170.068420.072440.071650.059150.04764	0.102260.098670.098420.097510.091030.08084

实验结果表明，本发明的方法表现优异，在三个评价指标上都优于参评者的***以及基准***。

ROUGE评测方法可以参见文献Automatic Evaluation of SummariesUsing N-gram Co-occurrence Statistics(作者：C.-Y.Lin and E.H.Hovy，发表于2003年出版的期刊Proceedings of 2003 LanguageTechnology Conference(HLT-NAACL 2003))

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出其他的实施方式，同样属于本发明的技术创新范围。

Claims

1.一种基于簇排列的面向主题或查询的多文档摘要方法，包括以下步骤：

(1)读入主题或查询以及文档，对主题或查询描述以及每个文档进行分句，句子集合为x＝{x₁，...，x_p，x_p+1，...，x_n}R^m，其中x₁到x_p表示p个从主题或查询中得到的句子，x_p+1到x_n表示n-p个从文档中得到的句子，计算这n个句子中任意两个句子的相似度，构建句子关系图，其对应的规范化的句子相似矩阵为S；

(3)对上述句子进行差异性惩罚，得到每个句子的最终权重值；

(4)选择权重值大的句子形成摘要。

2、如权利要求1所述的一种基于簇排列的面向主题或查询的多文档摘要方法，其特征是：步骤(2)中簇排列算法具体方法如下：

令f:x→R表示一个排列函数，对句子集合x中每个句子x_i，其中，1≤i≤n，赋予一个排列值f_i，将f看作一个向量f＝[f₁，...，f_n]^T，同时，定义一个向量y＝[y₁，...，y_n]^T，其中对于1≤i≤p有y_i＝1，表示这p个句子来自用户给定的主题或查询，而对于文档中的n-p个句子均有y_i＝0(p+1≤i≤n)，其中，T表示向量转置；

根据下式迭代计算每个句子的排列值，直到收敛：

f(t+1)＝αSf(t)+(1-α)y (1)

其中f(t)表示第t次迭代得到的向量，t为正整数，S是步骤(1)得到的规范化的句子相似矩阵，α是[0，1]之间的一个参数，决定着某个句子的排列值计算过程中其相邻句子的排列值和初始排列值相对的贡献大小；每一次迭代过程均基于上次迭代计算得到的排列值，利用上式计算每个句子的新的排列值，直到所有句子的前后两次迭代计算得到的排列值的变化小于阈值时算法即停止，通常令f(1)＝y；令f_i ^*表示算法收敛后句子x_i得到的排列值；

3.如权利要求2所述的一种基于簇排列的面向主题或查询的多文档摘要方法，其特征是：步骤(1)中所述的主题或查询信息是跟特定用户有关的个性化描述，包括用户属性、用户提问、用户查询，这些描述由用户直接提供，或者从用户的行为分析得到。

4.如权利要求3所述的一种基于簇排列的面向主题或查询的多文档摘要方法，其特征是：步骤(1)中将主题或查询信息分成1到5个句子，也就是p取值范围为1到5。

5.如权利要求1、2、3或4所述的一种基于簇排列的面向主题或查询的多文档摘要方法，其特征是：步骤(1)中计算句子相似度，构建句子关系图时，具体方法如下：

1)对用户给定的主题或查询分句，得到x₁到x_p这p个句子，对所有文档进行分句得到x_p+1到x_n这n-p个句子，对这n个句子分词，然后利用下面的余弦公式对句子集合x＝{x₁，...，x_p，x_p+1，...，x_n}R^m中的任意两个句子x_i和x_j计算相似度值：

sim (x_{i}, x_{j}) = \cos ({\overset{ρ}{x}}_{i}, {\overset{ρ}{x}}_{j}) = \frac{{\overset{ρ}{x}}_{i} \cdot {\overset{ρ}{x}}_{j}}{| | {\overset{ρ}{x}}_{i} | | \cdot | | {\overset{ρ}{x}}_{j} | |} \cdot \cdot \cdot (3)

其中和

2)将每个句子当作一个顶点，如果两个句子x_i和x_j之间的相似度值大于阈值，那么在这两个句子之间建立一条边，边的权重为句子之间的相似度值，从而得到一个带权图G，令W表示图G对应的邻接矩阵，如果句子x_i和x_j之间存在边，那么W_ij＝sim(x_i，x_j)，且对于所有的i，W_ij＝0；

3)对于得到的带权图G，本发明区分其中文档内句子关系和文档间句子关系，如果两个句子属于同一文档，那么它们之间的关系为文档内句子关系；如果两个句子分属不同文档，那么它们之间的关系为文档间句子关系，为了区分这两种关系的不同重要性，本发明将得到的邻接矩阵分解为：

\tilde{W} = λ_{1} W_{intra} + λ_{2} W_{inter} \cdot \cdot \cdot (4)

其中W_intra是仅包含表示文档内句子关系的边的邻接矩阵，表示文档间句子关系的边权值设为0，W_inter则是仅包含表示文档间句子关系的边的邻接矩阵，表示文档内句子关系的边权值设为0，λ₁，λ₂∈[0，1]；

4)对新的邻接矩阵进行规范化得到新的相似矩阵

S = D^{- 1 / 2} \tilde{W} D^{- 1 / 2},

其中D是对角矩阵，第(i，i)个元素等于的第i行元素之和，令对原邻接矩阵W进行同样规范化得到的矩阵为

6.如权利要求5所述的一种基于簇排列的面向主题或查询的多文档摘要方法，其特征是：设定两个句子x_i和x_j之间的相似度值大于阈值时，阈值设定为0.01。

7.如权利要求5所述的一种基于簇排列的面向主题或查询的多文档摘要方法，其特征是：步骤(1)中区分文档内句子关系和文档间句子关系时，公式(4)中λ₁设为0.3，λ₂设为1。

8如权利要求2、3或4所述的一种基于簇排列的面向主题或查询的多文档摘要方法，其特征是：步骤(2)中公式(1)中α设定为0.6。

9.如权利要求2、3或4所述的一种基于簇排列的面向主题或查询的多文档摘要方法，其特征是：步骤(2)中设定句子的排列值的变化小于阈值时，阈值设定为0.0001。

10.如权利要求1、2、3或4所述的种基于簇排列的面向主题或查询的多文档摘要方法，其特征是：步骤(3)中对句子进行差异性惩罚时，采用贪心算法来对每个句子进行差异性惩罚，从而保证候选句子的新颖性，具体方法如下：

a)初始化两个集合A＝φ，B＝{x_i|i＝p+1，...，n}，每个句子的最终权重值初始化为其排列值，也就是说RankScore(x_i)＝f_i ^*，i＝p+1，...n；

b)按照当前最终权重值降序排列B中的句子；

c)假定x_i是排名最高的句子，也就是序列中第一个句子，将x_i从B移到A，并且对B中每一个和x_i相邻接的句子x_j(j≠i)进行如下的差异性惩罚：

RankScore (x_{j}) = RankScore (x_{j}) - ω \cdot {\hat{S}}_{ji} \cdot f_{i}^{*} \cdot \cdot \cdot (5)

d)循环执行步骤2)和步骤3)，直到B＝φ。

11.如权利要求10所述的一种基于簇排列的面向主题或查询的多文档摘要方法，其特征是：步骤3)中公式(5)中所述的惩罚程度因子ω设定为8；

步骤(4)中，文档句子x_p+1到x_n中选择权重值最大的2-10个句子形成摘要。

12.如权利要求1、2、3或4所述的一种基于簇排列的面向主题或查询的多文档摘要方法，其特征是：步骤(4)中，文档句子x_p+1到x_n中选择权重值最大的2-10个句子形成摘要。