CN1828609A - 一种基于簇排列的面向主题或查询的多文档摘要方法 - Google Patents

一种基于簇排列的面向主题或查询的多文档摘要方法 Download PDF

Info

Publication number
CN1828609A
CN1828609A CN 200610072587 CN200610072587A CN1828609A CN 1828609 A CN1828609 A CN 1828609A CN 200610072587 CN200610072587 CN 200610072587 CN 200610072587 A CN200610072587 A CN 200610072587A CN 1828609 A CN1828609 A CN 1828609A
Authority
CN
China
Prior art keywords
sentence
document
arrangement
value
inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200610072587
Other languages
English (en)
Other versions
CN100418093C (zh
Inventor
万小军
杨建武
吴於茜
陈晓鸥
肖建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA FANGZHENG TECHN INST Co Ltd BEIJING, Peking University, Peking University Founder Group Co Ltd filed Critical BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority to CNB2006100725872A priority Critical patent/CN100418093C/zh
Publication of CN1828609A publication Critical patent/CN1828609A/zh
Application granted granted Critical
Publication of CN100418093C publication Critical patent/CN100418093C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法,在用户搜索感兴趣的主题时,不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学习算法即基于簇排列的算法,该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系,从而使得生成的摘要既能包含文档集的主要信息,又能诠释主题或回答查询,同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求,返回相关的新闻信息,从而得到更好的面向主题或查询的多文档摘要,可以满足不同用户的个性化需求。

Description

一种基于簇排列的面向主题或查询的多文档摘要方法
技术领域
本发明属于语言文字处理技术领域,具体涉及一种基于簇排列(manifold-ranking)的面向主题或查询的多文档摘要方法。
背景技术
多文档摘要是自然语言处理领域的一个核心问题,近年来被广泛应用于文本/Web检索等应用中。例如,Google、百度等搜索引擎都提供了新闻服务,通过采集网络上的新闻信息形成多个新闻专题,为了方便用户浏览感兴趣的新闻专题,需要利用多文档摘要技术为每个新闻专题生成一个简明扼要的摘要。而面向主题或查询的多文档摘要则可以看作是一种特殊的多文档摘要任务,该任务生成的多文档摘要需要反映用户指定的某个主题或查询(或称为用户属性),也就是说,生成的摘要能够解释或者回答用户关注的焦点或提出的信息需求。在上述的新闻服务产品中,个性化新闻服务越来越受到重视,用户通常只关心自己感兴趣的新闻主题,根据用户定义的兴趣爱好等属性,要求新闻服务产品能够返回相关的新闻信息和面向用户属性的摘要。在一些智能问答***中,我们也要求***能从相关文档中生成能够回答用户提问的摘要,这种摘要也是一种典型的面向主题或查询的多文档摘要。
面向主题或查询的多文档摘要的困难之处在于:第一,和普通多文档摘要的困难一样,由于不同文档中包含的信息存在很大程度的重复和冗余,因此一个好的多文档摘要方法要能有效地融合不同文档中的信息,即既要使生成的摘要保留原文档中的主要信息,又要使摘要中的信息保持一定的新颖性。第二,与普通多文档摘要不同的是,面向主题或查询的多文档摘要要求其包含的信息要与主题或查询相关,能够诠释主题和回答查询,因此在摘要过程中要充分利用用户提供的主题或查询信息。近年来,多文档摘要已经成为自然语言处理领域和信息检索领域的热门研究课题,其研究进展反映在一系列关于自动文档摘要的学术会议上,包括NTCIR,DUC以及ACL,COLING和SIGIR.
概括来说,普通多文档摘要方法可分为基于句子抽取的方法(Extraction)和基于句子生成的方法(Abstraction)。基于句子抽取的方法比较简单实用,不需要利用深层的自然语言理解技术;该方法在对文本进行分句之后,对每个句子赋予一定权重,反映其重要性,然后选取权重最大的若干个句子形成摘要。基于句子生成的方法则需要利用深层的自然语言理解技术,在对原文档进行句法、语义分析之后,利用信息抽取或自然语言生成技术产生新的句子,从而形成摘要。
目前大部分多文档摘要方法都基于句子抽取技术,现有文献中也记载了多篇关于多文档摘要的方法。文章Centroid-based summarization ofmultiple documents(该文作者是:D.R.Radev,H.Y.Jing,M.Stys andD.Tam,发表于2004年出版的期刊Information Processing andManagement)公开了一种基于中心点的句子抽取方法,该方法是目前比较流行的一种基于句子抽取的摘要方法,MEAD是利用该方法实现的一个原型摘要***,它在赋予句子权重的过程中,综合考虑了句子级以及句子之间的特征,包括类簇中心点,句子位置,TF*IDF等。文章From Single toMulti-document Summarization:A Prototype System and its Evaluation(作者:C.-Y.Lin and E.H.Hovy,发表于2002年出版的期刊:Proceedingsof the 40th Anniversary Meeting of the Association for ComputationalLinguistics(ACL-02),)公开了一种名为NeATS的句子抽取***,该***是ISI开发的一个多文档摘要***,它源于单文档摘要***-SUMMARIST,该***选择重要句子时考虑了句子位置、词语频率、主题签名和词语类簇等多个特征,同时利用MMR技术对句子消重。文章Cross-documentsummarization by concept classification(作者:H.Hardy,N.Shimizu,T.Strzalkowski,L.Ting,G.B.Wise,and X.Zhang,发表于2003年出版的期刊:Proceedings of SIGIR’02)公开了一种名为XdoX的句子抽取***,该***适合为大规模的文档集生成摘要,它首先通过段落聚类检测出文档集中最重要的主题,然后抽取反映重要主题的句子形成摘要。文章Topic themes for multi-document summarization(作者S.Harabagiuand F.Lacatusu,发表于2005年出版的期刊Proceedings of SIGIR’05)公开了Harabagiu和Lacatusu的方法,该方法探讨了五种不同的多文档主题表现方式并且提出了一种新的主题表现方式。
基于图结构的方法也被用来对句子的重要性进行排序。文章Summarizing Similarities and Differences Among Related Documents(作者:I.Mani and E.Bloedorn,发表于2000年出版的期刊InformationRetrieval)公开了一种名为WebSumm的方法,该方法利用图连接模型,根据与多个其他顶点相连接的顶点具有较高重要性这个假设来对句子的重要性进行排序。文章LexPageRank:prestige in multi-document textsummarization(作者:G.Erkan and D.Radev,发表于2004年出版的期刊:Proceedings of the Conference on Empirical Methods in NaturalLanguage Processing(EMNLP’04))公开了一种名为LexPageRank的方法,该方法首先构建句子连接矩阵,然后基于类似PageRank的算法来计算句子重要性。文章Alanguage independent algorithmfor single and multipledocument summarization(作者:R.Mihalcea and P.Tarau,发表于2005年出版的期刊:Proceedings of the Second International JointConference on Natural Language Processing(IJCNLP’05))公开了一种名为Mihalcea和Tarau的方法,该方法也提出了一个类似的基于PageRank和HITS的算法计算句子重要性。
面向主题或查询的多文档摘要方法通常基于普通多文档摘要方法,在摘要过程中集成主题或查询信息,使得摘要能够满足用户的特定信息需求,现有文献中也记载了多篇关于多文档摘要的方法。文章Robust genericand query-based summarization(作者:H.Saggion,K.Bontcheva,andH.Cunningham,发表于2005出版的期刊Proceedings of EACL-2003)公开了一种面向主题或查询的多文档摘要方法,该方法利用基于查询的权重计算器计算每个句子和查询的相似度,然后在基于查询的摘要过程中考虑这个相似度值。文章Approaches to event-focused summarization basedon named entities and query words(作者:J.Ge.,X.Huang,and L.Wu,发表于2003年出版的期刊Proceedings of the 2003 DocumentUnderstanding Workshop)公开了一种面向主题或查询的多文档摘要方法,文章CLASSY query-based multi-document summarization(作者:J.M.Conroy and J.D.Schlesinger,发表于2005年出版的期刊Proceedingsof the 2005 Document Understanding Workshop)也公开了一种面向主题或查询的多文档摘要方法,这两种多文档摘要的方法探讨了主题描述中查询词和命名实体对面向事件或查询的多文档摘要的作用。文章CATS atopic-oriented multi-document summarization system at DUC 2005(作者:A.Farzindar,F.Rozon,and G.Lapalme,发表于2005年出版的期刊Proceedings of the 2005 Document Understanding Workshop)公开了一种面向主题或查询的多文档摘要方法,该方法首先对文档进行主题分析,然后将得到的主题和用户提供的主题进行匹配,最后得到面向主题的多文档摘要。但是,上述方法仍然存在一些不足,这些方法未能综合考虑句子的面向主题或查询的信息丰富程度和信息新颖程度,因而不能精确地根据用户定义的兴趣爱好等属性,返回相关的新闻信息和面向用户属性的摘要。
发明内容
针对现有技术中存在的缺陷,本发明的目的是提供一种基于簇排列(manifold-ranking)的面向主题或查询的多文档摘要方法,该方法能够综合考虑句子的面向主题或查询的信息丰富程度和信息新颖程度,并且利用簇排列算法自然一体地考虑句子之间的相互关系以及用户主题或查询的信息可以实现在给定主题或查询的情况下为多个文档形成更符合用户需求的摘要。
为达到以上目的,本发明采用的技术方案是:一种基于簇排列的面向主题或查询的多文档摘要方法,包括以下步骤:
(1)读入主题或查询以及文档,对主题或查询描述以及每个文档进行分句,句子集合为χ={x1,...,xp,xp+1,...,xn}Rm,其中x1到xp表示p个从主题或查询中得到的句子,xp+1到xn表示n-p个从文档中得到的句子。计算这n个句子中任意两个句子的相似度,构建句子关系图,其对应的规范化的句子相似矩阵为S;
(2)采用簇排列算法迭代计算文档中每个句子的排列值,所述的排列值即初始权重值;
(3)对句子进行差异性惩罚,得到每个句子的最终权重值;
(4)根据每个句子的最终权重值,从文档中选择权重值大的句子形成摘要。
进一步来说,步骤(2)中所述的簇排列算法具体方法如下:
令f:χ→R表示一个排列函数,对句子集合χ中每个句子xi,其中,1≤i≤n,赋予一个排列值fi,将f看作一个向量f=[f1,...,fn]T,同时,定义一个向量y=[y1,...,yn]T,其中对于1≤i≤p有yi=1,表示这p个句子来自用户给定的主题或查询,而对于文档中的n-p个句子均有yi=0(p+1≤i≤n),其中,T表示向量转置;
根据下式迭代计算每个句子的排列值,直到收敛:
             f(t+1)=αSf(t)+(1-α)y     (1)
其中f(t)表示第t次迭代得到的向量,t为正整数,S是步骤(1)得到的规范化的句子相似矩阵,α是[0,1]之间的一个参数,决定着某个句子的排列值计算过程中其相邻句子的排列值和初始排列值相对的贡献大小;每一次迭代过程均基于上次迭代计算得到的排列值,利用上式计算每个句子的新的排列值,直到所有句子的前后两次迭代计算得到的排列值不再变化为止,实际计算时只要所有句子的排列值的变化小于阈值时算法即停止,通常令f(1)=y;令fi *表示算法收敛后句子xi得到的排列值。
上述算法的基本思想是相邻接的句子之间的排列值在一定程度上应该相近,因此每个句子都将自身的排列值扩散到它的相邻句子,直到这个过程达到一个全局的稳定状态为止,最后每个文档中的句子都获得了一个排列值,反映该句子的面向用户主题或查询的信息丰富程度,
上述算法可以从理论上证明收敛到
                f*=β(I-αS)-1y     (2)
其中β=1-α,f*表示得到的排列值向量,I是单位矩阵;
进一步,为使本发明获得更好的发明效果,步骤(1)中所述的主题或查询信息是跟特定用户有关的个性化描述,包括用户属性、用户提问、用户查询,这些描述由用户直接提供,或者从用户的行为分析得到。
再进一步,步骤(1)中将主题或查询信息分成1到5个句子,也即是p的取值范围为1到5。
进一步,为使本发明获得更好的发明效果,步骤(1)中计算句子相似度,构建句子关系图时,具体方法如下:
1)对用户给定的主题或查询分句,得到x1到xp这p个句子,对所有文档进行分句得到xp+1到xn这n-p个句子,对这n个句子分词,然后利用下面的余弦公式对句子集合χ={x1,...,xp,xp+1,...,xn}Rm中的任意两个句子xi和xj计算相似度值:
sim ( x i , x j ) = cos ( x ρ i , x ρ j ) = x ρ i · x ρ j | | x ρ i | | · | | x ρ j | | - - - ( 3 )
其中
Figure A20061007258700093
为两个句子对应的词向量表示,向量中词t对应的权重根据tft*isft公式计算,tft表示词t在句子中的频率,isft表示词t倒排句子频率,也就是1+log(N/nt),其中N是句子的总数量,nt是包含词t的句子数量;
2)将每个句子当作一个顶点,如果两个句子xi和xj之间的相似度值大于阈值,那么在这两个句子之间建立一条边,边的权重为句子之间的相似度值,从而得到一个带权图G,令W表示图G对应的邻接矩阵,如果句子xi和xj之间存在边,那么Wij=sim(xi,xj),且对于所有的i,Wii=0;
3)对于得到的带权图G,本发明区分其中文档内句子关系和文档间句子关系,如果两个句子属于同一文档,那么它们之间的关系为文档内句子关系;如果两个句子分属不同文档,那么它们之间的关系为文档间句子关系。为了区分这两种关系的不同重要性,本发明将得到的邻接矩阵分解为:
W ~ = λ 1 W intra + λ 2 W inter - - - ( 4 )
其中Wintra是仅包含表示文档内句子关系的边的邻接矩阵(表示文档间句子关系的边权值设为0),Winter则是仅包含表示文档间句子关系的边的邻接矩阵(表示文档内句子关系的边权值设为0),λ1,λ2∈[0,1];
4)对新的邻接矩阵 进行规范化得到新的相似矩阵 S = D - 1 / 2 W ~ D - 1 / 2 , 其中D是对角矩阵,第(i,i)个元素等于 的第i行元素之和;令对原邻接矩阵W进行同样规范化得到的矩阵为
Figure A20061007258700105
再进一步,为使本发明获得更好的发明效果,步骤(1)中设定两个句子xi和xj之间的相似度值大于阈值时,阈值设定为0.01。
进一步,为使本发明获得更好的发明效果,步骤(1)中区分文档内句子关系和文档间句子关系时,公式(4)中λ1设为0.3,λ2设为1。
进一步,为使本发明获得更好的发明效果,步骤(2)中公式(1)中α设定为0.6。
进一步,为使本发明获得更好的发明效果,步骤(2)中设定句子的排列值的变化小于阈值时,阈值设定为0.0001。
进一步,为使本发明获得更好的发明效果,步骤(3)中对句子进行差异性惩罚时,采用贪心算法来对每个句子进行差异性惩罚,从而保证候选句子的新颖性,具体方法如下:
1)初始化两个集合A=φ,B={xi|i=p+1,...,n},每个句子的最终权重值初始化为其排列值,也就是说RankScore(xi)=fi *,i=p+1,...n;
2)按照当前最终权重值降序排列B中的句子;
3)假定xi是排名最高的句子,也就是序列中第一个句子,将xi从B移到A,并且对B中每一个和xi相邻接的句子xj(j≠i)进行如下的差异性惩罚:
RankScore ( x j ) = RankScore ( x j ) - ω · S ^ ji · f i * - - - ( 5 )
其中ω>0是惩罚程度因子,ω越大,差异性惩罚越强;如果ω为0,那么就没有差异性惩罚;
4)循环执行步骤2)和步骤3),直到B=φ。
再进一步,为使本发明获得更好的发明效果,步骤3)中公式(5)中所述的惩罚程度因子ω设定为8。
进一步,步骤(4)中,从文档句子xp+1到xn中选择权重值最大的2-10个句子形成摘要。
本发明的效果在于:采用本发明所述的方法,能够全面考虑了句子之间的相互关系以及用户主题或查询的信息,实现了使生成的多文档摘要既能包含文档集的主要信息,又能诠释主题或回答查询,能够得到更好的面向主题或查询的多文档摘要。
本发明之所以具有上述发明效果,是因为本发明具有下述特点:本发明提出了一种全新的摘要方法,该方法基于一种新的半监督学习算法-基于簇排列的算法,一体化考虑句子之间的相互关系以及用户主题或查询的信息,从而使得生成的摘要既能包含文档集的主要信息,又能诠释主题或回答查询,同时利用差异性惩罚算法来保证生成摘要的新颖性。该方法在基于簇排列的算法中还区别对待了文档内句子关系和文档间句子关系这两种不同的关系,赋予文档间句子关系更大的贡献权重。
附图说明
图1是本发明所述方法的流程图;
图2是使用本发明提出的方法改善文档检索的示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述:
如图1所示,一种基于簇排列的面向主题或查询的多文档摘要方法,包括以下步骤:
(1)读入文档,将主题或查询信息作为句子,对每个文档及主题或查询信息分句、分词,计算句子相似度,构建句子关系图;
本实施例中所述的主题包括用户属性、用户提问、用户查询等跟特定用户有关的个性化描述,这些描述是由用户直接提供,当然也可以从用户的行为分析得到;如果主题过长,可以将主题分成多个句子,最好是分成1到5个句子。由于本实施例中的主题较短,所以就将主题当作一个句子,也就是令p=1。
本实施例中计算句子相似度,构建句子关系图时,采用具体方法如下:
将用户给定的主题当作一个句子x1,对每个文档分句得到n-1个句子,同时得到句子集合χ={x1,X2,...,xn}Rm,其中x1表示用户给定的主题或查询,x2,...,xn表示文档中的n-1个句子;对这n个句子分词,然后利用下面的余弦公式对句子集合χ={x1,x2,...,xn}Rm中的任意两个句子xi和xj计算相似度值:
sim ( x i , x j ) = cos ( x ρ i , x ρ j ) = x ρ i · x ρ j | | x ρ i | | · | | x ρ j | | - - - ( 3 )
其中
Figure A20061007258700122
Figure A20061007258700123
为两个句子对应的词向量表示,向量中词t对应的权重根据tft*isft公式计算,tft表示词t在句子中的频率,isft表示词t倒排句子频率,也就是1+log(N/nt),其中N是句子的总数量,nt是包含词t的句子数量。
将每个句子当作一个顶点,如果两个句子xi和xj之间的相似度值大于阈值,本实施例中,设定阈值为0.01;那么在这两个句子之间建立一条边,边的权重为句子之间的相似度值,从而得到一个带权图G。令W表示图G对应的邻接矩阵,如果句子xi和xj之间存在边,那么Wij=sim(xi,xj),且对于所有的i,Wij=0。
对于得到的带权图G,本发明区分其中文档内句子关系和文档间句子关系。如果两个句子属于同一文档,那么它们之间的关系为文档内句子关系;如果两个句子分属不同文档,那么它们之间的关系为文档间句子关系。为了区分这两种关系的不同重要性,本发明将得到的邻接矩阵分解为:
W ~ = λ 1 W intra + λ 2 W inter - - - ( 4 )
其中Wintra是仅包含表示文档内句子关系的边的邻接矩阵(表示文档间句子关系的边权值设为0),Winter则是仅包含表示文档间句子关系的边的邻接矩阵(表示文档内句子关系的边权值设为0),λ1,λ2∈[0,1],本实施例中,设定设λ1=0.3,λ2=1,从而对文档间句子关系赋予更多重要性。
对新的邻接矩阵
Figure A20061007258700125
进行规范化得到新的相似矩阵 S = D - 1 / 2 W ~ D - 1 / 2 , 其中D是对角矩阵,第(i,i)个元素等于
Figure A20061007258700127
的第i行元素之和;令对原邻接矩阵W进行同样规范化得到的矩阵为
Figure A20061007258700128
(2)采用簇排列算法迭代计算文档中每个句子的排列值;
本实施例中,簇排列算法具体方法如下:
令f:χ→R表示一个排列函数,对每个句子xi(1≤i≤n)赋予一个排列值fi.我们可以将f看作一个向量f=[f1,...,fn]T。同时,我们定义一个向量y=[y1,...,yn]T,其中y1=1反映了句子x1表示用户给定的主题或查询,而对于文档中的所有句子均有yi=0(2≤i≤n)。
根据下式迭代计算每个句子的排列值,直到收敛:
             f(t+1)=αSf(t)+(1-α)y     (1)
其中f(t)表示第t次迭代得到的向量,α是[0,1]之间的一个参数,决定着某个句子的排列值计算过程中其相邻句子的排列值和初始排列值相对的贡献大小,本实施例中α设定为为0.6;通常令f(1)=y,每一次迭代过程均基于上次迭代计算得到的排列值,利用上式计算每个句子的新的排列值,直到所有句子的前后两次迭代计算得到的排列值不再变化为止,实际计算时只要所有句子的排列值的变化小于阈值时算法即停止,本实施例中,阈值设定为0.0001;令fi *表示算法收敛后句子xi得到的排列值。
上述算法的基本思想是相邻接的句子之间的排列值在一定程度上应该相近,因此每个句子都将自身的排列值扩散到它的相邻句子,直到这个过程达到一个全局的稳定状态为止。最后每个文档中的句子都获得了一个排列值,反映该句子的面向用户主题或查询的信息丰富程度。
上述算法可以从理论上证明收敛到
                   f*=β(I-αS)-1y       (2)
其中β=1-α。
(3)对句子进行差异性惩罚,得到每个句子的最终权重值;
对句子进行差异性惩罚时,采用贪心算法来对每个句子进行差异性惩罚,从而保证候选句子的新颖性,具体方法如下:
1)初始化两个集合A=φ,B={xi|i=2,...,n},每个句子的最终权重值初始化为其排列值,也就是说RankScore(xi)=fi *,i=2,...n;
2)按照当前最终权重值降序排列B中的句子;
3)假定xi是排名最高的句子,也就是序列中第一个句子,将xi从B移到A,并且对B中每一个和xi相邻接的句子xj(j≠i)进行如下的差异性惩罚:
RankScore ( x j ) = RankScore ( x j ) - ω · S ^ ji · f i * - - - ( 5 )
其中ω>0是惩罚程度因子,ω越大,差异性惩罚越强,本实施例中,惩罚程度因子ω设定为8;如果ω为0,那么就没有差异性惩罚;
4)循环执行步骤2)和步骤3),直到B=φ。
(4)根据每个句子的最终权重值,从x2,...,xn中选择权重值大的句子形成摘要,一般来说选择权重值最大的2-10个句子形成摘要即可,本实施例中,选择权重值最大的8个句子形成摘要。
如图2所示为使用本发明提出的方法改善文档检索的示意图。
为了验证本发明的有效性,采用文档理解大会(DUC)大会(http://duc.nist.gov)的评测数据和任务。我们采用了DUC2003和DUC2005的面向主题或查询的多文档摘要评测任务,也就是DUC2003的第2个评测任务,第3个评测任务以及DUC2005的唯一评测任务。DUC2003的第2个评测任务提供了30个文档集和30个TDT的事件主题,要求参评者提供100词长度以内的面向事件主题的摘要。DUC和第3个评测任务提供了30个文档集和30个用户观点,要求参评者提供100词以内长度的面向用户观点的摘要。DUC2005的唯一摘要任务提供了50个文档集和50个用户属性及DUC主题,要求参评者提供250词以内长度的面向用户属性及DUC主题的摘要。参评者提交的摘要将与人工摘要做对比。我们采用了流行的文档摘要评测方法ROUGE评测方法来评测本发明的方法,包括三个评价指标ROUGE-1,ROUGE-2和ROUGE-W,ROUGE值越大,效果越好,ROUGE-1值是最主要的评价指标。本发明的方法和参评者之中表现最优异的三个***以及两个基准***作比较,实验结果分别如表1和表2所示:
表1:在DUC2003第2个任务上评测的比较结果
  ***   ROUGE-1   ROUGE-2   ROUGE-W
  本发明S12S13S16CoverageBaselineLeadBaseline   0.419650.387840.377920.376470.328900.31385   0.106910.092010.096390.091920.075600.06094   0.138050.124530.122020.121510.106880.10154
表2:在DUC2003第3个任务上评测的比较结果
  ***   ROUGE-1   ROUGE-2   ROUGE-W
  本发明S16S13S17CoverageBaselineLead Baseline   0.373320.350010.319860.318090.302900.28200   0.076770.073050.058310.049810.059680.04468   0.118690.109690.100160.098870.096780.09077
表3:在DUC2005唯一任务上评测的比较结果
  ***   ROUGE-1   ROUGE-2   ROUGE-W
  本发明S4S15S17CoverageBaselineLead Baseline   0.384340.373960.373830.369010.345680.30470   0.073170.068420.072440.071650.059150.04764   0.102260.098670.098420.097510.091030.08084
实验结果表明,本发明的方法表现优异,在三个评价指标上都优于参评者的***以及基准***。
ROUGE评测方法可以参见文献Automatic Evaluation of SummariesUsing N-gram Co-occurrence Statistics(作者:C.-Y.Lin and E.H.Hovy,发表于2003年出版的期刊Proceedings of 2003 LanguageTechnology Conference(HLT-NAACL 2003))
本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。

Claims (12)

1.一种基于簇排列的面向主题或查询的多文档摘要方法,包括以下步骤:
(1)读入主题或查询以及文档,对主题或查询描述以及每个文档进行分句,句子集合为x={x1,...,xp,xp+1,...,xn}Rm,其中x1到xp表示p个从主题或查询中得到的句子,xp+1到xn表示n-p个从文档中得到的句子,计算这n个句子中任意两个句子的相似度,构建句子关系图,其对应的规范化的句子相似矩阵为S;
(2)采用簇排列算法迭代计算文档中每个句子的排列值,所述的排列值即初始权重值;
(3)对上述句子进行差异性惩罚,得到每个句子的最终权重值;
(4)选择权重值大的句子形成摘要。
2、如权利要求1所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是:步骤(2)中簇排列算法具体方法如下:
令f:x→R表示一个排列函数,对句子集合x中每个句子xi,其中,1≤i≤n,赋予一个排列值fi,将f看作一个向量f=[f1,...,fn]T,同时,定义一个向量y=[y1,...,yn]T,其中对于1≤i≤p有yi=1,表示这p个句子来自用户给定的主题或查询,而对于文档中的n-p个句子均有yi=0(p+1≤i≤n),其中,T表示向量转置;
根据下式迭代计算每个句子的排列值,直到收敛:
              f(t+1)=αSf(t)+(1-α)y    (1)
其中f(t)表示第t次迭代得到的向量,t为正整数,S是步骤(1)得到的规范化的句子相似矩阵,α是[0,1]之间的一个参数,决定着某个句子的排列值计算过程中其相邻句子的排列值和初始排列值相对的贡献大小;每一次迭代过程均基于上次迭代计算得到的排列值,利用上式计算每个句子的新的排列值,直到所有句子的前后两次迭代计算得到的排列值的变化小于阈值时算法即停止,通常令f(1)=y;令fi *表示算法收敛后句子xi得到的排列值;
3.如权利要求2所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是:步骤(1)中所述的主题或查询信息是跟特定用户有关的个性化描述,包括用户属性、用户提问、用户查询,这些描述由用户直接提供,或者从用户的行为分析得到。
4.如权利要求3所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是:步骤(1)中将主题或查询信息分成1到5个句子,也就是p取值范围为1到5。
5.如权利要求1、2、3或4所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是:步骤(1)中计算句子相似度,构建句子关系图时,具体方法如下:
1)对用户给定的主题或查询分句,得到x1到xp这p个句子,对所有文档进行分句得到xp+1到xn这n-p个句子,对这n个句子分词,然后利用下面的余弦公式对句子集合x={x1,...,xp,xp+1,...,xn}Rm中的任意两个句子xi和xj计算相似度值:
sim ( x i , x j ) = cos ( x ρ i , x ρ j ) = x ρ i · x ρ j | | x ρ i | | · | | x ρ j | | · · · ( 3 )
其中
Figure A2006100725870003C3
为两个句子对应的词向量表示,向量中词t对应的权重根据tft*isft公式计算,tft表示词t在句子中的频率,isft表示词t倒排句子频率,也就是1+log(N/nt),其中N是句子的总数量,nt是包含词t的句子数量;
2)将每个句子当作一个顶点,如果两个句子xi和xj之间的相似度值大于阈值,那么在这两个句子之间建立一条边,边的权重为句子之间的相似度值,从而得到一个带权图G,令W表示图G对应的邻接矩阵,如果句子xi和xj之间存在边,那么Wij=sim(xi,xj),且对于所有的i,Wij=0;
3)对于得到的带权图G,本发明区分其中文档内句子关系和文档间句子关系,如果两个句子属于同一文档,那么它们之间的关系为文档内句子关系;如果两个句子分属不同文档,那么它们之间的关系为文档间句子关系,为了区分这两种关系的不同重要性,本发明将得到的邻接矩阵分解为:
W ~ = λ 1 W intra + λ 2 W inter · · · ( 4 )
其中Wintra是仅包含表示文档内句子关系的边的邻接矩阵,表示文档间句子关系的边权值设为0,Winter则是仅包含表示文档间句子关系的边的邻接矩阵,表示文档内句子关系的边权值设为0,λ1,λ2∈[0,1];
4)对新的邻接矩阵 进行规范化得到新的相似矩阵 S = D - 1 / 2 W ~ D - 1 / 2 , 其中D是对角矩阵,第(i,i)个元素等于 的第i行元素之和,令对原邻接矩阵W进行同样规范化得到的矩阵为
6.如权利要求5所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是:设定两个句子xi和xj之间的相似度值大于阈值时,阈值设定为0.01。
7.如权利要求5所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是:步骤(1)中区分文档内句子关系和文档间句子关系时,公式(4)中λ1设为0.3,λ2设为1。
8如权利要求2、3或4所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是:步骤(2)中公式(1)中α设定为0.6。
9.如权利要求2、3或4所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是:步骤(2)中设定句子的排列值的变化小于阈值时,阈值设定为0.0001。
10.如权利要求1、2、3或4所述的种基于簇排列的面向主题或查询的多文档摘要方法,其特征是:步骤(3)中对句子进行差异性惩罚时,采用贪心算法来对每个句子进行差异性惩罚,从而保证候选句子的新颖性,具体方法如下:
a)初始化两个集合A=φ,B={xi|i=p+1,...,n},每个句子的最终权重值初始化为其排列值,也就是说RankScore(xi)=fi *,i=p+1,...n;
b)按照当前最终权重值降序排列B中的句子;
c)假定xi是排名最高的句子,也就是序列中第一个句子,将xi从B移到A,并且对B中每一个和xi相邻接的句子xj(j≠i)进行如下的差异性惩罚:
RankScore ( x j ) = RankScore ( x j ) - ω · S ^ ji · f i * · · · ( 5 )
其中ω>0是惩罚程度因子,ω越大,差异性惩罚越强;如果ω为0,那么就没有差异性惩罚;
d)循环执行步骤2)和步骤3),直到B=φ。
11.如权利要求10所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是:步骤3)中公式(5)中所述的惩罚程度因子ω设定为8;
步骤(4)中,文档句子xp+1到xn中选择权重值最大的2-10个句子形成摘要。
12.如权利要求1、2、3或4所述的一种基于簇排列的面向主题或查询的多文档摘要方法,其特征是:步骤(4)中,文档句子xp+1到xn中选择权重值最大的2-10个句子形成摘要。
CNB2006100725872A 2006-04-13 2006-04-13 一种基于簇排列的面向主题或查询的多文档摘要方法 Expired - Fee Related CN100418093C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100725872A CN100418093C (zh) 2006-04-13 2006-04-13 一种基于簇排列的面向主题或查询的多文档摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100725872A CN100418093C (zh) 2006-04-13 2006-04-13 一种基于簇排列的面向主题或查询的多文档摘要方法

Publications (2)

Publication Number Publication Date
CN1828609A true CN1828609A (zh) 2006-09-06
CN100418093C CN100418093C (zh) 2008-09-10

Family

ID=36947001

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100725872A Expired - Fee Related CN100418093C (zh) 2006-04-13 2006-04-13 一种基于簇排列的面向主题或查询的多文档摘要方法

Country Status (1)

Country Link
CN (1) CN100418093C (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676897A (zh) * 2008-05-28 2010-03-24 美国日本电气实验室公司 利用文档聚类的多文档概括
CN101398814B (zh) * 2007-09-26 2010-08-25 北京大学 一种同时抽取文档摘要和关键词的方法及***
CN101620596B (zh) * 2008-06-30 2012-02-15 东北大学 一种面向查询的多文档自动摘要方法
WO2014063354A1 (en) * 2012-10-26 2014-05-01 Hewlett-Packard Development Company, L.P. Method for summarizing document
CN105868175A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 摘要生成方法及装置
CN108573045A (zh) * 2018-04-18 2018-09-25 同方知网数字出版技术股份有限公司 一种基于多阶指纹的比对矩阵相似度检索方法
CN109582967A (zh) * 2018-12-03 2019-04-05 深圳前海微众银行股份有限公司 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN110582761A (zh) * 2018-10-24 2019-12-17 阿里巴巴集团控股有限公司 基于点击图上向量传播模型的智能客户服务
CN111368066A (zh) * 2018-12-06 2020-07-03 北京京东尚科信息技术有限公司 获取对话摘要的方法、装置和计算机可读存储介质
US10831793B2 (en) 2018-10-23 2020-11-10 International Business Machines Corporation Learning thematic similarity metric from article text units
CN114547259A (zh) * 2020-11-26 2022-05-27 北京大学 一种基于主题关系图的公式描述自动生成方法与***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2184518A1 (en) * 1996-08-30 1998-03-01 Jim Reed Real time structured summary search engine
US6477534B1 (en) * 1998-05-20 2002-11-05 Lucent Technologies, Inc. Method and system for generating a statistical summary of a database using a join synopsis
CN1145899C (zh) * 2000-09-07 2004-04-14 国际商业机器公司 为文字文档自动生成摘要的方法
CN1614587A (zh) * 2003-11-07 2005-05-11 杨立伟 中文文件自动摘要方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398814B (zh) * 2007-09-26 2010-08-25 北京大学 一种同时抽取文档摘要和关键词的方法及***
CN101676897A (zh) * 2008-05-28 2010-03-24 美国日本电气实验室公司 利用文档聚类的多文档概括
CN101620596B (zh) * 2008-06-30 2012-02-15 东北大学 一种面向查询的多文档自动摘要方法
WO2014063354A1 (en) * 2012-10-26 2014-05-01 Hewlett-Packard Development Company, L.P. Method for summarizing document
CN104871151A (zh) * 2012-10-26 2015-08-26 惠普发展公司,有限责任合伙企业 用于概括文档的方法
US9727556B2 (en) 2012-10-26 2017-08-08 Entit Software Llc Summarization of a document
CN105868175A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 摘要生成方法及装置
CN108573045B (zh) * 2018-04-18 2021-12-24 同方知网数字出版技术股份有限公司 一种基于多阶指纹的比对矩阵相似度检索方法
CN108573045A (zh) * 2018-04-18 2018-09-25 同方知网数字出版技术股份有限公司 一种基于多阶指纹的比对矩阵相似度检索方法
US10831793B2 (en) 2018-10-23 2020-11-10 International Business Machines Corporation Learning thematic similarity metric from article text units
CN110582761A (zh) * 2018-10-24 2019-12-17 阿里巴巴集团控股有限公司 基于点击图上向量传播模型的智能客户服务
CN110582761B (zh) * 2018-10-24 2023-05-30 创新先进技术有限公司 基于点击图上向量传播模型的智能客户服务
CN109582967A (zh) * 2018-12-03 2019-04-05 深圳前海微众银行股份有限公司 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN109582967B (zh) * 2018-12-03 2023-08-18 深圳前海微众银行股份有限公司 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN111368066A (zh) * 2018-12-06 2020-07-03 北京京东尚科信息技术有限公司 获取对话摘要的方法、装置和计算机可读存储介质
CN111368066B (zh) * 2018-12-06 2024-02-09 北京京东尚科信息技术有限公司 获取对话摘要的方法、装置和计算机可读存储介质
CN114547259A (zh) * 2020-11-26 2022-05-27 北京大学 一种基于主题关系图的公式描述自动生成方法与***
CN114547259B (zh) * 2020-11-26 2024-05-24 北京大学 一种基于主题关系图的公式描述自动生成方法与***

Also Published As

Publication number Publication date
CN100418093C (zh) 2008-09-10

Similar Documents

Publication Publication Date Title
CN1828609A (zh) 一种基于簇排列的面向主题或查询的多文档摘要方法
Wan et al. Multi-document summarization using cluster-based link analysis
Kang et al. Modeling user interest in social media using news media and wikipedia
Au Yeung et al. Contextualising tags in collaborative tagging systems
CN1828608A (zh) 一种基于句子关系图的多文档摘要方法
CN1869978A (zh) 用于链接文档的方法、设备和***
CN1694101A (zh) 用于搜索术语建议的多种类型数据的加强群集
CN1758244A (zh) 用于排列搜索结果的文档以改进多样性和信息丰富度的方法和***
Seo et al. Online community search using conversational structures
Zhuhadar et al. Semantic information retrieval for personalized e-learning
CN101187919A (zh) 一种对文档集进行批量单文档摘要的方法及***
CN1341899A (zh) 为文字文档自动生成摘要的方法
Pan et al. Reducing ambiguity in tagging systems with folksonomy search expansion
CN1916904A (zh) 一种基于文档扩展的单文档摘要方法
Xu et al. Using social annotations to improve language model for information retrieval
Kuo et al. A library recommender system using interest change over time and matrix clustering
Murnane et al. RESLVE: leveraging user interest to improve entity disambiguation on short text
Min et al. Building user interest profiles from wikipedia clusters
Bi et al. Cubelsi: An effective and efficient method for searching resources in social tagging systems
Bagdouri et al. Profession-based person search in microblogs: Using seed sets to find journalists
Balasubramanian et al. Topic pages: An alternative to the ten blue links
Ramanathan et al. Creating user profiles using wikipedia
Jin et al. Simple May Be Best-A Simple and Effective Method for Federated Web Search via Search Engine Impact Factor Estimation.
Oliveira et al. Automatic tag suggestion based on resource contents
Poblete et al. Dr. searcher and mr. browser: a unified hyperlink-click graph

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220919

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: PEKING University FOUNDER R & D CENTER

Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: PEKING University FOUNDER R & D CENTER

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230330

Address after: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee after: Peking University

Address before: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee before: New founder holdings development Co.,Ltd.

Patentee before: Peking University

Patentee before: PEKING University FOUNDER R & D CENTER

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080910

CF01 Termination of patent right due to non-payment of annual fee