CN105320642B - 一种基于概念语义基元的文摘自动生成方法 - Google Patents

一种基于概念语义基元的文摘自动生成方法 Download PDF

Info

Publication number
CN105320642B
CN105320642B CN201410309528.7A CN201410309528A CN105320642B CN 105320642 B CN105320642 B CN 105320642B CN 201410309528 A CN201410309528 A CN 201410309528A CN 105320642 B CN105320642 B CN 105320642B
Authority
CN
China
Prior art keywords
document
sentence
sentences
semantic
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410309528.7A
Other languages
English (en)
Other versions
CN105320642A (zh
Inventor
张全
袁毅
韦向峰
丛培民
杜义华
池毓焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201410309528.7A priority Critical patent/CN105320642B/zh
Publication of CN105320642A publication Critical patent/CN105320642A/zh
Application granted granted Critical
Publication of CN105320642B publication Critical patent/CN105320642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种基于概念语义基元的文摘自动生成方法,包含:利用概念语义基元作为语义计算和文档内容表示的载体,通过对文档语义内容的汇聚,获取文档内容的语义重心,然后根据语义重心选择代表文档内容的文摘句构成文档摘要的自动生成方法。本发明利用潜在狄利克雷分配(LDA)模型对文档主题进行建模,实现主题生成处理,按照主题重要度选择文摘句。在计算过程中引入概念层次网络符号,并利用其中的语义层次关系实现对语义信息的归并,改善以词语作为语义计算单元而造成的数据稀疏问题。

Description

一种基于概念语义基元的文摘自动生成方法
技术领域
本发明涉及自然语言文本智能分析领域,特别涉及一种基于概念语义基元的文摘自动生成方法。
背景技术
信息技术的飞速发展,互联网进入人们的日常生活。信息传输的瓶颈已经打破,人们可以方便地接触到海量的信息内容。如何从中快速了解信息内容,已经成为当前智能信息处理发展的方向和技术研究的热点。特别是随着互联网上文档信息的急剧膨胀,用户面对大量的文档信息,迫切需要能够有效处理这些文档信息的工具。自动文本摘要,是以自然语言处理技术为基础,通过对文档内容进行分析处理,自动生成文档摘要内容的智能文本处理应用技术。自动文本摘要可以为用户提供文档内容的概要性描述,对文档文字进行浓缩,便于用户在有限的时间内了解更多的文档信息。特别是随着移动互联网的普及,经过文摘浓缩的文字内容更适合在诸如手机、平板电脑等移动设备上呈现和展示,方便用户随时随地了解信息。
计算机自动文摘处理一般采用摘录的方式生成文本摘要。这一处理方式将文档看作是其组成句子的集合,对原文档中的所有句子按一定的方式计算重要程度的权值,然后按照权值的高低降序排列,选择权值高的若干句子作为文摘句。尽管这种方式自动形成的摘要常常会缺乏连贯性,但这一结果对用户了解该文档主要内容,判断是否有进一步阅读价值有帮助,因此已为用户所接受。摘录式自动文摘更注重于摘录语句的内容是否有代表性,而较少考虑生成摘要的连贯性,语句的简洁等其他方面的因素。
摘录式自动文摘从方法上可以分为有监督的处理方法和无监督的处理方法。有监督的方法基于大量人工制作的摘录文摘,利用机器学习算法,对于文摘句的特征进行学习训练,利用获得的参数进行文摘句的选择。因此,这种方法对于与训练文摘相似的文档,往往能够取得较好的效果,但对于其他文档则不一定能产生令人满意的结果。另外,当用户改变文摘的目的或文档的特性时,需要重新构建训练数据或重新训练模型。无监督的方法则不需要提供参考的文摘作为训练数据,它直接通过一定的准则计算句子的重要度权重来对句子进行排序并选择文摘句。在这类方法中主要采用基于词频信息计算语句权重的处理模型。有研究表明,词语出现的频度对于文档主要内容有重要的影响,文档中非常用词的相对频率可以较为准确的反映该词在文档内容中的重要程度,进而可以根据这些词语计算语句的权重。然而,基于词频信息的自动文摘在表示内容重要性时存在缺陷,由于缺乏考虑词语之间的关系,词语只是作为孤立的计算单元,因此对于深层的语义信息反映不够充分,不能很好的区分词汇之间的重要性。
为了改进处理方法,研究者进行了深入的研究。近年来在文本语义处理方面面向语言数据的浅层语义分析发展很快。这一处理技术以统计分布为基础,通过构造词语与主体之间的关系,描述文档主题的分布,形成了以词语概率权重表示的主题描述语义模型,建立了利用语言数据研究语义内容的新模式。这也为获取和表示文档语义内容提供了新手段,为摘录式自动文摘提供了新出处理思路――按照主题计算语句的重要程度:首先划分文档的主题,然后选择重要主题下重要的句子组成文摘。按照主题方式选择语句,一方面可以使文摘中的句子具有较少的冗余度,另一方面可以突显词语之间在主题分布上的关系,更好反映文档的内容。其中潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型在研究中得到广泛应用,取得较好的效果。这种处理方法已经应用在处理文档集合的多文档自动摘要中。需要指出的是,这类方法是以统计分析作为处理基础的,需要有比较充分的数据,才能反映出文档主题的分布规律来,而对于单个文档的摘要处理,往往会由于数据稀疏而难以达到预期的效果。
另一方面,随着自然语言理解技术研究的深入,已经形成了丰富的语义资源,特别是概念层次网络(Hierarchical Network of Concepts,简称HNC)给出了层次化、网络化和概念化的语义表述体系,并形成了以这一语义表述体系为基础的汉语词语语义知识库,为进行深层语义计算提供了基础。因此本发明将以此为基础建立新的文摘处理模式,进而形成结合深层语义表示和浅层语义处理的文摘自动生成方法,这一方法的要点在于对语义知识的利用。
发明内容
本发明的目的在于,为解决背景技术中所说明的基于词频计算语句权重值不能很好反映文档深层语义内容的问题,同时改善以词语为统计处理单元的主题分析方法应用于单个文档而数据稀疏的问题,进而形成单篇文档的文摘内容。本发明提供一种利用概念语义基元的文摘自动生成方法。
为了实现上述目的,本发明提供了一种基于概念语义基元的文摘自动生成方法,所述方法包含:
步骤101)利用文档中语句的语义信息对文档主题进行LDA建模,获得语义主题模型;
步骤102)根据获得的语义主题模型,即LDA模型,进一步计算文档的语义重心,所述文档的语义重心指文档的“语句--主题分布”和“主题--概念语义基元分布”;
步骤103)根据语义重心的表述,选择若干语句作为文摘句进行输出。
可选的,上述步骤101)进一步包含:
步骤101-1)抽取输入文档的正文内容和标题;
步骤101-2)根据文档中的标点符号将抽取的正文内容划分为若干语句,且将标题作为一个独立的语句,进而得到文档的语句集合;
步骤101-3)为语句集合中的各语句增加序号信息和段标识信息,进而得到文档语句集合,其中,所述序号信息用于表示各语句属于文档的第几个句子;所述段标识信息用于表示各语句在一个段落中处于段首、段中还是段尾;
步骤101-4)对文档语句集合中的语句进行词语切分和概念语义基元映射,将各个语句中的词语与一个或若干个概念语义基元符号相对应,再对得到的概念语义基元进行层次分解,进而得到不同层次的概念语义基元的频次,最后将得到各个概念语义基元的频次特征输入潜在狄利克雷分配模型;
步骤101-5)通过潜在狄利克雷分配模型对输入信息的处理,进而得到语义主题模型。
可选的,上述步骤101-1)进一步包含:
步骤101-1-1)去除电子文档格式保存的文档中的结构化信息和版式信息,再提取文档的正文内容,保留文档内容中的自然段信息标记;
步骤101-1-2)去掉文档内容中的非连续语句内容,所述非连续语句内容包括:表格或注释;
步骤101-1-3)将文档按照标点符号分割为若干语句,得到的所有语句组成了正文内容。
可选的,上述步骤101-4)包括:
步骤101-4-1)对文档语句集合中的语句进行词语切分和概念语义基元映射,进而将各个语句与一个或若干个概念语义基元相对应;并过滤词语切分后得到的连词、介词,进而保留实词;
步骤104-1-2)从保留的实词中提取词语对应的、以概念层次网络符号表示的词语语义,计算概念语义基元符号的频次;
步骤101-4-2)根据概念语义基元符号的层次关系,得到词语对应的概念语义基元符号的父节点和祖先节点,自底向上将底层节点的频次信息添加到上层节点上;
步骤101-4-3)记录所有概念语义基元符号的频次信息,其中概念语义基元符号包括语句中词语对应的概念语义基元符号以及这些概念语义基元符号的祖先节点符号。
可选的,与主题模型相应的主题数目为K,所述的主题数目K的计算公式为:
上述K表示预设的主题个数,E(X)表示取X的整数部分;Na,Nd,Ns,Np分别表示摘要的字数,文档的字数,以及语句个数和段落个数。
可选的,上述步骤102)采用Gibbs算法求解获得文档的语句主题分布,该步骤进一步包含:
步骤102-1)利用Gibbs抽样算法进行参数估计,得到文档的语句集合中各语句在主题上的分布根据各语句在主题上的分布值获得各个主题在文档中的概率权重,再根据概率权重对主题重要度进行排序;
步骤102-2)根据步骤102-1)得到的主题权重顺序,对每个主题依次选择1~2个语句组成候选依据集合,且选择语句的原则为:依据计算得到的语句在主题上的分布选择每个主题下混合概率最高的前2个句子。
可选的,上述步骤102-2)在选择句子时还包含如下步骤:
步骤102-2-1)如果两个句子在对应主题下的权重相对差值超过30%,即对应主题下第一候选句子的权值比第二候选高30%,则对应主题下只保留第一候选的句子;否则保留两个候选语句;
步骤102-2-2)如果根据权重选择得到的属于当前主题的句子已经在前面的主题中被选中,则按权重由大到小的顺序将下一个句子作为当前主题的候选语句。
可选的,上述各个主题在文档中的概率权重的计算公式如下:
其中,直接使用求得的N表示文档的语句集合中语句的总个数,T表示进行分析时的主题个数,j表示遍历的变量它的取值包括所有主题,zi表示一个特定主题。
可选的,上述步骤103)进一步包含:
步骤103-1)根据主题重要度,依次选择文摘语句,具体为:
从主题重要度高的主题开始,选取对应主题下的语句;如果对应主题下只有一个语句,则直接选择;如果对应主题下有两个候选语句,则考察两个候选语句在文档中的位置,如果第一候选在文档一段的段首或段尾,则直接选择第一候选句;如果第一候选在一段的段中,第二候选在段首或者段尾,则选择第二候选语句作为输出语句,否则选第一候选语句;
步骤103-2)在依据主题重要度选择语句的过程中,同时记录已经选取的语句的字数,如果字数达到或者接近文摘要求的字数,则停止继续选取语句;如果选取的语句字数超过文摘要求字数较多,则放弃当前的主题,选择后继主题对应的主题;如果后继主题中仍然没有满足文摘字数要求的语句,则按照少于文摘字数要求的结果输出。
可选的,上述步骤103-2)之后还包含:
提取文档的语句集合中各语句的标号,按照标号从小到达的次序输出选择的语句,进而得到输出的文档文摘。
本发明提供的利用概念语义基元的文摘自动生成方法充分利用词语之间的主题分布关系和概念层次关系,以基元化的语义概念符号作为计算单元,使自动生成的文摘准确反映文档的语义内容,为用户提供更好的使用体验。
与现有技术相比,本发明的技术优势在于:
本发明首先利用文档中语句的语义信息对文档主题进行建模,根据获得的语义主题模型,进一步计算文档的语义重心,再根据语义重心的表述,选择语句作为文摘句进行输出。本发明采用潜在狄利克雷分配(LDA)模型进行浅层的语义主题分析,实现主题生成处理,利用概念层次网络对于语义表达的层次关系,对语义基元信息进行归并,改善以词语作为语义计算单元而造成的数据稀疏问题。这一方法将具有基于数据驱动的特征,能够自动获取语义主题信息,形成动态分析处理模式,实现利用语义知识的自动文摘生成的方法。
附图说明
图1是概念节点频次计算示意图;
图2是LDA分析处理模型构成图;
图3利用语义概念语义基元的文摘自动生成方法构成图。
具体实施方式
下面结合附图和实施例对本发明所述方法进行详细说明。
为使文本自动文摘准确反映文档语义内容信息,本发明提供一种基于语义信息的、利用概念语义基元进行语义表示的语句权重自动分析处理模式,形成基于语义内容的自动文摘方法,即利用概念语义基元的自动文摘处理方法,这一方法包括:
1.文档的规整化处理。
对于以电子文档格式保存的文档,如果具有版式信息,提取文档标题以及各级子标题,文档的正文内容;去掉时间、附图、边框等结构化信息和版式信息;如果是不具有版式信息的纯文本文件,则直接进入下面的步骤。
去掉文档内容中非语句和非正文连续内容,如表格、注释等内容。将文档按照语句的自然分隔符号――标点符号,分割为语句,构成语句集合。同时根据语句在段落中的位置标记语句的段落位置信息,按照段落起始位置(段首),段落中非起始结尾位置(段中)和段落结尾位置(段尾)三种情况标注语句在段落中的位置信息。
为语句设置统一的标识编号,按照顺序对句子进行编号。
经过文档规整化之后,得到构成文档的语句集合,如下所示。
D={S1h,S2m,…,Sit,Si+1h,Si+2m,…,Si+jm,…,Si+j+kt,…,Snt}
其中,D表示文档,它由句子S集合构成;句子S集合中共有N个句子,句子的下标{1,2,i,i+1,i+2,i+j,i+j+k,n}分别表示句子的序号,n小于等于N;句子下标中的{h,m,t}分别表示句子在一个段落中的位置:段首,段中和段尾。
2.准备输入潜在狄利克雷分配(LDA)模型的数据。
以步骤1形成的语句集合中的每个语句为数据准备的单元。
对语句进行词语切分。同时根据词语知识库的语义知识标注词语的概念语义基元符号。如果词语是多义词,则保留所有义项。
对于词语中存在的歧义切分,保留全部的歧义切分可能。
对于切分和标注结果,过滤掉词语中的连词,介词,助词等虚词成分,保留实词进入后继的计算。
为了行文方便,下文直接使用单一下标表示一个语句。
Si={w1:f1,w2:f2,…,wi:fi,ws1:fs1,ws2:fs2,…,wsj:fsj}
S'i={w1:f1,w2:f2,…,wi:fi}
式中Si表示一个句子;经过词语切分处理之后,句子变成了词语集合,所得到的词语包括实词wi和虚词wsj,f表示词语对应的频次;过滤掉虚词剩下的实词wi,构成S’i
3.计算概念语义基元节点的频次。
从保留的实词中提取词语对应的、以概念层次网络符号表示的词语语义,计算概念语义基元节点的频次。
概念语义基元节点之间存在着层次关系,可以根据概念语义基元节点符号得到它的父节点和祖先节点,按照“自底向上”的原则,将底层节点的频次信息添加到父节点上。这样按照这种方式处理之后,高层概念节点的频次将大于或者等于底层概念节点的频次。因此通过概念节点内部的层次关系,可以对频次信息按照概念类属进行汇聚。
将所有概念节点,包括语句中词语对应的概念节点,以及这些节点的祖先节点,及其对应的频次信息列出,供后继处理使用。
下面给出具体说明。如下式所示:
{w1:f1,w2:f2,w3:f3}∈Si
式中表示,假设有w1,w2,w3词语属于句子Si;每个词语分别有自己在文档中对应的频次信息。
对于这些词语有,
w1:N1
w1:N2
w2:N3
w3:N1
式中表示对于w1有两个义项,使用概念语义基元可以分别表示为N1,N2;w2有一个义项N2,w3有一个义项N1,且这个义项与w1中的一个义项相同。
对于这些概念语义基元节点计算它们对应父节点的频次信息。首先给出这些概念节点在概念树上的关系,如图1所示。
如图1左边部分所示,概念节点有共同的祖先节点P0,N3实际上就是P2和P3的父节点P1,这里用N3表示它是独立出现、表示语义的概念语义基元,而不仅仅是根据其他概念语义基元节点得到的父节点。N1,N2和N3分别用来表示语义内容的概念语义基元,从对应的词语频次得到的频次信息用f表示;自底向上,是父节点的关系。
下面具体给出这些概念节点频次信息的计算。
f(P0)=(f1+f3)+f1+f2
f(P1)=(f1+f3)+f1+f2
f(P2)=f1+f3
f(P3)=f1
f(N1)=f1+f3
f(N2)=f1
4.为文档的语句集合建立LDA模型。
为了能够自动选择文档中重要的语句构成摘要,将文档的语句集合表示为由M个语句构成,记作D={S1,…,SM},其中语句Sm是个数为(N)的概念节点集合,可以写成c=(c1,…,cn,…c(N)),其中cn表示语句Sm中的第n个概念节点。
图2给出了LDA模型的构成,这也是常用的LDA混合模型:这里外层的框表示一个文档,内层的框表示主题和概念节点的混合选择:α和β是模型的先验参数;K表示形成的主题个数。
这里LDA模型的出发点是将各语句表示为K个潜在主题的混合。主题本身在文档中显式出现,本发明用概念语义基元的概率分布来捕捉,它的生成过程如下:1)从Dirichlet分布先验β中为每个主题抽取多项式分布φk,共抽取K个分布。
2)从Dirichlet分布先验α中为每个语句抽取多项式分布θm,共抽取M个分布。
3)对语句集合中的每个语句和语句中的所包含的概念语义基元:
a)从多项式分布θm中抽取主题zm
b)从多项式分布φk中抽取概念语义基元cn
模型中最重要的变量是主题-概念语义基元分布φk和语句-主题分布θm。对于这两个参数可以直接使用极大似然法估计,但是这样存在局部极值问题。因此采用Gibbs方法求取。
5.使用Gibbs算法求解获得语句的主题分布和主题的词汇分布。
在语句m中对于给定的概念语义基元符号cn,首先利用Gibbs抽样取得概念语义基元符号cn在主题z上的后验概率P(cn|z)估计值;在概念语义基元符号cn其他主题分配(z-n)确定的情况下,估计当前概念语义基元cn分配主题j的概率p(zn=j);然后边缘化φk和θm,间接求得φk和θm的值。下式是具体的说明。
其中CVK和CMK分别为维数为V×K和M×K的数量矩阵,V为概念语义基元个数。为概念语义基元分配给主题j的频次,其中不包含当前记号实例n;为语句Sm中分配给主题j的概念语义基元个数,其中不包含当前实例n。cn表示一个概念语义基元。一旦一个概念语义基元分配给了主题j,就增加了给任何特定的特征分配主题j的概率;同样,若主题j在一个语句Sm中使用了多次,则该语句Sm的概念语义基元分配主题j的概率也将增加。
利用Gibbs抽样方法估计LDA模型中的参数,首先为一个概念语义基元在[1…K]主题中随机分配一个主题,构成初始的Markov链,然后对于文档中的所有概念语义基元根据上面的公式分配主题,获取Markov链的下一个状态,经过多次迭代,Markov链就可以达到稳定状态。
抽样算法估计每个概念语义基元与主题z的φ和θ的值,公式如下:
式中值为从主题j中抽取新的概念语义基元符号cn的概率估计,而为在文档cm从主题j抽取新的概念语义基元的概率估计。
6.LDA模型参数设置
主题数K的设置对LDA模型处理性能影响较大,需要根据文档情况合理设置。
超参数α和β分别是随机变量θ和参数φ在Dirichlet分布上的先验概率假设,因此在对K值进行设置之前,首先需要选择相应的超参数α和β。本发明对超参数α和β的各个分量统一取值,即采用对称的Dirichlet参数,并根据主题数目取α=1/K,所有的β取固定的经验值β=0.05。
主题数K一般采用模型混乱度分析方法进行估计,这种估计方式需要对K值进行较多的尝试计算。另外即使得到相对于混乱度较优化的主题个数,计算得到的主题参数也不一定有较好的语言学解释。因此在本发明中为了便于自动处理,直接根据文档和摘要的字数比,以及语句和段落个数进行主题数的估计。具体估计K的公式如下。
式中K表示预设的主题个数,E(X)表示取X的整数部分;Na,Nd,Ns,Np分别表示摘要的字数,文档的字数,以及语句个数和段落个数。根据上式得到的K值应当是10的整倍数。
7.文档主题重要度的计算。
利用Gibbs抽样算法进行参数估计,得到语句在主题上的分布根据这一主题分布可以计算各个主题在文档中的概率权重,计算公式如下。
式中,直接使用求得的由于在本发明中计算得到的结果是相对值用于排序,而对于所有主题,式中分母部分的值相同,因此只需要计算分子部分的实际数值并根据这一数值,对主题重要度进行排序。
8.文档语句重要度的计算
根据步骤7给出的主题权重顺序,对每个主题依次选择1~2个语句。选择语句的原则依据计算得到的语句在主题上的分布选择每个主题下混合概率最高的前2个句子,如果两个句子在对应主题下的权重相对差值超过30%,即对应主题下第一候选句子的权值比第二候选高30%,则对应主题下只保留第一候选的句子。由于一个句子可能混合有多个主题,因此后面选择的句子可能与前面选择的句子重复。如果与前面的主题重复,则按权重排序选择下一个或者两个句子作为候选。
9.文档文摘句的选择。
对于步骤8中产生的候选语句进行选择输出。
首先根据主题重要度,依次选择文摘语句。从主题重要度高的主题开始,选取对应主题下的语句。如果对应主题下只有一个语句,则直接选择;如果对应主题下有两个候选语句,则考察两个候选语句在文档中的位置,如果第一候选在文档一段的段首或段尾,则直接选择第一候选句;如果第一候选在一段的段中,第二候选在段首或者段尾,则选择第二候选语句作为输出语句。
其次,在依据主题重要度依次语句选择的过程中,记录已经选取的语句的字数。如果字数达到或者接近文摘要求的字数(不超过文摘要求字数的10%),则停止继续选取语句;如果选取的语句字数超过文摘要求字数较多,则放弃当前的主题,选择后继主题对应的主题;如果后继主题中仍然没有满足文摘字数要求的语句,则按照少于文摘字数要求的结果输出。
10.文档文摘句的输出。
本发明中直接从文档中摘取语句组成文摘,为了保证语句之间的前后顺序关系,对于步骤9中抽取的语句按照这些语句原来在文档中的前后顺序输出,即按照步骤1给出的语句编号,编号小的先输出的顺序输出语句生成文档文摘。
图3给出了本发明处理的流程,具体包含的步骤如下:
第一,输入的文档要进行解析,抽取其中的正文内容和标题,基于抽取的正文内容和标题构造语句集合,并对标识出的语句的序号和它们在具体段落中的位置信息,构成文档语句集合。这一集合一方面要服务主题计算,另一方面要供文摘生成时实际选择语句时使用。
第二,对文档的语句集合进行词语切分和概念语义基元映射,对得到概念语义基元进行层次分解,计算不同层次的概念语义基元的频次,得到各个基元的频次特征作为潜在狄利克雷分配(LDA)模型的输入。
第三,设置LDA模型的相关参数,对输入的基元频次数据进行建模处理。这里采用Gibbs算法进行数值求解。
第四,获取LDA模型的语句主题分布数据,一方面用于计算文档中主题的重要度、并对主题按照重要度进行排序;另一方面,根据这一分布数据确定各个主题下重要的语句。
第五,根据文摘字数要求、主题重要度排序、各个主题的代表语句以及文档的语句集合,选择语句作为文摘候选句,形成文摘候选句集合。
第六,将文摘候选句集合的语句按照语句在文档中的顺序输出,形成文档的文摘,完成整个处理过程。
综上所述,本发明提供的一种利用概念语义基元的文摘自动生成方法,包括:对输入文档进行正文内容提取,构造以语句为基本单位的集合;对语句集合中的每一个语句利用词语知识库进行词语切分和过滤;将得到的词语映射为概念语义基元符号,并对符号的层次关系进行分解统计它们的频次;以概念语义基元符号在语句中的频次为输入数据,对语句集合利用LDA建立主题模型;对于建立的语句主题模型进行参数设置和参数选择;使用Gibbs算法求解获得语句主题分布数据;利用建立形成的语句主题模型计算主题在文档中的重要度并进行排序;根据语句对于主题的重要度为相应的主题选择对应的语句作为该主题的文摘候选语句;根据文摘要求选择文摘候选语句;输出获取的文摘候选语句形成文摘。即本发明通过对文本语义内容的汇聚,获取文本内容的语义重心,然后根据语义重心选择代表文本内容的文摘句构成文本摘要的自动生成方法。
实施例
在本实施例中,选择一篇新闻稿进行文摘处理。新闻稿来自互联网,标题是“奥巴马普京同赴法不碰面奥朗德将吃两顿晚宴”(具体链接为http://news.sina.com.cn/w/ 2014-06-03/102030282941.shtml)。
首先需要将新闻稿中的文字内容进行提取,将其他的广告链接、关联推荐链接以及图片和视频链接信息过滤掉。
其次将对于文字信息按照段落和语句进行切分。下面给出本实施例的示例。
这里将得到的文档内容进行规整,按照语句和段落进行划分和标号。最左侧的1~10,是标注的语句个数。本实施例文档共有10个句子。左侧第二列的0~9的数字是为每个语句统一分配的序号。左侧第三列的0、1、2以及L,标识语句在具体的段落中的位置。0标识语句位于一个段落的起始位置。L表示语句位于一个段落的末尾。0L表示这个段落只有一个句子,这样它既是首句也是段末句。
利用标注有概念语义基元信息的词语知识库对文档进行切分。词语知识库的示例如下:
词语 概念语义基元
安顿 509e22
安放 203e21
安分 7321
安分守己 7321
安抚 a123e21i
安家 50ac25\3*9
安静 j70e22
安静 7144e71
安身 50a9i
安神 7144e71
安生 50a9i
安适 50ate52
安顿 509e22
安放 203e21
安分 7321
安分守己 7321
安抚 a123e21i
做主 9 011 842
在表中左侧为词语,右侧为词语对应的概念语义基元表示。这里可以看到“安静”在左侧两次出现,表示“安静”具有两个义项,其中“j70e22”表示状态的安静;“7144e71”表示人物内心的安静。在处理中如果遇到词语具有多个义项,这些义项都要考虑在内。另外,“做主”的义项无法直接使用单一的概念语义基元节点进行表达,这里采用了3个概念语义基元进行表示,分别是“9”,“011”和“842”。这3个概念语义基元分别表示“智能活动”,“约束行为”和“主观判断”。通过这3个概念语义基元的组合对“做主”的语义内容进行刻画。
利用词语知识库首先对得到的语句进行词语切分。切分结果示例如下。
上例中“/”表示词语切分的标记。
对于上述非单字词(由于单字词中有大量的连词、介词和助词,因此为了便于处理在本例中将单字词过滤掉),根据词语知识的内容,可以取得对应表达词语语义的概念语义基元符号。例如,
词语 概念语义基元
消化*** jw62-a\1
方案 832
为了便于计算这些词语的概念语义基元符号的上层概念节点,直接将词语对应的、表达概念语义的概念语义基元符号串以此拆分,示例如下。
词语 概念语义基元 基元符号拆分
消化*** jw62-a\1 j jw jw6 jw62 jw62-jw62-a
jw62-a\ jw62-a\1
方案 832 8 83 832
这样,按照基元符号拆分的结果进行概念语义基元的频次统计,就可以得到进行LDA模型处理的频次数据。对于LDA模型,选择参数α=1/K,所有的β取固定的经验值β=0.05。在本例中,拟得到140字的文摘内容,本例中文档的长度是488字,有句子10个,段落7个。因此根据技术方案步骤6中关于主题数设定的说明,选择设定主题数为10。利用LDA模型可以计算得到语句在主题上的分布情况。本例的具体分布如下所示。
句子 主题0 主题1 主题2 主题3 主题4 主题5 主题6 主题7 主题8 主题9
0 0 0 0 0 0 0 0 0 0 1
1 0.1811 0 0 0.0079 0 0 0 0.2913 0 0.5197
2 0 0.2154 0 0.2769 0.2308 0 0.0769 0.2 0 0
3 0 0 0.2182 0.0182 0 0 0 0.0545 0 0.7091
4 0 0 0 0 0.3393 0 0 0.3393 0.0357 0.2857
5 0 0.3235 0.0882 0 0.1765 0 0 0.2059 0 0.2053
6 0.0167 0.35 0 0 0 0.1333 0.0333 0 0.1333 0.3333
7 0.7619 0 0.2381 0 0 0 0 0 0 0
8 0 0.0351 0 0.2982 0 0.1403 0 0 0 0.5263
9 0 0 0.3077 0 0.4615 0 0 0 0.2308 0
这里最左侧的序号为句子的序号。横向的数值是每个句子对应不同主题分布的权重。据此可以计算各个主题的相对权重分值,得到主题在文档中的重要度排序,结果如下:
序号 主题号 重要度分值
0 9 3.580022
1 4 1.208064
2 7 1.091052
3 0 0.959674
4 1 0.924002
5 2 0.852205
6 3 0.601225
7 8 0.399817
8 5 0.273684
9 6 0.110256
可以看出在本例中,第9号主题是文档语义表达重要度最高的主题,第6号主题是文档语义表达重要度最低的主题。按照重要度从高到低的顺序,在各个主题下选择1~2个主题重要度高的语句。本例中各主题对应选择的语句如下所示。
主题号 句子号 语句重要度分值
9 3 0.709090909
9 8 0.526315789
4 9 0.461538462
4 4 0.339285714
7 4 0.339285714
7 1 0.291338583
0 7 0.761904762
1 6 0.35
1 5 0.323529412
2 5 0.088235294
3 8 0.298245614
3 2 0.276923077
8 6 0.133333333
5 8 0.140350877
5 6 0.133333333
6 2 0.076923077
这里可以看到,对应每个主题都选取了相应的语句,有些选择了两个语句,有些选择了一个。具体选择的标准主要是考察第一选择和第二选择之间的权重分值差异,如技术方案步骤8所述,如果差异小,则保留两个候选语句,否则只保留一个候选语句。另外,这里需要说明的是,本例中文档的标题作为第0号语句参与到LDA模型的计算中,在主题重要度时也将此句考虑在内。而在实际文摘语句选择时,则不将此句计入。原因在于一般文档的标题包含文档的内容信息,将其列入计算,会强化和突显文档的语义内容;同时文档标题一般会单独给出,如果在文摘中再给出,会显得重复。然后根据这些候选语句按照文摘字数的要求,选择构成文摘的语句。这里可以看到,有些句子出现在多个主题中,例如语句8,出现在主题9、主题3和主题8中。对于出现在多个主题候选语句中句子,只按照最先重要的主题输出,即在实际选取文摘语句中,不会重复选择一个语句作为文摘句的输出。在本例中,如果一个语句已经选入文摘中,则不会出现在后继主题的候选中。此处多处出现的语句8,实际上没有真正进入实际的文摘内容中。
本例中最终选择的语句情况如下所示。
主题号 句子号 语句字数 文摘字数
9 3 56 56
4 9 29 85
7 4 37 122
0 7 19 141
最终需要按照语句在文档中的顺序输出,即按照语句3、语句4、语句7和语句9的顺序输出文摘,得到141个字的文摘如下所示。
至此,本例完成了文档文摘的处理。
总之,本发明提供了一种利用概念语义基元的文摘自动生成方法,结合主题计算和深层语义表示符号,通过对文本语义内容的汇聚,获取文档内容的语义重心,抽取文档中重要的语句作为文摘输出,浓缩和凝聚了文档的重要语义内容,便于用户快速准确了解文档的概要信息。针对基于词频计算语句权重值不能很好反映文档深层语义内容的问题,本发明引入主题模型和深层语义概念语义基元符号表示进行处理,充分利用词语之间的语义关联关系,形成文摘,使文摘结果更准确反映文档的语义内容,为用户提供更好的使用体验。即本发明结合浅层主题计算和深层语义表示符号充分利用词语之间的语义关联关系形成文摘,浓缩和凝聚了文档的重要语义内容,使文摘结果更准确反映文档的语义重心,便于用户快速准确了解文档的概要信息,为用户提供更好的使用体验。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于概念语义基元的文摘自动生成方法,所述方法包含:
步骤101)利用文档中语句的语义信息对文档主题进行LDA建模,获得语义主题模型;
步骤102)根据获得的语义主题模型,即LDA模型,进一步计算文档的语义重心,所述文档的语义重心指文档的“语句--主题分布”和“主题--概念语义基元分布”;
步骤103)根据语义重心的表述,选择若干语句作为文摘句进行输出;
所述步骤101)进一步包含:
步骤101-1)抽取输入文档的正文内容和标题;
步骤101-2)根据文档中的标点符号将抽取的正文内容划分为若干语句,且将标题作为一个独立的语句,进而得到文档的语句集合;
步骤101-3)为语句集合中的各语句增加序号信息和段标识信息,进而得到文档语句集合,其中,所述序号信息用于表示各语句属于文档的第几个句子;所述段标识信息用于表示各语句在一个段落中处于段首、段中还是段尾;
步骤101-4)对文档语句集合中的语句进行词语切分和概念语义基元符号映射,将各个语句中的词语与一个或若干个概念语义基元符号相对应,再对得到的概念语义基元符号进行层次分解,进而得到不同层次的概念语义基元符号的频次,最后将得到各个概念语义基元符号的频次特征输入潜在狄利克雷分配模型;
步骤101-5)通过潜在狄利克雷分配模型对输入信息的处理,进而得到语义主题模型;
所述步骤101-4)包括:
步骤101-4-1)对文档语句集合中的语句进行词语切分和概念语义基元符号映射,进而将各个语句与一个或若干个概念语义基元符号相对应;并过滤词语切分后得到的连词、介词,进而保留实词;
步骤101-4-2)从保留的实词中提取词语对应的、以概念层次网络符号表示的词语语义,计算概念语义基元符号的频次;
步骤101-4-3)根据概念语义基元符号的层次关系,得到词语对应的概念语义基元符号的父节点和祖先节点,自底向上将底层节点的频次信息添加到上层节点上;
步骤101-4-4)记录所有概念语义基元符号的频次信息,其中概念语义基元符号包括语句中词语对应的概念语义基元符号以及这些概念语义基元符号的祖先节点符号。
2.根据权利要求1所述的基于概念语义基元的文摘自动生成方法,其特征在于,所述步骤101-1)进一步包含:
步骤101-1-1)去除电子文档格式保存的文档中的结构化信息和版式信息,再提取文档的正文内容,保留文档内容中的自然段信息标记;
步骤101-1-2)去掉文档内容中的非连续语句内容,所述非连续语句内容包括:表格或注释;
步骤101-1-3)将文档按照标点符号分割为若干语句,得到的所有语句组成了正文内容。
3.根据权利要求1所述的基于概念语义基元的文摘自动生成方法,其特征在于,与主题模型相应的主题数目为K,所述的主题数目K的计算公式为:
上述K表示预设的主题个数,E(X)表示取X的整数部分;Na,Nd,Ns,Np分别表示摘要的字数,文档的字数,以及语句个数和段落个数。
4.根据权利要求1所述的基于概念语义基元的文摘自动生成方法,其特征在于,所述步骤102)采用Gibbs算法求解获得文档的“语句--主题分布”,该步骤进一步包含:
步骤102-1)利用Gibbs抽样算法进行参数估计,得到文档的语句集合中各语句在主题上的分布根据各语句在主题上的分布值获得各个主题在文档中的概率权重,再根据概率权重对主题重要度进行排序;
步骤102-2)根据步骤102-1)得到的主题权重顺序,对每个主题依次选择1~2个语句组成候选依据集合,且选择语句的原则为:依据计算得到的语句在主题上的分布选择每个主题下混合概率最高的前2个句子。
5.根据权利要求4所述的基于概念语义基元的文摘自动生成方法,其特征在于,所述步骤102-2)在选择句子时还包含如下步骤:
步骤102-2-1)如果两个句子在对应主题下的权重相对差值超过30%,即对应主题下第一候选句子的权值比第二候选句子高30%,则对应主题下只保留第一候选句子;否则保留两个候选语句;
步骤102-2-2)如果根据权重选择得到的属于当前主题的句子已经在前面的主题中被选中,则按权重由大到小的顺序将下一个句子作为当前主题的候选语句。
6.根据权利要求4所述的基于概念语义基元的文摘自动生成方法,其特征在于,所述各个主题在文档中的概率权重的计算公式如下:
其中,直接使用求得的N表示文档的语句集合中语句的总个数,T表示进行分析时的主题个数,j表示遍历的变量且它的取值包括所有主题,zi表示一个特定主题。
7.根据权利要求1或4所述的基于概念语义基元的文摘自动生成方法,其特征在于,所述步骤103)进一步包含:
步骤103-1)根据主题重要度,依次选择文摘语句,具体为:
选取对应主题下的语句;如果对应主题下只有一个语句,则直接选择;如果对应主题下有两个候选语句,则考察两个候选语句在文档中的位置,如果第一候选句子在文档一段的段首或段尾,则直接选择第一候选句子;如果第一候选句子在文档一段的段中,第二候选句子在段首或者段尾,则选择第二候选句子作为输出语句,否则选第一候选句子作为输出语句;
步骤103-2)在依据主题重要度选择语句的过程中,同时记录已经选取的语句的字数,如果字数达到文摘要求的字数,则停止选取语句;如果选取的语句字数超过文摘要求字数,则放弃当前的主题,选择后继主题对应的主题;如果后继主题中仍然没有满足文摘字数要求的语句,则按照少于文摘字数要求的结果输出。
8.根据权利要求7所述的基于概念语义基元的文摘自动生成方法,其特征在于,所述步骤103-2)之后还包含:
提取文档的语句集合中各语句的序号,按照标号从小到大的次序输出选择的语句,进而得到输出的文档文摘。
CN201410309528.7A 2014-06-30 2014-06-30 一种基于概念语义基元的文摘自动生成方法 Active CN105320642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410309528.7A CN105320642B (zh) 2014-06-30 2014-06-30 一种基于概念语义基元的文摘自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410309528.7A CN105320642B (zh) 2014-06-30 2014-06-30 一种基于概念语义基元的文摘自动生成方法

Publications (2)

Publication Number Publication Date
CN105320642A CN105320642A (zh) 2016-02-10
CN105320642B true CN105320642B (zh) 2018-08-07

Family

ID=55248047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410309528.7A Active CN105320642B (zh) 2014-06-30 2014-06-30 一种基于概念语义基元的文摘自动生成方法

Country Status (1)

Country Link
CN (1) CN105320642B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868178B (zh) * 2016-03-28 2018-07-17 浙江大学 一种基于短语主题建模的多文档自动摘要生成方法
CN106681982B (zh) * 2016-11-15 2018-04-24 温州大学瓯江学院 英文长篇小说摘要生成方法
CN108959312B (zh) 2017-05-23 2021-01-29 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
WO2018232290A1 (en) * 2017-06-16 2018-12-20 Elsevier, Inc. Systems and methods for automatically generating content summaries for topics
CN107608946A (zh) * 2017-09-30 2018-01-19 努比亚技术有限公司 文字重点内容提取方法及对应的移动终端
CN107844573A (zh) * 2017-11-04 2018-03-27 辽宁工程技术大学 一种基于生产现状的安全投入效用分析方法
CN107977472B (zh) * 2017-12-27 2021-11-05 北京诸葛找房信息技术有限公司 房产类新闻文章自动生成的方法
CN110209763A (zh) * 2018-02-12 2019-09-06 北京京东尚科信息技术有限公司 数据处理方法、装置以及计算机可读存储介质
CN108417206A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息高速处理方法
CN108664598B (zh) * 2018-05-09 2019-04-02 北京理工大学 一种具有综合优势的基于整数线性规划的抽取式文摘方法
CN110555196B (zh) * 2018-05-30 2023-07-18 北京百度网讯科技有限公司 用于自动生成文章的方法、装置、设备和存储介质
CN110287489B (zh) * 2019-06-24 2023-07-28 北京大米科技有限公司 文本生成方法、装置、存储介质和电子设备
CN110334188A (zh) * 2019-07-11 2019-10-15 中国传媒大学 一种多文档摘要生成方法和***
CN110633476B (zh) * 2019-09-27 2024-04-05 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN110705287B (zh) * 2019-09-27 2023-06-30 北京妙笔智能科技有限公司 一种用于文本摘要的生成方法和***
CN111125373B (zh) * 2019-12-17 2023-08-08 东软集团股份有限公司 一种概念节点的生成方法、装置及相关产品
CN113282742B (zh) * 2021-04-30 2022-08-12 合肥讯飞数码科技有限公司 摘要获取方法以及电子设备、存储装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6401061B1 (en) * 1999-05-13 2002-06-04 Yuri L. Zieman Combinatorial computational technique for transformation phrase text-phrase meaning
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6401061B1 (en) * 1999-05-13 2002-06-04 Yuri L. Zieman Combinatorial computational technique for transformation phrase text-phrase meaning
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Topic hypergraph:hierarchical visualization of thematic structures in long documents;WANG GuiZhen等;《SCIENCE CHINA》;20130501;第56卷(第5期);第1-14页 *
主题模型LDA的多文档自动文摘;杨潇等;《智能***学报》;20100415;第5卷(第2期);第169-176页 *
抽取式多文档文摘的文本表示研究;龚书;《中国博士学位论文全文数据库信息科技辑》;20140115(第01期);摘要,第17-47页 *

Also Published As

Publication number Publication date
CN105320642A (zh) 2016-02-10

Similar Documents

Publication Publication Date Title
CN105320642B (zh) 一种基于概念语义基元的文摘自动生成方法
Kumar et al. Sentiment analysis of multimodal twitter data
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN108197111A (zh) 一种基于融合语义聚类的文本自动摘要方法
CN106503055A (zh) 一种从结构化文本到图像描述的生成方法
CN110188349A (zh) 一种基于抽取式多文档摘要方法的自动化写作方法
WO2013049529A1 (en) Method and apparatus for unsupervised learning of multi-resolution user profile from text analysis
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN103942274B (zh) 一种基于lda的生物医疗图像的标注***及方法
Tiwari et al. Ensemble approach for twitter sentiment analysis
CN110728144A (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
CN114357022A (zh) 一种基于事件关系发现的媒体内容关联挖掘方法
Shwartz et al. Learning to exploit structured resources for lexical inference
CN113688624A (zh) 一种基于语言风格的人格预测方法及装置
Gutiérrez et al. Sentiment classification using semantic features extracted from WordNet-based resources
CN116882414A (zh) 基于大规模语言模型的评语自动生成方法及相关装置
Huang et al. VizStory: Visualization of digital narrative for fairy tales
CN108256055B (zh) 一种基于数据增强的主题建模方法
Al-Sultany et al. Events tagging in twitter using twitter latent Dirichlet allocation
Simo et al. Regrets: A new corpus of regrettable (self-) disclosures on social media
Praveena et al. Chunking based malayalam paraphrase identification using unfolding recursive autoencoders
CN112084298A (zh) 基于快速btm的舆情主题处理方法和装置
Singh et al. Neural approaches towards text summarization
Blandfort et al. Image captioning in the wild: how people caption images on Flickr
Maciołek et al. Using shallow semantic analysis and graph modelling for document classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant