CN109299442A

CN109299442A - 汉语篇章主次关系识别方法和***

Info

Publication number: CN109299442A
Application number: CN201811168250.0A
Authority: CN
Inventors: 王体爽; 李培峰; 朱巧明; 周国栋; 张玉华
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2019-02-01

Abstract

本发明涉及一种汉语篇章主次关系识别方法，包括：读取标注文档集合中的篇章单元标注信息和篇章主次关系类型标注信息，得到篇章主次关系集合，对篇章主次关系集合中的非二元化篇章主次关系进行左子树转化，得到二元篇章主次关系集合。所述标注文档集合是已经标注了篇章主次关系类型的文档集合，是本发明训练模型的基础。基于门控记忆网络的篇章主次关系识别***和方法，将预测的篇章单元转化成词向量，利用门控记忆神经网络自动的捕获篇章单元之间的隐含特征，以及相对于整体来说更重要的信息；本发明的方法和***，与现有方法和***相比，汉语篇章主次关系识别性能得到了提升。

Description

汉语篇章主次关系识别方法和***

技术领域

本发明涉及篇章分析技术领域，特别是涉及汉语篇章主次关系识别方法和***。

背景技术

篇章指篇幅与章节，是自然语言理解的研究对象，是通过语义关联和结构化组织形成的自然语言文本，篇章具有衔接性(cohesion)、连贯性(coherence)、意图性(intentionality)、可接受性(acceptability)、信息性(informativity)、情景性(situationality)、和跨篇章性(intertextuality)共七个基本特征。篇章分析包含结构构建、主次识别、关系分类三个子任务。其中，篇章主次关系表示了篇章内部的主要和次要内容之间的关系。主要内容是指篇章中居于支配地位、起决定作用的部分，而次要内容是指篇章中居于辅助地位、不起决定作用的部分。RST中篇章主次关系分为单核关系和多核关系。其中，单核关系包括核心(Nucleus)和卫星(Statellite)，核心表达主要内容，卫星表达次要内容。多核关系包括两个或两个以上核心。所以，在篇章主次关系中有以下三种类型：核心-卫星(NS)表示左子树为主要部分、卫星-核心(SN)表示右子树为主要部分、核心-核心(NN)表示左右子树都为主要部分。其中NS、SN属于单核关系，NN属于多核关系。篇章主次关系的研究对象是句子、句群、段落之间的语义关联和它们的重要性关系表现的是连贯性这个篇章基本特征，篇章主次关系研究的目的是分析篇章的主要内容和次要内容，进而理解篇章主题思想、展开思路和主要内容。一个篇章关系一般包含两个篇章单位，这两个篇章单位同属一个关系层，如果其中一个篇章单位能够概括它所在关系层主旨和内容，能代表其所在关系层与外界***，则这种关系为单核关系；如果两个篇章单位同等重要，则这种关系为多核关系。例如，在陈述举例关系连接的两个篇章单位中，一个是陈述项，一个是举例项，举例项是为陈述项服务的，因此陈述项是该篇章关系的核心，陈述-举例关系是单核关系；在并列关系中，篇章单位可以有两个或多个，并列关系的核心可能会由一个或多个篇章单位来充当，即并列关系可能是单核关系，也可能是多核关。

下面以汉语篇章树库(Chinese Discourse Treebank，CDTB)[1]中的一个具体例子(chtb_0019，《宁波保税区建设成就显著》)来说明篇章主次关系的含义。

例1：随着从今年四月开始中国对保税区外有关特殊政策的调整，保税区免证、免税a，保税政策的稳定性优势显得更为明显b，国内外一大批实业加工项目相继在区内落户c。到去年十二月底，区内已累计设立企业一千六百一十四家d，总投资达十二亿美元e，其中外商投资企业二百六十家f，实际利用外资一点一三亿美元g。另外，众多国内企业也通过保税区与国际市场接轨h。

例1段落包含8个(a-h)基本篇章单元，篇章结构树如图1所示。其中，叶子节点(a-h)是基本篇章单元(Elementary Discourse Units)，而非叶子节点是关系节点，表示该节点连接的两个孩子之间的关系类型。叶子节点和关系节点统称为篇章单元(DiscourseUnit，DU)。箭头指向篇章主次关系中的较为重要部分的核心单元，如例1中的因果关系节点左孩子a-b是右孩子c的原因，在本例中认为结果更重要，因此箭头指向右孩子，即叶子节点c是核心，它们的关系是卫星-核心。在例1中，从图1所示的根节点开始，每次选择核心单元直到叶子节点，可以得到(国内外一大批实业加工项目相继在区内落户c)这个篇章基本单元，可作为整个段落的摘要。

目前，涉及篇章主次关系的语料库资源主要有英文修辞结构篇章树库(RSTDiscourse Treebank，RST-DT)[1]和汉语篇章树库CDTB[2]。篇章主次关系识别研究大多数集中于英语语料库RST-DT上，这些研究一般将篇章主次关系识别看作篇章修辞结构分析中的一个辅助环节，忽略了其在篇章结构分析中的重要性。

在RST-DT树库上，大多数研究使用的方法是基于支持向量机(SupportVectorMachine，SVM)和条件随机场(Conditional Random Fields，CRF)模型以及他们的变体等传统机器学习方法。Hernault[3]等使用两个SVM，实现了一个自底向上自动构建篇章树的框架。Joty[4]等根据句内和句间的关系分布上的差异性，使用了两个动态条件随机场模型构建了句内和句间两个层级的篇章分析器，并使用动态规划算法对篇章树的构建进行优化。Feng[5]使用两组线性条件随机场模型对篇章关系区域划分和篇章主次关系做出识别。Wang[6]使用基于转移的方法将篇章树构建转化成shift-reduce序列，提出了先标注结构-主次，再进行标签标注的两步模型。Li[7]提出使用依存结构来表示两个篇章单元之间的关系。

在RST-DT树库上，使用神经网络方法的相关研究较少。Li[8]使用两层前馈神经网络来确定两个篇章单元之间的关系，并且使用递归神经网络通过计算篇章单元的子树来获取该篇章单元的表示。Li[9]提出了一种基于Attention的分层Bi-LSTM网络以学习篇章单元的表示，并使用基于张量的变换函数来捕获篇章单元特征之间的相互关系。

相对于RST-DT，基于CDTB语料库的研究更少。Li[10]使用上下文特征、词汇特征、依存树特征，采用最大熵模型进行主次关系识别。Kong[11]使用语义相似度，上下文特征，采用最大熵模型，构建了一个端到端的篇章结构分析器。Xu[12]提出了一个TMN(TextMatching Networks)模型，使用Bi-LSTM和CNN对两个篇章单元编码后通过三种匹配关系进行主次关系识别，他们的方法在CDTB语料库上的性能达到了69.0(微平均F1)，明显优于传统的特征工程方法。

参考文献：

[1]Carlson L,Okurowski M E,Marcu D.RST discourse treebank[M].Linguistic Data Consortium,University of Pennsylvania.2002.

[2]Li Y,Kong F,Zhou G.Building Chinese discourse corpus withconnective-driven dependency tree structure[C]//Proceedings of the2014Conference on Empirical Methods in Natural Language Processing.2014:2105-2114.

[3]Hernault H,Prendinger H,Ishizuka M.HILDA:A discourse parser usingsupport vector machine classification[J].Dialogue&Discourse,2010,1(3):1-33.

[4]Joty S,Carenini G,Ng R,et al.Combining intra-and multi-sententialrhetorical parsing for document-level discourse analysis[C]//Proceedings ofthe 51st Annual Meeting of the Association for ComputationalLinguistics.2013,1:486-496.

[5]Feng V W,Hirst G.A linear-time bottom-up discourse parser withconstraints and postediting[C]//Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics.2014:511-521.

[6]Wang Y,Li S,Wang H.A two-stage parsing method for text-leveldiscourse analysis[C]//Proceedings of the 55th Annual Meeting of theAssociation for Computational Linguistics.2017:184-188.

[7]Li S,Wang L,Cao Z,et al.Text-level discourse dependency parsing[C]//Proceedings of the 52nd Annual Meeting of the Association forComputational Linguistics.2014:25-35.

[8]Li J,Li R,Hovy E.Recursive deep models for discourse parsing[C]//Proceedings of the 2014Conference on Empirical Methods in Natural LanguageProcessing.2014:2061-2069.

[9]Li Q,Li T,Chang B.Discourse parsing with attention-basedhierarchical neural networks[C]//Proceedings of the 2016 Conference onEmpirical Methodsin Natural Language Processing.2016:362-371.

[10]李艳翠.汉语篇章结构表示体系及资源构建研究[D].苏州:苏州大学博士学位论文,2015.

[11]Kong F,Zhou G.A CDT-styled end-to-end Chinese discourse parser[J].ACM Transactions on Asian and Low-Resource Language InformationProcessing.2016(4):26.

[12]Xu S,Li P,Zhou G,et al.Employing text matching network torecognise nuclearity in Chinese discourse[C]//Proceedings of the 2018International Conference on Computational Linguistics.2018:传统技术存在以下技术问题：

在CDTB语料库上，Xu[13]提出的TMN模型在主次关系识别任务性能最好。TMN模型的主要思想有以下两点：1)认为语义相似度更大的两个篇章单元更有可能是多核关系。2)认为在单核关系中和段落主题更接近的更有可能是核心。基于这两点思想，TMN模型引入了两个DU的语义相似度和每个DU与段落主题的相似度。

TMN模型容易将语义相似度较高的非多核关系错误识别为多核关系。如例2所示，例子中“农业”和“粮食”，“收成”和“产量”的相似度比较高，TMN模型误将例2识别为多核关系。

例2：农业获得较好收成a，全年粮食总产量达七十六点六亿公斤b。(NS关系)

另外，当两个篇章单元序列长度不平衡时，TMN偏向于将更长的篇章单元识别为主要部分，而较短的篇章单元识别为次要部分。如例3所示，两个EDU的词序列长度非常不均衡，b包含了更多的信息，当经过匹配关系之后会得到b更加接近于段落主题，而a和段落主题的关系相对于b要更疏远，TMN模型误将例3识别为卫星-核心关系。

例3：经济效益可观a，上缴税费实现二百五十八亿元实现利润一百亿元b。(NS关系)

发明内容

基于此，有必要针对上述技术问题，提供一种汉语篇章主次关系识别方法和***，汉语篇章主次关系识别性能得到了明显提升。

一种汉语篇章主次关系识别方法，包括：

读取标注文档集合中的篇章单元标注信息和篇章主次关系类型标注信息，得到篇章主次关系集合，对篇章主次关系集合中的非二元化篇章主次关系进行左子树转化，得到二元篇章主次关系集合；其中，所述标注文档集合是已经标注了篇章主次关系类型的文档集合；

对二元篇章主次关系集合中每一个篇章单元调用分词工具，得到每个篇章主次关系的词特征，生成二元篇章主次关系词特征集合；对二元篇章主次关系词特征集合中的每一个篇章单元调用词性抽取工具，得到每一个篇章单元所有词的词性特征，生成二元篇章主次关系词和词性特征集合；

对待识别文档集合中的每一个待识别文档中的每一个篇章单元使用和标注文档集合相同的处理方法得到待识别二元篇章主次关系词和词性特征集合；其中，所述待识别文档集合是未标注篇章主次关系类型的文档集合；

将二元篇章主次关系词和词性特征集合中每个篇章主次关系的每个篇章单元构造成神经网络能接受的输入形式，得到标注文档特征输入集合；使用深度学习工具搭建一个基于门控记忆网络的神经网络分类器，将标注文档特征输入集合作为输入，训练篇章主次关系识别模型；对待识别二元篇章主次关系词和词性特征集合中的每个篇章单元特征也构造和标注文档特征输入集合相同输入格式，得到待识别文档特征输入集合，然后将待识别文档特征输入集合作为模型输入对待识别文档集合中的篇章主次关系进行识别，得到待识别文档集合中每一个篇章主次关系所属的类型，生成待识别文档篇章主次关系类型集合。

一种汉语篇章主次关系识别***，包括：

篇章主次关系篇章单元抽取模块，读取标注文档集合中的篇章单元标注信息和篇章主次关系类型标注信息，得到篇章主次关系集合，对篇章主次关系集合中的非二元化篇章主次关系进行左子树转化，得到二元篇章主次关系集合；所述标注文档集合是已经标注了篇章主次关系类型的文档集合；

篇章主次关系篇章单元预处理模块，对二元篇章主次关系集合中每一个篇章单元调用分词工具，得到每个篇章主次关系的词特征，生成二元篇章主次关系词特征集合；对二元篇章主次关系词特征集合中的每一个篇章单元调用词性抽取工具，得到每一个篇章单元所有词的词性特征，生成二元篇章主次关系词和词性特征集合；

待识别篇章主次关系篇章单元处理模块，对待识别文档集合中的每一个待识别文档中的每一个篇章单元使用和标注文档集合相同的处理方法，得到待识别二元篇章主次关系词和词性特征集合；其中，所述待识别文档集合是未标注篇章主次关系类型的文档集合；

待识别篇章主次关系识别模块，将二元篇章主次关系词和词性特征集合中每个篇章主次关系的每个篇章单元构造成神经网络能接受的输入形式，得到标注文档特征输入集合；使用深度学习工具搭建一个基于门控记忆网络的神经网络分类器，将标注文档特征输入集合作为输入，训练篇章主次关系识别模型；对待识别二元篇章主次关系词和词性特征集合中的每个篇章单元特征也构造和标注文档特征输入集合相同输入格式，得到待识别文档特征输入集合，然后将待识别文档特征输入集合作为模型输入对待识别文档集合中的篇章主次关系进行识别，得到待识别文档集合中每一个篇章主次关系所属的类型，生成待识别文档篇章主次关系类型集合。

上述基于门控记忆网络的篇章主次关系识别***和方法，将预测的篇章单元转化成词向量，利用门控记忆神经网络自动的捕获篇章单元之间的隐含特征，以及相对于整体来说更重要的信息；本发明的方法和***，与现有方法和***相比，汉语篇章主次关系识别性能得到了提升。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

附图说明

图1为本申请实施例提供的背景技术中例1的篇章结构树的示意图。

图2是本发明汉语篇章主次关系识别方法的流程图。

图3是本发明篇章主次关系篇章单元抽取的流程图。

图4是本发明篇章主次关系篇章单元预处理的流程图。

图5是本发明待识别篇章主次关系篇章单元处理的流程图。

图6是本发明待识别篇章主次关系识别的流程图。

图7是本发明汉语篇章主次关系识别***的结构示意图。

图8是本发明篇章主次关系篇章单元抽取模块的结构示意图。

图9是本发明篇章主次关系篇章单元预处理模块的结构示意图。

图10是本发明待识别篇章主次关系篇章单元处理模块的结构示意图。

图11是本发明待识别篇章主次关系识别模块的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

篇章主次关系(Nuclearity Recognition)：表达篇章内部的主要和次要内容之间的关系。

核心(Nucleus)：篇章主次关系中的主要内容，指篇章中居于支配地位、起决定作用的部分。

卫星(Statellite)：篇章主次关系中的次要内容，指篇章中居于辅助地位、不起决定作用的部分。

单核关系(Mono-nuclearrelation)：包含一个核心的篇章主次关系类型。

多核关系(Multi-nuclearrelation)：包含两个或两个以上核心的篇章主次关系类型。

核心-卫星(Nucleus-Statellite)：篇章主次关系中左子树为主要部分，右子树为次要部分。

卫星-核心(Statellite-Nucleus)：篇章主次关系中右子树为主要部分，左子树为次要部分。

核心-核心(Nucleus-Nucleus)：篇章主次关系中左右子树都为主要部分。

基本篇章单元(ElementaryDiscourse Units)：子句、句子或短语。

准确率(Precision)：对特定类别的篇章主次关系类型，***正确识别的篇章主次关系个数占所有所识别出该类别篇章主次关系数量的比例。衡量篇章主次关系识别指标之一。

召回率(Recall)：对特定类别的篇章主次关系类型，***正确识别的篇章主次关系个数占所有该类别篇章主次关系数量的比例。衡量篇章主次关系识别指标之一。

F1指数(F1-Measure)：衡量篇章主次关识别性能的综合指标之一，召回率(R)和准确率(P)的加权几何平均值，即：

为了解决传统技术中存在的技术问题，本文把门控记忆网络(GMN GatedMemoryNetwork)应用于主次关系识别任务，实现了一个基于GMN的汉语主次关系识别模型(GMN-Nu)。其架构包含三个部分：1)输入和编码；2)多层结构的门控记忆网络；3)主次关系识别。

首先，在输入和编码层部分，模型以两个篇章单元DU1和DU2的词和词性为输入。使用Bi-LSTM和CNN对两个篇章单元编码，以获取全局信息和局部信息。以例1为例，DU1/DU2可以是例1篇章结构树的任何一个关系节点的左右孩子。

其次，在门控记忆网络层部分，使用多层门控记忆网络从整体信息抽取每一个DU相对于整体来说更重要的语义信息表示。该方法融合DU1和DU2的信息以获得整体信息，通过sigmoid计算门控单元，作用于DU1和DU2以得到相对于整体更重要的语义信息。

最后，在主次关系识别层，使用softmax进行主次关系识别。本发明的方法和***，与现有的方法和***相比，汉语篇章主次关系识别性能得到了明显提升。

一种汉语篇章主次关系识别方法，如图2所示，包括：

S10，读取标注文档集合中的篇章单元标注信息和篇章主次关系类型标注信息，得到篇章主次关系集合，对篇章主次关系集合中的非二元化篇章主次关系进行左子树转化，得到二元篇章主次关系集合。所述标注文档集合是已经标注了篇章主次关系类型的文档集合，是本发明训练模型的基础。

其中，如图3所示，S10的具体过程如下：

S101，根据标记读取标注文档集合中的篇章单元标注信息和篇章主次关系类型标注信息，得到篇章主次关系集合。所述篇章主次关系集合中实例格式如下：

"篇章单元1|篇章单元2|…"，"篇章主次关系类型"

以例4为例，

例4：

<Sentence＝"但这种法制紧跟经济和社会活动的做法，受到了国内外投资者的好评，|他们认为，到浦东新区投资办事有章法，讲规矩，利益能得到保障。"Center＝"1"/>

<Sentence＝"他们认为，到浦东新区投资办事有章法，|讲规矩，|利益能得到保障。"Center＝"3"/>

其中，Sentence表示篇章主次关系所包含的篇章单元，篇章单元之间用“|”分开，一个篇章主次关系包含两个或两个以上的篇章单元。Center表示了篇章主次关系类型，其中“1”表示“核心-卫星”关系，“2”表示“卫星-核心”关系，“3”表示“核心-核心”关系。该例子中标记了两个篇章主次关系实例。

例4中的篇章主次关系表示为：

例5：

"但这种法制紧跟经济和社会活动的做法，受到了国内外投资者的好评，|他们认为，到浦东新区投资办事有章法，讲规矩，利益能得到保障。"，"1"

"他们认为，到浦东新区投资办事有章法，|讲规矩，|利益能得到保障。"，"3"

例5中第一个引号中的内容表示篇章单元，篇章单元之间用“|”分开，第二个引号中的内容表示篇章主次关系类型。篇章单元和篇章主次关系类型之间用逗号分开。

S102，根据所获得的篇章主次关系集合，将非二元化的篇章主次关系转化为二元化的篇章主次关系，得到二元篇章主次关系集合。

具体为，对篇章主次关系集合中所有篇章主次关系进行判断是否为多元关系，由于篇章单元之间用“|”分开，故利用“|”将篇章主次关系集合中的每一个篇章主次关系进行篇章单元切分，如果篇章单元数大于2则为多元关系，进行左子树转化：对于一个包含多个孩子的篇章主次关系节点，首先将篇章主次关系节点自左向右的第一个孩子节点和第二个孩子节点相结合生成与原父节点相同的篇章主次关系节点，将该节点作为原父节点的第一个孩子节点，依次迭代，直至到达原父节点的最右孩子节点。这样，对于一个包含n个篇章单元的多元篇章主次关系经过转化后生成n-1个二元篇章主次关系。经过转化后得到二元篇章主次关系集合。例如，对于三元关系来说，转化前后篇章主次关系格式如下：

转化前：

"篇章单元1|篇章单元2|篇章单元3"，"篇章主次关系类型"

转化后：

"篇章单元1|篇章单元2"，"篇章主次关系类型"

"篇章单元1+篇章单元2|篇章单元3"，"篇章主次关系类型"

在例5所述的篇章主次关系：“"他们认为，到浦东新区投资办事有章法，|讲规矩，|利益能得到保障。"，"3"”是一个多元关系，包括三个篇章单元，分别为"他们认为，到浦东新区投资办事有章法，"，"讲规矩，"，"利益能得到保障。"，关系类型为“核心-核心”。

对例5中上述篇章主次关系进行二元化转化后表示为：

例6：

"他们认为，到浦东新区投资办事有章法，|讲规矩，"，"3"

"他们认为，到浦东新区投资办事有章法，讲规矩，|利益能得到保障。"，"3"

例6中为两个二元篇章主次关系，即将非二元关系转化为二元关系后的表达形式，每一个篇章主次关系只包含两个篇章单元。

S20，对二元篇章主次关系集合中每一个篇章单元调用分词工具，得到每个篇章主次关系的词特征，生成二元篇章主次关系词特征集合。对二元篇章主次关系词特征集合中的每一个篇章单元调用词性抽取工具，得到每一个篇章单元所有词的词性特征，生成二元篇章主次关系词和词性特征集合。

其中，如图4所示，S20的具体过程如下：

S201，对二元篇章主次关系集合中每一个篇章单元调用分词工具，得到每个篇章主次关系的词特征，生成二元篇章主次关系词特征集合。在分词过程中去除标点符号。格式如下：

"词1词2词3…|词1词2词3…"，"篇章主次关系类型"

其中词与词之间用空格分开，篇章单元之间用“|”分开。

例如，"他们认为，到浦东新区投资办事有章法，讲规矩，|利益能得到保障。"，"3"，进行分词后表示为：

例7："他们认为到浦东新区投资办事有章法讲规矩|利益能得到保障"，"3"

例7中表示为："篇章单元1词集合|篇章单元2词集合"，"篇章主次关系类型"。

S202，对二元篇章主次关系词特征集合中的每一个篇章单元调用词性抽取工具，得到每一个篇章单元所有词的词性特征，生成二元篇章主次关系词和词性特征集合。格式如下。

"词1词2词3…\词性1词性2词性3|词1词2词3…\词性1词性2词性3"，"篇章主次关系类型"

其中词与词之间用空格分开，词性与词性之间也用空格分开，词与词性之间用“\”分开，篇章单元之间使用“|”分开。对于每一个篇章单元中词和词性一一对应。

例如，对例7中的篇章单元进行词性特征抽取后表示为：

例8："他们认为到浦东新区投资办事有章法讲规矩\r v v nv v v n v n|利益能得到保障\n v v v"，"3"

例8中表示为："篇章单元1词集合\篇章单元1词性集合|篇章单元2词集合\篇章单元2词性集合"，"篇章主次关系类型"。

S30，对待识别文档集合中的每一个待识别文档中的每一个篇章单元使用和S10、S20相同的方法得到待识别二元篇章主次关系词和词性特征集合。所述待识别文档集合是未标注篇章主次关系类型的文档集合

其中，如图5所示，S30的具体过程如下：

S301，把待识别文档集合作为输入，调用步骤S101，生成待识别篇章主次关系集合。所述待识别篇章主次关系集合中实例格式如下：

"篇章单元1|篇章单元2|…"

以例9为例，

例9：

<Sentence＝"去年该省外贸进出口总额近二百亿美元，|实际利用外资超过四十亿美元，|对外承包工程和劳务合作金额达三点五五亿美元。">

如例9中的篇章单元表示为：

例10：

"去年该省外贸进出口总额近二百亿美元，|实际利用外资超过四十亿美元，|对外承包工程和劳务合作金额达三点五五亿美元。"

S302，把待识别篇章主次关系集合作为输入，调用步骤S102，生成待识别二元篇章主次关系集合。

如例10所示为多元篇章主次关系，转化后为

例11：

"去年该省外贸进出口总额近二百亿美元，|实际利用外资超过四十亿美元，"

"去年该省外贸进出口总额近二百亿美元，实际利用外资超过四十亿美元，|对外承包工程和劳务合作金额达三点五五亿美元。"

S303，把待识别二元篇章主次关系集合作为输入，调用步骤S201，生成待识别二元篇章主次关系词特征集合。

如例"去年该省外贸进出口总额近二百亿美元，|实际利用外资超过四十亿美元，"，进行分词后表示为：

例12：

"去年该省外贸进出口总额近二百亿美元|实际利用外资超过四十亿美元"

S304，把待识别二元篇章主次关系词特征集合作为输入，调用步骤S202，生成待识别二元篇章主次关系词和词性特征集合。

如对例12中的篇章单元进行词性特征抽取后表示为：

例13：

"去年该省外贸进出口总额近二百亿美元\t r n v n m q|实际利用外资超过四十亿美元\n n v m q"

S40，将二元篇章主次关系词和词性特征集合中每个篇章主次关系的每个篇章单元构造成神经网络能接受的输入形式，得到标注文档特征输入集合。使用深度学习工具搭建一个基于门控记忆网络的神经网络分类器，将标注文档特征输入集合作为输入，训练篇章主次关系识别模型。对待识别二元篇章主次关系词和词性特征集合中的每个篇章单元特征也构造和标注文档特征输入集合相同输入格式，得到待识别文档特征输入集合，然后将待识别文档特征输入集合作为模型输入对待识别文档集合中的篇章主次关系进行识别，得到待识别文档集合中每一个篇章主次关系所属的类型，生成待识别文档篇章主次关系类型集合。

其中，如图6所示，S40的具体过程如下：

S401，将二元篇章主次关系词和词性特征集合中每个篇章主次关系的每个篇章单元造成神经网络能接受的输入形式，得到标注文档特征输入集合。

标注文档特征输入集合中每个篇章主次关系的每个篇章单元的词和词性特征。

具体如下：

在词序列中拼接每一个篇章单元的词和词性，形式为Wi＝[ei，pi]，ei表示词，pi表示词性。作为神经网络的输入。

对特征进行向量初始化，其中词汇使用在***中文语料库上预训练好的词向量，维度是300维，词性特征采取随机初始化的策略，维度是50维。

S402，使用深度学习工具(如keras等)搭建一个基于门控记忆网络的神经网络分类器，将标注文档特征输入集合作为输入，训练篇章主次关系识别模型。

具体方法如下：

对于一个二元篇章主次关系中的两个篇章单元的特征输入将其分别作为神经网络的输入。

调用深度学习工具中的长短期记忆网络对每一个篇章单元的输入进行编码，以获得每一个篇章单元的全局信息表示。长短期记忆网络维度设置为50。

调用深度学习工具中的卷积神经网络对获得的每一个篇章单元的全局信息进行编码，同时调用深度学习工具中全局最大池化工具选取每一个篇章单元的信息表示。卷积神经网络卷积核数目设置为1024，卷积核窗口大小设置为2。

融合所获得的两个篇章单元的信息表示得到整体信息，具体为：u＝v1⊕v2。其中u表示整体信息，v1v2表示两个篇章单元的信息表示，⊕表示逐元素相加。

通过整体信息计算得到门控单元，具体为：g＝sigmoid(Wu+b)，其中g为获得的门控单元，W为参数矩阵，b为偏置矩阵，sigmoid函数用作神经网络的阈值函数，将变量映射到(0，1)之间。

利用获得的门控单元分别作用于两个篇章单元的信息表示v1、v2，具体为：o1＝g⊙v1，o2＝g⊙v2，o1、o2表示两个篇章单元记忆信息。⊙表示表示逐元素相乘。

将获得到的o1、o2代替步骤(4)中的v1、v2重复步骤(4)(5)(6)两次，将得到的o1、o2利用步骤(4)的方法得到最终的整体信息c。

调用深度学习工具中的前馈神经网络，将c作为前馈神经网络的输入，最后调用深度学习工具中softmax函数对篇章主次关系类型进行分类，实现篇章主次关系识别神经网络模型。softmax函数为归一化指数函数，将每一个元素概率压缩到在(0，1)之间，并且所有元素概率和为1，取最大概率的元素为篇章主次关系类型。

S403，将待识别二元篇章主次关系词和词性特征集合中的每个篇章单元特征也构造和标注文档特征输入集合相同输入格式，得到待识别文档特征输入集合，

S404，调用基于门控记忆神经网的络汉语篇章主次关系识别模型对每个篇章主次关系进行关系类型识别，得到待识别文档集合中每一个篇章主次关系所属的类型。最后生成待识别文档篇章主次关系类型集合。待识别文档篇章主次关系类型集合中每一个实例格式如下：

例14：

<Sentence＝"去年该省外贸进出口总额近二百亿美元，|实际利用外资超过四十亿美元，"Center＝"3"/>

例14中Sentence表示篇章主次关系所包含的篇章单元，与待识别文档集合中的篇章单元保持一致，Center表示通过模型识别得到的该篇章主次关系所属的篇章主次关系类型，其中“1”表示“核心-卫星”关系，“2”表示“卫星-核心”关系，“3”表示“核心-核心”关系。

一种汉语篇章主次关系识别***如图7所示，包括篇章主次关系篇章单元抽取模块10，篇章主次关系篇章单元预处理模块20，待识别篇章主次关系篇章单元处理模块30，待识别篇章主次关系识别模块40。

篇章主次关系篇章单元抽取模块10，读取标注文档集合中的篇章单元标注信息和篇章主次关系类型标注信息，得到篇章主次关系集合，对篇章主次关系集合中的非二元化篇章主次关系进行左子树转化，得到二元篇章主次关系集合。所述标注文档集合是已经标注了篇章主次关系类型的文档集合，是本发明训练模型的基础。

篇章主次关系篇章单元预处理模块20，对二元篇章主次关系集合中每一个篇章单元调用分词工具，得到每个篇章主次关系的词特征，生成二元篇章主次关系词特征集合。对二元篇章主次关系词特征集合中的每一个篇章单元调用词性抽取工具，得到每一个篇章单元所有词的词性特征，生成二元篇章主次关系词和词性特征集合。

待识别篇章主次关系篇章单元处理模块30，对待识别文档集合中的每一个待识别文档中的每一个篇章单元使用和标注文档集合相同的处理方法，得到待识别二元篇章主次关系词和词性特征集合。所述待识别文档集合是未标注篇章主次关系类型的文档集合。

待识别篇章主次关系识别模块40，将二元篇章主次关系词和词性特征集合中每个篇章主次关系的每个篇章单元构造成神经网络能接受的输入形式，得到标注文档特征输入集合。使用深度学习工具搭建一个基于门控记忆网络的神经网络分类器，将标注文档特征输入集合作为输入，训练篇章主次关系识别模型。对待识别二元篇章主次关系词和词性特征集合中的每个篇章单元特征也构造和标注文档特征输入集合相同输入格式，得到待识别文档特征输入集合，然后将待识别文档特征输入集合作为模型输入对待识别文档集合中的篇章主次关系进行识别，得到待识别文档集合中每一个篇章主次关系所属的类型，生成待识别文档篇章主次关系类型集合。

其中，如图8所示，篇章主次关系篇章单元抽取模块10包括篇章单元和篇章主次关系类别读取单元101，篇章主次关系二元化转换单元102。

篇章单元和篇章主次关系类别读取单元101，根据标记读取标注文档集合中的篇章单元标注信息和篇章主次关系类型标注信息，得到篇章主次关系集合。

篇章主次关系二元化转换单元102，根据所获得的篇章主次关系集合，将非二元化的篇章主次关系转化为二元化的篇章主次关系，得到二元篇章主次关系集合。

具体为，对篇章主次关系集合中所有篇章主次关系进行判断是否为多元关系，由于篇章单元之间用“|”分开，故利用“|”将篇章主次关系集合中的每一个篇章主次关系进行篇章单元切分，如果篇章单元数大于2则为多元关系，进行左子树转化：对于一个包含多个孩子的篇章主次关系节点，首先将篇章主次关系节点自左向右的第一个孩子节点和第二个孩子节点相结合生成与原父节点相同的篇章主次关系节点，将该节点作为原父节点的第一个孩子节点，依次迭代，直至到达原父节点的最右孩子节点。这样，对于一个包含n个篇章单元的多元篇章主次关系经过转化后生成n-1个二元篇章主次关系。经过转化后得到二元篇章主次关系集合。

其中，如图9所示，篇章主次关系篇章单元预处理模块20包括词篇章主次关系篇章单元词汇切分单元201，篇章主次关系篇章单元词性抽取单元202。

篇章主次关系篇章单元词汇切分单元201，对二元篇章主次关系集合中每一个篇章单元调用分词工具，得到每个篇章主次关系的词特征，生成二元篇章主次关系词特征集合。在分词过程中去除标点符号。

篇章主次关系篇章单元词性抽取单元202，对二元篇章主次关系词特征集合中的每一个篇章单元调用词性抽取工具，得到每一个篇章单元所有词的词性特征，生成二元篇章主次关系词和词性特征集合。

其中，如图10所示，待识别篇章主次关系篇章单元处理模块30包括待识别篇章单元和篇章主次关系类别读取单元301，待识别篇章主次关系二元化转换单元302，待识别篇章主次关系篇章单元词汇切分单元303，待识别篇章主次关系篇章单元词性抽取单元304，

待识别篇章单元和篇章主次关系类别读取单元301，把待识别文档集合作为输入，使用和标注文档集合相同的处理方法，生成待识别篇章主次关系集合。

待识别篇章主次关系二元化转换单元302，把待识别篇章主次关系集合作为输入，使用和篇章主次关系集合相同的处理方法，生成待识别二元篇章主次关系词特征集合。

待识别篇章主次关系篇章单元词汇切分单元303，把待识别二元篇章主次关系集合作为输入，使用和二元篇章主次关系集合相同的处理方法，生成待识别二元篇章主次关系词特征集合。

待识别篇章主次关系篇章单元词性抽取单元304，把待识别二元篇章主次关系词特征集合作为输入，使用和二元篇章主次关系词特征集合相同的处理方法，生成待识别二元篇章主次关系词和词性特征集合。

其中，如图11所示，待识别篇章主次关系识别模块40包括标注文档特征输入集合构造单元401，模型训练单元402，待识别文档特征输入集合构造单元403，待识别篇章主次关系识别单元404，

标注文档特征输入集合构造单元401，将二元篇章主次关系词和词性特征集合中每个篇章主次关系的每个篇章单元造成神经网络能接受的输入形式，得到标注文档特征输入集合。

标注文档特征输入集合中每个篇章主次关系的每个篇章单元的词和词性特征具体如下：

模型训练单元402，使用深度学习工具(如keras等)搭建一个基于门控记忆网络的神经网络分类器，将标注文档特征输入集合作为输入，训练篇章主次关系识别模型。

具体方法如下：

待识别文档特征输入集合构造单元403，将待识别二元篇章主次关系词和词性特征集合中的每个篇章单元特征也构造和标注文档特征输入集合相同输入格式，得到待识别文档特征输入集合。

待识别篇章主次关系识别单元404，调用基于门控记忆神经网的络汉语篇章主次关系识别模型对每个篇章主次关系进行关系类型识别，得到待识别文档集合中每一个篇章主次关系所属的类型。最后生成待识别文档篇章主次关系类型集合。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种汉语篇章主次关系识别方法，其特征在于，包括：

2.根据权利要求1所述的汉语篇章主次关系识别方法，其特征在于，“读取标注文档集合中的篇章单元标注信息和篇章主次关系类型标注信息，得到篇章主次关系集合，对篇章主次关系集合中的非二元化篇章主次关系进行左子树转化，得到二元篇章主次关系集合；其中，所述标注文档集合是已经标注了篇章主次关系类型的文档集合；”具体包括：

根据标记读取标注文档集合中的篇章单元标注信息和篇章主次关系类型标注信息，得到篇章主次关系集合；

根据所获得的篇章主次关系集合，将非二元化的篇章主次关系转化为二元化的篇章主次关系，得到二元篇章主次关系集合。

3.根据权利要求1所述的汉语篇章主次关系识别方法，其特征在于，“对二元篇章主次关系集合中每一个篇章单元调用分词工具，得到每个篇章主次关系的词特征，生成二元篇章主次关系词特征集合；对二元篇章主次关系词特征集合中的每一个篇章单元调用词性抽取工具，得到每一个篇章单元所有词的词性特征，生成二元篇章主次关系词和词性特征集合；”具体包括：

对二元篇章主次关系集合中每一个篇章单元调用分词工具，得到每个篇章主次关系的词特征，生成二元篇章主次关系词特征集合；在分词过程中去除标点符号；

对二元篇章主次关系词特征集合中的每一个篇章单元调用词性抽取工具，得到每一个篇章单元所有词的词性特征，生成二元篇章主次关系词和词性特征集合。

4.根据权利要求1所述的汉语篇章主次关系识别方法，其特征在于，“对待识别文档集合中的每一个待识别文档中的每一个篇章单元使用和标注文档集合相同的处理方法得到待识别二元篇章主次关系词和词性特征集合；其中，所述待识别文档集合是未标注篇章主次关系类型的文档集合；”具体包括：

把待识别文档集合作为输入，使用和标注文档集合相同的处理方法，生成待识别篇章主次关系集合；

把待识别篇章主次关系集合作为输入，使用和篇章主次关系集合相同的处理方法，生成待识别二元篇章主次关系集合；

把待识别二元篇章主次关系集合作为输入，使用和二元篇章主次关系集合相同的处理方法，生成待识别二元篇章主次关系词特征集合；

把待识别二元篇章主次关系词特征集合作为输入，使用和二元篇章主次关系词特征集合相同的处理方法，生成待识别二元篇章主次关系词和词性特征集合。

5.根据权利要求1所述的汉语篇章主次关系识别方法，其特征在于，“将二元篇章主次关系词和词性特征集合中每个篇章主次关系的每个篇章单元构造成神经网络能接受的输入形式，得到标注文档特征输入集合；使用深度学习工具搭建一个基于门控记忆网络的神经网络分类器，将标注文档特征输入集合作为输入，训练篇章主次关系识别模型；对待识别二元篇章主次关系词和词性特征集合中的每个篇章单元特征也构造和标注文档特征输入集合相同输入格式，得到待识别文档特征输入集合，然后将待识别文档特征输入集合作为模型输入对待识别文档集合中的篇章主次关系进行识别，得到待识别文档集合中每一个篇章主次关系所属的类型，生成待识别文档篇章主次关系类型集合。”具体包括：

将二元篇章主次关系词和词性特征集合中每个篇章主次关系的每个篇章单元造成神经网络能接受的输入形式，得到标注文档特征输入集合；

获取标注文档特征输入集合中每个篇章主次关系的每个篇章单元的词和词性特征；

使用深度学习工具搭建一个基于门控记忆网络的神经网络分类器，将标注文档特征输入集合作为输入，训练篇章主次关系识别模型；

将待识别二元篇章主次关系词和词性特征集合中的每个篇章单元特征也构造和标注文档特征输入集合相同输入格式，得到待识别文档特征输入集合；

调用基于门控记忆神经网的络汉语篇章主次关系识别模型对每个篇章主次关系进行关系类型识别，得到待识别文档集合中每一个篇章主次关系所属的类型；最后生成待识别文档篇章主次关系类型集合。

6.一种汉语篇章主次关系识别***，其特征在于，包括：

7.根据权利要求1所述的汉语篇章主次关系识别***，其特征在于，所述篇章主次关系篇章单元抽取模块，包括：

篇章单元和篇章主次关系类别读取单元，根据标记读取标注文档集合中的篇章单元标注信息和篇章主次关系类型标注信息，得到篇章主次关系集合；

篇章主次关系二元化转换单元，根据所获得的篇章主次关系集合，将非二元化的篇章主次关系转化为二元化的篇章主次关系，得到二元篇章主次关系集合。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到5任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到5任一项所述方法的步骤。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到5任一项所述的方法。