CN110956041A

CN110956041A - 一种基于深度学习的并购重组公告摘要方法

Info

Publication number: CN110956041A
Application number: CN201911178613.3A
Authority: CN
Inventors: 黄胜; 周招福; 郑飞
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-04-03

Abstract

本发明提出一种基于深度学习的并购重组公告摘要方法，分摘要信息句抽取和摘要字段提取两阶段进行。其方案为：制定摘要模板；提取公告全文结构及内容，并以标题深度为序对结构层次化；制定各个摘要字段对应信息句的规则，对摘要信息句进行匹配；训练字向量，再利用分词工具分词并训练词向量，生成命名实体识别语料；制定实体标签，并对语料标注；构建深层词嵌入(DW)、CNN网络获取词、字粒度语义作为BLSTM‑CRF网络输入的DW‑CNN‑BLSTM‑CRF模型；设置模型超参数，对模型调参、训练；使用训练好的模型，识别摘要信息句中的摘要字段，并对模板填充。本发明的提出的并购重组方法具有针对性、高效性、输出连贯性。

Description

一种基于深度学习的并购重组公告摘要方法

技术领域

本发明涉及自然语言处理领域，具体涉及金融公告摘模板驱动的并购重组公告摘要方法，本发明旨在发明一种以金融知识为背景制定摘要模板，以规则法为摘要信息句抽取工具，以深层词嵌入(Deep Word embedding)获取词粒度语义、卷积神经网络(Convolutional Neural Networks,CNN)获取字粒度语义作为BLSTM-CRF网络输入的DW-CNN-BLSTM-CRF模型为摘要字段抽取工具的并购重组公告摘要方法。

背景技术

上市公司公告是上市公司对公司重大事件、重大裁决的报告。公告内容冗长且复杂，对公告文本摘要提取为投融资决策和市场监管等方面提供便利。特别是针对并购重组公告，其文本长达百页，冗余信息过多，如何准确且高效的生成其摘要具有重要意义。

文本摘要是去除文本冗余信息并且提取出用户需要的重要内容，经过组织润色后生成比原文更精炼的文摘的过程，按照摘要方法可分为抽取式文本摘要和生成式文本摘要。抽取式文本摘要是从原文中抽取出重要的句子作为摘要，句子的重要程度取决于其自身特征，例如句子中词频、线索词、句子位置、句子与文本中其他句子的相似性等等。生成式文本摘要是利用自然语言理解技术对原文档进行语法语义的分析，对信息进行融合后形成摘要。早期的文本摘要研究大多基于统计学，利用文本自身的统计特征(如词频等)为句子打分，从而根据得分提取摘要句。随着Google公司PageRank算法的提出，TextRank算法借助其图的思想，应用到文本摘要中。近年来，随着深度学习的迅速发展，利用深度学习进行文本摘要自动生成取得很大的进展。周等人将递归神经网络(RNN)的Seqence-to-Seqence模型用于文本摘要起到一定效果。2015年，Rush等人将encoder-decoder与注意力机制相结合模型应用到文本摘要任务中，取得突破性进展。谷歌开源的基于TensorFlow的自动摘要模块Textsum也是利用Seqence-to-Seqence模型在生成新闻标题时取得良好效果。

信息抽取(Information Extraction)是指从自然语言形式的文档中抽取人们所感兴趣的信息，并将其转变为结构化信息的过程，以便用户查询和使用。对于特定领域的文本摘要，根据领域知识和经验，通过信息抽取的方法生成文本摘要具有一定的针对性、目的性和专业性。刘娜提出了基于信息抽取的文本摘要方法，根据用户需求，构建多个空槽的摘要框架，再从原文本中抽取内容填充形成摘要。该方法具有一定的领域限制性，例如天气预报等的文献资料摘要。信息抽取的关键技术之一是命名实体识别，目前命名实体识别的方法主要分为：基于规则和统计的方法、基于机器学习的方法和基于深度学习的方法。基于规则的命名实体识别方法过于繁杂且可移植性差；基于统计的实体识别方法需要依靠大型标注的语料库。早期有方法将规则和统计相结合用于中文命名实体识别，发现这种方法受语言环境和领域影响较大。随着深度学习的发展，不少学者将深度学习方法应用到NLP领域。Lamplez等人以双向长短期记忆神经网络(Long Short Term Memory，LSTM)为基础，以CRF作为最优序列输出，在命名实体任务上取得良好的效果。

上市公司并购重组公告由于其领域专业性，文本内容长达几百页并且冗余度高。利用基于文本内容统计特征的方法提取摘要在面对冗余度高的公告时，非摘要信息的冗余会带来较大误差；利用基于深度学习的Seqence-to-Sequence方法在处理这种长文本时，由于***对上下文的记忆有限，如果将全文内容作为***输入，在实现效果上不佳。

针对以上方法的不足，本发明依据并购重组公的文本特性，提出一种以摘要模板为引导的并购重组公告摘要方法。依据金融领域知识定位该公告的关键要素，制定公告模板，以模板为引导，制定较完善的标题规则和内容规则同时匹配的方式，实现对摘要信息句的准确抽取；在摘要字段抽取模块，本发明提出了DW-CNN-BLSTM-CRF网络模型，兼顾深层次词粒度特征和词内字粒度特征，有效捕获了低频词的信息和一个词的上下文信息，提高了摘要字段的识别准确率；用摘要字段对摘要模板进行填充，生成准确、可读性高的并购重组摘要。

发明内容

针对并购重组公告自身的特性以及其独特的金融背景，本发明提出一种以摘要模板驱动，以规则体系为摘要信息句抽取工具，以深层词嵌入(Deep Word embedding，DW)、卷积神经网络(Convolutional Neural Networks,CNN)、双向长短期记忆网络(Long Short-Term Memory,BLSTM)以及条件随机场(conditional random field,CRF)为摘要字段抽取工具的并购重组公告摘要方法。根据金融领域知识，制定并购重组公告摘要模板。以模板为驱动，制定标题层级规则以及内容规则体系，实现从冗长的公告文本到摘要信息句的定位。摘要信息句的文本往往掺杂其他无用信息，将摘要字段的抽取看作是NLP中的命名实体识别任务，采用 DW-CNN-BLSTM-CRF网络实现对摘要字段的提取。将抽取的摘要按映射关系填充到摘要模板中形成完整的摘要。

本发明提供的并购重组公告摘要，提供如下技术方案：

步骤S1：针对并购重组公告的特点，依据领域知识，分析该类公告包含的关键要素(即摘要字段)，如“重组类型”、“交易标的”、“交易金额”等9个摘要字段，制定该类公告的模板；

步骤S2：提取公告全文结构及内容，并以标题深度为序对结构层次化；

步骤S3：分析、概括摘要字段所在信息句(简称摘要信息句)的常见表达方式，制定每个字段对应信息句的规则，包括标题规则和内容规则。以标题定位内容的方式对摘要信息句进行抽取。

步骤S4：收集并购重组公告，经预处理后，利用word2vec训练字向量；采用jieba分词工具进行分词，并用word2vec训练词向量。

步骤S5：制定8个摘要字段的实体标签，以BIESO作为标签界定，构建命名实体识别语料，进行语料标注。

步骤S6：构建深层次嵌入(DW)作为词粒度输入、卷积神经网络(CNN)作为字粒度输入的 BLSTM-CRF的命名实体识别网络(DW-CNN-BLSTM-CRF)。

步骤S7：利用语料对模型进行调参、训练。

步骤S8：恢复模型，对摘要句进行命名实体识别，将识别的字段按照映射关系填充到摘要模板中构成完整的摘要，将摘要录入到数据库中供后续使用。

本发明采用以上技术，其优点在于：

1、从并购重组公告摘要的整体思路来看，利用摘要模板和信息抽取相结合的方法具有高效性、针对性和较高的准确性。并购重组公告内容繁多且冗长(文件大小达2M)，基于传统的词频以及句子位置等特征的方法对于这种冗长的文本来说并不可靠，基于序列到序列(Sequence tosequence)的方法因其受模型的长程记忆限制，对于这种冗长的文本来说并不适用，并且这种方法生成的摘要在可读性上往往欠缺。所以鉴于金融领域对该公告摘要的精准性要求，本发明阐述的基于摘要模板的思路具有其领域内的优势，准确且可读性高。

2、本发明采用的各层级标题规则和内容规则相结合进行摘要句匹配的方式保证了匹配到的摘要句的精准性以及全面性。

3、本发明采用的DW-CNN-BLSTM-CRF网络模型，由于使用的是word2vec生成词向量，无法考虑到同一个词在不同上下文下语义不同的问题，本发明利用BLSTM网络将word2vec生成的静态词向量进行语义信息的补充，使得到的深层词向量能捕捉到长程的上下文语义信息，改善一词多义的问题。作为神经网络词粒度层面的输入。

4、本发明采用的DW-CNN-BLSTM-CRF网络模型，为了解决低频词给模型带来的影响，采用CNN网络捕捉每个词内字粒度的语义，对模型的准确率有一定的提升。CNN的输入窗口大小为：n×char_embedding，char_embedding为字向量维度，n设定为所有语料中词的最大长度，即遍历语料中的所有词，将最大长度作为n的确定值。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1本发明的整体***框图；

图2本发明的内容格式化模块流程图；

图3本发明提出的DW-CNN-BLSTM-CRF网络模型框架图；

图4本发明提出的以BLSTM为主网络的WF(词向量微调)模块框架图；

图5本发明使用的以CNN为主网络的字向量特征嵌入模块框架图；

图6本发明使用的以BLSTM-CRF为主网络的命名实体识别模型框架图；

具体实施方案

本发明总体包含两个大模块，为摘要信息句抽取模块和摘要字段抽取模块。图1是本发明整体***框架图。分为以下几个步骤：

步骤1：针对并购重组公告的特点，依据领域知识，分析该类公告包含的关键要素(即摘要字段)，并制定出包含“重组类型”、“收购方式”、“交易标的”、“交易金额”、“配套融资”、“重大资产重组”、“关联交易”、“重组上市”9个字段的并购重组摘要模板。

步骤2：提取公告全文结构及内容，并以标题深度为序对结构层次化，图2为结构层次化流程图，具体方案为：

步骤2-1，遍历全文，获取标题深度N，创建临时内存C；

步骤2-2，判断当前标题深度n，若n>N，则退出***，取出C内容即为结构层次化文本，否则执行2-3；

步骤2-3，获取当前深度n下直接子标题个数M，执行2-4；

步骤2-4，若当前标题序号m>M，则深度n＝n+1，m置1，执行2-2；否则执行2-5；

步骤2-5，保存当前标题的父、子节点、内容以及位置索引信息，m＝m+1，执行2-4；

步骤3：分析、概括每个摘要字段的常见表达形式，制定相应的规则，采取标题定位内容的方式对得到的格式化内容进行抽取。

步骤3-1，并购重组公告文本冗长，并且具有多级标题(最多可达6级)，针对文本的特征，我们需要知道我们要匹配的摘要信息句到底在哪个标题下，于是我们可以设计一套规则说明符对各级标题及标题下的内容的匹配方式进行限定，表1是其设计和说明：

表1标签作用说明

在本发明中，将其分为两大类，普通规则符和限定标识符。普通规则符：Tx(x＝1,2,3,..) 表示第x级标题，content表示内容规则，一般情况下通过Tx和content对摘要句进行定位，即T1标题下的子标题T2下的content，但是有的情况下无法确定某标题的父标题规则，此时用Ta规则，表示任意级标题规则，此时往往匹配出较多的标题，利用Tal规则限定Ta的任意级父标题，以达到缩小匹配范围的效果。限定标识符为布尔值，headline为TRUE时表示根据规则提取标题，否则提取内容，该限定符用于区分要匹配的内容处于标题中还是内容中； inside_all为TRUE表示匹配当前标题下的所有内容，为FALSE时表示匹配当前标题下的直接内容(不包含子标题下的内容)，该限定符用于解决不能准确获取子标题规则的情况； by_paragraph为TRUE表示按段落抽取，否则按句抽取。

步骤3-2，编写每个摘要字段所在信息句的具体规则，表2是以“交易标的”字段为例的规则。将各级标题规则和内容规则组合，即“组合”行。操作符“and”表示需要同时满足两边的操作数规则，一般用于标题规则和内容规则联合匹配；“or”表示内容并列，一般用于对每一部分匹配出的内容求并集；“not”表示不能满足的规则，一般用于去除无效干扰的句子。在整个匹配过程中，只要有一部分匹配成功则退出匹配。

表2字段规则(交易标的)

步骤4：收集并购重组文本，经预处理后形成语料用于训练字向量。进行分词后，训练词向量，构建字表和词表。本发明利用word2vec训练工具，采用skip-gram模式，将字向量设置为50维，词向量设置为100维。

步骤5，设计摘要字段的实体标签，表3为各个字段的标签。为了更好地对实体进行界定，本发明采用BIEOS的标签格式，B(Begin)表示该词是实体的开头，I(intermediate)表示该词是实体的中间，E(End)表示该词是实体的结尾，O(other)表示该词是为本发明的其他实体，在本发明不需要，S(Single)表示该字段是单独的实体。如Target-B，Target-I，Target-E分别表示“交易标的”字段起始、中间、结束，Target-S表示该词是单独的一个“交易标的”实体。

表3标签含义

步骤6：构建基于DW-CNN-BLSTM-CRF的序列标注模型，图3是其整体网络框架图。

本发明提出的序列标注模型分为以下3个部分：

第一部分：基于BLSTM的深层词嵌入。本发明利用word2vec训练词向量，该方法在训练时使用普通的神经网络，设定一定的词窗口大小，得到的是静态的词向量。但是在文本中，同一个词在不同的上下文中具有不一样的语义。鉴于此，本发明提出一种深层词嵌入方法，利用BLSTM网络的隐藏层输出捕获上下文语义信息，对原词向量进行补充。图4是其框架图，以静态word2vec向量为输入，经BLSTM后，将原始静态word-embedding和BLSTM隐藏层输出拼接，利用词的上下文语义信息对词向量进行补充，得到深层词嵌入(DeepWordembedding),用于下游的命名实体识别任务。具体计算方式如下：

x_i'＝[x_i,h_t] (2)

为前向LSTM隐藏层值，

为反向LSTM隐藏层值，x_i为词嵌入表示，x_i'为深层词嵌入(Deep Word embedding)。

第二部分：基于卷积神经网路(CNN)的字粒度信息提取部分。金融领域语料中往往存在一些数字或者一些公司名是低频词，在训练word2vec时，会将这些低频词统一处理，以unk 表示，这就使得所有的低频词共用一个unk向量，这种低频词信息的丢失是我们不想要的。利用CNN网络捕获一个词内字粒度的信息可以为词向量作一个很好的补充。图5是基于CNN 网络的字粒度信息提取框架图，输入字表对应的字向量，经卷积池化得到一个向量(C-char-embedding)，该向量凝聚词内部字的语义信息。

为了保证卷积神经网络的输入窗口一致，本文取最大词长度max_len为字向量矩阵长度，宽度为字向量维度大小，通道数为1，当词长度不足最大词长度时，在不足处填充0占位符。卷积层的核函数高度为2，宽度为字向量维数大小，通道数为1，卷积核数量为字向量维度，初始化为标准差为0.01的正态分布；卷积层为了捕捉字之间的信息，所以水平卷积步长设置为1，垂直卷积步长设置为字向量维度大小；核函数每次卷积的视野为2个字大小，且卷积步长为1，padding采用VALID方式。池化层采用最大池化方式，水平池化窗口max_len-1，垂直池化窗口为1。

第三部分是基于BLSTM-CRF的命名实体识别部分。图6是其框架图，输入为微调词向量(WF-word-embedding)和字向量(C-char-embedding)，经BLSTM-CRF网络后输出为该字段对应的标签。

长短时记忆网络(LSTM)作为循环神经网络(RNN)的一种变体，它通过引入记忆单元和门限机制很好的解决了RNN由于序列过长引起的梯度消失问题。LSTM单元的各个状态可形式化的表示为：

f_t＝σ(W_fh_t-1+U_fx_t+b_f) (3)

i_t＝σ(W_ih_t-1+U_ix_t+b_i) (4)

a_t＝tanh(W_ah_t-1+U_ax_t+b_a) (5)

c_t＝c_t-1f_t+i_ta_t (6)

o_t＝σ(W_oh_t-1+U_ox_t+b_o) (7)

h_t＝o_ttanh(c_t) (8)

其中，x_t是当前时刻的输入，i_t、f、o_t分别表示输入门、遗忘门和输出门。c_t、h_t是当前时刻的隐状态，W、U为权重矩阵，b为偏置向量。σ为sigmod激活函数，tanh为双曲正切激活函数。

单向的LSTM网络结构，其状态总是从前往后输出，当前时刻的输出只能利用过去的相关信息。然而在序列标注任务中，往往希望对当前状态的获取的同时可以利用过去和将来的相关信息，所以文本采用了双向LSTM网络模型来获取序列的上下文语义特征信息。前向 LSTM用于捕获上文的语义特征信息，反向LSTM用于捕获下文的语义特征信息，对于当前时刻的输出由前后和反向的LSTM共同决定，所以通常情况下双向LSTM会有更好的效果。前向LSTM的隐状态序列为

反向LSTM的隐状态序列为

对双向的隐层状态进行拼接，得

经过得分矩阵和softmax后得到每个词对应标签的最终概率，但是仅仅利用BiLSTM层无法考虑的已经标注过的信息，所以利用CRF层进行结果的约束矫正。

CRF能够通过考虑相邻标签的关系获得一个全局最优的标记序列。由于BiLSTM层的输出只考虑到当前某个词的标签最大概率，而不会关心已经解码出的标签结果，所以可能会出现 Target-B后直接跟Trade_Amount-I的情况。在CRF层引入得分矩阵A，A_i,j代表从第i个标签转移到第j个标签的概率。定义P矩阵是LSTM层的输出矩阵，大小为n×m,n为词个数，m为标签个数。P_i,j代表句子中第i个词为第j个标签的概率。则对于给定序列x，得到标签序列y 的得分定义为(9)：

由式可知，得分不仅取决于P矩阵，还取决于转移矩阵A，以softmax函数作为激活函数来获得所有可能标签序列及其归一化概率，如式(10)。

步骤7：根据语料的情况，对语料生成训练集、测试集和验证集。训练集、测试集、验证集用8:1:1的比例分开，并且它们中的每一行代表一句话，具体内容是词表、字表以及标签对应于词表、字表和标签集的索引号。最大句子长度sentence_len为60个字，不足时补填充，则每一句对应的输入长度per_line＝sentence_len×(word+char+tag)，其中word表示词索引，取值为1；char为字索引，取值为CNN模块中的max_len；tag为标签索引，取值为1。设置batch_size，以及隐藏层单元，对模型进行训练，并依据效果相应的调节超参数，使模型达到最优效果，保存模型。

步骤8：那利用训练好的模型，对步骤3中抽出的摘要信息句进行命名实体识别，并根据标签类别取出所需要的字段，作为摘要字段填充到摘要模板中，经融合后形成完整的摘要，并保存至后台数据库中供后续使用。

Claims

1.一种基于深度学习的并购重组公告摘要方法，其特征在于，包括以下步骤：

步骤S2：提取公告全文结构及内容，并以标题深度为序对结构层次化，分析、概括摘要字段所在信息句(简称摘要信息句)的常见表达方式，制定每个字段对应信息句的规则，包括标题规则和内容规则。以标题定位内容的方式对摘要信息句进行抽取。

步骤S3：训练字、词向量，设计标签并生成语料，构建基于循环神经网络的深层词嵌入(DW)作为词粒度输入、卷积神经网络(CNN)作为字粒度输入的BLSTM-CRF的命名实体识别网络(DW-CNN-BLSTM-CRF)。

步骤S4：训练模型后使用模型对摘要字段进行识别，并映射关系填充到摘要模板中构成完整的摘要。

2.根据权利要求1所述的方法，步骤S2的特征在于，将全文结构及内容进行整理，把深度相同的标题及内容统一存放，包括：

S2-1：遍历全文，获取标题深度N，创建临时内存C；

S2-2：判断当前标题深度n，若n>N，则退出***，取出C内容即为结构层次化后的文本，否则执行S2-3；

S2-3：获取当前深度n下直接子标题个数M，执行S2-4；

S2-4：若当前标题序号m>M，则深度n＝n+1，m置1，执行S2-2；否则执行S2-5；

S2-5：保存当前标题的父、子节点、内容以及位置索引信息，m＝m+1，执行S2-4。

3.根据权利要求1所述的方法，步骤S3的特征在于，第一步将Word2vec训练出的原始词向量作为输入，利用BLSTM构成DW网络，学习词上下文的语义信息，将BLSTM的隐藏层输出原始词向量的补充，得到的词向量具有上下文特征，改善不同语境下一词多义的情况；第二步针对语料中的低频词对网络带来的影响，本发明利用CNN网络捕捉一个词内部的字语义信息，由CNN的特性，其输入窗口大小须固定，本发明对其输入窗口的设定根据训练语料而定。第三步将微调后的词向量、CNN提取的字粒度特征作为输入供BLSTM-CRF作命名实体识别。

4.根据权利要求3所述的方法，第一步DW的特征在于，将原始词向量x_i作为输入，得到BLSM网络双向的隐藏层输出

将h_t与x_i融合得到深层词向量x_i`＝[x_i,h_t]。得到的深层词向量既具有原始的词语义信息，也关注到上下文语义信息，对一词多义的问题有所改善。

5.根据权利要求4所述的方法，第二步的特征在于，CNN的输入窗口大小为：n×char_embedding，char_embedding为字向量维度，n设定为所有语料中词的最大长度，即遍历语料中的所有词，将最大长度作为n的确定值。