CN111008271B

CN111008271B - 一种基于神经网络的关键信息提取方法及***

Info

Publication number: CN111008271B
Application number: CN201911138210.6A
Authority: CN
Inventors: 姜磊; 杨钊; 赖招展; 欧阳滨滨; 陈南山; 朱振航; 何慧; 沈广盈; 屈吕杰
Original assignee: Brilliant Data Analytics Inc
Current assignee: Brilliant Data Analytics Inc
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2022-06-24
Anticipated expiration: 2039-11-20
Also published as: CN111008271A

Abstract

本发明涉及信息提取技术，为基于神经网络的关键信息提取方法及***，包括：生成标签向量，设文章长度为n，关键信息首字在文章中的位置为s、末字的位置为e，将s*n+e作为标签向量的元素，初始化标签向量，所有元素初始化为0，在s*n+e位置的元素重置为1；对文章进行文本张量化处理得到文本张量C，继而生成文本特征向量；将文本特征向量中明显不可能是最大的元素替换为极小值，非明显不可能是最大的元素都乘以一个权重，生成输出向量；计算输出向量与标签向量的交叉熵作为损失，对神经网络进行迭代训练直至收敛得到模型；向模型中输入文本数据得到输出向量，获得关键信息。解决了现有技术在小数据集上容易过拟合且无法充分利用先验信息的问题。

Description

一种基于神经网络的关键信息提取方法及***

技术领域

本发明属于信息提取技术领域，具体为一种基于神经网络的关键信息提取方法及***。

背景技术

神经网络是一种数学模型，其由节点与节点间的连接构成，训练的时候一般通过反向传播算法更新神经网络中参数的值，使得整个模型越来越接近真实输入空间到输出空间的映射。理论上两层足够宽的神经网络就能拟合任何函数，但是实际上如果真的这样做的话，很可能模型只是记住了训练集，而没有学到数据间更深层次的联系。所以可能造成模型在训练集上表现良好，但是在测试集上表现很糟糕。因为这个问题，所以人们尝试的并不是浅层但足够宽的网络，而是有一定宽度的深层网络，寄希望于深层网络能够用浅层网络学到的特征进一步学习到更深层次的特征。但随之而来的是梯度***与梯度消失的问题，所以当时用sigmoid作为激活函数的网络一般限制在五层以内。后来relu激活函数被提出来，缓解了梯度***和梯度消失的问题。

到2015年，残差连接被提出来后，基本解决了梯度***和梯度消失的问题，用残差连接可以轻松构建出几百层的神经网络。有了这么深层的神经网络，拟合能力自然不是问题，但却出现了过拟合问题。模型的学习能力太强，往往将一些随机的现象也当成规律学习了。这个现象在大数据集上较为不严重；根据大数定理，数据集足够大的话，比较难出现显著的随机现象被神经网络学习到。但在小数据集上过拟合现象就尤为显著，往往出现有的模型在大数据集上表现好，但是在小数据集上表现很糟糕，甚至不如简单的模型。

总的来说，现阶段将神经网络的技术用于关键信息提取有两方面问题。一方面是标准模型的生搬硬套；例如有时候bert+crf(这里的crf一般是指crf的子类：线性链条件随机场)被用于关键信息提取上，线性链条件随机场对于神经网络而言其本质就是一个规则约束，但是这个规则约束只对相邻的字起作用，而没有跨字之间的约束，自然不能利用好先验信息。另一方面，现在的模型往往比较复杂，如果不添加利用先验信息或者没有专门的优化，往往容易过拟合，其效果甚至不如简单模型。

发明内容

为了解决现有技术所存在的问题，本发明提出一种基于神经网络的关键信息提取方法及***，为关键信息的提取定制化神经网络模型，在模型中根据关键信息的特点提出了十分严格有效的规则约束，提升了模型在小数据集合上的表现，解决了现有关键信息提取技术在小数据集上容易学习到随机出现的特征而导致过拟合且无法充分利用先验信息的问题。

本发明提取方法采用如下技术方案来实现：基于神经网络的关键信息提取方法，包括以下步骤：

S1、生成标签向量，设文章长度为n，关键信息首字在文章中的位置为s，关键信息末字在文章中的位置为e，将s*n+e作为标签向量的元素，对于每一篇文章初始化一个n*n维的标签向量；标签向量的所有元素都初始化为0，并将标签向量在s*n+e位置的元素重置为1，得到最终的标签向量；

S2、对给定的一篇文章进行文本张量化处理，得到文本张量C；

S3、生成文本特征向量，根据文本张量C得到首字特征向量CS和末字特征向量CE，取首字特征向量CS和末字特征向量CE的笛卡尔积作为文本特征向量；

S4、将文本特征向量中明显不可能是最大的元素替换为极小值；

S5、参数共享，将文本特征向量中非明显不可能是最大的元素都乘以一个权重，生成新的输出向量；

S6、计算损失函数，计算输出向量与标签向量的交叉熵作为损失，对神经网络进行迭代训练；

S7、用梯度下降法最小化损失函数，迭代直至收敛，保存神经网络模型；

S8、向所保存的神经网络模型中输入文本数据，得到最终的输出向量，获得所提取的关键信息。

在优选的实施例中，步骤S1中，将初始化标签向量的元素乱序处理，复制若干次后首尾拼接在一起得到元素串，然后固定地截取元素串中前面若干个元素组成最终的标签向量。

步骤S5中，将文本特征向量中非明显不可能是最大的各个元素所对应的e和s的差相同的所有元素乘以相同的权重，生成新的文本特征向量作为输出向量。

在优选的实施例中，步骤S8包括：

求出输出向量的m个元素，这m个元素大于等于输出向量中除了这m个元素外的任何元素；

通过这m个元素在输出向量中的位置与s、e组合之间的一一对应关系，计算得到这m个元素对应的s和e；

通过这m个元素对应的s和e，求出这m个元素对应的文字段；对于相同的文字段，将其对应的元素相加，作为这个文字段新的对应元素，选出新的对应元素中最大的元素所对应的文字段作为最终的输出向量。

本发明基于神经网络的关键信息提取***，包括：

标签向量生成模块，设文章长度为n，关键信息首字在文章中的位置为s，关键信息末字在文章中的位置为e，将s*n+e作为标签向量的元素，对于每一篇文章初始化一个n*n维的标签向量；标签向量的所有元素都初始化为0，并将标签向量在s*n+e位置的元素重置为1，得到最终的标签向量；

文本张量化模块，用于对给定的一篇文章进行文本张量化处理，得到文本张量C；

文本特征向量生成模块，用于根据文本张量C得到首字特征向量CS和末字特征向量CE，取首字特征向量CS和末字特征向量CE的笛卡尔积作为文本特征向量；

赋值模块，用于将文本特征向量中明显不可能是最大的元素替换为极小值；

参数共享模块，用于将文本特征向量中非明显不可能是最大的元素都乘以一个权重，生成新的输出向量；

损失函数计算模块，用于计算输出向量与标签向量的交叉熵作为损失，对神经网络进行迭代训练；

迭代收敛模块，用于通过梯度下降法最小化损失函数，迭代直至收敛，保存神经网络模型；

预测模块，用于向所保存的神经网络模型中输入文本数据，得到最终的输出向量，获得所提取的关键信息。

从以上技术方案可知，本发明与现有技术相比，具有如下有益效果：

1、本发明针对关键信息提取这一个特定的场景，提出了一套专门处理关键信息提取问题的神经网络模型，在模型中根据关键信息的特点提出了两条十分严格有效的规则约束，并使用共享参数提高了模型的参数利用率，减少了模型的参数量；显著提升了模型在小数据集合上的表现，解决了现有关键信息提取技术在小数据集上容易学习到随机出现的特征而导致过拟合且无法充分利用先验信息的问题。

2、本发明在小数据集上的效果尤为明显，而对于大数据集，也能一定程度上提升模型的表现并加快模型的收敛速度。通过定制化的神经网络提取出文本的特征向量，然后通过屏蔽特征向量中某些元素和采用参数共享的方式，使得神经网络能利用到先验信息，从而加快神经网络的收敛速度，减轻过拟合程度。

3、本发明在关键信息提取领域提出的神经网络模型，所取得的显著进步包括以下三方面：

第一个方面，与通常的bert+crf、lstm+crf或者bert+lstm+crf等通用的神经网络模型对比，本发明针对关键信息提取的特点，提出了将定制化的规则约束加入了神经网络的想法。定制化的规则约束具体包括两条，第一条规则约束为：设关键信息首字在文本中的位置为s，关键信息末字在文本中的位置为e，则s必须小于e；第二条规则约束为：e-s不能超过某个值x，其中x为设定的阈值。因为关键信息开头的字(即首字)的位置显然不会大于关键信息结尾的字(即末字)的位置，又由于关键信息的长度一般不会太长，因此关键信息头尾的字的位置也不会差太远；所以这两条规则约束取得了显著的技术效果，即大大减少了神经网络的输出向量的有效维度，从原本的n*n(n是文章长度)下降到x*x。

第二方面，本发明还提出了在特征向量中，对应的e和s的差相同的那些元素共享参数的技术手段，从而减少了x*(x-1)个参数，有效缓解了神经网络模型的过拟合现象。

第三方面，本发明提出了考虑前若干个(例如m个)候选关键信息的方案。相对于直接取最大可能的候选关键信息作为关键信息的做法，本发明的方案更具稳定性。

总体而言，通过强有效的规则约束和参数共享，使得本发明相对于一般通用神经网络模型在关键信息提取领域有更出色的表现。当数据量越小时，即应用在小数据集上，本发明的模型相对于一般通用模型的提升就越大。

附图说明

图1为本发明关键信息提取的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本发明基于神经网络的关键信息提取方法，整体上来说，一方面根据文章生成标签向量，用于训练神经网络；另一方面，对于长度为n的文章，用神经网络提取出维度为n*n的文本特征向量；然后提取出上述文本特征向量中最大的元素的索引，通过关键信息首字在文章中的位置s与关键信息末字在文章中的位置e的笛卡儿组合与文本特征向量各个元素间一一对应的关系，将文本特征向量中最大的元素的索引解析成关键信息首字在文章中的位置与关键信息末字在文章中的位置，从而提取出关键信息。

在招投标文件中招标人是比较关键的信息，现有招投标文件上一般有其对应的招标人。下面就结合如何从招投标文件中提取招标人这一关键信息为例，详细描述如何实施本发明。如图1所示，本实施例中，关键信息提取方法包括以下步骤：

步骤1、数据清洗。

对数据进行清洗，将重复数据、异常数据去除。

步骤2、生成标签向量。

招标人可能会在招投标文件中多次出现，本实施例不是直接利用招标人作为标签，而是用招标人在文章中的位置信息生成的标签向量作为标签。

具体地，假设文章长度(也叫文本长度)为n，招标人这个关键信息的首字在招投标文件中的位置为s，末字在招投标文件中的位置为e，将(s*n+e)作为标签向量的元素，对每一篇文章(招投标文件)初始化一个n*n维的标签向量，标签向量的所有元素都初始化为0；对于每一个标签向量的元素，如果其对应的s和e的组合存在，则将该标签向量的元素重置为1，即将标签向量在s*n+e位置的元素重置为1，得到最终的标签向量，用于后续损失函数的计算。

由于不同招投标文件对应的标签向量的元素的个数可能不一样，这不利于模型的实现，最好让不同的招投标文件对应的标签向量的元素的个数相等，且本发明认为应该赋予每个标签向量的元素平等的地位。所以，本发明将这些初始化标签向量的元素乱序处理(打乱顺序)，复制一定次数后首尾拼接在一起，得到元素串，然后固定地截取元素串中前面若干个元素组成最终的标签向量，作为标签。

步骤3、文本张量化。

本实施例选取谷歌开源中文bert模型作为张量化的方式，并将结果序列化。具体地，给定一篇文章，按照谷歌中文bert模型的预处理方法将文章转化成由512个词id组成的向量，然后将这个向量作为谷歌中文bert模型的输入，从而得到文本张量C(张量C的具体形状为[512,768])。然后序列化文本张量C，方便后续的重复利用。

需说明的是，谷歌中文bert模型只是一种文本张量化的方法，还有其他的文本张量化的方式，比如用业务数据从头训练的bert模型，再如比较节省算力的fastText模型。

步骤4、生成文本特征向量。

假设文本张量C的形状是C[n,d](n是文本长度，即文章长度，d是字的维度)，随机初始化一个查询向量S其形状是[d]，CS(CS＝C*S)的值作为首字特征向量。类似的，随机初始化一个查询向量E其形状是[d]，CE(CE＝C*E)的值作为末字特征向量。取首字特征向量CS和末字特征向量CE的笛卡尔积作为文本特征向量，其维度是n*n。

向量是张量的一种特例，形状是张量的一种属性，例如向量[1,2,3]的形状是[3]，张量[[1,2],[3,4]]的形状是[2,2]。文本张量C的形状是[n,d]，查询向量S的形状是[d]，首字特征向量CS的形状是[n]，首字特征向量CS的维度和词的个数是相等的，首字特征向量CS的每个元素就代表着相应位置的词是首字的概率；相应地，末字特征向量CE的每个元素就代表着相应位置的词是末字的概率。

步骤5、将文本特征向量中明显不可能是最大的元素替换为极小值。

由于关键信息的首字与末字之间不会距离太远，因此判断明显不可能是特征向量的所有元素中最大的方法可以为：如果文本特征向量中某个元素对应的s和e有s>＝e，则这个元素明显不可能是最大的；或者，如果文本特征向量中某个元素对应的s和e有e-s的值大于某个设定的阈值x，则这个元素明显不可能是最大的。例如，如果这个元素对应的e-s值大于40，则这个元素明显不可能是最大的。

根据先验知识，对维度为n*n的文本特征向量中的各个元素，如果明显不可能是文本特征向量中最大的元素，则将其重置为一个相较于所述维度为n*n的文本特征向量中各个元素的数值而言极小的数，即赋予一个极小值。

本实施例中，元素在文本特征向量中的位置l与s、e有如下关系：s*n+e＝l；所以s＝l//n(//表示两数相除，向下取整)，e＝l％n(％是取余数)。所以将l％n<＝s//n的元素替换为-1000，以实现第一条规则约束，s必须小于e；将l％n-l//nd<40的元素替换为-1000，以实现第二条规则约束，e减去s不能超过某个值。

步骤6、参数共享：将文本特征向量中非明显不可能是最大的元素都乘以一个权重，生成新的输出向量。

对于所述维度为n*n的文本特征向量中非明显不可能是最大的各个元素所乘以的权重(参数)是根据s和e的关系来共享的。文本特征向量中非明显不可能是最大的各个元素所对应的e和s的差相同的所有元素乘以相同的(即共享的)的权重(参数)，从而生成新的输出向量。也就是说，对于维度为n*n的文本特征向量中非明显不可能是最大的各个元素，当它们对应的e和s的差相同时，将上述对应的e和s的差相同的各个元素都乘以一个相同的权重参数，生成新的n*n文本特征向量作为输出向量。

具体地，对于特征向量中明显不可能是最大的元素，其权重是1；对于其他元素，其权重是可训练的参数，且对于所有的l％n-l//nd的值相同的元素，将其对应的权重设置为共享(即乘以同一个参数)。

因为步骤5和步骤6的处理，输出向量中明显不可能是最大的元素，其值已被赋为极小值，即-1000，因此基本上可以保证这些明显不可能是最大的元素不会被选中，其对应的字段也就不会被选中，这就是约束的直观效果。

步骤7、计算损失函数。对步骤6生成的新的输出向量做softmax运算，再次生成新的输出向量，计算再次生成的新的输出向量与标签向量的交叉熵作为损失loss，参与神经网络迭代训练。

本发明中，由于采用关键字在文章中的位置信息作为标签，因而标签向量反映了关键字在文章中的位置信息。本实施例中，对于每一个训练样本，将文章中所有待提取的关键字用正则匹配出来，再解析出正则匹配出来的关键字的位置信息，即位置s和位置e，然后将解析出来的位置信息作为对应文章的标签，参与神经网络迭代训练。由于神经网络的迭代训练充分利用了反映关键字位置信息的标签向量，并通过屏蔽特征向量中某些元素和采用参数共享的方式，使得神经网络能利用到先验信息，因此能有效减少神经网络的输出向量的有效维度，有效缓解神经网络模型的过拟合现象。

步骤8、迭代收敛，用梯度下降法最小化损失函数，迭代直至收敛，并保存神经网络模型。

神经网络根据损失loss计算各个变量(例如查询向量S、查询向量E)的梯度，根据计算所得的各个变量梯度更新查询向量S、E等。迭代的过程可以优化查询向量S、E，让查询向量S、E能正确判断出哪一个词该给高分(即哪一个词是首字或末字的概率大)。当损失loss足够小时，那么输出向量和标签向量就会足够接近，认为神经网络模型具有了预测能力，停止迭代。

步骤9、预测，向步骤8所保存的神经网络模型中输入文本数据，得到最终的输出向量，获得所提取的关键信息。

具体包括：求出输出向量的m个元素，这m个元素大于等于输出向量中除了这m个元素外的任何元素。由前文可知，元素在向量中的位置为s*n+e，通过这m个元素在输出向量中的位置与s、e组合之间的一一对应关系，计算得到这m个元素对应的s和e；继而通过这m个元素对应的s和e，求出这m个元素对应的文字段；对于相同的文字段，将其对应的元素相加，作为这个文字段新的对应元素，选出新的对应元素中最大的元素所对应的文字段作为最终的输出向量，得到所提取的关键信息，即招标人。

本发明基于神经网络的关键信息提取***包括：标签向量生成模块，用于实现上述步骤2；文本张量化模块，用于实现上述步骤3；文本特征向量生成模块，用于实现上述步骤4；赋值模块，用于实现上述步骤5；参数共享模块，用于实现上述步骤6；损失函数计算模块，用于实现上述步骤7；迭代收敛模块，用于实现上述步骤8；预测模块，用于实现上述步骤9。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于神经网络的关键信息提取方法，其特征在于，包括以下步骤：

S8、向所保存的神经网络模型中输入文本数据，得到最终的输出向量，获得所提取的关键信息；

步骤S4中，对文本特征向量中明显不可能是最大的元素进行判断，判断方法为：

如果文本特征向量中某个元素对应的s和e有s>＝e，则这个元素明显不可能是最大的；或者，如果文本特征向量中某个元素对应的s和e有e-s的值大于设定阈值x，则这个元素明显不可能是最大的；

步骤S5中，对于维度为n*n的文本特征向量中非明显不可能是最大的各个元素，当它们对应的e和s的差相同时，将所述对应的e和s的差相同的各个元素都乘以一个相同的权重参数，生成新的n*n文本特征向量作为输出向量。

2.根据权利要求1所述的关键信息提取方法，其特征在于，步骤S1中，将初始化标签向量的元素乱序处理，复制若干次后首尾拼接在一起得到元素串，然后固定地截取元素串中前面若干个元素组成最终的标签向量。

3.根据权利要求1所述的关键信息提取方法，其特征在于，步骤S3中，设文本张量C的形状是C[n,d]，其中d是字的维度，随机初始化一个查询向量S，其形状是[d]，CS＝C*S的值作为首字特征向量；随机初始化一个查询向量E，其形状是[d]，CE＝C*E的值作为末字特征向量；取首字特征向量CS和末字特征向量CE的笛卡尔积作为文本特征向量，其维度是n*n。

4.根据权利要求1所述的关键信息提取方法，其特征在于，步骤S8包括：

5.一种基于神经网络的关键信息提取***，其特征在于，包括：

预测模块，用于向所保存的神经网络模型中输入文本数据，得到最终的输出向量，获得所提取的关键信息；

赋值模块中，对文本特征向量中明显不可能是最大的元素进行判断，判断方法为：

参数共享模块中，对于维度为n*n的文本特征向量中非明显不可能是最大的各个元素，当它们对应的e和s的差相同时，将所述对应的e和s的差相同的各个元素都乘以一个相同的权重参数，生成新的n*n文本特征向量作为输出向量。

6.根据权利要求5所述的关键信息提取***，其特征在于，标签向量生成模块将初始化标签向量的元素乱序处理，复制若干次后首尾拼接在一起得到元素串，然后固定地截取元素串中前面若干个元素组成最终的标签向量。

7.根据权利要求5所述的关键信息提取***，其特征在于，预测模块获得所提取的关键信息的过程包括：