CN113806548A

CN113806548A - 基于深度学习模型的信访要素抽取方法及抽取***

Info

Publication number: CN113806548A
Application number: CN202111372528.8A
Authority: CN
Inventors: 郜成胜; 王宇; 温立强; 江永涛; 靳新磊
Original assignee: Beijing Peking University Software Engineering Co ltd
Current assignee: Beijing Peking University Software Engineering Co ltd
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2021-12-17

Abstract

本发明公开了一种基于深度学习模型的信访要素抽取方法、抽取***、电子设备及计算机可读存储介质，包括：提取信访件的文本内容中目标文本数据；对目标文本数据进行预处理，生成针对多种深度学习模型的对应的数据；将预处理后的多种文本数据中的关于信访人的相关信息、受信人相关信息以及信访诉求的文本数据输入到要素抽取模型中进行要素抽取；将关于信访内容以及信访目的的文本数据输入到文本分类模型中进行分类，分别得到要素抽取的结果以及文本分类的结果；将得到的要素抽取的结果以及文本分类的结果推送到终端设备。该方法采用多种模型，能适应不同类型信访件，具有普遍性，并且无需人工进行繁琐要素抽取工作，提高信访人员工作效率。

Description

基于深度学习模型的信访要素抽取方法及抽取***

技术领域

本发明涉及自然语言处理技术领域，尤其涉及基于深度学习模型的信访要素抽取方法、抽取***、电子设备及计算机可读存储介质。

背景技术

随着信息化智能化的快速发展，人民群众法律意识与维权意识也在逐步提升，信访机构需要处理的各类信访件呈现快速的增长，信访信息登记是信访工作的初始环节，是对信访信息的预处理，一个好的信访登记流程，能够有效提升信访工作效率，解决人民群众日益增长的信访需求。

在过去，信访登记工作大都采取人工阅读信访件，从中获取信访内容，抽取相关信息，该方法存在以下问题：人工阅读的效率较低、因主客观原因导致信访内容丢失而无登记、长信访件给工作人员阅读造成障碍等。种种问题之下，现有的信访登记工作已无法满足人民群众的信访需求，此时，需要更有效的技术来提升信访登记效率。

现有技术中对信访件内容的处理从人工阅读改进为采用传统机器学习方式进行文本分类以及要素抽取，虽然提高了结果召回率，但仍依赖人工完成，同时也需要大量领域专业知识才能完成，信访登记效率依旧较低；同时只采用一种或两者模型进行信访件内容的文本分类及要素提取，往往完成还需依赖人工操作，不够精确，没有针对性。

发明内容

本发明的目的在于克服上述一种或多种现有的技术问题，提供一种基于深度学习模型的信访要素抽取方法、抽取***、电子设备及计算机可读存储介质，通过对信访件不同类别内容使用不同深度学习模型的输入，有针对性的进行信息的抽取，实现信访要素的自动化抽取，无需人工操作，显著地提高了信访要素抽取效率，有效地提升信访机构工作人员信访登记的工作效率。

为实现上述目的，本发明提供如下技术方案：

基于深度学习模型的信访要素抽取方法，包括：

提取信访件的文本内容中目标文本数据；

对所述目标文本数据进行预处理，生成针对多种深度学习模型的对应的数据；

将预处理后的多种所述文本数据中的关于信访人的相关信息、受信人相关信息以及信访诉求的文本数据输入到要素抽取模型中进行要素抽取；

将关于信访内容以及信访目的的文本数据输入到文本分类模型中进行分类，分别得到要素抽取的结果以及文本分类的结果；

将得到的所述要素抽取的结果以及所述文本分类的结果推送到终端设备。

优选地，多种所述深度学习模型包括实体关系抽取模型、分层文本分类模型、文本分类模型、规则匹配模型、摘要生成模型；

针对实体关系抽取模型，生成包含原始文本、实体列表、关系列表在内的数据；针对文本分类模型，生成包含原始文本、类别标签在内的数据；针对规则匹配模型，根据专家经验构建受信人库与行政区划库，并在此之上创建规则列表；针对摘要生成模型，生成包含原始文本、摘要文本在内的数据。

优选地，所述实体关系抽取模型采用Tplinker实体关系抽取模型获取所述信访人的相关信息，包括：

对输入数据进行预处理，生成一个用于所述Tplinker实体关系抽取模型训练的数据加载器；

将所述输入数据输入所述Tplinker实体关系抽取模型中的BERT编码层中，得到一个握手过程的过程变量；

将所述过程变量经过解码器解码后得到关系预测值；

将所述输入数据一部分分成用以训练所述Tplinker实体关系抽取模型的训练集，一部分分成用以测试所述Tplinker实体关系抽取模型有效性的测试集；

将所述Tplinker实体关系抽取模型置于训练集上训练，训练所使用的数据通过所述数据加载器产生；

将所述Tplinker实体关系抽取模型置于测试集上测试，得到实体预测值与关系预测值；

计算所述关系预测值与所述实体预测值的评价指标。

优选地，所述分层文本分类模型具体包括三层，每层所述文本分类模型均先经过BERT编码层进行编码再经过MLP多分类器对所述文本内容进行分类，包括：

将所述信访内容输入第一层文本分类模型，得到第一级标签；

在所述第一级标签的约束下，将文本输入特定的第二层文本分类模型，得到第二级标签；

在前两级标签的约束下，将文本输入特定的第三层文本分类模型，得到第三级标签；

组合三级标签，得到最终的内容分类结果。

优选地，所述文本分类模型采用BERT编码层和RCNN层结合的两阶段模型获取所述信访目的、是否涉诉以及是否扬言，包括：

将文本输入BERT编码层，得到编码序列；

将所述编码序列输入RCNN层上，得到内容分类结果；

所述信访目的包括五类，所述是否涉诉和所述是否扬言包括两类。

优选地，所述规则匹配模型在应用jieba分词后，通过匹配所述受信人库、行政区划库抽取所述受信人、问题属地、关键词，包括：

通过信访件信息匹配所述受信人，如无，通过jieba分词匹配所述受信人库，进而得到受信人；

在信访件内容通过jieba分词后，匹配行政区划库，得到问题属地；

在得到的jieba分词结果中，通过一定规则，得到关键词列表。

优选地，所述摘要生成模型使用BERT编码层构建了一个二阶段摘要生成模型获取所述信访人的主要诉求以及主要事实，包括：

将信访件正文送入过滤器，去除如信访人的手机号、身份证号无关信息；

如果过滤后的文本长度较短，直接使用生成式模型进行输入，否则，使用抽取式模型进行输入；

所述抽取式模型为将输入等分，确保序列长度不超过512，使用所述BERT编码层抽取重要句子，拼接后使用所述生成式模型进行输入；

所述生成式模型为使用所述BERT编码层对输入进行编码，在经过解码器解码后生成摘要；

将生成的摘要信息送入过滤器，去除无用信息，进而得到所述信访人的主要诉求以及主要事实。

优选地，通过互联网技术建立网站将信访要素抽取结果返回给客户，包括所述信访人的姓名、手机号码、身份证号、详细地址、信访人物、住址。

为实现上述目的，本发明提供一种基于深度学习模型的信访要素抽取***，其特征在于，包括：

数据提取模块：提取信访件的文本内容中目标文本数据；

数据预处理模块：对所述目标文本数据进行预处理，生成针对多种深度学习模型的对应的数据；

结果生成模块：将预处理后的多种所述文本数据中的关于信访人的相关信息、受信人相关信息以及信访诉求的文本数据输入到要素抽取模型中进行要素抽取；

结果展示模块：将得到的所述要素抽取的结果以及所述文本分类的结果推送到终端设备。

为实现上述目的，本发明提供一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述中任一项所述的基于深度学习模型的信访要素抽取方法。

为实现上述目的，本发明提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述中任一项所述的基于深度学习模型的信访要素抽取方法。

基于此，本发明的有益效果在于：

1. 通过基于深度学习的文本分类，采用预训练语言模型，其能够在海量数据中学习到更多的内容，以参数形式存储在模型中，可以自动获取特征表达，实现信访要素的自动化抽取，减少人力，提高了信访要素抽取效率。

2. 采用多种深度学习模型有针对性的对文本中不同内容进行分类以及要素抽取，使要素抽取更加准确，进而提升信访登记的工作效率。

3. 将两种不同的深度学习模型结合，组合成一种模型，在此模型下，可综合的对信访件内容中要素进行抽取或者文本分类，解决问题更加具体也更加全面，同时也能适应多种类型的信访件，更具有普遍性。

附图说明

图1为本发明的一种实施例的基于深度学习模型的信访要素抽取方法的流程图；

图2为本发明的一种实施例的基于深度学习模型的信访要素抽取***的结构框图。

具体实施方式

现在将参照示例性实施例来论述本发明的内容，应当理解，论述的实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容，而不是暗示对本发明的范围的任何限制。

如本文中所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”，术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。

图1示意性表示根据本发明的一种基于深度学习模型的信访要素抽取方法流程图，如图1所示，根据本发明的一种基于深度学习模型的信访要素抽取方法，包括以下步骤：

S1：提取信访件文本目标文本数据；

S2：对目标文本数据进行预处理，生成对应不同深度学习模型的文本数据；

S3：将生成的文本数据输入到对应的深度学习模型中，得到对信访件内容的文本分类结果以及对关键信息的抽取结果；

S4：向信访工作人员展示信访内容分类结果以及关键信息的抽取结果。

针对S2，深度学习模型包括实体关系抽取模型、分层文本分类模型、文本分类模型、规则匹配模型、摘要生成模型。

实体关系抽取模型，生成包含原始文本、实体列表、关系列表在内的数据。原始文本为text；实体列表为entity_list，列表中每个字典元素包含text、type、char_span、token_span等键值，分别表示实体名、实体类型、字符位置、token位置；关系列表为relation_list，列表中每个字典元素包含subject、object、subj_char_span、obj_char_span、predicate、subj_tok_span、obj_tok_span等键值，分别表示主体名、客体名、主体字符位置、客体字符位置、主客体的关系、主体token位置、客体token位置。

文本分类模型，生成包含原始文本、类别标签在内的数据。原始文本为text，类别标签为class_label。其中，信访内容为三级标签，形式如“城乡建设_住房保障与房地产_保障性住房”，共计500余类；信访目的包含“求决、意见建议、揭发控告、其他”四类标签；是否涉诉、是否扬言均只有“1/0”两类。

规则匹配模型，根据专家经验构建受信人库与行政区划库，并在此之上创建规则列表。

摘要生成模型，生成包含原始文本、摘要文本在内的数据。原始文本为text，摘要文本为sub_text。

根据本发明的一种实施例，在实体关系抽取模型中，为获取信访人相关信息采用Tplinker实体关系抽取模型，具体步骤如下：

（1）如果输入文本过长，采取一定的方法构造新的长度为512的输入文本；

（2）将输入文本通过BERT模型编码得到tokenizer；

（3）将输入数据通过HandshakingTaggingScheme的编码器转换成handshaking_tagger，其中实体的保存格式为：(起始位置，尾部位置，实体标签)，实体关系的保存格式为：(关系类别，实体_1头部，实体_2头部，关系标签) 和 (关系类别，实体_1尾部，实体_2尾部，关系标签)；

（4）将tokenizer和handshaking_tagger输入DataMaker4Bert模型，进而生成dataloader；

（5） Tplinker模型主体由BERT编码层和MLP组成；

（6）将input_ids输入模型，得到shaking_outputs，格式同han-dshaking_tagger；

（7）计算误差，取交叉熵损失函数；

（8）将shaking_outputs通过HandshakingTaggingScheme的解码器得到预测值；

（9）将模型置于训练集上训练；

（10）将模型置于测试集上测试，得到实体与关系的预测值；

（11）计算实体预测和关系预测的精确率、召回率、F1分数等指标。

根据本发明的一种实施例，分层文本分类模型中，对信访内容进行分层分类，共计三层，每层均使用BERT和MLP模型。具体步骤如下：

（1）将文本输入第一层文本分类模型，先经过BERT编码层进行编码，再经过MLP多分类器，得到第一级标签；

（2）在第一级标签的约束下，选择特定的第二层文本分类模型，将文本输入模型，先经过BERT编码层编码，再经过MLP多分类器，得到第二级标签；

（3）在第一级标签和第二级标签的约束下，选择特定的第三层文本分类模型，将文本输入模型，先经过BERT编码层编码，再经过MLP多分类器，得到第三级标签；

（4）组合三级标签，得到最终的内容分类结果。

根据本发明的一种实施例，文本分类模型中，使用BERT和RCNN模型，最终信访目的可分为五类 (申诉、求决、意见建议、揭发控告、其他)，是否涉诉和是否扬言为二分类。具体步骤如下：

（1）将文本输入BERT编码层，得到序列1；

（2）将序列1输入BiLSTM层，得到序列2；

（3）将序列1和序列2输入堆叠层，得到序列3；

（4）将序列3输入激活层，得到序列4；

（5）将序列4重新构造形状，得到序列5；

（6）将序列5输入最大池化层，得到序列6；

（7）将序列6重新构造形状，得到序列7；

（8）将序列7输入全连接层，得到输出结果，其中预测概率最大者即为内容分类结果。

根据本发明的一种实施例，在规则匹配模型中，在应用jieba分词后，通过匹配受信人库、行政区划库来抽取受信人、问题属地、关键词，具体步骤如下：

（1）首先通过信访件的信封或快递单号中的文本识别其中的收件人，进而匹配受信人；若无，截取信访件正文前32字符，通过jieba分词后，匹配受信人库，进而得到受信人；

（2）将信访件正文通过jieba 分词后，通过一定规则去除无效信息，保留有效信息，匹配行政区划库，将简写简称转换成完整的行政区划，进而得到问题属地；

（3）在上述得到的jieba分词结果中，通过一定规则，得到关键词列表。

根据本发明的一种实施例，在摘要生成模型中，使用BERT构建了一个二阶段摘要生成模型，具体步骤如下：

（1）将信访件正文送入过滤器，去除信访人手机号/身份证号等无关信息；

（2）如果过滤后的文本长度较短直接送入生成式模型，否则，送入抽取式模型；

（3）抽取式模型，将输入等分，确保序列长度不超过512，使用BERT模型抽取重要句子，拼接后输送入生成式模型；

（4）生成式模型，使用BERT模型对输入进行编码，再经过transformers解码后生成摘要；

（5）将生成的摘要信息送入过滤器，去除无用信息，进而得到主要诉求和主要事实。

根据本发明的一种实施例，最后，通过web技术将信访要素抽取结果返回给用户，包括信访人姓名、手机号码、身份证号、详细地址、信访人数、住址、信访内容分类、信访目的分类、是否涉诉、是否扬言、受信人、问题属地、关键词、主要诉求、主要事实等。

不仅如此，为实现上述发明目的，本发明还提供一种基于深度学习模型的信访要素抽取***，图2示意性表示根据本发明的一种基于深度学习模型的信访要素抽取***的结构框图，如图2所示，根据本发明的一种基于深度学习模型的信访要素抽取***，包括：

数据提取模块：提取信访件的文本内容中目标文本数据；

针对数据预生成模块，深度学习模型包括实体关系抽取模型、分层文本分类模型、文本分类模型、规则匹配模型、摘要生成模型。

根据本发明的一种实施例，针对结果生成模块：

实体关系抽取模型中，为获取信访人相关信息采用Tplinker实体关系抽取模型，具体步骤如下：

（2）将输入文本通过BERT模型编码得到tokenizer；

（5） Tplinker模型主体由BERT编码层和MLP组成；

（7）计算误差，取交叉熵损失函数；

（9）将模型置于训练集上训练；

（10）将模型置于测试集上测试，计算实体预测和关系预测的精确率、召回率、F1分数等指标。

（1）将文本输入第一层文本分类模型，先经过BERT编码层编码，再进过MLP多分类器，得到第一级标签；

（4）组合三级标签，得到最终的内容分类结果。

（1）将文本输入BERT编码层，得到序列1；

（2）将序列1输入BiLSTM层，得到序列2；

（3）将序列1和序列2输入堆叠层，得到序列3；

（4）将序列3输入激活层，得到序列4；

（5）将序列4重新构造形状，得到序列5；

（6）将序列5输入最大池化层，得到序列6；

（7）将序列6重新构造形状，得到序列7；

根据本发明的一种实施例，针对结果展示模块，通过web技术建立网站将信访要素抽取结果推送到网站上，包括信访人姓名、手机号码、身份证号、详细地址、信访人数、住址、信访内容分类、信访目的分类、是否涉诉、是否扬言、受信人、问题属地、关键词、主要诉求、主要事实等。

为实现上述发明目的，本发明还提供一种电子设备，该电子设备包括：处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现上述基于深度学习模型的信访要素抽取方法。

为实现上述发明目的，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述基于深度学习模型的信访要素抽取方法。

由此可知，本发明所提供的一种基于深度学习模型的信访要素抽取方法，采用深度学习模型，可以自动对信访件内容进行分类和要素提取，无需依赖人工，实现自动化，提高信访登记的工作效率；同时，针对信访件不同内容采用不同模型进行分类以及要素抽取，具有针对性，使数据更加准确，增加了数据的实用性，不用人工二次检查，节省了人力成本。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

应理解，本发明的发明内容及实施例中各步骤的序号的大小并不绝对意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

Claims

1.基于深度学习模型的信访要素抽取方法，其特征在于，包括：

提取信访件的文本内容中目标文本数据；

2.根据权利要求1所述的基于深度学习模型的信访要素抽取方法，其特征在于，多种所述深度学习模型包括实体关系抽取模型、分层文本分类模型、文本分类模型、规则匹配模型、摘要生成模型；

3.根据权利要求2所述的基于深度学习模型的信访要素抽取方法，其特征在于，所述实体关系抽取模型采用Tplinker实体关系抽取模型获取所述信访人的相关信息，包括：

将所述过程变量经过解码器解码后得到关系预测值；

计算所述关系预测值与所述实体预测值的评价指标。

4.根据权利要求2所述的基于深度学习模型的信访要素抽取方法，其特征在于，所述分层文本分类模型具体包括三层，每层所述文本分类模型均先经过BERT编码层进行编码再经过MLP多分类器对所述文本内容进行分类，包括：

组合三级标签，得到最终的内容分类结果。

5.根据权利要求2所述的基于深度学习模型的信访要素抽取方法，其特征在于，所述文本分类模型采用BERT编码层和RCNN层结合的两阶段模型获取所述信访目的、是否涉诉以及是否扬言，包括：

将文本输入BERT编码层，得到编码序列；

将所述编码序列输入RCNN层上，得到内容分类结果；

6.根据权利要求2所述的基于深度学习模型的信访要素抽取方法，其特征在于，所述规则匹配模型在应用jieba分词后，通过匹配所述受信人库、行政区划库抽取受信人、问题属地、关键词，包括：

7.根据权利要求5所述的基于深度学习模型的信访要素抽取方法，其特征在于，所述摘要生成模型使用BERT编码层构建了一个二阶段摘要生成模型获取所述信访人的主要诉求以及主要事实，包括：

8.根据权利要求1所述的基于深度学习模型的信访要素抽取方法，其特征在于，通过互联网技术建立网站将信访要素抽取结果返回给客户，包括所述信访人的姓名、手机号码、身份证号、详细地址、信访人物、住址。

9.基于深度学习模型的信访要素抽取***，其特征在于，包括：

数据提取模块：提取信访件的文本内容中目标文本数据；

10.电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的基于深度学习模型的信访要素抽取方法。

11.计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的基于深度学习模型的信访要素抽取方法。