CN113095061B

CN113095061B - 一种公文头抽取方法、***、装置及存储介质

Info

Publication number: CN113095061B
Application number: CN202110344640.4A
Authority: CN
Inventors: 蓝建敏; 李观春
Original assignee: Excellence Information Technology Co ltd
Current assignee: Excellence Information Technology Co ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2023-08-29
Anticipated expiration: 2041-03-31
Also published as: CN113095061A

Abstract

本发明公开了一种基于隐马尔可夫模型的公文头抽取方法、***、装置及存储介质；所述抽取方法包括获取公文文本，所述公文文本包括公文标题、公文体裁和公文内容；利用训练好的隐马尔可夫模型对所述公文文本进行公文头抽取；获取所述训练好的隐马尔可夫模型输出的公文头。本发明通过利用训练好的隐马尔可夫模型对所述公文文本进行公文头抽取，能够降低人工学习成本，提高公文头抽取精准度；同时能够自动对公文头中存在的错误进行修订。本发明可广泛应用于公文头抽取技术领域。

Description

一种公文头抽取方法、***、装置及存储介质

技术领域

本发明涉及公文头抽取技术领域，尤其是一种基于隐马尔可夫模型的公文头抽取方法、***、装置及存储介质。

背景技术

公文是法定机关与组织在公务活动中一种书面材料(文书)，常用的公文格式一般由份号、密级和保密期限、紧急程度、发文机关标志、发文字号、签发人、标题、主送机关、正文、附件说明、发文机关署名、成文日期、***、附注、附件、抄送机关、印发机关和印发日期、页码等属性组成，即公文头。公文头抽取是指使用信息抽取技术把一份非结构化的公文，按上述所述的公文属性字段抽取成结构化的数据。

目前业界，通常采用规则匹配、位置定位等技术从公文文件中提取公文的标题、密级、保密期限等公文属性。但是，基于规则匹配抽取公文头的方法需要依赖大量规则，而人工整理这些规则工作量大、实例覆盖面窄，人工学习成本高；而基于位置定位抽取公文头的方法需要明确公文各个属性的位置，但实际上很多公文没有严格遵循国家公文标准，导致抽取公文属性质量不高。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于隐马尔可夫模型的公文头抽取方法、***、装置及存储介质。

本发明所采取的技术方案是：

一方面，本发明实施例包括一种基于隐马尔可夫模型的公文头抽取方法，包括：

获取公文文本，所述公文文本包括公文标题、公文体裁和公文内容；

利用训练好的隐马尔可夫模型对所述公文文本进行公文头抽取；

获取所述训练好的隐马尔可夫模型输出的公文头。

进一步地，所述抽取方法还包括：

利用训练好的公文头校正模型，对抽取得到的公文头内容逐个进行纠错校正处理。

进一步地，所述利用训练好的公文头校正模型，对抽取得到的公文头逐个进行纠错校正处理这一步骤，包括：

利用训练好的公文头校正模型，校验所述公文头内容是否为错误内容；

如果为错误内容，根据所述错误内容，利用余弦相似度算法计算得到正确公文头内容。

进一步地，所述利用训练好的隐马尔可夫模型对所述公文文本进行公文头抽取这一步骤，具体包括：

根据所述公文文本的体裁，获取对应的公文头抽取属性；

将所述公文文本作为观测输入；

使用最大路径相似度方法将所述公文文本映射为词汇集中的词汇；

使用Viterbi算法输出映射后的词汇序列；

从所述词汇系列中获取最佳状态标记序列并输出。

进一步地，所述最佳状态标记序列为公文头属性序列。

进一步地，所述抽取方法还包括对隐马尔可夫模型进行训练，包括：

构建训练样本集；

将所述训练样本集输入隐马尔可夫模型中进行训练；

采用ML算法进行学习训练，得到隐马尔可夫模型的参数；

根据所述参数，输出训练好的隐马尔可夫模型。

进一步地，所述构建训练样本集这一步骤，具体包括：

收集各类体裁的公文语料并进行公文头属性分析；

确定各类体裁的公文的公文头抽取属性；

对所述公文头抽取属性进行序列标注，得到训练样本集。

另一方面，本发明实施例还包括一种基于隐马尔可夫模型的公文头抽取***，包括：

第一获取模块，用于获取公文文本，所述公文文本包括公文标题、公文体裁和公文内容；

抽取模块，用于利用训练好的隐马尔可夫模型对所述公文文本进行公文头抽取；

第二获取模块，获取所述训练好的隐马尔可夫模型输出的公文头。

另一方面，本发明实施例还包括一种基于隐马尔可夫模型的公文头抽取装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述的抽取方法。

另一方面，本发明实施例还包括计算机可读存储介质，其上存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现所述的抽取方法。

本发明的有益效果是：

本发明通过利用训练好的隐马尔可夫模型对所述公文文本进行公文头抽取，能够降低人工学习成本，提高公文头抽取精准度；同时能够自动对公文头中存在的错误进行修订。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所述基于隐马尔可夫模型的公文头抽取方法的步骤流程图；

图2为本发明实施例所述公文头内容校正流程图；

图3为本发明实施例所述基于隐马尔可夫模型的公文头抽取方法的流程图；

图4为本发明实施例所述基于隐马尔可夫模型的公文头抽取程序的结构示意图；

图5为本发明实施例所述基于隐马尔可夫模型的公文头抽取装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

下面结合附图，对本申请实施例作进一步阐述。

参照图1，本发明实施例包括一种基于隐马尔可夫模型的公文头抽取方法，包括：

S1.获取公文文本，所述公文文本包括公文标题、公文体裁和公文内容；

S2.利用训练好的隐马尔可夫模型对所述公文文本进行公文头抽取；

S3.获取所述训练好的隐马尔可夫模型输出的公文头。

关于步骤S1，获取需要抽取公文头信息的文本，文本内容包括公文标题、公文体裁、公文内容。

进一步地，在步骤S1之后，也就是所述获取公文文本之后，所述抽取方法还包括：

S101.对所述公文文本进行空行、换行断句合并预处理。

本实施例中，完成预处理后，把预处理后的公文文本输入训练好的隐马尔可夫模型中。

具体地，步骤S2，也就是所述利用训练好的隐马尔可夫模型对所述公文文本进行公文头抽取这一步骤，具体包括：

S201.根据所述公文文本的体裁，获取对应的公文头抽取属性；

S202.将所述公文文本作为观测输入；

S203.使用最大路径相似度方法将所述公文文本映射为词汇集中的词汇；

S204.使用Viterbi算法输出映射后的词汇序列；

S205.从所述词汇系列中获取最佳状态标记序列并输出。

本实施例中，利用训练好的隐马尔可夫模型，对输入的公文文本进行公文头抽取。首先，根据公文体裁，获取到对应的公文头抽取属性，作为确定的状态；将输入的文本作为观测输入，使用最大路径相似度方法将其映射为词汇集中词汇,，使用Viterbi算法将映射后的词汇序列输出，输出最佳状态标记序列，即公文头属性序列。

可选地，所述获取所述训练好的隐马尔可夫模型输出的公文头之后，所述抽取方法还包括：

S4.利用训练好的公文头校正模型，对抽取得到的公文头内容逐个进行纠错校正处理。

本实施例中，利用训练好的公文头校正模型，对抽取得到的公文头信息逐个进行纠错校正处理具体包括以下步骤：

S401.利用训练好的公文头校正模型，校验所述公文头内容是否为错误内容；

S402.如果为错误内容，根据所述错误内容，利用余弦相似度算法计算得到正确公文头内容。

参照图2，公文头内容校正流程如下：

1)输入待校正公文头内容；

应用公文头抽取模型抽取到公文头信息后，逐个输入公文头信息内容，进行纠错校正处理。

2)应用训练好的公文头校正模型，判断是否是错误内容；

应用公文头校正模型，校验输入内容是否是错误的公文头信息。

3)对错误内容进行校正；

通过上一步的校验，如果是错误内容，应用相似度算法之余弦距离来计算与正确内容的相似度，得到最相似的正确内容作为校正内容。

对于多个不同的文本或者短文本来计算他们之间的相似度如何，一个好的做法就是将这些文本中词语，映射到向量空间，形成文本中文字和向量数据的映射关系，通过计算几个或者多个不同的向量的差异的大小，来计算文本的相似度。余弦距离，也称为余弦相似度，余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。

4)输出正确的公文头内容，即输出校正后的文本内容。

本实施例中，所述抽取方法还包括对隐马尔可夫模型进行训练，包括：

P1.构建训练样本集；

P2.将所述训练样本集输入隐马尔可夫模型中进行训练；

P3.采用ML算法进行学习训练，得到隐马尔可夫模型的参数；

P4.根据所述参数，输出训练好的隐马尔可夫模型。

本实施例中，主要对隐马尔可夫模型进行训练，首先，对隐马尔可夫模型进行介绍，隐马尔科夫模型(Hidden Markov Model，HMM)是时间序列的概率模型，描述了由隐藏的状态序列组成的一条马尔科夫链和由其中的每一个状态生成的观测所构成的观测序列。马尔科夫模型中状态是不可见或不确定的，只有状态生成的观测是可以被直接观察到，状态的值由通过训练生成模型参数再由识别算法解码得到状态序列确定。

在一个隐马尔科夫模型中，状态序列由状态转移概率分布A和初始状态概率分布π共同决定，观测序列由已生成的状态序列和观测概率分布综合确定。每一个状态通过观测概率分布B发射出观测。可以从训练数据中学习到状态转移概率A，观测概率分布B和状态的初始概率分布π。

每个待抽取的公文属性在公文文本中的分布具有一定的次序关系，在隐马尔可夫模型中，公文头属性组成一个状态集合，待抽取值是可观测的文本序列，对文本序列进行标记，形成训练集，采用ML算法进行学习，得出训练好的模型参数A、B和π。

步骤P1，也就是所述构建训练样本集这一步骤，具体包括：

P101.收集各类体裁的公文语料并进行公文头属性分析；

P102.确定各类体裁的公文的公文头抽取属性；

P103.对所述公文头抽取属性进行序列标注，得到训练样本集。

本实施例中，搜集各类体裁的公文语料，分析公文头属性，确定各类公文头抽取属性，如标题、密级、保密期限、紧急程度、发文机关标志等；再针对一定规模的公文头属性进行序列标注，可得到训练样本集。

具体地，基于隐马尔可夫模型的公文头抽取方法可可参照图3，图3中的初始状态包括标题、密级、保密期限、紧急程度、发文机关标志等状态。而训练样本通过预处理后输入隐马尔可夫模型为对隐马尔可夫模型的训练部分；待抽取文本经过预处理后输入训练好的隐马尔可夫模型中进行公文头抽取，最后输出最佳状态标记序列这一过程为公文头抽取过程，所述最佳状态标记序列为公文头属性序列，经过所述基于隐马尔可夫模型的公文头抽取方法，把一份非结构化的公文，按公文头属性字段抽取成结构化的数据。

参照图4，本实施例还提供一种基于隐马尔可夫模型的公文头抽取程序，用于实现如图1所示的公文头抽取方法，具体地，该程序包括标注模块、学习与训练模块、模型库、文本预处理模块和公文头抽取模块，其中，标注模块用于对公文语料进行属性标注；学习与训练模块用于对标注后的语料进行学习训练，得到公文头抽取模型，即隐马尔可夫模型；模型库用于存储训练得到的模型；文本预处理模块用于对输入的公文文本进行空行、换行断句合并处理；公文头抽取模块用于对预处理后的文本进行公文头属性抽取。

本发明实施例所述基于隐马尔可夫模型的公文头抽取方法具有以下技术效果：

本发明实施例通过利用训练好的隐马尔可夫模型对所述公文文本进行公文头抽取，能够降低人工学习成本，提高公文头抽取精准度；同时能够自动对公文头中存在的错误进行修订。

参照图5，本发明实施例还包括一种基于隐马尔可夫模型的公文头抽取装置200，具体包括：

至少一个处理器210；

至少一个存储器220，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器210执行，使得所述至少一个处理器210实现如图1所示的方法。

其中，存储器220作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。存储器220可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器220可选包括相对于处理器210远程设置的远程存储器，这些远程存储器可以通过网络连接至处理器210。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

可以理解到，图5中示出的装置结构并不构成对装置200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图5所示的装置200中，处理器210可以调取存储器220中储存的程序，并执行但不限于图1所示实施例的步骤。

以上所描述的装置200实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现实施例的目的。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现如图1所示的方法。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

可以理解的是，上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于隐马尔可夫模型的公文头抽取方法，其特征在于，包括：

获取所述训练好的隐马尔可夫模型输出的公文头；

其中，所述利用训练好的隐马尔可夫模型对所述公文文本进行公文头抽取，包括：

根据所述公文文本的体裁，获取对应的公文头抽取属性；

将所述公文文本作为观测输入；

使用Viterbi算法输出映射后的词汇序列；

从所述词汇系列中获取最佳状态标记序列并输出，所述最佳状态标记序列为公文头属性序列；

所述抽取方法还包括对隐马尔可夫模型进行训练，包括：

构建训练样本集；

将所述训练样本集输入隐马尔可夫模型中进行训练；

采用ML算法进行学习训练，得到隐马尔可夫模型的参数；

根据所述参数，输出训练好的隐马尔可夫模型；

其中，所述构建训练样本集，包括：

收集各类体裁的公文语料并进行公文头属性分析；

确定各类体裁的公文的公文头抽取属性，包括标题、密级、保密期限、紧急程度和发文机关标志；

对所述公文头抽取属性进行序列标注，得到训练样本集；

所述抽取方法还包括利用训练好的公文头校正模型，对抽取得到的公文头内容逐个进行纠错校正处理，包括：

2.一种基于隐马尔可夫模型的公文头抽取***，其特征在于，包括：

第二获取模块，获取所述训练好的隐马尔可夫模型输出的公文头；

其中，所述抽取模块的实施过程包括：

根据所述公文文本的体裁，获取对应的公文头抽取属性；

将所述公文文本作为观测输入；

使用Viterbi算法输出映射后的词汇序列；

所述抽取***还包括训练模块，用于：构建训练样本集；将所述训练样本集输入隐马尔可夫模型中进行训练；采用ML算法进行学习训练，得到隐马尔可夫模型的参数；根据所述参数，输出训练好的隐马尔可夫模型；

其中，所述构建训练样本集，包括：

收集各类体裁的公文语料并进行公文头属性分析；

对所述公文头抽取属性进行序列标注，得到训练样本集；

所述抽取***还包括利用训练好的公文头校正模型，对抽取得到的公文头内容逐个进行纠错校正处理的模块，所述模块的实施过程包括：利用训练好的公文头校正模型，校验所述公文头内容是否为错误内容；如果为错误内容，根据所述错误内容，利用余弦相似度算法计算得到正确公文头内容。

3.一种基于隐马尔可夫模型的公文头抽取装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1所述的抽取方法。

4.计算机可读存储介质，其特征在于，其上存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现如权利要求1所述的抽取方法。