CN111626057B

CN111626057B - 一种基于命名实体的公文判定方法及判定***

Info

Publication number: CN111626057B
Application number: CN202010734108.9A
Authority: CN
Inventors: 李欢丽; 张玉林; 刘胜平; 苗功勋
Original assignee: Nanjing Zhongfu Information Technology Co Ltd
Current assignee: Nanjing Zhongfu Information Technology Co Ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-10-30
Anticipated expiration: 2040-07-28
Also published as: CN111626057A

Abstract

本发明公开了一种基于命名实体的公文判定方法及判定***，该判定方法包括以下步骤：S1、采用预设方法对公文实体权重进行训练，并赋予每个公文实体相应的权重值；S2、获取待判定文本，并采用预设方法对待判定文本进行公文实体提取；S3、将待判定文本转化为关于公文实体的向量，并采用预设方法计算向量的分值；S4、将分值与预先设定的阀值进行对比，当分值超过阀值时，则确定待判定文本为公文；该判定***包括公文实体提取模块、公文实体权重训练模块和公文判定模块。有益效果：不仅解决了以往公文识别过程中特征词穷举不尽的现象，而且也解决了公文内容随着时代变迁词语的变化问题。

Description

一种基于命名实体的公文判定方法及判定***

技术领域

本发明涉及计算机算法技术领域，具体来说，涉及一种基于命名实体的公文判定方法及判定***。

背景技术

随着大数据时代的到来，电子公文和其他文种的文件充斥在互联网上。其中可能存在一些涉密文件，而公文作为党政机关进行日期工作的主要方式，是涉密文件最主要的来源。为确保国家保密工作的安全，从海量的文件中识别出公文刻不容缓。

目前公文判定的方法分为两类，一类是依据相关格式规定，如规定中对格式的要求可以分为版头、主题、版记、页码四个部分，进行公文判定。另一类是分类的思想，首先对公文文件和非公文进行训练，选取特征词向量，对待判定文档打分，分数大于预设阈值即判定为公文。

然而，第一种方法的缺点是若公文写作未按照相关规定书写，或者公文在流传过程中，原有格式丢失时，这种方法就不能有效筛选出公文。第二中方法的缺点是相关条例中规定的公文种类有15种，不同文种公文的特征词向量差异很大；另外，非公文文件数量更多，涉及范围更广，比如政治、经济、文化等。所以，很难获取适应不同行业范围的统一的特征词向量，使得公文判定准确率较低。

发明内容

针对相关技术中的问题，本发明提出一种基于命名实体的公文判定方法及判定***，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

根据本发明的一个方面，提供了一种基于命名实体的公文判定方法，该判定方法包括以下步骤：

S1、采用预设方法对公文实体权重进行训练，并赋予每个所述公文实体相应的权重值；

S2、获取待判定文本，并采用预设方法对所述待判定文本进行公文实体提取；

S3、将所述待判定文本转化为关于所述公文实体的向量，并采用预设方法计算所述向量的分值；

S4、将所述分值与预先设定的阀值进行对比，当所述分值超过所述阀值时，则确定所述待判定文本为公文；

其中，所述向量为t＝(t₁，t₂，t₃，t₄，t₅，t₆，t₇，t₈)，且计算所述向量的分值采用分值计算公式进行计算。

进一步的，所述S1采用预设方法对公文实体权重进行训练，并赋予每个所述公文实体相应的权重值包括以下步骤：

S11、获取相同数量的公文及非公文文本，并通过训练得到每篇文本的公文实体；

S12、赋予每个所述公文实体相应的权重值，记为权向量w＝(1.0，1.0，0.6，1.0，0.8，1.0，1.0，1.0)。

进一步的，所述S2中采用预设方法对所述待判定文本进行公文实体提取包括以下步骤：

S21、对所述待判定文本进行秘密等级识别；

S22、对所述待判定文本进行公文标题识别；

S23、对所述待判定文本进行签发人识别。

进一步的，所述S21对所述待判定文本进行秘密等级识别具体包括以下步骤：

S211、输入待判定文本内容，并对所述待判定文本进行规范化处理；

S212、采用分词器***对所述待判定文本进行分词处理，并将分词后的所述待判定文本转化为一系列词的集合，记为w₁w₂...w_n；

S213、判定所述词w_i是否为预先设定的秘密等级中心词，若不是，判断下一个词w_i+1，否则进行S214；

S214、判断所述词左右边界是否为换行符\n、回车符\r或制表符\t，满足，则为秘密等级，否则不是。

进一步的，所述S22对所述待判定文本进行公文标题识别具体包括以下步骤：

S221、输入待判定文本内容，并对所述待判定文本进行规范化处理；

S222、采用分词器***对所述待判定文本进行分词处理，并将分词后的所述待判定文本转化为一系列词的集合，记为w’₁w’₂...w’_n；

S223、获取开始词和结束词下标，依次判断当前词w’_i，i＝1，2…n是否属于预设的公文标题类型，不属于，则继续下一个词判定，属于，则依次获取当前词的前一个词w’_i-1，并判断w’_i-1是否为预先设定的关键词，或者词性是否为政府机构，不满足，则继续判断前第二个词w’_i-2，依次类推，最大判别长度是前30个词，即maxFromLen＝30；

S224、假设从S223中获取的公文标题结束词下标为a，即w’_a为一种公文文种，开始词下标为b，且b-a≤30，记标题的次序列w’_a，w’_a+1...w’_b组成的字符串为s，若字符串s长度>minLen，则s是公文标题，否则，令i＝i+1，重复S223和S224。

进一步的，所述S23对所述待判定文本进行签发人识别具体包括以下步骤：

S231、输入待判定文本内容，并对所述待判定文本进行规范化处理；

S232、采用分词器***对所述待判定文本进行分词处理，并将分词后的所述待判定文本转化为一系列词的集合，记为w”₁w”₂...w”_n；

S233、判断w”_i是否为预先设定的中心词，若不是，则判断下一个词w”_i+1，若是，则进行S234；

S234、判断w”_i的下一个词w”_i+1的词性是否为人名，若不是，则令i＝i+1，并重复S233，若是，则进行S235；

S235、判断词左右边界是否为换行符\n、回车符\r或制表符\t，满足，则为签发人，否则，则不是。

进一步的，所述S21对所述待判定文本进行秘密等级识别还包括以下步骤：对所述待判定文本进行紧急程度和成文日期识别，其中，所述紧急程度的识别方法和所述成文日期的识别方法均与所述秘密等级识别的方法相同；

所述S22对所述待判定文本进行公文标题识别还包括以下步骤：对所述待判定文本进行主送机关和发文字号识别，其中，所述主送机关的识别方法和所述发文字号的识别方法均与所述公文标题的识别方法相同；

所述S23对所述待判定文本进行签发人识别还包括以下步骤：对所述待判定文本进行抄送识别，且所述抄送识别的方法与所述签发人的识别方法相同。

进一步的，所述S3中的所述分值计算公式为：

score＝t*w，

其中，t表示向量，w表示权向量。

进一步的，所述S4中预先设定的阀值为2.0，当所述分值超过2.0时，则确定所述待判定文本为公文，否则所述待判定文本不为公文。

根据本发明的另一个方面，还提供了一种基于命名实体的公文判定***，包括：

公文实体权重训练模块，用于对相同数量的公文及非公文进行训练，获取每篇文本的公文实体，并赋予每个公文实体不同的权重值；

公文实体提取模块，用于获取待判定文本，并对所述待判定文本进行分词处理及公文实体识别；

公文判定模块，用于将文本转化成关于公文实体的向量，并通过计算该向量的分值来判断该文本是否属于公文，其中，所述向量的分值采用分值计算公式计算。

本发明的有益效果为：通过将每个公文属性看成一个公文实体，提出一种基于公文命名实体的公文判定方法，该方法可以将所有词按照词性化为一类，即形成词到词性的映射，并将词性为公文实体作为文本的特征，而不是用词作为特征，从而有效地解决了以往公文识别过程中特征词穷举不尽的现象，同时采用映射的方式也有效地解决了公文内容随着时代变迁词语的变化问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于命名实体的公文判定方法的流程示意图；

图2是根据本发明实施例的一种基于命名实体的公文判定***的结构示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了一种基于命名实体的公文判定方法及判定***。

现结合附图和具体实施方式对本发明进一步说明，如图1所示，根据本发明的一个实施例，提供了一种基于命名实体的公文判定方法，该判定方法包括以下步骤：

其中，由于公文实体对判定公文其决定性作用，为了获取每个实体对判定结构的影响，所述S1具体包括以下步骤：

具体应用时，公文及非公文的数量均为1000篇，分别获取每篇文本的公文实体，统计结果如下表1所示：

表1公文实体训练结果统计表

对统计结果分析可知，成文日期和主送机关也可能存在于非公文中，而其他的公文实体，比如秘密等级、紧急程度、公文标题等，在非公文中出现的概率几乎为零，因此，每个公文实体的权重值赋予如下：

S12、赋予每个所述公文实体相应的权重值(见表1第四列)，记为权向量w＝(1.0，1.0，0.6，1.0，0.8，1.0，1.0，1.0)。

其中，所述S2中采用预设方法对所述待判定文本进行公文实体提取包括以下步骤：

S21、对所述待判定文本进行秘密等级识别；

具体的，所述S21包括以下步骤：

S211、输入待判定文本内容，并对所述待判定文本进行规范化处理；主要是去除文中的空白行；此外，考虑到无论是公文文档还是非公文文档中都可能存在大量的停用词，诸如语气词、助词、标点符号等，这些停用词不能够体现公文文档集或者是非公文文档集的特征，实际应用时，可通过预设的停用词表将公文文档集及非公文文档集中的停用词过滤掉。

S212、采用ansj分词器***对所述待判定文本进行分词处理，可同时实现中文分词和词性标注，并将分词后的所述待判定文本转化为一系列词的集合，记为w₁w₂...w_n；

S213、判定所述词w_i是否为预先设定的秘密等级中心词(见表2所示)，若不是，判断下一个词w_i+1，否则进行S214；

此外，所述S21对所述待判定文本进行秘密等级识别还包括以下步骤：对所述待判定文本进行紧急程度和成文日期识别，其中，所述紧急程度的识别方法与所述秘密等级识别的方法相同，区别在于，所述紧急程度的识别方法中的中心词为“加急”、“特急”；所述成文日期的识别方法与所述秘密等级的识别方法相似，区别在于，所述成文日期的识别方法中中心词是判断当前词的词性是否为日期(date)。如“南京市人民政府\n2012年12月12日\n”。

为了方便理解本发明的上述技术方案，以下就本发明的公文实体表进行举例说明：

表2公文实体说明表一

公文实体	举例	中心词	左(右)边界词
				秘密等级	秘密	秘密\|机密\|绝密	\n\r\t
紧急程度	加密	加急\|特急	/
				成文日期	2012年12月12日	date	/

本实施例中通过分析公文标题构成特点发现，大多数公文标题由发文机关、事由(主要内容)和文种三要素组成。其中，事由位于发文机关和文种之间，是由“关于”引起的一个介词结构；发文机关可以省略。由此得出，公文标题开始标志多数为关键词“关于”或者词性为政府机构(gov)。以公文15个类型(文种)结尾，称为中心词。并且公文标题长度一般大于10个字符，记为minLen＝10，因此，所述公文标题的识别步骤如下：

S22、对所述待判定文本进行公文标题识别；

具体的，所述S22包括以下步骤：

S223、获取开始词和结束词下标，依次判断当前词w’_i，i＝1，2…n是否属于预设的公文标题类型(见表3所示)，不属于，则继续下一个词判定，属于，则依次获取当前词的前一个词w’_i-1，并判断w’_i-1是否为预先设定的关键词“关于”，或者词性是否为政府机构(见表5所示)，不满足，则继续判断前第二个词w’_i-2，依次类推，最大判别长度是前30个词，即maxFromLen＝30；

S224、假设从S223中获取的公文标题结束词下标为a，即w’_a为一种公文文种，开始词下标为b，且b-a≤30，记标题的次序列w’_a，w’_a+1，…w’_b组成的字符串为s，若字符串s长度>minLen，则s是公文标题，否则，令i＝i+1，重复S223和S224。

此外，所述S22对所述待判定文本进行公文标题识别还包括以下步骤：对所述待判定文本进行主送机关和发文字号识别，其中，所述主送机关的识别方法与所述公文标题的识别方法相似，区别在于，所述主送机关的识别方法中开始标志为关键词“各”，结束词为中文和英文冒号，字符串最短长度minLen为3，向前查找词个数maxFromLen为10，如“各乡镇(街道)：”、“各街道办：”；所述发文字号的识别方法与所述公文标题的识别方法类似，区别在于，所述发文字号的识别方法中开始标志为各个省的简称(见表4所示)，结束标志为关键字“号”，并且满足格式：省份简称+左括号+发文年+右括号+发文顺序号+“号”，其中左括号一般为“〔[【”，右括号为“〕]】”，比如“粤工信办函〔2019〕21号”、“苏人事处〔2019〕24号”，字符串最短长度minLen为8，向前查找词个数maxFromLen为10；

为了方便理解本发明的上述技术方案，以下就本发明的公文文种、发文字号的开始词及公文实体表进行举例说明：

表3公文文种

表4发文字号的开始词

表5公文实体说明表二

《条例》规定，“上行文应当标注签发人姓名”，格式为“签发人：人名”，比如“签发人：李彬”。因此，所述签发人的识别步骤如下：

S23、对所述待判定文本进行签发人识别。

具体的，所述S23对所述待判定文本进行签发人识别具体包括以下步骤：

S232、采用分词器***对所述待判定文本进行分词处理，并将分词后的所述待判定文本转化为一系列词的集合，记为w”_iw”₂…w”_n；

S233、判断w”_i是否为预先设定的中心词“签发”，若不是，则判断下一个词w”_i+1，若是，则进行S234；

此外，所述S23对所述待判定文本进行签发人识别还包括以下步骤：对所述待判定文本进行抄送识别，且所述抄送识别的方法与所述签发人的识别方法相似，所述抄送识别方法中的中心词为“抄送”，结束词为“政府机构(gov)”，如“抄送：南京市政府”。

S3、将所述待判定文本转化为关于所述公文实体的向量t＝(t₁，t₂，t₃，t₄，t₅，t₆，t₇，t₈)其中，所述向量的每个分量具有不同的权重值，并采用预设方法计算所述向量的分值；

其中，所述S3中计算所述向量的分值通过以下计算公式得到：

score＝t*w，

其中，t表示向量，w表示权向量。

S4、将所述分值与预先设定的阀值进行对比，当所述分值超过所述阀值时，则确定所述待判定文本为公文。

其中，所述S4中预先设定的阀值为2.0，当所述分值超过2.0时，则确定所述待判定文本为公文，否则所述待判定文本不为公文。例如：一篇包含公文标题、成文日期、发文字号的文本，其对应的文本向量t＝(0，0，1，1，0，1，0，0)，打分score＝t*w＝2.6，大于阀值2.0，即为公文。

根据本发明的另一个实施例，如图2所示，还提供了一种基于命名实体的公文判定***，其特征在于，包括：

为了方便理解本发明的上述技术方案，以下就本发明在实际过程中的命名实体识别方法的原理进行详细说明。

命名实体识别方法主要有基于规则的方法、基于统计模型的方法和基于深度学习的方法。由于公文命名实体结构比较规范、命名规则比较统一等有利特点，本实施例中基于规则识别公文命名实体。下面依次介绍各个实体提取方法。

本实施例中主要根据词特征、词性特征、中心特征、左、右边界词特征的基于规则方法，识别公文命名实体。

词特征，文本分词产生的每个词本身就是一种特征，词特征能够完整反映文本的基本信息。词性特征，是用词的词性作为一种特征。

中心词特征：公文命名实体中通常包含一些特定名词或特定的词性，这些特定词或词性统称为命名实体的中心特征。中心词(或词性)的出现很大概率上预示着公文命名实体的出现。比如表3中公文标题中的15种文种和表5中发文机关词性通常为政府部门(gov)。

左、右边界词特征：通过对公文文本进行语法分析，发现公文命名实体的前面和后面有一些词(如\t\n)出现的概率很高，这些词统称为命名实体的左右边界词。因为公文命名实体通常单独成行，所以左右边界词通常为换行符\n、回车符\r、制表符\t。

综上所述，借助于本发明的上述技术方案，通过将每个公文属性看成一个公文实体，提出一种基于公文命名实体的公文判定方法，该方法可以将所有词按照词性化为一类，即形成词到词性的映射，并将词性为公文实体作为文本的特征，而不是用词作为特征，从而有效地解决了以往公文识别过程中特征词穷举不尽的现象，同时采用映射的方式也有效地解决了公文内容随着时代变迁词语的变化问题。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于命名实体的公文判定方法，其特征在于，包括以下步骤：

S4、将所述分值与预先设定的阈值进行对比，当所述分值超过所述阈值时，则确定所述待判定文本为公文；

S21、对所述待判定文本进行秘密等级识别；具体包括以下步骤：

S212、采用分词器***对所述待判定文本进行分词处理，并将分词后的所述待判定文本转化为一系列词的集合，记为w₁w₂…w_n；

S214、判断所述词左右边界是否为换行符\n、回车符\r或制表符\t，满足，则为秘密等级，否则不是；

S22、对所述待判定文本进行公文标题识别；具体包括以下步骤：

S222、采用分词器***对所述待判定文本进行分词处理，并将分词后的所述待判定文本转化为一系列词的集合，记为w’₁w’₂…w’_n；

S224、假设从S223中获取的公文标题结束词下标为a，即w’_a为一种公文文种，开始词下标为b，且b-a≤30，记标题的次序列w’_a，w’_a+1，…w’_b组成的字符串为s，若字符串s长度＞minLen，则s是公文标题，否则，令i＝i+1，重复S223和S224；

S23、对所述待判定文本进行签发人识别；具体包括以下步骤：

S232、采用分词器***对所述待判定文本进行分词处理，并将分词后的所述待判定文本转化为一系列词的集合，记为w”₁w”₂…w”_n；

S235、判断词左右边界是否为换行符\n、回车符\r或制表符\t，满足，则为签发人，否则，则不是；

所述向量为t＝(t₁，t₂，t₃，t₄，t₅，t₆，t₇，t₈)，且计算所述向量的分值采用分值计算公式进行计算。

2.根据权利要求1所述的一种基于命名实体的公文判定方法，其特征在于，所述S1采用预设方法对公文实体权重进行训练，并赋予每个所述公文实体相应的权重值包括以下步骤：

3.根据权利要求1所述的一种基于命名实体的公文判定方法，其特征在于，所述S21对所述待判定文本进行秘密等级识别还包括以下步骤：对所述待判定文本进行紧急程度和成文日期识别，其中，所述紧急程度的识别方法和所述成文日期的识别方法均与所述秘密等级识别的方法相同；

4.根据权利要求2所述的一种基于命名实体的公文判定方法，其特征在于，所述S3中的所述分值计算公式为：

score＝t*w，

其中，t表示向量，w表示权向量。

5.根据权利要求1所述的一种基于命名实体的公文判定方法，其特征在于，所述S4中预先设定的阈值为2.0，当所述分值超过2.0时，则确定所述待判定文本为公文，否则所述待判定文本不为公文。

6.一种基于命名实体的公文判定***，以实现权利要求1-5中任一项所述基于命名实体的公文判定方法的步骤，其特征在于，该***包括：