CN111400242B

CN111400242B - 一种自动公文分拣派发方法和***

Info

Publication number: CN111400242B
Application number: CN202010106910.3A
Authority: CN
Inventors: 鲍军鹏; 乔冠卿; 蒋立华
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2023-05-12
Anticipated expiration: 2040-02-20
Also published as: CN111400242A

Abstract

本发明提供了一种自动公文分拣派发方法和***。该方法包括：对原始训练数据和待分拣公文数据进行预处理；利用训练数据生成字图；根据字图生成规则并得到规则置信度；对输入的待分拣公文进行根据文本与各标签规则的匹配程度进行分拣判定，并派发至不同部门；输出分拣时所依据的规则作为派发结果进行解释。该***包括：文本数据预处理模块，字图生成模块，基于字图的规则生成模块，基于规则的公文分拣模块以及分拣派发结果的解释模块等必须组件。本发明方法不需要进行文本分词操作，不仅具有很高的公文分拣精度，而且具有良好的可解释性，克服了基于深度学习等人工神经网络文本分类方法难以解释分类结果的问题。

Description

一种自动公文分拣派发方法和***

技术领域

本发明属于智能信息处理和计算机技术领域，具体涉及一种利用机器学习技术自动对公文文本进行分拣并派发给不同部门的方法和***。

背景技术

公文分拣派发就是根据公文电子文本内容，把下发的电子公文分别派发给公文应送达的相关部门。也就是说，一个公文可以派发给不定数目的多个部门。公文分拣派发要求既要精确，又不能遗漏，而且还要求有良好的可解释性。很显然，我们可以利用文本分类方法来解决公文分拣派发问题。

当前公文分拣派发任务主要使用的方法分为基于人工定制规则匹配的分类方法和基于大数据的机器学习方法。其中，基于大数据的机器学习方法包含深度学习、支持向量机、随机森林、Boosting、贝叶斯等模型。

对于文本分类问题深度学***衡。往往80％的训练数据集中在2、3个部门，而剩下的部门训练数据非常少，甚至只有一两条训练数据。这种情况下，基于深度学习的文本分类方法难以获得较高精度和较强泛化能力，并且基于深度学习的文本分类方法可解释性不足，不利于引入外部先验信息。

发明内容

本发明提供了一种自动公文分拣派发方法和***。该方法解决了利用计算机进行公文派发准确度不高，可解释性不强的问题。

为实现上述目的，本发明采用如下技术方案：

一种自动公文分拣派发方法，包括以下步骤：

对原始训练数据和待分拣公文数据进行预处理；

利用训练数据生成字图；

根据字图生成规则并得到规则置信度；

对输入的待分拣公文进行根据文本与各标签规则的匹配程度进行分拣判定，并派发至不同部门；

输出分拣时所依据的规则作为派发结果进行解释。

作为本发明的进一步改进，所述对原始训练数据和待分拣公文数据进行预处理，具体为：

不对文本进行分词操作，将原始的文本数据分段为句，一句一行，将标点符号消去后将其作为训练数据；再读取标签目录，并针对每个标签分别划分训练数据，按其是否属于当前标签来将训练数据分为正反例。

作为本发明的进一步改进，所述利用训练数据生成字图，具体为：

针对标签目录中每个标签，利用分好的正反例数据分别生成字图；对于每个类别：

首先利用类别正例进行字图增添；将读取到的文本正例中每一句按字符分开，每个字符生成字图中一个节点，每个字符对生成一条边，连接字图中两个对应节点；若字图中没有当前字符或字符对，则在字图中添加相应的节点或边，并将新边的权重置为1；若字图中包含当前字符对，则将相应边的权重加1；

然后利用类别反例进行字图削减，将读取到的文本反例中每一句按字符分开；若字图中包含当前字符对，则将相应边的权重减1；如此删减后，删去字图中权重较小的边，再删去没有边连接的孤立节点，得到的字图只保留当前类别中出现次数较多的节点和边，可将当前类别中有别于其他类别的信息凸显出来。

作为本发明的进一步改进，所述根据字图生成规则并得到规则置信度，具体为：

基于字图的规则生成模块根据每个标签对应的字图，从该标签正例数据中匹配出与字图相符的字段，计算每个字段在正反例数据中的出现概率，保留概率较高的字段作为分类规则。

作为本发明的进一步改进，所述分类规则的具体确定步骤为：

首先，用窗口大小为k，步长为k/5的滑动窗口将正例文本数据中每一句分成若干长度小于等于k的字段，把这些原始字段放入字图中搜索，根据原始字段中字符对相应边的权重对其进行修改；若某字符对的边在字图中存在则保留该字符对中两个字符，若某一字符与其前后两个字符所组成的字符对在字图中不存在边，则将该字符消去，原本的连续字段将被分开；原始字段经过删减可得到更突出类别信息的候选规则；

然后，同样将反例文本数据中每一句分为若干长度小于等于k的原始字段，将候选规则与正反例文本数据所分出的原始字段进行匹配，若候选规则与某原始字段匹配则称该候选规则在该原始字段对应文本中出现，这样可得到每个候选规则在正反例文本数据中出现的比例，将其中出现于正例文本数据的概率在阈值以上的候选规则作为该类别的分类规则。

作为本发明的进一步改进，所述分类规则由一个或多个连续字符串组成；当使用分类规则与字段匹配时，字段与规则中各字符串按顺序进行匹配，若字段可以从前往后依次与规则中所有字符串全都匹配成功，即在规则中各字符串前后添加任意字符后可与字段完全相同，则称该分类规则与字段匹配。

作为本发明的进一步改进，所述对输入的待分拣公文进行根据文本与各标签规则的匹配程度进行分拣判定，并派发至不同部门，具体为：

首先，将待分拣公文文本进行预处理后，把公文文本中每一句话分为若干长度小于等于k的字段；

然后，将这些字段分别与每个类别所属规则进行匹配，已经与某条字段匹配的规则不能再与其他字段匹配；若与某一类别所属规则匹配的字段数大于N或大于当前文本字段数的10％，则将该类别标签作为分类结果之一；当这些字段与所有类别匹配后，即可得到当前公文所对应的所有类别。

作为本发明的进一步改进，所述公文各类别间不互斥，同一个公文文本能够被分拣派发给多个不同的类别。

作为本发明的进一步改进，所述输出分拣时所依据的规则作为派发结果进行解释，具体为：

给出将公文文本派发给某个部门时所依据的规则；在待处理公文文本与某一部门规则匹配时，保存与其字段匹配的规则，若将该标签作为分拣结果，则将保存匹配到的规则作为分拣结果的解释。

一种自动公文分拣派发***，包括：

数据预处理模块，用于对数据进行清洗及数据格式转换；

字图生成模块，用于利用训练数据生成字图，

基于字图的规则生成模块，用于根据字图生成规则并得到规则置信度；

基于规则的公文分拣模块，用于对输入的待分拣公文进行分拣判定并派发至不同部门；

分拣派发结果的解释模块，用于输出分拣时所依据的规则对派发结果进行解释。

与现有技术相比，本发明具有以下有益效果：

本发明的一种自动公文分拣派发方法，通过文本学习从公文文本中自动学习出各类别相关规则，然后基于所得规则对新公文进行分拣派发。本发明方法不需要进行文本分词操作，不仅具有很高的公文分拣精度，而且具有良好的可解释性，克服了基于深度学习等人工神经网络文本分类方法难以解释分类结果的问题。由于本方法不分词，而直接在字级别进行学习，可以自动从公文文本数据中提取规则，省时省力；所提取的规则包含有语序信息，而不仅仅将文本数据视为没有语序的词袋；而且本方法仅使用较少的数据学习即可得到不错的分类效果，使用规则进行分类也使得分类结果可解释性强。

本发明的一种自动公文分拣派发***，由数据预处理模块、字图生成模块、基于字图的规则生成模块、基于规则的公文分拣模块以及分拣派发结果的解释模块组成，通过文本学习从公文文本中自动学习出各类别相关规则，然后基于所得规则对新公文进行分拣派发。由于本方法不分词，而直接在字级别进行学习，可以自动从公文文本数据中提取规则，省时省力。

附图说明

图1所示是本发明所公开的自动公文分拣派发方法总体流程图。

图2所示是本发明使用正例进行构建时的字图结构示意图。

图3所示是本发明使用反例进行删减后的字图结构示意图。

图4所示是本发明最终得到的字图结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

基于人工定制文本规则的分拣方法在实践中精度并不高；而且适应性很差，依赖于人手工定制规则，耗时耗力，类别稍有变动又需花费人工重新进行修正。

基于大数据的机器学习方法都会先对文本数据进行分词过滤，剔除停用词，后面使用不同的模型来分类。深度学习模型依赖于神经网络对文本中相关蕴含信息的抽取与拟合，需要使用大量相关数据进行学习。支持向量机模型使用高频词作为特征，把原来的文本数据抽象为一个向量化的特征集来进行分类。随机森林模型将是否包含某字词作为特征进行每颗决策树的生成，将每棵决策树的结果进行集成得到最终的分类结果，随机森林中决策树每条路径可等价视为一条是否包含某批字词的规则。

本发明实现了一种自动公文分拣派发方法。该方法利用文本学习技术自动提取公文电子文本规则，不需要专家耗时耗力即可得到各类别适用规则，从而依据规则进行文公分拣派发。本发明的基本过程是：根据训练数据构建字图，利用字图中蕴含的文本信息抽取出相应规则，然后使用这些规则来分拣派发公文至不同部门。

本发明方法中，各派发部门(即文本类别)间不互斥，即同一个公文电子文本可能被派发至多个部门(即有多个文本类别)；针对不同部门所生成的字图及提取的规则各不相同。具体包括以下步骤：

对原始训练数据和待分拣公文数据进行预处理；

利用训练数据生成字图；

根据字图生成规则并得到规则置信度；

输出分拣时所依据的规则作为派发结果进行解释。

参照图1所示，依照本发明技术方案，一种自动公文分拣派发***包括：数据预处理模块、字图生成模块、基于字图的规则生成模块、基于规则的公文分拣模块以及分拣派发结果的解释模块。

数据预处理模块，用于对数据进行清洗及数据格式转换；

字图生成模块，用于利用训练数据生成字图，

首先使用数据预处理模块对数据进行清洗及数据格式转换等操作，其次使用字图生成模块从训练数据生成字图，然后使用基于字图的规则生成模块生成规则并得到规则置信度，最后执行基于规则的公文分拣模块对输入的待分拣公文进行分拣判定派发至不同部门，并输出分拣时所依据的规则作为派发结果解释。

数据预处理模块完成包括文本数据分句、标点符号处理、标签目录、文本数据及标签读取，针对每个标签区分正反例任务；首先将原始文本数据分段为句，一句一行，将标点符号消去后将其作为训练数据；然后读取标签目录，并针对每个标签分别划分训练数据，按其是否属于当前标签来将训练数据分为正反例。

数据预处理模块不需要对文本进行分词操作，只需要完成包括文本数据分句，标点符号处理，标签目录，文本数据和标签读取，以及针对每个标签区分正反例。

字图生成模块针对标签目录中每个标签，利用分好的正反例数据分别生成字图，每个标签对应字图所提取的规则都各不相同。对于每个类别，首先利用类别正例进行字图增添；将读取到的文本正例中每一句按字符分开，每个字符生成字图中一个节点，每个字符对生成一条边，连接字图中两个对应节点；若字图中没有当前字符或字符对，则在字图中添加相应的节点或边，并将新边的权重置为1；若字图中包含当前字符对，则将相应边的权重加1；然后利用类别反例进行字图削减，将读取到的文本反例中每一句按字符分开；若字图中包含当前字符对，则将相应边的权重减1；如此删减后，删去字图中权重较小的边，再删去没有边连接的孤立节点，得到的字图只保留当前类别中出现次数较多的节点和边，可将当前类别中有别于其他类别的信息凸显出来。

然后，同样将反例文本数据中每一句分为若干长度小于等于k的原始字段，将候选规则与正反例文本数据所分出的原始字段进行匹配，若候选规则与某原始字段匹配则称该候选规则在该原始字段对应文本中出现，这样可得到每个候选规则在正反例文本数据中出现的比例，将其中出现于正例文本数据的概率在阈值(70％)以上的候选规则作为该类别的分类规则。

生成的规则由一个或多个连续字符串组成；当使用规则与字段匹配时，字段与规则中各字符串按顺序进行匹配，若字段可以从前往后依次与规则中所有字符串全都匹配成功，即在规则中各字符串前后添加任意字符后可与字段完全相同，则称该规则与字段匹配。

公文分拣模块根据公文文本与各标签规则的匹配程度进行分拣，各类别之间不互斥，一个公文文本可以有多个类别：

首先，利用数据预处理模块将待分拣公文文本进行处理后，将公文文本中每一句话分为若干长度小于等于k的字段；

分拣派发结果的解释模块给出在将公文文本派发给某个部门时所依据的规则；在待处理公文文本与某一部门规则匹配时，保存与其字段匹配的规则，若将该标签作为分拣结果，则将保存匹配到的规则作为分拣结果的解释。

本发明自动公文分拣派发方法中，公文各类别间不互斥，即同一个公文文本可以被分拣派发给多个不同的部门(类别)。

下面结合附图对本发明的实施作进一步详细说明，但本发明的保护范围不局限于以下所述。

实施例

下面结合附图示例对本发明做更具体的说明，本发明包括以下步骤：

使用数据预处理模块对数据进行清洗，使用如下所示文本为例。

“创业投资持续健康发展的实施意见

以五大发展理念为引领，加快构建促进创业投资发展的制度环境，加强创业风险投资行业协会建设，加强对投资者的教育，健全保护投资者权益相关的制度规范。”

将待分类文本分句，一句一行，删去标点符号后即可得到如表1中句子所示的训练数据结构。

读取类别和文本数据标签目录，针对每个类别的规则学习分类方法相同，这里选择“财政局”部门(类别)作为例子进行后续学习，所以对照标签目录按是否属于“财政局”将所有文本数据分为正反例。

接下来使用字图生成模块利用训练数据生成字图。

使用表1所示的文本数据作为正例来构建增添后字图示例。6个句子分别按字符分开，第一个句子“创业投资持续健康发展的实施意见”中没有重复字符，所以每个字符依次加入字图中并创建对应的节点和边；第三个句子“加快构建促进创业投资发展的制度环境市场环境和生态环境”中“加快构建促进”还未在字符中出现，为它们创建对应的节点和边，“创新投资”4个字符在字图中出现过，但是没有“进创”字符对所对应的边，为其创新的边，后面“创新”“新投”“投资”所对应的边出现过，将其对应边的权重加一；按以上流程将6个正例文本句子都加入字图后，即可得到如图2所示的增添后字图示例。

利用反例文本完成类似的权重削减过程，便可得到如图3所示的削减后字图示例。删去权重为0的边和孤立的节点即可得到最终的字图示例图4。

然后是基于字图的规则提取模块。

对于6个正例句子，利用以10为窗口大小，以2为步长的滑动窗口将每一句分成若干长度小于等于10的字段，如“创业投资持续健康发展的实施意见”可分成“创业投资持续健康发展”，“投资持续健康发展的实”，“持续健康发展的实施意”，“健康发展的实施意见”4个字段。如表1所示，6个句子共可以分出18个原始字段。

表1示例文本1

将这些原始字段放入字图中搜索，删去这些原始字段中不存在于字图中的边，如“创业投资持续健康发展”经过删除后精简为“创业投资”，“投资持续健康发展的实”精简为“投资”，由句子4得到的字段“加强创业风险投资行业”经过删除后保留的“创业”和“投资”两个字符串不相连，可将其精简字段表示为“创业；投资”，该字段由2个字符串组成，使用“；”隔开。如表1所示，18个原始字段经过精简后得到了4条不同的候选规则，“创业投资”，“投资”，“创业；投资”以及“投资者”。

对于单个字符串组成的规则比如“投资”，只要某字段中包含该字符串即可视为与该规则匹配；对于由多个字符串组成的规则如“创业；投资”，则需要字段从前往后依次与规则中的字符串都匹配到，才可视为与该规则匹配。

计算每个候选规则在正例文本中出现的概率。只要候选规则与文本所得任意一条字段匹配，则视其出现于该文本。若候选规则出现的文本中有70％以上的文本属于正例，那么就将该条候选规则保留下来作为分类规则，这里假设4条候选规则都保留作为了分类规则，得到的分类规则有“创业投资”，“投资”，“创业；投资”以及“投资者”。

下面是基于规则的公文分拣模块，利用刚刚生成的规则进行分类，使用如下所示文本作为待分类公文。

“支持有实力的机构投资者在风险可控的前提条件下，投资创业投资企业和设立创业投资母基金。鼓励金融机构积极探索新产品和新模式，为创业企业提供综合化、个性化金融和投融资服务。鼓励具有风险识别和承受能力的个人参与投资创业投资企业。”

上述所示待分类文本进行数据预处理后变成表2所示结构，再将其中每一句文本都利用以10为窗口大小，以2为步长的滑动窗口来分成若干长度小于等于10的字段，5句话可分出34条字段。

表2示例文本2

使用这34条字段分别与刚得到的4条分类规则进行匹配。匹配时，与某一字段匹配的规则不可再继续与其他字段匹配。如表2所示，所有字段依次匹配完成后，发现当前文本中的规则匹配字段有4条，字段“支持有实力的机构投资”，“有实力的机构投资者在”，“投资创业投资企业和设”，“创业投资企业和设立创”分别与分类规则“投资”，“投资者”，“创业投资”以及“创业；投资”相匹配，满足与某一类别所属规则匹配的字段数大于N＝10或大于当前文本字段数的10％*34≈3的条件，所以当前文本属于“财政局”这个类别分拣派发结果的解释模块中将公文文本派发给“财政局”的依据就是该公文所匹配到的“投资”，“投资者”，“创业投资”以及“创业；投资”这4条规则。

综上所述，本发明的一种自动公文分拣派发方法，通过文本学习从公文文本中自动学习出各类别相关规则，然后基于所得规则对新公文进行分拣派发。本发明方法不需要进行文本分词操作，不仅具有很高的公文分拣精度，而且具有良好的可解释性，克服了基于深度学习等人工神经网络文本分类方法难以解释分类结果的问题。

应该理解，以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述，在所提供的示例之外的许多实施例和许多应用对本领域技术人员来说都将是显而易见的。因此，本教导的范围不应该参照上述描述来确定，而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。出于全面之目的，所有文章和参考包括专利申请和公告的公开都通过参考结合在本文中。在前述权利要求中省略这里公开的主题的任何方面并不是为了放弃该主体内容，也不应该认为申请人没有将该主题考虑为所公开的发明主题的一部分。

Claims

1.一种自动公文分拣派发方法，其特征在于，包括以下步骤：

对原始训练数据和待分拣公文数据进行预处理；

利用训练数据生成字图；

根据字图生成规则并得到规则置信度；

输出分拣时所依据的规则作为派发结果进行解释；

所述根据字图生成规则并得到规则置信度，具体为：

基于字图的规则生成模块根据每个标签对应的字图，从该标签正例数据中匹配出与字图相符的字段，计算每个字段在正反例数据中的出现概率，保留概率较高的字段作为分类规则；

所述分类规则的具体确定步骤为：

2.根据权利要求1所述的自动公文分拣派发方法，其特征在于，

所述对原始训练数据和待分拣公文数据进行预处理，具体为：

3.根据权利要求1所述的自动公文分拣派发方法，其特征在于，

所述利用训练数据生成字图，具体为：

4.根据权利要求1所述的自动公文分拣派发方法，其特征在于，

所述分类规则由一个或多个连续字符串组成；当使用分类规则与字段匹配时，字段与规则中各字符串按顺序进行匹配，若字段可以从前往后依次与规则中所有字符串全都匹配成功，即在规则中各字符串前后添加任意字符后可与字段完全相同，则称该分类规则与字段匹配。

5.根据权利要求1所述的自动公文分拣派发方法，其特征在于，

所述对输入的待分拣公文进行根据文本与各标签规则的匹配程度进行分拣判定，并派发至不同部门，具体为：

然后，将这些字段分别与每个类别所属规则进行匹配，已经与某条字段匹配的规则不能再与其他字段匹配；若与某一类别所属规则匹配的字段数大于N或大于当前文本字段数的10%，则将该类别标签作为分类结果之一；当这些字段与所有类别匹配后，即可得到当前公文所对应的所有类别。

6.根据权利要求5所述的自动公文分拣派发方法，其特征在于，

所述公文各类别间不互斥，同一个公文文本能够被分拣派发给多个不同的类别。

7.根据权利要求1所述的自动公文分拣派发方法，其特征在于，

所述输出分拣时所依据的规则作为派发结果进行解释，具体为：

8.一种自动公文分拣派发***，基于权利要求1至7任一项所述的自动公文分拣派发方法，其特征在于，包括：

数据预处理模块，用于对数据进行清洗及数据格式转换；

字图生成模块，用于利用训练数据生成字图，