CN113610194B

CN113610194B - 一种数字档案自动分类方法

Info

Publication number: CN113610194B
Application number: CN202111055968.0A
Authority: CN
Inventors: 罗再谦; 向煜; 黄志�; 华媛媛; 韩�熙; 刘寓; 张俊; 刘颖; 徐艇伟; 朱勃; 张彦; 曹欣; 李兵; 钟敏; 罗书军
Original assignee: CHONGQING CYBERCITY SCI-TECH CO LTD
Current assignee: CHONGQING CYBERCITY SCI-TECH CO LTD
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2023-08-11
Anticipated expiration: 2041-09-09
Also published as: CN113610194A

Abstract

本发明公开一种数字档案自动分类方法，具体包括以下步骤：S1：确定现有的数字档案的各级分类并标记对应的编码，建立各级分类之间的双向映射关系；S2：获取每个现有数字档案的内容纲要、分类、编码，从而建立数字档案样本库；S3：根据S2中建立的数字档案样本库进行数字档案分类BERT模型训练；S4:使用S3中训练完成的数字档案分类BERT模型进行数字档案的自动分类。通过对现有数字档案进行分类和编码并利用BERT模型预训练，从而完成对待分类的数字档案的自动分类，提高了数字档案分类效率。

Description

一种数字档案自动分类方法

技术领域

本发明涉及数字分类技术领域，特别涉及一种数字档案自动分类方法。

背景技术

随着信息技术的快速发展，档案载体从纸张档案到数字档案转变，使得数字档案的数量成指数级增长，数字化档案管理***不断涌现。近年来，人工智能技术的不断成熟也使得数字档案管理***更加智能、高效。

其中，数字档案的分类是数字档案管理的核心，合适、准确地分类对数字档案的检索、借阅、分析起着举足轻重的作用。BERT(Bidirectional Encoder Representationsfrom Transformers)是近年来在神经语言程序学NLP(Neuro-Linguistic Programming)领域的最优模型，其在句子分类、实体提取、问答等应用中表现优异。

然而当前数字档案的分类大多依靠档案管理人员手动进行分类，对数字档案自动分类研究较少，制约着档案数字化管理。一方面由于管理人员的知识局限容易造成分类偏差，以致分类后的档案类别标准不统一；另一方面，随着数字档案的快速增长，手动分类效率低。

发明内容

针对现有技术中数字档案分类效率较为低的问题，本发明提出一种数字档案自动分类方法，通过对现有数字档案进行分类和编码并利用BERT模型预训练，从而完成对待分类的数字档案的自动分类，提高了效率。

为了实现上述目的，本发明提供以下技术方案：

一种数字档案自动分类方法，具体包括以下步骤：

S1：确定现有的数字档案的各级分类并标记对应的编码，建立各级分类之间的双向映射关系；

S2：获取每个现有数字档案的内容纲要、分类、编码，从而建立数字档案样本库；

S3：根据S2中建立的数字档案样本库进行数字档案分类BERT模型训练；

S4:使用S3中训练完成的数字档案分类BERT模型进行数字档案的自动分类。

优选的,所述S1中，数字档案的分类从上级到下级依次包括一级分类、二级分类、三级分类，即二级分类为一级分类的下一级，三级分类为二级分类的下一级。

优选的,S2包括以下步骤：

S2-1：从已有档案中获取档案标题和描述字段，并将同一档案的标题与描述字段用“|”进行连接构建内容纲要；

S2-2：从已有档案中获取档案分类及对应的编码，再将内容纲要与档案分类编码以“*”进行连接，完成档案样本采集。

优选的,若档案长度超过最大限定长度L，则将该档案在L处分隔，分别形成该档案的第一描述和第二描述；按照S2-1中内容纲要的构建方法分别构建该档案的第一内容纲要和第二内容纲要；按照S2-2中档案样本的采集方法构建该档案的第一样本和第二样本。

优选的,还包括S2-3：

将采集的档案样本以三个文本文件进行存储且每个文件中样本不重复，三个文本文件分别表示训练样本、验证样本和测试样本，其中训练样本、验证样本和测试样本的比例为6:3:1，形成数字档案样本库。

优选的,所述S3中，数字档案分类BERT模型训练参数包括样本批量为36、迭代次数为5、学习率为0.015。

优选的,所述S4包括以下步骤：

S4-1:提取待分类数字档案的标题和描述字段，使用“|”将标题和描述字段连接形成内容纲要，将内容纲要输入数字档案分类BERT模型，从而输出推断结果<Code，P>,其中Code为数字档案分类的编码，P为推断该编码的概率；

S4-2:根据S1中分段和编码之间的双向映射关系，确定数字档案对应的分类。

优选的,若P≥Pmin，Pmin表示推断该编码的概率的阈值，则表示数字档案分类BERT模型输出的编码为code，从而确定分类；若P＜Pmin，则指定为“其它”。

优选的,当待分类数字档案的长度超过L时，则数字档案分类BERT模型将输出第一推断<code1,P1>，第二推断<code2,P2>，其中code1、code2分别表示该数字档案第一推断分类编码、第二推断分类编码，p1、p2分别表示该数字档案第一推断编码的概率、第二推断编码的概率，则待分类数字档案的编码为：

若code1等于code2，且P1，P2均大于或等于Pmin,则该分类编码为code1或code2；

若code1等于code2，且P1，P2均小于Pmin,则该分类编码为“其它”；

若code1等于code2，且P1大于或等于Pmin,P2小于Pmin，则该分类编码为code1；

若code1等于code2，且P2大于或等于Pmin,P1小于Pmin，则该分类编码为code2；

若code1不等于code2，且P1，P2均大于或等于Pmin，P1≠P2，则取P1，P2较大者对应的编码为该数字档案分类编码；

若code1不等于code2，且P1，P2均大于或等于Pmin，P1＝P2，则该数字档案分类编码为“其它”；

若code1不等于code2，且P1，P2均小于Pmin，则该分类编码为“其它”；

若code1不等于code2，且P1大于或等于Pmin，P2小于Pmin，则该分类编码为code1；

若code1不等于code2，且P2大于或等于Pmin，P1小于Pmin，则该分类编码为code2。

综上所述，由于采用了上述技术方案，与现有技术相比，本发明至少具有以下有益效果：

本发明利用BERT模型在自然语言处理方面的优势，将其运用到数字档案的自动分类，提高了数字档案分类的标准化和效率。同时为数字档案的检索、知识发现、输入输出等提供了便利和优势，进而提升了数字档案管理的智能化水平。

附图说明：

图1为根据本发明示例性实施例的一种数字档案自动分类方法示意图。

图2为根据本发明示例性实施例的数字档案的各级分类、编码的双向映射示意图。

具体实施方式

下面结合实施例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1所示，本发明提供一种数字档案自动分类方法，首先根据档案管理需要确定数字档案分类，然后根据数字档案管理***中已有档案的标题和描述字段并结合数字档案分类类别建立数字档案样本库，然后使用样本库进行BERT模型的构建与训练，最后对数字档案进行自动分类。

具体包括以下步骤：

S1：根据档案管理***的需求，确定数字档案的分类及对应的编码，并建立分类之间的双向映射关系。

档案管理***有很多，比如企业中的档案管理***，管理的档案是不一样的，跟企业具体要管理的档案有关。比如重庆市建筑档案管理***，专门管理建筑档案，而建筑档案又分为很多细类，如住宅、商业等等，这个根据管理的东西不同，档案类别就不同，可根据企业需求或某一领域档案的标准规范确定。

如图2所示，数字档案的分类从上级到下级依次包括一级分类、二级分类、三级分类等(分类级数可根据需要进行变化)。例如一级分类1(1表示分类对应的编码)为上一级，二级分类为一级分类1的下一级，例如二级分类包括第一二级分类1.1、第二二级分类1.2等，三级分类为二级分类的下一级，例如第一三级分类1.2.1、第二三级分类1.2.2为第二二级分类1.2的下一级。例如一级分类2为上一级，二级分类为一级分类2的下一级，例如二级分类包括第一二级分类2.1、第二二级分类2.2等，三级分类为二级分类的下一级，例如第一三级分类2.2.1、第二三级分类2.2.2为第二二级分类2.2的下一级。

双向映射关系指通过上一级分类可遍历下一级分类且通过下一级分类可知所属上一级分类。

比如：信息技术企业数字档案管理***中一级分类包括行政档案、项目档案、财务档案等，行政档案又包括人事档案、培训档案、行政事务档案等(即二级分类)，人事档案又包括劳动合同、员工基本信息、工作履历等(即三级分类)。通过以上分类对数字档案逐层分解即可得到各级档案分类，然后用XML文件记录各分类及相互关系，并建立编码。

S2：从档案管理***中获取每个档案的内容纲要和分类、编码，从而建立数字档案样本库。

S2-1：从已有档案中获取档案标题和描述字段，并将同一档案的标题与描述字段用“|”进行连接形成内容纲要；

本实施例中，数字档案训练样本来自于数字档案管理***已有档案，在当前已有档案中获取档案标题和描述字段，然后将同一档案的标题与描述字段用“|”进行连接形成所述档案内容纲要；

S2-2：从已有档案中获取档案分类及对应的编码，将内容纲要与档案分类编码以“*”进行连接，完成样本采集，构建样本库。

本实施例中，档案分类以S1中确定的档案分类最后一级表示。档案分类获取途径包括已划分的档案分类和根据档案内容纲要判定。

本实施例中，当根据档案内容纲要判定的档案分类与S1中确定的档案分类不一致时，对S1中确定的档案分类进行修改(例如添加、更新)。当已分类档案与S1中确定的档案分类不一致时，须对该已分类档案重新确定分类(即新增一个分类)。

本实施例中，每个档案的最大长度限定为L(L为正整数)个字符，若档案长度超过最大限定长度L，则将该档案在L处分隔，分别形成该档案的第一描述和第二描述。按照S2-1中内容纲要的构建方法分别构建该档案的第一内容纲要和第二内容纲要；按照S2-2中档案样本的采集方法构建该档案的第一样本和第二样本。

当然，若档案的长度为最大限定长度L的多倍，则可按照间隔长度L将档案划分成多段，从而得到多个内容纲要和样本，最后构成样本库。

本实施例中，将采集的档案样本随机分成三个文本，进行存储且每个文件中样本不重复，各文本文件中每一行表示一个样本。三个文本文件分别表示训练样本、验证样本和测试样本，其中训练样本、验证样本和测试样本的比例为6:3:1，形成数字档案样本库。

例如：已有档案标题为“XX员工劳动合同”，描述字段为“2017年XX员工与XXX公司签订劳动合同，合同期10年”，分类为“劳动合同”。则该档案的内容纲要为“XX员工劳动合同|2017年XX员工与XXX公司签订劳动合同，合同期10年”，采集的档案样本为“1.2.1*XX员工劳动合同|2017年XX员工与XXX公司签订劳动合同，合同期10年”，其中“1.2.1”为“劳动合同”对应的编码。若该档案的最后一级分类(例如三级分类)为“合同”或未划定分类，则根据内容纲要重新确定该档案分类为“劳动合同”，再根据S1中各级分类的双向映射关系，该档案的一级分类为“行政档案”。

S3：根据S2中建立的数字档案样本库进行数字档案分类BERT模型训练。

本实施例中，以数字档案分类BERT模型为基础，使用所构建数字档案样本库进行模型的训练。

其中BERT模型中的档案分类为S1中确定的档案分类最后一级；档案样本数据使用最靠前“*”进行内容纲要和类别提取并建立映射关系，内容纲要字符长度限值与步骤二中限定的最大字符长度一致。最后设置样本批量、迭代次数、学习率等参数进行档案分类模型训练，并保存成果模型。

本实施例中，BERT模型分类编码可以为[“1.1.1”,”1.1.2”,“1.2.1”,“1.2.2”]或[“001001001”,“001001002”,“001001003”,“001002001”]，其中每一个编码对应唯一一个档案分类和档案内容纲要，如“1.2.1”<＝>劳动合同<＝>“XX员工劳动合同|2017年XX员工与XXX公司签订劳动合同，合同期10年”。档案训练样本批量为36，迭代次数为5，学习率为0.015，按此参数进行数字档案分类BERT模型训练，训练完成后保存。

本实施例中，例如“行政档案”的编码为“1”，“行政档案”的下一级为“人事”，对应编码为“1.2”，“人事”的下一级包括“员工信息”(编码：1.2.1)、“劳动合同”(编码：1.2.2)、“工作履历”(编码：1.2.3)等。

优选的，设推断该编码的概率的阈值为Pmin，若P≥Pmin，则表示数字档案分类BERT模型的分类正确，若P＜Pmin，则指定为“其它”，并通过后续人工判断。

优选的，当待分类数字档案的长度超过S2中限定的最大值L，则将该档案描述在L处分隔，分别形成该档案第一描述、第二描述，使用“|”将标题和描述字段连接形成第一内容纲要、第二内容纲要；然后将第一内容纲要、第二内容纲要输入模型获得第一推断<code1,P1>，第二推断<code2,P2>，其中code1、code2分别为该数字档案第一推断分类编码、第二推断分类编码，p1、p2分别为该数字档案类别第一推断、第二推断的概率。则按以下规则判定该数字档案的分类：

若code1等于code2，且P1，P2均大于或等于Pmin,则该分类编码为code1(code2)；

若code1不等于code2，且P1，P2(P1≠P2)均大于或等于Pmin，取P1，P2较大者对应的编码为该数字档案分类编码；

若code1不等于code2，且P1，P2(P1＝P2)均大于或等于Pmin，则该分类编码为“其它”；

若code1不等于code2，且P2大于或等于Pmin，P1小于Pmin，则该分类编码为code2；

判定为“其它”的数字档案后续通过人工判定。

S4-2:根据S1中双向映射关系，确定数字档案对应的分类。

本实施例中，例如当模型输出推断结果中code为1.2.1，则根据双向映射关系，数字档案对应的分类为一级分类1

本实施例中，设置数字档案分类推断概率阈值为0.9，在数字档案管理***中通过查询获取到该数字档案标题为“XX员工基本信息表”，描述信息为“XX员工2018年入职我公司，大学本科学历，担任人力资源专员……”，则该数字档案的内容纲要为“XX员工基本信息表|XX员工2018年入职我公司，大学本科学历，担任人力资源专员……”，将其输入模型，获得结果为<1.2.1，0.93>，则推断该数字档案分类编码为“1.2.1”，再根据数字档案分类的双向对应关系，确定该数字档案的最后一级分类为“员工信息”，再根据S1中各级分类的双向映射关系，该档案的一级分类为“行政档案”。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种数字档案自动分类方法，其特征在于,具体包括以下步骤：

所述S3中，数字档案分类BERT模型训练参数包括样本批量为36、迭代次数为5、学习率为0.015；

S4:使用S3中训练完成的数字档案分类BERT模型进行数字档案的自动分类；

所述S4包括以下步骤：

若P≥Pmin，Pmin表示推断该编码的概率的阈值，则表示数字档案分类BERT模型输出的编码为code，从而确定分类；若P＜Pmin，则指定为“其它”

S4-2:根据S1中分段和编码之间的双向映射关系，确定数字档案对应的分类；

当待分类数字档案的长度超过L时，则数字档案分类BERT模型将输出第一推断<code1,P1>，第二推断<code2,P2>，其中code1、code2分别表示该数字档案第一推断分类编码、第二推断分类编码，p1、p2分别表示该数字档案第一推断编码的概率、第二推断编码的概率，则待分类数字档案的编码为：

2.如权利要求1所述的一种数字档案自动分类方法，其特征在于,所述S1中，数字档案的分类从上级到下级依次包括一级分类、二级分类、三级分类，即二级分类为一级分类的下一级，三级分类为二级分类的下一级。

3.如权利要求1所述的一种数字档案自动分类方法，其特征在于,S2包括以下步骤：

4.如权利要求3所述的一种数字档案自动分类方法，其特征在于,若档案长度超过最大限定长度L，则将该档案在L处分隔，分别形成该档案的第一描述和第二描述；按照S2-1中内容纲要的构建方法分别构建该档案的第一内容纲要和第二内容纲要；按照S2-2中档案样本的采集方法构建该档案的第一样本和第二样本。

5.如权利要求3所述的一种数字档案自动分类方法，其特征在于,还包括S2-3：