CN108197119A

CN108197119A - 基于知识图谱的纸质档案数字化方法

Info

Publication number: CN108197119A
Application number: CN201810111488.3A
Authority: CN
Inventors: 李进荣; 孙懿鑫; 张步明
Original assignee: Chengdu Zhuo Guan Information Technology Co Ltd
Current assignee: Chengdu Zhuo Guan Information Technology Co Ltd
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2018-06-22

Abstract

本发明公开了一种基于知识图谱的纸质档案数字化方法。其包括获取纸质档案图片信息，分析得到标准化文本数据，抽取关键实体的实体信息，构建标准字典表将实体信息进行数据融合，形成结构化数据，将结构化数据作为知识条目构建知识图谱，根据知识图谱获取纸质档案内容数据并生成电子文件。本发明提高了纸质档案数字化的工作效率，同时降低了误操率。

Description

基于知识图谱的纸质档案数字化方法

技术领域

本发明属于电子信息技术领域，尤其涉及一种基于知识图谱的纸质档案数字化方法。

背景技术

纸质档案数字化作业是档案大数据库建设最基础的工作，其操作流程包括档案的分类整理、图像扫描、文字录入以及整理入库等步骤。目前纸质档案数字化的表象，是将实物纸质档案，变成电子文档(JPG、PDF或TFF等格式)的档案进行存储，其目的是为信息化服务，因此必须能被相关软件***读取和使用。

为此在建立电子档案数据库时，针对每一张纸质档案，必须生成二个电子文档：一个是该纸质档案的图片，另二个是与该图片一一对应的信息。目前的解决方法是制作成电子图片加EXCEL条目。如1张实物纸质档案，经扫描后，生成图片名为"031-053-01-019-01.jpg的电子图片，但仅仅从"031-053-01-019-01.GIF"基本不能全面了解其所有内容信息，因此，需要将这张纸质档案上涵盖的信息(如档案号、类号、年份、档案类别、页名、填制单位、部门、属于哪一类、有几页等内容)输入到EXCEL文件的对应条目中。由此可见，为完成一张纸质档案的数字化需要做二件事：一是扫描纸质档案，二是输入档案内容到EXCEL文件的对应条日厅中，其工作量是非常庞大的。

虽然目前市面上普通的扫描仪(高拍仪)能对扫描的图片做一些处理，但普遍缺少对内容信息的抓取并生成到EXCEL文件的对应条日厅中。当然随着技术进步，也出现了带有光学字符识别(Optical Character Recognition，简称OCR)的高档扫描仪，但是至今的误操率不能满足国家档案数字化规定的低于0.5％的要求：即使采用进口的高档扫描仪，虽然误操率可以降低几个数量级，但还是不能满足要求，而且此类进口的高档扫描仪价格昂贵，动辄几十万甚至上百万一台，其成本过于高昂。所以至今社会上一般公司档案数字化工作程序，都是要么同一人二次作业，要么流水线二人前后作业，其工作程序复杂，导致效率低下，且人员成本过高。

发明内容

本发明的发明目的是：为了解决现有技术中纸质档案数字化程序复杂、导致效率低下等问题，本发明提出了一种基于知识图谱的纸质档案数字化方法。

本发明的技术方案是：一种基于知识图谱的纸质档案数字化方法，包括

A、获取需要进行数字化的纸质档案图片信息；

B、对步骤A中纸质档案图片信息进行词法、语法和/或语义分析，得到标准化文本数据；

C、从步骤B的标准化文本数据中抽取关键实体的实体信息；

D、构建标准字典表，根据标准字典表将步骤C中实体信息进行数据融合，形成结构化数据；

E、根据步骤D中结构化数据作为知识条目，构建知识图谱；

F、根据步骤E中知识图谱获取纸质档案图片信息中的内容数据并生成电子文件。

进一步地，所述步骤B对步骤A中纸质档案图片信息进行词法、语法和/或语义分析，得到标准化文本数据具体为：

采用预先训练的段落分类器模型对步骤A中纸质档案图片信息的段落进行文档结构分类，根据分类结果对所述纸质档案图片信息进行段落结构划分；

若所述纸质档案图片信息为中文资源时，对划分出的各段落结构进行分词、词性标注以及短语识别，并去除段落结构中的标点符号；

若所述纸质档案图片信息为外语资源时，对划分出的各段落结构进行词干处理、词形还原以及短语识别，并去除段落结构中的标点符号。

进一步地，所述步骤C从步骤B的标准化文本数据中抽取关键实体的实体信息具体为：

采用预先训练的名词分类器模型对所述标准化文本数据中的词语进行分类，根据分类结果识别并抽取各类别的名词以及各名词之间的关系。

进一步地，所述步骤D中构建标准字典表具体为：

根据通用数据标准建立知识图谱的基础架构；

将步骤C中关键实体的实体属性转换成三元组数据；

根据三元组数据将所述实体属性与所述关键实体的关系类型和命名规则进行统一规范，得到具有标准规范的标准字典表。

进一步地，所述步骤D中根据标准字典表将步骤C中实体信息进行数据融合，形成结构化数据具体为：

将所述关键实体与构建的标准字典表中的内容进行对照映射，同时保留所述关键实体的属性关系，形成结构化数据。

本发明的有益效果是：本发明通过获取纸质档案图片信息并进行处理得到标准化文本数据，再抽取关键实体的实体信息，通过构建标准字典表将实体信息进行数据融合，形成结构化数据，利用结构化数据作为知识条目构建知识图谱，根据知识图谱获取纸质档案内容，提高了纸质档案数字化的工作效率，同时降低了误操率。

附图说明

图1是本发明的基于知识图谱的纸质档案数字化方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，为本发明的基于知识图谱的纸质档案数字化方法的流程示意图。一种基于知识图谱的纸质档案数字化方法，包括

A、获取需要进行数字化的纸质档案图片信息。

本实施例中，将需要进行数字化的纸质档案通过扫描仪进行扫描，以获取该纸质档案扫描后的图片。

B、对步骤A中纸质档案图片信息进行词法、语法和/或语义分析，得到标准化文本数据。

本实施例中，词法、语法和/或语义分析是指对指定领域的原始文本数据基于词法、语法和/或语义分析进行结构化处理以及分词处理等操作。

C、从步骤B的标准化文本数据中抽取关键实体的实体信息。

本实施例中，实体是指命名实体词和事件名等；属性是指命名实体修饰的名词，如年龄、性别、人物关系等。其中，实体属性的关系主要靠计算共现的概率，提取实体共有的，概率最大的属性词。实体之间的关系，一方面根据在句子中的共现概率，另一方面根据识别出的实体属性关系提取实体关系。

E、根据步骤D中结构化数据作为知识条目，构建知识图谱；

在本发明的一个可选实施例中，上述实施例中的步骤B进一步包括：

为了快速、准确地实现原始文本数据的段落结构划分，本发明实施例中，通过将原始文本数据进行结构化，区分出标题、正文、作者、时间、分类等段落，实现原始文本数据的段落结构划分。具体的。具体的，可根据文档结构分布特征，例如：文本的位置、长度、词语内容等方面特征，确定所述原始文本数据的文档结构。或人工标注少许训练语料，根据上述特征构建段落分类器模型对段落进行分类，以分类预测结果作为段落属性。

为了快速、准确地实现原始文本数据的段落结构划分，本发明实施例，通过判断原始文本数据的语言，若原始文本数据为中文资源时，则对中文资源进行中文分词、词性标注、短语识别等。具体的可用开源工具对中文进行词法、语法和/或语义分析。若所述文本数据为外语资源时，按照对应语言工具对中文资源进行词法、语法和/或语义分析，例如，对英语资源进行词干处理、词形还原、短语识别等，指去除时态、词后缀并还原成原词。具体的也可以用开源工具对英语资源进行词法、语法和/或语义分析。

在本发明的一个可选实施例中，上述实施例中的步骤C进一步包括：

采用预先训练的名词分类器模型对所述标准化文本数据中的词语进行分类，根据分类结果识别并抽取各类别的名词以及各名词之间的关系。具体的，名词之间的关系可根据在句子中的共现概率确定。

为了快速、准确地实现标准化文本数据的知识抽取，本发明实施例，通过对已有数据的观察，对名词的开始字、结束字、词长度等特点确定各类别的名词的结构特征，并根据各类别的名词的结构特征从标准化文本数据中抽取相应类别的名词以及各名词之间的关系，进而得到实体信息。

在本发明的一个可选实施例中，上述实施例中的步骤D进一步包括：

根据通用数据标准建立知识图谱的基础架构；

将步骤C中关键实体的实体属性转换成三元组数据；

根据三元组数据将所述实体属性与所述关键实体的关系类型和命名规则进行统一规范，得到具有标准规范的标准字典表；

将所述关键实体与构建的标准字典表中的内容进行对照映射，同时保留所述关键实体的属性关系，形成结构化数据，具体为：

判断实体信息是否符合标准规范；若是，则根据标准字典表将实体信息进行数据融合，即将实体名称与标准字典表中的内容进行映射，得到相同实体名称以及相同实体名称的属性信息，形成结构化数据；若否，则根据专业知识分类对实体信息进行关系映射，形成结构化数据；这里实体信息包括实体名称和实体属性信息，将实体名称作为索引，与标准字典表中的内容进行映射，得到相同实体名称以及相同实体名称的属性信息，根据标准字典表中实体命名及实体间关系的统一规范，将实体名称的属性信息与相同实体名称的属性信息融合到一起。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于知识图谱的纸质档案数字化方法，其特征在于，包括

A、获取需要进行数字化的纸质档案图片信息；

C、从步骤B的标准化文本数据中抽取关键实体的实体信息；

E、根据步骤D中结构化数据作为知识条目，构建知识图谱；

2.如权利要求1所述的基于知识图谱的纸质档案数字化方法，其特征在于，所述步骤B对步骤A中纸质档案图片信息进行词法、语法和/或语义分析，得到标准化文本数据具体为：

3.如权利要求2所述的基于知识图谱的纸质档案数字化方法，其特征在于，所述步骤C从步骤B的标准化文本数据中抽取关键实体的实体信息具体为：

4.如权利要求3所述的基于知识图谱的纸质档案数字化方法，其特征在于，所述步骤D中构建标准字典表具体为：

根据通用数据标准建立知识图谱的基础架构；

将步骤C中关键实体的实体属性转换成三元组数据；

5.如权利要求4所述的基于知识图谱的纸质档案数字化方法，其特征在于，所述步骤D中根据标准字典表将步骤C中实体信息进行数据融合，形成结构化数据具体为：