CN110852359A

CN110852359A - 基于深度学习的家谱识别方法及***

Info

Publication number: CN110852359A
Application number: CN201911035972.3A
Authority: CN
Inventors: 车群; 柳泽辰; 尹文志; 郭晓天
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-07-24
Filing date: 2019-10-29
Publication date: 2020-02-28
Anticipated expiration: 2039-10-29
Also published as: CN110852359B

Abstract

本发明提供了一种基于深度学习的家谱识别方法及***，本发明面向家谱数字化领域，基于深度学习的方法，设计了一种目标位置检测与目标分类两个深度学习任务分离的家谱数据快速数字化方案，首先通过分别训练目标位置检测和目标分类两个卷积神经网络，以此判断出家谱中汉字的位置与内容，最后通过正则表达式分析出家谱中人物关系来绘制出数字化的家谱。基于此深度学习的家谱识别方案不仅减免了大量人力识别，同时保证数据数字化结果的准确度。

Description

基于深度学习的家谱识别方法及***

技术领域

本发明涉及一种基于深度学习的家谱识别方法及***。

背景技术

“国有史，地有志，家有谱”，作为与正史、地方志并列的三大***性历史文献记载之一，目前家谱的数字化程度远远落后于前二者。正史的数字化早已完成，地方志正在进行之中，目前已经完成并进入商业化领域的已占总量的三分之一。而家谱的数字化工作则尚未开始。

其原因在于家谱的数字化存在几个难点：

1、我国现存的谱谍数量极多且在不断扩张，依靠人力去提取族谱数据中的大量信息十分消耗人力物力。

2、家谱中往往存在大量的生冷僻字，其本身也缺乏大量的已标注的数据集，而已有的大部分深度学习数据集则不包含生僻字，因此已有的OCR工具在识别上存在大量错漏。

3、家谱的记载存在结构性，其各个板块内容的关联性和含义很难识别。

发明内容

本发明的目的在于提供一种基于深度学习的家谱识别方法及***。

为解决上述问题，本发明提供一种基于深度学习的家谱识别方法，包括：

获取家谱图像；

通过基于深度学习的目标位置检测网络得到所述家谱图像中每个汉字的位置；

通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置，得到所述家谱图像中汉字的内容。

进一步的，在上述方法中，通过基于深度学习的目标位置检测网络得到所述家谱图像中每个汉字的位置之前，还包括：

通过已标注文字位置的文档训练集来训练所述目标位置检测网络；

通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置，得到所述家谱图像中汉字的内容之前，还包括：

通过生僻字加文体和噪声来生成训练集来训练所述生僻字分类网络。

进一步的，在上述方法中，通过已标注文字位置的文档训练集来训练所述目标位置检测网络，包括：

通过带位置信息的文字数据集的集合来训练一个卷积神经网络作为所述目标位置检测网络。

进一步的，在上述方法中，通过生僻字加文体和噪声来生成训练集来训练所述生僻字分类网络，包括：

将繁体字、生僻字字典中每个字都编码，并基于所述编码的结果并使用不同风格的字体制作相应每个字对应的图片，并且在所述图片中加入噪声来增强扩充图片，以得到训练集；

采用分类神经网络来训练所述训练集，以得到所述生僻字分类网络。

进一步的，在上述方法中，通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置，得到所述家谱图像中汉字的内容之后，还包括：

基于每个汉字的位置和所述家谱图像中汉字的内容，通过正则表达式，提取所述家谱图像中的人名信息和人物之间关系词；

基于所述人名信息和人物之间关系词绘制对应的家族树形图。

根据本发明的另一面，还提供一种基于深度学习的家谱识别***，包括：

第一模块，用于获取家谱图像；

第二模块，用于通过基于深度学习的目标位置检测网络得到所述家谱图像中每个汉字的位置；

第三模块，用于通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置，得到所述家谱图像中汉字的内容。

进一步的，在上述***中，所述第二模块，还用于通过已标注文字位置的文档训练集来训练所述目标位置检测网络；

所述第三模块，还用于通过生僻字加文体和噪声来生成训练集来训练所述生僻字分类网络。

进一步的，在上述***中，所述第二模块，用于通过带位置信息的文字数据集的集合来训练一个卷积神经网络作为所述目标位置检测网络。

进一步的，在上述***中，所述第三模块，用于将繁体字、生僻字字典中每个字都编码，并基于所述编码的结果并使用不同风格的字体制作相应每个字对应的图片，并且在所述图片中加入噪声来增强扩充图片，以得到训练集；采用分类神经网络来训练所述训练集，以得到所述生僻字分类网络。

进一步的，在上述***中，还包括第四模块，用于基于每个汉字的位置和所述家谱图像中汉字的内容，通过正则表达式，提取所述家谱图像中的人名信息和人物之间关系词；基于所述人名信息和人物之间关系词绘制对应的家族树形图。

与现有技术相比，谱牒一方面包含繁体字和生僻字且缺少数据集，另一方面，家谱中各个板块内容的关联以及含义难以被机器识别。因此，本发明将目标位置检测与目标分类两个深度学习任务分离的方式进行家谱识别。基本流程如图1所示。先通过深度学习训练一个卷积神经网络来确定家谱中每个汉字的位置，同时训练另一个专门针对生僻字繁体字识别的卷积神经网络来确定每个汉字的内容，最后结合各个汉字的位置以及内容，通过正则表达式提取，来最终得到家谱中反应的家族树形关系。

本发明面向家谱数字化领域，基于深度学习的方法，设计了一种目标位置检测与目标分类两个深度学习任务分离的家谱数据快速数字化方案，首先通过分别训练目标位置检测和目标分类两个卷积神经网络，以此判断出家谱中汉字的位置与内容，最后通过正则表达式分析出家谱中人物关系来绘制出数字化的家谱。基于此深度学习的家谱识别方案不仅减免了大量人力识别，同时保证数据数字化结果的准确度。

附图说明

图1是本发明一实施例的基于深度学习的家谱识别方法及***的原理图；

图2是本发明一实施例的目标汉字位置检测的示意图；

图3是本发明一实施例的家谱汉字内容结构划分的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供一种基于深度学习的家谱识别方法，包括：

步骤S1，获取家谱图像；

步骤S2，通过基于深度学习的目标位置检测网络得到所述家谱图像中每个汉字的位置；

步骤S3，通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置，得到所述家谱图像中汉字的内容。

在此，本发明面向家谱数字化领域，基于深度卷积神经网络，设计了一种目标位置检测与目标分类两个深度学习任务分离的家谱数据快速数字化方案，基于此深度学习的家谱识别方案不仅减免了大量人力识别，同时保证数据数字化结果的准确度。

如图2所示，本发明的基于深度学习的家谱识别方法一实施例中，步骤S2，通过基于深度学习的目标位置检测网络得到所述家谱图像中每个汉字的位置之前，还包括：

通过已标注文字位置的文档训练集来训练所述目标位置检测网络

本发明的基于深度学习的家谱识别方法一实施例中，通过已标注文字位置的文档训练集来训练所述目标位置检测网络，包括：

在此，中文字的形态大多统一，考虑日常人脑的思考方式，哪怕遇到不认识的中文字时，也能清晰地判断出这个字的位置以及这个字的大小，这是因为汉字具有相对固定的特征。因此，在没有家谱数据集的情况下，本发明借助一般的带位置信息的文字数据集的集合来训练一个卷积神经网络，以获得每个字的位置信息。

家谱识别任务由于对神经网络没有实时性的要求，因此本发明将追求极致的准确度。本发明旨在提出一种新型的深度学习方案，使得在目前家谱已标注数据集较少的情况下，尽可能地满足高识别率与高效率的要求。本发明采用可以当今识别率较高也相对成熟的任何网络结构来进行训练。训练后的网络可以检测出不同尺度的汉字以及它们的位置，如图2所示。

本发明面向家谱数字化领域，基于深度卷积神经网络，设计了一种目标位置检测与目标分类两个深度学习任务分离的家谱数据快速数字化方案，基于深度学习的家谱识别方案不仅减免了大量人力识别，同时保证数据结果的准确度。

本发明将提出一种全新的方案来解决上述家谱识别中存在的挑战，采取将目标位置检测与目标分类两个深度学习任务分离的方式，这两步分别进行，规避了使用有限的已标注的家谱数据集训练，又能保证最终网络的识别精度远超主流的OCR软件。

本发明的基于深度学习的家谱识别方法一实施例中，步骤S3，通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置，得到所述家谱图像中汉字的内容之前，还包括：

本发明的基于深度学习的家谱识别方法一实施例中，通过生僻字加文体和噪声来生成训练集来训练所述生僻字分类网络，包括：

在此，通过卷积神经网络把每个字的位置标注出来后，需要做的就是识别每个框内的汉字。虽然利用卷积神经网络进行分类任务相比目标检测任务更为成熟，但对于家谱中的繁体字和生僻字，没有很好的数据库，而且不同的文体会给训练结果带来极大地不同。不同的家谱印刷风格都会存在差异。本发明自行制作数据集，将繁体字、生僻字字典中每个字都编码，并软件制作相应每个字对应的图片，并使用不同风格的字体来制作这些图片，并且加入各种各样的噪声来增强扩充数据集。数据集制作完毕后，采用当今比较主流的分类神经网络来训练，达到较好的效果。

本发明的基于深度学习的家谱识别方法一实施例中，步骤S3，通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置，得到所述家谱图像中汉字的内容之后，还包括：

在此，本发明通过前两步骤的深度学习得到汉字的位置信息与内容后，如图3所示根据不同种类的家谱可以通过定制的算法来划分每个区域的内容。家谱中通过正则表达式，提取家谱中的人名信息和人物之间关系词，最终绘制家族树形图，完成家谱的数字化。

第一模块，用于获取家谱图像；

综上所述，谱牒一方面包含繁体字和生僻字且缺少数据集，另一方面，家谱中各个板块内容的关联以及含义难以被机器识别。因此，本发明将目标位置检测与目标分类两个深度学习任务分离的方式进行家谱识别。基本流程如图1所示。先通过深度学习训练一个卷积神经网络来确定家谱中每个汉字的位置，同时训练另一个专门针对生僻字繁体字识别的卷积神经网络来确定每个汉字的内容，最后结合各个汉字的位置以及内容，通过正则表达式提取，来最终得到家谱中反应的家族树形关系。

本发明的各***实施例的详细内容，具体可参见各方法实施例的对应部分，在此，不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于深度学习的家谱识别方法，其特征在于，包括：

获取家谱图像；

2.如权利要求1所述的基于深度学习的家谱识别方法，其特征在于，通过基于深度学习的目标位置检测网络得到所述家谱图像中每个汉字的位置之前，还包括：

3.如权利要求2所述的基于深度学习的家谱识别方法，其特征在于，通过已标注文字位置的文档训练集来训练所述目标位置检测网络，包括：

4.如权利要求2所述的基于深度学习的家谱识别方法，其特征在于，通过生僻字加文体和噪声来生成训练集来训练所述生僻字分类网络，包括：

5.如权利要求1所述的基于深度学习的家谱识别方法，其特征在于，通过基于深度学习的生僻字分类网络和所述家谱图像中每个汉字的位置，得到所述家谱图像中汉字的内容之后，还包括：

6.一种基于深度学习的家谱识别***，其特征在于，包括：

第一模块，用于获取家谱图像；

7.如权利要求6所述的基于深度学习的家谱识别***，其特征在于，所述第二模块，还用于通过已标注文字位置的文档训练集来训练所述目标位置检测网络；

8.如权利要求7所述的基于深度学习的家谱识别***，其特征在于，所述第二模块，用于通过带位置信息的文字数据集的集合来训练一个卷积神经网络作为所述目标位置检测网络。

9.如权利要求7所述的基于深度学习的家谱识别***，其特征在于，所述第三模块，用于将繁体字、生僻字字典中每个字都编码，并基于所述编码的结果并使用不同风格的字体制作相应每个字对应的图片，并且在所述图片中加入噪声来增强扩充图片，以得到训练集；采用分类神经网络来训练所述训练集，以得到所述生僻字分类网络。

10.如权利要求6所述的基于深度学习的家谱识别***，其特征在于，还包括第四模块，用于基于每个汉字的位置和所述家谱图像中汉字的内容，通过正则表达式，提取所述家谱图像中的人名信息和人物之间关系词；基于所述人名信息和人物之间关系词绘制对应的家族树形图。