CN114092700A

CN114092700A - 基于目标检测和知识图谱的古文字识别方法

Info

Publication number: CN114092700A
Application number: CN202111414456.9A
Authority: CN
Inventors: 徐昊; 李沿增; 吴垒; 史大千; 刁晓蕾
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-02-25
Anticipated expiration: 2041-11-25
Also published as: CN114092700B

Abstract

本发明提出了一种基于目标检测和知识图谱的古文字识别方法，属于图像处理和识别技术领域，包括对古文字图片数据进行部件标注和数据预处理，以扩充古文字图像数据集；构建古文字部件识别模型，识别出古文字图片包含的部件和部件的位置坐标；根据识别出的古文字图片包含的部件和部件的位置坐标，构建古文字部件位置关系识别模型，得出部件的位置关系，以判断文字结构；构建古文字知识图谱；通过所述古文字知识图谱，根据部件和部件位置关系来推理出文字结果。通过识别古文字图像中存在的部件，来推理得到古文字的分类。本发明通过基于目标检测和知识图谱推理的方法可以增加对于识别的分类的数目，可以进行更多的古文字的分类。

Description

基于目标检测和知识图谱的古文字识别方法

技术领域

本发明属于图像处理和识别技术领域，具体地，涉及一种基于目标检测和知识图谱的古文字识别方法。

背景技术

从字母、数字到汉字，OCR(光学字符识别)技术已经广泛应用在办公领域。例如百度文字识别，可以通过拍照和截图的方式，对图片中的中、英、法等多语种进行识别。尽管市面上有诸多公司投身于文字识别领域中，且作出巨大贡献，但在古文字的识别工作上，尚未进行充分的应用。目前，通过相似度计算可以对秦朝(小篆)以前的古文字、书法进行识别。通过神经网络类模型，也可对常用的手写汉字图片进行识别。然而，对于小篆(秦朝)以前的古文字，例如甲骨文、金文、战国文字等，现有的技术方法并不适用。因为目前甲骨文、金文大约有4500个汉字，其中被考释的只有2000余个，而每个单字所出现的次数过少且异体字多，导致训练集中的数据量不够充分，神经网络无法有效的提取文字的特征，因此导致模型几乎无法正确识别古文字。除此之外，由于训练单字数据过少的问题，很难对大多数的古文字进行分类。

目前的古文字的识别使用的数据大多为人工临摹的图像数据，对于真实的古文字拓片识别效果并不突出。例如：安阳师范学院提出的甲骨文大数据平台构建了基于人工手写甲骨文字符数据库HWOBC，其中包含83245个字符级样本，3881个字符类别，并采用传统深度学习分类网络进行学习分类。不适用于拓片古文字识别。中国科学院大学提供了一种基于深度度量学习的最近邻分类甲骨文字符识别，通过手写甲骨文字模形态数据集的甲骨文字符分类，2583个类别，准确率93.37％；甲骨文手写数据集分类，261个类别，准确率92.43％。不适用于拓片古文字识别，详见文献：张勇，杨青，刘超，“基于深度度量学习的最近邻分类方法在汉字识别中的应用”，2019国际文档分析与识别会议(ICDAR)，2019。日本立命馆大学提出的“甲骨文的两阶段识别”是其中一个反对临摹字体识别的项目，详见文献：孟林，《甲骨文的两阶段识别》(ICIAP)，2017，使用30个甲骨文模板(拓片)，使用29种原始OBI(约576个字符)来衡量所提出方法的性能，准确率为90％。2019年使用AlexNet识别甲骨文，能够识别184个甲骨文字符，准确率为92.3％。

解决上述问题的难度在于，古文字图像数据长尾效应问题严重，存在种类多(目前得到数据包括甲骨文2800+，金文2000+类)，样本少(部分种类仅存1例样本)，难以复制的特点，与深度学习分类对数据的大量样本需求相悖，所以通过一般的深度学习分类算法仅能对部分数据进行分类，而不能对全部2800+种类进行高效的分类。其次古文字图像存在大量的噪声，数据集的质量不高，目前已知的图像降噪方法并不能很好的进行处理，需要针对古文字的特殊噪声设计降噪的方法。

发明内容

本发明的目的是：针对古文字图像噪音大、长尾效应问题严重以及古文字知识库不完善等原因所造成的古文字识别分类少，准确率低的问题，而提出了一种基于目标检测和知识图谱的古文字识别方法，通过识别古文字图像中存在的部件，来推理得到古文字的分类。通过基于目标检测和知识图谱推理的方法可以增加对于识别的分类的数目，可以进行更多的古文字的分类。

为实现上述目的，本发明采用如下技术方案：一种基于目标检测和知识图谱的古文字识别方法，其特征在于，包括如下步骤：

步骤一、对古文字图片数据进行部件标注和数据预处理，以扩充古文字图像数据集

①收集古文字图片，获得古文字样本图像，遍历古文字样本图像，对每张古文字样本图像中的古文字用标注框进行部件标注，并将对应的标注作为部件分类标签；

②对标注好部件分类标签的古文字样本图像进行数据预处理，以扩充古文字图像数据集；所述预处理的方法包括图片大小调整、色域变换和图片翻转；

步骤二、构建古文字部件识别模型，利用步骤一中扩充后的古文字图像数据集训练古文字部件识别模型，对古文字部件进行检测，识别出古文字图片所包含的部件和部件的位置坐标；

所述古文字部件识别模型中主干特征提取网络通过对YOLOv4算法中的CSPDarknet53网络用MobileNet网络进行替换生成，并且YOLOv4算法中加强特征提取网络由空间金字塔池化网络SPP和路径聚合网络PANet构成，采用yolohead预测网络进行预测来识别出古文字的部件；

步骤三、根据步骤二识别出的古文字图片所包含的部件和部件的位置坐标，构建古文字部件位置关系识别模型，得出部件的位置关系，以判断文字结构；

所述古文字部件位置关系识别模型中文字结构包括独体字、上下结构、左右结构、包围结构、左中右结构、上中下结构、左右上下结构和上下左右结构；

步骤四、构建古文字知识图谱；

步骤五、通过所述古文字知识图谱，根据部件和部件位置关系来推理出文字结果。

作为本发明的优选方案，步骤一中还包括：

对标注好部件分类标签的古文字样本图像进行裁剪，得到单字样本集合，所述单字样本为具有标签的部件图像，且每个单字样本对应一个部件；

对单字样本进行预处理，所述预处理的方法包括图片大小调整、色域变换和图片翻转；

预处理后，通过图像拼接方法对单字样本进行拼接扩充原数据集。

进一步，所述的基于目标检测和知识图谱的古文字识别方法，当部件坐标满足以下关系时，文字结构是左右结构；

当部件坐标满足以下关系时，文字结构是上下结构；

当部件坐标满足以下关系时，文字结构是包围结构；

当部件坐标满足以下关系时，文字结构是左右上下结构；

当部件坐标满足以下关系时，文字结构是上下左右结构；

当部件坐标满足以下关系时，文字结构是上中下结构；

当部件坐标满足以下关系时，文字结构是左中右结构；

其中，x_a和y_a分别为第一个部件的中心点的横坐标和纵坐标，x_b和y_b分别为第二个部件的中心点的横坐标和纵坐标，x_a1和y_a1分别为第一个部件左上角的横坐标和纵坐标，x_a2和y_a2分别为第一个部件右下角的横坐标和纵坐标，x_b1和y_b1分别为第二个部件左上角的横坐标和纵坐标，x_b2和y_b2分别为第二个部件右下角的横坐标和纵坐标，x_c和y_c分别为第三个部件的中心点的横坐标和纵坐标，x_c1和y_c1分别为第三个部件的左上角的横坐标和纵坐标，x_c2和y_c2分别为第三个部件的右下角的横坐标和纵坐标。

进一步，所述构建古文字知识图谱的过程如下：

(1)确定数据格式：数据包括文字字符、包含部件、包含部件数目和文字结构；

(2)对数据进行筛选，使得每条数据都有相同的属性，得到易于计算机进行读取的结构化数据；

(3)将筛选过后的数据统一存储在结构化的xlsx文件中，并定义实体和关系，

关系名称	关系描述
		包含(Contain)	每个字符包含的部件

(4)使用JAVA语言构建知识图谱

包括通过函数build_CRKG_ontology定义古文字知识图谱本体和通过函数build_instance构建实例，其中定义古文字知识图谱本体包括定义文字类与部件类，定义类之间的关系和定义本体中类拥有的属性；构建实例包括构建所有字符实例，构建所有部件实例和构建字符与部件关系。

进一步，所述古文字部件位置关系识别模型中文字结构还包括：半包围左上右下结构、包围上下结构，半包围左下右上结构和三角结构。

通过上述设计方案，本发明可以带来如下有益效果：本发明提出了一种基于目标检测和知识图谱的古文字识别方法，该古文字识别方法在去除古文字图像大量的噪声的同时，使用了相比传统检测方法先进的目标检测方法，通过对古文字当中的部件进行识别取代传统方法中对于整个文字进行识别，并构建了古文字全面的知识图谱，方便古文字的查询和推理，在保证识别准确率的同时增加了对于识别的分类数量。

综上，本发明提出的基于目标检测和知识图谱的古文字识别方法可以提升对于古文字识别的种类，并构建全方位的古文字知识库，起到对古文字保护的同时，也方便了考古学研究者进行研究和识别。

附图说明

结合附图并参考以下具体实施方式，本发明公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，元件和元素不一定按照比例绘制：

图1是本发明实施例提供的基于目标检测和知识图谱的古文字识别方法的流程图；

图2是本发明实施例单个古文字构建的知识图谱的可视化展示效果图；

图3是本发明实施例部件位置关系的结构图；

图4是本发明实施例部件位置关系为左右上下结构的结构图；

图5为是本发明实施例部件位置关系为上下左右结构的结构图；

图6是本发明实施例中一种基于目标检测识别部件的识别结果。

具体实施方式

下面将参照图1、图2、图3、图4、图5、图6和说明书中的步骤更详细地描述本发明公开的实施例。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

本发明提出了一种基于目标检测和知识图谱的古文字识别方法，对古文字的识别主要需要从两个方面入手，一方面需要对古文字图片中的包含部件进行识别以及部件位置关系识别，部件也称为构件，指的是由笔画组成的具有组配文字功能的构字单位，本发明中部件指的是组成甲骨文文字的结构部件，本发明中将部件主要分为199种，主要包括宀，于，十，口等部件；另一方面，将识别出的部件通过知识图谱推理来获得推理结果，具体分为以下几步：

第一步，对古文字图片数据进行部件标注和数据预处理，以扩充古文字图像数据集

在对古文字图片数据进行数据预处理中，由于古文字的单字数据量平均每个字只有不足十张，且其中还包括异体字。因此，本发明采用对古文字图片进行随机预处理来扩充数据集，随机预处理的方法主要包括对图片进行大小调整、色域变换、图片翻转和图片拼接。借助labelimg软件(图像标注软件)对每张甲骨文图片中的部件进行标注(即对每张古文字图片中的古文字用标注框进行部件标注，并将对应的标注作为部件分类标签)；对于图片拼接，首先将已经标注好的甲骨文图片进行处理，具体为：将标注好的甲骨文图片中每个部件裁剪下来，将每个部件作为单字保存，单字图片宽度width，高度height，本发明以字的左上角为原点，横向表示x轴，纵向表示y轴，因此单字图片的左上角坐标(0,0)，右下角坐标为(width,height)，并对单字图片使用双线性插值的方法，将图片按倍数放大分辨率。对于单个甲骨文图片中截取下来的每一个甲骨文部件图片进行随机分辨率放大处理，之后将每个单独的部件进行拼接；本发明中所述图片翻转主要指的是对原图片进行左右的翻转，图片的大小调整主要是对原图片进行缩放处理，色域变化是指对原图片的饱和度，明亮度进行改变，随机选择2至4个经过数据预处理之后的图片进行随机拼接和按结构逐个拼接。在随机拼接中，选择一个固定大小600*600px的二维矩阵作为背景图片，之后通过随机位置生成距背景图片左上角原点随机宽和高，这里用randomx和randomy来表示随机的宽和高，通过上述随机生成的宽和高将指定背景位置的子矩阵用预处理之后部件图片进行替换，同时将标签的位置也进行调整，单字图片的左上角坐标由(0,0)变为(randomx,randomy)，右下角坐标由(width,height)变为(width+randomx,height+randomy)。在放置第二个及以后的部件时需要进行重叠判断，如果与前一个部件重叠，则需要重新随机一个位置坐标，由于背景矩阵较大，因此基本不会出现多次重复随机的性能问题。

在按结构拼接时，以按照左右结构摆放部件为例，为模拟真实的古文字数据集，将两个图片之间的间隙gap也采取随机生成，即有的部件之间有空隙，即gap>0，有的部件之间轻微重叠，即gap<0。不重叠拼接时，只需将新部件放在右边即可，若重叠则需要将重叠部分的矩阵数据进行异或处理，来实现重叠效果。在计算后续部件位置和标签位置时，需要先计算原图的高度h1，新部件的高度h2，如果h1>h2，需要将新部件的上下内边距padding补全保持和h1高度一致，上内边距称为paddingtop，再与原图拼接，原图宽originx，高originy，新的标签位置左上角坐标变为(originx+gap，paddingtop)，右下角坐标变为(originx+gap+width，paddingtop+height)；如果h1<h2，需要给原图进行上下内边距padding补全，初始设置原图标签左上角坐标(originx1，originy1)，右下角坐标(originx2，originy2)，调整更新后标签左上角坐标为(originx1，originy1+paddingtop)，右下角坐标为(originx2，originy2+paddingtop)，通过上述的拼接变换扩充了原本的数据集。

第二步，构建古文字部件识别模型

在第二步构建古文字部件识别模型中，需要构建一个神经网络模型，之后通过第一步得到的数据进行模型训练。在对比了SSD，Retinanet,Fast-RCNN,RefineDet几种模型后，YOLOv4神经网络模型在所有测试中都表现良好，具有更高的精度，更快的速度以及更少的重叠，以及对小目标和容忍噪声的敏感性，从研究甲骨文的角度来看，YOLOv4神经网络模型作为优选的模型，本发明提出了一种基于改进的YOLOv4神经网络模型进行识别，进一步提升了对于部件识别的准确率，整个框架主要分为三部分：

第一部分通过主干特征提取网络主要是进行初步的特征提取，提取的特征主要包括纹理，颜色和形状等特征，利用主干特征提取网络之后，可以获得三个初步的有效的特征层。

第二部分加强特征提取网络的功能是进行加强的特征提取，主要通过使用SPP网络结构和PANet网络结构，SPP结构利用{1*1,5*5,9*9,13*13}4个不同大小的池化核进行池化处理再将不同的特征图进行拼接，可以极大地增加感受野，分离出最显著的上下文特征。再利用PANet加强特征提取网络，PANet是2018年提出的一种实例分割算法，主要的特点就是可以对于特征进行反复的特征提取，对三个初步的有效特征层进行特征融合，获得三个更有效的有效特征层。

第三部分预测网络的功能是利用更有效的有效特征层获得预测结果，主要通过yolohead进行预测来识别出古文字的部件。

在第一部分当中使用mobilenet系列网络代替YOLOv4当中的CSPdarknet53进行特征提取，将三个初步的有效特征层相同shape的特征层进行加强特征提取，便可以将mobilenet系列替换进YOLOv4当中，mobilenet系列网络进行特征提取的优势在于提出了一种轻量级的深层神经网络，核心思想主要是使用了深度可分离卷积块，利用深度可分离卷积块大幅度减少网络的参数量。

在进行初步的有效特征层构建时，需要找到与CSPdarknet53相同的输出结构进行输出，将mobilenet特定shape的有效的特征层传入到加强特征层，这里主要取出以下几种shape，其中第一层输出的结果是52*52*256，第二层输出的结果是26*26*512，第三层输出的结果是13*13*1024，利用这三个有效特征层替换原来YOLOv4主干网络CSPdarknet53的有效特征层，之后利用这个三个初步的有效特征层进行进一步的加强特征提取。

在YOLOv4的网络结构当中，对于加强特征提取网络来说，同样使用mobilenet可分离卷积代替PAnet当中的3*3的卷积块以减少参数量，使用mobilenet深度可分离卷积块来替换3*3的卷积块，使得参数量由5000万减少到1000万。

接下来通过改进的YoloV4神经网络模型对于甲骨文图片进行训练和预测，其中甲骨文图片数据总量总共有13106张，有9174张作为训练集，3932张作为测试集，其中部件总共分为199种，识别的甲骨文分类共有2755分类，识别结果主要包括输入的甲骨文图片中部件的标签和部件的位置坐标，标签是图片中识别出部件的拼音展示如附图6，具体每个部件分类对应的标签是经过多名古文字专家考释辨认对应的部件并对应的现代文字，位置坐标的值分别是部件左上角坐标和右下角坐标，通过识别出部件的坐标构建古文字部件位置关系识别模型。

在第三步构建古文字部件位置关系识别模型中，本发明定义的古文字模型中的古文字结构主要包括以下几种，分别是独体字、上下结构、左右结构、包围结构、左中右结构、上中下结构、左右上下结构，上下左右结构，独体字是由单独的部件构成，如“中”，上下结构指部件位置为上下关系如“李”，左右结构指部件位置为左右关系，如“打”，包围结构如“反”，左中右结构如“棚”，上中下结构指三个部件位置分别位于上中下，如“寶”，左右上下结构如“桔”左侧由部件木字旁，右侧由部件士和口组成，上下左右结构如“胡”，左侧由部件十和口组成，右侧由部件月组成，具体结构请参照说明书附图3，独体字、上下结构、左右结构、包围结构、左中右结构、上中下结构、左右上下结构和上下左右结构，图中每个矩形代表一个部件，为方便理解，图4示出了部件位置关系为左右上下结构的结构图；图5示出了部件位置关系为上下左右结构的结构图，图4和图5中的A、B、C分别代表部件A、部件B，部件C，部件位置关系满足左右上下结构时，部件B和部件C呈上下布置，部件B和部件C整***于部件A的右侧，部件位置关系满足上下左右结构时，部件A和部件B呈上下布置，部件A和部件B整***于部件C的左侧。

根据第二步已经识别出的部件标签和位置，使用锚点的方式来判断部件结构关系。

下面以两个部件为例，其中，x_a和y_a分别为第一个部件的中心点的横坐标和纵坐标，x_b和y_b分别为第二个部件的中心点的横坐标和纵坐标，x_a1和y_a1分别为第一个部件左上角的横坐标和纵坐标，x_a2和y_a2分别为第一个部件右下角的横坐标和纵坐标，x_b1和y_b1分别为第二个部件左上角的横坐标和纵坐标，x_b2和y_b2分别为第二个部件右下角的横坐标和纵坐标，以此类推x_c和y_c分别为第三个部件的中心点的横坐标和纵坐标，x_c1和y_c1分别为第三个部件的左上角的横坐标和纵坐标，x_c2和y_c2分别为第三个部件的右下角的横坐标和纵坐标。这里主要列举几种位置关系的判定方式

当检测到一个部件时，输出文字结构是独体字；

当部件坐标满足以下关系时，文字结构是左右结构；

当部件坐标满足以下关系时，文字结构是上下结构；

当部件坐标满足以下关系时，文字结构是包围结构；

当部件坐标满足以下关系时，文字结构是左右上下结构；

当部件坐标满足以下关系时，文字结构是上下左右结构；

当部件坐标满足以下关系时，文字结构是上中下结构；

当部件坐标满足以下关系时，文字结构是左中右结构；

第四步，构建全面的古文字知识图谱，在第四步构建甲骨文的知识图谱中，包括以下几个步骤：

(1)根据查询的需要来确定数据格式，其中数据格式下表中只示出了部分数据，主要包括文字字符、包含部件、包含部件数目和字形结构等。由于整个数据表数据量过大，以下为甲骨文-部件对应表的部分展示

文字ID	文字字符	包含部件数	包含部件	文字结构
					jia_c_0030	柯	2	木,可	左右结构
jia_c_0031	梠	3	木,口	左右结构-上下结构
					jia_c_0032	女	1	女	独体字
jia_c_0033	奴	2	女,又	左右结构
					jia_c_0034	奻	2	女	左右结构
jia_c_0035	好	2	女,子	左右结构
					jia_c_0036	妄	2	亡,女	上下结构
jia_c_0037	姞	3	女,士,口	上下结构-左右结构
					jia_c_0038	姦	3	女	左中右结构
jia_c_0039	人	1	人	独体字
					jia_c_0040	从	2	人	左右结构

(2)然后对数据进行筛选后，主要删除一些数据不完整的情况，数据不完整通常指结构不完整或者包含部件不完整，保留得到需要的结构化数据，即，使得每条数据都有相同的属性，得到易于计算机进行读取的结构化数据。

(3)对获取的数据进行统一处理，存储在结构化的xlsx文件中，并定义实体和关系，以下主要列举几种实体及其描述。

几种实体及其描述

实体名称	实体描述
		字符(Character_zh)	甲骨文的字型
部件(Radical_zh)	用来组成甲骨文的部件
		结构(structure_zh)	甲骨文的文字结构
关系名称	关系描述
		包含(Contain)	每个字符包含的部件

(4)使用JAVA语言构建知识图谱

以下简单介绍创建的过程，首先创建甲骨文的文字类和部件类，之后通过DatatypeProperty函数将实体和文字数据相关联，通过ObjectProperty函数将实体与其他实体相关联，如字符和部件之间为包含关系，通过build_Radical_instance()函数创建部件实体，通过build_relations()函数创建实体关系

通过函数build_CRKG_ontology定义古文字知识图谱本体

I.定义文字类与部件类。在本体模型中，先定义总的两大类，即文字类和部件类。然后在文字类下添加所有在文字表格数据中的具体的文字子类，并以"Character_eg"，即"字符英文表示"作为每个甲骨文文字类的实例。同样，在部件类下添加所有在部件表格数据中的具体的部件子类，并以"Radical_eg"，即"部件英文表示"作为每个部件的实例。

II.定义类之间的关系。文字与部件的关系为文字包含部件，因此定义文字和部件的关系为“包含”。

III.定义本体中类拥有的属性。包括"Character_eg","Character_zh","Radical_all_num","Structure_eg","Structure_zh","Radical_zh","Radical_eg"，即"字符英文表示"，"字符中文表示"，"包含部件数"，"字符结构英文表示"，"字符结构中文表示"，"部件中文表示"，"部件英文表示"。

通过函数build_instance构建实例，以下为具体描述

I.构建所有字符实例，为每个字符实例添加属性"Character_eg","Character_zh","Radical_all_num","Structure_eg","Structure_zh"。

II.构建所有部件实例，为每个部件实例添加属性"Radical_zh","Radical_eg"。

III.构建字符与部件关系，将字符实例与字符包括的部件实例建立"包含(contain)"关系。

第五步是根据上述构建的知识图谱进行推理得到最终的结果，具体步骤为用户输入一张图片，通过第二步骤中构建的神经网络模型(即古文字部件识别模型)检测出图片包含的部件和部件的位置坐标，通过位置坐标根据古文字部件位置关系识别模型计算得出部件的位置关系，再将识别出的部件和部件位置关系通过知识图谱进行推理得到该甲骨文图片对应的现代汉语。如用户输入“莫3”字的甲骨文图片，识别出甲骨文图片包含的部件为“木”，“木”和“日”并得到三个部件的左上角，右下角的坐标，通过得到的坐标根据古文字部件位置关系识别模型计算得出文字结构为上下结构，最后通过得到的部件“木”，“木”和“日”和位置结构上下结构根据步骤四中构建的知识图谱推理得出甲骨文对应的现代汉语文字为“莫3”。