CN117409422A

CN117409422A - 一种基于手写输入的甲骨文检索方法

Info

Publication number: CN117409422A
Application number: CN202311724016.2A
Authority: CN
Inventors: 陶也; 杨溪; 李春桃
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-01-16

Abstract

本发明公开了一种基于手写输入的甲骨文检索方法，涉及深度学习技术领域，包括：对手写甲骨文数据集进行预处理，并将预处理后的所述手写甲骨文数据集划分为训练集和验证集；搭建残差网络模型，基于所述训练集对所述残差网络模型进行训练，并将所述验证集输入所述训练后的残差网络模型中进行验证，选择分类准确率最高时残差网络模型的参数作为所述残差网络模型最终的训练参数，获得训练好的残差网络模型；基于手写甲骨文字识别与检索界面输入甲骨文字，通过所述训练好的残差网络模型进行识别与检索，获得检索结果。本发明提高了识别准确率及实用性。

Description

一种基于手写输入的甲骨文检索方法

技术领域

本发明涉及深度学习技术领域，尤其涉及一种基于手写输入的甲骨文检索方法。

背景技术

目前大多数将深度学习模型运用到甲骨文学领域进行识别所使用的数据集为甲骨文图像数据集，而非手写甲骨文数据集，但手写甲骨文识别的研究可以借鉴手写汉字的研究，因为甲骨文作为汉字的根源，其和现代手写汉字字体有些相似的属性，例如笔画。

深度卷积神经网络（DCNNs）在手写汉字识别和海量图像分类等计算机视觉任务中表现出色，近年来DCNN在解决手写汉字识别问题上与传统方法相比取得了巨大的进步。现有技术中提出了MCDNN（Multi-column Deep Neural Network）用于手写汉字识别，其是第一个利用CNN来处理此问题的。随后，在ICDAR手写汉字比赛中，有学者对CNN进行了改良，获得了脱机识别第一名的好成绩。一种基于卷积神经网络(CNN)的汉字识别框架，利用三维形变技术生成大规模数据，并参考GoogLeNet网络模型，通过多网络投票策略实现手写汉字识别，在脱机手写汉字识别比赛测试集上准确率达到96.79%。2017年，有研究者采用传统梯度图作为输入，取得96.95%的准确率。同年，还有通过采用低秩扩展和剪枝技术以克服训练速度和存储空间的问题，并获得了不错的成果。2018年，现有技术中提出了一种综合速度、大小和性能的网络。该网络采用Fire Module与全局加权平均池化（GWAP）以及量化，存储空间仅需3.3MB，识别准确率达到97.11%。上述证明可以使用卷积神经网络来识别手写甲骨文字。

而现有的手写甲骨文字识别技术如甲骨文手写输入法应用软件，其虽然也实现了手写甲骨文字的识别，但存在的缺点是在实际应用中识别率不高，因用户在书写甲骨字时存在多种手写风格，而这些字与训练集中的参考字可能风格大不一致，没有考虑到将用户的输入作为反馈对模型再次进行训练以增加模型能识别的手写甲骨文的风格，导致用户手写输入与参考图片对应不上，从而导致在实际应用中识别率不高。

发明内容

为解决上述技术问题，本发明提出了一种基于手写输入的甲骨文检索方法，用户可以在最终的手写甲骨文字识别与检索界面中选择将自己的手写图片加入进数据集，然后模型会根据更新后的数据集重新训练模型以更新参数，使模型能够识别更多书写风格的手写甲骨文字，提高识别准确率及实用性。

为实现上述目的，本发明提供了一种基于手写输入的甲骨文检索方法，包括：

S1、对手写甲骨文数据集进行预处理，并将预处理后的所述手写甲骨文数据集划分为训练集和验证集；

S2、基于所述训练集对残差网络模型进行训练，并将所述验证集输入训练后的残差网络模型中进行验证，选择分类准确率最高时残差网络模型的参数作为所述残差网络模型最终的训练参数，获得训练好的残差网络模型；

S3、基于手写甲骨文字识别与检索界面输入甲骨文字，通过所述训练好的残差网络模型进行识别与检索，获得检索结果，并将待检测手写甲骨文字加入所述手写甲骨文数据集；

S4、判断所述手写甲骨文数据集是否达到预定规模，若是，则形成新的手写甲骨文数据集并返回S1，若否，则输出所述检索结果。

优选地，对所述手写甲骨文数据集进行预处理包括：

数据增强处理、数据标准化处理和图像尺寸归一化处理；其中，所述数据增强处理采用仿射变化方法、随机裁剪方法和添加高斯噪声方法。

优选地，所述残差网络模型的结构依次为：卷积层、BN层、relu激活函数层、最大池化层、若干卷积模块、平均池化层以及softmax层；其中，所述卷积模块中包括若干Bottleneck子模块以及Bottleneck子模块。

优选地，所述残差网络模型进行训练的过程中使用交叉熵损失函数作为模型的损失函数，模型的优化算法为Adam优化算法。

优选地，获得所述训练好的残差网络模型，包括：

通过残差网络模型对所述训练集训练epoch次，在每次epoch中，将调整参数后的模型在验证集上前向传播一次，不更新模型的参数，将输出在所述验证集上的分类准确率作为选择标准；当epoch次训练结束，保存在所述验证集上分类准确率最高的参数作为最终的模型参数，获得所述训练好的残差网络模型。

优选地，通过所述训练好的残差网络模型进行识别与检索，包括：

用户通过所述手写甲骨文字识别与检索界面输入甲骨文字，所述手写甲骨文字识别与检索界面将用户手写区域截图，并将用户手写的甲骨文字输入至训练好的模型中进行识别与检索，获得输出结果。

优选地，所述输出结果包括初定结果和推荐结果，其中，所述初定结果为预测结果概率值第一的甲骨文字标准图片，所述推荐结果为预测结果概率值第二至第七的甲骨文字标准图片。

与现有技术相比，本发明具有如下优点和技术效果：

本发明考虑到了用户手写风格的多样性，在与用户交互阶段，用户可以在最终的手写甲骨文字识别与检索界面中选择将自己的手写图片加入进数据集，在加入判断时，界面会根据用户的不同反馈将用户手写输入的甲骨文图片加入进其对应的正确类别数据集中，且模型会根据更新后的数据集重新训练模型以更新参数，使模型能够识别更多书写风格的手写甲骨文字，提高识别准确率及实用性。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中手写甲骨文字图片仿射变化示例图，其中（a）为原图，（b）为经过仿射变化后的图；

图2为本发明实施例中手写甲骨文字图片随机裁剪示例图，其中（a）为原图，（b）为经过随机裁剪后的图；

图3为本发明实施例中手写甲骨文字图片添加高斯噪声示例图，其中（a）为原图，（b）经过添加高斯噪声后的图；

图4为本发明实施例中卷积模块结构示意图；

图5为本发明实施例中resnet50网络的整体结构图；

图6为本发明实施例中手写甲骨文字识别与检索界面示意图；

图7为本发明实施例中界面输出内容示意图；

图8为本发明实施例中界面显示的类别图；

图9为本发明实施例中一种基于手写输入的甲骨文检索方法流程图；

图10为本发明实施例中最终手写甲骨文字识别与检索界面的实现过程流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明提出了一种基于手写输入的甲骨文检索方法，如图9，具体包括：

对手写甲骨文数据集进行预处理，并将预处理后的手写甲骨文数据集划分为训练集和验证集；

本实施例使用的手写甲骨文数据集（HWOBC）是从“殷契文渊”网站获取，其是一个手写字符数据集，针对手写甲骨字脱机识别训练设计出的。此外，数据集采集所使用的字库，为甲骨文信息处理***重点实验室所开发，对应字库版本为AYHGW20200206.ttf。

对于数据集使用的预处理方法包括数据增强，数据标准化，图像尺寸归一化。其中数据增强采用仿射变化（图1（a）-图1（b））、随机裁剪（图2（a）-图2（b））、添加高斯噪声（图3（a）-图3（b））三种方法。

数据标准化将图片三个通道中的数据处理到[-1,1]区间内，且均值为0，方差为1。图像尺寸归一化使用双线性插值法对图像尺寸都归一化为224*224像素大小。

搭建残差网络模型，基于所述训练集对所述残差网络模型进行训练，并将所述验证集输入所述训练后的残差网络模型中进行验证，选择分类准确率最高时残差网络模型的参数作为所述残差网络模型最终的训练参数，获得训练好的残差网络模型；

本实施例首先搭建ResNet-50模型（即残差网络模型），ResNet-50模型首先由一个7*7，步长为2的卷积层加上Batch Normalization层（以下简称BN层）和relu激活函数层（以下简称relu层组成）。其次有一个3*3最大池化层，步长为2。再其次由四个卷积模块组成分别是“conv2_x”层、“conv3_x”层、“conv4_x”层“conv5_x”层。其中“conv2_x”层由三个Bottleneck子模块组成，一个Bottleneck子模块如图4。而后续“conv3_x”层、“conv4_x”层“conv5_x”层与“conv2_x”层类似，都是由几个Bottleneck模块组成，各层Bottleneck模块内部有细微差距，但整体结构类似。各模块间参数的变化如下表1所示。最后图片经过平均池化层后送入到全连接层，再送入softmax层将向量中各类别的得分值转化为属于每个类别的概率值。

表1

整体resnet50的网络结构如图5。其中的STAGE 0-4即“conv2_x”层、“conv3_x”层、“conv4_x”层“conv5_x”层。

搭建完成后，基于迁移学习的方法，将在ImageNet上训练好的ResNet-50的模型参数作为预训练权重导入模型中，使用迁移学习的方法加载部分预训练权重可以让模型更快地训练起来。将模型最后的全连接层类别个数修改为3881，即手写甲骨文数据集中包含的甲骨文字类别数。

将训练集中的所有图片当做模型的输入数据集，在训练的过程中，使用的损失函数为交叉熵损失函数：

其中，e是一个无限不循环的无理数，其近似值为2.71828，n为训练集样本个数，j为变量，其值取0到n的整数，是预测结果，其是一个向量/>，其元素个数和类别数一致；class表示这个样本的实际标签，比如，样本实际属于分类2，那么class=2。

当为1时，即预测结果最近经真实值时，损失函数的值为0。

使用的优化算法为Adam优化算法，其从梯度的第一次和第二次矩的预算来计算不同参数的自适应学习速率。数据输入进网络后，网络训练数据集epoch次，每次都以损失函数值下降的目的调整网络内部参数。一个epoch是指训练集中所有数据训练一次的过程。但当epoch次训练结束，并不知道模型在哪一次的迭代中调整出的参数是最优的，且光看模型在训练集上的准确率来选择参数，有可能会选择在训练集上过拟合的那一组。故在每次epoch中，将调整参数后的模型在验证集上前向传播一次，但不更新模型的参数，只输出在验证集上的分类准确率作为选择标准。当epoch次训练结束，保存在验证集上分类准确率最高的那组参数作为我们最终的模型参数。最后将训练好的模型在测试集上对手写甲骨文字图片进行分类预测，得到最终的模型准确率。

基于手写甲骨文字识别与检索界面输入甲骨文字，通过所述训练好的残差网络模型进行识别与检索，获得检索结果。

在结果展示阶段，设计出手写甲骨文字识别与检索界面。在与用户交互阶段，用户可以根据界面给出的答案或者在推荐答案中挑选出正确的类别，选择将手写图片加入进该类别数据集，模型会根据更新后的数据集重新训练。

首先使用经过预处理后的手写甲骨文数据集训练ResNet-50模型，得到在训练集上分类准确率最高的一组参数作为该手写甲骨文字识别与检索界面的模型参数。用户在该界面上进行手写输入甲骨文字，界面会将用户手写区域截图，并将用户手写的甲骨文字交给训练好的模型。手写甲骨文字识别与检索界面手写甲骨文字识别与检索界面如图6。

用户在“画板”区进行手写甲骨文字，后点击“手写识别与检索”按钮，“画板”区内容被截图当做模型的输入，进行一次前向传播后，返回预测结果概率值第一的甲骨文字标准图片到“结果”区。返回预测结果概率值第二至第七的甲骨文字标准图片到“推荐结果”区。界面输出内容如图7。

若“结果”区显示的甲骨文字类别为该手写输入的甲骨文字的正确类别，故如果用户点击“手写图片加进数据集”按钮，该手写图片即被加入“结果”区显示的类别，如图8。最终手写甲骨文字识别与检索界面的实现过程如图10。

如果模型返回到“结果”区的图片类别并不是用户手写输入图片的类别，则用户可以在“推荐结果”区找到正确类别对应的标准甲骨文字图片，并点击按钮，即可将其放大展示到“结果”区。此时如果用户点击“手写图片加进数据集”按钮，则用户手写的甲骨文字图片即被加入该用户反馈的正确类别数据集中。只要收集到500的倍数张用户手写的图片，模型就会重新基于更新后的训练集开始训练以更新参数，使模型能够识别更多书写风格的手写甲骨文字，提高识别准确率及实用性。

本发明采用数据增强以及将用户手写的甲骨文字图片加入进训练集重新训练模型这两种技术以提高模型识别准确率。为证明这些技术有效果，将对比使用未进行数据增强的训练集训练出来的模型的准确率、使用只进行数据增强的训练集训练出来的模型的准确率、使用数据增强还基于500张用户手写的甲骨文字图片重新更新参数得出的模型的准确率，如下表2所示，在训练时上述三种情况均使用同样的训练参数。

表2

由表2对比，证明本训练采用的数据预处理方法即数据增强以及将用户手写的甲骨文字图片加入进训练集重新训练模型能提升模型最终分类准确率，故这两种方法是有意义的。而本发明使用这两种技术后最终的识别准确率为97.80%，是在收集了500张用户手写的甲骨文字图片重新更新参数得出的模型的准确率，而随着收集的用户手写图片数量变多，此准确率还会上升。

本发明考虑到了用户手写风格的多样性，在与用户交互阶段，用户可以在最终的手写甲骨文字识别与检索界面中选择将自己的手写图片加入进数据集，在加入判断时，界面会根据用户的不同反馈将用户手写输入的甲骨文图片加入进其对应的正确类别数据集中。然后模型会根据更新后的数据集重新训练模型以更新参数，使模型能够识别更多书写风格的手写甲骨文字，提高识别准确率及实用性。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于手写输入的甲骨文检索方法，其特征在于，包括：

2.根据权利要求1所述的基于手写输入的甲骨文检索方法，其特征在于，对所述手写甲骨文数据集进行预处理包括：

3.根据权利要求1所述的基于手写输入的甲骨文检索方法，其特征在于，所述残差网络模型的结构依次为：卷积层、BN层、relu激活函数层、最大池化层、若干卷积模块、平均池化层以及softmax层；其中，所述卷积模块中包括若干Bottleneck子模块以及Bottleneck子模块。

4.根据权利要求3所述的基于手写输入的甲骨文检索方法，其特征在于，所述残差网络模型进行训练的过程中使用交叉熵损失函数作为模型的损失函数，模型的优化算法为Adam优化算法。

5.根据权利要求4所述的基于手写输入的甲骨文检索方法，其特征在于，获得所述训练好的残差网络模型，包括：

6.根据权利要求1所述的基于手写输入的甲骨文检索方法，其特征在于，通过所述训练好的残差网络模型进行识别与检索，包括：

7.根据权利要求6所述的基于手写输入的甲骨文检索方法，其特征在于，所述输出结果包括初定结果和推荐结果，其中，所述初定结果为预测结果概率值第一的甲骨文字标准图片，所述推荐结果为预测结果概率值第二至第七的甲骨文字标准图片。