CN109800754A

CN109800754A - 一种基于卷积神经网络的古字体分类方法

Info

Publication number: CN109800754A
Application number: CN201811487296.9A
Authority: CN
Inventors: 吴以凡; 赵月; 张桦; 戴国骏; 史建凯
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2019-05-24
Anticipated expiration: 2038-12-06
Also published as: CN109800754B

Abstract

本发明公开了一种基于卷积神经网络的古字体分类方法。本发明首先利用爬虫技术爬取古字体类别图像数据集，通过数据扩充使训练集样本趋于平衡，对已经平衡的训练集样本进行灰度化处理并将图像resize到目标图像大小，然后对样本集进行直方图均衡化处理，通过N8连通降噪算法去除图像中孤立的噪点，最后基于模糊集理论并利用香农熵函数对图像进行二值化处理，较好的保留了图像的细节特征；基于分类任务的目标函数将中心损失函数与传统的交叉熵损失函数配合使用，增大类间距离并减小类内距离，在一定程度上提高了特征的分辨能力，通过预先定义好的网络模型对预处理后的图像进行训练，利用混淆矩阵对分类结果准确率进行评估。本发明对退化的古字体图像预处理效果显著，通过优化参数设置，利用适当的训练技巧，训练卷积神经网络模型，实现了更精确的古字体分类效果。

Description

一种基于卷积神经网络的古字体分类方法

技术领域

本发明涉及中国传统汉字图像处理领域，特别是一种基于卷积神经网络的古字体书法分类方法。

背景技术

汉字，作为中国传统的文字，至今已有数千年的历史，同时，汉字也是中国传统艺术和文化的重要组成部分。然而，时间已经导致旧书法作品风化和损坏，因此有必要利用先进的技术来保护这些作品。我们将提供一种针对中国古字体书法作品的预处理(去噪)算法，在此基础上利用卷积神经网络对数据集进行分类，以达到更好的分类正确率。大多数古字体(中国传统书法)都是用中国传统毛笔书写，这些传统毛笔中的笔迹比硬笔书法要厚重得多，因此字符里存储了更多的形状信息；然而风化的作品存在许多噪点，很大程度上影响分类效果。

近年来，大批量的古字体书法已经被数字化以用于研究和普遍的艺术实践。因此，对古字体识别和分类的需求正不断增加。目前，已有许多相关解决方案，这些解决方案大多是基于某些特征提取和K邻近值技术，并且在前期的图像预处理后，处理效果不太显著，通常用于字体的识别和单一的特征提取。另一方面，卷积神经网络已被广泛用于手写字符的识别，但是缺乏在中国古字体方向的研究。基于这种情况，我们希望探索卷积神经网络在古字体风格样式识别上的应用，实现更***分类的目标，为后续做精确的识别以及古字体研究管理打下坚实的基础。针对上述问题及现实意义，本发明将提升在数据预处理方面的能力，通过优化参数设置，利用适当的训练技巧，训练卷积神经网络模型，以实现更好的分类性能。

发明内容

本发明的目的在于提供一种基于卷积神经网络的古字体分类方法。

本发明通过将基于深度学习的卷积神经网络应用于中国传统书法字体分类中，来解决字体风格分类问题。首先，结合直方图均衡化以及基于模糊集理论的一种图像二值化算法对数据集图像进行预处理；然后，在经过预处理过后的样本集上训练卷积神经网络对其进行分类，实验结果表明，该方法能够对退化汉字进行更精确的分类识别。

一种基于卷积神经网络的古字体分类方法，分类问题就是搭建的模型在通过监督学习后建立起的一个离散映射关系，算法实现模块包括数据集获取、数据扩充、图像预处理模块、卷积神经网络模型模块、目标函数模块、优化器模块、网络训练模块、网络测试模块。实现本发明目的的技术解决方案包括如下步骤：

步骤1.数据集获取，利用爬虫技术中的BeautifulSoup来爬取CADAL数字图书馆中预先分割出来的单个书法字符，获取其中的五种标准古字体类别图像，利用这五种标准古字体类别图像组成本发明实验所需的古字体图像数据集。

步骤2.扩充古字体图像数据集，在步骤1所获取的古字体图像数据集上扩充数据样本数量，由于通过爬虫爬取的不同风格古字体的样本数量各不相同，为便于模型训练，针对数据样本较少的类别进行样本扩充，此处使用图像水平/垂直翻转、小范围旋转变换、监督式数据扩充法扣取、尺度变换方法，随机抽取已有样本图像应用数据扩充方法对样本数量进行扩充，从而增加训练样本和测试样本的多样性，一方面可以有效的避免过拟合，另一方面又会在一定程度上带来模型性能的提升。

步骤3.对扩充后的完整古字体图像数据集进行预处理操作，包括图像灰度处理、图像等比缩放、图像边缘填充、直方图均衡化处理、连通域降噪算法、基于模糊集理论的图像二值化算法。将原始古字体图像处理成正方形图像，原因是由于卷积神经网络模型的输入一般是方形图像。

首先，将原始古字体图像进行gray灰度处理；

其次，通过reshape获取灰度处理后输入图像的大小，大小包括长、宽、通道数，以长宽值较大的一边为基准等比例缩放，通过resize()函数等比例缩放到目标值大小；

然后对长宽值较小的一边进行边缘填充，根据图像边界的像素值，向外扩充图片，每个方向扩充的像素点为与目标大小差值的一半，得到图像的大小为既定目标大小的方形图像；

再然后对方形图像进行直方图均衡化处理，将方形图像中不均匀的灰度级分布，通过变换占据整个灰度域，使得细节更加丰富；经过直方图均衡化处理之后利用N8连通降噪算法对图像进行去噪处理，计算图像中每个像素点的8邻域去除孤立的噪点。

最后通过模糊集理论对图像进行二值化处理，首先利用模糊集理论建立像素点与前后背景阈值之间的模糊集X，也就是说定义了一个从图像X映射到[0,1]区间的模糊子集，然后通过动态调整阈值的方式建立完整的模糊矩阵，最后利用香农熵函数求整个图像模糊矩阵的最小信息熵E，此时对应模糊矩阵的阈值就是图像二值化的分割阈值。

步骤4.定义卷积神经网络模型，使用基于VGG19模型的卷积神经网络，以步骤3预处理过后的图像作为输入。首先，在每个模型中，使用3*3的卷积核滑动窗口，步长为1，Padding为1，以保留输入高度和宽度，并且最大池化层的滑动窗口为2*2，下采样步长为2；其次，在每个卷积层之后添加BatchNorm层，使得网络训练过程中每一层神经网络的输入保持相同的分布，使得训练深层网络模型更加容易和稳定；之后在每个BatchNorm层之后使用非线性ReLU激活函数，达到快速的收敛效果；然后接入3个全连接层，使用随机失活(dropout)来配备全连接层的卷积神经网络所使用的网络正则化方法，在一定程度上降低了神经元间依赖，避免了网络过拟合的发生，对于提升网络泛化性效果显著；最后得到全连接层输出维度为5的数据传递到Softmax函数中，全连接层是将网络特征映射到样本的标记空间做出相应的预测。

步骤5.定义目标函数，目标函数的作用则是用来衡量该预测值与真实样本标记之间的误差。基于分类任务的目标函数，此处将中心损失函数与传统交叉熵损失函数配合使用，中心损失函数在考虑类间距离的同时还将一些注意力放在减小类内差异上，类内差异减小的同时也使得特征具备更强的判别能力，即类别区分性越来越大；在分类性能上，中心损失函数结合交叉熵损失函数要优于只使用交叉熵损失函数作为目标函数的网络模型，从增大类间距离、减小类内距离的角度上不仅要求分类准确，而且还有助于提高特征的分辨能力。

步骤6.定义优化器，给模型设定一个理想的学习率，初始学习率设定为0.001，模型训练过程中，学习率随批次数增加而减缓，减缓机制如下：如果在两个或者更多训练批次数内损失停止下降，学习率按设定规则公式递减为利用基于动量的随机梯度下降类型的网络优化算法对模型进行训练和参数求解，将动量因子μ以动态设定方式进行调整，μ初始值设为0.5，之后随着训练批次数的增长逐渐变为0.9，可以有效的抑制振荡，还可在网络训练中后期趋于收敛、网络参数在局部最小值附近来回振荡时帮助其跳出局部限制，找到更优的网络参数。

步骤7.所述网络训练模块，在训练卷积神经网络时，首先选取步骤3数据集中80％的数据样本作为训练样本集，将训练数据随机打乱，确保模型在不同训练批次“看到”的数据样本是不同的，这样的处理方式不仅会提高模型收敛速率，同时也会提升模型在测试数据集上的预测结果。定义步骤5目标函数和步骤6优化器，调整网络参数并统计指标。将步骤4的网络模型作为训练模型对数据样本开始进行训练，训练结束之后保存模型，以方便后期快速的模型加载。

步骤8.所述网络测试模块，使用混淆矩阵进行评估，此矩阵是一种对分类算法准确率进行量化的工具，用来呈现分类性能的可视化效果，通过将模型预测的数据与测试数据进行对比，使用准确率指标对模型的分类效果进行度量，最终得出每类古字体被正确分类的概率，以及总的准确率。

步骤3所述的具体实现如下：

模糊集X的定义：

X＝{(x_mn,μ_x(x_mn))}

上述式中，x_mn表示像素(m,n)的灰度值。其中，对于二值化来说，每个像素对于其所属的类别(前景或背景)都应该有很相近的关系，因此，用μ_x(x_mn)来表示像素灰度x_mn与前/后背景阈值的关联度，即像素点(m,n)在模糊集X中的模糊度：

上述式中，μ₀表示背景像素平均值，μ₁表示前景像素平均值，t表示选取的图像灰度阈值，C表示最大像素灰度差。

基于直方图式的图像模糊矩阵最小信息熵E的定义：

上述式中，MN为图像像素总数，g为图像像素灰度级，μ_x(g)表示灰度级g的模糊度，h(g)表示灰度级g的像素点数量，S表示香农公式，其函数表示为：

S(μ_A(x_i))＝-μ_A(x_i)ln[μ_A(x_i)]-[1-μ_A(x_i)]ln[1-μ_A(x_i)]

上述式中，μ_A(x_i)表示在集合A中x_i发生的概率。香农熵函数被用来度量图像的模糊度，即用来衡量一个模糊集的模糊程度。

步骤5所述的目标函数具体如下：

网络最终的目标函数形式可表示为：

上述式中，λ为两个损失函数间的调节参数，λ越大则类内差异占整个目标函数较大的比重，反之亦然；其中，N为训练样本的个数，针对网络最后分类层第i个样本的输入特征为x_i，其对应的真实标记为y_i∈{1,2,…,C}，另h＝(h₁,h₂,…,h_C)^T为网络的最终输出，即样本i的预测结果，且交叉熵损失函数L_{cross entropy loss}中C为类别数，中心损失函数L_{center loss}中为第y_i类所有深度特征的均值(“中心”)。

步骤6所述的具体实现如下：

学习率减缓公式定义为：

上述式中，p为训练批次数(epoch)。

本发明的有益效果如下：

本发明基于卷积神经网络对中国古字体进行分类，具备完整的5种标准古字体数据样本集，对数据预处理结合直方图均衡化方法，使得图像细节更加显著，连通域降噪处理减少了图像中不必要的噪点对图像预测结果的影响，对图像进行基于模糊集理论的二值化处理之后，有效的将图像特征信息显现出来，并且能够很好的区分字体图像的边缘特征。VGGNet模型具有很好泛化性能，使用深度更深的卷积神经网络模型架构，已具备良好的性能，批量归一化能够稳定学习过程，有效提高模型收敛率，目标函数将中心损失函数结合交叉熵损失函数作为网络模型，从增大类间距离、减小类内距离的角度上不仅做到分类准确，而且还有效的提高了特征的分辨能力。适当的采取一些训练技巧，选择理想的网络参数、优化算法以及学习率的设置，网络更加稳定，结果更可靠，大幅度提高了古字体分类的正确率。

附图说明

图1是本发明流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图所示，基于卷积神经网络的古字体分类方法，具体包括如下步骤：

步骤1.数据集获取，通过利用爬虫技术中的BeautifulSoup来爬取CADAL数字图书馆中预先分割出来的单个书法字符，首先对网页HTML进行解析，获取源代码，然后读取的信息放入BeautifulSoup，将其解析为对象进行处理，采用搜索文档树的方法，获取img标签中的图片链接，通过链接下载图片到指定的文件地址，最后获得五类标准古字体风格图像，以组成本发明实验所需的古字体图像数据集。

步骤2.数据扩充，在步骤1所获取的古字体图像数据集上扩充数据样本数量，针对数据样本较少的类别进行样本扩充，此处使用图像水平/垂直翻转、小范围旋转变换、监督式数据扩充法扣取、尺度变换方法，随机抽取已有样本图像应用数据扩充方法对样本数量进行扩充，从而增加训练样本和测试样本的多样性，一方面可以有效的避免过拟合，另一方面又会在一定程度上带来模型性能的提升。

首先，将原始古字体图像进行gray灰度处理；

最后通过模糊集理论对图像进行二值化处理，首先利用模糊集理论建立像素点与前后背景阈值之间的模糊集X，也就是说定义了一个从图像X映射到[0,1]区间的模糊子集，然后通过动态调整阈值的方式建立完整的模糊矩阵，最后利用香农熵函数求整个图像模糊矩阵的最小信息熵E，此时对应模糊矩阵的阈值就是图像二值化的分割阈值；模糊集X的定义为：

X＝{(x_mn,μ_x(x_mn))}

基于直方图式的图像模糊矩阵最小信息熵E的定义：

S(μ_A(x_i))＝-μ_A(x_i)ln[μ_A(x_i)]-[1-μ_A(x_i)]ln[1-μ_A(x_i)]

上述式中，μ_A(x_i)表示在集合A中x_i发生的概率。香农熵函数被用来度量图像的模糊度，即用来衡量一个模糊集的模糊程度。在整个过程中取香农熵值最小时的阈值t作为最终的分割阈值。

步骤5.定义目标函数，目标函数的作用则是用来衡量该预测值与真实样本标记之间的误差。基于分类任务的目标函数，此处将中心损失函数与传统交叉熵损失函数配合使用，中心损失函数在考虑类间距离的同时还将一些注意力放在减小类内差异上，类内差异减小的同时也使得特征具备更强的判别能力，即类别区分性越来越大；在分类性能上，中心损失函数结合交叉熵损失函数要优于只使用交叉熵损失函数作为目标函数的网络模型，从增大类间距离、减小类内距离的角度上不仅要求分类准确，而且还有助于提高特征的分辨能力，网络最终的目标函数形式可表示为：

步骤6.定义优化器，给模型设定一个理想的学习率，初始学习率设定为0.001，模型训练过程中，学习率随批次数增加而减缓，减缓机制如下：如果在两个或者更多训练批次数内损失停止下降，学习率按设定规则公式递减为利用基于动量的随机梯度下降类型的网络优化算法对模型进行训练和参数求解，将动量因子μ以动态设定方式进行调整，μ初始值设为0.5，之后随着训练批次数的增长逐渐变为0.9，可以有效的抑制振荡，还可在网络训练中后期趋于收敛、网络参数在局部最小值附近来回振荡时帮助其跳出局部限制，找到更优的网络参数。其中，学习率减缓公式定义为：

上述式中，p为训练批次数(epoch)。

Claims

1.一种基于卷积神经网络的古字体分类方法，其特征在于包括如下步骤：

步骤1.数据集获取，利用爬虫技术中的BeautifulSoup来爬取CADAL数字图书馆中预先分割出来的单个书法字符，获取其中的五种标准古字体类别图像，利用这五类标准古字体类别图像来组成本发明实验所需的古字体图像数据集；

步骤2.数据扩充，在步骤1所获取的古字体图像数据集上扩充数据样本数量，针对数据样本较少的类别进行样本扩充，扩充方式包括使用图像水平/垂直翻转、小范围旋转变换、监督式数据扩充法扣取、尺度变换方法，随机抽取已有样本图像应用数据扩充方法对样本数量进行扩充，从而增加训练样本和测试样本的多样性，最终每类古字体样本图像在数量上统一，获得完整数据集；

步骤3.对扩充后的完整数据集的图像进行预处理，将图像处理成正方形图像；所述的预处理包括图像灰度处理、图像等比缩放、图像边缘填充、直方图均衡化处理、连通域降噪算法、基于模糊集理论的图像二值化算法；

步骤4.定义卷积神经网络模型，使用基于VGG19模型的卷积神经网络，以步骤3预处理过后的图像作为输入；

步骤5.定义目标函数，目标函数的作用则是用来衡量该预测值与真实样本标记之间的误差；基于分类任务的目标函数，此处将中心损失函数与传统交叉熵损失函数配合使用；

步骤6.定义优化器，给模型设定一个理想的学习率，初始学习率设定为0.001，模型训练过程中，学习率随批次数增加而减缓，减缓机制如下：如果在两个或者更多训练批次数内损失停止下降，学习率按设定规则公式递减为利用基于动量的随机梯度下降类型的网络优化算法对模型进行训练和参数求解，将动量因子μ以动态设定方式进行调整，μ初始值设为0.5，之后随着训练批次数的增长逐渐变为0.9，从而有效抑制振荡，找到更优的网络参数；

步骤7.网络训练，在训练卷积神经网络时，首先选取步骤3数据集中80％的数据样本作为训练样本集，将训练数据随机打乱，确保模型在不同训练批次“看到”的数据样本是不同的；定义步骤5目标函数和步骤6优化器，调整网络参数并统计指标；将步骤4的网络模型作为训练模型对数据样本开始进行训练，训练结束之后保存模型，以方便后期快速的模型加载；

步骤8.网络测试，使用混淆矩阵进行评估，此矩阵是一种对分类算法准确率进行量化的工具，用来呈现分类性能的可视化效果，通过将模型预测的数据与测试数据进行对比，使用准确率指标对模型的分类效果进行度量，最终得出每类古字体被正确分类的概率，以及总的准确率。

2.根据权利要求1所述的基于卷积神经网络的古字体分类方法，其特征在于步骤3所述的对扩充后的完整数据集的图像进行预处理，具体实现如下：

首先，将原始古字体图像进行gray灰度处理；

其次，通过reshape获取图像的大小，包括长、宽、通道数；以长宽值较大的一边为基准等比例缩放，通过resize()函数等比例缩放到目标值大小；

然后对长宽值较小的一边进行边缘填充，根据图像边界的像素值，向外扩充图像大小，每个方向扩充的像素点为与目标大小差值的一半，得到图像的大小为既定目标大小的方形图像；

再然后，对方形图像进行直方图均衡化处理，将方形图像中不均匀的灰度级分布，通过变换占据整个灰度域；经过直方图均衡化处理之后利用N8连通降噪算法对图像进行去噪处理，计算图像中每个像素点的8邻域去除孤立的噪点；

最后通过模糊集理论对图像进行二值化处理，首先利用模糊集理论建立像素点与前后背景阈值之间的模糊集X，即定义一个从图像X映射到[0，1]区间的模糊子集，然后通过动态调整阈值的方式建立完整的模糊矩阵，最后利用香农熵函数求整个图像模糊矩阵的最小信息熵E，此时对应模糊矩阵的阈值就是图像二值化的分割阈值。

3.根据权利要求2所述的基于卷积神经网络的古字体分类方法，其特征在于步骤3具体实现如下：

模糊集X的定义：

X＝{(x_mn，μ_x(x_mn))}

上述式中，x_mn表示像素(m，n)的灰度值；其中，对于二值化来说，每个像素对于其所属的类别(前景或背景)都应该有很相近的关系，因此，用μ_x(x_mn)来表示像素灰度x_mn与前/后背景阈值的关联度，即像素点(m，n)在模糊集X中的模糊度：

上述式中，μ₀表示背景像素平均值，μ₁表示前景像素平均值，t表示选取的图像灰度阈值，C表示最大像素灰度差；

基于直方图式的图像模糊矩阵最小信息熵E的定义：

S(μ_A(x_i))＝-μ_A(x_i)ln[μ_A(x_i)]-[1-μ_A(x_i)]ln[1-μ_A(x_i)]

上述式中，μ_A(x_i)表示在集合A中x_i发生的概率；香农熵函数被用来度量图像的模糊度，即用来衡量一个模糊集的模糊程度。

4.根据权利要求3所述的基于卷积神经网络的古字体分类方法，其特征在于步骤4具体实现如下：

首先，在每个模型中，使用3*3的卷积核滑动窗口，步长为1，Padding为1，以保留输入高度和宽度，并且最大池化层的滑动窗口为2*2，下采样步长为2；其次，在每个卷积层之后添加BatchNorm层，使得网络训练过程中每一层神经网络的输入保持相同的分布；之后在每个BatchNorm层之后使用非线性ReLU激活函数；然后接入3个全连接层，使用随机失活来配备全连接层的卷积神经网络所使用的网络正则化方法；最后迁移全连接层输出维度为5的数据传递到Softmax函数中，全连接层是将网络特征映射到样本的标记空间做出相应的预测。

5.根据权利要求4所述的基于卷积神经网络的古字体分类方法，其特征在于步骤5所述的目标函数具体如下：

网络最终的目标函数形式可表示为：

上述式中，λ为两个损失函数间的调节参数，λ越大则类内差异占整个目标函数较大的比重，反之亦然；其中，N为训练样本的个数，针对网络最后分类层第i个样本的输入特征为x_i，其对应的真实标记为y_i∈{1，2，...，C}，另h＝(h₁，h₂，...，h_C)^T为网络的最终输出，即样本i的预测结果，且交叉熵损失函数L_{cross entropy loss}中C为类别数，中心损失函数L_{center loss}中为第y_i类所有深度特征的均值。

6.根据权利要求5所述的基于卷积神经网络的古字体分类方法，其特征在于步骤6所述的具体实现如下：

学习率减缓公式定义为：

上述式中，p为训练批次数。