CN109800754A - 一种基于卷积神经网络的古字体分类方法 - Google Patents
一种基于卷积神经网络的古字体分类方法 Download PDFInfo
- Publication number
- CN109800754A CN109800754A CN201811487296.9A CN201811487296A CN109800754A CN 109800754 A CN109800754 A CN 109800754A CN 201811487296 A CN201811487296 A CN 201811487296A CN 109800754 A CN109800754 A CN 109800754A
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- training
- network
- neural networks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积神经网络的古字体分类方法。本发明首先利用爬虫技术爬取古字体类别图像数据集,通过数据扩充使训练集样本趋于平衡,对已经平衡的训练集样本进行灰度化处理并将图像resize到目标图像大小,然后对样本集进行直方图均衡化处理,通过N8连通降噪算法去除图像中孤立的噪点,最后基于模糊集理论并利用香农熵函数对图像进行二值化处理,较好的保留了图像的细节特征;基于分类任务的目标函数将中心损失函数与传统的交叉熵损失函数配合使用,增大类间距离并减小类内距离,在一定程度上提高了特征的分辨能力,通过预先定义好的网络模型对预处理后的图像进行训练,利用混淆矩阵对分类结果准确率进行评估。本发明对退化的古字体图像预处理效果显著,通过优化参数设置,利用适当的训练技巧,训练卷积神经网络模型,实现了更精确的古字体分类效果。
Description
技术领域
本发明涉及中国传统汉字图像处理领域,特别是一种基于卷积神经网络的古字体书法分类方法。
背景技术
汉字,作为中国传统的文字,至今已有数千年的历史,同时,汉字也是中国传统艺术和文化的重要组成部分。然而,时间已经导致旧书法作品风化和损坏,因此有必要利用先进的技术来保护这些作品。我们将提供一种针对中国古字体书法作品的预处理(去噪)算法,在此基础上利用卷积神经网络对数据集进行分类,以达到更好的分类正确率。大多数古字体(中国传统书法)都是用中国传统毛笔书写,这些传统毛笔中的笔迹比硬笔书法要厚重得多,因此字符里存储了更多的形状信息;然而风化的作品存在许多噪点,很大程度上影响分类效果。
近年来,大批量的古字体书法已经被数字化以用于研究和普遍的艺术实践。因此,对古字体识别和分类的需求正不断增加。目前,已有许多相关解决方案,这些解决方案大多是基于某些特征提取和K邻近值技术,并且在前期的图像预处理后,处理效果不太显著,通常用于字体的识别和单一的特征提取。另一方面,卷积神经网络已被广泛用于手写字符的识别,但是缺乏在中国古字体方向的研究。基于这种情况,我们希望探索卷积神经网络在古字体风格样式识别上的应用,实现更***分类的目标,为后续做精确的识别以及古字体研究管理打下坚实的基础。针对上述问题及现实意义,本发明将提升在数据预处理方面的能力,通过优化参数设置,利用适当的训练技巧,训练卷积神经网络模型,以实现更好的分类性能。
发明内容
本发明的目的在于提供一种基于卷积神经网络的古字体分类方法。
本发明通过将基于深度学习的卷积神经网络应用于中国传统书法字体分类中,来解决字体风格分类问题。首先,结合直方图均衡化以及基于模糊集理论的一种图像二值化算法对数据集图像进行预处理;然后,在经过预处理过后的样本集上训练卷积神经网络对其进行分类,实验结果表明,该方法能够对退化汉字进行更精确的分类识别。
一种基于卷积神经网络的古字体分类方法,分类问题就是搭建的模型在通过监督学习后建立起的一个离散映射关系,算法实现模块包括数据集获取、数据扩充、图像预处理模块、卷积神经网络模型模块、目标函数模块、优化器模块、网络训练模块、网络测试模块。实现本发明目的的技术解决方案包括如下步骤:
步骤1.数据集获取,利用爬虫技术中的BeautifulSoup来爬取CADAL数字图书馆中预先分割出来的单个书法字符,获取其中的五种标准古字体类别图像,利用这五种标准古字体类别图像组成本发明实验所需的古字体图像数据集。
步骤2.扩充古字体图像数据集,在步骤1所获取的古字体图像数据集上扩充数据样本数量,由于通过爬虫爬取的不同风格古字体的样本数量各不相同,为便于模型训练,针对数据样本较少的类别进行样本扩充,此处使用图像水平/垂直翻转、小范围旋转变换、监督式数据扩充法扣取、尺度变换方法,随机抽取已有样本图像应用数据扩充方法对样本数量进行扩充,从而增加训练样本和测试样本的多样性,一方面可以有效的避免过拟合,另一方面又会在一定程度上带来模型性能的提升。
步骤3.对扩充后的完整古字体图像数据集进行预处理操作,包括图像灰度处理、图像等比缩放、图像边缘填充、直方图均衡化处理、连通域降噪算法、基于模糊集理论的图像二值化算法。将原始古字体图像处理成正方形图像,原因是由于卷积神经网络模型的输入一般是方形图像。
首先,将原始古字体图像进行gray灰度处理;
其次,通过reshape获取灰度处理后输入图像的大小,大小包括长、宽、通道数,以长宽值较大的一边为基准等比例缩放,通过resize()函数等比例缩放到目标值大小;
然后对长宽值较小的一边进行边缘填充,根据图像边界的像素值,向外扩充图片,每个方向扩充的像素点为与目标大小差值的一半,得到图像的大小为既定目标大小的方形图像;
再然后对方形图像进行直方图均衡化处理,将方形图像中不均匀的灰度级分布,通过变换占据整个灰度域,使得细节更加丰富;经过直方图均衡化处理之后利用N8连通降噪算法对图像进行去噪处理,计算图像中每个像素点的8邻域去除孤立的噪点。
最后通过模糊集理论对图像进行二值化处理,首先利用模糊集理论建立像素点与前后背景阈值之间的模糊集X,也就是说定义了一个从图像X映射到[0,1]区间的模糊子集,然后通过动态调整阈值的方式建立完整的模糊矩阵,最后利用香农熵函数求整个图像模糊矩阵的最小信息熵E,此时对应模糊矩阵的阈值就是图像二值化的分割阈值。
步骤4.定义卷积神经网络模型,使用基于VGG19模型的卷积神经网络,以步骤3预处理过后的图像作为输入。首先,在每个模型中,使用3*3的卷积核滑动窗口,步长为1,Padding为1,以保留输入高度和宽度,并且最大池化层的滑动窗口为2*2,下采样步长为2;其次,在每个卷积层之后添加BatchNorm层,使得网络训练过程中每一层神经网络的输入保持相同的分布,使得训练深层网络模型更加容易和稳定;之后在每个BatchNorm层之后使用非线性ReLU激活函数,达到快速的收敛效果;然后接入3个全连接层,使用随机失活(dropout)来配备全连接层的卷积神经网络所使用的网络正则化方法,在一定程度上降低了神经元间依赖,避免了网络过拟合的发生,对于提升网络泛化性效果显著;最后得到全连接层输出维度为5的数据传递到Softmax函数中,全连接层是将网络特征映射到样本的标记空间做出相应的预测。
步骤5.定义目标函数,目标函数的作用则是用来衡量该预测值与真实样本标记之间的误差。基于分类任务的目标函数,此处将中心损失函数与传统交叉熵损失函数配合使用,中心损失函数在考虑类间距离的同时还将一些注意力放在减小类内差异上,类内差异减小的同时也使得特征具备更强的判别能力,即类别区分性越来越大;在分类性能上,中心损失函数结合交叉熵损失函数要优于只使用交叉熵损失函数作为目标函数的网络模型,从增大类间距离、减小类内距离的角度上不仅要求分类准确,而且还有助于提高特征的分辨能力。
步骤6.定义优化器,给模型设定一个理想的学习率,初始学习率设定为0.001,模型训练过程中,学习率随批次数增加而减缓,减缓机制如下:如果在两个或者更多训练批次数内损失停止下降,学习率按设定规则公式递减为利用基于动量的随机梯度下降类型的网络优化算法对模型进行训练和参数求解,将动量因子μ以动态设定方式进行调整,μ初始值设为0.5,之后随着训练批次数的增长逐渐变为0.9,可以有效的抑制振荡,还可在网络训练中后期趋于收敛、网络参数在局部最小值附近来回振荡时帮助其跳出局部限制,找到更优的网络参数。
步骤7.所述网络训练模块,在训练卷积神经网络时,首先选取步骤3数据集中80%的数据样本作为训练样本集,将训练数据随机打乱,确保模型在不同训练批次“看到”的数据样本是不同的,这样的处理方式不仅会提高模型收敛速率,同时也会提升模型在测试数据集上的预测结果。定义步骤5目标函数和步骤6优化器,调整网络参数并统计指标。将步骤4的网络模型作为训练模型对数据样本开始进行训练,训练结束之后保存模型,以方便后期快速的模型加载。
步骤8.所述网络测试模块,使用混淆矩阵进行评估,此矩阵是一种对分类算法准确率进行量化的工具,用来呈现分类性能的可视化效果,通过将模型预测的数据与测试数据进行对比,使用准确率指标对模型的分类效果进行度量,最终得出每类古字体被正确分类的概率,以及总的准确率。
步骤3所述的具体实现如下:
模糊集X的定义:
X={(xmn,μx(xmn))}
上述式中,xmn表示像素(m,n)的灰度值。其中,对于二值化来说,每个像素对于其所属的类别(前景或背景)都应该有很相近的关系,因此,用μx(xmn)来表示像素灰度xmn与前/后背景阈值的关联度,即像素点(m,n)在模糊集X中的模糊度:
上述式中,μ0表示背景像素平均值,μ1表示前景像素平均值,t表示选取的图像灰度阈值,C表示最大像素灰度差。
基于直方图式的图像模糊矩阵最小信息熵E的定义:
上述式中,MN为图像像素总数,g为图像像素灰度级,μx(g)表示灰度级g的模糊度,h(g)表示灰度级g的像素点数量,S表示香农公式,其函数表示为:
S(μA(xi))=-μA(xi)ln[μA(xi)]-[1-μA(xi)]ln[1-μA(xi)]
上述式中,μA(xi)表示在集合A中xi发生的概率。香农熵函数被用来度量图像的模糊度,即用来衡量一个模糊集的模糊程度。
步骤5所述的目标函数具体如下:
网络最终的目标函数形式可表示为:
上述式中,λ为两个损失函数间的调节参数,λ越大则类内差异占整个目标函数较大的比重,反之亦然;其中,N为训练样本的个数,针对网络最后分类层第i个样本的输入特征为xi,其对应的真实标记为yi∈{1,2,…,C},另h=(h1,h2,…,hC)T为网络的最终输出,即样本i的预测结果,且交叉熵损失函数Lcross entropy loss中C为类别数,中心损失函数Lcenter loss中为第yi类所有深度特征的均值(“中心”)。
步骤6所述的具体实现如下:
学习率减缓公式定义为:
上述式中,p为训练批次数(epoch)。
本发明的有益效果如下:
本发明基于卷积神经网络对中国古字体进行分类,具备完整的5种标准古字体数据样本集,对数据预处理结合直方图均衡化方法,使得图像细节更加显著,连通域降噪处理减少了图像中不必要的噪点对图像预测结果的影响,对图像进行基于模糊集理论的二值化处理之后,有效的将图像特征信息显现出来,并且能够很好的区分字体图像的边缘特征。VGGNet模型具有很好泛化性能,使用深度更深的卷积神经网络模型架构,已具备良好的性能,批量归一化能够稳定学习过程,有效提高模型收敛率,目标函数将中心损失函数结合交叉熵损失函数作为网络模型,从增大类间距离、减小类内距离的角度上不仅做到分类准确,而且还有效的提高了特征的分辨能力。适当的采取一些训练技巧,选择理想的网络参数、优化算法以及学习率的设置,网络更加稳定,结果更可靠,大幅度提高了古字体分类的正确率。
附图说明
图1是本发明流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图所示,基于卷积神经网络的古字体分类方法,具体包括如下步骤:
步骤1.数据集获取,通过利用爬虫技术中的BeautifulSoup来爬取CADAL数字图书馆中预先分割出来的单个书法字符,首先对网页HTML进行解析,获取源代码,然后读取的信息放入BeautifulSoup,将其解析为对象进行处理,采用搜索文档树的方法,获取img标签中的图片链接,通过链接下载图片到指定的文件地址,最后获得五类标准古字体风格图像,以组成本发明实验所需的古字体图像数据集。
步骤2.数据扩充,在步骤1所获取的古字体图像数据集上扩充数据样本数量,针对数据样本较少的类别进行样本扩充,此处使用图像水平/垂直翻转、小范围旋转变换、监督式数据扩充法扣取、尺度变换方法,随机抽取已有样本图像应用数据扩充方法对样本数量进行扩充,从而增加训练样本和测试样本的多样性,一方面可以有效的避免过拟合,另一方面又会在一定程度上带来模型性能的提升。
步骤3.对扩充后的完整古字体图像数据集进行预处理操作,包括图像灰度处理、图像等比缩放、图像边缘填充、直方图均衡化处理、连通域降噪算法、基于模糊集理论的图像二值化算法。将原始古字体图像处理成正方形图像,原因是由于卷积神经网络模型的输入一般是方形图像。
首先,将原始古字体图像进行gray灰度处理;
其次,通过reshape获取灰度处理后输入图像的大小,大小包括长、宽、通道数,以长宽值较大的一边为基准等比例缩放,通过resize()函数等比例缩放到目标值大小;
然后对长宽值较小的一边进行边缘填充,根据图像边界的像素值,向外扩充图片,每个方向扩充的像素点为与目标大小差值的一半,得到图像的大小为既定目标大小的方形图像;
再然后对方形图像进行直方图均衡化处理,将方形图像中不均匀的灰度级分布,通过变换占据整个灰度域,使得细节更加丰富;经过直方图均衡化处理之后利用N8连通降噪算法对图像进行去噪处理,计算图像中每个像素点的8邻域去除孤立的噪点。
最后通过模糊集理论对图像进行二值化处理,首先利用模糊集理论建立像素点与前后背景阈值之间的模糊集X,也就是说定义了一个从图像X映射到[0,1]区间的模糊子集,然后通过动态调整阈值的方式建立完整的模糊矩阵,最后利用香农熵函数求整个图像模糊矩阵的最小信息熵E,此时对应模糊矩阵的阈值就是图像二值化的分割阈值;模糊集X的定义为:
X={(xmn,μx(xmn))}
上述式中,xmn表示像素(m,n)的灰度值。其中,对于二值化来说,每个像素对于其所属的类别(前景或背景)都应该有很相近的关系,因此,用μx(xmn)来表示像素灰度xmn与前/后背景阈值的关联度,即像素点(m,n)在模糊集X中的模糊度:
上述式中,μ0表示背景像素平均值,μ1表示前景像素平均值,t表示选取的图像灰度阈值,C表示最大像素灰度差。
基于直方图式的图像模糊矩阵最小信息熵E的定义:
上述式中,MN为图像像素总数,g为图像像素灰度级,μx(g)表示灰度级g的模糊度,h(g)表示灰度级g的像素点数量,S表示香农公式,其函数表示为:
S(μA(xi))=-μA(xi)ln[μA(xi)]-[1-μA(xi)]ln[1-μA(xi)]
上述式中,μA(xi)表示在集合A中xi发生的概率。香农熵函数被用来度量图像的模糊度,即用来衡量一个模糊集的模糊程度。在整个过程中取香农熵值最小时的阈值t作为最终的分割阈值。
步骤4.定义卷积神经网络模型,使用基于VGG19模型的卷积神经网络,以步骤3预处理过后的图像作为输入。首先,在每个模型中,使用3*3的卷积核滑动窗口,步长为1,Padding为1,以保留输入高度和宽度,并且最大池化层的滑动窗口为2*2,下采样步长为2;其次,在每个卷积层之后添加BatchNorm层,使得网络训练过程中每一层神经网络的输入保持相同的分布,使得训练深层网络模型更加容易和稳定;之后在每个BatchNorm层之后使用非线性ReLU激活函数,达到快速的收敛效果;然后接入3个全连接层,使用随机失活(dropout)来配备全连接层的卷积神经网络所使用的网络正则化方法,在一定程度上降低了神经元间依赖,避免了网络过拟合的发生,对于提升网络泛化性效果显著;最后得到全连接层输出维度为5的数据传递到Softmax函数中,全连接层是将网络特征映射到样本的标记空间做出相应的预测。
步骤5.定义目标函数,目标函数的作用则是用来衡量该预测值与真实样本标记之间的误差。基于分类任务的目标函数,此处将中心损失函数与传统交叉熵损失函数配合使用,中心损失函数在考虑类间距离的同时还将一些注意力放在减小类内差异上,类内差异减小的同时也使得特征具备更强的判别能力,即类别区分性越来越大;在分类性能上,中心损失函数结合交叉熵损失函数要优于只使用交叉熵损失函数作为目标函数的网络模型,从增大类间距离、减小类内距离的角度上不仅要求分类准确,而且还有助于提高特征的分辨能力,网络最终的目标函数形式可表示为:
上述式中,λ为两个损失函数间的调节参数,λ越大则类内差异占整个目标函数较大的比重,反之亦然;其中,N为训练样本的个数,针对网络最后分类层第i个样本的输入特征为xi,其对应的真实标记为yi∈{1,2,…,C},另h=(h1,h2,…,hC)T为网络的最终输出,即样本i的预测结果,且交叉熵损失函数Lcross entropy loss中C为类别数,中心损失函数Lcenter loss中为第yi类所有深度特征的均值(“中心”)。
步骤6.定义优化器,给模型设定一个理想的学习率,初始学习率设定为0.001,模型训练过程中,学习率随批次数增加而减缓,减缓机制如下:如果在两个或者更多训练批次数内损失停止下降,学习率按设定规则公式递减为利用基于动量的随机梯度下降类型的网络优化算法对模型进行训练和参数求解,将动量因子μ以动态设定方式进行调整,μ初始值设为0.5,之后随着训练批次数的增长逐渐变为0.9,可以有效的抑制振荡,还可在网络训练中后期趋于收敛、网络参数在局部最小值附近来回振荡时帮助其跳出局部限制,找到更优的网络参数。其中,学习率减缓公式定义为:
上述式中,p为训练批次数(epoch)。
步骤7.所述网络训练模块,在训练卷积神经网络时,首先选取步骤3数据集中80%的数据样本作为训练样本集,将训练数据随机打乱,确保模型在不同训练批次“看到”的数据样本是不同的,这样的处理方式不仅会提高模型收敛速率,同时也会提升模型在测试数据集上的预测结果。定义步骤5目标函数和步骤6优化器,调整网络参数并统计指标。将步骤4的网络模型作为训练模型对数据样本开始进行训练,训练结束之后保存模型,以方便后期快速的模型加载。
步骤8.所述网络测试模块,使用混淆矩阵进行评估,此矩阵是一种对分类算法准确率进行量化的工具,用来呈现分类性能的可视化效果,通过将模型预测的数据与测试数据进行对比,使用准确率指标对模型的分类效果进行度量,最终得出每类古字体被正确分类的概率,以及总的准确率。
Claims (6)
1.一种基于卷积神经网络的古字体分类方法,其特征在于包括如下步骤:
步骤1.数据集获取,利用爬虫技术中的BeautifulSoup来爬取CADAL数字图书馆中预先分割出来的单个书法字符,获取其中的五种标准古字体类别图像,利用这五类标准古字体类别图像来组成本发明实验所需的古字体图像数据集;
步骤2.数据扩充,在步骤1所获取的古字体图像数据集上扩充数据样本数量,针对数据样本较少的类别进行样本扩充,扩充方式包括使用图像水平/垂直翻转、小范围旋转变换、监督式数据扩充法扣取、尺度变换方法,随机抽取已有样本图像应用数据扩充方法对样本数量进行扩充,从而增加训练样本和测试样本的多样性,最终每类古字体样本图像在数量上统一,获得完整数据集;
步骤3.对扩充后的完整数据集的图像进行预处理,将图像处理成正方形图像;所述的预处理包括图像灰度处理、图像等比缩放、图像边缘填充、直方图均衡化处理、连通域降噪算法、基于模糊集理论的图像二值化算法;
步骤4.定义卷积神经网络模型,使用基于VGG19模型的卷积神经网络,以步骤3预处理过后的图像作为输入;
步骤5.定义目标函数,目标函数的作用则是用来衡量该预测值与真实样本标记之间的误差;基于分类任务的目标函数,此处将中心损失函数与传统交叉熵损失函数配合使用;
步骤6.定义优化器,给模型设定一个理想的学习率,初始学习率设定为0.001,模型训练过程中,学习率随批次数增加而减缓,减缓机制如下:如果在两个或者更多训练批次数内损失停止下降,学习率按设定规则公式递减为利用基于动量的随机梯度下降类型的网络优化算法对模型进行训练和参数求解,将动量因子μ以动态设定方式进行调整,μ初始值设为0.5,之后随着训练批次数的增长逐渐变为0.9,从而有效抑制振荡,找到更优的网络参数;
步骤7.网络训练,在训练卷积神经网络时,首先选取步骤3数据集中80%的数据样本作为训练样本集,将训练数据随机打乱,确保模型在不同训练批次“看到”的数据样本是不同的;定义步骤5目标函数和步骤6优化器,调整网络参数并统计指标;将步骤4的网络模型作为训练模型对数据样本开始进行训练,训练结束之后保存模型,以方便后期快速的模型加载;
步骤8.网络测试,使用混淆矩阵进行评估,此矩阵是一种对分类算法准确率进行量化的工具,用来呈现分类性能的可视化效果,通过将模型预测的数据与测试数据进行对比,使用准确率指标对模型的分类效果进行度量,最终得出每类古字体被正确分类的概率,以及总的准确率。
2.根据权利要求1所述的基于卷积神经网络的古字体分类方法,其特征在于步骤3所述的对扩充后的完整数据集的图像进行预处理,具体实现如下:
首先,将原始古字体图像进行gray灰度处理;
其次,通过reshape获取图像的大小,包括长、宽、通道数;以长宽值较大的一边为基准等比例缩放,通过resize()函数等比例缩放到目标值大小;
然后对长宽值较小的一边进行边缘填充,根据图像边界的像素值,向外扩充图像大小,每个方向扩充的像素点为与目标大小差值的一半,得到图像的大小为既定目标大小的方形图像;
再然后,对方形图像进行直方图均衡化处理,将方形图像中不均匀的灰度级分布,通过变换占据整个灰度域;经过直方图均衡化处理之后利用N8连通降噪算法对图像进行去噪处理,计算图像中每个像素点的8邻域去除孤立的噪点;
最后通过模糊集理论对图像进行二值化处理,首先利用模糊集理论建立像素点与前后背景阈值之间的模糊集X,即定义一个从图像X映射到[0,1]区间的模糊子集,然后通过动态调整阈值的方式建立完整的模糊矩阵,最后利用香农熵函数求整个图像模糊矩阵的最小信息熵E,此时对应模糊矩阵的阈值就是图像二值化的分割阈值。
3.根据权利要求2所述的基于卷积神经网络的古字体分类方法,其特征在于步骤3具体实现如下:
模糊集X的定义:
X={(xmn,μx(xmn))}
上述式中,xmn表示像素(m,n)的灰度值;其中,对于二值化来说,每个像素对于其所属的类别(前景或背景)都应该有很相近的关系,因此,用μx(xmn)来表示像素灰度xmn与前/后背景阈值的关联度,即像素点(m,n)在模糊集X中的模糊度:
上述式中,μ0表示背景像素平均值,μ1表示前景像素平均值,t表示选取的图像灰度阈值,C表示最大像素灰度差;
基于直方图式的图像模糊矩阵最小信息熵E的定义:
上述式中,MN为图像像素总数,g为图像像素灰度级,μx(g)表示灰度级g的模糊度,h(g)表示灰度级g的像素点数量,S表示香农公式,其函数表示为:
S(μA(xi))=-μA(xi)ln[μA(xi)]-[1-μA(xi)]ln[1-μA(xi)]
上述式中,μA(xi)表示在集合A中xi发生的概率;香农熵函数被用来度量图像的模糊度,即用来衡量一个模糊集的模糊程度。
4.根据权利要求3所述的基于卷积神经网络的古字体分类方法,其特征在于步骤4具体实现如下:
首先,在每个模型中,使用3*3的卷积核滑动窗口,步长为1,Padding为1,以保留输入高度和宽度,并且最大池化层的滑动窗口为2*2,下采样步长为2;其次,在每个卷积层之后添加BatchNorm层,使得网络训练过程中每一层神经网络的输入保持相同的分布;之后在每个BatchNorm层之后使用非线性ReLU激活函数;然后接入3个全连接层,使用随机失活来配备全连接层的卷积神经网络所使用的网络正则化方法;最后迁移全连接层输出维度为5的数据传递到Softmax函数中,全连接层是将网络特征映射到样本的标记空间做出相应的预测。
5.根据权利要求4所述的基于卷积神经网络的古字体分类方法,其特征在于步骤5所述的目标函数具体如下:
网络最终的目标函数形式可表示为:
上述式中,λ为两个损失函数间的调节参数,λ越大则类内差异占整个目标函数较大的比重,反之亦然;其中,N为训练样本的个数,针对网络最后分类层第i个样本的输入特征为xi,其对应的真实标记为yi∈{1,2,...,C},另h=(h1,h2,...,hC)T为网络的最终输出,即样本i的预测结果,且交叉熵损失函数Lcross entropy loss中C为类别数,中心损失函数Lcenter loss中为第yi类所有深度特征的均值。
6.根据权利要求5所述的基于卷积神经网络的古字体分类方法,其特征在于步骤6所述的具体实现如下:
学习率减缓公式定义为:
上述式中,p为训练批次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811487296.9A CN109800754B (zh) | 2018-12-06 | 2018-12-06 | 一种基于卷积神经网络的古字体分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811487296.9A CN109800754B (zh) | 2018-12-06 | 2018-12-06 | 一种基于卷积神经网络的古字体分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109800754A true CN109800754A (zh) | 2019-05-24 |
CN109800754B CN109800754B (zh) | 2020-11-06 |
Family
ID=66556515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811487296.9A Active CN109800754B (zh) | 2018-12-06 | 2018-12-06 | 一种基于卷积神经网络的古字体分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109800754B (zh) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298810A (zh) * | 2019-07-24 | 2019-10-01 | 深圳市华星光电技术有限公司 | 图像处理方法及图像处理*** |
CN110889457A (zh) * | 2019-12-03 | 2020-03-17 | 深圳奇迹智慧网络有限公司 | 样本图像分类训练方法、装置、计算机设备和存储介质 |
CN111161332A (zh) * | 2019-12-30 | 2020-05-15 | 上海研境医疗科技有限公司 | 同源病理影像配准预处理方法、装置、设备及存储介质 |
CN111209428A (zh) * | 2020-01-03 | 2020-05-29 | 深圳前海微众银行股份有限公司 | 图像检索方法、装置、设备及计算机可读存储介质 |
CN111242131A (zh) * | 2020-01-06 | 2020-06-05 | 北京十六进制科技有限公司 | 一种智能阅卷中图像识别的方法、存储介质及装置 |
CN111325196A (zh) * | 2020-03-05 | 2020-06-23 | 上海眼控科技股份有限公司 | 车架号检测方法、装置、计算机设备和存储介质 |
CN111325117A (zh) * | 2020-02-05 | 2020-06-23 | 北京字节跳动网络技术有限公司 | 目标对象识别模型的训练方法、装置和电子设备 |
CN111325205A (zh) * | 2020-03-02 | 2020-06-23 | 北京三快在线科技有限公司 | 文档图像方向识别方法、装置及模型的训练方法、装置 |
CN111582225A (zh) * | 2020-05-19 | 2020-08-25 | 长沙理工大学 | 一种遥感图像场景分类方法及装置 |
CN111709443A (zh) * | 2020-05-09 | 2020-09-25 | 西安理工大学 | 一种基于旋转不变卷积神经网络的书法字风格分类方法 |
CN111860834A (zh) * | 2020-07-09 | 2020-10-30 | 中国科学院深圳先进技术研究院 | 一种神经网络调优方法、***、终端以及存储介质 |
CN111860571A (zh) * | 2020-06-03 | 2020-10-30 | 成都信息工程大学 | 一种基于cip数据质量控制的云微粒子分类方法 |
CN112419278A (zh) * | 2020-11-25 | 2021-02-26 | 上海应用技术大学 | 一种基于深度学习的实木地板分类方法 |
CN112465042A (zh) * | 2020-12-02 | 2021-03-09 | 中国联合网络通信集团有限公司 | 一种分类网络模型的生成方法及装置 |
CN112541544A (zh) * | 2020-12-09 | 2021-03-23 | 福州大学 | 一种基于深度学习的垃圾分类方法 |
CN112765348A (zh) * | 2021-01-08 | 2021-05-07 | 重庆创通联智物联网有限公司 | 一种短文本分类模型训练方法、装置 |
CN113139629A (zh) * | 2020-01-16 | 2021-07-20 | 武汉金山办公软件有限公司 | 一种字体识别方法、装置、电子设备及存储介质 |
CN113326873A (zh) * | 2021-05-19 | 2021-08-31 | 云南电网有限责任公司电力科学研究院 | 一种基于数据增强的电力设备分合闸状态自动分类方法 |
CN113569742A (zh) * | 2021-07-29 | 2021-10-29 | 西南交通大学 | 一种基于卷积神经网络的宽频带电磁干扰源识别方法 |
CN113807316A (zh) * | 2021-10-08 | 2021-12-17 | 南京恩博科技有限公司 | 烟雾浓度估计模型的训练方法、装置、电子设备及介质 |
CN113870284A (zh) * | 2021-09-29 | 2021-12-31 | 柏意慧心(杭州)网络科技有限公司 | 用于对医学影像进行分割的方法、设备和介质 |
CN113903043A (zh) * | 2021-12-11 | 2022-01-07 | 绵阳职业技术学院 | 一种基于孪生度量模型的印刷汉字字体识别方法 |
KR102349506B1 (ko) * | 2021-06-08 | 2022-01-14 | 주식회사 산돌메타랩 | 폰트 인식을 위한 신경망 학습 데이터 생성 및 학습 결과를 반영한 생성 조건의 동적 설정 방법 |
KR102349510B1 (ko) * | 2021-06-08 | 2022-01-14 | 주식회사 산돌메타랩 | 인공지능 기반의 학습된 신경망을 이용한 폰트 인식 방법 및 폰트 인식 시스템 |
CN114494791A (zh) * | 2022-04-06 | 2022-05-13 | 之江实验室 | 一种基于注意力选择的transformer运算精简方法及装置 |
CN110378885B (zh) * | 2019-07-19 | 2023-07-04 | 王晓骁 | 一种基于机器学习的wsi病灶区域自动标注方法及*** |
CN117809190A (zh) * | 2024-02-23 | 2024-04-02 | 吉林大学 | 基于深度学习的撞击坑溅射物识别方法 |
CN117809140A (zh) * | 2024-03-01 | 2024-04-02 | 榆林拓峰达岸网络科技有限公司 | 基于图像识别的图像预处理***及其方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170364744A1 (en) * | 2016-06-20 | 2017-12-21 | Machine Learning Works, LLC | Neural network based recognition of mathematical expressions |
US20180181826A1 (en) * | 2016-12-27 | 2018-06-28 | Datalogic Usa, Inc. | Robust String Text Detection for Industrial Optical Character Recognition |
CN108416390A (zh) * | 2018-03-16 | 2018-08-17 | 西北工业大学 | 基于二维卷积降维的手写字体识别方法 |
CN108664996A (zh) * | 2018-04-19 | 2018-10-16 | 厦门大学 | 一种基于深度学习的古文字识别方法及*** |
CN108710831A (zh) * | 2018-04-24 | 2018-10-26 | 华南理工大学 | 一种基于机器视觉的小数据集人脸识别算法 |
CN108898137A (zh) * | 2018-05-25 | 2018-11-27 | 黄凯 | 一种基于深度神经网络的自然图像字符识别方法及*** |
-
2018
- 2018-12-06 CN CN201811487296.9A patent/CN109800754B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170364744A1 (en) * | 2016-06-20 | 2017-12-21 | Machine Learning Works, LLC | Neural network based recognition of mathematical expressions |
US20180181826A1 (en) * | 2016-12-27 | 2018-06-28 | Datalogic Usa, Inc. | Robust String Text Detection for Industrial Optical Character Recognition |
CN108416390A (zh) * | 2018-03-16 | 2018-08-17 | 西北工业大学 | 基于二维卷积降维的手写字体识别方法 |
CN108664996A (zh) * | 2018-04-19 | 2018-10-16 | 厦门大学 | 一种基于深度学习的古文字识别方法及*** |
CN108710831A (zh) * | 2018-04-24 | 2018-10-26 | 华南理工大学 | 一种基于机器视觉的小数据集人脸识别算法 |
CN108898137A (zh) * | 2018-05-25 | 2018-11-27 | 黄凯 | 一种基于深度神经网络的自然图像字符识别方法及*** |
Non-Patent Citations (2)
Title |
---|
XU-YAO ZHANG ET AL: "Drawing and Recognizing Chinese Characters with Recurrent Neural Network", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
柴伟佳 等: "卷积神经网络的多字体汉字识别", 《中国图象图形学报》 * |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378885B (zh) * | 2019-07-19 | 2023-07-04 | 王晓骁 | 一种基于机器学习的wsi病灶区域自动标注方法及*** |
CN110298810A (zh) * | 2019-07-24 | 2019-10-01 | 深圳市华星光电技术有限公司 | 图像处理方法及图像处理*** |
CN110889457A (zh) * | 2019-12-03 | 2020-03-17 | 深圳奇迹智慧网络有限公司 | 样本图像分类训练方法、装置、计算机设备和存储介质 |
CN110889457B (zh) * | 2019-12-03 | 2022-08-19 | 深圳奇迹智慧网络有限公司 | 样本图像分类训练方法、装置、计算机设备和存储介质 |
CN111161332A (zh) * | 2019-12-30 | 2020-05-15 | 上海研境医疗科技有限公司 | 同源病理影像配准预处理方法、装置、设备及存储介质 |
CN111209428A (zh) * | 2020-01-03 | 2020-05-29 | 深圳前海微众银行股份有限公司 | 图像检索方法、装置、设备及计算机可读存储介质 |
CN111242131B (zh) * | 2020-01-06 | 2024-05-10 | 北京十六进制科技有限公司 | 一种智能阅卷中图像识别的方法、存储介质及装置 |
CN111242131A (zh) * | 2020-01-06 | 2020-06-05 | 北京十六进制科技有限公司 | 一种智能阅卷中图像识别的方法、存储介质及装置 |
CN113139629A (zh) * | 2020-01-16 | 2021-07-20 | 武汉金山办公软件有限公司 | 一种字体识别方法、装置、电子设备及存储介质 |
CN111325117A (zh) * | 2020-02-05 | 2020-06-23 | 北京字节跳动网络技术有限公司 | 目标对象识别模型的训练方法、装置和电子设备 |
CN111325117B (zh) * | 2020-02-05 | 2024-01-26 | 北京字节跳动网络技术有限公司 | 目标对象识别模型的训练方法、装置和电子设备 |
CN111325205A (zh) * | 2020-03-02 | 2020-06-23 | 北京三快在线科技有限公司 | 文档图像方向识别方法、装置及模型的训练方法、装置 |
CN111325205B (zh) * | 2020-03-02 | 2023-10-10 | 北京三快在线科技有限公司 | 文档图像方向识别方法、装置及模型的训练方法、装置 |
CN111325196A (zh) * | 2020-03-05 | 2020-06-23 | 上海眼控科技股份有限公司 | 车架号检测方法、装置、计算机设备和存储介质 |
CN111709443A (zh) * | 2020-05-09 | 2020-09-25 | 西安理工大学 | 一种基于旋转不变卷积神经网络的书法字风格分类方法 |
CN111582225A (zh) * | 2020-05-19 | 2020-08-25 | 长沙理工大学 | 一种遥感图像场景分类方法及装置 |
CN111582225B (zh) * | 2020-05-19 | 2023-06-20 | 长沙理工大学 | 一种遥感图像场景分类方法及装置 |
CN111860571A (zh) * | 2020-06-03 | 2020-10-30 | 成都信息工程大学 | 一种基于cip数据质量控制的云微粒子分类方法 |
CN111860834A (zh) * | 2020-07-09 | 2020-10-30 | 中国科学院深圳先进技术研究院 | 一种神经网络调优方法、***、终端以及存储介质 |
CN111860834B (zh) * | 2020-07-09 | 2024-05-24 | 中国科学院深圳先进技术研究院 | 一种神经网络调优方法、***、终端以及存储介质 |
CN112419278A (zh) * | 2020-11-25 | 2021-02-26 | 上海应用技术大学 | 一种基于深度学习的实木地板分类方法 |
CN112419278B (zh) * | 2020-11-25 | 2024-04-19 | 上海应用技术大学 | 一种基于深度学习的实木地板分类方法 |
CN112465042A (zh) * | 2020-12-02 | 2021-03-09 | 中国联合网络通信集团有限公司 | 一种分类网络模型的生成方法及装置 |
CN112465042B (zh) * | 2020-12-02 | 2023-10-24 | 中国联合网络通信集团有限公司 | 一种分类网络模型的生成方法及装置 |
CN112541544A (zh) * | 2020-12-09 | 2021-03-23 | 福州大学 | 一种基于深度学习的垃圾分类方法 |
CN112541544B (zh) * | 2020-12-09 | 2022-05-13 | 福州大学 | 一种基于深度学习的垃圾分类方法 |
CN112765348A (zh) * | 2021-01-08 | 2021-05-07 | 重庆创通联智物联网有限公司 | 一种短文本分类模型训练方法、装置 |
CN113326873A (zh) * | 2021-05-19 | 2021-08-31 | 云南电网有限责任公司电力科学研究院 | 一种基于数据增强的电力设备分合闸状态自动分类方法 |
KR102349506B1 (ko) * | 2021-06-08 | 2022-01-14 | 주식회사 산돌메타랩 | 폰트 인식을 위한 신경망 학습 데이터 생성 및 학습 결과를 반영한 생성 조건의 동적 설정 방법 |
KR102349510B1 (ko) * | 2021-06-08 | 2022-01-14 | 주식회사 산돌메타랩 | 인공지능 기반의 학습된 신경망을 이용한 폰트 인식 방법 및 폰트 인식 시스템 |
CN113569742A (zh) * | 2021-07-29 | 2021-10-29 | 西南交通大学 | 一种基于卷积神经网络的宽频带电磁干扰源识别方法 |
CN113870284A (zh) * | 2021-09-29 | 2021-12-31 | 柏意慧心(杭州)网络科技有限公司 | 用于对医学影像进行分割的方法、设备和介质 |
CN113807316A (zh) * | 2021-10-08 | 2021-12-17 | 南京恩博科技有限公司 | 烟雾浓度估计模型的训练方法、装置、电子设备及介质 |
CN113807316B (zh) * | 2021-10-08 | 2023-12-12 | 南京恩博科技有限公司 | 烟雾浓度估计模型的训练方法、装置、电子设备及介质 |
CN113903043A (zh) * | 2021-12-11 | 2022-01-07 | 绵阳职业技术学院 | 一种基于孪生度量模型的印刷汉字字体识别方法 |
CN114494791B (zh) * | 2022-04-06 | 2022-07-08 | 之江实验室 | 一种基于注意力选择的transformer运算精简方法及装置 |
CN114494791A (zh) * | 2022-04-06 | 2022-05-13 | 之江实验室 | 一种基于注意力选择的transformer运算精简方法及装置 |
CN117809190A (zh) * | 2024-02-23 | 2024-04-02 | 吉林大学 | 基于深度学习的撞击坑溅射物识别方法 |
CN117809190B (zh) * | 2024-02-23 | 2024-05-24 | 吉林大学 | 基于深度学习的撞击坑溅射物识别方法 |
CN117809140A (zh) * | 2024-03-01 | 2024-04-02 | 榆林拓峰达岸网络科技有限公司 | 基于图像识别的图像预处理***及其方法 |
CN117809140B (zh) * | 2024-03-01 | 2024-05-28 | 榆林拓峰达岸网络科技有限公司 | 基于图像识别的图像预处理***及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109800754B (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800754A (zh) | 一种基于卷积神经网络的古字体分类方法 | |
CN110909820B (zh) | 基于自监督学习的图像分类方法及*** | |
CN111126404B (zh) | 一种基于改进YOLO v3的古文字及字体识别方法 | |
Mohammad et al. | Optical character recognition implementation using pattern matching | |
CN111753828B (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
GB2578341A (en) | Method and apparatus for automatically recognizing electrical imaging well logging facies | |
CN107844740A (zh) | 一种脱机手写、印刷汉字识别方法及*** | |
CN109711448A (zh) | 基于判别关键域和深度学习的植物图像细粒度分类方法 | |
CN110827260B (zh) | 一种基于lbp特征与卷积神经网络的布匹缺陷分类方法 | |
CN111723738A (zh) | 一种基于迁移学习的煤岩壳质组显微图像分类方法及*** | |
CN109840483B (zh) | 一种滑坡裂缝检测与识别的方法及装置 | |
CN110543906B (zh) | 基于Mask R-CNN模型的肤质自动识别方法 | |
CN108764358A (zh) | 一种太赫兹图像识别方法、装置、设备及可读存储介质 | |
CN106874862B (zh) | 基于子模技术和半监督学习的人群计数方法 | |
CN107220655A (zh) | 一种基于深度学习的手写、印刷文本的分类方法 | |
CN114694038A (zh) | 基于深度学习的高分辨率遥感影像分类方法及*** | |
CN108764361A (zh) | 基于集成学习的游梁式抽油机示功图的工况识别方法 | |
CN114648806A (zh) | 一种多机制自适应的眼底图像分割方法 | |
CN111783885A (zh) | 一种基于局部增强的毫米波图像的质量分类模型构建方法 | |
CN112884061A (zh) | 一种基于参数优化元学习的恶意软件家族分类方法 | |
CN112883931A (zh) | 基于长短期记忆网络的实时真假运动判断方法 | |
CN114219049B (zh) | 一种基于层级约束的细粒度笔石图像分类方法和装置 | |
CN108038467B (zh) | 一种镜像图与粗细层次结合的稀疏人脸识别方法 | |
US20190272447A1 (en) | Machine learning artificial character generation | |
CN105844299B (zh) | 一种基于词袋模型的图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |