CN108805223A

CN108805223A - 一种基于Incep-CapsNet网络的篆文识别方法及***

Info

Publication number: CN108805223A
Application number: CN201810480506.5A
Authority: CN
Inventors: 杨帆; 于飞; 刘鑫
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2018-11-13
Anticipated expiration: 2038-05-18
Also published as: CN108805223B

Abstract

本发明涉及一种基于Incep‑CapsNet网络的篆文识别方法及***，方法包括：获取篆文图像数据集，并按照字形与字体制作分类标签；对图像数据集进行预处理与图像增广操作；通过Incep‑CapsNet网络对预处理和图像增广后的篆文图像进行特征提取并识别分类；通过重构网络对预处理和图像增广后的篆文图像进行重构，作为一种有效的正则化方式。本发明能够根据Inception结构提取出更多更本质的特征，并根据胶囊网络克服传统深度卷积神经网络模型所存在的无法识别特征的朝向以及空间中的相对位置等缺点，既具有精确的识别精度，又具有较强的鲁棒性。

Description

一种基于Incep-CapsNet网络的篆文识别方法及***

技术领域

本发明涉及图像识别领域，特别涉及古文字图像识别研究领域，具体为一种基于Incep-CapsNet网络的篆文识别方法及***。

背景技术

篆文，是我国古文字的核心组成部分，也是我国五大书法字体之中出现最早的一种，主要包括大篆和小篆，其中大篆主要指秦代之前的甲骨文、金文等古文，小篆则指秦始皇统一文字之后所用的字体。从篆文字体的数量和形状结构等方面综合来说，它们均已发展的十分完备。作为中华古文化的重要信息载体，篆文在国家、民族的文化传承与发展方面起到了重要的作用。此外，篆文识别在碑刻字帖的识别鉴定、考古挖掘的相关研究、***的识别鉴定以及书法文化艺术等诸多方面均有极大的应用价值。

由于篆文的发展历经了多个朝代，再加上不同地域的影响，衍生出大量形态结构各异的异体字。并且篆文等古文字以表情达意为主，故又有象形程度高、笔画繁多且复杂多变等特点。这些都为篆文的有效识别带来了极大的挑战。单单依靠工作人员的知识储备或字典查阅早已无法满足需求，这种做法不仅效率低下，也极易产生人为失误。因此，篆文识别迫切需要现代图像识别技术的帮助。

目前，有关篆文识别领域的研究已经引起研究者的注意，不少文献中提到了很多针对单一字体甲骨文、金文或者篆文的研究方法，如文献1“刘永革,刘国英.基于SVM的甲骨文字识别[J].安阳师范学院学报,2017(2):54–56”，这些研究方法基本采用人工特征设计结合SVM分类的方法，所采用的特征设计有HOG、Gabor以及多特征融合等，识别精度的提升主要依赖于合理的特征设计。该方法参数量少，容易训练，但常因为特征选择的原因精度往往不尽人意。

在文字识别领域备受瞩目的手写体识别，和篆文识别有很多相似的特征，如字体随意性大，笔画杂乱等现象，其研究方法对篆文识别的研究具有一定的指导作用。手写体识别领域的研究方法除以前常使用人工特征设计结合SVM分类的方法外，近几年涌现了很多深度学习的研究方法，最常出现的当属对GoogLeNet的改进，如文献2“Zhong Z,Jin L,XieZ.High performance offline handwritten Chinese character recognition usingGoogLeNet and directional feature maps[C]//Proceedings of the 13thInternational Conference on Document Analysis and Recognition.Tunis:IEEE,2015:846–850”。该方法应用于篆文识别领域，和传统人工特征设计结合SVM分类的方法相比，识别准确率大大提升，随之参数数量也陡然增加，但依旧不能满足应用的精度要求。

目前也存在一些将深度学习引入篆文识别领域的文献，其所采用的改进的Inception-V3网络结构在识别准确率上达到了较高的精度，但在鲁棒性方面有待于提高，特别是针对背景噪声的干扰等方面。其次该网络还存在着只能检测图像中存在着某些特征，而不能检测出这些特征的朝向以及空间中的相对位置等缺点。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于Incep-CapsNet网络的篆文识别方法及***，能够根据Inception结构提取出更多更本质的特征，并根据胶囊网络克服传统深度卷积神经网络模型所存在的无法识别特征的朝向以及空间中的相对位置等缺点，既具有精确的识别精度，又具有较强的鲁棒性。

本发明解决其技术问题所采用的技术方案是：

一方面，一种基于Incep-CapsNet网络的篆文识别方法，包括：

S1，获取篆文图像数据集，并按照字形与字体制作分类标签；

S2，对图像数据集进行预处理与图像增广操作；

S3，通过Incep-CapsNet网络对预处理和图像增广后的篆文图像进行特征提取并识别分类；

S4，通过重构网络对预处理和图像增广后的篆文图像进行重构，作为一种有效的正则化方式。

优选的，步骤S1，包括：

通过扫描或拍照录入字典或书法字帖等文献的篆文图像，或针对篆文开源数据库爬虫。具体包括以下步骤：

S1.1，以《汉语大字典》的楷书单字为索引扫描或拍照获取甲骨文、金文和小篆等篆文字体；或者对篆文开源数据库爬虫；

S1.2，按照字形与字体制作分类标签，如“甲不”代表字体为甲骨文和字形为“不”字，以实现对多种字体与多种字形有效识别的目标；

S1.3，定期搜集更新数据集。

优选的，步骤S2，包括：

预处理：将图像数据集统一成相同大小，然后对数据集进行零归一化和标准化操作，如下：

其中，x^*表示经过零归一化和标准化处理之后的数据集，x表示原始图像数据集，μ表示原有数据集的均值，σ表示原有数据集的标准差；

图像增广操作：对预处理后的图像数据集进行图像增广以扩充数据集；图像增广的方法包括图像随机旋转、左右平移、上下平移、左右翻转、上下翻转和/或缩小放大操作。

优选的，步骤S3，包括：

S3.1，通过Inception结构提取特征，Inception结构单元包括多种不同尺寸的卷积核，不同尺寸的卷积核可提取出多种不同感受野大小的特征，最大限度的保留原始图像信息；同时，借助新型池化方式Various-AvgPool对Inception单元卷积操作后的图像进行降维。和传统池化方式相比，Various-AvgPool可提取出具有平移等不变性的特征，最大限度的避免降维过程中所造成的信息损失。在Inception结构单元中将卷积操作结合批量归一化操作，避免梯度弥散或***等现象，保证网络的正常训练。

S3.2，将Inception结构提取到的特征图输入到胶囊网络中。通过对特征图的重组形成具有包括位置、大小、方向、变形等各种状态的胶囊。在胶囊之间采用新型整合方式，将第一胶囊层整合成第二胶囊层。具体的，首先将权重矩阵的参数数量减少，即将第一胶囊层和权重矩阵之间的局部连接改为全连接。这样，变换后的矩阵与原始胶囊网络所得矩阵的大小仍旧一致，所提取出的信息量不变，但权重矩阵的参数数量减少，有助于加快迭代速度。除此之外，还将整合方式改为先整合胶囊的数量再整合胶囊的维度，因为通常情况下胶囊的维度要小于胶囊的数量，由此耦合矩阵的参数数量也可减少，加快一致性路由的迭代过程。第二胶囊层形成后，其模长便可代表着预测的概率。

优选的，步骤S3.2，具体包括：

a、通过重组，形成1024个16维的第一胶囊层；

b、通过权重矩阵w_j将第一胶囊层u_i的胶囊数量进行整合，整合得到的矩阵为

其中i的范围为1至16，j的范围为1至500；

接着通过耦合矩阵c_j将的胶囊维度进行整合，整合得到的矩阵为s_j：

其中，耦合矩阵c_j来源于b_j：

其中，exp()表示指数函数，n表示分类类别数，b_j的初始值为0，之后采取下面公式迭代：

其中，s_j经过压缩之后便可得到第二胶囊层v_j，所采取的压缩方式如下：

优选的，所述通过重构网络对预处理和图像增广后的篆文图像进行重构，包括：

将第二胶囊层中与重构目标无关的胶囊进行遮盖，将未遮盖的胶囊作为原始图像的重构元素通过全连接层重新构造出相同大小的图像，作为一种正则化方式，引导网络提取出重构原始图像的特征。

另一方面，一种基于Incep-CapsNet网络的篆文识别***，包括：

数据模块，用于获取篆文图像，按照字形与字体制作分类标签，并根据需要定期对数据集更新和扩充；

处理模块，用于对图像数据集进行预处理和图像增广等操作，将处理后的图像将直接输入Incep-CapsNet网络；

预测模块，用于通过Incep-CapsNet网络对预处理和图像增广后的篆文图像进行特征提取并识别分类；

重构模块，用于通过重构网络对预处理和图像增广后的篆文图像进行重构，作为一种有效的正则化方式。

优选的，所述数据模块，包括：通过扫描或者爬虫获取甲骨文、金文和小篆等篆文图像，并根据需要定期对数据集进行更新和扩充。

优选的，所述处理模块，具体包括：

优选的，所述预测模块，具体包括：

通过Inception结构提取特征，Inception结构单元包括多种不同尺寸的卷积核，不同尺寸的卷积核可提取出多种不同感受野大小的特征，最大限度的保留原始图像信息；同时，借助新型池化方式Various-AvgPool对Inception单元卷积操作后的图像进行降维；和传统池化方式相比，Various-AvgPool可提取出具有平移等不变性的特征，最大限度的避免降维过程中所造成的信息损失；在Inception结构单元中将卷积操作结合批量归一化操作，避免梯度弥散或***等现象，保证网络的正常训练；

将降维后的特征图输入到胶囊网络中，依次通过重组和整合形成具有包括位置、大小、方向和/或变形状态的胶囊。

优选的，将降维后的特征图输入到胶囊网络中，依次通过重组和整合形成具有包括位置、大小、方向和/或变形状态的胶囊，具体包括：

a、通过重组，形成1024个16维的第一胶囊层；

其中i的范围为1至16，j的范围为1至500；

其中，耦合矩阵c_j来源于b_j：

优选的，所述重构模块，包括：

根据本发明的实施例，本发明具有如下有益效果：

(1)能够通过Inception结构提取出多种不同感受野大小的特征，相比于普通的卷积网络具有更强的特征提取能力。

(2)能够通过胶囊网络克服传统深度卷积神经网络模型所存在的无法识别特征的朝向以及空间中的相对位置等缺点，在保证精确的识别精度的同时，又具有很强的鲁棒性。

(3)能够通过新型池化方式Various-AvgPool可提取出具有平移等不变性的特征，最大限度的避免降维过程中所造成的信息损失。

(4)将Inception结构和改进的胶囊网络创新性整合所得到的Incep-CapsNet网络，相比于文献3所使用的Inception结构的数量减少了2倍，相比于其他算法，识别精度更高，鲁棒性也更优。

以下结合附图及实施例对本发明作进一步详细说明，但本发明的一种基于Incep-CapsNet网络的篆文识别方法及***不局限于实施例。

附图说明

图1是根据本发明实施例的基于Incep-CapsNet网络的篆文识别方法流程图；

图2是根据本发明实施例的基于Incep-CapsNet网络的篆文识别***示意图；

图3是根据本发明一个具体实施例的Inception结构示意图一；

图4是根据本发明一个具体实施例的Inception结构示意图二；

图5是根据本发明一个具体实施例的Inception结构示意图三；

图6是根据本发明一个具体实施例的新型池化Various-AvgPool结构示意图；

图7是根据本发明一个具体实施例的原胶囊之间整合方式示意图；

图8是根据本发明一个具体实施例的新胶囊之间整合方式示意图；

图9是根据本发明一个具体实施例的Incep-CapsNet网络和重构图像示意图；

图10是根据本发明一个具体实施例的模型之间准确率表现对比图；

图11是根据本发明一个具体实施例的模型之间查准率与查全率表现对比图；

图12是根据本发明一个具体实施例的模型之间PR曲线表现对比图；

图13是根据本发明一个具体实施例的残缺字符示意图；

图14是根据本发明一个具体实施例的噪声字符示意图；

图15是根据本发明一个具体实施例的模型之间加噪图像的鲁棒性对比图；

图16是根据本发明一个具体实施例的Incep-CapsNet应对残缺字符时的鲁棒性分析图。

具体实施方式

下面结合附图详细描述本发明的实施例，需要注意的是附图所描述的实施例仅仅是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。以下结合附图描述根据本发明实施例的基于Incep-CapsNet网络的篆文识别方法及***。

参见图1所示，本发明一种基于Incep-CapsNet网络的篆文识别方法，包括以下步骤：

S1、获取篆文图像数据集，并按照字形与字体制作分类标签；

S2、对图像数据集进行预处理与图像增广操作；

S3、通过Incep-CapsNet网络对预处理和图像增广后的篆文图像进行特征提取并识别分类；

S4、通过重构网络对预处理和图像增广后的篆文图像进行重构，作为一种有效的正则化方式。

参见图2所示，本发明一种基于Incep-CapsNet网络的篆文识别***，包括以下模块：

数据模块201，用于获取篆文图像，按照字形与字体制作分类标签，并根据需要定期对数据集更新和扩充；

处理模块202，用于对图像数据集进行预处理和图像增广等操作，将处理后的图像将直接输入Incep-CapsNet网络；

预测模块203，用于通过Incep-CapsNet网络对预处理和图像增广后的篆文图像进行特征提取并识别分类；

重构模块204，用于通过重构网络对预处理和图像增广后的篆文图像进行重构，作为一种有效的正则化方式。

在本实施例中，图1所示的方法在图2所示的***中得以实现，具体实现过程为：

在数据模块201中，对篆文开源数据库爬取篆文图像，总计爬取到甲骨文250类，金文250类，合计500类汉字，32120张图像。其中包括训练集19467张图像、验证集6415张图像、测试集6238张图像。将这些图像按照字形与字体制作分类标签，如“甲不”表示字体为甲骨文字形为“不”字。

在处理模块202中，首先将图像统一为64x64像素大小。然后对原始图像(原始图像数据集)进行二值化以及零归一化和标准化等预处理操作。同时将标签统一成独热码(one-hot)的形式。此外还要对训练集图像进行图像增广，具体包括随机旋转、左右平移、上下平移、左右翻转、上下翻转、缩小放大等操作的随机组合，以便得到泛化能力更强、鲁棒性更优的模型。

具体的，对数据集进行零归一化和标准化操作，如下：

其中，x^*表示经过零归一化和标准化处理之后的数据集，x表示原有数据集，μ表示原有数据集的均值，σ表示原有数据集的标准差。

在预测模块203中，首先通过Inception结构对处理模块所输入的图像提取特征，Inception结构单元包括多种不同尺寸的卷积核，将不同尺寸的卷积核和篆文图像卷积可提取出具有多种不同感受野大小的特征。本文采用了3种Inception结构，参见图3至图5所示，与原始胶囊网络的单一尺寸卷积核相比，此改进使得Inceps-CapsNet网络的特征提取能力大为提高。并且采用新型池化方式Various-AvgPool进行降维，参见图6所示，Various-AvgPool中的多种不同尺寸的平均池化(average pooling)方式可对篆文图像提取出更多具有平移不变性的特征，这一改进可最大限度地减少降维过程中的信息损失。Various-AvgPool中的尺寸为1x1的卷积核可实现跨通道的信息整合，增加非线性。

经过上述操作可得到特征图，然后将特征图输入改进的胶囊网络中。和现有的深度学习算法相比，将Inception结构提取特征后与胶囊网络结合这一改进可克服传统深度卷积神经网络模型所存在的无法识别特征的朝向以及空间中的相对位置等缺点；和原始胶囊网络相比，本发明采用胶囊间新型整合方式可大幅减少参数，加快迭代速度。具体的，首先通过重组，形成1024个16维的第一胶囊层，之后通过胶囊间的新型整合方式形成第二胶囊层。胶囊间的原有整合方式参见图7，胶囊间的新型整合方式参见图8。关于胶囊间的新型整合方式，具体的改进方式如下，首先通过权重矩阵w_j将第一胶囊层u_i的胶囊数量进行整合，整合得到的矩阵为

其中i的范围为1至16，j的范围为1至500，下同。接着通过耦合矩阵c_j将的胶囊维度进行整合，整合得到的矩阵为s_j：

其中，耦合矩阵c_j来源于b_j：

其中，s_j经过压缩之后便可得到第二胶囊层v_j，所采取的压缩方式与原始胶囊网络一致：

上述过程便是预测模块的全过程，也是Incep-CapsNet的核心部分，可参见图9所示。

在重构模块204中，首先将第二胶囊层中与重构目标无关的胶囊进行遮盖，将未遮盖的胶囊作为原始图像的重构元素通过全连接层可重新构造出相同大小的图像，参见图9所示。此举可作为一种正则化方式，引导网络提取出能够重构原始图像的特征。

为了验证本发明的优异效果，利用上述数据模块所获取的数据对多种不同算法的性能进行了比较，比较过程中采用相同的图像预处理和图像增广等操作。主要包括以下算法：

(1)传统特征提取结合支持向量机(Support Vector Machine，SVM)分类，所用的传统特征为方向梯度直方图(Histogram of Oriented Gradient，HOG)；

(2)批量归一化结合GoogLeNet网络结构；

(3)原始Inception-V3网络结构

(4)Inception-V3网络结合模板匹配辅助分类算法

(5)原始胶囊网络CapsNet网络结构

(6)新型网络架构Incep-CapsNet

其中，算法(1)与文献1中的算法相对应，算法(2)与文献2中的算法相对应。因为新型网络架构是由inception结构和胶囊网络改进而来，所以本发明也与原始的两种网络进行了对比，原始网络对应算法(3)和(5)，本发明对应算法(6)。

首先，采用最直观的指标准确率指标，预测结果和篆文标签一致则说明预测结果正确，否则说明预测结果错误。采用Top 1、Top 2、Top 5、Top 10准确率(Top n准确率指模型对每一篆文图像前n大预测概率所对应的标签中包含正确标签便为预测正确的预测准确率)作为主要指标，所得结果如图10，图中，六个比对柱状图从左到右表示的算法依次是：HOG+SVM、CapsNet、BN+Googlenet、Inception-V3、V3+模板匹配和Incep-CapsNet。通过图10可知，深度学习算法显著优于传统特征提取结合SVM分类的算法。Incep-CapsNet网络结构相比于其它深度学习算法也具有明显的优势。

其次，准确率指标虽然常用，但并不能满足所有任务的要求，比如关心“甲骨文‘不’字有多少比例被挑选出来”等问题时，准确率指标显然不够用了。这时候便需要使用其它的性能度量方式。采用的指标为宏平均处理的查准率与查全率，所得结果如图11，六个比对柱状图从左到右表示的算法依次是：HOG+SVM、CapsNet、BN+Googlenet、Inception-V3、V3+模板匹配和Incep-CapsNet。通过图11可知，采用的Incep-CapsNet网络结构在查准率与查全率方面均有更好的表现。

最后，绘制PR曲线或ROC曲线直观的显示出不同算法在样本总体上的表现。当将多类分转化为二分类问题时，正负样本极其不平衡，ROC曲线不适合作为衡量标准，故采用PR曲线，并用微平均进行处理，同时计算平均准确率，所得PR曲线如图12。通过图12可知，Incep-CapsNet网络结构的PR曲线未能完全“包住”其它两种算法的PR曲线，但曲线下面积或者平均准确率占据主要优势，可见Incep-CapsNet网络结构的性能更优。

此外，在篆文识别领域，经常会遇到古籍破损或沾污等情况，这就会造成残缺字符或者噪声字符的出现，参见图13和图14所示。为了对古籍进行修复，必须对这些残缺字符或者噪声字符进行有效识别，不同算法在噪声字符上的鲁棒性表现参见图15，Incep-Capsnet在残缺字符上的表现参见图16所示。通过图15可知，Incep-CapsNet模型仍具有90.24％的Top 1准确率。这说明Incep-CapsNet新型网络架构在应对噪声时的鲁棒性也很强。通过图16可知，当篆文被遮挡10％的信息时，模型仍能以高概率平均90％左右的Top 1准确率有效识别篆文，和Inception-v3的Top 1识别准确率接近。随着被遮挡信息的增加，模型的识别准确率也开始下降。当篆文被遮挡20％的信息时，模型仍能以平均88％左右的Top 1准确率有效识别篆文，高于BN+GoogLeNet的Top 1识别准确率。当篆文被遮挡25％的信息时，模型仍能以平均83％左右的Top 1准确率有效识别篆文，远高于传统特征提取结合SVM方法的Top 1识别准确率。这说明Incep-CapsNet新型网络架构在应对残缺字符时的鲁棒性很强。这对于古籍之中一些残缺字符的有效识别有着很大的帮助。

以上所述的具体实施例，对本发明的目的、技术方案和效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不限制本发明，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，所做出的修改、替换和变形均属于本发明的保护之内。

Claims

1.一种基于Incep-CapsNet网络的篆文识别方法，其特征在于，包括：

获取篆文图像数据集，并按照字形与字体制作分类标签；

对图像数据集进行预处理与图像增广操作；

通过Incep-CapsNet网络对预处理和图像增广后的篆文图像进行特征提取并识别分类；

通过重构网络对预处理和图像增广后的篆文图像进行重构，作为一种有效的正则化方式。

2.根据权利要求1所述的基于Incep-CapsNet网络的篆文识别方法，其特征在于，所述对图像数据集进行预处理与图像增广操作，包括：

3.根据权利要求1所述的基于Incep-CapsNet网络的篆文识别方法，其特征在于，所述通过Incep-CapsNet网络对预处理和图像增广后的篆文图像进行特征提取并识别分类，包括：

通过Inception结构提取输入的篆文图像的特征，Inception结构单元包括多种不同尺寸的卷积核，将不同尺寸的卷积核和篆文图像卷积提取出具有多种不同感受野大小的特征；并通过新型池化方式Various-AvgPool对Inception单元卷积操作后的图像进行降维；所述Various-AvgPool包括尺寸为1x1的卷积核和若干不同尺寸的平均池化；

4.根据权利要求3所述的基于Incep-CapsNet网络的篆文识别方法，其特征在于，将降维后的特征图输入到胶囊网络中，依次通过重组和整合形成具有包括位置、大小、方向和/或变形状态的胶囊，具体包括：

a、通过重组，形成1024个16维的第一胶囊层；

其中i的范围为1至16，j的范围为1至500；

其中，耦合矩阵c_j来源于b_j：

5.根据权利要求4所述的基于Incep-CapsNet网络的篆文识别方法，其特征在于，所述通过重构网络对预处理和图像增广后的篆文图像进行重构，包括：

6.一种基于Incep-CapsNet网络的篆文识别***，其特征在于，包括：

7.根据权利要求6所述的基于Incep-CapsNet网络的篆文识别***，其特征在于，所述处理模块，具体包括：

8.根据权利要求6所述的基于Incep-CapsNet网络的篆文识别***，其特征在于，所述预测模块，具体包括：

9.根据权利要求8所述的基于Incep-CapsNet网络的篆文识别***，其特征在于，将降维后的特征图输入到胶囊网络中，依次通过重组和整合形成具有包括位置、大小、方向和/或变形状态的胶囊，具体包括：

a、通过重组，形成1024个16维的第一胶囊层；

其中i的范围为1至16，j的范围为1至500；

其中，耦合矩阵c_j来源于b_j：

10.根据权利要求6所述的基于Incep-CapsNet网络的篆文识别***，其特征在于，所述重构模块，包括：