CN116343232A

CN116343232A - 一种基于预分类的古籍数学符号识别方法

Info

Publication number: CN116343232A
Application number: CN202310345892.8A
Authority: CN
Inventors: 董杰; 高峰; 王鑫义; 杨承
Original assignee: Inner Mongolia Normal University
Current assignee: Inner Mongolia Normal University
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-06-27

Abstract

本发明公开了一种基于预分类的古籍数学符号识别方法，涉及图像识别技术领域。本发明包括分类和识别两个阶段；分类阶段：提取古籍数学符号图像集的SIFT特征，进行SVM训练；识别阶段：输入待识别的古籍数学符号，提取SIFT特征，使用BoW模型视觉符号向量表示图像特征；输入训练好的SVM进行分类；获取待识别图像所属的预分类图像集；对图像特征进行RANSAC提纯匹配操作；输出匹配率最高的那幅匹配图像作为识别结果。本发明通过获取大量古籍数学符号来训练SVM分类器，并将待识别的古籍数学符号输入训练好的SVM进行分类后，进行RANSAC提纯匹配操作，输出匹配率最高的那幅匹配图像作为识别结果，提高了古籍数学符号识别准确率。

Description

一种基于预分类的古籍数学符号识别方法

技术领域

本发明属于图像识别技术领域，特别是涉及一种基于预分类的古籍数学符号识别方法。

背景技术

在编程语言中，对指定图像中的对象进行辨认的过程称为识别、数学符号识别，是一种根据对象轮廓识别对象符号的程序,用于识别给定图像中印刷体的数学符号。

现有技术基于Tensorflow的自定义对象数学符号检测模型的训练是通过输入带有数学符号、字母和数字的数据集，利用TensorFlow对象检测技术，进行反复的训练，直到准确率达到100％，将结果集存储起来，并作为输入，从而创建出一个新模型，即数学符号识别模型，但该模型获取的准确度不超过65％。需手动收集不同的手写符号，并对收集到的符号进行训练和测试，这需用到高速处理器及更多内存，来提高准确率。这个过程相当复杂。要利用复杂的神经网络技术，以及复杂的内部操作。

故引入一项新技术，这种新兴技术用于识别或检测图像中印刷体的数学符号，它是一种改进的形状检测技术，本方案所使用的编程技术简单易懂，成本较低。无需训练和测试流程。与现有技术相比，流程的复杂性较低，内存及资源需求较小，各步骤流程容易识别，准确性更是达到了100％。

发明内容

本发明的目的在于提供一种基于预分类的古籍数学符号识别方法，通过获取大量古籍数学符号来训练SVM分类器，并将待识别的古籍数学符号输入训练好的SVM进行分类后，进行RANSAC提纯匹配操作，输出匹配率最高的那幅匹配图像作为识别结果，解决了现有的古籍数学符号识别准确率不高、识别流程复杂、内存及资源需求大的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种基于预分类的古籍数学符号识别方法，包括分类阶段和识别阶段；

分类阶段的具体步骤如下：

步骤F1：向模板库输入大量的古籍数学符号图像集；

步骤F2：提取模板库中所有图像的SIFT特征；

步骤F3：使用BoW模型视觉符号向量重新表示SIFT特征；

步骤F4：将向量输入到SVM中进行训练，得到分类器的各项参数和图像分类结果；

识别阶段的具体步骤如下：

步骤S1：输入待识别的古籍数学符号；

步骤S2：提取待识别古籍数学符号的SIFT特征；

步骤S3：使用BoW模型视觉符号向量表示图像特征；

步骤S4：输入训练好的SVM进行分类；

步骤S5：获取待识别图像所属的预分类图像集；

步骤S6：对图像特征进行RANSAC提纯匹配操作；

步骤S7：输出匹配率最高的那幅匹配图像作为识别结果。

作为一种优选的技术方案，所述步骤F3中，BoW模型重新表示SIFT特征的具体流程如下：

步骤F31：特征提取、提取给定模板图像库中M幅图像的SIFT特征，共N个SIFT特征；

步骤F32：聚类特征、使用K-Means聚类算法通过对N个特征向量聚类，得到k个聚类中心；

步骤F33：图像特征表示，计算每幅图像每个特征到这k个聚类中心的距离，并将其映射到离它最近的聚类中心中，将该聚类中心对应的词频加1，最终每幅图像用一个词频向量来表示。

作为一种优选的技术方案，所述步骤F4中，SVM进行训练的具体流程如下：

步骤F41：选择图像库中的k类目标，随机选取每种类别图幅号中的X幅用于训练，剩余的Y幅图像用于测试；

步骤F42：对训练样本图像使用SIFT算法提取图像特征，紧接着利用BoW模型表示图像特征，把同一类别的特征向量归为一类，得到k类特征向量；

步骤F43：将k类特征向量任意两两组合分别输入支持向量机中学习训练，从而得到

个分类器判别先后顺序；

步骤F44：使用SIFT算法提取测试样本图像的特征向量，并利用BoW模型重新描述，然后输入训练好的SVM起始分类器，根据OAO方法的判别结果依次输入下个分类器进行判别，直到最终得到图像的分类识别结果。

作为一种优选的技术方案，所述步骤S1中，对输入的待识别的古籍数学符号进行预处理，具体处理步骤如下：

步骤S11：通过结构边缘检测算法得到古籍数学符号边缘图像；

步骤S12：通过NMS算法找到边锋得到相对稀疏的边缘图像；

步骤S13：使用贪心策略对边缘点进行聚合，得到边缘线段组；

步骤S14：计算边缘线段之间的相似度和权重，确定候选框内的轮廓；

步骤S15：计算候选框的评分，并按照高低进行排序；

步骤S16：输出得分最高的候选框。

作为一种优选的技术方案，所述步骤S2中，SIFT算法的处理流程如下：

步骤S21：检测尺度空间极值点；

步骤S22：精准定位关键点；

步骤S23：确定关键点方向；

步骤S24：计算特征描述符。

作为一种优选的技术方案，所述步骤S21中，将二维图像I(x,y)的尺度空间函数定义成：

L(x,y,σ)＝G(x,y,σ)*I(x,y)；

式中，(x,y)表示图像像素位置；*表示卷积运算符，σ表示尺度因子；

利用不同尺度的DoG函数与图像进行卷积运算求取尺度空间的极值，DoG函数的计算公式如下：

D(x,y,σ)＝(G(x,y,kσ)-G(x,y,kσ))*I(x,y)＝L(x,y,kσ)-L(x,y,σ)；

式中，D(x,y,σ)为高斯差分函数，G(x,y,σ)为尺度可变的高斯函数。

作为一种优选的技术方案，所述步骤S23中，高斯差分图像的梯度模值和梯度方向可以通过以下公式计算得到：

式中，m(x,y)表示梯度模值，θ(x,y)表示梯度方向，L为特征点所在的尺度。

作为一种优选的技术方案，所述步骤S6中，对图像特征进行RANSAC提纯匹配操作的具体流程如下：

步骤S61：从数据集中随机选取4个匹配点对作为初始样本；

步骤S62：根据初始样本计算变换矩阵H；

步骤S63：根据数据集，变换矩阵H和误差度量函数计算满足当前变换矩阵的一致集，并返回一致集中元素的个数；

步骤S64：根据当前一致集中元素个数判断是否是最优一致集，若是则更新当前最优一致集；

步骤S65：根据当前变换矩阵计算得到的错误概率，若错误概率大于设定的允许最小错误概率则重复步骤S61至步骤S62，继续迭代直到当前错误概率小于最小错误概率。

本发明具有以下有益效果：

本发明通过获取大量古籍数学符号来训练SVM分类器，并将待识别的古籍数学符号输入训练好的SVM进行分类后，进行RANSAC提纯匹配操作，输出匹配率最高的那幅匹配图像作为识别结果，提高了古籍数学符号识别准确率。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于预分类的古籍数学符号识别方法流程图；

图2为分类阶段的流程图；

图3为识别阶段的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于预分类的古籍数学符号识别方法，包括分类阶段和识别阶段；

请参阅图2所示，分类阶段的具体步骤如下：

步骤F1：向模板库输入大量的古籍数学符号图像集；

步骤F2：提取模板库中所有图像的SIFT特征；

步骤F3：使用BoW模型视觉符号向量重新表示SIFT特征；

首先，局部特征提取在目标匹配和识别方面具有广泛的应用，与方向特征直方图等全局特征相比，局部特征具有独特性，能够有效地表达目标特征；其次，局部特征能够有效降低图像因部分遮挡、背景杂乱等因素对图像识别带来的影响；最后，SIFT特征算法在最具有代表性的几种局部不变特征检测算法中鲁棒性最好。

BoW模型重新表示SIFT特征的具体流程如下：

步骤F4中，SVM进行训练的具体流程如下：

个分类器判别先后顺序；

请参阅图3所示，识别阶段的具体步骤如下：

步骤S1：输入待识别的古籍数学符号；

步骤S2：提取待识别古籍数学符号的SIFT特征；

步骤S3：使用BoW模型视觉符号向量表示图像特征；

步骤S4：输入训练好的SVM进行分类；

步骤S5：获取待识别图像所属的预分类图像集；

步骤S6：对图像特征进行RANSAC提纯匹配操作；

步骤S6中，对图像特征进行RANSAC提纯匹配操作的具体流程如下：

步骤S61：从数据集中随机选取4个匹配点对作为初始样本；

步骤S62：根据初始样本计算变换矩阵H；

步骤S7：输出匹配率最高的那幅匹配图像作为识别结果。

步骤S1中，对输入的待识别的古籍数学符号进行预处理，具体处理步骤如下：

步骤S12：通过NMS算法找到边锋得到相对稀疏的边缘图像；

步骤S15：计算候选框的评分，并按照高低进行排序；

步骤S16：输出得分最高的候选框。

步骤S2中，SIFT算法的处理流程如下：

步骤S21：检测尺度空间极值点；通过不断变化尺度参数可以变换原始图像的尺度，以此得到同一幅图像的多分辨率图像，通过这样的方式就能够建立起一幅图像的尺度空间。实际应用中，一般通过图像金字塔实现尺度空间的建立。对原始图像低通滤波和采样处理得到一系列分辨率逐步降低的图像，将高分辨率的图像置于底端，低分辨率的图像置于顶端，这些图像最终就以金字塔的形状排列生成一个图像的金字塔空间。

步骤S21中，将二维图像I(x,y)的尺度空间函数定义成：

L(x,y,σ)＝G(x,y,σ)*I(x,y)；

D(x,y,σ)＝(G(x,y,kσ)-G(x,y,kσ))*I(x,y)＝L(x,y,kσ)-L(x,y,σ)；

步骤S22：精准定位关键点；在DoG尺度空间中检测到的局部极值点需要进一步检验才能将它们精确地定位为特征点，这是因为DoG算子对图像边缘和噪声是较为敏感的。本申请文件采用这种方式具有两个优点，一是计算出的特征点位置和尺度较为精确，二是能够有效去除对比度较低和稳定性较差的边缘响应点。

步骤S23：确定关键点方向；为了提高匹配的精度，同时还能够使描述符对旋转保持不变性，需要为每个特征点分配主方向。而为了保证局部结构的方向具有稳定性，使用图像梯度的方法来求取局部结构的方向。

步骤S24：计算特征描述符。

步骤S23中，高斯差分图像的梯度模值和梯度方向可以通过以下公式计算得到：

值得注意的是，上述***实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于预分类的古籍数学符号识别方法，包括分类阶段和识别阶段，其特征在于，

分类阶段的具体步骤如下：

步骤F1：向模板库输入大量的古籍数学符号图像集；

步骤F2：提取模板库中所有图像的SIFT特征；

步骤F3：使用BoW模型视觉符号向量重新表示SIFT特征；

识别阶段的具体步骤如下：

步骤S1：输入待识别的古籍数学符号；

步骤S2：提取待识别古籍数学符号的SIFT特征；

步骤S3：使用BoW模型视觉符号向量表示图像特征；

步骤S4：输入训练好的SVM进行分类；

步骤S5：获取待识别图像所属的预分类图像集；

步骤S6：对图像特征进行RANSAC提纯匹配操作；

步骤S7：输出匹配率最高的那幅匹配图像作为识别结果。

2.根据权利要求1所述的一种基于预分类的古籍数学符号识别方法，其特征在于，所述步骤F3中，BoW模型重新表示SIFT特征的具体流程如下：

3.根据权利要求1所述的一种基于预分类的古籍数学符号识别方法，其特征在于，所述步骤F4中，SVM进行训练的具体流程如下：

个分类器判别先后顺序；

4.根据权利要求1所述的一种基于预分类的古籍数学符号识别方法，其特征在于，所述步骤S1中，对输入的待识别的古籍数学符号进行预处理，具体处理步骤如下：

步骤S12：通过NMS算法找到边锋得到相对稀疏的边缘图像；

步骤S15：计算候选框的评分，并按照高低进行排序；

步骤S16：输出得分最高的候选框。

5.根据权利要求1所述的一种基于预分类的古籍数学符号识别方法，其特征在于，所述步骤S2中，SIFT算法的处理流程如下：

步骤S21：检测尺度空间极值点；

步骤S22：精准定位关键点；

步骤S23：确定关键点方向；

步骤S24：计算特征描述符。

6.根据权利要求5所述的一种基于预分类的古籍数学符号识别方法，其特征在于，所述步骤S21中，将二维图像I(x,y)的尺度空间函数定义成：

L(x,y,σ)＝G(x,y,σ)*I(x,y)；

D(x,y,σ)＝(G(x,y,kσ)-G(x,y,kσ))*I(x,y)＝L(x,y,kσ)-L(x,y,σ)；

7.根据权利要求5所述的一种基于预分类的古籍数学符号识别方法，其特征在于，所述步骤S23中，高斯差分图像的梯度模值和梯度方向可以通过以下公式计算得到：

8.根据权利要求1所述的一种基于预分类的古籍数学符号识别方法，其特征在于，所述步骤S6中，对图像特征进行RANSAC提纯匹配操作的具体流程如下：

步骤S61：从数据集中随机选取4个匹配点对作为初始样本；

步骤S62：根据初始样本计算变换矩阵H；