CN106257495A - 一种数字识别方法及装置 - Google Patents

一种数字识别方法及装置 Download PDF

Info

Publication number
CN106257495A
CN106257495A CN201510346080.0A CN201510346080A CN106257495A CN 106257495 A CN106257495 A CN 106257495A CN 201510346080 A CN201510346080 A CN 201510346080A CN 106257495 A CN106257495 A CN 106257495A
Authority
CN
China
Prior art keywords
identified
image
numeral
dimensionality reduction
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510346080.0A
Other languages
English (en)
Inventor
丁威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510346080.0A priority Critical patent/CN106257495A/zh
Publication of CN106257495A publication Critical patent/CN106257495A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种数字识别方法及装置,该方法获取待识别图像,根据所述待识别图像中各像素之间的距离,提取所述待识别图像的多维特征向量,根据所述待识别图像的多维特征向量和生成的训练模型,对所述待识别图像进行数字识别,其中,所述训练模型包括降维矩阵和降维类中心向量。通过上述方法,对于所述待识别图像的多维特征向量,由于其可以有效地反映出待识别图像中的数字外部轮廓的形状、内部轮廓的形状,以及该数字自身的各笔画点之间的相对位置关系,因此,可以提高数字识别的准确率。

Description

一种数字识别方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种数字识别方法及装置。
背景技术
目前,数字识别技术理论已经日渐成熟,然而大多数的数字识别方法,在实际应用过程中或多或少的都会出现一些问题,尤其是在复杂应用场景中或是移动设备上,识别效率和识别准确率较低。
例如,常见的数字识别方法有:基于逆传播(Back Propagation,BP)神经网络的识别算法、支持向量机(Support Vector Machine,SVM)识别算法、卷积神经网络(Convolutional Neural Network,CNN)识别算法,等等。BP神经网络的识别算法对样本数量要求很高,否则无法达到较高的识别准确率,SVM识别算法需要选择不同的核函数,且识别模型库较大,CNN识别算法不需要提取特征,但识别效率较低。
综上所述,亟需一种识别效率和识别准确率都较高的数字识别方法。
发明内容
本申请实施例提供一种数字识别方法,用以解决现有技术中的数字识别方法的识别准确率不高和/或识别效率较低的问题。
本申请实施例提供一种数字识别装置,用以解决现有技术中的数字识别方法的识别准确率不高和/或识别效率较低的问题。
本申请实施例提供的一种数字识别方法,包括:
获取待识别图像;
根据所述待识别图像中各像素之间的距离,提取所述待识别图像的多维特征向量;
根据所述待识别图像的多维特征向量和生成的训练模型,对所述待识别图像进行数字识别,其中,所述训练模型包括降维矩阵和降维类中心向量。
本申请实施例提供的一种数字识别装置,包括:
获取模块,用于获取待识别图像;
特征提取模块,用于根据所述待识别图像中各像素之间的距离,提取所述待识别图像的多维特征向量;
识别模块,用于生成训练模型,并根据所述待识别图像的多维特征向量和所述训练模型,对所述待识别图像进行数字识别,其中,所述训练模型包括降维矩阵和降维类中心向量。
本申请实施例通过上述技术方案,对于所述待识别图像的多维特征向量,由于其可以有效地反映出待识别图像中的数字外部轮廓的形状、内部轮廓的形状,以及该数字自身的各笔画点之间的相对位置关系,因此,可以提高数字识别的准确率。不仅如此,由于在数字识别过程中对该多维特征向量进行了降维处理,因此,可以减少数字识别过程中的数据计算量,提高数字识别速度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的数字识别过程;
图2为在本申请实施例提供的数字识别过程中,提取的几类特征的示意图;
图3为在本申请实施例提供的数字识别过程中,生成训练模型的详细过程;
图4为本申请实施例提供的数字识别装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的数字识别过程,具体包括以下步骤:
S101:获取待识别图像。
本申请实施例提供的数字识别方法的执行主体可以是终端或服务器,所述终端包括但不限于:手机、平板电脑、智能手表、车载移动台、个人计算机等;所述服务器包括但不限于:大中型计算机、计算机集群等。所述的执行主体并不构成对本申请的限定。在本申请实施例中,将图像中可表示数字、字母、汉字等字符的像素区域称为所述图像的前景,相应的,将除了前景之外的其他像素区域称为所述图像的背景,所述数字识别可以是对待识别图像的前景所包含的数字(以下简称为:待识别图像中的数字)进行识别的过程。
在本申请实施例中,可以用摄像头或者其他图像采集设备采集原始图像,然后对原始图像进行数字识别。进一步的,由于原始图像中可以有不止一个数字,而且不同的原始图像中的数字的大小、清晰度、颜色等特征可能不相同,从而可能会影响后续数字识别的准确率。因此,也可以不直接对原始图像进行数字识别,而是可以对原始图像进行预处理,获取到更适用于数字识别的待识别图像,再对待识别图像进行数字识别。其中,所述预处理可以是图像剪裁、图像旋转、图像滤波、图像增强、图像二值化等处理。
另外,若在经过所述预处理后,原始图像中的数字分布在了多个待识别图像上,则后续对各待识别图像上的数字进行识别后,还可以对识别出的各数字进行重新排序、拼接等还原处理,以还原为原始图像中的数字。例如,假定对一张订单图像中的订单号进行数字识别,则在预处理过程中可以将表示该订单号的数字串分割为多个数字分别进行识别,这样的话,各数字可能分别分布在一张待识别图像上,在对各待识别图像中的数字进行识别后,可以按照预先记录的各数字的顺序,还原出该订单号,至此,完成了对该订单号进行数字识别的过程。
S102:根据所述待识别图像中各像素之间的距离,提取所述待识别图像的多维特征向量。
在本申请实施例中,可以在待识别图像选取一些特定的像素,如背景边缘像素、前景边缘像素、背景内部像素等,这些特定像素之间的距离可以反映出待识别图像中的数字的外部轮廓的形状、内部轮廓的形状,以及该数字自身的各笔画点之间的相对位置关系,因此,可以作为识别该数字的依据。
进一步的,在实际应用中,可以基于最大类间方差法(OTUS)算法,或者基于直方图获取二值化阈值等方法,确定待识别图像中的背景像素和前景像素。
其中,OTUS算法的基本原理是:将待识别图像中的各像素分为两个像素堆,使得其中一个像素堆中的任一像素的灰度值均大于另一个像素堆中的任一像素的灰度值,且这两个像素堆之间的像素灰度值方差最大。基于直方图获取二值化阈值方法的基本原理是:计算待识别图像的灰度直方图,确定该灰度直方图中的最高峰和次高峰,将最高峰和次高峰之间的最低的峰谷处对应的灰度值作为灰度分割阈值,进而可以将各待识别图像中的各像素分为两个像素堆。
对于通过以上任一方法确定出的两个像素堆,可以将位于待识别图像外侧的像素所属像素堆中的各像素确定为背景像素,相应的,可以将另一个像素堆中的各像素确定为前景像素。
在确定出前景像素和背景像素之后,可以通过逐行遍历各像素,比较每个像素与相邻的像素的灰度值的方法,在各背景像素和前景像素中,进一步地确定出背景边缘像素、前景边缘像素、背景内部像素。
在本申请实施例中,根据上述的特定像素之间的距离,可以按照预设规则组合计算的方式生成多个数据,并将每一个数据作为提取的待识别图像的一个特征,进一步的,可以将提取的多个特征用一个多维向量表示,该多维向量中的每一维的取值分别对应一个所述数据,也即,所述待识别图像的多维特征向量。
在本申请实施例中,为了提高数字识别的准确率,可以提取很多个特征,则提取的所述待识别图像的多维特征向量的维数也可以较高,可达到上百维,在后面会对在实际应用中一些可行的具体实施方式进行举例说明。
S103:根据所述待识别图像的多维特征向量和生成的训练模型,对所述待识别图像进行数字识别,其中,所述训练模型包括降维矩阵和降维类中心向量。
在本申请实施例中,可以预先地、或者实时地采集大量各个数字的样本图像,然后对这些样本图像进行训练,生成训练模型,用于识别所述待识别图像中的数字。简单说来,可以将所述训练模型视作一个分类器,每个类别分别对应一个数字,在进行数字识别时,可以向给分类器输入提取的所述待识别图像的多维特征向量,该分类器通过处理确定该多维特征向量所属的类别,进而,可以认为待识别图像中包含有该类别对应的数字。
进一步的,若直接将高维数的多维特征向量用于数字识别,可能会降低数字识别速度,因此,可以用降维矩阵对所述待识别图像的多维特征向量进行降维处理,这样的话,可以降低数字识别过程中用到的存储空间,提高数字识别速度。降维后,可以采用将降维后的多维特征向量(以下简称为降维特征向量)与各类的类中心向量进行匹配的方式,确定降维特征向量所属的类别,这种匹配方式准确度较高。其中,所述类中心向量在后面进行详细解释。
根据上述分析,所述训练模型可以包括降维矩阵和降维类中心向量。
通过上述方法,对于所述待识别图像的多维特征向量,由于其可以有效地反映出待识别图像中的数字外部轮廓的形状、内部轮廓的形状,以及该数字自身的各笔画点之间的相对位置关系,因此,可以提高数字识别的准确率。不仅如此,由于在数字识别过程中对该多维特征向量进行了降维处理,因此,可以减少数字识别过程中的数据计算量,提高数字识别速度。
在本申请实施例中,由于数字串是若干个数字(也即,0至9这10个数字中的任一数字)的组合,若能识别各数字,则也可以实现对数字串的识别。因此,在上述步骤S101中,获取待识别图像,具体包括:对原始图像进行预处理,生成设定尺寸的二值图像,作为待识别图像,其中,所述待识别图像的前景至多包含一个数字。若原始图像的前景包含多个数字,则可以相应地将原始图像分割为多个待识别图像,分别对各待识别图像进行数字识别。
在实际应用中,可以采用投影分割的方法将原始图像分割为多个待识别图像,使得每个待识别图像的前景至多包含一个数字。在此对投影分割的方法进行简单说明:可以将原始图像进行灰度水平投影,然后将灰度水平投影后的原始图像的前景中的数字进行逐行分割,再对每一行进行灰度垂直投影,然后对灰度垂直投影后的每一行中的每个数字进行逐列分割,进而分割出了上述的多个待识别图像。
类似的,也可以先对原始图像进行二值化,然后再将二值化后的原始图像分割为多个待识别图像。
需要说明的是,生成二值图像可以尽量增大图像背景像素和前景像素灰度值之间差异,有利于提高数字识别的准确率。当然,在实际应用中,对于原始图像,也可以不做二值化处理,直接进行数字识别。
在本申请实施例中,对于上述步骤S102,根据待识别图像中各像素之间的距离,提取所述待识别图像的多维特征向量,具体包括:根据在待识别图像中,背景边缘像素与前景边缘像素之间的距离、前景像素与前景边缘像素之间的距离、选定方向上背景像素与前景像素的跳变次数,提取所述待识别图像的多维特征向量。其中所述前景边缘像素包括前景外边缘像素和前景内边缘像素。下面对上述的几大类特征举例进行说明。
如图2所示,左侧三个待识别图像的前景包含了数字“8”,最右侧的待识别图像用阴影部分表示前景。
最左侧的待识别图像中的四个箭头线段的长度表示了:在待识别图像的上下左右四边上,选定的背景边缘像素与对应箭头所指向的前景外边缘像素之间的距离(为了便于描述,以下称为一次外包围)。
左侧起第二个待识别图像中的四个箭头线段的长度表示了:在待识别图像的上下左右四边上,选定的背景边缘像素与对应箭头所指向的前景内边缘像素之间的距离(为了便于描述,以下称为二次外包围)。
左侧起第三个待识别图像中的两个箭头线段的长度表示了:在待识别图像的上边和左边上,从选定的背景边缘像素至对应箭头所指向的背景边缘像素所经过的各像素,根据所述经过的各像素,可以确定在该箭头方向上背景像素与前景像素的跳变次数(以下称为跳变次数),可以看到,左边箭头对应的跳变次数为4次,上边箭头对应的跳变次数为6次。
对于最右侧的待识别图像上的任一前景像素,如几个箭头的交点处的前景像素,四个双箭头线段分别表示了:该前景像素与对应双箭头所指向的前景边缘像素之间的距离,其中,该四个双箭头对应的方向可以是上下方向、左右方向、上下方向与左右方向之间设定度数夹角(例如,可以为45度夹角)的两个方向。
在实际应用中,可以选取待识别图像的特定区域的像素,提取上述的这几类特征,以及将这几类特征进行组合形成更多的特征,再将提取的各特征的取值按照选定的顺序表示为多维特征向量。
例如,可以用上述几大类特征进行组合,总共提取510维的多维特征向量F[N],其中,N为整数,0≤N<510。该510维特征分别如下:F[0]为在待识别图像的列方向上跳变次数的和的1/4,F[1]为在待识别图像的行方向上跳变次数的和的1/4,F[2]至F[5]为分别为待识别图像的上下左右4个方向相邻行一次外包围的距离之差,F[6]至F[9]为待识别图像的水平方向分成4份,分别统计的每份中跳变次数小于6次的总数,F[10]至F[13]为待识别图像的垂直方向分成4份,分别统计的每份中跳变次数小于6次的总数,F[14]至F[15]为待识别图像的左侧分成2份,分别统计的每份二次外包围大于上一行的距离的次数和,F[16]到F[21]依次是从待识别图像的右侧,上侧,下侧,按照获取F[14]至F[15]的方法获取,F[22]至F[29]与获取F[14]至F[21]的方式类似,不过统计的是二次外包围小于上一行的距离的次数和,F[30]至F[31]为待识别图像的左侧分成2份,分别统计的每份一次外包围大于上一行的距离的次数和,F[32]至F[37]依次是从待识别图像的右侧,上侧,下侧,按照获取F[30]至F[31]的方法获取,F[38]至F[45]与获取F[30]至F[37]的获取方式类似,不过统计的是一次外包围小于上一行的距离的次数和,F[46]到F[53]为待识别图像的左侧分成8份,分别统计的每份内的二次外包围距离和,F[54]到F[77]分别为其余三个方向各分成8份进行二次外包围距离和,F[78]到F[85]为待识别图像的左侧分成8份,统计每份内的一次外包围距离和,F[86]到F[109]为其余3个方向各分成8份统计一次外包围距离和,至此共生成110维特征,计算每个前景像素4个方向延伸到前景外边缘的像素点和,对待识别图像进行分块,块的大小为4×4,块偏移为4,在每个块内分别统计所有前景像素在4个方向上的距离和,共可以生成400维特征,即为F[110]至F[509]。以上总计生成待识别图像的510维特征。需要说明的是,在实际应用中,可以对这510维特征中的某些特征进行删减或重新组合,且这510维特征在多维特征向量F[N]中的排列顺序也可以进行调换。
在本申请实施例中,对于上述步骤S103,可以按照如下方法生成所述训练模型:针对0至9这10个数字中的每个数字,分别采集与该数字对应的训练样本,根据针对各所述数字采集的训练样本,生成训练模型。其中,为每个数字都可以采集多个训练样本,为了提高后续生成的训练模型的适用性和容错性,每个数字在其对应的各训练样本中的字体可以不相同,所述字体包括但不限:宋体、楷体、隶书、黑体、点状字体(常见于机打票据上)、线状字体(常见于仪表上)、液晶字体(常见于液晶显示屏上),等等,这样的话,即使待识别图像上的数字的字体不同,对后续数字识别的准确度影响也较小。
进一步的,根据针对各所述数字采集的训练样本,生成训练模型,具体包括以下步骤:
S301:针对每个所述数字(整数0至9),提取与该数字对应的各训练样本的多维特征向量,并对所述各训练样本的多维特征向量进行聚类,获得设定数量个多维特征向量类,以及确定每个所述多维特征向量类的类中心向量,作为与该数字对应的类中心向量。
所述训练样本可以是经过了预处理后的、包含有一个数字的图像,所述训练样本的尺寸大小可以与所述待识别图像的尺寸大小相同。提取各训练样本的多维特征向量的方法,与提取待识别图像的多维特征向量的方法相同。下面对所述聚类过程进行说明。
一般的,各训练样本的多维特征向量可以聚类为10大类,每个大类分别对应整数0至9中的一个数字。进一步的,由于每个大类中的数字虽然可能相同,但是数字的字体、颜色等属性可能不同,在每个大类中的各多维特征向量在特征分布上差异性可能较大,不利于后续数字识别,则针对这个问题,可以在每个大类中进行类内聚类,也即,将每个数字对应的大类聚类为多个的小类(所述小类也可以称作簇),每个小类中的各多维特征向量在特征分布上差异性较小,这样的话,可以提高后续数字识别的精度和准确度。假定将每个大类聚类成设定数量个小类(将所述设定数量用M表示,M为正整数),为了便于理解,可以用数字0至9分别表示对应的大类,用01、02、…、0M分别表示数字0标记的大类所聚类成的M个小类,其他数字标记的大类所聚类成的M个小类也可以用类似的方法表示,总共有10×M个小类。其中,所述小类即为所述多维特征向量类。
对于每个大类中的各相同的数字,若有越多的所述各相同的数字相互之间的外观差异较大(可能由于字体、颜色等属性不相同等原因导致),则相应地可以将对应大类的M设定得越大,这样的话,在类内聚类后,各数字对应的多维特征向量有更大的概率落在M个所述多维特征向量类中,而不是落空,进而也使后续进行数字识别时,待识别图片中的数字可以更准确地与训练模型进行匹配。在实际应用中,一般可以将M设置为30至50之间,后续数字识别效果较好。
在本申请实施例中,可以采用现有的聚类算法实现上述聚类过程,所述聚类算法包括但不限于:K-means聚类算法、ROCK聚类算法、Chameleon聚类算法,等等。例如,当采用K-means聚类算法时,可以基于L1距离进行距离度量,在这种情况下,假定向量V和向量M中各有m维,向量V中各维分别为V1、V2、…、Vm,向量M中各维分别为M1、M2、…、Mm,则向量V与向量M之间的L1距离D为:
D = Σ i = 0 m | V i - M i |
其中,i、m为正整数。
K-means聚类算法的优点是简单快速,且对于球形类数据簇有较好的聚类效果。在聚类过程中,可以确定出每个所述多维特征向量类的类中心向量,以用于后续数字识别。
S302:根据提取的各所述数字的训练样本的多维特征向量,生成多维特征矩阵。
具体的,可以将每个多维特征向量作为生成多维特征矩阵中的一个行向量,例如,假定多维特征向量的维数为N,训练样本的总数量(也即,多维特征向量的总数量)为S,则可以生成S×N的多维特征矩阵。
S303:采用降维算法,对所述多维特征矩阵进行降维处理,生成降维矩阵。
在本申请实施例中,可以采用现有的降维算法实现降维处理过程,所述降维算法包括但不限于:线性判别式分析(Linear Discriminant Analysis,LDA)降维算法、主成分分析(Principal Components Analysis,PCA)降维算法,等等。例如,当采用LDA降维算法时,其基本原理是将高维特征向量投影到最佳鉴别矢量空间,以达到提取分类信息和压缩降低特征向量维数的效果,投影后保证降维后的高维特征向量在该最佳鉴别矢量空间中有最大的类间距离和最小的类内距离,对于本申请实施例,可以使所述各多维特征向量在降维后有最佳的可分离性,而且还可以降低图像噪声,节省存储成本。
S304:根据所述降维矩阵和各所述类中心向量,分别为每个所述类中心向量生成对应的降维类中心向量。
例如,可以用Ci表示所述类中心向量,用Ci'表示生成的与Ci对应的降维类中心向量,其中,i为整数,0≤i≤10×M。假定降维前的维数为N,降维后的维数为N',N和N'均为正整数,N>N'。用WN×N'表示在S303中生成的降维矩阵,WN×N'为N行N'列的矩阵,则采用以下公式计算Ci':Ci'=Ci×WN×N'
S305:将所述降维矩阵和各所述降维类中心向量,作为生成的训练模型。
另外,在实际应用中,为了进一步节省存储成本,可以将数字识别相关数据从浮点数转换为short类型保存,则可降低一半存储空间,而在载入训练模型的时候,再将转换后的相关数据还原回来。
在本申请实施例中,对于上述步骤S103,可以采用最近邻分类器的方法实现。具体的,可以根据所述降维矩阵和所述待识别图像的多维特征向量,生成所述待识别图像的降维特征向量,在各所述降维类中心向量中,基于选定的向量距离度量方法,确定与所述降维特征向量距离最近的降维类中心向量,作为最近邻向量,当所述最近邻向量与所述降维特征向量之间的距离不大于预设阈值时,确定所述待识别图像的前景包含有:所述降维特征向量对应的类中心向量对应的数字。
继续用上例进行说明,可以用V1×N表示待识别图像的多维特征向量,V1×N为1行N列的行向量,用V'1×N'表示待识别图像的降维特征向量,V'1×N'为1行N'列的行向量,则V'1×N'=V1×N×WN×N'
进一步的,可以基于L1距离,或者欧氏距离等向量距离度量方法,对所述待识别图像的降维特征向量进行最近邻分类。例如,当基于L1距离时,可采用公式M确定待识别图像的降维特征向量所对应的多维特征向量类,可以采用公式度量数字识别结果的可信度,λ越小,数字识别结果的可信度越高。其中,Vm'表示V'1×N'的第m维的取值,C'im表示第i个降维类中心向量的第m维的取值。
为了进一步地提高数字识别结果的可靠性和容错性,也可以在各所述降维类中心向量中,基于选定的向量距离度量方法,从与所述降维特征向量距离最近的降维类中心向量开始,按照各降维类中心向量与所述降维特征向量距离从近至远的顺序,选择设定数量个降维类中心向量,作为最近邻向量集合,然后在所述最近邻向量集合中,分别确定各降维类中心向量对应的类中心向量对应的数字,将对应数字相同的降维类中心向量归为一类,可以将包含降维类中心向量最多的一类对应的数字,确定为从待识别图像中识别出的数字。当然,若对于包含降维类中心向量的一类中的各降维类中心向量,若该各降维类中心向量与所述降维特征向量之间的平均距离大于所述预设阈值时,可以认为待识别图像中可能并不包含数字,而是包含了其他字符。
另外,本申请实施例所提供的数字识别方法,也适用于对除数字之外的其他字符进行识别,例如英文字母、汉字等等。相应的,在对其他字符进行识别时,应当还要基于该其他字符对应的训练样本生成训练模型,而不是仅基于0至9这10数字对应的训练样本生成训练模型,这样才能保证训练模型的适用性和可靠性。
以上为本申请实施例提供的数字识别方法,基于同样的思路,本申请实施例还提供相应的数字识别装置,如图4所示。
图4为本申请实施例提供的数字识别装置结构示意图,具体包括:
获取模块401,用于获取待识别图像;
特征提取模块402,用于根据所述待识别图像中各像素之间的距离,提取所述待识别图像的多维特征向量;
识别模块403,用于生成训练模型,并根据所述待识别图像的多维特征向量和所述训练模型,对所述待识别图像进行数字识别,其中,所述训练模型包括降维矩阵和降维类中心向量。
所述获取模块401具体用于,对原始图像进行预处理,生成设定尺寸的二值图像,作为待识别图像,其中,所述待识别图像的前景至多包含一个数字。
所述特征提取模块402具体用于,根据在待识别图像中,背景边缘像素与前景边缘像素之间的距离、前景像素与前景边缘像素之间的距离、选定方向上背景像素与前景像素的跳变次数,提取所述待识别图像的多维特征向量。
所述识别模块403具体用于,针对0至9这10个数字中的每个数字,分别采集与该数字对应的训练样本,根据针对各所述数字采集的训练样本,生成训练模型。
所述识别模块403具体用于,针对每个所述数字,提取与该数字对应的各训练样本的多维特征向量,并对所述各训练样本的多维特征向量进行聚类,获得设定数量个多维特征向量类,以及确定每个所述多维特征向量类的类中心向量,作为与该数字对应的类中心向量,根据提取的各所述数字的训练样本的多维特征向量,生成多维特征矩阵,采用降维算法,对所述多维特征矩阵进行降维处理,生成降维矩阵,根据所述降维矩阵和各所述类中心向量,分别为每个所述类中心向量生成对应的降维类中心向量,将所述降维矩阵和各所述降维类中心向量,作为生成的训练模型。
所述识别模块403具体用于,根据所述降维矩阵和所述待识别图像的多维特征向量,生成所述待识别图像的降维特征向量,在各所述降维类中心向量中,基于选定的向量距离度量方法,确定与所述降维特征向量距离最近的降维类中心向量,作为最近邻向量,当所述最近邻向量与所述降维特征向量之间的距离不大于预设阈值时,确定所述待识别图像的前景包含有:所述降维特征向量对应的类中心向量对应的数字。
具体的上述如图4所示的装置可以位于终端、服务器上。
本申请实施例提供一种数字识别方法及装置,该方法获取待识别图像,根据所述待识别图像中各像素之间的距离,提取所述待识别图像的多维特征向量,根据所述待识别图像的多维特征向量和生成的训练模型,对所述待识别图像进行数字识别,其中,所述训练模型包括降维矩阵和降维类中心向量。通过上述方法,对于所述待识别图像的多维特征向量,由于其可以有效地反映出待识别图像中的数字外部轮廓的形状、内部轮廓的形状,以及该数字自身的各笔画点之间的相对位置关系,因此,可以提高数字识别的准确率。不仅如此,由于在数字识别过程中对该多维特征向量进行了降维处理,因此,可以减少数字识别过程中的数据计算量,提高数字识别速度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种数字识别方法,其特征在于,包括:
获取待识别图像;
根据所述待识别图像中各像素之间的距离,提取所述待识别图像的多维特征向量;
根据所述待识别图像的多维特征向量和生成的训练模型,对所述待识别图像进行数字识别,其中,所述训练模型包括降维矩阵和降维类中心向量。
2.如权利要求1所述的方法,其特征在于,获取待识别图像,具体包括:
对原始图像进行预处理,生成设定尺寸的二值图像,作为待识别图像,其中,所述待识别图像的前景至多包含一个数字。
3.如权利要求2所述的方法,其特征在于,根据待识别图像中各像素之间的距离,提取所述待识别图像的多维特征向量,具体包括:
根据在待识别图像中,背景边缘像素与前景边缘像素之间的距离、前景像素与前景边缘像素之间的距离、选定方向上背景像素与前景像素的跳变次数,提取所述待识别图像的多维特征向量。
4.如权利要求3所述的方法,其特征在于,所述训练模型按照如下方法生成:
针对0至9这10个数字中的每个数字,分别采集与该数字对应的训练样本;
根据针对各所述数字采集的训练样本,生成训练模型。
5.如权利要求4所述的方法,其特征在于,根据针对各所述数字采集的训练样本,生成训练模型,具体包括:
针对每个所述数字,提取与该数字对应的各训练样本的多维特征向量;并
对所述各训练样本的多维特征向量进行聚类,获得设定数量个多维特征向量类,以及确定每个所述多维特征向量类的类中心向量,作为与该数字对应的类中心向量;
根据提取的各所述数字的训练样本的多维特征向量,生成多维特征矩阵;
采用降维算法,对所述多维特征矩阵进行降维处理,生成降维矩阵;
根据所述降维矩阵和各所述类中心向量,分别为每个所述类中心向量生成对应的降维类中心向量;
将所述降维矩阵和各所述降维类中心向量,作为生成的训练模型。
6.如权利要求5所述的方法,其特征在于,根据所述待识别图像的多维特征向量和生成的训练模型,对所述待识别图像进行数字识别,具体包括:
根据所述降维矩阵和所述待识别图像的多维特征向量,生成所述待识别图像的降维特征向量;
在各所述降维类中心向量中,基于选定的向量距离度量方法,确定与所述降维特征向量距离最近的降维类中心向量,作为最近邻向量;
当所述最近邻向量与所述降维特征向量之间的距离不大于预设阈值时,确定所述待识别图像的前景包含有:所述降维特征向量对应的类中心向量对应的数字。
7.一种数字识别装置,其特征在于,包括:
获取模块,用于获取待识别图像;
特征提取模块,用于根据所述待识别图像中各像素之间的距离,提取所述待识别图像的多维特征向量;
识别模块,用于生成训练模型,并根据所述待识别图像的多维特征向量和所述训练模型,对所述待识别图像进行数字识别,其中,所述训练模型包括降维矩阵和降维类中心向量。
8.如权利要求7所述的装置,其特征在于,所述获取模块具体用于,对原始图像进行预处理,生成设定尺寸的二值图像,作为待识别图像,其中,所述待识别图像的前景至多包含一个数字。
9.如权利要求8所述的装置,其特征在于,所述特征提取模块具体用于,根据在待识别图像中,背景边缘像素与前景边缘像素之间的距离、前景像素与前景边缘像素之间的距离、选定方向上背景像素与前景像素的跳变次数,提取所述待识别图像的多维特征向量。
10.如权利要求9所述的装置,其特征在于,所述识别模块具体用于,针对0至9这10个数字中的每个数字,分别采集与该数字对应的训练样本,根据针对各所述数字采集的训练样本,生成训练模型。
11.如权利要求10所述的装置,所述识别模块具体用于,针对每个所述数字,提取与该数字对应的各训练样本的多维特征向量,并对所述各训练样本的多维特征向量进行聚类,获得设定数量个多维特征向量类,以及确定每个所述多维特征向量类的类中心向量,作为与该数字对应的类中心向量,根据提取的各所述数字的训练样本的多维特征向量,生成多维特征矩阵,采用降维算法,对所述多维特征矩阵进行降维处理,生成降维矩阵,根据所述降维矩阵和各所述类中心向量,分别为每个所述类中心向量生成对应的降维类中心向量,将所述降维矩阵和各所述降维类中心向量,作为生成的训练模型。
12.如权利要求11所述的装置,所述识别模块具体用于,根据所述降维矩阵和所述待识别图像的多维特征向量,生成所述待识别图像的降维特征向量,在各所述降维类中心向量中,基于选定的向量距离度量方法,确定与所述降维特征向量距离最近的降维类中心向量,作为最近邻向量,当所述最近邻向量与所述降维特征向量之间的距离不大于预设阈值时,确定所述待识别图像的前景包含有:所述降维特征向量对应的类中心向量对应的数字。
CN201510346080.0A 2015-06-19 2015-06-19 一种数字识别方法及装置 Pending CN106257495A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510346080.0A CN106257495A (zh) 2015-06-19 2015-06-19 一种数字识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510346080.0A CN106257495A (zh) 2015-06-19 2015-06-19 一种数字识别方法及装置

Publications (1)

Publication Number Publication Date
CN106257495A true CN106257495A (zh) 2016-12-28

Family

ID=57714207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510346080.0A Pending CN106257495A (zh) 2015-06-19 2015-06-19 一种数字识别方法及装置

Country Status (1)

Country Link
CN (1) CN106257495A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460389A (zh) * 2017-02-20 2018-08-28 阿里巴巴集团控股有限公司 一种识别图像中对象的类型预测方法、装置及电子设备
CN108549889A (zh) * 2018-03-14 2018-09-18 南京航空航天大学 一种简易的印刷体数字识别方法
CN108573261A (zh) * 2018-04-17 2018-09-25 国家电网公司 一种适用于变电站巡检机器人的数字显示仪表识别方法
CN109002829A (zh) * 2018-07-20 2018-12-14 西安电子科技大学 基于数据降维和CNNs的彩色图像逆半调处理方法
CN109815971A (zh) * 2017-11-20 2019-05-28 富士通株式会社 信息处理方法和信息处理装置
CN110163250A (zh) * 2019-04-10 2019-08-23 阿里巴巴集团控股有限公司 基于分布式调度的图像脱敏处理***、方法以及装置
CN111104945A (zh) * 2019-12-17 2020-05-05 上海博泰悦臻电子设备制造有限公司 物体识别方法及相关产品
CN111242124A (zh) * 2020-01-13 2020-06-05 支付宝实验室(新加坡)有限公司 一种证件分类方法、装置及设备
CN111689099A (zh) * 2020-06-22 2020-09-22 华东理工大学 一种基于ros的商务楼垃圾回收机器人
CN113362355A (zh) * 2021-05-31 2021-09-07 杭州萤石软件有限公司 一种地面材质识别方法、装置和扫地机器人
CN113723410A (zh) * 2020-05-21 2021-11-30 安徽小眯当家信息技术有限公司 一种数码管数字识别方法及装置
CN115953774A (zh) * 2023-03-08 2023-04-11 济宁安泰矿山设备制造有限公司 基于机器视觉的报警器显示数码识别方法
US11816565B2 (en) 2019-10-16 2023-11-14 Apple Inc. Semantic coherence analysis of deep neural networks

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751565A (zh) * 2008-12-10 2010-06-23 中国科学院自动化研究所 融合二值图像与灰度图像的字符识别的方法
CN103268490A (zh) * 2013-05-30 2013-08-28 电子科技大学 一种采用两边三宽特征的数字识别方法
CN103310237A (zh) * 2013-07-09 2013-09-18 苏州大学 手写体数字识别方法及***
CN103870808A (zh) * 2014-02-27 2014-06-18 中国船舶重工集团公司第七一〇研究所 一种手指静脉识别方法
CN104657709A (zh) * 2015-02-05 2015-05-27 小米科技有限责任公司 人脸图像识别方法、装置及服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751565A (zh) * 2008-12-10 2010-06-23 中国科学院自动化研究所 融合二值图像与灰度图像的字符识别的方法
CN103268490A (zh) * 2013-05-30 2013-08-28 电子科技大学 一种采用两边三宽特征的数字识别方法
CN103310237A (zh) * 2013-07-09 2013-09-18 苏州大学 手写体数字识别方法及***
CN103870808A (zh) * 2014-02-27 2014-06-18 中国船舶重工集团公司第七一〇研究所 一种手指静脉识别方法
CN104657709A (zh) * 2015-02-05 2015-05-27 小米科技有限责任公司 人脸图像识别方法、装置及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张莹: "车牌字符特征提取及识别方法研究", 《计算机光盘软件与应用》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460389A (zh) * 2017-02-20 2018-08-28 阿里巴巴集团控股有限公司 一种识别图像中对象的类型预测方法、装置及电子设备
CN108460389B (zh) * 2017-02-20 2021-12-03 阿里巴巴集团控股有限公司 一种识别图像中对象的类型预测方法、装置及电子设备
CN109815971A (zh) * 2017-11-20 2019-05-28 富士通株式会社 信息处理方法和信息处理装置
CN109815971B (zh) * 2017-11-20 2023-03-10 富士通株式会社 信息处理方法和信息处理装置
CN108549889A (zh) * 2018-03-14 2018-09-18 南京航空航天大学 一种简易的印刷体数字识别方法
CN108549889B (zh) * 2018-03-14 2021-07-27 南京航空航天大学 一种简易的印刷体数字识别方法
CN108573261A (zh) * 2018-04-17 2018-09-25 国家电网公司 一种适用于变电站巡检机器人的数字显示仪表识别方法
CN109002829A (zh) * 2018-07-20 2018-12-14 西安电子科技大学 基于数据降维和CNNs的彩色图像逆半调处理方法
CN110163250A (zh) * 2019-04-10 2019-08-23 阿里巴巴集团控股有限公司 基于分布式调度的图像脱敏处理***、方法以及装置
CN110163250B (zh) * 2019-04-10 2023-10-24 创新先进技术有限公司 基于分布式调度的图像脱敏处理***、方法以及装置
US11816565B2 (en) 2019-10-16 2023-11-14 Apple Inc. Semantic coherence analysis of deep neural networks
CN111104945A (zh) * 2019-12-17 2020-05-05 上海博泰悦臻电子设备制造有限公司 物体识别方法及相关产品
CN111242124A (zh) * 2020-01-13 2020-06-05 支付宝实验室(新加坡)有限公司 一种证件分类方法、装置及设备
CN111242124B (zh) * 2020-01-13 2023-10-31 支付宝实验室(新加坡)有限公司 一种证件分类方法、装置及设备
CN113723410A (zh) * 2020-05-21 2021-11-30 安徽小眯当家信息技术有限公司 一种数码管数字识别方法及装置
CN113723410B (zh) * 2020-05-21 2024-06-07 广东艾力森数码电器有限公司 一种数码管数字识别方法及装置
CN111689099A (zh) * 2020-06-22 2020-09-22 华东理工大学 一种基于ros的商务楼垃圾回收机器人
CN113362355A (zh) * 2021-05-31 2021-09-07 杭州萤石软件有限公司 一种地面材质识别方法、装置和扫地机器人
CN115953774A (zh) * 2023-03-08 2023-04-11 济宁安泰矿山设备制造有限公司 基于机器视觉的报警器显示数码识别方法

Similar Documents

Publication Publication Date Title
CN106257495A (zh) 一种数字识别方法及装置
US11256960B2 (en) Panoptic segmentation
US20210056293A1 (en) Face detection method
CN111027563A (zh) 一种文本检测方法、装置及识别***
US9152888B2 (en) System and method for automated object detection in an image
US20190340746A1 (en) Stationary object detecting method, apparatus and electronic device
US20210209395A1 (en) Method, electronic device, and storage medium for recognizing license plate
JP2014232533A (ja) Ocr出力検証システム及び方法
KR20170137170A (ko) 텍스트 이미지 처리 방법 및 장치
CN110689043A (zh) 一种基于多重注意力机制的车辆细粒度识别方法及装置
US20210150182A1 (en) Cloud detection from satellite imagery
CN111723815B (zh) 模型训练方法、图像处理方法、装置、计算机***和介质
US20240193923A1 (en) Method of training target object detection model, method of detecting target object, electronic device and storage medium
CN113269257A (zh) 一种图像分类方法、装置、终端设备及存储介质
CN112541443B (zh) ***信息抽取方法、装置、计算机设备及存储介质
CN111951154B (zh) 包含背景和介质的图片的生成方法及装置
US20230067934A1 (en) Action Recognition Method, Apparatus and Device, Storage Medium and Computer Program Product
US20230298314A1 (en) Image clustering method and apparatus, computer device, and storage medium
US20230045715A1 (en) Text detection method, text recognition method and apparatus
CN111062262B (zh) ***识别方法以及***识别装置
Xu et al. Multi‐pyramid image spatial structure based on coarse‐to‐fine pyramid and scale space
CN112749576B (zh) 图像识别方法和装置、计算设备以及计算机存储介质
CN110309774A (zh) 虹膜图像分割方法、装置、存储介质及电子设备
CN113591884B (zh) 字符识别模型的确定方法、装置、设备及存储介质
Liu et al. A novel SVM network using HOG feature for prohibition traffic sign recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1231223

Country of ref document: HK

RJ01 Rejection of invention patent application after publication

Application publication date: 20161228

RJ01 Rejection of invention patent application after publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1231223

Country of ref document: HK