CN106845358A - 一种手写体字符图像特征识别的方法及*** - Google Patents

一种手写体字符图像特征识别的方法及*** Download PDF

Info

Publication number
CN106845358A
CN106845358A CN201611217910.0A CN201611217910A CN106845358A CN 106845358 A CN106845358 A CN 106845358A CN 201611217910 A CN201611217910 A CN 201611217910A CN 106845358 A CN106845358 A CN 106845358A
Authority
CN
China
Prior art keywords
matrix
handwritten character
sample
character image
soft
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611217910.0A
Other languages
English (en)
Other versions
CN106845358B (zh
Inventor
张召
汪笑宇
李凡长
张莉
王邦军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201611217910.0A priority Critical patent/CN106845358B/zh
Publication of CN106845358A publication Critical patent/CN106845358A/zh
Application granted granted Critical
Publication of CN106845358B publication Critical patent/CN106845358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了手写体字符图像特征识别的方法及***,在特征学习方面,目标在于紧凑局部软标签类内散度并分离局部软标签类间散度,同时在所有训练数据上进行局部保持特征提取;为了在特征提取和展示方面对于噪声鲁棒,对于噪声鲁棒的1‑范数规则被用于构造样本间的相似度,使得在识别中图像展示的能力可得到显著提升;基于比例的模型可通过一个迭代的方法得到描述矩阵,该描述矩阵具有判别性与局部保持的特点且具有正交特性;样本外图像的归纳通过将测试样本向描述矩阵进行投影,进而将提取的特征输入最近邻分类器进行归类,取对应欧式距离最小值的位置,用于测试图像的类别鉴定,得到最准确的识别结果。

Description

一种手写体字符图像特征识别的方法及***
技术领域
本发明涉及计算机视觉和图像识别技术领域,特别涉及一种手写体字符图像特征识别的方法及***。
背景技术
高维数据例如图像、音频等在日常生活中愈发普遍,因而可对其提取有用信息的特征学习方法显得尤为重要。离线手写体识别即是对其中某种高维信息进行特征提取并利用的一个实例。它通过电子专用设备将纸质手写文本电子化,得到计算机存储的字符图像,之后通过一系列特征学习的方法提取图像特征、分类等操作得到最终识别的字符。一旦得出高效准确识别字符的方法,可应用到办公自动化、机器翻译等领域,即可带来巨大的社会和经济效益。但是有效地抽取手写体图像特征的过程具有一定难度,到目前为止,离线手写体(简称手写体)字符识别距实用要求还有一定距离。目前的大部分研究工作都集中在处理手写体图像特征提取问题,且也已取得一定的成果。但是从真实世界中采集的图像通常存在包含噪声、数据缺失等问题,因此需要提出一种更鲁棒的算法来进行特征提取。
近年来,为解决图像噪声带来的特征提取偏差的问题,一些基于1-范数的算法被提出,例如基于1-范数的主成分分析算法(PCA-L1)、基于1-范数的线性判别分析法(LDA-L1)等。鉴于传统的基于距离即2-范数的算法对于噪声更加敏感,而通过使用已被证实对于噪声更加鲁棒的1-范数来衡量样本相似度。这些算法使得结果更加鲁棒于其相应的基于2-范数的算法,但由于目前只存在无监督与监督算法,无法充分利用有标签数据和无标签数据信息,因此特征提取的信息量还有很大的提升空间;另外,普通算法中的一些经验参数也非常难以确定。
因此,如何实现自动提取手写体字符图像特征,同时提高手写体字符图像表征能力与识别的准确度,是本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种手写体字符图像特征识别的方法及***,以克服现有技术中仅使用有标签或无标签数据而没有充分利用现实中信息、对于噪声敏感的缺点。
为解决上述技术问题,本发明提供一种手写体字符图像特征识别的方法,所述方法包括:
输入手写体字符图像训练样本和手写体字符图像测试样本;
将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1-范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;
利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;
将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出。
可选的,将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵,包括:
根据所述手写体字符图像训练样本计算局部保持矩阵;
根据所述手写体字符图像训练样本及所述局部保持矩阵,计算预定矩阵;其中,所述预定矩阵包括软标签权值矩阵,软标签各类均值矩阵,软标签全样本均值矩阵,权值矩阵;
根据所述预定矩阵,利用所述比例模型通过迭代过程得到描述矩阵。
可选的,根据所述手写体字符图像训练样本计算局部保持矩阵,包括:
利用公式计算局部保持矩阵M;
其中,||·||为2-范数,xi为第i个样本。
可选的,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签权值矩阵,包括:
利用公式计算软标签权值矩阵FS
其中,是F矩阵的第i列;是样本xi的K近邻集合;W是一个正规化的对称相似性矩阵,是矩阵FT的第i行;D是一个对角矩阵,其中的元素μi和ψ是相关权衡参数。
可选的,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签各类均值矩阵,包括:
利用公式计算软标签各类均值矩阵μi
可选的,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签全样本均值矩阵,包括:
利用公式计算软标签全样本均值矩阵μ。
可选的,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算权值矩阵,包括:
利用公式计算权值矩阵
其中,γ∈[0,1]为软标签类内散度和局部保持投影权衡参数,软相似度矩阵定义为:
可选的,利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集,包括:
将所述手写体字符图像测试样本向所述描述矩阵进行映射,生成新测试特征集。
本发明还提供一种手写体字符图像特征识别的***,包括:
输入模块,用于输入手写体字符图像训练样本和手写体字符图像测试样本;
训练模块,用于将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1-范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;
测试预处理模块,用于利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;
测试模块,用于将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出。
可选的,所述训练模块,包括:
第一计算单元,用于根据所述手写体字符图像训练样本计算局部保持矩阵;
第二计算单元,用于根据所述手写体字符图像训练样本及所述局部保持矩阵,计算预定矩阵;其中,所述预定矩阵包括软标签权值矩阵,软标签各类均值矩阵,软标签全样本均值矩阵,权值矩阵;
第三计算单元,用于根据所述预定矩阵,利用所述比例模型通过迭代过程得到描述矩阵。
经由上述的技术方案可知,与现有技术相比,本发明提供的手写体字符图像特征识别的方法及***,在特征学习方面,其目标在于紧凑局部软标签类内散度并分离局部软标签类间散度,同时在所有训练数据(即手写体字符图像训练样本)上进行局部保持特征提取。为了使得提出的方法及***在特征提取和展示方面对于噪声鲁棒,对于噪声鲁棒的1-范数规则被用于构造样本间的相似度,使得在识别中图像展示的能力可得到显著提升。基于比例模型可通过一个迭代的方法得到描述矩阵,该描述矩阵具有判别性与局部保持的特点,且具有正交特性。样本外图像的归纳通过将测试图像样本(即手写体字符图像测试样本)向描述矩阵进行投影,进而将提取的特征输入最近邻分类器进行归类,取对应欧式距离最小值的位置,用于测试图像的类别鉴定,得到最准确的识别结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的手写体字符图像特征识别的方法的流程图;
图2为本发明实施例所提供的手写体字符图像特征识别的***的结构框图;
图3为本发明实施例所提供的一种手写体识别预测示意图。
具体实施方式
本发明的核心是提供一张手写体字符图像特征识别的方法及***,以克服现有技术中仅使用有标签或无标签数据而没有充分利用现实中信息、对于噪声敏感的缺点。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例中手写体字符图像特征识别的类别c>2,本实施例在三个手写体字符图像数据库进行了测试:USPS、CASIA-HWDB1.1和MNIST。CASIA-HWDB1.1是中科院自动化所手写体数据库,包括3755个中文字符以及171个字母、数字或符号;USPS是美国邮政***的手写数字数据库,包含9298个手写体数字0-9;MNIST数据库共有60000个训练样本与10000个测试样本。这些数据库从多方面收集,因而测试结果具有普遍说明性。具体请参考图1,手写体字符图像特征识别的方法,其特征在于,所述方法包括:
S100、输入手写体字符图像训练样本和手写体字符图像测试样本;
S110、将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1-范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;
具体的,本实施例对手写体训练图像(即手写体字符图像训练样本)进行判别与几何结构保持学习,提出基于1-范数度量的鲁棒的软半监督判别手写体图像特征学习算法模型,优化输出一个可用于样本外测试图像特征提取的描述矩阵。
对于给定的一个可能存在噪声的手写体向量集合(即手写体字符图像训练样本)(其中,n是手写体样本的维度,N是样本的数量),其中包含有类别标签(共c个类别,c>2)的样本集和无任何标签的样本集且满足样本数量l+u=N。设为l个有标签样本的标签,且样本xi的标签为yi(i≤l)。所述根据原始训练集计算得到一个具有判别性特征与局部保持特征的投影矩阵也称为描述矩阵需解决以下优化问题:
s.t.PTP=Id
其中||·||1为1-范数,即其中Si,j表示S矩阵的第(i,j)号元素,表示权值矩阵中第i行第j列的元素;表示软标签权值矩阵中第i行第j列的元素;x表示样本。
即可选的,本实施例中将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵可以包括:
根据所述手写体字符图像训练样本计算局部保持矩阵;
根据所述手写体字符图像训练样本及所述局部保持矩阵,计算预定矩阵;其中,所述预定矩阵包括软标签权值矩阵,软标签各类均值矩阵,软标签全样本均值矩阵,权值矩阵;
根据所述预定矩阵,利用所述比例模型通过迭代过程得到描述矩阵。
具体的,软标签权值矩阵FS可通过如下优化方式得到:
其中,是F矩阵的第i列;是样本xi的K近邻集合。W是一个正规化的对称相似性矩阵,Wi,j表示矩阵W中第i行第j列的元素,是矩阵FT的第i行;D是一个对角矩阵,其中的元素μi和ψ是相关权衡参数;
软标签各类均值矩阵μi、软标签全样本均值矩阵μ定义如下:
其中,c表示类别。
权值矩阵定义为:其中,γ∈[0,1]为软标签类内散度和局部保持投影权衡参数,M为局部保持矩阵。软相似度矩阵定义如下:
局部保持矩阵M可通过求解以下优化问题得到:
其中,||·||为2-范数,即Mi,j表示矩阵M中第i行第j列的元素。
下面具体说明1-范数优化求解过程。令极性函数q:
代入原优化函数H(p(t))得到:
再令增量δ(t)
之后更新p(t+1)=p(t)+βδ(t)。其中,β是一个很小的正数。如果H(p(t+1))的值增长不明显,则输出p*=p(t+1),否则一直迭代直到收敛。
上述说明的是降至1维即d=1的情况,以下进一步说明降至多维即d>1的情况。
首先设置p0=0,(xi)0=xi(i=1,2,...,N),(μ)0=μ,(μj)0=μj(j=1,2,...,c);之后每次迭代时计算:
以及对于i=1,2,...,N中的每一个i和j=1,2,...,c中的每一个j,计算如下公式:
将(xi)k,(μ)k,(μj)k代入前述迭代方法计算pk
具体算法如下:
软半监督判别手写体图像特征学习算法:
输入:原始数据矩阵控制参数γ,β,d。
输出:投影矩阵P*
初始化:k=0,p0=0,(xi)0=xi,k=0,γ=0.2,β=0.01,ε=10-6
step1:求解并计算
step2:求解并计算相关软标签均值矩阵、权值矩阵:
step3:当k<d时,k←k+1,计算以及对于i=1,2,...,N中的每一个i和j=1,2,...,c中的每一个j,计算如下公式:
否则输出P*=P
step4:令(mi代表第i类样本的均值),并规范化
pk(0)=pk(0)/||pk(0)||
step5:while还未收敛时do
计算极性函数:
计算增量:
更新pk(t+1)=pk(t)+βδ(t)
检查是否收敛:若H(pk(t+1))-H(pk(t))<ε则停止,设置
P(:,k)=p(t+1);
否则t=t+1
end while
step6:继续执行step3。
迭代过程结束后可以得到手写体字符图像特征描述矩阵P。
本实施例中并不对参数的具体数据进行限定,上述过程中迭代初始值的选择:γ=0.2;β=0.01为初始值,迭代过程中不断减小。
S120、利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;
具体的,将所述手写体字符图像测试样本向所述描述矩阵进行映射,生成新测试特征集。
例如,基于训练集,可通过步骤110得到局部保持的投影矩阵再将训练样本和测试样本嵌入得到投影空间,完成手写体字符图像特征提取,生成特征提取后的训练集和测试集。训练样本xtrain及测试样本xtest的特征提取结果表达如下:其中分别为原始训练样本和测试样本的特征提取结果即新测试特征集。
S130、将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出。
具体的,通过步骤120提取得到原始训练图像和测试图像的特征即得到新测试特征集后,容易构造手写体样本特征测试集和训练集其中对应每一个原始样本xi提取出的特征。对于任意给定的两个手写体样本特征计算欧式距离即:
其中||·||为2-范数,各实施例中·均表示任意字符,既可以理解为通配符的意思。
给定中的任意一个测试样本可通过下列分类准则确定测试样本的类别标签:
的类别为lab(lab∈{1,2,...,c}),则判定测试样本的类别也为lab,完成测试样本的分类过程。
基于上述技术方案,本发明实施例提的手写体字符图像特征识别的方法,在特征学习方面,其目标在于紧凑局部软标签类内散度并分离局部软标签类间散度,同时在所有训练数据(即手写体字符图像训练样本)上进行局部保持特征提取。为了使得提出的方法及***在特征提取和展示方面对于噪声鲁棒,对于噪声鲁棒的1-范数规则被用于构造样本间的相似度,使得在识别中图像展示的能力可得到显著提升。基于比例模型可通过一个迭代的方法得到描述矩阵,该描述矩阵具有判别性与局部保持的特点,且具有正交特性。样本外图像的归纳通过将测试图像样本(即手写体字符图像测试样本)向描述矩阵进行投影,进而将提取的特征输入最近邻分类器进行归类,取对应欧式距离最小值的位置,用于测试图像的类别鉴定,得到最准确的识别结果。
下面对本发明实施例提供的手写体字符图像特征识别的***进行介绍,下文描述的手写体字符图像特征识别的***与上文描述的手写体字符图像特征识别的方法可相互对应参照。
请参考图2,图2为本发明实施例所提供的手写体字符图像特征识别的***的结构框图;该***可以包括:
输入模块100,用于输入手写体字符图像训练样本和手写体字符图像测试样本;
训练模块200,用于将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1-范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;
测试预处理模块300,用于利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;
测试模块400,用于将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出。
具体的,训练模块200采用将1-范数度量应用于半监督手写体字符图像特征学习模型,用于对手写体训练图像进行相似性学习,构造加权相似图,通过比率模型在紧凑局部类内软标签散度和分离局部类间软标签散度的同时保持所有训练样本的局部特性。测试预处理模块300,用于将手写体字符图像数据采用所述方法进行特征提取,样本外图像的归纳主要通过将测试图像向描述矩阵进行映射。测试模块400,用于将降维后的手写体字符图像特征利用最近邻分类器完成测试,取对应欧式距离最小值的位置,进行测试图像的类别鉴定。
基于上述实施例,所述训练模块200可以包括:
第一计算单元,用于根据所述手写体字符图像训练样本计算局部保持矩阵;
第二计算单元,用于根据所述手写体字符图像训练样本及所述局部保持矩阵,计算预定矩阵;其中,所述预定矩阵包括软标签权值矩阵,软标签各类均值矩阵,软标签全样本均值矩阵,权值矩阵;
第三计算单元,用于根据所述预定矩阵,利用所述比例模型通过迭代过程得到描述矩阵。
请参阅表1,为本实施例提供的方法和半监督的最大间距准则算法(SSMMC)、半监督的线性判别分析算法(SSLDA)、基于1-范数的判别性局部保持投影算法(DLPP-L1)方法,基于1-范数的主成分分析(PCA-L1)识别结果对比表,给出了各方法实验的平均识别率和最高识别率。本例中,参与比较的SSMMC、SSLDA、PCA-L1和DLPP-L1方法使用各自计算得到的投影矩阵用于测试样本的特征提取,且分类均采用最近邻分类器。
表1.本发明和SSMMC、SSLDA、DLPP-L1、PCA-L1方法识别结果对比
通过三个真实数据集,即(a)USPS,(b)CASIA-HWDB1.1和(c)MNIST上的实例实验结果显示,本发明方法可有效用于手写体的自动特征提取。
请参参考3,为本发明实施例公开的一种手写体识别预测示意图。
通过实验结果可以看出本发明的手写体字符图像特征提取及识别效果明显优于相关的SSMMC、SSLDA、PCA-L1以及DLPP-L1方法,且表现出了较强的稳定性,具有一定的优势。
基于上述技术方案,本发明实施例提的手写体字符图像特征识别的***,特征学习方面,其在目标在于紧凑局部软标签类内散度并分离局部软标签类间散度,同时在所有训练数据上进行局部保持特征提取。为了使得提出的方法在特征提取和展示方面对于噪声鲁棒,对于噪声鲁棒的1-范数规则被用于构造样本间的相似度,使得在识别中图像展示的能力可得到显著提升。基于比例的模型可通过一个迭代的方法得到投影矩阵,该矩阵具有判别性与局部保持的特点,且具有正交特性。样本外图像的归纳通过将测试图像样本向描述矩阵进行投影,进而将提取的特征输入最近邻分类器进行归类,取对应欧式距离最小值的位置,用于测试图像的类别鉴定,得到最准确的识别结果。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的手写体字符图像特征识别的方法及***进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种手写体字符图像特征识别的方法,其特征在于,所述方法包括:
输入手写体字符图像训练样本和手写体字符图像测试样本;
将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1-范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;
利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;
将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出。
2.根据权利要求1所述的方法,其特征在于,将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵,包括:
根据所述手写体字符图像训练样本计算局部保持矩阵;
根据所述手写体字符图像训练样本及所述局部保持矩阵,计算预定矩阵;其中,所述预定矩阵包括软标签权值矩阵,软标签各类均值矩阵,软标签全样本均值矩阵,权值矩阵;
根据所述预定矩阵,利用所述比例模型通过迭代过程得到描述矩阵。
3.根据权利要求2所述的方法,其特征在于,根据所述手写体字符图像训练样本计算局部保持矩阵,包括:
利用公式计算局部保持矩阵M;
其中,||·||为2-范数,xi为第i个样本。
4.根据权利要求3所述的方法,其特征在于,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签权值矩阵,包括:
利用公式计算软标签权值矩阵FS
其中,是F矩阵的第i列;是样本xi的K近邻集合;W是一个正规化的对称相似性矩阵,是矩阵FT的第i行;D是一个对角矩阵,其中的元素μi和ψ是相关权衡参数。
5.根据权利要求4所述的方法,其特征在于,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签各类均值矩阵,包括:
利用公式计算软标签各类均值矩阵μi
6.根据权利要求5所述的方法,其特征在于,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算软标签全样本均值矩阵,包括:
利用公式计算软标签全样本均值矩阵μ。
7.根据权利要求6所述的方法,其特征在于,根据所述手写体字符图像训练样本及所述局部保持矩阵,计算权值矩阵,包括:
利用公式计算权值矩阵
其中,γ∈[0,1]为软标签类内散度和局部保持投影权衡参数,软相似度矩阵定义为:
8.根据权利要求7所述的方法,其特征在于,利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集,包括:
将所述手写体字符图像测试样本向所述描述矩阵进行映射,生成新测试特征集。
9.一种手写体字符图像特征识别的***,其特征在于,包括:
输入模块,用于输入手写体字符图像训练样本和手写体字符图像测试样本;
训练模块,用于将所述手写体字符图像训练样本输入软半监督判别手写体图像特征学习算法模型中,输出用于特征提取的描述矩阵;其中,所述软半监督判别手写体图像特征学习算法模型利用1-范数规则构造样本之间的加权相似图,并利用比例模型在紧凑局部软标签类内散度和分离局部软标签类间散度的同时保持所有手写体字符图像训练样本进行局部保持特征提取,通过迭代过程得到描述矩阵;
测试预处理模块,用于利用所述描述矩阵提取所述手写体字符图像测试样本的特征,生成新测试特征集;
测试模块,用于将所述新测试特征集利用最近邻分类器进行归类,确定各所述手写体字符图像测试样本对应的欧式距离中最小值的位置,并将所述位置对应的类别作为各所述手写体字符图像测试样本的字符识别结果输出。
10.根据权利要求9所述的***,其特征在于,所述训练模块,包括:
第一计算单元,用于根据所述手写体字符图像训练样本计算局部保持矩阵;
第二计算单元,用于根据所述手写体字符图像训练样本及所述局部保持矩阵,计算预定矩阵;其中,所述预定矩阵包括软标签权值矩阵,软标签各类均值矩阵,软标签全样本均值矩阵,权值矩阵;
第三计算单元,用于根据所述预定矩阵,利用所述比例模型通过迭代过程得到描述矩阵。
CN201611217910.0A 2016-12-26 2016-12-26 一种手写体字符图像特征识别的方法及*** Active CN106845358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611217910.0A CN106845358B (zh) 2016-12-26 2016-12-26 一种手写体字符图像特征识别的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611217910.0A CN106845358B (zh) 2016-12-26 2016-12-26 一种手写体字符图像特征识别的方法及***

Publications (2)

Publication Number Publication Date
CN106845358A true CN106845358A (zh) 2017-06-13
CN106845358B CN106845358B (zh) 2020-11-10

Family

ID=59135784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611217910.0A Active CN106845358B (zh) 2016-12-26 2016-12-26 一种手写体字符图像特征识别的方法及***

Country Status (1)

Country Link
CN (1) CN106845358B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451559A (zh) * 2017-07-31 2017-12-08 邱宇轩 基于机器学习的帕金森病人手写文字自动识别方法
CN108416355A (zh) * 2018-03-09 2018-08-17 浙江大学 一种基于机器视觉的工业现场生产数据的采集方法
CN108710907A (zh) * 2018-05-15 2018-10-26 苏州大学 手写体数据分类方法、模型训练方法、装置、设备及介质
CN109871910A (zh) * 2019-03-12 2019-06-11 成都工业学院 一种手写字符识别方法及装置
CN110163274A (zh) * 2019-05-15 2019-08-23 南京邮电大学 一种基于鬼成像和线性判别分析的物体分类方法
CN111274868A (zh) * 2020-01-07 2020-06-12 北京小米移动软件有限公司 笔记本书写信息处理方法及装置
CN111340033A (zh) * 2020-03-17 2020-06-26 北京工业大学 一种易混字符二次识别方法
CN112633290A (zh) * 2021-03-04 2021-04-09 北京世纪好未来教育科技有限公司 文本识别方法、电子设备及计算机可读介质
CN117671704A (zh) * 2024-01-31 2024-03-08 常熟理工学院 一种手写体数字识别方法、装置及计算机存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457448B2 (en) * 2008-02-04 2013-06-04 Hewlett-Packard Development Company, L.P. Removing inserted text from an image using extrapolation for replacement pixels after optical character recognition
CN104463202A (zh) * 2014-11-28 2015-03-25 苏州大学 一种多类图像半监督分类方法及***
CN104794489A (zh) * 2015-04-23 2015-07-22 苏州大学 一种基于深度标签预测的诱导式图像分类方法及***
CN104992166A (zh) * 2015-07-28 2015-10-21 苏州大学 一种基于鲁棒度量的手写体识别方法与***
CN105335756A (zh) * 2015-10-30 2016-02-17 苏州大学 一种鲁棒学习模型与图像分类***
CN105608471A (zh) * 2015-12-28 2016-05-25 苏州大学 一种鲁棒直推式标签估计及数据分类方法和***
CN105678260A (zh) * 2016-01-07 2016-06-15 浙江工贸职业技术学院 一种基于稀疏保持距离度量的人脸识别方法
CN105740912A (zh) * 2016-02-03 2016-07-06 苏州大学 基于核范数正则化的低秩图像特征提取的识别方法及***
CN105989375A (zh) * 2015-01-30 2016-10-05 富士通株式会社 对手写字符图像进行分类的分类器、分类装置和分类方法
CN106022373A (zh) * 2016-05-18 2016-10-12 江南大学 一种基于广义均值的鲁棒典型相关分析算法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457448B2 (en) * 2008-02-04 2013-06-04 Hewlett-Packard Development Company, L.P. Removing inserted text from an image using extrapolation for replacement pixels after optical character recognition
CN104463202A (zh) * 2014-11-28 2015-03-25 苏州大学 一种多类图像半监督分类方法及***
CN105989375A (zh) * 2015-01-30 2016-10-05 富士通株式会社 对手写字符图像进行分类的分类器、分类装置和分类方法
CN104794489A (zh) * 2015-04-23 2015-07-22 苏州大学 一种基于深度标签预测的诱导式图像分类方法及***
CN104992166A (zh) * 2015-07-28 2015-10-21 苏州大学 一种基于鲁棒度量的手写体识别方法与***
CN105335756A (zh) * 2015-10-30 2016-02-17 苏州大学 一种鲁棒学习模型与图像分类***
CN105608471A (zh) * 2015-12-28 2016-05-25 苏州大学 一种鲁棒直推式标签估计及数据分类方法和***
CN105678260A (zh) * 2016-01-07 2016-06-15 浙江工贸职业技术学院 一种基于稀疏保持距离度量的人脸识别方法
CN105740912A (zh) * 2016-02-03 2016-07-06 苏州大学 基于核范数正则化的低秩图像特征提取的识别方法及***
CN106022373A (zh) * 2016-05-18 2016-10-12 江南大学 一种基于广义均值的鲁棒典型相关分析算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHIA-LIANG TSAI,AND ETC: "New optimization scheme for L2-norm total variation semi-supervised image soft labeling", 《2011 18TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING》 *
王颖静等: "流形结构保持的传播半监督降维算法", 《小型微型计算机***》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451559A (zh) * 2017-07-31 2017-12-08 邱宇轩 基于机器学习的帕金森病人手写文字自动识别方法
CN108416355A (zh) * 2018-03-09 2018-08-17 浙江大学 一种基于机器视觉的工业现场生产数据的采集方法
CN108710907B (zh) * 2018-05-15 2022-05-17 苏州大学 手写体数据分类方法、模型训练方法、装置、设备及介质
CN108710907A (zh) * 2018-05-15 2018-10-26 苏州大学 手写体数据分类方法、模型训练方法、装置、设备及介质
CN109871910A (zh) * 2019-03-12 2019-06-11 成都工业学院 一种手写字符识别方法及装置
CN109871910B (zh) * 2019-03-12 2021-06-22 成都工业学院 一种手写字符识别方法及装置
CN110163274A (zh) * 2019-05-15 2019-08-23 南京邮电大学 一种基于鬼成像和线性判别分析的物体分类方法
CN110163274B (zh) * 2019-05-15 2022-08-30 南京邮电大学 一种基于鬼成像和线性判别分析的物体分类方法
CN111274868A (zh) * 2020-01-07 2020-06-12 北京小米移动软件有限公司 笔记本书写信息处理方法及装置
CN111340033A (zh) * 2020-03-17 2020-06-26 北京工业大学 一种易混字符二次识别方法
CN111340033B (zh) * 2020-03-17 2023-05-02 北京工业大学 一种易混字符二次识别方法
CN112633290A (zh) * 2021-03-04 2021-04-09 北京世纪好未来教育科技有限公司 文本识别方法、电子设备及计算机可读介质
CN117671704A (zh) * 2024-01-31 2024-03-08 常熟理工学院 一种手写体数字识别方法、装置及计算机存储介质
CN117671704B (zh) * 2024-01-31 2024-04-26 常熟理工学院 一种手写体数字识别方法、装置及计算机存储介质

Also Published As

Publication number Publication date
CN106845358B (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN106845358A (zh) 一种手写体字符图像特征识别的方法及***
CN107609459B (zh) 一种基于深度学习的人脸识别方法及装置
CN106096538B (zh) 基于定序神经网络模型的人脸识别方法及装置
Mori et al. Recognizing objects in adversarial clutter: Breaking a visual CAPTCHA
Lu et al. Learning optimal seeds for diffusion-based salient object detection
Yao et al. Strokelets: A learned multi-scale representation for scene text recognition
Yin et al. Robust text detection in natural scene images
Bai et al. Strokelets: A Learned Multi-Scale Representation for Scene Text Recognition
CN108229298A (zh) 神经网络的训练和人脸识别方法及装置、设备、存储介质
CN111476284A (zh) 图像识别模型训练及图像识别方法、装置、电子设备
CN104992166B (zh) 一种基于鲁棒度量的手写体识别方法与***
CN104834941A (zh) 基于计算机输入下的稀疏自编码的脱机手写体识别方法
CN102682309A (zh) 一种基于模板学习的人脸注册方法及装置
CN102147858A (zh) 车牌字符识别方法
CN107239777A (zh) 一种基于多视角图模型的餐具检测和识别方法
CN102208020A (zh) 基于最优维数标度切判据的人脸识别方法
Li et al. Online metric-weighted linear representations for robust visual tracking
CN108664975A (zh) 一种维吾尔文手写字母识别方法、***及电子设备
CN110008828A (zh) 基于差异正则化的成对约束成分分析度量优化方法
CN109614866A (zh) 基于级联深度卷积神经网络的人脸检测方法
CN108875564A (zh) 一种宠物面部识别方法
CN103020167A (zh) 一种计算机中文文本分类方法
CN110175657A (zh) 一种图像多标签标记方法、装置、设备及可读存储介质
CN107220598A (zh) 基于深度学习特征和Fisher Vector编码模型的虹膜图像分类方法
Gu et al. Unsupervised and semi-supervised robust spherical space domain adaptation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant