CN102982330B - 文字图像中字符识别方法和识别装置 - Google Patents
文字图像中字符识别方法和识别装置 Download PDFInfo
- Publication number
- CN102982330B CN102982330B CN201210477638.5A CN201210477638A CN102982330B CN 102982330 B CN102982330 B CN 102982330B CN 201210477638 A CN201210477638 A CN 201210477638A CN 102982330 B CN102982330 B CN 102982330B
- Authority
- CN
- China
- Prior art keywords
- candidate word
- character
- probability
- candidate
- viterbi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公开了一种文字图像中字符识别方法和识别装置,所述方法包括:对文字图像中切割出的字符,以设定单位进行划分;对所述设定单位内的每个字符进行特征提取和特征匹配后,确定每个字符的候选字;针对所述设定单位内的每个字符,确定该字符的每个候选字的相似度、以及该字符的每个候选字与该字符相邻的字符的候选字之间的转移概率;根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果。由于在进行字符识别的过程中,对于字符的多个候选字,除了依据候选字的相似度(即字形信息)外,还根据相邻候选字之间的转移概率(即语义信息),从多个候选字中选择出一个作为该字符的识别结果;从而大大提高字符识别的准确率。
Description
技术领域
本发明涉及图像处理技术,尤其涉及文字图像中字符识别方法和识别装置。
背景技术
在对文本资料进行扫描后可以得到该文本资料的文字图像;OCR(OpticalCharacter Recognition,光学字符识别)技术是对文字图像中的字符进行识别后,转换成计算机文字的过程;其一般包括如图1所示的各步骤:
S101:获取文字图像后进行预处理。
将文本资料通过光学仪器,如影像扫描仪、传真机或任何摄影器材输入到计算机中形成文字图像。随着科技的进步,扫描仪等输入装置已制作的愈来愈精致,轻薄短小、品质也高,对OCR有相当大的帮助,扫描仪的分辨率使影像更清晰、扫除速度更增进OCR处理的效率。
一般来说,输入的图像格式并不唯一,对于不同的图像格式,有着不同的存储格式,不同的压缩方式,这要求计算机在读取图像信息的时候,要对各类常见图像格式具有较好的鲁棒性。
对文字图像的预处理一般包括:二值化、去除噪声、斜校正处理等。
对文字图像进行二值化:对摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的,更好的识别文字,我们需要先对彩色的文字图像进行处理,使图像只保留前景信息与背景信息,可以简单的定义前景信息为黑色,背景信息为白色,从而生成彩色文字图像的二值化图。
对文字图像进行去除噪声处理:对于不同类型的文字图像,我们对噪声的定义可以不同,根据噪声的特征进行去噪,就叫做噪声去除。去除噪声后的文字图像版面更加整洁,文字轮廓边缘更加清晰,辨识度高。
对文字图像进行倾斜校正处理:用户在拍照文本资料时,一般都比较随意,因此拍照出来的文字图像不可避免的产生倾斜,这就需要文字识别软件进行较正。通常可以通过Hough变换等方法来进行倾斜校正。
S102:对文字图像进行版面分析。
对经过预处理后的文字图像进行版面分析。将文字图像分段落,分行的过程就叫做版面分析。
S103:对文字图像进行字符切割。
在经过版面分析后,确定出文字图像中的每行文字,将整行文字中的各个字符一个一个分离出来的过程就是字符切割。对于英文字母和***数字等字符,通常采用连通域标记的方法将字符准确的切割开来。但对于汉字而言,由于汉字存在偏旁部首结构,仅仅依靠连通域标记来进行字符切割会影响识别的准确率,所以还要考虑到字符宽度等信息。
S104:对切割出的每个单个字符进行字符识别。
针对上述步骤S103中切割出的每个单个字符进行识别。早期的字符识别是通过模板匹配的方式来实现的,后来以特征提取为主,用什么特征、怎么抽取,直接影响识别的好坏。目前常见的特征可分为两类:一为统计的特征,如文字区域内的黑/白点数比,当文字区分成好几个区域时,这一个个区域黑/白点数比之联合,就成了空间的一个数值向量,在匹配时,采用基本的数学理论就可以进行判别。而另一类特征为结构的特征,如文字影像细线化后,取得字的笔划端点、交叉点的数量及位置,或以笔划段为特征,配合特殊的匹配方法,进行比对。
目前,单个字符的识别方法为:对单个字符进行特征提取,将提取到的特征与模版库中特征进行匹配,可以得到至少一个候选字,从中选取相似度最高的候选字作为该字符的识别结果输出。
S105:基于识别的字符进行版面恢复。
将识别出字符依据文字图像中的版面进行排列,“段落不变,位置不变,顺序不变”的输出到word文档、或pdf文档等,这一过程就叫做版面恢复。
然而,本发明的发明人发现,现有技术在进行字符识别时,仅采用字符形状相似度作为判断、识别的依据,会产生较大的误识率;换言之,现有技术的字符识别方法的准确率不高,具有提高字符识别准确率的需求。
发明内容
本发明的实施例提供了一种文字图像中字符识别方法和识别装置,用以提高字符识别准确率。
根据本发明的一个方面,提供了一种文字图像中字符识别方法,包括:
对所述文字图像中切割出的字符,以设定单位进行划分;并对每个设定单位内的字符进行识别:
对所述设定单位内的每个字符进行特征提取和特征匹配后,确定每个字符的候选字;
针对所述设定单位内的每个字符,确定该字符的每个候选字的相似度、以及该字符的每个候选字与该字符相邻的字符的候选字之间的转移概率;
根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果。
较佳地,所述识别结果还根据所述设定单位内的每个字符的每个候选字的出现概率确定。
较佳地,所述根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果具体包括:
确定该设定单位内的第1个字符的候选字的维特比概率为该候选字的相似度;
从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率;
在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一;
以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点;
确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的;
比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。
其中,所述根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率,具体根据如下公式5或4:
Pv=P2×R×Pv′ (公式5)
logPv=b×logP2+c×logR+d×logPv′ (公式4)
其中,Pv为所述当前候选字与所述在前候选字之间的维特比概率;P1为所述当前候选字的出现概率,P2为所述在前候选字与所述当前候选字之间的转移概率;R为所述当前候选字的相似度;Pv′为所述在前候选字的维特比概率;logPv、logP1、logP2、logR、logPv′分别为对Pv、P1、P2、R、Pv′取对数后得到的值;b、c、d分别为设置的权重值。
较佳地,所述根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果,以及所述识别结果还根据所述设定单位内的每个字符的每个候选字的出现概率确定,具体包括:
对于该设定单位内的第1个字符的候选字的维特比概率,根据该候选字的相似度、和/或该候选字的出现概率确定;
从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、出现概率、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率;
在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一;
以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点;
确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的;
比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。
其中,所述根据该候选字的相似度、出现概率、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率,具体根据如下公式1、2、或3:
Pv=P1×P2×R×Pv′ (公式1)
logPv=logP1+logP2+logR+logPv′ (公式2)
logPv=a×logP1+b×logP2+c×logR+d×logPv′ (公式3)
其中,Pv为所述当前候选字与在所述前候选字之间的维特比概率;P1为所述当前候选字的出现概率,P2为所述在前候选字与当前候选字之间的转移概率;R为所述当前候选字的相似度;Pv′为所述在前候选字的维特比概率;logPv、logP1、logP2、logR、logPv′分别为对Pv、P1、P2、R、Pv′取对数后得到的值;a、b、c、d分别为设置的权重值。
根据本发明的另一个方面,还提供了一种文字图像中字符识别装置,包括:
字符单位划分模块,用于对所述文字图像中切割出的字符,以设定单位进行划分;
候选字确定模块,用于针对所述字符单位划分模块划分出的每个设定单位,对该设定单位内的每个字符进行特征提取和特征匹配,确定该设定单位内的每个字符的候选字后发送单位候选字确定完毕通知;
候选字信息确定模块,用于针对所述候选字确定模块确定出的所述设定单位内的每个字符,确定该字符的每个候选字的相似度、以及该字符的每个候选字与该字符相邻的字符的候选字之间的转移概率;
识别结果确定模块,用于根据所述候选字信息确定模块确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果。
较佳地,所述候选字信息确定模块还用于针对所述候选字确定模块确定出的所述设定单位内的每个字符,确定该字符的出现概率;以及
所述识别结果确定模块还根据所述候选字信息确定模块确定的出现概率确定所述识别结果。
所述识别结果确定模块具体包括:
维特比概率确定单元,用于确定该设定单位内的第1个字符的候选字的维特比概率为该候选字的相似度;从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率;
所述维特比概率确定单元在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;并以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一;
候选路径确定单元,用于根据所述维特比概率确定单元确定出的相邻节点确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的;
候选路径选择单元,用于比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。
或者,所述识别结果确定模块具体包括:
维特比概率确定单元,用于对于该设定单位内的第1个字符的候选字的维特比概率,根据该候选字的相似度、和/或该候选字的出现概率确定;从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、出现概率、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率;
所述维特比概率确定单元在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;并以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一;
候选路径确定单元,用于根据所述维特比概率确定单元确定出的相邻节点确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的;
候选路径选择单元,用于比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。
本发明实施例由于在进行字符识别的过程中,对于字符的多个候选字,除了依据候选字的相似度(即字形信息)外,还根据相邻候选字之间的转移概率(即语义信息),从多个候选字中选择出一个作为该字符的识别结果;从而既参考了候选字与字符的相似度外,还考虑了该候选字与在后字符之间的关联度的因素,综合考虑这些因素可以大大提高字符识别的准确率。
进一步,还可参考候选字的出现概率来决定识别结果,更进一步保证字符识别的准确率。
进一步,本发明中以计算维特比概率的方式来确定多条候选路径,则是一种较佳地将字符间的关联关系作为决定识别结果的参考的方法,更进一步保证字符识别的准确率。
附图说明
图1为现有技术的文字图像的OCR处理过程的流程图;
图2为本发明实施例的进行字符识别的方法流程图;
图3为本发明实施例的确定设定单位内的字符的识别结果的方法流程图;
图4为本发明实施例的以文字行为设定单位所取字符以及每个字符的候选字的示意图;
图5为本发明实施例的根据确定出的相似度、转移概率,确定设定单位内的字符的识别结果的方法流程图;
图6为本发明实施例的文字图像中字符识别装置的内部结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
本申请使用的“模块”、“***”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内,一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。
本发明实施例的主要思路为,在进行字符识别的过程中,对于字符的多个候选字,除了依据候选字的相似度外,还根据候选字与在后字符的候选字之间的转移概率,从多个候选字中选择出一个作为该字符的识别结果;从而既参考了候选字与字符的相似度外,还考虑了该候选字与在后字符之间的关联度的因素,综合考虑这些因素可以大大提高字符识别的准确率。例如,对于文字图像中的一个字符“运”,确定出两个候选字,分别为“远”、“运”;由于手写输入的原因,或者噪声的原因,其中候选字“远”的相似度高于“运”;如果按现有技术的识别方法,将判定“远”为识别结果;而根据本发明的方法,在参考了候选字与在后字符“动”之间的转移概率后,发现“运动”的概率要远远大于“远动”的概率,因此,最终判定“运”为识别结果;从而大大提高了字符识别的准确率。
下面结合附图详细说明本发明实施例的技术方案。本发明实施例的技术方案中,在获取了文字图像,并对文字图像进行字符切割后,进行字符识别的方法流程,如图2所示,包括如下步骤:
S201:对文字图像中切割出的字符,以设定单位进行划分。
输入的文字图像可能是包括多个段落、多个文字行的文字图像;在本发明中,是将文字图像中的字符以设定单位进行划分,分批次处理;也就是说,每次处理是针对同一设定单位内的字符进行识别。
本领域技术人员可以根据实际情况来设置设定单位,例如,设置设定单位为文字行,即文字图像中同一行的字符作为同一设定单位内的字符;
或者,设置设定单位为段落,即文字图像中同一段落中的字符作为同一设定单位内的字符;
或者,设置设定单位为固定字符数,如,设置设定单位为10个字符数,即文字图像中每10个字符划分为同一设定单位内的字符。
S202:针对每个设定单位内的字符进行识别。
按顺序依次对每个设定单位进行处理:对该设定单位中的各个字符进行识别。图3示出了对于一个设定单位,确定该设定单位内的字符的识别结果的方法流程,具体包括如下步骤:
S301:对该设定单位内的每个字符进行特征提取和特征匹配后,确定每个字符的候选字。
对字符进行特征提取和特征匹配,确定该字符的若干个候选字的方法可采用现有技术中通常所采用的方法,为本领域技术人员所熟知的技术,此处不再赘述。
S302:针对该设定单位内的每个字符,确定该字符的每个候选字的相似度,以及该字符的每个候选字与该字符相邻的字符的候选字之间的转移概率。
在确定出字符的各候选字后,还可确定出每个候选字的相似度,即每个候选字与该字符的相似程度;
在确定出字符的各候选字后,还可针对该字符的每个候选字,分别确定出该候选字与该字符相邻的字符的候选字之间的转移概率;为便于描述,本文中将相邻字符的候选字称为相邻候选字,则上述候选字与该字符相邻的字符的候选字之间的转移概率,即为相邻候选字之间的转移概率;相邻候选字之间的转移概率指的是,相邻候选字一起出现的概率。
例如,如图4所示,以文字行为设定单位取了9个字符,序号分别为1-9;第1-9字符的候选字,以及每个候选字的相似度如下(相似度为括号内的数值):
第1字符的候选字包括:中(0.9);
第2字符的候选字包括:国(0.8)、团(0.6);
第3字符的候选字包括:运(0.9);
第4字符的候选字包括:动(0.8)、劲(0.8);
第5字符的候选字包括:员(0.8);
第6字符的候选字包括:成(0.8);
第7字符的候选字包括:绩(0.9);
第8字符的候选字包括:喜(0.9);
第9字符的候选字包括:人(0.9)、入(0.9)。
每个候选字与相邻的在前字符的候选字之间的转移概率,即相邻候选字之间的转移概率,取对数后,如下所示:
中国:-0.5644877;中团:-5.6734289;国运:-2.864447;团运:-3.303452;运动:-0.7526801;运劲:-3.527933;动员:-1.370795;劲元:-2.221847;员成:-2.667307;成绩:-1.386276;绩喜:-2.938662;喜人:-1.630958;喜入:-3.583296。
可以看出,候选字“国”,与其相邻的在前字符的候选字“中”之间的转移概率取对数后为-0.5644877;候选字“团”,与其相邻的在前字符的候选字“中”之间的转移概率取对数后为-5.6734289;则“中”与“国”之间的转移概率要大于“中”与“团”之间的转移概率,这意味着“中国”一起出现的概率要大于“中团”。
S303:根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果。
在本步骤中,更优地,还可根据确定出的所述设定单位内的每个字符的每个候选字的出现概率确定出所述设定单位内的字符的识别结果;候选字的出现概率指的是统计出的该候选字被使用的概率。
即根据确定出的相似度,以及转移概率,确定出所述设定单位内的字符的识别结果;具体方法流程如图5所示,包括如下步骤:
S501:计算该设定单位内的每个字符的每个候选字的维特比概率;
该设定单位内的第1个字符的候选字的维特比概率可以如下方法确定:
以该候选字的出现概率作为该候选字的维特比概率;
或者,以该候选字的相似度作为该候选字的维特比概率;
或者,根据该候选字的相似度和出现概率作为该候选字的维特比概率,比如,以该候选字的相似度与该候选字的出现概率的乘积作为该候选字的维特比概率。
从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,分别确定出当前字符的每个候选字,与在前字符的各候选字之间的维特比概率;当前字符的相邻字符可以包括在后字符和在前字符,在计算当前字符的候选字与相邻字符的候选字之间的维特比概率时,可以是计算当前字符的候选字与在前字符的候选字之间的维特比概率,也可以是计算当前字符的候选字与在后字符的候选字之间的维特比概率;
本发明实施例以计算当前字符的候选字与在前字符的候选字之间的维特比概率为例进行详细的方案说明:
从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、出现概率、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,分别确定出当前字符的每个候选字,与在前字符的各候选字之间的维特比概率具体可以根据如下公式1、或公式2、或公式3计算:
Pv=P1×P2×R×Pv′ (公式1)
公式1中,Pv为当前候选字与在前候选字之间的维特比概率,其中,当前候选字为当前字符的候选字之一,在前候选字为在前字符的候选字之一;P1为当前候选字的出现概率,P2为在前候选字与当前候选字之间的转移概率;R为当前候选字的相似度;Pv′为在前候选字的维特比概率。
logPv=logP1+logP2+logR+logPv′ (公式2)
公式2中,logPv、logP1、logP2、logR、logPv′分别为对Pv、P1、P2、R、Pv′取对数后得到的值;
logPv=a×logP1+b×logP2+c×logR+d×logPv′(公式3)
公式3中,a、b、c、d分别为设置的权重值,本领域技术人员可以根据实际情况进行设置;事实上,若设置a=0,则上述公式3实际如公式4所示:
logPv=b×logP2+c×logR+d×logPv′(公式4)
从公式4可以看出,可以仅根据当前候选字的相似度、以及该当前候选字与在前候选字之间的转移概率,确定当前候选字与在前候选字之间的维特比概率,也就是说,根据公式4计算出的当前候选字与在前候选字之间的维特比概率,没有考虑当前候选字的出现概率。
若设置公式4中的b=1、c=1、d=1,则公式4即可用公式5表达:
Pv=P2×R×Pv′ (公式5)
也就是说,从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,分别确定出当前字符的每个候选字,与在前字符的各候选字之间的维特比概率具体可以根据如上公式4或5确定。
在确定当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;并以当前候选字作为当前节点,选择与当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点。
S502:根据计算的各候选字的维特比概率,确定候选路径;
根据确定出的每个候选字的在前节点,确定出若干条候选路径;其中,候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的。
例如,图4中所示的各字符的各候选字,根据上述方法可以确定出两条候选路径,分别为:
候选路径一:人-喜-绩-成-员-动-运-国-中;
候选路径二:入-喜-绩-成-员-动-运-国-中。
S503:选择一条候选路径作为识别结果。
本步骤中,比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。
例如,对于上述的候选路径一和候选路径二,由于候选路径一的最后节点“人”的维特比概率,大于候选路径二的最后节点“入”的维特比概率,因此,最终判定识别结果为候选路径一,从而得到图4中的序号分别为1-9的字符的识别结果为:中国运动员成绩喜人。
由此选择出的候选路径综合考虑了字形信息(相似度)和语义信息(转移概率),综合结果为最大值,相比于仅考虑字形信息(相似度)的现有技术具有更高的准确率。
本发明实施例提供的一种文字图像中字符识别装置,如图6所示,包括:字符单位划分模块601、候选字确定模块602、候选字信息确定模块603、识别结果确定模块604。
字符单位划分模块601用于对所述文字图像中切割出的字符,以设定单位进行划分;
候选字确定模块602用于针对字符单位划分模块601划分出的每个设定单位,对该设定单位内的每个字符进行特征提取和特征匹配后,确定该设定单位内的每个字符的候选字;候选字确定模块602在确定出一个设定单位内的每个字符的候选字后,向候选字信息确定模块603发送通知;
候选字信息确定模块603在接收到候选字确定模块602发送的通知后,用于针对候选字确定模块602确定出的所述设定单位内的每个字符,确定该字符的每个候选字的相似度、以及该字符的每个候选字与该字符相邻的字符的候选字之间的转移概率;之后,候选字信息确定模块603向识别结果确定模块604发送通知;
识别结果确定模块604在接收到候选字信息确定模块603发送的通知后,用于根据候选字信息确定模块603确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果。
识别结果确定模块604具体可以包括:维特比概率确定单元611、候选路径确定单元612、候选路径选择单元613。
维特比概率确定单元611用于确定该设定单位内的第1个字符的候选字的维特比概率为该候选字的相似度;从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字,与所述在前字符的各候选字之间的维特比概率;具体地,可以根据上述公式5或4确定出所述当前字符的每个候选字,与所述在前字符的各候选字之间的维特比概率。
维特比概率确定单元611在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;并以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一;
候选路径确定单元612用于根据维特比概率确定单元611确定出的相邻节点确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的;
候选路径选择单元613用于根据候选路径确定单元612确定出的候选路径,比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。
进一步,候选字信息确定模块603还可用于针对候选字确定模块602确定出的所述设定单位内的每个字符,确定该字符的出现概率;以及
识别结果确定模块604还可根据候选字信息确定模块603确定的出现概率确定所述识别结果;
由此相应地,识别结果确定模块604中的维特比概率确定单元611具体用于对于该设定单位内的第1个字符的候选字的维特比概率,根据该候选字的相似度、和/或该候选字的出现概率确定;从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、出现概率、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字,与所述在前字符的各候选字之间的维特比概率;维特比概率确定单元611具体可以根据上述公式1、2、或3确定出所述当前字符的每个候选字,与所述在前字符的各候选字之间的维特比概率。
维特比概率确定单元611在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;并以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一。
本发明实施例由于在进行字符识别的过程中,对于字符的多个候选字,除了依据候选字的相似度(即字形信息)外,还根据相邻候选字之间的转移概率(即语义信息),从多个候选字中选择出一个作为该字符的识别结果;从而既参考了候选字与字符的相似度外,还考虑了该候选字与在后字符之间的关联度的因素,综合考虑这些因素可以大大提高字符识别的准确率。
进一步,还可参考候选字的出现概率来决定识别结果,更进一步保证字符识别的准确率。
进一步,本发明中以计算维特比概率的方式来确定多条候选路径,则是一种较佳地将字符间的关联关系作为决定识别结果的参考的方法,更进一步保证字符识别的准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种文字图像中字符识别方法,其特征在于,包括:
对所述文字图像中切割出的字符,以设定单位进行划分;并对每个设定单位内的字符进行识别;其中,对于一个设定单位,确定该设定单位内的字符的识别结果的方法流程,具体包括如下步骤:
对所述设定单位内的每个字符进行特征提取和特征匹配后,确定每个字符的候选字;
针对所述设定单位内的每个字符,确定该字符的每个候选字的相似度、以及该字符的每个候选字与该字符相邻的字符的候选字之间的转移概率;
根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果;其中,
所述识别结果还根据所述设定单位内的每个字符的每个候选字的出现概率确定;以及
所述根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果,以及所述识别结果还根据所述设定单位内的每个字符的每个候选字的出现概率确定,具体包括:
对于该设定单位内的第1个字符的候选字的维特比概率,根据该候选字的相似度、和/或该候选字的出现概率确定;
从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、出现概率、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率;
在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一;
以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点;
确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的;
比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。
2.如权利要求1所述的方法,其特征在于,所述根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果具体包括:
确定该设定单位内的第1个字符的候选字的维特比概率为该候选字的相似度;
从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率;
在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一;
以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点;
确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的;
比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。
3.如权利要求2所述的方法,其特征在于,所述根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率,具体根据如下公式5或4:
Pv=P2×R×Pv' (公式5)
log Pv=b×log P2+c×log R+d×log Pv' (公式4)
其中,Pv为所述当前候选字与所述在前候选字之间的维特比概率;P2为所述在前候选字与所述当前候选字之间的转移概率;R为所述当前候选字的相似度;Pv'为所述在前候选字的维特比概率;logPv、logP2、logR、logPv'分别为对Pv、P2、R、Pv'取对数后得到的值;b、c、d分别为设置的权重值。
4.如权利要求1所述的方法,其特征在于,所述根据该候选字的相似度、出现概率、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率,具体根据如下公式1、2、或3:
Pv=P1×P2×R×Pv' (公式1)
log Pv=log P1+log P2+log R+log Pv' (公式2)
log Pv=a×log P1+b×log P2+c×log R+d×log Pv' (公式3)
其中,Pv为所述当前候选字与在所述前候选字之间的维特比概率;P1为所述当前候选字的出现概率,P2为所述在前候选字与当前候选字之间的转移概率;R为所述当前候选字的相似度;Pv'为所述在前候选字的维特比概率;logPv、logP1、logP2、logR、logPv'分别为对Pv、P1、P2、R、Pv'取对数后得到的值;a、b、c、d分别为设置的权重值。
5.一种文字图像中字符识别装置,其特征在于,包括:
字符单位划分模块,用于对所述文字图像中切割出的字符,以设定单位进行划分;
候选字确定模块,用于针对所述字符单位划分模块划分出的每个设定单位,对该设定单位内的每个字符进行特征提取和特征匹配后,确定该设定单位内的每个字符的候选字;
候选字信息确定模块,用于针对所述候选字确定模块确定出的所述设定单位内的每个字符,确定该字符的每个候选字的相似度、以及该字符的每个候选字与该字符相邻的字符的候选字之间的转移概率;
识别结果确定模块,用于根据所述候选字信息确定模块确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果;其中,
所述候选字信息确定模块还用于针对所述候选字确定模块确定出的所述设定单位内的每个字符,确定该字符的出现概率;以及
所述识别结果确定模块还根据所述候选字信息确定模块确定的出现概率确定所述识别结果;以及
所述识别结果确定模块具体包括:
维特比概率确定单元,用于对于该设定单位内的第1个字符的候选字的维特比概率,根据该候选字的相似度、和/或该候选字的出现概率确定;从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、出现概率、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率;
所述维特比概率确定单元在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;并以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一;
候选路径确定单元,用于根据所述维特比概率确定单元确定出的相邻节点确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的;
候选路径选择单元,用于比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。
6.如权利要求5所述的装置,其特征在于,所述识别结果确定模块具体包括:
维特比概率确定单元,用于确定该设定单位内的第1个字符的候选字的维特比概率为该候选字的相似度;从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率;
所述维特比概率确定单元在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;并以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一;
候选路径确定单元,用于根据所述维特比概率确定单元确定出的相邻节点确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的;
候选路径选择单元,用于比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210477638.5A CN102982330B (zh) | 2012-11-21 | 2012-11-21 | 文字图像中字符识别方法和识别装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210477638.5A CN102982330B (zh) | 2012-11-21 | 2012-11-21 | 文字图像中字符识别方法和识别装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102982330A CN102982330A (zh) | 2013-03-20 |
CN102982330B true CN102982330B (zh) | 2016-12-21 |
Family
ID=47856313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210477638.5A Active CN102982330B (zh) | 2012-11-21 | 2012-11-21 | 文字图像中字符识别方法和识别装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102982330B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473545B (zh) * | 2013-08-01 | 2016-06-29 | 西安交通大学 | 一种基于多特征的文本图像相似度度量方法 |
CN103632465B (zh) * | 2013-11-04 | 2016-01-20 | 广东汇卡商务服务有限公司 | 一种pos机自动同步收银*** |
JP6327963B2 (ja) * | 2014-06-09 | 2018-05-23 | 株式会社日立情報通信エンジニアリング | 文字認識装置及び文字認識方法 |
CN104766077B (zh) * | 2015-04-03 | 2017-04-12 | 北京奇虎科技有限公司 | 一种识别图片中的字符的方法和装置 |
CN107688803B (zh) * | 2016-08-05 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 字符识别中识别结果的校验方法和装置 |
CN107247724B (zh) * | 2017-04-27 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 转移概率矩阵更新、信息识别方法及装置、计算机设备 |
CN109871848B (zh) * | 2017-12-01 | 2022-01-25 | 北京搜狗科技发展有限公司 | 一种移动终端的文字识别方法及装置 |
CN108021918B (zh) * | 2017-12-13 | 2021-11-30 | 北京小米移动软件有限公司 | 文字识别方法及装置 |
CN109101973B (zh) * | 2018-08-06 | 2019-12-10 | 掌阅科技股份有限公司 | 文字识别方法、电子设备、存储介质 |
CN110858307B (zh) * | 2018-08-24 | 2022-09-13 | 国信优易数据股份有限公司 | 字符识别模型训练方法及装置、识别字符的方法及装置 |
CN109582946B (zh) * | 2018-11-28 | 2019-10-25 | 龙马智芯(珠海横琴)科技有限公司 | 文字区域排版方向的确定方法及装置 |
CN111340029A (zh) * | 2018-12-19 | 2020-06-26 | 富士通株式会社 | 用于识别收件人地址中的至少部分地址的装置和方法 |
CN110084225A (zh) * | 2019-05-16 | 2019-08-02 | 中国联合网络通信集团有限公司 | 基于5g云存储的扫描、数字运算及打印装置和*** |
CN110245606B (zh) * | 2019-06-13 | 2021-07-20 | 广东小天才科技有限公司 | 一种文本识别方法、装置、设备及存储介质 |
CN111310747A (zh) * | 2020-02-12 | 2020-06-19 | 北京小米移动软件有限公司 | 信息处理方法、信息处理装置及存储介质 |
CN111444905B (zh) * | 2020-03-24 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像识别方法和相关装置 |
CN111444906B (zh) * | 2020-03-24 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像识别方法和相关装置 |
CN111860516A (zh) * | 2020-06-23 | 2020-10-30 | 北京三快在线科技有限公司 | 商家名称确定方法、装置、服务器及存储介质 |
CN111914825B (zh) * | 2020-08-03 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 文字识别方法、装置及电子设备 |
CN112800727B (zh) * | 2021-04-14 | 2021-07-20 | 北京三维天地科技股份有限公司 | 给pdf文件加批注的方法及应用*** |
CN113963359B (zh) * | 2021-12-20 | 2022-03-18 | 北京易真学思教育科技有限公司 | 文本识别模型训练方法、文本识别方法、装置及电子设备 |
CN115841670B (zh) * | 2023-02-13 | 2023-05-12 | 福建鹿鸣教育科技有限公司 | 一种基于图像识别的作业错题收集*** |
CN116758559B (zh) * | 2023-08-15 | 2023-11-07 | 山东唐和智能科技有限公司 | 一种图文文字转换识别***及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2108536C (en) * | 1992-11-24 | 2000-04-04 | Oscar Ernesto Agazzi | Text recognition using two-dimensional stochastic models |
CN102254157A (zh) * | 2011-07-07 | 2011-11-23 | 北京文通图像识别技术研究中心有限公司 | 一种寻找左右字符的字符切分位置评价方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100347723C (zh) * | 2005-07-15 | 2007-11-07 | 清华大学 | 基于几何代价与语义-识别代价结合的脱机手写汉字字符的切分方法 |
-
2012
- 2012-11-21 CN CN201210477638.5A patent/CN102982330B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2108536C (en) * | 1992-11-24 | 2000-04-04 | Oscar Ernesto Agazzi | Text recognition using two-dimensional stochastic models |
CN102254157A (zh) * | 2011-07-07 | 2011-11-23 | 北京文通图像识别技术研究中心有限公司 | 一种寻找左右字符的字符切分位置评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102982330A (zh) | 2013-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102982330B (zh) | 文字图像中字符识别方法和识别装置 | |
CN109948510B (zh) | 一种文档图像实例分割方法及装置 | |
Mahdavi et al. | ICDAR 2019 CROHME+ TFD: Competition on recognition of handwritten mathematical expressions and typeset formula detection | |
Yuan et al. | A large chinese text dataset in the wild | |
US20200065601A1 (en) | Method and system for transforming handwritten text to digital ink | |
US8908961B2 (en) | System and methods for arabic text recognition based on effective arabic text feature extraction | |
CN101719142B (zh) | 基于分类字典的稀疏表示图片文字检测方法 | |
US8494273B2 (en) | Adaptive optical character recognition on a document with distorted characters | |
JP4771804B2 (ja) | レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法 | |
JP5522408B2 (ja) | パターン認識装置 | |
CN110969129B (zh) | 一种端到端税务票据文本检测与识别方法 | |
US8391607B2 (en) | Image processor and computer readable medium | |
CN109635808B (zh) | 一种在自然场景图像中对中文关键词及上下文的提取方法 | |
US6532302B2 (en) | Multiple size reductions for image segmentation | |
CN104008401A (zh) | 一种图像文字识别的方法及装置 | |
EP3539051A1 (en) | System and method of character recognition using fully convolutional neural networks | |
CN111401099A (zh) | 文本识别方法、装置以及存储介质 | |
RU2633182C1 (ru) | Определение направления строк текста | |
CN111062262A (zh) | ***识别方法以及***识别装置 | |
CN114419636A (zh) | 文本识别方法、装置、设备以及存储介质 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
Al Ghamdi | A novel approach to printed Arabic optical character recognition | |
US10217020B1 (en) | Method and system for identifying multiple strings in an image based upon positions of model strings relative to one another | |
CN103136536A (zh) | 对象检测***和方法、图像的特征提取方法 | |
Ciuntu et al. | Real-time traffic sign detection and classification using machine learning and optical character recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230406 Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193 Patentee after: Sina Technology (China) Co.,Ltd. Address before: 100080, International Building, No. 58 West Fourth Ring Road, Haidian District, Beijing, 20 floor Patentee before: Sina.com Technology (China) Co.,Ltd. |
|
TR01 | Transfer of patent right |