CN103577818A - 一种图像文字识别的方法和装置 - Google Patents

一种图像文字识别的方法和装置 Download PDF

Info

Publication number
CN103577818A
CN103577818A CN201210279370.4A CN201210279370A CN103577818A CN 103577818 A CN103577818 A CN 103577818A CN 201210279370 A CN201210279370 A CN 201210279370A CN 103577818 A CN103577818 A CN 103577818A
Authority
CN
China
Prior art keywords
statement
recognition result
block
confidence
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210279370.4A
Other languages
English (en)
Other versions
CN103577818B (zh
Inventor
韩钧宇
丁二锐
吴中勤
文林福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210279370.4A priority Critical patent/CN103577818B/zh
Publication of CN103577818A publication Critical patent/CN103577818A/zh
Application granted granted Critical
Publication of CN103577818B publication Critical patent/CN103577818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提供了一种图像文字识别的方法和装置,其中方法包括:S1、获取待识别图像中的文字区域;S2、对文字区域中的各字块分别进行识别并记录各字块的位置信息;S3、基于各字块的位置信息进行版面分析得到语句结构分布;S4、基于语句结构分布对各字块的识别结果进行基于语义分析的校正,得到校正后的识别结果。本发明有效地利用了文字之间的语义信息对各字块的识别结果进行修正,提高了图像文字识别的精度,更好地满足了用户的识别需求。

Description

一种图像文字识别的方法和装置
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种图像文字识别的方法和装置。
【背景技术】
随着移动互联网的迅速发展,基于移动终端摄像头采集到的图像的应用越来越广泛。其中图像文字识别技术将图像中的文字进行识别,转换为文本文字,从而减轻了用户输入对应文字信息的负担,方便用户存储、编辑对应的文字信息。但是图像文字识别技术是一个十分复杂的技术问题,特别是在图像内容复杂的情况下,文字识别精度往往无法满足用户的需求。
现有的图像文字识别方法主要包括以下步骤:
1)确定图像中的字符区域;2)对字符区域进行字符分割,得到各个字块;3)对各个字块进行特征提取,将提取的特征与特征数据库进行匹配,从而得到匹配的各个字符作为识别结果。
虽然上述图像文字识别方法具有较强的文字识别能力,但由于是基于单个文字的识别,因此容易出现识别误差且没有有效的修正措施,文字识别精度较低。
【发明内容】
有鉴于此,本发明提供了一种图像文字识别的方法和装置,以便于提高图像文字识别的精度。
具体技术方案如下:
一种图像文字识别的方法,该方法包括:
S1、获取待识别图像中的文字区域;
S2、对文字区域中的各字块分别进行识别并记录各字块的位置信息;
S3、基于各字块的位置信息进行版面分析得到语句结构分布;
S4、基于语句结构分布对各字块的识别结果进行基于语义分析的校正,得到校正后的识别结果。
根据本发明一优选实施例,所述步骤S1具体包括:
服务器接收移动终端发送来的待识别图像,从所述待识别图像中提取文字区域;或者,
服务器接收移动终端从待识别图像中提取并发送来的文字区域。
根据本发明一优选实施例,所述步骤S3具体包括:
利用字块中心在所述待识别图像中的坐标信息将在竖直上位置差距小于预设第一阈值的字块作为一个水平方向的文字行;或者,
利用字块中心在所述待识别图像中的坐标信息将在水平上位置差距小于预设第二阈值的字块作为一个竖直方向的文字行;或者,
利用字块中心在所述待识别图像中的坐标信息将在竖直上位置差距小于预设第一阈值且字块大小差异小于预设大小阈值的字块作为一个水平方向的文字行;或者,
利用字块中心在所述待识别图像中的坐标信息将在水平上位置差距小于预设第二阈值且字块大小差异小于预设大小阈值的字块作为一个竖直方向的文字行。
根据本发明一优选实施例,所述步骤S4具体包括:
S41、将文字行中各字块的识别结果与词语库进行匹配,得到构成词语的识别结果;
S42、利用构成词语的识别结果以及未构成词语的识别结果按字块顺序进行组合得到各语句;
S43、确定各语句的语义置信度,以及将各语句与语句数据库进行匹配,依据匹配状况确定各语句的匹配置信度;
S44、将各语句的语义置信度和匹配置信度进行结合确定各语句的总置信度,选择总置信度最高的语句作为校正后的识别结果。
根据本发明一优选实施例,在所述步骤S41中还包括:将文字行中非首位的字块的识别结果中无法与紧邻字块的识别结果组成词语的识别结果删除,但对于可独立成语义的或者紧邻字块的识别结果缺失的识别结果除外。
根据本发明一优选实施例,所述步骤S2中还包括:依据识别结果与图片中字块的相似度确定各字块的识别结果的置信度;
在所述步骤S43中利用语句中各识别结果的置信度求和得到语句的语义置信度,其中在求和时提高构成词语的识别结果的置信度。
根据本发明一优选实施例,所述步骤S43具体包括:挑选语义置信度排在前n1个的语句,n1为预设的正整数,将挑选的语句与语句数据库进行匹配,依据匹配状况确定各语句的匹配置信度。
根据本发明一优选实施例,在所述步骤S43中采用如下公式确定语句i的匹配置信度Cm
Cm=Ni×α×Pi
其中,Ni为语句i包含的字数,α为预设的系数,Pi为语句i与语句L的最大连续匹配文字个数与语句L的总字数的比例,其中所述语句L为语句i在语句数据库中的匹配语句。
根据本发明一优选实施例,该方法还包括:
S5、利用校正后的识别结果进行搜索,确定与校正后的识别结果匹配状况最优的网络文档,截取该网络文档中与校正后的识别结果匹配的网络文字内容作为扩展后的识别结果。
根据本发明一优选实施例,所述截取该网络文档中与校正后的识别结果匹配的网络文字内容作为扩展后的识别结果为:
从该网络文档中截取包含校正后的识别结果的最小句子或最小段落作为扩展后的识别结果。
一种图像识别的装置,该装置包括:
区域获取单元,用于获取待识别图像中的文字区域;
文字识别单元,用于对文字区域中的各字块分别进行识别;
位置记录单元,用于记录各字块的位置信息;
版面分析单元,用于基于各字块的位置信息进行版面分析得到语句结构分布;
语义分析单元,用于基于语句结构分布对各字块的识别结果进行基于语义分析的校正,得到校正后的识别结果。
根据本发明一优选实施例,所述区域获取单元接收移动终端发送来的待识别图像,从所述待识别图像中提取文字区域;或者,接收移动终端从待识别图像中提取并发送来的文字区域。
根据本发明一优选实施例,所述版面分析单元具体被配置为:
利用字块中心在所述待识别图像中的坐标信息将在竖直上位置差距小于预设第一阈值的字块作为一个水平方向的文字行;或者,
利用字块中心在所述待识别图像中的坐标信息将在水平上位置差距小于预设第二阈值的字块作为一个竖直方向的文字行;或者,
利用字块中心在所述待识别图像中的坐标信息将在竖直上位置差距小于预设第一阈值且字块大小差异小于预设大小阈值的字块作为一个水平方向的文字行;或者,
利用字块中心在所述待识别图像中的坐标信息将在水平上位置差距小于预设第二阈值且字块大小差异小于预设大小阈值的字块作为一个竖直方向的文字行。
根据本发明一优选实施例,所述语义分析单元具体包括:
词库匹配子单元,用于将文字行中各字块的识别结果与词语库进行匹配,得到构成词语的识别结果;
语句确定子单元,用于利用构成词语的识别结果以及未构成词语的识别结果按字块顺序进行组合得到各语句;
语义置信度确定子单元,用于确定各语句的语义置信度;
匹配置信度确定子单元,用于将各语句与语句数据库进行匹配,依据匹配状况确定各语句的匹配置信度;
校正子单元,用于将各语句的语义置信度和匹配置信度进行结合确定各语句的总置信度,选择总置信度最高的语句作为校正后的识别结果。
根据本发明一优选实施例,所述词库匹配子单元,还用于将文字行中非首位的字块的识别结果中无法与紧邻字块的识别结果组成词语的识别结果删除,但对于可独立成语义的或者紧邻字块的识别结果缺失的识别结果除外。
根据本发明一优选实施例,所述文字识别单元,还用于依据识别结果与图片中字块的相似度确定各字块的识别结果的置信度;
所述语义置信度确定子单元具体被配置为:利用语句中各识别结果的置信度求和得到语句的语义置信度,其中在求和时提高构成词语的识别结果的置信度。
根据本发明一优选实施例,所述匹配置信度确定子单元具体被配置为:挑选语义置信度排在前n1个的语句,n1为预设的正整数,将挑选的语句与语句数据库进行匹配,依据匹配状况确定各语句的匹配置信度。
根据本发明一优选实施例,所述匹配置信度确定子单元采用如下公式确定语句i的匹配置信度Cm
Cm=Ni×α×Pi
其中,Ni为语句i包含的字数,α为预设的系数,Pi为语句i与语句L的最大连续匹配文字个数与该语句L的总字数的比例,其中所述语句L为语句i在语句数据库中的匹配语句。
根据本发明一优选实施例,该装置还包括:网络扩展单元,用于利用校正后的识别结果进行搜索,确定与校正后的识别结果匹配状况最优的网络文档,截取该网络文档中与校正后的识别结果匹配的网络文字内容作为扩展后的识别结果。
根据本发明一优选实施例,所述网络扩展单元在执行所述截取的操作时,具体从该网络文档中截取包含校正后的识别结果的最小句子或最小段落作为扩展后的识别结果。
由以上技术方案可以看出,本发明通过版面分析得到语句结构分布,基于语句结构分布对各字块的识别结果进行语义分析的校正,从而有效地利用了文字之间的语义信息对各字块的识别结果进行修正,提高了图像文字识别的精度,更好地满足了用户的识别需求。
【附图说明】
图1为本发明实施例一提供的图像文字识别的方法流程图;
图2为本发明实施例一提供的文字区域实例图;
图3为本发明实施例一提供的基于语义分析的校正过程示意图;
图4为本发明实施例提供的***示意图;
图5为本发明实施例二提供的图像识别的装置结构图;
图6为本发明实施例二提供的语义分析单元的结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例提供的图像文字识别的方法流程图,如图1所示,该方法可以包括以下步骤:
步骤101:获取待识别图像中的文字区域。
服务器获取移动终端发送来的包含文字信息的图像,该图像可以是移动终端拍摄到的原始图像,服务器在本步骤中提取待识别图像中的文字区域。或者,该图像可以是移动终端拍摄到原始图像后,提取出待识别图像中的文字区域后将待识别图像中的文字区域发送给服务器。
在提取文字区域时可以采用现有的方式,去除图像背景后提取文字区域,可以采用但不限于以下方式:
方式一、首先根据彩色欧式距离进行彩色游程编码,然后进行颜色聚类,基于聚类结果进行文字层的生成和选择,例如保留面积大于一定值的连通域,基于连通域与各颜色聚类中心的欧式距离生成各图像层面,最后依据各图像层面的像素个数与该层分割阈值的像素个数的关系确定文字层面、噪声层面或背景层面,最后取出噪声层面和背景层面后就得到文字层面,即文字区域。
方式二、选择大量的文字样本图像和不含文字的图片,使用canny算子提取这两类图片的边缘信息作为稀疏表示分类字典的训练样本;将两类训练样本输入分类稀疏表示字典训练算法得到文字稀疏表示分类字典和非文字稀疏表示分类字典;将待识别图像转为灰度图像,使用canny算子提取灰度图像的边缘信息;利用基于分类字典的稀疏表示提取灰度图像边缘信息中的候选文字区域;在水平方向上和垂直方向上分别使用游程平滑算法将候选文字区域孤立的边缘连接为较大的区域,再进行投影分析找出相应的文字行,同时舍去候选文字区域中文字行以外的孤立边缘;将检测出的文字区域标识出来。
如果移动终端进行文字区域的提取,则可以采用已有的文字区域提取软件或者手动的方式进行文字区域的提取。
另外,本步骤中获取的文字区域可以是一个,也可以是两个以上。由于本步骤中的内容为现有技术,在此不再赘述。
步骤102:对文字区域中的各字块分别进行识别并记录每个字块的位置信息。
其中对文字区域中的各字块分别进行识别的过程同样可以现有技术,即包括以下步骤:对文字区域进行二值化;对二值化后的文字区域分割为各字块;提取各字块的特征信息并与文字特征数据库进行匹配,将匹配结果作为各字块的识别结果。具体实现不再赘述。
记录的字块的位置信息可以为:字块中心在图像中的坐标信息,还可以进一步包括字块的大小信息等。
需要说明的是,各字块的识别结果可能存在多个,即对于一个字块可能存在多个识别结果,通常是确定与图片中字块相似度满足预设要求的识别结果,且依据相似度每个识别结果都存在一个置信度。以图2所示图像中的各字块为例:
第一个字块的识别结果为:里(44)、中(44);
第二个字块的识别结果为:国(32)、围(31)、皿(29);
第三个字块的识别结果为:衄(41)、明(40)、邮(39);
第四个字块的识别结果为:政(67)、攻(48)、改(46)。
其中上述括号中的数字为各识别结果的置信度。
步骤103:基于每个字块的位置信息进行版面分析得到语句结构分布。
本步骤中利用字块中心在图像中的坐标信息将在竖直上位置差距小于预设第一阈值(即近似在一个水平线上)的字块作为一个水平方向的文字行,或者,将在水平上位置差距小于预设第二阈值(即近似在一个竖直列上)的字块作为一个竖直方向的文字行。至于取水平方向的文字行还是取竖直方向的文字行取决于图像上文字的布局,如果是横向书写的,则在本步骤中取水平方向的文字行,如果是纵向书写的,则在本步骤中取竖直方向的文字行,这可以预先进行设定。
更优地,还可以进一步结合字块的大小信息,即将在竖直上位置差距小于预设第一阈值且字块大小差异小于预设大小阈值的字块作为一个水平方向的文字行,或者,将在水平上位置差距小于预设第二阈值且字块大小差异小于预设大小阈值的字块作为一个竖直方向的文字行。
上述的第一阈值和第二阈值可以根据经验值进行设置,该值可以根据具体情况进行调整。举个例子,对于图2所示的文字区域,由于四个字块在垂直方向上位置差距在预设第一阈值之内,因此将这四个字块串联成一个文字行。
本发明具体实施时,本步骤语句结构分布信息的获取可以不局限于上面提出得基于阈值判断的方法,同时也可以通过其他机制提取非水平或竖直方向的斜向文字行。
步骤104:基于语句结构分布对各字块的识别结果进行基于语义分析的校正,得到校正后的识别结果。
将属于同一文字行的字块的识别结果进行语义分析校正,进行语义分析校正时,首先按顺序将各字块的识别结果与词语库进行匹配,确定同一文字行各字块的识别结果所能构成的词语组合;然后确定同一文字行的识别结果所能组合成的各语句的语义置信度,选择语义置信度最高的语句作为校正后的识别结果;或者,进一步将各语句与语句数据库进行匹配,依据匹配状况确定各语句的匹配置信度,将语义置信度和匹配置信度进行结合确定各语句的总置信度,选择总置信度最高的语句作为校正后的识别结果。
下面结合图3对基于语义分析的校正过程进行详细描述,如图3所示,该校正过程可以包括以下步骤:
步骤301:将文字行中各字块的识别结果与词语库进行匹配,将文字行中非首位的字块的识别结果中无法与紧邻的字块的识别结果组成词语的识别结果删除,但对于可独立成语义的或者紧邻字块的识别结果缺失的识别结果除外。
需要说明的是,将文字行中非首位的字块的识别结果中无法与紧邻的字块的识别结果组成词语的识别结果删除的步骤是为了提高后续语句置信度计算和选择的效率所执行的步骤,并不是必须的。
步骤302:利用构成词语的识别结果以及未构成词语的识别结果按字块顺序进行组合得到各语句,确定各语句的语义置信度。
在本步骤中就是确定出文字行所有可能识别出的语句,按照各字块的顺序将构成词语的识别结果以及未构成词语的识别结果进行组合,得到所有可能的语句。
仍以图2中所示情况的识别结果为例,由于第二个字块的识别结果中“围”、“皿”以及第三个识别结果中的“衄”均不能与其紧邻字块的识别结果构成词语,且其本身也不具有独立语义,因此在步骤301中会被删除。
将各识别结果与词语库进行匹配,得到的词语包括:中国、邮政、明攻、明政。
生成所有可能的语句包括:
里国明攻
里国明改
里国明政
里国邮政
里国邮改
里国邮攻
中国明改
中国明政
中国明攻
中国邮政
中国邮攻
中国邮改
在确定各语句的语义置信度时,可以利用语句中各识别结果的置信度求和,其中可以提高构成词语的识别结果的置信度,例如将构成词语的识别结果的置信度加倍,将求和后的置信度作为语句的语义置信度。
接续上例,各语句的语义置信度如下,其中小括号中的数字为各识别结果的置信度,中括号中的数字为语句的语义置信度。
里(44)国(32)明攻(40*2+48*2)      【268】
里(44)国(32)明(40)改(46)           【162】
里(44)国(32)明政(40*2+67*2)          【214】
里(44)国(32)邮政(39*2+67*2)          【288】
里(44)国(32)邮(39)改(46)           【161】
里(44)国(32)邮(39)攻(48)           【163】
中国(44*2+32*2)明(40)改(46)      【238】
中国(44*2+32*2)明政(40*2+67*2)     【366】
中国(44*2+32*2)明攻(40*2+48*2)     【328】
中国(44*2+32*2)邮政(39*2+67*2)   【364】
中国(44*2+32*2)邮(39)攻(48)    【239】
中国(44*2+32*2)邮(39)改(46)    【237】
步骤303:挑选语义置信度排在前n1个的语句,n1为预设的正整数,将挑选的语句与语句数据库进行匹配,依据匹配状况确定各语句的匹配置信度。
在本步骤中可以挑选语义置信度排在前若干个的语句与语句数据库进行匹配,这样做的效率更高,当然也可以将所有语句均与语句数据库进行匹配,确定所有语句的匹配置信度。
接续上例,假设从中挑选出语义置信度排在前3个的语句,即“中国明政”、“中国邮政”和“中国明攻”。
匹配采用的语句数据库中包含常用的语句,挑选出的语句与常用的语句的匹配程度越高,说明其作为识别结果的可能性就越大,因此,在此处确定匹配置信度时依据与语句数据库的匹配状况来确定。所谓匹配状况可以体现在语句本身的字数,以及语句与语句数据库中的匹配语句的最大连续匹配文字与该匹配语句的文字比例等信息。
假设语句i的匹配置信度Cm采用如下公式确定:
Cm=Ni×α×Pi                        (1)
其中,Ni为语句i包含的字数,α为预设的系数,例如取100,Pi为语句i与语句L的最大连续匹配文字个数与语句L的总字数的比例,其中语句L为与语句i在语句数据库中的匹配语句,也就是说,在将挑选的语句与语句数据库进行匹配时,会首先得到语句L,该语句L可以是完全与语句i在文字上匹配的语句,也可以是与语句i在多数文字上匹配的且匹配语句i字数最多的语句,也就是说,可以选择语句数据库中与语句i的文字匹配度达到一定程度且匹配度最大的语句作为匹配语句,即语句L。本发明具体实施过程中,语句L的获得也可以通过其他语句匹配策略获得。
例如,语句“中国明政”在语句数据库中匹配到“***明政合作厅”,按照公式(1)计算的匹配置信度为:
语句“中国邮政”在语句数据库中匹配到“中国邮政”,按照公式(1)计算的匹配置信度为:
Figure BDA00001982576700122
语句“中国明攻”在语句数据库中未匹配到,其匹配置信度为0。
步骤304:将各语句的语义置信度和匹配置信度进行结合确定各语句的总置信度,选择总置信度最高的语句作为校正后的识别结果。
假设在本步骤中将语义置信度和匹配置信度进行求和得到的值作为各语句的总置信度,那么接续上例:
语句“中国邮政”的总置信度为:366+88=454。
语句“中国邮政”的总置信度为:364+400=764。
语句“中国明攻”的总置信度为:328+0=328。
最终选择“中国邮政”作为校正后的识别结果。
在进行了语义分析校正后,已经能够保证识别结果具有一定的准确性,服务器可以将校正后的识别结果返回给移动终端进行显示,但为了更进一步提高识别精度,可以结合网络搜索的方式进行扩展,即可以进一步执行步骤105。
继续参见图1,步骤105:确定与校正后识别结果匹配状况最优的网络文档,截取该网络文档中与校正后识别结果匹配的网络文字内容作为扩展后的识别结果。
将校正后的识别结果在网络中进行搜索,计算搜索得到的各文档与校正后识别结果的匹配状况,确定其中匹配状况最优的文档。所谓匹配状况最优可以是匹配的字数最多,也可以是匹配的字数占网络文字内容的字数比例最大等。
在截取网络文字内容时,从确定的网络文档中截取包含校正后识别结果的网络文字内容,具体可以基于网络文档中的标点或回车,截取包含校正后识别结果的最小句子或最小段落作为扩展后的识别结果。至此服务器可以将扩展后的识别结果返回给移动终端进行显示。
接续上例,将“中国邮政”在网络中进行搜索,获得与当前识别结果匹配字数最多的网络文字内容,截取包含当前识别结果最小句子为“中国邮政集团公司”作为扩展后的识别结果。
可以将校正后的识别结果和扩展后的识别结果择一进行展示,也可以都展示。例如展示为“中国邮政-中国邮政集团公司”。
以上是对本发明所提供的方法进行的详细描述,下面结合实施例二对本发明所提供的装置进行详细描述,该装置设置在服务器上,主要用于如图4所示的***架构,该***由移动终端和服务器构成,其中移动终端可以将拍摄到的包含文字的图像作为待识别图像发送给服务器,由服务器从中提取文字区域,或者,移动终端将拍摄到的包含文字的图像作为待识别图像后,从中提取出文字区域,将该文字区域发送给服务器。之后服务器执行实施例一中所示流程,最终将经过基于语义分析的校正后的识别结果和经过网络扩展后的识别结果中的一种或组合返回给移动终端。
实施例二、
图5为本发明实施例二提供的图像识别的装置结构图,如图5所示,该装置包括:区域获取单元500、文字识别单元510、位置记录单元520、版面分析单元530和语义分析单元540。
首先区域获取单元500获取待识别图像中的文字区域,其中区域获取单元500可以接收移动终端发送来的待识别图像,从待识别图像中提取文字区域;或者,接收移动终端从待识别图像中提取并发送来的文字区域。
文字识别单元510对文字区域中的各字块分别进行识别,可以采用现有的识别方式,例如具体包括:对文字区域进行二值化;对二值化后的文字区域分割为各字块;提取各字块的特征信息并与特征数据库进行匹配,将匹配结果作为各字块的识别结果。
位置记录单元520记录各字块的位置信息,记录的位置信息可以为:字块中心在图像中的坐标信息,还可以进一步包括字块的大小信息等。
版面分析单元530基于各字块的位置信息进行版面分析得到语句结构分布。版面分析单元530可以具体被配置为:
利用字块中心在待识别图像中的坐标信息将在竖直上位置差距小于预设第一阈值的字块作为一个水平方向的文字行;或者,
利用字块中心在待识别图像中的坐标信息将在水平上位置差距小于预设第二阈值的字块作为一个竖直方向的文字行;或者,
利用字块中心在待识别图像中的坐标信息将在竖直上位置差距小于预设第一阈值且字块大小差异小于预设大小阈值的字块作为一个水平方向的文字行;或者,
利用字块中心在待识别图像中的坐标信息将在水平上位置差距小于预设第二阈值且字块大小差异小于预设大小阈值的字块作为一个竖直方向的文字行。
至于取水平方向的文字行还是取竖直方向的文字行取决于图像上文字的布局,如果是横向书写的,则在本步骤中取水平方向的文字行,如果是纵向书写的,则在本步骤中取竖直方向的文字行,这可以预先进行设定。上述的第一阈值和第二阈值可以根据经验值进行设置,该值可以根据具体情况进行调整。
本发明具体实施时,版面分析单元的实施可以不局限于上面提出得基于阈值判断的方法,同时也可以通过其他机制提取非水平或竖直方向的斜向文字行。
语义分析单元540基于语句结构分布对各字块的识别结果进行基于语义分析的校正,得到校正后的识别结果。
下面对语义分析单元540的结构进行详细描述,如图6所示,语义分析单元540可以具体包括:词库匹配子单元541、语句确定子单元542、语义置信度确定子单元543、匹配置信度确定子单元544和校正子单元545。
词库匹配子单元541将文字行中各字块的识别结果与词语库进行匹配,得到构成词语的识别结果。
优选地,词库匹配子单元541还可以将文字行中非首位的字块的识别结果中无法与紧邻字块的识别结果组成词语的识别结果删除,但对于可独立成语义的或者紧邻字块的识别结果缺失的识别结果除外。
语句确定子单元542利用构成词语的识别结果以及未构成词语的识别结果按字块顺序进行组合得到各语句。
语义置信度确定子单元543确定各语句的语义置信度。语义置信度是基于各识别结果的置信度确定的,这种情况下,图5中所示的文字识别单元510还依据识别结果与图片中字块的相似度确定各字块的识别结果的置信度。此时语义置信度确定子单元543利用语句中各识别结果的置信度求和得到语句的语义置信度,其中在求和时提高构成词语的识别结果的置信度。
匹配置信度确定子单元544将各语句与语句数据库进行匹配,依据匹配状况确定各语句的匹配置信度。
为了提高匹配置信度计算的效率,匹配置信度确定子单元544可以挑选语义置信度排在前n1个的语句,n1为预设的正整数,将挑选的语句与语句数据库进行匹配,依据匹配状况确定各语句的匹配置信度。
匹配采用的语句数据库中包含常用的语句,挑选出的语句与常用的语句的匹配程度越高,说明其作为识别结果的可能性就越大,因此,在此处确定匹配置信度时依据与语句数据库的匹配状况来确定。所谓匹配状况可以体现在语句本身的字数,以及语句与语句数据库中的匹配语句的最大连续匹配文字与该匹配语句的文字比例等信息。
具体可以采用以下公式确定语句i的匹配置信度Cm
Cm=Ni×α×Pi
其中,Ni为语句i包含的字数,α为预设的系数,Pi为语句i与语句L的最大连续匹配文字个数与语句L的总字数的比例,其中语句L为与语句i在语句数据库中的匹配语句,也就是说,在将挑选的语句与语句数据库进行匹配时,会首先得到语句L,该语句L可以是完全与语句i在文字上匹配的语句,也可以是与语句i在多数文字上匹配的且匹配语句i字数最多的语句,也就是说,可以选择语句数据库中与语句i的文字匹配度达到一定程度且匹配度最大的语句作为匹配语句,即语句L。
校正子单元545将各语句的语义置信度和匹配置信度进行结合确定各语句的总置信度,选择总置信度最高的语句作为校正后的识别结果。
继续参见图5,为了更进一步提高识别精度,该装置还可以包括:网络扩展单元550,用于利用校正后的识别结果进行搜索,确定与校正后的识别结果匹配状况最优的网络文档,截取该网络文档中与校正后的识别结果匹配的网络文字内容作为扩展后的识别结果。
具体在执行截取的操作时,可以从该网络文档中截取包含校正后的识别结果的最小句子或最小段落作为扩展后的识别结果。
由于该装置设置在服务器中,服务器会将上述装置得到的校正后的识别结果和扩展后的识别结果择一返回给移动终端进行展示,也可以都返回给移动终端进行展示。
由以上描述可以看出,本发明提供的方法和装置具备以下优点:
1)有效地利用了文字之间的语义信息对各字块的识别结果进行修正,提高了图像文字识别的精度,更好地满足了用户的识别需求。
2)充分利用了互联网中存在的大量网络文字资源,对识别结果进行扩展,更进一步挖掘用户意图,提升用户的使用需求。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (20)

1.一种图像文字识别的方法,其特征在于,该方法包括:
S1、获取待识别图像中的文字区域;
S2、对文字区域中的各字块分别进行识别并记录各字块的位置信息;
S3、基于各字块的位置信息进行版面分析得到语句结构分布;
S4、基于语句结构分布对各字块的识别结果进行基于语义分析的校正,得到校正后的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1具体包括:
服务器接收移动终端发送来的待识别图像,从所述待识别图像中提取文字区域;或者,
服务器接收移动终端从待识别图像中提取并发送来的文字区域。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3具体包括:
利用字块中心在所述待识别图像中的坐标信息将在竖直上位置差距小于预设第一阈值的字块作为一个水平方向的文字行;或者,
利用字块中心在所述待识别图像中的坐标信息将在水平上位置差距小于预设第二阈值的字块作为一个竖直方向的文字行;或者,
利用字块中心在所述待识别图像中的坐标信息将在竖直上位置差距小于预设第一阈值且字块大小差异小于预设大小阈值的字块作为一个水平方向的文字行;或者,
利用字块中心在所述待识别图像中的坐标信息将在水平上位置差距小于预设第二阈值且字块大小差异小于预设大小阈值的字块作为一个竖直方向的文字行。
4.根据权利要求1或3所述的方法,其特征在于,所述步骤S4具体包括:
S41、将文字行中各字块的识别结果与词语库进行匹配,得到构成词语的识别结果;
S42、利用构成词语的识别结果以及未构成词语的识别结果按字块顺序进行组合得到各语句;
S43、确定各语句的语义置信度,以及将各语句与语句数据库进行匹配,依据匹配状况确定各语句的匹配置信度;
S44、将各语句的语义置信度和匹配置信度进行结合确定各语句的总置信度,选择总置信度最高的语句作为校正后的识别结果。
5.根据权利要求4所述的方法,其特征在于,在所述步骤S41中还包括:将文字行中非首位的字块的识别结果中无法与紧邻字块的识别结果组成词语的识别结果删除,但对于可独立成语义的或者紧邻字块的识别结果缺失的识别结果除外。
6.根据权利要求4所述的方法,其特征在于,所述步骤S2中还包括:依据识别结果与图片中字块的相似度确定各字块的识别结果的置信度;
在所述步骤S43中利用语句中各识别结果的置信度求和得到语句的语义置信度,其中在求和时提高构成词语的识别结果的置信度。
7.根据权利要求4所述的方法,其特征在于,所述步骤S43具体包括:挑选语义置信度排在前n1个的语句,n1为预设的正整数,将挑选的语句与语句数据库进行匹配,依据匹配状况确定各语句的匹配置信度。
8.根据权利要求4所述的方法,其特征在于,在所述步骤S43中采用如下公式确定语句i的匹配置信度Cm
Cm=Ni×α×Pi
其中,Ni为语句i包含的字数,α为预设的系数,Pi为语句i与语句L的最大连续匹配文字个数与语句L的总字数的比例,其中所述语句L为语句i在语句数据库中的匹配语句。
9.根据权利要求1所述的方法,其特征在于,该方法还包括:
S5、利用校正后的识别结果进行搜索,确定与校正后的识别结果匹配状况最优的网络文档,截取该网络文档中与校正后的识别结果匹配的网络文字内容作为扩展后的识别结果。
10.根据权利要求9所述的方法,其特征在于,所述截取该网络文档中与校正后的识别结果匹配的网络文字内容作为扩展后的识别结果为:
从该网络文档中截取包含校正后的识别结果的最小句子或最小段落作为扩展后的识别结果。
11.一种图像识别的装置,其特征在于,该装置包括:
区域获取单元,用于获取待识别图像中的文字区域;
文字识别单元,用于对文字区域中的各字块分别进行识别;
位置记录单元,用于记录各字块的位置信息;
版面分析单元,用于基于各字块的位置信息进行版面分析得到语句结构分布;
语义分析单元,用于基于语句结构分布对各字块的识别结果进行基于语义分析的校正,得到校正后的识别结果。
12.根据权利要求11所述的装置,其特征在于,所述区域获取单元接收移动终端发送来的待识别图像,从所述待识别图像中提取文字区域;或者,接收移动终端从待识别图像中提取并发送来的文字区域。
13.根据权利要求11所述的装置,其特征在于,所述版面分析单元具体被配置为:
利用字块中心在所述待识别图像中的坐标信息将在竖直上位置差距小于预设第一阈值的字块作为一个水平方向的文字行;或者,
利用字块中心在所述待识别图像中的坐标信息将在水平上位置差距小于预设第二阈值的字块作为一个竖直方向的文字行;或者,
利用字块中心在所述待识别图像中的坐标信息将在竖直上位置差距小于预设第一阈值且字块大小差异小于预设大小阈值的字块作为一个水平方向的文字行;或者,
利用字块中心在所述待识别图像中的坐标信息将在水平上位置差距小于预设第二阈值且字块大小差异小于预设大小阈值的字块作为一个竖直方向的文字行。
14.根据权利要求11或13所述的装置,其特征在于,所述语义分析单元具体包括:
词库匹配子单元,用于将文字行中各字块的识别结果与词语库进行匹配,得到构成词语的识别结果;
语句确定子单元,用于利用构成词语的识别结果以及未构成词语的识别结果按字块顺序进行组合得到各语句;
语义置信度确定子单元,用于确定各语句的语义置信度;
匹配置信度确定子单元,用于将各语句与语句数据库进行匹配,依据匹配状况确定各语句的匹配置信度;
校正子单元,用于将各语句的语义置信度和匹配置信度进行结合确定各语句的总置信度,选择总置信度最高的语句作为校正后的识别结果。
15.根据权利要求14所述的装置,其特征在于,所述词库匹配子单元,还用于将文字行中非首位的字块的识别结果中无法与紧邻字块的识别结果组成词语的识别结果删除,但对于可独立成语义的或者紧邻字块的识别结果缺失的识别结果除外。
16.根据权利要求14所述的装置,其特征在于,所述文字识别单元,还用于依据识别结果与图片中字块的相似度确定各字块的识别结果的置信度;
所述语义置信度确定子单元具体被配置为:利用语句中各识别结果的置信度求和得到语句的语义置信度,其中在求和时提高构成词语的识别结果的置信度。
17.根据权利要求14所述的装置,其特征在于,所述匹配置信度确定子单元具体被配置为:挑选语义置信度排在前n1个的语句,n1为预设的正整数,将挑选的语句与语句数据库进行匹配,依据匹配状况确定各语句的匹配置信度。
18.根据权利要求14所述的装置,其特征在于,所述匹配置信度确定子单元采用如下公式确定语句i的匹配置信度Cm
Cm=Ni×α×Pi
其中,Ni为语句i包含的字数,α为预设的系数,Pi为语句i与语句L的最大连续匹配文字个数与语句L的总字数的比例,其中所述语句L为语句i在语句数据库中的匹配语句。
19.根据权利要求11所述的装置,其特征在于,该装置还包括:网络扩展单元,用于利用校正后的识别结果进行搜索,确定与校正后的识别结果匹配状况最优的网络文档,截取该网络文档中与校正后的识别结果匹配的网络文字内容作为扩展后的识别结果。
20.根据权利要求19所述的装置,其特征在于,所述网络扩展单元在执行所述截取的操作时,具体从该网络文档中截取包含校正后的识别结果的最小句子或最小段落作为扩展后的识别结果。
CN201210279370.4A 2012-08-07 2012-08-07 一种图像文字识别的方法和装置 Active CN103577818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210279370.4A CN103577818B (zh) 2012-08-07 2012-08-07 一种图像文字识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210279370.4A CN103577818B (zh) 2012-08-07 2012-08-07 一种图像文字识别的方法和装置

Publications (2)

Publication Number Publication Date
CN103577818A true CN103577818A (zh) 2014-02-12
CN103577818B CN103577818B (zh) 2018-09-04

Family

ID=50049568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210279370.4A Active CN103577818B (zh) 2012-08-07 2012-08-07 一种图像文字识别的方法和装置

Country Status (1)

Country Link
CN (1) CN103577818B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143084A (zh) * 2014-07-17 2014-11-12 武汉理工大学 一种针对视力障碍人群的辅助阅读眼镜
CN104951741A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN105574530A (zh) * 2014-10-08 2016-05-11 富士通株式会社 提取文档中的文本行的方法和装置
CN105631393A (zh) * 2014-11-06 2016-06-01 阿里巴巴集团控股有限公司 信息识别方法及装置
CN105678207A (zh) * 2014-11-19 2016-06-15 富士通株式会社 用于从给定图像中识别目标铭板图像的内容的装置和方法
CN106709489A (zh) * 2015-07-13 2017-05-24 腾讯科技(深圳)有限公司 一种字符识别的处理方法和装置
CN108399405A (zh) * 2017-02-07 2018-08-14 腾讯科技(上海)有限公司 营业执照识别方法和装置
CN109033798A (zh) * 2018-09-14 2018-12-18 北京金堤科技有限公司 一种基于语义的点选验证码识别方法及其装置
CN109308476A (zh) * 2018-09-06 2019-02-05 邬国锐 票据信息处理方法、***及计算机可读存储介质
CN109934210A (zh) * 2019-05-17 2019-06-25 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
CN110291538A (zh) * 2017-02-16 2019-09-27 国际商业机器公司 过滤图像分类输出分布的图像识别
CN110490190A (zh) * 2019-07-04 2019-11-22 贝壳技术有限公司 一种结构化图像文字识别方法及***
WO2020113561A1 (zh) * 2018-12-07 2020-06-11 华为技术有限公司 一种从图像中提取结构化数据的方法、装置和设备
CN111539412A (zh) * 2020-04-21 2020-08-14 上海云从企业发展有限公司 一种基于ocr的图像分析方法、***、设备及介质
CN111630521A (zh) * 2018-02-28 2020-09-04 佳能欧洲股份有限公司 图像处理方法和图像处理***
CN112183513A (zh) * 2019-07-03 2021-01-05 杭州海康威视数字技术股份有限公司 一种图像中文字的识别方法、装置、电子设备及存储介质
CN112541496A (zh) * 2020-12-24 2021-03-23 北京百度网讯科技有限公司 提取poi名称的方法、装置、设备和计算机存储介质
CN115004261A (zh) * 2020-01-17 2022-09-02 微软技术许可有限责任公司 文本行检测

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604073A (zh) * 2004-11-22 2005-04-06 北京北大方正技术研究院有限公司 一种对报纸版面进行标题与正文逻辑关联的方法
US20060078200A1 (en) * 2004-09-24 2006-04-13 Fuji Xerox Co., Ltd. Apparatus, method and storage medium storing program for recognizing characters
CN101447017A (zh) * 2008-11-27 2009-06-03 浙江工业大学 一种基于版面分析的选票快速识别统计方法及***
CN101493896A (zh) * 2008-01-24 2009-07-29 夏普株式会社 文档图像处理装置及文档图像处理方法
CN101770576A (zh) * 2008-12-31 2010-07-07 北京新岸线网络技术有限公司 字符提取方法和装置
CN102456136A (zh) * 2010-10-29 2012-05-16 方正国际软件(北京)有限公司 一种图文切分方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060078200A1 (en) * 2004-09-24 2006-04-13 Fuji Xerox Co., Ltd. Apparatus, method and storage medium storing program for recognizing characters
CN1604073A (zh) * 2004-11-22 2005-04-06 北京北大方正技术研究院有限公司 一种对报纸版面进行标题与正文逻辑关联的方法
CN101493896A (zh) * 2008-01-24 2009-07-29 夏普株式会社 文档图像处理装置及文档图像处理方法
CN101447017A (zh) * 2008-11-27 2009-06-03 浙江工业大学 一种基于版面分析的选票快速识别统计方法及***
CN101770576A (zh) * 2008-12-31 2010-07-07 北京新岸线网络技术有限公司 字符提取方法和装置
CN102456136A (zh) * 2010-10-29 2012-05-16 方正国际软件(北京)有限公司 一种图文切分方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘聚宁: "印刷体汉字识别***研究与实现", 《中国优秀硕士学位论文全文数据库》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951741A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN104143084A (zh) * 2014-07-17 2014-11-12 武汉理工大学 一种针对视力障碍人群的辅助阅读眼镜
CN105574530A (zh) * 2014-10-08 2016-05-11 富士通株式会社 提取文档中的文本行的方法和装置
CN105574530B (zh) * 2014-10-08 2019-11-22 富士通株式会社 提取文档中的文本行的方法和装置
CN105631393A (zh) * 2014-11-06 2016-06-01 阿里巴巴集团控股有限公司 信息识别方法及装置
US10346703B2 (en) 2014-11-06 2019-07-09 Alibaba Group Holding Limited Method and apparatus for information recognition
CN105678207A (zh) * 2014-11-19 2016-06-15 富士通株式会社 用于从给定图像中识别目标铭板图像的内容的装置和方法
CN106709489A (zh) * 2015-07-13 2017-05-24 腾讯科技(深圳)有限公司 一种字符识别的处理方法和装置
CN106709489B (zh) * 2015-07-13 2020-03-03 腾讯科技(深圳)有限公司 一种字符识别的处理方法和装置
CN108399405A (zh) * 2017-02-07 2018-08-14 腾讯科技(上海)有限公司 营业执照识别方法和装置
CN110291538A (zh) * 2017-02-16 2019-09-27 国际商业机器公司 过滤图像分类输出分布的图像识别
CN111630521A (zh) * 2018-02-28 2020-09-04 佳能欧洲股份有限公司 图像处理方法和图像处理***
CN109308476A (zh) * 2018-09-06 2019-02-05 邬国锐 票据信息处理方法、***及计算机可读存储介质
CN109308476B (zh) * 2018-09-06 2019-08-27 邬国锐 票据信息处理方法、***及计算机可读存储介质
CN109033798A (zh) * 2018-09-14 2018-12-18 北京金堤科技有限公司 一种基于语义的点选验证码识别方法及其装置
WO2020113561A1 (zh) * 2018-12-07 2020-06-11 华为技术有限公司 一种从图像中提取结构化数据的方法、装置和设备
US10467466B1 (en) 2019-05-17 2019-11-05 NextVPU (Shanghai) Co., Ltd. Layout analysis on image
CN109934210B (zh) * 2019-05-17 2019-08-09 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
CN109934210A (zh) * 2019-05-17 2019-06-25 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
WO2020233378A1 (zh) * 2019-05-17 2020-11-26 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
CN112183513A (zh) * 2019-07-03 2021-01-05 杭州海康威视数字技术股份有限公司 一种图像中文字的识别方法、装置、电子设备及存储介质
CN112183513B (zh) * 2019-07-03 2023-09-05 杭州海康威视数字技术股份有限公司 一种图像中文字的识别方法、装置、电子设备及存储介质
CN110490190A (zh) * 2019-07-04 2019-11-22 贝壳技术有限公司 一种结构化图像文字识别方法及***
CN110490190B (zh) * 2019-07-04 2021-10-26 贝壳技术有限公司 一种结构化图像文字识别方法及***
CN115004261A (zh) * 2020-01-17 2022-09-02 微软技术许可有限责任公司 文本行检测
CN111539412A (zh) * 2020-04-21 2020-08-14 上海云从企业发展有限公司 一种基于ocr的图像分析方法、***、设备及介质
CN111539412B (zh) * 2020-04-21 2021-02-26 上海云从企业发展有限公司 一种基于ocr的图像分析方法、***、设备及介质
CN112541496A (zh) * 2020-12-24 2021-03-23 北京百度网讯科技有限公司 提取poi名称的方法、装置、设备和计算机存储介质
CN112541496B (zh) * 2020-12-24 2023-08-22 北京百度网讯科技有限公司 提取poi名称的方法、装置、设备和计算机存储介质

Also Published As

Publication number Publication date
CN103577818B (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN103577818A (zh) 一种图像文字识别的方法和装置
Burie et al. ICDAR2015 competition on smartphone document capture and OCR (SmartDoc)
JP5095535B2 (ja) 画像処理方法、画像処理システム、画像処理装置及びプログラム
US9454714B1 (en) Sequence transcription with deep neural networks
EP1598770B1 (en) Low resolution optical character recognition for camera acquired documents
JP5181888B2 (ja) グラフィカルユーザインターフェースを生成する方法及びシステム
JP5181887B2 (ja) 電子書類を照合するシステム及び照合方法
CN107093172B (zh) 文字检测方法及***
JP5522408B2 (ja) パターン認識装置
CN108805076B (zh) 环境影响评估报告书表格文字的提取方法及***
CN101957919B (zh) 基于图像局部特征检索的文字识别方法
CN105184238A (zh) 一种人脸识别方法及***
CN103679147A (zh) 手机型号的识别方法与装置
CN106127222B (zh) 一种基于视觉的字符串相似度计算方法及相似性判断方法
CN104966051A (zh) 一种文档图像的版式识别方法
US20010033694A1 (en) Handwriting recognition by word separation into sillouette bar codes and other feature extraction
US20150055866A1 (en) Optical character recognition by iterative re-segmentation of text images using high-level cues
CN111488732A (zh) 一种变形关键词检测方法、***及相关设备
CN110210467A (zh) 一种文本图像的公式定位方法、图像处理装置、存储介质
CN109766893A (zh) 适于购物小票的图片文字识别方法
CN117496521A (zh) 一种表格关键信息抽取方法、***、装置及可读存储介质
JP6365117B2 (ja) 情報処理装置、画像判定方法、及びプログラム
JP2007060417A (ja) 図形認識方法
CN115050025A (zh) 基于公式识别的知识点抽取方法及装置
CN109800818A (zh) 一种图像语义自动标注及检索方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant