CN105184289B - 字符识别方法和装置 - Google Patents
字符识别方法和装置 Download PDFInfo
- Publication number
- CN105184289B CN105184289B CN201510651869.7A CN201510651869A CN105184289B CN 105184289 B CN105184289 B CN 105184289B CN 201510651869 A CN201510651869 A CN 201510651869A CN 105184289 B CN105184289 B CN 105184289B
- Authority
- CN
- China
- Prior art keywords
- character
- connected component
- picture
- image block
- character picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/23—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on positionally close patterns or neighbourhood relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了字符识别方法和装置。所述方法的一具体实施方式包括:接收字符图像,所述字符图像包括排列成行的至少一个字符;合并所述字符图像中的至少一个连通成分,得到至少一个图像块区域;识别各所述图像块区域的字符串,并根据各所述图像块区域所在的位置及所识别出的字符串,得到各所述字符串中的各字符在所述字符图像中的位置以及各字符的识别置信度;根据各字符在所述字符图像中的位置和识别置信度,通过预设的搜索算法得到所述字符图像的字符,并将所述字符图像的字符进行输出。该实施方式实现了高精度的字符识别。
Description
技术领域
本申请涉及计算机技术领域,具体涉及终端技术领域,尤其涉及字符识别方法和装置。
背景技术
随着智能手机、数码相机、扫描仪等电子产品的普及,越来越多的信息以图像的形式进行展示。光学字符识别(Optical Character Recognition,OCR)技术用于将图像中的字符转换为文本格式,用户只需输入一张包含字符的图像,OCR技术就可以自动识别出图像中的字符。由于OCR技术可以减少或替换繁琐的文字输入,因此具有重要意义。
然而,在实际应用场景中,由于图像在成像过程中会受拍摄角度、光照、字体等因素的影响,因此,现有的OCR技术识别图像中字符的识别精度不高。
发明内容
本申请的目的在于提出一种字符识别方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种字符识别方法,所述方法包括:接收字符图像,所述字符图像包括排列成行的至少一个字符;合并所述字符图像中的至少一个连通成分,得到至少一个图像块区域;识别各所述图像块区域的字符串,并根据各所述图像块区域所在的位置及所识别出的字符串,得到各所述字符串中的各字符在所述字符图像中的位置以及各字符的识别置信度;根据各字符在所述字符图像中的位置和识别置信度,通过预设的搜索算法得到所述字符图像的字符,并将所述字符图像的字符进行输出。
在一些实施例中,所述合并所述字符图像中的至少一个连通成分,得到至少一个图像块区域,包括:提取所述字符图像中的至少一个连通成分;将设定数量的相邻的连通成分合并,得到至少一个图像块区域。
在一些实施例中,所述合并所述字符图像中的至少一个连通成分,得到至少一个图像块区域,包括:提取所述字符图像中的至少一个连通成分;从左至右遍历各连通成分,并以左边为起始,计算当前连通成分与相邻连通成分合并后的总连通成分所在区域的位置;计算当前连通成分的顶部与总连通成分的顶部之间的顶部距离,计算与当前连通成分相邻的连通成分的顶部与总连通成分的顶部之间的顶部距离;计算当前连通成分的底部与总连通成分的底部之间的底部距离,计算与当前连通成分相邻的连通成分的底部与总连通成分的底部之间的底部距离;选取顶部距离和底部距离中的最大值;判断上述最大值是否小于设定的阈值,如果小于,则以总连通成分为新连通成分,并继续检查所述新连通成分是否进行合并;如果不小于,则以当前连通成分为新连通成分;最终得到至少一个新连通成分,新连通成分即为图像块区域。
在一些实施例中,所述提取所述字符图像中的至少一个连通成分,包括:将所述字符图像进行二值化处理,得到所述字符图像的二值化图像;基于连通成分分析算法提取所述二值化图像的至少一个连通成分;去除所述至少一个连通成分中尺寸小于设定尺寸的连通成分;去除所述至少一个连通成分中位于所述字符图像的顶部和底部设定区域内的连通成分;合并竖直方向上相邻的连通成分。
在一些实施例中,所述识别各所述图像块区域的字符串,并根据各所述图像块区域所在的位置及所识别出来的字符串,得到各所述字符串中的各字符在所述字符图像中的位置以及各字符识别置信度,包括:利用训练得到的递归神经网络模型计算所述至少一个图像块区域中的每一图像块区域的字符串输出,以及所述字符串中的各字符在所述字符图像中的位置以及各字符识别置信度,其中,所述字符串中的各字符在所述字符图像中的位置以及各字符识别置信度由所述递归神经网络模型根据所述各字符在所述字符串中的位置及该图像块区域的位置计算得到。
在一些实施例中,所述根据各字符在所述字符图像中的位置和识别置信度,通过预设的搜索算法得到所述字符图像的整行字符,并将所述整行字符进行输出,包括:将所有图像块区域中的各字符按照在所述字符图像中的位置进行排序;根据语言模型以及各字符的识别置信度和在所述字符图像中的位置,通过束搜索算法得到所述字符图像的整行文字输出。
第二方面,本申请提供了一种网字符识别装置,所述装置包括:接收单元,配置用于接收字符图像,所述字符图像包括排列成行的至少一个字符;合并单元,配置用于合并所述字符图像中的至少一个连通成分,得到至少一个图像块区域;识别单元,配置用于识别各所述图像块区域的字符串,并根据各所述图像块区域所在的位置及所识别出的字符串,得到各所述字符串中的各字符在所述字符图像中的位置以及各字符的识别置信度;输出单元,配置用于根据各字符在所述字符图像中的位置和识别置信度,通过预设的搜索算法得到所述字符图像的字符,并将所述字符图像的字符进行输出。
在一些实施例中,所述合并单元进一步配置用于:提取所述字符图像中的至少一个连通成分;将设定数量的相邻的连通成分合并,得到至少一个图像块区域。
在一些实施例中,所述合并单元进一步配置用于:提取所述字符图像中的至少一个连通成分;从左至右遍历各连通成分,并以左边为起始,计算当前连通成分与相邻连通成分合并后的总连通成分所在区域的位置;计算当前连通成分的顶部与总连通成分的顶部之间的顶部距离,计算与当前连通成分相邻的连通成分的顶部与总连通成分的顶部之间的顶部距离;计算当前连通成分的底部与总连通成分的底部之间的底部距离,计算与当前连通成分相邻的连通成分的底部与总连通成分的底部之间的底部距离;选取顶部距离和底部距离中的最大值;判断上述最大值是否小于设定的阈值,如果小于,则以总连通成分为新连通成分,并继续检查所述新连通成分是否进行合并;如果不小于,则以当前连通成分为新连通成分;最终得到至少一个新连通成分,新连通成分即为图像块区域。
在一些实施例中,所述合并单元进一步配置用于:将所述字符图像进行二值化处理,得到所述字符图像的二值化图像;基于连通成分分析算法提取所述二值化图像的至少一个连通成分;去除所述至少一个连通成分中尺寸小于设定尺寸的连通成分;去除所述至少一个连通成分中位于所述字符图像的顶部和底部设定区域内的连通成分;合并竖直方向上相邻的连通成分。
在一些实施例中,所述识别单元进一步配置用于:利用训练得到的递归神经网络模型计算所述至少一个图像块区域中的每一图像块区域的字符串输出,以及所述字符串中的各字符在所述字符图像中的位置以及各字符识别置信度,其中,所述字符串中的各字符在所述字符图像中的位置以及各字符识别置信度由所述递归神经网络模型根据所述各字符在所述字符串中的位置及该图像块区域的位置计算得到。
在一些实施例中,所述输出单元进一步配置用于:将所有图像块区域中的各字符按照在所述字符图像中的位置进行排序;根据语言模型以及各字符的识别置信度和在所述字符图像中的位置,通过束搜索算法得到所述字符图像的整行文字输出。
本申请提供的字符识别方法和装置,通过将从字符图像中提取的连通成分合并为至少一个图像块区域,而后识别各图像块区域的字符串,以及字符串中的各字符在字符图像中的位置和识别置信度,最后根据设定的搜索算法得到字符图像的字符,从而提高了字符识别算法的识别精度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的字符识别方法的一个实施例的流程图;
图3是根据本申请的字符识别方法的一个应用场景的示意图;
图4是根据本申请的字符装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的字符识别方法或字符识别装置的实施例的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如电子书阅读类应用、文字编辑类应用、扫描类应用等。
终端设备101、102、103可以是具有显示屏并且支持图像输入和字符输出的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的字符提供支持的后台服务器。后台服务器可以接收终端设备101、102、103发送的字符图像,并识别字符图像中的字符,并将识别结果反馈给终端设备。
需要说明的是,本申请实施例所提供的字符识别方法可以由终端设备101、102、103单独执行,或者也可以由终端设备101、102、103和服务器105共同执行。相应地,字符识别装置可以设置于终端设备101、102、103中,也可以将字符识别装置的部分单元设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的字符识别方法的一个实施例的流程200。所述的字符识别方法,包括以下步骤:
步骤201,接收字符图像,上述字符图像包括排列成行的至少一个字符。
在本实施例中,字符识别方法运行于其上的电子设备(例如图1所示的终端设备101、102、103或服务器105)可以通过有线连接方式或者无线连接方式从外部或自身的成像设备中接收字符图像,通常情况下,当接收的字符图像为彩色图像时,可以先将接收到的彩色图像转化为灰度图像,再进行后续的处理。其中,上述字符图像包括排列成行的至少一个字符。上述字符可以是各国家文字、数字、标点符号、图形符号等。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤202,合并字符图像中的至少一个连通成分,得到至少一个图像块区域。
在本实施例中,合并步骤201接收到的字符图像中的至少一个连通成分,得到至少一个图像块区域,其中,上述连通成分可以为字符图像中具有相似灰度值且位置相邻的前景像素点组成的图像区域,而前景像素指上述字符图像中字符笔画的颜色像素。在这里,为了避免字符图像中的信息丢失,在得到多个图像块区域的情况下,将相邻的图像块区域重叠一个连通成分。例如,从某字符图像中提取出10个连通成分:C1,C2,C3,C4,C5,C6,C7,C8,C9,C10,将这些连通成分合并后,得到图像块区域{C1,C2,C3},{C3,C4,C5,C6},{C6,C7,C8},{C8,C9,C10},其中图像块区域{C1,C2,C3}与相邻的图像块区域{C3,C4,C5,C6}之间重叠一个连通成分C3,图像块区域{C3,C4,C5,C6}与相邻的图像块区域{C6,C7,C8}之间重叠一个连通成分C6,图像块区域{C6,C7,C8}与相邻的图像块区域{C8,C9,C10}之间重叠一个连通成分C8。
在本实施例的一些可选的实现方式中,合并上述字符图像中的至少一个连通成分,可以先提取上述字符图像中的至少一个连通成分,然后,将设定数量的相邻的连通成分合并,从而得到至少一个图像块区域。
在本实施例的一些可选的实现方式中,合并上述字符图像中的至少一个连通成分,可以先提取上述字符图像中的至少一个连通成分,然后,从左至右遍历提取的各连通成分,并以左边为起始,计算当前连通成分与相邻连通成分合并后的总连通成分所在区域的位置。计算当前连通成分的顶部与总连通成分的顶部之间的顶部距离,计算与当前连通成分相邻的连通成分的顶部与总连通成分的顶部之间的顶部距离。计算当前连通成分的底部与总连通成分的底部之间的底部距离,计算与当前连通成分相邻的连通成分的底部与总连通成分的底部之间的底部距离。选取顶部距离和底部距离中的最大值。判断上述最大值是否小于设定的阈值,如果小于,则以合并后的总连通成分为新连通成分,并继续重复上述步骤来检查上述新连通成分是否进行合并;如果不小于,则以当前连通成分为新连通成分;最终得到至少一个新连通成分,新连通成分即为图像块区域。例如,首先,从左至右遍历提取的各连通成分,假设第i个连通成分为CCi[xi0,yi0,xi1,yi1],其中,xi0、yi0、xi1、yi1分别表示第i个连通成分的最小横坐标、最小纵坐标、最大横坐标、最大纵坐标。与它相邻的第i+1个连通成分为CCi+1[xi+1,0,yi+1,0,xi+1,1,yi+1,1],其中,xi+1,0、yi+1,0、xi+1,1、yi+1,1分别表示第i+1个连通成分的最小横坐标、最小纵坐标、最大横坐标、最大纵坐标。将连通成分CCi[xi0,yi0,xi1,yi1]和连通成分CCi+1[xi+1,0,yi+1,0,xi+1,1,yi+1,1]合并后的总连通成分为CCMerge[xM0,yM0,xM1,yM1],其中,xM0、yM0、xM1、yM1分别表示总连通成分的最小横坐标、最小纵坐标、最大横坐标、最大纵坐标。
其次,计算连通成分为CCi的顶部及底部与总连通成分CCMerge的顶部及底部之间的距离分别为disti,0,disti,1;同理,连通成分为CCi+1的顶部及底部与总连通成分CCMerge的顶部及底部之间的距离分别为disti+1,0,disti+1,1;分别计算顶部距离及底部距离的最大值:
distmax,0=max(disti,0,disti+1,0)
distmax,1=max(disti,1,disti+1,1)
最后,若distmax,0(或distmax,1)低于设定的阈值,则将合并后连通成分CCMerge作为新的连通成分,按照上述步骤来检查CCMerge与其相邻连通成分之间能否进行合并;若distmax,0(或distmax,1)超过设定的阈值,则不能将连通成分CCi与CCi+1合并在一起,此时CCi作为一个图像块区域。对连通成分CCi+1重复上述步骤来检查其与相邻连通成分能否进行合并。
在本实施例的一些可选的实现方式中,提取字符图像中的至少一个连通成分,可以先将上述字符图像采用二值化算法进行处理,得到上述字符图像的二值化图像,其中,上述二值化算法可以为全局二值化算法或局部二值化算法。然后,采用连通成分分析方法提取上述二值化图像的至少一个连通成分。去除上述至少一个连通成分中尺寸小于设定尺寸的连通成分,去除上述至少一个连通成分中位于字符图像的顶部和底部设定区域内的连通成分。最后,合并竖直方向上相邻的连通成分。
步骤203,识别各图像块区域的字符串,并根据各图像块区域所在的位置及所识别出的字符串,得到各字符串中的各字符在字符图像中的位置以及各字符的识别置信度。
在本实施例中,每一个图像块区域中至少包括一个连通成分,可以利用各种用于字符识别的模型对每一个图像块区域进行识别,识别出各图像块区域的字符串,并根据各图像块区域所在的位置及所识别出来的字符串,得到上述字符串中的各字符在上述字符图像中的位置以及各字符的识别置信度,其中,上述识别置信度是由上述用于字符识别的模型计算得到的,表示一个字符属于某个字符的概率,两个字符的识别置信度越高相同的概率越大,例如,识别的一个字符属于汉字“我”的识别置信度为0.999,属于汉字“你”的识别置信度为0.001,则说明该字符属于汉字“我”的概率非常高。
在本实施例的一些可选的实现方式中,利用训练得到的递归神经网络模型计算上述至少一个图像块区域中的每一图像块区域的字符串输出,以及该字符串中的各字符在上述字符图像中的位置以及各字符识别置信度,其中,上述字符串中的各字符在所述字符图像中的位置以及各字符识别置信度是由上述递归神经网络模型根据上述各字符在上述字符串中的位置及该图像块区域的位置计算得到的。
步骤204,根据各字符在字符图像中的位置和识别置信度,通过预设的搜索算法得到字符图像的字符,并将字符图像的字符进行输出。
在本实施例中,根据步骤203中得出的各字符在上述字符图像中的位置和识别置信度,通过搜索算法在相应的语言模型中进行搜索,最终得到上述字符图像的整行字符输出结果,并将上述整行字符进行输出。其中,搜索算法是有目的的穷举一个问题解空间的部分或所有的可能情况,从而求出问题的解的一种方法。本实施例中,搜索算法可以采用贪心算法、动态规划等。
在本实施例的一些可选的实现方式中,将所有图像块区域中的各字符按照在上述字符图像中的位置进行排序;根据语言模型以及各字符的识别置信度和在上述字符图像中的位置,并通过束搜索算法得到上述字符图像的整行文字输出,其中,束搜索算法是一种启发式搜索算法。
继续参见图3,图3是根据本实施例的字符识别方法的应用场景的一个示意图。在图3的应用场景中,用户首先向终端设备发送一张带有字符的字符图像;之后,该终端设备可以合并该字符图像中字符行的至少一个连通成分,得到至少一个图像块区域;然后,该终端设备识别各个图像块区域的字符串,以及各个字符串中各字符在该字符图像中的位置以及各字符的识别置信度;最后,根据各字符在该字符图像中的位置以及识别置信度,通过预设的搜索算法在相应的语言模型中进行搜索,将最终得到的该字符图像的字符进行输出,就会如图3所示,输出从该字符图像中识别的字符。
本申请的上述实施例提供的方法通过将字符图像划分为至少一个图像块区域进行处理,实现了字符图像的高精度识别。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种字符识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例所述的字符识别装置400包括:接收单元401、合并单元402、识别单元403和输出单元404。其中,接收单元401,配置用于接收字符图像,所述字符图像包括排列成行的至少一个字符;合并单元402,配置用于合并所述字符图像中的至少一个连通成分,得到至少一个图像块区域;识别单元403,配置用于识别各所述图像块区域的字符串,并根据各所述图像块区域所在的位置及所识别出来的字符串,得到各所述字符串中的各字符在所述字符图像中的位置以及各字符的识别置信度;输出单元404,配置用于根据各字符在所述字符图像中的位置和识别置信度,通过预设的搜索算法得到所述字符图像的字符,并将所述字符图像的字符进行输出。
在本实施例中,字符识别装置400的接收单元401可以通过有线连接方式或者无线连接方式从外部或自身的成像设备中接收字符图像,上述字符图像包括排列成行的至少一个字符。
在本实施例中,基于接收单元401得到的字符图像,上述合并单元402可以合并上述字符图像中的至少一个连通成分,从而得到至少一个图像块区域。
在本实施例中,上述识别单元403对上述合并单元402得到的每一个图像块区域进行识别,识别出该图像块区域的字符串,并根据该图像块区域所在的位置及所识别出来的字符串,得到该字符串中的各字符在所述字符图像中的位置以及各字符的识别置信度。
在本实施例中,上述输出单元404可以根据上述识别单元403得到的各字符在字符图像中的位置和识别置信度,通过预设的搜索算法得到上述字符图像的整行字符输出结果,并将上述整行字符进行输出。
本领域技术人员可以理解,上述字符识别装置400还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图4中未示出。
下面参考图5,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机***500的结构示意图。
如图5所示,计算机***500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括接收单元、合并单元、识别单元和输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,接收单元还可以被描述为“接收字符图像的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:接收字符图像,所述字符图像包括排列成行的至少一个字符;合并所述字符图像中的至少一个连通成分,得到至少一个图像块区域;识别各所述图像块区域的字符串,并根据各所述图像块区域所在的位置及所识别出来的字符串,得到各所述字符串中的各字符在所述字符图像中的位置以及各字符的识别置信度;根据各字符在所述字符图像中的位置和识别置信度,通过预设的搜索算法得到所述字符图像的字符,并将所述字符图像的字符进行输出。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种字符识别方法,其特征在于,所述方法包括:
接收字符图像,所述字符图像包括排列成行的至少一个字符;
合并所述字符图像中的至少一个连通成分,得到至少一个图像块区域;
识别各所述图像块区域的字符串,并根据各所述图像块区域所在的位置及所识别出的字符串,得到各所述字符串中的各字符在所述字符图像中的位置以及各字符的识别置信度;
根据各字符在所述字符图像中的位置和识别置信度,通过预设的搜索算法得到所述字符图像的字符,并将所述字符图像的字符进行输出;以及
所述根据各字符在所述字符图像中的位置和识别置信度,通过预设的搜索算法得到所述字符图像的整行字符,并将所述整行字符进行输出,包括:
将所有图像块区域中的各字符按照在所述字符图像中的位置进行排序;
根据语言模型以及各字符的识别置信度和在所述字符图像中的位置,通过束搜索算法得到所述字符图像的整行文字输出。
2.根据权利要求1所述的方法,其特征在于,所述合并所述字符图像中的至少一个连通成分,得到至少一个图像块区域,包括:
提取所述字符图像中的至少一个连通成分;
将设定数量的相邻的连通成分合并,得到至少一个图像块区域。
3.根据权利要求1所述的方法,其特征在于,所述合并所述字符图像中的至少一个连通成分,得到至少一个图像块区域,包括:
提取所述字符图像中的至少一个连通成分;
从左至右遍历各连通成分,并以左边为起始,计算当前连通成分与相邻连通成分合并后的总连通成分所在区域的位置;
计算当前连通成分的顶部与总连通成分的顶部之间的顶部距离,计算与当前连通成分相邻的连通成分的顶部与总连通成分的顶部之间的顶部距离;
计算当前连通成分的底部与总连通成分的底部之间的底部距离,计算与当前连通成分相邻的连通成分的底部与总连通成分的底部之间的底部距离;
选取顶部距离和底部距离中的最大值;
判断上述最大值是否小于设定的阈值,如果小于,则以总连通成分为新连通成分,并继续检查所述新连通成分是否进行合并;如果不小于,则以当前连通成分为新连通成分;
最终得到至少一个新连通成分,新连通成分即为图像块区域。
4.根据权利要求2或3所述的方法,其特征在于,所述提取所述字符图像中的至少一个连通成分,包括:
将所述字符图像进行二值化处理,得到所述字符图像的二值化图像;
基于连通成分分析算法提取所述二值化图像的至少一个连通成分;
去除所述至少一个连通成分中尺寸小于设定尺寸的连通成分;
去除所述至少一个连通成分中位于所述字符图像的顶部和底部设定区域内的连通成分;
合并竖直方向上相邻的连通成分。
5.根据权利要求1所述的方法,其特征在于,所述识别各所述图像块区域的字符串,并根据各所述图像块区域所在的位置及所识别出的字符串,得到各所述字符串中的各字符在所述字符图像中的位置以及各字符识别置信度,包括:
利用训练得到的递归神经网络模型计算所述至少一个图像块区域中的每一图像块区域的字符串输出,以及所述字符串中的各字符在所述字符图像中的位置以及各字符识别置信度,其中,所述字符串中的各字符在所述字符图像中的位置以及各字符识别置信度由所述递归神经网络模型根据所述各字符在所述字符串中的位置及该图像块区域的位置计算得到。
6.一种字符识别装置,其特征在于,所述装置包括:
接收单元,配置用于接收字符图像,所述字符图像包括排列成行的至少一个字符;
合并单元,配置用于合并所述字符图像中的至少一个连通成分,得到至少一个图像块区域;
识别单元,配置用于识别各所述图像块区域的字符串,并根据各所述图像块区域所在的位置及所识别出的字符串,得到各所述字符串中的各字符在所述字符图像中的位置以及各字符的识别置信度;
输出单元,配置用于根据各字符在所述字符图像中的位置和识别置信度,通过预设的搜索算法得到所述字符图像的字符,并将所述字符图像的字符进行输出;以及
所述输出单元进一步配置用于:
将所有图像块区域中的各字符按照在所述字符图像中的位置进行排序;
根据语言模型以及各字符的识别置信度和在所述字符图像中的位置,通过束搜索算法得到所述字符图像的整行文字输出。
7.根据权利要求6所述的装置,其特征在于,所述合并单元进一步配置用于:
提取所述字符图像中的至少一个连通成分;
将设定数量的相邻的连通成分合并,得到至少一个图像块区域。
8.根据权利要求6所述的装置,其特征在于,所述合并单元进一步配置用于:
提取所述字符图像中的至少一个连通成分;
从左至右遍历各连通成分,并以左边为起始,计算当前连通成分与相邻连通成分合并后的总连通成分所在区域的位置;
计算当前连通成分的顶部与总连通成分的顶部之间的顶部距离,计算与当前连通成分相邻的连通成分的顶部与总连通成分的顶部之间的顶部距离;
计算当前连通成分的底部与总连通成分的底部之间的底部距离,计算与当前连通成分相邻的连通成分的底部与总连通成分的底部之间的底部距离;
选取顶部距离和底部距离中的最大值;
判断上述最大值是否小于设定的阈值,如果小于,则以总连通成分为新连通成分,并继续检查所述新连通成分是否进行合并;如果不小于,则以当前连通成分为新连通成分;
最终得到至少一个新连通成分,新连通成分即为图像块区域。
9.根据权利要求7或8所述的装置,其特征在于,所述合并单元进一步配置用于:
将所述字符图像进行二值化处理,得到所述字符图像的二值化图像;
基于连通成分分析算法提取所述二值化图像的至少一个连通成分;
去除所述至少一个连通成分中尺寸小于设定尺寸的连通成分;
去除所述至少一个连通成分中位于所述字符图像的顶部和底部设定区域内的连通成分;
合并竖直方向上相邻的连通成分。
10.根据权利要求6所述的装置,其特征在于,所述识别单元进一步配置用于:
利用训练得到的递归神经网络模型计算所述至少一个图像块区域中的每一图像块区域的字符串输出,以及所述字符串中的各字符在所述字符图像中的位置以及各字符识别置信度,其中,所述字符串中的各字符在所述字符图像中的位置以及各字符识别置信度由所述递归神经网络模型根据所述各字符在所述字符串中的位置及该图像块区域的位置计算得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510651869.7A CN105184289B (zh) | 2015-10-10 | 2015-10-10 | 字符识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510651869.7A CN105184289B (zh) | 2015-10-10 | 2015-10-10 | 字符识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105184289A CN105184289A (zh) | 2015-12-23 |
CN105184289B true CN105184289B (zh) | 2019-06-28 |
Family
ID=54906355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510651869.7A Active CN105184289B (zh) | 2015-10-10 | 2015-10-10 | 字符识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105184289B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106940799B (zh) * | 2016-01-05 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本图像处理方法和装置 |
CN107016387B (zh) * | 2016-01-28 | 2020-02-28 | 苏宁云计算有限公司 | 一种识别标签的方法及装置 |
US10437929B2 (en) | 2016-03-31 | 2019-10-08 | Maluuba Inc. | Method and system for processing an input query using a forward and a backward neural network specific to unigrams |
CN107305630B (zh) * | 2016-04-25 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 文本序列识别方法和装置 |
CN107679074B (zh) * | 2017-08-25 | 2021-05-04 | 百度在线网络技术(北京)有限公司 | 一种图片生成方法与设备 |
CN108304842A (zh) * | 2018-02-01 | 2018-07-20 | 重庆中陆承大科技有限公司 | 水表读数识别方法、装置及电子设备 |
CN109919154B (zh) * | 2019-02-28 | 2020-10-13 | 北京科技大学 | 一种字符智能识别方法及识别装置 |
CN111783695B (zh) * | 2020-07-06 | 2022-06-07 | 北京易真学思教育科技有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN113343981A (zh) * | 2021-06-16 | 2021-09-03 | 北京百度网讯科技有限公司 | 一种视觉特征增强的字符识别方法、装置和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101615251A (zh) * | 2008-06-24 | 2009-12-30 | 三星电子株式会社 | 字符识别设备中用于识别字符的方法和设备 |
CN102024139A (zh) * | 2009-09-18 | 2011-04-20 | 富士通株式会社 | 字符串识别装置和方法 |
CN102063619A (zh) * | 2010-11-30 | 2011-05-18 | 汉王科技股份有限公司 | 文字行提取方法和装置 |
CN102930262A (zh) * | 2012-09-19 | 2013-02-13 | 北京百度网讯科技有限公司 | 一种从图像中提取文字行的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4661921B2 (ja) * | 2008-08-26 | 2011-03-30 | 富士ゼロックス株式会社 | 文書処理装置およびプログラム |
-
2015
- 2015-10-10 CN CN201510651869.7A patent/CN105184289B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101615251A (zh) * | 2008-06-24 | 2009-12-30 | 三星电子株式会社 | 字符识别设备中用于识别字符的方法和设备 |
CN102024139A (zh) * | 2009-09-18 | 2011-04-20 | 富士通株式会社 | 字符串识别装置和方法 |
CN102063619A (zh) * | 2010-11-30 | 2011-05-18 | 汉王科技股份有限公司 | 文字行提取方法和装置 |
CN102930262A (zh) * | 2012-09-19 | 2013-02-13 | 北京百度网讯科技有限公司 | 一种从图像中提取文字行的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105184289A (zh) | 2015-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105184289B (zh) | 字符识别方法和装置 | |
US10867171B1 (en) | Systems and methods for machine learning based content extraction from document images | |
US11537873B2 (en) | Processing method and system for convolutional neural network, and storage medium | |
US10127441B2 (en) | Systems and methods for classifying objects in digital images captured using mobile devices | |
US10282643B2 (en) | Method and apparatus for obtaining semantic label of digital image | |
CN107016387B (zh) | 一种识别标签的方法及装置 | |
CN109934181A (zh) | 文本识别方法、装置、设备和计算机可读介质 | |
CN103608823B (zh) | 用于从图像确定文本信息的并行处理方法和设备 | |
CN108830780A (zh) | 图像处理方法及装置、电子设备、存储介质 | |
CN105260428A (zh) | 图片处理方法和装置 | |
US20240161449A1 (en) | Apparatus and methods for converting lineless talbes into lined tables using generative adversarial networks | |
CN108304562B (zh) | 一种搜题方法、搜题装置及智能终端 | |
CN109389096A (zh) | 检测方法和装置 | |
CN108491825A (zh) | 信息生成方法和装置 | |
CN107622504A (zh) | 用于处理图片的方法和装置 | |
CN106354885A (zh) | 搜索方法和装置 | |
CN106326895A (zh) | 图像处理装置和图像处理方法 | |
CN109993749A (zh) | 提取目标图像的方法和装置 | |
CN108288064A (zh) | 用于生成图片的方法和装置 | |
CN114972847A (zh) | 图像处理方法及装置 | |
CN112836692A (zh) | 用于处理图像的方法、装置、设备和介质 | |
CN204537126U (zh) | 一种图像文本识别翻译眼镜 | |
US10963690B2 (en) | Method for identifying main picture in web page | |
CN112990212A (zh) | 热成像温度图的读数方法、装置、电子设备和存储介质 | |
CN115188000A (zh) | 基于ocr的文本识别方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |