CN111291758B - 用于识别***文字的方法和装置 - Google Patents
用于识别***文字的方法和装置 Download PDFInfo
- Publication number
- CN111291758B CN111291758B CN202010097337.4A CN202010097337A CN111291758B CN 111291758 B CN111291758 B CN 111291758B CN 202010097337 A CN202010097337 A CN 202010097337A CN 111291758 B CN111291758 B CN 111291758B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- character
- seal
- skeleton
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本公开的实施例公开了用于识别***文字的方法和装置。该方法的一具体实施方式包括:获取带有***文字的图像;对图像进行二值化处理和图像分割处理,得到***的二值化图像;从二值化图像中提取文字轮廓图;从文字轮廓图中提取文字骨架图;分别对二值化图像、文字轮廓图、文字骨架图进行文字识别,得到三种识别结果;将三种识别结果进行融合,得到融合结果并输出。该实施方式能够极大地提高***文字识别的准确性以及效率。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于识别***文字的方法和装置。
背景技术
中国是一个历史悠久的多民族国家。各个民族拥有众多灿烂的民族文化,它们融合成独特而迷人的中国文化。作为文化的载体,文字和符号记录着每个民族独特的文化和历史。一直以来,民族文化研究专家没有离开对文字和符号的研究。但是,对文字符号的研究仅依靠口头交流,不利于文化的传播和传承。需要将这些古代文字符号记录下来。
***是一种与中国民族文化息息相关的艺术风格,也是一种将书画与雕刻结合展现的艺术。在许多文献和文物的遗产保护过程中,古人习惯于在古籍书画和其他文物上留下***,以表明其身份。这些文人的行为习惯为鉴定文物的真实性提供了重要的线索。随着文物数字化的不断深入,如何实现对这些***图像的开发和利用,从而推断出文物的年代和作者的年代已经成为了研究热点。文物数字化。实现对古***文字的数字识别和分析,将有利于古籍文物的研究和传承。
***中的字体多为篆体,或者其他古文字。目前针对印刷体的识别技术都不能够应用于***篆体的识别。这是因为***文字结构不固定,比划不清晰,更多的是象形文字。
目前***文字的录入还是以人工录入为主。工人经过仔细字画或者文物上面的文字,手工录入到数据库中。
人工查看和录入***信息的方法存在如下问题:
1、人工识别速度太慢,效率低下。有很多场景下,需要快速录入此类信息。
2、随着信息量的增加,工人识别工作量增加、精力下降,错误率也会随之大幅度增加。
3、人工录入存在大量的重复劳动,遇到相同文字,仍然需要重复录入。
4、由于历史发展过程中艺术家们对于***艺术样式的传承与发展,使得***中的文字的写法呈现多样性,这样的特点同时也增加了识别***文字的难度。
5、人工录入的准确性受限于录入人员的知识水平。对于一些生僻字,除了经验丰富的专家能够认识外,普通录入人员可能不认识。
发明内容
本公开的实施例提出了用于识别***文字的方法和装置。
第一方面,本公开的实施例提供了一种用于识别***文字的方法,包括:获取带有***文字的图像;对图像进行二值化处理和图像分割处理,得到***的二值化图像;从二值化图像中提取文字轮廓图;从文字轮廓图中提取文字骨架图;分别对二值化图像、文字轮廓图、文字骨架图进行文字识别,得到三种识别结果;将三种识别结果进行融合,得到融合结果并输出。
在一些实施例中,在对图像进行二值化处理之前,该方法还包括:对图像进行无损放大。
在一些实施例中,在进行图像分割处理之后,该方法还包括:对分割出***的二值化图像进行倾斜矫正。
在一些实施例中,从文字轮廓图中提取文字骨架图,包括:从文字目标***往文字目标中心不断腐蚀,直至腐蚀到不能再腐蚀为止,剩下单层像素宽度,得到初始文字骨架图;对初始文字骨架图进行修剪,去掉多余的骨架,得到文字骨架图。
在一些实施例中,分别对二值化图像、文字轮廓图、文字骨架图进行文字识别,得到三种识别结果,包括:分别对二值化图像、文字轮廓图、文字骨架图进行单字检测,得到二值化文字图像集、轮廓文字图像集、骨架文字图像集;利用卷积神经网络算法,对二值化文字图像集进行图像分类,获得每个二值化文字图像文字为预设字库中每个汉字的概率值;利用Inception-v4图像分类算法,对轮廓文字图像集进行图像分类,获得每个轮廓文字图像为预设字库中每个汉字的概率值;利用Inception-v4图像分类算法,对骨架文字图像集进行图像分类,获得每个骨架文字图像为预设字库中每个汉字的概率值。
在一些实施例中,单字检测采用CRAFT算法。
在一些实施例中,将三种识别结果进行融合,包括:将三种识别结果输入到预先训练的多元BP神经网络模型中,获得与***文字最相似的文字,以及其置信度。
在一些实施例中,该方法还包括:将融合结果进行人工复核,如果确认无误,将融合结果储存到数据库中,作为模型的训练数据。
第二方面,本公开的实施例提供了一种用于识别***文字的装置,包括:获取单元,被配置成获取带有***文字的图像;处理单元,被配置成对图像进行二值化处理和图像分割处理,得到***的二值化图像;轮廓提取单元,被配置成从二值化图像中提取文字轮廓图;骨架提取单元,被配置成从文字轮廓图中提取文字骨架图;识别单元,被配置成分别对二值化图像、文字轮廓图、文字骨架图进行文字识别,得到三种识别结果;融合单元,被配置成将三种识别结果进行融合,得到融合结果并输出。
在一些实施例中,该装置还包括放大单元,被配置成:在对图像进行二值化处理之前,对图像进行无损放大。
在一些实施例中,该装置还包括矫正单元,被配置成:在进行图像分割处理之后,对分割出***的二值化图像进行倾斜矫正。
在一些实施例中,骨架提取单元进一步被配置成:从文字目标***往文字目标中心不断腐蚀,直至腐蚀到不能再腐蚀为止,剩下单层像素宽度,得到初始文字骨架图;对初始文字骨架图进行修剪,去掉多余的骨架,得到文字骨架图。
在一些实施例中,识别单元进一步被配置成:分别对二值化图像、文字轮廓图、文字骨架图进行单字检测,得到二值化文字图像集、轮廓文字图像集、骨架文字图像集;利用卷积神经网络算法,对二值化文字图像集进行图像分类,获得每个二值化文字图像文字为预设字库中每个汉字的概率值;利用Inception-v4图像分类算法,对轮廓文字图像集进行图像分类,获得每个轮廓文字图像为预设字库中每个汉字的概率值;利用Inception-v4图像分类算法,对骨架文字图像集进行图像分类,获得每个骨架文字图像为预设字库中每个汉字的概率值。
在一些实施例中,单字检测采用CRAFT算法。
在一些实施例中,融合单元进一步被配置成:将三种识别结果输入到预先训练的多元BP神经网络模型中,获得与***文字最相似的文字,以及其置信度。
在一些实施例中,该装置还包括存储单元,被配置成:将融合结果进行人工复核,如果确认无误,将融合结果储存到数据库中,作为模型的训练数据。
第三方面,本公开的实施例提供了一种用于识别***文字的电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
本公开的实施例提供的用于识别***文字的方法和装置,利用图像二值化,文字骨架提取,文字骨架匹配,文字识别等技术,实现***文字的快速识别。整一个识别过程智能化进行,能够极大地提高信息识别的准确性以及效率。
本公开的优点在于其智能性,提高了整个信息识别的效率。而且能够形成稳定服务,具有较强的泛化能力。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性***架构图;
图2是根据本公开的用于识别***文字的方法的一个实施例的流程图;
图3是根据本公开的用于识别***文字的方法的一个应用场景的示意图;
图4是根据本公开的用于识别***文字的方法的又一个实施例的流程图;
图5是根据本公开的用于识别***文字的装置的一个实施例的结构示意图;
图6是适于用来实现本公开的实施例的电子设备的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的用于识别***文字的方法或用于识别***文字的装置的实施例的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如***识别类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有摄像头并且支持带有***文字的图像采集的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的***文字提供识别服务的后台识别服务器。后台识别服务器可以对接收到的带有***文字的图像等数据进行分析等处理,并将处理结果(例如识别出的文字)反馈给终端设备。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本公开的实施例所提供的用于识别***文字的方法一般由服务器105执行,相应地,用于识别***文字的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本公开的用于识别***文字的方法的一个实施例的流程200。该用于识别***文字的方法,包括以下步骤:
步骤201,获取带有***文字的图像。
在本实施例中,用于识别***文字的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行***文字识别的终端接收带有***文字的图像。该图像可以是单独的***图片,也可以是书画作品的图片。
步骤202,对图像进行二值化处理和图像分割处理,得到***的二值化图像。
在本实施例中,如果图像的分辨率不够,则需要先进行无损放大。图像的无损放大算法可采用SRCNN(Super-Resolution Convolutional Neural Network,超分辨卷积神经网络)算法。SRCNN算法流程如下:首先,输入需要处理的图像。将输入的低分辨率图像放大为目标尺寸。然后,将输入的比较模糊的图像,经过卷积网络的处理,得到超分辨率的图像,使它尽可能与原图的高分辨率图像相似。
将分辨率合格的图像进行二值化处理。图像的二值化能够将图片变成黑白图像,而且能够让图像中的文字更加的明显,这样有助于后续进行文字检测和文字识别。图像二值化可采用OPENCV。
利用实例分割算法完成实例分割,并获得***实例。图像分割处理主要是为了去除背景的干扰,比如画作上面的***。
可选地,如果由于拍摄角度的问题,得到的图像可能会有一定的倾斜。在这种情况下,需要进行图像分割矫正。图像分割矫正的步骤如下:
a.利用实例分割算法完成实例分割,并获得***实例。
b.利用目标检测来完成***外框检测。(如果没有外框,则检测文字)
c.利用***主体外框的四角坐标进行倾斜矫正。(如果不是矩形外框,则只能检测到***的位置,但是没有办法进行倾斜矫正)
实例分割即标注出图像中每个像素所属的对象类别,例如,是否属于***。在本发明中,图像分割应用的算法可采用Mask Scoring R-CNN。这种算法能够非常准确地将***主体分割出来。
目标检测可采用yolov3、Faster R-CNN和SSD等目标检测的算法。但是有一点需要注意,目前的目标检测模型一般仅支持水平框检测。而本发明的目标检测模型经过特定数据集的训练,能够检测得到倾斜的图像检测框。
图像矫正的方法为利用图像分割和目标检测得到的图像外框的四角坐标完成倾斜矫正。
步骤203,从二值化图像中提取文字轮廓图。
在本实施例中,由于***往往是篆刻的,类似图案,***文字识别难度要大于印刷体。提取文字的轮廓图有助于提高后续文字的检测和识别率。边缘提取可采用Candy算法。
步骤204,从文字轮廓图中提取文字骨架图。
在本实施例中,骨架是文字符号的形状特征,由一些细曲线或圆弧组成。这些曲线或弧线可以很好地保持文字符号原始形状的连通性,同时展示文字符号的拓扑属性。它是结构形状的重要表示,它可以将***文字简化为骨架图像。骨架提取,实际上是提取目标文字在图像上的中心像素轮廓。
提取文字的骨架能够简化图像的特征,也有利于后续深度学习中的特征提取,以及文字的识别。可采用opencv来实现文字骨架的提取。实现的方法是从文字目标***往文字目标中心不断腐蚀,直至腐蚀到不能再腐蚀为止,剩下单层像素宽度,此即为文字骨架。
文字骨架提取完后,需要对骨架进行修剪,去掉多余的骨架(一些骨架图的细枝末节,颜色浅而且线条短)。最终形成的文字骨架图能够更好地描述***文字的主要内容。
步骤205,分别对二值化图像、文字轮廓图、文字骨架图进行文字识别,得到三种识别结果。
在本实施例中,***通常是有多个文字的,因此还需要进行单字检测。将图像中的文字分割成一个一个汉字,为后续文字识别做准备。***文字不多,而且往往是签名。因此不需要像印刷体文本检测一样进行长文本的检测。它需要的是单个文字的检测。对于字符级的文字检测,目前效果比较好的算法为CRAFT算法。CRAFT算法实现单字检测的具体步骤如下:
1.利用CornerNet算法生成字符的2D高斯热力图。
2.利用分水岭算法分割2D高斯热力图,获得每个字符的坐标。
其中,分水岭算法是一种图像区域分割方法。在分割过程中,将相邻像素之间的相似性作为重要的参考依据,以将空间位置和灰度值相似的像素连接起来,形成闭合轮廓。
单字检测后输出图像中每个文字的坐标信息,用于后续的文字识别。
文字识别要是利用神经网络来完成单个文字的识别。输入包括三部分:1.二值化后的图像2.文字的骨架图3.文字的轮廓图。输出为***文字对应的汉字。文字识别算法可采用卷积神经网络CNN算法以及图像分类算法Inception-v4。inception-v4的准确性更高。不过速度慢一些。
例如:
利用卷积神经网络算法,对二值化文字图像集进行图像分类,获得每个二值化文字图像文字为预设字库中每个汉字的概率值;
利用Inception-v4图像分类算法,对轮廓文字图像集进行图像分类,获得每个轮廓文字图像为预设字库中每个汉字的概率值;
利用Inception-v4图像分类算法,对骨架文字图像集进行图像分类,获得每个骨架文字图像为预设字库中每个汉字的概率值。
预设字库,可以是例如新华字典收录的11200个汉字(包括简体和繁体字),字库中每个字作为分类的类别。通过神经网络算法确定出待识别的***文字属于字库中每个字的概率。
步骤206,将三种识别结果进行融合,得到融合结果并输出。
在本实施例中,可将三种识别结果的加权和作为融合结果,加权和最大的字即为最终结果。可选地,可根据单字识别时的位置确定识别出的至少一个字的排序。因为***通常是从右往左、从上到下书写的,因此需要按***书写顺序整理识别结果。可将识别结果保存在字库中,作为神经网络训练的训练样本。
继续参见图3,图3是根据本实施例的用于识别***文字的方法的应用场景的一个示意图。在图3的应用场景中,用户首先通过终端设备的摄像头获取带有***文字的图像。将该图像发送给服务器。服务器对图像进行二值化处理和图像分割处理,得到***的二值化图像;从二值化图像中提取文字轮廓图;从文字轮廓图中提取文字骨架图。然后再分别对三种图进行单字检测。从每种图中检测出4个文字。对于每种图的4个文字,分别通过神经网络进行识别,得到该文字属于字库中每个文字的概率。概率最高的为最相似文字。对于同一***文字,三个图会得到三种概率结果。然后该三种概率结果融合,得到最终结果。最终识别出***文字为“百年经典”。还可将繁体字转成简体输出。
本公开的上述实施例提供的方法具备以下优点:
1、信息识别智能化,能够节省人力成本,减少识别误差。
2、能够自动保存识别结果,减少重复性工作,保存的结果能够成为各个模型的训练样本。因此本发明随着使用的时间和频率的增加,其准确性也会慢慢地提高。
3、本公开包含了文字骨架图,能够极大地提高文字识别的准确性。
4、能够一天24小时不停工作,可持续运行。
进一步参考图4,其示出了用于识别***文字的方法的又一个实施例的流程400。该用于识别***文字的方法的流程400,包括以下步骤:
步骤401,获取带有***文字的图像。
步骤402,对图像进行二值化处理和图像分割处理,得到***的二值化图像。
步骤403,从二值化图像中提取文字轮廓图。
步骤404,从文字轮廓图中提取文字骨架图。
步骤405,分别对二值化图像、文字轮廓图、文字骨架图进行文字识别,得到三种识别结果。
步骤401-405与步骤201-205基本相同,因此不再赘述。
步骤406,将三种识别结果输入到预先训练的多元BP神经网络模型中,获得与***文字最相似的文字,以及其置信度。
在本实施例中,将得到的对应到三种类型的每个汉字的概率值输入到多元BP(back propagation,后向传播)神经网络模型中,获得与识别文字最为相似的文字,以及其置信度。此多元BP神经网络模型是利用已有数据训练获得的模型。
本公开识别的文字仅仅为预定字库,例如新华字典收录的11200个汉字(包括简体和繁体字)。对于特殊文字的识别,可以通过人机交进行数据标注,生成对应的数据样本集,然后利用标注结果进行训练。
步骤407,将***文字最相似的文字进行人工复核,如果确认无误,将***文字最相似的文字储存到数据库中,作为模型的训练数据。
在本实施例中,该方法还可提供用于信息的交互的信息交互模块。提供信息交互模块给信息录入人员,进行识别内容的修改。信息交互模块能够同时展示多个图像的骨架图、轮廓图和识别结果,信息录入人员可以同时对多个结果进行确认,修改和调整。修改完后,识别结果会保存到数据库。
抽样查看大部分结果后,如果信息录入人员觉得整体识别结果准确性比较高,不需要修改,可以点击批量确认。
交互模块包含数据标注平台,用户可以通过人工标注生成训练样本集,对本申请所涉及的卷积神经网络、inception-v4、多元BP神经网络模型进行训练。训练完成后,卷积神经网络、inception-v4、多元BP神经网络模型就能够识别用户需要的特殊文字。
数据库中包含了大量的各种各样的***文字以及词库。信息录入人员可以随时查看一下生僻字体的小篆、大篆、草书、行书等字体。利用数据库,信息录入人员可以提高自身知识水平。在识别结果确认过程中,信息录入人员也可以利用数据库进行结果的复核。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于识别***文字的方法的流程400体现了利用多元BP神经网络模型进行识别结果融合的步骤。由此,本实施例描述的方案可以进一步提高识别准确率。此外,本实施例还包含数据标注平台,允许客户标注自己的数据集,并进行训练。具有可扩展性。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种用于识别***文字的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于识别***文字的装置500包括:获取单元501、处理单元502、轮廓提取单元503、骨架提取单元504、识别单元505和融合单元506。其中,获取单元501,被配置成获取带有***文字的图像;处理单元502,被配置成对图像进行二值化处理和图像分割处理,得到***的二值化图像;轮廓提取单元503,被配置成从二值化图像中提取文字轮廓图;骨架提取单元504,被配置成从文字轮廓图中提取文字骨架图;识别单元505,被配置成分别对二值化图像、文字轮廓图、文字骨架图进行文字识别,得到三种识别结果;融合单元506,被配置成将三种识别结果进行融合,得到融合结果并输出。
在本实施例中,用于识别***文字的装置500的获取单元501、处理单元502、轮廓提取单元503、骨架提取单元504、识别单元505和融合单元506的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204、步骤205和步骤206。
在本实施例的一些可选的实现方式中,装置500还包括放大单元(附图中未示出),被配置成:在对图像进行二值化处理之前,对图像进行无损放大。
在本实施例的一些可选的实现方式中,装置500还包括矫正单元(附图中未示出),被配置成:在进行图像分割处理之后,对分割出***的二值化图像进行倾斜矫正。
在本实施例的一些可选的实现方式中,骨架提取单元504进一步被配置成:从文字目标***往文字目标中心不断腐蚀,直至腐蚀到不能再腐蚀为止,剩下单层像素宽度,得到初始文字骨架图;对初始文字骨架图进行修剪,去掉多余的骨架,得到文字骨架图。
在本实施例的一些可选的实现方式中,识别单元505进一步被配置成:分别对二值化图像、文字轮廓图、文字骨架图进行单字检测,得到二值化文字图像集、轮廓文字图像集、骨架文字图像集;利用卷积神经网络算法,对二值化文字图像集进行图像分类,获得每个二值化文字图像文字为预设字库中每个汉字的概率值;利用Inception-v4图像分类算法,对轮廓文字图像集进行图像分类,获得每个轮廓文字图像为预设字库中每个汉字的概率值;利用Inception-v4图像分类算法,对骨架文字图像集进行图像分类,获得每个骨架文字图像为预设字库中每个汉字的概率值。
在本实施例的一些可选的实现方式中,单字检测采用CRAFT算法。
在本实施例的一些可选的实现方式中,融合单元506进一步被配置成:将三种识别结果输入到预先训练的多元BP神经网络模型中,获得与***文字最相似的文字,以及其置信度。
在本实施例的一些可选的实现方式中,装置500还包括存储单元(附图中未示出),被配置成:将融合结果进行人工复核,如果确认无误,将融合结果储存到数据库中,作为模型的训练数据。
下面参考图6,其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器或终端设备)600的结构示意图。本公开的实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的终端设备/服务器仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取带有***文字的图像;对图像进行二值化处理和图像分割处理,得到***的二值化图像;从二值化图像中提取文字轮廓图;从文字轮廓图中提取文字骨架图;分别对二值化图像、文字轮廓图、文字骨架图进行文字识别,得到三种识别结果;将三种识别结果进行融合,得到融合结果并输出。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、处理单元、轮廓提取单元、骨架提取单元、识别单元和融合单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取带有***文字的图像的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (16)
1.一种用于识别***文字的方法,包括:
获取带有***文字的图像;
对所述图像进行二值化处理和图像分割处理,得到***的二值化图像;
从所述二值化图像中提取文字轮廓图;
从所述文字轮廓图中提取文字骨架图;
分别对所述二值化图像、所述文字轮廓图、所述文字骨架图进行文字识别,得到三种识别结果;
将所述三种识别结果进行融合,得到融合结果并输出;
其中,所述图像分割处理包括:
利用图像分割算法将***主体分割出来;
利用目标检测模型来完成***外框检测,其中,所述目标检测模型经过特定数据集的训练,能够检测得到倾斜的图像检测框;
利用***外框的四角坐标进行倾斜矫正。
2.根据权利要求1所述的方法,其中,在对所述图像进行二值化处理之前,所述方法还包括:
对所述图像进行无损放大。
3.根据权利要求1所述的方法,其中,所述从所述文字轮廓图中提取文字骨架图,包括:
从文字目标***往文字目标中心不断腐蚀,直至腐蚀到不能再腐蚀为止,剩下单层像素宽度,得到初始文字骨架图;
对所述初始文字骨架图进行修剪,去掉多余的骨架,得到文字骨架图。
4.根据权利要求1所述的方法,其中,所述分别对所述二值化图像、所述文字轮廓图、所述文字骨架图进行文字识别,得到三种识别结果,包括:
分别对所述二值化图像、所述文字轮廓图、所述文字骨架图进行单字检测,得到二值化文字图像集、轮廓文字图像集、骨架文字图像集;
利用卷积神经网络算法,对所述二值化文字图像集进行图像分类,获得每个二值化文字图像文字为预设字库中每个汉字的概率值;
利用Inception-v4图像分类算法,对所述轮廓文字图像集进行图像分类,获得每个轮廓文字图像为所述预设字库中每个汉字的概率值;
利用Inception-v4图像分类算法,对所述骨架文字图像集进行图像分类,获得每个骨架文字图像为所述预设字库中每个汉字的概率值。
5.根据权利要求4所述的方法,其中,所述单字检测采用CRAFT算法。
6.根据权利要求1-5之一所述的方法,其中,所述将所述三种识别结果进行融合,包括:
将所述三种识别结果输入到预先训练的多元BP神经网络模型中,获得与所述***文字最相似的文字,以及其置信度。
7.根据权利要求6所述的方法,其中,所述方法还包括:
将所述融合结果进行人工复核,如果确认无误,将所述融合结果储存到数据库中,作为模型的训练数据。
8.一种用于识别***文字的装置,包括:
获取单元,被配置成获取带有***文字的图像;
处理单元,被配置成对所述图像进行二值化处理和图像分割处理,得到***的二值化图像;
轮廓提取单元,被配置成从所述二值化图像中提取文字轮廓图;
骨架提取单元,被配置成从所述文字轮廓图中提取文字骨架图;
识别单元,被配置成分别对所述二值化图像、所述文字轮廓图、所述文字骨架图进行文字识别,得到三种识别结果;
融合单元,被配置成将所述三种识别结果进行融合,得到融合结果并输出;
其中,所述图像分割处理包括:
利用图像分割算法将***主体分割出来;
利用目标检测模型来完成***外框检测,其中,所述目标检测模型经过特定数据集的训练,能够检测得到倾斜的图像检测框;
利用***外框的四角坐标进行倾斜矫正。
9.根据权利要求8所述的装置,其中,所述装置还包括放大单元,被配置成:
在对所述图像进行二值化处理之前,对所述图像进行无损放大。
10.根据权利要求8所述的装置,其中,所述骨架提取单元进一步被配置成:
从文字目标***往文字目标中心不断腐蚀,直至腐蚀到不能再腐蚀为止,剩下单层像素宽度,得到初始文字骨架图;
对所述初始文字骨架图进行修剪,去掉多余的骨架,得到文字骨架图。
11.根据权利要求8所述的装置,其中,所述识别单元进一步被配置成:
分别对所述二值化图像、所述文字轮廓图、所述文字骨架图进行单字检测,得到二值化文字图像集、轮廓文字图像集、骨架文字图像集;
利用卷积神经网络算法,对所述二值化文字图像集进行图像分类,获得每个二值化文字图像文字为预设字库中每个汉字的概率值;
利用Inception-v4图像分类算法,对所述轮廓文字图像集进行图像分类,获得每个轮廓文字图像为所述预设字库中每个汉字的概率值;
利用Inception-v4图像分类算法,对所述骨架文字图像集进行图像分类,获得每个骨架文字图像为所述预设字库中每个汉字的概率值。
12.根据权利要求11所述的装置,其中,所述单字检测采用CRAFT算法。
13.根据权利要求8-12之一所述的装置,其中,所述融合单元进一步被配置成:
将所述三种识别结果输入到预先训练的多元BP神经网络模型中,获得与所述***文字最相似的文字,以及其置信度。
14.根据权利要求13所述的装置,其中,所述装置还包括存储单元,被配置成:
将所述融合结果进行人工复核,如果确认无误,将所述融合结果储存到数据库中,作为模型的训练数据。
15.一种用于识别***文字的电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097337.4A CN111291758B (zh) | 2020-02-17 | 2020-02-17 | 用于识别***文字的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097337.4A CN111291758B (zh) | 2020-02-17 | 2020-02-17 | 用于识别***文字的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291758A CN111291758A (zh) | 2020-06-16 |
CN111291758B true CN111291758B (zh) | 2023-08-04 |
Family
ID=71026492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010097337.4A Active CN111291758B (zh) | 2020-02-17 | 2020-02-17 | 用于识别***文字的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291758B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967469B (zh) * | 2020-08-13 | 2023-12-15 | 上海明略人工智能(集团)有限公司 | 一种畸形文本矫正方法、***及文字识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600707A (zh) * | 2018-06-19 | 2018-09-28 | 华为技术有限公司 | 一种监控方法、识别方法、相关装置及*** |
EP3477635A1 (en) * | 2017-10-26 | 2019-05-01 | Harman International Industries, Incorporated | System and method for natural language processing |
CN110443250A (zh) * | 2019-07-31 | 2019-11-12 | 天津车之家数据信息技术有限公司 | 一种合同***的类别识别方法、装置和计算设备 |
CN110738219A (zh) * | 2019-10-15 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 图像中线条提取方法和装置、存储介质及电子装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779276B (zh) * | 2011-05-09 | 2015-05-20 | 汉王科技股份有限公司 | 文本图像识别方法和装置 |
JP6055297B2 (ja) * | 2012-12-07 | 2016-12-27 | 株式会社日立情報通信エンジニアリング | 文字認識装置及び方法、文字認識プログラム |
CN108446704A (zh) * | 2018-03-29 | 2018-08-24 | 哈尔滨理工大学 | 一种粘连字符验证码分割与识别方法 |
CN108710882A (zh) * | 2018-05-11 | 2018-10-26 | 武汉科技大学 | 一种基于卷积神经网络的屏幕渲染文本识别方法 |
CN109102037B (zh) * | 2018-06-04 | 2024-03-05 | 平安科技(深圳)有限公司 | 中文模型训练、中文图像识别方法、装置、设备及介质 |
CN110738201B (zh) * | 2019-04-25 | 2024-04-19 | 上海海事大学 | 基于融合形态特征的自适应多卷积神经网络文字识别方法 |
CN110472625B (zh) * | 2019-08-05 | 2022-12-20 | 浙江大学 | 一种基于傅里叶描述子的象棋棋子视觉识别方法 |
-
2020
- 2020-02-17 CN CN202010097337.4A patent/CN111291758B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3477635A1 (en) * | 2017-10-26 | 2019-05-01 | Harman International Industries, Incorporated | System and method for natural language processing |
CN108600707A (zh) * | 2018-06-19 | 2018-09-28 | 华为技术有限公司 | 一种监控方法、识别方法、相关装置及*** |
CN110443250A (zh) * | 2019-07-31 | 2019-11-12 | 天津车之家数据信息技术有限公司 | 一种合同***的类别识别方法、装置和计算设备 |
CN110738219A (zh) * | 2019-10-15 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 图像中线条提取方法和装置、存储介质及电子装置 |
Non-Patent Citations (3)
Title |
---|
Tapan Kumar Bhowmik 等.SVM-based hierarchical architectures for handwritten Bangla character recognition.《International Journal on Document Analysis and Recognition (IJDAR)》.2009,第12卷97-108. * |
Zhike Zhang 等.Video Text Extraction Using The Fusion of Color Gradient and Log-Gabor Filter.《2014 22nd International Conference on Pattern Recognition》.2014,2938-2943. * |
岳建杰 等.基于K-means 的图像文字识别与提取研究.《应用科技》.2015,第42卷(第2期),18-20. * |
Also Published As
Publication number | Publication date |
---|---|
CN111291758A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11657602B2 (en) | Font identification from imagery | |
CN109308681B (zh) | 图像处理方法和装置 | |
CN108073910B (zh) | 用于生成人脸特征的方法和装置 | |
CN110084172B (zh) | 文字识别方法、装置和电子设备 | |
CN110874618B (zh) | 基于小样本的ocr模板学习方法、装置、电子设备及介质 | |
KR102002024B1 (ko) | 객체 라벨링 처리 방법 및 객체 관리 서버 | |
CN115457531A (zh) | 用于识别文本的方法和装置 | |
CN113705554A (zh) | 图像识别模型的训练方法、装置、设备及存储介质 | |
CN113569840A (zh) | 基于自注意力机制的表单识别方法、装置及存储介质 | |
CN112749695A (zh) | 文本识别的方法和装置 | |
CN112686243A (zh) | 智能识别图片文字的方法、装置、计算机设备及存储介质 | |
CN110866900A (zh) | 水体颜色识别方法及装置 | |
CN111209856B (zh) | ***信息的识别方法、装置、电子设备及存储介质 | |
CN112818852A (zh) | ***校验方法、装置、设备及存储介质 | |
CN113255501A (zh) | 生成表格识别模型的方法、设备、介质及程序产品 | |
CN113436222A (zh) | 图像处理方法、图像处理装置、电子设备及存储介质 | |
CN113850060A (zh) | 民航文档数据识别录入方法及*** | |
CN114937270A (zh) | 古籍文字处理方法、装置及计算机可读存储介质 | |
CN112651399B (zh) | 检测倾斜图像中同行文字的方法及其相关设备 | |
CN111291758B (zh) | 用于识别***文字的方法和装置 | |
CN110070042A (zh) | 文字识别方法、装置和电子设备 | |
CN112396060A (zh) | 基于身份证分割模型的身份证识别方法及其相关设备 | |
CN112015936B (zh) | 用于生成物品展示图的方法、装置、电子设备和介质 | |
CN115019321A (zh) | 一种文本识别、模型训练方法、装置、设备及存储介质 | |
CN114387600A (zh) | 文本特征识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |