CN110188755A - 一种图像识别的方法、装置和计算机可读存储介质 - Google Patents

一种图像识别的方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN110188755A
CN110188755A CN201910464140.7A CN201910464140A CN110188755A CN 110188755 A CN110188755 A CN 110188755A CN 201910464140 A CN201910464140 A CN 201910464140A CN 110188755 A CN110188755 A CN 110188755A
Authority
CN
China
Prior art keywords
key feature
input picture
matching
text information
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910464140.7A
Other languages
English (en)
Other versions
CN110188755B (zh
Inventor
钦夏孟
陈露露
韩钧宇
朱胜贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910464140.7A priority Critical patent/CN110188755B/zh
Publication of CN110188755A publication Critical patent/CN110188755A/zh
Application granted granted Critical
Publication of CN110188755B publication Critical patent/CN110188755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Input (AREA)

Abstract

本发明实施例提出一种图像识别的方法、装置和计算机可读存储介质,其中方法包括对输入图像进行文本识别,得到所述输入图像的文字信息及其位置;将所述输入图像的文字信息及其位置与预设的结构化模板中的关键特征进行匹配,得到各匹配对;基于各所述匹配对的位置关系,将所述输入图像的文字信息的位置调整为与所述结构化模板相同;从调整后的图像中提取所述文字信息。根据该变换矩阵将输入图像上的文字信息转换成与结构化模板一样的方向和大小,可以解决方向、旋转的问题。

Description

一种图像识别的方法、装置和计算机可读存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及一种图像识别的方法、装置和计算机可读存储介质。
背景技术
解决基于图像识别的信息结构化的问题主要依靠版式分析,需要高度的定制化,且无法扩展。以图像为身份证识别为例,需要提取姓名、性别、出生日期、住址等关键字段;在获取到文字行的位置和内容后,从中搜索关键词的字符串,根据设定好的位置信息进行字段内容的提取。比如姓名的内容必然在右边,其他字段也如此,这样便可获取所有所需字段的内容。传统的技术方案问题较多,例如:
对于版式规范、字段较少的票证,传统的方案可以解决,但对于版式较复杂、字段较多的票证垂类,传统的技术方案会非常复杂。
传统的技术方案对于输入图像的方向要求非常严格,若有倾斜或者旋转,则搜索到的关键字段内容都会是错误的。
定制化程度过高,对于新增的票证垂类需要重新实现结构化的策略,严重影响了大规模票证垂类信息结构化的速度和效率。
发明内容
本发明实施例提供一种图像识别的方法、装置和计算机可读存储介质,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种图像识别方法,包括:
对输入图像进行文本识别,得到所述输入图像的文字信息及其位置;
将所述输入图像的文字信息及其位置与预设的结构化模板中的关键特征进行匹配,得到各匹配对;
基于各所述匹配对的位置关系,将所述输入图像的文字信息的位置调整为与所述结构化模板相同;
从调整后的图像中提取所述文字信息。
在一种实施方式中,所述文字信息包括关键特征和文字内容;
将所述输入图像的文字信息及其位置与预设的结构化模板中的关键特征进行匹配,得到各匹配对,包括:
检测所述输入图像的关键特征与所述结构化模板的关键特征是否匹配;
在匹配不唯一的情况下,比较各匹配对中关键特征的位置,以确定所述输入图像的关键特征与所述结构化模板的关键特征的唯一对应关系。
在一种实施方式中,所述结构化模板还包括分别与各关键特征对应的内容项;
基于各所述匹配对的位置关系,将所述输入图像的文字信息的位置调整为与所述结构化模板相同,包括:
在一个所述匹配对中,如果输入图像的关键特征对应文字内容的位置与所述结构化模板的关键特征对应内容项的位置不同,则将所述文字内容的位置调整为所述内容项的位置。
在一种实施方式中,还包括:
在一个所述匹配对中,获取结构化模板的关键特征对应的内容项的位置;
获取输入图像的关键特征对应的文字内容中各字符的位置;
判断所述各字符的位置与所述内容项的位置的重合区域是否超过阈值;
若超过阈值,提取该字符。
在一种实施方式中,还包括:
确定所述各匹配对中关键特征所包含的各字符中心点的位置。
在一种实施方式中,还包括:
将所述输入图像分为至少四个区域,分别在各区域中选择至少一个匹配对。
第二方面,本发明实施例提供了一种图像识别的装置,包括:
输入图像信息获取模块,用于对输入图像进行文本识别,得到所述输入图像的文字信息及其位置;
匹配模块,用于将所述输入图像的文字信息及其位置与预设的结构化模板中的关键特征进行匹配,得到各匹配对;
信息位置调整模块,用于基于各所述匹配对的位置关系,将所述输入图像的文字信息的位置调整为与所述结构化模板相同;
文字信息提取模块,用于从调整后的图像中提取所述文字信息。
在一种实施方式中,所述文字信息包括关键特征和文字内容;
所述匹配模块包括:
比对模块,用于检测所述输入图像的关键特征与所述结构化模板的关键特征是否匹配;
唯一性约束模块,用于在匹配不唯一的情况下,比较各匹配对中关键特征的位置,以确定所述输入图像的关键特征与所述结构化模板的关键特征的唯一对应关系。
在一种实施方式中,所述结构化模板还包括分别与各关键特征对应的内容项;
所述文字信息提取模块包括:
结构化模板内容项位置获取模块,用于在一个所述匹配对中,获取结构化模板的关键特征对应的内容项的位置;
输入图像字符位置获取模块,用于获取输入图像的关键特征对应的文字内容中各字符的位置;
字符提取模块,用于判断所述各字符的位置与所述内容项的位置的重合区域是否超过阈值,若超过阈值,提取该字符。
在一种实施方式中,还包括:
字符中心点的位置确定模块,确定所述各匹配对中关键特征所包含的各字符中心点的位置。
在一种实施方式中,还包括:
匹配对选择模块,用于将所述输入图像分为至少四个区域,分别在各区域中选择至少一个匹配对。
第三方面,本发明实施例提供了一种图像识别的装置,所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述装置的结构中包括处理器和存储器,所述存储器用于存储支持所述装置执行上述图像识别的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述装置还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储图像识别的装置所用的计算机软件指令,其包括用于执行上述图像识别的方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:将扫描出的输入图像上的全部文字进行比对处理。并且无需关注输入图像的文字方向,在与结构化模板进行匹配后计算射影变化矩阵,根据该变换矩阵将输入图像上的文字信息转换成与结构化模板一样的方向和大小,可以解决方向、旋转的问题。由此,即使有较复杂的版式,如上下、左右、偏移等,都可以准确的获取所需字段的内容,结构化结果准确率更高,流程更为简洁。
对于版式相对固定的垂类,例如输入图像为“广东增值税专用***”,而结构化模板为“北京增值税专用***”,实际上两类***属于相同垂类,因此在识别时便无需再为“广东增值税专用***”重新设计结构化模板。又例如,输入图像为新版增值税***,而结构化模板为新版增值税***,则仅需要在原垂类模板的基础上针对发生变化的关键特征进行重新定义即可,工作量相对较小,新增的成本只需要1~2天。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的图像识别的方法流程图。
图2示出根据本发明实施例一种图像识别的方法流程图。
图3示出根据本发明实施例另一种图像识别的方法流程图。
图4示出根据本发明实施例再一种图像识别的方法流程图。
图5示出根据本发明实施例提取文字信息的原理示意图。
图6示出根据本发明实施例作为结构化模板的增值税***图。
图7示出根据本发明实施例将作为结构化模板的增值税***进行区域划分的示意图。
图8示出根据本发明实施例的图像识别的装置结构框图。
图9示出根据本发明实施例的图像识别的装置结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本发明实施例的图像识别的方法流程图,该方法包括以下步骤:
S101:对输入图像进行文本识别,得到所述输入图像的文字信息及其位置。
在一个示例中,输入图像包括身份证、工作证、银行卡、增值税***、名片等各种类型的证照或票据。证照或票据上通常具有一些格式化的文字信息。例如,身份证上通常具有姓名、身份证号、有效期等。增值税***通常具有购买方信息、销售方信息、开票日期、货物信息等。
采用光学字符识别技术(OCR,Optical Character Recognition),识别出图像中的所有文字信息及其对应的文字位置。所述文字位置可以以单个字符或一组字符所在的位置表示。以图像为增值税***为例,所述一组字符包括“名称”、“纳税人识别号”、“地址、电话”、“开户行及账号”等表示同一含义的文字字符,采用该组字符所在的信息文本框的一组对角坐标表示该组字符的文字位置。
更进一步的,还可根据单字的检测计算每个文字字符的中心点位置,作为各字符的位置。
输入图像中的文字信息可以包括关键特征(Landmark)和文字内容。以增值税***为例,在输入图像中固定位置的固定信息称为关键特征,输入图像中的关键特征用于在后续步骤中与结构化模板的关键特征进行匹配。在输入图像中可变的文字部分,称为文字内容。输入图像中的关键特征可以具有对应的文字内容。例如每张增值税***上与关键特征“名称”所对应的文字内容为“XXX公司”,与关键特征“纳税人识别号”所对应的文字内容为15位数字或字母的组合等。
以输入图像为某银行的银联储蓄卡为例,正面中间位置的“某银行”,正面右下角位置的“UnionPay银联”等为每张卡片上固定位置的固定信息,其作为该储蓄卡的关键特征。这些关键特征没有对应的文字内容。而该储蓄卡中也有一些关键特征具有对应的文字内容。例如,与关键特征“***”对应的文字内容为一串数字,与关键特征“用户姓名”对应的为一串字符。
S102:将所述输入图像的文字信息及其位置与预设的结构化模板中的关键特征进行匹配,得到各匹配对。
本实施例中,以在固定位置具有固定信息的模板称为结构化模板。在所述结构化模板中,在固定位置的固定信息称之为关键特征(Landmark),关键特征可能具有对应的内容项。以增值税***为例,与输入图像类似,在增值税***模板的左上包括的关键特征为“名称”、“纳税人识别号”、“地址、电话”、“开户行及账号”。这几个关键特征分别具有对应的内容项。这些内容项可以没有具体的文字内容,而具有尺寸、位置、与关键特征的关系等基本属性。,例如关键特征“名称”所对应的内容项为购买方的具体名称,“纳税人识别号”所对应的15位数字或字母的组合等。由于内容项的文字数量、行数或各行长度不一,因此该内容项的部分可以设置一个区域。
对于结构化模板,关键特征的选取可以遵循两个原则:(1)属于固定位置的固定信息;(2)遍布结构化模板上的各个区域。
逐行遍历步骤S101中获取到的输入图像的所有文字信息,与结构化模板的关键特征进行比较,判断是否匹配成功。以增值税***为例,输入图像上的“名称”、“纳税人识别号”、“地址、电话”、“开户行及账号”等关键特征,与结构化模板上的“名称”、“纳税人识别号”、“地址、电话”、“开户行及账号”一一匹配,组成匹配对。而输入图像的文字信息的文字内容和结构化模板中的内容项则无法匹配。每个匹配对中可包括输入图像的一个关键特征及其对应的文本内容,以及结构化模板的一个关键特征及其对应的内容项。
其中,结构化模板中关键特征数量设置为M,匹配成功的数量位置为Q,则Q/M为匹配成功的比例。可选的,可设置一比例阈值,若匹配成功的比例高于该比例阈值,则输入图像与结构化模板匹配成功。
本步骤匹配的目的包括:确保输入图像属于结构化模板所属的相同垂类,比如结构化模板为增值税***,输入图像为身份证,则无法识别;建立输入的输入图像与结构化模板之间的所有匹配对。前述相同垂类指的是同一类型但存在细微差别的证照票据。以增值税***为例,其名称可能为“广东增值税专用***”、“北京增值税专用***”等等,则二者属于相同垂类。
S103:基于各所述匹配对的位置关系,将所述输入图像的文字信息的位置调整为与所述结构化模板相同。
输入图像的文字内容可能出现上下偏移、左右偏移或者角度偏移等情况。例如,增值税***的关键特征是预先统一印制的,但是与关键特征对应的文字内容是每个销售方开票时打印上去的。如果开票时,***放置位置不合适,可能出现文字内容的偏移。由于上述偏移,会对于文字的结构化造成很大干扰。
基于此种情况,在得到匹配对后,可以直接用随机抽样一致算法(RANSAC,RandomSample Consensus)计算输入图像与结构化模板之间的射影变换矩阵。即将当前输入图像的文字信息映射至结构化模板上,由于匹配对(关键特征)是相互一一对应的,而匹配对中关键特征所对应的输入图像上的文字内容和结构化模板上的内容项有可能出现偏差,由此,便可基于上述关键特征的一一对应的位置对输入图像中出现偏差的文字内容进行方向和/或角度上的调整,最终转换为与结构化模板上的文字项相同的位置。所述随机抽样一致算法后文简称RANSAC算法。
所述RANSAC算法包括:随机在两幅图中选择几个对应相同的点(例如4个),用一个函数拟合这几个点,统计这个拟合函数的误差率。当误差率小于一个值的时候停止迭代。
S104:从调整后的图像中提取所述文字信息。
对于调整位置后的输入图像的文字信息,直接提取即可确定输入图像的文字信息。
如图2所示,在一些实施例中,将所述输入图像的文字信息及其位置与预设的结构化模板中的关键特征进行匹配,得到各匹配对的具体包括:
S201:检测所述输入图像的关键特征与所述结构化模板的关键特征是否匹配,若匹配则进入步骤S202,否则匹配失败。
逐行遍历步骤S101中获取到的当输入图像的文字信息,并在结构化模板中查找是否出现相同的文字信息。
S202:判断匹配是否唯一,若唯一则建立唯一对应关系,若不唯一则进入步骤S203。
在一些情况下,可能出现相同关键特征同时出现在结构化模板的不同位置。例如增值税***中的“名称”、“纳税人识别号”、“地址、电话”、“开户行及账号”等信息,会分别对应出现在购买方和销售方的不同位置,便会造成匹配不唯一。
S203:在匹配不唯一的情况下,比较各匹配对中关键特征的位置,以确定所述输入图像的关键特征与所述结构化模板的关键特征的唯一对应关系。
采用位置对同时出现在不同位置的关键特征约束,以保证唯一匹配。例如利用关键特征及其对应的文本内容的位置,锁定增值税***中购买方的“名称”与结构化模板中购买方的“名称”。
由于OCR识别在不同的场景、光照、模糊等情况下获取的单字位置会有较大的差异,因此如图3所示,在一些实施例中,为了优化S103的调整效果,还包括以下步骤之一:
S301:确定所述各匹配对中关键特征所包含的各字符中心点的位置。
在步骤S101中,还包括了获取输入图像文字信息中每个字符的中心点位置。在步骤S102将所述输入图像的文字信息及其位置与结构化模板中的关键特征进行匹配,并在所得到的匹配对中增加所述每个字符的中心点位置。例如,在步骤S103中RANSAC算法的射影变换矩阵中增加每个字符的中心点位置作为计算参数,从而可以提高调整精度。
S302:将所述输入图像分为至少四个区域,分别在各区域中选择至少一个匹配对。
将所述输入图像分为至少四个区域。选取分别处于不同所述位置区域的匹配对进行射影变换。区域划分后,选择匹配对的时候必须确保每个区域一个,若某个区域没有匹配对,则随机选择一个。若一个匹配对同时被划分至不同区域,则用就近原则选择。由此在进行匹配的时候,可以满足对整个输入图像的匹配,保证匹配的覆盖性,从而提高匹配精度。不难理解,区域划分的越多,覆盖范围约广。
上述步骤S301和302可以顺序执行、倒序执行、任一执行等等,在此不进行限定。
如图4所示,在一些实施例中,步骤S104中提取所述文字信息包括:
S401:在一个所述匹配对中,获取结构化模板的关键特征对应的内容项的位置。
S402:获取输入图像的关键特征对应的文字内容中各字符的位置。
此步骤包括遍历输入图像中所识别出来的所有文字信息,进而逐行遍历所有文字信息中的各个字符,最终获取到文字信息的关键特征对应的文字信息中各字符的位置。
S403:判断所述各字符的位置与所述内容项的位置的重合区域是否超过阈值,若超过则进入步骤S404,否则不进行字符提取。
如图5所示,基于交并比(IOU,Intersection Over Union)原理计算,区域S1表示结构化模板的关键特征对应的内容项所在的位置,区域S2表示当前输入图像中文字信息的关键特征对应的文字内容中任一字符所在的位置,本步骤判断区域S1与区域S2交集的并集的占比,并与阈值进行判断。
S404:若超过阈值,提取该字符。
在一些实施例中,为了提高输出信息的正确率,还包括:对提取出的所述文字信息进行检测,以进行纠错。
检测包括对提取出的所述文字信息中所包含的日期、金额、姓名、数字、汉字等等,例如可以预存不同纳税人的名称和纳税人识别号,基于识别出的信息与预存信息进行比较,从而进行纠错,包括数字的位数和数字的正确性等。又或者,还包括针对特殊字段,比如药名,会构建专有的药名库,可以对识别结果做进一步的矫正。
以下以对增值税***为例进行图像识别的方法的说明。用T表示增值税***的结构化模板,I表示用户的输入图像,即增值税***图像。如图6所示,选取一张清晰、正向的增值税***作为结构化模板,选取用于结构化模板匹配的特征信息以及与其对应的内容项。例如,L={l1,l2…lM},l表示关键特征,M表示关键特征的个数。每个关键特征包括两个元素,字符和该字符的位置,表示为其中i∈[1,M],N表示第i个关键特征中字符的个数;表示第i个关键特征中的第N个字符;表示该字符的位置。
把所有内容项都设定为可选,以供用户选择。在后续操作中,用户可以全部选择提取内容,也可以根据自己的需求任一选择。例如,内容项为EI,表示为EI={B1,B2,…,Bj,…,BJ},j∈[1,J]……(1)。其中,Bj表示第j个内容项的框(bounding box),用左上角和右下角(或右上角和左下角)的坐标表示,即 x、y分别表示横、纵坐标;t、b分别表示左上角和右下角(或右上角和左下角);j表示第j个内容项。
对于用户输入的输入图像I,在步骤S101中识别图像中的所有文字信息以及其位置。识别结果记为R={T1,T2…TK},其中Tk为一行文字,k∈[1,K],K表示图像中所有的文字行。与结构化模板的关键特征类似,一行文字可以用所有字符及其位置表示,定义为
式中N表示第k行中字符的个数,表示第k行的第N个字符、表示该字符的位置。
设定结构化模板T中的关键特征为参考,首先从识别结果R中,逐行遍历,找到相同的文字行,记为匹配线ML(Matched Lines),
相同的关键特征可能会有重复,比如图6中纳税人识别号会出现两次,所以增加相对位置的约束,选取真正固定的关键特征。定义距离计算为欧氏距离,在ML中进一步计算相对位置,确保ML是真正一对一的匹配对,最终的ML表示为
其中,Q表示匹配对的个数,q表示第q个匹配对。
如图7所示,将输入图像分为五个区域,选择匹配对的时候确保匹配对不落在同一个区域。如果一个匹配对中的关键特征同时落在多个区域则用就近原则选择,或者用关键特征在不同区域的占比选择。区域划分后,选择匹配对的时候可以从每个区域选择一个,若某个区域没有匹配对,则随机选择一个。确保选择5个匹配对进行射影矩阵的计算。
通过上面计算得到的射影矩阵将输入图像上的文字信息变换到与结构化模板映射的位置上,记为R′={T1′,T2′…TK′}。基于RANSAC方法,基于输入图像上与结构化模板上一一对应的关键特征位置对出现偏差的文字内容进行方向和/或角度上的调整,最终输入图像的文字内容将转换为与结构化模板相同的位置。
针对文字内容的取值,基于IOU(Intersection Over Union)计算,大于一定阈值的字符则纳入需要提取的字段中。算法流程如下:
在一个所述匹配对中,基于公式(1)遍历标准化模板上的所有内容项,基于公式(2)遍历输入图像上识别出来的所有文字内容,并逐行遍历文字内容中的所有字符。计算所述各字符的位置与所述内容项的位置的重合区域是否超过阈值,如果超过阈值,则将该字符加入到所需提取的字段中。
基于本实施例的图像识别方法,将扫描出的输入图像上的全部文字进行比对处理。并且无需关注输入图像的文字方向,在与结构化模板进行匹配后计算射影变化矩阵,根据该变换矩阵将输入图像上的文字信息转换成与结构化模板一样的方向和大小,可以解决方向、旋转的问题。由此,即使有较复杂的版式,如上下、左右、偏移等,都可以准确的获取所需字段的内容,结构化结果准确率更高,流程更为简洁。
对于版式相对固定的垂类,例如输入图像为“广东增值税专用***”,而结构化模板为“北京增值税专用***”,实际上两类***属于相同垂类,因此在识别时便无需再为“广东增值税专用***”重新设计结构化模板。又例如,输入图像为新版增值税***,而结构化模板为新版增值税***,则仅需要在原垂类模板的基础上针对发生变化的关键特征进行重新定义即可,工作量相对较小,新增的成本只需要1~2天。而传统的技术方案的模板重新设计则需要至少2周的时间。
图8示出根据本发明实施例的证照票据信息结构化装置的结构框图,该装置包括:
输入图像信息获取模块801,用于对输入图像进行文本识别,得到所述输入图像的文字信息及其位置;
匹配模块802,用于将所述输入图像的文字信息及其位置与预设的结构化模板中的关键特征进行匹配,得到各匹配对;
信息位置调整模块803,用于基于各所述匹配对的位置关系,将所述输入图像的文字信息的位置调整为与所述结构化模板相同;
文字信息提取模块804,用于从调整后的图像中提取所述文字信息。
所述文字信息包括关键特征和文字内容;
所述匹配模802块包括:
比对模块8021,用于检测所述输入图像的关键特征与所述结构化模板的关键特征是否匹配;
唯一性约束模块8022,用于在匹配不唯一的情况下,比较各匹配对中关键特征的位置,以确定所述输入图像的关键特征与所述结构化模板的关键特征的唯一对应关系。
所述结构化模板还包括分别与各关键特征对应的内容项;
所述文字信息提取模块804包括:
结构化模板内容项位置获取模块8041,用于在一个所述匹配对中,获取结构化模板的关键特征对应的内容项的位置;
输入图像字符位置获取模块8042,用于获取输入图像的关键特征对应的文字内容中各字符的位置;
字符提取模块8043,用于判断所述各字符的位置与所述内容项的位置的重合区域是否超过阈值,若超过阈值,提取该字符。
还包括:
匹配对选择模块805,用于将所述输入图像分为至少四个区域,分别在各区域中选择至少一个匹配对。
还包括:
字符中心点的位置确定模块806,确定所述各匹配对中关键特征所包含的各字符中心点的位置。
图9示出根据本发明实施例的证照票据信息结构化装置的结构框图,该装置包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的证照票据信息结构化方法。所述存储器910和处理器920的数量可以为一个或多个。
该装置还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种图像识别的方法,其特征在于,包括:
对输入图像进行文本识别,得到所述输入图像的文字信息及其位置;
将所述输入图像的文字信息及其位置与预设的结构化模板中的关键特征进行匹配,得到各匹配对;
基于各所述匹配对的位置关系,将所述输入图像的文字信息的位置调整为与所述结构化模板相同;
从调整后的图像中提取所述文字信息。
2.根据权利要求1所述的方法,其特征在于,所述文字信息包括关键特征和文字内容;
将所述输入图像的文字信息及其位置与预设的结构化模板中的关键特征进行匹配,得到各匹配对,包括:
检测所述输入图像的关键特征与所述结构化模板的关键特征是否匹配;
在匹配不唯一的情况下,比较各匹配对中关键特征的位置,以确定所述输入图像的关键特征与所述结构化模板的关键特征的唯一对应关系。
3.根据权利要求2所述的方法,其特征在于,所述结构化模板还包括分别与各关键特征对应的内容项;
基于各所述匹配对的位置关系,将所述输入图像的文字信息的位置调整为与所述结构化模板相同,包括:
在一个所述匹配对中,如果输入图像的关键特征对应文字内容的位置与所述结构化模板的关键特征对应内容项的位置不同,则将所述文字内容的位置调整为所述内容项的位置。
4.根据权利要求3所述的方法,其特征在于,还包括:
在一个所述匹配对中,获取结构化模板的关键特征对应的内容项的位置;
获取输入图像的关键特征对应的文字内容中各字符的位置;
判断所述各字符的位置与所述内容项的位置的重合区域是否超过阈值;
若超过阈值,提取该字符。
5.根据权利要求1所述的方法,其特征在于,还包括:
确定所述各匹配对中关键特征所包含的各字符中心点的位置。
6.根据权利要求1所述的方法,其特征在于,还包括:
将所述输入图像分为至少四个区域,分别在各区域中选择至少一个匹配对。
7.一种图像识别的装置,其特征在于,包括:
输入图像信息获取模块,用于对输入图像进行文本识别,得到所述输入图像的文字信息及其位置;
匹配模块,用于将所述输入图像的文字信息及其位置与预设的结构化模板中的关键特征进行匹配,得到各匹配对;
信息位置调整模块,用于基于各所述匹配对的位置关系,将所述输入图像的文字信息的位置调整为与所述结构化模板相同;
文字信息提取模块,用于从调整后的图像中提取所述文字信息。
8.根据权利要求7所述的装置,其特征在于,所述文字信息包括关键特征和文字内容;
所述匹配模块包括:
比对模块,用于检测所述输入图像的关键特征与所述结构化模板的关键特征是否匹配;
唯一性约束模块,用于在匹配不唯一的情况下,比较各匹配对中关键特征的位置,以确定所述输入图像的关键特征与所述结构化模板的关键特征的唯一对应关系。
9.根据权利要求8所述的装置,其特征在于,所述结构化模板还包括分别与各关键特征对应的内容项;
所述文字信息提取模块包括:
结构化模板内容项位置获取模块,用于在一个所述匹配对中,获取结构化模板的关键特征对应的内容项的位置;
输入图像字符位置获取模块,用于获取输入图像的关键特征对应的文字内容中各字符的位置;
字符提取模块,用于判断所述各字符的位置与所述内容项的位置的重合区域是否超过阈值,若超过阈值,提取该字符。
10.根据权利要求7所述的装置,其特征在于,还包括:
字符中心点的位置确定模块,确定所述各匹配对中关键特征所包含的各字符中心点的位置。
11.根据权利要求7所述的装置,其特征在于,还包括:
匹配对选择模块,用于将所述输入图像分为至少四个区域,分别在各区域中选择至少一个匹配对。
12.一种图像识别的装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。
13.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
CN201910464140.7A 2019-05-30 2019-05-30 一种图像识别的方法、装置和计算机可读存储介质 Active CN110188755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910464140.7A CN110188755B (zh) 2019-05-30 2019-05-30 一种图像识别的方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910464140.7A CN110188755B (zh) 2019-05-30 2019-05-30 一种图像识别的方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110188755A true CN110188755A (zh) 2019-08-30
CN110188755B CN110188755B (zh) 2021-09-07

Family

ID=67719040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910464140.7A Active CN110188755B (zh) 2019-05-30 2019-05-30 一种图像识别的方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110188755B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738238A (zh) * 2019-09-18 2020-01-31 平安科技(深圳)有限公司 一种证件信息的分类定位方法及装置
CN110895696A (zh) * 2019-11-05 2020-03-20 泰康保险集团股份有限公司 一种图像信息提取方法和装置
CN110909733A (zh) * 2019-10-28 2020-03-24 世纪保众(北京)网络科技有限公司 基于ocr图片识别的模版定位方法、装置和计算机设备
CN110942061A (zh) * 2019-10-24 2020-03-31 泰康保险集团股份有限公司 文字识别方法、装置、设备和计算机可读介质
CN110991456A (zh) * 2019-12-05 2020-04-10 北京百度网讯科技有限公司 票据识别方法及装置
CN110991437A (zh) * 2019-11-28 2020-04-10 北京嘉楠捷思信息技术有限公司 字符识别方法及其装置、字符识别模型的训练方法及其装置
CN111046736A (zh) * 2019-11-14 2020-04-21 贝壳技术有限公司 一种提取文本信息的方法、装置和存储介质
CN111178353A (zh) * 2019-12-16 2020-05-19 中国建设银行股份有限公司 一种图像文字的定位方法和装置
CN111860525A (zh) * 2020-08-06 2020-10-30 宁夏宁电电力设计有限公司 一种适用于端子排的自底向上光学字符识别方法
CN111859893A (zh) * 2020-07-30 2020-10-30 广州云从洪荒智能科技有限公司 图文排版方法、装置、设备及介质
CN112598505A (zh) * 2020-12-25 2021-04-02 无锡航吴科技有限公司 一种基于比对规则的国有融资平台监管***及方法
CN113128496A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 一种从图像中提取结构化数据的方法、装置和设备
CN113920513A (zh) * 2021-12-15 2022-01-11 中电云数智科技有限公司 基于自定义通用模板的文本识别方法及设备
CN114359911A (zh) * 2022-03-18 2022-04-15 北京亮亮视野科技有限公司 文字关键信息的提取方法及装置
CN114419640A (zh) * 2022-02-25 2022-04-29 北京百度网讯科技有限公司 文本处理方法、装置、电子设备及存储介质
CN114663641A (zh) * 2020-12-08 2022-06-24 凌华科技股份有限公司 时间相依文字感兴趣区域的侦测方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1482572A (zh) * 2003-06-27 2004-03-17 杭州信雅达***工程股份有限公司 票据图象处理装置
CN102081732A (zh) * 2010-12-29 2011-06-01 方正国际软件有限公司 一种版式识别模板方法及***
CN102509115A (zh) * 2011-11-22 2012-06-20 北京京北方信息技术有限公司 一种分层带回溯查找机制的票据类型识别方法
CN105260733A (zh) * 2015-09-11 2016-01-20 北京百度网讯科技有限公司 用于处理图像信息的方法和装置
CN105630817A (zh) * 2014-11-03 2016-06-01 航天信息股份有限公司 一种电子***内容解析的方法及***
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
CN106295629A (zh) * 2016-07-15 2017-01-04 北京市商汤科技开发有限公司 结构化文本检测方法和***
US20170039421A1 (en) * 2015-08-05 2017-02-09 Xerox Corporation Method and system for creating a validation document for security
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN108345882A (zh) * 2018-02-11 2018-07-31 北京百度网讯科技有限公司 用于图像识别的方法、装置、设备和计算机可读存储介质
CN108520254A (zh) * 2018-03-01 2018-09-11 腾讯科技(深圳)有限公司 一种基于格式化图像的文本检测方法、装置以及相关设备
CN108664897A (zh) * 2018-04-18 2018-10-16 平安科技(深圳)有限公司 票据识别方法、装置及存储介质
CN109271980A (zh) * 2018-08-28 2019-01-25 上海萃舟智能科技有限公司 一种车辆铭牌全信息识别方法、***、终端及介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1482572A (zh) * 2003-06-27 2004-03-17 杭州信雅达***工程股份有限公司 票据图象处理装置
CN102081732A (zh) * 2010-12-29 2011-06-01 方正国际软件有限公司 一种版式识别模板方法及***
CN102509115A (zh) * 2011-11-22 2012-06-20 北京京北方信息技术有限公司 一种分层带回溯查找机制的票据类型识别方法
CN105630817A (zh) * 2014-11-03 2016-06-01 航天信息股份有限公司 一种电子***内容解析的方法及***
US20170039421A1 (en) * 2015-08-05 2017-02-09 Xerox Corporation Method and system for creating a validation document for security
CN105260733A (zh) * 2015-09-11 2016-01-20 北京百度网讯科技有限公司 用于处理图像信息的方法和装置
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
CN106295629A (zh) * 2016-07-15 2017-01-04 北京市商汤科技开发有限公司 结构化文本检测方法和***
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN108345882A (zh) * 2018-02-11 2018-07-31 北京百度网讯科技有限公司 用于图像识别的方法、装置、设备和计算机可读存储介质
CN108520254A (zh) * 2018-03-01 2018-09-11 腾讯科技(深圳)有限公司 一种基于格式化图像的文本检测方法、装置以及相关设备
CN108664897A (zh) * 2018-04-18 2018-10-16 平安科技(深圳)有限公司 票据识别方法、装置及存储介质
CN109271980A (zh) * 2018-08-28 2019-01-25 上海萃舟智能科技有限公司 一种车辆铭牌全信息识别方法、***、终端及介质

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021051553A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 一种证件信息的分类定位方法及装置
CN110738238A (zh) * 2019-09-18 2020-01-31 平安科技(深圳)有限公司 一种证件信息的分类定位方法及装置
CN110738238B (zh) * 2019-09-18 2023-05-26 平安科技(深圳)有限公司 一种证件信息的分类定位方法及装置
CN110942061A (zh) * 2019-10-24 2020-03-31 泰康保险集团股份有限公司 文字识别方法、装置、设备和计算机可读介质
CN110909733A (zh) * 2019-10-28 2020-03-24 世纪保众(北京)网络科技有限公司 基于ocr图片识别的模版定位方法、装置和计算机设备
CN110895696A (zh) * 2019-11-05 2020-03-20 泰康保险集团股份有限公司 一种图像信息提取方法和装置
CN111046736A (zh) * 2019-11-14 2020-04-21 贝壳技术有限公司 一种提取文本信息的方法、装置和存储介质
CN111046736B (zh) * 2019-11-14 2021-04-16 北京房江湖科技有限公司 一种提取文本信息的方法、装置和存储介质
CN110991437B (zh) * 2019-11-28 2023-11-14 嘉楠明芯(北京)科技有限公司 字符识别方法及其装置、字符识别模型的训练方法及其装置
CN110991437A (zh) * 2019-11-28 2020-04-10 北京嘉楠捷思信息技术有限公司 字符识别方法及其装置、字符识别模型的训练方法及其装置
CN110991456A (zh) * 2019-12-05 2020-04-10 北京百度网讯科技有限公司 票据识别方法及装置
CN111178353A (zh) * 2019-12-16 2020-05-19 中国建设银行股份有限公司 一种图像文字的定位方法和装置
CN113128496B (zh) * 2019-12-31 2023-12-12 华为云计算技术有限公司 一种从图像中提取结构化数据的方法、装置和设备
CN113128496A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 一种从图像中提取结构化数据的方法、装置和设备
CN111859893B (zh) * 2020-07-30 2021-04-09 广州云从洪荒智能科技有限公司 图文排版方法、装置、设备及介质
CN111859893A (zh) * 2020-07-30 2020-10-30 广州云从洪荒智能科技有限公司 图文排版方法、装置、设备及介质
CN111860525B (zh) * 2020-08-06 2022-10-21 宁夏宁电电力设计有限公司 一种适用于端子排的自底向上光学字符识别方法
CN111860525A (zh) * 2020-08-06 2020-10-30 宁夏宁电电力设计有限公司 一种适用于端子排的自底向上光学字符识别方法
CN114663641A (zh) * 2020-12-08 2022-06-24 凌华科技股份有限公司 时间相依文字感兴趣区域的侦测方法
CN112598505A (zh) * 2020-12-25 2021-04-02 无锡航吴科技有限公司 一种基于比对规则的国有融资平台监管***及方法
CN113920513A (zh) * 2021-12-15 2022-01-11 中电云数智科技有限公司 基于自定义通用模板的文本识别方法及设备
CN114419640A (zh) * 2022-02-25 2022-04-29 北京百度网讯科技有限公司 文本处理方法、装置、电子设备及存储介质
CN114419640B (zh) * 2022-02-25 2023-08-11 北京百度网讯科技有限公司 文本处理方法、装置、电子设备及存储介质
CN114359911A (zh) * 2022-03-18 2022-04-15 北京亮亮视野科技有限公司 文字关键信息的提取方法及装置
CN114359911B (zh) * 2022-03-18 2022-07-26 北京亮亮视野科技有限公司 文字关键信息的提取方法及装置

Also Published As

Publication number Publication date
CN110188755B (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN110188755A (zh) 一种图像识别的方法、装置和计算机可读存储介质
US11816165B2 (en) Identification of fields in documents with neural networks without templates
CN111931664B (zh) 混贴票据图像的处理方法、装置、计算机设备及存储介质
Qiao et al. Lgpma: Complicated table structure recognition with local and global pyramid mask alignment
Bennett et al. Transformations, transitions, or tall tales? A global review of the uptake and impact of NoSQL, blockchain, and big data analytics on the land administration sector
US20220012486A1 (en) Identification of table partitions in documents with neural networks using global document context
US10482170B2 (en) User interface for contextual document recognition
CN103577591B (zh) 一种生成记账凭证的方法及装置
US8718367B1 (en) Displaying automatically recognized text in proximity to a source image to assist comparibility
CN110874618B (zh) 基于小样本的ocr模板学习方法、装置、电子设备及介质
CN110956739A (zh) 一种票据识别方法及装置
CN113255642A (zh) 一种用于人伤理赔的医疗票据信息整合方法
CN110427853B (zh) 一种智能票据信息提取处理的方法
JP2009122723A (ja) 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法
CN110263311A (zh) 一种网络页面的生成方法及设备
JP2019159898A (ja) 計算機及びテンプレート管理方法
US20210182550A1 (en) Identification of blocks of associated words in documents with complex structures
CN111914729A (zh) 凭证关联方法、装置、计算机设备及存储介质
JP2022125220A (ja) 画像処理装置、画像処理方法、プログラム
CN112733623A (zh) 文本要素提取方法、相关设备及可读存储介质
CN116092231A (zh) 票证识别方法、装置、终端设备以及存储介质
CN112668335B (zh) 一种利用命名实体识别提取营业执照结构化信息的方法
CN116343237A (zh) 基于深度学习和知识图谱的票据识别方法
JP6506652B2 (ja) 帳票読取装置、帳票読取方法および帳票読取システム
WO2019165919A1 (zh) 数据处理方法、装置和机器可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant