CN113591657B - Ocr版面识别的方法、装置、电子设备及介质 - Google Patents

Ocr版面识别的方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN113591657B
CN113591657B CN202110838555.3A CN202110838555A CN113591657B CN 113591657 B CN113591657 B CN 113591657B CN 202110838555 A CN202110838555 A CN 202110838555A CN 113591657 B CN113591657 B CN 113591657B
Authority
CN
China
Prior art keywords
text
matching
information
matched
text lines
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110838555.3A
Other languages
English (en)
Other versions
CN113591657A (zh
Inventor
吴大江
付靖玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202110838555.3A priority Critical patent/CN113591657B/zh
Publication of CN113591657A publication Critical patent/CN113591657A/zh
Application granted granted Critical
Publication of CN113591657B publication Critical patent/CN113591657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本公开涉及一种OCR版面识别的方法、装置、电子设备及介质,可应用于计算机技术和文本识别领域,上述方法包括:对待处理图像进行文本行检测,得到上述待处理图像中包含的所有文本行的位置信息;根据上述文本行的位置信息来确定各个文本行之间的相对位置匹配信息;根据上述相对位置匹配信息,对上述文本行进行文字语义识别,得到属性字段和与上述属性字段匹配的参数字段;以及根据上述属性字段和与上述属性字段匹配的参数字段,输出结构化识别信息。

Description

OCR版面识别的方法、装置、电子设备及介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种OCR版面识别的方法、装置、电子设备及介质。
背景技术
随着电子信息化的发展,电子版证件逐步应用广泛,例如身份证电子版或者营业执照电子版等,通常以图像形式进行存储,图像中的文字包含用于表征属性信息的键和对应属性取值信息的值构成的键-值对(Key-Value Pairs),以身份证为例,包括以下多组键-值对的形式:姓名-×××;性别-男或女;出生-××××年××月××日;住址:××省×市×街道×号等。通常基于OCR(Optical Character Recognition)对图像中的文本进行识别,通过对包含有文本数据的图像文件进行分析处理,获取文字及版面信息。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下技术问题:在包含键-值对信息的电子版证件的版面识别的过程中,有的方法依赖于全部图像的拍摄清晰度,很小的局部区域有反光或者画面质量有轻微差异,会导致识别的准确度大大降低,鲁棒性较差;有的方法能够保证识别准确度但是识别效率太慢;有的方法能够识别特定种类的电子版证件,对于其他类型的包含键-值对信息的电子版证件无法推广。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了OCR版面识别的方法、装置、电子设备及介质。
第一方面,本公开的实施例提供了一种OCR版面识别的方法。上述方法包括:对待处理图像进行文本行检测,得到上述待处理图像中包含的所有文本行的位置信息;根据上述文本行的位置信息来确定各个文本行之间的相对位置匹配信息;根据上述相对位置匹配信息,对上述文本行进行文字语义识别,得到属性字段和与上述属性字段匹配的参数字段;以及根据上述属性字段和与上述属性字段匹配的参数字段,输出结构化识别信息。
根据本公开的一实施例,上述根据上述文本行的位置信息来确定各个文本行之间的相对位置匹配信息,包括:根据预设的位置匹配剔除规则,对所有文本行之间的位置匹配关系进行筛选,得到候选的位置匹配文本行对以及对应的相对位置匹配信息。
根据本公开的另一实施例,上述根据上述文本行的位置信息来确定各个文本行之间的相对位置匹配信息,包括:根据预设的位置匹配剔除规则,对所有文本行之间的位置匹配关系进行筛选,得到候选的位置匹配文本行对以及对应的相对位置匹配信息;以及针对上述候选的位置匹配文本行对中的锚点文本行和候选待匹配文本行,根据每个位置匹配文本行对中两个文本行之间的距离和上下关系,剔除与锚点文本行的位置相关性小于预设程度的候选待匹配文本行,得到针对每个锚点文本行的匹配文本行及其相对位置匹配信息。
根据本公开的实施例,上述位置匹配剔除规则包括:当前文本行与待匹配文本行沿着第一方向的位置信息满足第一预设相对大小关系,且沿着第二方向的位置信息满足第二预设相对大小关系。上述根据预设的位置匹配剔除规则,对所有文本行之间的位置匹配关系进行筛选,得到候选的位置匹配文本行对,包括:针对所有文本行中的每个文本行,依序确定当前锚点文本行与其他待匹配文本行之间沿着第一方向和第二方向的位置关系大小;将与当前锚点文本行沿着第一方向的位置关系大小满足上述第一预设相对大小关系,且沿着第二方向的位置关系大小满足上述第二预设相对大小关系的待匹配文本行进行剔除,得到针对当前锚点文本行的候选待匹配文本行;以及将所有锚点文本行和所对应的候选待匹配文本行进行关联,得到候选的位置匹配文本行对以及对应的相对位置匹配信息。
根据本公开的实施例,上述针对候选的位置匹配文本行对中的锚点文本行和候选待匹配文本行,根据每个位置匹配文本行对中两个文本行之间的距离和上下关系,剔除与锚点文本行的位置相关性小于预设程度的候选待匹配文本行,包括:确定每个位置匹配文本行对中两个文本行之间的距离是否超过这两个文本行中锚点文本行的高度的预设倍数;确定每个位置匹配文本行对中两个文本行之间的上下关系是否满足预设关系;针对每个位置匹配文本行对,在当前位置匹配文本行对中两个文本行之间的距离超过这两个文本行中锚点文本行的高度的预设倍数且上述两个文本行之间的上下关系满足预设关系的情况下,确定上述两个文本行中的候选待匹配文本行与上述锚点文本行的位置相关性小于预设程度;以及将与锚点文本行的位置相关性小于预设程度的全部候选待匹配文本行均剔除。
根据本公开的实施例,上述根据上述相对位置匹配信息,对上述文本行进行文字语义识别,进而得到属性字段和与上述属性字段匹配的参数字段,包括:对所有文本行进行语义识别,得到所有文本行的语义识别信息,其中语义识别后得到的每个文本行的语义识别信息与当前文本行的位置信息之间建立有关联关系,所有文本行按照上述语义识别信息的类别分为属性字段和参数字段;针对每个属性字段进行匹配处理,上述匹配处理包括:根据上述关联关系和上述相对位置匹配信息,从候选参数字段中确定与当前属性字段相匹配的参数字段。
根据本公开的实施例,上述针对每个属性字段进行匹配处理包括:按照预设的属性字段的优先级顺序依次对上述属性字段进行上述匹配处理;在每个属性字段进行上述匹配处理之后,将匹配完成的参数字段从上述候选参数字段中剔除。
根据本公开的实施例,上述优先级顺序包括:根据属性字段的语义匹配难易程度进行优先级设置;或者,根据属性字段的结构匹配难易程度进行优先级设置。
根据本公开的实施例,上述语义匹配包括:文本-数字匹配、文本-日期匹配、文本-金额匹配、文本-文本匹配,优先对语义匹配较为容易的属性字段进行匹配处理;上述结构匹配包括:属性字段与单行字段进行匹配,属性字段与多行字段进行匹配,以及属性字段与重点关注字段进行匹配;其中,优先对结构匹配程度较为容易的属性字段进行匹配。
根据本公开的实施例,上述根据上述关联关系和上述相对位置匹配信息,从候选参数字段中确定与当前属性字段相匹配的参数字段,包括:根据当前属性字段的位置信息和上述相对位置匹配信息来确定针对当前属性字段的候选匹配位置信息;根据上述关联关系和上述候选匹配位置信息确定上述候选匹配位置信息对应的候选参数字段;以及根据上述当前属性字段与上述候选参数字段的语义关联,从上述候选参数字段中确定与当前属性字段相匹配的参数字段。
第二方面,本公开的实施例提供了一种OCR版面识别的装置。上述装置包括:文本检测模块、相对位置匹配信息确定模块、语义识别模块和输出模块。上述文本检测模块用于对待处理图像进行文本行检测,以得到上述待处理图像中包含的所有文本行的位置信息。上述相对位置匹配信息确定模块用于根据上述文本行的位置信息来确定各个文本行之间的相对位置匹配信息。上述语义识别模块用于根据上述相对位置匹配信息,对上述文本行进行文字语义识别,得到属性字段和与上述属性字段匹配的参数字段。上述输出模块用于根据上述属性字段和与上述属性字段匹配的参数字段,输出结构化识别信息。
第三方面,本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上所述的OCR版面识别的方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的OCR版面识别的方法。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:
通过根据检测得到的所有文本行的位置信息来确定各个文本行之间的相对位置匹配信息,该相对位置匹配信息用于表征锚点文本行和匹配文本行之间的位置匹配关联,可以进一步根据上述相对位置匹配信息来对上述文本行进行文字语义识别,进而得到属性字段和与上述属性字段匹配的参数字段,并根据上述属性字段及其匹配的参数字段进行对应的结构化版面信息输出,结合了相对位置匹配关系和语义识别,提升了版面结构化信息识别准确度的同时还有效提升了版面识别的效率,该方法可以推广应用于任意包含键值对形式的电子版证件中。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了适用于本公开实施例的OCR版面识别的方法和装置的***架构;
图2示意性示出了根据本公开实施例的OCR版面识别的方法的流程图;
图3A示意性示出了根据本公开一实施例的操作S22的详细实施流程图;
图3B示意性示出了根据本公开另一实施例的操作S22的详细实施流程图;
图4示意性示出了根据本公开实施例的不满足预设的位置匹配剔除规则的文本行之间的位置匹配关系的两种示例性实例;
图5示意性示出了根据本公开实施例的通过根据文本行键-值对的距离和上下关系来进一步筛选,以得到针对每个锚点文本行的匹配文本行及其相对位置匹配信息的示例性实例;
图6示意性示出了根据本公开实施例的操作S23的详细实施流程图;
图7示意性示出了根据本公开实施例的匹配处理的实施场景示例;
图8示意性示出了根据本公开实施例的OCR版面识别的装置的结构框图;以及
图9示意性示出了本公开实施例提供的电子设备的结构框图。
具体实施方式
传统的OCR技术采用特征工程的方法进行特征提取,而后进行文字分割与检测、识别,并对识别的结果进行版面分析。由于特征工程的局限性,造成文字识别的准确率低,场景泛化性差的问题,也即OCR效果的瓶颈主要在于特征的设计。而随着深度学习技术的发展,基于深度学习的OCR识别技术也取得了长足的进展,文字的检测和识别不再成为最终结果的瓶颈,而在此背景下,高效的版面分析便成为了制约最终输出效果的瓶颈。
相关技术中,对于电子版证件的OCR版面分析技术包括:只依赖于文字语义信息的版面分析方法和只依赖于空间位置的版面分析方法。只依赖于文字语义信息的版面分析方法对于上游技术环节,比如文本行的检测,文字的识别有着非常高的依赖性,甚至可以说是直接决定了最终版面输出效果,而实际的文本资料由于来自于自然场景,对于画面质量变化较大的场景,会直接影响最终的识别准确率,进而影响后续的版面分析结果。只依赖于空间位置的版面分析方法主要应用在像身份证等版式较固定的文本资料,可以采用固定的模版去匹配识别后的文字信息,缺点很明显,如果文本资料的角度光线变化较大,会造成待解析的目标版面失败,也即鲁棒性较差。
有鉴于此,本公开的实施例提供了一种OCR版面识别的方法、装置、电子设备及介质。上述方法包括:对待处理图像进行文本行检测,得到上述待处理图像中包含的所有文本行的位置信息;根据上述文本行的位置信息来确定各个文本行之间的相对位置匹配信息;根据上述相对位置匹配信息,对上述文本行进行文字语义识别,得到属性字段和与上述属性字段匹配的参数字段;以及根据上述属性字段和与上述属性字段匹配的参数字段,输出结构化识别信息。
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
图1示意性示出了适用于本公开实施例的OCR版面识别的方法和装置的***架构。
参照图1所示,适用于本公开实施例的OCR版面识别的方法和装置的***架构100包括:终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有图像捕获装置等。还可以安装有其他通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是显示屏并且支持图片播放或预览的各种电子设备,例如电子设备包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机、无人驾驶汽车等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所拍摄的证件图像或者对用户利用终端设备101、102、103所接收的证件电子版进行数据处理提供服务支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的图像处理请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备,其中图像处理请求例如是图像OCR识别的请求。
需要说明的是,本公开实施例所提供的OCR版面识别的方法一般可以由服务器105或具有一定运算能力的终端设备执行。相应地,本公开实施例所提供的OCR版面识别的装置一般可以设置于服务器105中或上述具有一定运算能力的终端设备中。本公开实施例所提供的OCR版面识别的方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的OCR版面识别的装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
本公开的第一个示例性实施例提供了一种OCR版面识别的方法。
图2示意性示出了根据本公开实施例的OCR版面识别的方法的流程图。
参照图2所示,本公开实施例提供的OCR版面识别的方法,包括以下操作:S21、S22、S23和S24。
在操作S21,对待处理图像进行文本行检测,得到上述待处理图像中包含的所有文本行的位置信息。
根据本公开的实施例,上述待处理图像为包含键-值对信息的电子版证件的图像格式(jpg、jpeg、png等)或者与图像格式可以相互转化的其他格式(例如pdf),待处理图像包括但不限于是:营业执照、身份证件等。进行文本行检测时,上述待处理图像可以是按照符合要求方向设置的方位,上述符合要求方向例如为正向放置,不存在翻转或旋转。通过对放正的待处理图像进行文本行检测,能够得到待处理图像包含的所有文本行的包络框的位置信息。对于发生了翻转或旋转的待处理图像,可以预先经过方位矫正后得到正向放置的图像后,再进行文本行检测。上述文本行的位置信息例如为文本行的包络框(BoundingBox)的位置信息。
在操作S22,根据上述文本行的位置信息来确定各个文本行之间的相对位置匹配信息。
根据所有文本行的位置信息能够确定各个文本行之间的相对位置匹配信息,该相对位置匹配信息用于表征锚点文本行和匹配文本行之间的位置匹配关联。这里的锚点文本行用于表征键-值对中的“键”所对应的属性信息所在的文本行,匹配文本行用于表征键-值对中的“值”所对应的参数信息所在的文本行。
在操作S23,根据上述相对位置匹配信息,对上述文本行进行文字语义识别,得到属性字段和与上述属性字段匹配的参数字段。
根据相对位置匹配信息进行文字语义识别,能够缩小匹配范围,并且在有效的匹配范围内进行文字语义识别和匹配,得到属性字段和与属性字段匹配的参数字段。
在操作S24,根据上述属性字段和与上述属性字段匹配的参数字段,输出结构化识别信息。
输出的结构化识别信息即为版面分析的结果,示例性的,结构化识别信息的表达形式例如为:{(文本行A1的位置,文本行A1对应的属性信息CA1;与文本行A1匹配的文本行B1的位置,文本行B1的参数信息CB1)、(文本行A2的位置,文本行A2对应的属性信息CA2;与文本行A2匹配的文本行B2的位置,文本行B2的参数信息CB2)、(文本行A3的位置,文本行A3对应的属性信息CA3;与文本行A3匹配的文本行B3和B4的位置,文本行B3和B4对应的参数信息CB3和CB4)、……}。
基于上述操作S21~S24,通过根据检测得到的所有文本行的包络框的位置信息来确定各个文本行之间的相对位置匹配信息,该相对位置匹配信息用于表征锚点文本行和匹配文本行之间的位置匹配关联,可以进一步根据上述相对位置匹配信息来对上述文本行进行文字语义识别,进而得到属性字段和与上述属性字段匹配的参数字段,并根据上述属性字段及其匹配的参数字段进行对应的结构化版面信息输出,结合了相对位置匹配关系和语义识别,提升了版面结构化信息识别准确度的同时还有效提升了版面识别的效率,该方法可以推广应用于任意包含键值对形式的电子版证件中。
图3A示意性示出了根据本公开一实施例的操作S22的详细实施流程图。
根据本公开的一实施例,参照图3A所示,上述操作S22中,根据上述文本行的位置信息来确定各个文本行之间的相对位置匹配信息,包括:根据预设的位置匹配剔除规则,对所有文本行之间的位置匹配关系进行筛选,得到候选的位置匹配文本行对以及对应的相对位置匹配信息。这里可以将其描述为位置匹配关系的第一次删除/剔除过程,在图3A中以S22a来描述位置匹配关系的第一次删除/剔除过程。
本实施例中,可以只进行一次删除/剔除过程,剔除之后得到的候选的位置匹配文本行对以及对应的相对位置匹配信息作为后续操作S23中进行文字语义识别时关联的相对位置匹配信息。
在本实施例中,一个由N个文本行组成的待处理图像(例如为营业执照电子版或者身份证电子版等电子版证件),N个文本行两两之间具有N(N-1)/2个位置匹配关系,通过基于预设的位置匹配剔除规则,对N(N-1)/2个位置匹配关系进行一次筛选/剔除,能够减少后续进行文字语义识别后信息匹配的个数,提升版面识别效率。
图3B示意性示出了根据本公开另一实施例的操作S22的详细实施流程图。
根据本公开的另一实施例,参照图3B所示,上述操作S22中,上述根据上述文本行的位置信息来确定各个文本行之间的相对位置匹配信息,除了包括上述操作S22a之外,还包括操作S22b。上述操作S22b对应于在一次删除/剔除操作之后,对剩余的位置匹配关系进行二次剔除操作。在二次剔除操作中,根据两个文本行之间的位置相关性程度大小进行候选待匹配文本行的剔除。
在操作S22b,针对上述候选的位置匹配文本行对中的锚点文本行和候选待匹配文本行,根据每个位置匹配文本行对中两个文本行之间的距离和上下关系,剔除与锚点文本行的位置相关性小于预设程度的候选待匹配文本行,得到针对每个锚点文本行的匹配文本行及其相对位置匹配信息。
根据本公开的实施例,上述操作S22a中,上述位置匹配剔除规则包括:当前文本行与待匹配文本行沿着第一方向的位置信息满足第一预设相对大小关系,且沿着第二方向的位置信息满足第二预设相对大小关系。
上述根据预设的位置匹配剔除规则,对所有文本行之间的位置匹配关系进行筛选,得到候选的位置匹配文本行对,包括:针对所有文本行中的每个文本行,依序确定当前锚点文本行与其他待匹配文本行之间沿着第一方向和第二方向的位置关系大小;将与当前锚点文本行沿着第一方向的位置关系大小满足上述第一预设相对大小关系,且沿着第二方向的位置关系大小满足上述第二预设相对大小关系的待匹配文本行进行剔除,得到针对当前锚点文本行的候选待匹配文本行;以及将所有锚点文本行和所对应的候选待匹配文本行进行关联,得到候选的位置匹配文本行对以及对应的相对位置匹配信息。
根据本公开的又一实施例,在前述包含一次或两次剔除过程的实施例的基础上,还可以进一步包括排序操作,该排序操作可以发生于第一次剔除过程之前,或者,也可以发生于第一次剔除过程之后,或者,还可以发生于第二次剔除过程之后。这三种执行顺序对应的排序的处理量具有差异。
在一实施例中,根据所有文本行的位置信息,对所述文本行沿着第一方向或第二方向进行排序,然后执行操作S22a(该实施例可以包括操作S22b或者不包括操作S22b)。在操作S22a中,根据预设的位置匹配剔除规则,对排序后的所有文本行之间的位置匹配关系进行筛选。在一次剔除过程之前通过将文本行按照纵向(例如对应于第一方向)或横向(例如对应于第二方向)进行排序,这里的排序结果有助于在执行后续的筛选时作为依序执行的顺序。在不包含排序过程的实施例的场景下,后续的筛选过程可以随机先后选择各个文本行来进行位置关系匹配。
在另一实施例中,先执行操作S22a,然后实施排序操作,根据候选的位置匹配文本行对中锚点文本行的位置信息进行排序(该实施例可以包括操作S22b或者不包括操作S22b)。例如可以根据锚点文本行沿着第一方向或第二方向的相对位置大小,将对应的候选的位置匹配文本行对依次进行排序。
在又一实施例中,先执行操作S22a和S22b,然后实施排序操作,根据锚点文本行沿着第一方向或第二方向的位置关系,将二次筛选得到的针对每个锚点文本行的匹配文本行及其相对位置匹配信息进行排序。
在再一实施例中,还可以先执行一次排序操作,然后执行操作S22a和S22b,然后再执行一次排序操作。
以前述在第一次剔除操作之前实施排序操作的实施例为例。通过实施操作S21得到的是整个图像上的所有文本行的位置信息,但是此时输出的各个文本行的位置信息彼此之间并无顺序可言。以待处理图像在显示平面放置的坐标系为x-y平面作为示例,其中y轴对应于纸面的上下方向,x轴对应于纸面的左右方向;y轴正向为从上到下的方向,x轴正向为从左向右的方向。在实施排序操作的过程中,第一方向对应于y方向,也可以描述为纵向。例如,对所有文本行的包络框(Bounding Box)按照它们同一个位置顶点(例如为左上角顶点)的y坐标进行排序,也即在纵向(y方向)上对文本行的包络框进行排序,这里将其描述为第一次排序,排序的目的是通过层层递进,进而找到每个文本行彼此之间的相对位置关系。
由于第一次排序得到的文本行只有纵向的位置关系,彼此之间并没有横向的位置关系,因此还需处理横向的位置关系。对排序好的所有文本行的包络框任选其一,与其余的各个文本行做匹配(Match)。这里可以把文本行看成图(Graph)的顶点,由各个文本行组成一个完全图(Complete Graph),后续的距离计算即是基于这样的数学抽象。这里把每一个节点(文本行)之间的边(Edge)看作是一个匹配,则通常情况下,一个由N个文本行组成的待处理图像(例如为营业执照电子版或者身份证电子版等电子版证件)存在N(N-1)/2个匹配。基于本公开的实施例,尽管电子版证件的字段数目N很多,匹配数目(这里的匹配数目表示位置匹配关系的个数)N(N-1)/2很多,但是通过执行操作S22a,根据预设的位置匹配剔除规则对所有文本行之间的位置匹配关系进行筛选之后,可以确定实际满足要求的边,也即符合要求的字段键-值对(Key-Value Pairs)要远小于按照完全图构建的边数。由此可知,本公开实施例中,实际的字段键-值对集合组成的是完全图的子图(Subgraph)。上述子操作S22a对不满足要求的边进行删除(Delete)之后,能够得到候选的位置匹配文本行对以及对应的相对位置匹配信息。
图4示意性示出了根据本公开实施例的不满足预设的位置匹配剔除规则的文本行之间的位置匹配关系的两种示例性实例。
参照图4中(a)和(b)所示,r、s分别对应表示锚点文本行的左上角所在位置、右下角所在位置,t、v分别对应表示待匹配文本行的左上角所在位置、右上角所在位置。
图4中(a)和(b)以营业执照或身份证的场景作为示例,因此根据该实际场景,锚点文本行应该位于与锚点文本行匹配的匹配文本行的左侧,应该剔除掉那些位于锚点文本行左侧、左上方或者上方的不当位置匹配的候选情况,基于此,上述位置匹配剔除规则可以采用以下表达式(1)来进行描述:
xr≥xt&&ys>yv (1),
其中,xr表示锚点文本行的左上角横坐标;xt表示待匹配文本行的左上角横坐标;&&表示逻辑与,含义为必须同时满足;ys表示锚点文本行的右下角纵坐标;yv表示待匹配文本行的右上角纵坐标。
如果文本行对中的两个文本行满足以下表达式(1),则确定与当前锚点文本行的位置关系满足上述条件的待匹配文本行为需要剔除的待匹配文本行。在确定了针对当前锚点文本行的所有需要剔除的待匹配文本行之后,剩下的用于与当前锚点文本行进行匹配的待匹配文本行即为当前锚点文本行的候选待匹配文本行。
上述表达式示例的第一预设相对大小关系和第二预设相对大小关系作为示例,基于本公开的技术构思,上述第一预设相对大小关系和第二预设相对大小关系可以根据具体应用场景进行适应性变化。
经过上述筛选处理后,匹配数目由N(N-1)/2减少到约为N(N-1)/4,即满足要求的匹配数目减少一半,这里将其描述为第一次删除。
由操作S22a进行了初步筛选,得到的候选的位置匹配文本行对还需要进一步通过操作S22b来进行二次筛选。针对候选的位置匹配文本行对中的锚点文本行和候选待匹配文本行,根据每个位置匹配文本行对中两个文本行之间的距离和上下关系,剔除与锚点文本行的位置相关性小于预设程度的候选待匹配文本行,得到针对每个锚点文本行的匹配文本行及其相对位置匹配信息。通过二次筛选,将与锚点文本行位置相关性较小的候选待匹配文本行删除,从而进一步得到较为准确的用于表征锚点文本行和匹配文本行之间的位置匹配关联的相对位置匹配信息。
本公开的术语中,待匹配文本行是在所有的文本行中除了锚点文本行之外的其他文本行,通过根据预设的位置匹配剔除规则进行一次筛选之后,剩下的为与锚点文本行对应的候选待匹配文本行。进行二次筛选之后,得到的是针对每个锚点文本行的匹配文本行。
根据本公开的实施例,上述操作S22b中,针对候选的位置匹配文本行对中的锚点文本行和候选待匹配文本行,根据每个位置匹配文本行对中两个文本行之间的距离和上下关系,剔除与锚点文本行的位置相关性小于预设程度的候选待匹配文本行,包括:确定每个位置匹配文本行对中两个文本行之间的距离是否超过这两个文本行中锚点文本行的高度的预设倍数;确定每个位置匹配文本行对中两个文本行之间的上下关系是否满足预设关系;针对每个位置匹配文本行对,在当前位置匹配文本行对中两个文本行之间的距离超过这两个文本行中锚点文本行的高度的预设倍数且上述两个文本行之间的上下关系满足预设关系的情况下,确定上述两个文本行中的候选待匹配文本行与上述锚点文本行的位置相关性小于预设程度;以及将与锚点文本行的位置相关性小于预设程度的全部候选待匹配文本行均剔除。
图5示意性示出了根据本公开实施例的通过根据文本行键-值对的距离和上下关系来进一步筛选,以得到针对每个锚点文本行的匹配文本行及其相对位置匹配信息的示例性实例。
示例性的,参照图5所示,示例了锚点文本行A2和A3,分别采用实线和虚线表示锚点文本行A2和A3对应的计算距离场景,把锚点文本行的右上角示意为起点(Start),其纵坐标表示为yStart。候选待匹配文本行的左下角示意为终点(End),其纵坐标示意为yEnd
计算每个位置匹配文本行对中两个文本行之间的距离D,这里采用欧式距离来进行表达D:
D=||End-Start||2(2)。
为了区分候选待匹配文本行与锚点文本行在纵向(沿着y轴)的关系,加入了另一个判别条件:比较锚点文本行与候选待匹配文本行的纵向坐标,这里指定其为Δ,Δ的计算方式如下:
Δ=yEnd-yStart(3)。
其中,Δ≥0表示候选待匹配文本行在锚点文本行的下面;Δ<0表示候选待匹配文本行在锚点文本行的上面。
在本公开的实施例中,通过该判别条件(3)可以获得锚点文本行(键,Key)与待匹配文本行(值,Value)的上界阈值(Upper Bound Threshold)和下界阈值(Low BoundThreshold)。
针对营业执照或者身份证的应用场景,上述预设倍数可以设置2,预设关系为候选待匹配文本行在锚点文本行的上侧,则当候选待匹配文本行在锚点文本行的上侧且距离D大于2倍的锚点文本行高度HAnchor时(通过表达式(2)和(3)可以确定),将满足条件的候选待匹配文本行视为与上述锚点文本行的位置相关性小于预设程度,对应进行剔除。
对应的剔除判定表达式即为:
D>2×HAnchor&&Δ<0(4)。
该子操作S22b对应的过程称为二次筛选(删除),经过该过程后满足要求的匹配数目减少到约为N(N-1)/8。
示例性的,参照图5所示,在当前锚点文本行为A2的情况下,基于上述表达式(4)进行二次筛选后得到候选待匹配文本行B1需要被剔除的结果,对应于需要删除的标记×;其他候选待匹配文本行B2、B3和B4均需要保留,对应于需要保留的标记√;在当前锚点文本行为A3的情况下,基于上述表达式(4)进行二次筛选后得到候选待匹配文本行B1和B2需要被剔除的结果,对应于需要删除的标记×;其他候选待匹配文本行B3和B4均需要保留,对应于需要保留的标记√。经过二次筛选保留后的候选待匹配文本行描述为匹配文本行,则针对当前锚点文本行A2的匹配文本行为B2、B3和B4,针对当前锚点文本行A3的匹配文本行为B3和B4。
把二次筛选后得到的锚点文本行和匹配文本行按D从小到大排序,得到最终的带有空间位置相对信息的匹配对,也叫键值对,这个过程称为第二次排序。
这里经过二次筛选后,得到了针对每个锚点文本行的匹配文本行,表征的是空间位置上的匹配关系,实际上语义匹配的关系很可能是现在得到的匹配关系的子集。
图6示意性示出了根据本公开实施例的操作S23的详细实施流程图。
根据本公开的实施例,参照图6所示,上述根据上述相对位置匹配信息,对上述文本行进行文字语义识别,得到属性字段和与上述属性字段匹配的参数字段的操作S23,包括以下子操作:S231和S232。
在子操作S231,对所有文本行进行语义识别,得到所有文本行的语义识别信息,其中语义识别后得到的每个文本行的语义识别信息与当前文本行的包络框的位置信息之间建立有关联关系,所有文本行按照上述语义识别信息的类别分为属性字段和参数字段。
在子操作S232,针对每个属性字段进行匹配处理,上述匹配处理包括:根据上述关联关系和上述相对位置匹配信息,从候选参数字段中确定与当前属性字段相匹配的参数字段。
上述当前属性字段和与当前属性字段相匹配的参数字段分别为字段的键-值对,比如键-值对分别为“公司名称”,“××市**有限责任公司”。
根据本公开的实施例,上述针对每个属性字段进行匹配处理包括:按照预设的属性字段的优先级顺序依次对上述属性字段进行上述匹配处理;在每个属性字段进行上述匹配处理之后,将匹配完成的参数字段从上述候选参数字段中剔除。
通过按照预设的属性字段的优先级顺序依次进行匹配处理,并在前一个匹配处理中确定出与前一次匹配处理中的当前属性字段相匹配的参数字段后,将该参数字段从候选参数字段中删除,避免了已经经过匹配处理的参数字段对于后续匹配处理的影响,减少了后续匹配处理的复杂度并能极大提升匹配效率。
根据本公开的实施例,上述优先级顺序包括:根据属性字段的语义匹配难易程度进行优先级设置;或者,根据属性字段的结构匹配难易程度进行优先级设置。
根据本公开的实施例,上述语义匹配包括:文本-数字匹配、文本-日期匹配、文本-金额匹配、文本-文本匹配。在一示例中,营业执照的语义匹配难易程度按照由易到难分别为:文本-数字匹配(例如对应于:统一社会信用代码911……1234(共18位))、文本-日期匹配、文本-金额匹配、文本-文本匹配。这里设置语义匹配较为容易的优先级高,则基于上述语义匹配难易程度的优先级设置,优先对语义匹配较为容易的属性字段进行匹配处理,即对应于实际的营业执照识别的(无顺序排布):统一社会信用代码、名称、类型、住所、法定代表人、注册资本、成立日期、营业期限和经营范围等属性字段而言,按照预设的属性字段的优先级顺序依次对上述属性字段进行上述匹配处理对应于以下处理过程:按照以下顺序先后处理:统一社会信用代码,成立日期和营业期限的优先级并列,注册资本,经营范围、名称、类型、住所和法定代表人的优先级并列。
根据本公开的实施例,上述结构匹配包括:属性字段与单行字段进行匹配,属性字段与多行字段进行匹配,以及属性字段与重点关注字段进行匹配。在一示例中,营业执照的结构匹配难易程度按照由易到难分别为:与单行字段进行匹配、与多行字段进行匹配、与重点关注字段进行匹配。这里设置结构匹配较为容易的优先级高,则基于上述结构匹配难易程度的优先级设置,优先对结构匹配程度较为容易的属性字段进行匹配。即,优先对单行字段进行匹配,其次对多行字段进行匹配,最后对容易遗漏或辨识不清楚的重点关注字段进行匹配。
这里的重点关注字段是考虑到在单行字段和多行字段搜索匹配完成之后,有可能由于正则规则覆盖不完全或者证件照片质量原因造成遗漏某些字段,因此会从剩余的候选参数字段中再做一次搜索匹配。
通过基于优先级确定匹配处理的先后顺序,实现渐进正则搜索和多轮递补,节省了搜索空间的情况下,还能够进一步提升语义分析的准确性和鲁棒性。
在一实施例中,文字的语义识别可以采用的正则模糊匹配的方式,例如针对营业执照而言,可以基于营业执照特殊的字段类型设定模糊匹配。模糊匹配可以有效的把候选的字段完全筛选出来,并且易于维护。
在一具体的实施例中,首先预设上界阈值Up Bound和下界阈值Low Bound值,对于营业执照场景而言,经验值是Up Bound=5,Low Bound=20,使用预设的感兴趣的营业执照固定字段模糊正则规则(Pattern)提取出真正的属性字段,如“统一社会信用代码”、“注册号”、“公司名称”、“法定代表人”、“经营范围”、“注册资本”等,然后进行匹配处理。
实际使用时,文字语义识别时的正则模糊匹配可以使用多线程匹配的方式实现,也即可以对多个匹配规则实施同步搜索匹配。
根据本公开的实施例,上述子操作S232的匹配处理中,根据上述关联关系和上述相对位置匹配信息,从候选参数字段中确定与当前属性字段相匹配的参数字段,包括:根据当前属性字段的包络框的位置信息和上述相对位置匹配信息来确定针对当前属性字段的候选匹配位置信息;根据上述关联关系和上述候选匹配位置信息确定上述候选匹配位置信息对应的候选参数字段;以及根据上述当前属性字段与上述候选参数字段的语义关联,从上述候选参数字段中确定与当前属性字段相匹配的参数字段。
图7示意性示出了根据本公开实施例的匹配处理的实施场景示例。
例如参照图7所示,采用实线和虚线分别表示当前属性字段分别为属性字段A2:“类型”,和属性字段A3:“经营范围”的情形。
参照图7中实线对应的场景可知,在当前属性字段分别为属性字段A2:“类型”的情况下,根据当前属性字段A2的包络框的位置信息和相对位置匹配信息(可以参照图5所示例的B2、B3和B4所示)可以确定针对当前属性字段A2的候选匹配位置信息为:B2、B3和B4所在的位置。
根据上述关联关系和上述候选匹配位置信息B2、B3和B4所在的位置可以确定上述候选匹配位置信息对应的候选参数字段依次对应为:“其他有限责任公司”,“××××、××、工程”,“和技术××、××”。
根据上述当前属性字段A2:“类型”与上述候选参数字段“其他有限责任公司”,“××××、××、工程”,“和技术××、××”的语义关联,从上述候选参数字段“其他有限责任公司”,“××××、××、工程”,“和技术××、××”中确定与当前属性字段相匹配的参数字段为“其他有限责任公司”。至此,得到了与当前属性字段A2“类型”相匹配的参数字段“其他有限责任公司”。
类似的,参照图7中虚线对应的场景可知,在当前属性字段分别为属性字段A3:“经营范围”的情况下,根据当前属性字段A3的包络框的位置信息和相对位置匹配信息(可以参照图5所示例的B3和B4所示)可以确定针对当前属性字段A3的候选匹配位置信息为:B3和B4所在的位置。
根据上述关联关系和上述候选匹配位置信息B3和B4所在的位置可以确定上述候选匹配位置信息对应的候选参数字段依次对应为:“××××、××、工程”,“和技术××、××”。
根据上述当前属性字段A3:“经营范围”与上述候选参数字段“××××、××、工程”,“和技术××、××”的语义关联,从上述候选参数字段“××××、××、工程”,“和技术××、××”,“和技术××、××”中确定与当前属性字段相匹配的参数字段为“××××、××、工程”和“和技术××、××”。至此,得到了与当前属性字段A3“经营范围”相匹配的参数字段“××××、××、工程”和“和技术××、××”。
基于本公开实施例提供的OCR版面识别的方法,进行各种布局形式的包含键-值对信息的电子版证件的识别,以营业执照和身份证的识别为例,得到的整个版面分析的耗时时间<10ms(毫秒),速度非常快,并且鲁棒性很好,准确率也非常高。
本公开的第二个示例性实施例提供了一种OCR版面识别的装置。
图8示意性示出了根据本公开实施例的OCR版面识别的装置的结构框图。
参照图8所示,本公开实施例提供的OCR版面识别的装置800包括:文本检测模块801、相对位置匹配信息确定模块802、语义识别模块803和输出模块804。
上述文本检测模块801用于对待处理图像进行文本行检测,以得到上述待处理图像中包含的所有文本行的位置信息。
上述相对位置匹配信息确定模块802用于根据上述文本行的位置信息来确定各个文本行之间的相对位置匹配信息。上述相对位置匹配信息确定模块802包括用于实现操作S22a的功能模块或子模块,或者,还可以进一步包括用于实现操作S22b的对应功能模块或子模块,此外,还可以在前述基础上,进一步包括用于实现排序功能的模块或子模块。
上述语义识别模块803用于根据上述相对位置匹配信息,对上述文本行进行文字语义识别,得到属性字段和与上述属性字段匹配的参数字段。上述语义识别模块803包括用于实现子操作S231和S232的对应功能模块或子模块。
上述输出模块804用于根据上述属性字段和与上述属性字段匹配的参数字段,输出结构化识别信息。
通过根据检测得到的所有文本行的包络框的位置信息来确定各个文本行之间的相对位置匹配信息,该相对位置匹配信息表征了锚点文本行和匹配文本行之间的位置匹配关联,可以进一步根据上述相对位置匹配信息来对上述文本行进行文字语义识别,进而得到属性字段和与上述属性字段匹配的参数字段,并根据上述属性字段及其匹配的参数字段进行对应的结构化版面信息输出,结合了相对位置匹配关系和语义识别,提升了版面结构化信息识别准确度的同时还有效提升了版面识别的效率,该方法可以推广应用于任意包含键值对形式的电子版证件中。
此外,通过结合文本行空间的相对位置匹配信息和文字的语义识别信息,采用逐层递进缩小待匹配搜索空间的总体思路来完成版面分析。在文本行空间的相对位置匹配信息的处理中引入了两次删除和两次排序来达到缩小匹配对的数目的目的。在文本行的语义识别处理中采用了三次搜索逐步匹配的方式来提高分析效率和达到提高版面分析准确率的目的。
其中,文本检测模块801、相对位置匹配信息确定模块802、语义识别模块803和输出模块804中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。文本检测模块801、相对位置匹配信息确定模块802、语义识别模块803和输出模块804中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,文本检测模块801、相对位置匹配信息确定模块802、语义识别模块803和输出模块804中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
本公开的第三个示例性实施例提供了一种电子设备。
图9示意性示出了本公开实施例提供的电子设备的结构框图。
参照图9所示,本公开实施例提供的电子设备900包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901、通信接口902和存储器903通过通信总线904完成相互间的通信;存储器903,用于存放计算机程序;处理器901,用于执行存储器上所存放的程序时,实现如上所述的OCR版面识别的方法。
本公开的第四个示例性实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的构建图像语义分割模型的方法或图像处理的方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种OCR版面识别的方法,其特征在于,包括:
对待处理图像进行文本行检测,得到所述待处理图像中包含的所有文本行的位置信息;
根据所述文本行的位置信息来确定各个文本行之间的相对位置匹配信息;
根据所述相对位置匹配信息,对所述文本行进行文字语义识别,得到属性字段和与所述属性字段匹配的参数字段;以及
根据所述属性字段和与所述属性字段匹配的参数字段,输出结构化识别信息;
其中,根据所述相对位置匹配信息,对所述文本行进行文字语义识别,得到属性字段和与所述属性字段匹配的参数字段,包括:
对所有文本行进行语义识别,得到所有文本行的语义识别信息,其中语义识别后得到的每个文本行的语义识别信息与当前文本行的位置信息之间建立有关联关系,所有文本行按照所述语义识别信息的类别分为属性字段和参数字段;
按照预设的属性字段的优先级顺序,依次对所述属性字段进行匹配处理;所述匹配处理包括:根据所述关联关系和所述相对位置匹配信息,从候选参数字段中确定与当前属性字段相匹配的参数字段;
在每个属性字段进行所述匹配处理之后,将匹配完成的参数字段从所述候选参数字段中剔除。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文本行的位置信息来确定各个文本行之间的相对位置匹配信息,包括:
根据预设的位置匹配剔除规则,对所有文本行之间的位置匹配关系进行筛选,得到候选的位置匹配文本行对以及对应的相对位置匹配信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述文本行的位置信息来确定各个文本行之间的相对位置匹配信息,还包括:
针对所述候选的位置匹配文本行对中的锚点文本行和候选待匹配文本行,根据每个位置匹配文本行对中两个文本行之间的距离和上下关系,剔除与锚点文本行的位置相关性小于预设程度的候选待匹配文本行,得到针对每个锚点文本行的匹配文本行及其相对位置匹配信息。
4.根据权利要求2或3所述的方法,其特征在于,所述位置匹配剔除规则包括:当前文本行与待匹配文本行沿着第一方向的位置信息满足第一预设相对大小关系,且沿着第二方向的位置信息满足第二预设相对大小关系;
所述根据预设的位置匹配剔除规则,对所有文本行之间的位置匹配关系进行筛选,以得到候选的位置匹配文本行对以及对应的相对位置匹配信息,包括:
针对所有文本行中的每个文本行,依序确定当前锚点文本行与其他待匹配文本行之间沿着第一方向和第二方向的位置关系大小;
针对每个锚点文本行,将与当前锚点文本行沿着第一方向的位置关系大小满足所述第一预设相对大小关系,且沿着第二方向的位置关系大小满足所述第二预设相对大小关系的待匹配文本行进行剔除,得到针对当前锚点文本行的候选待匹配文本行;以及
将所有锚点文本行和所对应的候选待匹配文本行进行关联,得到候选的位置匹配文本行对以及对应的相对位置匹配信息。
5.根据权利要求3所述的方法,其特征在于,针对所述候选的位置匹配文本行对中的锚点文本行和候选待匹配文本行,根据每个位置匹配文本行对中两个文本行之间的距离和上下关系,剔除与锚点文本行的位置相关性小于预设程度的候选待匹配文本行,包括:
确定每个位置匹配文本行对中两个文本行之间的距离是否超过这两个文本行中锚点文本行的高度的预设倍数;
确定每个位置匹配文本行对中两个文本行之间的上下关系是否满足预设关系;
针对每个位置匹配文本行对,在当前位置匹配文本行对中两个文本行之间的距离超过这两个文本行中锚点文本行的高度的预设倍数且所述两个文本行之间的上下关系满足预设关系的情况下,确定所述两个文本行中的候选待匹配文本行与所述锚点文本行的位置相关性小于预设程度;以及
将与锚点文本行的位置相关性小于预设程度的全部候选待匹配文本行均剔除。
6.根据权利要求1所述的方法,其特征在于,所述优先级顺序包括:
根据属性字段的语义匹配难易程度进行优先级设置;或者,
根据属性字段的结构匹配难易程度进行优先级设置。
7.根据权利要求6所述的方法,其特征在于,
所述语义匹配包括:文本-数字匹配、文本-日期匹配、文本-金额匹配、文本-文本匹配,优先对语义匹配较为容易的属性字段进行匹配处理;
所述结构匹配包括:属性字段与单行字段进行匹配,属性字段与多行字段进行匹配,以及属性字段与重点关注字段进行匹配;其中,优先对结构匹配程度较为容易的属性字段进行匹配。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述根据所述关联关系和所述相对位置匹配信息,从候选参数字段中确定与当前属性字段相匹配的参数字段,包括:
根据当前属性字段的位置信息和所述相对位置匹配信息,确定针对当前属性字段的候选匹配位置信息;
根据所述关联关系和所述候选匹配位置信息,确定所述候选匹配位置信息对应的候选参数字段;以及
根据所述当前属性字段与所述候选参数字段的语义关联,从所述候选参数字段中确定与当前属性字段相匹配的参数字段。
9.一种OCR版面识别的装置,其特征在于,包括:
文本检测模块,用于对待处理图像进行文本行检测,得到所述待处理图像中包含的所有文本行的位置信息;
相对位置匹配信息确定模块,用于根据所述文本行的位置信息来确定各个文本行之间的相对位置匹配信息;
语义识别模块,用于根据所述相对位置匹配信息,对所述文本行进行文字语义识别,得到属性字段和与所述属性字段匹配的参数字段;以及
输出模块,用于根据所述属性字段和与所述属性字段匹配的参数字段,输出结构化识别信息;
其中,根据所述相对位置匹配信息,对所述文本行进行文字语义识别,得到属性字段和与所述属性字段匹配的参数字段,包括:
对所有文本行进行语义识别,得到所有文本行的语义识别信息,其中语义识别后得到的每个文本行的语义识别信息与当前文本行的位置信息之间建立有关联关系,所有文本行按照所述语义识别信息的类别分为属性字段和参数字段;
按照预设的属性字段的优先级顺序,依次对所述属性字段进行匹配处理;所述匹配处理包括:根据所述关联关系和所述相对位置匹配信息,从候选参数字段中确定与当前属性字段相匹配的参数字段;
在每个属性字段进行所述匹配处理之后,将匹配完成的参数字段从所述候选参数字段中剔除。
10.一种电子设备,其特征在于,包括:
一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。
CN202110838555.3A 2021-07-23 2021-07-23 Ocr版面识别的方法、装置、电子设备及介质 Active CN113591657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110838555.3A CN113591657B (zh) 2021-07-23 2021-07-23 Ocr版面识别的方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110838555.3A CN113591657B (zh) 2021-07-23 2021-07-23 Ocr版面识别的方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN113591657A CN113591657A (zh) 2021-11-02
CN113591657B true CN113591657B (zh) 2024-04-09

Family

ID=78249298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110838555.3A Active CN113591657B (zh) 2021-07-23 2021-07-23 Ocr版面识别的方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN113591657B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511864B (zh) * 2022-04-19 2023-01-13 腾讯科技(深圳)有限公司 文本信息提取方法、目标模型的获取方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919014A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN110147774A (zh) * 2019-05-23 2019-08-20 阳光保险集团股份有限公司 表格式图片版面分析方法和计算机存储介质
CN110991456A (zh) * 2019-12-05 2020-04-10 北京百度网讯科技有限公司 票据识别方法及装置
CN111259889A (zh) * 2020-01-17 2020-06-09 平安医疗健康管理股份有限公司 图像文本识别方法、装置、计算机设备及计算机存储介质
CN112381086A (zh) * 2020-11-06 2021-02-19 厦门市美亚柏科信息股份有限公司 一种结构化输出图像文字识别结果的方法及装置
CN112669515A (zh) * 2020-12-28 2021-04-16 上海斑马来拉物流科技有限公司 票据图像识别方法、装置、电子设备和存储介质
CN112801099A (zh) * 2020-06-02 2021-05-14 腾讯科技(深圳)有限公司 一种图像处理方法、装置、终端设备及介质
CN112926469A (zh) * 2021-03-04 2021-06-08 浪潮云信息技术股份公司 基于深度学习ocr与版面结构的证件识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677764B (zh) * 2015-12-30 2020-05-08 百度在线网络技术(北京)有限公司 信息提取方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919014A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN110147774A (zh) * 2019-05-23 2019-08-20 阳光保险集团股份有限公司 表格式图片版面分析方法和计算机存储介质
CN110991456A (zh) * 2019-12-05 2020-04-10 北京百度网讯科技有限公司 票据识别方法及装置
CN111259889A (zh) * 2020-01-17 2020-06-09 平安医疗健康管理股份有限公司 图像文本识别方法、装置、计算机设备及计算机存储介质
CN112801099A (zh) * 2020-06-02 2021-05-14 腾讯科技(深圳)有限公司 一种图像处理方法、装置、终端设备及介质
CN112381086A (zh) * 2020-11-06 2021-02-19 厦门市美亚柏科信息股份有限公司 一种结构化输出图像文字识别结果的方法及装置
CN112669515A (zh) * 2020-12-28 2021-04-16 上海斑马来拉物流科技有限公司 票据图像识别方法、装置、电子设备和存储介质
CN112926469A (zh) * 2021-03-04 2021-06-08 浪潮云信息技术股份公司 基于深度学习ocr与版面结构的证件识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于文本的网络图像信息搜索技术;赖庆;;民营科技(11);全文 *

Also Published As

Publication number Publication date
CN113591657A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN109543690B (zh) 用于提取信息的方法和装置
US11468225B2 (en) Determining functional and descriptive elements of application images for intelligent screen automation
US9373030B2 (en) Automated document recognition, identification, and data extraction
US8917935B2 (en) Detecting text using stroke width based text detection
US20210295114A1 (en) Method and apparatus for extracting structured data from image, and device
US8843494B1 (en) Method and system for using keywords to merge document clusters
US20150350151A1 (en) Generating a Conversation in a Social Network Based on Mixed Media Object Context
US20160092730A1 (en) Content-based document image classification
CN108334805B (zh) 检测文档阅读顺序的方法和装置
WO2008154606A1 (en) Active segmentation for groups of images
WO2007080642A1 (ja) 帳票処理プログラムおよび帳票処理装置
CN110222695B (zh) 一种证件图片处理方法及装置、介质、电子设备
CN113963147B (zh) 一种基于语义分割的关键信息提取方法及***
CN112749606A (zh) 一种文本定位方法和装置
WO2020071558A1 (ja) 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
CN112199545A (zh) 基于图片文字定位的关键词显示方法、装置及存储介质
CN113591657B (zh) Ocr版面识别的方法、装置、电子设备及介质
CN115171125A (zh) 数据异常的检测方法
CN114494751A (zh) 证照信息识别方法、装置、设备及介质
CN112508000A (zh) 一种用于ocr图像识别模型训练数据生成的方法及设备
CN111444362A (zh) 恶意图片拦截方法、装置、设备和存储介质
CN110688995A (zh) 地图查询的处理方法,计算机可读存储介质和移动终端
Fang et al. Visual music score detection with unsupervised feature learning method based on k-means
CN115205881A (zh) 一种表格识别方法、设备及介质
David et al. Authentication of Vincent van Gogh’s work

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant