CN116758550A - 表单图像的文本识别方法及其装置、电子设备、存储介质 - Google Patents

表单图像的文本识别方法及其装置、电子设备、存储介质 Download PDF

Info

Publication number
CN116758550A
CN116758550A CN202310756232.9A CN202310756232A CN116758550A CN 116758550 A CN116758550 A CN 116758550A CN 202310756232 A CN202310756232 A CN 202310756232A CN 116758550 A CN116758550 A CN 116758550A
Authority
CN
China
Prior art keywords
model
image
identified
text
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310756232.9A
Other languages
English (en)
Inventor
薛林源
张宏韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202310756232.9A priority Critical patent/CN116758550A/zh
Publication of CN116758550A publication Critical patent/CN116758550A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种表单图像的文本识别方法及其装置、电子设备、存储介质,涉及大数据技术领域或其他相关领域,其中,该识别方法包括:接收待识别表单原图;将待识别表单原图输入至第一分类模型,输出第一分类结果;调取与第一分类结果对应的区域定位模型,将待识别表单原图输入至区域定位模型,输出区域定位图像,其中,区域定位图像包括:待识别区域、条目标注;将区域定位图像输入至第二分类模型,输出第二分类结果;调取与第二分类结果对应的文本识别模型,将该区域定位图像输入文本识别模型,输出文本识别结果。本发明解决了相关技术中无法对表单版式、图像来源、待识别文本样式差异较大的表单图像进行通用性识别的技术问题。

Description

表单图像的文本识别方法及其装置、电子设备、存储介质
技术领域
本发明涉及大数据技术领域,具体而言,涉及一种表单图像的文本识别方法及其装置、电子设备、存储介质。
背景技术
当前,很多领域都使用OCR识别技术进行图片、视频识别处理,相关技术中,提高OCR识别率的方法主要有:借助深度学习算法改进图像分类、文本定位或文本识别模型;借助图像预处理手段提高图像质量,但这两类方法均存在一定的缺陷。(1)借助深度学习算法提高文本识别率是较为直接和有效的方法,但是算法的开发成本较高、周期长、投入资金大,通过优化算法来提高OCR文本识别率在短期内是不现实的。(2)借助图像预处理来提高图像质量的方法适用于版式单一、参数维度相对单一、界定相对明显、特别是色彩识别领域,但对于文本图像版式多样、字符字迹复杂多样、特别是手写体等情况表现较差。相关技术中不能针对表单版式、图像来源、待识别文本样式差异较大的表单图像进行通用性识别。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种表单图像的文本识别方法及其装置、电子设备、存储介质,以至少解决相关技术中无法对表单版式、图像来源、待识别文本样式差异较大的表单图像进行通用性识别的技术问题。
根据本发明实施例的一个方面,提供了一种表单图像的文本识别方法,包括:接收待识别表单原图;将所述待识别表单原图输入至第一分类模型,输出第一分类结果,其中,所述第一分类结果是指所述第一分类模型对每张所述待识别表单原图的表单版式、图像来源、待识别文本样式进行分类的结果;调取与每张所述待识别表单原图的所述第一分类结果对应的区域定位模型,将该待识别表单原图输入至所述区域定位模型,输出区域定位图像,其中,所述区域定位图像包括:待识别区域、条目标注,所述待识别区域是由所述区域定位模型基于所述表单版式对所述待识别表单原图进行定位切割得到,所述条目标注是指所述区域定位模型对所述待识别区域中待识别文本的所属条目进行标注的结果;将所述区域定位图像输入至第二分类模型,输出第二分类结果,其中,所述第二分类结果是指所述第二分类模型对每张所述区域定位图像中的所述待识别文本是否带框进行分类的结果;调取与每张所述区域定位图像的所述第二分类结果对应的文本识别模型,将该区域定位图像输入所述文本识别模型,输出所述待识别区域的文本识别结果。
可选地,所述第一分类结果包括:表单版式分类结果、图像来源分类结果、待识别文本样式分类结果,其中,所述表单版式分类结果包括:N个版式,N为正整数,所述图像来源分类结果包括下述至少之一:拍照图像、扫描图像,所述待识别文本样式分类结果包括下述至少之一:手写体文本、印刷体文本。
可选地,由所述第一分类模型对每张所述待识别表单原图的表单版式进行分类的步骤,包括:提取所述待识别表单原图中的标题区域块以及每个所述标题区域块中的表头文字;对于每个所述标题区域块中的表头文字,在历史表单数据库中查询该表头文字对应的所述表单版式,其中,所述历史表单数据库中预先存储有各个历史表头文字与表单版式之间的映射关系。
可选地,在将所述待识别表单原图输入至第一分类模型之前,还包括:获取所述待识别表单原图的原图比例,并按照所述原图比例将待识别表单原图的第一指定边调整至第一预设长度,其中,所述第一预设长度为预设标准图像的第一指定边长度;获取调整后的所述待识别表单原图的面积,并比较该面积与所述预设标准图像的面积,得到第一比较结果;当所述第一比较结果指示调整后的所述待识别表单原图的面积小于所述预设标准图像的面积时,按照预设填充策略填充所述待识别表单原图,得到填充后的待识别表单原图;当所述第一比较结果指示调整后的所述待识别表单原图的面积大于所述预设标准图像的面积时,按照所述原图比例将待识别表单原图的第二指定边调整至第二预设长度,其中,第二预设长度为所述预设标准图像的第二指定边长度;按照所述预设填充策略填充调整后的所述待识别表单原图,得到填充后的待识别表单原图。
可选地,所述预设填充策略包括:获取调整后的所述待识别表单原图与所述预设标准图像的面积差值;基于面积差值,在调整后的所述待识别表单原图上按照预设颜色的色块进行填充。
可选地,所述第一分类模型是通过以下方法得到的:获取M张历史表单图像,M为正整数;接收外部设备输入的每张所述历史表单图像的第一分类结果;将每张所述历史表单图像输入初始分类模型,输出对应该历史表单图像的第一模型分类结果,所述第一模型分类结果包括:表单版式分类结果、图像来源分类结果、待识别文本样式分类结果;比对所述历史表单图像的所述第一分类结果与所述第一模型分类结果,得到第一比对结果;在所述第一比对结果指示所述第一分类结果与所述第一模型分类结果不一致的情况下,调整所述初始分类模型各网络层的参数;对所述初始分类模型进行迭代训练,直至所述M张历史表单图像全部输入完毕,得到所述第一分类模型。
可选地,每张所述历史表单图像的第一分类结果是预先生成的,在生成所述第一分类结果时,包括:基于表单版式分类标准对每张所述历史表单图像的表单版式进行分类,得到表单版式分类结果;对所述表单版式分类结果中的所述历史表单图像的图像来源进行分类,得到图片来源分类结果,其中,所述图像来源包括:拍照图像、扫描图像;对所述图片来源分类结果中的所述历史表单图像的待识别文本样式进行分类,得到待识别文本样式分类结果,其中,所述待识别文本样式包括:手写体文本、印刷体文本;整合所述表单版式分类结果、所述图像来源分类结果、所述待识别文本样式分类结果,得到所述第一分类结果。
可选地,所述区域定位模型是通过以下方法得到的:调取与每张所述历史表单图像的所述第一模型分类结果对应的初始区域定位模型,将该历史表单图像输入至该初始区域定位模型,输出模型定位图像;基于预设清晰度原则,获取所述模型定位图像中待识别文本的清晰度,得到第一获取结果,由所述第一获取结果确定所述待识别文本是否清晰;基于预设完整性原则,获取所述模型定位图像中待识别文本的完整度,得到第二获取结果,由所述第二获取结果确定所述待识别文本是否完整;在所述待识别文本不清晰或者所述待识别文本不完整的情况下,调整所述初始区域定位模型各网络层的参数;对所述初始区域定位模型进行迭代训练,直至所述M张历史表单图像全部输入完毕,得到所述区域定位模型和Q张模型定位图像,其中,Q为大于等于M的整数。
可选地,所述第二分类模型是通过以下方法得到的:接收外部设备输入的每张所述模型定位图像的第二分类结果,其中,第二分类结果包括:带框文本、不带框文本;将每张所述模型定位图像输入至初始分类模型,所述初始分类模型对每张所述模型定位图像中的所述待识别文本是否带框进行分类,输出第二模型分类结果;比对所述模型定位图像的所述第二分类结果与所述第二模型分类结果,得到第二比对结果;在所述第二比对结果指示第二分类结果与所述第二模型分类结果不一致的情况下,调整所述初始分类模型各网络层的参数;对所述初始分类模型进行迭代训练,直至所述Q张模型定位图像全部输入完毕,得到所述第二分类模型。
可选地,所述文本识别模型是通过以下方法得到的:接收外部设备输入的每张所述模型定位图像中的文本内容;调取与每张所述模型定位图像的所述第二模型分类结果对应的初始文本识别模型,将该模型定位图像输入该初始文本识别模型,输出模型识别结果;比对所述模型定位图像中的文本内容和所述模型识别结果中的文本内容之间的相似度;在所述相似度小于预设相似度阈值的情况下,调整所述初始文本识别模型各网络层的参数;对所述初始文本识别模型进行迭代训练,直至所述Q张模型定位图像全部输入完毕,得到所述文本识别模型。
根据本发明实施例的另一方面,还提供了一种表单图像的文本识别装置,包括:接收单元,用于接收待识别表单原图;第一输入单元,用于将所述待识别表单原图输入至第一分类模型,输出第一分类结果,其中,所述第一分类结果是指所述第一分类模型对每张所述待识别表单原图的表单版式、图像来源、待识别文本样式进行分类的结果;第一调取单元,用于调取与每张所述待识别表单原图的所述第一分类结果对应的区域定位模型,将该待识别表单原图输入至所述区域定位模型,输出区域定位图像,其中,所述区域定位图像包括:待识别区域、条目标注,所述待识别区域是由所述区域定位模型基于所述表单版式对所述待识别表单原图进行定位切割得到,所述条目标注是指所述区域定位模型对所述待识别区域中待识别文本的所属条目进行标注的结果;第二输入单元,用于将所述区域定位图像输入至第二分类模型,输出第二分类结果,其中,所述第二分类结果是指所述第二分类模型对每张所述区域定位图像中的所述待识别文本是否带框进行分类的结果;第二调取单元,用于调取与每张所述区域定位图像的所述第二分类结果对应的文本识别模型,将该区域定位图像输入所述文本识别模型,输出所述待识别区域的文本识别结果。
可选地,所述第一分类结果包括:表单版式分类结果、图像来源分类结果、待识别文本样式分类结果,其中,所述表单版式分类结果包括:N个版式,N为正整数,所述图像来源分类结果包括下述至少之一:拍照图像、扫描图像,所述待识别文本样式分类结果包括下述至少之一:手写体文本、印刷体文本。
可选地,所述第一输入单元包括:提取模块,用于提取所述待识别表单原图中的标题区域块以及每个所述标题区域块中的表头文字;查询模块,用于对于每个所述标题区域块中的表头文字,在历史表单数据库中查询该表头文字对应的所述表单版式,其中,所述历史表单数据库中预先存储有各个历史表头文字与表单版式之间的映射关系。
可选地,所述文本识别装置还包括:第一获取模块,用于获取所述待识别表单原图的原图比例,并按照所述原图比例将待识别表单原图的第一指定边调整至第一预设长度,其中,所述第一预设长度为预设标准图像的第一指定边长度;第二获取模块,用于获取调整后的所述待识别表单原图的面积,并比较该面积与所述预设标准图像的面积,得到第一比较结果;第一填充模块,用于当所述第一比较结果指示调整后的所述待识别表单原图的面积小于所述预设标准图像的面积时,按照预设填充策略填充所述待识别表单原图,得到填充后的待识别表单原图;第一调整模块,用于当所述第一比较结果指示调整后的所述待识别表单原图的面积大于所述预设标准图像的面积时,按照所述原图比例将待识别表单原图的第二指定边调整至第二预设长度,其中,第二预设长度为所述预设标准图像的第二指定边长度;第二填充模块,用于按照所述预设填充策略填充调整后的所述待识别表单原图,得到填充后的待识别表单原图。
可选地,所述第一填充模块包括:获取子模块,用于获取调整后的所述待识别表单原图与所述预设标准图像的面积差值;填充子模块,用于基于面积差值,在调整后的所述待识别表单原图上按照预设颜色的色块进行填充。
可选地,所述文本识别装置还包括:第三获取模块,用于获取M张历史表单图像,M为正整数;第一接收模块,用于接收外部设备输入的每张所述历史表单图像的第一分类结果;第一输入模块,用于将每张所述历史表单图像输入初始分类模型,输出对应该历史表单图像的第一模型分类结果,所述第一模型分类结果包括:表单版式分类结果、图像来源分类结果、待识别文本样式分类结果;第一比对模块,用于比对所述历史表单图像的所述第一分类结果与所述第一模型分类结果,得到第一比对结果;第二调整模块,用于在所述第一比对结果指示所述第一分类结果与所述第一模型分类结果不一致的情况下,调整所述初始分类模型各网络层的参数;第一迭代模块,用于对所述初始分类模型进行迭代训练,直至所述M张历史表单图像全部输入完毕,得到所述第一分类模型。
可选地,所述第一接收模块包括:第一分类子模块,用于基于表单版式分类标准对每张所述历史表单图像的表单版式进行分类,得到表单版式分类结果;第二分类子模块,用于对所述表单版式分类结果中的所述历史表单图像的图像来源进行分类,得到图片来源分类结果,其中,所述图像来源包括:拍照图像、扫描图像;第三分类子模块,用于对所述图片来源分类结果中的所述历史表单图像的待识别文本样式进行分类,得到待识别文本样式分类结果,其中,所述待识别文本样式包括:手写体文本、印刷体文本;整合子模块,用于整合所述表单版式分类结果、所述图像来源分类结果、所述待识别文本样式分类结果,得到所述第一分类结果。
可选地,所述文本识别装置还包括:第一调取模块,用于调取与每张所述历史表单图像的所述第一模型分类结果对应的初始区域定位模型,将该历史表单图像输入至该初始区域定位模型,输出模型定位图像;第四获取模块,用于基于预设清晰度原则,获取所述模型定位图像中待识别文本的清晰度,得到第一获取结果,由所述第一获取结果确定所述待识别文本是否清晰;第五获取模块,用于基于预设完整性原则,获取所述模型定位图像中待识别文本的完整度,得到第二获取结果,由所述第二获取结果确定所述待识别文本是否完整;第三调整模块,用于在所述待识别文本不清晰或者所述待识别文本不完整的情况下,调整所述初始区域定位模型各网络层的参数;第二迭代模块,用于对所述初始区域定位模型进行迭代训练,直至所述M张历史表单图像全部输入完毕,得到所述区域定位模型和Q张模型定位图像,其中,Q为大于等于M的整数。
可选地,所述文本识别装置还包括:第二接收模块,用于接收外部设备输入的每张所述模型定位图像的第二分类结果,其中,第二分类结果包括:带框文本、不带框文本;第二输入模块,用于将每张所述模型定位图像输入至初始分类模型,所述初始分类模型对每张所述模型定位图像中的所述待识别文本是否带框进行分类,输出第二模型分类结果;第二比对模块,用于比对所述模型定位图像的所述第二分类结果与所述第二模型分类结果,得到第二比对结果;第四调整模块,用于在所述第二比对结果指示第二分类结果与所述第二模型分类结果不一致的情况下,调整所述初始分类模型各网络层的参数;第三迭代模块,用于对所述初始分类模型进行迭代训练,直至所述Q张模型定位图像全部输入完毕,得到所述第二分类模型。
可选地,所述文本识别装置还包括:第三接收模块,用于接收外部设备输入的每张所述模型定位图像中的文本内容;第二调取模块,用于调取与每张所述模型定位图像的所述第二模型分类结果对应的初始文本识别模型,将该模型定位图像输入该初始文本识别模型,输出模型识别结果;第三比对模块,用于比对所述模型定位图像中的文本内容和所述模型识别结果中的文本内容之间的相似度;第五调整模块,用于在所述相似度小于预设相似度阈值的情况下,调整所述初始文本识别模型各网络层的参数;第四迭代模块,用于对所述初始文本识别模型进行迭代训练,直至所述Q张模型定位图像全部输入完毕,得到所述文本识别模型。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项的表单图像的文本识别方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任意一项表单图像的文本识别方法。
本公开中提出一种对特征差异较大的表单图像进行分类隔离后再进行定位和识别的方法,先接收待识别表单原图,输入至第一分类模型,输出第一分类结果,包括对每张待识别表单原图的表单版式、图像来源、待识别文本样式进行分类的结果,再将该待识别表单原图输入至与第一分类结果对应的区域定位模型,输出区域定位图像,区域定位图像包括:待识别区域、条目标注,然后将区域定位图像输入至第二分类模型,输出对每张区域定位图像中的待识别文本是否带框进行分类的第二分类结果,最后将该区域定位图像输入与第二分类结果对应的文本识别模型,输出待识别区域的文本识别结果。
本公开中,通过第一分类模型将待识别表单原图按照表单版式、图像来源、待识别文本样式的特征差异进行分类,按照分类结果输入至适应的区域定位模型进行待识别区域定位,输出区域定位图像,通过第二分类模型将区域定位图像中的待识别文本分为带框与不带框两类,输入至不同的文本识别模型进行文本识别,得到文本识别结果,利用分类将图像特征差异较大的图像以及待识别文本是否带框的情况进行分类隔离后,对不同的图像进行区域定位和文本识别,能够适用于不同的表单图像,通用性强,进而解决了相关技术中无法对表单版式、图像来源、待识别文本样式差异较大的表单图像进行通用性识别的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的表单图像的文本识别方法的流程图;
图2是根据本发明实施例的一种可选的某金融机构***申请表整合版表单的示意图;
图3是根据本发明实施例的一种可选的某金融机构***申请表主副卡版表单的示意图;
图4是根据本发明实施例的一种对某金融机构***申请表主副卡版表单进行局部标注的示意图;
图5是根据本发明实施例的一种可选的提高文本识别率的方法的流程图;
图6是根据本发明实施例的一种可选的表单图像的文本识别装置的示意图;
图7是根据本发明实施例的一种用于表单图像的文本识别方法的电子设备(或移动设备)的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于本领域技术人员理解本发明,下面对本发明各实施例中涉及的部分术语或名词做出解释:
OCR,optical character recognition,一种文字识别技术,电子设备(例如,扫描仪或数码相机)检查纸上打印的字符,然后用字符识别的方法将形状翻译成计算机文字,即,对文本资料的图像文件进行分析处理,获取文字及版面信息的过程。
ResNet,residual network,残差网络,用于图像分类和物体识别,残差网络的优点是容易优化,能够通过增加深度来提高准确率,其内部的残差块使用了跳跃连接,缓解了增加深度带来的梯度消失问题。
CRNN,convolutional recurrent neural network,卷积循环神经网络,用于端到端的对不定长的文本序列进行识别,无需对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问题,即,基于图像的序列识别。
TPS,transaction per second,每秒事务处理量,也叫吞吐量,是表征***处理能力的性能指标。
需要说明的是,本公开中的表单图像的文本识别方法及其装置可用于大数据领域在对表单图像进行文本识别的情况下,也可用于除大数据领域之外的任何领域在对表单图像进行文本识别的情况下,本公开中对表单图像的文本识别方法及其装置的应用领域不做限定。
需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据、识别的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。例如,本***和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
本发明下述各实施例可应用于各种需要进行表单图像文本识别的***/应用/设备中,尤其是金融机构的各种业务表单图像,能够实现对特征差异较大的表单图像进行分类隔离后再进行定位和识别。本发明使用第一分类模型将待识别表单原图按照表单版式、图像来源、待识别文本样式的特征差异进行分类,然后按照分类结果输入至适应的区域定位模型进行待识别区域定位,输出区域定位图像,通过第二分类模型将区域定位图像中的待识别文本分为带框与不带框两类,输入至不同的文本识别模型进行文本识别,得到文本识别结果,实现对表单图像中文字内容的准确识别,提升识别速度和识别效率。
下面结合各个实施例来详细说明本发明。
实施例一
根据本发明实施例,提供了一种软件程序代码的测试方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的表单图像的文本识别方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,接收待识别表单原图。
步骤S102,将待识别表单原图输入至第一分类模型,输出第一分类结果,其中,第一分类结果是指第一分类模型对每张待识别表单原图的表单版式、图像来源、待识别文本样式进行分类的结果。
步骤S103,调取与每张待识别表单原图的第一分类结果对应的区域定位模型,将该待识别表单原图输入至区域定位模型,输出区域定位图像,其中,区域定位图像包括:待识别区域、条目标注,待识别区域是由区域定位模型基于表单版式对待识别表单原图进行定位切割得到,条目标注是指区域定位模型对待识别区域中待识别文本的所属条目进行标注的结果。
步骤S104,将区域定位图像输入至第二分类模型,输出第二分类结果,其中,第二分类结果是指第二分类模型对每张区域定位图像中的待识别文本是否带框进行分类的结果。
步骤S105,调取与每张区域定位图像的第二分类结果对应的文本识别模型,将该区域定位图像输入文本识别模型,输出待识别区域的文本识别结果。
通过上述步骤,可以先接收待识别表单原图,输入至第一分类模型,输出第一分类结果,包括对每张待识别表单原图的表单版式、图像来源、待识别文本样式进行分类的结果,再将该待识别表单原图输入至与第一分类结果对应的区域定位模型,输出区域定位图像,区域定位图像包括:待识别区域、条目标注,然后将区域定位图像输入至第二分类模型,输出对每张区域定位图像中的待识别文本是否带框进行分类的第二分类结果,最后将该区域定位图像输入与第二分类结果对应的文本识别模型,输出待识别区域的文本识别结果。
本发明实施例中,通过第一分类模型将待识别表单原图按照表单版式、图像来源、待识别文本样式的特征差异进行分类,按照分类结果输入至适应的区域定位模型进行待识别区域定位,输出区域定位图像,通过第二分类模型将区域定位图像中的待识别文本分为带框与不带框两类,输入至不同的文本识别模型进行文本识别,得到文本识别结果,利用分类将图像特征差异较大的图像以及待识别文本是否带框的情况进行分类隔离后,对不同的图像进行区域定位和文本识别,能够适用于不同的表单图像,通用性强,进而解决了相关技术中无法对表单版式、图像来源、待识别文本样式差异较大的表单图像进行通用性识别的技术问题。
下面结合上述各步骤对本发明实施例进行详细说明。
本发明实施例的实施主体是对申请表单进行文本识别的通用***,至少包括第一分类模型、区域定位模型、第二分类模型、文本识别模型,通过两种分类模型将特征差异较大的待识别表单原图(例如,拍照图和扫描图、印刷体和手写体、带框文本和不带框文本)进行分类隔离,再利用与特征相对应的区域定位模型和文本识别模型对待识别表单原图或版式切割碎片进行定位和识别,最终输出识别结果。下面先说明如何得到各种模型。
可选地,第一分类模型是通过以下方法得到的:获取M张历史表单图像,M为正整数;接收外部设备输入的每张历史表单图像的第一分类结果;将每张历史表单图像输入初始分类模型,输出对应该历史表单图像的第一模型分类结果,第一模型分类结果包括:表单版式分类结果、图像来源分类结果、待识别文本样式分类结果;比对历史表单图像的第一分类结果与第一模型分类结果,得到第一比对结果;在第一比对结果指示第一分类结果与第一模型分类结果不一致的情况下,调整初始分类模型各网络层的参数;对初始分类模型进行迭代训练,直至M张历史表单图像全部输入完毕,得到第一分类模型。
需要说明的是,本实施例中对于第一分类模型的类型不作限定,例如,可以选取ResNet18作为第一分类模型的分类算法对待识别表单原图进行分类,ResNet18包括卷积层和全连接层在内共18层。
可选地,每张历史表单图像的第一分类结果是预先生成的,在生成第一分类结果时,包括:基于表单版式分类标准对每张历史表单图像的表单版式进行分类,得到表单版式分类结果;对表单版式分类结果中的历史表单图像的图像来源进行分类,得到图片来源分类结果,其中,图像来源包括:拍照图像、扫描图像;对图片来源分类结果中的历史表单图像的待识别文本样式进行分类,得到待识别文本样式分类结果,其中,待识别文本样式包括:手写体文本、印刷体文本;整合表单版式分类结果、图像来源分类结果、待识别文本样式分类结果,得到第一分类结果。
需要说明的是,表单版式分类标准用于确定实际业务场景中填写的表单的版式,即表单布局。一般情况下,相同业务场景中各金融业务表单的表单版式是统一的,有时会受业务扩张或季度更替等原因的影响采用不同版式的表单,但同一业务的不同表单上的待识别文本是相同的,只是相同条目的待识别文本在不同金融业务表单上的位置不同,例如,产品名称及产品编码待填写栏位于图2中的整合版***申请表中表单标题栏正下方,位于图3中的主副卡版***申请表中表单标题栏右侧。由于布局上的差异,需要用到第一分类模型将不同版式的待识别表单原图分开,将同一版式的表单图像输入对应的区域定位模型直接定位待识别区域,提高定位效率。
可选地,区域定位模型是通过以下方法得到的:调取与每张历史表单图像的第一模型分类结果对应的初始区域定位模型,将该历史表单图像输入至该初始区域定位模型,输出模型定位图像;基于预设清晰度原则,获取模型定位图像中待识别文本的清晰度,得到第一获取结果,由第一获取结果确定待识别文本是否清晰;基于预设完整性原则,获取模型定位图像中待识别文本的完整度,得到第二获取结果,由第二获取结果确定待识别文本是否完整;在待识别文本不清晰或者待识别文本不完整的情况下,调整初始区域定位模型各网络层的参数;对初始区域定位模型进行迭代训练,直至M张历史表单图像全部输入完毕,得到区域定位模型和Q张模型定位图像,其中,Q为大于等于M的整数。
需要说明的是,基于预设清晰度原则,获取模型定位图像中待识别文本的清晰度,得到第一获取结果,由第一获取结果确定待识别文本是否清晰的步骤中,可以利用梯度函数计算图片的清晰度,若函数的计算结果大于等于预设清晰度,则确定待识别文本为清晰。例如,利用Brenner梯度函数计算相邻两个像素灰度差的的平方作为图像清晰度的计算结果。
本发明实施例中还可以选用Tenengrad梯度函数、Laplacian梯度函数、SMD灰度方差函数、能量梯度函数、Vollath函数、熵函数等计算图片的清晰度。
可选地,第二分类模型是通过以下方法得到的:接收外部设备输入的每张模型定位图像的第二分类结果,其中,第二分类结果包括:带框文本、不带框文本;将每张模型定位图像输入至初始分类模型,初始分类模型对每张模型定位图像中的待识别文本是否带框进行分类,输出第二模型分类结果;比对模型定位图像的第二分类结果与第二模型分类结果,得到第二比对结果;在第二比对结果指示第二分类结果与第二模型分类结果不一致的情况下,调整初始分类模型各网络层的参数;对初始分类模型进行迭代训练,直至Q张模型定位图像全部输入完毕,得到第二分类模型。
需要说明的是,本实施例中,带框文字与不带框文字在识别过程中对于文字识别模型的参数要求不同,无框文字在填写过程中可能会出现字符间距过小导致识别难度大的问题,而有框文字在填写过程中由于框线的限制,字符间距大致固定,识别难度较小。
需要说明的是,第二分类模型的初始模型可以选取与第一分类模型相同的ResNet18作为分类算法对区域定位图像进行分类,本实施例中对于第二分类模型的类型不作限定。
可选地,文本识别模型是通过以下方法得到的:接收外部设备输入的每张模型定位图像中的文本内容;调取与每张模型定位图像的第二模型分类结果对应的初始文本识别模型,将该模型定位图像输入该初始文本识别模型,输出模型识别结果;比对模型定位图像中的文本内容和模型识别结果中的文本内容之间的相似度;在相似度小于预设相似度阈值的情况下,调整初始文本识别模型各网络层的参数;对初始文本识别模型进行迭代训练,直至Q张模型定位图像全部输入完毕,得到文本识别模型。
需要说明的是,可以选取改进后的CRNN作为文本识别模型,在CRNN原始结构上添加一个TPS层,用于适应手写体文本,识别倾斜文字。
在得到各类模型,且对模型进行优化调整之后,下面描述在实际业务场景下,如何对接收到各种类型的表单原图进行文本识别。
步骤S101,接收待识别表单原图。
步骤S102,将待识别表单原图输入至第一分类模型,输出第一分类结果,其中,第一分类结果是指第一分类模型对每张待识别表单原图的表单版式、图像来源、待识别文本样式进行分类的结果。
可选地,第一分类结果包括:表单版式分类结果、图像来源分类结果、待识别文本样式分类结果,其中,表单版式分类结果包括:N个版式,N为正整数,图像来源分类结果包括下述至少之一:拍照图像、扫描图像,待识别文本样式分类结果包括下述至少之一:手写体文本、印刷体文本。
需要说明的是,拍照和扫描是两种不同的图像采集方式,其主要区别包括以下几点:
1,操作便捷性:拍照通常是使用相机或者智能手机等设备对纸质文档进行拍摄,不需要其他设备或软件,适用于一些临时需要将纸质文档转换为电子文档的场景,或者需要快速处理的场景,以及一些不具备扫描条件的场景;而扫描则是利用扫描仪或者专门的扫描软件对纸质文档进行扫描,采集图像之后还需要进行后续处理和手动编辑,相对来说没有拍照方便,但更适用于需要高保真度的场景,例如,表单存档。
2,文件格式:拍照图像通常生成照片格式,例如,JEPG、PNG等;扫描通常可以生成更多的文件格式,例如,更稳定的PDF格式、TIFF格式等。
3,图片质量不同:拍照图像和扫描图像的比例、色彩、清晰度均有一定差距。在比例上,扫描图像与原文件的比例是1:1还原的,而拍照图像是根据设备的远近程度、像素设置呈现出放大或缩小的效果,与原文件大小不一定相同;在色彩上,扫描图像的色彩比较均匀,不会出现忽明忽暗的情况,而拍照图像会根据环境情况、光源情况、设备情况(是否抖动)呈现出不同的色彩,例如,同一拍照图像上由于光源投射不均匀出现明亮和阴影两种情况;在清晰度上,扫描图像是完全还原原文件的电子版图像,具有高保真性,而拍照图像不能保证这一点。
需要说明的是,手写体文本和印刷体文本在文本识别过程中的原理是一样的,都是通过采集二维字块中的笔划和结构来分辨字块所对应的的具体汉字。对于印刷体文本来说,目标二维字块是标准的方形字块,笔划和结构也更加标准,便于模型提取特征,因此,印刷体文本的模型识别速度较快,准确率也较高,对于手写体文本来说,手写文本对应的二维字块中的笔划和结构并不标准,且字形变化太大,即使是同一人手写的相同文本的字形往往也不完全相同,字形的无规律变化对于模型提取识别特征造成了一定困难,因此,手写题文本和印刷体文本在识别过程中所使用的文本识别模型可以使用相同的算法,但模型参数并不相同。
可选地,由第一分类模型对每张待识别表单原图的表单版式进行分类的步骤,包括:提取待识别表单原图中的标题区域块以及每个标题区域块中的表头文字;对于每个标题区域块中的表头文字,在历史表单数据库中查询该表头文字对应的表单版式,其中,历史表单数据库中预先存储有各个历史表头文字与表单版式之间的映射关系。
可选地,在将待识别表单原图输入至第一分类模型之前,还包括:获取待识别表单原图的原图比例,并按照原图比例将待识别表单原图的第一指定边调整至第一预设长度,其中,第一预设长度为预设标准图像的第一指定边长度;获取调整后的待识别表单原图的面积,并比较该面积与预设标准图像的面积,得到第一比较结果;当第一比较结果指示调整后的待识别表单原图的面积小于预设标准图像的面积时,按照预设填充策略填充待识别表单原图,得到填充后的待识别表单原图;当第一比较结果指示调整后的待识别表单原图的面积大于预设标准图像的面积时,按照原图比例将待识别表单原图的第二指定边调整至第二预设长度,其中,第二预设长度为预设标准图像的第二指定边长度;按照预设填充策略填充调整后的待识别表单原图,得到填充后的待识别表单原图。
可选地,预设填充策略包括:获取调整后的待识别表单原图与预设标准图像的面积差值;基于面积差值,在调整后的待识别表单原图上按照预设颜色的色块进行填充。
需要说明的是,版式分类之后可以对待识别表单原图按照版式进行切割,得到切割碎片之后再依次对切割碎片的图片来源以及待识别文本样式进行分类,分类对象既可以是完整原图也可以是切割碎片,若选择切割碎片作为分类对象,需要对切割碎片进行预处理。
需要说明的是,由于版式切割过程中长宽容易出现畸变,例如,通常情况下会扩充5px,为避免边界误差,需要对切割碎片的长度和宽度固定为预设大小,例如,512px*64px,若长度小于预设长度,对于不足的色块使用预设色块进行填充,而对于超长的情况,对切割碎片进行缩放之后再对于不足的色块使用预设色块进行填充,一般情况下,预设色块的颜色选用白色。
步骤S103,调取与每张待识别表单原图的第一分类结果对应的区域定位模型,将该待识别表单原图输入至区域定位模型,输出区域定位图像,其中,区域定位图像包括:待识别区域、条目标注,待识别区域是由区域定位模型基于表单版式对待识别表单原图进行定位切割得到,条目标注是指区域定位模型对待识别区域中待识别文本的所属条目进行标注的结果。
需要说明的是,待识别区域中待识别文本的所属条目包括:产品名称、产品编码、申请人姓名、申请人性别、证件类型、证件号码、主要收入来源、年收入、单位名称、单位地址、联系人姓名、联系人手机号码、与申请人关系、申请分期品种、分期金额、申请人签字、申请日期等。
步骤S104,将区域定位图像输入至第二分类模型,输出第二分类结果,其中,第二分类结果是指第二分类模型对每张区域定位图像中的待识别文本是否带框进行分类的结果。
需要说明的是,区域定位图像中的待识别区域中的待识别文本可能会出现有框和无框两种形式,带框文字与不带框文字在识别过程中对于文字识别模型的参数要求不同,由于有框文字在填写过程中受到框线限制,字符之间有大致固定的间距,便于模型提取识别特征,识别难度会小于无框文字,带框文字与不带框文字所需要的文字识别模型的具体参数也不相同。
步骤S105,调取与每张区域定位图像的第二分类结果对应的文本识别模型,将该区域定位图像输入文本识别模型,输出待识别区域的文本识别结果。
需要说明的是,步骤S103中对于待识别区域进行区域定位时,还对待识别区域中的待识别文本的所属条目进行了标注,那么在步骤S105中对于区域定位图像中的待识别区域进行文本识别之后,可以将文本识别结果与其条目标注建立映射关系再进行输出,例如,某区域定位图像中待识别区域的文本识别结果为“123456789”,该区域定位图像中的条目标注为“产品编码”,可以将“123456789”与“产品编码”之间建立映射关系再输出,便于后续进行信息整理和归档。
本发明实施例中,先对特征差异较大的待识别表单原图或版式切割碎片进行特征隔离,再对隔离后的待识别表单原图进行定位标注,或进行定位分割和适当的预处理(填充、腐蚀、调整)得到待识别文本区域,然后送入相应的文本识别模型做文本识别,该方法通用性强,将图像特征差异较大的印刷体和手写体、拍照图和扫描图、带框文本和不框文本这3类图像进行分类,分类后的操作独立,可以一定程度上提高申请表单的文本识别率。
本发明实施例中所有的模型都可以并行处理待识别表单原图,支持批量操作。
下面结合另一种具体的实施方式来说明本发明。
本发明实施例中提供一种能够提高对申请表ORC文本识别率的通用方法,通过两种图像分类模型将特征差异较大的待识别表单原图(例如,拍照图和扫描图、印刷体和手写体、带框文本和不带框文本)进行分类隔离,再将分好类的待识别表单原图输入与其特征对应的区域定位模型和文本识别模型进行针对性的待识别区域定位和待识别文本识别,输出对应的识别结果,该方法通用性强,分类后的定位和识别操作独立,可以对复杂场景下的所有表单图像都保证良好可靠的识别率。
本发明实施例中,需要预先准备两种图像分类模型、P种区域定位模型和Q种文本识别模型,其中,P、Q均为整数。
本发明实施例中,两种图像分类模型包括:第一分类模型、第二分类模型,其中,第一分类模型负责对输入模型的待识别表单原图进行分类隔离,分类隔离的标准有以下三种:版式标准、图片来源标准、文本样式标准,下面对这三种标准逐一做详细说明。
版式标准指的是实际业务场景中填写的表单的版式,即表单布局。一般情况下相同业务场景下各业务表单的表单版式也是统一的,有时会受业务扩张或季度更替等原因的影响而采用不同版式的表单,但同一业务的不同表单上的受关注内容/待识别文本是相同的。
图2是根据本发明实施例的一种可选的某金融机构***申请表整合版表单的示意图。
图3是根据本发明实施例的一种可选的某金融机构***申请表主副卡版表单的示意图。
如图2和图3所示,两张表单上待采集的申请人信息和产品信息都是相同的,只是由于表单版式的不同,具***置有差异,例如,产品名称及产品编码待填写栏在图2的整合版***申请表中位于表单标题栏的正下方,同样的内容在图3的主副卡版***申请表中位于表单标题栏右侧。由于同样的待识别内容在两种不同版式的图像上具有上述布局上的差异,需要用到第一分类模型将不同版式的待识别表单原图分开,将同一版式的表单图像输入对应的区域定位模型直接定位待识别区域,提高定位效率。
二是图片来源标准,本发明实施例中的待识别表单图像一般包括:拍照图像、扫描图像。拍照图像和扫描图像的清晰度、分辨率、色彩、比例等图像特征均有所差异,特征差异对于区域定位和文本识别均存在一定影响。
三是文本样式标准,本发明实施例中的待识别文本一般包括:印刷体文本、手写体文本。
需要说明的是,本实施例可以选取ResNet18作为第一分类模型的分类算法对待识别表单原图进行分类,ResNet18包括卷积层和全连接层在内共18层。
需要说明的是,分类过程中不能人为纠正模型分类错误,例如,分类模型误将手写体拍照识别为印刷体拍照,则分类时应以模型判断为主,避免对模型训练造成干扰。
本发明实施例中,还需根据第一分类结果预先准备P种区域定位模型,P≥4,在仅含1种表单版式的情况下,区域定位模型的种类分为:印刷体拍照图像定位模型、印刷体扫描图像定位模型、手写体拍照图像定位模型、手写体扫描图像定位模型,当表单版式类型增加(例如,版式1、版式2),区域定位模型的类型随之适应性增加(在2种表单版式情况下,共有8种类型的区域定位图像)。
图4是根据本发明实施例的一种对某金融机构***申请表主副卡版表单进行局部标注的示意图,如图4所示,区域定位模型基于主副卡版的***申请表版式对姓名栏、性别栏、证件类型栏、证件号码栏进行定位框选(图4中以加粗黑色线框示意),并对该框选区域的所属条目进行标注(图4中以加粗黑色线框上的文字标注示意)与切割,生成区域定位图像。
本发明实施例中,还需要预先准备第二分类模型用于对区域定位图像中的待识别区域中是否带框进行分类,带框文字与不带框文字在识别过程中对于文字识别模型的参数要求不同,如图4中的申请人姓名一栏为无框文字,填写过程中可能会出现字符间距过小导致识别难度大的问题,而图4中的证件号码一栏为有框文字,填写过程中由于框线限制,字符间距大致固定,有框文字的识别难度小于无框文字,二者所需要的文字识别模型不相同。
本发明实施例中还需预先准备Q种文本识别模型,不同类别(印刷体与手写体、拍照图像与扫描图像、带框文字与不带框文字)的区域定位图像所用到的文本识别模型均不相同,但版式类型不同的区域定位图像可以复用相同的文本识别模型。
需要说明的是,可以选取改进后的CRNN作为文本识别模型,在CRNN原始结构上添加一个TPS层,用于适应手写体文本,识别倾斜文字。
准备好以上模型之后,可以对具体表单图像进行文本识别。
图5是根据本发明实施例的一种可选的提高文本识别率的方法的流程图,如图5所示,该方法的流程包括:
1,接受待识别表单原图。
2,将待识别表单原图输入第一分类模型,依次进行表单版式分类、图片来源分类、待识别文本样式分类,生成第一分类结果,其中,版式分类之后可以对待识别表单原图按照版式进行切割,得到切割碎片之后再依次对切割碎片的图片来源以及待识别文本样式进行分类,分类对象既可以是完整原图也可以是切割碎片,本发明实施例对此不做限制。
需要说明的是,若选择切割碎片作为分类对象,需要对切割碎片进行预处理。
由于版式切割过程中长宽容易出现畸变,例如,通常情况下会扩充5px,为避免边界误差,需要对切割碎片的长度和宽度固定为预设大小,例如,512px*64px,若长度小于预设长度,对于不足的色块进行白色填充,而对于超长的情况,对切割碎片进行缩放,再对于不足的色块进行白色填充。
3,基于分类结果(拍照图像或扫描图像、手写体或印刷体、版式类型),将待识别表单原图送入对应的区域定位模型进行待识别区域的定位切割与标注,或将按版式切割之后的切割碎片送入对应的区域定位模型进行定位标注。
4,将区域定位图像送入至第二分类模型对待识别区域内是否为带框文本进行分类。
5,将分好类的区域定位图像输入至对应的文本识别模型(带框手写体识别模型、带框印刷体识别模型、不带框手写体识别模型、不带框印刷体识别模型)进行文本识别,输出文本识别结果。
本发明实施例提供了一种能够提高申请表文本识别率的通用方法,克服了目前文本识别***应用及开发上存在通用性不强的缺陷,先对特征差异较大的待识别表单原图进行隔离,再对隔离后的待识别表单原图进行定位标注,或进行定位分割和适当的预处理(填充、腐蚀、调整)得到待识别文本区域,然后送入相应的文本识别模型做文本识别。
本发明实施例提出的该方法通用性强,将图像特征差异较大的印刷体和手写体、拍照图和扫描图、带框文本和不框文本这3类图像进行分类,分类后的操作独立,可以一定程度上提高申请表单的文本识别率。
本发明实施例中所有的模型都可以并行处理待识别表单原图,支持批量操作。
下面结合另一种可选的实施例来说明本发明。
实施例二
本实施例中提供的一种软件程序代码的测试装置包含了多个实施单元,每个实施单元对应于上述实施例一中的各个实施步骤。
图6是根据本发明实施例的一种可选的表单图像的文本识别装置的示意图,如图6所示,该装置可以包括:接收单元61,第一输入单元62,第一调取单元63,第二输入单元64,第二调取单元65,其中,
接收单元61,用于接收待识别表单原图;
第一输入单元62,用于将待识别表单原图输入至第一分类模型,输出第一分类结果,其中,第一分类结果是指第一分类模型对每张待识别表单原图的表单版式、图像来源、待识别文本样式进行分类的结果;
第一调取单元63,用于调取与每张待识别表单原图的第一分类结果对应的区域定位模型,将该待识别表单原图输入至区域定位模型,输出区域定位图像,其中,区域定位图像包括:待识别区域、条目标注,待识别区域是由区域定位模型基于表单版式对待识别表单原图进行定位切割得到,条目标注是指区域定位模型对待识别区域中待识别文本的所属条目进行标注的结果;
第二输入单元64,用于将区域定位图像输入至第二分类模型,输出第二分类结果,其中,第二分类结果是指第二分类模型对每张区域定位图像中的待识别文本是否带框进行分类的结果;
第二调取单元65,用于调取与每张区域定位图像的第二分类结果对应的文本识别模型,将该区域定位图像输入文本识别模型,输出待识别区域的文本识别结果。
上述文本识别装置,可以先通过接收单元61接收待识别表单原图,再通过第一输入单元62输入至第一分类模型,输出第一分类结果,包括对每张待识别表单原图的表单版式、图像来源、待识别文本样式进行分类的结果,再通过第一调取单元63调取与第一分类结果对应的区域定位模型并将该待识别表单原图输入至区域定位模型,输出区域定位图像,区域定位图像包括:待识别区域、条目标注,然后通过第二输入单元64将区域定位图像输入至第二分类模型,输出对每张区域定位图像中的待识别文本是否带框进行分类的第二分类结果,最后通过第二调取单元65调取与第二分类结果对应的文本识别模型并将该区域定位图像输入至文本识别模型,输出待识别区域的文本识别结果。
在本发明实施例中,通过第一分类模型将待识别表单原图按照表单版式、图像来源、待识别文本样式的特征差异进行分类,按照分类结果输入至适应的区域定位模型进行待识别区域定位,输出区域定位图像,通过第二分类模型将区域定位图像中的待识别文本分为带框与不带框两类,输入至不同的文本识别模型进行文本识别,得到文本识别结果,利用分类将图像特征差异较大的图像以及待识别文本是否带框的情况进行分类隔离后,对不同的图像进行区域定位和文本识别,能够适用于不同的表单图像,通用性强,进而解决了相关技术中无法对表单版式、图像来源、待识别文本样式差异较大的表单图像进行通用性识别的技术问题。
可选地,第一分类结果包括:表单版式分类结果、图像来源分类结果、待识别文本样式分类结果,其中,表单版式分类结果包括:N个版式,N为正整数,图像来源分类结果包括下述至少之一:拍照图像、扫描图像,待识别文本样式分类结果包括下述至少之一:手写体文本、印刷体文本。
可选地,第一输入单元包括:提取模块,用于提取待识别表单原图中的标题区域块以及每个标题区域块中的表头文字;查询模块,用于对于每个标题区域块中的表头文字,在历史表单数据库中查询该表头文字对应的表单版式,其中,历史表单数据库中预先存储有各个历史表头文字与表单版式之间的映射关系。
可选地,文本识别装置还包括:第一获取模块,用于获取待识别表单原图的原图比例,并按照原图比例将待识别表单原图的第一指定边调整至第一预设长度,其中,第一预设长度为预设标准图像的第一指定边长度;第二获取模块,用于获取调整后的待识别表单原图的面积,并比较该面积与预设标准图像的面积,得到第一比较结果;第一填充模块,用于当第一比较结果指示调整后的待识别表单原图的面积小于预设标准图像的面积时,按照预设填充策略填充待识别表单原图,得到填充后的待识别表单原图;第一调整模块,用于当第一比较结果指示调整后的待识别表单原图的面积大于预设标准图像的面积时,按照原图比例将待识别表单原图的第二指定边调整至第二预设长度,其中,第二预设长度为预设标准图像的第二指定边长度;第二填充模块,用于按照预设填充策略填充调整后的待识别表单原图,得到填充后的待识别表单原图。
可选地,第一填充模块包括:获取子模块,用于获取调整后的待识别表单原图与预设标准图像的面积差值;填充子模块,用于基于面积差值,在调整后的待识别表单原图上按照预设颜色的色块进行填充。
可选地,文本识别装置还包括:第三获取模块,用于获取M张历史表单图像,M为正整数;第一接收模块,用于接收外部设备输入的每张历史表单图像的第一分类结果;第一输入模块,用于将每张历史表单图像输入初始分类模型,输出对应该历史表单图像的第一模型分类结果,第一模型分类结果包括:表单版式分类结果、图像来源分类结果、待识别文本样式分类结果;第一比对模块,用于比对历史表单图像的第一分类结果与第一模型分类结果,得到第一比对结果;第二调整模块,用于在第一比对结果指示第一分类结果与第一模型分类结果不一致的情况下,调整初始分类模型各网络层的参数;第一迭代模块,用于对初始分类模型进行迭代训练,直至M张历史表单图像全部输入完毕,得到第一分类模型。
可选地,第一接收模块包括:第一分类子模块,用于基于表单版式分类标准对每张历史表单图像的表单版式进行分类,得到表单版式分类结果;第二分类子模块,用于对表单版式分类结果中的历史表单图像的图像来源进行分类,得到图片来源分类结果,其中,图像来源包括:拍照图像、扫描图像;第三分类子模块,用于对图片来源分类结果中的历史表单图像的待识别文本样式进行分类,得到待识别文本样式分类结果,其中,待识别文本样式包括:手写体文本、印刷体文本;整合子模块,用于整合表单版式分类结果、图像来源分类结果、待识别文本样式分类结果,得到第一分类结果。
可选地,文本识别装置还包括:第一调取模块,用于调取与每张历史表单图像的第一模型分类结果对应的初始区域定位模型,将该历史表单图像输入至该初始区域定位模型,输出模型定位图像;第四获取模块,用于基于预设清晰度原则,获取模型定位图像中待识别文本的清晰度,得到第一获取结果,由第一获取结果确定待识别文本是否清晰;第五获取模块,用于基于预设完整性原则,获取模型定位图像中待识别文本的完整度,得到第二获取结果,由第二获取结果确定待识别文本是否完整;第三调整模块,用于在待识别文本不清晰或者待识别文本不完整的情况下,调整初始区域定位模型各网络层的参数;第二迭代模块,用于对初始区域定位模型进行迭代训练,直至M张历史表单图像全部输入完毕,得到区域定位模型和Q张模型定位图像,其中,Q为大于等于M的整数。
可选地,文本识别装置还包括:第二接收模块,用于接收外部设备输入的每张模型定位图像的第二分类结果,其中,第二分类结果包括:带框文本、不带框文本;第二输入模块,用于将每张模型定位图像输入至初始分类模型,初始分类模型对每张模型定位图像中的待识别文本是否带框进行分类,输出第二模型分类结果;第二比对模块,用于比对模型定位图像的第二分类结果与第二模型分类结果,得到第二比对结果;第四调整模块,用于在第二比对结果指示第二分类结果与第二模型分类结果不一致的情况下,调整初始分类模型各网络层的参数;第三迭代模块,用于对初始分类模型进行迭代训练,直至Q张模型定位图像全部输入完毕,得到第二分类模型。
可选地,文本识别装置还包括:第三接收模块,用于接收外部设备输入的每张模型定位图像中的文本内容;第二调取模块,用于调取与每张模型定位图像的第二模型分类结果对应的初始文本识别模型,将该模型定位图像输入该初始文本识别模型,输出模型识别结果;第三比对模块,用于比对模型定位图像中的文本内容和模型识别结果中的文本内容之间的相似度;第五调整模块,用于在相似度小于预设相似度阈值的情况下,调整初始文本识别模型各网络层的参数;第四迭代模块,用于对初始文本识别模型进行迭代训练,直至Q张模型定位图像全部输入完毕,得到文本识别模型。
上述的软件程序代码的测试装置还可以包括处理器和存储器,上述接收单元61,第一输入单元62,第一调取单元63,第二输入单元64,第二调取单元65等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来输出待识别区域的文本识别结果。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:接收待识别表单原图;将待识别表单原图输入至第一分类模型,输出第一分类结果,其中,第一分类结果是指第一分类模型对每张待识别表单原图的表单版式、图像来源、待识别文本样式进行分类的结果;调取与每张待识别表单原图的第一分类结果对应的区域定位模型,将该待识别表单原图输入至区域定位模型,输出区域定位图像,其中,区域定位图像包括:待识别区域、条目标注,待识别区域是由区域定位模型基于表单版式对待识别表单原图进行定位切割得到,条目标注是指区域定位模型对待识别区域中待识别文本的所属条目进行标注的结果;将区域定位图像输入至第二分类模型,输出第二分类结果,其中,第二分类结果是指第二分类模型对每张区域定位图像中的待识别文本是否带框进行分类的结果;调取与每张区域定位图像的第二分类结果对应的文本识别模型,将该区域定位图像输入文本识别模型,输出待识别区域的文本识别结果。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的表单图像的文本识别方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述任意一项的表单图像的文本识别方法。
图7是根据本发明实施例的一种用于表单图像的文本识别方法的电子设备(或移动设备)的硬件结构框图。如图7所示,电子设备可以包括一个或多个(图7中采用702a、702b,……,702n来示出)处理器702(处理器702可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器704。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (13)

1.一种表单图像的文本识别方法,其特征在于,包括:
接收待识别表单原图;
将所述待识别表单原图输入至第一分类模型,输出第一分类结果,其中,所述第一分类结果是指由所述第一分类模型对每张所述待识别表单原图的表单版式、图像来源、待识别文本样式进行分类的结果;
调取与每张所述待识别表单原图的所述第一分类结果对应的区域定位模型,将该待识别表单原图输入至所述区域定位模型,输出区域定位图像,其中,所述区域定位图像包括:待识别区域、条目标注,所述待识别区域是由所述区域定位模型基于所述表单版式对所述待识别表单原图进行定位切割得到,所述条目标注是指所述区域定位模型对所述待识别区域中待识别文本的所属条目进行标注的结果;
将所述区域定位图像输入至第二分类模型,输出第二分类结果,其中,所述第二分类结果是指由所述第二分类模型对每张所述区域定位图像中的所述待识别文本是否带框进行分类的结果;
调取与每张所述区域定位图像的所述第二分类结果对应的文本识别模型,将该区域定位图像输入所述文本识别模型,输出所述待识别区域的文本识别结果。
2.根据权利要求1所述的文本识别方法,其特征在于,所述第一分类结果包括:表单版式分类结果、图像来源分类结果、待识别文本样式分类结果,其中,所述表单版式分类结果包括:N个版式,N为正整数,所述图像来源分类结果包括下述至少之一:拍照图像、扫描图像,所述待识别文本样式分类结果包括下述至少之一:手写体文本、印刷体文本。
3.根据权利要求1所述的文本识别方法,其特征在于,由所述第一分类模型对每张所述待识别表单原图的表单版式进行分类的步骤,包括:
提取所述待识别表单原图中的标题区域块以及每个所述标题区域块中的表头文字;
对于每个所述标题区域块中的表头文字,在历史表单数据库中查询该表头文字对应的所述表单版式,其中,所述历史表单数据库中预先存储有各个历史表头文字与表单版式之间的映射关系。
4.根据权利要求1所述的文本识别方法,其特征在于,在将所述待识别表单原图输入至第一分类模型之前,还包括:
获取所述待识别表单原图的原图比例,并按照所述原图比例将待识别表单原图的第一指定边调整至第一预设长度,其中,所述第一预设长度为预设标准图像的第一指定边长度;
获取调整后的所述待识别表单原图的面积,并比较该面积与所述预设标准图像的面积,得到第一比较结果;
当所述第一比较结果指示调整后的所述待识别表单原图的面积小于所述预设标准图像的面积时,按照预设填充策略填充所述待识别表单原图,得到填充后的待识别表单原图;
当所述第一比较结果指示调整后的所述待识别表单原图的面积大于所述预设标准图像的面积时,按照所述原图比例将待识别表单原图的第二指定边调整至第二预设长度,其中,第二预设长度为所述预设标准图像的第二指定边长度;
按照所述预设填充策略填充调整后的所述待识别表单原图,得到填充后的待识别表单原图。
5.根据权利要求4所述的文本识别方法,其特征在于,所述预设填充策略包括:
获取调整后的所述待识别表单原图与所述预设标准图像的面积差值;
基于面积差值,在调整后的所述待识别表单原图上按照预设颜色的色块进行填充。
6.根据权利要求1所述的文本识别方法,其特征在于,所述第一分类模型是通过以下方法得到的:
获取M张历史表单图像,M为正整数;
接收外部设备输入的每张所述历史表单图像的第一分类结果;
将每张所述历史表单图像输入初始分类模型,输出对应该历史表单图像的第一模型分类结果,所述第一模型分类结果包括:表单版式分类结果、图像来源分类结果、待识别文本样式分类结果;
比对所述历史表单图像的所述第一分类结果与所述第一模型分类结果,得到第一比对结果;
在所述第一比对结果指示所述第一分类结果与所述第一模型分类结果不一致的情况下,调整所述初始分类模型各网络层的参数;
对所述初始分类模型进行迭代训练,直至所述M张历史表单图像全部输入完毕,得到所述第一分类模型。
7.根据权利要求6所述的文本识别方法,其特征在于,每张所述历史表单图像的第一分类结果是预先生成的,在生成所述第一分类结果时,包括:
基于表单版式分类标准对每张所述历史表单图像的表单版式进行分类,得到表单版式分类结果;
对所述表单版式分类结果中的所述历史表单图像的图像来源进行分类,得到图片来源分类结果,其中,所述图像来源包括:拍照图像、扫描图像;
对所述图片来源分类结果中的所述历史表单图像的待识别文本样式进行分类,得到待识别文本样式分类结果,其中,所述待识别文本样式包括:手写体文本、印刷体文本;
整合所述表单版式分类结果、所述图像来源分类结果、所述待识别文本样式分类结果,得到所述第一分类结果。
8.根据权利要求6所述的文本识别方法,其特征在于,所述区域定位模型是通过以下方法得到的:
调取与每张所述历史表单图像的所述第一模型分类结果对应的初始区域定位模型,将该历史表单图像输入至该初始区域定位模型,输出模型定位图像;
基于预设清晰度原则,获取所述模型定位图像中待识别文本的清晰度,得到第一获取结果,由所述第一获取结果确定所述待识别文本是否清晰;
基于预设完整性原则,获取所述模型定位图像中待识别文本的完整度,得到第二获取结果,由所述第二获取结果确定所述待识别文本是否完整;
在所述待识别文本不清晰或者所述待识别文本不完整的情况下,调整所述初始区域定位模型各网络层的参数;
对所述初始区域定位模型进行迭代训练,直至所述M张历史表单图像全部输入完毕,得到所述区域定位模型和Q张模型定位图像,其中,Q为大于等于M的整数。
9.根据权利要求8所述的文本识别方法,其特征在于,所述第二分类模型是通过以下方法得到的:
接收外部设备输入的每张所述模型定位图像的第二分类结果,其中,第二分类结果包括:带框文本、不带框文本;
将每张所述模型定位图像输入至初始分类模型,所述初始分类模型对每张所述模型定位图像中的所述待识别文本是否带框进行分类,输出第二模型分类结果;
比对所述模型定位图像的所述第二分类结果与所述第二模型分类结果,得到第二比对结果;
在所述第二比对结果指示第二分类结果与所述第二模型分类结果不一致的情况下,调整所述初始分类模型各网络层的参数;
对所述初始分类模型进行迭代训练,直至所述Q张模型定位图像全部输入完毕,得到所述第二分类模型。
10.根据权利要求9所述的文本识别方法,其特征在于,所述文本识别模型是通过以下方法得到的:
接收外部设备输入的每张所述模型定位图像中的文本内容;
调取与每张所述模型定位图像的所述第二模型分类结果对应的初始文本识别模型,将该模型定位图像输入该初始文本识别模型,输出模型识别结果;
比对所述模型定位图像中的文本内容和所述模型识别结果中的文本内容之间的相似度;
在所述相似度小于预设相似度阈值的情况下,调整所述初始文本识别模型各网络层的参数;
对所述初始文本识别模型进行迭代训练,直至所述Q张模型定位图像全部输入完毕,得到所述文本识别模型。
11.一种表单图像的文本识别装置,其特征在于,包括:
接收单元,用于接收待识别表单原图;
第一输入单元,用于将所述待识别表单原图输入至第一分类模型,输出第一分类结果,其中,所述第一分类结果是指由所述第一分类模型对每张所述待识别表单原图的表单版式、图像来源、待识别文本样式进行分类的结果;
第一调取单元,用于调取与每张所述待识别表单原图的所述第一分类结果对应的区域定位模型,将该待识别表单原图输入至所述区域定位模型,输出区域定位图像,其中,所述区域定位图像包括:待识别区域、条目标注,所述待识别区域是由所述区域定位模型基于所述表单版式对所述待识别表单原图进行定位切割得到,所述条目标注是指所述区域定位模型对所述待识别区域中待识别文本的所属条目进行标注的结果;
第二输入单元,用于将所述区域定位图像输入至第二分类模型,输出第二分类结果,其中,所述第二分类结果是指由所述第二分类模型对每张所述区域定位图像中的所述待识别文本是否带框进行分类的结果;
第二调取单元,用于调取与每张所述区域定位图像的所述第二分类结果对应的文本识别模型,将该区域定位图像输入所述文本识别模型,输出所述待识别区域的文本识别结果。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至10中任意一项所述的表单图像的文本识别方法。
13.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至10中任意一项所述的表单图像的文本识别方法。
CN202310756232.9A 2023-06-25 2023-06-25 表单图像的文本识别方法及其装置、电子设备、存储介质 Pending CN116758550A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310756232.9A CN116758550A (zh) 2023-06-25 2023-06-25 表单图像的文本识别方法及其装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310756232.9A CN116758550A (zh) 2023-06-25 2023-06-25 表单图像的文本识别方法及其装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN116758550A true CN116758550A (zh) 2023-09-15

Family

ID=87951094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310756232.9A Pending CN116758550A (zh) 2023-06-25 2023-06-25 表单图像的文本识别方法及其装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN116758550A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131838A (zh) * 2023-10-24 2023-11-28 天津异乡好居网络科技股份有限公司 基于表单图像的表单页面生成方法、装置、电子设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131838A (zh) * 2023-10-24 2023-11-28 天津异乡好居网络科技股份有限公司 基于表单图像的表单页面生成方法、装置、电子设备和介质
CN117131838B (zh) * 2023-10-24 2024-02-09 天津异乡好居网络科技股份有限公司 基于表单图像的表单页面生成方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
US9542752B2 (en) Document image compression method and its application in document authentication
US11657631B2 (en) Scalable, flexible and robust template-based data extraction pipeline
US7272269B2 (en) Image processing apparatus and method therefor
US9769354B2 (en) Systems and methods of processing scanned data
JP5431754B2 (ja) フォトガイドの自動生成
US7505178B2 (en) Semantic classification and enhancement processing of images for printing applications
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
US7519221B1 (en) Reconstructing high-fidelity electronic documents from images via generation of synthetic fonts
US20150339526A1 (en) Systems and methods for classifying objects in digital images captured using mobile devices
US7630544B1 (en) System and method for locating a character set in a digital image
JPH07200720A (ja) 脱落書式文書画像圧縮
CN110807454B (zh) 基于图像分割的文字定位方法、装置、设备及存储介质
CN114283156B (zh) 一种用于去除文档图像颜色及手写笔迹的方法及装置
CN116758550A (zh) 表单图像的文本识别方法及其装置、电子设备、存储介质
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN112949455A (zh) 一种增值税***识别***及方法
KR20010015046A (ko) 구조화된 배경 모델과 문자의 조합에 의한 배경위의 문자자동 인식 방법
US8411940B2 (en) Method for fast up-scaling of color images and method for interpretation of digitally acquired documents
CN114445841A (zh) 纳税申报表识别方法和装置
CN116798061A (zh) 一种票据审核识别方法、装置、终端和存储介质
US20240144711A1 (en) Reliable determination of field values in documents with removal of static field elements
CN108133205B (zh) 复制图像中文本内容的方法及装置
CN113793264B (zh) 一种基于卷积模型的档案图像处理方法、***和电子设备
US6678427B1 (en) Document identification registration system
Konya et al. Adaptive methods for robust document image understanding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination