CN114782974A - 表格识别方法、***、智能终端及计算机可读存储介质 - Google Patents
表格识别方法、***、智能终端及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114782974A CN114782974A CN202210539783.5A CN202210539783A CN114782974A CN 114782974 A CN114782974 A CN 114782974A CN 202210539783 A CN202210539783 A CN 202210539783A CN 114782974 A CN114782974 A CN 114782974A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- information
- noise reduction
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
Abstract
本发明公开了表格识别方法、***、智能终端及计算机可读存储介质,其中,上述方法包括:获取待处理图像,对待处理图像进行字符识别,获取待处理图像中的文本信息;获取待处理图像的图像特征,并根据图像特征和文本信息对待处理图像进行倾斜角度矫正获得矫正图像,并对文本信息进行倾斜角度矫正获得文本矫正信息;根据预先训练好的表格区域检测模型分别获取矫正图像中的各个降噪表格区域,根据降噪表格区域对矫正图像进行裁剪和拼接获得目标降噪图像,并根据目标降噪图像和文本矫正信息获得文本降噪信息;根据文本降噪信息和目标降噪图像进行表格结构识别并获得多个目标表格。与现有技术相比,本发明有利于提高表格识别的效率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及的是一种表格识别方法、***、智能终端及计算机可读存储介质。
背景技术
目前,表格的应用越来越广泛,需要用户处理的表格也越来越多。而对于图像或图片中的表格,往往无法实现直接提取、编辑和使用,依赖于人工识别和提取。
现有技术中,对于图像中的表格,需要由人工进行识别,并在电子设备上根据图像中的表格人工制作形成对应的表格。现有技术的问题在于,通过人工识别图像中的表格的方案不利于提高表格识别的效率。
因此,现有技术还有待改进和发展。
发明内容
本发明的主要目的在于提供一种表格识别方法、***、智能终端及计算机可读存储介质,旨在解决现有技术中通过人工识别图像中的表格的方案不利于提高表格识别的效率的问题。
为了实现上述目的,本发明第一方面提供一种表格识别方法,其中,上述方法包括:
获取待处理图像,对上述待处理图像进行字符识别,获取上述待处理图像中的文本信息,其中,上述待处理图像中包括至少一个表格,上述文本信息包括文本内容和文本框坐标;
获取上述待处理图像的图像特征,并根据上述图像特征和上述文本信息对上述待处理图像进行倾斜角度矫正获得矫正图像,并对上述文本信息进行倾斜角度矫正获得文本矫正信息,其中,上述图像特征包括上述待处理图像中的目标直线,上述目标直线的长度大于预设的长度阈值,上述文本矫正信息包括文本矫正内容和文本框矫正坐标;
根据预先训练好的表格区域检测模型分别获取上述矫正图像中的各个降噪表格区域,根据上述降噪表格区域对上述矫正图像进行裁剪和拼接获得目标降噪图像,并根据上述目标降噪图像和上述文本矫正信息获得文本降噪信息,其中,上述目标降噪图像中只包括所有上述降噪表格区域,上述文本降噪信息包括上述降噪表格区域范围内的文本降噪内容以及与上述文本降噪内容对应的文本框降噪坐标;
根据上述文本降噪信息和上述目标降噪图像进行表格结构识别并获得多个目标表格。
可选的,上述获取上述待处理图像的图像特征,并根据上述图像特征和上述文本信息对上述待处理图像进行倾斜角度矫正获得矫正图像,并对上述文本信息进行倾斜角度矫正获得文本矫正信息,包括:
对上述待处理图像进行霍夫变换,获得上述待处理图像中的至少一条横向长直线,上述横向长直线的长度大于上述长度阈值,上述长度阈值是上述待处理图像的宽度的一半;
将所有上述横向长直线中最长的一条作为上述目标直线;
根据上述目标直线和上述文本信息对上述待处理图像进行倾斜角度矫正获得矫正图像,并对上述文本信息进行倾斜角度矫正获得文本矫正信息。
可选的,上述根据上述目标直线和上述文本信息对上述待处理图像进行倾斜角度矫正获得矫正图像,并对上述文本信息进行倾斜角度矫正获得文本矫正信息,包括:
根据上述文本内容的长度和上述文本框坐标计算获取第一图像倾斜角度,根据上述目标直线计算获取第二图像倾斜角度;
根据上述第一图像倾斜角度和上述第二图像倾斜角度获取目标图像倾斜角度,其中,上述目标图像倾斜角度是第一绝对值和第二绝对值中的最大值,上述第一绝对值是上述第一图像倾斜角度的绝对值,上述第二绝对值是上述第二图像倾斜角度的绝对值;
根据上述目标图像倾斜角度对上述待处理图像进行旋转获得矫正图像;
根据上述目标图像倾斜角度对上述文本信息中的文本框坐标进行倾斜角度矫正获得文本框矫正坐标,将与各上述文本框矫正坐标对应的文本内容作为上述文本矫正信息中的文本矫正内容,构建上述文本矫正信息。
可选的,上述根据预先训练好的表格区域检测模型分别获取上述矫正图像中的各个降噪表格区域,根据上述降噪表格区域对上述矫正图像进行裁剪和拼接获得目标降噪图像,并根据上述目标降噪图像和上述文本矫正信息获得文本降噪信息,包括:
根据上述预先训练好的表格区域检测模型获取上述矫正图像中的各个表格区域;
根据预先训练好的表格单元框检测模型获取上述矫正图像中的各个表格单元框区域;
根据上述表格区域和上述表格单元框区域获取上述降噪表格区域;
根据上述降噪表格区域对上述矫正图像进行裁剪和拼接获得目标降噪图像;
将上述文本矫正信息中属于上述降噪表格区域内的上述文本矫正内容作为上述文本降噪内容,根据上述目标降噪图像、上述矫正图像以及上述文本框矫正坐标获取各上述文本降噪内容对应的文本框降噪坐标。
可选的,上述根据上述文本降噪信息和上述目标降噪图像进行表格结构识别并获得多个目标表格,包括:
获取上述目标降噪图像中各个表格单元框区域内的文本降噪内容,分别对各上述表格单元框区域内的文本降噪内容进行行列拼接调整获得各文本拼接内容,并获得各文本拼接内容对应的文本框拼接坐标,构建由上述文本拼接内容和上述文本框拼接坐标组成的文本拼接信息;
根据上述文本拼接信息、上述目标降噪图像以及预先训练的表格结构识别模型获取目标表格。
可选的,上述根据上述文本拼接信息、上述目标降噪图像以及预先训练的表格结构识别模型获取目标表格,包括:
通过预设的循环处理步骤进行处理并获得上述目标表格,其中,第i次循环处理步骤包括:
将输入数据输入上述表格结构识别模型进行表格识别并获得识别出的重构表格的待处理信息,其中,上述待处理信息包括上述重构表格的单元格行列信息、单元格坐标以及单元格文本内容;
根据预设的知识库对上述重构表格中的各个单元格文本内容进行修正,获得第一修正表格;
获取目标对象输入的表格确认信息,当上述表格确认信息是识别成功时,将上述第一修正表格作为上述目标表格,输出上述目标表格且循环结束;
当上述表格确认信息是识别有误时,获取上述目标对象输入的表格修改指令数据,根据上述表格修改指令数据对上述第一修正表格进行修正获得第二修正表格,并获得上述第二修正表格对应的修正图像、单元格文本内容以及单元格坐标,将上述第二修正表格对应的修正图像、单元格文本内容以及单元格坐标作为上述表格结构识别模型的输入数据并进行第i+1次循环;
其中,i为大于或等于1的整数,第1次循环时上述表格结构识别模型的输入数据包括上述文本拼接信息和上述目标降噪图像。
可选的,上述根据预设的知识库对上述重构表格中的各个单元格文本内容进行修正,获得第一修正表格,包括:
获取预设的知识库、预设的制表规则以及预先训练的语言模型;
提取上述知识库中的关键词,根据上述制表规则获取各上述关键词对应的行列关联信息;
根据上述关键词以及上述行列关联信息对上述重构表格的各个单元格文本内容进行修正,获得第一修正文本;
根据上述输入数据和上述第一修正文本获取上述第一修正文本对应的第一单字置信度,根据上述第一单字置信度以及上述语言模型对上述第一修正文本进行修正,获得第二修正文本;
根据上述输入数据获取上述第二修正文本对应的第二单字置信度,根据上述第二单字置信度、上述关键词以及预设的字形相似度阈值对上述第二修正文本进行字形匹配和修正,获得第三修正文本;
根据上述单元格行列信息、上述单元格坐标以及上述第三修正文本生成上述第一修正表格。
本发明第二方面提供一种表格识别***,其中,上述***包括:
待处理图像处理模块,用于获取待处理图像,对上述待处理图像进行字符识别,获取上述待处理图像中的文本信息,其中,上述待处理图像中包括至少一个表格,上述文本信息包括文本内容和文本框坐标;
矫正模块,用于获取上述待处理图像的图像特征,并根据上述图像特征和上述文本信息对上述待处理图像进行倾斜角度矫正获得矫正图像,并对上述文本信息进行倾斜角度矫正获得文本矫正信息,其中,上述图像特征包括上述待处理图像中的目标直线,上述目标直线的长度大于预设的长度阈值,上述文本矫正信息包括文本矫正内容和文本框矫正坐标;
降噪模块,用于根据预先训练好的表格区域检测模型分别获取上述矫正图像中的各个降噪表格区域,根据上述降噪表格区域对上述矫正图像进行裁剪和拼接获得目标降噪图像,并根据上述目标降噪图像和上述文本矫正信息获得文本降噪信息,其中,上述目标降噪图像中只包括所有上述降噪表格区域,上述文本降噪信息包括上述降噪表格区域范围内的文本降噪内容以及与上述文本降噪内容对应的文本框降噪坐标;
表格识别模块,用于根据上述文本降噪信息和上述目标降噪图像进行表格结构识别并获得多个目标表格。
本发明第三方面提供一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的表格识别程序,上述表格识别程序被上述处理器执行时实现任意一项上述表格识别方法的步骤。
本发明第四方面提供一种计算机可读存储介质,上述计算机可读存储介质上存储有表格识别程序,上述表格识别程序被处理器执行时实现任意一项上述表格识别方法的步骤。
由上可见,本发明方案中,获取待处理图像,对上述待处理图像进行字符识别,获取上述待处理图像中的文本信息,其中,上述待处理图像中包括至少一个表格,上述文本信息包括文本内容和文本框坐标;获取上述待处理图像的图像特征,并根据上述图像特征和上述文本信息对上述待处理图像进行倾斜角度矫正获得矫正图像,并对上述文本信息进行倾斜角度矫正获得文本矫正信息,其中,上述图像特征包括上述待处理图像中的目标直线,上述目标直线的长度大于预设的长度阈值,上述文本矫正信息包括文本矫正内容和文本框矫正坐标;根据预先训练好的表格区域检测模型分别获取上述矫正图像中的各个降噪表格区域,根据上述降噪表格区域对上述矫正图像进行裁剪和拼接获得目标降噪图像,并根据上述目标降噪图像和上述文本矫正信息获得文本降噪信息,其中,上述目标降噪图像中只包括所有上述降噪表格区域,上述文本降噪信息包括上述降噪表格区域范围内的文本降噪内容以及与上述文本降噪内容对应的文本框降噪坐标;根据上述文本降噪信息和上述目标降噪图像进行表格结构识别并获得多个目标表格。
与现有技术中需要通过人工识别图像中的表格并依赖于人工在电子设备上制作形成对应的表格的方案相比,本发明中可以对待处理图像中的表格进行自动识别,通过获取待处理图像中的文本信息,对待处理图像和识别获取的文本信息进行倾斜角度矫正和降噪,并最终获得待处理图像中的目标表格,无需人工对图像的内容逐一进行识别,有利于提高表格识别的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种表格识别方法的流程示意图;
图2是本发明实施例图1中步骤S200的具体流程示意图;
图3是本发明实施例提供的一种通过交互界面对表格进行框选和删除的示意图;
图4是本发明实施例提供的一种表格识别方法的具体流程示意图;
图5是本发明实施例提供的一种表格识别***的结构示意图;
图6是本发明实施例提供的另一种表格识别***的结构示意图;
图7是本发明实施例提供的一种智能终端的内部结构原理框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。类似的,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述的条件或事件]”或“响应于检测到[所描述条件或事件]”。
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
随着科学技术的发展和数字化时代的到来,计算机技术的发展越来越受到重视,计算机算力不断提升,人工智能技术也得到了进一步的发展。随着人工智能技术的发展,光学字符识别(OCR,Optical Character Recognition)这一技术也得到了较大的提升,其应用也越来越广泛。但在复杂的场景中,其面临的挑战性也较高。
目前,表格的应用越来越广泛,需要用户处理的表格也越来越多。各产业对扫描文档电子化的需求不断增加,随之而来的是越发复杂的应用场景。例如,在一家大型企业中,会面对不同种类的***、表单、报表、商业合同等不同结构的文档或图像(图片),需要对其中的版面信息进行分析,而版面中的表格信息又尤为重要。与此同时,表格结构***,采用简单的模板匹配难以适应大部分的需求。因此对于图像中的表格,往往无法实现直接提取、编辑和使用,依赖于人工识别和提取。
现有技术中,对于文档或图像中的表格,需要由人工进行识别,并在电子设备上根据图像中的表格人工制作形成对应的表格。现有技术的问题在于,通过人工识别图像中的表格的方案不利于提高表格识别的效率,且需要耗费大量的人力资源,不利于节省人力资源。
为了解决上述多个问题中的至少一个问题,本发明方案中,获取待处理图像,对上述待处理图像进行字符识别,获取上述待处理图像中的文本信息,其中,上述待处理图像中包括至少一个表格,上述文本信息包括文本内容和文本框坐标;获取上述待处理图像的图像特征,并根据上述图像特征和上述文本信息对上述待处理图像进行倾斜角度矫正获得矫正图像,并对上述文本信息进行倾斜角度矫正获得文本矫正信息,其中,上述图像特征包括上述待处理图像中的目标直线,上述目标直线的长度大于预设的长度阈值,上述文本矫正信息包括文本矫正内容和文本框矫正坐标;根据预先训练好的表格区域检测模型分别获取上述矫正图像中的各个降噪表格区域,根据上述降噪表格区域对上述矫正图像进行裁剪和拼接获得目标降噪图像,并根据上述目标降噪图像和上述文本矫正信息获得文本降噪信息,其中,上述目标降噪图像中只包括所有上述降噪表格区域,上述文本降噪信息包括上述降噪表格区域范围内的文本降噪内容以及与上述文本降噪内容对应的文本框降噪坐标;根据上述文本降噪信息和上述目标降噪图像进行表格结构识别并获得多个目标表格。
与现有技术中需要通过人工识别图像中的表格并依赖于人工在电子设备上制作形成对应的表格的方案相比,本发明中可以对待处理图像中的表格进行自动识别,通过获取待处理图像中的文本信息,对待处理图像和识别获取的文本信息进行倾斜角度矫正和降噪,并最终获得待处理图像中的目标表格,无需人工对图像的内容逐一进行识别,有利于提高表格识别的效率,且有利于节省人力资源。
示例性方法
如图1所示,本发明实施例提供一种表格识别方法,具体的,上述方法包括如下步骤:
步骤S100,获取待处理图像,对上述待处理图像进行字符识别,获取上述待处理图像中的文本信息。
其中,上述待处理图像中包括至少一个表格,上述文本信息包括文本内容和文本框坐标。
上述待处理图像是需要进行表格识别的图像(或图片)。本实施例中,对上述待处理图像进行OCR识别,获取其中的文本信息。具体的,对待处理图像进行识别可以获得其中各个位置的文本内容,以及各个文本内容对应的文本框坐标。上述文本内容与上述文本框坐标一一对应,需要说明的是,一个文本框坐标中对应包括该文本框的四个订单的坐标。
本实施例中,上述文本框坐标对应的坐标系可以是预先建立的世界坐标系,在对图像进行倾斜角度矫正或者去噪的过程中坐标系不发生变化,从而不需要反复建立坐标系,降低计算过程的复杂度。
步骤S200,获取上述待处理图像的图像特征,并根据上述图像特征和上述文本信息对上述待处理图像进行倾斜角度矫正获得矫正图像,并对上述文本信息进行倾斜角度矫正获得文本矫正信息。
其中,上述图像特征包括上述待处理图像中的目标直线,上述目标直线的长度大于预设的长度阈值,上述文本矫正信息包括文本矫正内容和文本框矫正坐标。
需要说明的是,在实际使用过程中,待处理图像输入时方向可能有倾斜,从而导致其中的表格也是倾斜的,或者在截取获得待处理图像时其中的表格就是倾斜的,因此,需要针对表格对上述待处理图像进行倾斜角度矫正。
具体的,本实施例中,以获得的上述文本框坐标、文本内容以及原始的待处理图像作为图像矫正过程中的输入,对倾斜的待处理图像进行矫正,获得矫正图像。
本实施例中,如图2所示,上述步骤S200具体包括如下步骤:
步骤S201,对上述待处理图像进行霍夫变换,获得上述待处理图像中的至少一条横向长直线,上述横向长直线的长度大于上述长度阈值,上述长度阈值是上述待处理图像的宽度的一半。
步骤S202,将所有上述横向长直线中最长的一条作为上述目标直线。
步骤S203,根据上述目标直线和上述文本信息对上述待处理图像进行倾斜角度矫正获得矫正图像,并对上述文本信息进行倾斜角度矫正获得文本矫正信息。
具体的,针对原始的待处理图像,采用霍夫变换得到图中的长直线,综合字符识别时获得的文本信息,可以得到图像倾斜的角度,从而将待处理图像进行旋转获得矫正以后的矫正图像,矫正图像中,相对于预先建立的世界坐标系,表格是沿竖直方向从上到下,并且沿水平方向从左到右的。
上述长度阈值是预先设定的用于判定直线的阈值,上述长度阈值可以为预先设定的固定值,也可以预先设置为待处理图像宽度的一半,还可以根据实际需求进行调整,在此不做具体限定。上述横向长直线是沿坐标系的横轴方向的直线,即可以认为是表格中的一根横线,具体的,可能获得多条横向长直线,但本实施例中仅保留最长的一条横向长直线作为后续判断过程中需要使用的目标直线。
进一步的,本实施例中,上述步骤S203包括:根据上述文本内容的长度和上述文本框坐标计算获取第一图像倾斜角度,根据上述目标直线计算获取第二图像倾斜角度;根据上述第一图像倾斜角度和上述第二图像倾斜角度获取目标图像倾斜角度,其中,上述目标图像倾斜角度是第一绝对值和第二绝对值中的最大值,上述第一绝对值是上述第一图像倾斜角度的绝对值,上述第二绝对值是上述第二图像倾斜角度的绝对值;根据上述目标图像倾斜角度对上述待处理图像进行旋转获得矫正图像;根据上述目标图像倾斜角度对上述文本信息中的文本框坐标进行倾斜角度矫正获得文本框矫正坐标,将与各上述文本框矫正坐标对应的文本内容作为上述文本矫正信息中的文本矫正内容,构建上述文本矫正信息。
其中,上述第一图像倾斜角度是文本框的下边在上述预设的世界坐标系中的倾斜角度(与横轴的正方向形成的夹角度数)。上述文本框由4个坐标构成的4条边围成,进行OCR识别时,可以确定文本内容中各个文字的上下方向,将文字下方的边作为上述文本框的下边。
具体的,结合文本内容的长度与各个文本框的位置,可以判断出待处理图像中的大部分文本框是横向还是竖向,判断出图像朝向,并根据这一部分文本框的文本框坐标,计算获得待处理图像倾斜的第一图像倾斜角度。
在一种应用场景中,若根据多个文本内容及其对应的文本框坐标计算出多个倾斜角度,可以将所有倾斜角度的平均值作为上述第一图像倾斜角度,以提高准确性,也可以将所有倾斜角度中占比最高的一个倾斜角度作为上述第一图像倾斜角度,在此不做具体限定。
本实施例中,上述第二图像倾斜角度则是目标直线对应的倾斜角度,即目标直线与坐标系的横轴正方向之间的夹角。
获得上述目标倾斜角度之后,对原始的待处理图像进行旋转,即可获得对应的矫正图像。而矫正图像中仍然包含之前的文本内容和各个文本框,只是随着图像的旋转,文本框的坐标发生了改变,此时,根据旋转的角度可以对各个文本框坐标进行矫正,获得对应的文本框矫正坐标,同时将各个文本框中的文本内容作为文本矫正内容,确定文本矫正内容与文本矫正坐标之间的对应关系,构建文本矫正信息。
在一种应用场景中,还可以将矫正后的文本内容与文本框坐标组合为字典格式进行输出,方便查找。上述字典格式中包括多条文本矫正信息,一条文本矫正信息中包括文本内容的具体字符以及对应的文本框的四个坐标,例如,字典格式对应的一条文本矫正信息为:{‘text’:‘文本内容’,‘text_region’:[[x1,y1],[x2,y2],[x3,y3],[x4,y4]]}。
步骤S300,根据预先训练好的表格区域检测模型分别获取上述矫正图像中的各个降噪表格区域,根据上述降噪表格区域对上述矫正图像进行裁剪和拼接获得目标降噪图像,并根据上述目标降噪图像和上述文本矫正信息获得文本降噪信息。
其中,上述目标降噪图像中只包括所有上述降噪表格区域,上述文本降噪信息包括上述降噪表格区域范围内的文本降噪内容以及与上述文本降噪内容对应的文本框降噪坐标。
需要说明的是,在上述待处理图像中,可能除了表格以外,还包括很多其它的表格之外的文本,表格识别过程中并不需要识别并提取这部分文本,而这部分文本也会对表格识别的效率和/或准确性造成影响,因此本实施例中可以通过降噪的过程删除这部分表格之外的文本以及矫正图像中对应区域的内容,从而提高表格识别的效率和准确性。具体的,对矫正图像中的表格区域进行识别,将矫正图像中表格区域以外的内容以及矫正文本信息都进行删除,仅保留表格区域以内的相关内容,从而可以精确获取表格位置和信息,方便进行后续的表格管理。
具体的,上述步骤S300包括:根据上述预先训练好的表格区域检测模型获取上述矫正图像中的各个表格区域;根据预先训练好的表格单元框检测模型获取上述矫正图像中的各个表格单元框区域;根据上述表格区域和上述表格单元框区域获取上述降噪表格区域;根据上述降噪表格区域对上述矫正图像进行裁剪和拼接获得目标降噪图像;将上述文本矫正信息中属于上述降噪表格区域内的上述文本矫正内容作为上述文本降噪内容,根据上述目标降噪图像、上述矫正图像以及上述文本框矫正坐标获取各上述文本降噪内容对应的文本框降噪坐标。
其中,上述预先训练好的表格区域检测模型和表格单元框检测模型是预先训练好的基于Mask RCNN目标检测算法的深度学习模型,可以用于对图像中可能存在表格的区域或对应的表格单元框进行检测。上述表格区域检测模型的输入为图像(即矫正图像),对应的输出是图像中的表格区域(即包含表格的图像位置坐标)。上述表格单元框检测模型的输入为图像(即矫正图像),对应的输出是表格中每一个表格单元框区域(即表格中每一个单元框对应的位置坐标)。
需要说明的是,在一种应用场景中,可以仅使用表格区域检测模型检测获得对应的表格区域并作为降噪表格区域。但本实施例中,综合表格区域和表格单元框区域获得降噪表格区域,即将表格区域和表格单元框区域进行合并以获得降噪表格区域,提高表格识别的准确性。
进一步的,根据降噪表格区域获得只包括降噪表格区域的图像和对应的字符识别结果,完成降噪。具体的,对矫正图像进行裁剪,裁剪出矫正图像中各个降噪表格区域对应的图像内容并进行拼接,获得目标降噪图像。需要说明的是,获得的目标降噪图像与矫正图像相比,有一部分文本信息的位置发生了改变,因此对文本框矫正坐标进行变换,获得对应的文本框降噪坐标,而各个文本框降噪坐标对应的文本降噪内容也可以根据原来文本矫正信息中的对应关系进行确定,从而实现文本降噪内容的构建。
需要说明的是,进行降噪处理的目的是获得精确的表格位置,避免非表格区域的信息干扰。在裁剪之后可以按照表格纵向(或横向)位置依次进行拼接,完成降噪处理以后获得的是一个只包含目标表格区域的图像,以及这张图像中的文本降噪信息。
步骤S400,根据上述文本降噪信息和上述目标降噪图像进行表格结构识别并获得多个目标表格。
具体的,在获得上述目标降噪图像和文本降噪信息之后,可以进行基于多模态输入的表格结构识别,从而获得对应的目标表格。其中,上述基于多模态输入的表格结构识别是指使用预先训练好的表格结构识别模型进行表格识别,而上述表格结构识别模型的输入是多种模式的数据,上述多种模式的数据包括图像、具体的文本内容以及文本内容对应的位置(即对应的文本框坐标)。因此,本实施例中,上述表格结构识别模型是基于多模态输入的模型,即可以对多模态输入的数据进行处理的模型。
具体的,上述步骤S400包括:获取上述目标降噪图像中各个表格单元框区域内的文本降噪内容,分别对各上述表格单元框区域内的文本降噪内容进行行列拼接调整获得各文本拼接内容,并获得各文本拼接内容对应的文本框拼接坐标,构建由上述文本拼接内容和上述文本框拼接坐标组成的文本拼接信息;
根据上述文本拼接信息、上述目标降噪图像以及预先训练的表格结构识别模型获取目标表格。
本实施例中,上述获得的目标表格是可以交互或直接编辑和操作的格式的表格,例如EXCEL格式等。
需要说明的是,在上述处理过程中获得一个表格单元框中可能包括一个文本框或多个文本框(本实施例中以包括一个文本框为例进行说明)。在进行OCR识别的过程中,对于一个文本框中的文本内容,并没有进行合并,即每一个文本框中可能存在换行的文本内容,则上述获得的文本降噪内容也是没有进行合并的,但实际应用过程中,一个表格单元框内的文本降噪内容其含义是连续的。因此,可以基于表格单元框区域实现对字符识别结果的拼接,具体的,基于各个表格单元框,对各个表格单元框区域内的文本降噪内容中分散的行列进行拼接,使其恢复在一个表格单元框中的语义,有利于后续对文本进行修正。拼接后的文本拼接内容的位置仍然可以根据其对应的文本框的坐标确定,从而可以构建对应的文本拼接信息。
其中,上述根据上述文本拼接信息、上述目标降噪图像以及预先训练的表格结构识别模型获取目标表格,包括:
通过预设的循环处理步骤进行处理并获得上述目标表格,其中,第i次循环处理步骤包括:
将输入数据输入上述表格结构识别模型进行表格识别并获得识别出的重构表格的待处理信息,其中,上述待处理信息包括上述重构表格的单元格行列信息、单元格坐标以及单元格文本内容;
根据预设的知识库对上述重构表格中的各个单元格文本内容进行修正,获得第一修正表格;
获取目标对象输入的表格确认信息,当上述表格确认信息是识别成功时,将上述第一修正表格作为上述目标表格,输出上述目标表格且循环结束;
当上述表格确认信息是识别有误时,获取上述目标对象输入的表格修改指令数据,根据上述表格修改指令数据对上述第一修正表格进行修正获得第二修正表格,并获得上述第二修正表格对应的修正图像、单元格文本内容以及单元格坐标,将上述第二修正表格对应的修正图像、单元格文本内容以及单元格坐标作为上述表格结构识别模型的输入数据并进行第i+1次循环;
其中,i为大于或等于1的整数,第1次循环时上述表格结构识别模型的输入数据包括上述文本拼接信息和上述目标降噪图像。
其中,上述表格结构识别模型是预先训练的多模态输入的深度学习模型,其输入数据包括多种模型的数据,例如图像和文本信息,对应的,表格结构识别模型预先训练好并可以用于根据输入的数据识别输入的图像中的表格,获得重构表格以及该重构表格的单元格行列信息、单元格坐标以及单元格文本内容,具体的,表格结构识别模型可以将输入的文本位置与图像信息进行编码转换,得到图像中各个文本之间是行连接关系还是列连接关系。上述目标对象是需要对表格进行判断和修正的用户或设备。
具体的,将输入数据(例如上述文本拼接信息和上述目标降噪图像)输入到表格结构识别模型中,获得重构表格,然后将重构表格进行转换,获得重构表格的结构信息和内容信息,结构与内容信息即对应的重构表格的单元格行列信息、单元格坐标以及单元格文本内容。
在一种应用场景中,行列关系的计算公式为:Rrow,Rcol=f(t,p,b)。其中,f代表预先训练好的深度学习的表格结构识别模型,t是输入数据中对应的文本内容的列表,p是输入数据中包含表格的图像,b是输入数据中对应的文本框坐标的列表,Rrow代表输出的表格行关系,Rcol代表输出的表格列关系。行列关系为文本与相邻文本之间的行列关系,若其为同行,则为行关系,为同列,则为列关系,若非同行同列,则无关。
具体的,根据预测得到的文本之间的行列关系,计算得出逐行/逐列的文本,从而得到表格结构,表格的结构与内容信息包含单元格对应第几行、第几列、该单元格的坐标与该单元格内的文本内容,如此,得到的表格的结构与内容信息相对于输入数据,得到了表格的具体的行、列位置,而不仅是每个文本之间的行、列关系。
需要说明的是,本实施例中,会根据接收获取的目标对象输入的表格确认信息对表格进行循环多次的修正,以提高表格识别的准确性。修正过程包括基于预设知识库的修正和根据接收获取的目标对象输入的表格修改指令数据的修正。
在一种应用场景中,当未获得目标对象输入的表格确认信息时,也可以直接结束循环并输出对应的第一修正表格。
具体的,上述根据预设的知识库对上述重构表格中的各个单元格文本内容进行修正,获得第一修正表格,包括:
获取预设的知识库、预设的制表规则以及预先训练的语言模型;
提取上述知识库中的关键词,根据上述制表规则获取各上述关键词对应的行列关联信息;
根据上述关键词以及上述行列关联信息对上述重构表格的各个单元格文本内容进行修正,获得第一修正文本;
根据上述输入数据和上述第一修正文本获取上述第一修正文本对应的第一单字置信度,根据上述第一单字置信度以及上述语言模型对上述第一修正文本进行修正,获得第二修正文本;
根据上述输入数据获取上述第二修正文本对应的第二单字置信度,根据上述第二单字置信度、上述关键词以及预设的字形相似度阈值对上述第二修正文本进行字形匹配和修正,获得第三修正文本;
根据上述单元格行列信息、上述单元格坐标以及上述第三修正文本生成上述第一修正表格。
其中,上述预设的知识库是用户预先设置的知识库,知识库中内容包括用户预先设置的对应领域的常用信息,例如,对应的领域可以为金融领域,对应的常用信息可以为金融领域的公司名称、债券名称等。上述预设的制表规则是用户预先设定的对应领域的常用制表规则,例如哪些信息通常可以用于作为行信息,哪些可以用于作为列信息,哪些信息之间具有对应关系等。上述预先训练的语言模型是预先训练好的BERT模型,可以用于根据输入的文本,判断其中可能出错的位置并给出可能出错的位置对应的值。
本实施例中,先根据知识库内容建立索引,具体的,使用中文分词模型等方法,对知识库内容进行拆分建模,提取知识库中的关键词,从而可以优化数据库索引,减少后续匹配过程中的搜索此时,提高表格识别效率。然后关联知识与表格行列结构,根据制表规则,将提取处于的关键词与行、列信息进行关联。
进一步的,使用知识库内容(即关键词)对重构表格中的内容进行模糊匹配,修正重构表格中的内容,获得第一修正文本。具体的,根据关键词与表格行列的关联关系,对表格内容进行修正,从而针对对应的领域实现更好的表格识别效果。例如,若文本中出现“今天大阳很大公司”,而其对应的行/列标题为知识库对应的领域,知识库中不存在这一信息,只存在“今天太阳很大公司”,判断其相似度为87.5%,大于设定阈值,将其修正为“今天太阳很大公司”。
具体的,还可以根据语言模型对上述第一修正文本进行进一步修正,获得第二修正文本。将输入数据中的表格结构和内容以及该表格对应的第一单字置信度(可以通过对输入数据中的图像进行OCR识别获得)输入语言模型,根据语言模型输出的置信度与预先设定的置信度阈值,对上述第一修正文本中的内容进行修正。例如,当第一修正文本为[‘天上的大阳’],对应的单字置信度为[0.99,0.99,0.99,0.02,0.98]时,‘大’字的置信度低于0.8(预设的最低单字置信度阈值),判断其有误,使用语言模型对该位置可能的值进行预测,其中“天上的太阳”置信度最高,为0.70,大于预设的置信度阈值(如0.6),则使用该结果替代“天上的大阳”。
进一步的,还可以根据关键词对上述第二修正文本进行纠错和修正,获得对应的第三修正文本。具体的,根据输入数据以及第二修正文本获得第二单字置信度,根据关键词与第二单字置信度对表格内容进行进一步的修正,根据字形相似度计算方法,对内容(第二修正文本对应的内容)进行纠错和修正,获得第三修正文本。判断第二单字置信度判断第二修正文本是否有误,若有误则与关键词进行匹配,计算错误的字部分与词库中对应位置的相似度,若相似度大于设定的相似阈值,则替换。例如,若文本中有单字置信度低于0.8(预设的最低单字置信度),则判断该文本在该位置出现错误。如词库中有“北京天安门”,对应的第二修正文本为[“北京大安门”],第二单字置信度为[0.99,0.99,0.02,0.99,0.99],匹配关键词库中的“北京天安门”,其中“天”与“大”字符相似度0.75大于0.6(预设的相似阈值),则判断该字符有误且词库中的词可以替代该错误文本,从而进行修正。
需要说明的是,上述获取预设的知识库、预设的制表规则以及预先训练的语言模型以及提取上述知识库中的关键词,根据上述制表规则获取各上述关键词对应的行列关联信息的步骤可以仅执行一次并将结果保存,后续过程中直接调用即可。如此,可以减少所需时间,提高表格识别效率。上述各个单字置信度是通过OCR识别对对应的图像进行识别后给出的结果,即该区域可以为某一字符的可能性,若可能性过低,该字符可能出现识别错误。语言模型输出的置信度为其补充在可能错误位置的字与原字字形的相似度。
本实施例中,还可以为用户提供交互界面,用户可以在交互界面上对目标表格和第一修正表格进行调整。具体的,在对第一修正表格进行调整时,用户通过交互界面输入表格确认信息和表格修改指令数据,经过修改以后获得第二修正表格。
在一种应用场景中,在原始的待处理图像上标出识别后的表格位置以及对应的第一修正表格的内容,第一修正表格的内容包括可移动调整的文本框与以EXCEL形式展示的可编辑的表格内容。用户输入的表格修改指令数据可以包括删除指令数据、新增指令数据、修正指令数据、单元格移动指定数据、单元格合并指令数据等。
例如,用户可以一键框选不需要的信息并进行删除,如用户点击鼠标左键,框选第一修正表格中不需要的表格单元格,释放左键即可以框选成功,然后一键删除框选的单元格。用户还可以增加需要增加的信息或修改错误的文本内容,具体的,根据用户的需求,可以在待处理图像上绘制新的单元格,可以移动、合并单元格,还可以修改识别后的错误单元格信息,对其文本内容进行修改。
图3是本发明实施例提供的一种通过交互界面对表格进行框选和删除的示意图,如图3所示,对于识别出并显示在交互界面上的一个表格(第一修正表格),用户可以框选其中的部分单元格,并且删除框选的部分,然后将处理后的表格输入表格结构识别模型重新识别即可以重新识别获得表格结构。图3中,Text代表具体的文字内容,col1、col2和col3分别代表第1列、第2列和第3列,row1、row2和row3分别代表第1行、第2行和第3行。
通过用户的修正可以获得第二修正表格,为了进一步提高表格识别的准确性,对于第二修正表格又可以作为表格识别结构模型的输入数据,再一次进行修正,如此循环,直到根据表格确认信息确认表格识别无误。
根据降噪图像获取第二修正表格区域内的修正图像,将第二修正表格中的单元格信息与修正图像输入基于多模态输入的表格结构识别模型中,对第二修正表格的行列结构进行重构,重复上述循环过程直到循环结束。需要说明的是,第二修正表格中的单元格信息中,对应的文本内容是经过上述修正步骤以后的内容,因此无需再通过OCR识别获得。
对于最终获得的目标表格,以表格的形式在交互界面上进行表格结构与内容的展示,且当用户选中某一个或某几个单元格时,对应的表格单元框即可亮起,方便用户观察和使用。
本实施例中,还基于一种具体应用场景对上述表格识别方法进行具体说明,图4是本发明实施例提供的一种表格识别方法的具体流程示意图,如图4所示,本实施例中,先对包含表格的图像(即待处理图像)进行字符识别,得到图像对应的文本信息,然后融合字符识别结果与图像特征进行图像矫正,进一步基于表格检测进行图像降噪。然后进行基于多模态输入的表格结构识别,再进行基于知识库的表格内容矫正,根据表格确认信息判断表格识别是否成功,不成功时获取用户输入的表格修改指令数据并对表格进行调整,然后重新返回基于多模态输入的表格结构识别,如此循环。直到根据表格确认信息判断表格识别成功时,停止循环,并输出识别成功的表格。
由上可见,本发明实施例提供的表格识别方法中,获取待处理图像,对上述待处理图像进行字符识别,获取上述待处理图像中的文本信息,其中,上述待处理图像中包括至少一个表格,上述文本信息包括文本内容和文本框坐标;获取上述待处理图像的图像特征,并根据上述图像特征和上述文本信息对上述待处理图像进行倾斜角度矫正获得矫正图像,并对上述文本信息进行倾斜角度矫正获得文本矫正信息,其中,上述图像特征包括上述待处理图像中的目标直线,上述目标直线的长度大于预设的长度阈值,上述文本矫正信息包括文本矫正内容和文本框矫正坐标;根据预先训练好的表格区域检测模型分别获取上述矫正图像中的各个降噪表格区域,根据上述降噪表格区域对上述矫正图像进行裁剪和拼接获得目标降噪图像,并根据上述目标降噪图像和上述文本矫正信息获得文本降噪信息,其中,上述目标降噪图像中只包括所有上述降噪表格区域,上述文本降噪信息包括上述降噪表格区域范围内的文本降噪内容以及与上述文本降噪内容对应的文本框降噪坐标;根据上述文本降噪信息和上述目标降噪图像进行表格结构识别并获得多个目标表格。
与现有技术中需要通过人工识别图像中的表格并依赖于人工在电子设备上制作形成对应的表格的方案相比,本发明中可以对待处理图像中的表格进行自动识别,通过获取待处理图像中的文本信息,对待处理图像和识别获取的文本信息进行倾斜角度矫正和降噪,并最终获得待处理图像中的目标表格,无需人工对图像的内容逐一进行识别,有利于提高表格识别的效率。
且采用本实施例中的方法,在获得对应生产环境的知识库后,能够将知识库与表格信息关联,使用多模态的输入对识别的信息进行矫正,从而提高该方法在各领域的表格场景下的性能,能够适应不同领域下的不同生产环境中的表格识别需求,从而提升表格识别的效果。减少人工识别表格带来的时间损耗,且提供交互页面,方便操作员框选需要的表格区域获得表格结构,提高生产速度。
示例性设备
如图5中所示,对应于上述表格识别方法,本发明实施例还提供一种表格识别***,上述表格识别***包括:
待处理图像处理模块510,用于获取待处理图像,对上述待处理图像进行字符识别,获取上述待处理图像中的文本信息,其中,上述待处理图像中包括至少一个表格,上述文本信息包括文本内容和文本框坐标。
矫正模块520,用于获取上述待处理图像的图像特征,并根据上述图像特征和上述文本信息对上述待处理图像进行倾斜角度矫正获得矫正图像,并对上述文本信息进行倾斜角度矫正获得文本矫正信息,其中,上述图像特征包括上述待处理图像中的目标直线,上述目标直线的长度大于预设的长度阈值,上述文本矫正信息包括文本矫正内容和文本框矫正坐标。
降噪模块530,用于根据预先训练好的表格区域检测模型分别获取上述矫正图像中的各个降噪表格区域,根据上述降噪表格区域对上述矫正图像进行裁剪和拼接获得目标降噪图像,并根据上述目标降噪图像和上述文本矫正信息获得文本降噪信息,其中,上述目标降噪图像中只包括所有上述降噪表格区域,上述文本降噪信息包括上述降噪表格区域范围内的文本降噪内容以及与上述文本降噪内容对应的文本框降噪坐标。
表格识别模块540,用于根据上述文本降噪信息和上述目标降噪图像进行表格结构识别并获得多个目标表格。
需要说明的是,上述***还可以包括交互模块,用于实现与用户的交互,例如,用户可以通过交互模块输入表格确认信息以及表格修改指令数据,或进行表格的选中、编辑等交互行为。上述交互模块还可以对应设置有展示界面,用于进行目标表格的展示。
具体的,上述表格识别***中,获取待处理图像,对其进行字符识别、倾斜角度矫正、去噪、表格内容修正等操作,最终获得目标表格并展示。展示的目标表格是可视化且可以进行交互和操作的,其表格形式是EXCEL的形式。在进行倾斜角度矫正时,将图像矫正为倾斜角为0的情况。可选的,上述交互模块采用的是优化后的labelme工具。
具体的,本实施例中,上述表格识别***及其各模块的具体功能可以参照上述表格识别方法中的对应描述,在此不再赘述。
需要说明的是,上述表格识别***的各个模块的划分方式并不唯一,在此也不作为具体限定。
图6是本发明实施例提供的另一种表格识别***的结构示意图,如图6所示,在一种应用场景中,上述***可以被划分为交互模块和表格识别模块,上述交互模块包括输入单元、知识库构建单元和交互单元,上述表格识别模块包括数据预处理单元、文本识别单元、倾斜矫正和降噪单元、表格框检测单元、知识库模糊匹配单元、结构重构单元和数据后处理单元。处理过程中,输入单元获取用户输入的包含表格的图像,数据预处理单元用于对图像进行增强操作,文本识别单元用于对增强后的图像进行OCR操作,识别其中的文本内容与文本框坐标。倾斜矫正和降噪单元用于对增强后的图像进行倾斜角度矫正和去噪,表格框检测单元根据降噪单元输出的目标降噪图像、文本降噪内容以及文本框降噪坐标对表格框进行检测和定位。用户还可以预先将收集的行业知识输入***,通过知识库构建单元构建对应的知识库。知识库模糊匹配单元用于根据构建的知识库、识别获得的文本降噪内容以及交互单元的输入,对表格内的文本信息进行模糊匹配纠错。结构重构单元根据知识库模糊匹配单元输出的文本框位置和文本内容与图像上的表格区域的图像信息,对表格结构进行重构,输出重构后的表格,数据后处理单元根据结构重构单元输出的表格,输出交互***需要的数据格式,输出到交互单元,交互单元对该表格进行展示,且可以供用户操作。
进一步的,交互模块将裁剪后的表格图像与处理后的单元格位置信息输入到交互单元的展示界面中,得到可视化且可进一步操作的标注结果,用户在展示界面上对结果进行进一步操作后,可以将结果与知识库构建模块的知识一起传回表格识别模块再次进行表格结构重构,得到新的表格结构与内容识别结果,以EXCEL表格的形式展示在展示界面上。
表格识别模块用于对输入的表格进行识别,具体的,可以对表格图像进行矫正,将图像矫正为倾斜角为0的情况;对输入的原始图像进行字符识别操作,识别出原始图像中的文本内容与文本位置信息;检测表格位置与有线表的表格框位置,以便后续进一步定位表格位置;纠正后的图像进行表格区域检测与裁剪,将图像中包含表格的区域裁剪出来,以便后续进一步处理减少噪音;将纠正后的文本内容与位置和表格区域图像作为输入,采用基于多模态输入的表格结构重构模型对表格结构进行重构,输出重构后的单元格,根据操作员输入的领域知识与关联信息,使用模糊匹配法,对表格内容进行纠正,输出纠正后的表格;将纠正后的表格处理为交互模块中需要的数据格式。交互模块中需要的数据格式为搭建前端的PYQT中定义的shape对象,需要定义其坐标,内容及颜色等信息,将对应的表格中的文本与位置信息提取出来,与对应的shape对象对应赋值。
如此,基于本实施例提供的表格识别***,可以将知识库与表格信息关联,使用多模态的输入对识别的信息进行矫正,从而提高在各个对应领域的表格识别场景下的性能,适应不同领域下不同生产环境中的表格需求,提高表格识别效果。且可以减少人工识别表格带来的时间损耗,且提供交互界面,方便用户进行操作和调整,提升用户体验和工作效率。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图7所示。上述智能终端包括通过***总线连接的处理器、存储器、网络接口以及显示屏。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和表格识别程序。该内存储器为非易失性存储介质中的操作***和表格识别程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该表格识别程序被处理器执行时实现上述任意一种表格识别方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。
本领域技术人员可以理解,图7中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的表格识别程序,上述表格识别程序被上述处理器执行时进行以下操作指令:
获取待处理图像,对上述待处理图像进行字符识别,获取上述待处理图像中的文本信息,其中,上述待处理图像中包括至少一个表格,上述文本信息包括文本内容和文本框坐标;
获取上述待处理图像的图像特征,并根据上述图像特征和上述文本信息对上述待处理图像进行倾斜角度矫正获得矫正图像,并对上述文本信息进行倾斜角度矫正获得文本矫正信息,其中,上述图像特征包括上述待处理图像中的目标直线,上述目标直线的长度大于预设的长度阈值,上述文本矫正信息包括文本矫正内容和文本框矫正坐标;
根据预先训练好的表格区域检测模型分别获取上述矫正图像中的各个降噪表格区域,根据上述降噪表格区域对上述矫正图像进行裁剪和拼接获得目标降噪图像,并根据上述目标降噪图像和上述文本矫正信息获得文本降噪信息,其中,上述目标降噪图像中只包括所有上述降噪表格区域,上述文本降噪信息包括上述降噪表格区域范围内的文本降噪内容以及与上述文本降噪内容对应的文本框降噪坐标;
根据上述文本降噪信息和上述目标降噪图像进行表格结构识别并获得多个目标表格。
本发明实施例还提供一种计算机可读存储介质,上述计算机可读存储介质上存储有表格识别程序,上述表格识别程序被处理器执行时实现本发明实施例提供的任意一种表格识别方法的步骤。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述***的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的***/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的***/终端设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种表格识别方法,其特征在于,所述方法包括:
获取待处理图像,对所述待处理图像进行字符识别,获取所述待处理图像中的文本信息,其中,所述待处理图像中包括至少一个表格,所述文本信息包括文本内容和文本框坐标;
获取所述待处理图像的图像特征,并根据所述图像特征和所述文本信息对所述待处理图像进行倾斜角度矫正获得矫正图像,并对所述文本信息进行倾斜角度矫正获得文本矫正信息,其中,所述图像特征包括所述待处理图像中的目标直线,所述目标直线的长度大于预设的长度阈值,所述文本矫正信息包括文本矫正内容和文本框矫正坐标;
根据预先训练好的表格区域检测模型分别获取所述矫正图像中的各个降噪表格区域,根据所述降噪表格区域对所述矫正图像进行裁剪和拼接获得目标降噪图像,并根据所述目标降噪图像和所述文本矫正信息获得文本降噪信息,其中,所述目标降噪图像中只包括所有所述降噪表格区域,所述文本降噪信息包括所述降噪表格区域范围内的文本降噪内容以及与所述文本降噪内容对应的文本框降噪坐标;
根据所述文本降噪信息和所述目标降噪图像进行表格结构识别并获得多个目标表格。
2.根据权利要求1所述的表格识别方法,其特征在于,所述获取所述待处理图像的图像特征,并根据所述图像特征和所述文本信息对所述待处理图像进行倾斜角度矫正获得矫正图像,并对所述文本信息进行倾斜角度矫正获得文本矫正信息,包括:
对所述待处理图像进行霍夫变换,获得所述待处理图像中的至少一条横向长直线,所述横向长直线的长度大于所述长度阈值,所述长度阈值是所述待处理图像的宽度的一半;
将所有所述横向长直线中最长的一条作为所述目标直线;
根据所述目标直线和所述文本信息对所述待处理图像进行倾斜角度矫正获得矫正图像,并对所述文本信息进行倾斜角度矫正获得文本矫正信息。
3.根据权利要求2所述的表格识别方法,其特征在于,所述根据所述目标直线和所述文本信息对所述待处理图像进行倾斜角度矫正获得矫正图像,并对所述文本信息进行倾斜角度矫正获得文本矫正信息,包括:
根据所述文本内容的长度和所述文本框坐标计算获取第一图像倾斜角度,根据所述目标直线计算获取第二图像倾斜角度;
根据所述第一图像倾斜角度和所述第二图像倾斜角度获取目标图像倾斜角度,其中,所述目标图像倾斜角度是第一绝对值和第二绝对值中的最大值,所述第一绝对值是所述第一图像倾斜角度的绝对值,所述第二绝对值是所述第二图像倾斜角度的绝对值;
根据所述目标图像倾斜角度对所述待处理图像进行旋转获得矫正图像;
根据所述目标图像倾斜角度对所述文本信息中的文本框坐标进行倾斜角度矫正获得文本框矫正坐标,将与各所述文本框矫正坐标对应的文本内容作为所述文本矫正信息中的文本矫正内容,构建所述文本矫正信息。
4.根据权利要求1所述的表格识别方法,其特征在于,所述根据预先训练好的表格区域检测模型分别获取所述矫正图像中的各个降噪表格区域,根据所述降噪表格区域对所述矫正图像进行裁剪和拼接获得目标降噪图像,并根据所述目标降噪图像和所述文本矫正信息获得文本降噪信息,包括:
根据所述预先训练好的表格区域检测模型获取所述矫正图像中的各个表格区域;
根据预先训练好的表格单元框检测模型获取所述矫正图像中的各个表格单元框区域;
根据所述表格区域和所述表格单元框区域获取所述降噪表格区域;
根据所述降噪表格区域对所述矫正图像进行裁剪和拼接获得目标降噪图像;
将所述文本矫正信息中属于所述降噪表格区域内的所述文本矫正内容作为所述文本降噪内容,根据所述目标降噪图像、所述矫正图像以及所述文本框矫正坐标获取各所述文本降噪内容对应的文本框降噪坐标。
5.根据权利要求4所述的表格识别方法,其特征在于,所述根据所述文本降噪信息和所述目标降噪图像进行表格结构识别并获得多个目标表格,包括:
获取所述目标降噪图像中各个表格单元框区域内的文本降噪内容,并分别对各所述表格单元框区域内的文本降噪内容进行行列拼接调整获得各文本拼接内容,获得各文本拼接内容对应的文本框拼接坐标,构建由所述文本拼接内容和所述文本框拼接坐标组成的文本拼接信息;
根据所述文本拼接信息、所述目标降噪图像以及预先训练的表格结构识别模型获取目标表格。
6.根据权利要求5所述的表格识别方法,其特征在于,所述根据所述文本拼接信息、所述目标降噪图像以及预先训练的表格结构识别模型获取目标表格,包括:
通过预设的循环处理步骤进行处理并获得所述目标表格,其中,第i次循环处理步骤包括:
将输入数据输入所述表格结构识别模型进行表格识别并获得识别出的重构表格的待处理信息,其中,所述待处理信息包括所述重构表格的单元格行列信息、单元格坐标以及单元格文本内容;
根据预设的知识库对所述重构表格中的各个单元格文本内容进行修正,获得第一修正表格;
获取目标对象输入的表格确认信息,当所述表格确认信息是识别成功时,将所述第一修正表格作为所述目标表格,输出所述目标表格且循环结束;
当所述表格确认信息是识别有误时,获取所述目标对象输入的表格修改指令数据,根据所述表格修改指令数据对所述第一修正表格进行修正获得第二修正表格,并获得所述第二修正表格对应的修正图像、单元格文本内容以及单元格坐标,将所述第二修正表格对应的修正图像、单元格文本内容以及单元格坐标作为所述表格结构识别模型的输入数据并进行第i+1次循环;
其中,i为大于或等于1的整数,第1次循环时所述表格结构识别模型的输入数据包括所述文本拼接信息和所述目标降噪图像。
7.根据权利要求6所述的表格识别方法,其特征在于,所述根据预设的知识库对所述重构表格中的各个单元格文本内容进行修正,获得第一修正表格,包括:
获取预设的知识库、预设的制表规则以及预先训练的语言模型;
提取所述知识库中的关键词,根据所述制表规则获取各所述关键词对应的行列关联信息;
根据所述关键词以及所述行列关联信息对所述重构表格的各个单元格文本内容进行修正,获得第一修正文本;
根据所述输入数据和所述第一修正文本获取所述第一修正文本对应的第一单字置信度,根据所述第一单字置信度以及所述语言模型对所述第一修正文本进行修正,获得第二修正文本;
根据所述输入数据获取所述第二修正文本对应的第二单字置信度,根据所述第二单字置信度、所述关键词以及预设的字形相似度阈值对所述第二修正文本进行字形匹配和修正,获得第三修正文本;
根据所述单元格行列信息、所述单元格坐标以及所述第三修正文本生成所述第一修正表格。
8.一种表格识别***,其特征在于,所述***包括:
待处理图像处理模块,用于获取待处理图像,对所述待处理图像进行字符识别,获取所述待处理图像中的文本信息,其中,所述待处理图像中包括至少一个表格,所述文本信息包括文本内容和文本框坐标;
矫正模块,用于获取所述待处理图像的图像特征,并根据所述图像特征和所述文本信息对所述待处理图像进行倾斜角度矫正获得矫正图像,并对所述文本信息进行倾斜角度矫正获得文本矫正信息,其中,所述图像特征包括所述待处理图像中的目标直线,所述目标直线的长度大于预设的长度阈值,所述文本矫正信息包括文本矫正内容和文本框矫正坐标;
降噪模块,用于根据预先训练好的表格区域检测模型分别获取所述矫正图像中的各个降噪表格区域,根据所述降噪表格区域对所述矫正图像进行裁剪和拼接获得目标降噪图像,并根据所述目标降噪图像和所述文本矫正信息获得文本降噪信息,其中,所述目标降噪图像中只包括所有所述降噪表格区域,所述文本降噪信息包括所述降噪表格区域范围内的文本降噪内容以及与所述文本降噪内容对应的文本框降噪坐标;
表格识别模块,用于根据所述文本降噪信息和所述目标降噪图像进行表格结构识别并获得多个目标表格。
9.一种智能终端,其特征在于,所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的表格识别程序,所述表格识别程序被所述处理器执行时实现如权利要求1-7任意一项所述表格识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有表格识别程序,所述表格识别程序被处理器执行时实现如权利要求1-7任意一项所述表格识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210539783.5A CN114782974A (zh) | 2022-05-18 | 2022-05-18 | 表格识别方法、***、智能终端及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210539783.5A CN114782974A (zh) | 2022-05-18 | 2022-05-18 | 表格识别方法、***、智能终端及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114782974A true CN114782974A (zh) | 2022-07-22 |
Family
ID=82437496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210539783.5A Pending CN114782974A (zh) | 2022-05-18 | 2022-05-18 | 表格识别方法、***、智能终端及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114782974A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273113A (zh) * | 2022-09-27 | 2022-11-01 | 深圳擎盾信息科技有限公司 | 表格类文本语义识别方法及装置 |
CN116311301A (zh) * | 2023-02-17 | 2023-06-23 | 北京感易智能科技有限公司 | 无线表格识别方法及*** |
-
2022
- 2022-05-18 CN CN202210539783.5A patent/CN114782974A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273113A (zh) * | 2022-09-27 | 2022-11-01 | 深圳擎盾信息科技有限公司 | 表格类文本语义识别方法及装置 |
CN116311301A (zh) * | 2023-02-17 | 2023-06-23 | 北京感易智能科技有限公司 | 无线表格识别方法及*** |
CN116311301B (zh) * | 2023-02-17 | 2024-06-07 | 北京感易智能科技有限公司 | 无线表格识别方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111898411B (zh) | 文本图像标注***、方法、计算机设备和存储介质 | |
CN114782974A (zh) | 表格识别方法、***、智能终端及计算机可读存储介质 | |
CN112396049A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
US11599727B2 (en) | Intelligent text cleaning method and apparatus, and computer-readable storage medium | |
EP1854051A2 (en) | Intelligent importation of information from foreign application user interface using artificial intelligence | |
CN113762269B (zh) | 基于神经网络的中文字符ocr识别方法、***及介质 | |
KR101549792B1 (ko) | 문서 자동 작성 장치 및 방법 | |
CN110110198B (zh) | 一种网页信息抽取方法及装置 | |
CN111914805A (zh) | 表格结构化方法、装置、电子设备及存储介质 | |
CN113627439A (zh) | 文本结构化处理方法、处理装置、电子设备以及存储介质 | |
CN114821610B (zh) | 一种基于树状神经网络的从图像生成网页代码的方法 | |
CN115546809A (zh) | 基于单元格约束的表格结构识别方法及其应用 | |
CN113159013A (zh) | 基于机器学习的段落识别方法、装置、计算机设备和介质 | |
CN112269872A (zh) | 简历解析方法、装置、电子设备及计算机存储介质 | |
US20240160616A1 (en) | Text-based machine learning extraction of table data from a read-only document | |
CN116935418A (zh) | 一种三维图文模板自动重组方法、设备及*** | |
CN111783561A (zh) | 审图结果修正方法、电子设备及相关产品 | |
CN113658195B (zh) | 图像分割方法、装置及电子设备 | |
JP3216800B2 (ja) | 手書き文字認識方法 | |
CN116259064B (zh) | 表格结构识别方法、表格结构识别模型的训练方法及装置 | |
CN117152768A (zh) | 用于扫读笔的离线识别方法及*** | |
CN113806472A (zh) | 一种对文字图片和图像型扫描件实现全文检索的方法及设备 | |
CN115797955A (zh) | 基于单元格约束的表格结构识别方法及其应用 | |
CN112395834B (zh) | 基于图片输入的脑图生成方法、装置、设备及存储介质 | |
Hu et al. | Mathematical formula detection in document images: A new dataset and a new approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |