CN118298448A - 表格识别方法、装置、计算机设备、存储介质 - Google Patents

表格识别方法、装置、计算机设备、存储介质 Download PDF

Info

Publication number
CN118298448A
CN118298448A CN202410483133.2A CN202410483133A CN118298448A CN 118298448 A CN118298448 A CN 118298448A CN 202410483133 A CN202410483133 A CN 202410483133A CN 118298448 A CN118298448 A CN 118298448A
Authority
CN
China
Prior art keywords
image
features
text block
identified
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410483133.2A
Other languages
English (en)
Inventor
许康
宁可
罗春桉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kingdee Software China Co Ltd
Original Assignee
Kingdee Software China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kingdee Software China Co Ltd filed Critical Kingdee Software China Co Ltd
Priority to CN202410483133.2A priority Critical patent/CN118298448A/zh
Publication of CN118298448A publication Critical patent/CN118298448A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本申请涉及一种表格识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待识别图像,所述待识别图像中包括表格;对所述待识别图像进行特征提取,得到所述待识别图像的图像特征;基于所述图像特征对所述表格的表格结构进行编码,得到表格结构码;对所述待识别图像进行文本识别,得到所述待识别图像中文本块的位置信息;将所述文本块的位置信息和所述图像特征进行融合,得到目标融合特征;基于所述目标融合特征和所述表格结构码,得到所述文本块在所述表格中的位置。采用本方法能够提高表格识别准确性。

Description

表格识别方法、装置、计算机设备、存储介质
技术领域
本申请涉及文档识别和图像处理技术领域,特别是涉及一种表格识别方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机视觉技术的发展,文档识别分析技术的应用越来越普遍,而文档中的表格作为表达文档信息的一种重要方式,往往包括重要的文档信息,表格识别是文档识别任务中的一个普遍且重要的任务,其识别结果的准确性更关系到分析结果的准确性。
传统的表格识别方式,大多是通过识别图片中的表格线和表格中的文字内容,通过表格线重构单元格,进而将识别得到的文字内容对应填充至重构的单元格中,从而得到识别的表格,然而,传统的表格识别方式对单个单元格的定位精度较差,导致表格识别的准确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高表格识别准确性的表格识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种表格识别方法。所述方法包括:
获取待识别图像,所述待识别图像中包括表格;
对所述待识别图像进行特征提取,得到所述待识别图像的图像特征;
基于所述图像特征对所述表格的表格结构进行编码,得到表格结构码;
对所述待识别图像进行文本识别,得到所述待识别图像中文本块的位置信息;
将所述文本块的位置信息和所述图像特征进行融合,得到目标融合特征;
基于所述目标融合特征和所述表格结构码,得到所述文本块在所述表格中的位置。
在其中一个实施例中,所述基于所述图像特征对所述表格的表格结构进行编码,得到表格结构码,包括:
将所述图像特征的尺寸变换为预设尺寸,得到目标图像特征;
对所述目标图像特征中的表格属性进行识别,得到属性识别结果;
根据属性标识码和表格属性的对应关系,确定所述属性识别结果对应的目标属性标识码;
根据所述目标属性标识码,得到所述表格结构码。
在其中一个实施例中,所述将所述文本块的位置信息和所述图像特征进行融合,得到目标融合特征,包括:
对所述文本块的位置信息进行编码,得到位置特征;
将所述位置特征和所述图像特征进行融合,得到所述目标融合特征。
在其中一个实施例中,所述位置信息包括位置坐标;所述对所述文本块的位置信息进行编码,得到位置特征,包括:
获取所述文本块在所述待识别图像中的位置坐标;
对所述位置坐标进行非线性化处理,得到所述位置特征。
在其中一个实施例中,所述将所述位置特征和所述图像特征进行融合,得到所述目标融合特征,包括:
获取预设填充特征,所述预设填充特征用于分离相拼接的特征;
基于所述预设填充特征将所述位置特征和所述图像特征进行拼接,得到所述目标融合特征。
在其中一个实施例中,所述基于所述目标融合特征和所述表格结构码,得到所述文本块在所述表格中的位置,包括:
基于所述目标融合特征,预测所述文本块的位置,得到预测位置;
将所述预测位置与所述表格结构码相匹配,得到所述文本块在所述表格中的位置。
在其中一个实施例中,所述位置信息包括位置坐标;所述对所述待识别图像进行文本识别,得到所述待识别图像中文本块的位置信息,包括:
对所述待识别图像进行光学字符识别,得到所述待识别图像中文本块的位置坐标。
第二方面,本申请还提供了一种表格识别装置。所述装置包括:
图像获取模块,用于获取待识别图像,所述待识别图像中包括表格;
图像特征提取模块,用于对所述待识别图像进行特征提取,得到所述待识别图像的图像特征;
表格结构编码模块,用于基于所述图像特征对所述表格的表格结构进行编码,得到表格结构码;
文本识别模块,用于对所述待识别图像进行文本识别,得到所述待识别图像中文本块的位置信息;
特征融合模块,用于将所述文本块的位置信息和所述图像特征进行融合,得到目标融合特征;
文本位置确定模块,用于基于所述目标融合特征和所述表格结构码,得到所述文本块在所述表格中的位置。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述表格识别方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述表格识别方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述表格识别方法的步骤。
上述表格识别方法、装置、计算机设备、存储介质和计算机程序产品,通过获取包括表格的待识别图像,对待识别图像进行特征提取,得到待识别图像的图像特征,基于该图像特征对表格的表格结构进行编码,得到表格结构码,对待识别图像进行文本识别,得到待识别图像中文本块的位置信息,将文本块的位置信息和图像特征进行融合,得到目标融合特征,基于目标融合特征和表格结构码,得到文本块在表格中的位置,即可以实现得到文本块对应的单元格的具***置,实现对文本块内容对应的单元格的准确定位,将图表信息转换为表格的格式化信息,从而提高对表格识别的准确性。
附图说明
图1为一个实施例中表格识别方法的应用环境图;
图2为一个实施例中表格识别方法的流程示意图;
图3为一个实施例中步骤206的流程示意图;
图4为一个实施例中对表格结构编码得到表格结构码的流程示意图;
图5为一个实施例中对位置坐标进行非线性化处理得到位置特征的流程示意图;
图6为一个实施例中将位置特征和图像特征进行拼接的流程示意图;
图7为另一个实施例中表格识别方法的流程示意图;
图8为另一个实施例中表格识别方法的流程示意图;
图9为一个实施例中表格识别装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的表格识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储***可以存储服务器104需要处理的数据。数据存储***可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102将待识别图像发送给服务器104,服务器104接收到待识别图像后对待识别图像进行特征提取,得到待识别图像的图像特征,基于图像特征对表格的表格结构进行编码,得到表格结构码,对待识别图像进行文本识别,得到待识别图像中文本块的位置信息,将文本块的位置信息和图像特征进行融合,得到目标融合特征,基于目标融合特征和表格结构码,得到文本块在表格中的位置。其中,终端102可以包括但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
可以理解地,本申请实施例提供的表格识别方法不仅可以用于上述终端与服务器交互的场景,也可以单独应用于服务器或者单独应用于终端的应用场景。
在一个实施例中,如图2所示,提供了一种表格识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤202至步骤212。
步骤202,获取待识别图像,待识别图像中包括表格。
待识别图像,是指包括表格的图像。在实际应用场景中,待识别图像可以是基于可编辑文档得到的,例如,将可编辑文档转换成图像格式的文件,待识别图像可以是Word(Microsoft Office Word)文件、PDF(Portable Document Format,可携带文件格式)文件或者Excel(Microsoft Office Excel)文件等格式转换成的图像格式文件,或者对可编辑文档进行拍照或者扫描,可得到对应图像格式的文件。
服务器可以接收终端发送的待识别图像,获取待识别图像,也可以基于相应的人机交互接口获取待识别图像。待识别图像中除了包括表格之外,还可以包括文字、图片或者符号等内容。
步骤204,对待识别图像进行特征提取,得到待识别图像的图像特征。
本实施例中,可以通过深度神经网络模型对待识别图像进行特征提取,得到相应图像特征。可选地,可以将待识别图像的尺寸由初始尺寸变换为目标尺寸,目标尺寸为深度神经网络模型所规定的尺寸,得到目标尺寸的待识别图像,将目标尺寸的待识别图像输入至深度神经网络模型中,得到待识别图像的图像特征。其中,图像特征可以是从待识别图像中提取出来的、具有高级抽象和表征能力的信息,图像特征通常不是来源于待识别图像的像素值,而是待识别图像的像素值经过多种非线性变换后的结果。可选地,可以通过训练得到的深度神经网络模型对待识别图像进行特征提取,得到图像特征。
在一个示例中,待识别图像的尺寸为(batchsize,img_h,img_w,img_c),其中,batchsize(批次大小)表示单次传递给程序用以训练的数据(样本)个数,在训练神经网络时,整个数据集通常会被划分为多个小批量,而批次大小就是指每个小批量中的样本数,本示例中batchsize可以是1、4或者16等,表征每次处理的图像数量;img_h表征待识别图像的高度,img_w表征待识别图像的宽度,img_h和img_w可以根据实际应用场景进行设置,例如img_h和img_w均可以为14的整数倍;img_c表征待识别图像的通道数,若待识别图像为灰度图,则通道数为1,若待识别图像为彩色图,则通道数为3。其中,待识别图像的格式可以是jpg(Joint Photographic Experts GROUP,JPEG)、png(Portable Network Graphics,便携式网络图形)、jpeg、bmp(Bitmap,位图)等格式。通过深度神经网络模型对待识别图像进行特征提取,得到待识别图像的图像特征,图像特征尺寸可以为(1,feature_num, feature_channel),feature_num和feature_channel用于表征图像特征的尺寸参数,feature_num可以是img_h*img_w/196,feature_channel可为384。
步骤206,基于图像特征对表格的表格结构进行编码,得到表格结构码。
表格结构码,是用于表征表格结构的编码。基于图像特征中表征的不同单元格属性进行编码,可以得到表格结构码。
可选的,可以基于图像特征中的表格属性与预设的属性标识码,得到表格结构码。例如,可以通过预设的属性标识码表征图像特征中的表格属性,从而通过预设的属性标识码对图像特征中的表格属性进行一一编码,得到对应的表格结构码。示例性地,通过第一属性标识码表征一个单元格,第二属性标识码表征单元格向左侧合并等,不同的属性标识码对应的含义不同,所表征的表格属性也不相同。
步骤208,对待识别图像进行文本识别,得到待识别图像中文本块的位置信息。
文本识别,是指文字内容的识别。文本块可以表征任意数量的文字内容,例如,一个文本块可以是一个或者多个文字内容,也可以是一个或者多个文本语句内容。
可选地,可以通过光学字符识别(OCR,Optical Character Recognition)对待识别图像进行文本识别,得到待识别图像中文本块在待识别图像中的位置信息。位置信息可以包括位置坐标、方向和距离等。
可选地,可以通过训练得到的表格文本识别模型,将待识别图像输入至表格文本识别模型,得到待识别图像中文本块的位置信息。
步骤210,将文本块的位置信息和图像特征进行融合,得到目标融合特征。
目标融合特征,是指融合图像特征和文本位置特征的特征。
在一个可选的实施例中,可以将文本的位置信息和图像特征进行加权融合,得到目标融合特征。
可选地,可以将文本位置信息和图像特征进行拼接,得到目标融合特征。
将文本块的位置信息和图像特征进行融合的过程中,可以将文本块的位置信息与相应文本块对应的图像特征进行融合,得到目标融合特征。例如,根据文本块的位置信息,从图像特征中提取出与文本块位置信息相对应的子图像特征,将文本块位置信息与该子图像特征进行融合,得到该文本块对应的目标融合特征。
步骤212,基于目标融合特征和表格结构码,得到文本块在表格中的位置。
本实施例中,可以基于目标融合特征对文本块的位置进行预测,得到位置预测结果,根据位置预测结果和表格结构码,得到文本块在表格中的位置,也就是说,得到文本块在表格中的位置即实现将文本块与所在单元格相匹配。可以理解地,在得到所有文本块在表格中的位置的情况下,可以得到整个表格的结构以及对应位置的文本,即得到表格的全部内容。
上述表格识别方法中,通过获取包括表格的待识别图像,对待识别图像进行特征提取,得到待识别图像的图像特征,基于该图像特征对表格的表格结构进行编码,得到表格结构码,对待识别图像进行文本识别,得到待识别图像中文本块的位置信息,将文本块的位置信息和图像特征进行融合,得到目标融合特征,基于目标融合特征和表格结构码,得到文本块在表格中的位置,即可以实现得到文本块对应的单元格的具***置,实现对文本块内容对应的单元格的准确定位,能够将文本块内容与相应单元格匹配,将图表信息转换为表格的格式化信息,从而提高对表格识别的准确性。
在一些实施例中,如图3所示,基于图像特征对表格的表格结构进行编码,得到表格结构码的步骤206,包括步骤302至步骤308。
步骤302,将图像特征的尺寸变换为预设尺寸,得到目标图像特征。
本实施例中,将图像特征的尺寸统一变换为预设尺寸,得到目标图像特征,其中,预设尺寸可以根据实际应用场景进行设置,例如,预设尺寸可以为表格属性识别模型的输入尺寸,表格属性识别模型用于识别图像特征中的表格属性。
步骤304,对目标图像特征中的表格属性进行识别,得到属性识别结果。
可选地,可以通过训练得到的表格属性识别模型对目标图像特征中的表格属性进行识别,得到属性识别结果。其中,表格属性用于表征表格特征,表格属性可以理解为是描述表格特征的属性。表格属性可以包括单元格数量、单元格合并方向、换行、起始单元格和末尾单元格等。
属性识别结果是指所识别到的表格属性。因此,属性识别结果包括至少一种表格属性。
步骤306,根据属性标识码和表格属性的对应关系,确定属性识别结果对应的目标属性标识码。
本实施例中,属性标识码和表格属性的对应关系是预先准备好的,并且属性标识码和表格属性之间为一一对应关系。
在一个可选的实施例中,服务器预先存储有属性标识码和表格属性的对应关系表,在得到属性识别结果之后,将属性识别结果与预先存储的对应关系表进行匹配,若对应关系表中存在属性识别结果对应的表格属性,则将对应关系表中的该表格属性对应的属性识别码作为属性识别结果对应的目标属性标识码。
步骤308,根据目标属性标识码,得到表格结构码。
可选地,根据属性识别结果对应的单元格顺序,将属性识别结果对应的目标属性标识码进行组合,得到表格结构码。其中,同一单元格对应的不同属性识别结果的目标属性标识码相邻。
在一个示例中,表格结构与表格结构码之间的关系如图4所示,属性标识码和表格属性的对应关系,可以是属性标识码通过罗马数字表征,例如,1表征一个单元格,2表征单元格向左合并,3表征单元格向上合并,4表征换行,0表征该段文本的开始,5表征该段文本的结束,6表征一个占位符,占位符用于当文本长度短于预设长度时,使用占位符补全长度。由此可知,在识别到图4中的表格对应的表格属性时,图4所示的表格就可以表示为“012114111341121413215”,即表格结构码为“012114111341121413215”,若预设长度为512,则需要在表格结构码“012114111341121413215”后面补充512-21=491个6。
本实施例中,通过将图像特征的尺寸变换为预设尺寸,得到目标图像特征,对目标图像特征中的表格属性进行识别,得到属性识别结果,根据属性标识码和表格属性的对应关系,确定属性识别结果对应的目标属性标识码,根据目标属性标识码得到表格结构码,可以提高表格结构码得到的效率。
在一个实施例中,将文本块的位置信息和图像特征进行融合,得到目标融合特征,包括:
对文本块的位置信息进行编码,得到位置特征;将位置特征和图像特征进行融合,得到目标融合特征。
文本块的位置信息包括文本块在待识别图像中的位置坐标,对文本块的位置信息进行编码,得到位置特征,继而将位置特征和图像特征进行融合,得到目标融合特征,目标融合特征用于表征图像特征和位置特征相融合的特征。
可选地,可以将文本块的位置坐标通过深度神经网络模型的全连接层、归一化层和激活层的处理,得到对应的位置特征。其中,全连接层是将位置坐标从高维信息转换成低维信息的处理,归一化层实现归一化处理,激活层通过引入非线性因素,以增加网络的表征能力,通过激活函数对卷积层的输出结果进行非线性转换,使得网络能够模拟更复杂的函数,从而增强其学习和表示数据的能力。
可选地,可以将位置特征和图像特征进行加权融合,得到目标融合特征。或者,也可以将位置特征和图像特征进行拼接,得到目标融合特征。
本实施例中,通过对文本块的位置信息进行编码,得到位置特征,将位置特征和图像特征进行融合,得到目标融合特征,可以得到通过图像特征提取得到的图像特征以及文本识别得到的文本块位置特征的融合特征,使得目标融合特征兼具图像特征和位置特征,可以基于更全面的特征得到文本块在表格中的位置,能够使得到的文本块在表格中的位置更加准确,即表格识别更加准确。
在一些实施例中,位置信息包括位置坐标;对文本块的位置信息进行编码,得到位置特征,包括:
获取文本块在待识别图像中的位置坐标;对位置坐标进行非线性化处理,得到位置特征。
本实施例中,通过对待识别图像进行文本识别,可以得到待识别图像中文本块的位置坐标,对位置坐标进行非线性话处理,可以得到位置特征。
可选地,可以对位置坐标进行降维处理和归一化处理,得到位置特征,在一些应用场景中,还可以通过激活函数的处理,有助于增加网络的非线性分割能力,使得网络可以更好地处理和分类复杂的模式。也就是说,对位置坐标依次进行降维处理、归一化处理、激活函数处理,得到位置特征。
在一个示例中,由于文本块的形状近似于四边形,则文本块的位置可以通过四边形的位置表征,而四边形的位置可以通过四个顶点的坐标进行表征,例如[left_top_x,left_top_y, right_top_x, right_top_y,right_down_x, right_down_y, left_down_x,left_down_y]用于表示四边形四个顶点的坐标。如图5所示,可以将文本块的位置坐标,即维度为[1,8]的数据,依次输入卷积神经网络的全链接层、归一化层和激活层,得到位置特征(1,feature_channel),其中,feature_channel用于表征位置特征,1表征数量为1。
本实施例中,通过获取文本块在待识别图像中的位置坐标,对位置坐标进行非线性化处理,得到位置特征,可以实现简单快速地将位置坐标转换为文本块的位置特征,从而提高位置信息编码的效率。
在一些实施例中,将位置特征和图像特征进行融合,得到目标融合特征,包括:
获取预设填充特征,预设填充特征用于分离相拼接的特征,基于该预设填充特征将位置特征和图像特征进行拼接,得到目标融合特征。
预设填充特征用于分离相拼接的两个特征,预设填充特征应尽可能地减小对拼接的特征造成的影响。例如,预设填充特征为零。
可选地,可以将位置特征、预设填充特征和图像特征依此拼接,得到目标融合特征,或者,也可以将图像特征、预设填充特征和位置特征依此拼接,得到目标融合特征。
在一个示例中,如图6所示,预设填充特征全为零,按照位置特征、预设填充特征和图像特征的顺序进行拼接,得到目标融合特征,通过预设填充特征对位置特征和图像特征进行分离,可以最大限度地保留位置特征和图像特征中的重要信息。其中,预设填充特征的维度可以与位置特征的维度或者图像特征的维度相同。其中,图6所示的示例中,位置特征的数量的2个,图像特征的数量为10个,可以理解的,在实际应用场景中,进行拼接的位置特征的数量和图像特征的数量可以根据需要进行设定。
本实施例中,通过获取预设填充特征,基于该预设填充特征将位置特征和图像特征进行拼接,得到目标融合特征,可以提高目标融合特征的准确性。
在一些实施例中,基于目标融合特征和表格结构码,得到文本块在表格中的位置,包括:
基于目标融合特征,预测文本块的位置,得到预测位置;将预测位置与表格结构码相匹配,得到文本块在表格中的位置。
本实施例中,服务器可以基于目标融合特征预测文本块的位置,得到预测位置,然后将预测位置与表格结构码相匹配,根据预测位置所匹配到的表格结构码可以确定文本块在表格中的位置。
在一个可选的实施例中,可以通过训练得到的位置预测模型基于目标融合特征预测文本块的位置,得到预测位置,即,将目标融合特征输入到位置预测模型中,可以得到预测位置。其中,位置预测模型可以通过对融合特征训练集训练得到,融合特征训练集包括多个融合特征训练样本。例如,将融合特征训练集和融合特征训练样本对应的预测位置样本输入卷积神经网络模型进行训练,此为有监督的训练,当满足训练条件时,得到位置预测模型。也可以采用无监督的训练方式训练得到位置预测模型,例如,将融合特征训练集输入卷积神经网络中,基于损失函数进行训练,当训练损失值满足预设阈值时,得到位置预测模型。可以理解的,位置预测模型也可以通过其他的训练方式得到,在此不作具体限定。
可选地,可以根据表格结构码的长度确定预测位置的范围。例如,表格结构码的长度为31,则预测位置的范围可以是[0,30]、[0,25]或者[0,20],其中,[0,30]表示从第0个位置至第30个位置的范围,[0,25]表示从第0个位置至第25个位置的范围,[0,20]表示从第0个位置至第20个位置的范围,具体可以根据实际应用场景进行选择,通常情况下,预测位置的范围不大于表格结构码的长度。预测位置的范围所包括的位置数量,可以根据表格结构从上到下以及从左到右的顺序进行统计。
在一个示例中,基于目标融合特征预测文本块的位置,得到预测位置为“XX行XX列”,则可以将“XX行XX列”与表格结构码中对应位置进行匹配,得到文本块在表格中的位置信息,以此类推,可以得到所有文本块在表格中的位置信息,经所有的文本块以及所有文本块对应的位置信息,可以得到所识别的表格。
本实施例中,基于目标融合特征预测文本块的位置,得到预测位置,将预测位置与表格结构码相匹配,得到文本块在表格中的位置,可以准确确定每个文本块在表格中的位置,从而得到每个文本块对应的单元格位置,所有文本块以及所有文本块对应的单元格即组成识的表格,可以提高表格识别的准确性。
在一些实施例中,位置信息包括位置坐标;对待识别图像进行文本识别,得到待识别图像中文本块的位置信息,包括:
对待识别图像进行光学字符识别,得到待识别图像中文本块的位置坐标。
光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
对待识别图像进行光学字符识别,可以得到待识别图像中的文本块,以及文本块在待识别图像中的位置坐标。其中,文本块大多呈现矩形,获取相应矩形四个顶点的坐标,即为相应文本块的位置坐标。可以理解地,可以以待识别图像的其中一个顶点为原点建立直角坐标系,该直角坐标系为二维坐标系,可以根据建立的直角坐标系得到文本块的位置坐标。
本实施例中,通过对待识别图像进行光学字符识别,可以实现快速准确地得到待识别图像中文本块的位置坐标。
在一个实施例中,如图7所示,表格识别方法包括步骤702至步骤720。
步骤702,获取待识别图像,待识别图像中包括表格。
步骤704,对待识别图像进行特征提取,得到待识别图像的图像特征。
步骤706,将图像特征的尺寸变换为预设尺寸,得到目标图像特征。
步骤708,对目标图像特征中的表格属性进行识别,得到属性识别结果。
步骤710,根据属性标识码和表格属性的对应关系,确定属性识别结果对应的目标属性标识码。
步骤712,根据目标属性标识码,得到表格结构码。
步骤714,对待识别图像进行光学字符识别,得到待识别图像中文本块的位置坐标。
步骤716,获取预设填充特征,并基于预设填充特征将位置特征和图像特征进行拼接,得到目标融合特征。
步骤718,基于目标融合特征,预测文本块的位置,得到预测位置。
步骤720,将预测位置与表格结构码相匹配,得到文本块在表格中的位置。
在一个示例中,表格识别的流程示意图如图8所示,对待识别图像进行OCR识别,得到文本块位置坐标,同时对待识别图像进行特征提取,得到待识别图像的图像特征。根据图像特征对表格的表格结构进行编码,得到表格结构码“01211411134112141321566…666”,将文本块位置坐标和图像特征进行融合,得到目标融合特征,根据目标融合特征对文本块的位置进行预测,得到预测结果pos_i,例如,pos_i=19,假设从0开始计算位置,则pos_i指向的是表格结构码中最后一个“1”的位置,这个位置指向的是表格中的最后一个单元格,则可以将文本块内容“120”与该最后一个单元格相匹配,从而得到文本块在表格中的位置。
上述实施例中,通过将包括表格的待识别图像分别进行特征提取,得到图像特征,以及进行光学字符识别得到文本块位置坐标,然后基于图像特征对表格结构进行编码,得到表格结构码,再将文本块位置特征和图像特征进行融合,得到目标融合特征,基于目标融合特征进行文本块的位置预测,得到位置预测结果,将位置预测结果与表格结果码进行匹配,得到文本块在表格中的位置,即,将文本块与表格中相应单元格进行匹配,从而可以将单元格与文本块内容对应,实现单元格的准确定位以及表格的准确识别,即使图像中的表格存在线条扭曲的情形,也可以较好地还原表格的结构,对单元格实现准确定位,表格识别的鲁棒性强,提高识别的准确性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的表格识别方法的表格识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个表格识别装置实施例中的具体限定可以参见上文中对于表格识别方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种表格识别装置,包括:图像获取模块902、图像特征提取模块904、表格结构编码模块906、文本识别模块908、特征融合模块910和文本位置确定模块912,其中:
图像获取模块902,用于获取待识别图像,所述待识别图像中包括表格;
图像特征提取模块904,用于对所述待识别图像进行特征提取,得到所述待识别图像的图像特征;
表格结构编码模块906,用于基于所述图像特征对所述表格的表格结构进行编码,得到表格结构码;
文本识别模块908,用于对所述待识别图像进行文本识别,得到所述待识别图像中文本块的位置信息;
特征融合模块910,用于将所述文本块的位置信息和所述图像特征进行融合,得到目标融合特征;
文本位置确定模块912,用于基于所述目标融合特征和所述表格结构码,得到所述文本块在所述表格中的位置。
在一个实施例中,表格结构编码模块906,还用于将所述图像特征的尺寸变换为预设尺寸,得到目标图像特征;对所述目标图像特征中的表格属性进行识别,得到属性识别结果;根据属性标识码和表格属性的对应关系,确定所述属性识别结果对应的目标属性标识码;根据所述目标属性标识码,得到所述表格结构码。
在一个实施例中,特征融合模块910,还用于对所述文本块的位置信息进行编码,得到位置特征;将所述位置特征和所述图像特征进行融合,得到所述目标融合特征。
在一个实施例中,所述位置信息包括位置坐标;特征融合模块910,还用于获取所述文本块在所述待识别图像中的位置坐标;对所述位置坐标进行非线性化处理,得到所述位置特征。
在一个实施例中,特征融合模块910,还用于获取预设填充特征,所述预设填充特征用于分离相拼接的特征;基于所述预设填充特征将所述位置特征和所述图像特征进行拼接,得到所述目标融合特征。
在一个实施例中,文本位置确定模块912,还用于基于所述目标融合特征,预测所述文本块的位置,得到预测位置;将所述预测位置与所述表格结构码相匹配,得到所述文本块在所述表格中的位置。
在一个实施例中,所述位置信息包括位置坐标;文本识别模块908,还用于对所述待识别图像进行光学字符识别,得到所述待识别图像中文本块的位置坐标。
上述表格识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过***总线连接,通信接口通过输入/输出接口连接到***总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种表格识别方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述实施例中表格识别方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中表格识别方法的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述实施例中表格识别方法的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种表格识别方法,其特征在于,所述方法包括:
获取待识别图像,所述待识别图像中包括表格;
对所述待识别图像进行特征提取,得到所述待识别图像的图像特征;
基于所述图像特征对所述表格的表格结构进行编码,得到表格结构码;
对所述待识别图像进行文本识别,得到所述待识别图像中文本块的位置信息;
将所述文本块的位置信息和所述图像特征进行融合,得到目标融合特征;
基于所述目标融合特征和所述表格结构码,得到所述文本块在所述表格中的位置。
2.根据权利要求1所述的方法,其特征在于,所述基于所述图像特征对所述表格的表格结构进行编码,得到表格结构码,包括:
将所述图像特征的尺寸变换为预设尺寸,得到目标图像特征;
对所述目标图像特征中的表格属性进行识别,得到属性识别结果;
根据属性标识码和表格属性的对应关系,确定所述属性识别结果对应的目标属性标识码;
根据所述目标属性标识码,得到所述表格结构码。
3.根据权利要求1所述的方法,其特征在于,所述将所述文本块的位置信息和所述图像特征进行融合,得到目标融合特征,包括:
对所述文本块的位置信息进行编码,得到位置特征;
将所述位置特征和所述图像特征进行融合,得到所述目标融合特征。
4.根据权利要求3所述的方法,其特征在于,所述位置信息包括位置坐标;所述对所述文本块的位置信息进行编码,得到位置特征,包括:
获取所述文本块在所述待识别图像中的位置坐标;
对所述位置坐标进行非线性化处理,得到所述位置特征。
5.根据权利要求3所述的方法,其特征在于,所述将所述位置特征和所述图像特征进行融合,得到所述目标融合特征,包括:
获取预设填充特征,所述预设填充特征用于分离相拼接的特征;
基于所述预设填充特征将所述位置特征和所述图像特征进行拼接,得到所述目标融合特征。
6.根据权利要求1所述的方法,其特征在于,所述基于所述目标融合特征和所述表格结构码,得到所述文本块在所述表格中的位置,包括:
基于所述目标融合特征,预测所述文本块的位置,得到预测位置;
将所述预测位置与所述表格结构码相匹配,得到所述文本块在所述表格中的位置。
7.根据权利要求1所述的方法,其特征在于,所述位置信息包括位置坐标;所述对所述待识别图像进行文本识别,得到所述待识别图像中文本块的位置信息,包括:
对所述待识别图像进行光学字符识别,得到所述待识别图像中文本块的位置坐标。
8.一种表格识别装置,其特征在于,所述装置包括:
图像获取模块,用于获取待识别图像,所述待识别图像中包括表格;
图像特征提取模块,用于对所述待识别图像进行特征提取,得到所述待识别图像的图像特征;
表格结构编码模块,用于基于所述图像特征对所述表格的表格结构进行编码,得到表格结构码;
文本识别模块,用于对所述待识别图像进行文本识别,得到所述待识别图像中文本块的位置信息;
特征融合模块,用于将所述文本块的位置信息和所述图像特征进行融合,得到目标融合特征;
文本位置确定模块,用于基于所述目标融合特征和所述表格结构码,得到所述文本块在所述表格中的位置。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202410483133.2A 2024-04-19 2024-04-19 表格识别方法、装置、计算机设备、存储介质 Pending CN118298448A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410483133.2A CN118298448A (zh) 2024-04-19 2024-04-19 表格识别方法、装置、计算机设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410483133.2A CN118298448A (zh) 2024-04-19 2024-04-19 表格识别方法、装置、计算机设备、存储介质

Publications (1)

Publication Number Publication Date
CN118298448A true CN118298448A (zh) 2024-07-05

Family

ID=91679378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410483133.2A Pending CN118298448A (zh) 2024-04-19 2024-04-19 表格识别方法、装置、计算机设备、存储介质

Country Status (1)

Country Link
CN (1) CN118298448A (zh)

Similar Documents

Publication Publication Date Title
CN109933756B (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
CN112232149A (zh) 一种文档多模信息和关系提取方法及***
CN111476067A (zh) 图像的文字识别方法、装置、电子设备及可读存储介质
CN111311578A (zh) 基于人工智能的对象分类方法以及装置、医学影像设备
CN109886330B (zh) 文本检测方法、装置、计算机可读存储介质和计算机设备
CN113378710A (zh) 图像文件的版面分析方法、装置、计算机设备和存储介质
CN114429637B (zh) 一种文档分类方法、装置、设备及存储介质
CN112597918A (zh) 文本检测方法及装置、电子设备、存储介质
CN111797834A (zh) 文本识别方法、装置、计算机设备和存储介质
CN114612289A (zh) 风格化图像生成方法、装置及图像处理设备
CN112183542A (zh) 基于文本图像的识别方法、装置、设备和介质
CN116612280A (zh) 车辆分割方法、装置、计算机设备和计算机可读存储介质
CN111767889A (zh) 公式识别方法、电子设备及计算机可读介质
CN115131803A (zh) 文档字号的识别方法、装置、计算机设备和存储介质
CN112966676B (zh) 一种基于零样本学习的文档关键信息抽取方法
CN113537416A (zh) 基于生成式对抗网络的文本转换图像的方法及相关设备
CN111898544A (zh) 文字图像匹配方法、装置和设备及计算机存储介质
CN115797291B (zh) 回路端子的识别方法、装置、计算机设备和存储介质
CN111476095A (zh) 一种表情属性识别方法、装置、计算机设备及存储介质
CN116894974A (zh) 图像分类方法、装置、计算机设备及其存储介质
CN113554549B (zh) 文本图像的生成方法、装置、计算机设备和存储介质
CN116363663A (zh) 图像处理方法、图像识别方法及装置
CN118298448A (zh) 表格识别方法、装置、计算机设备、存储介质
CN115810215A (zh) 面部图像生成方法、装置、设备及存储介质
CN114494678A (zh) 文字识别方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination