CN115546815A - 一种表格识别方法、装置、设备及存储介质 - Google Patents
一种表格识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115546815A CN115546815A CN202211362565.5A CN202211362565A CN115546815A CN 115546815 A CN115546815 A CN 115546815A CN 202211362565 A CN202211362565 A CN 202211362565A CN 115546815 A CN115546815 A CN 115546815A
- Authority
- CN
- China
- Prior art keywords
- features
- text
- feature
- determining
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种表格识别方法、装置、设备及存储介质,具体实现方案为:从待测图像中检测确定表格区域;基于所述表格区域确定对应的文本特征和位置特征;对所述文本特征和所述位置特征进行融合得到表格特征;利用所述表格特征确定所述待测图像中的表格识别结果。根据本申请的技术方案,能够准确地识别表格。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种表格识别方法、装置、设备及存储介质。
背景技术
随着信息技术的发展,电子表格的重要性毋庸置疑。然而,业务处理过程中面临的表格并不只是简单的Excel和Word文档,还会有许多是以PDF扫描件和图片形式存在的表格图片。
通常情况下,仅采用单元格检测方法对带有表格的图片进行表格识别,识别出的表格不准确,还需要人工对识别出的表格进行后期调整。
发明内容
为了解决上述问题,本申请提出一种表格识别方法、装置、设备及存储介质,能够有效提升表格识别的准确性。
根据本申请实施例的第一方面,提供了一种表格识别方法,包括:
从待测图像中检测确定表格区域;
基于所述表格区域确定对应的文本特征和位置特征;
对所述文本特征和所述位置特征进行融合得到表格特征;
利用所述表格特征确定所述待测图像中的表格识别结果。
根据本申请实施例的第二方面,提供了一种表格识别装置,包括:
确定模块,用于从待测图像中检测确定表格区域;
处理模块,用于基于所述表格区域确定对应的文本特征和位置特征;
融合模块,用于对所述文本特征和所述位置特征进行融合得到表格特征;
识别模块,用于利用所述表格特征确定所述待测图像中的表格识别结果。
本申请第三方面提供了一种电子设备,包括:
存储器和处理器;
所述存储器与所述处理器连接,用于存储程序;
所述处理器,通过运行所述存储器中的程序,实现上述的表格识别方法。
本申请第四方面提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程度被处理器运行时,实现上述的表格识别方法。
上述申请中的一个实施例具有如下优点或有益效果:
本申请提出的技术方案从待检测图像中识别表格时,基于待测图像中的表格区域确定对应的文本特征和位置特征,对文本特征和位置特征进行融合得到表格特征,即实现了从多个维度对表格进行特征提取,从而利用表格特征能够更准确地识别待测图像中的表格,因此可以提高表格的识别精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请一实施例提供的一种表格识别方法的流程示意图;
图2为本申请一实施例提供的全线表的示意图;
图3为本申请一实施例提供的无线表的示意图;
图4为本申请一实施例提供的少线表的示意图;
图5为本申请一实施例提供的单元格划分的示意图;
图6为本申请一实施例提供的文本行划分的示意图;
图7为本申请一实施例提供的一种表格识别方法的流程示意图;
图8为本申请一实施例提供的单元格和文本行划分的示意图;
图9为本申请一实施例提供的特征融合的具体示意图;
图10为本申请一实施例提供的表格识别的具体示意图;
图11为本申请一实施例提供的一种表格识别装置的结构示意图;
图12为本申请一实施例提供的一种电子设备的结构示意图。
具体实施方式
本申请实施例技术方案适用于应用在各种表格识别的场景中,例如,智能办公场景、文本处理等。
目前,随着人工智能相关技术的日益成熟,智能办公已经成为大部分用户的需求。大部分进行表格识别时,仅采用单元格检测方法对带有表格的图片进行处理,而此种方式对于少线表格的识别效果较差。
因此,有必要提供一种表格识别方法、装置、设备及存储介质,能够更加准确地对表格进行识别。
本申请实施例技术方案可示例性地应用于处理器、电子设备、服务器(包括云服务器)等硬件设备,或包装成软件程序被运行,当硬件设备执行本申请实施例技术方案的处理过程,或上述软件程序被运行时,利用待测图像中的表格区域确定的文本特征和位置特征进行融合得到表格特征,从而实现利用表格特征生成待测图像中的表格的目的。本申请实施例只对本申请技术方案的具体处理过程进行示例性介绍,并不对本申请技术方案的具体实现形式进行限定,任意的可以执行本申请技术方案处理过程的技术实现形式,都可以被本申请实施例所采用。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
示例性方法
图1是根据本申请一实施例的表格识别方法的流程图。在一示例性实施例中,该一种表格识别方法,具体包括:
S110、从待测图像中检测确定表格区域;
S120、基于所述表格区域确定对应的文本特征和位置特征;
S130、对所述文本特征和所述位置特征进行融合得到表格特征;
S140、利用所述表格特征确定所述待测图像中的表格识别结果。
在步骤S110中,示例性地,待测图像是指包含表格的图像,其中,表格由一行或多行单元格组成,表格用于显示数字和其他项,这样便于快速引用和分析,表格中的项被组织为行和列。如图2-4所示,表格类别多样,根据有无边框可以分为有线表、无线表,其中,有线表可以分为少线表(如三线表)和全线表等。可选地,待测图像可以是文章或网页的截图,还可以是拍照得到的图像。表格区域是指待测图像中表格所在的区域。可选地,表格区域可以是待测图像中的整个表格,还可以是待测图像中的部分表格,例如,一行表格所在的区域、每个单元格所在的区域等。具体地,可以采用目标检测或实例分割对待测图像进行检测,得到表格区域。例如,YOLO(You Only Look Once)、Faster RCNN(Faster Regions with CNNfeatures)、生成对抗网络(Generative Adversarial Network,GAN)。
在步骤S120中,示例性地,文本特征用于表示表格中文本的信息。可选地,文本特征可以包括:文本语义特征和文本格式特征。可选地,文本语义特征用于表示文本的含义。文本格式特征用于表示文本的视觉信息,例如,文本格式特征可以包括文本颜色、文本字号、文本字体、是否加粗、是否带下划线、字体分布、字体是否有背景色等。位置特征用于表示表格区域的位置。例如,坐标、表格中行的信息、表格中列的信息等。
可选地,当表格区域为整个表格时,文本特征对应整个表格中所有文本的文本特征,位置特征对应整个表格的位置特征。当表格区域为一行表格所在的区域,则文本特征是整个表格中每一行表格对应的文本特征,位置特征是整个表格中每一行表格对应的位置特征,这样,整个表格中有几行,就有几个文本特征和位置特征。当表格区域为每个单元格所在的区域,则文本特征是整个表格中每个单元格对应的文本特征,位置特征是整个表格中每个单元格对应的位置特征,这样,整个表格中有几个单元格,就有几个文本特征和位置特征。
具体地,可以根据表格图像、文本特征和位置特征对神经网络进行训练,从而得到训练好的神经网络模型。这样,根据训练好的神经网络模型对表格区域进行识别,就可以输出文本特征和位置特征。还可以是将表格区域输入至预先训练好的文本识别模型得到文本特征,将表格区域输入至预先训练好的位置识别模型得到位置特征,从而确定出文本特征和位置特征。文本识别模型可以是卷积循环神经网络结构(Convolutional RecurrentNeural Network,CRNN)等模型,位置识别模型可以是U-net模型,还可以是任意可以在图像中识别坐标的模型,在此不作限定。
在步骤S130中,示例性地,表格特征用于反映表格的位置和表格中的具体内容。可选地,可以是将文本特征和位置特征进行拼接得到表格特征。可选地,还可以是将文本特征和位置特征进行拼接得到融合特征,将融合特征输入至编码器或神经网络(例如,前馈神经网络模型(Convolutional Neural Network,CNN)、循环神经网络(Recurrent NeuralNetworks,RNN))得到表格特征。
在步骤S140中,示例性地,表格识别结果用于表示待测图像中表格结构和/或表格内容。可选地,可以根据预先训练好的神经网络对表格特征进行处理得到表格识别结果。还可以是根据表格特征中的位置信息对表格特征进行组合得到表格识别结果。
在本申请的技术方案中,从待检测图像中识别表格时,基于待测图像中的表格区域确定对应的文本特征和位置特征,对文本特征和位置特征进行融合得到表格特征,即实现了从多个维度对表格进行特征提取,从而利用表格特征能够更准确地识别待测图像中的表格,因此可以提高表格的识别精度。
在一种实施方式中,基于所述表格区域确定对应的文本特征和位置特征,包括:
确定所述表格区域中的每一表格元素对应的文本特征和位置特征;所述表格元素包括单元格和/或文本行。
示例性地,表格区域可以包括多个表格元素,表格元素包括单元格和/或文本行。其中,单元格根据表格中的线条进行划分,例如,当表格是全线表时,则根据行列表格线确定单元格;当表格是三线表时,则根据其上下两个行表格线确定单元格。其中,文本行可以是单个字、词汇、词组、句子等,文本行还可以是根据字和符号组成的文本,在此不作限定。具体地,单元格和文本行都可以是通过目标检测确定的。
可选地,当表格元素中包括单元格或文本行时,确定所述表格区域中的每一表格元素对应的文本特征和位置特征,包括:
在所述表格区域中分别确定单元格检测结果或文本行检测结果;
基于所述单元格检测结果确定对应的文本特征和位置特征;
或,基于所述文本行检测结果确定对应的文本特征和位置特征。
在本实施例中,如图5所示,表格元素中包括单元格时,对表格区域进行检测,即根据行表格线确定出两个单元格检测结果,将图5中上面的单元格称为第一单元格检测结果,下面的单元格称为第二单元格检测结果。对第一单元格检测结果进行文本识别和位置识别,得到第一单元格检测结果对应的文本特征和位置特征,对第二单元格检测结果进行文本识别和位置识别,得到第二单元格检测结果对应的文本特征和位置特征。可以理解的是,第一单元格检测结果的文本特征是包括:Model type、Acc、BLEU-2、BLEU-4的特征,第一单元格检测结果的位置特征是第一单元格对应的位置信息,第二单元格检测结果对应的文本特征和位置特征同理。这样,可以准确地确定表格中各个单元格之间的位置关系和单元格中的文本关系,从而可以更准确地识别表格。
在本实施例中,如图6所示,表格元素中包括文本行时,对表格区域进行检测,即根据文本内容确定出十二个文本行检测结果,针对每个文本行检测结果确定进行文本识别和位置识别,得到每个文本行检测结果对应的文本特征和位置特征。例如,针对Model type确定对应的文本特征和位置特征,针对Vision only确定对应的文本特征和位置特征。如此重复,可以确定出十二个文本特征和十二个位置特征。这样,可以准确地确定表格中各个文本行之间的位置关系和文本行的含义,从而可以更准确地识别表格。
优选地,如图7所示,在所述表格元素包括单元格和文本行的情况下,所述确定所述表格区域中的每一表格元素对应的文本特征和位置特征,包括:
S710、在所述表格区域中分别确定单元格检测结果和文本行检测结果;
S720、基于所述单元格检测结果确定对应的文本特征和位置特征;
S730、基于所述文本行检测结果确定对应的文本特征和位置特征。
在本实施例中,如图8所示,表格元素中包括单元格和文本行时,可以对表格区域进行表格元素(token)检测,具体地,可以使用Faster RCNN对表格区域进行检测,确定表格区域中的单元格检测结果和文本行检测结果。针对每个单元格检测结果进行文本识别和位置识别,得到每个单元格检测结果对应的文本特征和位置特征。例如,单元格中有Modeltype、Acc、BLEU-2、BLEU-4,那么单元格检测结果对应的文本特征则是包含Model type、Acc、BLEU-2、BLEU-4的特征。单元格检测结果的位置特征是该单元格对应的位置信息,例如,单元格的中心点位置或单元格的顶点位置等。
针对每个文本行检测结果确定进行文本识别和位置识别,得到每个文本行检测结果对应的文本特征和位置特征。例如,针对Model type确定对应的文本特征和位置特征,针对Acc确定对应的文本特征和位置特征。如此重复,可以确定出多个文本特征和位置特征。这样,不仅可以确定单元格之间的位置关系和单元格内的文本关系,还可以确定个文本行之间的位置关系和文本行的含义,自底向上的确定了少线表格中单元格和文本行之间的关系,从而可以更准确地识别少线表格。
在一种实施方式中,在所述表格元素包括单元格的情况下,所述对所述文本特征和所述位置特征进行融合得到表格特征,包括:
针对每一单元格,将所述单元格对应的文本特征和位置特征进行拼接处理,得到所述单元格对应的表格特征。
示例性地,根据文本识别模型对每一单元格进行识别,得到单元格中的内容,若识别出单元格中包含多个内容,可以将多个内容拼接得到该单元格对应的文本特征。根据位置识别模型对每一单元格的位置信息进行识别得到位置特征。将文本特征和位置特征进行拼接得到表格特征,以实现对多模态特征的融合,使得表格特征可以反映多种维度的特征。
在一种实施方式中,所述表格元素包括文本行的情况下,所述对所述文本特征和所述位置特征进行融合得到表格特征,包括:
针对每一文本行,将所述文本行对应的文本特征和位置特征进行拼接处理,得到所述文本行对应的表格特征。
示例性地,根据文本识别模型对每一文本行进行识别,得到每一文本行对应的文本特征。根据位置识别模型对每一文本行的位置信息进行识别得到位置特征。将文本特征和位置特征进行拼接得到表格特征,以实现对多模态特征的融合,使得表格特征可以反映多种维度的特征。
在一种实施方式中,其中,所述文本特征包括:文本格式特征和语义特征;
相应地,所述对所述文本特征和所述位置特征进行融合得到表格特征,包括:
对所述文本格式特征、所述语义特征和所述位置特征进行融合得到表格特征。
示例性地,可以根据训练好的神经网络模型对表格区域进行识别,输出文本格式特征、语义特征和位置特征。还可以是将表格区域输入至预先训练好的视觉分类模型得到文本格式特征,表格区域输入至预先训练好的文本识别模型得到语义特征,将表格区域输入至预先训练好的位置识别模型得到位置特征,从而确定出文本格式特征、语义特征和位置特征。
在本实施例中,如图9所示,针对表格区域中的每一表格元素通过CNN在提取文本格式特征,通过BERT(Bidirectional Encoder Representations from Transformers)提取语义特征、根据位置编码器(position embedding)确定位置特征。对上述文本格式特征、语义特征和位置特征进行拼接处理,得到每一表格元素对应的表格特征,使得每个表格特征都是多维度的特征,从而可以对表格进行多模态的表示。这样,在表格区域中包括多个表格元素时,可以对应得到多个表格特征。
在一种实施方式中,所述利用所述表格特征确定所述待测图像中的表格识别结果,包括:
将所述表格特征确定表格的预测序列;
根据所述预测序列确定所述待测图像中的表格拓扑结构。
示例性地,预测序列可以是超文本标记语言定义的序列,即html标注的序列。可以是将表格特征输入至预设的分类模型中,得到所述待测图像中的表格预测序列;其中,分类模型是根据训练数据训练得到的,可选地,训练数据是图像样本的表格区域中的表格特征和表格区域对应的序列标注。将表格区域中的表格特征的作为分类模型的输入,表格区域对应的序列标注作为分类模型的目标,以对分类模型进行训练。具体地,分类模型可以采用transformer模型。
具体地,将表格特征输入至预设的分类模型中输出预测序列,根据预测系列即可确定出待测图像中表格的行和列,从而确定出表格拓扑结构。如此,将表格结构识别转化为序列预测,增加了表格识别的准确性。进一步地,还可以将文本特征添加至表格拓扑结构中,从而补充表格中的内容。
在本实施例中,如图10所示,首先对表格区域进行token检测确定单元格检测结果和文本行检测结果。确定每个单元格检测结果和文本行检测结果对应的文本格式特征、语义特征和位置特征。针对每个单元格检测结果对于文本格式特征、语义特征和位置特征进行拼接,得到每个单元格检测结果对应的表格特征。针对每个文本行检测结果对于文本格式特征、语义特征和位置特征进行拼接,得到每个文本行检测结果对应的表格特征。如此,得到了自底向上多模态表格特征。再将上述表格特征输入至transformer模型,输出html标注的预测序列。根据html标注的预测序列则可以直接输出表格拓扑结构,实现自顶而下的表格识别,即使面对少线表格依然可以准确识别表格的结构。
示例性装置
相应的,图11是根据本申请一实施例的表格识别装置的结构示意图。在一示例性实施例中,本申请实施例还提出了一种表格识别装置,该装置包括:
确定模块1110,用于从待测图像中检测确定表格区域;
处理模块1120,用于基于所述表格区域确定对应的文本特征和位置特征;
融合模块1130,用于对所述文本特征和所述位置特征进行融合得到表格特征;
识别模块1140,用于利用所述表格特征确定所述待测图像中的表格识别结果。
在一种实施方式中,处理模块1120,还用于:
确定所述表格区域中的每一表格元素对应的文本特征和位置特征;所述表格元素包括单元格和/或文本行。
在一种实施方式中,在所述表格元素包括单元格和文本行的情况下,所述确定所述表格区域中的每一表格元素对应的文本特征和位置特征,包括:
在所述表格区域中分别确定单元格检测结果和文本行检测结果;
基于所述单元格检测结果确定对应的文本特征和位置特征;
基于所述文本行检测结果确定对应的文本特征和位置特征。
在一种实施方式中,在所述表格元素包括单元格的情况下,所述对融合模块1130,还用于:
针对每一单元格,将所述单元格对应的文本特征和位置特征进行拼接处理,得到所述单元格对应的表格特征。
在一种实施方式中,所述表格元素包括文本行的情况下,所述对融合模块1130,还用于:
针对每一文本行,将所述文本行对应的文本特征和位置特征进行拼接处理,得到所述文本行对应的表格特征。
在一种实施方式中,其中,所述文本特征包括:文本格式特征和语义特征;
相应地,所述对融合模块1130,还用于;
对所述文本格式特征、所述语义特征和所述位置特征进行融合得到表格特征。
在一种实施方式中,所述识别模块1140,还用于:
将所述表格特征确定表格的预测序列;
根据所述预测序列确定所述待测图像中的表格拓扑结构。
本实施例提供的表格识别装置,与本申请上述实施例所提供的表格识别方法属于同一申请构思,可执行本申请上述任意实施例所提供的表格识别方法,具备执行表格识别方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请上述实施例提供的表格识别方法的具体处理内容,此处不再加以赘述。
示例性电子设备
本申请另一实施例还提出一种电子设备,参见图12所示,该设备包括:
存储器1200和处理器1210;
其中,所述存储器1200与所述处理器1210连接,用于存储程序;
所述处理器1210,用于通过运行所述存储器1200中存储的程序,实现上述任一实施例公开的表格识别方法。
具体的,上述电子设备还可以包括:总线、通信接口1220、输入设备1230和输出设备240。
处理器1210、存储器1200、通信接口1220、输入设备1230和输出设备1240通过总线相互连接。其中:
总线可包括一通路,在计算机***各个部件之间传送信息。
处理器1210可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器1210可包括主处理器,还可包括基带芯片、调制解调器等。
存储器1200中保存有执行本发明技术方案的程序,还可以保存有操作***和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器1200可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
输入设备1230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
输出设备1240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
通信接口1220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器1210执行存储器1200中所存放的程序,以及调用其他设备,可用于实现本申请上述实施例所提供的任意一种表格识别方法的各个步骤。
示例性计算机程序产品和存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的表格识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是存储介质,其上存储有计算机程序,计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的表格识别方法中的步骤。
上述的电子设备的具体工作内容,以及上述的计算机程序产品和存储介质上的计算机程序被处理器运行时的具体工作内容,均可以参见上述的方法实施例的内容,此处不再赘述。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种表格识别方法,其特征在于,包括:
从待测图像中检测确定表格区域;
基于所述表格区域确定对应的文本特征和位置特征;
对所述文本特征和所述位置特征进行融合得到表格特征;
利用所述表格特征确定所述待测图像中的表格识别结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述表格区域确定对应的文本特征和位置特征,包括:
确定所述表格区域中的每一表格元素对应的文本特征和位置特征;所述表格元素包括单元格和/或文本行。
3.根据权利要求2所述的方法,其特征在于,在所述表格元素包括单元格和文本行的情况下,所述确定所述表格区域中的每一表格元素对应的文本特征和位置特征,包括:
在所述表格区域中分别确定单元格检测结果和文本行检测结果;
基于所述单元格检测结果确定对应的文本特征和位置特征;
基于所述文本行检测结果确定对应的文本特征和位置特征。
4.根据权利要求2所述的方法,其特征在于,在所述表格元素包括单元格的情况下,所述对所述文本特征和所述位置特征进行融合得到表格特征,包括:
针对每一单元格,将所述单元格对应的文本特征和位置特征进行拼接处理,得到所述单元格对应的表格特征。
5.根据权利要求2所述的方法,其特征在于,所述表格元素包括文本行的情况下,所述对所述文本特征和所述位置特征进行融合得到表格特征,包括:
针对每一文本行,将所述文本行对应的文本特征和位置特征进行拼接处理,得到所述文本行对应的表格特征。
6.根据权利要求1所述的方法,其特征在于,其中,所述文本特征包括:文本格式特征和语义特征;
相应地,所述对所述文本特征和所述位置特征进行融合得到表格特征,包括:
对所述文本格式特征、所述语义特征和所述位置特征进行融合得到表格特征。
7.根据权利要求1所述的方法,其特征在于,所述利用所述表格特征确定所述待测图像中的表格识别结果,包括:
将所述表格特征确定表格的预测序列;
根据所述预测序列确定所述待测图像中的表格拓扑结构。
8.一种表格识别装置,其特征在于,包括:
确定模块,用于从待测图像中检测确定表格区域;
处理模块,用于基于所述表格区域确定对应的文本特征和位置特征;
融合模块,用于对所述文本特征和所述位置特征进行融合得到表格特征;
识别模块,用于利用所述表格特征确定所述待测图像中的表格识别结果。
9.一种电子设备,其特征在于,包括:
存储器和处理器;
所述存储器与所述处理器连接,用于存储程序;
所述处理器,通过运行所述存储器中的程序,实现如权利要求1至7中任意一项表格识别方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程度被处理器运行时,实现如权利要求1至7中任意一项表格识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211362565.5A CN115546815A (zh) | 2022-11-02 | 2022-11-02 | 一种表格识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211362565.5A CN115546815A (zh) | 2022-11-02 | 2022-11-02 | 一种表格识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115546815A true CN115546815A (zh) | 2022-12-30 |
Family
ID=84720428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211362565.5A Pending CN115546815A (zh) | 2022-11-02 | 2022-11-02 | 一种表格识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546815A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824611A (zh) * | 2023-08-28 | 2023-09-29 | 星汉智能科技股份有限公司 | 表格结构识别方法、电子设备、计算机可读存储介质 |
-
2022
- 2022-11-02 CN CN202211362565.5A patent/CN115546815A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824611A (zh) * | 2023-08-28 | 2023-09-29 | 星汉智能科技股份有限公司 | 表格结构识别方法、电子设备、计算机可读存储介质 |
CN116824611B (zh) * | 2023-08-28 | 2024-04-05 | 星汉智能科技股份有限公司 | 表格结构识别方法、电子设备、计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109685055B (zh) | 一种图像中文本区域的检测方法及装置 | |
CN110362370B (zh) | 一种网页语言的切换方法、装置及终端设备 | |
US20210182611A1 (en) | Training data acquisition method and device, server and storage medium | |
US10915788B2 (en) | Optical character recognition using end-to-end deep learning | |
EP3570208A1 (en) | Two-dimensional document processing | |
CN109033282B (zh) | 一种基于抽取模板的网页正文抽取方法及装置 | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
CN112800848A (zh) | 票据识别后信息结构化提取方法、装置和设备 | |
AU2018226399A1 (en) | Detecting style breaches in multi-author content or collaborative writing | |
CN112396049A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
CN108664471B (zh) | 文字识别纠错方法、装置、设备及计算机可读存储介质 | |
US11341319B2 (en) | Visual data mapping | |
US20230115459A1 (en) | Method and device for processing document and method and device for processing page | |
CN111460149A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN115917613A (zh) | 文档中文本的语义表示 | |
CN114724166A (zh) | 一种标题抽取模型的生成方法、装置及电子设备 | |
CN103942211A (zh) | 一种正文页的识别方法及装置 | |
CN115546815A (zh) | 一种表格识别方法、装置、设备及存储介质 | |
US20230084845A1 (en) | Entry detection and recognition for custom forms | |
CN112464927B (zh) | 一种信息提取方法、装置及*** | |
CN111881900B (zh) | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 | |
CN113283231A (zh) | 获取签章位的方法、设置***、签章***及存储介质 | |
CN114254231A (zh) | 网页内文抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |