CN115841677B - 文本版面分析方法、装置、电子设备及存储介质 - Google Patents
文本版面分析方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115841677B CN115841677B CN202211652196.3A CN202211652196A CN115841677B CN 115841677 B CN115841677 B CN 115841677B CN 202211652196 A CN202211652196 A CN 202211652196A CN 115841677 B CN115841677 B CN 115841677B
- Authority
- CN
- China
- Prior art keywords
- text
- layout
- sample
- analyzed
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种文本版面分析方法、装置、电子设备及存储介质,其中方法包括:基于OCR算法对待分析文本版面的识别结果,获取所述待分析文本版面中的文本内容和对应文本框的坐标;将所述待分析文本版面中的文本内容转换为基于所述待分析文本版面的句向量;将所述待分析文本版面中的文本框进行坐标拼接,得到拼接后的坐标信息;将所述待分析文本版面中除文本内容之外的字符生成字符特征信息;将所述句向量、所述坐标信息和所述字符特征信息进行信息拼接,得到拼接序列;将所述拼接序列输入至预先训练好的seq2seq模型中,以输出每一个文本内容的内容标识。本方案,能够提高文本版面中分析结果的准确性。
Description
技术领域
本发明实施例涉及计算机视觉技术领域,特别涉及一种文本版面分析方法、装置、电子设备及存储介质。
背景技术
在文本版面分析场景中,通常使用OCR算法针对文本图片进行内容检测和识别,并在OCR算法检测完成之后,针对检测内容进行关键信息的提取。现有技术中,针对识别出的检测内容,通过坐标定位方式获取所需的关键信息。但是该方式在针对文本格式发生变化的文本版面进行处理时,准确性较差。
发明内容
本发明实施例提供了一种文本版面分析方法、装置、电子设备及存储介质,能够提高文本版面中分析结果的准确性。
第一方面,本发明实施例提供了一种文本版面分析方法,包括:
基于OCR算法对待分析文本版面的识别结果,获取所述待分析文本版面中的文本内容和对应文本框的坐标;
将所述待分析文本版面中的文本内容转换为基于所述待分析文本版面的句向量;
将所述待分析文本版面中的文本框进行坐标拼接,得到拼接后的坐标信息;
将所述待分析文本版面中除文本内容之外的字符生成字符特征信息;
将所述句向量、所述坐标信息和所述字符特征信息进行信息拼接,得到拼接序列;
将所述拼接序列输入至预先训练好的seq2seq模型中,以输出每一个文本内容的内容标识。
在一种可能的实现方式中,所述seq2seq模型的训练方式包括:
获取多个样本文本版面,针对每一个样本文本版面均执行:
基于OCR算法对该样本文本版面的识别结果,获取该样本文本版面中的样本文本内容和对应文本框的坐标;
基于人工标识方式获取该样本文本版面中样本文本内容的标识ID;
将该样本文本版面中的样本文本内容转换为基于该样本文本版面的样本句向量;
将该样本文本版面中的文本框进行坐标拼接,得到拼接后的样本坐标信息;
将该样本文本版面中除文本内容之外的字符生成样本字符特征信息;
将所述样本句向量、所述样本坐标信息和所述样本字符特征信息进行信息拼接,得到样本拼接序列;
将该样本拼接序列作为输入,将该样本文本版面中样本文本内容的标识ID作为输出,得到对seq2seq模型进行训练的样本对;
基于多个样本对对seq2seq模型进行训练。
在一种可能的实现方式中,所述多个样本文本版面的版面类型不完全相同。
在一种可能的实现方式中,采用onehot编码方式将该样本文本版面中样本文本内容的标识ID作为输出。
在一种可能的实现方式中,还包括:预先利用相同版面类型的多个样本文本版面,训练得到该版面类型对应的doc2vec模型;所述doc2vec模型用于将该版面类型的文本版面中的文本内容转换为基于相应文本版面的句向量;
在进行句向量转换时,利用相应版面类型的doc2vec模型实现。
在一种可能的实现方式中,所述坐标拼接,包括:
将每一个文本框的四个顶点的坐标值作为相应文本框的八维坐标值;
将各文本框的八维坐标值进行首尾拼接,得到拼接后的坐标信息。
在一种可能的实现方式中,所述待分析文本版面中除文本内容之外的字符包括:数字、符号、英文和其他字符中的至少一种;
所述生成字符特征信息,包括:基于所述待分析文本版面中数字、符号、英文和其他字符中的至少一种字符所占比例,生成相应维度的字符特征信息。
第二方面,本发明实施例还提供了一种文本版面分析装置,包括:
获取单元,用于基于OCR算法对待分析文本版面的识别结果,获取所述待分析文本版面中的文本内容和对应文本框的坐标;
转换单元,用于将所述待分析文本版面中的文本内容转换为基于所述待分析文本版面的句向量;
坐标拼接单元,用于将所述待分析文本版面中的文本框进行坐标拼接,得到拼接后的坐标信息;
生成单元,用于将所述待分析文本版面中除文本内容之外的字符生成字符特征信息;
信息拼接单元,用于将所述句向量、所述坐标信息和所述字符特征信息进行信息拼接,得到拼接序列;
识别单元,用于将所述拼接序列输入至预先训练好的seq2seq模型中,以输出每一个文本内容的内容标识。
第三方面,本发明实施例还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本说明书任一实施例所述的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本说明书任一实施例所述的方法。
本发明实施例提供了一种文本版面分析方法、装置、电子设备及存储介质,通过将获取到的文本内容转换为基于该待分析文本版面的句向量,将文本框进行坐标拼接,将待分析文本版面中除文字内容之外的字符生成字符特征信息,然后将句向量、拼接后的坐标信息和字符特征信息进行信息拼接,得到的拼接序列中充分包含了待分析文本版面的内容,将拼接序列输入到预先训练seq2seq模型中,使得seq2seq模型输出每一个文本内容的内容标识。可见,本方案中,seq2seq模型在训练过程中能够充分学习到文本版面的特征,因此在进行识别时,能够使得识别结果更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种文本版面分析方法流程图;
图2是本发明一实施例提供的一种电子设备的硬件架构图;
图3是本发明一实施例提供的一种文本版面分析装置结构图;
图4是本发明一实施例提供的另一种文本版面分析装置结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,本发明实施例提供了一种文本版面分析方法,该方法包括:
步骤100,基于OCR算法对待分析文本版面的识别结果,获取所述待分析文本版面中的文本内容和对应文本框的坐标;
步骤102,将所述待分析文本版面中的文本内容转换为基于所述待分析文本版面的句向量;
步骤104,将所述待分析文本版面中的文本框进行坐标拼接,得到拼接后的坐标信息;
步骤106,将所述待分析文本版面中除文本内容之外的字符生成字符特征信息;
步骤108,将所述句向量、所述坐标信息和所述字符特征信息进行信息拼接,得到拼接序列;
步骤110,将所述拼接序列输入至预先训练好的seq2seq模型中,以输出每一个文本内容的内容标识。
本发明实施例中,通过将获取到的文本内容转换为基于该待分析文本版面的句向量,将文本框进行坐标拼接,将待分析文本版面中除文字内容之外的字符生成字符特征信息,然后将句向量、拼接后的坐标信息和字符特征信息进行信息拼接,得到的拼接序列中充分包含了待分析文本版面的内容,将拼接序列输入到预先训练seq2seq模型中,使得seq2seq模型输出每一个文本内容的内容标识。可见,本方案中,seq2seq模型在训练过程中能够充分学习到文本版面的特征,因此在进行识别时,能够使得识别结果更加准确。
下面描述图1所示的各个步骤的执行方式。
首先,对seq2seq模型的训练过程进行说明。
本发明实施例中,考虑到不同文本版面的类型不同,以及相同版面类型的不同文本版面中的内容也不相同,若需使用神经网络模型对文本版面进行内容识别,可以考虑使用seq2seq模型。seq2seq模型的输入可以为不定长序列,输出也可以为不定长序列,该模型可以包括编码器和解码器,其中,编码器用来分析输入序列,解码器用来生成输出序列。
为了使得seq2seq模型能够充分学习文本版面的内容,在本发明一个实施例中,需要对样本文本版面的内容进行充分提取,以生成输入序列对seq2seq模型进行训练。具体地,该seq2seq模型的训练过程包括:
A1、获取多个样本文本版面,针对每一个样本文本版面均执行如下步骤A11-A17;
样本文本版面可以是一类表格,比如,《营业执照》、《纳税申报表》、《职位报名表》等等。其中,《营业执照》、《纳税申报表》和《职位报名表》均属于不同版面类型的文本版面。本实施例中,多个样本文本版面可以是对应相同版面类型的,也可以是对应不同版面类型的。比如获取多个《营业执照》作为样本文本版面。
优选地,多个样本文本版面的版面类型不完全相同。如此可以使得训练好的seq2seq模型能够对不同版面类型的文本版面进行识别,从而可以扩大所需分析的文本版面的适用范围,即使文本格式发生变化,也能够保证很好的识别效果。
A11、基于OCR算法对该样本文本版面的识别结果,获取该样本文本版面中的样本文本内容和对应文本框的坐标;
本发明实施例中,在OCR算法的识别结果中可以提取出样本文本内容和对应文本框的坐标。其中,一个样本文本内容对应一个文本框,一个文本框的坐标为该文本框四个顶点的坐标值。
A12、基于人工标识方式获取该样本文本版面中样本文本内容的标识ID;
在本发明实施例中,可以仅对关键文本内容进行标识,也可以对所有文本内容进行标识。一个实现方式中,可以为关键文本内容标识不同的标识ID,为非关键文本内容标识相同的标识ID。
举例来说,对于营业执照,关键文本内容可以为统一社会信用代码、公司名称和注册资本,那么可以对样本文本版面中统一社会信用代码所对应的样本文本内容标识01,对公司名称所对应的样本文本内容标识02,对注册资本所对应的样本文本内容标识03,其他样本文本内容均标识00。
本发明实施例中,为了保证seq2seq模型能够识别不同版面类型的文本版面,该文本内容的标识具有唯一性。
A13、将该样本文本版面中的样本文本内容转换为基于该样本文本版面的样本句向量;
本发明实施例中,由于不同版面类型的文本版面其文本内容和格式均不相同,以及相同版面类型的文本版面其文本内容也不是完全相同,因此,需要针对每一个文本版面将其文本内容转换为基于相应文本版面的句向量。
具体地,可以使用gensim的doc2vec模型将文本内容转换为句向量。
为了保证在转换句向量时能够适配更多版面类型的文本版面,本发明一个实施例中,可以预先利用相同版面类型的多个样本文本版面,训练得到该版面类型对应的doc2vec模型;所述doc2vec模型用于将该版面类型的文本版面中的文本内容转换为基于相应文本版面的句向量;进一步地,在需要进行句向量转换时,基于所需转换的文本版面的版面类型,利用相应版面类型的doc2vec模型实现句向量转换。
训练多个版面类型分别对应的doc2vec模型,可以使得句向量转换时能够更适配相应版面类型的文本版面,转换的句向量更加准确,为后续seq2seq模型的训练和识别提高准确度。
A14、将该样本文本版面中的文本框进行坐标拼接,得到拼接后的样本坐标信息;
由于每一个文本框均包括四个顶点的坐标值,每一个顶点通过二维坐标来表示,那么针对每一个文本框,可以将该文本框的四个顶点的坐标值作为相应文本框的八维坐标值,然后将各文本框的八维坐标值进行首尾拼接,得到拼接后的坐标信息。
在进行首尾拼接时,举例来说,第一个文本框的坐标值为:(x11,y11)、(x12,y12)、(x13,y13)、(x14,y14),第二个文本框的坐标值为:(x21,y21)、(x22,y22)、(x23,y23)、(x24,y24),那么进行首尾拼接时可以为:(x11,y11)、(x12,y12)、(x13,y13)、(x14,y14)、(x21,y21)、(x22,y22)、(x23,y23)、(x24,y24)。
A15、将该样本文本版面中除文本内容之外的字符生成样本字符特征信息;
本发明实施例中,对于某些文本版面中,除文本内容之外还包括其他字符,这些字符同样用于表达文本版面的特征,因此,为了能够充分表达文本版面的特征,需要将除文本内容之外的字符生成字符特征信息。
具体地,本步骤A15中,样本文本版面中除样本文本内容之外的字符可以包括:数字、符号、英文和其他字符中的至少一种;那么可以基于所述待分析文本版面中数字、符号、英文和其他字符中的至少一种字符所占比例,生成相应维度的字符特征信息。
举例来说,除文本内容之外的字符为数字、符号、英文和其他字符,按照字符在整个文本版面(文本内容+数字+符号+英文+其他字符)中所占的比例,来确定相应维度的特征,比如,数字、符号、英文和其他字符所占比例分别为:0.2、0.1、0.1和0.01,那么可以将这四个特征值作为四个维度的字符特征信息。
需要说明的是,除文本内容之外的字符的类型在确定后,整个训练过程以及后续对待分析文本版面进行处理时,这些字符类型是不变的。比如,统一使用数字、符号、英文和其他字符作为除文本内容之外的字符。
A16、将所述样本句向量、所述样本坐标信息和所述样本字符特征信息进行信息拼接,得到样本拼接序列;
本发明实施例中,A13-A15是对文本版面从不同角度提取的信息,然后将从各个角度提取的信息进行信息拼接,使得拼接后得到的拼接序列能够准确且充分的表达文本版面的内容。
其中,信息拼接方式也可以选用首尾拼接方式,拼接顺序可以为任意顺序,但在确定了拼接顺序之后,整个训练过程和后续对待分析文本版面的处理过程都使用相同的拼接顺序。
A17、将该样本拼接序列作为输入,将该样本文本版面中样本文本内容的标识ID作为输出,得到对seq2seq模型进行训练的样本对;
由于seq2seq模型输入和输出均为序列,因此,在将该样本文本版面中样本文本内容的标识ID作为输出时,也需要处理为序列。本发明一个实施例中,可以采用onehot编码方式将该样本文本版面中样本文本内容的标识ID作为输出。
如此,输出序列的维度与样本文本版面中样本文本内容的数量相同。比如,样本文本内容数量为10,其中,第2个样本文本内容的标识为01,第四个样本文本内容的标识为02,第5个样本文本内容的标识为03,其他样本文本内容的标识为00,那么输出序列可以为[00,01,00,02,03,00,00,00,00,00]。
A2、基于多个样本对对seq2seq模型进行训练。
以上完成了seq2seq模型的训练,接下来可以将seq2seq模型应用于实际分析场景中。
针对步骤100,基于OCR算法对待分析文本版面的识别结果,获取所述待分析文本版面中的文本内容和对应文本框的坐标。
该步骤100的处理方式与步骤A11相同,在此不再赘述。
针对步骤102,将所述待分析文本版面中的文本内容转换为基于所述待分析文本版面的句向量。
优选地,基于该待分析文本版面的版面类型,选择使用相应版面类型的doc2vec模型,将该待分析文本版面中的文本内容转换为基于所述待分析文本版面的句向量。
具体地,该步骤102的处理方式与步骤A13相同,在此不再赘述。
针对步骤104“将所述待分析文本版面中的文本框进行坐标拼接,得到拼接后的坐标信息”、步骤106“将所述待分析文本版面中除文本内容之外的字符生成字符特征信息”和步骤108“将所述句向量、所述坐标信息和所述字符特征信息进行信息拼接,得到拼接序列”,与上述步骤A14~A16的处理方式相同,在此不再赘述。
最后针对步骤110,将所述拼接序列输入至预先训练好的seq2seq模型中,以输出每一个文本内容的内容标识。
其中,seq2seq模型输出的为onehot编码的输出序列,根据输出序列可以得出每一个文本内容的内容标识。
比如输出序列为[00,00,01,02,03,00,00,00],则可以获知第三个文本内容为统一社会信用代码,第二个文本内容为公司名称,第三个文本内容为注册资本。
本发明实施例中,大大提高了文本中所关注的文本内容提取的准确率,且可以减少大量后续人工校对的工作量,将宝贵的算力运用在OCR识别算法中,大大扩展了有限资源情况下AI的覆盖面。
如图2、图3所示,本发明实施例提供了一种文本版面分析装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图2所示,为本发明实施例提供的一种文本版面分析装置所在电子设备的一种硬件架构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图3所示,作为一个逻辑意义上的装置,是通过其所在电子设备的CPU将非易失性存储器中对应的计算机程序读取到内存中运行形成的。本实施例提供的一种文本版面分析装置,包括:
获取单元301,用于基于OCR算法对待分析文本版面的识别结果,获取所述待分析文本版面中的文本内容和对应文本框的坐标;
转换单元302,用于将所述待分析文本版面中的文本内容转换为基于所述待分析文本版面的句向量;
坐标拼接单元303,用于将所述待分析文本版面中的文本框进行坐标拼接,得到拼接后的坐标信息;
生成单元304,用于将所述待分析文本版面中除文本内容之外的字符生成字符特征信息;
信息拼接单元305,用于将所述句向量、所述坐标信息和所述字符特征信息进行信息拼接,得到拼接序列;
识别单元306,用于将所述拼接序列输入至预先训练好的seq2seq模型中,以输出每一个文本内容的内容标识。
在本发明一个实施例中,请参考图4,该装置还包括:
训练单元307,用于利用如下方式训练得到seq2seq模型:
获取多个样本文本版面,针对每一个样本文本版面均执行:基于OCR算法对该样本文本版面的识别结果,获取该样本文本版面中的样本文本内容和对应文本框的坐标;基于人工标识方式获取该样本文本版面中样本文本内容的标识ID;将该样本文本版面中的样本文本内容转换为基于该样本文本版面的样本句向量;将该样本文本版面中的文本框进行坐标拼接,得到拼接后的样本坐标信息;将该样本文本版面中除文本内容之外的字符生成样本字符特征信息;将所述样本句向量、所述样本坐标信息和所述样本字符特征信息进行信息拼接,得到样本拼接序列;将该样本拼接序列作为输入,将该样本文本版面中样本文本内容的标识ID作为输出,得到对seq2seq模型进行训练的样本对;
基于多个样本对对seq2seq模型进行训练。
在本发明一个实施例中,所述多个样本文本版面的版面类型不完全相同。
在本发明一个实施例中,采用onehot编码方式将该样本文本版面中样本文本内容的标识ID作为输出。
在本发明一个实施例中,所述训练单元还用于预先利用相同版面类型的多个样本文本版面,训练得到该版面类型对应的doc2vec模型;所述doc2vec模型用于将该版面类型的文本版面中的文本内容转换为基于相应文本版面的句向量;
在进行句向量转换时,利用相应版面类型的doc2vec模型实现。
在本发明一个实施例中,所述坐标拼接单元,具体用于:将每一个文本框的四个顶点的坐标值作为相应文本框的八维坐标值;将各文本框的八维坐标值进行首尾拼接,得到拼接后的坐标信息。
在本发明一个实施例中,所述待分析文本版面中除文本内容之外的字符包括:数字、符号、英文和其他字符中的至少一种;
所述生成单元,具体用于:基于所述待分析文本版面中数字、符号、英文和其他字符中的至少一种字符所占比例,生成相应维度的字符特征信息。
可以理解的是,本发明实施例示意的结构并不构成对一种文本版面分析装置的具体限定。在本发明的另一些实施例中,一种文本版面分析装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本发明任一实施例中的一种文本版面分析方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在被处理器执行时,使所述处理器执行本发明任一实施例中的一种文本版面分析方法。
具体地,可以提供配有存储介质的***或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展模块上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种文本版面分析方法,其特征在于,包括:
基于OCR算法对待分析文本版面的识别结果,获取所述待分析文本版面中的文本内容和对应文本框的坐标;
将所述待分析文本版面中的文本内容转换为基于所述待分析文本版面的句向量;
将所述待分析文本版面中的文本框进行坐标拼接,得到拼接后的坐标信息;
将所述待分析文本版面中除文本内容之外的字符生成字符特征信息;所述待分析文本版面中除文本内容之外的字符包括:数字、符号和英文中的至少一种;
将所述句向量、所述坐标信息和所述字符特征信息进行信息拼接,得到拼接序列;
将所述拼接序列输入至预先训练好的seq2seq模型中,以输出每一个文本内容的内容标识;
所述seq2seq模型的训练方式包括:
获取多个样本文本版面,所述多个样本文本版面的版面类型不完全相同,不同版面类型的文本版面的格式不同;针对每一个样本文本版面均执行:
基于OCR算法对该样本文本版面的识别结果,获取该样本文本版面中的样本文本内容和对应文本框的坐标;基于人工标识方式获取该样本文本版面中样本文本内容的标识ID;关键文本内容被标识不同的标识ID,非关键文本内容被标识相同的标识ID;文本内容的标识具有唯一性;将该样本文本版面中的样本文本内容转换为基于该样本文本版面的样本句向量;将该样本文本版面中的文本框进行坐标拼接,得到拼接后的样本坐标信息;将该样本文本版面中除文本内容之外的字符生成样本字符特征信息;将所述样本句向量、所述样本坐标信息和所述样本字符特征信息进行信息拼接,得到样本拼接序列;将该样本拼接序列作为输入,将该样本文本版面中样本文本内容的标识ID作为输出,得到对seq2seq模型进行训练的样本对;
基于多个样本对对seq2seq模型进行训练;
预先利用相同版面类型的多个样本文本版面,训练得到该版面类型对应的doc2vec模型;所述doc2vec模型用于将该版面类型的文本版面中的文本内容转换为基于相应文本版面的句向量。
2.根据权利要求1所述的方法,其特征在于,采用onehot编码方式将该样本文本版面中样本文本内容的标识ID作为输出。
3.根据权利要求1所述的方法,其特征在于,还包括:预先利用相同版面类型的多个样本文本版面,训练得到该版面类型对应的doc2vec模型;所述doc2vec模型用于将该版面类型的文本版面中的文本内容转换为基于相应文本版面的句向量;
在进行句向量转换时,利用相应版面类型的doc2vec模型实现。
4.根据权利要求1-3中任一所述的方法,其特征在于,所述坐标拼接,包括:
将每一个文本框的四个顶点的坐标值作为相应文本框的八维坐标值;
将各文本框的八维坐标值进行首尾拼接,得到拼接后的坐标信息。
5.根据权利要求1-3中任一所述的方法,其特征在于,所述生成字符特征信息,包括:基于所述待分析文本版面中数字、符号和英文中的至少一种字符所占比例,生成相应维度的字符特征信息。
6.一种文本版面分析装置,其特征在于,包括:
获取单元,用于基于OCR算法对待分析文本版面的识别结果,获取所述待分析文本版面中的文本内容和对应文本框的坐标;
转换单元,用于将所述待分析文本版面中的文本内容转换为基于所述待分析文本版面的句向量;
坐标拼接单元,用于将所述待分析文本版面中的文本框进行坐标拼接,得到拼接后的坐标信息;
生成单元,用于将所述待分析文本版面中除文本内容之外的字符生成字符特征信息;所述待分析文本版面中除文本内容之外的字符包括:数字、符号和英文中的至少一种;
信息拼接单元,用于将所述句向量、所述坐标信息和所述字符特征信息进行信息拼接,得到拼接序列;
识别单元,用于将所述拼接序列输入至预先训练好的seq2seq模型中,以输出每一个文本内容的内容标识;
训练单元,用于利用如下方式训练得到seq2seq模型:
获取多个样本文本版面,所述多个样本文本版面的版面类型不完全相同,不同版面类型的文本版面的格式不同;针对每一个样本文本版面均执行:基于OCR算法对该样本文本版面的识别结果,获取该样本文本版面中的样本文本内容和对应文本框的坐标;基于人工标识方式获取该样本文本版面中样本文本内容的标识ID;关键文本内容被标识不同的标识ID,非关键文本内容被标识相同的标识ID;文本内容的标识具有唯一性;将该样本文本版面中的样本文本内容转换为基于该样本文本版面的样本句向量;将该样本文本版面中的文本框进行坐标拼接,得到拼接后的样本坐标信息;将该样本文本版面中除文本内容之外的字符生成样本字符特征信息;将所述样本句向量、所述样本坐标信息和所述样本字符特征信息进行信息拼接,得到样本拼接序列;将该样本拼接序列作为输入,将该样本文本版面中样本文本内容的标识ID作为输出,得到对seq2seq模型进行训练的样本对;
基于多个样本对对seq2seq模型进行训练;
预先利用相同版面类型的多个样本文本版面,训练得到该版面类型对应的doc2vec模型;所述doc2vec模型用于将该版面类型的文本版面中的文本内容转换为基于相应文本版面的句向量。
7.一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211652196.3A CN115841677B (zh) | 2022-12-21 | 2022-12-21 | 文本版面分析方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211652196.3A CN115841677B (zh) | 2022-12-21 | 2022-12-21 | 文本版面分析方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115841677A CN115841677A (zh) | 2023-03-24 |
CN115841677B true CN115841677B (zh) | 2023-09-05 |
Family
ID=85579036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211652196.3A Active CN115841677B (zh) | 2022-12-21 | 2022-12-21 | 文本版面分析方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115841677B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102012005325A1 (de) * | 2012-03-19 | 2013-09-19 | Ernst Pechtl | Maschinelles Bilderkennungsverfahren basierend auf einem Kl-System |
CN110414529A (zh) * | 2019-06-26 | 2019-11-05 | 深圳中兴网信科技有限公司 | 试卷信息提取方法、***及计算机可读存储介质 |
CN113378710A (zh) * | 2021-06-10 | 2021-09-10 | 平安科技(深圳)有限公司 | 图像文件的版面分析方法、装置、计算机设备和存储介质 |
CN113657279A (zh) * | 2021-08-18 | 2021-11-16 | 北京玖安天下科技有限公司 | 一种票据类图像版面解析方法及装置 |
CN114359913A (zh) * | 2022-01-04 | 2022-04-15 | 深圳思为科技有限公司 | 文本标签的确定方法及相关装置 |
-
2022
- 2022-12-21 CN CN202211652196.3A patent/CN115841677B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102012005325A1 (de) * | 2012-03-19 | 2013-09-19 | Ernst Pechtl | Maschinelles Bilderkennungsverfahren basierend auf einem Kl-System |
CN110414529A (zh) * | 2019-06-26 | 2019-11-05 | 深圳中兴网信科技有限公司 | 试卷信息提取方法、***及计算机可读存储介质 |
WO2020259060A1 (zh) * | 2019-06-26 | 2020-12-30 | 深圳中兴网信科技有限公司 | 试卷信息提取方法、***及计算机可读存储介质 |
CN113378710A (zh) * | 2021-06-10 | 2021-09-10 | 平安科技(深圳)有限公司 | 图像文件的版面分析方法、装置、计算机设备和存储介质 |
CN113657279A (zh) * | 2021-08-18 | 2021-11-16 | 北京玖安天下科技有限公司 | 一种票据类图像版面解析方法及装置 |
CN114359913A (zh) * | 2022-01-04 | 2022-04-15 | 深圳思为科技有限公司 | 文本标签的确定方法及相关装置 |
Non-Patent Citations (1)
Title |
---|
Sequence to Sequence Learning with Neural Networks;Ilya Sutskever等;《arXiv:1409.3215v1》;第1-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115841677A (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909123B (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
Kim et al. | End-to-end digitization of image format piping and instrumentation diagrams at an industrially applicable level | |
CN112149663A (zh) | 结合rpa和ai的图像文字的提取方法、装置及电子设备 | |
CN112560855B (zh) | 图像信息提取方法、装置、电子设备及存储介质 | |
CN111414732A (zh) | 文本风格转换方法、装置、电子设备及存储介质 | |
US11182635B2 (en) | Terminal apparatus, character recognition system, and character recognition method | |
CN115841677B (zh) | 文本版面分析方法、装置、电子设备及存储介质 | |
CN112989043A (zh) | 指代消解方法、装置、电子设备及可读存储介质 | |
CN110532449B (zh) | 一种业务文档的处理方法、装置、设备和存储介质 | |
CN110347921B (zh) | 一种多模态数据信息的标签抽取方法及装置 | |
CN117033309A (zh) | 一种数据转换方法、装置、电子设备及可读存储介质 | |
CN113569929B (zh) | 基于小样本扩展的互联网服务提供方法、装置及电子设备 | |
CN116052195A (zh) | 文档解析方法、装置、终端设备和计算机可读存储介质 | |
CN115620039A (zh) | 一种图像标注方法、装置、设备、介质和程序产品 | |
CN114708582A (zh) | 基于ai和rpa的电力数据智慧稽查方法及装置 | |
CN116185812A (zh) | 一种软件***功能自动化测试方法、装置及介质 | |
CN112966671A (zh) | 一种合同检测方法、装置、电子设备及存储介质 | |
CN110378457B (zh) | 一种码标的生成方法及装置 | |
CN110083807B (zh) | 合同的修改影响自动预测方法、装置、介质及电子设备 | |
CN114722823B (zh) | 构建航空知识图谱的方法及装置、计算机可读介质 | |
US20130080137A1 (en) | Conversion method and system | |
CN113988176B (zh) | 样本标注方法和装置 | |
CN112906559B (zh) | 由机器实施的用于批改算式的方法及相关产品 | |
CN112784780B (zh) | 一种审阅方法、装置、计算机设备及存储介质 | |
US20240028921A1 (en) | Systems and methods for generating custom industry classifications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |