CN115909356A - 数字文档的段落确定方法、装置、电子设备及存储介质 - Google Patents

数字文档的段落确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115909356A
CN115909356A CN202211736986.XA CN202211736986A CN115909356A CN 115909356 A CN115909356 A CN 115909356A CN 202211736986 A CN202211736986 A CN 202211736986A CN 115909356 A CN115909356 A CN 115909356A
Authority
CN
China
Prior art keywords
digital document
detection
paragraph
determining
coordinate information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211736986.XA
Other languages
English (en)
Inventor
罗骁
徐天适
田丰
王晓亮
黄宇恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GRG Banking IT Co Ltd
Original Assignee
GRG Banking Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GRG Banking Equipment Co Ltd filed Critical GRG Banking Equipment Co Ltd
Priority to CN202211736986.XA priority Critical patent/CN115909356A/zh
Publication of CN115909356A publication Critical patent/CN115909356A/zh
Priority to PCT/CN2023/137045 priority patent/WO2024140094A1/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本申请公开了一种数字文档的段落确定方法、装置、电子设备及存储介质,属于文字识别领域。该数字文档段落确定方法包括:获取数字文档的多个第一检测框的坐标信息;将所述多个第一检测框的坐标信息输入至目标检测模型,获得所述目标检测模型输出的所述多个第一检测框的边缘点之间的第一连接关系;基于所述第一连接关系,确定所述数字文档的第一文本段落轮廓;其中,所述目标检测模型是基于样本坐标信息及其对应的样本连接关系训练得到的。该方法解决了数字文档在文档倾斜、变形时带来的版面难以恢复的问题,可以提升文档段落轮廓确定的准确度,有效避免光学字符识别出现识别分块和信息丢失的情况,提升光学字符识别的准确度。

Description

数字文档的段落确定方法、装置、电子设备及存储介质
技术领域
本申请属于文字识别领域,尤其涉及一种数字文档的段落确定方法、装置、电子设备及存储介质。
背景技术
在政务及审计等场景中经常需要处理大量数字文档(图像、PDF文件等),依靠人力对文档进行阅读和整理费时费力,目前通常用光学字符识别(Optical CharacterRecognition,OCR)扫描文件或对商业文档进行理解并分析。
现在通常是用光学字符识别技术对数字文档进行解析,光学字符识别技术是利用电子设备检查纸上打印的字符,然后利用字符识别的方法将形状翻译成计算机文字的过程。
常见的数字文档可能会出现文档倾斜、变形或复杂排版等情况,无法准确划分文档段落轮廓,进而在光学字符识别解析过程中,出现识别分块和信息丢失的现象,导致光学字符识别准确度降低。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种数字文档的段落确定方法、装置、电子设备及存储介质,提升了文档段落轮廓确定的准确度。
第一方面,本申请提供了一种数字文档的段落确定方法,该方法包括:
获取数字文档的多个第一检测框的坐标信息;
将所述多个第一检测框的坐标信息输入至目标检测模型,获得所述目标检测模型输出的所述多个第一检测框的边缘点之间的第一连接关系;
基于所述第一连接关系,确定所述数字文档的第一文本段落轮廓;
其中,所述目标检测模型是基于样本坐标信息及其对应的样本连接关系训练得到的。
根据本申请的数字文档的段落确定方法,通过获取数字文档的多个第一检测框的坐标信息,目标检测模型深度学习的连接关系,判断各个第一检测框的多个边缘点是否可以连接为一段,精准划分段落轮廓,解决了数字文档在文档倾斜、变形时带来的版面难以恢复的问题,可以提升文档段落轮廓确定的准确度,有效避免光学字符识别出现识别分块和信息丢失的情况,提升光学字符识别的准确度。
根据本申请的一个实施例,所述获取数字文档的多个第一检测框的坐标信息,包括:
确定所述数字文档的所述多个第一检测框;
获取所述多个第一检测框的角点坐标;
基于所述多个第一检测框的角点坐标,在同一所述第一检测框的角点之间进行平均插值,得到所述多个第一检测框的边缘点;
基于所述多个第一检测框的边缘点,确定所述多个第一检测框的坐标信息。
根据本申请的一个实施例,所述确定所述数字文档的所述多个第一检测框,包括:
根据光学字符识别算法,获取所述数字文档的多个第二检测框;
将所述多个第二检测框沿第一方向进行检测框融合,得到所述多个第一检测框,位于同一行的至少一个所述第二检测框融合为一个所述第一检测框,所述第一方向为所述数字文档的文本行方向。
根据本申请的一个实施例,所述将所述多个第一检测框的坐标信息输入至目标检测模型,获得所述目标检测模型输出的所述多个第一检测框的边缘点之间的第一连接关系,包括:
将所述多个第一检测框的坐标信息输入至所述目标检测模型的图卷积神经网络,获得所述图卷积神经网络输出的所述多个第一检测框的坐标特征;
将所述多个第一检测框的坐标特征输入至所述目标检测模型的图卷积自编码器,获得所述图卷积自编码器输出的所述第一连接关系。
根据本申请的一个实施例,所述第一检测框的坐标特征表征所述第一检测框的第一坐标点的特征信息以及与所述第一坐标点邻接的第二坐标点的特征信息。
根据本申请的一个实施例,所述基于所述第一连接关系,确定所述数字文档的第一文本段落轮廓,包括:
基于所述第一连接关系,确定所述数字文档的多个第一文本段落边;
连接所述多个第一文本段落边,并去除无法闭环的所述第一文本段落边,得到所述第一文本段落轮廓。
第二方面,本申请提供了一种数字文档的段落确定装置,该装置包括:
获取模块,用于获取数字文档的多个第一检测框的坐标信息;
第一处理模块,用于将所述多个第一检测框的坐标信息输入至目标检测模型,获得所述目标检测模型输出的所述多个第一检测框的边缘点之间的第一连接关系;
第二处理模块,用于基于所述第一连接关系,确定所述数字文档的第一文本段落轮廓;
其中,所述目标检测模型是基于样本坐标信息及其对应的样本连接关系训练得到的。
根据本申请的数字文档的段落确定装置,通过获取数字文档的多个第一检测框的坐标信息,目标检测模型深度学习的连接关系,判断各个第一检测框的多个边缘点是否可以连接为一段,精准划分段落轮廓,解决了数字文档在文档倾斜、变形时带来的版面难以恢复的问题,可以提升文档段落轮廓确定的准确度,有效避免光学字符识别出现识别分块和信息丢失的情况,提升光学字符识别的准确度。
第三方面,本申请提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的数字文档的段落确定方法。
第四方面,本申请提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的数字文档的段落确定方法。
第五方面,本申请提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的数字文档的段落确定方法。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请实施例提供的数字文档的段落确定方法的流程示意图之一;
图2是本申请实施例提供的数字文档的段落确定方法的流程示意图之二;
图3是本申请实施例提供的生成第一检测框的流程示意图;
图4是本申请实施例提供的确定第一文本段落轮廓的流程示意图;
图5是本申请实施例提供的目标检测模型训练中边缘点连接关系的判断示意图;
图6是本申请实施例提供的目标检测模型训练的流程示意图;
图7是本申请实施例提供的数字文档的段落确定装置的结构示意图;
图8是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合图1-图8,通过具体的实施例及其应用场景对本申请实施例提供的数字文档的段落确定方法、数字文档的段落确定装置、电子设备和可读存储介质进行详细地说明。
如图1所示,数字文档的段落确定方法包括步骤110至步骤130。
步骤110、获取数字文档的多个第一检测框的坐标信息。
其中,数字文档指的是将信息数据通过纸张扫描、图像优化、压缩归档等数字化技术加工成的电子化文档。
例如,数字文档可以是图像和PDF文件等电子化文档。
第一检测框的坐标信息用于描述第一检测框在空间内所处位置。
如图3所示,多个第一检测框可以是数字文档经过光学字符识别并且处理后得到的多个一整行的检测框。
第一检测框的坐标信息包括第一检测框上的多个边缘点的坐标信息。
步骤120、将多个第一检测框的坐标信息输入至目标检测模型,获得目标检测模型输出的多个第一检测框的边缘点之间的第一连接关系。
其中,目标检测模型是基于样本坐标信息及其对应的样本连接关系训练得到的。
样本坐标信息包括样本坐标点的坐标信息,样本连接关系是样本坐标点之间的连接关系。
在该步骤中,目标检测模型用于处理第一检测框的坐标信息,并且输出多个第一检测框的边缘点之间的第一连接关系,第一连接关系用于描述第一检测框的边缘点之间的关系。
其中,目标检测模型是一个基于有监督的深度学习进行训练的检测模型。
目标检测模型在训练阶段需要预先设置输入对象和一个输入对象对应的期望输出,然后将输入对象输入至目标检测模型中,获取到输出,并将该输出与期望输出进行对比,反向更新该模型。
在该步骤中,输入对象是样本坐标信息,期望输出是样本的连接关系。
目标检测模型通过深度学习对第一检测框的坐标信息进行处理,深度学习是通过组合低层特征形成更加抽象的高层特征,表示属性类别或特征。
步骤130、基于第一连接关系,确定数字文档的第一文本段落轮廓。
在该步骤中,第一连接关系是第一检测框中多个边缘点之间的连接关系,第一文本段落轮廓是数字文档了一个文字段落或一个图像的边界线。
如图4所示,在确定了第一连接关系后,目标检测模型可以将第一行中第一检测框中的边缘点进行聚合,从而形成段落轮廓,从而实现对文本段落轮廓的提取。
相关技术中,通常用版面还原技术对文档的段落进行检测和划分,但由于文档的倾斜、变形或复杂排版,造成文档的段落检测和划分的效率和准确度都很低,且配图、装饰和底纹等冗余信息也会对文档段落的检测和划分造成干扰,进一步造成光学字符识别解析出现识别分块和语义丢失等问题,导致光学字符识别的准确度低。
本申请实施例中,通过数字文档在空间中多个第一检测框的坐标信息,目标检测模型深度学习的连接关系,判断第一检测框的多个边缘点是否可以连接为一段,精准划分段落轮廓。
根据本申请实施例提供的数字文档的段落确定方法,通过获取数字文档的多个第一检测框的坐标信息,目标检测模型深度学习的连接关系,判断各个第一检测框的多个边缘点是否可以连接为一段,精准划分段落轮廓,解决了数字文档在文档倾斜、变形时带来的版面难以恢复的问题,可以提升文档段落轮廓确定的准确度,有效避免光学字符识别出现识别分块和信息丢失的情况,提升光学字符识别的准确度。
在一些实施例中,获取数字文档的多个第一检测框的坐标信息,包括:
确定数字文档的多个第一检测框;
获取多个第一检测框的角点坐标;
基于多个第一检测框的角点坐标,在同一第一检测框的角点之间进行平均插值,得到多个第一检测框的边缘点;
基于多个第一检测框的边缘点,确定多个第一检测框的坐标信息。
角点坐标用于描述第一检测框的角点在空间中的位置信息,其中,获取到的角点坐标数量根据第一检测框的形状决定。
例如,当第一检测框的形状为三角形时,此时第一检测框的角点数量为三个;当第一检测框的形状为五边形时,此时第一检测框的角点数量为五个,此处不对第一检测框的形状做限定。
基于多个第一检测框的角点坐标,在同一个第一检测框的角点之间进行平均插值,从而得到多个第一检测框对应的边缘点。
需要说明的是,第一检测框的角点相连获得的可以是第一检测框的边线,也可以是第一检测框内部的对角线,平均插值只在第一检测框的边线上进行插值,获取到多个边缘点。
在该步骤中,在角点之间使用插值的方法可以获取到多个边缘点,从而可以使得描述第一检测框的坐标信息的数据量增大,坐标信息中展现的特征也更多,可以获得更为准确的连接关系。
平均插值是按照角点之间的坐标距离,并且依据两个相邻边缘点相隔相同的距离的原则,在两个角点之间进行插值,从而可以保证两个相邻边缘点之间的距离是固定的。
使用平均插值获取到的边缘点中间的间隔相等,并且在输入至目标检测模型中时,使用平均插值获取到的边缘点作为输入,获取到目标检测模型的输出更为准确,并且目标检测模型的处理效率也更高。
例如,假设点a和点b是角点,且角点a和角点b之间的距离是4,中间就可以利用平均插值的方法***3个边缘点,并且使得相邻边缘点之间的距离都是1。
实际执行中,在获取第一检测框的坐标信息时,需要先获取到第一检测框。
在一些实施例中,确定数字文档的多个第一检测框,包括:
根据光学字符识别算法,获取数字文档的多个第二检测框;
将多个第二检测框沿第一方向进行检测框融合,得到多个第一检测框,位于同一行的至少一个第二检测框融合为一个第一检测框。
如图3所示,第二检测框可以是第一行中,通过光学识别算法对数字文档进行识别获取到的多个小矩形。
在该实施例中,基于第二检测框的坐标信息,通过将多个第二检测框沿着第一方向融合,得到多个第一检测框,其中,第一方向为数字文档的文本行方向。
例如,当文本行为横向文本行时,此时第一方向为横向,再例如,当文本行为竖向时,此时第一方向为竖向。
其中,同一行若只有一个第二检测框,那么该第二检测框即为第一检测框,同一行若有多个第二检测框,则将多个第二检测框融合为一个第一检测框,在对第二检测框融合时,需要先沿着第一方向计算各个第二检测框第二方向坐标的感兴趣区域大小,并且设置一个融合阈值。
将感兴趣区域第二方向坐标大于融合阈值的检测框视为同一行,对第二检测框沿第一方向进行融合,从而获取到第一检测框。
融合阈值可以根据不同情况做出适当调整,当所识别文本的字体较大时,可以适当增大融合阈值,从而避免感兴趣区域的第二方向长度过小,导致感兴趣区域无法将该文字行的文字囊括,造成信息丢失。
当所识别的文本字体较小时,可以适当减小融合阈值,从而避免感兴趣区域的第二方向长度过大,导致感兴趣区域囊括了不止一个文字行信息,造成文字识别的错误。
在一些实施例中,将多个第一检测框的坐标信息输入至目标检测模型,获得目标检测模型输出的多个第一检测框的边缘点之间的第一连接关系,包括:
将多个第一检测框的坐标信息输入至目标检测模型的图卷积神经网络,获得图卷积神经网络输出的多个第一检测框的坐标特征;
将多个第一检测框的坐标特征输入至目标检测模型的图卷积自编码器,获得图卷积自编码器输出的第一连接关系。
其中,目标检测模型包括用于处理第一检测框中边缘点坐标信息的图卷积神经网络和用于处理第一检测框坐标特征的图卷积自编码器。
在实际执行中,目标检测模型的输入包括第一检测框中多个边缘点坐标信息。
其中,图卷积神经网络对第一检测框的坐标信息进行处理时,可以将邻近的所有边缘点纳入考虑,综合所有边缘点的相互距离、位置等信息,从而判断最有可能的连接关系,每一个单独的边缘点的特征和状态都会受到其邻近边缘点,甚至相邻边缘点的邻接边缘点的影响。
在该实施例中,图卷积神经网络用于对第一检测框的坐标信息进行处理,并且输出第一检测框的坐标特征,图卷积自编码器用于对图卷积神经网络输出的坐标特征进行处理,并且输出多个第一检测框的边缘点的第一连接关系。
实际执行中,在对第一检测框的坐标信息进行处理前,还需对目标检测模型进行预训练。
下面介绍一个训练的具体实施例。
首先,用预先标注好的边缘点坐标和边连接关系的数据集合(G,V)对目标检测模型进行训练,其中G是边缘点信息,V是边连接关系信息。
如图5所示,假设需要预测的是边缘点1和边缘点2的边连接关系V12,以及边缘点6和边缘2的边连接关系V62
对于需要预测的连接关系,图卷积神经网络的输入是其两端边缘点、边缘点邻接点和其次邻接点的集合,如图5所示,该集合包括边缘点1、边缘点2、边缘点3、边缘点4、边缘点5、边缘点6和边缘点7。
如图6所示,将上述集合输入至图卷积神经网络中后,得到图卷积神经网络的输出坐标特征,然后将该坐标特征输入至图卷积自编码器进行解码,将解码结果输入二分类器,二分类器会输出两种结果,分别为0和1。
其中,0表示该连接关系不成立,1表示该连接关系成立,根据V12和V62对应的二分器输出结果V 12和V 62,在该实施例中,V 12=1,V 62=0,表示连接关系V12成立,连接关系V62不成立。
然后将该结果与预先标注的结果进行对比,计算交叉损失,然后反向传播进行更新图卷积目标检测模型,完成对目标检测模型的训练。
在完成目标检测模型的训练后,可以将第一检测框的边缘点坐标信息输入至目标检测模型中,目标检测模型会判断边缘点之间的连接关系,并且输出第一检测框的边缘点之间的第一连接关系。
例如,输入的第一检测框的坐标信息包括3个边缘点的坐标信息。
目标检测模型将会对第1个边缘点与第二个边缘点进行判断,得出的结果包括边缘点1和边缘点2连接,或者边缘点1和边缘点2不连接,然后对边缘点1和边缘点3的连接关系以及边缘点2和3的连接关系。
综合这三个连接关系,得到边缘点1、边缘点2及边缘点3,这三个边缘点的连接关系。
在一些实施例中,第一检测框的坐标特征表征第一检测框的第一坐标点的特征信息以及与第一坐标点邻接的第二坐标点的特征信息。
邻接,表示第一坐标点与第二坐标点相邻,第一检测框的坐标特征表征的是多个相邻坐标点的特征信息。
通过第一检测框的坐标特征,综合考虑第一坐标点的特征以及与第一坐标点邻接的第二坐标点的特征,反映邻近所有边缘点的距离位置信息,有助于准确判断连接关系。
第一检测框的坐标特征是通过将边缘点输入至目标检测模型中,获取到目标检测模型中的图卷积神经网络输出的特征。
其中,第一检测框的坐标特征用于输入至目标检测模型中,获取到目标检测模型的输出,包括第一检测框中多个边缘点之间的第一连接关系。
在一些实施例中,基于第一连接关系,确定数字文档的第一文本段落轮廓,包括:
基于第一连接关系,确定数字文档的多个第一文本段落边;
连接多个第一文本段落边,并去除无法闭环的第一文本段落边,得到第一文本段落轮廓。
在该实施例中,第一文本段落边是基于第一连接关系,将多个边缘点进行连接得到的边。
实际执行中,根据边缘点之间的第一连接关系,将多个边缘点连接,得到多条第一文本段落边,然后去除其中无法闭环的第一文本段落边,剩下可以闭环的第一文本段落边所圈住的范围为闭合形状,该闭合形状即为第一文本段落轮廓。
通过获取到闭合的第一文本段落轮廓,可以保证轮廓中的文字行信息完整,识别更加精确。
下面介绍一个具体实施例。
如图2所示,首先将数字文档(例如,pdf/图片)输入至光学字符识别模块(即OCR模块)中,获得光学字符识别模块输出多个光学字符识别检测框(即第二检测框)。
如图3所示,将第一行中的多个第二检测框进行沿第一方向的融合,得到第二行中的多个第一检测框。
对多个第一检测框进行处理,获取到第一检测框角点,运用平均插值方法获取到多个距离相等的边缘点。
将多个边缘点输入至目标检测模型中,获取目标检测模型输出第一连接关系,其中,图卷积神经网络(GCN)用于对多个边缘点和角点解码获得多个坐标特征,图卷积自编码器(GAE)用于对多个坐标特征处理获得多个第一连接关系。
如图4所示,依据多个第一连接关系,对第一行中第一检测框的边缘点进行连接,获取第二行中多个第一文本段落边,去除其中无法闭环的第一文本段落边,所余下的第一文本段落边所围成的轮廓即为第一文本段落轮廓。
其中,数字文档的段落确定方法可应用于终端,具体可由,终端中的硬件或软件执行。
该终端包括但不限于具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话或平板电脑等便携式通信设备。还应当理解的是,在某些实施例中,该终端可以不是便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
以下各个实施例中,描述了包括显示器和触摸敏感表面的终端。然而,应当理解的是,终端可以包括诸如物理键盘、鼠标和控制杆的一个或多个其它物理用户接口设备。
本申请实施例提供的数字文档的段落确定方法,该数字文档的段落确定方法的执行主体可以为电子设备或者电子设备中能够实现该数字文档的段落确定方法的功能模块或功能实体,本申请实施例提及的电子设备包括但不限于手机、平板电脑、电脑、相机和可穿戴设备等,下面以电子设备作为执行主体为例对本申请实施例提供的数字文档的段落确定方法进行说明。
本申请实施例提供的数字文档的段落确定方法,执行主体可以为数字文档的段落确定装置。本申请实施例中以数字文档的段落确定装置执行数字文档的段落确定方法为例,说明本申请实施例提供的数字文档的段落确定装置。
本申请实施例还提供一种数字文档的段落确定装置。
如图7所示,该数字文档的段落确定装置包括:
获取模块710,用于获取数字文档的多个第一检测框的坐标信息;
第一处理模块720,用于将多个第一检测框的坐标信息输入至目标检测模型,获得目标检测模型输出的多个第一检测框的边缘点之间的第一连接关系;
第二处理模块730,用于基于第一连接关系,确定数字文档的第一文本段落轮廓;
其中,目标检测模型是基于样本坐标信息及其对应的样本连接关系训练得到的。
根据本申请实施例提供的数字文档的段落确定装置,通过获取数字文档的多个第一检测框的坐标信息,目标检测模型深度学习的连接关系,判断各个第一检测框的多个边缘点是否可以连接为一段,精准划分段落轮廓,解决了数字文档在文档倾斜、变形时带来的版面难以恢复的问题,可以提升文档段落轮廓确定的准确度,有效避免光学字符识别出现识别分块和信息丢失的情况,提升光学字符识别的准确度。
在一些实施例中,获取模块710用于确定所述数字文档的所述多个第一检测框;
获取所述多个第一检测框的角点坐标;
基于所述多个第一检测框的角点坐标,在同一所述第一检测框的角点之间进行平均插值,得到所述多个第一检测框的边缘点;
基于所述多个第一检测框的边缘点,确定所述多个第一检测框的坐标信息。
在一些实施例中,获取模块710还用于根据光学字符识别算法,获取数字文档的多个第二检测框;
将多个第二检测框沿第一方向进行检测框融合,得到多个第一检测框,位于同一行的至少一个第二检测框融合为一个第一检测框,第一方向为数字文档的文本行方向。
在一些实施例中,第一处理模块720用于将多个第一检测框的坐标信息输入至目标检测模型的图卷积神经网络,获得图卷积神经网络输出的多个第一检测框的坐标特征;
将多个第一检测框的坐标特征输入至目标检测模型的图卷积自编码器,获得图卷积自编码器输出的第一连接关系。
在一些实施例中,第一检测框的坐标特征表征第一检测框的第一坐标点的特征信息以及与第一坐标点邻接的第二坐标点的特征信息。
在一些实施例中,第二处理模块730用于基于第一连接关系,确定数字文档的多个第一文本段落边;
连接多个第一文本段落边,并去除无法闭环的第一文本段落边,得到第一文本段落轮廓。
本申请实施例中的数字文档的段落确定装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的数字文档的段落确定装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***,可以为IOS操作***,还可以为其他可能的操作***,本申请实施例不作具体限定。
本申请实施例提供的数字文档的段落确定装置能够实现图1至图7的方法实施例实现的各个过程,为避免重复,这里不再赘述。
在一些实施例中,如图8所示,本申请实施例还提供一种电子设备800,包括处理器801、存储器802及存储在存储器802上并可在处理器801上运行的计算机程序,该程序被处理器801执行时实现上述数字文档的段落确定方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
本申请实施例还提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数字文档的段落确定方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述数字文档的段落确定方法。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施例,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。

Claims (10)

1.一种数字文档的段落确定方法,其特征在于,包括:
获取数字文档的多个第一检测框的坐标信息;
将所述多个第一检测框的坐标信息输入至目标检测模型,获得所述目标检测模型输出的所述多个第一检测框的边缘点之间的第一连接关系;
基于所述第一连接关系,确定所述数字文档的第一文本段落轮廓;
其中,所述目标检测模型是基于样本坐标信息及其对应的样本连接关系训练得到的。
2.根据权利要求1所述的数字文档的段落确定方法,其特征在于,所述获取数字文档的多个第一检测框的坐标信息,包括:
确定所述数字文档的所述多个第一检测框;
获取所述多个第一检测框的角点坐标;
基于所述多个第一检测框的角点坐标,在同一所述第一检测框的角点之间进行平均插值,得到所述多个第一检测框的边缘点;
基于所述多个第一检测框的边缘点,确定所述多个第一检测框的坐标信息。
3.根据权利要求2所述的数字文档的段落确定方法,其特征在于,所述确定所述数字文档的所述多个第一检测框,包括:
根据光学字符识别算法,获取所述数字文档的多个第二检测框;
将所述多个第二检测框沿第一方向进行检测框融合,得到所述多个第一检测框,位于同一行的至少一个所述第二检测框融合为一个所述第一检测框,所述第一方向为所述数字文档的文本行方向。
4.根据权利要求1所述的数字文档的段落确定方法,其特征在于,所述将所述多个第一检测框的坐标信息输入至目标检测模型,获得所述目标检测模型输出的所述多个第一检测框的边缘点之间的第一连接关系,包括:
将所述多个第一检测框的坐标信息输入至所述目标检测模型的图卷积神经网络,获得所述图卷积神经网络输出的所述多个第一检测框的坐标特征;
将所述多个第一检测框的坐标特征输入至所述目标检测模型的图卷积自编码器,获得所述图卷积自编码器输出的所述第一连接关系。
5.根据权利要求4所述的数字文档的段落确定方法,其特征在于,所述第一检测框的坐标特征表征所述第一检测框的第一坐标点的特征信息以及与所述第一坐标点邻接的第二坐标点的特征信息。
6.根据权利要求1-5任一项所述的数字文档的段落确定方法,其特征在于,所述基于所述第一连接关系,确定所述数字文档的第一文本段落轮廓,包括:
基于所述第一连接关系,确定所述数字文档的多个第一文本段落边;
连接所述多个第一文本段落边,并去除无法闭环的所述第一文本段落边,得到所述第一文本段落轮廓。
7.一种数字文档的段落确定装置,其特征在于,包括:
获取模块,用于获取数字文档的多个第一检测框的坐标信息;
第一处理模块,用于将所述多个第一检测框的坐标信息输入至目标检测模型,获得所述目标检测模型输出的所述多个第一检测框的边缘点之间的第一连接关系;
第二处理模块,用于基于所述第一连接关系,确定所述数字文档的第一文本段落轮廓;
其中,所述目标检测模型是基于样本坐标信息及其对应的样本连接关系训练得到的。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述数字文档的段落确定方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6任一项所述的数字文档的段落确定方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述数字文档的段落确定方法。
CN202211736986.XA 2022-12-30 2022-12-30 数字文档的段落确定方法、装置、电子设备及存储介质 Pending CN115909356A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211736986.XA CN115909356A (zh) 2022-12-30 2022-12-30 数字文档的段落确定方法、装置、电子设备及存储介质
PCT/CN2023/137045 WO2024140094A1 (zh) 2022-12-30 2023-12-07 数字文档的段落确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211736986.XA CN115909356A (zh) 2022-12-30 2022-12-30 数字文档的段落确定方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115909356A true CN115909356A (zh) 2023-04-04

Family

ID=86473052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211736986.XA Pending CN115909356A (zh) 2022-12-30 2022-12-30 数字文档的段落确定方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN115909356A (zh)
WO (1) WO2024140094A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024140094A1 (zh) * 2022-12-30 2024-07-04 广电运通集团股份有限公司 数字文档的段落确定方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130205202A1 (en) * 2010-10-26 2013-08-08 Jun Xiao Transformation of a Document into Interactive Media Content
US11244203B2 (en) * 2020-02-07 2022-02-08 International Business Machines Corporation Automated generation of structured training data from unstructured documents
CN113221632A (zh) * 2021-03-23 2021-08-06 奇安信科技集团股份有限公司 文档图片识别方法、装置以及计算机设备
CN114399782B (zh) * 2022-01-18 2024-03-22 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备、存储介质及程序产品
CN115909356A (zh) * 2022-12-30 2023-04-04 广州广电运通金融电子股份有限公司 数字文档的段落确定方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024140094A1 (zh) * 2022-12-30 2024-07-04 广电运通集团股份有限公司 数字文档的段落确定方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2024140094A1 (zh) 2024-07-04

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
US11886799B2 (en) Determining functional and descriptive elements of application images for intelligent screen automation
US10210415B2 (en) Method and system for recognizing information on a card
KR101690981B1 (ko) 형태 인식 방법 및 디바이스
US9904847B2 (en) System for recognizing multiple object input and method and product for same
JP7132050B2 (ja) テキスト行の区分化方法
CN109697414B (zh) 一种文本定位方法及装置
Li et al. Automatic comic page segmentation based on polygon detection
US8515175B2 (en) Storage medium, apparatus and method for recognizing characters in a document image using document recognition
CN113239818B (zh) 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN110210480B (zh) 文字识别方法、装置、电子设备和计算机可读存储介质
JP2019102061A5 (zh)
WO2024140094A1 (zh) 数字文档的段落确定方法、装置、电子设备及存储介质
CN111951283A (zh) 一种基于深度学习的医学图像识别方法及***
CN113420848A (zh) 神经网络模型的训练方法及装置、手势识别的方法及装置
US20150139547A1 (en) Feature calculation device and method and computer program product
JP2019220014A (ja) 画像解析装置、画像解析方法及びプログラム
CN111783561A (zh) 审图结果修正方法、电子设备及相关产品
US11055526B2 (en) Method, system and apparatus for processing a page of a document
Mohammad et al. Contour-based character segmentation for printed Arabic text with diacritics
CN110147785B (zh) 图像识别方法、相关装置和设备
RU2597163C2 (ru) Сравнение документов с использованием достоверного источника
CN113449726A (zh) 文字比对及识别方法、装置
KR20220132536A (ko) 필기에서의 수학 검출
CN116030472A (zh) 文字坐标确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: 510663 9, 11, science Road, science and Technology City, Guangzhou high tech Industrial Development Zone, Guangdong

Applicant after: Guangdian Yuntong Group Co.,Ltd.

Address before: 510663 9, 11, science Road, science and Technology City, Guangzhou high tech Industrial Development Zone, Guangdong

Applicant before: GRG BANKING EQUIPMENT Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right

Effective date of registration: 20240623

Address after: Room 701, No. 11, Kelin Road, Science City, Huangpu District, Guangzhou City, Guangdong Province, 510663

Applicant after: GRG BANKING IT Co.,Ltd.

Country or region after: China

Address before: 510663 9, 11, science Road, science and Technology City, Guangzhou high tech Industrial Development Zone, Guangdong

Applicant before: Guangdian Yuntong Group Co.,Ltd.

Country or region before: China