CN116151202B - 表格填写方法、装置、电子设备及存储介质 - Google Patents

表格填写方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116151202B
CN116151202B CN202310155415.5A CN202310155415A CN116151202B CN 116151202 B CN116151202 B CN 116151202B CN 202310155415 A CN202310155415 A CN 202310155415A CN 116151202 B CN116151202 B CN 116151202B
Authority
CN
China
Prior art keywords
cells
text
cell
blank
valued
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310155415.5A
Other languages
English (en)
Other versions
CN116151202A (zh
Inventor
刘树衎
冯杭
李震宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naval University of Engineering PLA
Original Assignee
Naval University of Engineering PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naval University of Engineering PLA filed Critical Naval University of Engineering PLA
Priority to CN202310155415.5A priority Critical patent/CN116151202B/zh
Publication of CN116151202A publication Critical patent/CN116151202A/zh
Application granted granted Critical
Publication of CN116151202B publication Critical patent/CN116151202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本申请提供了一种表格填写方法、装置、电子设备及存储介质。其中,该方法包括:识别目标表格图像中的单元格和文本,以将目标表格转换为电子表格;通过图卷积网络和单元格预测相邻有值单元格和空白单元格的隶属关系;将有值单元格中的文本和数据库中的表头进行匹配,以得到与有值单元格存在隶属关系的所述空白单元格的待填写文本;基于待填写文本在空白单元格内生成相应文本,以完成电子表格的填写;其中,有值单元格为目标表格中填写有内容的单元格,空白单元格为目标表格中没有填写内容的单元格。本申请通过目标检测技术和图卷积网络实现将目标表格转化为电子表格,以实现表格的自动填写,减少了工作人员的工作量。

Description

表格填写方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理领域,具体而言,涉及一种表格填写方法、装置、电子设备及存储介质。
背景技术
随着电子化办公的普及,让表格使用信息化手段进行管理成为了可能。使用信息化手段管理表格能提高表格管理工作效率,使表格检索方便快捷,可以有效保护表格原件,共享表格信息可以提高档案利用率、能产生显著经济效益。因而需要将大量的纸质表格、图像表格等转化为电子表格,以实现表格的信息化管理。
目前,常见的自动化表格填写主要是通过表格检测与单元格识别,将纸质表格转化为电子表格。虽然能将纸质表格转化为电子表格,但是表格的填写还是需要人为进行,极大的增加了工作人员的工作量。
发明内容
有鉴于此,本申请实施例的目的在于提供一种表格填写方法、装置、电子设备及存储介质。能够将目标表格转化为电子表格,并实现表格的自动填写,减少工作人员的工作量。
第一方面,本申请实施例提供了一种表格填写方法,包括:识别目标表格图像中的单元格和文本,以将所述目标表格转换为电子表格;通过图卷积网络和所述单元格预测相邻有值单元格和空白单元格的隶属关系;将所述有值单元格中的文本和数据库中的文本进行匹配,以得到与所述有值单元格存在隶属关系的所述空白单元格的待填写文本;基于所述待填写文本在所述空白单元格内生成相应文本,以完成所述电子表格的填写;其中,所述有值单元格为所述目标表格中填写有内容的单元格,所述空白单元格为所述目标表格中没有填写内容的单元格。
在上述实现过程中,通过图像识别确定出目标表格图像中的单元格和文本,以将图像中的目标表格转化为可填写的电子表格。再通过有值单元格和空白单元格之间的隶属关系,将有值单元格和空白单元格建立其关联关系,以方便将有值单元格对应的填写内容相应的空白单元格填写,防止了填写错误的问题。另外,通过将有值单元格中文本和数据库中的文本进行匹配,以获取与该有值单元格存在隶属关系的空白单元格的待填写文本,以实现对该电子表格的自动填写。通过目标检测技术和图卷积网络实现将目标表格转化为电子表格,以实现表格的自动填写,减少了工作人员的工作量。
在一个实施例中,所述识别目标表格图像中的单元格和文本,包括:通过SwinTransformer和R-FPN提取所述目标表格图像中的单元格,并获取所述单元格对应的单元格属性;通过Paddle OCR识别所述目标表格图像中的文本;其中,所述R-FPN通过在FPN结构上添加Res Net网络中的残差结构获得,所述R-FPN用于增加高分辨率特征图的比重。
在上述实现过程中,通过Swin Transformer和R-FPN提取目标表格图像中的单元格,能够基于Swin Transformer在特征抽取方面可以兼顾局部和全局特征的优势,以及R-FPN能够将未合并上采样的原始特征图与合并上采样后的特征图直接进行融合的优势,增强特征表示的能力,提高了单元格位置信息提取的精确度。另外,再利用Paddle OCR对文本进行识别,能够基于Paddle OCR精准的定位到文本的位置,进而识别出相应的文本。通过Swin Transformer和Paddle OCR配合可以从整体和局部对目标表格中的单元格和文本进行识别,以提取出目标表格中的单元格和文本,提高了单元格和文本的提取精度。
在一个实施例中,所述单元格属性包括单元格的位置信息,所述识别目标表格图像中的单元格和文本之后,所述方法还包括:将所述单元格按照预设编号规则进行编号;将编号后的所述单元格、所述单元格属性和所述文本进行存储。
在上述实现过程中,通过将单元格进行编号后存储,方便对单元格的进一步操作,提高了目标表格转化为单元格的便利性。
在一个实施例中,所述将编号后的所述单元格、所述单元格属性和所述文本进行存储包括:按照所述单元格属性将所述编号后的所述单元格照所述目标表格的格式进行排列;将所述文本在相应的所述单元格内存储,以使所述文本和所述单元格按照所述目标表格的格式进行存储。
在上述实现过程中,在对单元格和文本进行存储时,可以根据单元格的单元格属性将单元格按照目标表格的格式进行存储,再将文本存储在相应的单元格内,能够完全的还原目标表格的格式,提高了电子表格转换的准确性,增加了电子表格的还原度。
在一个实施例中,所述通过图卷积网络和所述单元格预测相邻所述有值单元格和所述空白单元格的隶属关系,包括:根据所述单元格属性构建邻接矩阵;将所述邻接矩阵中的相邻节点的特征相聚合,并将特征聚合后的所述相邻节点进行隶属关系判断,以确定所述相邻节点对应的所述有值单元格和所述空白单元格的隶属关系。
在上述实现过程中,通过图卷积网络对单元格之间的隶属关系进行判断,以确定出存在隶属关系的有值单元格和空白单元格。以便于后期在对空白单元格进行填写时,能准确的填写到相应的空白单元格,提高了表格填写的准确性。
在一个实施例中,所述基于所述待填写文本在所述空白单元格内生成相应文本,以完成所述电子表格的填写,包括:根据所述待填写文本和文本轨迹文件确定文本骨干点;根据所述文本骨干点和三维列表确定出书写装置操作指令;通过所述书写装置操作指令控制所述书写装置在所述空白单元格中书写相应的所述待填写文本,以在所述空白单元格中生成相应文本。
在上述实现过程中,通过根据文本轨迹文件和待填写文本生成文本骨干点,以根据该文本骨干点生成相应的操作指令,进而控制书写装置根据相应的操作指令进行书写操作,以将待填写文本书写到相应的空白单元格内。通过可以实现书写装置的自主操作,可以搭建目标表格与格式化数据库之间的桥梁,实现大规模数据的填写,增加了填写内容的多样性。
在一个实施例中,所述将所述有值单元格中的所述文本和数据库中的文本进行匹配,以得到与所述有值单元格存在隶属关系的所述空白单元格的待填写文本,包括:将所述有值单元格中的所述文本和所述数据库中的文本进行同义词匹配;根据匹配结果确定与所述有值单元格存在隶属关系的所述空白单元的待填写文本。
在上述实现过程中,通过将有值单元格中的文本和数据库中的表头进行同义词匹配,能够在有值单元格中的文本和数据库中的表头的文本不匹配时,进一步进行同义词匹配,增加了匹配的灵活性。不需要对每个目标表格制作对应的数据库表单,减少了数据库表单建立的工作量。
第二方面,本申请实施例还提供一种表格填写装置,包括:识别模块,用于识别目标表格图像中的单元格和文本,以将所述目标表格转换为电子表格;预测模块,用于通过图卷积网络和所述单元格预测相邻有值单元格和空白单元格的隶属关系;匹配模块,用于将有值单元格中的文本和数据库中的文本进行匹配,以得到与所述有值单元格存在隶属关系的所述空白单元格的待填写文本;填写模块,用于基于所述待填写文本在所述空白单元格内生成汉字轨迹,以完成所述电子表格的填写;其中,所述有值单元格为所述目标表格中填写有内容的单元格,所述空白单元格为所述目标表格中没有填写内容的单元格。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面的任一种可能的实施方式中的方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面的任一种可能的实施方式中表格填写方法的步骤。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的表格填写方法的流程图;
图2为本申请实施例提供的目标表格示意图;
图3为本申请实施例提供的FPN结构示意图;
图4为本申请实施例提供的R-FPN结构示意图;
图5为本申请实施例提供的目标表格中单元格提取示意图;
图6为本申请实施例提供的编号后的单元格、单元格属性以及文本存储示意图;
图7为本申请实施例提供的GCN工作的具体流程示意图;
图8为本申请实施例提供的文本骨干点存放形式示意图;
图9为本申请实施例提供的“口”字生成操作指令示例示意图;
图10为本申请实施例提供的表格填写装置的功能模块示意图;
图11为本申请实施例提供的电子设备的方框示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
当前手写机器人的应用大多是根据已有的文档进行描摹,无法自动化处理一些实际问题,在表格填写应用上,大多需要给定表格文件,并手动完成电子版表格,无法直接将数据库中的数据直接与纸质文件进行关联。
有鉴于此,本申请发明人提出一种表格填写方法,通过结合目标检测技术以及图卷积网络,可以将目标表格转化为电子表格后,基于单元格的位置属性及隶属关系,确定出需要填写的文本。并根据文本和对应的文本轨迹骨点生成操作指令,实现对书写装置的自主操作,搭建纸质文件与格式化数据库之间的桥梁,实现大规模数据的自动填写。
请参阅图1,是本申请实施例提供的表格填写方法的流程图。下面将对图1所示的具体流程进行详细阐述。
步骤201,识别目标表格图像中的单元格和文本,以将目标表格转换为电子表格。
这里的目标表格可以是纸质表格、截图的电子表格等。该目标表格图像可以通过相机、摄像头、手机、平板电脑、截图小工具等设备获取。
上述的单元格包括有值单元格和空白单元格(如图2所示),有值单元格为目标表格中填写有内容的单元格(图2中填写有文本的单元格),空白单元格为目标表格中没有填写内容的单元格(图2中没有填写文本的单元格)。该文本可以是表格的标题,有值单元格中填写的内容等。
这里的文本可以包括汉字、***数字、英文等,该文本的文字类型可以根据实际情况进行调整,本申请不做具体限制。
在一些实施例中,在步骤201之前,该方法还包括:对该目标表格图像进行高斯模糊处理和膨胀操作以增强单元格和文本之间的区分度。通过opencv的轮廓识别技术裁剪表单主题轮廓并进行透视变换,得到仅剩目标表格的规整图像。
步骤202,通过图卷积网络和单元格预测相邻有值单元格和空白单元格的隶属关系。
可以理解地,如图2所示的表格,一般有值单元格和空白单元格一单元格对出现。在进行表格填写时,会将有值单元格的题目和相应的空白单元格结合起来,以将该有值单元格的题目对应的答案填写在相应的空白单元格。
但是,由于目标表格图像在进行图像识别后,各个有值单元格和空白单元格可能因各种原因(例如,存储时为随机存储、单元格的识别顺序和表格中的顺序不一致等)而被随机存储。而在进行表格填写时,需要知道每个空白单元格对应的有值单元格,以在该空白单元格填入与该有值单元格“题目”对应的“答案”,保证空白单元格和有值单元格的内容能够匹配。通过预测相邻有值单元格和空白单元格之间的隶属关系,可以确定出相邻有值单元格和空白单元格之间是否是相对应的,在有值单元格和空白单元格为相互对应的关系时,可以根据有值单元格中的内容对与该有值单元格存在隶属关系的空白单元格进行处理。
可以理解地,预测相邻有值单元格和空白单元格的隶属关系只是一种实施方式。还可以随机预测该单元格中不相邻的有值单元格和空白单元格的隶属关系。也可以设置预测顺序,如,先预测相邻有值单元格和空白单元格的隶属关系,若相邻有值单元格和空白单元格不存在隶属关系,则进一步预测不相邻的有值单元格和空白单元格的隶属关系,以将能够匹配的有值单元格和空白单元格全部匹配完成。该单元格中有值单元格和空白单元格预测隶属关系可以根据实际情况进行调整,本申请不做具体限制。
上述有值单元格和空白单元格的隶属关系的预测可以通过坐标值等数学方式进行预测、还可以通神经网络进行预测,该有值单元格和空白单元格的隶属关系的预测可以根据实际情况进行调整,本申请不做具体限制。
步骤203,将有值单元格中的文本和数据库中的文本进行匹配,以得到与有值单元格存在隶属关系的空白单元格的待填写文本。
这里的数据库中存储有目标表格的空白单元格需要填写的所有内容。该数据库中的空白单元格需要填写的所有内容按照分类存储的。例如,数据库中分别存储姓名、年龄、性别等信息,则该姓名、年龄、性别可以按照类别分别进行存储,即该姓名存储部分可以存储:张三、李四、王五等,该年龄存储部分可以存储:20、18、25等,该性别存储部分可以存储:男、女等。
可以理解地,该数据库中存储的内容可以按照表格进行存储,也可以按照数据包进行存储,还可以随机存储,随机存储的各个内容之间会建立关联关系等。
示例性地,若该数据库中存储的内容按照表格进行存储,则可以如下表1所示对数据库中存储的空白单元格需要填写的所有内容进行存储。
姓名 年龄 性别
张三 20
李四 18
王五 25
若该数据库中存储的内容按照数据包进行存储,则该数据库中可以包括多个数据包,每个数据包中对应一组数据,例如:数据包一中包括:张三、20、女;数据包二中包括:李四、18、男;数据包三中包括:王五、25、男等。可选地,该数据包的名称可以以数据包中的内容命名,如数据包一可以命名为张三、数据包二可以命名为李四、数据包三可以命名为王五等。
在进行空白单元格填写之前,需要先根据与该空白单元格存在隶属关系的有值单元格中的文本和数据库中文本进行匹配,以确定出该空白单元格对应的待填写文本。
在一些实施例中,在对有值单元格中的文本和数据库中的文本进行匹配时,可以和数据库中的特征文本。该特征文本是指某一数据组中能够用于区别于其他数据组中的文本。例如,上述示例中的姓名。
示例性地,当该数据库中存储的内容按照表格存储的,可以将值单元格中的文本和表头进行匹配,以确定出与该有值单元格存在隶属关系的空白单元格对应的待填写文本。
当该数据库中存储的内容按照数据包存储的,可以将值单元格中的文本和数据包标题进行匹配,以确定出与该有值单元格存在隶属关系的空白单元格对应的待填写文本。
可以理解地,本申请的数据库中存储的内容的存储方式和有值单元格文本和数据库中文本的存储方式可以根据实际情况进行调整,本申请不做具体限制。
步骤204,基于待填写文本在空白单元格内生成相应文本,以完成电子表格的填写。
可以理解地,在确定出空白单元格中的待填写文本后,可以直接将数据库中相应的文本复制到该空白单元内,以完成空白单元格的填写。还可以根据该待填写文本生成文本轨迹,并通过该文本轨迹在空白单元生成相应的文本,以完成空白单元格的填写。
在上述实现过程中,通过图像识别确定出目标表格图像中的单元格和文本,以将图像中的目标表格转化为可填写的电子表格。再通过有值单元格和空白单元格之间的隶属关系,将有值单元格和空白单元格建立其关联关系,以方便将有值单元格对应的填写内容相应的空白单元格填写,防止了填写错误的问题。另外,通过将有值单元格中文本和数据库中的文本进行匹配,以获取与该有值单元格存在隶属关系的空白单元格的待填写文本,以实现对该电子表格的自动填写。通过目标检测技术和图卷积网络实现将目标表格转化为电子表格,以实现表格的自动填写,减少了工作人员的工作量。
在一种可能的实现方式中,步骤201,包括:通过Swin Transformer和R-FPN提取目标表格图像中的单元格,并获取单元格对应的单元格属性;通过Paddle OCR识别目标表格图像中的文本。
其中,R-FPN通过在FPN结构上添加Res Net网络中的残差结构获得,该R-FPN用于增加高分辨率特征图的比重。
如图3所示,图3为原始FPN结构,该原始FPN结构中存在低分辨率特征图。由于表格中特征要素少,差异性小,通过在原始FPN结构的高分辨率图像上添加了类似残差连接的结构,能够进一步提升了特征的表示能力。进而得到如图4所示的R-FPN结构。如图4所示,该R-FPN结构中移除低分辨率特征图P6。
这里的R-FPN有多尺度特征融合特点,将FPN中未合并上采样的原始特征图与合并上采样后的特征图直接进行融合,增强特征表示的能力,进而提升目标检测任务的精度,以确定目标表格中所有单元格的位置。
这里的Swin Transformer是一个层级结构,能够抽取不同层次的视觉特征,使其更适合分割检测等任务。
上述的单元格属性包括单元格中的单元格各顶点的坐标、文本、单元格大小等。
可以理解地,该单元格的提取可以通过以下方式实现:
将单元格之间的IoU(Intersection of Union,中文名:交并比,指单元格与框选单元格的检测框之间的相似程度)作为单元格检测中的评价指标,该IoU的运算如下:
其中,IoU为单元格与检测框之间的相似程度,Area of Overlap为单元格与检测框之间的重合面积,Area of Union为单元格与检测框之间的并集面积。
在确定出IoU值后,将该IoU与IoU阈值进行比较,确定出单元格与检测框之间的大小关系。如图5所示,在单元格大于或小于检测框时,需要确定出交并单元格两个相对顶点,并对该单元格进行重新框选,以提取准确的单元格。
该单元格与单元格之间的相似程度计算可以更好的避免表单内单元格大小不一致以及噪声因素所产生的干扰,优化单元格检测结果。
上述的Paddle OCR是一种能自动识别图像中的文本的框架结构。该Paddle OCR对文本的识别可以分为文本检测和文本识别。该文本检测的任务是定位出图像中的文字区域,该文本识别的任务是识别出图像中的文字内容。
在上述实现过程中,通过Swin Transformer和R-FPN提取目标表格图像中的单元格,能够基于Swin Transformer在特征抽取方面可以兼顾局部和全局特征的优势,以及R-FPN能够将未合并上采样的原始特征图与合并上采样后的特征图直接进行融合的优势,增强特征表示的能力,提高了单元格位置信息提取的精确度。另外,再利用Paddle OCR对文本进行识别,能够基于Paddle OCR精准的定位到文本的位置,进而识别出相应的文本。通过Swin Transformer和Paddle OCR配合可以从整体和局部对目标表格中的单元格和文本进行识别,以提取出目标表格中的单元格和文本,提高了单元格和文本的提取精度。
在一种可能的实现方式中,步骤201之后,该方法还包括:将单元格按照预设编号规则进行编号;将编号后的单元格、单元格属性和文本进行存储。
上述的预设编号规则可以是按照从上到下、从左到右的顺序,也可以是按照从左到右、从上到下的顺序,还可以按照从下到上、从右到左的顺序等,该预设编号顺序可以根据实际情况进行调整,本申请不做具体限制。
如图6所示,该编号后的单元格、单元格属性以及文本可以按照图6所示进行存储。当然,也可以按照其他格式进行存储,还可以按照数据包的形式进行存储。该编号后的单元格、单元格属性以及文本的存储方式可以根据实际情况进行调整,本申请不做具体限制。
在上述实现过程中,通过将单元格进行编号后存储,方便对单元格的进一步操作,提高了目标表格转化为单元格的便利性。
在一种可能的实现方式中,将编号后的所述单元格、单元格属性和文本进行存储包括:按照单元格属性将编号后的单元格照目标表格的格式进行排列;将文本在相应的单元格内存储,以使文本和单元格按照目标表格的格式进行存储。
可以理解地,R-FPN和Swin Transformer提取单元格的位置信息时,主要提取单元格的每个顶点的坐标值。在对单元格进行存储时,将单元格按照坐标排序进行存储,以根据单元格的坐标值对单元格进行排序,进而还原目标表格。
由于Paddle OCR对文本进行识别后,能够将文本和对应的单元格位置信息进行匹配。因此,文本会和对应单元格的单元格属性进行融合。进而该文本与对应的单元格建立关联关系,或该文本直接作为对应单元格的单元格属性的一种。
在将单元格按照目标表格的格式排列后,将文本在相应的单元格内进行存储后,使文本和单元格按照目标表格的格式进行存储。
在一些实施例中,目标表格转换后的电子表格并不需要按照目标表格的格式完全还原,则在进行单元格存储时也可不按照目标表格的格式进行排列。该单元格的存储方式可以根据实际情况进行调整,本申请不做具体限制。
在上述实现过程中,在对单元格和文本进行存储时,可以根据单元格的单元格属性将单元格按照目标表格的格式进行存储,再将文本存储在相应的单元格内,能够完全的还原目标表格的格式,提高了电子表格转换的准确性,增加了电子表格的还原度。
在一种可能的实现方式中,步骤202,包括:根据单元格属性构建邻接矩阵;将邻接矩阵中的相邻节点的特征相聚合,并将特征聚合后的相邻节点进行隶属关系判断,以确定相邻节点对应的有值单元格和空白单元格的隶属关系。
如图7所示,图7为GCN工作的具体流程。从图7可以看出,输入图卷积网络中的图像,经过若干层GCN后,各个节点聚合了其相邻节点特征后由X变成了Z。但各个节点的连接关系依旧不变,也就是说GCN中的节点邻接矩阵是共享的。
进一步地,实现对目标表格图像中的有值单元格和空单元格隶属关系抽取可以通过以下几个步骤:
将目标表格中所有单元格顺序编号,构成图卷积网络的输入顶点集S={s1,s2,...,sN},其中N表示图中节点数量。连接所有“标题-内容格”、随机连接“内容-内容格”和“标题-标题格”构建邻接矩阵A。
根据邻接矩阵A和单元格在目标表格中的位置分布绘制出相应的表图,将其作为图卷积网络的输入数据。
在原始邻接矩阵中加入节点本身的信息:
其中I表示自环信息,为加入自环后的邻接矩阵,A为原始邻接矩阵。
在图卷积层上进行操作,实现特征聚合,并依据聚合后的特征对节点间隶属关系进行判断,以1*表示两单元格间存在隶属关系,0*表示不存在。GCN的特征聚合的具体过程可表示为:
其中,Hl-1表示上一卷积层的输出,Hl表示当前卷积层的输出,为节点的输入特征,为加入自环后的邻接矩阵。
每层的节点特征表示为其相邻节点特征和本身特征的加权和,即:
其中,表示对/>进行归一化,σ表示sigmoid激活函数,Wl表示可训练的权重矩阵,Hl表示当前卷积层的输出。
在一些实施例中,在通过对相邻节点的特征相聚合后,可以对存在隶属关系的节点所构成的边赋权1,不存在隶属关系的节点构成的边赋权0,以对各节点的隶属关系进行区别标记。
在上述实现过程中,通过图卷积网络对单元格之间的隶属关系进行判断,以确定出存在隶属关系的有值单元格和空白单元格。以便于后期在对空白单元格进行填写时,能准确的填写到相应的空白单元格,提高了表格填写的准确性。
在一种可能的实现方式中,步骤204,包括:根据待填写文本和文本轨迹文件确定文本骨干点;根据文本骨干点和三维列表确定出书写装置操作指令;通过书写装置操作指令控制书写装置在空白单元格中书写相应的待填写文本,以在空白单元格中生成相应文本。
这里的书写装置可以是机械臂、光笔、鼠标器等。
这里的文本轨迹文件为存储在数据库中一种包括文本及文本对应的骨干点的文件。在确定出待填写文本后,将该待填写文本和文本轨迹文件中的文本进行匹配,确定出该文本对应的骨干点。
进一步地,在确定出文本对应的骨干点后,将该骨干点的三维列表转化为可控制动作书写装置的操作指令。以通过通信接口将该操作指令发送到相应的书写装置,以供该书写装置按照接收到的操作指令进行文本书写。
可选地,通过通信接口将操作指令发送到相应的书写装置时,可以逐行进行操作指令发送,也可以一次性发送,还可以按骨干点发送等,将操作指令发送到相应的书写装置的方式可以根据实际情况进行调整,本申请不做具体限制。
为了更好的理解本实施例,下面以汉字“口”为例,通过该示例进一步描述本申请步骤204的具体实现过程:
如图8所示,文本骨干点以三维列表的形式存放在json文件中,每一个笔画对应三维列表中的一个二维列表,“口”字一共有三个笔画,每个笔画又是由无数的骨干点构成,故每个二维列表又是由一堆存放点迹坐标的一维列表构成。书写时需要依次读取其中的每个笔画,在每个笔画中的第一个坐标点落笔,依次连接后面的点迹,即可完成一个笔画的书写,接着抬笔,移动到下一个笔画的起始点,重复上述操作即可。
若需要调节字体大小和连续书写只需要根据预设字体大小以及文本的出现位置进行坐标变换即可。根据这个思路,我们需要通过操作指令实现抬笔,落笔,移动。图9给出“口”字生成操作指令示例,其中第1到4行为初始化进给量以及尺寸等,第6行为落笔,8到11行为第一笔的描绘。每完成一个笔画,停顿0.2秒,下面命令同上,最后一行回到初始位置,完成该“口”字的撰写。
在上述实现过程中,通过根据文本轨迹文件和待填写文本生成文本骨干点,以根据该文本骨干点生成相应的操作指令,进而控制书写装置根据相应的操作指令进行书写操作,以将待填写文本书写到相应的空白单元格内。通过可以实现书写装置的自主操作,可以搭建目标表格与格式化数据库之间的桥梁,实现大规模数据的填写,增加了填写内容的多样性。
在一种可能的实现方式中,步骤203,包括:将有值单元格中的文本和数据库中的表头进行同义词匹配;根据匹配结果确定与有值单元格存在隶属关系的空白单元的待填写文本。
由于目标表格的多样性,目标表格中与数据库中类似含义的词汇在目标文件和数据库中的表达方式不同。例如,目标表格中的“现任职务”在数据库中为“当前职务”,目标表格中的“籍贯”在数据库中为“住所”等。虽然在目标表格和数据库中的文本形式不一样,但是两者表达的意思是一致的。显然,我们没有必要为每一个表格制作对应的数据库表单,此时需要该文本的匹配具有更强的适配能力,通过同义词检测,能够将含义相近的文本进行匹配。
示例性地,若有值单元格中的文本为“出生时间”,但是数据库中并没有名为“出生时间”的文本,于是可以进行近义词匹配,得到数据库中的“出生年月”与“出生时间”相近度很高,于是便将“出生年月”中的值作为与该有值单元格有隶属关系的空白单元格中“出生年月”的值,以对该空表单元格进行填写。
在上述实现过程中,通过将有值单元格中的文本和数据库中的表头进行同义词匹配,能够在有值单元格中的文本和数据库中的表头的文本不匹配时,进一步进行同义词匹配,增加了匹配的灵活性。不需要对每个目标表格制作对应的数据库表单,减少了数据库表单建立的工作量。
基于同一申请构思,本申请实施例中还提供了与表格填写方法对应的表格填写装置,由于本申请实施例中的装置解决问题的原理与前述的表格填写方法实施例相似,因此本实施例中的装置的实施可以参见上述方法的实施例中的描述,重复之处不再赘述。
请参阅图10,是本申请实施例提供的表格填写装置的功能模块示意图。本实施例中的表格填写装置中的各个模块用于执行上述方法实施例中的各个步骤。表格填写装置包括识别模块301、预测模块302、匹配模块303、填写模块304;其中,
识别模块301用于识别目标表格图像中的单元格和文本,以将所述目标表格转换为电子表格。
预测模块302用于通过图卷积网络和所述单元格预测相邻所述有值单元格和所述空白单元格的隶属关系。
匹配模块303用于将有值单元格中的文本和数据库中的表头进行匹配,以得到与所述有值单元格存在隶属关系的所述空白单元格的待填写文本。
填写模块304用于基于所述待填写文本在所述空白单元格内生成汉字轨迹,以完成所述电子表格的填写;其中,所述有值单元格为所述目标表格中填写有内容的单元格,所述空白单元格为所述目标表格中没有填写内容的单元格。
一种可能的实施方式中,识别模块301,还用于:通过Swin Transformer和R-FPN提取所述目标表格图像中的单元格,并获取所述单元格对应的单元格属性;通过Paddle OCR识别所述目标表格图像中的文本;其中,所述R-FPN通过在FPN结构上添加Res Net网络中的残差结构获得,所述R-FPN用于增加高分辨率特征图的比重。
一种可能的实施方式中,该表格填写装置还包括存储模块,该存储模块用于:将所述单元格按照预设编号规则进行编号;将编号后的所述单元格、所述单元格属性和所述文本进行存储。
一种可能的实施方式中,存储模块,具体用于:按照所述单元格属性将所述编号后的所述单元格照所述目标表格的格式进行排列;将所述文本在相应的所述单元格内存储,以使所述文本和所述单元格按照所述目标表格的格式进行存储。
一种可能的实施方式中,预测模块302,还用于:根据所述单元格属性构建邻接矩阵;将所述邻接矩阵中的相邻节点的特征相聚合,并将特征聚合后的所述相邻节点进行隶属关系判断,以确定所述相邻节点对应的所述有值单元格和所述空白单元格的隶属关系。
一种可能的实施方式中,填写模块304,还用于:根据所述待填写文本和文本轨迹文件确定文本骨干点;根据所述文本骨干点和三维列表确定出书写装置操作指令;通过所述书写装置操作指令控制所述书写装置在所述空白单元格中书写相应的所述待填写文本,以在所述空白单元格中生成相应文本。
一种可能的实施方式中,匹配模块303,还用于:将所述有值单元格中的所述文本和所述数据库中的表头进行同义词匹配;根据匹配结果确定与所述有值单元格存在隶属关系的所述空白单元的待填写文本。
为便于对本实施例进行理解,下面对执行本申请实施例所公开的一种表格填写方法的电子设备进行详细介绍。
如图11所示,是电子设备的方框示意图。电子设备100可以包括存储器111、处理器113。本领域普通技术人员可以理解,图11所示的结构仅为示意,其并不对电子设备100的结构造成限定。例如,电子设备100还可包括比图11中所示更多或者更少的组件,或者具有与图11所示不同的配置。
上述的存储器111、与处理器113相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。
其中,存储器111可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,简称EEPROM)等。其中,存储器111用于存储程序,所述处理器113在接收到执行指令后,执行所述程序,本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中,或者由处理器113实现。
上述的处理器113可能是一种集成电路芯片,具有信号的处理能力。上述的处理器113可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(digital signalprocessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本实施例中的电子设备100可以用于执行本申请实施例提供的各个方法中的各个步骤。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的表格填写方法的步骤。
本申请实施例所提供的表格填写方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的表格填写方法的步骤,具体可参见上述方法实施例,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种表格填写方法,其特征在于,包括:
识别目标表格图像中的单元格和文本,以将所述目标表格转换为电子表格;
通过图卷积网络和所述单元格预测相邻有值单元格和空白单元格的隶属关系;
将所述有值单元格中的文本和数据库中的文本进行匹配,以得到与所述有值单元格存在隶属关系的所述空白单元格的待填写文本;
基于所述待填写文本在所述空白单元格内生成相应文本,以完成所述电子表格的填写;
其中,所述有值单元格为所述目标表格中填写有内容的单元格,所述空白单元格为所述目标表格中没有填写内容的单元格;
所述识别目标表格图像中的单元格和文本,包括:
通过Swin Transformer和R-FPN提取所述目标表格图像中的单元格,并获取所述单元格对应的单元格属性;
通过Paddle OCR识别所述目标表格图像中的文本;
其中,所述R-FPN通过在FPN结构上添加ResNet网络中的残差结构获得,所述R-FPN用于增加高分辨率特征图的比重。
2.根据权利要求1所述的方法,其特征在于,所述单元格属性包括单元格的位置信息,所述识别目标表格图像中的单元格和文本之后,所述方法还包括:
将所述单元格按照预设编号规则进行编号;
将编号后的所述单元格、所述单元格属性和所述文本进行存储。
3.根据权利要求2所述的方法,其特征在于,所述将编号后的所述单元格、所述单元格属性和所述文本进行存储包括:
按照所述单元格属性将所述编号后的所述单元格照所述目标表格的格式进行排列;
将所述文本在相应的所述单元格内存储,以使所述文本和所述单元格按照所述目标表格的格式进行存储。
4.根据权利要求1所述的方法,其特征在于,所述通过图卷积网络和所述单元格预测相邻所述有值单元格和所述空白单元格的隶属关系,包括:
根据所述单元格属性构建邻接矩阵;
将所述邻接矩阵中的相邻节点的特征相聚合,并将特征聚合后的所述相邻节点进行隶属关系判断,以确定所述相邻节点对应的所述有值单元格和所述空白单元格的隶属关系。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述基于所述待填写文本在所述空白单元格内生成相应文本,以完成所述电子表格的填写,包括:
根据所述待填写文本和文本轨迹文件确定文本骨干点;
根据所述文本骨干点和三维列表确定出书写装置操作指令;
通过所述书写装置操作指令控制所述书写装置在所述空白单元格中书写相应的所述待填写文本,以在所述空白单元格中生成相应文本。
6.根据权利要求1-4任意一项所述的方法,其特征在于,所述将所述有值单元格中的所述文本和数据库中的文本进行匹配,以得到与所述有值单元格存在隶属关系的所述空白单元格的待填写文本,包括:
将所述有值单元格中的所述文本和所述数据库中的文本进行同义词匹配;
根据匹配结果确定与所述有值单元格存在隶属关系的所述空白单元的待填写文本。
7.一种表格填写装置,其特征在于,包括:
识别模块,用于识别目标表格图像中的单元格和文本,以将所述目标表格转换为电子表格;
预测模块,用于通过图卷积网络和所述单元格预测相邻有值单元格和空白单元格的隶属关系;
匹配模块,用于将有值单元格中的文本和数据库中的文本进行匹配,以得到与所述有值单元格存在隶属关系的所述空白单元格的待填写文本;
填写模块,用于基于所述待填写文本在所述空白单元格内生成汉字轨迹,以完成所述电子表格的填写;
其中,所述有值单元格为所述目标表格中填写有内容的单元格,所述空白单元格为所述目标表格中没有填写内容的单元格;
所述识别模块,还用于通过Swin Transformer和R-FPN提取所述目标表格图像中的单元格,并获取所述单元格对应的单元格属性;通过Paddle OCR识别所述目标表格图像中的文本;其中,所述R-FPN通过在FPN结构上添加ResNet网络中的残差结构获得,所述R-FPN用于增加高分辨率特征图的比重。
8.一种电子设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至6任一所述的方法的步骤。
CN202310155415.5A 2023-02-21 2023-02-21 表格填写方法、装置、电子设备及存储介质 Active CN116151202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310155415.5A CN116151202B (zh) 2023-02-21 2023-02-21 表格填写方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310155415.5A CN116151202B (zh) 2023-02-21 2023-02-21 表格填写方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116151202A CN116151202A (zh) 2023-05-23
CN116151202B true CN116151202B (zh) 2024-04-02

Family

ID=86354093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310155415.5A Active CN116151202B (zh) 2023-02-21 2023-02-21 表格填写方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116151202B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859876A (zh) * 2019-04-21 2020-10-30 桂林电子科技大学 一种表格自动录入方法及***
CN114973282A (zh) * 2022-05-09 2022-08-30 深圳市商汤科技有限公司 表格识别方法、装置、电子设备及存储介质
KR20220133434A (ko) * 2021-03-25 2022-10-05 네이버 주식회사 테이블 인식 방법 및 시스템
CN115331245A (zh) * 2022-10-12 2022-11-11 中南民族大学 一种基于图像实例分割的表格结构识别方法
CN115546813A (zh) * 2022-10-09 2022-12-30 科大讯飞股份有限公司 一种文档分析方法、装置、存储介质及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657274B (zh) * 2021-08-17 2022-09-20 北京百度网讯科技有限公司 表格生成方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859876A (zh) * 2019-04-21 2020-10-30 桂林电子科技大学 一种表格自动录入方法及***
KR20220133434A (ko) * 2021-03-25 2022-10-05 네이버 주식회사 테이블 인식 방법 및 시스템
CN114973282A (zh) * 2022-05-09 2022-08-30 深圳市商汤科技有限公司 表格识别方法、装置、电子设备及存储介质
CN115546813A (zh) * 2022-10-09 2022-12-30 科大讯飞股份有限公司 一种文档分析方法、装置、存储介质及设备
CN115331245A (zh) * 2022-10-12 2022-11-11 中南民族大学 一种基于图像实例分割的表格结构识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于图卷积网络的表格隶属关系抽取;张宇童 等;《北京航空航天大学学报》;第1-10页 *
表格检测与结构识别综述;张宇童 等;《计算机工程与应用》;第58卷(第22期);第1-10页 *

Also Published As

Publication number Publication date
CN116151202A (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
Altwaijry et al. Arabic handwriting recognition system using convolutional neural network
RU2699687C1 (ru) Обнаружение текстовых полей с использованием нейронных сетей
US10824801B2 (en) Interactively predicting fields in a form
CN112949415B (zh) 图像处理方法、装置、设备和介质
WO2019238063A1 (zh) 文本检测分析方法、装置及设备
US20190294921A1 (en) Field identification in an image using artificial intelligence
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN110874618B (zh) 基于小样本的ocr模板学习方法、装置、电子设备及介质
CN113742483A (zh) 文档分类的方法、装置、电子设备和存储介质
CN111615702A (zh) 一种从图像中提取结构化数据的方法、装置和设备
CN112949476B (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN114429637B (zh) 一种文档分类方法、装置、设备及存储介质
US11972625B2 (en) Character-based representation learning for table data extraction using artificial intelligence techniques
CN112308946A (zh) 题目生成方法、装置、电子设备及可读存储介质
CN113936287A (zh) 基于人工智能的表格检测方法、装置、电子设备及介质
US20150139547A1 (en) Feature calculation device and method and computer program product
Manandhar et al. Magic layouts: Structural prior for component detection in user interface designs
US11881044B2 (en) Method and apparatus for processing image, device and storage medium
CN113255767A (zh) 票据分类方法、装置、设备及存储介质
CN116151202B (zh) 表格填写方法、装置、电子设备及存储介质
CN114842482B (zh) 一种图像分类方法、装置、设备和存储介质
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN114120305A (zh) 文本分类模型的训练方法、文本内容的识别方法及装置
CN113128496B (zh) 一种从图像中提取结构化数据的方法、装置和设备
CN116259050B (zh) 灌装桶标签文字定位识别方法、装置、设备及检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant