CN116798056B - 表格图像定位方法、装置、设备、计算机可读存储介质 - Google Patents

表格图像定位方法、装置、设备、计算机可读存储介质 Download PDF

Info

Publication number
CN116798056B
CN116798056B CN202311083805.2A CN202311083805A CN116798056B CN 116798056 B CN116798056 B CN 116798056B CN 202311083805 A CN202311083805 A CN 202311083805A CN 116798056 B CN116798056 B CN 116798056B
Authority
CN
China
Prior art keywords
vertex
image
target
identified
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311083805.2A
Other languages
English (en)
Other versions
CN116798056A (zh
Inventor
孔锐
揭英达
杨黄林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinghan Intelligent Technology Co ltd
Original Assignee
Xinghan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinghan Intelligent Technology Co ltd filed Critical Xinghan Intelligent Technology Co ltd
Priority to CN202311083805.2A priority Critical patent/CN116798056B/zh
Publication of CN116798056A publication Critical patent/CN116798056A/zh
Application granted granted Critical
Publication of CN116798056B publication Critical patent/CN116798056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1456Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种表格图像定位方法、装置、设备、计算机可读存储介质,方法包括:将待识别表格图像输入实例分割模型,得到目标掩码和目标矩形框;根据目标矩形框裁剪待识别表格图像得到有多个第一表格顶点的中间表格图像,并输入轻量级图像分类模型,得到多个顶点语义标签;拟合目标掩码在目标矩形框的外部轮廓信息,得到目标掩码的多个第二表格顶点;确定各个第二表格顶点对应的顶点位置信息和第一表格顶点,将各个与第二表格顶点对应的第一表格顶点对应的顶点语义标签,与各个顶点位置信息进行配对。本申请利用实例分割模型和轻量级图像分类模型定位表格图像,不需压缩表格图像,保留图像有效信息,提升表格图像定位的准确率。

Description

表格图像定位方法、装置、设备、计算机可读存储介质
技术领域
本申请涉及但不限于图像识别技术领域,尤其涉及一种表格图像定位方法、装置、设备、计算机可读存储介质。
背景技术
生活中,扫描技术越来越常见,通过手机就能将图片转化为可编辑的文档等;表格大小、种类与样式复杂多样,例如表格中存在不同的背景填充,不同的行列合并方法,不同的内容文本类型等,并且现有文档既包括现代的、电子的文档,也有历史的、扫描的手写文档,它们的文档样式、所处光照环境以及纹理等都有比较大的差异,表格识别一直是文档识别领域的研究难点。现在的表格定位算法,大多数是基于早期的关键点检测算法,但基于关键点检测算法模型较为复杂,不适合大分辨率的图像输入,并且表格的直线线条特征在图像缩放后容易丢失,从而导致表格定位准确率较低。
发明内容
本申请实施例提供了一种表格图像定位方法、装置、设备、计算机可读存储介质,能够有效提升表格图像定位的准确率。
第一方面,本申请实施例提供了表格图像定位方法,包括:
获取待识别表格图像,将所述待识别表格图像输入至预设的实例分割模型进行实例分割,得到与所述待识别表格图像对应的目标掩码和目标矩形框;
根据所述目标矩形框从所述待识别表格图像中裁剪出中间表格图像,将所述中间表格图像输入至预设的轻量级图像分类模型进行图像分类处理,得到各个第一表格顶点对应的顶点语义标签,其中,所述中间表格图像对应有多个第一表格顶点;
获取所述目标掩码在所述目标矩形框中的外部轮廓信息,利用多边形拟合轮廓函数拟合所述外部轮廓信息,得到所述目标掩码对应的多个第二表格顶点;
确定各个所述第二表格顶点对应的顶点位置信息和所述第一表格顶点,将各个所述目标顶点语义标签与各个所述顶点位置信息进行配对,其中,所述目标顶点语义标签为与所述第二表格顶点对应的第一表格顶点对应的顶点语义标签。
在一些实施例中,在所述待识别表格图像为视频流的情况下,在所述将所述待识别表格图像输入至预设的实例分割模型进行实例分割之前,所述方法还包括:
对所述视频流进行解码处理,得到初始待识别表格图像;
对所述初始待识别表格图像进行图像归一化处理,得到归一化处理后的所述待识别表格图像。
在一些实施例中,在将所述待识别表格图像输入至预设的实例分割模型进行实例分割之前,所述方法还包括:
确定所述待识别表格图像的目标区域边界;
确定所述目标区域边界对应的目标图像的像素宽度值和像素高度值;
分别在所述像素宽度值和所述像素高度值填充预设像素值,得到填充像素值后的所述待识别表格图像。
在一些实施例中,所述实例分割模型为yolov5-seg模型,所述将所述待识别表格图像输入至预设的实例分割模型进行实例分割,得到与所述待识别表格图像对应的目标掩码和目标矩形框,包括:
将所述待识别表格图像输入至所述yolov5-seg模型,得到第一实例图像和第二实例图像,其中,所述第一实例图像携带有矩形框位置信息、矩形框置信度值、矩形框对应的目标类别信息和掩码协方差系数,所述第二实例图像携带有图像张量;
对所述矩形框位置信息、所述矩形框置信度值和所述目标类别信息进行非极大值抑制处理,得到所述待识别表格图像对应的所述目标矩形框;
将所述掩码协方差系数与所述图像张量进行矩阵相乘,得到初始掩码;
根据所述目标矩形框对所述初始掩码进行裁剪,得到第一中间掩码;
根据sigmod函数对所述第一中间掩码进行激活处理,得到第二中间掩码;
对所述第二中间掩码进行上采样处理,得到第三中间掩码;
将所述第三中间掩码进行二值化处理,得到所述目标掩码。
在一些实施例中,所述轻量级图像分类模型为PP-LCNet模型,所述将所述中间表格图像输入至预设的轻量级图像分类模型进行图像分类处理,得到各个所述第一表格顶点对应的顶点语义标签,包括:
从全部的所述第一表格顶点中确定目标参考点,并确定所述目标参考点对应的顶点语义标签;
确定各个候选参考点与所述目标参考点之间的相对位置信息,其中,所述候选参考点为所述第一表格顶点中除了所述目标参考点之外的表格顶点;
将各个所述相对位置信息和所述目标参考点对应的顶点语义标签输入至所述PP-LCNet模型,得到各个所述候选参考点对应的顶点语义标签。
在一些实施例中,所述利用多边形拟合轮廓函数拟合所述外部轮廓信息,得到所述目标掩码对应的多个第二表格顶点,包括:
根据所述多边形拟合轮廓函数确定所述外部轮廓信息对应的多边形的边数;
当所述边数等于预设阈值,将所述多边形的各个顶点确定为各个所述第二表格顶点;
当所述边数不等于所述预设阈值,利用最小旋转矩形函数对所述外部轮廓信息进行拟合处理,得到各个所述第二表格顶点。
在一些实施例中,所述目标顶点语义标签包括顶点朝向标签和待配对顶点坐标信息,所述将各个目标顶点语义标签与各个所述顶点位置信息进行配对,包括:
依次从所述顶点位置信息中确定参考点坐标信息;
依次从全部的所述待配对顶点坐标信息中确定目标配对坐标信息,所述目标配对坐标信息与所述参考点坐标信息相同;
依次将目标顶点朝向标签分配给所述参考点坐标信息对应的第二表格顶点,其中,所述目标顶点朝向标签为与所述目标配对坐标信息对应的顶点朝向标签。
第二方面,本申请实施例提供了一种表格图像定位装置,包括:
实例分割模块,用于获取待识别表格图像,将所述待识别表格图像输入至预设的实例分割模型进行实例分割,得到与所述待识别表格图像对应的目标掩码和目标矩形框;
图像分类模块,用于根据所述目标矩形框从所述待识别表格图像中裁剪出中间表格图像,将所述中间表格图像输入至预设的轻量级图像分类模型进行图像分类处理,得到各个第一表格顶点对应的顶点语义标签,其中,所述中间表格图像对应有多个第一表格顶点;
轮廓分析模块,用于获取所述目标掩码在所述目标矩形框中的外部轮廓信息,利用多边形拟合轮廓函数拟合所述外部轮廓信息,得到所述目标掩码对应的多个第二表格顶点;
图像定位模块,用于确定各个所述第二表格顶点对应的顶点位置信息和所述第一表格顶点,将各个目标顶点语义标签与各个所述顶点位置信息进行配对,其中,所述目标顶点语义标签为与所述第二表格顶点对应的第一表格顶点对应的顶点语义标签。
第三方面,本申请实施例提供了一种电子设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如第一方面所述的表格图像定位方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如第一方面所述的表格图像定位方法。
本申请实施例提供了一种表格图像定位方法、装置、设备、计算机可读存储介质,方法包括:获取待识别表格图像,将所述待识别表格图像输入至预设的实例分割模型进行实例分割,得到与所述待识别表格图像对应的目标掩码和目标矩形框;根据所述目标矩形框从所述待识别表格图像中裁剪出中间表格图像,将所述中间表格图像输入至预设的轻量级图像分类模型进行图像分类处理,得到各个第一表格顶点对应的顶点语义标签,其中,所述中间表格图像对应有多个第一表格顶点;获取所述目标掩码在所述目标矩形框中的外部轮廓信息,利用多边形拟合轮廓函数拟合所述外部轮廓信息,得到所述目标掩码对应的多个第二表格顶点;确定各个所述第二表格顶点对应的顶点位置信息和所述第一表格顶点,将各个所述目标顶点语义标签与各个所述顶点位置信息进行配对,其中,所述目标顶点语义标签为与所述第二表格顶点对应的第一表格顶点对应的顶点语义标签。根据本申请实施例提供的方案,利用实例分割模型结合轻量级图像分类模型实现表格图像的定位,不需要对表格图像进行压缩,保留表格图像的有效信息,从而能够有效提升表格图像定位的准确率。
附图说明
图1是本申请一个实施例提供的表格图像定位方法的步骤流程图;
图2是本申请另一个实施例提供的对待识别表格图像进行预处理的步骤流程图;
图3是本申请另一个实施例提供的对待识别表格图像进行预处理的步骤流程图;
图4是本申请另一个实施例提供的对待识别表格图像进行实例分割的步骤流程图;
图5是本申请另一个实施例提供的对中间表格图像进行图像分类处理的步骤流程图;
图6是本申请另一个实施例提供的拟合外部轮廓信息的步骤流程图;
图7是本申请另一个实施例提供的将各个顶点语义标签与各个顶点位置信息进行配对的步骤流程图;
图8是本申请另一个实施例提供的表格图像定位装置的模块示意图;
图9是本申请另一个实施例提供的电子设备的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
可以理解的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
生活中,扫描技术越来越常见,通过手机就能将图片转化为可编辑的文档等;表格大小、种类与样式复杂多样,例如表格中存在不同的背景填充,不同的行列合并方法,不同的内容文本类型等,并且现有文档既包括现代的、电子的文档,也有历史的、扫描的手写文档,它们的文档样式、所处光照环境以及纹理等都有比较大的差异,表格识别一直是文档识别领域的研究难点。现在的表格定位算法,大多数是基于早期的关键点检测算法,但基于关键点检测算法模型较为复杂,不适合大分辨率的图像输入,并且表格的直线线条特征在图像缩放后容易丢失,从而导致表格定位准确率较低。
为解决上述存在的问题,本申请实施例提供了一种表格图像定位方法、装置、设备、计算机可读存储介质,方法包括:获取待识别表格图像,将所述待识别表格图像输入至预设的实例分割模型进行实例分割,得到与所述待识别表格图像对应的目标掩码和目标矩形框;根据所述目标矩形框从所述待识别表格图像中裁剪出中间表格图像,将所述中间表格图像输入至预设的轻量级图像分类模型进行图像分类处理,得到各个第一表格顶点对应的顶点语义标签,其中,所述中间表格图像对应有多个第一表格顶点;获取所述目标掩码在所述目标矩形框中的外部轮廓信息,利用多边形拟合轮廓函数拟合所述外部轮廓信息,得到所述目标掩码对应的多个第二表格顶点;确定各个所述第二表格顶点对应的顶点位置信息和所述第一表格顶点,将各个所述目标顶点语义标签与各个所述顶点位置信息进行配对,其中,所述目标顶点语义标签为与所述第二表格顶点对应的第一表格顶点对应的顶点语义标签。根据本申请实施例提供的方案,利用实例分割模型结合轻量级图像分类模型实现表格图像的定位,不需要对表格图像进行压缩,保留表格图像的有效信息,从而能够有效提升表格图像定位的准确率。
下面结合附图,对本申请实施例作进一步阐述。
参考图1,图1是本申请一个实施例提供的表格图像定位方法的步骤流程图,该表格图像定位方法包括但不限于有以下步骤:
步骤S110,获取待识别表格图像,将待识别表格图像输入至预设的实例分割模型进行实例分割,得到与待识别表格图像对应的目标掩码和目标矩形框。
可以理解的是,通过实例分割模型对待识别表格图像进行实例分割,得到与待识别表格图像中对应的目标掩码和目标矩形框,能够分割出待识别表格图像中的所有表格的实例图像,为后续的表格定位步骤提供有效的数据基础。
步骤S120,根据目标矩形框从待识别表格图像中裁剪出中间表格图像,将中间表格图像输入至预设的轻量级图像分类模型进行图像分类处理,得到各个第一表格顶点对应的顶点语义标签,其中,中间表格图像对应有多个第一表格顶点。
可以理解的是,轻量级图像分类模型对中间表格图像进行图像分类处理,得到各个第一表格顶点对应的顶点语义标签,该顶点语义标签表征对应的第一表格顶点在中间表格图像的方向(左上、左下、右上或右下),即是说本申请实施例利用轻量级图像分类模型判断表格图像的纹理方向分类,获取到的各个顶点语义标签能够为后续进行顶点位置信息配对的步骤提供有效的数据基础。并且,轻量级图像分类模型的应用考虑了速度与效果的平衡,不需要对中间表格图像进行压缩,从而保留了表格图像的有效信息,进一步提升了表格图像定位的准确率。
步骤S130,获取目标掩码在目标矩形框中的外部轮廓信息,利用多边形拟合轮廓函数拟合外部轮廓信息,得到目标掩码对应的多个第二表格顶点。
可以理解的是,在利用轻量级图像分类模型检测到目标矩形框对应的第一表格顶点的顶点语义标签之后,利用多边形拟合轮廓函数拟合目标掩码对应的外部轮廓信息,得到目标掩码对应的多个第二表格顶点,能够为后续进行顶点语义标签与顶点位置信息之间相互配对的步骤提供有效的数据基础。
步骤S140,确定各个第二表格顶点对应的顶点位置信息和第一表格顶点,将各个目标顶点语义标签与各个顶点位置信息进行配对,其中,目标顶点语义标签为与第二表格顶点对应的第一表格顶点对应的顶点语义标签。
可以理解的是,现有技术中主要利用需要对待识别表格图像进行压缩处理的人体关键点检测算法等目标检测算法,实现表格图像的定位,这类表格图像定位的方式将导致表格图像的表格线信息丢失,从而导致表格顶点检测的准确度较低,进而影响表格定位的准确度。基于此,本申请实施例利用实例分割模型结合轻量级图像分类模型实现表格图像的定位,不需要对表格图像进行压缩,保留表格图像的有效信息,相较于目前的表格定位方式,能够有效提升表格图像定位的准确度。
另外,在一些实施例中,在待识别表格图像为视频流的情况下,参照图2,在执行图1所示的步骤S110之前,本申请实施例提供的表格图像定位方法包括但不限于有以下步骤:
步骤S210,对视频流进行解码处理,得到初始待识别表格图像;
步骤S220,对初始待识别表格图像进行图像归一化处理,得到归一化处理后的待识别表格图像。
可以理解的是,在待识别表格图像为视频流的情况下,对视频流进行解码处理,得到初始待识别表格图像,并对初始待识别表格图像进行图像归一化处理,得到目标待识别表格图像,能够找出初始待识别表格图像中的不变量,使得待识别表格图像可以抵抗几何变换的攻击,保留图像的有用信息,进而为保障后续图像应用的准确性提供有效的数据基础。
需要说明的是,对视频流进行解码,以及对图像进行归一化的处理步骤为本领域技术人员所熟知,在此不多做赘述。
另外,参照图3,在一些实施例中,在执行图1所示的步骤S110之前,本申请实施例提供的表格图像定位方法包括但不限于有以下步骤:
步骤S310,确定待识别表格图像的目标区域边界;
步骤S320,确定目标区域边界对应的目标图像的像素宽度值和像素高度值;
步骤S330,分别在像素宽度值和像素高度值填充预设像素值,得到填充像素值后的待识别表格图像。
需要说明的是,目标区域边界为待识别表格图像中,目标(即表格)可能出现的区域,本申请实施例并不限制目标区域边界的获取方式,可以是通过用户指定方式实现,例如通过鼠标点击绘制操作实现,该鼠标点击绘制操作得到的矩形区域即为目标区域边界。
可以理解的是,为防止待识别表格图像中表格实例的表格边界出现在分析区域边界处,避免影响后续的表格顶点定位的准确度,本实施例通过确定目标区域边界对应的目标图像的像素宽度值和像素高度值,并分别在像素宽度值和像素高度值填充预设像素值,例如,对目标区域边界对应的目标图像I0的像素宽度值w0和像素高度值h0,分别向外填充2p个像素值,得到长宽分别为w0+2p,h0+2p的填充像素值后的待识别表格图像I1
另外,在一些实施例中,实例分割模型为yolov5-seg模型,参照图4,图1步骤S110包括但不限于有以下步骤:
步骤S410,将待识别表格图像输入至yolov5-seg模型,得到第一实例图像和第二实例图像,其中,第一实例图像携带有矩形框位置信息、矩形框置信度值、矩形框对应的目标类别信息和掩码协方差系数,第二实例图像携带有图像张量;
步骤S420,对矩形框位置信息、矩形框置信度值和目标类别信息进行非极大值抑制处理,得到待识别表格图像对应的目标矩形框;
步骤S430,将掩码协方差系数与图像张量进行矩阵相乘,得到初始掩码;
步骤S440,根据目标矩形框对初始掩码进行裁剪,得到第一中间掩码;
步骤S450,根据sigmod函数对第一中间掩码进行激活处理,得到第二中间掩码;
步骤S460,对第二中间掩码进行上采样处理,得到第三中间掩码;
步骤S470,将第三中间掩码进行二值化处理,得到目标掩码。
可以理解的是,在实例分割模型为yolov5-seg模型的情况下,获取与待识别表格图像对应的目标掩码的具体方式如下:将待识别表格图像输入至yolov5-seg模型,得到第一实例图像pred(38维,0-3框,4置信度、5类别、6-37mask协方差系数)、第二实例图像proto[1, 32, 160, 160],其中,38维表示第一实例图像对应的维度总数,第一实例图像的第0-3维表示矩形框位置信息,第一实例图像的第4维表示矩形框置信度值,第一实例图像的第5维表示矩形框对应的目标类别信息,第一实例图像的第6-37维表示掩码协方差系数,[1,32, 160, 160]表示待识别表格图像对应的图像张量;对第一实例图像pred的前6维数据,即对矩形框位置信息、矩形框置信度值和目标类别信息利用非极大抑制算法NMS进行非极大值抑制处理,得到待识别表格图像对应的目标矩形框Ri(i=1,2,3...),其中i为目标矩形框id;将掩码协方差系数与图像张量进行矩阵相乘,得到初始掩码,该初始掩码的大小为[1, 160, 160];根据目标矩形框对初始掩码进行裁剪,仅保留目标矩形框范围内的数据,得到第一中间掩码;根据sigmod函数对第一中间掩码进行激活处理,得到第二中间掩码;对第二中间掩码进行上采样处理,得到第三中间掩码,上采样处理后第三中间掩码的尺寸为640×640;将第三中间掩码进行二值化处理,得到目标掩码,为后续的表格顶点定位操作提供有效的数据基础。
需要说明的是,本申请实施例并不限制具体的实例分割模型,本实施例的实例分割模型为yolov5-seg模型,还可以是YOLACT模型或YOLACT++模型等等,本领域技术人员根据实际需求选用即可。
另外,在一些实施例中,轻量级图像分类模型为PP-LCNet模型,参照图5,图1步骤S120包括但不限于有以下步骤:
步骤S510,从全部的第一表格顶点中确定目标参考点,并确定目标参考点对应的顶点语义标签;
步骤S520,确定各个候选参考点与目标参考点之间的相对位置信息,其中,候选参考点为第一表格顶点中除了目标参考点之外的表格顶点;
步骤S530,将各个相对位置信息和目标参考点对应的顶点语义标签输入至PP-LCNet模型,得到各个候选参考点对应的顶点语义标签。
需要说明的是,本申请实施例并不限制具体的轻量级图像分类模型,本实施例的轻量级图像分类模型为PP-LCNet模型,还可以是MobileNetV3模型或ShuffleNet模型等等,本领域技术人员根据实际需求选用即可。同时本申请实施例并不限制PP-LCNet模型的具体模型结构,本实施例的PP-LCNet模型的输出层全连接节点数为4。
可以理解的是,本申请实施例选取目标参考点的具体方式为随机选取,可以选取表格的左上角顶点、左下角顶点、右上角顶点或右下角顶点作为目标参考点,例如,本实施例将左上角顶点确定为目标参考点,记4个第一表格顶点(lt, rt, rb, lb)分别对应位置编号(0,1,2,3),顶点语义标签中的顶点朝向标签取值为(0,1,2,3),对应PP-LCNet模型分类的4个类别,lt, rt, rb, lb分别表示左上、右上、右下、左下4个第一表格顶点;在确定各个候选参考点与目标参考点之间的相对位置信息之后,PP-LCNet模型可以根据各个相对位置信息和目标参考点对应的顶点语义标签确定得到各个候选参考点对应的顶点语义标签,从而能够为后续进行顶点语义标签与顶点位置信息之间相互配对的步骤提供有效的数据基础。
另外,在一些实施例中,参照图6,图1步骤S130包括但不限于有以下步骤:
步骤S610,根据多边形拟合轮廓函数确定外部轮廓信息对应的多边形的边数;
步骤S620,当边数等于预设阈值,将多边形的各个顶点确定为各个第二表格顶点;
步骤S630,当边数不等于预设阈值,利用最小旋转矩形函数对外部轮廓信息进行拟合处理,得到各个第二表格顶点。
可以理解的是,本实施例的预设阈值为4,根据多边形拟合轮廓函数(例如approxPolyDP函数)确定外部轮廓信息对应的多边形的边数,当边数等于预设阈值,即在检测到多边形的边数为4的情况下,将该4个顶点确定为各个第二表格顶点;当边数不等于预设阈值,利用最小旋转矩形函数(例如选用opencv函数cv2.boxPoints(cv2.minAreaRect(contour))对外部轮廓信息进行拟合处理,能够找出最小旋转矩形的4个顶点位置,将该4个顶点位置确定为第二表格顶点,该4个第二表格顶点对应的顶点位置信息为(lt0, rt0,rb0, lb0)。
另外,在一些实施例中,目标顶点语义标签包括顶点朝向标签和待配对顶点坐标信息,参照图7,图1步骤S140包括但不限于有以下步骤:
步骤S710,依次从顶点位置信息中确定参考点坐标信息;
步骤S720,依次从全部的待配对顶点坐标信息中确定目标配对坐标信息,目标配对坐标信息与参考点坐标信息相同;
步骤S730,依次将目标顶点朝向标签分配给参考点坐标信息对应的第二表格顶点,其中,目标顶点朝向标签为与目标配对坐标信息对应的顶点朝向标签。
可以理解的是,参考图5和图6实施例的描述,顶点位置信息为目标掩码经过轮廓拟合出的4个第二表格顶点分别对应的顶点位置信息,依次从顶点位置信息(lt0, rt0,rb0, lb0)中确定参考点坐标信息,例如,取顶点位置信息lt0为参考点坐标信息,顶点位置信息lt0对应目标矩形框的几何角点的左上角,从全部的第一表格顶点对应的待配对顶点坐标信息(lt, rt, rb, lb)中确定目标配对坐标信息,(lt, rt, rb, lb)分别对应顶点朝向标签(0,1,2,3),即分别对应左上、右上、右下、左下四个位置,该目标配对坐标信息与参考点坐标信息相同,当该目标配对坐标信息对应目标掩码几何角点的左上角,即顶点位置信息lt0与顶点朝向标签为0对应的顶点坐标信息lt的坐标相同,将顶点朝向标签0确定为目标顶点朝向标签,并将目标顶点朝向标签0分配给参考点坐标信息对应的第二表格顶点;当目标配对坐标信息对应目标掩码几何角点的右下角,即表格位置产生偏移,在顺时针的方向偏移量为2,此时顶点位置信息lt0与顶点朝向标签为2对应的顶点坐标信息rb的坐标相同,将顶点朝向标签2确定为目标顶点朝向标签,并将目标顶点朝向标签2分配给参考点坐标信息对应的第二表格顶点,根据上述原理配对完成后,各个第二表格顶点(lt0, rt0,rb0, lb0)对应的顶点朝向标签为(2,3,0,1),从而完成待识别图像的表格定位。
另外,参考图8,本申请实施例还公开了一种表格图像定位装置800,该表格图像定位装置800包括:
实例分割模块810,用于获取待识别表格图像,将待识别表格图像输入至预设的实例分割模型进行实例分割,得到与待识别表格图像对应的目标掩码和目标矩形框;
图像分类模块820,用于根据目标矩形框从待识别表格图像中裁剪出中间表格图像,将中间表格图像输入至预设的轻量级图像分类模型进行图像分类处理,得到各个第一表格顶点对应的顶点语义标签,其中,中间表格图像对应有多个第一表格顶点;
轮廓分析模块830,用于获取目标掩码在目标矩形框中的外部轮廓信息,利用多边形拟合轮廓函数拟合外部轮廓信息,得到目标掩码对应的多个第二表格顶点;
图像定位模块840,用于确定各个第二表格顶点对应的顶点位置信息和第一表格顶点,将各个目标顶点语义标签与各个顶点位置信息进行配对,其中,目标顶点语义标签为与第二表格顶点对应的第一表格顶点对应的顶点语义标签。
需要说明的是,表格图像定位装置800的具体实施方式与上述表格图像定位方法的具体实施例基本相同,在此不再赘述。
如图9 所示,图9是本申请一个实施例提供的电子设备的结构图。本发明还提供了一种电子设备,包括:
处理器910,可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器920,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器920可以存储操作***和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器920中,并由处理器910来调用执行本申请实施例的图像表格定位方法,例如,执行以上描述的执行以上描述的图1中的方法步骤S110至步骤S140、图2中的方法步骤S210至步骤S220、图3中的方法步骤S310至步骤S330、图4中的方法步骤S410至步骤S470、图5中的方法步骤S510至步骤S530,图6中的方法步骤S610至步骤S630和图7中的方法步骤S710至步骤S730;
输入/输出接口930,用于实现信息输入及输出;
通信接口940,用于实现本装置与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线950,在设备的各个组件(例如处理器910、存储器920、输入/输出接口930和通信接口940)之间传输信息;
其中处理器910、存储器920、输入/输出接口930和通信接口940通过总线950实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种存储介质,存储介质为计算机可读存储介质,该存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述的表格图像定位方法,例如,执行以上描述的执行以上描述的图1中的方法步骤S110至步骤S140、图2中的方法步骤S210至步骤S220、图3中的方法步骤S310至步骤S330、图4中的方法步骤S410至步骤S470、图5中的方法步骤S510至步骤S530,图6中的方法步骤S610至步骤S630和图7中的方法步骤S710至步骤S730。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,实现了以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims (10)

1.一种表格图像定位方法,其特征在于,包括:
获取待识别表格图像,将所述待识别表格图像输入至预设的实例分割模型进行实例分割,得到与所述待识别表格图像对应的目标掩码和目标矩形框;
根据所述目标矩形框从所述待识别表格图像中裁剪出中间表格图像,其中,所述中间表格图像对应有多个第一表格顶点;
从全部的所述第一表格顶点中确定目标参考点,并确定所述目标参考点对应的顶点语义标签,其中,所述顶点语义标签表征所述第一表格顶点在所述中间表格图像的方向;
确定各个候选参考点与所述目标参考点之间的相对位置信息,其中,所述候选参考点为所述第一表格顶点中除了所述目标参考点之外的表格顶点;
将各个所述相对位置信息和所述目标参考点对应的所述顶点语义标签输入至轻量级图像分类模型,得到各个所述候选参考点对应的顶点语义标签;
获取所述目标掩码在所述目标矩形框中的外部轮廓信息,利用多边形拟合轮廓函数拟合所述外部轮廓信息,得到所述目标掩码对应的多个第二表格顶点;
确定各个所述第二表格顶点对应的顶点位置信息和所述第一表格顶点,将各个目标顶点语义标签与各个所述顶点位置信息进行配对,其中,所述目标顶点语义标签为与所述第二表格顶点对应的第一表格顶点对应的顶点语义标签。
2.根据权利要求1所述的表格图像定位方法,其特征在于,在所述待识别表格图像为视频流的情况下,在所述将所述待识别表格图像输入至预设的实例分割模型进行实例分割之前,所述方法还包括:
对所述视频流进行解码处理,得到初始待识别表格图像;
对所述初始待识别表格图像进行图像归一化处理,得到归一化处理后的所述待识别表格图像。
3.根据权利要求1所述的表格图像定位方法,其特征在于,在将所述待识别表格图像输入至预设的实例分割模型进行实例分割之前,所述方法还包括:
确定所述待识别表格图像的目标区域边界;
确定所述目标区域边界对应的目标图像的像素宽度值和像素高度值;
分别在所述像素宽度值和所述像素高度值填充预设像素值,得到填充像素值后的所述待识别表格图像。
4.根据权利要求1所述的表格图像定位方法,其特征在于,所述实例分割模型为yolov5-seg模型,所述将所述待识别表格图像输入至预设的实例分割模型进行实例分割,得到与所述待识别表格图像对应的目标掩码和目标矩形框,包括:
将所述待识别表格图像输入至所述yolov5-seg模型,得到第一实例图像和第二实例图像,其中,所述第一实例图像携带有矩形框位置信息、矩形框置信度值、矩形框对应的目标类别信息和掩码协方差系数,所述第二实例图像携带有图像张量;
对所述矩形框位置信息、所述矩形框置信度值和所述目标类别信息进行非极大值抑制处理,得到所述待识别表格图像对应的所述目标矩形框;
将所述掩码协方差系数与所述图像张量进行矩阵相乘,得到初始掩码;
根据所述目标矩形框对所述初始掩码进行裁剪,得到第一中间掩码;
根据sigmod函数对所述第一中间掩码进行激活处理,得到第二中间掩码;
对所述第二中间掩码进行上采样处理,得到第三中间掩码;
将所述第三中间掩码进行二值化处理,得到所述目标掩码。
5.根据权利要求1所述的表格图像定位方法,其特征在于,所述轻量级图像分类模型为PP-LCNet模型。
6.根据权利要求1所述的表格图像定位方法,其特征在于,所述利用多边形拟合轮廓函数拟合所述外部轮廓信息,得到所述目标掩码对应的多个第二表格顶点,包括:
根据所述多边形拟合轮廓函数确定所述外部轮廓信息对应的多边形的边数;
当所述边数等于预设阈值,将所述多边形的各个顶点确定为各个所述第二表格顶点;
当所述边数不等于所述预设阈值,利用最小旋转矩形函数对所述外部轮廓信息进行拟合处理,得到各个所述第二表格顶点。
7.根据权利要求1所述的表格图像定位方法,其特征在于,所述目标顶点语义标签包括顶点朝向标签和待配对顶点坐标信息,所述将各个目标顶点语义标签与各个所述顶点位置信息进行配对,包括:
依次从所述顶点位置信息中确定参考点坐标信息;
依次从全部的所述待配对顶点坐标信息中确定目标配对坐标信息,所述目标配对坐标信息与所述参考点坐标信息相同;
依次将目标顶点朝向标签分配给所述参考点坐标信息对应的第二表格顶点,其中,所述目标顶点朝向标签为与所述目标配对坐标信息对应的顶点朝向标签。
8.一种表格图像定位装置,其特征在于,包括:
实例分割模块,用于获取待识别表格图像,将所述待识别表格图像输入至预设的实例分割模型进行实例分割,得到与所述待识别表格图像对应的目标掩码和目标矩形框;
图像分类模块,用于根据所述目标矩形框从所述待识别表格图像中裁剪出中间表格图像,其中,所述中间表格图像对应有多个第一表格顶点;从全部的所述第一表格顶点中确定目标参考点,并确定所述目标参考点对应的顶点语义标签,其中,所述顶点语义标签表征所述第一表格顶点在所述中间表格图像的方向;确定各个候选参考点与所述目标参考点之间的相对位置信息,其中,所述候选参考点为所述第一表格顶点中除了所述目标参考点之外的表格顶点;将各个所述相对位置信息和所述目标参考点对应的所述顶点语义标签输入至轻量级图像分类模型,得到各个所述候选参考点对应的顶点语义标签;
轮廓分析模块,用于获取所述目标掩码在所述目标矩形框中的外部轮廓信息,利用多边形拟合轮廓函数拟合所述外部轮廓信息,得到所述目标掩码对应的多个第二表格顶点;
图像定位模块,用于确定各个所述第二表格顶点对应的顶点位置信息和所述第一表格顶点,将各个目标顶点语义标签与各个所述顶点位置信息进行配对,其中,所述目标顶点语义标签为与所述第二表格顶点对应的第一表格顶点对应的顶点语义标签。
9.一种电子设备,其特征在于,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的表格图像定位方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7中任意一项所述的表格图像定位方法。
CN202311083805.2A 2023-08-28 2023-08-28 表格图像定位方法、装置、设备、计算机可读存储介质 Active CN116798056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311083805.2A CN116798056B (zh) 2023-08-28 2023-08-28 表格图像定位方法、装置、设备、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311083805.2A CN116798056B (zh) 2023-08-28 2023-08-28 表格图像定位方法、装置、设备、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN116798056A CN116798056A (zh) 2023-09-22
CN116798056B true CN116798056B (zh) 2023-11-17

Family

ID=88045104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311083805.2A Active CN116798056B (zh) 2023-08-28 2023-08-28 表格图像定位方法、装置、设备、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116798056B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599489A (zh) * 2019-08-26 2019-12-20 华中科技大学 一种目标空间定位方法
CN110705558A (zh) * 2019-09-29 2020-01-17 郑州阿帕斯科技有限公司 图像实例分割方法和装置
CN112818812A (zh) * 2018-12-13 2021-05-18 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN113052181A (zh) * 2021-04-21 2021-06-29 深圳壹账通智能科技有限公司 基于语义分割的表格重建方法、装置、设备及存储介质
CN114529925A (zh) * 2022-04-22 2022-05-24 华南理工大学 一种全线表表格结构识别方法
CN114818710A (zh) * 2022-04-25 2022-07-29 中国平安人寿保险股份有限公司 表格信息提取方法、装置、设备及介质
CN114821613A (zh) * 2022-03-31 2022-07-29 灵犀量子(北京)医疗科技有限公司 一种pdf中表格信息的抽取方法和***
CN115331245A (zh) * 2022-10-12 2022-11-11 中南民族大学 一种基于图像实例分割的表格结构识别方法
CN116452599A (zh) * 2023-04-13 2023-07-18 江南大学 基于轮廓的图像实例分割方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11151417B2 (en) * 2020-01-31 2021-10-19 Element Ai Inc. Method of and system for generating training images for instance segmentation machine learning algorithm

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818812A (zh) * 2018-12-13 2021-05-18 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN110599489A (zh) * 2019-08-26 2019-12-20 华中科技大学 一种目标空间定位方法
CN110705558A (zh) * 2019-09-29 2020-01-17 郑州阿帕斯科技有限公司 图像实例分割方法和装置
CN113052181A (zh) * 2021-04-21 2021-06-29 深圳壹账通智能科技有限公司 基于语义分割的表格重建方法、装置、设备及存储介质
CN114821613A (zh) * 2022-03-31 2022-07-29 灵犀量子(北京)医疗科技有限公司 一种pdf中表格信息的抽取方法和***
CN114529925A (zh) * 2022-04-22 2022-05-24 华南理工大学 一种全线表表格结构识别方法
CN114818710A (zh) * 2022-04-25 2022-07-29 中国平安人寿保险股份有限公司 表格信息提取方法、装置、设备及介质
CN115331245A (zh) * 2022-10-12 2022-11-11 中南民族大学 一种基于图像实例分割的表格结构识别方法
CN116452599A (zh) * 2023-04-13 2023-07-18 江南大学 基于轮廓的图像实例分割方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的表格检测识别算法综述;孔令军等;计算机与网络;第47卷(第2期);第65-73页 *

Also Published As

Publication number Publication date
CN116798056A (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN110163198B (zh) 一种表格识别重建方法、装置和存储介质
CN110008809B (zh) 表格数据的获取方法、装置和服务器
CN103400099B (zh) 终端和二维码识别方法
US9235759B2 (en) Detecting text using stroke width based text detection
US8989437B2 (en) Salient object detection by composition
CN111259889A (zh) 图像文本识别方法、装置、计算机设备及计算机存储介质
CN101908136A (zh) 一种表格识别处理方法及***
CN111291661B (zh) 一种屏幕中图标的文本内容的识别方法及设备
US10055668B2 (en) Method for the optical detection of symbols
CN114529773A (zh) 基于结构单元的表格识别方法、***、终端及介质
CN111275040A (zh) 定位方法及装置、电子设备、计算机可读存储介质
CN110909743A (zh) 图书盘点方法及图书盘点***
CN113112542A (zh) 一种视觉定位方法、装置、电子设备及存储介质
CN114359932B (zh) 文本检测方法、文本识别方法及装置
CN111652111A (zh) 一种目标检测方法及相关装置
CN116798056B (zh) 表格图像定位方法、装置、设备、计算机可读存储介质
CN117237681A (zh) 图像处理方法、装置及相关设备
CN115880362B (zh) 码区定位方法、装置、计算机设备及计算机可读存储介质
CN111079749A (zh) 一种带姿态校正的端到端商品价签文字识别方法和***
CN115223173A (zh) 对象识别方法、装置、电子设备及存储介质
CN105930813B (zh) 一种在任意自然场景下检测行文本的方法
CN115953744A (zh) 一种基于深度学习的车辆识别追踪方法
CN114511862A (zh) 表格识别方法、装置及电子设备
CN114494678A (zh) 文字识别方法和电子设备
CN111582148A (zh) 京剧人物识别方法、设备、存储介质及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant