CN116935421A - 图片表格识别方法及图片表格识别装置 - Google Patents
图片表格识别方法及图片表格识别装置 Download PDFInfo
- Publication number
- CN116935421A CN116935421A CN202210330579.2A CN202210330579A CN116935421A CN 116935421 A CN116935421 A CN 116935421A CN 202210330579 A CN202210330579 A CN 202210330579A CN 116935421 A CN116935421 A CN 116935421A
- Authority
- CN
- China
- Prior art keywords
- picture
- line
- transverse
- namely
- coordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000001514 detection method Methods 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000010586 diagram Methods 0.000 claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 230000009466 transformation Effects 0.000 claims description 41
- 239000011159 matrix material Substances 0.000 claims description 19
- 101150060512 SPATA6 gene Proteins 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 11
- 238000003708 edge detection Methods 0.000 claims description 9
- 230000001502 supplementing effect Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 239000000463 material Substances 0.000 abstract description 17
- 230000008569 process Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 238000013499 data model Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000004816 latex Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
本发明涉及图像处理技术领域,具体地涉及一种图片表格识别方法及图片表格识别装置。本发明提供的图片表格识别方法包括:表格检测步骤,通过预先构建的表格检测模型对图片进行表格检测,得到表格图;投影分析步骤,对表格图进行横向和/或纵向直方图投影,根据直方图的幅值分布,确定表格图的表格线长度和/或位置。上述图片表格识别方法能够对图片中的表格进行精准高效的识别,提高物料清单(BOM)处理效率。
Description
技术领域
本发明涉及图像处理技术领域,具体地涉及一种图片表格识别方法及图片表格识别装置。
背景技术
物料清单(Bill of Material,简称BOM)是描述工业产品组成的技术文件,表明了产品的总装件、分装件、组件、部件、零件、直到原材料之间的结构关系以及所需的数量。在工业品电商运营中,客户通常也会采用物料清单(BOM)进行报价采购。
在上述的采购过程中,物料清单(BOM)会以PDF格式文件或者扫描图片、照片的形式进行传递。当进行大批量的采购时,客户提供的采购清单往往是多页PDF或者多图形式,并且包含标题及文字注释信息。而营业人员对应时更关注表格信息,即采购报价商品的具体信息。这就需要将表格部分做识别截取。
目前基于传统图像线条检测截取表格主体的方式,对只有横向线表格或者三线表处理困难,对干扰线也难以区别。基于深度学习的表格检测方法精度更高,目前常用的方法有基于Faster R-CNN或者YOLO,前者作为two-stage的定位框架,速度较慢;后者的速度较前者高,但精度却有损失。而且,由于PDF格式文件或图片、照片在扫描或拍摄时拍摄器材、拍摄角度的不同,物料清单(BOM)在图片中呈现的角度和尺寸和会有较大差异,也会对表格截取的准确性带来较大的影响。
因此,亟待一种技术方案,能够对图片中的表格进行精准高效的识别,提高物料清单(BOM)处理效率。
发明内容
针对以上问题,本发明提供了一种图片表格识别方法及图片表格识别装置,图片表格识别方法能够通过直方图投影的方式精准判断表格及表格文字的位置,从而实现精准高效地获取识别表格内容。
本发明的技术方案中,提供了一种图片表格识别方法,包括:
表格检测步骤,通过预先构建的表格检测模型对图片进行表格检测,得到表格图;
投影分析步骤,对表格图进行横向和/或纵向直方图投影,根据直方图的幅值分布,确定表格图的表格线长度和/或位置。
根据本发明的技术方案,表格检测步骤中通过采用深度学***或垂直方向的直方图投影,以了解像素在表格图中的分布情况。根据像素分布情况,判断表格中表格线的长度和位置,从而准确地定位和检测到表格,以便进一步地获取表格及表格中的文字内容。实现对图片中的表格进行精准高效的识别,提高物料清单(BOM)处理效率。
优选地,本发明的技术方案中,图片表格识别方法中的表格图具有多条表格横线,投影分析步骤包括:
纵向投影步骤,对表格图进行纵向直方图投影,根据纵向直方图的幅值分布,确定表格横线的长度;和
横向投影步骤,对表格图进行横向直方图投影,根据横向直方图的幅值分布,确定表格横线和表格文字的坐标位置,从而形成目标表格图片。
根据本发明的技术方案,对表格图中的表格横线及其中的表格文字进行精准定位,在此基础上对图片中的表格进行准确检测和剪裁提取以输出目标表格图片,完成图片中的表格识别捕捉。
进一步地,本发明的技术方案中,横向投影步骤包括:
表格横线坐标步骤,根据横向直方图的脉冲幅值大于预设比例的幅值,坐标即为表格横线坐标Ll;
文字坐标步骤,根据横向直方图的脉冲幅值的中值,确定表格文字坐标Lw和脉冲宽度wf。
根据本发明的技术方案,通过横向直方图的脉冲幅值的分析计算即可对表格图中的表格横线及其中的表格文字进行精准定位,计算过程方便且结果准确。
优选地,本发明的技术方案中,图片表格识别方法还包括
表格线补充步骤,按照表格图由上到下的顺序,若第一个表格横线坐标Ll1大于第一个表格文字坐标Lw1,则在表格文字坐标Lw1-wf/2处补充一条表格横线;若最后一个表格横线坐标Lln小于最后一个表格文字坐标Lwn,则在表格文字坐标Lwn+wf/2处补充一条表格横线。
根据本发明的技术方案,对表格横线和文字进行检测比较,已补全表格缺失部分,保证表格检测识别的完整性,避免发生表格数据错漏。
在本发明的技术方案中,图片表格识别方法还包括图片处理步骤,图片处理步骤包括:
图片读取步骤,将多个原始图片转化为同一格式,并读取或排列顺序;
图片校正步骤,对原始图片进行旋转变换和透视变换;
图片去重步骤,统一原始图片的尺寸,通过图片感知哈希检测重复的原始图片。
根据本发明的技术方案,首先对图片进行格式统一,然后再对同一格式的图片进行校正,校正图片拍摄、上传过程中的角度光影等带来的偏差,使表格的横纵线条与水平/垂直方向保持平行,以便后续进一步地读取分析。接着,对校正后的图片进行尺寸统一,再通过图片感知哈希得到图片的特征向量,根据图片特征向量之间的关系进行去重。从而,大大减少了后续图片表格识别的工作量,提高了图片表格识别的识别效率和精准度。
优选地,在本发明的技术方案中,图片表格识别方法中的图片校正步骤包括:
边缘检测步骤,对原始图片进行灰度化和二值化,再对得到的二值化图片进行边缘检测;
直线检测步骤,用霍夫直线检测方法检测确定边缘后的二值化图片,得到表格线;
角度检测步骤,在坐标系中测量表格线的夹角,区分表格横线和表格纵线;
旋转变换步骤,以全部表格线与横/纵坐标的夹角的中值作为旋转角度,对原始图片进行旋转变换。
根据上述步骤,完成了对原始图片的旋转变换,消除了原始图片在横/纵坐标方向上的角度偏差,即水平面上的角度偏差。
进一步地,在本发明的技术方案中,图片表格识别方法中的图片校正步骤还包括:
开运算步骤,对原始图片进行灰度化和二值化,选取水平结构元素对进行旋转变换后的二值化图片进行开运算,得到一组横线区域的二值图;
外接矩阵步骤,在横线区域的二值图中查找每一条横线的连通域,获取连通域的最小外接矩阵,并记录最小外接矩阵的矩阵宽度w和中心坐标(xc,yc);
表格线筛选步骤,根据每一条横线的最小外接矩阵的矩阵宽度w和中心坐标(xc,yc)进行聚类,筛选表格横线;
透视变换步骤,根据全部表格横线中坐标的最大值和最小值,选取透视变换顶点,对旋转变换后的原始图片进行透视变换。
根据上述步骤,对旋转变换后的原始图片完成了透视变换,进一步校正了原始图片与水平面之间的角度偏差。
优选地,在本发明的技术方案中,图片表格识别方法中的图片去重步骤包括:
预处理步骤,对校正后的原始图片进行灰度化,并统一原始图片的尺寸,得到预处理图片;
特征向量步骤,根据预处理图片的频域特征和空间域特征得到特征向量,并降维得到短哈希序列;
阈值比较步骤,逐一计算每两个预处理图片之间的距离,与预设阈值相比较,若两个预处理图片之间的距离小于预设阈值,则判断上述两个预处理图片相似。
根据本发明的技术方案,先通过上述算法预判两幅图片是否可能相同,再由用户进行相应的人工判断,从而能够大大减少人工筛查图片所消耗的时间精力,降低图片去重的时间和人工成本。
在本发明的技术方案中,图片表格识别方法包括表格处理步骤,表格处理步骤包括
表格拼接步骤,将目标表格图片按照顺序排列拼接,形成完整表格图片;
文本提取步骤,对完整表格图片进行表格文字提取,得到表格文本;
表格重构步骤,根据表格文本的位置进行聚类,得到表格的行列分布并生成重构表格。
根据本发明的技术方案,将图片表格识别得到的目标表格图片,按照预设或上传的顺序进行依次拼接形成完整的表格图片,再检测并提取表格中的文本的内容和位置坐标;还可以根据文本位置坐标,对单元格的文本进行补充生成最终的重构表格,方便用户对表格数据的读取应用。
在本发明的技术方案中,还提供了一种图片表格识别装置,包括
表格检测单元,通过预先构建的表格检测模型对图片进行表格检测,得到表格图;
投影分析单元,对表格图进行横向和/或纵向直方图投影,根据直方图的幅值分布,确定表格图的表格线长度和/或位置。
通过上述图片表格识别装置能够对图片中的表格进行精准高效的识别,提高物料清单(BOM)处理效率。
附图说明
图1是本发明的第一实施方式中提供的一种图片表格识别方法的流程图;
图2是本发明的第一实施方式中提供的一种优选的图片表格识别方法的流程图;
图3是本发明的第二实施方式中提供的一种图片处理步骤的流程图;
图4是本发明的第二实施方式中提供的一种图片表格识别方法的流程图;
图5是本发明的第三实施方式中提供的一种图片表格识别装置的示意图。
具体实施方式
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明的保护范围。
【第一实施方式】
如图1所示,在本发明的第一实施方式中,提供了一种图片表格识别方法,包括:
表格检测步骤S1,通过预先构建的表格检测模型对图片进行表格检测,得到表格图;
投影分析步骤S2,对表格图进行横向和/或纵向直方图投影,根据直方图的幅值分布,确定表格图的表格线长度和/或位置。
首先,表格检测步骤S1中表格检测模型的构建,是通过大量的物料清单(BOM)图片分为训练集和测试集,采用YOLOv3算法训练以获得表格检测模型。YOLOv3算法如其名称“You Only Look Once”所述,只需要一次完整的检测过程即可完成目标的识别和位置定位,能够极快速地完成目标检测任务,即检测图片中的表格。
优选地,还可以追加TableBank等表格数据集作为训练集,进行深度机器学习,以进一步地优化表格检测模型。其中,TableBank是一个通过弱监督方法创建的,基于公开的、大规模的Word文档和LaTex文档的,用于表格检测与识别的数据集。TableBank的数据质量高,而且数据规模比一般的人工标记的表格分析数据集大几个数量级,使得深度机器学习得到的表格检测模型能够更加完善。
基于上述大量表格数据构建得到表格数据模型后,通过该表格数据模型对图片进行检测,从而得到表格图。根据检测使用的大量表格数据及由其构建的表格数据模型选取合适的输出阈值和非极大值抑制阈值,若同一页图片得到多个检测框,对检测框进行重叠计算,去除覆盖范围大的检测框,以获得更加精确的表格检测框。
然后,对表格图进行横向和/或纵向直方图投影,以表格图的像素点横坐标或纵坐标为基础,进行水平或垂直方向的直方图投影,以了解像素在表格图中的分布情况。根据像素分布情况,判断表格中表格线的长度和位置,从而准确地定位和检测到表格,以便进一步地获取表格及表格中的文字内容。
根据上述图片表格识别方法首先通过深度学习获得的表格监测模型对图片中的表格进行高效地检测,再通过直方图投影准确定位表格中表格线的长度和位置,实现对图片中的表格进行精准高效的识别,提高物料清单(BOM)处理效率。
优选地,在本发明的第一实施方式中,如图2所示,图片表格识别方法中的表格图具有多条表格横线,投影分析步骤S2包括:
纵向投影步骤S21,对表格图进行纵向直方图投影,根据纵向直方图的幅值分布,确定表格横线的长度;和
横向投影步骤S22,对表格图进行横向直方图投影,根据横向直方图的幅值分布,确定表格横线和表格文字的坐标位置,从而形成目标表格图片。
首先,对表格图进行纵向直方图投影,表格图的两侧通常为空白部分,没有表格或文字内容,其对应的直方图幅值接近于0;而中间部分表格文字所在的区域,则会对应一个较高的幅值。举例而言,表格图整体的纵向直方图投影,从左向右或从右向左的幅值变化应该是左侧开始阶段为0,从0突变为一个较高值,然后始终保持在大于0的较高范围中,再到右侧结束阶段突变为0。通过直方图幅值从0到某一值或某一值到0的转折,确定表格横线的长度。
然后,再对表格图进行横向直方图投影,表格横线所在的位置对应的幅值较高,例如表格图为100*100的尺寸。表格横线中的像素点可达到80或90以上,从而以较高的幅值定位表格横线的位置。进一步地表格文字部分对应的像素点较少,一般在30-50左右,且表格位置应在表格横线之间。
通过以上步骤,对表格图中的表格横线及其中的表格文字进行精准定位,在此基础上对图片中的表格进行准确检测和剪裁提取以输出目标表格图片,完成图片中的表格识别捕捉。
值得一提的是,在本发明的实施方式中,可以调换纵向投影步骤S21和横向投影步骤S22的顺序,以获取表格纵线的长度和位置,其具体过程与上述步骤相似,在此不作赘述。
进一步地,在本发明的第一实施方式中,横向投影步骤S22包括:
表格横线坐标步骤S221,根据横向直方图的脉冲幅值的大于预设比例的幅值,坐标即为表格横线坐标Ll;
文字坐标步骤S222,根据横向直方图的脉冲幅值的中值,确定表格文字坐标Lw和脉冲宽度wf。
例如,以横向直方图的脉冲幅值中的众数为基准幅值fM,横向直方图中幅值大于预设比例的幅值fl的坐标即为表格横线坐标Ll,如10、20、30、80等。其中预设比例可根据表格检测模型和具体表格数据等参数进行设定,优选为80%-90%。再将表格横线坐标Ll该位置的幅值设置为直方图基准幅值fM后,横向直方图中仅有表格文字投影直方图。
进一步地,将横向直方图中所有脉冲幅值的中值作为表格文字的直方图幅值fm,在直方图从左开始的第一个基准幅值fM附近,查找脉冲幅值接近fm的文字直方图位置Lw,记录第一个和最后一个。同时,记录基准幅值fM到直方图幅值fm再到基准幅值fM的脉冲宽度wf,即为表格中文字部分所占的宽度。
优选地,在本发明的第一实施方式中,图片表格识别方法还包括
表格线补充步骤S3,按照表格图由上到下的顺序,若第一个表格横线坐标Ll1大于第一个表格文字坐标Lw1,则在表格文字坐标Lw1-wf/2处补充一条表格横线;若最后一个表格横线坐标Lln小于最后一个表格文字坐标Lwn,则在表格文字坐标Lwn+wf/2处补充一条表格横线。
具体地,按照表格图由上到下的顺序,若第一个表格横线坐标Ll1大于第一个表格文字坐标Lw1,说明表格文字在表格的第一条表格横线上方,表格顶部检测不完整,在表格文字坐标Lw1-wf/2处补充一条表格横线,完整表格顶部。并且将表格文字坐标Lw1-wf/2减去一个较小值作为表格图的检测框较小的纵坐标,使得检测框的上边沿略高于所补充的表格横线,以保证检测范围覆盖整个表格图。
同样地,按照表格图由上到下的顺序,若最后一个表格横线坐标Lln小于最后一个表格文字坐标Lwn,说明表格文字在表格的最后一条表格横线下方,表格底部检测不完整,在表格文字坐标Lw1+wf/2处补充一条表格横线,完整表格顶部。并且将表格文字坐标Lw1+wf/2加上一个较小值作为表格图的检测框较大的纵坐标,使得检测框的下边沿略低于所补充的表格横线,以保证检测范围覆盖整个表格图。
【第二实施方式】
如图3所示,在本发明的第二实施方式中,图片表格识别方法还包括图片处理步骤S0,图片处理步骤S0包括:
图片读取步骤S01,将多个原始图片转化为同一格式,并读取或排列顺序;
图片校正步骤S02,对原始图片进行旋转变换和透视变换;
图片去重步骤S03,统一原始图片的尺寸,通过图片感知哈希检测重复的原始图片。
在实际的工业品交易过程中,以PDF文件、扫描图片或照片等形式传递的物料清单(BOM),常常会因为重复拍摄或在接收过程同一文档被多次保存,造成文件传递的冗余,导致后续的图片表格识别过程中产生大量重复的工作,影响整体图片表格识别的效率。因此,可在图片表格识别工作进行前,对物料清单的图片进行预处理。
首先,物料清单的上传格式若为PDF格式,则对PDF文件中每一页转成图片,并按照页码顺序保存成png或其他统一的图片格式。若物料清单的上传格式为图片,则按照预设或者上传的顺序保留图片原格式;若其中包含不同格式的图片,则先对图片进行格式统一。其中,图片的格式可以是png、jpg、jpeg、bmp、tiff、tif等任意一种格式,在此不作限制,只要保证物料清单中的全部图片格式统一即可。
然后,对同一格式的图片进行校正,校正图片拍摄、上传过程中的角度光影等带来的偏差,使表格的横纵线条与水平/垂直方向保持平行,以便后续进一步地读取分析。
接着,对校正后的图片进行尺寸统一,再通过图片感知哈希得到图片的特征向量,根据图片特征向量之间的关系进行去重。
通过上述图片处理步骤S0,对图片进行排序、校正、去重,从而提高后续图片表格识别的效率和精准度。
优选地,在本发明的第二实施方式中,图片表格识别方法中的图片校正步骤S02包括:
边缘检测步骤,对原始图片进行灰度化和二值化,再对得到的二值化图片进行边缘检测;
直线检测步骤,用霍夫直线检测方法检测确定边缘后的二值化图片,得到表格线;
角度检测步骤,在坐标系中测量表格线的夹角,区分表格横线和表格纵线;
旋转变换步骤,以全部表格线与横/纵坐标的夹角的中值作为旋转角度,对原始图片进行旋转变换。
具体地,拍摄、扫描或转化获得的原始图片一般为彩色图片,先将原始图片灰度化处理;进一步对灰度化图片进行二值化,为了避免手动设置阈值导致损失文档信息,选择进行自适应阈值二值化,优选地采用了大津二值化算法(Otsu’s二值化)。Otsu’s二值化方法也被称作最大类间方差法,一种能够自动计算并确定二值化阈值的方法,并且还能在二值化的过程中对图像中的低灰度值噪点进行过滤,达到一定程度的降噪效果。
对原始图片完成灰度化和二值化后,对得到的二值化图片进行边缘检测。优选地,采用Canny边缘检测方法,首先对二值化图片降噪和边缘检测得到图片中的表格轮廓边缘。
然后,用霍夫直线检测方法检测确定边缘轮廓后的二值化图片,霍夫直线检测方法有着对局部缺损的不敏感,对随机噪声的鲁棒性以及适于并行处理等优良特性。具体地,根据具体的表格样式,设定线段最短值及最大允许检测,尽可能地排除一定烦扰线条,检测得到图片中表格的表格线,包括表格横线和表格纵线。
进一步地,在直角坐标系中对检测得到的表格线进行角度计算,计算各个表格线与横/纵坐标轴的夹角。与横坐标轴正方向的夹角在[-45°,45°]之间的表格线记为表格横线,并将其与横坐标轴正方向的夹角记入角度列表;与纵坐标轴正方向的夹角在[-45°,45°]之间的表格线记为表格纵线,并将其与纵坐标轴正方向的夹角记入角度列表。
最后,计算角度列表中所有夹角的中值,得到旋转角度,对原始图片进行旋转变换。根据上述步骤,完成了原始图片的旋转变换,消除了原始图片在横/纵坐标方向上的角度偏差,即水平面上的角度偏差。
进一步地,在本发明的第二实施方式中,图片表格识别方法中的图片校正步骤S02还包括:
开运算步骤,对原始图片进行灰度化和二值化,选取水平结构元素对进行旋转变换后的二值化图片进行开运算,得到一组横线区域的二值图;
外接矩阵步骤,在横线区域的二值图中查找每一条横线的连通域,获取连通域的最小外接矩阵,并记录最小外接矩阵的矩阵宽度w和中心坐标(xc,yc);
表格线筛选步骤,根据每一条横线的最小外接矩阵的矩阵宽度w和中心坐标(xc,yc)进行聚类,筛选表格横线;
透视变换步骤,根据全部表格横线中坐标的最大值和最小值,选取透视变换顶点,对旋转变换后的原始图片进行透视变换。
在上述的旋转变换步骤中消除了原始图片在水平面上的角度偏差后,继续对原始图片进行校正。
首先,仍需要对旋转变换后的原始图片重新进行能够灰度化、二值化处理,得到旋转变换后的二值化图片。然后对旋转变换后的二值化图片进行开运算,即先进行腐蚀运算,再进行膨胀运算,从而去除图片中孤立的小点,毛刺和小桥,同时保持图片的整体形状轮廓。具体到本实施方式中,图片的宽度为W,定义水平结构元素矩阵的宽为W/20,高为1,得到一组横线区域的二值图。二值图中的横线区域记为(l1、l2、···、ln),其中n为横线数目。
然后,对横线区域二值图中的每一条横线查找横线连通域,并获取连通域的最小外接矩阵。记录每个最小外接矩阵的最左坐标位置(x1,y1)和最右坐标位置(x2,y2)以及最小外接矩阵的矩阵宽度w,并计算得到最小外接矩阵的中心坐标位置(xc,yc),其中,xc=x2-x1,yc=y2-y1。
针对横线区域二值图中的每一条横线的最小外接矩阵的矩阵宽度w和中心坐标位置(xc,yc)进行聚类计算:{[(x1c,y1c),w1c],[(x2c,y2c),w2c],···,[(xnc,ync),wnc]},其中n为横线数目。
取所有横线长度的中位数作为表格横线的长度,并取长度为中位数的表格横线所在的簇中的所有横线视为检测到的表格横线,从而去掉长度相差较大的横线,降低校正误差。
对检测到的全部表格横线,取最小坐标值(xi1,yi1)和最大坐标值(xj1,yj1),以及分别对应的(xi2,yi2)和(xj2,yj2),作为透视变换的四个顶点。变换后四个顶点的顺时针位置为[(xi1,yi1),(xj1,yi1),(xj1,yj1),(xi1,yj1)],即对旋转变换后的原始图片完成了透视变换,进一步校正了原始图片与水平面之间的角度偏差。
值得一提的是,在本发明的实施方式中,上述方法可以对纵线表格图片,以获取纵线区域的二值图并由此进行计算校正,其具体过程与上述步骤相似,在此不作赘述。
优选地,在本发明的第二实施方式中,图片表格识别方法中的图片去重步骤S03包括:
预处理步骤,对校正后的原始图片进行灰度化,并统一原始图片的尺寸,得到预处理图片;
特征向量步骤,根据预处理图片的频域特征和空间域特征得到特征向量,并降维得到短哈希序列;
阈值比较步骤,逐一计算每两个预处理图片之间的距离,与预设阈值相比较,若两个预处理图片之间的距离小于预设阈值,则判断上述两个预处理图片相似。
首先,得到灰度化后的统一尺寸的预处理图片,其中图片的尺寸可以是256*256。对预处理图片采用离散小波变换得到二级小波变换低频域作为频域特征,其中小波域低频避免了图像噪声干扰,接着对频域特征做均值归一化处理。然后,计算预处理图片x轴和y轴方向的梯度作为空间域特征,同样对空间域特征做均值归一化处理。
然后,对计算得到图片的频域特征输出和空间域特征输出进行合并得到图片的特征向量,并通过PCA降维方法提取数据的主要特征分量,获得短哈希序列。
根据训练集以及具体检测的表格图像设定合适的阈值,使阈值大小保证尽可能多的相似图片哈希距离小于预设的阈值,不同图片哈希距离大于阈值。对输入的预处理图片计算得到一组哈希序列,并对序列之间两两计算欧式距离。
根据阈值与距离做出比较,若距离大于阈值,则说明两幅图片不相似;若距离接近或小于阈值,则说明两幅图片相似,可对用户进行提醒该两幅图片内容可能相同。用户可进一步确认两幅图片的内容是否相同,若相同则去掉一张重复的图片,否则保留两幅图片。
通过上述方法,先由算法预判两幅图片是否可能相同,再由用户进行人工判断,从而能够大大减少人工筛查图片所消耗的时间精力,降低图片去重的时间和人工成本。
如图4所示,在本发明的第二实施方式中,图片表格识别方法包括表格处理步骤S4,表格处理步骤S4包括
表格拼接步骤,将目标表格图片按照顺序排列拼接,形成完整表格图片;
文本提取步骤,对完整表格图片进行表格文字提取,得到表格文本;
表格重构步骤,根据表格文本的位置进行聚类,得到表格的行列分布并生成重构表格。
将经过步骤S1和步骤S2完成图片表格识别得到的目标表格图片,按照预设或上传的顺序进行依次拼接形成完整的表格图片。
具体地,按照图片顺序,计算前一张图片的表格中最后一条表格横线与后一张图片的表格中第一条表格横线的长度是否相等,如果长度相等则可直接进行拼接,若长度不同,则对其中一张图片进行相应的缩放,调整到两条表格横线的长度相等再进行拼接。
同样地,也可以利用计算前一张图片的表格中最后一条表格横线与后一张图片的表格中第一条表格横线的坐标进行前后对应拼接。
然后,利用光学字符识别(OCR)技术提取表格文本,采用可微分二值化处理模型(DB模型)做文字检测。实现对检测到的各个文本框做文字识别,得到表格中的文本的内容和位置坐标。
最后还可以根据文本位置坐标,做聚类得到行列分布情况,生成单元格行列起止位置情况,对单元格的文本进行补充生成最终的重构表格。其中重构表格的具体保存和输出形式可由用户自行规定,方便用户对表格数据的使用。
【第三实施方式】
如图5所示,在本发明的第三实施方式中提供了一种图片表格识别装置,包括
表格检测单元1,通过预先构建的表格检测模型对图片进行表格检测,得到表格图;
投影分析单元2,对表格图进行横向和/或纵向直方图投影,根据直方图的幅值分布,确定表格图的表格线长度和/或位置。
上述图片表格识别装置能够对图片中的表格进行精准高效的识别,提高物料清单(BOM)处理效率。图片表格识别装置中还包含用于进行图片预处理的图片读取单元01、图片校正单元02、图片去重单元03和用于表格拼接、文本读取和表格文档重构的表格处理单元4。
在本发明的实施方式中,还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的图片表格识别方法。上述存储介质可被实现为计算机、移动终端等任何硬件平台中的一个或多个操作***、应用、程序模块、数据和任何其他信息。
至此,已经结合附图描述了本发明的技术方案。但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于上述具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围。
Claims (10)
1.一种图片表格识别方法,其特征在于,包括:
表格检测步骤,通过预先构建的表格检测模型对图片进行表格检测,得到表格图;
投影分析步骤,对所述表格图进行横向和/或纵向直方图投影,根据直方图的幅值分布,确定所述表格图的表格线长度和/或位置。
2.如权利要求1所述的图片表格识别方法,其特征在于,所述表格图具有多条表格横线,所述投影分析步骤包括:
纵向投影步骤,对所述表格图进行纵向直方图投影,根据纵向直方图的幅值分布,确定表格横线的长度;和
横向投影步骤,对所述表格图进行横向直方图投影,根据横向直方图的幅值分布,确定所述表格横线和表格文字的坐标位置,从而形成目标表格图片。
3.如权利要求2所述的图片表格识别方法,其特征在于,所述横向投影步骤包括:
表格横线坐标步骤,根据所述横向直方图的脉冲幅值集合,利用大于预设比例的幅值,确定表格横线坐标Ll;
文字坐标步骤,根据所述横向直方图的脉冲幅值的中值,确定表格文字坐标Lw和脉冲宽度wf。
4.如权利要求3所述的图片表格识别方法,其特征在于,还包括
表格线补充步骤,按照所述表格图由上到下的顺序,若第一个所述表格横线坐标Ll1大于第一个所述表格文字坐标Lw1,则在所述表格横线坐标Lw1-wf/2处补充一条表格横线;若最后一个所述表格横线坐标Lln小于最后一个所述表格文字坐标Lwn,则在所述表格横线坐标Lwn+wf/2处补充一条表格横线。
5.如权利要求1-4任一项所述的图片表格识别方法,其特征在于,还包括图片处理步骤,所述图片处理步骤包括:
图片读取步骤,将多个原始图片转化为同一格式,并读取或排列顺序;
图片校正步骤,对所述原始图片进行旋转变换和透视变换;
图片去重步骤,统一所述原始图片的尺寸,通过图片感知哈希检测重复的所述原始图片。
6.如权利要求5所述的图片表格识别方法,其特征在于,所述图片校正步骤包括:
边缘检测步骤,对所述原始图片进行灰度化和二值化,再对得到的二值化图片进行边缘检测;
直线检测步骤,用霍夫直线检测方法检测确定边缘后的所述二值化图片,得到表格线;
角度检测步骤,在坐标系中测量所述表格线的夹角,区分表格横线和表格纵线;
旋转变换步骤,以全部所述表格线与横/纵坐标的夹角的中值作为旋转角度,对所述原始图片进行旋转变换。
7.如权利要求5所述的图片表格识别方法,其特征在于,所述图片校正步骤包括:
开运算步骤,对所述原始图片进行灰度化和二值化,选取水平结构元素对进行旋转变换后的所述二值化图片进行开运算,得到一组横线区域的二值图;
外接矩阵步骤,在所述横线区域的二值图中查找每一条横线的连通域,获取所述连通域的最小外接矩阵,并记录所述最小外接矩阵的矩阵宽度w和中心坐标(xc,yc);
表格线筛选步骤,根据所述每一条横线的所述最小外接矩阵的矩阵宽度w和中心坐标(xc,yc)进行聚类,筛选表格横线;
透视变换步骤,根据全部所述表格横线中坐标的最大值和最小值,选取透视变换顶点,对旋转变换后的所述原始图片进行透视变换。
8.如权利要求5所述的图片表格识别方法,其特征在于,所述图片去重步骤包括:
预处理步骤,对校正后的所述原始图片进行灰度化,并统一所述原始图片的尺寸,得到预处理图片;
特征向量步骤,根据所述预处理图片的频域特征和空间域特征得到特征向量,并降维得到短哈希序列;
阈值比较步骤,逐一计算每两个所述预处理图片之间的距离,与预设阈值相比较,若两个所述预处理图片之间的距离小于所述预设阈值,则判断上述两个所述预处理图片相似。
9.如权利要求2所述的图片表格识别方法,其特征在于,还包括表格处理步骤,所述表格处理步骤包括
表格拼接步骤,将所述目标表格图片按照顺序排列拼接,形成完整表格图片;
文本提取步骤,对所述完整表格图片进行表格文字提取,得到表格文本;
表格重构步骤,根据所述表格文本的位置进行聚类,得到表格的行列分布并生成重构表格。
10.一种图片表格识别装置,其特征在于,包括
表格检测单元,通过预先构建的表格检测模型对图片进行表格检测,得到表格图;
投影分析单元,对所述表格图进行横向和/或纵向直方图投影,根据直方图的幅值分布,确定所述表格图的表格线长度和/或位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210330579.2A CN116935421A (zh) | 2022-03-30 | 2022-03-30 | 图片表格识别方法及图片表格识别装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210330579.2A CN116935421A (zh) | 2022-03-30 | 2022-03-30 | 图片表格识别方法及图片表格识别装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116935421A true CN116935421A (zh) | 2023-10-24 |
Family
ID=88377653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210330579.2A Pending CN116935421A (zh) | 2022-03-30 | 2022-03-30 | 图片表格识别方法及图片表格识别装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116935421A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292213A (zh) * | 2023-11-27 | 2023-12-26 | 江西啄木蜂科技有限公司 | 多类型相机下样本不均衡的松林变色异木识别方法 |
-
2022
- 2022-03-30 CN CN202210330579.2A patent/CN116935421A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292213A (zh) * | 2023-11-27 | 2023-12-26 | 江西啄木蜂科技有限公司 | 多类型相机下样本不均衡的松林变色异木识别方法 |
CN117292213B (zh) * | 2023-11-27 | 2024-01-30 | 江西啄木蜂科技有限公司 | 多类型相机下样本不均衡的松林变色异木识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6879431B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
CN109948135B (zh) | 一种基于表格特征归一化图像的方法及设备 | |
CN108573184B (zh) | 一种二维码定位方法、模块及计算机可读存储介质 | |
CN112926469B (zh) | 基于深度学习ocr与版面结构的证件识别方法 | |
WO2020151340A1 (zh) | 一种目标细胞标记方法、装置、存储介质及终端设备 | |
JP2012043433A (ja) | 画像処理方法及び装置 | |
CN113158895B (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN112085022A (zh) | 一种用于识别文字的方法、***及设备 | |
CN104298947A (zh) | 一种对二维条码精确定位的方法及装置 | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
CN113177899A (zh) | 医药影印件文本倾斜矫正方法、电子设备和可读储存介质 | |
CN115482186A (zh) | 瑕疵检测方法、电子设备及存储介质 | |
CN116935421A (zh) | 图片表格识别方法及图片表格识别装置 | |
CN113657377B (zh) | 一种机打票据图像结构化识别方法 | |
CN112802022B (zh) | 智能检测缺陷玻璃图像的方法、电子设备以及存储介质 | |
US20210240978A1 (en) | Systems and methods for processing images | |
CN112818983A (zh) | 一种利用图片相识度判断字符倒置的方法 | |
US11699294B2 (en) | Optical character recognition of documents having non-coplanar regions | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
CN115564779A (zh) | 一种零件缺陷检测方法、装置及存储介质 | |
CN112419244B (zh) | 混凝土裂缝分割方法及装置 | |
CN114677373A (zh) | 一种印刷品内容检错方法、装置、电子设备及介质 | |
CN112565549A (zh) | 一种书册图像扫描方法 | |
CN112837329A (zh) | 一种藏文古籍文档图像二值化方法及*** | |
CN112287763A (zh) | 图像处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |