CN113516673A - 图像检测方法、装置、设备和存储介质 - Google Patents
图像检测方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN113516673A CN113516673A CN202010280777.3A CN202010280777A CN113516673A CN 113516673 A CN113516673 A CN 113516673A CN 202010280777 A CN202010280777 A CN 202010280777A CN 113516673 A CN113516673 A CN 113516673A
- Authority
- CN
- China
- Prior art keywords
- image
- center point
- positioning information
- boundary positioning
- coordinates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种图像检测方法、装置、设备和存储介质,该方法包括:获取待检测的图像,图像中包含至少一个对象;获取与至少一个对象对应的至少一组边界定位信息。根据至少一组边界定位信息,在图像中确定与至少一个对象对应的至少一个图像区域,从而实现图像中包含的各个对象的边界的准确检测。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像检测方法、装置、设备和存储介质。
背景技术
随着办公自动化和光学字符识别(Optical Character Recognition,简称OCR)技术的普及,越来越多的场景开始应用OCR技术进行卡证、票据的自动检测识别,帮助相关工作人员提取其中包含的关键信息,如票据单号等。
目前,识别的场景逐渐变为多张不同的卡证、票据按照任意角度密集混贴在同一张图中的复杂场景。在这种场景下,如何准确地识别出一张图像中包含的这多种卡证、票据的边界,是亟待解决的问题。
发明内容
本发明实施例提供一种图像检测方法、装置、设备和存储介质,能够准确地检测出图像中包含的各对象的边界。
第一方面,本发明实施例提供一种图像检测方法,该方法包括:
获取待检测的图像,所述图像中包含至少一个对象;
获取与所述至少一个对象对应的至少一组边界定位信息;
根据所述至少一组边界定位信息,确定与所述至少一个对象对应的至少一个图像区域。
第二方面,本发明实施例提供一种图像检测装置,该装置包括:
获取模块,用于获取待检测的图像,所述图像中包含至少一个对象;
检测模块,用于获取与所述至少一个对象对应的至少一组边界定位信息;
确定模块,用于根据所述至少一组边界定位信息,确定与所述至少一个对象对应的至少一个图像区域。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,存储器上存储有可执行代码,当所述可执行代码被处理器执行时,使处理器至少可以实现如第一方面所述的图像检测方法。
第四方面,本发明实施例提供了一种非暂时性机器可读存储介质,非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使处理器至少可以实现如第一方面所述的图像检测方法。
第五方面,本发明实施例提供了一种图像检测方法,包括:
获取待检测的图像,所述图像中包含至少一个对象,所述至少一个对象包括卡证和/或票据;
将所述图像输入到检测模型中,以通过所述检测模型获取至少一组边界定位信息,其中,边界定位信息中包括对象中心点坐标及对象顶点相距所述对象中心点坐标的距离;
根据所述至少一组边界定位信息,确定与所述至少一个对象对应的至少一个图像区域。
在本发明实施例中,为实现对图像中包含的至少一个对象进行边界的准确检测,首先,先检测出与该至少一个对象对应的至少一组边界定位信息,每组边界定位信息中包括对象中心点坐标及对象顶点相距对象中心点坐标的距离。从而,根据每组边界定位信息中包含的对象中心点坐标和对象顶点相距对象中心点坐标的距离,可以得到每组边界定位信息对应的对象顶点坐标,根据至少一组边界定位信息各自对应的对象顶点坐标,可以确定至少一组边界定位信息各自对应的图像区域作为至少一个对象在图像中各自对应的图像区域。在该方案中,直接基于对象中心点坐标回归出对象的顶点坐标,从而,由每个对象各自对应的顶点坐标界定每个对象所对应的图像区域,不同对象所对应的图像区域之间不会出现严重的重叠现象,使得对象的边界定位结果更加准确,保证了后续基于对象边界定位结果的其他处理的可靠执行。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图像检测方法的流程图;
图2为本发明实施例提供的一种待检测图像的组成示意图;
图3为与图2中所示图像对应的图像区域检测结果示意图;
图4为本发明实施例提供的对两重叠图像区域进行去重处理的示意图;
图5为本发明实施例提供的一种图像检测方法的一种应用场景的示意图;
图6为本发明实施例提供的一种检测模型的结构示意图;
图7为本发明实施例提供的一种图像检测装置的结构示意图;
图8为与图7所示实施例提供的图像检测装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
本发明实施例提供的图像检测方法可以由一电子设备来执行,该电子设备可以是诸如PC机、笔记本电脑、智能手机等终端设备,也可以是服务器。该服务器可以是包含一独立主机的物理服务器,或者也可以为虚拟服务器,或者也可以为云端服务器或服务器集群。
本发明实施例提供的图像检测方法用于对一张图像中包含的至少一个对象的边界进行准确检测。
下面结合以下实施例对本文提供的图像检测方法的执行过程进行示例性说明。
图1为本发明实施例提供的一种图像检测方法的流程图,如图1所示,该方法包括如下步骤:
101、获取待检测的图像,图像中包含至少一个对象。
102、获取与该至少一个对象对应的至少一组边界定位信息。
103、根据至少一组边界定位信息,确定与至少一个对象对应的至少一个图像区域。
在不同的应用场景中,当同一张图像中包含多个对象时,同一张图像中包含的至少一个对象的类型往往不同。
本发明实施例提供的图像检测方法比如可以适用于***报销等应用场景中,在这些应用场景中,用户(是指需要进行报销的报销者)可以将所需用到的卡证、票据摆放在一起进行拍照得到一张图像,将该图像提供给相关工作人员(如财务),工作人员将该图像作为输入给图像检测方法的待检测图像。而用户在摆放卡证、票据的时候,对摆放角度并无严格要求,只要不同的卡证、票据不重叠覆盖即可。这样用户拍摄的便利性得到提高,无需让摄像头和拍摄目标保持平行,提升用户体验。为更加直观地理解同一图像中多个对象的这种视觉特征,结合图2示例性说明。图2中示意的是一张图像中包括多种卡证和票据,比如图2中示意的身份证、火车票、门票、增值税***。
针对图2中所示意的图像,本发明实施例提供的图像检测方法的目的在于:识别出该图像中包含的各种卡证、票据的边界,即确定出各种卡证、票据在这张图像中各自对应的准确的图像区域。
需要说明的是:本文中所说的对象的边界与对象对应的图像区域,可以认为是同一含义,因为,一个对象所占的图像区域即为该对象的边界所界定的区域。另外,虽然图2中示意的多个对象(即多种卡证、票据)的形状为矩形,但是实际上,图像检测方法并不局限于要求图像中的对象需要具有矩形形状的特征。
为实现准确检测出同一图像中至少一个对象各自对应的边界的目的,可选地,可以预先训练一个检测模型,以便结合该检测模型的输出信息,对图像中包含的至少一个对象进行边界的准确检测。本实施例中先不对检测模型的训练过程进行说明,训练过程将在后续其他实施例中说明,这里先对该检测模型的作用进行说明。
将待检测的图像输入到检测模型后,该检测模型可以输出至少一组边界定位信息,从而,可以根据该至少一组边界定位信息,确定与图像中包含的各对象对应的图像区域。可选地,每组边界定位信息中包括对象中心点坐标及对象顶点相距对象中心点坐标的距离。
实际上,获取与图像中包含的至少一个对象相对应的至少一组边界定位信息的实现方式,不局限于通过上述检测模型获取的方式,比如还可以通过边框回归的方式检测出每个对象对应的边界框作为上述至少一组边界定位信息。
假设图像中包括N个对象,检测模型可能输出M组边界定位信息,M≥N。
之所以存在M≥N这种情况是因为,受到检测模型的检测准确性的影响,针对图像中的同一对象,检测模型可能会输出不止一个对象中心点坐标。当存在M>N的情况时,需要进行去重处理,去重处理的过程将在下文中说明,暂时不论。
下面来具体阐述如何根据至少一组边界定位信息,在待检测的图像中确定至少一个对象各自对应的图像区域。
当每组边界定位信息中包括一个对象中心点坐标及对象顶点相距该对象中心点坐标的距离时,可以确定与每组边界定位信息对应的对象顶点坐标,进而根据至少一组边界定位信息各自对应的对象顶点坐标,确定至少一组边界定位信息各自对应的图像区域作为与上述至少一个对象对应的至少一个图像区域,至少一个对象与该至少一个图像区域一一对应。
具体地,以任一组边界定位信息为例,可以根据这组边界定位信息中包括的对象中心点坐标及对象顶点相距该对象中心点坐标的距离,计算出对象顶点坐标,进而由计算出的对象顶点坐标界定出一个区域,该区域即为这组边界定位信息对应的一个对象在待检测图像中占据的图像区域。
结合图3来示例性说明上述至少一个图像区域的确定过程。在图3中,假设待检测的图像仍为图2中示意的图像。将该图像输入到检测模型后,检测模型输出四组边界定位信息。其中,这四组边界定位信息中包含的四个对象中心点坐标分别表示为图3中的C1、C2、C3、C4。另外,以其中的任一对象中心点坐标为例,对应的一组边界定位信息中还包括:四个对象顶点相距该对象中心点坐标的距离,据此,可以得到与该对象中心点坐标对应的四个对象顶点坐标。如图3中所示,假设与C1这个对象中心点坐标对应的四个对象顶点坐标分别表示为:A11、A12、A13、A14;假设与C2这个对象中心点坐标对应的四个对象顶点坐标分别表示为:A21、A22、A23、A24;假设与C3这个对象中心点坐标对应的四个对象顶点坐标分别表示为:A31、A32、A33、A34;假设与C4这个对象中心点坐标对应的四个对象顶点坐标分别表示为:A41、A42、A43、A44。从而,由A21、A22、A23、A24所围成的区域a,由A21、A22、A23、A24所围成的区域b,由A31、A32、A33、A34所围成的区域c,由A41、A42、A43、A44所围成的区域d,即为与图像中示意的身份证、火车票、门票、增值税***分别对应的图像区域。
在一可选实施例中,每组边界定位信息中除了上述两种信息外,还可以包括:与对象中心点坐标对应的偏移量。基于此,可以先根据某对象中心点坐标对应的偏移量对该对象中心点坐标进行修正,之后再根据修正后的对象中心点坐标以及对象顶点相距该对象中心点坐标的距离,确定出对应的对象顶点坐标。
其中,修正后的对象中心点坐标可以是:偏移量与对象中心点坐标的加和结果。
之所以对检测模型输出的对象中心点坐标进行偏移量的补偿,是因为检测模型在对待检测的图像进行逐层的特征提取的过程中,会使用到多次下采样操作,而下采样操作会导致需要对对象中心点坐标进行取整计算,从而导致对象中心点坐标计算结果的准确度下降,为了弥补下采样导致的准确度丢失,需要将下采样操作引起的误差补偿回来,该上述偏移量即为下采样操作引起的误差。
由图3中的示意可知,基于上述图像检测方法,可以直接基于检测模型输出的对象中心点坐标回归出对象的顶点坐标,从而,由每个对象各自对应的顶点坐标准确地界定出每个对象所对应的图像区域,不同对象所对应的图像区域之间不会出现严重的重叠现象,使得对象的边界定位结果更加准确,保证了后续基于对象边界定位结果的其他处理的可靠执行。
如前文所述,在一种情形下,检测模型输出的边界定位信息的组数M可能大于图像中存在的对象数量N,此时,需要对M组边界定位信息进行去重处理。实际上,对M组边界定位信息进行去重处理是指,对基于这M组边界定位信息得到的M个图像区域进行去重处理。
为了进行该去重处理,可选地,每组边界定位信息中还可以包括:与对象中心点坐标对应的对象类别。
概括来说,对上述M个图像区域进行去重处理的过程中,首先,需要发现存在重叠情形的图像区域,之后,若发现K个图像区域存在重叠情形,则从这K个图像区域中筛选出一个符合条件的图像区域,保留这个图像区域,而删除剩下的K-1个图像区域,K≥2。
具体来说,以根据M组边界定位信息中的一组边界定位信息确定出的第一图像区域,以及根据M组边界定位信息中的另一组边界定位信息确定出的第二图像区域为例来说。若发现第一图像区域对应的第一对象中心点坐标位于第二图像区域内,以及第二图像区域对应的第二对象中心点坐标位于第一图像区域内,则确定第一图像区域与第二图像区域存在重叠现象,而且,第一图像区域与第二图像区域对应于同一对象。之后,比较第一对象中心点坐标对应的对象类别的置信度与第二对象中心点坐标对应的对象类别的置信度,若确定第一对象中心点坐标对应的对象类别的置信度高于第二对象中心点坐标对应的对象类别的置信度,则删除第二图像区域,保留第一图像区域。也就是说,第一图像区域最终被认为是相对应的对象的准确边界。
由上述去重过程可知,检测模型输出的一组边界定位信息中,除了会包括对象中心点坐标、对象顶点相距对象中心点坐标的距离、对象中心点坐标的偏移量外,还会预测输出对象中心点坐标所对应的对象类别。实际上,假设检测模型能够识别的对象类别有T种,T>1,针对某个对象中心点坐标来说,检测模型会输出该对象中心点坐标与T种类别分别对应的置信度,可以选择置信度最高的一种类别作为与该对象中心点坐标对应的对象类别。
下面结合图4来示例性说明至少一个图像区域的去重处理过程。
在图4中,以图2中示意的火车票为例来说明,假设根据检测模型输出的两组边界定位信息确定出了图4中示意的区域X和区域Y,区域X对应的对象中心点坐标为Cx,区域X对应的对象中心点坐标为Cy,且假设检测模型输出的与Cx对应的对象类别的置信度为Px,与Cy对应的对象类别的置信度为Py。如果发现Px>Py,则认为需要保留区域X,而删除区域Y。
综上,至此可以得到待检测的图像中包含的各个对象的准确边界。
实际应用中,准确识别出图像中各对象的边界,是后续的图像处理过程的前提保证。
可选地,后续的图像处理过程可以是:
识别至少一个图像区域各自包含的文字信息;
根据至少一个图像区域各自对应的对象类别,从至少一个图像区域各自包含的文字信息中提取出对应的关键信息。
其中,某图像区域对应的对象类别即为相应对象中心点坐标所对应的对象类别。
结合图5来示例性说明至少一个对象的边界识别结果的现实意义。
图5中示意的图像是某用户需要进行报销时所拍的一张图像,在报销场景中,比如公司的财务人员最终需要知道报销者是谁,需要报销的条目以及金额等信息。基于此,如图5中所示,这张图像中包含的多个对象,可以包括卡证和票据,在经过前述实施例描述的过程识别出图像中包含的多个图像区域后,可以通过OCR技术针对每个图像区域进行文字识别处理。具体地,可以根据多个图像区域的确定结果,从图像中截取与各个图像区域,分别将截取出的各图像区域输入到OCR模块,以输出识别到的文字信息。之后,根据每个图像区域对应的对象类别,从每个图像区域对应的文字信息中提取出与相应对象类别对应的关键信息。
比如,在图5中,针对身份证所对应的区域A,从中提取出用户姓名作为关键信息。针对两张火车票分别对应的区域B和区域C,从中提取出车站名和票价作为关键信息。最终,比如可以以键值(Key-Value)关系输出提取出的多个关键信息,以便财务人员根据输出信息进行报销处理。
可选地,为了便于通过OCR技术对多个对象(比如多个票据、卡证)进行文字识别,在得到每个对象对应的图像区域后,可以对该图像区域进行旋转处理,通过该旋转处理,可以使得该图像区域内包含的文字呈现“横平竖直”的效果,即文字的书写方向平行于水平方向。对旋转后的图像区域进行OCR识别处理。
具体地,上述检测模型输出的对象顶点相距对象中心点坐标的距离的信息中,可以包含对象顶点的类型,可以据此完成图像区域的旋转。举例来说,某对象为火车票,火车票为一个矩形,检测模型输出的信息中可以包括左上角顶点距离中心点坐标的距离、左下角顶点距离中心点坐标的距离、右上角顶点距离中心点坐标的距离和右下角顶点距离中心点坐标的距离,从而可以得到四个顶点的坐标,进而根据四个顶点的坐标旋转火车票对应的图像区域,以使得左上角顶点和右上角顶点在同一水平线上,左上角顶点与左下角顶点在同一竖直线上。
另外,在一可选实施例中,可以根据设定的条件决定是否对从待检测图像中识别出的与多个对象对应的多个图像区域进行旋转处理。可选地,该条件可以是仅对设定类别的对象所对应的图像区域进行旋转处理,该设定的类别比如为某些种类的票据、证件。
下面对本发明实施例中涉及到的检测模型的训练过程和结构进行说明。
检测模型可以包括主干网络和输出网络,其中,主干网络可以实现为多种神经网络模型,比如:卷积神经网络(Convolutional Neural Network,简称CNN)模型;残差网络(Residual Network,简称ResNet)模型,如ResNet-18;DLA-34模型,等等。
以ResNet-18为例,该网络模型具有多层结构,为了能够将低层的特征引入到高层,以提高检测模型的检测性能,还可以将特征图金字塔网络(Feature PyramidNetworks,简称FPN)加入到ResNet-18中,以形成如图6中示意的ResNet18-FPN结构。
如图6中所示,检测模型的输出网络可以包括图中示意的三个输出层,这三个输出层分别用于输出前述实施例中提到的对象中心点坐标及其对应的对象类别,对象顶点相距对象中心点坐标的距离,对象中心点坐标的偏移量。
在图6中,与这三个输出层连接的是主干网络最后一层输出的特征图。该特征图可以是相对输入的表格图像,经过n次下采样的特征图,n比如为2、3。
实际应用中,由于输入的表格图像有可能存在表格尺寸很大的情况,比如某些单元格的长度很长。为了能够让检测模型具有更大的感受野,可选地,可以在ResNet-18的第一个残差模块中加上几次下采样操作,从而扩大模型的感受野,比如为1024x1024。
以上对检测模型的结构进行了介绍,下面对检测模型的训练过程进行说明。
在训练过程中,首先需要获取用于训练检测模型的训练样本图像,该训练样本图像中包括至少一个对象。之后,需要根据上述三个输出层的需求,对训练样本图像进行标注,以便基于标注得到的监督信息对检测模型进行有监督训练。
对应于上述三个输出层,可以理解的是,需要对训练样本图像进行标注的监督信息包括:至少一个对象各自对应的对象中心点坐标、对象中心点坐标的偏移量、对象顶点坐标以及对象类别。
其中,可以人为地在训练样本图像中标记出每个对象的顶点坐标,如此,即可以基于该标记行为得到每个对象的顶点坐标,还可以通过每个对象的顶点坐标计算出对象中心点坐标。
其中,对于对象类别来说,可以预先设置类别标签集合,在该类别标签集合中包括需要检测模型识别的多种类别各自对应的编码向量。针对某个训练样本图像来说,可以根据该训练样本图像中包含的对象类别,从类别标签集合中确定对应的编码向量作为监督信息。
其中,对于对象中心点坐标的偏移量来说,根据检测模型对训练样本图像的下采样倍数,可以计算出与对象中心点坐标的偏移量。具体地,可以通过如下计算方式得到:
x1=x0/2n-int(x0/2n),y1=y0/2n-int(y0/2n);
其中,(x0,y0)分别是某对象中心点坐标的横坐标和纵坐标,(x1,y1)分别是所述横坐标和所述纵坐标对应的偏移量,int()为向下取整运算符,n表示检测模型对训练样本图像进行了2n倍的下采样处理。可以理解为是图6中示意的与三个输出层连接的特征图的维数是训练样本图像的维数的1/2n倍。
在上述监督信息的监督下,通过大量训练样本图像对检测模型进行训练,最终可以得到收敛的检测模型。
以下将详细描述本发明的一个或多个实施例的图像检测装置。本领域技术人员可以理解,这些图像检测装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图7为本发明实施例提供的一种图像检测装置的结构示意图,如图7所示,该装置包括:获取模块11、检测模块12、确定模块13。
获取模块11,用于获取待检测的图像,所述图像中包含至少一个对象。
检测模块12,用于获取与所述至少一个对象对应的至少一组边界定位信息。
确定模块13,用于根据所述至少一组边界定位信息,确定与所述至少一个对象对应的至少一个图像区域。
可选地,边界定位信息中包括对象中心点坐标及对象顶点相距所述对象中心点坐标的距离。
可选地,所述至少一个对象包括卡证和/或票据。
可选地,确定模块13具体用于:确定与每组边界定位信息对应的对象顶点坐标;根据所述至少一组边界定位信息各自对应的对象顶点坐标,确定所述至少一组边界定位信息各自对应的图像区域作为所述至少一个图像区域。
可选地,所述每组边界定位信息中还包括:与所述对象中心点坐标对应的偏移量,检测模块12还用于:根据所述偏移量修正所述对象中心点坐标。
可选地,检测模块12具体可以用于:确定修正后的对象中心点坐标为所述偏移量与所述对象中心点坐标的加和结果。
可选地,所述每组边界定位信息中还包括:与所述对象中心点坐标对应的对象类别。
可选地,检测模块12还可以用于:确定第一图像区域对应的第一对象中心点坐标位于第二图像区域内,以及确定所述第二图像区域对应的第二对象中心点坐标位于所述第一图像区域内,其中,所述第一图像区域根据所述至少一组边界定位信息中的一组边界定位信息确定,所述第二图像区域根据所述至少一组边界定位信息中的另一组边界定位信息确定;若确定所述第一对象中心点坐标对应的对象类别的置信度,高于所述第二对象中心点坐标对应的对象类别的置信度,则删除所述第二图像区域。
可选地,所述装置还包括:文字处理模块,用于识别所述至少一个图像区域各自包含的文字信息;根据所述至少一个图像区域各自对应的对象类别,从所述至少一个图像区域各自包含的文字信息中提取出对应的关键信息。
可选地,检测模块12具体可以用于:将所述图像输入到检测模型中,以通过所述检测模型获取所述至少一组边界定位信息。
可选地,所述装置还包括:模型训练模块,用于获取用于训练所述检测模型的训练样本图像,所述训练样本图像中包括至少一个对象;获取所述训练样本图像对应的监督信息,所述监督信息中包括所述至少一个对象各自对应的对象中心点坐标和对象顶点坐标;根据所述监督信息对所述检测模型进行训练。
可选地,所述模型训练模块还可以用于:根据所述检测模型对所述训练样本图像的下采样倍数,确定所述对象中心点坐标的偏移量,所述监督信息中包括所述偏移量。
可选地,所述监督信息中包括所述至少一个对象各自对应的对象类别。
图7所示装置可以执行前述图1至图6所示实施例中提供的图像检测方法,详细的执行过程和技术效果参见前述实施例中的描述,在此不再赘述。
在一个可能的设计中,上述图7所示图像检测装置的结构可实现为一电子设备,如图8所示,该电子设备可以包括:处理器21、存储器22。其中,存储器22上存储有可执行代码,当所述可执行代码被处理器21执行时,使处理器21至少可以实现如前述图1至图6所示实施例中提供的图像检测方法。
可选地,该电子设备中还可以包括通信接口23,用于与其他设备进行通信。
另外,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如前述图1至图6所示实施例中提供的图像检测方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例提供的图像检测方法可以由某种程序/软件来执行,该程序/软件可以由网络侧提供,前述实施例中提及的电子设备可以将该程序/软件下载到本地的非易失性存储介质中,并在其需要执行前述图像检测方法时,通过CPU将该程序/软件读取到内存中,进而由CPU执行该程序/软件以实现前述实施例中所提供的图像检测方法,执行过程可以参见前述图1至图6中的示意。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (17)
1.一种图像检测方法,其特征在于,包括:
获取待检测的图像,所述图像中包含至少一个对象;
获取与所述至少一个对象对应的至少一组边界定位信息;
根据所述至少一组边界定位信息,确定与所述至少一个对象对应的至少一个图像区域。
2.根据权利要求1所述的方法,其特征在于,所述边界定位信息中包括对象中心点坐标及对象顶点相距所述对象中心点坐标的距离。
3.根据权利要求2所述的方法,其特征在于,所述根据所述至少一组边界定位信息,确定与所述至少一个对象对应的至少一个图像区域,包括:
确定与每组边界定位信息对应的对象顶点坐标;
根据所述至少一组边界定位信息各自对应的对象顶点坐标,确定所述至少一组边界定位信息各自对应的图像区域作为所述至少一个图像区域。
4.根据权利要求2所述的方法,其特征在于,所述边界定位信息中还包括:与所述对象中心点坐标对应的偏移量;
所述方法还包括:
根据所述偏移量修正所述对象中心点坐标。
5.根据权利要求4所述的方法,其特征在于,所述根据所述偏移量修正所述对象中心点坐标,包括:
确定修正后的对象中心点坐标为所述偏移量与所述对象中心点坐标的加和结果。
6.根据权利要求3所述的方法,其特征在于,所述边界定位信息中还包括:与所述对象中心点坐标对应的对象类别。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
确定第一图像区域对应的第一对象中心点坐标位于第二图像区域内,以及确定所述第二图像区域对应的第二对象中心点坐标位于所述第一图像区域内,其中,所述第一图像区域根据所述至少一组边界定位信息中的一组边界定位信息确定,所述第二图像区域根据所述至少一组边界定位信息中的另一组边界定位信息确定;
若确定所述第一对象中心点坐标对应的对象类别的置信度,高于所述第二对象中心点坐标对应的对象类别的置信度,则删除所述第二图像区域。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
识别所述至少一个图像区域各自包含的文字信息;
根据所述至少一个图像区域各自对应的对象类别,从所述至少一个图像区域各自包含的文字信息中提取出对应的关键信息。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述获取与所述至少一个对象对应的至少一组边界定位信息,包括:
将所述图像输入到检测模型中,以通过所述检测模型获取所述至少一组边界定位信息。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
获取用于训练所述检测模型的训练样本图像,所述训练样本图像中包括至少一个对象;
获取所述训练样本图像对应的监督信息,所述监督信息中包括所述至少一个对象各自对应的对象中心点坐标和对象顶点坐标;
根据所述监督信息对所述检测模型进行训练。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
根据所述检测模型对所述训练样本图像的下采样倍数,确定所述对象中心点坐标的偏移量,所述监督信息中包括所述偏移量。
12.根据权利要求10所述的方法,其特征在于,所述监督信息中包括所述至少一个对象各自对应的对象类别。
13.根据权利要求1至8中任一项所述的方法,其特征在于,所述至少一个对象包括卡证和/或票据。
14.一种图像检测装置,其特征在于,包括:
获取模块,用于获取待检测的图像,所述图像中包含至少一个对象;
检测模块,用于获取与所述至少一个对象对应的至少一组边界定位信息;
确定模块,用于根据所述至少一组边界定位信息,确定与所述至少一个对象对应的至少一个图像区域。
15.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至13中任一项所述的图像检测方法。
16.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至13中任一项所述的图像检测方法。
17.一种图像检测方法,其特征在于,包括:
获取待检测的图像,所述图像中包含至少一个对象,所述至少一个对象包括卡证和/或票据;
将所述图像输入到检测模型中,以通过所述检测模型获取至少一组边界定位信息,其中,边界定位信息中包括对象中心点坐标及对象顶点相距所述对象中心点坐标的距离;
根据所述至少一组边界定位信息,确定与所述至少一个对象对应的至少一个图像区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010280777.3A CN113516673B (zh) | 2020-04-10 | 2020-04-10 | 图像检测方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010280777.3A CN113516673B (zh) | 2020-04-10 | 2020-04-10 | 图像检测方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113516673A true CN113516673A (zh) | 2021-10-19 |
CN113516673B CN113516673B (zh) | 2022-12-02 |
Family
ID=78060578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010280777.3A Active CN113516673B (zh) | 2020-04-10 | 2020-04-10 | 图像检测方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113516673B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101513431B1 (ko) * | 2013-10-17 | 2015-04-23 | (주)다하미 커뮤니케이션즈 | 매체 이미지의 테두리 자동 검출 방법, 이를 이용한 매체 이미지 처리 시스템 및 처리 방법 |
CN106682697A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 一种基于卷积神经网络的端到端物体检测方法 |
CN109214389A (zh) * | 2018-09-21 | 2019-01-15 | 上海小萌科技有限公司 | 一种目标识别方法、计算机装置及可读存储介质 |
CN109426776A (zh) * | 2017-08-25 | 2019-03-05 | 微软技术许可有限责任公司 | 基于深度神经网络的对象检测 |
CN109670503A (zh) * | 2018-12-19 | 2019-04-23 | 北京旷视科技有限公司 | 标识检测方法、装置和电子*** |
CN109871730A (zh) * | 2017-12-05 | 2019-06-11 | 杭州海康威视数字技术股份有限公司 | 一种目标识别方法、装置及监控设备 |
CN110059680A (zh) * | 2019-04-24 | 2019-07-26 | 杭州智趣智能信息技术有限公司 | 一种身份证图像的检测方法、装置及设备 |
CN110232713A (zh) * | 2019-06-13 | 2019-09-13 | 腾讯数码(天津)有限公司 | 一种图像目标定位修正方法及相关设备 |
CN110276287A (zh) * | 2019-06-17 | 2019-09-24 | 百度在线网络技术(北京)有限公司 | 车位检测方法、装置、计算机设备以及存储介质 |
CN110287955A (zh) * | 2019-06-05 | 2019-09-27 | 北京字节跳动网络技术有限公司 | 目标区域确定模型训练方法、装置和计算机可读存储介质 |
CN110309824A (zh) * | 2019-07-02 | 2019-10-08 | 北京百度网讯科技有限公司 | 文字检测方法、装置以及终端 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110427932A (zh) * | 2019-08-02 | 2019-11-08 | 杭州睿琪软件有限公司 | 一种识别图像中多个票据区域的方法及装置 |
CN110472602A (zh) * | 2019-08-20 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种卡证识别方法、装置、终端及存储介质 |
CN110852285A (zh) * | 2019-11-14 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 对象检测方法、装置、计算机设备和存储介质 |
CN110866495A (zh) * | 2019-11-14 | 2020-03-06 | 杭州睿琪软件有限公司 | 票据图像识别方法及装置和设备、训练方法和存储介质 |
CN110874593A (zh) * | 2019-11-06 | 2020-03-10 | 西安电子科技大学 | 基于掩膜的遥感图像旋转目标检测方法 |
-
2020
- 2020-04-10 CN CN202010280777.3A patent/CN113516673B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101513431B1 (ko) * | 2013-10-17 | 2015-04-23 | (주)다하미 커뮤니케이션즈 | 매체 이미지의 테두리 자동 검출 방법, 이를 이용한 매체 이미지 처리 시스템 및 처리 방법 |
CN106682697A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 一种基于卷积神经网络的端到端物体检测方法 |
CN109426776A (zh) * | 2017-08-25 | 2019-03-05 | 微软技术许可有限责任公司 | 基于深度神经网络的对象检测 |
CN109871730A (zh) * | 2017-12-05 | 2019-06-11 | 杭州海康威视数字技术股份有限公司 | 一种目标识别方法、装置及监控设备 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109214389A (zh) * | 2018-09-21 | 2019-01-15 | 上海小萌科技有限公司 | 一种目标识别方法、计算机装置及可读存储介质 |
CN109670503A (zh) * | 2018-12-19 | 2019-04-23 | 北京旷视科技有限公司 | 标识检测方法、装置和电子*** |
CN110059680A (zh) * | 2019-04-24 | 2019-07-26 | 杭州智趣智能信息技术有限公司 | 一种身份证图像的检测方法、装置及设备 |
CN110287955A (zh) * | 2019-06-05 | 2019-09-27 | 北京字节跳动网络技术有限公司 | 目标区域确定模型训练方法、装置和计算机可读存储介质 |
CN110232713A (zh) * | 2019-06-13 | 2019-09-13 | 腾讯数码(天津)有限公司 | 一种图像目标定位修正方法及相关设备 |
CN110276287A (zh) * | 2019-06-17 | 2019-09-24 | 百度在线网络技术(北京)有限公司 | 车位检测方法、装置、计算机设备以及存储介质 |
CN110309824A (zh) * | 2019-07-02 | 2019-10-08 | 北京百度网讯科技有限公司 | 文字检测方法、装置以及终端 |
CN110427932A (zh) * | 2019-08-02 | 2019-11-08 | 杭州睿琪软件有限公司 | 一种识别图像中多个票据区域的方法及装置 |
CN110472602A (zh) * | 2019-08-20 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种卡证识别方法、装置、终端及存储介质 |
CN110874593A (zh) * | 2019-11-06 | 2020-03-10 | 西安电子科技大学 | 基于掩膜的遥感图像旋转目标检测方法 |
CN110852285A (zh) * | 2019-11-14 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 对象检测方法、装置、计算机设备和存储介质 |
CN110866495A (zh) * | 2019-11-14 | 2020-03-06 | 杭州睿琪软件有限公司 | 票据图像识别方法及装置和设备、训练方法和存储介质 |
Non-Patent Citations (3)
Title |
---|
TANG JUN 等: "SegLink++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping", 《PATTERN RECOGNITION》 * |
孙悦等: "基于改进SSD算法的自然场景文本检测", 《电视技术》 * |
董洪义: "《深度学习之PyTorch物体检测实战》", 31 January 2020, 北京:机械工业出版社 * |
Also Published As
Publication number | Publication date |
---|---|
CN113516673B (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866495B (zh) | 票据图像识别方法及装置和设备、训练方法和存储介质 | |
CN107798299B (zh) | 票据信息识别方法、电子装置及可读存储介质 | |
CN112699775A (zh) | 基于深度学习的证件识别方法、装置、设备及存储介质 | |
CN113343740B (zh) | 表格检测方法、装置、设备和存储介质 | |
CN113490947A (zh) | 检测模型训练方法、装置、检测模型使用方法及存储介质 | |
CN110490190A (zh) | 一种结构化图像文字识别方法及*** | |
CN113111880B (zh) | 证件图像校正方法、装置、电子设备及存储介质 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN111507354A (zh) | 信息抽取方法、装置、设备以及存储介质 | |
CN111062262B (zh) | ***识别方法以及***识别装置 | |
CN115830604A (zh) | 面单图像矫正方法、装置、电子设备及可读存储介质 | |
CN111414889B (zh) | 基于文字识别的财务报表识别方法及装置 | |
CN112560855A (zh) | 图像信息提取方法、装置、电子设备及存储介质 | |
CN113516673B (zh) | 图像检测方法、装置、设备和存储介质 | |
CN111008635A (zh) | 一种基于ocr的多票据自动识别方法及识别*** | |
CN114399626A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
CN114612905A (zh) | 基于rpa和ai的***处理方法、装置、设备和介质 | |
CN114299509A (zh) | 一种获取信息的方法、装置、设备及介质 | |
CN114120305A (zh) | 文本分类模型的训练方法、文本内容的识别方法及装置 | |
CN113128496B (zh) | 一种从图像中提取结构化数据的方法、装置和设备 | |
CN113516131A (zh) | 图像处理方法、装置、设备和存储介质 | |
CN114863456A (zh) | 题目识别方法、装置、设备及存储介质 | |
CN112036465A (zh) | 图像识别方法、装置、设备及存储介质 | |
CN112287763A (zh) | 图像处理方法、装置、设备及介质 | |
CN112464892B (zh) | 票据区域识别方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |