CN107221005B - 物体检测方法及装置 - Google Patents
物体检测方法及装置 Download PDFInfo
- Publication number
- CN107221005B CN107221005B CN201710309200.9A CN201710309200A CN107221005B CN 107221005 B CN107221005 B CN 107221005B CN 201710309200 A CN201710309200 A CN 201710309200A CN 107221005 B CN107221005 B CN 107221005B
- Authority
- CN
- China
- Prior art keywords
- picture
- layer
- connected domain
- feature map
- convolution kernel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种物体检测方法及装置,其中,方法包括:获取待测物体的景深图片和RGB图片;从景深图片中提取连通域;获取对连通域坐标回归时所处的目标特征图谱层;将RGB图片中的目标区域输入到神经网络中进行处理直到目标特征图谱层,其中,目标区域为RGB图片中与包括待测物体的连通域对应的区域;对在目标特征图谱层得到的特征图谱进行坐标回归,获取目标区域中的待测物体的检测结果;其中,检测结果包括待测物体在RGB图片中的坐标和边框。由此,通过连通域缩小物体检测区域,只将连通域对应的RGB图片输入到神经网络中进行处理,节省大量的计算消耗,仅将在目标特征图谱层得到的特征图谱进行坐标回归,加快物体检测速度,提高了物体检测效率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种物体检测方法及装置。
背景技术
随着人工智能和大数据技术的快速发展,越来越多的产品开始向智能化发展,图像识别是智能化中非常重要的部分,即以图像作为输入信息,通过不同的方法对图像内的物体进行定位检测,并识别出该物体的类别。
相关技术中,可以通过传统图像分割方法和深度神经网络等方式进行物体检测。其中,深度神经网络的方式相对于传统图像分割方法的鲁棒性更好,但是其需要大量的数据和计算资源做支撑,由此在计算资源受限时,物体检测速度和准确率大大降低。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种物体检测方法,以实现通过连通域缩小物体检测区域,只将连通域对应的RGB图片输入到神经网络中进行处理,仅将在目标特征图谱层得到的特征图谱进行坐标回归,用于解决现有技术中计算资源不足导致的物体检测速度和效率大大降低的问题。
本发明的第二个目的在于提出一种物体检测装置。
本发明的第三个目的在于提出另一种物体检测装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种物体检测方法,包括以下步骤:获取待测物体的景深图片和RGB图片;从所述景深图片中提取连通域;获取对所述连通域坐标回归时所处的目标特征图谱层;将所述RGB图片中的目标区域输入到神经网络中进行处理直到所述目标特征图谱层,其中,所述目标区域为所述RGB图片中与包括所述待测物体的连通域对应的区域;对在所述目标特征图谱层得到的特征图谱进行坐标回归,获取所述目标区域中的所述待测物体的检测结果;其中,所述检测结果包括所述待测物体在所述RGB图片中的坐标和边框。
本发明实施例的物体检测方法,通过从景深图片中提取连通域,并获取对连通域坐标回归时所处的目标特征图谱层,然后连通域对应的RGB图片输入到神经网络中进行处理直到目标特征图谱层,最后对在目标特征图谱层得到的特征图谱进行坐标回归得到目标区域中的待测物体的检测结果。由此,通过连通域缩小物体检测区域,只将连通域对应的RGB图片输入到神经网络中进行处理,节省大量的计算消耗,仅将在目标特征图谱层得到的特征图谱进行坐标回归,加快物体检测速度,提高了物体检测效率。
为达上述目的,本发明第二方面实施例提出了一种物体检测装置,包括:图片获取模块,用于获取待测物体的景深图片和RGB图片;提取模块,用于从所述景深图片中提取连通域;获取模块,用于获取所述连通域坐标回归时所处的目标特征图谱层;处理模块,用于将所述RGB图片中的目标区域输入到神经网络中进行处理直到所述目标特征图谱层,其中,所述目标区域为所述RGB图片中与包括所述连通域对应的区域;检测模块,用于对在所述目标特征图谱层得到的特征图谱进行坐标回归,得到所述目标区域中的所述待测物体的检测结果;其中,所述检测结果包括所述待测物体在所述RGB图片中的坐标和边框。
本发明实施例的物体检测装置,通过从景深图片中提取连通域,并获取对连通域坐标回归时所处的目标特征图谱层,然后连通域对应的RGB图片输入到神经网络中进行处理直到目标特征图谱层,最后对在目标特征图谱层得到的特征图谱进行坐标回归得到目标区域中的待测物体的检测结果。由此,通过连通域缩小物体检测区域,只将连通域对应的RGB图片输入到神经网络中进行处理,节省大量的计算消耗,仅将在目标特征图谱层得到的特征图谱进行坐标回归,加快物体检测速度,提高了物体检测效率。
为达上述目的,本发明第三方面实施例提出了另一种物体检测装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:获取待测物体的景深图片和RGB图片;从所述景深图片中提取连通域;获取对所述连通域坐标回归时所处的目标特征图谱层;将所述RGB图片中的目标区域输入到神经网络中进行处理直到所述目标特征图谱层,其中,所述目标区域为所述RGB图片中与包括所述待测物体的连通域对应的区域;对在所述目标特征图谱层得到的特征图谱进行坐标回归,获取所述目标区域中的所述待测物体的检测结果;其中,所述检测结果包括所述待测物体在所述RGB图片中的坐标和边框。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器端的处理器被执行时,使得服务器端能够执行一种物体检测方法,所述方法包括:获取待测物体的景深图片和RGB图片;从所述景深图片中提取连通域;获取对所述连通域坐标回归时所处的目标特征图谱层;将所述RGB图片中的目标区域输入到神经网络中进行处理直到所述目标特征图谱层,其中,所述目标区域为所述RGB图片中与包括所述待测物体的连通域对应的区域;对在所述目标特征图谱层得到的特征图谱进行坐标回归,获取所述目标区域中的所述待测物体的检测结果;其中,所述检测结果包括所述待测物体在所述RGB图片中的坐标和边框。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种物体检测方法,所述方法包括:获取待测物体的景深图片和RGB图片;从所述景深图片中提取连通域;获取对所述连通域坐标回归时所处的目标特征图谱层;将所述RGB图片中的目标区域输入到神经网络中进行处理直到所述目标特征图谱层,其中,所述目标区域为所述RGB图片中与包括所述待测物体的连通域对应的区域;对在所述目标特征图谱层得到的特征图谱进行坐标回归,获取所述目标区域中的所述待测物体的检测结果;其中,所述检测结果包括所述待测物体在所述RGB图片中的坐标和边框。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的物体检测方法的流程示意图;
图2是根据本发明另一个实施例的物体检测方法的流程示意图;
图3是根据本发明又一个实施例的物体检测方法的流程示意图;
图4是根据本发明一个实施例的模型结构的示意图;
图5是根据本发明一个实施例的物体检测装置的结构示意图;
图6是根据本发明一个实施例的获取模块的结构示意图;
图7是根据本发明一个实施例的第一计算单元的结构示意图;
图8是根据本发明另一个实施例的物体检测装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的物体检测方法及装置。
随着图像数据的不断增长,基于图像进行物体检测的应用范围也越来越广,比如在图像识别中,以获取目标图像,并对目标图像包括的物体进行检测。
目前,随着场景越来越复杂,计算资源不足时,现有技术中的物体检测方法对于物体检测的速度和和准确率大大降低。
本发明提出一种物体检测方法,相对于现有技术中的物体检测方法,能够加快物体检测的速度,物体检测的准确性更高。
图1是根据本发明一个实施例的物体检测方法的流程示意图。如图1所示,该物体检测方法包括以下步骤:
步骤101,获取待测物体的景深图片和RGB图片。
步骤102,从景深图片中提取连通域。
在实际应用中,可以通过3D摄像头等设备获取待测物体的景深图片和RGB图片。
进一步地,可以根据实际应用场景需要,采用不同的方式从景深图片中提取连通域,举例说明如下:
第一种示例,根据景深二维分布函数获取景深图片中各像素点的景深,并在相邻的两个像素点的景深之间的差值小于等于预设的景深阈值时确定两个像素点属于同一个连通域,然后利用连续的且属于同一个连通域的所有像素点为景深图片构建连通域。
作为一种可能实现的方式,获取景深二维分布函数为:
D1=D(x,y)(0<=x<=W1,0<=y<=H1),其中,W1为RGB图片的长度,H1为RGB图片的高度。
假设预设景深阈值为dd,根据景深阈值可以将景深二维分布函数分割为若干连通域,设相邻两个像素点的景深分别为D(x1,y1)和D(x2,y2),在|D(x1,y1)-D(x2,y2)|<=dd时,两个像素点属于同一个连通域。可以记录连通域区间为:w minj<=x<=w maxj,h minj<=y<=h maxj。
第二种示例,通过opencv、matlab等软件对景深图片进行处理,从景深图片中提取其连通域。
需要说明的是,以上方式仅为从景深图片中提取连通域的举例说明,可以根据实际应用需要选择或者设置其他的方式。
另外,需要说明的是,通过上述方式从景深图片中提取的连通域可以为N个,其中N表示景深图片中所包括的连通域区间的数量。
步骤103,获取对连通域坐标回归时所处的目标特征图谱层。
具体地,可以设计一个深度卷积神经网络,利用该深度卷积网络求解连通域坐标回归问题。进而,获取对连通域坐标回归时所处的目标特征图谱层。
作为一种实现方式,首先计算待测物体在RGB图片上的第一面积,然后计算各特征图谱层所使用的卷积核在RGB图片上的第二面积,从而可以获取第一面积与各特征图谱层对应的第二面积之间的差值,并将所有差值中最小差值对应的第二面积所在的层为目标特征图谱层,本实施例中可以将目标特征图谱层标记为OLj。
步骤104,将RGB图片中的目标区域输入到神经网络中进行处理直到目标特征图谱层,其中,目标区域为RGB图片中与包括待测物体的连通域对应的区域。
本实施例中,目标特征图谱层为神经网络最后对RGB图片中的目标区域进行特征、下采样等处理的最后一层。
步骤105,对在目标特征图谱层得到的特征图谱进行坐标回归,获取目标区域中的待测物体的检测结果;其中,检测结果包括待测物体在RGB图片中的坐标和边框。
具体地,在获取目标特征图谱层后,可以将RGB图片中与包括待测物体的连通域对应的区域作为目标区域输入到神经网络中进行处理直到目标特征图谱层。
需要说明的是,为了进一步提高获取目标特征图谱层的准确性,在将目标区域输入到神经网络后,进行特征提取、下采样和降维等处理,对于第j个连通域,需要神经网络对该第j个连通域所对应的RGB图片中的目标区域进行处理到OLj层的特征图谱。
需要说明的是,本实施例中的神经网络指的是预设的神经网络模型,预先训练的神经网络模型可以利用多种类连接层,比如通过卷积层与池化层作为采样,可以缩短特征图谱的长宽尺度。
可以理解的是,经过神经网络处理后可以得到各特征图谱层的特征图谱,只需要对在目标特征图谱层得到的特征图谱进行坐标回归,就可以获取目标区域中的待测物体的检测结果。其中,检测结果包括待测物体在RGB图片中的坐标和边框。
更具体地,通过利用目标特征图谱层的卷积核对特征图谱进行特征向量提取,并对该特征向量进行坐标回归计算,从而得到至少一个待测物体的在RGB图像中候选结果,最后基于极大值抑制算法或者聚类算法从候选结果中确定出待测物体的实际坐标和边框。
可以理解的是,上述候选结果中包括待测物体在RGB图像中的坐标和边框。
本发明实施例的物体检测方法,通过从景深图片中提取连通域,并获取对连通域坐标回归时所处的目标特征图谱层,然后连通域对应的RGB图片输入到神经网络中进行处理直到目标特征图谱层,最后对在目标特征图谱层得到的特征图谱进行坐标回归得到目标区域中的待测物体的检测结果。由此,通过连通域缩小物体检测区域,只将连通域对应的RGB图片输入到神经网络中进行处理,节省大量的计算消耗,仅将在目标特征图谱层得到的特征图谱进行坐标回归,加快物体检测速度,提高了物体检测效率。
基于以上实施例,为了更加清楚的描述如何获取连通域坐标回归时所处的目标特征图谱层,通过图2所示实施例具体说明如下:
图2是根据本发明另一个实施例的物体检测方法的流程示意图。
本实施例首先计算待测物体在RGB图片上的第一面积,然后计算各特征图谱层所使用的卷积核在RGB图片上的第二面积,从而可以获取第一面积与各特征图谱层对应的第二面积之间的差值,并将所有差值中最小差值对应的第二面积所在的层为目标特征图谱层。
具体说明如图2所示,即上述实施例中的步骤S103包括:S201-S204。
步骤201,计算待测物体在RGB图片上的第一面积。
具体地,首先获取连通域距离摄像头的平均距离。作为一种示例,对连通域内每个像素点的景深进行求和,将求和后的数值与连通域的面积做比值,得到连通域的平均距离。记该平均距离为dj(1≤j≤N),N表示连通域区间的数量,分别计算各个连通域距离摄像头的平均距离为:
进一步地,获取待测物体的实际长度和实际高度。可以理解的是,为了确保获取的待测物体的实际长度和实际高度的准确性,可以通过多次待测量待测物体的长度和高度,然后求平均的方式获得待测量待测物体的长度均值和高度均值作为待测物体的实际长度和实际高度。
进一步地,将摄像头的焦距与实际长度相乘,将相乘后的结果与平均距离作比值得到待测物体的图片长度。作为一种示例,可以通过公式Owj=f*Wr/dj计算待测物体的图片长度,其中,f为摄像头的焦距,Wr为实际长度,dj为连通域距离摄像头的平均距离。
进一步地,将摄像头的焦距与实际高度相乘,将相乘后的结果与平均距离作比值得到待测物体的图片高度。作为一种示例,可以通过公式Ohj=f*Hr/dj计算待测物体的图片高度,其中,f为摄像头的焦距,Hr为实际高度,dj为连通域距离摄像头的平均距离。
进一步地,根据图片长度和图片高度得到第一面积。作为一种示例,可以通过公式Osj=Owj*Ohj计算第一面积,其中,Owj为图片长度,Ohj为图片高度。
步骤202,计算各特征图谱层所使用的卷积核在RGB图片上的第二面积。
具体地,首先获取在第i层特征图谱层对目标区域进行采样所得到的特征图谱的图谱长度和图谱高度,其中,1≤i≤N。
进一步地,获取该特征图谱层所使用的卷积核的卷积核长度和卷积核高度。
进一步地,将卷积核长度与图谱长度相乘后与第一层的图谱长度作比值,得到第i层特征图谱层所使用的卷积核在RGB图片上的卷积核图片长度。作为一种示例,可以通过公式Bwi=Swi*Wi/W1计算卷积核图片长度,其中,Swi为卷积核长度,Wi为图谱长度,W1为第一层的图谱长度即RGB图片的长度。
进一步地,将卷积核高度与图谱高度相乘后与第一层的图谱长度作比值,得到第i层特征图谱层所使用的卷积核在RGB图片上的卷积核图片高度。作为一种示例,可以通过公式Bhi=Shi*Hi/H1计算卷积核图片高度,其中,Shi为卷积核高度,Hi为图谱高度,H1为第一层的图谱高度即RGB图片的高度。
进一步地,根据卷积核图片长度和卷积核图片高度得到第二面积。作为一种示例,可以通过公式Ssi=Bwi*Bhi计算第一面积,其中,Bwi为卷积核图片长度,Bhi为卷积核图片高度。可以理解的是,Bwi和Bhi分别为第i层卷积核在RGB图片上对应的长度和高度。
步骤203,计算第一面积与各特征图谱层对应的第二面积之间的差值。
步骤204,确定所有差值中最小差值对应的第二面积所在的层为目标特征图谱层。
具体地,通过计算面积差并求出最小差值,并找到最小差值对应的的第二面积所在的层为目标特征图谱层。作为一种示例,计算面积差并确定所有差值中最小差值可以表示为:
Os minj=min(|Osj-Ss1|…|Osj-Ssi||Osj-SsL|)=|Osj-Sst|。其中,L表示经过神经网络处理后得到的特征图谱的个数,min()为取最小值函数,比如通过计算得到第t层特征图谱上第一面积和第二面积最为接近,可以确定各连通域对应的目标特征图谱层为OLj=t(1<=j<=N)。即目标特征图谱层的层数为第t层,也就是说,当神经网络对目标区域处理到第t层后不再对其进行处理,第t层产生的特征图谱用于坐标回归。
由此,通过景深连通域缩小特征图谱计算范围,通过距离信息,计算目标特征图谱层,并仅在该层进行坐标回归,进一步提高物体检测效率。
基于上述实施例的描述,为了本领域人员更加清楚上述过程,下面以手势检测为例,结合图3和图4举例说明如下:
图3是根据本发明又一个实施例的物体检测方法的流程示意图。如图3所示,该物体检测方法包括以下步骤:
步骤301,计算待检测物体实际尺寸均值。
具体地,以手势检测为例,采集若干人各类手势在空间内的最大长宽,并计算均值,获取待检测手势实际尺寸均值(包括长度和宽度)。
步骤302,训练物体检测深度神经网络模型。
具体地,利用手势数据训练SSD模型作为检测的深度神经网络模型,其中,包括多个特征采样层以及坐标回归层。
步骤303,通过景深摄像头采集景深图片以及RGB图片。
步骤304,提取景深图片的连通域,并计算连通域对应的底层特征图谱的层数。
具体地,采集到景深图片,计算景深连通域以及连通域距离均值。然后根据距离均值和坐标回归层卷积核尺寸,计算连通域所对应RGB图像区域代入SSD模型后得到的底层特征图谱层即目标特征图谱层所在的层数。
步骤305,将连通域对应RGB区域采样至对应的底层特征图谱层,得到底层特征图谱。
步骤306,对底层特征图谱进行坐标回归,并获取目标区域中的待测物体的检测结果。
具体地,将RGB图像区域代入模型直至采样到底层特征图谱层,并得到相应的底层特征图谱,此处,该底层特征图谱为在目标特征图谱层所采集得到的特征图谱。进而利用卷积运算进行坐标回归,使用极大值抑制算法从多个候选检测结构中筛选出待测手势的实际坐标和边框。
更具体地,如图4所示的模型结构图,在景深图片上检索出两个连通域,将对应的RGB图像代入模型进行采样,直至相应的坐标回归层,做回归运算。
由此,通过景深连通域缩小了物体检测的区域,只将连通域所对应RGB图片代入神经网络,节约了大量的计算消耗。利用距离信息确定待检测物体的边框大小,并计算用于坐标回归的特征图谱层数,仅将连通域特征图谱在该层进行坐标回归,提高目标检测效率以及召回率。
图5是根据本发明一个实施例的物体检测装置的结构示意图。如图5所示,该物体检测装置包括:图片获取模块11、提取模块12、获取模块13、处理模块14和检测模块15。
其中,图片获取模块11,用于获取待测物体的景深图片和RGB图片。
提取模块12,用于从景深图片中提取连通域。
获取模块13,用于获取连通域坐标回归时所处的目标特征图谱层。
处理模块14,用于将RGB图片中的目标区域输入到神经网络中进行处理直到目标特征图谱层,其中,目标区域为所述RGB图片中与包括连通域对应的区域。
检测模块15,用于对在目标特征图谱层得到的特征图谱进行坐标回归,得到目标区域中的待测物体的检测结果;其中,检测结果包括待测物体在RGB图片中的坐标和边框。
进一步地,提取模块12,具体用于根据景深二维分布函数,获取景深图片中各像素点的景深,如果相邻的两个像素点的景深之间的差值小于等于预设的景深阈值,则确定两个像素点属于同一个连通域,利用连续的且属于同一个连通域的所有像素点,为景深图片构建所述连通域。
图6是根据本发明一个实施例的获取模块的结构示意图。获取模块13包括:第一计算单元131、第二计算单元132和确定单元133。
其中,第一计算单元131,用于计算待测物体在所述RGB图片上的第一面积。
第二计算单元132,用于计算各特征图谱层所使用的卷积核在RGB图片上的第二面积。
确定单元133,用于计算第一面积与各特征图谱层对应的第二面积之间的差值,确定所有差值中最小差值对应的第二面积所在的层为目标特征图谱层。
图7是根据本发明一个实施例的第一计算单元的结构示意图。第一计算单元131包括:第一获取子单元1311、第二获取子单元1312、第三获取子单元1313和第四获取子单元1314。
其中,第一获取子单元1311,用于获取连通域距离摄像头的平均距离。
第二获取子单元1312,用于获取待测物体的实际长度和实际高度。
第三获取子单元1313,用于获将摄像头的焦距与实际长度相乘,将相乘后的结果与平均距离作比值得到待测物体的图片长度,以及将摄像头的焦距与实际高度相乘,将相乘后的结果与平均距离作比值得到待测物体的图片高度。
第四获取子单元1314,用于根据图片长度和图片高度得到所述第一面积。
进一步地,第二计算单元132,具体用于获取在第i层特征图谱层对目标区域进行采样所得到的特征图谱的图谱长度和图谱高度,其中,1≤i≤N,获取该特征图谱层所使用的卷积核的卷积核长度和卷积核高度,将卷积核长度与图谱长度相乘后与第一层的图谱长度作比值,得到第i层特征图谱层所使用的卷积核在RGB图片上的卷积核图片长度,将卷积核高度与图谱高度相乘后与第一层的图谱高度作比值,得到第i层特征图谱层所使用的卷积核在RGB图片上的卷积核图片高度,以及根据卷积核图片长度和卷积核图片高度得到第二面积。
进一步地,第一获取子单元1311,具体用于对连通域内每个像素点的景深进行求和,将求和后的数值与连通域的面积做比值,得到连通域的平均距离。
进一步地,检测模块15,具体用于利用目标特征图谱层的卷积核对特征图谱进行特征向量提取,利用提取到的特征向量进行坐标回归运算,得到至少一个待测物体的在所述RGB图像中候选检测结果,以及基于极大值抑制算法或者聚类算法从候选检测结果中确定出待测物体的检测结果。
本发明实施例的物体检测装置,通过从景深图片中提取连通域,并获取对连通域坐标回归时所处的目标特征图谱层,然后连通域对应的RGB图片输入到神经网络中进行处理直到目标特征图谱层,最后对在目标特征图谱层得到的特征图谱进行坐标回归得到目标区域中的待测物体的检测结果。由此,通过连通域缩小物体检测区域,只将连通域对应的RGB图片输入到神经网络中进行处理,节省大量的计算消耗,仅将在目标特征图谱层得到的特征图谱进行坐标回归,加快物体检测速度,提高了物体检测效率。
图8是根据本发明另一个实施例的物体检测装置的结构示意图。该物体检测装置包括:
存储器21、处理器22及存储在存储器21上并可在处理器22上运行的计算机程序。
处理器22执行所述程序时实现上述实施例中提供的物体检测方法。
进一步地,物体检测装置还包括:
通信接口23,用于存储器21和处理器22之间的通信。
存储器21,用于存放可在处理器22上运行的计算机程序。
存储器21可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
处理器22,用于执行所述程序时实现上述实施例所述的物体检测方法。
如果存储器21、处理器22和通信接口23独立实现,则通信接口21、存储器21和处理器22可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器21、处理器22及通信接口23,集成在一块芯片上实现,则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。
处理器22可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (12)
1.一种物体检测方法,其特征在于,包括以下步骤:
获取待测物体的景深图片和RGB图片;
从所述景深图片中提取连通域;
获取对所述连通域坐标回归时所处的目标特征图谱层;其中,所述获取所述连通域坐标回归时所处的目标特征图谱层,包括:计算所述待测物体在所述RGB图片上的第一面积;计算各特征图谱层所使用的卷积核在所述RGB图片上的第二面积;计算所述第一面积与各特征图谱层对应的所述第二面积之间的差值;确定所有差值中最小差值对应的所述第二面积所在的层为所述目标特征图谱层;
将所述RGB图片中的目标区域输入到神经网络中进行处理直到所述目标特征图谱层,其中,所述目标区域为所述RGB图片中与包括所述待测物体的所述连通域对应的区域;
对在所述目标特征图谱层得到的特征图谱进行坐标回归,获取所述目标区域中的所述待测物体的检测结果;其中,所述检测结果包括所述待测物体在所述RGB图片中的坐标和边框。
2.根据权利要求1所述的物体检测方法,其特征在于,所述从所述景深图片中提取连通域,包括:
根据景深二维分布函数,获取所述景深图片中各像素点的景深;
如果相邻的两个像素点的景深之间的差值小于等于预设的景深阈值,则确定所述两个像素点属于同一个连通域;
利用连续的且属于同一个连通域的所有像素点,为所述景深图片构建所述连通域。
3.根据权利要求1所述的物体检测方法,其特征在于,所述计算所述待测物体在所述RGB图片上的第一面积,包括:
获取所述连通域距离摄像头的平均距离;
获取所述待测物体的实际长度和实际高度;
将所述摄像头的焦距与所述实际长度相乘,将相乘后的结果与所述平均距离作比值得到所述待测物体的图片长度;
将所述摄像头的焦距与所述实际高度相乘,将相乘后的结果与所述平均距离作比值得到所述待测物体的图片高度;
根据所述图片长度和所述图片高度得到所述第一面积。
4.根据权利要求1所述的物体检测方法,其特征在于,所述计算各特征图谱层所使用的卷积核在所述RGB图片上的第二面积,包括:
获取在第i层特征图谱层对所述目标区域进行采样所得到的特征图谱的图谱长度和图谱高度;其中,1≤i≤N;
获取该特征图谱层所使用的卷积核的卷积核长度和卷积核高度;
将所述卷积核长度与所述图谱长度相乘后与第一层的图谱长度作比值,得到第i层特征图谱层所使用的卷积核在所述RGB图片上的卷积核图片长度;
将所述卷积核高度与所述图谱高度相乘后与第一层的图谱高度作比值,得到第i层特征图谱层所使用的卷积核在所述RGB图片上的卷积核图片高度;
根据所述卷积核图片长度和所述卷积核图片高度得到所述第二面积。
5.根据权利要求3所述的物体检测方法,其特征在于,所述获取所述连通域距离摄像头的平均距离,包括:
对所述连通域内每个像素点的景深进行求和;
将求和后的数值与所述连通域的面积做比值,得到所述连通域的所述平均距离。
6.根据权利要求1-5任一项所述的物体检测方法,其特征在于,所述对在所述目标特征图谱层得到的特征图谱进行坐标回归,识别所述目标区域中的所述待测物体,包括:
利用所述目标特征图谱层的所述卷积核对所述特征图谱进行特征向量提取;
利用提取到的所述特征向量进行坐标回归运算,得到至少一个所述待测物体的在所述RGB图像中候选结果,其中所述候选结果中包括所述待测物体在所述RGB图像中的坐标和边框;
基于极大值抑制算法或者聚类算法从所述候选结果中确定出所述待测物体的实际坐标和边框。
7.一种物体检测装置,其特征在于,包括:
图片获取模块,用于获取待测物体的景深图片和RGB图片;
提取模块,用于从所述景深图片中提取连通域;
获取模块,用于获取所述连通域坐标回归时所处的目标特征图谱层;其中,所述获取模块,包括:第一计算单元,用于计算所述待测物体在所述RGB图片上的第一面积;第二计算单元,用于计算各特征图谱层所使用的卷积核在所述RGB图片上的第二面积;确定单元,用于计算所述第一面积与各特征图谱层对应的所述第二面积之间的差值,确定所有差值中最小差值对应的所述第二面积所在的层为所述目标特征图谱层;
处理模块,用于将所述RGB图片中的目标区域输入到神经网络中进行处理直到所述目标特征图谱层,其中,所述目标区域为所述RGB图片中与包括所述待测物体的所述连通域对应的区域;
检测模块,用于对在所述目标特征图谱层得到的特征图谱进行坐标回归,得到所述目标区域中的所述待测物体的检测结果;其中,所述检测结果包括所述待测物体在所述RGB图片中的坐标和边框。
8.根据权利要求7所述的物体检测装置,其特征在于,所述提取模块具体用于:
根据景深二维分布函数,获取所述景深图片中各像素点的景深;
如果相邻的两个像素点的景深之间的差值小于等于预设的景深阈值,则确定所述两个像素点属于同一个连通域;
利用连续的且属于同一个连通域的所有像素点,为所述景深图片构建所述连通域。
9.根据权利要求7所述的物体检测装置,其特征在于,所述第一计算单元,包括:
第一获取子单元,用于获取所述连通域距离摄像头的平均距离;
第二获取子单元,用于获取所述待测物体的实际长度和实际高度;
第三获取子单元,用于获将所述摄像头的焦距与所述实际长度相乘,将相乘后的结果与所述平均距离作比值得到所述待测物体的图片长度,以及将所述摄像头的焦距与所述实际高度相乘,将相乘后的结果与所述平均距离作比值得到所述待测物体的图片高度;
第四获取子单元,用于根据所述图片长度和所述图片高度得到所述第一面积。
10.根据权利要求7所述的物体检测装置,其特征在于,所述第二计算单元,具体用于获取在第i层特征图谱层对所述目标区域进行采样所得到的特征图谱的图谱长度和图谱高度,其中,1≤i≤N,获取该特征图谱层所使用的卷积核的卷积核长度和卷积核高度,将所述卷积核长度与所述图谱长度相乘后与第一层的图谱长度作比值,得到第i层特征图谱层所使用的卷积核在所述RGB图片上的卷积核图片长度,将所述卷积核高度与所述图谱高度相乘后与第一层的图谱高度作比值,得到第i层特征图谱层所使用的卷积核在所述RGB图片上的卷积核图片高度,以及根据所述卷积核图片长度和所述卷积核图片高度得到所述第二面积。
11.根据权利要求9所述的物体检测装置,其特征在于,所述第一获取子单元,具体用于对所述连通域内每个像素点的景深进行求和,将求和后的数值与所述连通域的面积做比值,得到所述连通域的所述平均距离。
12.根据权利要求7-11任一项所述的物体检测装置,其特征在于,所述检测模块,具体用于利用所述目标特征图谱层的所述卷积核对所述特征图谱进行特征向量提取,利用提取到的所述特征向量进行坐标回归运算,得到至少一个所述待测物体的在所述RGB图像中候选检测结果,以及基于极大值抑制算法或者聚类算法从所述候选检测结果中确定出所述待测物体的所述检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710309200.9A CN107221005B (zh) | 2017-05-04 | 2017-05-04 | 物体检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710309200.9A CN107221005B (zh) | 2017-05-04 | 2017-05-04 | 物体检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107221005A CN107221005A (zh) | 2017-09-29 |
CN107221005B true CN107221005B (zh) | 2020-05-08 |
Family
ID=59943806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710309200.9A Active CN107221005B (zh) | 2017-05-04 | 2017-05-04 | 物体检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107221005B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102018115001A1 (de) | 2018-06-21 | 2019-12-24 | Carl Zeiss Microscopy Gmbh | Verfahren zum Kalibrieren einer Phasenmaske und Mikroskop |
CN109344772B (zh) * | 2018-09-30 | 2021-01-26 | 中国人民解放军战略支援部队信息工程大学 | 基于谱图和深度卷积网络的超短波特定信号侦察方法 |
CN109448058A (zh) * | 2018-11-12 | 2019-03-08 | 北京拓疆者智能科技有限公司 | 装载位置三维坐标获取方法、***及图像识别设备 |
CN111127395B (zh) * | 2019-11-19 | 2023-04-07 | 中国人民解放军陆军军医大学第一附属医院 | 一种基于swi图像和循环神经网络的血管识别方法 |
CN112991253B (zh) * | 2019-12-02 | 2024-05-31 | 合肥美亚光电技术股份有限公司 | 中心区域确定方法、异物剔除方法、装置及检测设备 |
CN112991280B (zh) * | 2021-03-03 | 2024-05-28 | 望知科技(深圳)有限公司 | 视觉检测方法、***及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8787663B2 (en) * | 2010-03-01 | 2014-07-22 | Primesense Ltd. | Tracking body parts by combined color image and depth processing |
CN104143080A (zh) * | 2014-05-21 | 2014-11-12 | 深圳市唯特视科技有限公司 | 基于三维点云的三维人脸识别装置及方法 |
CN104751559A (zh) * | 2015-03-25 | 2015-07-01 | 深圳怡化电脑股份有限公司 | 验钞装置及验钞方法 |
CN105059190A (zh) * | 2015-08-17 | 2015-11-18 | 上海交通大学 | 基于视觉的汽车开门碰撞预警装置及方法 |
CN105279484A (zh) * | 2015-10-10 | 2016-01-27 | 北京旷视科技有限公司 | 对象检测方法和对象检测装置 |
CN106355573A (zh) * | 2016-08-24 | 2017-01-25 | 北京小米移动软件有限公司 | 图片中目标物的定位方法及装置 |
-
2017
- 2017-05-04 CN CN201710309200.9A patent/CN107221005B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8787663B2 (en) * | 2010-03-01 | 2014-07-22 | Primesense Ltd. | Tracking body parts by combined color image and depth processing |
CN104143080A (zh) * | 2014-05-21 | 2014-11-12 | 深圳市唯特视科技有限公司 | 基于三维点云的三维人脸识别装置及方法 |
CN104751559A (zh) * | 2015-03-25 | 2015-07-01 | 深圳怡化电脑股份有限公司 | 验钞装置及验钞方法 |
CN105059190A (zh) * | 2015-08-17 | 2015-11-18 | 上海交通大学 | 基于视觉的汽车开门碰撞预警装置及方法 |
CN105279484A (zh) * | 2015-10-10 | 2016-01-27 | 北京旷视科技有限公司 | 对象检测方法和对象检测装置 |
CN106355573A (zh) * | 2016-08-24 | 2017-01-25 | 北京小米移动软件有限公司 | 图片中目标物的定位方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107221005A (zh) | 2017-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107221005B (zh) | 物体检测方法及装置 | |
CN109685060B (zh) | 图像处理方法和装置 | |
JP7417555B2 (ja) | 人体ポーズ分析システム及び方法 | |
WO2018120038A1 (zh) | 一种目标检测的方法及装置 | |
CN107633237B (zh) | 图像背景分割方法、装置、设备及介质 | |
CN108986152B (zh) | 一种基于差分图像的异物检测方法及装置 | |
Elbakary et al. | Shadow detection of man-made buildings in high-resolution panchromatic satellite images | |
CN107025660B (zh) | 一种确定双目动态视觉传感器图像视差的方法和装置 | |
CN107944403B (zh) | 一种图像中的行人属性检测方法及装置 | |
CN109816694B (zh) | 目标跟踪方法、装置及电子设备 | |
CN114155365B (zh) | 模型训练方法、图像处理方法及相关装置 | |
CN111383252B (zh) | 多相机目标追踪方法、***、装置及存储介质 | |
Fu et al. | Edge-aware deep image deblurring | |
Chen et al. | Fast defocus map estimation | |
CN108875500B (zh) | 行人再识别方法、装置、***及存储介质 | |
CN111814682A (zh) | 人脸活体检测方法及装置 | |
CN108960247B (zh) | 图像显著性检测方法、装置以及电子设备 | |
CN111476812A (zh) | 地图分割方法、装置、位姿估计方法和设备终端 | |
CN115631210A (zh) | 一种边缘检测方法及装置 | |
KR101921608B1 (ko) | 깊이 정보 생성 장치 및 방법 | |
JP6754717B2 (ja) | 物体候補領域推定装置、物体候補領域推定方法、及び物体候補領域推定プログラム | |
CN111414823B (zh) | 人体特征点的检测方法、装置、电子设备以及存储介质 | |
CN111179245B (zh) | 图像质量检测方法、装置、电子设备和存储介质 | |
Ma et al. | Local blur mapping: Exploiting high-level semantics by deep neural networks | |
JP2019211914A (ja) | 物体らしさ推定装置、方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20201218 Address after: 528311 4 Global Innovation Center, industrial road, Beijiao Town, Shunde District, Foshan, Guangdong, China Patentee after: GUANGDONG MEIDI WHITE HOUSEHOLD ELECTRICAL APPLIANCE TECHNOLOGY INNOVATION CENTER Co.,Ltd. Patentee after: MIDEA GROUP Co.,Ltd. Address before: 528311, 26-28, B District, Mei headquarters building, 6 Mei Road, Beijiao Town, Shunde District, Foshan, Guangdong. Patentee before: MIDEA GROUP Co.,Ltd. |
|
TR01 | Transfer of patent right |