CN109448058A - 装载位置三维坐标获取方法、***及图像识别设备 - Google Patents

装载位置三维坐标获取方法、***及图像识别设备 Download PDF

Info

Publication number
CN109448058A
CN109448058A CN201811342722.XA CN201811342722A CN109448058A CN 109448058 A CN109448058 A CN 109448058A CN 201811342722 A CN201811342722 A CN 201811342722A CN 109448058 A CN109448058 A CN 109448058A
Authority
CN
China
Prior art keywords
loaded
image
coordinate
camera
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811342722.XA
Other languages
English (en)
Inventor
敖川
隋少龙
张越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Pioneer Intelligent Technology Co Ltd
Original Assignee
Beijing Pioneer Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Pioneer Intelligent Technology Co Ltd filed Critical Beijing Pioneer Intelligent Technology Co Ltd
Priority to CN201811342722.XA priority Critical patent/CN109448058A/zh
Publication of CN109448058A publication Critical patent/CN109448058A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种装载位置三维坐标获取方法、***及图像识别设备,涉及图像识别技术领域,通过摄像头获取装载位置所在场景的RGB图像和深度图像,RGB图像和深度图像相互配准;利用深度学习模型对RGB图像进行处理,得到装载位置的候选区域;从候选区域中筛选出包含装载位置的目标区域,并从目标区域中提取装载位置的图像坐标;根据图像坐标、深度图像以及摄像头参数得到装载位置的三维坐标。本发明可以实时获取装载位置所在场景的图像,并识别装载位置在图像中的坐标,从而得到装载位置的三维坐标,不受挖掘机和装载车之间的位置限制,识别准确度较高,并且可以提高工作效率。

Description

装载位置三维坐标获取方法、***及图像识别设备
技术领域
本发明涉及图像识别技术领域,尤其是涉及一种装载位置三维坐标获取方法、***及图像识别设备。
背景技术
在挖掘机工作过程中,在挖掘机铲起目标物料后,根据识别到的装载车车斗的三维坐标,结合该坐标及铲斗当前位置生成轨迹,然后通过反馈控制将物料准确放入到装载车车斗中。
在传统工程机械领域,可以在装载位置和挖掘机位置整体固定不变时,依靠两者间固定的空间关系完成装载位置的三维坐标获取。但是存在以下缺点:需要挖掘机和装载车的位置固定不变,实际应用场景有限;存在误差积累现象,识别不准确,将最终导致控制失效;需要在工作一段时间后进行误差纠正,从而导致工作效率较低。
发明内容
有鉴于此,本发明的目的在于提供一种装载位置三维坐标获取方法、***及图像识别设备,以缓解现有的装载位置识别方法存在的应用场景有限、识别不准确以及工作效率较低的技术问题。
第一方面,本发明实施例提供了一种装载位置三维坐标获取方法,包括:
通过摄像头获取装载位置所在场景的RGB图像和深度图像,所述RGB图像和所述深度图像相互配准;
利用深度学习模型对所述RGB图像进行处理,得到所述装载位置的候选区域;
从所述候选区域中筛选出包含所述装载位置的目标区域,并从所述目标区域中提取所述装载位置的图像坐标;
根据所述图像坐标、所述深度图像以及摄像头参数得到所述装载位置的三维坐标。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,利用深度学习模型对所述RGB图像进行处理,得到所述装载位置的候选区域的步骤,包括:
将所述RGB图像输入特征提取网络,得到所述RGB图像的特征图;
将所述特征图输入候选区域生成网络,生成多个候选矩形区域;
根据多个所述候选矩形区域对所述特征图进行兴趣区域池化处理,得到多个尺寸相同的特征图;
通过分类回归网络对多个所述尺寸相同的特征图进行分类,得到每个所述候选矩形区域的类别信息,并获取所述候选矩形区域的位置姿态信息;
根据所述类别信息选择所述装载位置的候选区域,同时得到所述候选区域的位置姿态信息。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,根据所述图像坐标、所述深度图像以及摄像头参数得到所述装载位置的三维坐标的步骤,包括:
从所述深度图像中获取所述图像坐标的Z坐标,得到摄像头坐标系下的三维坐标;
根据所述摄像头参数将所述摄像头坐标系转换为世界坐标系,得到世界坐标系下的三维坐标。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,从所述深度图像中获取所述图像坐标的Z坐标,得到摄像头坐标系下的三维坐标的步骤,包括:
从所述深度图像中获取深度值,并将所述深度值作为Z坐标;其中,所述深度值为以所述图像坐标为中心的预设尺寸的矩形范围内的平均值。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述方法还包括所述深度学习模型的训练过程,包括:
获取不同型号的装载车在不同场景、不同时间或不同姿态下的RGB图像;
标注每一张所述RGB图像中的装载位置以及姿态信息,其中,所述装载位置包括矩形框,所述姿态信息表示所述矩形框的长边与图像x轴的夹角;
将标注后的RGB图像分为训练集、验证集和测试集,通过优化算法训练得到所述深度学习模型。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,通过摄像头获取装载位置所在场景的RGB图像和深度图像的步骤,包括:
通过深度相机的摄像头获取装载位置所在场景的RGB图像和深度图像;其中,所述深度相机至少包括双目相机、结构光相机和TOF深度相机中的一种。
第二方面,本发明实施例还提供一种装载位置三维坐标获取***,包括:
图像获取模块,用于通过摄像头获取装载位置所在场景的RGB图像和深度图像,所述RGB图像和所述深度图像相互配准;
深度学习模块,用于利用深度学习模型对将所述RGB图像进行处理,得到所述装载位置的候选区域;
筛选模块,用于从所述候选区域中筛选出包含所述装载位置的目标区域,并从所述目标区域中提取所述装载位置的图像坐标;
三维坐标获取模块,用于根据所述图像坐标、所述深度图像以及摄像头参数得到所述装载位置的三维坐标。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述深度学习模块还用于:
将所述RGB图像输入特征提取网络,得到所述RGB图像的特征图;
将所述特征图输入候选区域生成网络,生成多个候选矩形区域;
根据多个所述候选矩形区域对所述特征图进行兴趣区域池化处理,得到多个尺寸相同的特征图;
通过分类回归网络对多个所述尺寸相同的特征图进行分类,得到每个所述候选矩形区域的类别信息,并获取所述候选矩形区域的位置姿态信息;
根据所述类别信息选择所述装载位置的候选区域,同时得到所述候选区域的位置姿态信息。
结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述三维坐标获取模块还用于:
从所述深度图像中获取所述图像坐标的Z坐标,得到摄像头坐标系下的三维坐标;
根据所述摄像头参数将所述摄像头坐标系转换为世界坐标系,得到世界坐标系下的三维坐标。
第二方面,本发明实施例还提供一种图像识别设备,包括摄像头和处理器;
所述摄像头,用于获取装载位置所在场景的RGB图像和深度图像,所述RGB图像和所述深度图像相互配准;
所述处理器,用于执行如第一方面所述的装载位置三维坐标获取方法。
本发明实施例带来了以下有益效果:
本发明实施例提供的一种装载位置三维坐标获取方法,通过摄像头获取装载位置所在场景的RGB图像和深度图像,RGB图像和深度图像相互配准;利用深度学习模型对RGB图像进行处理,得到装载位置的候选区域;从候选区域中筛选出包含装载位置的目标区域,并从目标区域中提取装载位置的图像坐标;根据图像坐标、深度图像以及摄像头参数得到装载位置的三维坐标。该方法可以实时获取装载位置所在场景的图像,并识别装载位置在图像中的坐标,从而得到装载位置的三维坐标,不受挖掘机和装载车之间的位置限制,识别准确度较高,并且可以提高工作效率。
本发明实施例提供的一种装载位置三维坐标获取***以及图像识别设备,与装载位置三维坐标获取方法可以达到相同的技术效果。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的装载位置三维坐标获取方法的流程图;
图2为本发明实施例提供的装载位置三维坐标获取方法的另一流程图;
图3为本发明实施例提供的装载位置三维坐标获取***的示意图;
图4为本发明实施例提供的电子设备的示意图。
图标:10-图像获取模块;20-深度学习模块;30-筛选模块;40-三维坐标获取模块;1000-图像识别设备;500-处理器;501-存储器;502-总线;503-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,在传统工程机械领域,可以在装载位置和挖掘机位置整体固定不变时,依靠两者间固定的空间关系完成装载位置的三维坐标获取。但是存在以下缺点:需要挖掘机和装载车的位置固定不变,实际应用场景有限;存在误差积累现象,识别不准确,将最终导致控制失效;需要在工作一段时间后进行误差纠正,从而导致工作效率较低。基于此,本发明实施例提供的一种装载位置三维坐标获取方法、***及图像识别设备,可以不受挖掘机和装载车之间的位置限制,识别准确度较高,并且可以提高工作效率。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种装载位置三维坐标获取方法进行详细介绍。
图1示出了本发明实施例提供的装载位置三维坐标获取方法的流程图。
如图1所示,本发明实施例提供了一种装载位置三维坐标获取方法,包括以下步骤:
步骤S101,通过摄像头获取装载位置所在场景的RGB图像和深度图像,RGB图像和深度图像相互配准;
具体地,通过深度相机的摄像头获取装载位置所在场景的RGB图像和深度图像;其中,深度相机至少包括双目相机、结构光相机和TOF深度相机中的一种。
在实际应用中,装载位置为装载车斗的位置,深度相机可以在Windows、Linux及Mac OS三种操作***下搭配相应的驱动程序将场景光信号转变成电信号,从而获取装载位置所在场景的原始数据,该原始数据与具体采用的相机类型有关系。如果采用的是双目相机,原始数据就是两个摄像头的RGB信息,根据这两个RGB信息可以计算出深度信息,从而得到RGB图像和深度图像。如果是TOF深度相机,原始数据就是摄像头的RGB信息和光发出返回的时间差,通过时间差计算深度信息,即物体和摄像头之间的距离。深度图像和RGB图像相互配准是指深度图像和RGB图像重合。
步骤S102,利用深度学习模型对RGB图像进行处理,得到装载位置的候选区域;
本步骤中的深度学习模型的训练采用反向传播算法,具体训练过程包括:
获取不同型号的装载车在不同场景、不同时间或不同姿态下的RGB图像;标注每一张RGB图像中的装载位置以及姿态信息,其中,装载位置包括矩形框,姿态信息表示矩形框的长边与图像x轴的夹角;具体地,矩形框和姿态信息可以表示为旋转矩形框(x,y,w,h,a),其中(x,y)表示装载位置的图像中心坐标,(w,h)表示装载位置的图像宽度和高度,a表示装载位置的图像姿态,定义为矩形框长边(矩形框两条边中较长的边)与图像x轴的夹角,范围为[-90度,90度)。
将标注后的RGB图像分为训练集、验证集和测试集,通过优化算法训练得到深度学习模型。可选地,优化算法采用SGD、ADAM、ADAGRADE或ADADELTA。将训练得到的测试集上表现最好的模型作为最终模型进行部署,从而得到深度学习模型。
应当注意的是,上述训练步骤会根据模型在部署之后出现的异常现象而重新进行,从而确保整个***正确稳定运转。
本发明实施例中,如图2所示,步骤S102包括以下步骤:
步骤S201,将RGB图像输入特征提取网络,得到RGB图像的特征图;
具体地,特征提取网络包括由卷积层、池化层和跨越连接组成的骨干网络。一般可使用去掉倒数几层分类层的VGG、ResNet或Inception等网络架构作为特征提取网络。输入的RGB图像经过特征提取网络之后得到表征该图像的特征图。特征图一般相比于输入图像在尺寸上大幅减少,而在通道数上大幅增加。
步骤S202,将特征图输入候选区域生成网络,生成多个候选矩形区域;
本步骤中,候选区域生成网络一般由较少层数的卷积层和池化层堆叠而成。候选区域生成网络将特征图作为输入,生成一定数量(比如2000)的候选矩形区域,每个候选矩形区域用(x,y,w,h)表示,其中(x,y)表示候选矩形区域的中心坐标,(w,h)分别表示候选矩形区域的图像宽度和高度,此处的候选矩形区域是横平竖直的普通矩形。
步骤S203,根据多个候选矩形区域对特征图进行兴趣区域池化处理,得到多个尺寸相同的特征图;
具体地,RoI Pooling层收集输入的特征图和多个候选矩形区域,将多个尺寸不同的候选矩形区域内的特征图变为尺寸相同的特征图,该尺寸相同的特征图代表每一个候选矩形区域。RoI Pooling层的特点是输入特征图尺寸不固定,但是输出特征图尺寸固定。
步骤S204,通过分类回归网络对多个尺寸相同的特征图进行分类,得到每个候选矩形区域的类别信息,并获取候选矩形区域的位置姿态信息;
本步骤中,分类回归网络一般由卷积层、池化层和全连接层堆叠而成。分类回归网络对统一尺寸后的代表每一个候选矩形区域的特征图进行分类,得到每一个候选矩形区域的类别信息,类别信息具体为包含装载位置和不包含装载位置这两类。每一个候选矩形区域包含装载位置的概率已知,在进行分类时,设定一个阈值,例如0.8,当候选矩形区域的概率大于该阈值时,认为其包含装载位置,否则不包含。同时,分类回归网络还会预测候选矩形区域的旋转角度,即获取位置姿态信息。
步骤S205,根据类别信息选择装载位置的候选区域,同时得到候选区域的位置姿态信息。
具体地,选择包含装载位置的候选矩形区域作为装载位置的候选区域。
步骤S103,从候选区域中筛选出包含装载位置的目标区域,并从目标区域中提取装载位置的图像坐标;
结合装载车数据库中的实际特征对候选区域进行筛选,得到满足预设条件的候选区域,即包含装载位置的目标区域;其中,装载车数据库主要包括装载车型号、车斗颜色、车斗长、车斗宽、车斗厚度等实际特征信息;预设条件比如矩形框的长宽比和实际的长宽比差别不大,整体的面积和实际相差不大,大部分的距离在合理范围内等。
步骤S104,根据图像坐标、深度图像以及摄像头参数得到装载位置的三维坐标。
本发明实施例中,步骤S104包括:从深度图像中获取图像坐标的Z坐标,得到摄像头坐标系下的三维坐标;根据摄像头参数将摄像头坐标系转换为世界坐标系,得到世界坐标系下的三维坐标。
具体地,根据图像坐标从配准的深度图像中获取深度值,并将深度值作为Z坐标;为了提升结果的鲁棒性和平滑性,从深度图中获取深度值时,可以以装载位置图像坐标为中心的一定尺寸(如3x3、5x5、7x7)的矩形范围内的平均值作为距离,即深度值。
需要说明的是,在无自然光或者弱自然光的条件下,本发明实施例可以添加外部照明***,从而确保可以获取装载位置所在场景的图像,进而准确获取装载位置的三维坐标。
本发明实施例可以提高获取装载位置的三维坐标的工作效率,可长时间不间断工作,且识别精度较高,适用于装卸易碎物品等对识别精度要求较高的场景中。另外,相对于依靠固定位置获取装载位置的三维坐标的方式使用场景更广,在一定范围内,挖掘机及装载位置之间可以任意移动。且由于可以实时检测,不存在误差积累现象,从而使得控制稳定。
如图3所示,本发明实施例还提供一种装载位置三维坐标获取***,包括:
图像获取模块10,用于通过摄像头获取装载位置所在场景的RGB图像和深度图像,RGB图像和深度图像相互配准;
深度学习模块20,用于利用深度学习模型对RGB图像进行处理,得到装载位置的候选区域;
筛选模块30,用于从候选区域中筛选出包含装载位置的目标区域,并从目标区域中提取装载位置的图像坐标;
三维坐标获取模块40,用于根据图像坐标、深度图像以及摄像头参数得到装载位置的三维坐标。
进一步地,深度学习模块20还用于:
将RGB图像输入特征提取网络,得到RGB图像的特征图;
将特征图输入候选区域生成网络,生成多个候选矩形区域;
对多个候选矩形区域进行兴趣区域池化处理,得到多个尺寸相同的特征图;
通过分类回归网络对多个尺寸相同的特征图进行分类,得到每个候选矩形区域的类别信息,并获取候选矩形区域的位置姿态信息;
根据类别信息装载位置的候选区域,同时得到候选区域的位置姿态信息。
进一步地,三维坐标获取模块40还用于:
从深度图像中获取图像坐标的Z坐标,得到摄像头坐标系下的三维坐标;
根据摄像头参数将摄像头坐标系转换为世界坐标系,得到世界坐标系下的三维坐标。
本发明实施例还提供一种图像识别设备,包括摄像头和处理器;
摄像头,用于获取装载位置所在场景的RGB图像和深度图像,RGB图像和深度图像相互配准;
处理器,用于执行上述的装载位置三维坐标获取方法。
本发明实施例提供的图像识别设备,与上述实施例提供的装载位置三维坐标获取方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例还提供一种电子设备,包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例提供的装载位置三维坐标获取方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述实施例的装载位置三维坐标获取方法的步骤。
参见图4,本发明实施例提供的一种电子设备1000,包括:处理器500,存储器501,总线502和通信接口503,处理器500、通信接口503和存储器501通过总线502连接;存储器501用于存储程序;处理器500用于通过总线502调用存储在存储器501中的程序,执行上述实施例的装载位置三维坐标获取方法。
其中,存储器501可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口503(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线502可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器501用于存储程序,处理器500在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器500中,或者由处理器500实现。
处理器500可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器500中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器500可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器501,处理器500读取存储器501中的信息,结合其硬件完成上述方法的步骤。
在本发明的描述中,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明实施例所提供的进行装载位置三维坐标获取方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种装载位置三维坐标获取方法,其特征在于,包括:
通过摄像头获取装载位置所在场景的RGB图像和深度图像,所述RGB图像和所述深度图像相互配准;
利用深度学习模型对所述RGB图像进行处理,得到所述装载位置的候选区域;
从所述候选区域中筛选出包含所述装载位置的目标区域,并从所述目标区域中提取所述装载位置的图像坐标;
根据所述图像坐标、所述深度图像以及摄像头参数得到所述装载位置的三维坐标。
2.根据权利要求1所述的方法,其特征在于,利用深度学习模型对所述RGB图像进行处理,得到所述装载位置的候选区域的步骤,包括:
将所述RGB图像输入特征提取网络,得到所述RGB图像的特征图;
将所述特征图输入候选区域生成网络,生成多个候选矩形区域;
根据多个所述候选矩形区域对所述特征图进行兴趣区域池化处理,得到多个尺寸相同的特征图;
通过分类回归网络对多个所述尺寸相同的特征图进行分类,得到每个所述候选矩形区域的类别信息,并获取所述候选矩形区域的位置姿态信息;
根据所述类别信息选择所述装载位置的候选区域,同时得到所述候选区域的位置姿态信息。
3.根据权利要求1所述的方法,其特征在于,根据所述图像坐标、所述深度图像以及摄像头参数得到所述装载位置的三维坐标的步骤,包括:
从所述深度图像中获取所述图像坐标的Z坐标,得到摄像头坐标系下的三维坐标;
根据所述摄像头参数将所述摄像头坐标系转换为世界坐标系,得到世界坐标系下的三维坐标。
4.根据权利要求3所述的方法,其特征在于,从所述深度图像中获取所述图像坐标的Z坐标,得到摄像头坐标系下的三维坐标的步骤,包括:
从所述深度图像中获取深度值,并将所述深度值作为Z坐标;其中,所述深度值为以所述图像坐标为中心的预设尺寸的矩形范围内的平均值。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括所述深度学习模型的训练过程,包括:
获取不同型号的装载车在不同场景、不同时间或不同姿态下的RGB图像;
标注每一张所述RGB图像中的装载位置以及姿态信息,其中,所述装载位置包括矩形框,所述姿态信息表示所述矩形框的长边与图像x轴的夹角;
将标注后的RGB图像分为训练集、验证集和测试集,通过优化算法训练得到所述深度学习模型。
6.根据权利要求1所述的方法,其特征在于,通过摄像头获取装载位置所在场景的RGB图像和深度图像的步骤,包括:
通过深度相机的摄像头获取装载位置所在场景的RGB图像和深度图像;其中,所述深度相机至少包括双目相机、结构光相机和TOF深度相机中的一种。
7.一种装载位置三维坐标获取***,其特征在于,包括:
图像获取模块,用于通过摄像头获取装载位置所在场景的RGB图像和深度图像,所述RGB图像和所述深度图像相互配准;
深度学习模块,用于利用深度学习模型对将所述RGB图像进行处理,得到所述装载位置的候选区域;
筛选模块,用于从所述候选区域中筛选出包含所述装载位置的目标区域,并从所述目标区域中提取所述装载位置的图像坐标;
三维坐标获取模块,用于根据所述图像坐标、所述深度图像以及摄像头参数得到所述装载位置的三维坐标。
8.根据权利要求1所述的***,其特征在于,所述深度学习模块还用于:
将所述RGB图像输入特征提取网络,得到所述RGB图像的特征图;
将所述特征图输入候选区域生成网络,生成多个候选矩形区域;
根据多个所述候选矩形区域对所述特征图进行兴趣区域池化处理,得到多个尺寸相同的特征图;
通过分类回归网络对多个所述尺寸相同的特征图进行分类,得到每个所述候选矩形区域的类别信息,并获取所述候选矩形区域的位置姿态信息;
根据所述类别信息选择所述装载位置的候选区域,同时得到所述候选区域的位置姿态信息。
9.根据权利要求1所述的方法,其特征在于,所述三维坐标获取模块还用于:
从所述深度图像中获取所述图像坐标的Z坐标,得到摄像头坐标系下的三维坐标;
根据所述摄像头参数将所述摄像头坐标系转换为世界坐标系,得到世界坐标系下的三维坐标。
10.一种图像识别设备,其特征在于,包括摄像头和处理器;
所述摄像头,用于获取装载位置所在场景的RGB图像和深度图像,所述RGB图像和所述深度图像相互配准;
所述处理器,用于执行如权利要求1-6中任意一项所述的装载位置三维坐标获取方法。
CN201811342722.XA 2018-11-12 2018-11-12 装载位置三维坐标获取方法、***及图像识别设备 Pending CN109448058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811342722.XA CN109448058A (zh) 2018-11-12 2018-11-12 装载位置三维坐标获取方法、***及图像识别设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811342722.XA CN109448058A (zh) 2018-11-12 2018-11-12 装载位置三维坐标获取方法、***及图像识别设备

Publications (1)

Publication Number Publication Date
CN109448058A true CN109448058A (zh) 2019-03-08

Family

ID=65551769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811342722.XA Pending CN109448058A (zh) 2018-11-12 2018-11-12 装载位置三维坐标获取方法、***及图像识别设备

Country Status (1)

Country Link
CN (1) CN109448058A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902974A (zh) * 2019-04-11 2019-06-18 北京拓疆者智能科技有限公司 一种施工方案的生成方法及装置
CN111982911A (zh) * 2020-07-10 2020-11-24 深圳先进技术研究院 一种电路板缺陷的检测方法、装置、终端设备及存储介质
CN112881412A (zh) * 2021-02-01 2021-06-01 南京耘瞳科技有限公司 一种废钢产品中非金属异物检测方法
CN113312992A (zh) * 2021-05-18 2021-08-27 中山方显科技有限公司 一种基于多源传感器信息融合的动态物体感知及预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899869A (zh) * 2015-05-14 2015-09-09 浙江大学 基于rgb-d相机和姿态传感器的平面和障碍检测方法
CN106937910A (zh) * 2017-03-20 2017-07-11 杭州视氪科技有限公司 一种障碍物和坡道检测***及方法
CN107221005A (zh) * 2017-05-04 2017-09-29 美的集团股份有限公司 物体检测方法及装置
US9807365B2 (en) * 2015-12-08 2017-10-31 Mitsubishi Electric Research Laboratories, Inc. System and method for hybrid simultaneous localization and mapping of 2D and 3D data acquired by sensors from a 3D scene
CN108171748A (zh) * 2018-01-23 2018-06-15 哈工大机器人(合肥)国际创新研究院 一种面向机器人智能抓取应用的视觉识别与定位方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899869A (zh) * 2015-05-14 2015-09-09 浙江大学 基于rgb-d相机和姿态传感器的平面和障碍检测方法
US9807365B2 (en) * 2015-12-08 2017-10-31 Mitsubishi Electric Research Laboratories, Inc. System and method for hybrid simultaneous localization and mapping of 2D and 3D data acquired by sensors from a 3D scene
CN106937910A (zh) * 2017-03-20 2017-07-11 杭州视氪科技有限公司 一种障碍物和坡道检测***及方法
CN107221005A (zh) * 2017-05-04 2017-09-29 美的集团股份有限公司 物体检测方法及装置
CN108171748A (zh) * 2018-01-23 2018-06-15 哈工大机器人(合肥)国际创新研究院 一种面向机器人智能抓取应用的视觉识别与定位方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
宋艳: "基于图像特征的RGB-D视觉SLAM算法", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
王德海: "基于双目立体视觉的目标识别与抓取定位", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
项攀霄: "基于RGB-D的移动机器人目标检测与定位", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902974A (zh) * 2019-04-11 2019-06-18 北京拓疆者智能科技有限公司 一种施工方案的生成方法及装置
CN111982911A (zh) * 2020-07-10 2020-11-24 深圳先进技术研究院 一种电路板缺陷的检测方法、装置、终端设备及存储介质
CN111982911B (zh) * 2020-07-10 2023-08-25 深圳先进技术研究院 一种电路板缺陷的检测方法、装置、终端设备及存储介质
CN112881412A (zh) * 2021-02-01 2021-06-01 南京耘瞳科技有限公司 一种废钢产品中非金属异物检测方法
CN112881412B (zh) * 2021-02-01 2023-03-10 南京耘瞳科技有限公司 一种废钢产品中非金属异物检测方法
CN113312992A (zh) * 2021-05-18 2021-08-27 中山方显科技有限公司 一种基于多源传感器信息融合的动态物体感知及预测方法

Similar Documents

Publication Publication Date Title
CN109448058A (zh) 装载位置三维坐标获取方法、***及图像识别设备
CN108875723B (zh) 对象检测方法、装置和***及存储介质
CN110148196B (zh) 一种图像处理方法、装置以及相关设备
CN109658454B (zh) 一种位姿信息确定方法、相关装置及存储介质
CN110119148B (zh) 一种六自由度姿态估计方法、装置及计算机可读存储介质
CN109977997B (zh) 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
CN110717489A (zh) Osd的文字区域的识别方法、装置及存储介质
CN107194323A (zh) 车辆定损图像获取方法、装置、服务器和终端设备
CN106971185A (zh) 一种基于全卷积网络的车牌定位方法及装置
CN113822247B (zh) 基于航拍影像的违章建筑识别方法及***
CN110443212B (zh) 用于目标检测的正样本获取方法、装置、设备及存储介质
CN110309687A (zh) 一种二维码图像的校正方法及校正装置
CN110919653A (zh) 机器人的爬楼控制方法、装置、存储介质和机器人
CN110751620B (zh) 估算体积和重量的方法、电子设备及计算机可读存储介质
CN106971178A (zh) 行人检测和再识别的方法及装置
CN105956632A (zh) 一种检测目标的方法和装置
CN105335952B (zh) 匹配代价计算方法和装置、以及视差值计算方法和设备
CN109492639A (zh) 装载位置三维坐标获取方法、***及图像识别设备
CN106980851B (zh) 一种数据矩阵dm码的定位方法及装置
CN105427333A (zh) 视频序列图像的实时配准方法、***及拍摄终端
CN106778731B (zh) 一种车牌定位方法及终端
CN106778587B (zh) 基于无人机影像的飞行状态检测方法及装置
CN112052782A (zh) 基于环视的停车位识别方法、装置、设备及存储介质
CN110796230A (zh) 卷积神经网络的训练及使用方法、设备及存储介质
CN113191221B (zh) 基于全景相机的车辆检测方法、装置以及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190308

RJ01 Rejection of invention patent application after publication