CN105512674A - 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置 - Google Patents

基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置 Download PDF

Info

Publication number
CN105512674A
CN105512674A CN201510831645.4A CN201510831645A CN105512674A CN 105512674 A CN105512674 A CN 105512674A CN 201510831645 A CN201510831645 A CN 201510831645A CN 105512674 A CN105512674 A CN 105512674A
Authority
CN
China
Prior art keywords
checked
rgb
similarity
stereo matching
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510831645.4A
Other languages
English (en)
Other versions
CN105512674B (zh
Inventor
黄凯奇
赵鑫
程衍华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201510831645.4A priority Critical patent/CN105512674B/zh
Publication of CN105512674A publication Critical patent/CN105512674A/zh
Application granted granted Critical
Publication of CN105512674B publication Critical patent/CN105512674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于密集匹配子自适应相似性度量的RGB-D物体识别方法和装置,其中,该方法至少可以包括:提取待查询物体和参考物体的卷积神经网络特征;基于卷积神经网络特征,并融合RGB和深度信息,对参考物体和待查询物体进行密集匹配;基于密集匹配的结果,度量参考物体和所述待查询物体之间的相似性;基于参考物体和待查询物体之间的相似性,对待查询物体进行分类。通过本发明实施例,至少部分地解决了如何提高物体识别的鲁棒性的技术问题。

Description

基于密集匹配子自适应相似性度量的RGB-D物体识别方法和装置
技术领域
本发明实施例涉及模式识别、机器学习、计算机视觉技术领域,尤其是涉及一种基于密集匹配子自适应相似性度量的RGB-D物体识别方法和装置。
背景技术
随着计算机运算能力的飞速提升,计算机视觉、人工智能、机器感知等领域也迅猛发展。图像分类作为计算机视觉中的一个基本问题之一,也得到了长足的发展。图像分类就是利用计算机对图像进行智能分析,进而判断图像所属的类别。传统的图像分类算法一般仅仅依靠RGB图片来对物体进行识别,很容易受到光线变化、物体颜色变化以及背景嘈杂的干扰,在实际运用中很不鲁棒,精度也很难到用户需求。
深度传感技术的发展,像微软的Kinect,能够捕捉到高精度的深度图片,很好地弥补了传统的RGB图片的上述缺陷,为鲁棒性好、精度高的物体识别提供了可能性。在计算机视觉和机器人领域,有大量的研究探索如何有效地利用RGB和深度信息来提高物体识别的精度。这些算法基本上都可以归纳为模式识别中的三大环节:模式(特征)表达、相似性度量和分类器设计。由于现在的特征表达方法基本上都是与输入无关的,无法自适应输入图片中物体的任意尺度、视角和姿态,所以物体识别的鲁棒性差。
有鉴于此,特提出本发明。
发明内容
本发明实施例的主要目的在于提供一种基于密集匹配子自适应相似性度量的RGB-D物体识别方法和装置,其至少部分地解决了如何提高物体识别的鲁棒性的技术问题。
为了实现上述目的,根据本发明的一个方面,提供了以下技术方案:
一种基于密集匹配子自适应相似性度量的RGB-D物体识别方法,至少可以包括:
提取待查询物体和参考物体的卷积神经网络特征;
基于所述卷积神经网络特征,并融合RGB和深度信息,对所述参考物体和所述待查询物体进行密集匹配;
基于所述密集匹配的结果,度量所述参考物体和所述待查询物体之间的相似性;
基于所述参考物体和所述待查询物体之间的相似性,对所述待查询物体进行分类。
进一步地,利用以下公式来对所述参考物体和所述待查询物体进行密集匹配:
平滑项;ti表示待查询物体中第i个像素点在参考物体中找到的对应像素点的位移量;tj表示待查询物体中第j个像素点在参考物体中找到的对应像素点的位移量;Di(ti)表示两个匹配的像素点的卷积神经网络特征之间的差异;λ表示限定待查询物体中相邻像素点的结构关系的一个阈值;α和β表示数据项、平移项和平滑项之间的加权系数。
进一步地,所述数据项具体包括:
Di(ti)=θ·[frgb(pi|Ir)-frgb(pi+ti|Iq)]+
(1-θ)·[fdepth(pi|Ir)-fdepth(pi+ti|Iq)].
其中,frgb(pi|Iq),frgb(pi|Ir)是指待查询物体和参考物体的RGB图片中第i个像素点提取的卷积神经网络特征;fdepth(pi|Iq),fdepth(pi|Ir)是指提取的深度特征;θ是指RGB和深度信息的融合系数。
进一步地,所述度量所述参考物体和所述待查询物体之间的相似性,具体包括:
利用以下公式来度量所述参考物体和所述待查询物体之间的相似性:
s θ ( I r | I q ) = exp ( - γ - 1 Σ i D i ( t i ) ) ;
其中,γ表示尺度化因子;sθ(Ir|Iq)表示参考物体和待查询物体之间的相似度分数。
进一步地,所述利用以下公式来度量所述参考物体和所述待查询物体之间的相似性,
还具体包括:
s s u m ( I r | I q ) = Σ θ w θ × s θ ( I r | I q ) + b = w τ Φ I r | I q ;
其中,sθ是指与其对应的相似度分数,wθ是指权重系数,b表示融合的偏差因子;w表示融合的权重向量,Φ表示融合的分数向量。
进一步地,所述w通过rankingSVM算法,并利用以下公式来求解:
min 1 2 | | w | | 2 2 + CΣξ i , i + , i - s . t . ∀ ( I i , I i + , I i - ) ∈ Ω , ξ i , i + , i - ≥ 0 , w τ Φ I i + | I i - w τ Φ I i - | I i > 1 - ξ i , i + , i - . ∀ c ( I i ) = c ( I i + ) , c ( I i - ) ≠ c ( I i ) ;
其中,表示三元组数据库;Ii表示待查询物体;表示与所示待查询物体同类别的参考物体;表示与所示待查询物体不同类别的参考物体;ξ表示松弛变量;C表示惩罚参数。
进一步地,所述对待查询物体进行分类,具体包括:
利用以下公式来对所述待查询物体进行分类:
s v o t e ( I t ; c i ) = 1 K Σ I r ∈ c i s s u m ( I r | I t ) ;
其中,It表示待查询物体;ci表示检索的候选类的类别;K表示候选类中参考物体的个数。
根据本发明的另一个方面,还提供了一种基于密集匹配子自适应相似性度量的RGB-D物体识别装置,所述装置至少包括:
特征提取模块,用于提取待查询物体和参考物体的卷积神经网络特征;
密集匹配模块,用于基于所述卷积神经网络特征,并融合RGB和深度信息,对所述参考物体和所述待查询物体进行密集匹配;
相似性度量模块,用于基于所述密集匹配的结果,度量所述参考物体和所述待查询物体之间的相似性;
分类模块,用于基于所述参考物体和所述待查询物体之间的相似性,对所述待查询物体进行分类。
与现有技术相比,上述技术方案至少具有以下有益效果:
本发明实施例通过将卷积神经网络特征与RGB和深度信息相融合,来对参考物体和待查询物体进行密集匹配,并基于该密集匹配的结果,度量参考物体和待查询物体之间的相似性,再基于该相似性,对待查询物体进行分类。由此,能够很好地利用RGB和深度的互补性,提高了物体识别的鲁棒性。
当然,实施本发明的任一产品不一定需要同时实现以上所述的所有优点。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其它优点可通过在所写的说明书、权利要求书以及附图中所特别指出的方法来实现和获得。
需要说明的是,发明内容部分并非旨在标识出请求保护的主题的必要技术特征,也并非是用来确定请求保护的主题的保护范围。所要求保护的主题不限于解决在背景技术中提及的任何或所有缺点。
附图说明
附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:
图1为根据一示例性实施例示出的基于密集匹配子自适应相似性度量的RGB-D物体识别方法的流程图;
图2为根据另一示例性实施例示出的基于密集匹配子自适应相似性度量的RGB-D物体识别方法的流程图;
图3为根据一示例性实施例示出的基于密集匹配子自适应相似性度量的RGB-D物体识别装置的结构示意图;
图4为根据一示例性实施例示出的基于密集匹配的相似性度量的示意图;
图5a为根据一示例性实施例示出的基于密集匹配的重排序示意图;
图5b为根据另一示例性实施例示出的基于密集匹配的重排序示意图。
这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
下面结合附图以及具体实施例对本发明实施例解决的技术问题、所采用的技术方案以及实现的技术效果进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,并不是全部实施例。基于本申请中的实施例,本领域普通技术人员在不付出创造性劳动的前提下,所获的所有其它等同或明显变型的实施例均落在本发明的保护范围内。本发明实施例可以按照权利要求中限定和涵盖的多种不同方式来具体化。
需要说明的是,在下面的描述中,为了方便理解,给出了许多具体细节。但是很明显,本发明的实现可以没有这些具体细节。
需要说明的是,在没有明确限定或不冲突的情况下,本发明中的各个实施例及其中的技术特征可以相互组合而形成技术方案。
本发明实施例的核心思想是利用密集匹配来自适应待查询物体的尺度、视角、姿态,从而更加鲁棒的来检索数据库中的物体,并且设计多种密集匹配子来有效的融合RGB和深度信息来获得高精度的物体识别。
图1为根据一示例性实施例示出的基于密集匹配子自适应相似性度量的RGB-D物体识别方法的流程图。如图1所示,该方法至少可以包括步骤S102至步骤S108。
步骤S102:提取待查询物体和参考物体的卷积神经网络特征。
在该步骤中,卷积神经网络特征是三维矩阵特征。采用卷积神经网络特征来表达每个像素点,比单纯地用像素值来表达每个像素点具有更强的表达能力。优选地,采用无监督的卷积神经网络特征来表达每个像素点。通过卷积神经网络特征,来捕捉更加鲁棒的物体浅层特征(例如边沿信息)以及中层特征(例如物体部件信息),以对物体进行更好的表达。
步骤S104:基于卷积神经网络特征,并融合RGB和深度信息,对参考物体和待查询物体进行密集匹配。
在该步骤中,密集匹配的目的是使得参考物体能够按照待查询物体进行形变,从而使得它们具有相似的尺度、视角和姿态。在本质上,密集匹配是找到从参考物体到待查询物体的映射关系。
举例而言,做出如下定义:Iq表示待查询物体,Ir表示参考物体,pi=(x,y)表示参考物体Ir的一个像素点,pi′=(x′,y′)表示待查询物体Iq中与pi相匹配的那个像素点,记ti=(dx,dy)为位移量。
则:Ir中的每个像素都能在Iq中找到对应的匹配像素,即:
(x′,y′)=(x,y)+(dx,dy)(1)
在一个可选的实施例中,为了对参考物体和待查询物体进行密集匹配,借鉴光流中的图匹配方法,并将RGB和深度信息融合进来,定义一个包含数据项位移项 α Σ i | | t i | | 1 和平滑项 β Σ i , j ∈ N m i n ( | | t i - t j | | 1 , λ ) 的能量函数E(ti):
E ( t i ) = Σ i D i ( t i ) + α Σ i | | t i | | 1 + β Σ i , j ∈ N m i n ( | | t i - t j | | 1 , λ ) - - - ( 2 )
其中,ti表示待查询物体中第i个像素点在参考物体中找到的对应像素点的位移量;tj表示待查询物体中第j个像素点在参考物体中找到的对应像素点的位移量;Di(ti)表示两个匹配的像素点的卷积神经网络特征之间的差异;λ表示限定待查询物体中相邻像素点的结构关系的一个阈值;α和β表示数据项、平移项和平滑项之间的加权系数。
本领域技术人员应该能够理解:上述定义只是为了更好地说明本发明实施例,不视为是对本发明保护范围的不当限定。
通过对公示(2)中的能量函数进行最小化,就可以使得Iq中每个像素点都尽可能的在Ir中找到最相似的像素点,并且保证Iq中邻近的像素点在Ir中找到的相似点也是邻近的。这样,就能找到Iq中每一点在Ir中相对应的点,即得到映射关系M:Ir→Iq
下面对公示(2)中的每一项进行说明。
数据项是用来衡量待查询物体和参考物体这两个物体RGB和深度特征的差异性。与传统的光流的数据项相比,本发明实施例中的数据项包含了RGB和深度信息。
在一个可选的实施例中:
Di(ti)=θ·[frgb(pi|Ir)-frgb(pi+ti|Iq)]+
(3)
(1-θ)·[fdepth(pi|Ir)-fdepth(pi+ti|Iq)].
其中,frgb(pi|Iq),frgb(pi|Ir)是指待查询物体和参考物体的RGB图片中第i个像素点提取的卷积神经网络特征;fdepth(pi|Iq),fdepth(pi|Ir)是指提取的深度特征;θ是指RGB和深度信息的融合系数。
物体的局部结构具有相似性。
在实际应用中,在对能量函数E(ti)进行最小化的时候,即在使得待查询物体和参考物体的匹配关系满足下列关系:a.表观特征相似的像素点尽可能地匹配在一起(由数据项控制);b.相匹配的像素点位移不会太大,即限制物体之间不会存在太大的形变变化(由位移项控制);c.在待查询物体中邻近的局部像素点在参考物体中找到的匹配点也是邻近的(由平滑项控制),这样能够保证物体的局部结构进行相似性匹配。
经过密集匹配之后,参考物体能够自适应待查询物体的尺度、视角以及姿态。
步骤S106:基于密集匹配的结果,度量参考物体和待查询物体之间的相似性。
为了对物体进行识别,在一个可选的实施例中,将公式(2)得到的能量函数量化成相似度分数,即为:
s θ ( I r | I q ) = exp ( - γ - 1 Σ i D i ( t i ) ) - - - ( 4 )
其中,γ表示尺度化因子;Di(ti)表示两个匹配的像素点的卷积神经网络特征之间的差异;sθ(Ir|Iq)表示参考物体和待查询物体之间的相似度分数。
图4为根据一示例性实施例示出的基于密集匹配的相似性度量的示意图。图4示出了带匹配的物体对经过密集匹配之后的结果,以及再对密集匹配结果进行相似性度量之后的结果的示意图。从图中可以了解到经过相似性度量之后得到的RGB图片和深度图片的情况。
由于密集匹配可能会出现错误的匹配,造成误差。因此,在估计γ时采用的是鲁棒预测法。即:丢掉前5%误差最大的匹配能量值,将剩下的求其平均值作为γ。这一策略对噪声具有很大的鲁棒性。相似度分数的物理意义是:经过物体匹配(公式(2))之后,两个物体之间的尺度、视角以及姿态能够保存一致。这样,通过度量两者之间的相似度分数(公式(4)),即可以很好地衡量两个物体之间的相似度关系,相似度分数越高,说明待查询的物体的类别就越可能与参考物体的类别相同。
由于不存在一个完美的融合比例能够适应所有的类别或者任何一个类别。这是因为不同的类别对表观(RGB)和空间几何形状(深度)的依赖程度是不同的,即使是某一个类别,由于类内差和视角差异性,对表观和空间几何形状的依赖也会发生变化。
这就需要设计一组对应不同融合比例的密集匹配子,并且通过学习的方法来融合所有的匹配子,这称之为学习-融合策略。学习融合策略的目的就是要融合所有的匹配子得到一个最终的分数。
在一个可选的实施例中,假设一组θ∈[0,1],从而得到一组相似度分数sθ,融合所有的匹配子,得到一个最终的相似度分数:
s s u m ( I r | I q ) = Σ θ w θ × s θ ( I r | I q ) + b = w τ Φ I r | I q - - - ( 5 )
对于任意一个融合系数θ,sθ是指与其对应的相似度分数,wθ是指权重系数,b表示融合的偏差因子。将线性叠加写成向量点乘的形式,其中, w = [ w θ 1 , w θ 2 , ... , w θ N , b ] , Φ = [ s θ 1 , s θ 2 , ... , s θ N , 1 ] , w表示融合的权重向量,Φ表示融合的分数向量。
本领域技术人员应该能够理解,上述假设仅仅是为了更好地说明本发明,不应视为是对本发明的不当限定。
公式(5)的物理意义是:给定一个待查询物体Iq以及参考物体Ir,在度量两者之间的相似度时,本发明实施例采用不同的融合参数θ来得到不同的匹配关系(即匹配子),每种匹配子都可以通过公式(4)得到一个相似度分数Sθ。基于学习-融合的策略就是探究有效的融合所有的相似度分数来得到一个最终的分数,利用该最终的分数来度量物体之间最终的相似度关系。
在学习w的过程中,目标是其中,和IqIq来自同一个类别,而来自不同的类别。
学习的目的就是让同类之间相似度高于不同类之间的样本。
为了求解最优的w,在一个可选的实施例中,采用的是rankingSVM算法,其目标函数为:
min 1 2 | | w | | 2 2 + CΣξ i , i + , i - s . t . ∀ ( I i , I i + , I i - ) ∈ Ω , ξ i , i + , i - ≥ 0 , w τ Φ I i + | I i - w τ Φ I i - | I i > 1 - ξ i , i + , i - . ∀ c ( I i ) = c ( I i + ) , c ( I i - ) ≠ c ( I i ) - - - ( 6 )
其中,在此表示要优化的融合权重向量,表示融合的分数向量;表示三元组数据库;Ii表示待查询物体;表示与所示待查询物体同类别的参考物体;表示与所示待查询物体不同类别的参考物体;ξ表示松弛变量;C表示惩罚参数。
为了优化这一目标函数,需要预先构造这样的三元组数据库。在该数据库中,对于每个待查询物体Ii,会找到一个与待查询物体同类别的参考物体以及与待查询物体不同类别的参考物体这样Ii组成一个三元组。数据库Ω由大量的这种三元组组成。
利用rankingSVM算法来优化公式(6)的目的就是为了融合权重向量w能够保证同类别的物体之间的相似度分数要大于非同类物体之间的相似度分数。这样,提高了top-1的物体识别精度。
步骤S108:基于参考物体和待查询物体之间的相似性,对待查询物体进行分类。
在一个可选的实施例中,给定一个待查询物体It,利用基于特征的方法来检索最相近的T个候选类,在每个候选类中选取K个参考物体,则:
将物体It分为类别ci的投票值为:
s v o t e ( I t ; c i ) = 1 K Σ I r ∈ c i s s u m ( I r | I t ) - - - ( 7 )
其中,ci表示检索的候选类的类别。
投票值是指每个待查询物体与候选类中所有的参考物体的相似度分数的均值,它衡量的是待查询物体与该候选类的相似性关系,投票值最大也就是候选类的类别即为待查询物体的类别,即:It的类别就取决于投票值的大小。
这种分类是基于重排序的。图5a为根据一示例性实施例示出的基于密集匹配的重排序示意图。图5b为根据另一示例性实施例示出的基于密集匹配的重排序示意图。对于每个待查询物体,第一行给出的是传统的最好的方法所检索的top-3结果,第二行给出的是本发明实施例的方法的检索结果。其中,图5a显示的是本发明实施例的方法能够很好地将同类的物体排在#1位置;图5b显示了本发明实施例的方法和传统的方法都不能正确的将同类的物体排在#1位置,但是本发明实施例的方法能够很好地将同类别物体的位置往前排列,即:表明本发明实施例的方法依然能够给出更合理的结果。通过重排序的方法,提高了物体识别的精度。
下面提供一优选的实施例来更好地说明本发明。如图2所示,该方法可以包括:
步骤S202:对每个物体的RGB和深度图片分别提取三维卷积神经网络特征。
步骤S204:利用双层的松弛置信度传播算法求解任意两个物体之间的密集匹配,并且求取相似度分数。
步骤S206:定义一系列融合比例,得到一系列的密集匹配子,并利用学习-融合策略来最优化RGB和深度的融合。
步骤S208:给定一个待查询样本,按照公式(7)求其与某个类别的投票值,并将投票值最大的类别作为待查询样本的类别。
上述方法实施例中将各个步骤按照上述先后次序的方式进行了描述,本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时执行或执行次序颠倒,这些简单的变化都在本发明的保护范围之内。
基于与方法实施例相同的技术构思,本发明实施例还提供一种基于密集匹配子自适应相似性度量的RGB-D物体识别装置30。如图3所示,该装置30至少可以包括:特征提取模块32、密集匹配模块34、相似性度量模块36及分类模块38。其中,特征提取模块32用于提取待查询物体和参考物体的卷积神经网络特征;密集匹配模块34用于基于卷积神经网络特征,并融合RGB和深度信息,对参考物体和待查询物体进行密集匹配;相似性度量模块36用于基于密集匹配的结果,度量参考物体和待查询物体之间的相似性;分类模块38用于基于参考物体和待查询物体之间的相似性,对待查询物体进行分类。
上述装置实施例可以用于执行上述方法实施例,其技术原理、所解决的技术问题及产生的技术效果相似,所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是:上述实施例提供的基于密集匹配子自适应相似性度量的RGB-D物体识别装置在进行物体识别时,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
以上对本发明实施例所提供的技术方案进行了详细的介绍。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述,但是,上述实施例的说明仅适用于帮助理解本发明实施例的原理;同时,对于本领域技术人员来说,依据本发明实施例,在具体实施方式以及应用范围之内均会做出改变。
需要说明的是:附图中的标记只是为了更清楚地说明本发明,不视为对本发明保护范围的不当限定。
术语“包括”、“包含”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备/装置中还存在另外的要素,即“包括一个”的意思还涵盖“包括另一个”的意思。
本发明的各个步骤可以用通用的计算装置来实现,例如,它们可以集中在单个的计算装置上,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置,也可以分布在多个计算装置所组成的网络上,它们可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此,本发明不限于任何特定的硬件和软件或者其结合。
本发明提供的方法可以使用可编程逻辑器件来实现,也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等),例如根据本发明的实施例可以是一种计算机程序产品,运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如:采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如:RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
本发明并不限于上述实施方式,在不背离本发明实质内容的情况下,本领域普通技术人员可以想到的任何变形、改进或替换均落入本发明的范围。
尽管上文已经示出、描述和指出了适用于各种实施方式的本发明的基本新颖特征的详细描述,但是将会理解,在不脱离本发明意图的情况下,本领域技术人员可以对***的形式和细节进行各种省略、替换和改变。

Claims (8)

1.一种基于密集匹配子自适应相似性度量的RGB-D物体识别方法,其特征在于,至少包括:
提取待查询物体和参考物体的卷积神经网络特征;
基于所述卷积神经网络特征,并融合RGB和深度信息,对所述参考物体和所述待查询物体进行密集匹配;
基于所述密集匹配的结果,度量所述参考物体和所述待查询物体之间的相似性;
基于所述参考物体和所述待查询物体之间的相似性,对所述待查询物体进行分类。
2.根据权利要求1所述的方法,其特征在于,利用以下公式来对所述参考物体和所述待查询物体进行密集匹配:
tj表示待查询物体中第j个像素点在参考物体中找到的对应像素点的位移量;Di(ti)表示两个匹配的像素点的卷积神经网络特征之间的差异;λ表示限定待查询物体中相邻像素点的结构关系的一个阈值;α和β表示数据项、平移项和平滑项之间的加权系数。
3.根据权利要求2所述的方法,其特征在于,所述数据项具体包括:
Di(ti)=θ·[frgb(pi|Ir)-frgb(pi+ti|Iq)]+
(1-θ)·[fdepth(pi|Ir)-fdepth(pi+ti|Iq)].;
其中,frgb(pi|Iq),frgb(pi|Ir)是指待查询物体和参考物体的RGB图片中第i个像素点提取的卷积神经网络特征;fdepth(pi|Iq),fdepth(pi|Ir)是指提取的深度特征;θ是指RGB和深度信息的融合系数。
4.根据权利要求3所述的方法,其特征在于,所述度量所述参考物体和所述待查
询物体之间的相似性,具体包括:
利用以下公式来度量所述参考物体和所述待查询物体之间的相似性:
s θ ( I r | I q ) = exp ( - γ - 1 Σ i D i ( t i ) ) ;
其中,γ表示尺度化因子;sθ(Ir|Iq)表示参考物体和待查询物体之间的相似度分数。
5.根据权利要求4所述的方法,其特征在于,所述利用以下公式来度量所述参考
物体和所述待查询物体之间的相似性,还具体包括:
其中,sθ是指与其对应的相似度分数,wθ是指权重系数,b表示融合的偏差因子;w表示融合的权重向量,Φ表示融合的分数向量。
6.根据权利要求5所述的方法,其特征在于,所述w通过rankingSVM算法,并利用以下公式来求解:
其中,表示三元组数据库;Ii表示待查询物体;表示与所示待查询物体同类别的参考物体;表示与所示待查询物体不同类别的参考物体;ξ表示松弛变量;C表示惩罚参数。
7.根据权利要求6所述的方法,其特征在于,所述对待查询物体进行分类,具体包括:
利用以下公式来对所述待查询物体进行分类:
s v o t e ( I t ; c i ) = 1 K Σ I r ∈ c i s s u m ( I r | I t ) ;
其中,It表示待查询物体;ci表示检索的候选类的类别;K表示候选类中参考物体的个数。
8.一种基于密集匹配子自适应相似性度量的RGB-D物体识别装置,其特征在于,所述装置至少包括:
特征提取模块,用于提取待查询物体和参考物体的卷积神经网络特征;
密集匹配模块,用于基于所述卷积神经网络特征,并融合RGB和深度信息,对所述参考物体和所述待查询物体进行密集匹配;
相似性度量模块,用于基于所述密集匹配的结果,度量所述参考物体和所述待查询物体之间的相似性;
分类模块,用于基于所述参考物体和所述待查询物体之间的相似性,对所述待查询物体进行分类。
CN201510831645.4A 2015-11-25 2015-11-25 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置 Active CN105512674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510831645.4A CN105512674B (zh) 2015-11-25 2015-11-25 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510831645.4A CN105512674B (zh) 2015-11-25 2015-11-25 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置

Publications (2)

Publication Number Publication Date
CN105512674A true CN105512674A (zh) 2016-04-20
CN105512674B CN105512674B (zh) 2019-04-12

Family

ID=55720640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510831645.4A Active CN105512674B (zh) 2015-11-25 2015-11-25 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置

Country Status (1)

Country Link
CN (1) CN105512674B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780631A (zh) * 2017-01-11 2017-05-31 山东大学 一种基于深度学习的机器人闭环检测方法
WO2017088125A1 (zh) * 2015-11-25 2017-06-01 中国科学院自动化研究所 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置
CN106845426A (zh) * 2017-01-25 2017-06-13 触景无限科技(北京)有限公司 一种基于台灯的3d物体识别方法及装置
CN106910192A (zh) * 2017-03-06 2017-06-30 长沙全度影像科技有限公司 一种基于卷积神经网络的图像融合效果评估方法
CN107103277A (zh) * 2017-02-28 2017-08-29 中科唯实科技(北京)有限公司 一种基于深度相机和3d卷积神经网络的步态识别方法
CN107491459A (zh) * 2016-06-13 2017-12-19 阿里巴巴集团控股有限公司 三维立体图像的检索方法和装置
CN108875756A (zh) * 2017-05-08 2018-11-23 上海荆虹电子科技有限公司 一种视频的行为类别获取方法及装置
CN113510718A (zh) * 2021-05-11 2021-10-19 江苏师范大学 一种基于机器视觉的智能售餐机器人及其使用方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517122A (zh) * 2014-12-12 2015-04-15 浙江大学 一种基于优化卷积架构的图像目标识别方法
CN104915673A (zh) * 2014-03-11 2015-09-16 株式会社理光 一种基于视觉词袋模型的目标分类方法和***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915673A (zh) * 2014-03-11 2015-09-16 株式会社理光 一种基于视觉词袋模型的目标分类方法和***
CN104517122A (zh) * 2014-12-12 2015-04-15 浙江大学 一种基于优化卷积架构的图像目标识别方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017088125A1 (zh) * 2015-11-25 2017-06-01 中国科学院自动化研究所 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置
US10496897B2 (en) 2015-11-25 2019-12-03 Institute Of Automation Chinese Academy Of Sciences Method and apparatus for recognizing RGB-D objects based on adaptive similarity measure of dense matching item
CN107491459A (zh) * 2016-06-13 2017-12-19 阿里巴巴集团控股有限公司 三维立体图像的检索方法和装置
CN106780631A (zh) * 2017-01-11 2017-05-31 山东大学 一种基于深度学习的机器人闭环检测方法
CN106845426A (zh) * 2017-01-25 2017-06-13 触景无限科技(北京)有限公司 一种基于台灯的3d物体识别方法及装置
CN107103277A (zh) * 2017-02-28 2017-08-29 中科唯实科技(北京)有限公司 一种基于深度相机和3d卷积神经网络的步态识别方法
CN107103277B (zh) * 2017-02-28 2020-11-06 中科唯实科技(北京)有限公司 一种基于深度相机和3d卷积神经网络的步态识别方法
CN106910192A (zh) * 2017-03-06 2017-06-30 长沙全度影像科技有限公司 一种基于卷积神经网络的图像融合效果评估方法
CN106910192B (zh) * 2017-03-06 2020-09-22 长沙全度影像科技有限公司 一种基于卷积神经网络的图像融合效果评估方法
CN108875756A (zh) * 2017-05-08 2018-11-23 上海荆虹电子科技有限公司 一种视频的行为类别获取方法及装置
CN113510718A (zh) * 2021-05-11 2021-10-19 江苏师范大学 一种基于机器视觉的智能售餐机器人及其使用方法

Also Published As

Publication number Publication date
CN105512674B (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN105512674A (zh) 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置
CN108182441B (zh) 平行多通道卷积神经网络、构建方法及图像特征提取方法
Wu et al. 3d shapenets for 2.5 d object recognition and next-best-view prediction
Ben-Shabat et al. Nesti-net: Normal estimation for unstructured 3d point clouds using convolutional neural networks
CN107066559B (zh) 一种基于深度学习的三维模型检索方法
CN109063724B (zh) 一种增强型生成式对抗网络以及目标样本识别方法
Bazazian et al. Fast and robust edge extraction in unorganized point clouds
US20180068461A1 (en) Posture estimating apparatus, posture estimating method and storing medium
CN108596203B (zh) 并联池化层对受电弓碳滑板表面磨耗检测模型的优化方法
CN101980250B (zh) 基于降维局部特征描述子和隐条件随机场的目标识别方法
CN110135459B (zh) 一种基于双三元组深度度量学习网络的零样本分类方法
US20170147868A1 (en) A method and a system for face verification
Boussaad et al. Deep-learning based descriptors in application to aging problem in face recognition
WO2019015246A1 (zh) 图像特征获取
CN107424161B (zh) 一种由粗至精的室内场景图像布局估计方法
CN111046767B (zh) 一种基于单目图像的3d目标检测方法
US10496897B2 (en) Method and apparatus for recognizing RGB-D objects based on adaptive similarity measure of dense matching item
CN105894047A (zh) 一种基于三维数据的人脸分类***
CN104537647A (zh) 一种目标检测方法及装置
US20230230221A1 (en) Damage detection using machine learning
CN104751463B (zh) 一种基于草图轮廓特征的三维模型最佳视角选取方法
KR101908481B1 (ko) 보행자 검출 장치 및 방법
CN110991532A (zh) 基于关系视觉注意机制的场景图产生方法
Beksi et al. Object classification using dictionary learning and rgb-d covariance descriptors
Massa et al. Convolutional neural networks for joint object detection and pose estimation: A comparative study

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant