CN107463952B - 一种基于多模态融合深度学习的物体材质分类方法 - Google Patents

一种基于多模态融合深度学习的物体材质分类方法 Download PDF

Info

Publication number
CN107463952B
CN107463952B CN201710599106.1A CN201710599106A CN107463952B CN 107463952 B CN107463952 B CN 107463952B CN 201710599106 A CN201710599106 A CN 201710599106A CN 107463952 B CN107463952 B CN 107463952B
Authority
CN
China
Prior art keywords
tactile
matrix
modality
scale
acceleration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710599106.1A
Other languages
English (en)
Other versions
CN107463952A (zh
Inventor
刘华平
方静
刘晓楠
孙富春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710599106.1A priority Critical patent/CN107463952B/zh
Publication of CN107463952A publication Critical patent/CN107463952A/zh
Application granted granted Critical
Publication of CN107463952B publication Critical patent/CN107463952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多模态融合深度学习的物体材质分类方法,属于计算机视觉、人工智能和材质分类技术领域。本发明是基于多模态融合深度学习的物体材质分类方法‑‑一种基于多尺度局部感受野的超限学习机的多模态融合方法。本发明将物体材质的不同模态的感知信息(包括视觉图像、触觉加速度信号和触觉声音信号)进行融合,最终实现物体材质的正确分类。该方法不仅可以利用多尺度局部感受野对现实复杂材质进行高代表性特征提取,而且可以有效融合各个模态信息,实现模态之间信息互补。利用本发明的方法可以提高复杂材质分类的鲁棒性和准确性,使之有更大的适用性和通用性。

Description

一种基于多模态融合深度学习的物体材质分类方法
技术领域
本发明涉及一种基于多模态融合深度学习的物体材质分类方法,属于计算机视觉、人工智能和材质分类技术领域。
背景技术
大千世界,材质种类繁多,可以分为塑料、金属、陶瓷,玻璃、木材、纺织品、石材、纸、橡胶和泡沫等种类。最近,物体材质分类已经极大地引起社会环保,工业界以及学术界的关注。比如材质的分类可以有效的用于材料的循环利用;包装材料的四大支柱:纸,塑料,金属和玻璃,在不同的市场需求下需要不能材质的包装。对于需要长距离运输但对运输质量无特殊要求,一般选用纸,纸板以及包装箱纸板;对于食品包装应该符合卫生标定,糕点等直接入口食品的包装应使用纸盒纸板,食盐等防光防潮的使用罐装,快餐盒的制造可以使用天然植物纤维;合理使用装饰材料是室内装饰成功的关键。基于上述问题的需求,研究一套能够自动对物体材质分类的方法就显得十分必要。
物体材质分类主流的方法是使用包含丰富信息的视觉图像,但是对于外观极其相似的两个物体仅用视觉图像是不能够区分的。假设有两个物体:一个红色粗糙的纸和一个红色的塑料箔,视觉图像对这两个物体具有较小的区分能力。但是对于上述假设,人脑会本能的将同一物体的不同模态感知特征进行融合,从而达到对物体材质分类的目的。受此启发,要使计算机实现对物体材质的自动分类,可以同时使用物体不同模态信息来进行物体材质分类。
当前也有公开技术用于物体材质分类,如中国专利申请CN105005787A—一种基于灵巧手触觉信息的联合稀疏编码的材质分类。此发明对材质分类仅使用了触觉序列,并未将材质的多种模态信息结合起来。观察到仅使用视觉图像对物体材质分类不能鲁棒地捕获材质特征,如硬度或粗糙度。可以假设当刚性工具拖动或移动到不同物体的表面上时,工具将产生不同频率的振动和声音,因此可以使用与视觉互补的触觉信息来进行物体材质的分类。然而,如何有效地将视觉模态与触觉模态结合仍然是一个具有挑战性的问题。
发明内容
本发明目的是提出一种基于多模态融合深度学习的物体材质分类方法,在基于多尺度局部感受野的超限学习机方法的基础上实现多模态信息融合的物体材质分类,以提高分类的鲁棒性和准确性,并有效地融合物体材质的多种模态信息进行材质分类。
本发明提出的基于多模态融合深度学习的物体材质分类方法,包括以下步骤:
(1)设训练样本个数为N1,训练样本材质种类为M1个,记每类材质训练样本的标签为
Figure BDA0001356686690000021
其中1≤M1≤N1,分别采集所有N1个训练样本的视觉图像I1、触觉加速度A1和触觉声音S1,建立一个包括I1、A1和S1的数据集D1,I1的图像大小为320×480;
设待分类物体个数为N2,待分类物体材质的种类为M2个,记每类待分类物体的标签为
Figure BDA0001356686690000022
其中1≤M2≤M1,分别采集所有N2个待分类物体的视觉图像I2、触觉加速度A2和触觉声音S2,建立一个包括I2、A2和S2的数据集D2,I2的图像大小为320×480;
(2)对上述数据集D1和数据集D2视觉图像进行视觉图像预处理、触觉加速度信号进行触觉加速度预处理和触觉声音信号进行触觉声音预处理,分别得到视觉图像、触觉加速度频谱图和触觉声音频谱图,包括以下步骤:
(2-1)利用降采样方法,对图像大小为320×480的图像I1和图像I2进行降采样,得到I1和I2的大小为32×32×3的视觉图像;
(2-2)利用短时傅里叶变换方法,分别将触觉加速度A1和触觉加速度A2转换到频域,短时傅里叶变换中的汉明窗的窗口长度为500,窗口偏移量为100,采样频率为10kHz,分别得到触觉加速度A1和触觉加速度A2的频谱图,从频谱图中选择前500个低频信道作为频谱图像,对该频谱图像进行降采样,得到A1和A2的大小为32×32×3的触觉加速度频谱图像;
(2-3)利用短时傅里叶变换方法,分别将触觉声音S1和触觉声音S2转换到频域,短时傅里叶变换中的汉明窗的窗口长度为500,窗口偏移量为100,采样频率为10kHz,分别得到触觉声音S1和触觉声音S2的频谱图,从频谱图中选择前500个低频信道作为频谱图像,对该频谱图像进行降采样,得到S1和S2的大小为32×32×3的声音频谱图像;
(3)通过多尺度特征映射,获得视觉模态、触觉加速度模态和触觉声音模态的卷积特征,包括以下步骤:
(3-1)将上述步骤(2)得到的I1和I2的大小为32×32×3的视觉图像、A1和A2的大小为32×32×3的触觉加速度频谱图像和S1和S2的大小为32×32×3的声音频谱图像输入到神经网络第一层,即输入层,输入图像的大小为d×d,该神经网络中的局部感受野具有Ψ个尺度通道,Ψ个尺度通道的大小分别为r1,r2,…,rΨ,每个尺度通道产生K个不同的输入权重,从而随机生成Ψ×K个特征图,将神经网络随机产生的第Φ个尺度通道的视觉图像、触觉加速度频谱图和声音频谱图的初始权重记为
Figure BDA0001356686690000031
Figure BDA0001356686690000032
Figure BDA0001356686690000033
Figure BDA0001356686690000034
分别由
Figure BDA0001356686690000035
Figure BDA0001356686690000036
逐列组成,其中,上角标I表示训练样本和待分类物体的视觉模态,上角标A表示训练样本和待分类物体的触觉加速度模态,S表示训练样本和待分类物体的触觉声音模态,
Figure BDA0001356686690000037
表示初始权重,
Figure BDA0001356686690000038
表示产生第ζ个特征图的初始权重,1≤Φ≤Ψ,1≤ζ≤K,第Φ个尺度局部感受野的大小为rΦ×rΦ
Figure BDA0001356686690000039
Figure BDA00013566866900000310
进而得到第Φ个尺度通道的所有K个特征图的大小为(d-rΦ+1)×(d-rΦ+1);
(3-2)使用奇异值分解方法,对上述第Φ个尺度通道的初始权重矩阵
Figure BDA00013566866900000311
进行正交化处理,得到正交矩阵
Figure BDA00013566866900000312
Figure BDA00013566866900000313
Figure BDA0001356686690000041
Figure BDA0001356686690000042
中的每一列
Figure BDA0001356686690000043
Figure BDA0001356686690000044
分别为
Figure BDA0001356686690000045
Figure BDA0001356686690000046
的正交基,第Φ个尺度通道的第ζ个特征图的输入权重
Figure BDA0001356686690000048
Figure BDA0001356686690000049
Figure BDA00013566866900000410
分别为由
Figure BDA00013566866900000411
Figure BDA00013566866900000412
形成的方阵;
利用下式,分别计算视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道的第ζ特征图中的节点(i,j)的卷积特征:
Figure BDA00013566866900000413
Φ=1,2,3...,Ψ,
i,j=1,...,(d-rΦ+1),
ζ=1,2,3...,K,
Figure BDA00013566866900000414
Figure BDA00013566866900000415
分别表示视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道中第ζ特征图的节点(i,j)的卷积特征,x是与节点(i,j)对应的矩阵;
(4)对上述视觉模态、触觉加速度模态和触觉声音模态的卷积特征进行多尺度平方根池化,池化尺度有Ψ个尺度,Ψ个尺度的大小分别为e1,e2,…,eΨ,第Φ个尺度下池化大小eΦ表示池化中心和边缘之间的距离,池化图和特征图大小相同,为(d-rΦ+1)×(d-rΦ+1),根据上述步骤(3)得到的卷积特征,利用下式计算池化特征:
Figure BDA0001356686690000051
p,q=1,...,(d-rΦ+1),
若节点(i,j)不在(d-rΦ+1),则
Figure BDA0001356686690000052
Figure BDA0001356686690000053
均为零,
Φ=1,2,3...,Ψ,
ζ=1,2,3...,K,
其中,
Figure BDA0001356686690000054
Figure BDA0001356686690000055
分别表示视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道中第ζ个池化图的节点(p,q)的池化特征;
(5)根据上述池化特征,得到三个模态的全连接特征向量,包括以下步骤:
(5-1)将步骤(4)的池化特征中的第ω个训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的池化图的所有池化特征,分别连接成一个行向量
Figure BDA0001356686690000056
Figure BDA0001356686690000057
其中1≤ω≤N1
(5-2)遍历N1个训练样本,重复上述步骤(5-1),分别得到N1训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的行向量组合,记为:
Figure BDA0001356686690000058
其中,
Figure BDA0001356686690000059
表示视觉模态的组合特征向量矩阵,
Figure BDA00013566866900000510
表示触觉加速度模态特征矩阵,
Figure BDA00013566866900000511
表示触觉声音模态的特征向量矩阵;
(6)三个模态的全连接特征向量,进行多模态融合,得到多模态融合后的混合矩阵,包括以下步骤:
(6-1)将上述步骤(5)的N1训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的行向量输入混合层进行组合处理,得到一个混合矩阵H=[HI,HA,HS];
(6-2)对步骤(6-1)的混合矩阵H中的每个样本的混合行向量进行调整,生成一个多模态融合后的二维混合矩阵,二维混合矩阵的大小为
Figure BDA0001356686690000061
其中,d'是二维矩阵的长度,取值范围为
Figure BDA0001356686690000062
(7)将上述步骤(6)得到的多模态融合后的混合矩阵输入到神经网络的混合网络层,通过多尺度特征映射,获得多模态混合卷积特征,包括以下步骤:
(7-1)将上述步骤(6-2)得到的多模态融合后的混合矩阵输入到混合网络中,混合矩阵的大小为d'×d”,该混合网络有Ψ'个尺度通道,Ψ'个尺度通道的大小分别为r1,r2,…,rΨ',每个尺度通道产生K'个不同的输入权重,从而随机生成Ψ'×K'个混合特征图,将混合网络随机产生第Φ'个尺度通道混合初始权重记为
Figure BDA0001356686690000063
Figure BDA0001356686690000064
逐列组成,其中上角标hybrid表示三模态融合,
Figure BDA0001356686690000065
表示混合网络的初始权重,
Figure BDA0001356686690000066
表示产生第ζ'个混合特征图的初始权重,1≤Φ'≤Ψ',1≤ζ'≤K',第Φ'个尺度通道局部感受野的大小为rΦ'×rΦ',那么
Figure BDA0001356686690000067
Figure BDA0001356686690000068
进而得到第Φ'个尺度通道第ζ'个特征图的大小为(d'-rΦ'+1)×(d”-rΦ'+1);
(7-2)使用奇异值分解方法,对上述第Φ'个尺度通道初始权重矩阵
Figure BDA0001356686690000069
进行正交化处理,得到正交矩阵
Figure BDA00013566866900000610
的每一列
Figure BDA00013566866900000611
Figure BDA00013566866900000612
的正交基,第Φ'个尺度通道的第ζ'个特征图的输入权重
Figure BDA00013566866900000613
是由
Figure BDA00013566866900000614
形成的方阵;
利用下式,计算第Φ'个尺度通道的第ζ'特征图中的卷积节点(i',j')混合卷积特征:
Figure BDA0001356686690000071
Φ'=1,2,3...,Ψ',
i',j'=1,...,(d'-rΦ'+1),
ζ'=1,2,3...,K',
Figure BDA0001356686690000072
是第Φ'个尺度通道的第ζ'特征图中的卷积节点(i',j')混合卷积特征,x'是与节点(i',j')对应的矩阵;
(8)对上述混合卷积特征,进行混合多尺度平方根池化,池化尺度有Ψ'个尺度,大小分别为e1,e2,…,eΨ',第Φ'个尺度下池化图和特征图大小相同,为(d'-rΦ'+1)×(d”-rΦ'+1),根据上述步骤(7)得到的混合卷积特征,利用下式计算混合池化特征:
Figure BDA0001356686690000073
p',q'=1,...,(d'-rΦ'+1),
若节点(i',j')不在d'-rΦ'+1,则
Figure BDA0001356686690000074
为零,
Φ'=1,2,3...,Ψ',
ζ'=1,2,3...,K',
其中,
Figure BDA0001356686690000075
表示第Φ'个尺度通道的第ζ'个池化图的组合节点(p',q')的混合池化特征;
(9)根据上述混合池化特征,重复步骤(5),将不同尺度的混合池化特征向量进行全连接,得到混合网络的组合特征矩阵
Figure BDA0001356686690000076
其中K'表示每个尺度通道产生不同特征图的个数;
(10)根据上述步骤(9)得到的混合网络的组合特征矩阵Hhybric,利用下式,根据训练样本的个数N1,计算神经网络的训练样本输出权重β:
Figure BDA0001356686690000081
Figure BDA0001356686690000082
Figure BDA0001356686690000083
Figure BDA0001356686690000084
其中,T是训练样本
Figure BDA0001356686690000085
的期望值,C为正则化系数,取值为任意值,本发明一个实施例中,C的取值为5,上标T表示矩阵转置;
(11)利用上述步骤(3)中三个模态初始权重正交化后的正交矩阵
Figure BDA0001356686690000086
Figure BDA0001356686690000087
对经过预处理的待分类数据集D2,利用上述步骤(3)-步骤(9)的方法,得到待分类样本的三模态混合特征向量Htest
(12)根据上述步骤(10)的训练样本输出权重β和上述步骤(11)的三模态混合特征向量Htest,利用下式计算出N2个待分类样本的预测标签με,实现基于多模态融合深度学习的物体材质分类,
με=Htestβ1≤ε≤M。
本发明提出的基于多模态融合深度学习的物体材质分类方法,具有以下特点和优点:
1、本发明提出的基于多尺度局部感受野的超限学习机方法,可以用多个尺度的局部感受野来感受材质,提取出多样的特征,实现复杂物体材质的分类。
2、本发明的基于多尺度局部感受野的超限学习机的深度学习方法,可以将特征学习和图像分类集一体,而不是由人为设计的特征提取器提取特征,因此该算法适用于大部分不同材质的对象分类。
3、本发明的基于多尺度局部感受野的超限学习机方法,是一种基于多尺度局部感受野的超限学习机的多模态融合深度学习方法,可以有效的将物体材质三个模态的信息融合,实现信息互补,提高了材质分类的鲁棒性和准确率。
附图说明
图1为本发明方法的流程框图。
图2为本发明方法中基于多尺度局部感受野的超限学习机的流程框图。
图3为本发明中基于多尺度局部感受野的超限学习机方法不同模态融合的流程框图。
具体实施方式
本发明提出的基于多模态融合深度学习的物体材质分类方法,其流程框图如图1所示,主要分为视觉图像模态,触觉加速度模态,触觉声音模态和混合网络四大部分。包括以下步骤:
(1)设训练样本个数为N1,训练样本材质种类为M1个,记每类材质训练样本的标签为
Figure BDA0001356686690000091
其中1≤M1≤N1,分别采集所有N1个训练样本的视觉图像I1、触觉加速度A1和触觉声音S1,建立一个包括I1、A1和S1的数据集D1,I1的图像大小为320×480;
设待分类物体个数为N2,待分类物体材质的种类为M2个,记每类待分类物体的标签为
Figure BDA0001356686690000092
其中1≤M2≤M1,分别采集所有N2个待分类物体的视觉图像I2、触觉加速度A2和触觉声音S2,建立一个包括I2、A2和S2的数据集D2,I2的图像大小为320×480;其中的触觉加速度A1和A2是刚性物体在材质表面滑动时用传感器采集得到的一维信号,触觉声音S1和S2也是刚性物体在物体材质表面滑动时,用麦克风保存的一维信号;
(2)对上述数据集D1和数据集D2视觉图像进行视觉图像预处理、触觉加速度信号进行触觉加速度预处理和触觉声音信号进行触觉声音预处理,分别得到视觉图像、触觉加速度频谱图和触觉声音频谱图,包括以下步骤:
(2-1)利用降采样方法,对图像大小为320×480的图像I1和图像I2进行降采样,得到I1和I2的大小为32×32×3的视觉图像;
(2-2)利用短时傅里叶变换方法,分别将触觉加速度A1和触觉加速度A2转换到频域,短时傅里叶变换中的汉明窗的窗口长度为500,窗口偏移量为100,采样频率为10kHz,分别得到触觉加速度A1和触觉加速度A2的频谱图,从频谱图中选择前500个低频信道作为频谱图像,该频谱图像保留了来自触觉信号的大部分能量,对该频谱图像进行降采样,得到A1和A2的大小为32×32×3的触觉加速度频谱图像;
(2-3)利用短时傅里叶变换方法,分别将触觉声音S1和触觉声音S2转换到频域,短时傅里叶变换中的汉明窗的窗口长度为500,窗口偏移量为100,采样频率为10kHz,分别得到触觉声音S1和触觉声音S2的频谱图,从频谱图中选择前500个低频信道作为频谱图像,该频谱图像保留了来自触觉信号的大部分能量,对该频谱图像进行降采样,得到S1和S2的大小为32×32×3的声音频谱图像;
(3)通过多尺度特征映射,获得视觉模态、触觉加速度模态和触觉声音模态的卷积特征,包括以下步骤:
(3-1)将上述步骤(2)得到的I1和I2的大小为32×32×3的视觉图像、A1和A2的大小为32×32×3的触觉加速度频谱图像和S1和S2的大小为32×32×3的声音频谱图像输入到神经网络第一层,即输入层,输入图像的大小为d×d,该神经网络中的局部感受野具有Ψ个尺度通道,Ψ个尺度通道的大小分别为r1,r2,…,rΨ,每个尺度通道产生K个不同的输入权重,从而随机生成Ψ×K个特征图,将神经网络随机产生的第Φ个尺度通道的视觉图像、触觉加速度频谱图和声音频谱图的初始权重记为
Figure BDA0001356686690000101
Figure BDA0001356686690000102
Figure BDA0001356686690000103
Figure BDA0001356686690000104
分别由
Figure BDA0001356686690000105
Figure BDA0001356686690000106
逐列组成,其中,上角标I表示训练样本和待分类物体的视觉模态,上角标A表示训练样本和待分类物体的触觉加速度模态,S表示训练样本和待分类物体的触觉声音模态,
Figure BDA0001356686690000107
表示初始权重,
Figure BDA0001356686690000108
表示产生第ζ个特征图的初始权重,1≤Φ≤Ψ,1≤ζ≤K,第Φ个尺度局部感受野的大小为rΦ×rΦ
Figure BDA0001356686690000109
Figure BDA00013566866900001010
进而得到第Φ个尺度通道的所有K个特征图的大小为(d-rΦ+1)×(d-rΦ+1);
(3-2)使用奇异值分解方法,对上述第Φ个尺度通道的初始权重矩阵
Figure BDA0001356686690000111
进行正交化处理,得到正交矩阵
Figure BDA0001356686690000112
Figure BDA0001356686690000113
正交化的输入权重更能提取出更为完备的特征,
Figure BDA0001356686690000114
Figure BDA0001356686690000115
中的每一列
Figure BDA0001356686690000116
Figure BDA0001356686690000117
分别为
Figure BDA0001356686690000118
Figure BDA0001356686690000119
的正交基,第Φ个尺度通道的第ζ个特征图的输入权重
Figure BDA00013566866900001110
Figure BDA00013566866900001111
Figure BDA00013566866900001112
分别为由
Figure BDA00013566866900001113
Figure BDA00013566866900001114
形成的方阵;
利用下式,分别计算视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道的第ζ特征图中的节点(i,j)的卷积特征:
Figure BDA00013566866900001115
Φ=1,2,3...,Ψ,
i,j=1,...,(d-rΦ+1),
ζ=1,2,3...,K,
Figure BDA00013566866900001116
Figure BDA00013566866900001117
分别表示视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道中第ζ特征图的节点(i,j)的卷积特征,x是与节点(i,j)对应的矩阵;
(4)对上述视觉模态、触觉加速度模态和触觉声音模态的卷积特征进行多尺度平方根池化,池化尺度有Ψ个尺度,Ψ个尺度的大小分别为e1,e2,…,eΨ,第Φ个尺度下池化大小eΦ表示池化中心和边缘之间的距离,如图2所示,池化图和特征图大小相同,为(d-rΦ+1)×(d-rΦ+1),根据上述步骤(3)得到的卷积特征,利用下式计算池化特征:
Figure BDA0001356686690000121
p,q=1,...,(d-rΦ+1),
若节点(i,j)不在(d-rΦ+1),则
Figure BDA0001356686690000122
Figure BDA0001356686690000123
均为零,
Φ=1,2,3...,Ψ,
ζ=1,2,3...,K,
其中,
Figure BDA0001356686690000124
Figure BDA0001356686690000125
分别表示视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道中第ζ个池化图的节点(p,q)的池化特征;
(5)根据上述池化特征,得到三个模态的全连接特征向量,包括以下步骤:
(5-1)将步骤(4)的池化特征中的第ω个训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的池化图的所有池化特征,分别连接成一个行向量
Figure BDA0001356686690000126
Figure BDA0001356686690000127
其中1≤ω≤N1
(5-2)遍历N1个训练样本,重复上述步骤(5-1),分别得到N1训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的行向量组合,记为:
Figure BDA0001356686690000128
其中,
Figure BDA0001356686690000129
表示视觉模态的组合特征向量矩阵,
Figure BDA00013566866900001210
表示触觉加速度模态特征矩阵,
Figure BDA00013566866900001211
表示触觉声音模态的特征向量矩阵;
(6)三个模态的全连接特征向量,进行多模态融合,得到多模态融合后的混合矩阵,包括以下步骤:
(6-1)将上述步骤(5)的N1训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的行向量输入混合层进行组合处理,得到一个混合矩阵H=[HI,HA,HS];
(6-2)对步骤(6-1)的混合矩阵H中的每个样本的混合行向量进行调整,生成一个多模态融合后的二维混合矩阵,二维混合矩阵的大小为
Figure BDA0001356686690000131
如图3所示,其中,d'是二维矩阵的长度,取值范围为
Figure BDA0001356686690000132
(7)将上述步骤(6)得到的多模态融合后的混合矩阵输入到神经网络的混合网络层,通过多尺度特征映射,获得多模态混合卷积特征,包括以下步骤:
(7-1)将上述步骤(6-2)得到的多模态融合后的混合矩阵输入到混合网络中,混合矩阵的大小为d'×d”,该混合网络有Ψ'个尺度通道,Ψ'个尺度通道的大小分别为r1,r2,…,rΨ',每个尺度通道产生K'个不同的输入权重,从而随机生成Ψ'×K'个混合特征图,将混合网络随机产生第Φ'个尺度通道混合初始权重记为
Figure BDA0001356686690000133
Figure BDA0001356686690000134
逐列组成,其中上角标hybrid表示三模态融合,
Figure BDA0001356686690000135
表示混合网络的初始权重,
Figure BDA0001356686690000136
表示产生第ζ'个混合特征图的初始权重,1≤Φ'≤Ψ',1≤ζ'≤K',第Φ'个尺度通道局部感受野的大小为rΦ'×rΦ',那么
Figure BDA0001356686690000137
Figure BDA0001356686690000138
进而得到第Φ'个尺度通道第ζ'个特征图的大小为(d'-rΦ'+1)×(d”-rΦ'+1);
(7-2)使用奇异值分解方法,对上述第Φ'个尺度通道初始权重矩阵
Figure BDA0001356686690000139
进行正交化处理,得到正交矩阵
Figure BDA00013566866900001310
正交化的输入权重更能提取出更为完备的特征,
Figure BDA00013566866900001311
的每一列
Figure BDA00013566866900001312
Figure BDA00013566866900001313
的正交基,第Φ'个尺度通道的第ζ'个特征图的输入权重
Figure BDA00013566866900001314
是由
Figure BDA00013566866900001315
形成的方阵;
利用下式,计算第Φ'个尺度通道的第ζ'特征图中的卷积节点(i',j')混合卷积特征:
Figure BDA0001356686690000141
Φ'=1,2,3...,Ψ',
i',j'=1,...,(d'-rΦ'+1),
ζ'=1,2,3...,K',
Figure BDA0001356686690000142
是第Φ'个尺度通道的第ζ'特征图中的卷积节点(i',j')混合卷积特征,x'是与节点(i',j')对应的矩阵;
(8)对上述混合卷积特征,进行混合多尺度平方根池化,池化尺度有Ψ'个尺度,大小分别为e1,e2,…,eΨ',第Φ'个尺度下池化图和特征图大小相同,为(d'-rΦ'+1)×(d”-rΦ'+1),根据上述步骤(7)得到的混合卷积特征,利用下式计算混合池化特征:
Figure BDA0001356686690000143
p',q'=1,...,(d'-rΦ'+1),
若节点(i',j')不在d'-rΦ'+1,则
Figure BDA0001356686690000144
为零,
Φ'=1,2,3...,Ψ',
ζ'=1,2,3...,K',
其中,
Figure BDA0001356686690000145
表示第Φ'个尺度通道的第ζ'个池化图的组合节点(p',q')的混合池化特征;
(9)根据上述混合池化特征,重复步骤(5),将不同尺度的混合池化特征向量进行全连接,得到混合网络的组合特征矩阵
Figure BDA0001356686690000146
其中K'表示每个尺度通道产生不同特征图的个数;
(10)根据上述步骤(9)得到的混合网络的组合特征矩阵Hhybric,利用下式,根据训练样本的个数N1,计算神经网络的训练样本输出权重β:
Figure BDA0001356686690000151
Figure BDA0001356686690000152
Figure BDA0001356686690000153
Figure BDA0001356686690000154
其中,T是训练样本
Figure BDA0001356686690000155
的期望值,C为正则化系数,取值为任意值,本发明一个实施例中,C的取值为5,上标T表示矩阵转置;
(11)利用上述步骤(3)中三个模态初始权重正交化后的正交矩阵
Figure BDA0001356686690000156
Figure BDA0001356686690000157
对经过预处理的待分类数据集D2,得到待分类样本的三模态混合特征向量Htest;利用上述步骤(3),可以得到待分类物体三个模态的卷积特征向量;利用上述步骤(4),可以得到待分类物体的三个模态的池化特征向量;利用上述步骤(5),可以得到待分类物体的三个模态的全连接特征向量;利用上述步骤(6),可以得到待分类物体的多模态融合后的混合矩阵;利用上述步骤(7),可以得到待分类物体的多模态混合卷积特征;利用上述步骤(8),可以得到待分类物体的多模态混合池化特征;利用上述步骤(9),可以得到待分类物体的三模态混合特征向量Htest
(12)根据上述步骤(10)的训练样本输出权重β和上述步骤(11)的三模态混合特征向量Htest,利用下式计算出N2个待分类样本的预测标签με,实现基于多模态融合深度学习的物体材质分类,
με=Htestβ 1≤ε≤M。

Claims (1)

1.一种基于多模态融合深度学习的物体材质分类方法,其特征在于该方法包括以下步骤:
(1)设训练样本个数为N1,训练样本材质种类为M1个,记每类材质训练样本的标签为
Figure FDA0002241220340000011
其中1≤M1≤N1,分别采集所有N1个训练样本的视觉图像I1、触觉加速度A1和触觉声音S1,建立一个包括I1、A1和S1的数据集D1,I1的图像大小为320×480;
设待分类物体个数为N2,待分类物体材质的种类为M2个,记每类待分类物体的标签为
Figure FDA0002241220340000012
其中1≤M2≤M1,分别采集所有N2个待分类物体的视觉图像I2、触觉加速度A2和触觉声音S2,建立一个包括I2、A2和S2的数据集D2,I2的图像大小为320×480;
(2)对上述数据集D1和数据集D2视觉图像进行视觉图像预处理、触觉加速度信号进行触觉加速度预处理和触觉声音信号进行触觉声音预处理,分别得到视觉图像、触觉加速度频谱图和触觉声音频谱图,包括以下步骤:
(2-1)利用降采样方法,对图像大小为320×480的图像I1和图像I2进行降采样,得到I1和I2的大小为32×32×3的视觉图像;
(2-2)利用短时傅里叶变换方法,分别将触觉加速度A1和触觉加速度A2转换到频域,短时傅里叶变换中的汉明窗的窗口长度为500,窗口偏移量为100,采样频率为10kHz,分别得到触觉加速度A1和触觉加速度A2的频谱图,从频谱图中选择前500个低频信道作为频谱图像,对该频谱图像进行降采样,得到A1和A2的大小为32×32×3的触觉加速度频谱图像;
(2-3)利用短时傅里叶变换方法,分别将触觉声音S1和触觉声音S2转换到频域,短时傅里叶变换中的汉明窗的窗口长度为500,窗口偏移量为100,采样频率为10kHz,分别得到触觉声音S1和触觉声音S2的频谱图,从频谱图中选择前500个低频信道作为频谱图像,对该频谱图像进行降采样,得到S1和S2的大小为32×32×3的声音频谱图像;
(3)通过多尺度特征映射,获得视觉模态、触觉加速度模态和触觉声音模态的卷积特征,包括以下步骤:
(3-1)将上述步骤(2)得到的I1和I2的大小为32×32×3的视觉图像、A1和A2的大小为32×32×3的触觉加速度频谱图像和S1和S2的大小为32×32×3的声音频谱图像输入到神经网络第一层,即输入层,输入图像的大小为d×d×3,该神经网络中的局部感受野具有Ψ个尺度通道,Ψ个尺度通道的大小分别为r1,r2,…,rΨ,每个尺度通道产生K个不同的输入权重,从而随机生成Ψ×K个特征图,将神经网络随机产生的第Φ个尺度通道的视觉图像、触觉加速度频谱图和声音频谱图的初始权重记为
Figure FDA0002241220340000021
Figure FDA0002241220340000022
Figure FDA0002241220340000023
Figure FDA0002241220340000024
分别由
Figure FDA0002241220340000025
Figure FDA0002241220340000026
逐列组成,其中,上角标I表示训练样本和待分类物体的视觉模态,上角标A表示训练样本和待分类物体的触觉加速度模态,S表示训练样本和待分类物体的触觉声音模态,
Figure FDA0002241220340000027
表示初始权重,
Figure FDA0002241220340000028
表示产生第ζ个特征图的初始权重,1≤Φ≤Ψ,1≤ζ≤K,第Φ个尺度局部感受野的大小为rΦ×rΦ
Figure FDA0002241220340000029
Figure FDA00022412203400000210
进而得到第Φ个尺度通道的所有K个特征图的大小为(d-rΦ+1)×(d-rΦ+1);
(3-2)使用奇异值分解方法,对上述第Φ个尺度通道的初始权重矩阵
Figure FDA00022412203400000211
进行正交化处理,得到正交矩阵
Figure FDA00022412203400000212
Figure FDA00022412203400000213
Figure FDA00022412203400000214
Figure FDA00022412203400000215
中的每一列
Figure FDA00022412203400000216
Figure FDA00022412203400000217
分别为
Figure FDA00022412203400000218
的正交基,第Φ个尺度通道的第ζ个特征图的输入权重
Figure FDA00022412203400000219
Figure FDA00022412203400000220
Figure FDA00022412203400000221
分别为由
Figure FDA00022412203400000222
Figure FDA00022412203400000223
形成的方阵;
利用下式,分别计算视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道的第ζ特征图中的节点(i,j)的卷积特征:
Figure FDA00022412203400000224
Figure FDA00022412203400000225
Figure FDA00022412203400000226
分别表示视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道中第ζ特征图的节点(i,j)的卷积特征,x是与节点(i,j)对应的矩阵;
(4)对上述视觉模态、触觉加速度模态和触觉声音模态的卷积特征进行多尺度平方根池化,池化尺度有Ψ个尺度,Ψ个尺度的大小分别为e1,e2,…,eΨ,第Φ个尺度下池化大小eΦ表示池化中心和边缘之间的距离,池化图和特征图大小相同,为(d-rΦ+1)×(d-rΦ+1),根据上述步骤(3)得到的卷积特征,利用下式计算池化特征:
Figure FDA0002241220340000031
若节点i不在(0, (d-rΦ+1))内,节点j不在(0, (d-rΦ+1))内,则
Figure FDA0002241220340000032
Figure FDA0002241220340000033
均为零,
Φ=1,2,3...,Ψ,
ζ=1,2,3...,K,
其中,
Figure FDA0002241220340000034
Figure FDA0002241220340000035
分别表示视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道中第ζ个池化图的节点(p,q)的池化特征;
(5)根据上述池化特征,得到三个模态的全连接特征向量,包括以下步骤:
(5-1)将步骤(4)的池化特征中的第ω个训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的池化图的所有池化特征,分别连接成一个行向量
Figure FDA0002241220340000036
Figure FDA0002241220340000037
其中1≤ω≤N1
(5-2)遍历N1个训练样本,重复上述步骤(5-1),分别得到N1训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的行向量组合,记为:
Figure FDA0002241220340000038
其中,
Figure FDA0002241220340000041
表示视觉模态的组合特征向量矩阵,
Figure FDA0002241220340000042
表示触觉加速度模态特征矩阵,
Figure FDA0002241220340000043
表示触觉声音模态的特征向量矩阵;
(6)三个模态的全连接特征向量,进行多模态融合,得到多模态融合后的混合矩阵,包括以下步骤:
(6-1)将上述步骤(5)的N1训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的行向量输入混合层进行组合处理,得到一个混合矩阵H=[HI,HA,HS];
(6-2)对步骤(6-1)的混合矩阵H中的每个样本的混合行向量进行调整,生成一个多模态融合后的二维混合矩阵,二维混合矩阵的大小为d'×d”,
Figure FDA0002241220340000044
其中,d'是二维矩阵的长度,取值范围为
Figure FDA0002241220340000045
(7)将上述步骤(6)得到的多模态融合后的混合矩阵输入到神经网络的混合网络层,通过多尺度特征映射,获得多模态混合卷积特征,包括以下步骤:
(7-1)将上述步骤(6-2)得到的多模态融合后的混合矩阵输入到混合网络中,混合矩阵的大小为d'×d”,该混合网络有Ψ'个尺度通道,Ψ'个尺度通道的大小分别为r1,r2,…,rΨ',每个尺度通道产生K'个不同的输入权重,从而随机生成Ψ'×K'个混合特征图,将混合网络随机产生第Φ'个尺度通道混合初始权重记为
Figure FDA0002241220340000046
Figure FDA00022412203400000414
Figure FDA0002241220340000047
逐列组成,其中上角标hybrid表示三模态融合,
Figure FDA0002241220340000048
表示混合网络的初始权重,
Figure FDA0002241220340000049
表示产生第ζ'个混合特征图的初始权重,1≤Φ'≤Ψ',1≤ζ'≤K',第Φ'个尺度通道局部感受野的大小为rΦ'×rΦ',那么
Figure FDA00022412203400000412
Figure FDA00022412203400000413
进而得到第Φ'个尺度通道第ζ'个特征图的大小为(d'-rΦ'+1)×(d”-rΦ'+1);
(7-2)使用奇异值分解方法,对上述第Φ'个尺度通道初始权重矩阵
Figure FDA0002241220340000051
进行正交化处理,得到正交矩阵
Figure FDA0002241220340000052
Figure FDA00022412203400000512
的每一列
Figure FDA0002241220340000053
Figure FDA0002241220340000054
的正交基,第Φ'个尺度通道的第ζ'个特征图的输入权重
Figure FDA0002241220340000055
是由
Figure FDA0002241220340000056
形成的方阵;
利用下式,计算第Φ'个尺度通道的第ζ'特征图中的卷积节点(i',j')混合卷积特征:
Figure FDA0002241220340000057
Figure FDA0002241220340000058
是第Φ'个尺度通道的第ζ'特征图中的卷积节点(i',j')混合卷积特征,x'是与节点(i',j')对应的矩阵;
(8)对上述混合卷积特征,进行混合多尺度平方根池化,池化尺度有Ψ'个尺度,大小分别为e1,e2,…,eΨ',第Φ'个尺度下池化图和特征图大小相同,为(d'-rΦ'+1)×(d”-rΦ'+1),根据上述步骤(7)得到的混合卷积特征,利用下式计算混合池化特征:
Figure FDA0002241220340000059
若节点i'不在(0, (d’-rΦ’+1))内,节点j'不在(0, (d’-rΦ’+1))内,则
Figure FDA00022412203400000510
为零,
Φ'=1,2,3...,Ψ',
ζ'=1,2,3...,K';
其中,
Figure FDA00022412203400000511
表示第Φ'个尺度通道的第ζ'个池化图的组合节点(p',q')的混合池化特征;
(9)根据上述混合池化特征,采用步骤(5)的方法,将不同尺度的混合池化特征向量进行全连接,得到混合网络的组合特征矩阵
Figure FDA0002241220340000061
其中K'表示每个尺度通道产生不同特征图的个数;
(10)根据上述步骤(9)得到的混合网络的组合特征矩阵Hhybric,利用下式,根据训练样本的个数N1,计算神经网络的训练样本输出权重β:
Figure FDA0002241220340000062
Figure FDA0002241220340000063
Figure FDA0002241220340000064
Figure FDA0002241220340000065
其中,T是训练样本
Figure FDA0002241220340000066
的期望值,C为正则化系数,取值为任意值,上标T表示矩阵转置;
(11)利用上述步骤(3)中三个模态初始权重正交化后的正交矩阵
Figure FDA0002241220340000067
Figure FDA0002241220340000068
对经过预处理的待分类数据集D2,利用上述步骤(3)-步骤(9)的方法,得到待分类样本的混合网络的组合特征矩阵Htest
(12)根据上述步骤(10)的训练样本输出权重β和上述步骤(11)的待分类样本的混合网络的组合特征矩阵Htest,利用下式计算出N2个待分类样本的预测标签με,实现基于多模态融合深度学习的物体材质分类,
με=Htestβ 1≤ε≤M2
CN201710599106.1A 2017-07-21 2017-07-21 一种基于多模态融合深度学习的物体材质分类方法 Active CN107463952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710599106.1A CN107463952B (zh) 2017-07-21 2017-07-21 一种基于多模态融合深度学习的物体材质分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710599106.1A CN107463952B (zh) 2017-07-21 2017-07-21 一种基于多模态融合深度学习的物体材质分类方法

Publications (2)

Publication Number Publication Date
CN107463952A CN107463952A (zh) 2017-12-12
CN107463952B true CN107463952B (zh) 2020-04-03

Family

ID=60546004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710599106.1A Active CN107463952B (zh) 2017-07-21 2017-07-21 一种基于多模态融合深度学习的物体材质分类方法

Country Status (1)

Country Link
CN (1) CN107463952B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734210B (zh) * 2018-05-17 2021-10-15 浙江工业大学 一种基于跨模态多尺度特征融合的对象检测方法
CN108846375B (zh) * 2018-06-29 2019-06-18 山东大学 一种基于神经网络的多模态协同学习方法及装置
CN109190638A (zh) * 2018-08-09 2019-01-11 太原理工大学 基于多尺度局部感受野在线顺序极限学习机的分类方法
EP3620978A1 (de) * 2018-09-07 2020-03-11 Ibeo Automotive Systems GmbH Verfahren und vorrichtung zur klassifizierung von objekten
CN109447124B (zh) * 2018-09-28 2019-11-19 北京达佳互联信息技术有限公司 图像分类方法、装置、电子设备及存储介质
CN109508740B (zh) * 2018-11-09 2019-08-13 郑州轻工业学院 基于高斯混合噪声生成式对抗网络的物体硬度识别方法
CN109902585B (zh) * 2019-01-29 2023-04-07 中国民航大学 一种基于图模型的手指三模态融合识别方法
CN110020596B (zh) * 2019-02-21 2021-04-30 北京大学 一种基于特征融合和级联学习的视频内容定位方法
CN110659427A (zh) * 2019-09-06 2020-01-07 北京百度网讯科技有限公司 基于多源数据的城市功能划分方法、装置和电子设备
CN110942060B (zh) * 2019-10-22 2023-05-23 清华大学 基于激光散斑和模态融合的材质识别方法及装置
CN110909637A (zh) * 2019-11-08 2020-03-24 清华大学 一种基于视触融合的室外移动机器人地形识别方法
CN111028204B (zh) * 2019-11-19 2021-10-08 清华大学 一种基于多模态融合深度学习的布匹缺陷检测方法
CN110861853B (zh) * 2019-11-29 2021-10-19 三峡大学 视觉与触觉相结合的智能垃圾分类方法
CN111590611B (zh) * 2020-05-25 2022-12-02 北京具身智能科技有限公司 一种基于多模态主动感知的物品分类回收方法
CN112893180A (zh) * 2021-01-20 2021-06-04 同济大学 一种考虑摩擦系数异常值剔除的物体触摸分类方法和***
CN113780460A (zh) * 2021-09-18 2021-12-10 广东人工智能与先进计算研究院 一种材质识别方法、装置、机器人、电子设备及存储介质
CN114723963B (zh) * 2022-04-26 2024-06-04 东南大学 基于视触觉信号的任务动作及物体物理属性的识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715260A (zh) * 2015-03-05 2015-06-17 中南大学 基于rls-elm的多模态融合图像分类方法
CN105512609A (zh) * 2015-11-25 2016-04-20 北京工业大学 一种基于核超限学习机的多模融合视频情感识别方法
CN105956351A (zh) * 2016-07-05 2016-09-21 上海航天控制技术研究所 一种基于机器学习的触觉信息分类计算建模方法
CN106874961A (zh) * 2017-03-03 2017-06-20 北京奥开信息科技有限公司 一种采用基于局部感受野的极速学习机的室内场景识别方法
WO2017100903A1 (en) * 2015-12-14 2017-06-22 Motion Metrics International Corp. Method and apparatus for identifying fragmented material portions within an image

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715260A (zh) * 2015-03-05 2015-06-17 中南大学 基于rls-elm的多模态融合图像分类方法
CN105512609A (zh) * 2015-11-25 2016-04-20 北京工业大学 一种基于核超限学习机的多模融合视频情感识别方法
WO2017100903A1 (en) * 2015-12-14 2017-06-22 Motion Metrics International Corp. Method and apparatus for identifying fragmented material portions within an image
CN105956351A (zh) * 2016-07-05 2016-09-21 上海航天控制技术研究所 一种基于机器学习的触觉信息分类计算建模方法
CN106874961A (zh) * 2017-03-03 2017-06-20 北京奥开信息科技有限公司 一种采用基于局部感受野的极速学习机的室内场景识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep Learning for Surface Material Classification Using Haptic and Visual Information;Haitian Zheng et al.;《IEEE TRANSACTIONS ON MULTIMEDIA》;20161130;第2407-2416页 *
Multi-Modal Local Receptive Field Extreme Learning Machine for Object Recognition;Fengxue Li et al.;《2016 International Joint Conference on Neural Networks (IJCNN)》;20161103;第1696-1701页 *
基于神经网络的三维模型视觉特征分析;韦伟;《计算机工程与应用》;20080721;第174-178页 *

Also Published As

Publication number Publication date
CN107463952A (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN107463952B (zh) 一种基于多模态融合深度学习的物体材质分类方法
Myers et al. Affordance detection of tool parts from geometric features
CN111639679B (zh) 一种基于多尺度度量学习的小样本学习方法
CN110443293B (zh) 基于双判别生成对抗网络文本重构的零样本图像分类方法
CN109559758B (zh) 一种基于深度学习的将纹理图像转换成触觉信号的方法
Bleed Skill matters
CN108734138A (zh) 一种基于集成学习的黑色素瘤皮肤病图像分类方法
CN101021900A (zh) 利用降维方法进行人脸姿态估计的方法
KR102488516B1 (ko) 피검물의 확장 인증 방법
CN103235947B (zh) 一种手写体数字识别方法及装置
Beltramello et al. Artistic robotic painting using the palette knife technique
CN104346789B (zh) 支持多样图的快速艺术风格学习方法
CN103218825A (zh) 一种尺度不变的时空兴趣点快速检测方法
CN104504406B (zh) 一种快速高效的近似重复图像匹配方法
CN109447996A (zh) 三维图像中的手部分割
CN103745233A (zh) 基于空间信息迁移的高光谱图像分类方法
CN106529486A (zh) 一种基于三维形变人脸模型的种族识别方法
Bednarek et al. Gaining a sense of touch object stiffness estimation using a soft gripper and neural networks
Mateo et al. 3D visual data-driven spatiotemporal deformations for non-rigid object grasping using robot hands
Wang et al. Improving generalization of deep networks for estimating physical properties of containers and fillings
CN102737232A (zh) 一种***细胞识别方法
Wang et al. Accelerometer-based gesture recognition using dynamic time warping and sparse representation
Alnaim et al. Mini gesture detection using neural networks algorithms
CN108280511A (zh) 一种基于卷积网络进行网络访问数据进行处理的方法
Kwolek GAN-based data augmentation for visual finger spelling recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant