CN115526253A - 基于生成对抗网络的非接触式估计表面物理属性值的方法 - Google Patents
基于生成对抗网络的非接触式估计表面物理属性值的方法 Download PDFInfo
- Publication number
- CN115526253A CN115526253A CN202211172303.2A CN202211172303A CN115526253A CN 115526253 A CN115526253 A CN 115526253A CN 202211172303 A CN202211172303 A CN 202211172303A CN 115526253 A CN115526253 A CN 115526253A
- Authority
- CN
- China
- Prior art keywords
- network
- generation
- tactile
- training
- generated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于生成对抗网络的非接触式估计表面物理属性值的方法,其中包括以下步骤:1.编解码网络的设计:基于格拉姆求和角场设计了序列编解码网络。2.模型的设计:基于图像生成任务,结合生成对抗网络的网络架构进行网络的设计。3.数据集的获取:实验数据集包含418种材料的多角度视觉图像与15种表面触觉物理特性。4.网络的训练:将训练数据集输入模型中进行训练,结合WGAN‑GP与特征匹配损失优化生成网络和判别网络的参数。5.模型的测试:将测试集输入网络模型,对生成结果解码得到最终的物理触觉属性预测值。本发明基于编解码网络和生成对抗网络结构,能够直接从不同角度的材料图像中较为准确地估计出表面物理触觉属性值。
Description
技术领域
本发明涉及视觉测量与图片生成领域,尤其涉及一种基于生成对抗网络的 非接触式估计表面物理属性值的方法。
背景技术
人类通过多模态的方式感知世界,其中视觉和触觉是两个重要且比较相关 的知觉通道。视觉和触觉的交叉感知,可以提高人们的场景/物体识别能力。与 人类一样,视触觉间的跨模态连接可以使机器人更有效地处理工业环境,并提高 机器人与未知环境和物体交互的能力。从视觉图像中估计出表面触觉属性具有 重要的应用价值,比如机器人抓取和推动物体的操作就可以从表面物理属性的 估计中受益,以提高操作稳健性。近年来已有一些工作尝试在机器作业中共同使 用视觉与触觉传感器以进行视觉和触觉数据的整合和转换,从而让机器人能够 模拟人类的跨模态感知能力。但是这些工作的研究重心在于如何从视觉模态中 预测触觉属性的程度或者生成相关的触觉信号表示,直接从视觉图像中准确估 计材料表面物理触觉属性值这一任务仍是一个巨大的挑战。
发明内容
(一)要解决的技术问题
本发明的目的在于提供一种基于生成对抗网络的非接触式估计表面物理属 性值的方法,解决上述的技术问题。
(二)技术方案
本发明提供了一种基于生成对抗网络的非接触式估计表面物理属性值的方 法,包括:
1.数据集的获取。表面属性联觉数据集(SPS)作为材料表面图像数据和材料 表面物理属性数据的来源,我们对数据进行预处理得到本方法的实验数据集。实 验数据集包含了418种材料在连续的角度下拍摄的多角度视觉图像与使用手指 型触觉传感装置测量的包括摩擦力、顺应性、附着力、纹理和热导率在内的总共 15种物体表面触觉物理特性。每一种材料选取94张不同角度下的视觉图像,我 们的实验数据集合计共有39292组视触觉数据对。
2.编解码网络的设计。基于格拉姆求和角场构建将一维属性序列双向转换 为二维矩阵表示的编解码网络。编码阶段实现将一维触觉向量转换为可以输入 生成模型的结构;解码过程是将模型生成结果还原成一维触觉向量的逆运算。
3.模型的设计。基于图像生成任务,以生成对抗网络的网络架构为基本模 型,结合U-Net和PatchGAN框架进行实验模型的设计。
4.模型的训练。对实验数据集的每一种材料都随机选取90%的视触觉对作 为训练样本,剩余数据则作为测试样本。将经过处理后的训练集输入网络模型, 设置相应的超参数进行网络模型的训练,并结合WGAN-GP和特征匹配方法设计 一个新的损失函数,从而实现对生成网络和判别网络的参数的优化。
5.模型的测试。将测试集输入网络模型,加载训练权重并输出生成结果,然 后对生成结果进行逆运算解码得到最终的物理触觉属性预测值。本发明基于编 解码网络和生成对抗网络结构,能够直接从不同角度的材料图像中较为准确地 估计出表面物理触觉属性值。
在本发明的一些实施例中,所述模型的设计包括:
1.编解码网络。基于格拉姆求和角场设计了序列编解码网络,可以实现一 维触觉向量与二维图像之间的双向运算。编码阶段首先将一维触觉向量缩放到 [0,1]区间,再利用极坐标系来表示一维向量。转换到极坐标系之后,通过定义内 积公式就可以得到编码后的二维矩阵表示。解码器则通过利用内积的逆运算公 式,从矩阵对角线精确地重建原始序列。
2.预训练的分类网络。通过添加预训练的分类目标进行强监督,可以引导 生成网络生成更合理的输出。利用在其他更大的数据集上训练好的DenseNet-121 网络参数作为分类任务的迁移参数,能够很好地提取本任务中的数据图像的分 类特征。在网络训练之前,先使用预训练的DenseNet-121网络提取材料标签信 息的特征表示,然后在生成网络中对标签特征信息进行上采样,通过多次卷积操 作将其与生成网络中的编码器提供的特征向量进行残差融合,作为后续生成网 络中的解码器的输入。
3.生成网络G。生成网络G采用了将输入的材料表面图像进行编码然后再 对编码后的特征向量进行解码的过程,受U-Net结构的启发,最终的输出特征 向量是编码特征和解码特征跨越融合的结果。生成网络G由编码器和解码器两 个结构组成。编码器由四个下采样模块组成,每个下采样模块包含卷积操作、归 一化操作和激活函数。在编码阶段将材料图像输入到编码器,让编码器进行特征 提取,从而将图像用低维的特征向量来表示。解码器则由四个上采样模块组成, 每个上采样模块包含反卷积操作、归一化操作和激活函数。在解码前,首先将编 码器输出的特征向量与经过预训练的分类网络输出的特征进行多次卷积融合, 再将融合后的特征输入到解码器,然后解码器根据输入的特征输出对应的生成 结果。
4.判别网络D。对输入的生成结果与真实数据进行比较分析,判别网络D 的目的是衡量真实的触觉编码数据集和生成网络的输出所对应的分布之间的距 离。判别网络包含五个下采样模块。模块一、模块二、模块三和模块四都包含了 卷积操作、归一化操作和激活函数。按照一般的判别网络设计,最后一个模块应 该输出一个判别向量,用来直接判断生成结果与真实数据之间的真假,而本发明 设计的判别网络基于PatchGAN思想,转而采取让最后一个模块通过卷积层映射 输出一个NxN维度的判别向量的方法,这个矩阵的某一个数就代表着判别网络 对生成图像和真实结果某一块位置的判断,因此该方法可以更全面地衡量生成 图像和真实数据之间的差异。在本发明的实验中,判别网络的输出是一个8x8维度的判别矩阵。运用判别网络对生成结果和真实的触觉编码结构进行判断真假, 然后将判别的结果再反馈至生成网络,用来更新生成网络的参数;同时判别网络 也会对生成结果和真实的触觉编码结构进行学习,更新判别网络的参数,来达到 更高的判断率。
在本发明的一些实施例中,所述构造数据集包括:
公开可获取的表面属性联觉数据集中包含了塑料、皮革、木头、棉布在内的 多种常见室内材料种类,每一类别拥有数量不等的材料,总共有418组材料来 组成我们的实验数据集。实验数据集包含这418种材料在不同的角度下拍摄的 多角度视觉图像与使用手指型触觉传感装置测量的包括摩擦力、顺应性、附着力、 纹理和热导率在内的总共15种物体表面触觉物理特性。本步骤对每一种材料选 取94张不同角度下的视觉图像,并将图像大小从1920x1080调整至75x75,同 时对图像进行随机的对比度、亮度调整,共得到39292组视触觉数据对。对数据 集的划分,本步骤将收集到的视触觉配对数据按90%划分到训练集,剩余的10% 划分到测试集。
在本发明的一些实施例中,所述模型的训练包括:
首先通过序列编解码网络,将一维触觉数据编码为可以输入生成对抗网络 的形式作为网络的输入数据。在网络的预训练阶段,先将材料图像和对应的类别 标签输入预训练的DenseNet-121网络中进行一轮完整的训练,得到训练权重并 保存。在生成对抗网络的数据输入阶段,将材料图像和对应的经过编码后的触觉 数据一起输入。在生成网络中,先将材料图像输入进行学习,再将生成网络输出 的结果和输入的触觉向量编码一起输入到判别网络中,判别网络对两张特征进 行真假鉴别,目的是为了衡量生成网络生成的特征的分布和真实触觉数据所形 成的分布的差异。在网络训练阶段,先固定住判别网络D的参数,然后根据判 别网络计算出来的生成网络生成的特征分布和真实的触觉向量编码对应的分布 之间的差异来提供梯度更新生成网络的参数。当更新了一轮生成网络的参数后, 生成网络G生成的图片所形成的分布和真实的触觉向量编码的分布之间的距离 被缩小了,这时候判别网络可能没有足够的能力去很好地判断生成的特征分布 和真实的触觉向量编码之间的真假,因此此时转而固定住生成网络G的参数, 然后再输入材料图像到生成网络G输出一张假的触觉特征图,再将生成的触觉 特征分布和真实的触觉向量编码通过判别网络D进行鉴别。通过计算生成网络 G的生成结果和真实的触觉向量编码之间的损失来提供梯度并更新判别网络D 的参数,使得判别网络D能够重新鉴别更新后的生成网络G生成的特征分布和 真实的触觉向量编码之间的真假。至此第一轮网络的训练结束,生成网络G和 判别网络D在一种类似相互对抗的情况下相互进步。生成网络G生成的结果越 来越真实,对应的是生成的触觉特征结构和真实的触觉向量编码数据集在分布 上更加拟合,而判别网络D则始终保持足够的能力去鉴别生成结果和真实的触 觉向量编码之间的真假。
选择使用WGAN-GP和特征匹配损失作为衡量图像分布域之间的距离的损 失函数,因为WGAN-GP能够更加准确的衡量分布域之间的距离从而提供更加 稳定的梯度来更新生成网络G。特征匹配损失则通过从判别网络D的每一层中 提取特征输出,并将这些特征表示与真实数据进行L1距离匹配,从而更好地提 高网络的稳定性。
在本发明的一些实施例中,所诉模型的测试包括:
向生成网络G输入训练集的测试样本,编码器先进行编码,然后将编码后 的特征向量通过解码器进行解码;在解码的过程中,通过将编码过程中的特征图 和解码的特征图进行跨越融合,这样可以提高生成结果的质量。虽然输入的材料 图像和输出的触觉结构特征之间有很大的差异,但是它们是由相同的底层结构 生成,因此进行不同层之间的特征分享可以在一定程度上提高生成结果的准确 性,加速模型收敛。
在获得了生成网络G输出的触觉结构特征后,本步骤通过编解码网络的解 码过程,基于内积的逆运算与极坐标系的转换规则来恢复生成矩阵的对角线结 构中包含的潜在原始序列的信息,从而精确重建一维序列并输出最终的15种触 觉属性预测值。
(三)有益效果
本发明的基于生成对抗网络的非接触式估计表面物理属性值的方法,相较 于现有技术,至少具有以下优点:
1.本发明能够在不受角度的影响下较为准确地通过视觉图像直接预测出 材料表面多种触觉物理属性值。
2.本发明可以潜在地应用于各种机器人操作任务,提高机器人作业的稳健 性。
附图说明
图1为本发明实施例的基于生成对抗网络的非接触式估计表面物理属性值 的方法的流程示意图。
图2为本发明实施例的编解码网络的结构图。
图3为本发明实施例的使用的预训练的分类网络的结构图。
图4为本发明实施例的生成对抗网络的结构图。
图5为本发明实施例的部分材料表面图像数据。
具体实施方式
本发明提供了一种基于生成对抗网络的非接触式估计表面物理属性值的方 法。通过设计基于生成对抗网络的材料图像到触觉编码的卷积神经网络模型,并 通过设计序列编解码网络,基于内积的逆运算与极坐标系的转换规则,精确重建 一维序列并输出最终的15种触觉属性预测值。在训练时收集大量的材料表面图 像与对应的触觉数据制作成视触觉对数据集,然后将收集的数据集中的训练样 本输入设计好的神经网络模型进行训练优化模型参数,最后测试时将数据集中 的测试样本输入生成网络G,最终输出15种触觉属性预测值。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例, 并参照附图,对本发明进一步详细说明。
本发明提供了一种基于生成对抗网络的非接触式估计表面物理属性值的方 法,图1为本发明实施例的基于格拉姆求和角场和生成对抗网络的非接触式估 计表面物理属性值的框架示意图,如图1所示,该装置包括:编解码网络的设计1、生成对抗网络的设计2、视触觉对数据集的构建3、模型的训练4和模型的 测试5。
编解码网络的设计1,基于格拉姆求和角场构建将一维属性序列双向转换为 二维矩阵表示的编解码网络,从而将一维触觉向量编码为可以输入生成模型的 结构,解码过程是从模型生成结果到一维触觉向量的逆运算;生成对抗网络的设 计2,基于图像生成任务,以生成对抗网络的网络架构为基本模型,结合U-Net 和PatchGAN框架进行实验模型的设计;视触觉对数据集的构建3,表面属性联 觉数据集(SPS)作为材料表面图像数据和材料表面物理属性数据的来源,我们对 数据进行预处理得到本方法的实验数据集。实验数据集包含了418种材料在连 续的角度下拍摄的多角度视觉图像与使用手指型触觉传感装置测量的包括摩擦 力、顺应性、附着力、纹理和热导率在内的总共15种物体表面触觉物理特性。每一种材料选取94张不同角度下的视觉图像,我们的实验数据集合计共有39292 组视触觉数据对;模型的训练4,对实验数据集的每一种材料都随机选取90% 的视触觉对作为训练样本,剩余数据则作为测试样本。将经过处理后的训练集输 入网络模型,设置相应的超参数进行网络模型的训练,并结合WGAN-GP和特征 匹配方法设计一个新的损失函数,从而实现对生成网络和判别网络的参数的优 化;模型的测试5,将测试集输入网络模型,加载训练权重并输出生成结果,然 后对生成结果进行逆运算解码得到最终的物理触觉属性预测值。
接着,就结合图2至图5对各模块进行详细说明。
编解码网络的设计1。如图2所示。基于格拉姆求和角场设计了序列编解码 网络,可以实现一维触觉向量与二维图像之间的双向运算。编码阶段是图2中 的(1)到(3)部分,首先在步骤(1)中将触觉数据缩放到[0,1]区间,步骤(2)基于转换 公式,从而实现利用极坐标系来表示一维向量。转换到极坐标系之后,步骤(3) 通过定义格拉姆求和公式就可以得到编码后的二维矩阵表示。解码步骤如图2中 的(4)所示,通过逆运算公式,从矩阵对角线结构中精确地重建原始序列,输出 最终的物理属性预测值。
生成对抗网络的设计2。如图3、4所示,模型包括预训练的分类网络,生 成网络G和判别网络D。
预训练的分类网络。如图3所示。通过添加预训练的分类目标进行强监督, 可以引导生成网络生成更合理的输出。利用在其他更大的数据集上训练好的 DenseNet-121网络参数作为分类任务的迁移参数,能够很好地提取本任务中的 数据图像的分类特征。在网络训练之前,先使用预训练的DenseNet-121网络提 取材料标签信息的特征表示,然后在生成网络中对标签特征信息进行上采样。如 图4中的(2)所示,通过多次卷积操作将其与生成网络中的编码器提供的特征向 量进行残差融合,作为后续生成网络中的解码器的输入。
生成网络G。生成网络G采用了将输入的材料表面图像进行编码然后再对 编码后的特征向量进行解码的过程,受U-Net结构的启发,最终的输出特征向 量是编码特征和解码特征跨越融合的结果。生成网络G由编码器和解码器两个 结构组成。编码器由四个下采样模块组成,如图4中的(1)所示。每个下采样模 块包含卷积操作、归一化操作和激活函数。在编码阶段将材料图像输入到编码器, 让编码器进行特征提取,从而将图像用低维的特征向量来表示。解码器则由四个 上采样模块组成,如图4中的(3)所示。每个上采样模块包含反卷积操作、归一 化操作和激活函数。在解码前,首先将编码器输出的特征向量与经过预训练的分 类网络输出的特征进行多次卷积融合,再将融合后的特征输入到解码器,然后解码器根据输入的特征输出对应的生成结果。
判别网络D。对输入的生成结果与真实数据进行比较分析,理论上判别网络 D的目的是衡量真实的触觉编码数据集和生成网络的输出所对应的分布之间的 距离。判别网络包含五个下采样模块,如图4中的(8)所示。模块一、模块二、 模块三和模块四都包含了卷积操作、归一化操作和激活函数,最后一个模块通过 全连接层后作为判别网络的输出。运用判别网络对生成结果图4中的(4)和真实 的触觉编码结构图4中的(7)进行判断真假,然后将判别的结果再反馈至生成网 络,用来更新生成网络的参数;同时判别网络也会对生成结果和真实的触觉编码 结构进行学习,更新判别网络的参数,来达到更高的判断率。
视触觉对数据集的构建3。公开可获取的表面属性联觉数据集中包含了塑料、 皮革、木头、棉布在内的多种常见室内材料种类,每一类别拥有数量不等的材料, 总共有418组材料来组成我们的实验数据集,图5展示了数据集中的部分材料 图像。实验数据集包含这418种材料在连续的角度下拍摄的多角度视觉图像与 使用手指型触觉传感装置测量的物体表面15种触觉物理属性量。本步骤对每一 种材料选取94张不同角度下的视觉图像,并将图像大小从1920x1080调整至 75x75,同时对图像进行随机的对比度、亮度调整,共得到39292组视触觉数据 对。对数据集的划分,本步骤将收集到的每一种材料的视触觉配对数据按90% 划分到训练集,剩余的10%划分到测试集。
模型的训练4。首先通过编解码网络,将一维触觉数据编码为可以输入生成 对抗网络的形式作为网络的输入数据。在网络的预训练阶段,先将材料图像和对 应的类别标签输入预训练的DenseNet-121网络中进行一轮完整的训练,得到训 练权重并保存。在生成对抗网络的数据输入阶段,将材料图像和对应的经过编码 后的触觉数据一起输入。在生成网络中,先将材料图像输入进行学习,再将生成 网络输出的结果和输入的触觉向量编码一起输入到判别网络中,判别网络对两 张特征进行真假鉴别,理论上这时候是在衡量生成网络生成的特征的分布和真 实触觉数据所形成的分布的差异。
在网络训练阶段,先固定住判别网络D的参数,然后根据判别网络计算出 来的生成网络生成的特征分布和真实的触觉向量编码对应的分布之间的差异来 提供梯度更新生成网络的参数。当更新了一轮生成网络的参数后,生成网络G 生成的图片所形成的分布和真实的触觉向量编码的分布之间的距离被缩小了, 这时候判别网络没有足够的能力去很好地判断生成的特征分布和真实的触觉向 量编码之间的真假,因此此时转而固定住生成网络G的参数,然后再输入材料 图像到生成网络G输出一张假的触觉特征图,再将生成的触觉特征分布和真实 的触觉向量编码通过判别网络D进行鉴别。通过计算生成网络G的生成结果和 真实的触觉向量编码之间的损失来提供梯度并更新判别网络D的参数,使得判 别网络D能够重新鉴别更新后的生成网络G生成的特征分布和真实的触觉向量 编码之间的真假。至此第一轮网络的训练结束,生成网络G和判别网络D在一 种类似相互对抗的情况下相互进步。生成网络G生成的结果越来越真实,对应 的是生成的触觉特征结构和真实的触觉向量编码数据集在分布上更加拟合在一 起,而判别网络D则始终保持足够的能力去鉴别生成结果和真实的触觉向量编 码之间的真假。
选择使用WGAN-GP和特征匹配损失作为衡量图像分布域之间的距离的损 失函数,因为WGAN-GP能够更加准确的衡量分布域之间的距离从而提供更加 稳定的梯度来更新生成网络G,其损失函数Ladv定义如下:
特征匹配损失则通过从判别网络D的每一层中提取特征输出,并将这些特 征表示与真实数据进行L1距离匹配,从而更好地提高网络的稳定性,其目标函 数Lfm表示如下:
所以网络训练使用的损失函数L如下:
L=Ladv+αLfm
模型的测试5。向生成网络G输入训练集的测试样本,编码器先进行编码, 然后将编码后的特征向量通过解码器进行解码;在解码的过程中,通过将编码过 程中的特征图和解码的特征图进行跨越融合,这样可以提高生成结果的质量。虽 然输入的材料图像和输出的触觉结构特征之间有很大的差异,但是它们是由相 同的底层结构生成,因此进行不同层之间的特征分享可以在一定程度上提高生 成结果的准确性,加速模型收敛。
在获得了生成网络G输出的触觉结构特征后,本步骤通过编解码网络的解 码过程,基于内积的逆运算与极坐标系的转换规则来恢复生成矩阵的对角线结 构中包含的潜在原始序列的信息,从而精确重建一维序列并输出最终的15种触 觉属性预测值。测试样本的预测对比结果如表1所示,采用平均绝对误差与平 均系数作为预测的评价指标,与基本回归网络进行对比实验,我们的方法明显优 于基本回归网络。
表1
Model | cDF | cCM | aTK | tCO | Cyd | mTX | mRG | cDP | uCO | tPR | fST | fRS | cRX | mCO | uRO | R<sup>2</sup> |
Regression | 5.979 | 6.031 | 6.325 | 5.437 | 7.272 | 8.096 | 3.227 | 3.647 | 6.639 | 2.462 | 3.935 | 1.827 | 3.989 | 3.055 | 3.067 | 0.677 |
Ours | 0.408 | 0.452 | 0.411 | 0.372 | 0.443 | 0.479 | 0.440 | 0.307 | 0.423 | 0.327 | 0.291 | 0.350 | 0.370 | 0.448 | 0.362 | 0.986 |
综上,本发明的基于生成对抗网络的非接触式估计表面物理属性值的方法, 通过数据集的收集,网络模型的确定,最后模型的训练和测试,能够实现从不同 角度的材料表面图像中直接估计15种物理触觉属性值的目标。我们的方法的预 测结果有着较为准确的精度,可以潜在地应用于各种机器人操作任务。
至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附 图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人 员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限 于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行 简单地更改或替换。
“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的“一” 或“一个”不排除存在多个这样的元件。
此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以 上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可 靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中 的技术特征可以自由组合形成更多的实施例。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一 步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于 限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进 等,均应包含在本发明的保护范围之内。
Claims (6)
1.本发明提供了一个基于生成对抗网络的非接触式估计表面物理属性值的方法,其特征在于,包括以下步骤:
步骤1,公开可获取的表面属性联觉数据集(SPS)作为材料表面图像数据和材料表面物理属性数据的来源,我们对数据进行预处理得到本方法的实验数据集;
步骤2,基于格拉姆求和角场构建将一维属性序列双向转换为二维矩阵表示的编解码网络;
步骤3,基于图像生成任务,以生成对抗网络的网络架构为基本模型,结合U-Net和PatchGAN框架进行实验模型的设计;
步骤4,将经过处理后的训练集输入网络模型,设置相应的超参数进行网络模型的训练,并结合WGAN-GP和特征匹配方法设计一个新的损失函数,从而实现对生成网络和判别网络的参数的优化;
步骤5,将测试集输入网络模型,加载训练权重并输出生成结果,生成结果通过解码网络逆运算得到最终的物理触觉属性预测值,本发明基于编解码网络和生成对抗网络模型,能够从不同角度的材料图像中较为准确地直接估计出表面物理触觉属性值。
2.如权利要求1所述的基于生成对抗网络的非接触式估计表面物理属性值的方法,其特征在于,所述步骤1具体包括以下处理:
表面属性联觉数据集(SPS)包含了塑料、皮革、木头、棉布在内的多种常见室内材料种类,每一类别拥有数量不等的材料,总共有418组材料组成我们的实验数据集;实验数据集包含这418种材料在不同的角度下拍摄的多角度视觉图像与使用手指型触觉传感装置测量的包括摩擦力、顺应性、附着力、纹理和热导率在内的总共15种物体表面触觉物理特性;本步骤对每一种材料选取94张不同角度下的视觉图像,并将图像大小从1920x1080调整至75x75,同时对图像进行随机的对比度、亮度调整,共得到39292组视触觉数据对;对数据集的划分,本步骤将收集到的每一种材料的视触觉配对数据按90%划分到训练集,剩余的10%划分到测试集。
4.如权利要求1所述的基于生成对抗网络的非接触式估计表面物理属性值的方法,其特征在于,所述步骤3具体包括以下处理:
实验模型包括预训练的分类网络,生成网络G和判别网络D三个模块;预训练的分类网络通过添加预训练的分类目标进行强监督,可以引导生成网络生成更合理的输出;利用在其他更大的数据集(如ImageNet)上训练好的DenseNet-121网络参数作为分类任务的迁移参数,能够很好地提取本任务中的数据图像的分类特征;在网络训练之前,先使用预训练的DenseNet-121网络提取材料标签信息的特征表示,然后在生成网络中对标签特征信息进行上采样;通过多次卷积操作将其与生成网络中的编码器提供的特征向量进行残差融合,作为后续生成网络中的解码器的输入;
生成网络G采用了将输入的材料表面图像进行编码然后再对编码后的特征向量进行解码的过程,受U-Net结构的启发,最终的输出特征向量是编码特征和解码特征跨越融合的结果;生成网络G由编码器和解码器两个结构组成;编码器由四个下采样模块组成,每个下采样模块包含卷积操作、归一化操作和激活函数;在编码阶段将材料图像输入到编码器,让编码器进行特征提取,从而将图像用低维的特征向量来表示;解码器则由四个上采样模块组成,每个上采样模块包含反卷积操作、归一化操作和激活函数;在解码前,首先将编码器输出的特征向量与经过预训练的分类网络输出的特征进行多次残差融合,再将融合后的特征输入到解码器,然后解码器根据输入的特征输出对应的生成结果;
判别网络D对输入的生成结果与真实数据进行比较分析,判别网络D的目的是衡量真实的触觉编码数据集和生成网络的输出所对应的分布之间的距离;判别网络包含五个下采样模块,模块一、模块二、模块三和模块四都包含了卷积操作、归一化操作和激活函数,按照一般的判别网络设计,最后一个模块应该输出一个判别向量,用来直接判断生成结果与真实数据之间的真假,而本发明设计的判别网络基于PatchGAN思想,转而采取让最后一个模块通过卷积层映射输出一个NxN维度的判别向量的方法,这个矩阵的某一个数就代表着判别网络对生成图像和真实结果某一块位置的判断,因此该方法可以更全面地衡量生成图像和真实数据之间的差异,在本方法的实验中,判别网络的输出是一个8x8维的判别矩阵;运用判别网络对生成结果和真实的触觉编码结构进行判断真假,然后将判别的结果再反馈至生成网络,用来更新生成网络的参数;同时判别网络也会对生成结果和真实的触觉编码结构进行学习,更新判别网络的参数,来达到更高的判断率。
5.如权利要求1所述的基于生成对抗网络的非接触式估计表面物理属性值的方法,其特征在于,所述步骤4具体包括以下处理:
模型的训练首先通过编解码网络,将一维触觉数据编码为可以输入生成对抗网络的形式作为网络的输入数据;在网络的预训练阶段,先将材料图像和对应的类别标签输入预训练的DenseNet-121网络中进行一轮完整的训练,得到训练权重并保存;在生成对抗网络的数据输入阶段,将材料图像和对应的经过编码后的触觉数据一起输入;在生成网络中,先将材料图像输入进行学习,再将生成网络输出的结果和输入的触觉向量编码一起输入到判别网络中,判别网络对两张特征进行真假鉴别,理论上判别网络的目的是在衡量生成网络生成的特征的分布和真实触觉数据所形成的分布的差异;在网络训练阶段,先固定住判别网络D的参数,然后根据判别网络计算出来的生成网络生成的特征分布和真实的触觉向量编码对应的分布之间的差异来提供梯度并更新生成网络的参数;当更新了一轮生成网络的参数后,生成网络G生成的图片所形成的分布和真实的触觉向量编码的分布之间的距离被缩小了,这时候判别网络就可能没有足够的能力去很好地判断生成的特征分布和真实的触觉向量编码之间的真假,因此转而固定住生成网络G的参数,然后再输入材料图像到生成网络G生成一张假的触觉特征图,再将生成的触觉特征分布和真实的触觉向量编码通过判别网络D进行鉴别;通过计算生成网络G的生成结果和真实的触觉向量编码之间的损失来提供梯度并更新判别网络D的参数,使得判别网络D能够重新鉴别更新后的生成网络G生成的特征分布和真实的触觉向量编码之间的真假;至此第一轮网络的训练结束,生成网络G和判别网络D在一种类似相互对抗的情况下相互进步;生成网络G生成的结果越来越真实,对应的是生成的触觉特征结构和真实的触觉向量编码数据集在分布上更加拟合在一起,而判别网络D则始终保持足够的能力去鉴别生成结果和真实的触觉向量编码之间的真假;
选择使用WGAN-GP和特征匹配损失作为衡量图像分布域之间的距离的损失函数,因为WGAN-GP能够更加准确的衡量分布域之间的距离从而提供更加稳定的梯度来更新生成网络G,其损失函数Ladv定义如下:
特征匹配损失则通过从判别网络D的每一层中提取特征输出,并将这些特征表示与真实数据进行L1距离匹配,从而更好地提高网络的稳定性,其目标函数Lfm表示如下:
所以网络训练使用的最终损失函数如下:
L=Ladv+αLfm
本发明基于TensorFlow 2.0框架实现上述模型,网络每一次训练都经过了250个迭代。
6.如权利要求1所述的基于生成对抗网络的非接触式估计表面物理属性值的方法,其特征在于,所述步骤5具体包括以下处理:
向生成网络G输入训练集的测试样本,编码器先进行编码,然后将编码后的特征向量通过解码器进行解码;在解码的过程中,通过将编码过程中的特征图和解码的特征图进行跨越融合,这样可以提高生成结果的质量;虽然输入的材料图像和输出的触觉结构特征之间有很大的差异,但是它们是由相同的底层结构生成,因此进行不同层之间的特征分享可以在一定程度上提高生成结果的准确性,加速模型收敛;
在获得了生成网络G输出的触觉结构特征后,本步骤通过编解码网络的解码过程,基于内积的逆运算与极坐标系的转换规则来恢复生成矩阵的对角线结构中包含的潜在原始序列的信息,从而精确重建一维序列并输出最终的15种触觉属性预测值;本发明采用平均绝对误差与平均系数作为预测的评价指标,与基本回归网络进行对比实验;
综上,本发明的基于生成对抗网络的非接触式估计表面物理属性值的方法,通过数据集的收集,网络模型的确定,最后模型的训练和测试,能够实现从不同角度的材料表面图像中直接估计15种物理触觉属性值的目标;我们的方法的预测结果有着较为准确的精度,可以潜在地应用于各种机器人操作任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211172303.2A CN115526253A (zh) | 2022-09-26 | 2022-09-26 | 基于生成对抗网络的非接触式估计表面物理属性值的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211172303.2A CN115526253A (zh) | 2022-09-26 | 2022-09-26 | 基于生成对抗网络的非接触式估计表面物理属性值的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115526253A true CN115526253A (zh) | 2022-12-27 |
Family
ID=84700145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211172303.2A Pending CN115526253A (zh) | 2022-09-26 | 2022-09-26 | 基于生成对抗网络的非接触式估计表面物理属性值的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115526253A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117074291A (zh) * | 2023-10-17 | 2023-11-17 | 西南交通大学 | 一种非接触式纹理摩擦预测方法 |
-
2022
- 2022-09-26 CN CN202211172303.2A patent/CN115526253A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117074291A (zh) * | 2023-10-17 | 2023-11-17 | 西南交通大学 | 一种非接触式纹理摩擦预测方法 |
CN117074291B (zh) * | 2023-10-17 | 2024-01-02 | 西南交通大学 | 一种非接触式纹理摩擦预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114359283B (zh) | 基于Transformer的缺陷检测方法和电子设备 | |
CN110009674A (zh) | 基于无监督深度学习的单目图像景深实时计算方法 | |
CN114239560B (zh) | 三维图像分类方法、装置、设备和计算机可读存储介质 | |
CN111062340B (zh) | 一种基于虚拟姿态样本合成的异常步态行为识别方法 | |
CN106157339A (zh) | 基于低秩顶点轨迹子空间提取的动画网格序列压缩算法 | |
CN111681178A (zh) | 一种基于知识蒸馏的图像去雾方法 | |
CN112700432B (zh) | 一种基于异常合成与分解的纹理表面缺陷检测方法与*** | |
CN115526253A (zh) | 基于生成对抗网络的非接触式估计表面物理属性值的方法 | |
Contreras et al. | O-poco: Online point cloud compression mapping for visual odometry and slam | |
CN107578448B (zh) | 基于cnn的无标定曲面所包含拼接曲面个数识别方法 | |
CN116030036A (zh) | 图像差异检测方法、模型训练方法、***、设备及介质 | |
CN109064511B (zh) | 一种人体重心高度测量方法、装置及相关设备 | |
CN117115786B (zh) | 一种联合分割跟踪的深度估计模型训练方法及使用方法 | |
CN112396167B (zh) | 一种外观相似度与空间位置信息融合的回环检测方法 | |
CN112488117B (zh) | 一种基于方向诱导卷积的点云分析方法 | |
CN116502069B (zh) | 一种基于深度学习的触觉时序信号识别方法 | |
CN114396877A (zh) | 面向材料力学性能的智能三维位移场及应变场测量方法 | |
CN116823664B (zh) | 一种遥感图像云去除方法及*** | |
CN115619903A (zh) | 文本图像合成模型的训练、合成方法、装置、设备及介质 | |
JP6950647B2 (ja) | データ判定装置、方法、及びプログラム | |
Chen et al. | A Self-Supervised Miniature One-Shot Texture Segmentation (MOSTS) Model for Real-Time Robot Navigation and Embedded Applications | |
Chen et al. | Deep-learning-based inertial odometry for pedestrian tracking using attention mechanism and res2net module | |
Wang et al. | Learning the intuitive physics of non-rigid object deformations | |
CN117746303B (zh) | 一种基于感知相关性网络的零样本视觉导航方法及*** | |
CN118172770A (zh) | 一种无监督不完整多模态三维模型识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |