CN110334701A

CN110334701A - 数字孪生环境下基于深度学习和多目视觉的数据采集方法

Info

Publication number: CN110334701A
Application number: CN201910623996.4A
Authority: CN
Inventors: 李�浩; 刘根; 王昊琪; 文笑雨; 乔东平; 罗国富
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-10-15
Anticipated expiration: 2039-07-11
Also published as: CN110334701B

Abstract

本发明公开了一种数字孪生环境下基于深度学习和多目视觉的数据采集方法，步骤如下：S1，设置与环境背景有区分度的球形标志点；S2，获得标志点在视频图像中的球心位置坐标和半径；S3，构建深度学习模型，并进行训练；S4，将标志点附着于带定位的目标物体上，使用步骤S3对空间中的标志点进行定位，实现对目标物体的定位。本发明可用于数字孪生环境下对各种目标物***置和姿态数据的获取，具有很强的普遍适用性。利用标志点辅助，降低了视觉图像分析处理的复杂度，使识别和定位过程更简单，效率更高更加可靠。使用深度学习来定位标志点，使摄像头因图像畸变造成的定位误差降到最低，可适应各种摄像头数量和布局情况。

Description

数字孪生环境下基于深度学习和多目视觉的数据采集方法

技术领域

本发明属于数字采集技术领域，具体涉及一种数字孪生环境下的数据采集方法，特别是基于深度学习和多目视觉的数据采集方法。

背景技术

数字孪生技术需要对物理设备进行高度仿真，同时需要实时掌握物理设备的各种状态数据，使仿真模型与物理设备实时状态一致。数字孪生技术依赖于感知和控制技术及其综合技术集成。物理设备的力学状态信息、电流状态信息、热力学状态信息以及动作状态信息都需要借助于感知技术来获取。

在数字孪生***的构建中，首先需要等比例构建物理设备的3D模型，然后再构建其力学、电学、能量等高层次模型。为实现3D模型与物理设备状态的实时对应关系，需要实时采集物理设备各部分的位置、姿态和动作信息。对物理设备位置、姿态和动作信息的采集有多种技术手段可供采用。使用传感器是普遍采用的数据采集方法。

针对不同的数据采集任务，需要设计不同的传感器配置方案。例如采集设备角度数据需要用到角度传感器，采集设备运转动作信息需要用到激光传感器和惯性传感器等。这样做的缺点是需要对原有设备进行改动，传感器***需要针对特定设备做特定的配置，普适性不强。

视觉是获取信息的最关键渠道之一。设备外观、姿态、运转状态、动作信息等都能通过视觉的办法获取到。通过视觉获取这些信息的一个关键问题是对目标的定位和跟踪。生产线上原材料的移动，机器人抓取目标物体，无人机确定自身或目标物体的姿态和位置时，都需要解决目标物体的识别和空间定位问题。

现有的对目标进行识别和定位的方法主要有利用机器视觉的方法，使用超声波进行定位的方法以及使用电磁波进行识别和定位的方法等几种类型。超声波定位受到温度、湿度、气压等不确定因素的影响，无法做得很精确。借助于电磁波进行目标的识别的方法以射频标签技术为代表，能够借助于标签解决目标的识别问题，但无法解决目标定位问题。仿照雷达原理可以实现利用电磁波对目标的定位，但这样做***过于复杂庞大，并且限于目前可用于雷达的电磁波波长都在厘米级以上，那么借助于电磁波的定位精度就无法精确到1厘米以下。

使用视觉的方法能够达到比较高的定位精度。使用视觉的方法对目标进行识别和定位，一种是直接提取目标特征。这种方法图像处理过程复杂，运算时间长，针对不同的目标需要设计不同的算法。

另一种是借助于人工标识。对人工标识的识别采用深度学习的方法训练来提高算法在不同背景中对标识的识别能力，但这种方法在背景环境改变时算法性能会大幅下降，并且采用深度学习的方法训练量很大。

基于视差原理的双目立体视觉是一种由多幅图像获取物体三维几何信息的方法。通过两个摄像头从不同的角度获取目标物体的两幅数字图像，也可以由一个摄像头在不同的位置拍摄两幅数字图像，通过计算这两幅图像的视差还原出目标物体的三维几何信息。该方法首先要测量出摄像头的焦距，成像尺寸，摄像头中心点位置和双摄像头间距和角度等信息，因为透镜成像的缺点，物体成像以后会发生一定程度的畸变，处理这些畸变又需要对计算方法进行修正。

发明内容

根据上述现有技术，本发明要解决的技术问题是使用传感器采集设备数据安装复杂不具有普适性，使用机器视觉方法直接识别和定位目标物体算法复杂，借助于标志点间接识别和定位目标物体时采用深度学习算法背景变化时识别的不稳定问题，以及通过双目或多目视觉定位目标时标定复杂和图像畸变造成的定位误差问题，从而提供一种数字孪生环境下基于深度学习和多目视觉的数据采集方法。

为解决上述技术问题，本发明所采用的技术方案如下：

一种数字孪生环境下基于深度学习和多目视觉的数据采集方法，步骤如下：

S1，设置与环境背景有较大区分度的球形标志点。

所述球形标志点，具有与环境背景有较大区分度的特定颜色。

S2，获得标志点在视频图像中的球心位置坐标和半径。

S2.1，在环境中布置至少两个摄像头，且摄像头分布在环境的不同位置，使摄像头视景体交叉。

S2.2，获得各摄像头的视频图像f_i(x，y)，i为第i个摄像头，x为视频图像像素横坐标，y为视频图像像素纵坐标；

S2.3，使用边缘检测方法，获得视频图像f_i(x，y)的边缘图像F_i(x，y)；

图像边缘与周围像素有较大差距，通过对图像数据在x和y两个方向上求导数，求得一阶导数的极大值处即为图像边缘，即二阶导数的零点处。

S2.3.1，采用Laplace算子对视频图像f_i(x，y)求导，得到视频图像的一阶导数f_i′(x，y)：

f_i′(x，y)＝-4f_i(x，y)+f_i(x-1，y)+f_i(x+1，y)+f_i(x，y-1)+f_i(x，y-1)；

S2.3.2，提取一阶导数f_i′(x，y)的系数得到获得Laplace算子模板；

S2.3.3，结合Laplace算子模板和视频图像f_i(x，y)，获得各边缘图像F_i(x，y) 的像素值，从而得到各边缘图像F_i(x，y)；

将Laplace算子模板覆盖在图像f_i(x，y)上，并将图像f_i(x，y)的像素与 Laplace算子模板对应位置值相乘，然后相加，得出Laplace算子模板中心位置所对应像素的值，得到的像素值就是边缘图像F_i(x，y)的像素值；

S2.4，采用霍夫找圆算法找到边缘图像F_i(x，y)中的所有圆形；

S2.4.1，给定圆形的一般方程：

(x-a)²+(y-b)²＝r²；

其中(a，b)为圆心坐标，r为圆的半径；

S2.4.2，将x-y像素坐标系中边缘图像F_i(x，y)的每一个像素点对应到a-b坐标系中得到与像素点对应的圆，且对应后在a-b坐标系中圆的方程为(a-x)²+ (b-y)²＝r²，(x，y)为圆心坐标，半径r设定为既定值，在a-b坐标系中所有的圆会交于一点，这一点即为可能的圆心位置；

S2.4.3，调节半径r的值重复步骤S2.4.2直至找到所有半径圆形圆心位置，进而得到边缘图像F_i(x，y)中的所有圆形；

S2.5，对获得的每一个圆形区域在视频图像f_i(x，y)中进行直方图统计找到与标志点颜色区域最接近的圆形，并得到这个圆形的圆心和半径数据；

S2.5.1，将视频图像f_i(x，y)转换为灰度图像；

S2.5.2，将灰度图像分割为三个区间段；

本发明的区间段分别为：[0，85)，[85，170)，[170，255]；

S2.5.3，扫描判断每一个圆形区域像素值落入三个区间段的频率；

S2.5.4，获得标志点在视频图像中的球心位置坐标和半径；

比对圆形区域像素值频率分布与标志点颜色频率分布，排除差异大的圆形，记录频率分布相似度较高的圆形圆心和半径数据，频率分布相似度较高的圆形圆心和半径数据就是标志点的圆心和半径；

S3，构建深度学习模型，并进行训练；

基于深度学习算法框架，以每个摄像头获取的图像中的标志点球心二维坐标和标志点半径为输入数据，以标志点在空间中的三维坐标为输出数据，训练深度学习算法程序，使其对标志点有准确的定位能力。

具体为：S3.1，获得样本数据；

所述样本数据包括输入数据和输出数据，所述输入数据包括标志点二维坐标和标志点半径；所述输出数据为标志点空间坐标；

S3.1.1，使用机械人手臂持标志点遍历视景体每一个位置；

S3.1.2，根据步骤S2得到标志点的圆心坐标和半径并作为输入数据，标志点的圆心坐标就是标志点二维坐标；

S3.1.3，机器人结合标志点的圆心坐标和半径得到标志点空间坐标，标志点空间坐标为输出数据；

S3.2，构建深度学习模型；

S3.2.1，设计具有一个输入层，一个输出层，两个隐藏层的神经网络结构；输入层的节点数等于摄像头数量乘以输入参数个数，本发明输入参数是3个，圆心坐标(x,y)和半径r。

输出层节点数为输出参数个数，为3个，即标志点空间坐标(X,Y,Z)；

隐藏层节点数设置为定值，本发明中为50个。

S3.2.2，优化深度学习模型；

在深度学习模型中引入dropout机制，在训练中以一定的概率P删除一部分隐藏层节点；

S3.2.2.1，获得神经网络结构的激活函数：

S3.2.2.2，各节点对输入数据加权求和同时加上偏置值得：

S3.2.2.3，结合步骤S3.2.2.1和S3.2.2.2，得到节点输出：

其中，j代表神经网络结构的第j层，m_j为蒙版参数，符合伯努利概率分布， m_j根据概率P的值而变化。

S3.2.2.4，删除隐含层节点。

当蒙版参数m_j为0时，节点输出为0，删除当前节点；

S3.2.2.5，得到优化后深度学习模型，优化后深度学习模型的最终输出为：

空间三维坐标(X，Y，Z)；

其中，X＝G₁(W，B，M)，Y＝G₂(W，B，M)，Z＝G₃(W，B，M)；W为权值w向量， B为偏置值b向量，M为蒙版值m向量。

S3.3，对优化后深度学习模型进行训练。

S3.3.1，将步骤S3.1获得的样本数据分为训练数据和测试数据；

训练数据为样本数据的80％，记为：

测试数据为样本数据的20％，记为：

S3.3.2，给定训练误差计算公式：

S3.3.3，给定梯度计算公式：

S3.3.4，将训练数据代入优化后深度学习模型进行训练并迭代得到W和B。

S3.3.5，将测试数据代入深度学习模型进行验证。

S4，将标志点附着于带定位的目标物体上，使用步骤S3构建的深度优化模型对空间中的标志点进行定位，进而实现对目标物体的定位。

本发明的有益效果：本发明将机器视觉方法应用于数字孪生技术，通过视觉方法采集设备位置、动作、姿态等实时数据。并改进机器视觉方法，引入人工标识从而简化了对目标物体的识别和定位过程，使用常规的图像处理算法,经过组合运用达到对标志点的较高识别率，经过常规图像处理算法运算得出的数据已经较为精简，提供给深度学习算法框架使训练的过程更快速训练效果更好，使用深度学习算法框架用来解决对标志点的定位问题，因为在训练过程中遍历了空间所有点，所以能够消除因图像畸变导致的定位误差问题，同时采用训练学习方式可以任意布置摄像头的位置和数量只需视景体有重合就能训练成功。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的***流程图。

图2为本发明中深度学习神经网络原理图。

图3为本发明多目视觉定位结构原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种数字孪生环境下基于深度学习和多目视觉的数据采集方法，如图1所示，步骤如下：

S1，设置与环境背景有较大区分度的球形标志点，如图3中所示。

S2，获得标志点在视频图像中的球心位置坐标和半径。

S2.1，在环境中布置至少两个摄像头，如图3所示，摄像头是4个，各摄像头分布在环境的不同位置，使摄像头视景体交叉，图3中摄像头前方的矩形是摄像头的图像范围，标志点会成像在摄像头图像范围内一点。

S2.2，获得各摄像头的视频图像f_i(x,y)，i为第i个摄像头，x为视频图像像素横坐标，y为视频图像像素纵坐标。

S2.3，使用边缘检测方法，获得视频图像f_i(x，y)的边缘图像F_i(x，y)。

S2.3.2，提取一阶导数f_i′(x，y)的系数得到获得Laplace算子模板。

S2.3.3，结合Laplace算子模板和视频图像f_i(x，y)，获得各边缘图像F_i(x，y) 的像素值，从而得到各边缘图像F_i(x，y)。

S2.4.1，给定圆形的一般方程：

(x-a)²+(y-b)²＝r²；

其中(a,b)为圆心坐标，r为圆的半径；

S2.4.3，调节半径r的值重复步骤S2.4.2直至找到所有半径圆形圆心位置，进而得到边缘图像F_i(x,y)中的所有圆形；

S2.5，对获得的每一个圆形区域在视频图像f_i(x,y)中进行直方图统计找到与标志点颜色区域最接近的圆形，并得到这个圆形的圆心和半径数据；

S2.5.1，将视频图像f_i(x,y)转换为灰度图像；

S2.5.2，将灰度图像分割为三个区间段；

本发明的区间段分别为：[0,85),[85,170),[170,255]；

S2.5.4，获得标志点在视频图像中的球心位置坐标和半径；

S3，构建深度学习模型，并进行训练；

具体为：S3.1，获得样本数据；

S3.1.1，使用如图3中所示的机械人手臂持标志点遍历视景体每一个位置；

S3.1.3，机器人结合标志点的圆心坐标和半径得到标志点空间坐标，标志点空间坐标为输出数据。

机械臂每经过一个空间位置点，从摄像头拍摄的图像中识别标志点得出标志点圆心和半径数据作为神经网络输入，机械臂到达的空间点坐标作为神经网络输出。

S3.2，构建深度学习模型；

S3.2.1，设计具有一个输入层，一个输出层，两个隐藏层的神经网络结构，如图2所示；输入层的节点数等于摄像头数量乘以输入参数个数，本发明输入参数是3个，圆心坐标(x，y)和半径r，输入数据为4组，每组都包括图2中所示的圆心坐标(x₁，y₁)和半径r₁。输出层节点数为输出参数个数，为3个，即标志点空间坐标(X，Y，Z)；

隐藏层节点数设置为定值，本发明中为50个。

S3.2.2，优化深度学习模型；

在深度学习模型中引入dropout机制，在训练中以一定的概率P删除一部分隐藏层节点；如图2所示，带有×标记的节点即为在算法中以一定概率删除的节点。

S3.2.2.1，获得神经网络结构的激活函数：

S3.2.2.2，各节点对输入数据加权求和同时加上偏置值得：

S3.2.2.3，结合步骤S3.2.2.1和S3.2.2.2，得到节点输出：

S3.2.2.4，删除隐含层节点。

当蒙版参数m_j为0时，节点输出为0，删除当前节点；

空间三维坐标(X，Y，Z)；

S3.3，对优化后深度学习模型进行训练。

S3.3.1，将步骤S3.1获得的样本数据分为训练数据和测试数据；

训练数据为样本数据的80％，记为：

测试数据为样本数据的20％，记为：

S3.3.2，给定训练误差计算公式：

S3.3.3，给定梯度计算公式：

S3.3.5，将测试数据代入深度学习模型进行验证。

如图3中所示，完成训练过程后，机械臂带动标志点运动，摄像机捕捉到标志点的二维坐标及其半径信息，然后通过训练好的神经网络求出标志点三维空间坐标，进而间接获得机械臂的空间位置。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种数字孪生环境下基于深度学习和多目视觉的数据采集方法，其特征在于，步骤如下：

S1，设置与环境背景有区分度的球形标志点；

所述球形标志点，具有与环境背景有较大区分度的特定颜色；

S2，获得标志点在视频图像中的球心位置坐标和半径；

S3，构建深度学习模型，并进行训练；

2.根据权利要求1所述的数字孪生环境下基于深度学习和多目视觉的数据采集方法，其特征在于，在步骤S2中，具体步骤为：

S2.1，在环境中布置至少两个摄像头，且摄像头分布在环境的不同位置，使摄像头视景体交叉；

S2.3，获得视频图像f_i(x，y)的边缘图像F_i(x，y)；

S2.5，对获得的每一个圆形区域在视频图像f_i(x，y)中进行直方图统计找到与标志点颜色区域最接近的圆形，并得到这个圆形的圆心和半径数据。

3.根据权利要求所述的数字孪生环境下基于深度学习和多目视觉的数据采集方法，其特征在于，在步骤S2.3中，具体步骤为：

S2.3.3，结合Laplace算子模板和视频图像f_i(x，y)，获得各边缘图像F_i(x，y)的像素值，从而得到各边缘图像F_i(x，y)；

将Laplace算子模板覆盖在图像f_i(x，y)上，并将图像f_i(x，y)的像素与Laplace算子模板对应位置值相乘，然后相加，得出Laplace算子模板中心位置所对应像素的值，得到的像素值就是边缘图像F_i(x，y)的像素值。

4.根据权利要求2所述的数字孪生环境下基于深度学习和多目视觉的数据采集方法，其特征在于，在步骤S2.4中，具体步骤为：

S2.4.1，给定圆形的一般方程：

(x-a)²+(y-b)²＝r²；

其中(a，b)为圆心坐标，r为圆的半径；

S2.4.2，将x-y像素坐标系中边缘图像F_i(x，y)的每一个像素点对应到a-b坐标系中得到与像素点对应的圆，且对应后在a-b坐标系中圆的方程为(a-x)²+(b-y)²＝r²，(x，y)为圆心坐标，半径r设定为既定值；

S2.4.3，调节半径r的值重复步骤S2.4.2直至找到所有半径圆形圆心位置，进而得到边缘图像F_i(x，y)中的所有圆形。

5.根据权利要求2所述的数字孪生环境下基于深度学习和多目视觉的数据采集方法，其特征在于，在步骤S2.5中，具体步骤为：

S2.5.1，将视频图像f_i(x，y)转换为灰度图像；

S2.5.2，将灰度图像分割为三个区间段；

S2.5.4，获得标志点在视频图像中的球心位置坐标和半径；

比对圆形区域像素值频率分布与标志点颜色频率分布，排除差异大的圆形，记录频率分布相似度较高的圆形圆心和半径数据，频率分布相似度较高的圆形圆心和半径数据就是标志点的圆心和半径。

6.根据权利要求1所述的数字孪生环境下基于深度学习和多目视觉的数据采集方法，其特征在于，在步骤S3中，具体步骤为：

S3.1，获得样本数据；

S3.2，构建深度学习模型；

S3.3，对优化后深度学习模型进行训练。

7.根据权利要求6所述的数字孪生环境下基于深度学习和多目视觉的数据采集方法，其特征在于，在步骤S3.1中，具体步骤为：

S3.1.1，使用机械人手臂持标志点遍历视景体每一个位置；

8.根据权利要求6所述的数字孪生环境下基于深度学习和多目视觉的数据采集方法，其特征在于，在步骤S3.2中，具体步骤为：

S3.2.1，设计具有一个输入层，一个输出层，两个隐藏层的神经网络结构；输入层的节点数等于摄像头数量乘以输入参数个数，输出层节点数为输出参数个数；隐藏层节点数设置为定值；

S3.2.2，优化深度学习模型；

S3.2.2.1，获得神经网络结构的激活函数：

S3.2.2.2，各节点对输入数据加权求和同时加上偏置值得：

S3.2.2.3，结合步骤S3.2.2.1和S3.2.2.2，得到节点输出：

其中，j代表神经网络结构的第j层，m_j为蒙版参数，符合伯努利概率分布，m_j根据概率P的值而变化；

S3.2.2.4，删除隐含层节点；

当蒙版参数m_j为0时，节点输出为0，删除当前节点；

空间三维坐标(X，Y，Z)；

其中，X＝G₁(W，B，M)，Y＝G₂(W，B，M)，Z＝G₃(W，B，M)；W为权值w向量，B为偏置值b向量，M为蒙版值m向量。

9.根据权利要求6所述的数字孪生环境下基于深度学习和多目视觉的数据采集方法，其特征在于，在步骤S3.3中，具体步骤为：

S3.3.1，将步骤S3.1获得的样本数据分为训练数据和测试数据；

训练数据为样本数据的80％，记为：和(X^train，Y^train，Z^train)；

测试数据为样本数据的20％，记为：和(X^test，Y^test，Z^test)；

S3.3.2，给定训练误差计算公式：

S3.3.3，给定梯度计算公式：

S3.3.4，将训练数据代入优化后深度学习模型进行训练并迭代得到W和B；

S3.3.5，将测试数据代入深度学习模型进行验证。