CN112163502B

CN112163502B - 一种室内动态场景下的视觉定位方法

Info

Publication number: CN112163502B
Application number: CN202011015872.7A
Authority: CN
Inventors: 陈建文; 刘志励; 张汝民
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2022-07-12
Anticipated expiration: 2040-09-24
Also published as: CN112163502A

Abstract

本发明公开了一种室内动态场景下的视觉定位方法，据物体检测得到的场景中物体分布的信息，同时结合人脸识别技术将场景中的人脸所在的图像块进行区分，通过将场景中可能发生位移的人剔除，从而进行精确的视觉定位。

Description

一种室内动态场景下的视觉定位方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种室内动态场景下的视觉定位方法。

背景技术

利用视觉在室内进行定位的过程中，往往会出现移动的物体，大部分场景下移动的物体是活动的人，同时，目前所有的视觉定位建图***的理论建立在静态场景假设上，

现有技术中使用了结合光流与深度图平面假设的算法来进行前景物体的分割，此方法存在的问题是当物体与相机发生相对运动时，通常整个场景中的光流的一致性在不同的场景位置会不同，从而导致运动物体的光流难以判断，同时当场景复杂的情况下，静态场景的平面假设往往不成立导致前景判断的错误。另外一类方法是对运动物体的运动进行估计，并且将预测的运动物体的信息加入场景中进行定位建图。

发明内容

针对现有技术中的上述不足，本发明提供的一种室内动态场景下的视觉定位方法，据物体检测得到的场景中物体分布的信息，同时结合人脸识别技术将场景中的人脸所在的图像块进行区分，通过将场景中可能发生位移的人剔除，从而进行精确的视觉定位。

为了达到上述发明目的，本发明采用的技术方案为一种室内动态场景下的视觉定位方法，包括以下步骤：

S1、采集室内动态场景下的原始图像，并提取其ORB视觉特征点；

S2、对原始图像分别进行物体和人脸分类、二值化和匹配，得到物体人脸二值掩膜图像；

S3、采用物体人脸二值掩膜图像对ORB视觉特征点进行滤波处理，得到静态场景特征点图像；

S4、计算一幅静态场景特征点图像中的每一个特征点的描述子分别与另一幅静态场景特征点图像中所有特征点的描述子的汉明距离，得到多个特征点对；

S5、根据特征点对，构建运动结构恢复模型，得到入射光线汇聚点；

S6、将入射光线汇聚点投影至两幅静态场景特征点图像，构建误差模型，得到相机位姿，实现视觉定位。

进一步地，步骤S2包括分步骤：

S21、采用YOLO神经网络对原始图像进行物体分类，得到物体像素框；

S22、将物体像素框内的像素置1，物体像素框外的像素置0，得到物体二值掩膜图像；

S23、采用MTCNN神经网络检测原始图像中的人脸像素框；

S24、将人脸像素框内的像素值置1，人脸像素框外的像素值置0，得到人脸二值掩膜图像；

S25、遍历人脸二值掩膜图像上的所有人脸像素框，通过每个人脸像素框对应的连通域中的每个像素检测对应物体二值掩膜图像的位置，判断其对应位置的掩膜值是否为1，若是，则保留对应位置的物体二值掩膜图像上的二值连通域，若否，将对应物体二值掩膜图像位置上的二值连通域置0，得到物体人脸二值掩膜图像。

进一步地，步骤S3为：根据物体人脸二值掩膜图像，将ORB视觉特征点的每一个特征点对应的物体人脸二值掩膜图像的值为1的位置剔除，得到静态场景特征点图像。

进一步地，步骤S4包括以下分步骤：

S41、计算一幅静态场景特征点图像中的每一个特征点的描述子分别与另一幅静态场景特征点图像中所有特征点的描述子的汉明距离；

S42、寻找最小的汉明距离小于次小的汉明距离的60％以及最小的汉明距离小于汉明阈值的多对描述子；

S43、将多对描述子各自在两幅静态场景特征点图像上的特征点作为特征点对。

进一步地，步骤S5包括以下分步骤：

S51、根据每一个特征点对，通过相机内参，得到特征点对的入射光线；

S52、根据特征点对的入射光线，构建运动结构恢复模型，采用SVD算法对运动结构恢复模型进行求解，得到入射光线汇聚点。

进一步地，步骤S5中运动结构恢复模型为：

x＝K^-1p

x′＝K^-1p′

x^T(t×R)x′＝0

P＝[R t]

x×PX＝0

X＝λx′

其中，x为一幅静态场景特征点图像的入射光线的向量，x′为另一幅静态场景特征点图像的入射光线的向量，K为相机内参，p为一幅静态场景特征点图像上的特征点，p′为另一幅静态场景特征点图像上的特征点，t为两个相机之间的位移，R为相机之间的旋转角度矩阵，λ为入射因子，P为构建的相机旋转位移矩阵，X为入射光线汇聚点的坐标。

进一步地，步骤S6中误差模型为：

其中，p₁为入射光线汇聚点在一幅静态场景特征点图像的位置，p₂为入射光线汇聚点在另一幅静态场景特征点图像的位置，X为入射光线汇聚点的坐标，K为相机内参，x为一幅静态场景特征点图像的入射光线的向量，x′为另一幅静态场景特征点图像的入射光线的向量，err为误差值。

综上，本发明的有益效果为：

(1)、本发明主要提出一种基于物体检测与人脸识别融合信息的动态场景定位方法。本方法对空间中的语义信息进行提取与分类，相比传统视觉算法能适用更多的场景，在更复杂的室内环境中区分动态场景与静态场景，利用静态场景信息进行精确定位。

(2)、本发明的语义信息更集中，基于室内环境中大多数的运动物体是人这一假设进行的深度学习算法设计，因此模型计算量更小，计算资源消耗更好，算法速度更快。

附图说明

图1为一种室内动态场景下的视觉定位方法的流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种室内动态场景下的视觉定位方法，包括以下步骤：

步骤S2包括分步骤：

S23、采用MTCNN神经网络检测原始图像中的人脸像素框；

步骤S3为：根据物体人脸二值掩膜图像，将ORB视觉特征点的每一个特征点对应的物体人脸二值掩膜图像的值为1的位置剔除，得到静态场景特征点图像。

步骤S4包括以下分步骤：

在本实施例中，汉明阈值可设置是为45。

步骤S5包括以下分步骤：

步骤S5中运动结构恢复模型为：

x＝K^-1p

x′＝K^-1p′

x^T(t×R)x′＝0

P＝[R t]

x×PX＝0

X＝λx′

在本实施例中，可采用LM算法迭代求解误差模型。

步骤S6中误差模型为：

实验效果：

由于视觉定位需要实时的图像信息，同时保证物体识别与人脸识别的准确度，在具体方案实施过程中物体识别的主要技术参数为mAP和IoU，而人脸识别的主要技术参数为人脸的识别率以及识别速度。而视觉定位模块的主要参数为均方根误差RMSE，以及标准差STD。物体识别与人脸识别模块以及室内定位模块部分的实验测试数据如下表：

表1物体框的实验测试数据

技术指标	mAP	IoU
			研究数据	82.29％	70％

表2人脸像素框的实验测试数据

表3动态场景视觉定位的实验测试数据

根据表3可知，采用本方法对各图像集进行处理，其均方根误差RMSE和标准差STD均小于现有方法ORB SLAM2，证明本方法的定位效果好。

Claims

1.一种室内动态场景下的视觉定位方法，其特征在于，包括以下步骤：

所述步骤S2包括分步骤：

S23、采用MTCNN神经网络检测原始图像中的人脸像素框；

S25、遍历人脸二值掩膜图像上的所有人脸像素框，通过每个人脸像素框对应的连通域中的每个像素检测对应物体二值掩膜图像的位置，判断其对应位置的掩膜值是否为1，若是，则保留对应位置的物体二值掩膜图像上的二值连通域，若否，将对应物体二值掩膜图像位置上的二值连通域置0，得到物体人脸二值掩膜图像；

2.根据权利要求1所述的室内动态场景下的视觉定位方法，其特征在于，所述步骤S3为：根据物体人脸二值掩膜图像，将ORB视觉特征点的每一个特征点对应的物体人脸二值掩膜图像的值为1的位置剔除，得到静态场景特征点图像。

3.根据权利要求1所述的室内动态场景下的视觉定位方法，其特征在于，所述步骤S4包括以下分步骤：

4.根据权利要求1所述的室内动态场景下的视觉定位方法，其特征在于，所述步骤S5包括以下分步骤：

5.根据权利要求1所述的室内动态场景下的视觉定位方法，其特征在于，所述步骤S5中运动结构恢复模型为：

x＝K^-1p

x′＝K^-1p′

x^T(t×R)x′＝0

P＝[R t]

x×PX＝0

X＝λx′

6.根据权利要求1所述的室内动态场景下的视觉定位方法，其特征在于，所述步骤S6中误差模型为：

其中，p1为入射光线汇聚点在一幅静态场景特征点图像的位置，p2为入射光线汇聚点在另一幅静态场景特征点图像的位置，X为入射光线汇聚点的坐标，K为相机内参，x为一幅静态场景特征点图像的入射光线的向量，x′为另一幅静态场景特征点图像的入射光线的向量，err为误差值。