CN110136175A

CN110136175A - 一种基于神经网络的室内典型场景匹配定位方法

Info

Publication number: CN110136175A
Application number: CN201910422946.XA
Authority: CN
Inventors: 郭春生; 容培盛; 应娜; 陈华华; 杨萌; 章建武
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Dianzi University; Hangzhou Electronic Science and Technology University
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-08-16

Abstract

本发明提出一种基于神经网络的室内典型场景匹配定位方法，包括：步骤一、在服务器端建立标准典型场景定位图像库；步骤二、采用Siamese深度神经网络模型，通过大量数据训练，使神经网络从数据中学习判断相似性度量的方法；步骤三、深度神经网络输出特征向量，利用特征向量计算与标准典型场景图像库的相似度，通过相似度大小来判断典型场景匹配程度的高低，评估模型的好坏；步骤四、将训练好的模型搭载入服务器，获取视频数据送入服务器中训练好的深度神经网络进行计算相似度，判别当前所在的位置。本发明所述方法具有训练效率高、收敛性强、建模精度高、匹配效果好、满足复杂环境等优点，可准确、高效地实现设备在线室内典型场景中的匹配定位。

Description

一种基于神经网络的室内典型场景匹配定位方法

技术领域

本发明涉及计算机视觉领域，特别涉及基于神经网络的室内典型场景匹配定位方法。

背景技术

随着科学技术的进步和人们经济实力的提高，位置定位服务越发受到人们的重视，目前，室外的定位***已经十分的成熟，而在室内环境中，由于屋内的墙壁遮挡和人流移动等因素，GPS***等室外定位***并不能有效定位。已有的基于iBeacon蓝牙模块室内定位的方法、利用Wi-Fi定位技术的方法等，容易受诸如定位方式自身定位精度低、建筑物遮挡等因素的影响，无法准确地定位用户当前位置。

现如今兴起的基于视觉的定位技术由于其所需设备简单，受影响因素较小而得到广泛关注。由于摄像头已经成为手机的标配，因此视觉定位无需添加附加设备，同时由于建筑成型后变化小，使基于视觉的定位受到影响因素较小。在本***中，利用用户获得的图像与标准典型场景数据库中的图像进行匹配，进而得到摄像头在线照片的位置信息。可以看出图像匹配的速率、精度和鲁棒性直接影响了定位的速率、精度以及鲁棒性。

在基于视觉的室内定位方法中，图像匹配技术是最为重要的技术环节，传统的图像匹配技术(比如直方图，SIFT算法)已经很难满足现在数据量大、环境复杂的要求。然而，大量的实验已经证明，深度学习技术采用了深度神经网络模型，在图像匹配技术方面能达到良好的效果。深度神经网络模型通过大量数据进行训练，并经过反向传播算法更新网络参数，训练好的深度神经网络可以获得摄像头的实时图像数据，并通过网络模型计算图像的特征和标准的典型场景图像之间的相似度，可以返回典型场景图像的对应位置信息。基于此，本发明提出了一种基于神经网络的室内典型场景匹配定位方法。

发明内容

本发明提出了一种基于神经网络的室内典型场景匹配定位方法，具有训练效率高、收敛性强、建模精度高、匹配效果好、满足复杂环境等优点。

为实现上述技术目的，本发明采用以下技术方案：

首先在服务器端建立标准的典型场景定位图像库，库中的图像均标记有对应的位置信息。其次，训练一个深度卷积神经网络模型，功能是用于提取图像的特征并计算图像间的相似度。神经网络通过大量数据训练，计算损失函数后反向传播，更新网络参数，提高监测效果的准确性。再次，在服务器内搭建已训练完成的神经网络，移动摄像头获取实时视频数据，经过数据预处理后输入神经网络，神经网络输出特征向量，利用特征向量分别计算输入视频帧与标准典型场景图像库中的n个典型场景图像的相似度s₁,...,s_n，当相似度大于设定的阈值时，证明输入的视频帧匹配上了典型场景，并且返回相似度s₁,...,s_n中最大值对应的典型场景的位置。最后，通过计算相似度可以实现室内典型场景匹配定位功能。

与现有的室内典型场景匹配定位方法相比，本发明的有益效果是：

1)采用深度学习技术，建立深度神经网络模型，并通过大量数据对深度神经网络模型进行训练，提高了检测准确率、检测效率。

2)采用了移动摄像头与深度神经网络结合，能够实时地进行场景匹配，有效地弥补了室内定位的缺点和不足，可以实现室内典型场景匹配的功能。

3)采用深度学习技术，比传统的图像匹配技术(比如直方图，SIFT算法)更能满足环境复杂的要求。一旦设备部署完毕，可以长时间高效地工作，完成室内典型场景的匹配，返回当前所在位置的功能，为室内定位提供了一种新型解决方案。

附图说明

图1本发明所述方法采用的设备结构示意图。

图2本发明的深度神经网络模型示意图。

图3本发明的视频数据采集流程示意图。

图4本发明的典型场景判别器流程示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

如图1所示，本实施例所述方法采用视频数据采集装置、计算机/服务器和典型场景判别器，服务器与视频采集装置连接；如图3所示，视频数据采集装置包括移动摄像头、视频帧格式化处理模块和图像预处理模块，移动摄像头用于获取视频数据，视频帧格式化处理模块用于将实时视频数据转换为格式化的视频帧f(x,t)，其中t表示时间，函数f(·)表示视频数据格式化函数；图像预处理模块根据视频采集装置采集的视频图像，判断是否需要对采集图像进行预处理，其他功能与现有视频采集技术相同，在此不做赘述。

本发明所述一种基于神经网络的室内典型场景匹配定位方法，包含以下步骤：

步骤一、在服务器端建立标准典型场景定位图像库，库中的图像均标记有对应的位置信息。并制作大量的典型场景数据集，用于训练深度神经网络；

为获得较高的监测准确率，深度神经网络需要经过大量的数据进行训练，通过大量数据的训练，可以获取数据的特征向量并且计算与标准图像的相似度。为此，在搭建深度神经网络之前，需要制作一个定位图像库和完善的训练数据集，分别用于场景匹配和训练深度神经网络。

步骤二、采用Siamese深度神经网络模型，通过大量数据训练，使神经网络从数据中学习判断相似性度量的方法；

本发明采用了Siamese深度神经网络模型，该模型广泛用于图像视觉领域并且表现优异，其功能是用于度量输入数据之间的相似性。

其网络结构如图2所示：

Siamese网络的特点是左右两边两个网络是完全相同的网络结构，它们共享相同的权值W，输入数据为一对图片(X₁,X₂,Y),其中Y＝0表示X₁和X₂属于同一个类别的图片，Y＝1则表示不为同一个类别的图片。网络将输出低维空间结果为G_W(X₁)和G_W(X₂)，它们是由X₁和X₂经过网络映射得到的。然后将得到的这两个输出结果使用函数E_W(X₁,X₂)进行比较。

网络的损失函数定义为：

其中(Y,X₁,X₂)ⁱ是第i组样本，是由一对图片和一个标签Y组成的，W为网络的权重，m为设定的阈值，D_W为网络在低维空间中输出的特征向量。对比损失函数可以驱使相似的样本靠近，不相似的样本远离，采用欧式距离就可以判断两张图片的相似度，欧式距离越小，样本越相似；欧式距离越大，样本不相似。训练时，将一组图像和标签输入神经网络，神经网络将图像映射到新的空间，形成特征向量。将成对的训练数据输入神经网络，计算输出和训练数据标签之间的损失函数，再根据反向传播算法，更新网络中的各个参数，可以使神经网络从数据中学习判断相似性度量的方法，用这个学习得到的度量去比较和匹配新的未知类别的样本。

步骤三、深度神经网络输出特征向量，利用特征向量计算与标准典型场景图像库的相似度，通过相似度大小来判断典型场景匹配程度的高低，评估模型的好坏；

训练完的神经网络输出数据的特征向量，通过计算摄像头输入的视频帧与标准典型场景图像库的中n个图像的相似度s₁,...,s_n，当相似度大于设定的阈值时，证明摄像头输入的视频帧匹配上了典型场景，并且返回相似度s₁,...,s_n中最大值对应的典型场景的位置来判断当前所在的位置，并与真实的位置信息比较，验证模型的好坏。如果模型不好，修改网络的参数，重新训练。

步骤四、将训练好的并且达到精度要求的模型搭载入服务器，使用视频数据采集装置获取视频数据，送入服务器中训练好的深度神经网络进行计算，通过神经网络提取的特征向量计算与标准的n个典型场景图像的相似度，判别当前所在的位置。

在服务器上搭建已训练好的深度神经网络模型，通过视频数据采集装置获取当前所在处的实时视频数据。如图4所示，将处理好的视频数据输入服务器内已搭建好的深度神经网络，通过神经网络提取的特征向量计算与标准的n个典型场景图像的相似度s，相似度s经归一化处理后，s的取值范围从0到1；经过典型场景判别器可以判别当前所在的位置。通过上述方法，以实现室内典型场景匹配定位的功能。

Claims

1.一种基于神经网络的室内典型场景匹配定位方法，其特征在于，包含以下步骤：

步骤一、在服务器端建立标准典型场景定位图像库，定位图像库中的图像均标记有对应的位置信息，并制作典型场景训练数据集，用于训练深度神经网络；

步骤二、采用Siamese深度神经网络模型，通过大量数据训练，使深度神经网络从数据中学习判断相似性度量的方法；

步骤四、将训练好的并且达到精度要求的Siamese深度神经网络模型搭载入服务器，使用视频数据采集装置获取视频数据，送入服务器中训练好的深度神经网络进行计算，通过深度神经网络提取的特征向量计算与标准的n个典型场景图像的相似度，判别当前所在的位置。

2.如权利要求1所述的一种基于神经网络的室内典型场景匹配定位方法，其特征在于，步骤二中，通过大量数据训练时，将一组图像和标签输入神经网络，深度神经网络将图像映射到新的空间，形成特征向量；将成对的训练数据输入神经网络，计算输出和训练数据标签之间的损失函数，再根据反向传播算法，更新网络中的各个参数，使深度神经网络从数据中学习判断相似性度量的方法。

3.如权利要求1所述的一种基于神经网络的室内典型场景匹配定位方法，其特征在于，所述视频数据采集装置包括移动摄像头、视频帧格式化处理模块和图像预处理模块。

4.如权利要求3所述的一种基于神经网络的室内典型场景匹配定位方法，其特征在于，步骤三具体为：

训练完的深度神经网络输出数据的特征向量，利用特征向量计算移动摄像头输入的视频帧与标准典型场景图像库的中n个图像的相似度s₁,...,s_n，当相似度大于设定的阈值时，证明移动摄像头输入的视频帧匹配上了典型场景，并且返回相似度s₁,...,s_n中最大值对应的典型场景的位置来判断当前所在的位置，并与真实的位置信息比较，验证模型的好坏；如果模型不好，修改深度神经网络的参数，重新训练。

5.如权利要求4所述的一种基于神经网络的室内典型场景匹配定位方法，其特征在于，所述移动摄像头输入的视频帧，由视频帧格式化处理模块获得，视频帧格式化处理模块将实时视频数据转换为格式化的视频帧f(x,t)，其中t表示时间，函数f(·)表示视频数据格式化函数。

6.如权利要求5所述的一种基于神经网络的室内典型场景匹配定位方法，其特征在于：步骤四中，所述服务器连接视频采集装置，视频采集装置将格式化后的视频帧f(x,t)传送至服务器进行处理：

将视频帧f(x,t)输入服务器内的深度神经网络，通过深度神经网络计算视频帧与标准典型场景图像的相似度s；相似度s经归一化处理后，s的取值范围从0到1；通过典型场景判别器，返回当前所在的位置，实现室内典型场景匹配定位。

7.如权利要求3所述的一种基于神经网络的室内典型场景匹配定位方法，其特征在于：所述图像预处理模块根据视频采集设备采集的视频图像，判断是否需要对采集图像进行预处理。