CN110503037A

CN110503037A - 一种在区域内定位物品的方法及***

Info

Publication number: CN110503037A
Application number: CN201910776607.1A
Authority: CN
Inventors: 田立; 林朝龙; 杨建军; 杜玉强
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2019-11-26

Abstract

本发明公开了一种本发明实施例训练得到物品识别神经网络模型，将采集的区域内的图像输入到设置的物品识别神经网络模型中，输出得到该区域内的物品种类及对应的位置。更进一步地，本发明实施例还动态监测区域内的物品变化信息，在定位物品时，根据区域内的物品变化信息定位物品。这样，本发明实施例就可以在耗时时间短且简便的情况下，准确在区域内定位物体。

Description

一种在区域内定位物品的方法及***

技术领域

本发明涉及计算机技术领域，特别涉及一种在区域内定位物品的方法及***。

背景技术

在对区域内进行物品搜索时，通常采用以下几种方式。

第一种方式，在物品上安装或张贴定位设备，比如安装短距离且低功率通信网络(ZigBee)设备等，随后在另外一个辅助设备上跟踪显示该定位设备，以确定物品；

第二种方式，通过定义对物品的规范化约束规则来存放物品，从而快速在分类中定位物品；

第三种方式，通过图像化比较的方式穷举搜索目标物品，比如通过无人机检索室内，采集室内的图像，比较图形中的物品的样式和目标物品的匹配度，达到一定的匹配度即可认为找到物品。

但是，采用上述几种方式搜索物品时，都存在缺点。采用第一种方式，一旦需要定位的物品上没有安装定位设备，则无法定位该物品；采用第二种方式，一旦定义的物品的规范化约束规则没有被遵守，或遭遇意外被打乱，则无法定位要寻找的物品；采用第三种方式通过图像化比较的方式穷举搜索目标物品，搜索耗时很高，更重要的是一旦定位物品被部分遮挡，则无法定位该物品。

因此，如何耗时时间短及简便的情况下，准确在区域内定位物体，成为了一个亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供一种区域内定位物品的方法，该方法能够在耗时时间短且简便的情况下，准确在区域内定位物体。

本发明实施例提供一种区域内定位物品的***，该***能够在耗时时间短且简便的情况下，准确在区域内定位物体。

本发明实施例是这样实现的：

一种在区域内定位物品的方法，训练得到物品识别神经网络模型，该方法还包括：

采集区域内图像，输入到物品识别神经网络模型中；

从物品识别神经网络模型输出得到该区域内的物品种类及对应的位置，以使在定位物品时直接查询得到。

所述物品识别神经网络模型为深度可分离卷积depthwise神经网络模型。

所述以使在定位物品时直接查询得到之前，还包括：动态监测区域内的物品变化信息。

所述动态监测区域内的物品变化信息包括：

监测区域内的物品发生变化，采集区域内图像，输入到物品识别神经网络模型中；

从物品识别神经网络模型输出得到该区域内的物品变化信息。

所述物品变化信息包括：对区域内的新物品进行标记，对已有物品的对应位置进行更新。

一种在区域内定位物品的***，包括：物品识别神经网络模型训练模块、全景图生成模块、区域内物品标注模块及查询物品模块，其中，

物品识别神经网络模型训练模块，用于训练得到物品识别神经网络模型；

全景图生成模块，用于采集区域内图像；

区域内物品标注模块，用于将全景图生成模块生成的图像，输入到物品识别神经网络模型中；从物品识别神经网络模型输出得到该区域内的物品种类及对应的位置；

查询物品模块，用于在定位物品时根据该区域内的物品种类及对应的位置，进行查询得到。

所述物品识别神经网络模型为depthwise神经网络模型。

还包括区域内物品监控单元，用于动态监测区域内的物品变化信息。

所述区域内物品监控单元，还用于所述动态监测区域内的物品变化信息包括：监测区域内的物品发生变化，采集区域内的图像，输入到物品识别神经网络模型中；从物品识别神经网络模型输出得到该区域内的物品变化信息。

所述物品变化信息包括：对区域中的新物品进行标记，对已有物品的对应位置进行更新。

如上所见，本发明实施例训练得到物品识别神经网络模型，将采集的区域内的图像输入到设置的物品识别神经网络模型中，输出得到该区域内的物品种类及对应的位置。更进一步地，本发明实施例还动态监测区域内的物品变化信息，在定位物品时，根据区域内的物品变化信息定位物品。这样，本发明实施例就可以在耗时时间短且简便的情况下，准确在区域内定位物体。

附图说明

图1为本发明实施例提供的一种区域内定位物品的方法流程图；

图2为本发明实施例提供的一种区域内定位物品的***结构示意图；

图3为本发明实施例提供的物品识别神经网络模型架构示意图；

图4为本发明实施例提供的对全景图中的物体种类及对应的位置进行标注或更新的演示图；

图5为本发明实施例提供的结合物联网实现区域内定位物体的过程演示图；

图6为本发明实施例提供的记录区域内定位物体的过程演示图；

图7为本发明实施例提供的应用场景三的过程演示图；

图8为本发明实施例提供的应用场景四的过程演示图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

本发明实施例为了在耗时时间短且简便的情况下，准确在区域内定位物体，引入了神经网络模型进行物品识别。具体地说，本发明实施例训练得到物品识别神经网络模型，将采集的区域内的图像输入到设置的物品识别神经网络模型中，输出得到该区域内的物品种类及对应的位置。这样，就可以定位区域内的物品。

更进一步地，本发明实施例还动态监测区域内的物品变化信息，在定位物品时，还根据区域内的物品变化信息定位物品。

在本发明实施例中，所述区域内的图像可以是全景图像，以下以全景图像为例进行详细说明。

在本发明实施例中，物品识别神经网络模型采用深度可分离卷积(depthwise)神经网络模型，通过对其训练，可以识别出多达3000种不同种类的物品，并且输出得到物品种类及对应的位置，对应物品标识来跟踪定位物体。这样，可以大大提高了识别效率，使得实时监控物品变化成为可能。

图1为本发明实施例提供的一种区域内定位物品的方法流程图，其具体步骤为：

步骤101、训练得到物品识别神经网络模型；

步骤102、采集区域内全景图像，输入到物品识别神经网络模型中；

步骤103、从物品识别神经网络模型输出得到该区域内的物品种类及对应的位置，以使在定位物品时直接查询得到。

在该方法中，所述物品识别神经网络模型为depthwise神经网络模型。

在该方法中，在步骤103所述以使在定位物品时直接查询得到之前，还包括：动态监测区域内的物品变化信息。

在该方法中，所述动态监测区域内的物品变化信息包括：

监测区域内的物品发生变化，采集区域内全景图像，输入到物品识别神经网络模型中；

从物品识别神经网络模型输出得到该区域内的物品变化信息。在这里，物品变化信息包括：对区域中的新物品进行标记，对已有物品的对应位置进行更新。

图2为本发明实施例提供的一种区域内定位物品的***结构示意图，包括：物品识别神经网络模型训练模块、全景图生成模块、区域内物品标注模块及查询物品模块，其中，

全景图生成模块，用于采集区域内全景图像；

区域内物品标注模块，用于将全景图生成模块生成的全景图像，输入到物品识别神经网络模型中；从物品识别神经网络模型输出得到该区域内的物品种类及对应的位置；

在该***中，所述物品识别神经网络模型为depthwise神经网络模型。

在该***中，还包括区域内物品监控单元，用于动态监测区域内的物品变化信息。

在该***中，所述区域内物品监控单元，还用于所述动态监测区域内的物品变化信息包括：监测区域内的物品发生变化，采集区域内全景图像，输入到物品识别神经网络模型中；从物品识别神经网络模型输出得到该区域内的物品变化信息。在这里，物品变化信息包括：对区域中的新物品进行标记，对已有物品的对应位置进行更新。

以下对本发明实施例进行详细说明

采集区域内全景图

采集区域内全景图的过程也就是生成全景图的过程，可以采用现有方式实现，根据实际情况选取合适的方案，比如生成720度全景图时可以采用以下方式。

第一个方式，将区域内的摄像单元中的2个广角摄像头之间设置视场角为360度，且两者间隔一定距离，背靠背设置；两个广角摄像头分别拍摄图像，经过图像去噪等处理，进行拼接得到全景图。在拼接过程可以使用中值滤波器来解决部分像素值的突变问题，随后对融合后的图像进行几何校正，将多幅鱼眼图投影到球体上，通过坐标定位法或经纬映射法将鱼眼图像展开为平面全景图像。

第二个方式，通过区域内的机器人自带的可以360度旋转摄像头按照球形原地转动拍摄，分别拍摄2张360度全景图。

训练得到物品识别神经网络模型

由于全景图的尺寸很大，为了能够提高识别效率和精度，本发明实施例进行优化。

1)根据***硬件的闲置中央处理器/图形处理器(CPU/GPU)数目动态分割全景图，分割图像的边缘有重叠区域来提高识别精度：

重叠area＝SIZE/(CPU_NUM*10) CPU_NUM<＝10

重叠area＝SIZE/(CPU_NUM*5) CPU_NUM>10

2)使用步长为2的下采样卷积网络，合二为一的卷积操作使得不需要频繁从内存中读取数据，减少了时间的消耗，并且能够减少计算量，提高性能。

3)神经网络模型采用depthwise层加上1x1的卷积(conv)层，这种方式能够在识别效果没有太大变化的情况下，大大减少模型大小，并且有一定的计算速度提升。

其中，图像尺寸设置为H*W；图像通道数设置为M；卷积核大小设置为K；输出特征图个数设置为N；则物品识别神经网络模型为H*W*M*(K*K*1+1*1*N)。

当输出的特征图数量N比较大时，可以大大减少计算量，提高识别的速度。

训练数据可以从已有的可视化数据库(imagenet)获取大于210万张图像的数据，共3000种类别的物品，完全可以满足物体识别的分类需要。

图3为本发明实施例提供的物品识别神经网络模型架构示意图。

深度学习可以认为是对一个函数(如上图的网络结构)的参数(各层的卷积核)的求解，它的运算过程其实就在做参数调整。在本发明实施例中，这个函数的作用是接受输入某个图像，函数计算后输出分类结果：图像中物品的种类。

在图3中，每个网络层会根据预先选择的策略初始化参数值。这个值都有一定的规律，但距离目标还有很远的距离，训练的过程就是调整参数的过程。当训练开始后，输入生成的大量图像数据，经过卷积层的卷积运算，池化(pooling)层的降维操作，全连接层的映射等，给出一个分类结果。通过计算这个结果与真实结果之间的差值，来调整模型参数，使得这个差值逐渐降低。

在本发明实施例中，图像识别模型训练会选取imagenet中的大于210万的图像数据，共3000种类别作为训练样本，每个样本包括图片和对应的物品种类。训练时首先将所有样本的像素尺寸统一调整为64*64，随后进行去均值操作，生成内存映射数据库(LMDB)格式的文件供数据(data)层读取。

在本发明实施例中，data实际上就是Input层，用来读取LMDB格式训练样本数据，根据prototxt的定义依次加载一定数量的数据，提供给训练使用。每次读取该神经网络中的批大小(batch size)为160，并将它转换成该神经网络能够识别的数据(blob shapes：[1,3,64,64])，输出给池化卷积层(pooling conv)1来进行卷积操作。

pooling conv1即第一个卷积层层，它接收Data层的输入图片数据，并将图片与本层通过初始化好的卷积核(大小为7)以步长为2做卷积操作，,并生成16个特征图作为输出，输入给下一层。

在训练的过程中，网络识别的最终结果是通过对误差的纠正，不断地更新卷积层的参数，使得误差越来越小。上一层的特征图被一个卷积核进行卷积后，再加上偏置b，使用激活函数，能够获得输出的特征图。

Depthwise层即Depthwise卷积，Depthwise卷积的每个卷积核只负责一个图像通道，也即是每个通道只被一个卷积核做卷积操作。Depthwise层是在二维平面内进行卷积操作的。也就是说卷积核的数量与上一层的通道数一一对应。所以做完卷积操作后，一个三通道的图像可以生成3个特征图(Feature map)。

Pointwise Conv层即Pointwise卷积，运算与常规卷积是一样的，但是它的卷积核的尺寸为固定的1×1，如果上一层通道数是M，则参数为1×1×M。经过运算后，这一步就可以生成M个新的特征图，从而起到与普通卷积一样的效果。但是得到的参数数量跟运算成本可以大大减少，起到很好的优化作用。

Relu层即激活层，本发明实施例的网络选取了ReLU激活函数，定义为max(0,x)，一般与卷积层成对出现，接收卷积层的输入并处理后传输给下一层的池化层(pool)。它会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。

pool即Pooling层，作用是对特征进行降维，下采样后可以减少计算复杂度，同时可以保持特征不变性。它一般紧随着卷积层而存在，接收卷积层的输出特征图作为本层的输入，并通过求最大值的方法来是使得特征减少，参数减少。这样可以增强模型的泛化能力。根据图像局部相关原理，对输入的图像进行抽象，保留图像结构信息。

抽象采用的公式为：

其中，down(.)表示下采样函数。使用最大池化方式，Stride为2，取3*3的区域内的特征图最大值作为输出。这样输出图像在两个维度上都缩小了。每个输出的特征图都对应一个属于自己的乘性偏置β和一个加性偏置b。

图3中的ip1即InnerProduct层，也叫全连接层(fc，fully connected layers)，作用是起到将“分布式特征图”映射到样本标记空间的作用。ip1接收pool4层的特征图作为输入，并产生一个1*N维向量，即图片的分类结果。

图3中的Accuracy层会计算训练后的模型应用于待测试数据时的准确率。

图3中的loss层接收全连接层的结果来计算loss值。可以采用softmax方式实现。通过梯度下降的原则来调整各层参数，随后进行下一轮的训练过程。

当loss值低于预设的阈值后，训练会结束,随后会将之前各层的网络结构与对应的参数保存下来，生成最终的网络模型。后续图像经过这个网络模型的处理，就会自动识别为对应的物品种类。

对全景图中的物体种类及对应的位置进行标注或更新

将采集的区域内的全景图输入到训练好的物品识别神经网络模型中，即采用物品识别神经网络模型扫描所述全景图，对其中的物品种类进行识别及标记在区域内的位置，如图4所示，图4为本发明实施例提供的对全景图中的物体种类及对应的位置进行标注或更新的演示图。

对区域内的物***置监控

当发现标注的物体发生移动时，通过逐帧扫描更新后的全景图的方式，跟踪物体移动轨迹，并在区域中更新物体的最后位置。当物体被其他物体遮挡时，也可以保留物体最后的位置信息，为用户寻找该物体提供依据。

物品位置查询

在用户需要查找到某个物品时，通过语音或文字输入的方式，向本发明实施例提供的***发送控制指令，本发明实施例就可以区域内的采集全景图，并将全景图输入训练好的物品识别神经网络模型中，扫描得到区域内的物品种类及对应的位置。最后，将用户要查询的物品的位置信息通过语音播报或图片显示的方式，反馈给用户。

采用本发明实施例，可以应用到以下几个应用场景中。

应用场景一：用户忘记自己之前使用的物品放置在哪里，直接向本发明实施例提供的***查询。

可以与物联网(IoT)***结合。比如摄像头和智能音箱设备。由物联网的摄像头来生成全屋全景图，当用户需要查询某个物品时，由物联网中的智能音箱来反馈搜索结果：

***从全景图中搜索对应的物品种类，通过语音或者图片的形式反馈给用户，整个过程如图5所示，图5为本发明实施例提供的结合物联网实现区域内定位物体的过程演示图。

应用场景二：物品被其他东西遮挡，用户无法找到，本发明实施例提供的***会记录物品最后出现的范围，供用户寻找。如图6所示，图6为本发明实施例提供的记录区域内定位物体的过程演示图。

应用场景三：本发明实施例提供的***可以扫码/拍照识别食物的种类和保质期，并标记位置。一旦接近保质期，语音提醒用户尽早食用。如图7所示，图7为本发明实施例提供的应用场景三的过程演示图。

应用场景四：本发明实施例提供的***可以识别正在烧开的锅，提醒用户防止锅烧干酿成灾难。如图8所示，图8为本发明实施例提供的应用场景四的过程演示图。

应用场景五：不适合放在一起的物体提示警告。某些物品放置在一起时容易有安全隐患，比如烟花和打火机。当***检测到这两件物品放置的位置过于接近时，会语音提醒用户注意，防止危险产生。

可以看出，本发明通过对物品视频神经网络模型的大量数据的训练，可以识别出多达3000种不同种类的物品，能够快速地搜索全景图并标记物品种类，当有新的物品覆盖住之前的物品后，本发明实施例提供的***中仍然会保留区域内的物品的位置，以供用户可以查询到，不影响该物体地定位与寻找，真正达到了瞬间找物的效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种在区域内定位物品的方法，其特征在于，训练得到物品识别神经网络模型，该方法还包括：

采集区域内图像，输入到物品识别神经网络模型中；

2.如权利要求1所述的方法，其特征在于，所述物品识别神经网络模型为深度可分离卷积depthwise神经网络模型。

3.如权利要求1所述的方法，其特征在于，所述以使在定位物品时直接查询得到之前，还包括：动态监测区域内的物品变化信息。

4.如权利要求3所述的方法，其特征在于，所述动态监测区域内的物品变化信息包括：

5.如权利要求4所述的方法，其特征在于，所述物品变化信息包括：对区域内的新物品进行标记，对已有物品的对应位置进行更新。

6.一种在区域内定位物品的***，其特征在于，包括：物品识别神经网络模型训练模块、全景图生成模块、区域内物品标注模块及查询物品模块，其中，

全景图生成模块，用于采集区域内图像；

7.如权利要求6所述的***，其特征在于，所述物品识别神经网络模型为depthwise神经网络模型。

8.如权利要求6所述的***，其特征在于，还包括区域内物品监控单元，用于动态监测区域内的物品变化信息。

9.如权利要求8所述的***，其特征在于，所述区域内物品监控单元，还用于所述动态监测区域内的物品变化信息包括：监测区域内的物品发生变化，采集区域内的图像，输入到物品识别神经网络模型中；从物品识别神经网络模型输出得到该区域内的物品变化信息。

10.如权利要求9所述的***，其特征在于，所述物品变化信息包括：对区域中的新物品进行标记，对已有物品的对应位置进行更新。