CN107463932A

CN107463932A - 一种使用二进制瓶颈神经网络来抽取图片特征的方法

Info

Publication number: CN107463932A
Application number: CN201710568350.1A
Authority: CN
Inventors: 张勇; 朱立松
Original assignee: CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Current assignee: CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Priority date: 2017-07-13
Filing date: 2017-07-13
Publication date: 2017-12-12
Anticipated expiration: 2037-07-13
Also published as: CN107463932B

Abstract

本发明公开了一种使用二进制瓶颈神经网络来抽取图片特征的方法，属于视频处理技术领域，通过建立二进制瓶颈神经网络，将图片自动抽取为包含若干个二进制比特的特征向量，当要比较两幅图像之间的相似性程度时，只需要比较两个图片的二进制特征向量，然后计算两个二进制特征向量之间的汉明距离即可：汉明距离越小，说明两幅图像越相似，解决了抽取图片的二进制特征向量的技术问题，本发明计算图像的特征二进制序列，不依赖于研究者的经验进行手工设计就能获得非常好的性能；本发明计算的图像特征二进制序列可用于快速计算图像的相似性，对于图片和视频的相似性检索有重要价值。

Description

一种使用二进制瓶颈神经网络来抽取图片特征的方法

技术领域

本发明属于视频处理技术领域，特别涉及一种使用二进制瓶颈神经网络来抽取图片特征的方法。

背景技术

图像数据属于典型的非结构化数据，图像数据库的查询、检索、相似比较等都存在困难，这是由几个方面的原因造成的：1)图像数据的维度较高，一般高清图像的分辨率可达到约200万像素，而超清图像的分辨率可达到800万像素之多；2)图像所包含的语义很难从数据中直接获取，例如一副图像包含了一辆汽车，人类很容易观察到这一图像语义，而计算机却很难获取这一语义，只有通过人工智能等复杂的算法才能识别图像中包含汽车这一特定语义。

为了使图像更容易被查询、检索、比较，抽取图像特征是现阶段常用的方法。通常使用SIFT算法或SURF算法来抽取图像的局部特征点。

SIFT特征和SURF特征比较相似，都是对特征点局部区域内像素点数值分布的描述，例如SIFT特征的每一个特征点对应一个128位的描述向量，SURF特征的计算速度比SIFT快，每一个特征点对应一个64位的描述向量。

SIFT特征和SURF特征都是手工设计的特征抽取方法。经过特征抽取之后起到了一定的降低数据维度的作用。比较两个图像的相似程度可以通过比较他们之间的SIFT特征或SURF特征来实现。然而其计算得到的特征向量维度仍然较高，在图像的快速检索方面不能满足要求。

发明内容

本发明的目的是提供一种使用二进制瓶颈神经网络来抽取图片特征的方法，解决了抽取图片的二进制特征向量的技术问题。

为实现上述目的，本发明采用以下技术方案：

一种使用二进制瓶颈神经网络来抽取图片特征的方法，包括如下步骤：

步骤1：建立一个二进制瓶颈神经网络，该二进制瓶颈神经网络包括输入层、隐藏层、输出层和镜像层；所述隐藏层包括第一隐藏层、第二隐藏层和第三隐藏层；

步骤2：通过摄像头获取图片后，将图片进行统一处理，使图片变为适合在二进制瓶颈神经网络中处理的分辨率尺寸大小，所述统一处理包括放大处理和缩小处理；

对8bit编码格式的图片进行统一处理时，由于所述8bit编码格式的图片的像素值的范围是0到255，所以处理时将所述8bit编码格式的图片中的所有的像素值均除以255，使其归一化到0到1的范围内；

步骤3：将经过统一处理的图片输入到所述输入层，经过统一处理的图片的像素值作为输入层的状态值；

步骤4：隐藏层获取输入层的状态值，并通过以下公式1进行计算：

式中，向量x表示输入层的状态值，W表示从输入层到隐藏层的权值矩阵，b表示隐藏层的偏置值，y表示隐藏层的状态值；

隐藏层可以有许多，每一个隐藏层均将近邻的前一个隐藏层作为自身的输入层，并通过公式1来获取输入层的状态值；

步骤5：将隐藏层的状态值输入到输出层，并计算输出层的神经元激活概率，其计算公式2如下：

式中，向量j表示第三隐藏层的状态值，k表示输出层的偏置值，下标i表示输出层的第i个元素，P表示输出层的第i个元素激活的概率，P(O_i＝1)表示O_i＝1的概率，O_i只有两个取值，即1或0，取1表示激活，取0表示非激活，公式2给出了输出层的第i个神经元激活的概率；

神经网络在计算的过程中首先计算输出层的神经元激活概率值P，然后根据概率值P进行随机采样，从而最后得到输出神经元的激活状态；该神经网络将任意一个图片映射为一个固定长度的二进制序列码，即，图片的二进制特征向量；

步骤6：当需要比较图片N和图片M之间的相似度时，首先根据步骤1到步骤5的方法分别计算出图片N和图片M相应的二进制序列码，设定计算出的图片N的二进制序列码为B_N,计算出的图片M的二进制序列码为B_M；

然后计算B_N和B_M之间的汉明距离H(B_N，B_M)，汉明距离越小，图片N和图片M的相似程度越高；

步骤7：在输出层的后方设有一个镜像层，镜像层是以输出层为镜面对隐藏层和输入层的镜像；镜像层的最后一层的神经元个数与输入层的神经元个数相同，镜像层的倒数第二层的神经元个数与第一隐藏层的神经元个数相同。

所述汉明距离是指两个二进制序列中不同位的个数，即将两个二进制序列进行异或后的结果中1的个数。

在执行步骤7时，虽然镜像层的神经元个数与输入层和隐藏层相同，但是其连接权值不相同；图片从输入层输入，经过二进制瓶颈层之后，从镜像层恢复，中间在二进制瓶颈神经网络中引入了一定的误差，这就需要对二进制瓶颈神经网络进行权值训练，而权值训练的目的是使得上述误差最小化；所述二进制瓶颈神经网络中，二进制神经元的个数决定了该网络能够传递的最大信息量，是整个网络信息量传输的瓶颈，网络训练成功之后，若任意从输入层输入的图片都能在镜像层输出与其非常相似的图片，这说明中间的二进制神经元已经抓取到了该图片的特征。

本发明所述的一种使用二进制瓶颈神经网络来抽取图片特征的方法，解决了抽取图片的二进制特征向量的技术问题，本发明计算图像的特征二进制序列，不依赖于研究者的经验进行手工设计就能获得非常好的性能；本发明计算的图像特征二进制序列可用于快速计算图像的相似性，对于图片和视频的相似性检索有重要价值。

附图说明

图1是本发明的二进制瓶颈神经网络的示意图。

具体实施方式

如图1一种使用二进制瓶颈神经网络来抽取图片特征的方法，包括如下步骤：

式中，向量j表示第三隐藏层的状态值，k表示输出层的偏置值，下标i表示输出层的第i个元素，P表示输出层的第i个元素激活的概率，P(O_i＝1)表示O_i＝1的概率，O_i只有两个取值，即1或0，取1表示激活，取0表示非激活，公式2给出了输出层的第i个神经元激活的概率。

第1隐藏层，第2隐藏层以及更多的隐藏层的计算公式都是相同的。首先是把输入层的状态值作为x，使用该公式计算第1隐层的状态，然后再将第1隐层的状态作为x，使用相同的公式计算第2隐层的状态，其它隐层依次类推。

步骤7：在输出层的后方设有一个镜像层，镜像层是以输出层为镜面对隐藏层和输入层的镜像；镜像层的最后一层的神经元个数与输入层的神经元个数相同，镜像层的倒数第二层的神经元个数与第一隐藏层的神经元个数相同，其它依次类推。

输入层和隐藏层可以看做是一个图像的有损编码器，二进制神经元可以看做是图像的编码，镜像层可以看做是一个解码器。

该神经网络训练的目的是网络的权值使得在整个训练集合上从镜像层的最后一层神经元输出的图像与输入图像的差距尽量小。即图像从输入层输入，从镜像层输出，中间传输的神经网络引入了一定的误差，而权值训练的目的是使得这种误差最小化。

Claims

1.一种使用二进制瓶颈神经网络来抽取图片特征的方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种使用二进制瓶颈神经网络来抽取图片特征的方法，其特征在于：所述汉明距离是指两个二进制序列中不同位的个数，即将两个二进制序列进行异或后的结果中1的个数。

3.如权利要求1所述的一种使用二进制瓶颈神经网络来抽取图片特征的方法，其特征在于：在执行步骤7时，虽然镜像层的神经元个数与输入层和隐藏层相同，但是其连接权值不相同；图片从输入层输入，经过二进制瓶颈层之后，从镜像层恢复，中间在二进制瓶颈神经网络中引入了一定的误差，这就需要对二进制瓶颈神经网络进行权值训练，而权值训练的目的是使得上述误差最小化；所述二进制瓶颈神经网络中，二进制神经元的个数决定了该网络能够传递的最大信息量，是整个网络信息量传输的瓶颈，网络训练成功之后，若任意从输入层输入的图片都能在镜像层输出与其非常相似的图片，这说明中间的二进制神经元已经抓取到了该图片的特征。