CN106971175A

CN106971175A - 一种在纠缠场景表示中发现物体及其关系的方法

Info

Publication number: CN106971175A
Application number: CN201710297067.XA
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-04-28
Filing date: 2017-04-28
Publication date: 2017-07-21

Abstract

本发明中提出的一种在纠缠场景表示中发现物体及其关系的方法，其主要内容包括：关系网络模型、多层网络感知器、自定义数据集、容量增益关系网络，其过程为，首先定量描述物体及其特征属性，将其信息平行地输入到两个卷积神经网络，然后将其输出经过批量正态分布层和线性函数层，再缩减一半的维度输入到容量增益网络得到读写操作，然后计算各外部记忆槽中向量的余弦距离，来衡量物体相互之间的关系。本发明可以提取图像更深层的表示形式，通过差分编码器的编码与解码，将信息的属性描述得更加全面，从而可以得到物体之间更清晰的对比关系。

Description

一种在纠缠场景表示中发现物体及其关系的方法

技术领域

本发明涉及图像内容识别领域，尤其是涉及了一种在纠缠场景表示中发现物体及其关系的方法。

背景技术

在二维图像中，记录了静态物体相互之间的关系，如厨房的照片会有菜刀，床上的照片会有枕头等，这些信息极大地帮助人工智能自主认识并学习到人类时间某些物体之间具有较强的联系，同时在日益增多的媒体介质中，人力劳动并不能完全识别所有图像，因此，教会人工智能如何联系图像内容分析纠缠场景中物体相互关系，显得非常重要。在社会应用和经济效益方面同样具有重大的潜力，如交通事故中伤者与车辆的数量关系、人群高聚集地的逃生路线、乃至日常购物的时尚搭配、家居装潢等都有实用的场景。

但如何让人工智能学会自主识别内容，仍然是一个很有挑战性的问题。由于二维图像的清晰度、像素的相互关系、及场景的单一化都有可能导致机器学习无法进入收敛，同时现实中不存在相应的数量较大的数据库进行训练，需要自行添加相关要素或标签。此外，自主识别的内容无法让人工智能理解其含义或者地位，从而即便得到消息不能直接使用其信息获取下一步的指示，仍然需要人力进行监督。

本发明提出了一种基于容量增益关系网络的新框架。使用固定描述接口语言定量描述物体及其特征属性，将其信息平行地输入到两个卷积神经网络并将其输出经过批量正态分布层和线性函数层，再缩减一半的维度输入到容量增益网络得到读写操作，然后计算各外部记忆槽中向量的余弦距离，来衡量物体相互之间的关系。本发明可以提取图像更深层的表示形式，通过差分编码器的编码与解码，将信息的属性描述得更加全面，从而可以得到物体之间更清晰的对比关系。

发明内容

针对解决在二维图像纠缠场景物体之间相互关系的问题，本发明的目的在于提供一种在纠缠场景表示中发现物体及其关系的方法，提出了一种基于容量增益关系网络的新框架。

为解决上述问题，本发明提供一种在纠缠场景表示中发现物体及其关系的方法，其主要内容包括：

(一)关系网络模型；

(二)多层网络感知器；

(三)自定义数据集；

(四)容量增益关系网络。

其中，所述的关系网络模型，包括场景定量描述和模型实施。

进一步地，所述的场景定量描述，假设在纠缠场景中存在一个物体i，该物体具有n种特征属性，例如物体类型、颜色、尺寸、位置等信息，则其可以被表示为：

其中，若总共具有m个物体，则可用m×n维矩阵D表示；

据公式(1)，场景是完全抽象的，场景由堆砌的物体所定义，物体由组成的特征属性所定义。

进一步地，所述的模型实施，该模型自身关系的发掘基于先验知识的特定因式分解，有：

其中，g_ψ是带有参数的因式分解函数，此时，有：

其中，f为返回预测关系的函数。

进一步地，所述的多层网络感知器，根据公式(2)(3)直接作用于特征属性，多层网络感知器直接作用于物体本身，即：

其中，进一步地，在一组相互有交集联系的物体中，其关系必然会存在于场景内容中，因此需要在交叉属性中进行计算以遍历这些交集：

即函数g可能作用于成对的物体上。

进一步地，所述的自定义数据集，对于具有位置关系的场景，根节点坐标首先被在一个有界空间中被随机选出；接着，子目标被随机安排到特定的父目标，具***置可由父坐标来得到：

其中，θ^p是父目标计算角度；对于根节点d＝d₀+d₁是计算得到的长度，d₀是最短距离，d₁是从半正态分布中得到的采样距离，最终，场景定量描述可由16行矩阵组成来描述位置、颜色、尺寸和形状四种类型，每种类型占用4行。

进一步地，所述的容量增益关系网络，包括差分自动编码器、容量增益神经元和训练参数。

进一步地，所述的差分自动编码器，对于像素级别的潜在表现形式，使用卷积神经网络作为特征的编码器，而使用反卷积网络作为解码器，具体地：

(1)卷积神经网络分为两个单元块，两个单元块分别平行输入四维卷积数据流，其卷积核大小分别为1×1，3×3，5×5，7×7；这些经过卷积核的输出经过一个批量正态分布层和修正线性层，然后将数据流合并；

(2)合并的数据流经过3×3卷积核的下采样，将其维度缩减一半，再经过一次批量正态分布层和修正线性层；

(3)所有卷积神经网络都连续包含上述层，当输入图像的尺寸是32×32时，特征图的尺寸即为8×8，反卷积神经网络除了将反卷积核代替卷积核之外，其他层次的设置均不变；

(4)卷积神经网络编码器最终的输出接着通过线性函数层得到x，将其分解为μ和σ，再添加一个辅助高斯噪声变量∈以接近真实情景，即z＝μ+∈σ；紧接着，z反馈到一个线性函数层，从而投影到更高维度的空间D。

进一步地，所述的容量增益神经元，挖掘场景描述中的隐含联系，关系网络模型是作为容量增益神经网络的预处理，具体地，容量增益神经网络的核心模块包含一个控制器，即长短语义记忆网络，外部记忆储存由一系列记忆槽组成，每个槽都包含记忆容量；在读入过程，该网络接收一个输入并且生成一个质询向量，用记忆槽中的向量的余弦距离来质询外部记忆容量，在写入过程中，该网络输出一个利用最近使用的记忆访问机制来写入记忆槽的容量。

进一步地，所述的训练参数，关系网络模型关于f_φ和g_ψ的大小是{200,200}、{500,500}、{1000,1000}或者{200,200,200}，同时用相同的网络大小训练了多层网络感知器；对于g_ψ，最稳健的输出大小为100，200或者500，而对于使用长短语义记忆网络的差分自动编码器，网络大小为200，记忆槽数为128，记忆容量为40，读写头数量为4；其中，卷积神经网络的学习率为0.0004，训练样本为每种类5000张；批量正态分布的处理每批数量为100张。

附图说明

图1是本发明一种基于在纠缠场景表示中发现物体及其关系的方法的***流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于在纠缠场景表示中发现物体及其关系的方法的***流程图。主要包括关系网络模型；多层网络感知器；自定义数据集；容量增益关系网络。

所述的场景定量描述，假设在纠缠场景中存在一个物体i，该物体具有n种特征属性，例如物体类型、颜色、尺寸、位置等信息，则其可以被表示为：

其中，若总共具有m个物体，则可用m×n维矩阵D表示；

所述的模型实施，该模型自身关系的发掘基于先验知识的特定因式分解，有：

其中，g_ψ是带有参数的因式分解函数，此时，有：

其中，f为返回预测关系的函数。

所述的多层网络感知器，根据公式(2)(3)直接作用于特征属性，多层网络感知器直接作用于物体本身，即：

即函数g可能作用于成对的物体上。

所述的自定义数据集，对于具有位置关系的场景，根节点坐标首先被在一个有界空间中被随机选出；接着，子目标被随机安排到特定的父目标，具***置可由父坐标来得到：

所述的容量增益关系网络，包括差分自动编码器、容量增益神经元和训练参数。

所述的差分自动编码器，对于像素级别的潜在表现形式，使用卷积神经网络作为特征的编码器，而使用反卷积网络作为解码器，具体地：

所述的容量增益神经元，挖掘场景描述中的隐含联系，关系网络模型是作为容量增益神经网络的预处理，具体地，容量增益神经网络的核心模块包含一个控制器，即长短语义记忆网络，外部记忆储存由一系列记忆槽组成，每个槽都包含记忆容量；在读入过程，该网络接收一个输入并且生成一个质询向量，用记忆槽中的向量的余弦距离来质询外部记忆容量，在写入过程中，该网络输出一个利用最近使用的记忆访问机制来写入记忆槽的容量。

所述的训练参数，关系网络模型关于f_φ和g_ψ的大小是{200,200}、{500,500}、{1000,1000}或者{200,200,200}，同时用相同的网络大小训练了多层网络感知器；对于g_ψ，最稳健的输出大小为100，200或者500，而对于使用长短语义记忆网络的差分自动编码器，网络大小为200，记忆槽数为128，记忆容量为40，读写头数量为4；其中，卷积神经网络的学习率为0.0004，训练样本为每种类5000张；批量正态分布的处理每批数量为100张。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种在纠缠场景表示中发现物体及其关系的方法，主要包括关系网络模型(一)；多层网络感知器(二)；自定义数据集(三)；容量增益关系网络(四)。

2.基于权利要求书1所述的关系网络模型(一)，其特征在于，包括场景定量描述和模型实施。

3.基于权利要求书2所述的场景定量描述，其特征在于，假设在纠缠场景中存在一个物体i，该物体具有n种特征属性，例如物体类型、颜色、尺寸、位置等信息，则其可以被表示为：

o_{i} = (o_{i}^{1}, o_{i}^{2}, ..., o_{i}^{n}) - - - (1)

其中，若总共具有m个物体，则可用m×n维矩阵D表示；

4.基于权利要求书2所述的模型实施，其特征在于，该模型自身关系的发掘基于先验知识的特定因式分解，有：

g_{ψ} (D) &equiv; g_{ψ} (o_{1}^{2}, ..., o_{i}^{j}, ..., o_{m}^{n}) - - - (2)

其中，g_ψ是带有参数的因式分解函数，此时，有：

其中，f为返回预测关系的函数。

5.基于权利要求书1所述的多层网络感知器，其特征在于，根据公式(2)(3)直接作用于特征属性，多层网络感知器直接作用于物体本身，即：

即函数g可能作用于成对的物体上。

6.基于权利要求书1所述的自定义数据集，其特征在于，对于具有位置关系的场景，根节点坐标首先被在一个有界空间中被随机选出；接着，子目标被随机安排到特定的父目标，具***置可由父坐标来得到：

(o_{x}^{p}, o_{y}^{p}) = (o_{x}^{p} + d c o s (θ^{c}), o_{y}^{p} + d s i n (θ^{c})) - - - (6)

7.基于权利要求书1所述的容量增益关系网络，其特征在于，包括差分自动编码器、容量增益神经元和训练参数。

8.基于权利要求书7所述的差分自动编码器，其特征在于，对于像素级别的潜在表现形式，使用卷积神经网络作为特征的编码器，而使用反卷积网络作为解码器，具体地：

9.基于权利要求书7所述的容量增益神经元，其特征在于，挖掘场景描述中的隐含联系，关系网络模型是作为容量增益神经网络的预处理，具体地，容量增益神经网络的核心模块包含一个控制器，即长短语义记忆网络，外部记忆储存由一系列记忆槽组成，每个槽都包含记忆容量；在读入过程，该网络接收一个输入并且生成一个质询向量，用记忆槽中的向量的余弦距离来质询外部记忆容量，在写入过程中，该网络输出一个利用最近使用的记忆访问机制来写入记忆槽的容量。

10.基于权利要求书7所述的训练参数，其特征在于，关系网络模型关于f_φ和g_ψ的大小是{200,200}、{500,500}、{1000,1000}或者{200,200,200}，同时用相同的网络大小训练了多层网络感知器；对于g_ψ，最稳健的输出大小为100，200或者500，而对于使用长短语义记忆网络的差分自动编码器，网络大小为200，记忆槽数为128，记忆容量为40，读写头数量为4；其中，卷积神经网络的学习率为0.0004，训练样本为每种类5000张；批量正态分布的处理每批数量为100张。