CN106971175A - 一种在纠缠场景表示中发现物体及其关系的方法 - Google Patents
一种在纠缠场景表示中发现物体及其关系的方法 Download PDFInfo
- Publication number
- CN106971175A CN106971175A CN201710297067.XA CN201710297067A CN106971175A CN 106971175 A CN106971175 A CN 106971175A CN 201710297067 A CN201710297067 A CN 201710297067A CN 106971175 A CN106971175 A CN 106971175A
- Authority
- CN
- China
- Prior art keywords
- network
- scene
- memory
- layer
- objects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 238000012886 linear function Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 239000003086 colorant Substances 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000005055 memory storage Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 abstract 1
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000004075 alteration Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明中提出的一种在纠缠场景表示中发现物体及其关系的方法,其主要内容包括:关系网络模型、多层网络感知器、自定义数据集、容量增益关系网络,其过程为,首先定量描述物体及其特征属性,将其信息平行地输入到两个卷积神经网络,然后将其输出经过批量正态分布层和线性函数层,再缩减一半的维度输入到容量增益网络得到读写操作,然后计算各外部记忆槽中向量的余弦距离,来衡量物体相互之间的关系。本发明可以提取图像更深层的表示形式,通过差分编码器的编码与解码,将信息的属性描述得更加全面,从而可以得到物体之间更清晰的对比关系。
Description
技术领域
本发明涉及图像内容识别领域,尤其是涉及了一种在纠缠场景表示中发现物体及其关系的方法。
背景技术
在二维图像中,记录了静态物体相互之间的关系,如厨房的照片会有菜刀,床上的照片会有枕头等,这些信息极大地帮助人工智能自主认识并学习到人类时间某些物体之间具有较强的联系,同时在日益增多的媒体介质中,人力劳动并不能完全识别所有图像,因此,教会人工智能如何联系图像内容分析纠缠场景中物体相互关系,显得非常重要。在社会应用和经济效益方面同样具有重大的潜力,如交通事故中伤者与车辆的数量关系、人群高聚集地的逃生路线、乃至日常购物的时尚搭配、家居装潢等都有实用的场景。
但如何让人工智能学会自主识别内容,仍然是一个很有挑战性的问题。由于二维图像的清晰度、像素的相互关系、及场景的单一化都有可能导致机器学习无法进入收敛,同时现实中不存在相应的数量较大的数据库进行训练,需要自行添加相关要素或标签。此外,自主识别的内容无法让人工智能理解其含义或者地位,从而即便得到消息不能直接使用其信息获取下一步的指示,仍然需要人力进行监督。
本发明提出了一种基于容量增益关系网络的新框架。使用固定描述接口语言定量描述物体及其特征属性,将其信息平行地输入到两个卷积神经网络并将其输出经过批量正态分布层和线性函数层,再缩减一半的维度输入到容量增益网络得到读写操作,然后计算各外部记忆槽中向量的余弦距离,来衡量物体相互之间的关系。本发明可以提取图像更深层的表示形式,通过差分编码器的编码与解码,将信息的属性描述得更加全面,从而可以得到物体之间更清晰的对比关系。
发明内容
针对解决在二维图像纠缠场景物体之间相互关系的问题,本发明的目的在于提供一种在纠缠场景表示中发现物体及其关系的方法,提出了一种基于容量增益关系网络的新框架。
为解决上述问题,本发明提供一种在纠缠场景表示中发现物体及其关系的方法,其主要内容包括:
(一)关系网络模型;
(二)多层网络感知器;
(三)自定义数据集;
(四)容量增益关系网络。
其中,所述的关系网络模型,包括场景定量描述和模型实施。
进一步地,所述的场景定量描述,假设在纠缠场景中存在一个物体i,该物体具有n种特征属性,例如物体类型、颜色、尺寸、位置等信息,则其可以被表示为:
其中,若总共具有m个物体,则可用m×n维矩阵D表示;
据公式(1),场景是完全抽象的,场景由堆砌的物体所定义,物体由组成的特征属性所定义。
进一步地,所述的模型实施,该模型自身关系的发掘基于先验知识的特定因式分解,有:
其中,gψ是带有参数的因式分解函数,此时,有:
其中,f为返回预测关系的函数。
进一步地,所述的多层网络感知器,根据公式(2)(3)直接作用于特征属性,多层网络感知器直接作用于物体本身,即:
其中,进一步地,在一组相互有交集联系的物体中,其关系必然会存在于场景内容中,因此需要在交叉属性中进行计算以遍历这些交集:
即函数g可能作用于成对的物体上。
进一步地,所述的自定义数据集,对于具有位置关系的场景,根节点坐标首先被在一个有界空间中被随机选出;接着,子目标被随机安排到特定的父目标,具***置可由父坐标来得到:
其中,θp是父目标计算角度;对于根节点d=d0+d1是计算得到的长度,d0是最短距离,d1是从半正态分布中得到的采样距离,最终,场景定量描述可由16行矩阵组成来描述位置、颜色、尺寸和形状四种类型,每种类型占用4行。
进一步地,所述的容量增益关系网络,包括差分自动编码器、容量增益神经元和训练参数。
进一步地,所述的差分自动编码器,对于像素级别的潜在表现形式,使用卷积神经网络作为特征的编码器,而使用反卷积网络作为解码器,具体地:
(1)卷积神经网络分为两个单元块,两个单元块分别平行输入四维卷积数据流,其卷积核大小分别为1×1,3×3,5×5,7×7;这些经过卷积核的输出经过一个批量正态分布层和修正线性层,然后将数据流合并;
(2)合并的数据流经过3×3卷积核的下采样,将其维度缩减一半,再经过一次批量正态分布层和修正线性层;
(3)所有卷积神经网络都连续包含上述层,当输入图像的尺寸是32×32时,特征图的尺寸即为8×8,反卷积神经网络除了将反卷积核代替卷积核之外,其他层次的设置均不变;
(4)卷积神经网络编码器最终的输出接着通过线性函数层得到x,将其分解为μ和σ,再添加一个辅助高斯噪声变量∈以接近真实情景,即z=μ+∈σ;紧接着,z反馈到一个线性函数层,从而投影到更高维度的空间D。
进一步地,所述的容量增益神经元,挖掘场景描述中的隐含联系,关系网络模型是作为容量增益神经网络的预处理,具体地,容量增益神经网络的核心模块包含一个控制器,即长短语义记忆网络,外部记忆储存由一系列记忆槽组成,每个槽都包含记忆容量;在读入过程,该网络接收一个输入并且生成一个质询向量,用记忆槽中的向量的余弦距离来质询外部记忆容量,在写入过程中,该网络输出一个利用最近使用的记忆访问机制来写入记忆槽的容量。
进一步地,所述的训练参数,关系网络模型关于fφ和gψ的大小是{200,200}、{500,500}、{1000,1000}或者{200,200,200},同时用相同的网络大小训练了多层网络感知器;对于gψ,最稳健的输出大小为100,200或者500,而对于使用长短语义记忆网络的差分自动编码器,网络大小为200,记忆槽数为128,记忆容量为40,读写头数量为4;其中,卷积神经网络的学习率为0.0004,训练样本为每种类5000张;批量正态分布的处理每批数量为100张。
附图说明
图1是本发明一种基于在纠缠场景表示中发现物体及其关系的方法的***流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于在纠缠场景表示中发现物体及其关系的方法的***流程图。主要包括关系网络模型;多层网络感知器;自定义数据集;容量增益关系网络。
其中,所述的关系网络模型,包括场景定量描述和模型实施。
所述的场景定量描述,假设在纠缠场景中存在一个物体i,该物体具有n种特征属性,例如物体类型、颜色、尺寸、位置等信息,则其可以被表示为:
其中,若总共具有m个物体,则可用m×n维矩阵D表示;
据公式(1),场景是完全抽象的,场景由堆砌的物体所定义,物体由组成的特征属性所定义。
所述的模型实施,该模型自身关系的发掘基于先验知识的特定因式分解,有:
其中,gψ是带有参数的因式分解函数,此时,有:
其中,f为返回预测关系的函数。
所述的多层网络感知器,根据公式(2)(3)直接作用于特征属性,多层网络感知器直接作用于物体本身,即:
其中,进一步地,在一组相互有交集联系的物体中,其关系必然会存在于场景内容中,因此需要在交叉属性中进行计算以遍历这些交集:
即函数g可能作用于成对的物体上。
所述的自定义数据集,对于具有位置关系的场景,根节点坐标首先被在一个有界空间中被随机选出;接着,子目标被随机安排到特定的父目标,具***置可由父坐标来得到:
其中,θp是父目标计算角度;对于根节点d=d0+d1是计算得到的长度,d0是最短距离,d1是从半正态分布中得到的采样距离,最终,场景定量描述可由16行矩阵组成来描述位置、颜色、尺寸和形状四种类型,每种类型占用4行。
所述的容量增益关系网络,包括差分自动编码器、容量增益神经元和训练参数。
所述的差分自动编码器,对于像素级别的潜在表现形式,使用卷积神经网络作为特征的编码器,而使用反卷积网络作为解码器,具体地:
(1)卷积神经网络分为两个单元块,两个单元块分别平行输入四维卷积数据流,其卷积核大小分别为1×1,3×3,5×5,7×7;这些经过卷积核的输出经过一个批量正态分布层和修正线性层,然后将数据流合并;
(2)合并的数据流经过3×3卷积核的下采样,将其维度缩减一半,再经过一次批量正态分布层和修正线性层;
(3)所有卷积神经网络都连续包含上述层,当输入图像的尺寸是32×32时,特征图的尺寸即为8×8,反卷积神经网络除了将反卷积核代替卷积核之外,其他层次的设置均不变;
(4)卷积神经网络编码器最终的输出接着通过线性函数层得到x,将其分解为μ和σ,再添加一个辅助高斯噪声变量∈以接近真实情景,即z=μ+∈σ;紧接着,z反馈到一个线性函数层,从而投影到更高维度的空间D。
所述的容量增益神经元,挖掘场景描述中的隐含联系,关系网络模型是作为容量增益神经网络的预处理,具体地,容量增益神经网络的核心模块包含一个控制器,即长短语义记忆网络,外部记忆储存由一系列记忆槽组成,每个槽都包含记忆容量;在读入过程,该网络接收一个输入并且生成一个质询向量,用记忆槽中的向量的余弦距离来质询外部记忆容量,在写入过程中,该网络输出一个利用最近使用的记忆访问机制来写入记忆槽的容量。
所述的训练参数,关系网络模型关于fφ和gψ的大小是{200,200}、{500,500}、{1000,1000}或者{200,200,200},同时用相同的网络大小训练了多层网络感知器;对于gψ,最稳健的输出大小为100,200或者500,而对于使用长短语义记忆网络的差分自动编码器,网络大小为200,记忆槽数为128,记忆容量为40,读写头数量为4;其中,卷积神经网络的学习率为0.0004,训练样本为每种类5000张;批量正态分布的处理每批数量为100张。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种在纠缠场景表示中发现物体及其关系的方法,主要包括关系网络模型(一);多层网络感知器(二);自定义数据集(三);容量增益关系网络(四)。
2.基于权利要求书1所述的关系网络模型(一),其特征在于,包括场景定量描述和模型实施。
3.基于权利要求书2所述的场景定量描述,其特征在于,假设在纠缠场景中存在一个物体i,该物体具有n种特征属性,例如物体类型、颜色、尺寸、位置等信息,则其可以被表示为:
其中,若总共具有m个物体,则可用m×n维矩阵D表示;
据公式(1),场景是完全抽象的,场景由堆砌的物体所定义,物体由组成的特征属性所定义。
4.基于权利要求书2所述的模型实施,其特征在于,该模型自身关系的发掘基于先验知识的特定因式分解,有:
其中,gψ是带有参数的因式分解函数,此时,有:
其中,f为返回预测关系的函数。
5.基于权利要求书1所述的多层网络感知器,其特征在于,根据公式(2)(3)直接作用于特征属性,多层网络感知器直接作用于物体本身,即:
其中,进一步地,在一组相互有交集联系的物体中,其关系必然会存在于场景内容中,因此需要在交叉属性中进行计算以遍历这些交集:
即函数g可能作用于成对的物体上。
6.基于权利要求书1所述的自定义数据集,其特征在于,对于具有位置关系的场景,根节点坐标首先被在一个有界空间中被随机选出;接着,子目标被随机安排到特定的父目标,具***置可由父坐标来得到:
其中,θp是父目标计算角度;对于根节点d=d0+d1是计算得到的长度,d0是最短距离,d1是从半正态分布中得到的采样距离,最终,场景定量描述可由16行矩阵组成来描述位置、颜色、尺寸和形状四种类型,每种类型占用4行。
7.基于权利要求书1所述的容量增益关系网络,其特征在于,包括差分自动编码器、容量增益神经元和训练参数。
8.基于权利要求书7所述的差分自动编码器,其特征在于,对于像素级别的潜在表现形式,使用卷积神经网络作为特征的编码器,而使用反卷积网络作为解码器,具体地:
(1)卷积神经网络分为两个单元块,两个单元块分别平行输入四维卷积数据流,其卷积核大小分别为1×1,3×3,5×5,7×7;这些经过卷积核的输出经过一个批量正态分布层和修正线性层,然后将数据流合并;
(2)合并的数据流经过3×3卷积核的下采样,将其维度缩减一半,再经过一次批量正态分布层和修正线性层;
(3)所有卷积神经网络都连续包含上述层,当输入图像的尺寸是32×32时,特征图的尺寸即为8×8,反卷积神经网络除了将反卷积核代替卷积核之外,其他层次的设置均不变;
(4)卷积神经网络编码器最终的输出接着通过线性函数层得到x,将其分解为μ和σ,再添加一个辅助高斯噪声变量∈以接近真实情景,即z=μ+∈σ;紧接着,z反馈到一个线性函数层,从而投影到更高维度的空间D。
9.基于权利要求书7所述的容量增益神经元,其特征在于,挖掘场景描述中的隐含联系,关系网络模型是作为容量增益神经网络的预处理,具体地,容量增益神经网络的核心模块包含一个控制器,即长短语义记忆网络,外部记忆储存由一系列记忆槽组成,每个槽都包含记忆容量;在读入过程,该网络接收一个输入并且生成一个质询向量,用记忆槽中的向量的余弦距离来质询外部记忆容量,在写入过程中,该网络输出一个利用最近使用的记忆访问机制来写入记忆槽的容量。
10.基于权利要求书7所述的训练参数,其特征在于,关系网络模型关于fφ和gψ的大小是{200,200}、{500,500}、{1000,1000}或者{200,200,200},同时用相同的网络大小训练了多层网络感知器;对于gψ,最稳健的输出大小为100,200或者500,而对于使用长短语义记忆网络的差分自动编码器,网络大小为200,记忆槽数为128,记忆容量为40,读写头数量为4;其中,卷积神经网络的学习率为0.0004,训练样本为每种类5000张;批量正态分布的处理每批数量为100张。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710297067.XA CN106971175A (zh) | 2017-04-28 | 2017-04-28 | 一种在纠缠场景表示中发现物体及其关系的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710297067.XA CN106971175A (zh) | 2017-04-28 | 2017-04-28 | 一种在纠缠场景表示中发现物体及其关系的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106971175A true CN106971175A (zh) | 2017-07-21 |
Family
ID=59331682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710297067.XA Withdrawn CN106971175A (zh) | 2017-04-28 | 2017-04-28 | 一种在纠缠场景表示中发现物体及其关系的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106971175A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471959A (zh) * | 2018-06-15 | 2019-03-15 | 中山大学 | 基于图推理模型的图像中人物社会关系辨识方法及*** |
CN111414484A (zh) * | 2020-03-04 | 2020-07-14 | 科大讯飞(苏州)科技有限公司 | 有效时段信息确定方法、装置、电子设备和存储介质 |
-
2017
- 2017-04-28 CN CN201710297067.XA patent/CN106971175A/zh not_active Withdrawn
Non-Patent Citations (1)
Title |
---|
D. RAPOSO等: "DISCOVERING OBJECTS AND THEIR RELATIONS FROM ENTANGLED SCENE REPRESENTATIONS", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1702.05068》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471959A (zh) * | 2018-06-15 | 2019-03-15 | 中山大学 | 基于图推理模型的图像中人物社会关系辨识方法及*** |
CN109471959B (zh) * | 2018-06-15 | 2022-06-14 | 中山大学 | 基于图推理模型的图像中人物社会关系辨识方法及*** |
CN111414484A (zh) * | 2020-03-04 | 2020-07-14 | 科大讯飞(苏州)科技有限公司 | 有效时段信息确定方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gupta et al. | Salient object detection techniques in computer vision—A survey | |
Wang et al. | Detect globally, refine locally: A novel approach to saliency detection | |
Fong et al. | Net2vec: Quantifying and explaining how concepts are encoded by filters in deep neural networks | |
Manap et al. | Non-distortion-specific no-reference image quality assessment: A survey | |
Dang et al. | Deep learning based computer generated face identification using convolutional neural network | |
US9633282B2 (en) | Cross-trained convolutional neural networks using multimodal images | |
Altenberger et al. | A non-technical survey on deep convolutional neural network architectures | |
US20180336683A1 (en) | Multi-Label Semantic Boundary Detection System | |
US11983903B2 (en) | Processing images using self-attention based neural networks | |
CN104008538A (zh) | 基于单张图像超分辨率方法 | |
CN107977661A (zh) | 基于全卷积神经网络与低秩稀疏分解的感兴趣区域检测方法 | |
WO2021164280A1 (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
CN110210297A (zh) | 报关单图像中文字定位与提取的方法 | |
CN107967480A (zh) | 一种基于标签语义的显著对象提取方法 | |
CN112686258A (zh) | 体检报告信息结构化方法、装置、可读存储介质和终端 | |
Pintelas et al. | A multi-view-CNN framework for deep representation learning in image classification | |
Li et al. | Double low rank matrix recovery for saliency fusion | |
CN113240033B (zh) | 一种基于场景图高阶语义结构的视觉关系检测方法及装置 | |
Hong et al. | Hypernet-ensemble learning of segmentation probability for medical image segmentation with ambiguous labels | |
CN106971175A (zh) | 一种在纠缠场景表示中发现物体及其关系的方法 | |
US12046062B2 (en) | Intelligent visual reasoning over graphical illustrations using a MAC unit | |
He et al. | Classification of metro facilities with deep neural networks | |
CN111143544B (zh) | 一种基于神经网络的柱形图信息提取方法及装置 | |
CN117037136A (zh) | 场景文本识别方法、***、设备及存储介质 | |
CN110222778B (zh) | 基于深度森林的在线多视角分类方法、***、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20170721 |