CN111209802A - 一种图形焦点转移的机器人视觉图像场景解析方法 - Google Patents

一种图形焦点转移的机器人视觉图像场景解析方法 Download PDF

Info

Publication number
CN111209802A
CN111209802A CN201911347564.1A CN201911347564A CN111209802A CN 111209802 A CN111209802 A CN 111209802A CN 201911347564 A CN201911347564 A CN 201911347564A CN 111209802 A CN111209802 A CN 111209802A
Authority
CN
China
Prior art keywords
target
relation
representing
targets
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911347564.1A
Other languages
English (en)
Other versions
CN111209802B (zh
Inventor
何再兴
蒋俊杰
赵昕玥
张树有
谭建荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911347564.1A priority Critical patent/CN111209802B/zh
Publication of CN111209802A publication Critical patent/CN111209802A/zh
Application granted granted Critical
Publication of CN111209802B publication Critical patent/CN111209802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图形焦点转移的机器人视觉图像场景解析方法。机器人在已知应用环境下工作,机器人通过自身安装的摄像头拍摄采集当前环境场景下的单目图像;单目图像中,以人或者物为目标,标注出人或者物的类型、边界框以及成对目标间的交互关系作为标签,由单目图像和标签构建数据集;搭建模型,训练模型;采用训练好的模型针对待测环境场景处理获得目标的类型、边界框以及成对目标的交互关系,绘制场景图。本发明解决了机器人视觉中图像语义关系识别率低下的问题,使图像网络学习的焦点从低价值关系转移到涵盖全局信息的语义关系上,加强了图像中解析的归属关系与空间关系的识别效果。

Description

一种图形焦点转移的机器人视觉图像场景解析方法
技术领域
本发明涉及了属于机器人视觉场景理解领域的一种机器人视觉图像处理方法,尤其是涉及了一种图形焦点转移的机器人视觉图像场景解析方法。
背景技术
视觉场景理解是机器人执行后续任务指令的基础。场景图解析任务使用一种结构化的图形来帮助机器人理解所处环境。场景图包含当前场景中的目标以及成对目标之间的交互关系。根据形成机理,这些交互关系可以进一步归纳为三种高级类型,即语义关系、归属关系与空间关系。其中语义关系包含对整体场景的全局理解,具有较高价值且类型数目是最多的,但在每个场景中的实例是极少的。归属关系与空间关系频繁地在各种场景中出现,但常常包含局部且有限的场景信息。
目前的方法为了提升场景中各关系实例的总识别率,将模型训练的焦点放在正确识别少数频繁出现的归属关系与空间关系上,使得现有检测器在实际使用过程中无法识别大多数语义关系类型。采用现有方法解析出的场景图难以帮助机器人理解场景中人与物体的实际交互行为,只能用于指导静态场景的抓取等简单任务。此外,为了节约检测成本,现有检测器的输入是二维的单目图像,而直接在二维的输入图像上预测三维空间的相对位置关系是缺乏鲁棒性的。
发明内容
为了解决和克服现有技术的不足,本发明提出了一种图形焦点转移的机器人视觉图像场景解析方法,通过构造一种图形聚焦损失使图像检测增加对语义关系的注意力,提出相对深度编码模块与区域布局编码模块引入结构化的三维空间信息作为推断依据,进一步加强图像中解析的归属关系与空间关系的识别效果。
本发明离线地构建数据集训练焦点转移网络,在线地应用训练完成的网络进行场景图解析。为了实现这一目的,本发明采用的技术方案步骤如下:
第一步,机器人在已知应用环境下工作,应用环境例如室外运输、室内服务、工业辅助等。机器人通过自身安装的摄像头拍摄采集当前环境场景下的单目图像;
第二步,单目图像中,以人或者物为目标,标注出人或者物的类型、边界框以及成对目标间的交互关系作为标签,成对目标包含两个目标,由单目图像和标签构建数据集;即将每一对目标的交互信息解析为三元组的形式而建立数据集。
第三步,将数据库划分为训练集和验证集;
第四步,搭建模型,用训练集训练模型的参数,验证集进行超参数调试;
第五步,采用训练好的模型针对待测环境场景处理获得目标的类型、边界框以及成对目标的交互关系,并以目标为节点,以目标间的交互关系作为节点之间的边,绘制场景图,作为图形,完成机器人视觉图像的场景解析。
所述的交互关系信息包含语义关系、归属关系与空间关系;
语义关系是指一目标对另一目标的操作信息,例如分为“使用”、“握住”、“骑”、“走在”、“走进”、“携带”、“吃”、“躺在”、“停在”、“坐在”、“站在”、“观看”、“挂在”、“铺设”、“长在”、“涂上”、“玩”、“说”、“盯”。
归属关系是指一目标归属于另一目标的情况信息,例如分为“属于”、“穿着”、“具有”、“部分”、“制成”、“来源”。
空间关系是指一目标和另一目标的相对位置信息,例如分为“在上方”、“在后方”、“在下方”、“穿过”、“连接”、“在里面”、“在中间”、“在上空”、“在前面”、“在旁边”、“覆盖”、“平行”。
所述步骤四中,所述的模型分为依次进行的两阶段:
第一阶段采用Faster R-CNN网络,通过Faster R-CNN网络获取目标类型概率分布和各个可能目标的边界框,并以目标类型概率分布为粗分类结果;
第二阶段采用焦点转移网络,获取目标的类别结果与目标间的交互关系的分类结果。
所述的焦点转移网络包含相对深度编码、区域布局编码与上下文编码三个模块。
上下文编码模块包括目标上下文编码子模块、关系上下文编码子模块和LSTM解码子模块;标准对象检测器Faster R-CNN网络输出边界框集合
Figure BDA0002333818400000023
目标类型概率分布li和目标的颜色特征向量
Figure BDA0002333818400000021
后输入到上下文编码子模块,上下文编码子模块中将边界框集合BI中各个目标的边界框
Figure BDA0002333818400000022
按所有边界框在图像从左到右的位置顺序组建成一个线性序列,然后使用带高速连接的堆叠双向长短期记忆网络(BiLSTM)计算获得目标的上下文信息ci;上下文信息ci输入到LSTM解码子模块经处理并映射获得优化后的目标类型概率分布
Figure BDA0002333818400000024
和单个目标的类别特征ai,将单个目标的类别特征ai输入到关系上下文编码子模块;具体实施中将优化后的目标类型概率分布
Figure BDA0002333818400000035
转换为独热编码oi再输入到关系上下文编码子模块中。
相对深度编码模块采用标准对象检测器Faster R-CNN,其中将最后一层的全连接层替换为全局平均池化层,将原始的单目图像转化为相对深度图输入到标准对象检测器Faster R-CNN中,结合第一阶段Faster R-CNN网络输出的边界框集合
Figure BDA0002333818400000036
处理获得目标的深度特征向量,再输入到关系上下文编码子模块;
具体实施中,使用识别野外图像深度感知方法对原始单目图像I中预测相对深度图ID
区域布局编码模块中,以每两个边界框作为一对,采用以下方式获得每对边界框的一阶参数和二阶参数;区域布局编码模块的输入是成对ROI边界区域,此模块编码了成对边界框的一阶相对布局与二阶相对布局。
一阶相对布局参数,为两个目标的边界框之间的相对位置与一阶比例尺度、两个目标边界框整体的最小包围边界框分别和两个目标边界框之间的相对位置与一阶比例尺度,相对位置为两个框的中心之间的坐标差值,采用以下公式获得:
Figure BDA0002333818400000031
其中,Δ(Bi,Bj)1表示第一个和第二个边界框之间的一阶相对布局参数Bi、Bj分别表示第一个和第二个边界框,xi、xj分别表示两个边界框的中心的横坐标,yi、yj分别表示两个边界框的中心的纵坐标,wi、wj分别表示两个边界框的宽度,hi、hj分别表示两个边界框的高度,i=s、o、u,j=s、o、u,i≠j,s、o、u分别表示第一个目标边界框、第二个目标边界框和两个目标边界框整体的最小包围边界框。
具体实施中,一阶参数共12个,编码一阶相对位置与比例尺度,分为三组Δ(Bo,Bs)1,Δ(Bo,Bu)1,Δ(Bs,Bu)1
二阶相对布局参数,为两个边界框之间的二阶比例尺度与空间覆盖信息,采用以下公式获得:
Figure BDA0002333818400000032
其中,
Figure BDA0002333818400000033
Figure BDA0002333818400000034
表示一对边界区域的重叠面积与总面积;Δ(Bo,Bs)2表示两个目标边界框之间的二阶相对布局参数,Bo、Bs分别表示第一个目标边界框和第二个目标边界框,wows wu分别表示第一个目标边界框、第二个目标边界框和两个边界框整体的最小包围边界框的宽度,ho hs hu分别表示第一个目标边界框、第二个目标边界框和两个边界框整体的最小包围边界框的高度
Figure BDA0002333818400000041
分别表示两个目标边界框取交集部分的面积和两个目标边界框取并集部分的面积。
关系上下文编码子模块结合类别特征ai和深度特征向量处理获得关系上下文信息di,利用关系上下文信息di和区域布局编码模块获得的一阶参数、二阶参数相拼接再线性变换映射获得综合关系上下文
Figure BDA0002333818400000042
作为目标关系概率分布;
最后根据优化后的目标类型概率分布
Figure BDA0002333818400000043
和目标关系概率分布建立图形聚焦损失GFL来训练焦点转移网络,训练中针对每个目标进行处理。
所述的图形聚焦损失GFL包括关系聚焦损失EFL与节点聚焦损失NFL两部分,关系聚焦损失EFL(pe)如下:
EFL(pe)=-αe(1-pe)2log(pe)
Figure BDA0002333818400000044
其中,pe表示一对目标间的交互关系的概率,αe表示一对目标间的交互关系的权重,ne表示一对目标间的交互关系的种类出现的数量,neg表示所有对目标间的交互关系的总数;
上述公式中,通过权重来调节训练损失的大小,增大场景图像中出现次数少的交互关系的训练损失,减少频繁出现的交互关系的训练损失,使得图形焦点转移到出现次数最少的语义关系上。
节点聚焦损失NFL(po)如下:
NFL(po)=-βo log(po)
Figure BDA0002333818400000045
其中,po表示目标的真实类别的概率,βo表示目标的真实类别的权重,no表示目标的真实类别出现的数量,
Figure BDA0002333818400000046
表示图像中与目标相邻的其他目标的总数;αi,j表示第i个目标和第j个目标之间的交互关系的权重;
图形聚焦损失GFL采用以下公式由关系聚焦损失EFL(pe)和节点聚焦损失NFL(po)权重相加,具体公式如下:
Figure BDA0002333818400000047
其中,λ表示为控制比例权重,e和o分别代表了交互关系和目标。
图形聚焦损失GFL中两个子损失之间通过一个超参数权重λ控制比例。λ由模型通过验证集调试得到,默认先设为1。
所述的机器人具体为装备单目相机的移动式机器人。
本发明先通过收集移动机器人服务场景下的二维图像,并对图像中所有的目标与成对目标间的语义关系、归属关系、空间关系进行标注,构建一个用于训练模型的样本集,然后使用图形聚焦损失对焦点转移网络参数进行训练,训练所得的网络架构可用于均衡地识别服务场景下的各类型交互关系。
本发明的有益效果是:
本发明解决了机器人通过单目视觉理解场景图像时语义关系识别率低下导致的现有方法无法有效解析场景中主要交互信息的问题,使网络学习的焦点从较低价值的归属关系和空间转移到涵盖全局信息的语义关系上,从而生成更全面的结构化场景图。采用深度相机等三维检查设备可以更精准地提取场景信息,然而会造成机器人产品高昂的成本。本发明提出的模型对单目视觉设备引入深度信息辅助场景解析,提升精度的同时节约了应用成本。利用相对深度编码模块与区域布局编码模块将有效的三维信息引入模型作为推断依据,进一步加强图像中解析的归属关系与空间关系的识别效果。本发明方法通过构建机器人领域场景图数据集,并采用图形聚焦损失训练焦点转移网络,提升了机器人对场景中的语义关系、归属关系与空间关系的理解。通过对目标检测任务与关系识别任务联合训练中的损失比例的调节,使网络将学习的焦点转移到具有极少实例的语义关系类型上。
此外将三维的空间信息与结构化的布局信息引入到二维图像的场景图解析中进一步提升了识别效果。此发明克服了先前的检测器仅能识别部分低价值的归属关系与空间关系的缺陷,提升了类型数量多且价值更高的语义关系的识别效果。
附图说明
图1是本发明方法的流程图。
图2是本发明使用的焦点转移网络示意图。
图3是本发明使用的图形聚焦损失示意图。
图4是本发明使用的图形聚焦损失示例图。
具体实施方式
以下结合附图对本发明作进一步的详细描述。
如图1所示,本发明采用的技术方案步骤如下:
第一步,机器人在已知应用环境下工作,应用环境例如室外运输、室内服务、工业辅助等。机器人通过自身安装的摄像头拍摄采集当前环境场景下的单目图像;
第二步,单目图像中,以人或者物为目标,标注出人或者物的类型、边界框以及成对目标间的交互关系作为标签,由单目图像和标签构建数据集;即将每一对目标的交互信息解析为三元组的形式而建立数据集。
如图2所示,具体实施的交互关系信息包含语义关系、归属关系与空间关系;
语义关系是指一目标对另一目标的操作信息,例如分为“使用”、“握住”、“骑”、“走在”、“走进”、“携带”、“吃”、“躺在”、“停在”、“坐在”、“站在”、“观看”、“挂在”、“铺设”、“长在”、“涂上”、“玩”、“说”、“盯”。
归属关系是指一目标归属于另一目标的情况信息,例如分为“属于”、“穿着的”、“具有”、“部分”、“制成”、“来源”。
空间关系是指一目标和另一目标的相对位置信息,例如分为“在上方”、“在后方”、“在下方”、“穿过”、“连接”、“在里面”、“在中间”、“在上空”、“在前面”、“在旁边”、“覆盖”、“平行”。
第三步,将数据库划分为训练集和验证集;
第四步,搭建模型,用训练集训练模型的参数,验证集进行超参数调试,分为两个阶段;
第一阶段采用Faster R-CNN网络,通过Faster R-CNN网络获取目标类型概率分布和各个可能目标的边界框,并以目标类型概率分布为粗分类结果;
第二阶段采用焦点转移网络,获取目标的类别结果与目标间的交互关系的分类结果。
焦点转移网络包含相对深度编码、区域布局编码与上下文编码三个模块;
上下文编码模块包括目标上下文编码子模块、关系上下文编码子模块和LSTM解码子模块;Faster R-CNN网络输出边界框集合
Figure BDA0002333818400000061
目标类型概率分布li和目标的颜色特征向量
Figure BDA0002333818400000062
后输入到上下文编码子模块,上下文编码子模块中将边界框集合BI中各个目标的边界框
Figure BDA0002333818400000063
按所有边界框在图像从左到右的位置顺序组建成一个线性序列,然后使用带高速连接的堆叠双向长短期记忆网络(BiLSTM)计算获得目标的上下文信息ci;上下文信息ci输入到LSTM解码子模块经处理并映射获得优化后的目标类型概率分布
Figure BDA0002333818400000064
和单个目标的类别特征ai,将单个目标的类别特征ai输入到关系上下文编码子模块;具体实施中将优化后的目标类型概率分布
Figure BDA0002333818400000076
转换为独热编码oi再输入到关系上下文编码子模块中。
相对深度编码模块采用标准对象检测器Faster R-CNN,其中将最后一层的全连接层替换为全局平均池化层,将原始的单目图像转化为相对深度图输入到标准对象检测器Faster R-CNN中,结合第一阶段Faster R-CNN网络输出的边界框集合
Figure BDA0002333818400000071
处理获得目标的深度特征向量,再输入到关系上下文编码子模块;
具体实施中,使用识别野外图像深度感知方法对原始单目图像I中预测相对深度图ID
区域布局编码模块中,以每两个边界框作为一对,采用以下方式获得每对边界框的一阶参数和二阶参数;区域布局编码模块的输入是成对ROI边界区域,此模块编码了成对边界框的一阶相对布局与二阶相对布局。
关系上下文编码子模块结合类别特征ai和深度特征向量处理获得关系上下文信息di,利用关系上下文信息di和区域布局编码模块获得的一阶参数、二阶参数相拼接再线性变换映射获得综合关系上下文
Figure BDA0002333818400000072
作为目标关系概率分布;
最后根据优化后的目标类型概率分布
Figure BDA0002333818400000073
和目标关系概率分布建立图形聚焦损失GFL来训练焦点转移网络,训练中针对每个目标进行处理。
如图3所示,关系聚焦损失EFL(pe)如下处理:
EFL(pe)=-αe(1-pe)2log(pe)
Figure BDA0002333818400000074
节点聚焦损失NFL(po)如下处理:
NFL(po)=-βo log(po)
Figure BDA0002333818400000075
由关系聚焦损失EFL(pe)和节点聚焦损失NFL(po)权重相加获得图形聚焦损失GFL。
如图4所示,通过示例,描述了图形聚焦损失GFL中的权重αe与βo的计算方法以及对模型识别率的调控作用。示例中的图像主要描绘了一个男人坐在长凳的场景。在对应的场景图中,总关系数为10,语义关系“坐在”仅出现了一次,而归属关系“穿着”出现了三次,空间关系“在旁边”也出现了三次。频繁出现的归属关系与空间关系使模型容易通过多次训练掌握这些低价值交互关系,而难以识别具有高价值的语义关系。计算关系“坐在”的损失权重α坐在时,n坐在=1,neg=10,α坐在=12.63,而计算关系“穿着”的损失权重α穿着时,n穿着=1,neg=10,α穿着=6.84。图形聚焦损失GFL使高价值的关系“坐在”的损失权重远高于“穿着”等关系来提升识别率。此外,在示例场景中,目标“长凳”和“男人”的识别准确率与目标间关系“坐在”的识别准确率高度关联。以“长凳”为例,计算目标权重β长凳时,场景中共两个长凳类型目标,n长凳=2。与“长凳1”相邻共4个关系,
Figure BDA0002333818400000082
与“长凳2”相邻共3个关系,
Figure BDA0002333818400000081
将与“长凳1”和“长凳2”相邻的关系损失权重相加并计算得β长凳=2.81。而包含少量场景整体信息的路灯与花丛的目标损失权重分别为β路灯=2.17,β花丛=1.90。因此模型在解析示例场景时,对于“男人-坐在-长凳”三元组的平均识别准确率将更高。
第五步,采用训练好的模型针对待测环境场景处理获得目标的类型、边界框以及成对目标的交互关系,并以目标为节点,以目标间的交互关系作为节点之间的边,绘制场景图,作为图形,完成机器人视觉图像的场景解析。
在模型的训练中,为了减轻梯度***现象,我们在训练过程中使用了梯度裁剪,并将裁剪范数设置为5。使用带动量的梯度下降法进行优化求解,并设置学习率为6·10-3,批处理量为5,并且使用非极大抑制策略对边界框进行筛选。

Claims (5)

1.一种图形焦点转移的机器人视觉图像场景解析方法,其特征在于该方法步骤如下:
第一步,机器人在已知应用环境下工作,机器人通过自身安装的摄像头拍摄采集当前环境场景下的单目图像;
第二步,单目图像中,以人或者物为目标,标注出人或者物的类型、边界框以及成对目标间的交互关系作为标签,由单目图像和标签构建数据集;
第三步,将数据库划分为训练集和验证集;
第四步,搭建模型,用训练集训练模型的参数,验证集进行超参数调试;
第五步,采用训练好的模型针对待测环境场景处理获得目标的类型、边界框以及成对目标的交互关系,并以目标为节点,以目标间的交互关系作为节点之间的边,绘制场景图,完成机器人视觉图像的场景解析。
2.根据权利要求1所述的一种图形焦点转移的机器人视觉图像场景解析方法,其特征在于:所述步骤四中,所述的模型分为依次进行的两阶段:
第一阶段采用Faster R-CNN网络,通过Faster R-CNN网络获取目标类型概率分布和边界框,并以目标类型概率分布为粗分类结果;
第二阶段采用焦点转移网络,获取目标的类别结果与目标间的交互关系的分类结果。
3.根据权利要求2所述的一种图形焦点转移的机器人视觉图像场景解析方法,其特征在于:所述的焦点转移网络包含相对深度编码、区域布局编码与上下文编码三个模块;
上下文编码模块包括目标上下文编码子模块、关系上下文编码子模块和LSTM解码子模块;Faster R-CNN网络输出边界框集合
Figure FDA0002333818390000011
目标类型概率分布li和目标的颜色特征向量fi ROI后输入到上下文编码子模块,上下文编码子模块中将边界框集合BI中各个目标的边界框
Figure FDA0002333818390000012
按所有边界框在图像从左到右的位置顺序组建成一个线性序列,然后使用带高速连接的堆叠双向长短期记忆网络(BiLSTM)计算获得目标的上下文信息ci;上下文信息ci输入到LSTM解码子模块经处理并映射获得优化后的目标类型概率分布
Figure FDA0002333818390000013
和单个目标的类别特征ai,将单个目标的类别特征ai输入到关系上下文编码子模块;
相对深度编码模块采用标准对象检测器Faster R-CNN,其中将最后一层的全连接层替换为全局平均池化层,将单目图像转化为相对深度图输入到标准对象检测器Faster R-CNN中,结合第一阶段Faster R-CNN网络输出的边界框集合
Figure FDA0002333818390000021
处理获得目标的深度特征向量,再输入到关系上下文编码子模块;
区域布局编码模块中,以每两个边界框作为一对,采用以下方式获得每对边界框的一阶参数和二阶参数;
一阶相对布局参数,为两个目标的边界框之间的相对位置与一阶比例尺度、两个目标边界框整体的最小包围边界框分别和两个目标边界框之间的相对位置与一阶比例尺度,采用以下公式获得:
Figure FDA0002333818390000022
其中,Δ(Bi,Bj)1表示第一个和第二个边界框之间的一阶相对布局参数Bi、Bj分别表示第一个和第二个边界框,xi、xj分别表示两个边界框的中心的横坐标,yi、yj分别表示两个边界框的中心的纵坐标,wi、wj分别表示两个边界框的宽度,hi、hj分别表示两个边界框的高度,i=s、o、u,j=s、o、u,i≠j,s、o、u分别表示第一个目标边界框、第二个目标边界框和两个目标边界框整体的最小包围边界框;
二阶相对布局参数,为两个边界框之间的二阶比例尺度与空间覆盖信息,采用以下公式获得:
Figure FDA0002333818390000023
其中,
Figure FDA0002333818390000024
Figure FDA0002333818390000025
表示一对边界区域的重叠面积与总面积;Δ(Bo,Bs)2表示两个目标边界框之间的二阶相对布局参数,Bo、Bs分别表示第一个目标边界框和第二个目标边界框,wo ws wu分别表示第一个目标边界框、第二个目标边界框和两个边界框整体的最小包围边界框的宽度,ho hs hu分别表示第一个目标边界框、第二个目标边界框和两个边界框整体的最小包围边界框的高度
Figure FDA0002333818390000026
分别表示两个目标边界框取交集部分的面积和两个目标边界框取并集部分的面积;
关系上下文编码子模块结合类别特征ai和深度特征向量处理获得关系上下文信息di,利用关系上下文信息di和区域布局编码模块获得的一阶参数、二阶参数相拼接再线性变换映射获得综合关系上下文
Figure FDA0002333818390000027
作为目标关系概率分布;
最后根据优化后的目标类型概率分布
Figure FDA0002333818390000028
和目标关系概率分布建立图形聚焦损失GFL来训练焦点转移网络,训练中针对每个目标进行处理。
4.根据权利要求3所述的一种图形焦点转移的机器人视觉图像场景解析方法,其特征在于:所述的图形聚焦损失GFL包括关系聚焦损失EFL与节点聚焦损失NFL两部分,关系聚焦损失EFL(pe)如下:
EFL(pe)=-αe(1-pe)2log(pe)
Figure FDA0002333818390000031
其中,pe表示一对目标间的交互关系的概率,αe表示一对目标间的交互关系的权重,ne表示一对目标间的交互关系的种类出现的数量,neg表示所有对目标间的交互关系的总数;
节点聚焦损失NFL(po)如下:
NFL(po)=-βo log(po)
Figure FDA0002333818390000032
其中,po表示目标的真实类别的概率,βo表示目标的真实类别的权重,no表示目标的真实类别出现的数量,
Figure FDA0002333818390000033
表示图像中与目标相邻的其他目标的总数;αi,j表示第i个目标和第j个目标之间的交互关系的权重;
图形聚焦损失GFL采用以下公式由关系聚焦损失EFL(pe)和节点聚焦损失NFL(po)权重相加,具体公式如下:
Figure FDA0002333818390000034
其中,λ表示为控制比例权重。
5.根据权利要求1所述的一种图形焦点转移的机器人视觉图像场景解析方法,其特征在于:所述的机器人具体为装备单目相机的移动式机器人。
CN201911347564.1A 2019-12-24 2019-12-24 一种图形焦点转移的机器人视觉图像场景解析方法 Active CN111209802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911347564.1A CN111209802B (zh) 2019-12-24 2019-12-24 一种图形焦点转移的机器人视觉图像场景解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911347564.1A CN111209802B (zh) 2019-12-24 2019-12-24 一种图形焦点转移的机器人视觉图像场景解析方法

Publications (2)

Publication Number Publication Date
CN111209802A true CN111209802A (zh) 2020-05-29
CN111209802B CN111209802B (zh) 2022-07-22

Family

ID=70785503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911347564.1A Active CN111209802B (zh) 2019-12-24 2019-12-24 一种图形焦点转移的机器人视觉图像场景解析方法

Country Status (1)

Country Link
CN (1) CN111209802B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822919A (zh) * 2021-11-24 2021-12-21 中国海洋大学 基于语义信息约束的水下图像相对深度估计方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567731A (zh) * 2011-12-06 2012-07-11 北京航空航天大学 一种感兴趣区域提取方法
CN109711258A (zh) * 2018-11-27 2019-05-03 哈尔滨工业大学(深圳) 基于卷积网络的轻量级人脸关键点检测方法、***及存储介质
US20190318822A1 (en) * 2018-04-13 2019-10-17 International Business Machines Corporation Deep image classification of medical images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567731A (zh) * 2011-12-06 2012-07-11 北京航空航天大学 一种感兴趣区域提取方法
US20190318822A1 (en) * 2018-04-13 2019-10-17 International Business Machines Corporation Deep image classification of medical images
CN109711258A (zh) * 2018-11-27 2019-05-03 哈尔滨工业大学(深圳) 基于卷积网络的轻量级人脸关键点检测方法、***及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S. ADITYA ,ET AL.: "Image understanding us- ing vision and reasoning through scene description graph", 《COMPUT. VIS. IMAGE UNDERST》 *
张翰博 等: "基于视觉推理的机器人多物体堆叠场景抓取方法", 《中国科学:技术科学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822919A (zh) * 2021-11-24 2021-12-21 中国海洋大学 基于语义信息约束的水下图像相对深度估计方法

Also Published As

Publication number Publication date
CN111209802B (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN111259940B (zh) 一种基于空间注意力地图的目标检测方法
CN112990116B (zh) 基于多注意力机制融合的行为识别装置、方法和存储介质
CN111080645A (zh) 基于生成式对抗网络的遥感图像半监督语义分割方法
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及***
CN108052881A (zh) 一种实时检测施工现场图像中多类实体对象的方法及设备
CN111368634B (zh) 基于神经网络的人头检测方法、***及存储介质
CN112464718B (zh) 一种基于YOLO-Terse网络的目标检测方法及存储介质
CN116229452B (zh) 一种基于改进的多尺度特征融合的点云三维目标检测方法
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及***
CN113313703A (zh) 基于深度学习图像识别的无人机输电线巡检方法
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN113822284A (zh) 一种基于边界注意力的rgbd图像语义分割方法
CN112242002B (zh) 基于深度学习的物体识别和全景漫游方法
CN115661505A (zh) 一种语义感知的图像阴影检测方法
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN113781519A (zh) 目标跟踪方法和目标跟踪装置
CN110310305A (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN116385660A (zh) 室内单视图场景语义重建方法及***
CN114707604A (zh) 一种基于时空注意力机制的孪生网络跟踪***及方法
CN111209802B (zh) 一种图形焦点转移的机器人视觉图像场景解析方法
CN114662605A (zh) 基于改进的YOLOv5模型的火焰检测方法
CN117765258A (zh) 基于密度自适应和注意力机制的大规模点云语义分割方法
CN116994206A (zh) 基于多元数据融合的室内人员计数方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant