CN111209802A

CN111209802A - 一种图形焦点转移的机器人视觉图像场景解析方法

Info

Publication number: CN111209802A
Application number: CN201911347564.1A
Authority: CN
Inventors: 何再兴; 蒋俊杰; 赵昕玥; 张树有; 谭建荣
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-29
Anticipated expiration: 2039-12-24
Also published as: CN111209802B

Abstract

本发明公开了一种图形焦点转移的机器人视觉图像场景解析方法。机器人在已知应用环境下工作，机器人通过自身安装的摄像头拍摄采集当前环境场景下的单目图像；单目图像中，以人或者物为目标，标注出人或者物的类型、边界框以及成对目标间的交互关系作为标签，由单目图像和标签构建数据集；搭建模型，训练模型；采用训练好的模型针对待测环境场景处理获得目标的类型、边界框以及成对目标的交互关系，绘制场景图。本发明解决了机器人视觉中图像语义关系识别率低下的问题，使图像网络学习的焦点从低价值关系转移到涵盖全局信息的语义关系上，加强了图像中解析的归属关系与空间关系的识别效果。

Description

一种图形焦点转移的机器人视觉图像场景解析方法

技术领域

本发明涉及了属于机器人视觉场景理解领域的一种机器人视觉图像处理方法，尤其是涉及了一种图形焦点转移的机器人视觉图像场景解析方法。

背景技术

视觉场景理解是机器人执行后续任务指令的基础。场景图解析任务使用一种结构化的图形来帮助机器人理解所处环境。场景图包含当前场景中的目标以及成对目标之间的交互关系。根据形成机理，这些交互关系可以进一步归纳为三种高级类型，即语义关系、归属关系与空间关系。其中语义关系包含对整体场景的全局理解，具有较高价值且类型数目是最多的，但在每个场景中的实例是极少的。归属关系与空间关系频繁地在各种场景中出现，但常常包含局部且有限的场景信息。

目前的方法为了提升场景中各关系实例的总识别率，将模型训练的焦点放在正确识别少数频繁出现的归属关系与空间关系上，使得现有检测器在实际使用过程中无法识别大多数语义关系类型。采用现有方法解析出的场景图难以帮助机器人理解场景中人与物体的实际交互行为，只能用于指导静态场景的抓取等简单任务。此外，为了节约检测成本，现有检测器的输入是二维的单目图像，而直接在二维的输入图像上预测三维空间的相对位置关系是缺乏鲁棒性的。

发明内容

为了解决和克服现有技术的不足，本发明提出了一种图形焦点转移的机器人视觉图像场景解析方法，通过构造一种图形聚焦损失使图像检测增加对语义关系的注意力，提出相对深度编码模块与区域布局编码模块引入结构化的三维空间信息作为推断依据，进一步加强图像中解析的归属关系与空间关系的识别效果。

本发明离线地构建数据集训练焦点转移网络，在线地应用训练完成的网络进行场景图解析。为了实现这一目的，本发明采用的技术方案步骤如下：

第一步，机器人在已知应用环境下工作，应用环境例如室外运输、室内服务、工业辅助等。机器人通过自身安装的摄像头拍摄采集当前环境场景下的单目图像；

第二步，单目图像中，以人或者物为目标，标注出人或者物的类型、边界框以及成对目标间的交互关系作为标签，成对目标包含两个目标，由单目图像和标签构建数据集；即将每一对目标的交互信息解析为三元组的形式而建立数据集。

第三步，将数据库划分为训练集和验证集；

第四步，搭建模型，用训练集训练模型的参数，验证集进行超参数调试；

第五步，采用训练好的模型针对待测环境场景处理获得目标的类型、边界框以及成对目标的交互关系，并以目标为节点，以目标间的交互关系作为节点之间的边，绘制场景图，作为图形，完成机器人视觉图像的场景解析。

所述的交互关系信息包含语义关系、归属关系与空间关系；

语义关系是指一目标对另一目标的操作信息，例如分为“使用”、“握住”、“骑”、“走在”、“走进”、“携带”、“吃”、“躺在”、“停在”、“坐在”、“站在”、“观看”、“挂在”、“铺设”、“长在”、“涂上”、“玩”、“说”、“盯”。

归属关系是指一目标归属于另一目标的情况信息，例如分为“属于”、“穿着”、“具有”、“部分”、“制成”、“来源”。

空间关系是指一目标和另一目标的相对位置信息，例如分为“在上方”、“在后方”、“在下方”、“穿过”、“连接”、“在里面”、“在中间”、“在上空”、“在前面”、“在旁边”、“覆盖”、“平行”。

所述步骤四中，所述的模型分为依次进行的两阶段：

第一阶段采用Faster R-CNN网络，通过Faster R-CNN网络获取目标类型概率分布和各个可能目标的边界框，并以目标类型概率分布为粗分类结果；

第二阶段采用焦点转移网络，获取目标的类别结果与目标间的交互关系的分类结果。

所述的焦点转移网络包含相对深度编码、区域布局编码与上下文编码三个模块。

上下文编码模块包括目标上下文编码子模块、关系上下文编码子模块和LSTM解码子模块；标准对象检测器Faster R-CNN网络输出边界框集合

目标类型概率分布li和目标的颜色特征向量

后输入到上下文编码子模块，上下文编码子模块中将边界框集合BI中各个目标的边界框

按所有边界框在图像从左到右的位置顺序组建成一个线性序列，然后使用带高速连接的堆叠双向长短期记忆网络(BiLSTM)计算获得目标的上下文信息ci；上下文信息ci输入到LSTM解码子模块经处理并映射获得优化后的目标类型概率分布

和单个目标的类别特征ai，将单个目标的类别特征ai输入到关系上下文编码子模块；具体实施中将优化后的目标类型概率分布

转换为独热编码o_i再输入到关系上下文编码子模块中。

相对深度编码模块采用标准对象检测器Faster R-CNN，其中将最后一层的全连接层替换为全局平均池化层，将原始的单目图像转化为相对深度图输入到标准对象检测器Faster R-CNN中，结合第一阶段Faster R-CNN网络输出的边界框集合

处理获得目标的深度特征向量，再输入到关系上下文编码子模块；

具体实施中，使用识别野外图像深度感知方法对原始单目图像I中预测相对深度图I^D。

区域布局编码模块中，以每两个边界框作为一对，采用以下方式获得每对边界框的一阶参数和二阶参数；区域布局编码模块的输入是成对ROI边界区域，此模块编码了成对边界框的一阶相对布局与二阶相对布局。

一阶相对布局参数，为两个目标的边界框之间的相对位置与一阶比例尺度、两个目标边界框整体的最小包围边界框分别和两个目标边界框之间的相对位置与一阶比例尺度，相对位置为两个框的中心之间的坐标差值，采用以下公式获得：

其中，Δ(B_i,B_j)¹表示第一个和第二个边界框之间的一阶相对布局参数B_i、B_j分别表示第一个和第二个边界框，x_i、x_j分别表示两个边界框的中心的横坐标，y_i、y_j分别表示两个边界框的中心的纵坐标，w_i、w_j分别表示两个边界框的宽度，h_i、h_j分别表示两个边界框的高度，i＝s、o、u,j＝s、o、u,i≠j,s、o、u分别表示第一个目标边界框、第二个目标边界框和两个目标边界框整体的最小包围边界框。

具体实施中，一阶参数共12个，编码一阶相对位置与比例尺度，分为三组Δ(B_o,B_s)¹,Δ(B_o,B_u)¹,Δ(B_s,B_u)¹。

二阶相对布局参数，为两个边界框之间的二阶比例尺度与空间覆盖信息，采用以下公式获得：

其中，

和

表示一对边界区域的重叠面积与总面积；Δ(B_o,B_s)²表示两个目标边界框之间的二阶相对布局参数，B_o、B_s分别表示第一个目标边界框和第二个目标边界框，w_ow_s w_u分别表示第一个目标边界框、第二个目标边界框和两个边界框整体的最小包围边界框的宽度，h_o h_s h_u分别表示第一个目标边界框、第二个目标边界框和两个边界框整体的最小包围边界框的高度

分别表示两个目标边界框取交集部分的面积和两个目标边界框取并集部分的面积。

关系上下文编码子模块结合类别特征ai和深度特征向量处理获得关系上下文信息di，利用关系上下文信息di和区域布局编码模块获得的一阶参数、二阶参数相拼接再线性变换映射获得综合关系上下文

作为目标关系概率分布；

最后根据优化后的目标类型概率分布

和目标关系概率分布建立图形聚焦损失GFL来训练焦点转移网络，训练中针对每个目标进行处理。

所述的图形聚焦损失GFL包括关系聚焦损失EFL与节点聚焦损失NFL两部分，关系聚焦损失EFL(p_e)如下：

EFL(p_e)＝-α_e(1-p_e)²log(p_e)

其中，p_e表示一对目标间的交互关系的概率，α_e表示一对目标间的交互关系的权重，n^e表示一对目标间的交互关系的种类出现的数量，n^eg表示所有对目标间的交互关系的总数；

上述公式中，通过权重来调节训练损失的大小，增大场景图像中出现次数少的交互关系的训练损失，减少频繁出现的交互关系的训练损失，使得图形焦点转移到出现次数最少的语义关系上。

节点聚焦损失NFL(p_o)如下：

NFL(p_o)＝-β_o log(p_o)

其中，p_o表示目标的真实类别的概率，β_o表示目标的真实类别的权重，n^o表示目标的真实类别出现的数量，

表示图像中与目标相邻的其他目标的总数；α_i,j表示第i个目标和第j个目标之间的交互关系的权重；

图形聚焦损失GFL采用以下公式由关系聚焦损失EFL(p_e)和节点聚焦损失NFL(p_o)权重相加，具体公式如下：

其中，λ表示为控制比例权重，e和o分别代表了交互关系和目标。

图形聚焦损失GFL中两个子损失之间通过一个超参数权重λ控制比例。λ由模型通过验证集调试得到，默认先设为1。

所述的机器人具体为装备单目相机的移动式机器人。

本发明先通过收集移动机器人服务场景下的二维图像，并对图像中所有的目标与成对目标间的语义关系、归属关系、空间关系进行标注，构建一个用于训练模型的样本集，然后使用图形聚焦损失对焦点转移网络参数进行训练，训练所得的网络架构可用于均衡地识别服务场景下的各类型交互关系。

本发明的有益效果是：

本发明解决了机器人通过单目视觉理解场景图像时语义关系识别率低下导致的现有方法无法有效解析场景中主要交互信息的问题，使网络学习的焦点从较低价值的归属关系和空间转移到涵盖全局信息的语义关系上，从而生成更全面的结构化场景图。采用深度相机等三维检查设备可以更精准地提取场景信息，然而会造成机器人产品高昂的成本。本发明提出的模型对单目视觉设备引入深度信息辅助场景解析，提升精度的同时节约了应用成本。利用相对深度编码模块与区域布局编码模块将有效的三维信息引入模型作为推断依据，进一步加强图像中解析的归属关系与空间关系的识别效果。本发明方法通过构建机器人领域场景图数据集，并采用图形聚焦损失训练焦点转移网络，提升了机器人对场景中的语义关系、归属关系与空间关系的理解。通过对目标检测任务与关系识别任务联合训练中的损失比例的调节，使网络将学习的焦点转移到具有极少实例的语义关系类型上。

此外将三维的空间信息与结构化的布局信息引入到二维图像的场景图解析中进一步提升了识别效果。此发明克服了先前的检测器仅能识别部分低价值的归属关系与空间关系的缺陷，提升了类型数量多且价值更高的语义关系的识别效果。

附图说明

图1是本发明方法的流程图。

图2是本发明使用的焦点转移网络示意图。

图3是本发明使用的图形聚焦损失示意图。

图4是本发明使用的图形聚焦损失示例图。

具体实施方式

以下结合附图对本发明作进一步的详细描述。

如图1所示，本发明采用的技术方案步骤如下：

第二步，单目图像中，以人或者物为目标，标注出人或者物的类型、边界框以及成对目标间的交互关系作为标签，由单目图像和标签构建数据集；即将每一对目标的交互信息解析为三元组的形式而建立数据集。

如图2所示，具体实施的交互关系信息包含语义关系、归属关系与空间关系；

归属关系是指一目标归属于另一目标的情况信息，例如分为“属于”、“穿着的”、“具有”、“部分”、“制成”、“来源”。

第三步，将数据库划分为训练集和验证集；

第四步，搭建模型，用训练集训练模型的参数，验证集进行超参数调试，分为两个阶段；

焦点转移网络包含相对深度编码、区域布局编码与上下文编码三个模块；

上下文编码模块包括目标上下文编码子模块、关系上下文编码子模块和LSTM解码子模块；Faster R-CNN网络输出边界框集合

目标类型概率分布li和目标的颜色特征向量

转换为独热编码o_i再输入到关系上下文编码子模块中。

作为目标关系概率分布；

最后根据优化后的目标类型概率分布

如图3所示，关系聚焦损失EFL(p_e)如下处理：

EFL(p_e)＝-α_e(1-p_e)²log(p_e)

节点聚焦损失NFL(p_o)如下处理：

NFL(p_o)＝-β_o log(p_o)

由关系聚焦损失EFL(p_e)和节点聚焦损失NFL(p_o)权重相加获得图形聚焦损失GFL。

如图4所示，通过示例，描述了图形聚焦损失GFL中的权重α_e与β_o的计算方法以及对模型识别率的调控作用。示例中的图像主要描绘了一个男人坐在长凳的场景。在对应的场景图中，总关系数为10，语义关系“坐在”仅出现了一次，而归属关系“穿着”出现了三次，空间关系“在旁边”也出现了三次。频繁出现的归属关系与空间关系使模型容易通过多次训练掌握这些低价值交互关系，而难以识别具有高价值的语义关系。计算关系“坐在”的损失权重α_坐在时，n^坐在＝1，n^eg＝10，α_坐在＝12.63，而计算关系“穿着”的损失权重α_穿着时，n^穿着＝1，n^eg＝10，α_穿着＝6.84。图形聚焦损失GFL使高价值的关系“坐在”的损失权重远高于“穿着”等关系来提升识别率。此外，在示例场景中，目标“长凳”和“男人”的识别准确率与目标间关系“坐在”的识别准确率高度关联。以“长凳”为例，计算目标权重β_长凳时，场景中共两个长凳类型目标，n^长凳＝2。与“长凳1”相邻共4个关系，

与“长凳2”相邻共3个关系，

将与“长凳1”和“长凳2”相邻的关系损失权重相加并计算得β_长凳＝2.81。而包含少量场景整体信息的路灯与花丛的目标损失权重分别为β_路灯＝2.17，β_花丛＝1.90。因此模型在解析示例场景时，对于“男人-坐在-长凳”三元组的平均识别准确率将更高。

在模型的训练中，为了减轻梯度***现象，我们在训练过程中使用了梯度裁剪，并将裁剪范数设置为5。使用带动量的梯度下降法进行优化求解，并设置学习率为6·10-3，批处理量为5，并且使用非极大抑制策略对边界框进行筛选。

Claims

1.一种图形焦点转移的机器人视觉图像场景解析方法，其特征在于该方法步骤如下：

第一步，机器人在已知应用环境下工作，机器人通过自身安装的摄像头拍摄采集当前环境场景下的单目图像；

第二步，单目图像中，以人或者物为目标，标注出人或者物的类型、边界框以及成对目标间的交互关系作为标签，由单目图像和标签构建数据集；

第三步，将数据库划分为训练集和验证集；

第五步，采用训练好的模型针对待测环境场景处理获得目标的类型、边界框以及成对目标的交互关系，并以目标为节点，以目标间的交互关系作为节点之间的边，绘制场景图，完成机器人视觉图像的场景解析。

2.根据权利要求1所述的一种图形焦点转移的机器人视觉图像场景解析方法，其特征在于：所述步骤四中，所述的模型分为依次进行的两阶段：

第一阶段采用Faster R-CNN网络，通过Faster R-CNN网络获取目标类型概率分布和边界框，并以目标类型概率分布为粗分类结果；

3.根据权利要求2所述的一种图形焦点转移的机器人视觉图像场景解析方法，其特征在于：所述的焦点转移网络包含相对深度编码、区域布局编码与上下文编码三个模块；

目标类型概率分布li和目标的颜色特征向量f_i ^ROI后输入到上下文编码子模块，上下文编码子模块中将边界框集合BI中各个目标的边界框

和单个目标的类别特征ai，将单个目标的类别特征ai输入到关系上下文编码子模块；

相对深度编码模块采用标准对象检测器Faster R-CNN，其中将最后一层的全连接层替换为全局平均池化层，将单目图像转化为相对深度图输入到标准对象检测器Faster R-CNN中，结合第一阶段Faster R-CNN网络输出的边界框集合

区域布局编码模块中，以每两个边界框作为一对，采用以下方式获得每对边界框的一阶参数和二阶参数；

一阶相对布局参数，为两个目标的边界框之间的相对位置与一阶比例尺度、两个目标边界框整体的最小包围边界框分别和两个目标边界框之间的相对位置与一阶比例尺度，采用以下公式获得：

其中，Δ(B_i,B_j)¹表示第一个和第二个边界框之间的一阶相对布局参数B_i、B_j分别表示第一个和第二个边界框，x_i、x_j分别表示两个边界框的中心的横坐标，y_i、y_j分别表示两个边界框的中心的纵坐标，w_i、w_j分别表示两个边界框的宽度，h_i、h_j分别表示两个边界框的高度，i＝s、o、u,j＝s、o、u,i≠j,s、o、u分别表示第一个目标边界框、第二个目标边界框和两个目标边界框整体的最小包围边界框；

其中，

和

表示一对边界区域的重叠面积与总面积；Δ(B_o,B_s)²表示两个目标边界框之间的二阶相对布局参数，B_o、B_s分别表示第一个目标边界框和第二个目标边界框，w_o w_s w_u分别表示第一个目标边界框、第二个目标边界框和两个边界框整体的最小包围边界框的宽度，h_o h_s h_u分别表示第一个目标边界框、第二个目标边界框和两个边界框整体的最小包围边界框的高度

分别表示两个目标边界框取交集部分的面积和两个目标边界框取并集部分的面积；

作为目标关系概率分布；

最后根据优化后的目标类型概率分布

4.根据权利要求3所述的一种图形焦点转移的机器人视觉图像场景解析方法，其特征在于：所述的图形聚焦损失GFL包括关系聚焦损失EFL与节点聚焦损失NFL两部分，关系聚焦损失EFL(p_e)如下：

EFL(p_e)＝-α_e(1-p_e)²log(p_e)

节点聚焦损失NFL(p_o)如下：

NFL(p_o)＝-β_o log(p_o)

其中，λ表示为控制比例权重。

5.根据权利要求1所述的一种图形焦点转移的机器人视觉图像场景解析方法，其特征在于：所述的机器人具体为装备单目相机的移动式机器人。