CN113516158B

CN113516158B - 基于Faster R-CNN的图模型构建方法

Info

Publication number: CN113516158B
Application number: CN202110406043.XA
Authority: CN
Inventors: 金海燕; 闫智慧; 肖照林; 孙钦东
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2024-04-16
Anticipated expiration: 2041-04-15
Also published as: CN113516158A

Abstract

本发明公开了一种基于Faster R‑CNN的图模型构建方法，具体为：步骤1，将目标图像送入已经训练好的基于Faster R‑CNN的目标检测网络模型中，输出目标图像中各个目标对应的检测框；步骤2，根据设定的阈值对目标检测框进行筛选，去掉冗余的目标检测框；步骤3，给目标检测框分配唯一的标签；步骤4，将图像的目标划分为主要目标和次要目标，然后对次要目标构建目标树；步骤5，确定两个物体之间的相对位置关系；步骤6、根据目标树以及目标之间的位置关系构建图像的图模型。本发明的基于FasterR‑CNN的图模型构建方法，建立出的图模型能有效的表示出各个目标在目标图像中的空间布局和语义联系。

Description

基于Faster R-CNN的图模型构建方法

技术领域

本发明属于计算机数字图像处理技术领域，涉及一种基于Faster R-CNN的图模型构建方法。

背景技术

在当今飞速发展的信息时代，数字图像作为一种常见且有效的信息载体已渗透到社会生活的每一个角落，致使我们对图像处理的需求也日益增长。

在数字图像处理方向上，基于深度学习的目标检测算法是重要的研究内容之一，在医疗,智能家居和交通等不同领域有着巨大的应用。基于深度学习的图像处理算法与传统的图像处理算法相比，可以在复杂的环境下,提取更深层次的人物特征,提高算法鲁棒性和识别准确性。

目前，已有的构建图模型方法，往往利用深度学习对目标图像中的物体进行识别，但是现有的深度学习目标识别算法只能够检测出图形中物体的类别与位置，并不能得到图像中各个物体之间的空间相对位置关系，从而不能很好的构建出图像的图模型。

发明内容

本发明的目的是提供一种基于Faster R-CNN的图模型构建方法，建立出的图模型能有效的表示出各个目标在目标图像中的空间布局和语义联系。

本发明所采用的技术方案是，基于Faster R-CNN的图模型构建方法，具体按照如下步骤实施：

步骤1，将目标图像送入已经训练好的基于Faster R-CNN的目标检测网络模型中，输出目标图像中各个目标对应的检测框；

步骤2，根据设定的阈值对目标检测框进行筛选，去掉冗余的目标检测框；

步骤3，给去冗余后的目标检测框分配唯一的标签；

步骤4，根据经验设定阈值，将图像的目标划分为主要目标和次要目标，然后对次要目标构建目标树；

步骤5，通过任意两个次要目标重心之间的连线与竖轴的顺时针的夹角对检测框进行解析处理，得到目标图像中任意两个物体之间的相对位置关系，然后，计算目标图像中任意两个目标重心之间的距离，最后根据物体之间的距离、各个物体的重心得到任意两个物体之间的相对位置关系；

步骤6、根据目标树以及目标之间的位置关系构建图像的图模型。

基于Faster R-CNN的目标检测网络模型对目标图像进行检测的过程为：假设目标图像中共有n个物体，通过基于Faster R-CNN的目标检测网络模型进行目标检测之后输出目标图像中n个物体对应的目标检测框box和每个目标检测框对应的类别，将类别相同的目标检测框归为一类，将n个物体对应的目标检测框放入一个集合中，其中m表示目标图像中目标检测框的总数量，集合/>中的元素表示为：{box₁,box₂,...,box_m}，其中box_i表示检测出的第i个目标检测框，输出的box_i是一个四维几何坐标(x_i,y_i,w_i,h_i)，其中x_i表示当前目标检测框的重心坐标点的x轴坐标值，y_i表示当前目标检测框的重心坐标点的y轴坐标值，w_i表示当前目标检测框的宽度，h_i表示当前目标检测框的高度。

步骤2具体为：

步骤2.1，根据box_i的宽度和高度计算出每一个目标检测框的面积，记为area_i，将所有目标检测框的面积放到一个集合S_area，集合S_area表示为：{area₁,area₂,...,area_m}，根据目标检测框的面积大小对集合S_area进行降序排序；

步骤2.2，计算目标图像中第t个类的第i个目标检测框的面积和第j个目标检测框的面积的交集与第t个类的第i个目标检测框的面积的比值，比值记为如果/>的值大于θ_a，将第t个类的第j个目标检测框去除，直到处理完该类的所有目标检测框，将剩余的目标检测框放入集合/>中，其中，θ_a为根据经验设定的阈值；

步骤2.3，重复步骤2.2的过程依次对所有的类进行处理，直到处理完所有的类，将所有类的目标检测框集合放入一个新集合中，集合/>表示为：/>其中n表示目标图像中物体的种类数，m_t表示经过步骤2去除冗余框之后剩余的目标检测框的数量。

步骤3具体为：

步骤3.1，将目标图像I均匀的分为9个区域，分割区域的集合为表示为：其中/>表示分割的第c个区域，图像的分割区域的顺序如下面的矩阵所示；

步骤3.2，根据矩阵中索引c的顺序依次处理每一个分割区域，对于每一个分割区域进行以下处理：计算出集合中每个目标检测框的重心坐标/>与当前分割区域的左上角坐标点的欧式距离/>

其中，表示这个分割区域的左上角坐标点的x轴坐标值，/>表示这个分割区域的左上角坐标点的y轴坐标值，/>为集合/>中每个检测框的重心坐标的x轴坐标值，为集合/>中每个检测框的重心坐标的y轴坐标值；

然后按照上面求得的欧式距离对每个分割区域的目标检测框进行升序排序，对第t个类的每一个目标检测框分配唯一的编号；

步骤3.3，按照步骤3.2的过程依次处理每一个类，并完成目标检测框的编号，至此，数据预处理就完成了。

步骤4具体为：

计算每个目标检测框的面积与整个图像的面积的比值

其中，area_i表示第i个目标检测框的面积，area_I表示当前目标图像的面积；

根据经验设定阈值θ_c，如果的值大于θ_c，将这个目标划分为主要目标，反之，划分为次要目标；

将主要目标的目标检测框放入一个集合中，记为集合次要目标的目标检测框放入另一个集合中，记为集合/>定义/>表示当前目标图像需要构建的目标树的集合：

其中，表示由次要目标构建的第n_t颗目标树，n_t表示构建的目标树的数量，/>表示第n_t颗目标树中目标检测框的数量；

对次要目标构建目标树具体为：

步骤4.1，首先根据经验设定阈值θ_t，从次要目标检测框集合中选择目标检测框面积最大的目标检测框作为第一棵目标树/>的根节点，然后依次计算次要目标检测框集合/>中剩余目标检测框的面积和当前根节点的目标检测框的面积的交集与当前根节点的目标检测框的面积的比值，记为/>如果/>的值大于阈值θ_t，则将目标检测框划分到目标检测框集合中，反之，划分到其它目标树集合中；

步骤4.2，按照目标检测框集合中目标检测框的面积的大小进行降序排序，从集合中选择面积最大的目标检测框作为当前根节点的第一个孩子节点，按照第一步的方法依次对/>目标检测框集合进行处理，直到完成第一棵目标树/>的构建；

步骤4.3，重复步骤4.1和步骤4.2的操作，依次完成剩余目标树的构建。

步骤5具体为：

首先目标图像中第i个目标检测框的重心是(x_i,y_i)，第j个目标检测框的重心是(x_j,y_j)，计算两个目标检测框的重心之间的x轴坐标的差值和y轴坐标的差值，分别记为和/>

第i个目标检测框的重心与第j个目标检测框的重心的连线与竖轴之间顺时针的夹角为

定义一个变量

则将目标图像分为八种情况，根据八种情况计算

情况一：等于0，/>大于0，/>情况二：/>大于0，/>大于0，/>情况三：/>大于0，/>等于0，/>情况四：/>大于0，/>小于0，/>情况五：等于0，/>小于0，/>情况六：/>小于0，/>小于0，/>情况七：/>小于0，/>等于0，/>情况八：/>小于0，/>大于0，/>

根据的大小进行位置判断：

当第i个目标检测框的重心与第j个目标检测框的重心的连线与竖轴之间顺时针的夹角落在区间[330,360]和区间[0,30]的时候，记为第j个目标检测框在第i个目标检测框的上方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[30，60]的时候，记为第j个目标检测框在第i个目标检测框的右上方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[60，120]的时候，记为第j个目标检测框在第i个目标检测框的右方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[120，150]的时候，记为第j个目标检测框在第i个目标检测框的右下方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[150，210]的时候，记为第j个目标检测框在第i个目标检测框的下方；当重心的连线与竖轴之间顺时针的夹角为/>落在区间[210，240]的时候，记为第j个目标检测框在第i个目标检测框的左下方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[240，300]的时候，记为第j个目标检测框在第i个目标检测框的左方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[300，330]的时候，记为第j个目标检测框在第i个目标检测框的左上方，最后给每一个区域赋予一个颜色，来表示第j个目标检测框和第i个目标检测框的相对位置信息。

步骤6具体为：

将每一棵目标树的根节点的重心作为当前目标图像的图模型的节点的位置信息，将所有节点的集合定义记为

其中，m_g表示图模型的节点数量，N_i表示构建的图模型的第i个节点；定义，m_e表示构建的图模型的边的数量：

m_e＝m_g*(m_g-1)/2 (9)

使用步骤5中计算的目标间相对位置关系表示图模型的节点之间的边的相对位置属性信息，然后，计算两个节点之间的欧氏距离表示两个节点之间的距离。

本发明的有益效果是：

本发明基于Faster R-CNN的图模型构建方法通过Faster R-CNN的图模型对每幅图像中的不同类别进行检测，通过对次要目标构建目标树的方法以及构建目标图像场景位置关系的图模型，能够准确描述目标图像中各个目标之间的空间相对位置关系，更好的表示出各个目标在目标图像中的空间布局和语义联系。

附图说明

图1是本发明一种基于Faster R-CNN的图模型构建方法的总体结构示意图；

图2是一种基于Faster R-CNN的图模型构建方法的实例中带有目标检测框的目标图像；

图3是一种基于Faster R-CNN的图模型构建方法中对目标检测框进行编号后的图像；

图4是一种基于Faster R-CNN的图模型构建方法的实例中构建的目标树；

图5是一种基于Faster R-CNN的图模型构建方法中用到的物体间相对位置关系的图形化表示；

图6是一种基于Faster R-CNN的图模型构建方法构建的图模型。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1所示，本发明实施例包括：

一种基于Faster R-CNN的图模型构建方法，包括使用经过ImageNet数据集和Visual Genome数据集一起训练的Faster R-CNN目标检测网络，对每幅图像中的不同类别进行检测。通过对次要目标构建目标树的方法以及构建目标图像场景位置关系的图模型，能够准确描述目标图像中各个目标之间的空间相对位置关系，更好的表示出各个目标在目标图像中的空间布局和语义联系。

基于Faster R-CNN的图模型构建方法，具体按照如下步骤实施：

步骤1，通过基于Faster R-CNN的目标检测网络模型进行目标检测之后输出目标图像中n个物体对应的检测框box和每个检测框对应的类别，将类别相同的检测框归为一类，将n个物体对应的检测框放入一个集合中，其中m表示目标图像中目标框的总数量，集合/>中的元素表示为：{box₁,box₂,...,box_m}，其中box_i表示检测出的第i个目标框，输出的box_i是一个四维几何坐标(x_i,y_i,w_i,h_i)，其中x_i表示当前检测框的重心坐标点的x轴坐标值，y_i表示当前检测框的重心坐标点的y轴坐标值，w_i表示当前检测框的宽度，h_i表示当前检测框的高度，如图2所示，为带有检测框的图像，如图3所示，为检测框进行唯一编号后的图像；

步骤2，经过步骤1检测出来的多个目标框可能会映射到同一个目标上，这样使得目标框存在冗余的现象，因此，步骤2作用主要是去除多余的目标框，去除冗余框可以分为三步进行：

步骤2.3，重复步骤2.2的过程依次对所有的类进行处理，直到处理完所有的类，将所有类的目标检测框集合放入一个新集合中，集合/>表示为：/>其中n表示目标图像中物体的种类数，m_t表示经过步骤2去除冗余框之后剩余的目标检测框的数量；

步骤3，因为在一幅图像中可能存在这样一种情况：多个目标属于同一个类别，人类认为这些目标是不一样的，所以需要给这些目标分配唯一的标签，表示目标之间是不相同的。所以，步骤3的目的是给经过步骤2处理的剩余目标检测框分配唯一标识的标签。给目标检测框分配标签可以分为三步实现给去冗余后的目标检测框分配唯一的标签；具体为：

步骤3.3，按照步骤3.2的过程依次处理每一个类，并完成目标检测框的编号，至此，数据预处理就完成了；

步骤4，根据经验设定阈值，将图像的目标划分为主要目标和次要目标，然后对次要目标构建目标树，如图4所示，具体为：

计算每个目标检测框的面积与整个图像的面积的比值V_I ⁱ：

根据经验设定阈值θ_c，如果V_I ⁱ的值大于θ_c，将这个目标划分为主要目标，反之，划分为次要目标；

对次要目标构建目标树具体为：

步骤4.3，重复步骤4.1和步骤4.2的操作，依次完成剩余目标树的构建；

步骤5，首先目标图像中第i个目标检测框的重心是(x_i,y_i)，第j个目标检测框的重心是(x_j,y_j)，计算两个目标检测框的重心之间的x轴坐标的差值和y轴坐标的差值，分别记为和/>

定义一个变量

则将目标图像分为八种情况，根据八种情况计算

根据的大小进行位置判断：

当第i个目标检测框的重心与第j个目标检测框的重心的连线与竖轴之间顺时针的夹角落在区间[330,360]和区间[0,30]的时候，记为第j个目标检测框在第i个目标检测框的上方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[30，60]的时候，记为第j个目标检测框在第i个目标检测框的右上方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[60，120]的时候，记为第j个目标检测框在第i个目标检测框的右方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[120，150]的时候，记为第j个目标检测框在第i个目标检测框的右下方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[150，210]的时候，记为第j个目标检测框在第i个目标检测框的下方；当重心的连线与竖轴之间顺时针的夹角为/>落在区间[210，240]的时候，记为第j个目标检测框在第i个目标检测框的左下方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[240，300]的时候，记为第j个目标检测框在第i个目标检测框的左方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[300，330]的时候，记为第j个目标检测框在第i个目标检测框的左上方，最后给每一个区域赋予一个颜色，来表示第j个目标检测框和第i个目标检测框的相对位置信息，如图5所示。

步骤6，根据目标树以及目标之间的位置关系构建图像的图模型，如图6所示，具体为：

m_e＝m_g*(m_g-1)/2 (9)

本发明对目标之间构建目标树以及利用位置解析算法表示出目标之间的相对位置关系，搭建基于Faster R-CNN的图模型构建方法，有效的表示出各目标在图像场景中的空间布局和语义联系。

Claims

1.基于Faster R-CNN的图模型构建方法，其特征在于，具体按照如下步骤实施：

步骤1，将目标图像送入已经训练好的基于Faster R-CNN的目标检测网络模型中，输出目标图像中各个目标对应的检测框；基于Faster R-CNN的目标检测网络模型对目标图像进行检测的过程为：假设目标图像中共有n个物体，通过基于Faster R-CNN的目标检测网络模型进行目标检测之后输出目标图像中n个物体对应的目标检测框box和每个目标检测框对应的类别，将类别相同的目标检测框归为一类，将n个物体对应的目标检测框放入一个集合中，其中m表示目标图像中目标检测框的总数量，集合/>中的元素表示为：，其中/>表示检测出的第i个目标检测框，输出的/>是一个四维几何坐标/>，其中/>表示当前目标检测框的重心坐标点的x轴坐标值，/>表示当前目标检测框的重心坐标点的y轴坐标值，/>表示当前目标检测框的宽度，/>表示当前目标检测框的高度；

步骤2，根据设定的阈值对目标检测框进行筛选，去掉冗余的目标检测框；具体为：

步骤2.1，根据的宽度和高度计算出每一个目标检测框的面积，记为/>，将所有目标检测框的面积放到一个集合/>，集合/>表示为：/>，根据目标检测框的面积大小对集合/>进行降序排序；

步骤2.2，计算目标图像中第t个类的第i个目标检测框的面积和第j个目标检测框的面积的交集与第t个类的第i个目标检测框的面积的比值，比值记为：

（1）

如果的值大于/>，将第t个类的第j个目标检测框去除，直到处理完该类的所有目标检测框，将剩余的目标检测框放入集合/>中，其中，/>为根据经验设定的阈值；

步骤2.3，重复步骤2.2的过程依次对所有的类进行处理，直到处理完所有的类，将所有类的目标检测框集合放入一个新集合中，集合/>表示为：/>，其中n表示目标图像中物体的种类数，/>表示经过步骤2去除冗余框之后剩余的目标检测框的数量；

步骤3，给去冗余后的目标检测框分配唯一的标签；

2.根据权利要求1所述的基于Faster R-CNN的图模型构建方法，其特征在于，所述步骤3具体为：

步骤3.1，将目标图像I均匀的分为9个区域，分割区域的集合为，/>表示为：，其中/>表示分割的第c个区域，图像的分割区域的顺序如下面的矩阵所示；

步骤3.2，根据矩阵中索引c的顺序依次处理每一个分割区域，对于每一个分割区域进行以下处理：计算出集合中每个目标检测框的重心坐标/>与当前分割区域的左上角坐标点的欧式距离/>：

（2）

其中，表示这个分割区域的左上角坐标点的x轴坐标值，/>表示这个分割区域的左上角坐标点的y轴坐标值，/>为集合/>中每个检测框的重心坐标的x轴坐标值，/>为集合中每个检测框的重心坐标的y轴坐标值；

3.根据权利要求2所述的基于Faster R-CNN的图模型构建方法，其特征在于，所述步骤4具体为：

计算每个目标检测框的面积与整个图像的面积的比值：

（3）

其中，表示第i个目标检测框的面积，/>表示当前目标图像的面积；

根据经验设定阈值，如果/>的值大于/>，将这个目标划分为主要目标，反之，划分为次要目标；

将主要目标的目标检测框放入一个集合中，记为集合，次要目标的目标检测框放入另一个集合中，记为集合/>，定义/>表示当前目标图像需要构建的目标树的集合：

（4）

其中，表示由次要目标构建的第/>棵目标树，/>表示构建的目标树的数量，/>表示第/>棵目标树中目标检测框的数量；

对次要目标构建目标树具体为：

步骤4.1，首先根据经验设定阈值，从次要目标检测框集合/>中选择目标检测框面积最大的目标检测框作为第一棵目标树/>的根节点，然后依次计算次要目标检测框集合中剩余目标检测框的面积和当前根节点的目标检测框的面积的交集与当前根节点的目标检测框的面积的比值，记为/>，如果/>的值大于阈值/>，则将目标检测框划分到/>目标检测框集合中，反之，划分到其它目标树集合中；

4.根据权利要求3所述的基于Faster R-CNN的图模型构建方法，其特征在于，所述步骤5具体为：

首先目标图像中第i个目标检测框的重心是，第j个目标检测框的重心是/>，计算两个目标检测框的重心之间的x轴坐标的差值和y轴坐标的差值，分别记为/>和/>：

（5）

（6）

第i个目标检测框的重心与第j个目标检测框的重心的连线与竖轴之间顺时针的夹角为；

定义一个变量：/>（7）

则将目标图像分为八种情况，根据八种情况计算：

情况一：等于0，/>大于0，/>=0；情况二：/>大于0，/>大于0，/>=/>；情况三：/>大于0，/>等于0，/>=90；情况四：/>大于0，/>小于0，/>；情况五：/>等于0，/>小于0，/>=180；情况六：/>小于0，/>小于0，/>；情况七：/>小于0，/>等于0，/>=270；情况八：/>小于0，/>大于0，/>；

根据的大小进行位置判断：

当第i个目标检测框的重心与第j个目标检测框的重心的连线与竖轴之间顺时针的夹角落在区间[330,360]和区间[0,30]的时候，记为第j个目标检测框在第i个目标检测框的上方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[30，60]的时候，记为第j个目标检测框在第i个目标检测框的右上方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[60，120]的时候，记为第j个目标检测框在第i个目标检测框的右方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[120，150]的时候，记为第j个目标检测框在第i个目标检测框的右下方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[150，210]的时候，记为第j个目标检测框在第i个目标检测框的下方；当重心的连线与竖轴之间顺时针的夹角为落在区间[210，240]的时候，记为第j个目标检测框在第i个目标检测框的左下方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[240，300]的时候，记为第j个目标检测框在第i个目标检测框的左方；当重心的连线与竖轴之间顺时针的夹角/>落在区间[300，330]的时候，记为第j个目标检测框在第i个目标检测框的左上方，最后给每一个区域赋予一个颜色，来表示第j个目标检测框和第i个目标检测框的相对位置信息。

5.根据权利要求4所述的基于Faster R-CNN的图模型构建方法，其特征在于，所述步骤6具体为：

将每一棵目标树的根节点的重心作为当前目标图像的图模型的节点的位置信息，将所有节点的集合定义记为：

（8）

其中，表示构建的图模型的第i个节点；

定义，表示构建的图模型的边的数量：

（9）