CN112016618A

CN112016618A - 一种用于对图像语义分割模型泛化能力的度量方法

Info

Publication number: CN112016618A
Application number: CN202010883142.2A
Authority: CN
Inventors: 方玉明; 鄢杰斌; 姜文晖; 左一帆; 钟裕
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-01

Abstract

本发明提供一种用于对图像语义分割模型泛化能力的度量方法，包括获取图像数据集，并获得待评估的图像语义分割模型在图像数据集的预测结果；选取任意两个图像语义分割模型的预测结果差异最大的图像集合，构建模型差异最大化且具代表性的样本集，其中，所选取的两个图像语义分割模型分别设置为攻击者和防守者；通过模型投票法获取样本集的语义分割标签；根据语义分割标签计算所有图像语义分割模型预测结果的准确性，并将所有图像语义分割模型预测结果转化为两两模型的攻击/防守分数矩阵，获得所有图像语义分割模型的全局泛化能力排名。本发明提出的方法能够使用较少的人力物力高效、准确的对图像语义分割模型泛化能力的进行度量。

Description

一种用于对图像语义分割模型泛化能力的度量方法

技术领域

本发明涉及计算机视觉和数字图像处理技术领域，具体的，涉及一种用于对图像语义分割模型泛化能力的度量方法。

背景技术

近年来，深度学习在图像分类、目标检测和语义分割等计算机视觉领域取得了高速的发展。然而，深度学习模型的性能依赖于数据集，不同的任务对应的公开数据集规模有较大差异，这种数据驱动的方法往往伴随着数据的过度依赖，存在极大的过拟合风险。因此，有效度量图像语义分割模型的泛化能力显得十分重要，极具实用价值和学术研究价值。

为了有效验证图像语义分割模型的泛化能力，现有技术是通过人工构建一个全新且尽可能全面覆盖自然场景的大规模数据集，这对于语义分割任务而言耗时严重且需要投入大量人力物力。相关研究表明，大部分图像语义分割模型在面临新数据的挑战时，图像语义分割模型准确度明显降低，说明参与图像语义分割模型训练的数据远远不足以涵盖整个客观视觉世界，导致图像语义分割模型表现出泛化能力差、准确度低的问题。因此，图像语义分割模型泛化性能度量是有意义的且富有挑战性的。

为此，需要提出一种能够对图像语义分割模型的泛化能力进行有效验证的方法，提出这种方法的目的在于：

(1)、以无偏的方式验证图像语义分割模型的泛化能力，针对客观视觉世界的多样性，诊断出不同的图像语义分割模型的优劣，为图像语义分割领域的发展提供潜在优化方向。

(2)、通过少量的人力物力，获得极具代表性的数据样本，可以为图像语义分割模型的训练方案进行指导，以此强化图像语义分割模型的泛化性能，有助于深度学习的图像语义分割模型的发展。

(3)、研究图像语义分割模型泛化能力评价方法，有助于进一步理解人类的视觉感知***，如视觉注意力机制等，有助于推动视觉科学的发展。

因此，有效且准确地验证图像语义分割模型的泛化能力的方法对于图像语义分割的发展乃至计算机视觉领域的发展都会有很大的促进作用。

发明内容

针对现有技术的不足，本发明提供一种用于对图像语义分割模型泛化能力的度量方法，以解决现有对图像语义分割模型泛化能力的度量方法计算量过大、度量不准确的问题。

为实现上述目的，本发明通过以下技术方案予以实现：一种用于对图像语义分割模型泛化能力的度量方法，包括：获取图像数据集，并获得待评估的图像语义分割模型在图像数据集的预测结果；选取任意两个图像语义分割模型的预测结果差异最大的图像集合，构建模型差异最大化且具代表性的样本集，其中，所选取的两个图像语义分割模型分别设置为攻击者和防守者；通过模型投票法获取样本集的语义分割标签；根据语义分割标签计算所有图像语义分割模型预测结果的准确性，并将所有图像语义分割模型预测结果转化为两两模型的攻击/防守分数矩阵，获得所有图像语义分割模型的全局泛化能力排名。

优选的，获得待评估的图像语义分割模型在图像数据集的预测结果包括：在获取图像数据集后，构建原始数据集，将原始数据集记为D＝{I_m|m∈[1,M]}，其中I_m为原始数据集的一张图像，M为原始数据集的大小；获取多个待评估的图像语义分割模型形成图像语义分割模型集合，将图像语义分割模型集合记为S＝{S_n|n∈[1,N]}，其中Sn为图像语义分割模型集合的一个图像语义分割模型，N为图像语义分割模型的总数量；计算每一待评估的图像语义分割模型在原始数据集上的预测结果。

优选的，获取多个待评估的图像语义分割模型后，对待评估的图像语义分割模型的数据进行归一化计算。

优选的，选取任意两个图像语义分割模型的预测结果差异最大的图像集合，构建模型差异最大化且具代表性的样本集包括：从图像数据集中提取出差异最大化且具代表性的样本集。

优选的，从图像数据集中提取出差异最大化的样本集包括：通过语义分割评价指标计算任意两个待比较的图像语义分割模型的预测结果的差异性：分别将两个待比较的图像语义分割模型设置为攻击者和防守者，其中，语义分割评价指标为平均交并比，计算公式为：

其中，C表示图像数据集中类别总数，n_kk表示在参考结果中属于第k类且被预测为第k类的像素个数，n_kh表示在参考结果中属于第k类但被预测为第h类的像素个数，n_hk表示在参考结果中属于第h类但被预测为第k类的像素个数；

从图像数据集中选择差异最大化样本集，记为

其中，M^*表示该样本集的大小，图像I^*的计算公式为：

其中，S_i(I_m)和S_j(I_m)分别表示图像语义分割模型S_i和图像语义分割模型S_j对图像I_m的预测结果，argmin表示求最小值运算。

优选的，从图像数据集中提取出具代表性的样本集包括：确定类别约束，将图像数据集根据所确定的类别进行划分，所划分的每一类别的集合记为

其中，将图像语义分割模型S_i和S_j相互比较，将图像语义分割模型S_i作为竞争的防守者，并将图像语义分割模型S_j作为竞争的攻击者，若图像语义分割模型S_i对某图像I_m的预测结果中出现类别c，则确定该图像属于集合

确定内容约束，使图像数据集中各个类别的占比和模型训练数据中对于类别的占比保持一致；统计出所有图像语义分割模型的训练集中每个类别的占比，各取四分位数作为每个类别占比的上下界，记

和

分别表示类别c的第一分位数和第三分位数，若图像语义分割模型S_i对图像I_m的预测结果中类别c的占比属于

则确定该图像属于代表性样本。

优选的，若图像语义分割模型S_i对图像I_m的预测结果中类别c的占比不属于

则直接丢弃该图像。

优选的，通过模型投票法获取样本集的语义分割标签包括：对于任意两个待比较的图像语义分割模型，根据类别对样本集进行分组，再从每组样本集当中随机挑选一张图像作为实验样本；采用模型投票法加权融合多个图像语义分割模型的预测结果作为代表性样本集的语义分割标签，计算公式如下：

其中，S_i(I_m)表示图像语义分割模型S_i对图像I_m的预测结果，W表示图像语义分割模型预测权重向量，S(I_m)表示图像I_m的语义分割标签。

优选的，获得所有图像语义分割模型的全局泛化能力排名包括：分别计算两两比较的图像语义分割模型在对应测试数据集上的预测准确度，对于图像语义分割模型S_i作为防守者，记a_ji和r_ij分别表示图像语义分割模型S_j的攻击分数和图像语义分割模型S_i的防守分数，攻击分数a_ji与防守分数r_ij的计算公式如下：

其中，

和

分别表示图像语义分割模型S_i作为防守者、图像语义分割模型S_j作为攻击者时二者的预测准确度；

计算图像语义分割模型S_i作为攻击者的攻击分数，计算图像语义分割模型S_j作为防守者的防守分数，并得到所有图像语义分割模型成对比较的攻击/防守分数矩阵；通过极大似然估计，将攻击/防守分数矩阵转化为所有图像语义分割模型的全局泛化能力排名，分别记为

和

其计算公式为：

其中，p∈[a,r]，即攻击/防守分数矩阵，P_ij表示攻击/防守分数矩阵中第i行第j列的元素，N为图像语义分割模型总数，φ表示标准正态分布函数，argmax表示求最大值运算。

与现有技术相比，本发明的有益效果是：

本发明通过从网络上获取大量的图像作为样本对多种不同的图像语义分割模型进行泛化能力的评估，有效衡量各种图像语义分割模型面对开放视觉世界的泛化性能，对比分析各个图像语义分割模型的优劣，且本发明的方法能够节约人力物力成本。

附图说明

图1为本发明方法实施例的流程图。

图2为发明方法实施例中所有样本的预测准确率的分布图。

图3为发明方法实施例中各个图像语义分割模型预测准确率的分布图。

图4为发明方法实施例中图像语义分割模型的攻击分数矩阵和防守分数矩阵的图示。

图5为发明方法实施例中各个图像语义分割模型预测性能的全局泛化能力排名的图示。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明是一种用于对图像语义分割模型泛化能力的度量方法，参见图1，本发明采用以下步骤实现：首先，进行数据采集和模型预测，具体的，先执行步骤S1，针对模型训练的常见类别，通过互联网收集规模足够大的图像数据集，构建大型的原始数据集，例如，将原始数据集记为D＝{I_m|m∈[1,M]}，其中I_m为原始数据集的一张图像，M为原始数据集的大小。

然后，获取多个主流的待评估的图像语义分割模型，将所获取多个待评估的图像语义分割模型形成图像语义分割模型集合，将图像语义分割模型集合记为S＝{S_n|n∈[1,N]}，其中Sn为图像语义分割模型集合的一个图像语义分割模型，N为图像语义分割模型的总数量。接着，计算每一待评估的图像语义分割模型在原始数据集上的预测结果。为确保所有图像语义分割模型输入和输出的公平性，以获得图像语义分割模型在相同现实场景下的预测结果，本发明需先对数据进行归一化操作，即对多个待评估的图像语义分割模型的数据进行归一化操作。

然后，执行步骤S2，选取任意两个图像语义分割模型的预测结果差异最大的图像集合，构建模型差异最大化且具代表性的样本集，优选的，所选取的两个图像语义分割模型分别设置为攻击者和防守者。

具体的，从图像数据集中提取出差异最大化且具代表性的样本集，首先，通过语义分割评价指标计算任意两个待比较的图像语义分割模型的预测结果的差异性，例如，通过语义分割评价指标计算任意两个待比较的图像语义分割模型S_i和S_j预测结果的差异性，分别将图像语义分割模型S_i(S_j)和S_j(S_i)设置为攻击者和防守者，本实施例采用的指标为平均交并比MIoU，平均交并比的计算公式如下：

式1中，C表示图像数据集中类别总数，n_kk表示在参考结果中属于第k类且被预测为第k类的像素个数，n_kh表示在参考结果中属于第k类但被预测为第h类的像素个数，n_hk表示在参考结果中属于第h类但被预测为第k类的像素个数。

然后，从图像数据集中选择差异最大化样本集，记为

其中，M^*表示该样本集的大小，图像I^*的计算公式如下：

式2中，S_i(I_m)和S_j(I_m)分别表示图像语义分割模型S_i和图像语义分割模型S_j对图像I_m的预测结果，argmin表示求最小值运算。

对于代表性样本的提取，首先引入类别约束，即确定类别约束，将图像数据集根据所确定的类别进行划分，所划分的每一类别的集合记为

然后引入内容约束，即确定内容约束，使图像数据集中各个类别的占比和模型训练数据中对于类别的占比保持一致；统计出所有图像语义分割模型的训练集中每个类别的占比，各取四分位数作为每个类别占比的上下界，记

和

则确定该图像属于代表性样本。如果若图像语义分割模型S_i对图像I_m的预测结果中类别c的占比不属于

则直接丢弃该图像。

图2是所有样本的预测准确率的分布图，从图2可以看出，根据本发明的方法所构建的差异最大化且具有代表性的样本集中，大多数图像语义分割模型的预测准确率出现大幅度下降。而图3是各个图像语义分割模型预测准确率(MIoU)的分布图，从图3可以看出，大多数图像语义分割模型的预测准确度偏低，同时展示出所有待评估的图像语义分割模型性能的优劣。

然后，执行步骤S3，通过模型投票法获取样本集的语义分割标签。具体的，根据类别对样本集进行分组，再从每组当中随机挑选一张图像作为实验样本。然后，根据实验样本的规模选择标签数据生成的方法。对于大规模的模型泛化能力度量任务，采用模型投票法，加权融合多个优秀模型的预测结果作为代表性样本集的语义分割标签，该方法能极大地节约人力物力，并获得较为显著的效果，模型投票法的计算公式如下：

式3中，S_i(I_m)表示图像语义分割模型S_i对图像I_m的预测结果，W表示图像语义分割模型预测权重向量，S(I_m)表示图像I_m的语义分割标签。

而针对待比较的模型数量少、获取的代表性样本规模小的情况，可引入小规模主观实验收集标签数据，例如召集一定数量的实验参与者参与实验并且进行人工标注，实验时，需要实验参与者严格按照模型训练数据集的标注规则，通过语义分割标注工具LabelMe对样本集进行人工标注，获得该小型代表性样本集的语义分割标签。

然后，执行步骤S4，根据语义分割标签计算所有图像语义分割模型预测结果的准确性。例如，分别计算两两比较的图像语义分割模型在对应测试数据集上的预测准确度，对于图像语义分割模型S_i作为防守者，记a_ji和r_ij分别表示图像语义分割模型S_j的攻击分数和图像语义分割模型S_i的防守分数，攻击分数a_ji与防守分数r_ij的计算公式如下：

式4中，

和

分别表示图像语义分割模型S_i作为防守者、图像语义分割模型S_j作为攻击者时二者的预测准确度，

和

的计算公式均采为式1，即使用式1计算获得

和

的值。

然后，执行步骤S5，计算图像语义分割模型S_i作为攻击者的攻击分数，并计算图像语义分割模型S_j作为防守者的防守分数，并得到所有图像语义分割模型成对比较的攻击分数矩阵以及防守分数矩阵。

图4(a)是图像语义分割模型的攻击分数矩阵，图4(b)是图像语义分割模型的防守分数矩阵，从图4可以看出各个图像语义分割模型与其他图像语义分割模型的详细对比结果，有针对性地分析各个图像语义分割模型的优劣。

最后，执行步骤S6，通过极大似然估计，将攻击分数矩阵以及防守分数矩阵转化为所有图像语义分割模型的全局泛化能力排名，分别记为

和

其计算公式为：

式5中，p∈[a,r]，即攻击分数矩阵或者防守分数矩阵，P_ij表示攻击/防守分数矩阵中第i行第j列的元素，N为图像语义分割模型总数，φ表示标准正态分布函数，argmax表示求最大值运算，s.t.是“subject to”的缩写，即受约束的意思。

通过上述步骤计算，可以获得所有图像语义分割模型的全局泛化能力排名，根据该排名可以确定多个图像语义分割模型的全局泛化能力的情况。

本发明使用平均交并比MIoU来度量图像语义分割模型预测分割结果的准确性，由于平均交并比MIoU是用于衡量图像类别的平均分割精度，一般来说，图像语义分割模型预测结果与真实值的平均交并比MIoU越高，表示图像语义分割模型的性能越好。为了验证本发明提出的方法的有效性，发明人对比了十余种基于深度学习的图像语义分割模型，包括DeepLabv3+、EMANet、PSANet、PSPNet、RefineNet、LRefineNet、BlitzNet、ESPNetv2、DiCENet、FCN、ShelfNet(在图3、4和5中分别用模型1、模型2、模型3、模型4、模型5、模型6、模型7、模型8、模型9和模型10表示)等进行验证，不同的图像语义分割模型在相同的视觉环境中表现出了强烈的差异性，由此可以诊断出各种图像语义分割模型的泛化性能，并且获得了容易影响图像语义分割模型预测出错的图像类型，在此过程中仅仅耗费了极少数的人力和物力。

表1是依据本发明的方法对多种图像语义分割模型进行运算获得的排名情况。

表1：本发明对比的基于深度学习的图像语义分割模型排名

图5为各个图像语义分割模型预测性能的全局泛化能力排名，通过比较所有结果的统计量和分布，可以看出DeepLabv3+、RefineNet和BlitzNet在本发明提出的代表性样本集中展现出了最高的泛化性能。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。