CN110163865B

CN110163865B - 一种针对模型拟合中不平衡数据的采样方法

Info

Publication number: CN110163865B
Application number: CN201910451911.9A
Authority: CN
Inventors: 肖国宝; 汪涛; 徐海平
Original assignee: Minjiang University
Current assignee: Fuzhou Weipu Software Technology Co.,Ltd.
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2021-06-01
Anticipated expiration: 2039-05-28
Also published as: CN110163865A

Abstract

本发明涉及一种针对模型拟合中不平衡数据的采样方法，包括以下步骤：步骤S1:提取图像特征数据，并构成数据集；步骤S2:从数据集中随机采样一个最小子集，作为代表性子集,并初始化采样集合；步骤S3:从数据集中随机采样一个最小子集，作为采样子集；步骤S4:根据代表性采样子集和采样子集更新采样集合；步骤S5:循环步骤S3至步骤S4，直至满足预设终止条件；步骤S6:去除多余的模型假设，得到最终采样集合；步骤S7:将最终采样集合作为模型拟合的输入数据，以完成最后的参数估计和图像分割。本发明采样方法能够有效地提高参数估计和图像分割的性能。

Description

一种针对模型拟合中不平衡数据的采样方法

技术领域

本发明涉及计算机视觉技术领域，涉及一种针对模型拟合中不平衡数据的采样方法。

背景技术

随着越来越多的计算机视觉产品出现在我们现实生活中，模型拟合作为计算机视觉的一项重要的基础研究越来越重要。而如何有效地采样子集是模型拟合重要的一个步骤。

当前的采样方法可以分为随机采样和指导性采样。随机采样方法中，比较有代表性的有Random Sample Consensus(RANSAC)(M.A.Fischler and R.C.Bolles.Randomsample consensus:a paradigm for model fitting with applications to imageanalysis and automated cartography.Comm.ACM,24(6):381–395,1981)。指导性采样有Proximity(Y.Kanazawa,H.Kawakami,Detection of planar regions with uncalibratedstereo using distributions of feature points.,in:Proc.Bri.Mach.Vis.Conf.,2004,pp.247-256)；MultiGS(T.-J.Chin,J.Yu,D.Suter,Accelerated hypothesisgeneration for multistructure data via preference analysis,IEEE Trans.PatternAnal.Mach.Intell.34(4):625-638,2012)；SDF(G.Xiao,H.Wang,Y.Yan,and D.Suter,Superpixel-guided two-view deterministic geometric model ftting,Int.J.Comput.Vis.,127(4),323-339,2019).

当前的采样方法在正常情况下能够有效地采样高质量的模型假设。然而，当数据出现不平衡时(即属于不同模型实例的内点数量存在较大的不平衡)，当前的采样方法很难采样到对应小结构的模型假设。而不平衡数据在现实生活中比较普通，因此，研究不平衡数据的采样方法具有很大的意义。

发明内容

有鉴于此，本发明的目的在于提供一种针对模型拟合中不平衡数据的采样方法，能够有效地提高图片分割和参数估计的性能。

为实现上述目的，本发明采用如下技术方案：

一种针对模型拟合中不平衡数据的采样方法，包括以下步骤：

步骤S1:提取图像特征数据，并构成数据集；

步骤S2:从数据集中随机采样一个最小子集，作为代表性子集，并初始化采样集合；

步骤S3:从数据集中随机采样一个最小子集，作为采样子集；

步骤S4:根据代表性采样子集和采样子集更新采样集合；

步骤S5:循环步骤S3至步骤S4，直至满足预设终止条件；

步骤S6:去除多余的模型假设，得到最终采样集合；

步骤S7:将最终采样集合作为模型拟合的输入数据，以完成最后的参数估计和图像分割。

进一步的，所述步骤S2具体为：

步骤S21:从数据集中随机采样一个最小子集；

步骤S22:评估最小子集的模型假设参数θ₁，并计算该模型假设θ₁的权重，权重公式如下：

式中，s(θ₁)表示模型假设θ₁的内点尺度，

表示模型假设θ₁和数据点x_t之间的距离，

为核函数，b(θ₁)为宽度；X＝{x_t}为数据集，N为数据总数；

步骤S23:将采样的第一个模型假设θ₁作为采样集合的第一个成员，并作为一个代表性采样子集

其中j表示代表性子集的第j个成员，此处j＝1。

进一步的，所述步骤S3具体为：

步骤S31:从数据集中随机采样一个最小子集；

步骤S22:评估最小子集的模型假设参数θ_i，其中i表示第i次采样，并计算该模型假设θ_i的权重，权重公式如下：

式中，s(θ_i)表示模型假设θ_i的内点尺度，

表示模型假设θ_i和数据点x_t之间的距离，

为核函数，b(θ_i)为宽度。

进一步的，所述步骤S4具体为：

步骤S41:计算θ_i与采样集合中的每个代表性采样子集

的关系,计算公式如下：

其中Inlier(θ_i)和

表示相应模型假设的内点集合,

和

分别表示两个集合的交集和并集，|·|表示集合的成员个数；如果

认为它们对应同一个模型实例；

步骤S42:若θ_i与采样集合中一个代表性子集

对应同一个模型实例，那么进一步对比它们的权重，以更新采样集合；如果

那么θ_i加入到采样集合中，并取代

作为一个代表性子集；反之，将θ_i抛弃，不作为采样集合的成员；

步骤S43：如果采样集合中没有找到θ_i对应同一个模型实例的代表性子集，那么将θ_i加入到采样集合中，并作为代表性子集的一个新成员。

进一步的，所述步骤S5具体为：判定采样个数是否达到预设阈值，如果达到则终止循环，并得到采样集合的模型假设θ＝{θ₁,θ₂,…,θ_m}；反之回到步骤步骤S3，做下一步采样。

进一步的，所述步骤S6具体为：

步骤S61:对于采样集合中的所有模型假设θ＝{θ₁,θ₂,…,θ_m}，它们相应的权重为W＝{w₁,w₂,…,w_m}；

步骤S62:设定每个模型假设的权重w_i与最大权重的跨度：ψ_i＝max(W)-w_i，计算其相应的概率：

步骤S63:计算该权重集合的熵作为阈值衡量模型假设的质量：

步骤S64:通过熵选择模型假设：θ′＝{θ′_i|-logp(ψ_i)＞L},得到的θ′作为最终的采样集合。

本发明与现有技术相比具有以下有益效果：

本发明能够有效地提高图片分割和参数估计的性能，提高图片处理质量。

附图说明

图1是本发明方法流程图；

图2是本发明一实施例中与经典采样算法RANSAC在五个图片数据集上针对基础矩阵估计所生成的采样子集对不同模型实例的比例对比；

图3是本发明实施例得到的采样集合在图片数据集上的分割效果。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种针对模型拟合中不平衡数据的采样方法，包括以下步骤：

步骤S1:提取图像特征数据，并构成数据集，得到X＝{x_t}，t＝1,2,...,N，N为数据总数，N为自然数；

步骤S2:从数据集中随机采样一个最小子集，作为代表性子集,并初始化采样集合；所述步骤S2具体为：

步骤S21:从数据集中随机采样一个最小子集；

式中，s(θ₁)表示模型假设θ₁的内点尺度，

表示模型假设θ₁和数据点x_t之间的距离，

为核函数，b(θ₁)为宽度；X＝{x_t}为数据集，N为数据总数；

其中j表示代表性子集的第j个成员，此处j＝1。

步骤S3:从数据集中随机采样一个最小子集，作为采样子集；

步骤S31:从数据集中随机采样一个最小子集；

式中，s(θ_i)表示模型假设θ_i的内点尺度，

表示模型假设θ_i和数据点x_t之间的距离，

为核函数，b(θ_i)为宽度。

步骤S4:根据代表性采样子集和采样子集更新采样集合；

所述步骤S4具体为：

步骤S41:计算θ_i与采样集合中的每个代表性采样子集

的关系,计算公式如下：

其中Inlier(θ_i)和

表示相应模型假设的内点集合,

和

认为它们对应同一个模型实例；

步骤S42:若θ_i与采样集合中一个代表性子集

那么θ_i加入到采样集合中，并取代

步骤S5:循环步骤S3至步骤S4，直至满足预设终止条件；判定采样个数是否达到预设阈值，本实施例中为10000，如果达到则终止循环，并得到采样集合的模型假设θ＝{θ₁,θ₂,…,θ_m}；反之回到步骤步骤S3，做下一步采样。

步骤S6:去除多余的模型假设，得到最终采样集合；所述步骤S6具体为：

步骤S63:计算该权重集合的熵作为阈值衡量模型假设的质量：

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种针对模型拟合中不平衡数据的采样方法，其特征在于，包括以下步骤：

步骤S1:提取图像特征数据，并构成数据集；

步骤S2:从数据集中随机采样一个最小子集，作为代表性采样子集，并初始化采样集合；

步骤S3:从数据集中随机采样一个最小子集，作为采样子集；

步骤S4:根据代表性采样子集和采样子集更新采样集合；

步骤S5:循环步骤S3至步骤S4，直至满足预设终止条件；

步骤S6:去除多余的模型假设，得到最终采样集合；

步骤S7:将最终采样集合作为模型拟合的输入数据，以完成最后的参数估计和图像分割；

所述步骤S3具体为：

步骤S31:从数据集中随机采样一个最小子集；

式中，s(θ_i)表示模型假设θ_i的内点尺度，

表示模型假设θ_i和数据点x_t之间的距离，

为核函数，b(θ_i)为宽度；N为数据总数；

所述步骤S4具体为：

步骤S41:计算θ_i与采样集合中的每个代表性采样子集

的关系,计算公式如下：

其中Inlier(θ_i)和

表示相应模型假设的内点集合,

和

认为它们对应同一个模型实例；

步骤S42:若θ_i与采样集合中一个代表性采样子集

那么θ_i加入到采样集合中，并取代

作为一个代表性采样子集；反之，将θ_i抛弃，不作为采样集合的成员；

步骤S43：如果采样集合中没有找到θ_i对应同一个模型实例的代表性采样子集，那么将θ_i加入到采样集合中，并作为代表性采样子集的一个新成员。

2.根据权利要求1所述的一种针对模型拟合中不平衡数据的采样方法，其特征在于，所述步骤S2具体为：

步骤S21:从数据集中随机采样一个最小子集；

式中，s(θ₁)表示模型假设θ₁的内点尺度，

表示模型假设θ₁和数据点x_t之间的距离，

为核函数，b(θ₁)为宽度；X＝{x_t}为数据集，N为数据总数；

其中j表示采样集合的第j个成员，此处j＝1。

3.根据权利要求1所述的一种针对模型拟合中不平衡数据的采样方法，其特征在于，所述步骤S5具体为：判定采样个数是否达到预设阈值，如果达到则终止循环，并得到采样集合的模型假设θ＝{θ₁,θ₂,…,θ_m}；反之回到步骤步骤S3，做下一步采样。

4.根据权利要求1所述的一种针对模型拟合中不平衡数据的采样方法，其特征在于，所述步骤S6具体为：

步骤S62:设定每个模型假设的权重w_k与最大权重的跨度：ψ_k＝max(W)-w_k，计算其相应的概率：

步骤S63:计算该权重集合的熵作为阈值衡量模型假设的质量：

步骤S64:通过熵选择模型假设：θ′＝{θ_k|-log p(ψ_k)＞ζ},得到的θ′作为最终的采样集合。