CN114586330B - 颜色恒常性的多假设分类 - Google Patents

颜色恒常性的多假设分类 Download PDF

Info

Publication number
CN114586330B
CN114586330B CN201980101469.5A CN201980101469A CN114586330B CN 114586330 B CN114586330 B CN 114586330B CN 201980101469 A CN201980101469 A CN 201980101469A CN 114586330 B CN114586330 B CN 114586330B
Authority
CN
China
Prior art keywords
image
light sources
correction
candidate light
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980101469.5A
Other languages
English (en)
Other versions
CN114586330A (zh
Inventor
丹尼尔·埃尔南德斯
莎拉·帕里索
阿莱斯·莱昂纳迪斯
格雷戈里·斯拉堡
史蒂文·乔治·麦克唐纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN114586330A publication Critical patent/CN114586330A/zh
Application granted granted Critical
Publication of CN114586330B publication Critical patent/CN114586330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/56Processing of colour picture signals
    • H04N1/60Colour correction or control
    • H04N1/6077Colour balance, e.g. colour cast correction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N23/84Camera processing pipelines; Components thereof for processing colour signals
    • H04N23/88Camera processing pipelines; Components thereof for processing colour signals for colour balance, e.g. white-balance circuits or colour temperature control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/56Processing of colour picture signals
    • H04N1/60Colour correction or control
    • H04N1/6083Colour correction or control controlled by factors external to the apparatus
    • H04N1/6086Colour correction or control controlled by factors external to the apparatus by scene illuminant, i.e. conditions at the time of picture capture, e.g. flash, optical filter used, evening, cloud, daylight, artificial lighting, white point measurement, colour temperature
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • H04N9/646Circuits for processing colour signals for image enhancement, e.g. vertical detail restoration, cross-colour elimination, contour correction, chrominance trapping filters

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种用于估计源图像的场景照明颜色的设备,所述设备用于:确定一组候选光源,并且针对每个所述候选光源,确定所述源图像的相应校正;针对每个所述候选光源,对所述源图像应用所述相应校正,以形成相应的一组校正图像;针对所述一组校正图像中的每个校正图像,实施训练数据驱动模型以估计所述相应校正图像的相应非彩色概率;以及基于对所述一组校正图像的所述估计的非彩色概率,获得所述源图像的所述场景照明颜色的最终估计。这种方法可以评估多个候选照明以确定所述场景照明颜色的估计,这可以在校正场景照明时提高图像质量,从而在目标图像中实现自然图像外观。

Description

颜色恒常性的多假设分类
技术领域
本发明涉及为了对数字图像执行自动白平衡(Auto White Balancing,AWB)而准确地估计场景照明颜色。
背景技术
数码相机拍摄的图像的颜色受场景中主要光源颜色的影响。考虑场景光源的影响并生成规范外观的图像(就像在非彩色光源下拍摄的图像一样)是数字摄影管道的重要组成部分。这个问题称为颜色恒常性,因为对于人类观察者来说,尽管物体被不同的光源照射,但物体的颜色通常看起来是不变的。实现这种效果的计算方法称为自动白平衡(AutoWhite Balancing,AWB)。
AWB的问题变成以下问题:估计场景的照明颜色,并调整图像的颜色以使其看似就像在非彩色(白色)光源下拍摄的图像。
三色光敏传感器响应以标准方式建模,使得:
ρk(X)=∫ΩE(λ)S(λ,X)Rk(λ)dλk∈{R,G,B}        (1)
其中ρk(X)是像素位置X处的颜色通道k的强度,λ是光的波长,使得:E(λ)表示光源的光谱,S(λ,X)是像素位置X处的表面反射率,Rk(λ)是通道k的相机光谱灵敏度(cameraspectral sensitivity,CSS),考虑了可见波长Ω的光谱。
然后计算颜色恒常性的目标变成估计全局照明颜色
Figure BDA0003602918430000011
其中:
Figure BDA0003602918430000012
由于在每个像素X处产生相同图像值的光源颜色和表面反射率的组合非常多,因此为方程(2)中的每个k找到
Figure BDA0003602918430000013
是不适定的。
例如,如果在图像中呈现黄褐色布像素,则可以将其分解并解释为在黄色光源下照射的白色布对象或在白色光源下照射的黄色布对象。在现实环境下,大量此类光源颜色和物体表面的组合可导致同样的像素测量观察结果。
过去对图像光源颜色估计的研究大致可分为基于统计的方法(其采用经典的数字图像统计汇总方法)和基于学习的方法(对未知场景光源进行估计)。
当代基于学习的回归方法经过优化,可以学习所考虑的特定目标任务的图像特征,对于光源估计,这构成了学习从输入图像直接到全局场景照明颜色的映射。就推理准确度而言,卷积神经网络式模型目前可以被认为是场景光源估计的最新技术。
然而,典型的回归式卷积方法会导致将输入图像仅映射到学习模型的目标空间中的单一颜色。即使在拍摄时现实环境中是全局场景光源的假设合理成立的情况下,根据定义,此类推理也必须折叠为光源颜色空间中的单点估计。因此,如果多个场景照明颜色可以合理地解释图像中记录的像素观察结果,则标准回归方法将无法识别或解释这一点。
此外,在标准回归方法中,没有提供关于所做出的特定光源推理的置信度的标志或指示。这是有问题的,因为在许多领域中,能够指示和推理其自身推理确定性的计算方法可以被认为具有很高的实用性。
对于学习颜色恒常性,新数据的捕获和标注可以被认为是成本高昂(半手动)且耗时的过程。因此,各个相机的可用数据集通常很小(大约有数百或数千张图像)。增加可用数据的一种方法是组合由不同设备捕获的数据集。然而,由于影响学习目标的相机色彩空间之间存在(通常是细微的)差异,盲目尝试额外添加由不同传感器或相机捕获的图像可能会导致灾难性干扰或灾难性遗忘。这种组合可能会影响对由最初考虑的以及额外增加的传感器或相机捕获的图像的推理性能。
需要开发一种能解决这些问题的颜色恒常性方法。
发明内容
根据第一方面,提供了一种用于估计源图像的场景照明颜色的设备,所述设备用于:确定一组候选光源,并且针对每个所述候选光源,确定所述源图像的相应校正;针对每个所述候选光源,对所述源图像应用所述相应校正,以形成相应的一组校正图像;针对所述一组校正图像中的每个校正图像,实施训练数据驱动模型以估计所述相应校正图像的相应非彩色概率;以及基于对所述一组校正图像的所述估计的非彩色概率,获得所述源图像的所述场景照明颜色的最终估计。
所述源图像的所述场景照明颜色的所述最终估计可以使用所述候选光源中至少两个的加权来获得。这可以提高图像质量。
所述设备可用于使用二元分类对每个校正图像的所述非彩色进行分类。这可能是对使用每个特定候选光源是否会产生良好白平衡图像进行分类的有效方式。
所述设备还可用于确定所述场景照明颜色的所述最终估计的置信值。这可能有助于提高准确性,并允许所述设备在测试时可靠地推理不确定度并标记具有挑战性的图像。
所述设备还可用于基于所述场景照明颜色的所述最终估计来变换所述源图像。所述变换后的图像可以代表所述源图像在规范光源下的场景。这会校正场景照明,从而在目标图像中实现自然的图像外观。
所述一组候选光源可以通过在光源空间中以均匀间隔采样来确定。所述一组候选光源可以通过K-均值聚类来确定。所述一组候选光源可以使用高斯混合模型来确定。以这些方式确定的所述一组候选光源可以代表现实环境中可能的光源颜色的空间,如所考虑的传感器所观察到的。这可以允许所述设备获得一组用于所述光源空间的代表性候选光源。
学习的数据驱动模型可以使用由至少两个相机捕获的一组训练图像来进行训练。因此所述设备可以利用相机间数据集来训练相机无关模型并提高鲁棒性。
所述训练数据驱动模型可以是卷积神经网络。这可能是一种方便的实现方式。
根据第二方面,提供了一种用于估计源图像的场景照明颜色的方法,所述方法包括以下步骤:确定一组候选光源,并且针对每个所述候选光源,确定所述源图像的相应校正;针对每个所述候选光源,对所述源图像应用所述相应校正,以形成相应的一组校正图像;针对所述一组校正图像中的每个校正图像,实施训练数据驱动模型以估计所述相应校正图像的相应非彩色概率;以及基于对所述一组校正图像的所述估计的非彩色概率,获得所述源图像的场景照明颜色的最终估计。
所述源图像的所述场景照明颜色的所述最终估计可以使用所述候选光源中至少两个的加权来获得。这可以提高图像质量。
所述训练数据驱动模型可以使用由至少两个相机捕获的一组图像来进行训练。因此所述方法可以利用相机间数据集来训练相机无关模型并提高鲁棒性。
所述训练数据驱动模型可以是卷积神经网络。这可能是一种方便的实现方式。
附图说明
现将参考附图通过示例的方式对本发明进行描述。在附图中:
图1在概念上示出了本文所述的自动白平衡方法;
图2示出了用于预测候选光源校正图像的非彩色概率的卷积神经网络的结构规范的示例;
图3示出了用于估计源图像的场景照明颜色的方法的示例;
图4示意性地示出了用于实现本文所述方法的相机的示例。
具体实施方式
在本文所述的方法中,AWB任务被构建为显式光源假设分类任务。定义传感器特定候选光源假设的适当分布,可以制定一组独立的分类问题:即,输入图像由候选光源进行平衡后,是否会产生非彩色图像?然后,由该组推理产生的概率分布可以指示如何组合候选光源以形成最终输出光源(颜色),该最终输出光源可用于对输入图像执行白平衡任务。
所述AWB任务本质上分为三个子问题:(1)选择一组候选图像光源,(2)学习识别为给定图像提供准确光源校正的候选光源,以及(3)组合可能的光源估计。
图1示出了所述方法的示例的汇总。首先,生成n个候选光源的列表,其中每个候选光源包括与其它候选光源颜色不同的光。下面将更详细地描述可以做到这一点的方式。然后针对所述n个候选光源中的每一个对输入图像进行校正,如101、102、103处所示。如104处所示,之后使用卷积神经网络估计每个校正图像是非彩色图像的似然率(非彩色概率)(即确定校正的合理性)。所述CNN接收校正图像并估计该图像的一种似然率。然后,使用后验概率分布组合推理以生成光源估计,并且将误差与角度误差损失一起反向传播。在105处指示的图显示了候选光源和相应的后验概率、预测向量以及地面真值向量。
现在将更详细地描述该方法。
设y=(yr,yg,yb)是线性RGB空间中输入图像Y的像素。每个像素被建模为表面反射率r=(rr,rg,rb)和所有像素全局共享的全局光源
Figure BDA0003602918430000033
的乘积:
Figure BDA0003602918430000034
图像定义为具有m个像素:Y=(y1,...,ym),表面反射率R=(r1,...,rm)。给定Y,目标是估计光源
Figure BDA0003602918430000035
并生成
Figure BDA0003602918430000036
为了估计输入图像Y的正确光源,将颜色恒常性问题构建为具有未知表面反射率和光源的概率生成模型。使用一组候选光源
Figure BDA0003602918430000031
其中每一个都应用于源图像Y以生成一组n个临时校正的图像
Figure BDA0003602918430000037
使用所述一组校正的图像作为输入,然后可以训练卷积神经网络以识别最可能的光源,从而使最终估计的校正是最佳候选光源的线性组合。
假设光的颜色和表面反射率是独立选择的,即
Figure BDA0003602918430000038
使用贝叶斯规则,给定输入图像Y的光源的后验分布定义为:
Figure BDA0003602918430000032
给定光源
Figure BDA0003602918430000039
的观察图像Y的似然率建模为:
Figure BDA00036029184300000310
其中R是表面反射率,
Figure BDA00036029184300000311
是具有光源
Figure BDA00036029184300000312
的校正图像。项
Figure BDA00036029184300000313
仅在
Figure BDA0003602918430000041
时非零。校正的图像是否看起来真实的似然率。
如果反射率看起来真实,可以使用浅层卷积神经网络,它可以学习输出高似然率。可以对每个光源独立地学习先验。这可以学习每个光源的个体概率并作为正则化。优选地,可以将先验建模为其它变量的函数(例如图像是否在室内/室外、一天中的时间、ISO等)。
为了估计图像的全局光源
Figure BDA0003602918430000042
可以使用二次代价函数(最小二乘误差贝叶斯估计器)。这通过均值最小化:
Figure BDA0003602918430000043
所述方法包括三个主要步骤(候选光源选择、似然估计和最终光源的计算),将在下面进一步详细描述。
在第一个步骤中,首先选择一组传感器特定候选光源(光源颜色假设)。优选地,这组候选光源代表现实环境中可能的光源颜色的空间,如所考虑的传感器所观察到的。因此,候选光源选择的目标是获得一组用于所述光源空间的代表性候选光源。可以选择一组n个光源来生成n个校正的缩略图图像,例如可以是64x64像素图像。优选地,在候选光源之间进行插值时,应该跨越整个光源空间。
在一个示例中,可以使用均匀采样来选择候选光源。得到光源的极值(每个维数的最大值和最小值),然后通过n个点对光源空间进行均匀采样。这可以在r/g、b/g颜色空间中实现。
在另一种方法中,可以在RGB空间上使用K-均值聚类(K-均值聚类如以下文献中所述:Stuart P.Lloyd,“PCM中的最小二乘量化”,《IEEE信息论汇刊》,28(2):129-136,1982年),该方法如以下文献中所述:Seoung Wug Oh和Seon Joo Kim,“通过深度学习将计算颜色恒常性视为分类问题”,《Pattern Recognition》,61:405-416,2017年。
或者,可以使用高斯混合模型(Gaussian Mixture Model,GMM)来拟合r/g、b/g颜色空间上的四个二维高斯分布,再从CNN中采样n个点。
然后根据每个候选光源确定对源图像的校正,并将其应用于每个候选光源的源图像。
在似然估计步骤中,在优选实施例中,所述方法通过估计校正图像的非彩色概率(即,校正图像在非彩色光下的可能性)来学***衡图像。也可以使用用于估计非彩色概率的其它非基于学习的方法。
在使用数据驱动模型学***衡良好的概率。
在模型训练期间,每个训练图像的最终场景光源估计如下。首先,候选光源群体的二元分类结果集提供了每个候选光源的概率分布。为了找到提供最大非彩色结果概率的光源,可以使用softmax激活函数(可微最大值)。然后可以使用soft-assign来计算每个图像的最终光源估计;候选光源的加权线性组合,其中权重代表独立的分类确定性。通过将最终估计的光源与物理测量的地面真值光源颜色(每个图像样本)进行比较,可以迭代地反向传播产生的差异(误差)并更新模型参数以提高模型性能(如标准监督式学习中那样)。
在优选实施方式中,仅使用一个CNN来估计所有候选光源的似然。根据所有候选光源对源图像进行独立校正,然后通过网络对各解的正确性进行独立评估。
需要选择提供最大概率的光源,以便可以使用soft-argmax激活函数(可微最大值)。
在推理时,使用一组二元分类问题:由每个特定候选光源平衡的图像是否会导致非彩色外观?即,使用每个特定候选光源是否会产生良好的白平衡图像?网络可以输出介于0和1之间的估计概率分数,其中0表示光源不会产生非彩色图像,1表示光源产生非彩色图像的似然较高。网络可以为每个校正后的图像输出一个不受约束的数字,然后对其进行归一化。大输出意味着高似然,小(或负)输出意味着低似然。该组值的归一化使每个值都在[0,1]范围内(即定义良好的概率分布)。
如图2所示,为了用作确定每个候选光源的非彩色概率的数据驱动模型,优选仅有一个空间卷积的CNN。在图2所示的示例中,除了最后一个FC层之外,所有完全连接层和卷积都后跟ReLU激活函数。在此示例中,全局平均池化之后应用了50%的舍弃。
优选地,第一层(改编自以下文献:Karen Simonyan和Andrew Zisserman,“用于大规模图像识别的极深卷积网络”,第三届国际学***均下降到1个像素的空间。最后,三个完全连接层输出一个值,表示图像白平衡良好的概率(参见方程(5))。
Figure BDA0003602918430000053
其中f是使用模型权重W参数化的训练CNN,Y是输入图像,
Figure BDA0003602918430000055
是候选光源,
Figure BDA0003602918430000056
是校正后的图像。
在获得每个候选光源的对数似然(参见方程(7))之后,这给出了每个候选光源的似然(即概率)的独立估计。然而,由于某些候选光源可能比其它候选光源更有可能,因此引入了仿射变换来学习先验分布。对数后验概率由下式给出:
Figure BDA0003602918430000054
偏置B学习更有可能的光源(贝叶斯意义上的先验分布),而增益G学习放大一些光源。
优选地,可微函数能够端到端地训练模型。因此,为了估计最终光源
Figure BDA0003602918430000057
优选使用二次代价函数(最小二乘贝叶斯估计器)。这通过
Figure BDA0003602918430000058
的后验均值来最小化(参见方程(6))。此函数(定义如下)是可微函数,允许网络的端到端训练:
Figure BDA0003602918430000051
这也称为soft-argmax:所有候选光源与其概率的线性组合。
优选地,概率分布主要是单模态的。优选地,对于最后一层显示省略批量归一化。在这种情况下,网络可以学习soft-max温度以产生单模态输出。
网络使用角度误差损失函数进行端到端训练,其中l*和l分别是预测和地面真值光源:
Figure BDA0003602918430000052
图3汇总了用于估计源图像的场景照明颜色的方法的示例。在步骤301中,所述方法包括确定一组候选光源,并且针对每个所述候选光源,确定所述源图像的相应校正。在步骤302中,针对每个所述候选光源,所述方法包括对所述源图像应用所述相应校正,以形成相应的一组校正图像。在步骤303中,针对所述一组校正图像中的每个校正图像,实施训练数据驱动模型以估计所述相应校正图像的相应非彩色概率。在步骤304中,基于对所述一组校正图像的所述估计的非彩色概率,获得所述源图像的场景照明颜色的最终估计。
一旦确定了所述场景照明颜色的所述最终估计,就可以将所述估计最终光源的相应校正应用于所述源图像以将其转换为目标图像。所述目标图像代表所述源图像在规范光源下的场景。
可选地,所述方法还可以输出所述估计最终场景照明颜色的置信值。对模型的不确定度进行估计是任何颜色恒常性方法的理想特征。
置信度估计可以通过使此文献(Terrance DeVries和Graham W.Taylor,“神经网络中分布外检测的学习置信度”,CoRR,abs/1802.04865,2018年)中介绍的方法适应所述方法来执行。CNN输出每个光源的置信度概率。对每个光源的置信度进行级联,并添加三个完全连接层以估计源图像的光源估计的最终置信度。然后,通过在地面真值光源和初始预测之间进行插值来调整预测:
l* final=c·l*+(1-c)·l    (11)
网络可以在训练期间使用“提示”,如果不确定,它会输出接近零的置信度值以减少角度误差损失函数(参见方程(10))。可以添加正则化以避免对所有输入估计c=0的退化情况:
Figure BDA0003602918430000061
该损失函数引入了一个新的超参数λc,它平衡了角度误差损失(参见方程(10))和置信度损失(参见方程(12)):
Figure BDA0003602918430000062
使用多个相机进行训练的能力是颜色恒常性模型的理想特性。然而,大多数模型无法使用多个相机进行训练,并且本质上依赖于设备。由于公共训练集较小,并且为市场上的每个新设备收集新数据的成本较高,因此设备无关模型受到关注。本文所述的方法中使用的CNN会学***衡良好的概率。在一些实现方式中,已经实验证明这种对颜色恒常性任务进行构建的方式是与设备无关的。
为了使用由不同相机捕获的图像来训练模型,可以对每个相机使用一组不同的候选光源(以及不同的候选光源选择),但仅训练一个CNN。
一种用于训练这种数据驱动模型的方法,用于估计源图像的场景照明颜色,所述方法可以由合适的处理实体生成,可以包括以下步骤:(i)获取一组图像,并且针对所述一组图像中的每个图像,获取光源的相应指示;以及(ii)通过重复执行以下步骤来训练所述模型的参数:选择所述一组图像中的至少一个图像,通过所述模型的一组当前参数形成对至少一个图像的光源的估计,以及基于相应的至少一个图像的所述估计的光源和所述指示的光源之间的比较来更新所述模型的所述参数。
可使用小批量随机梯度下降来训练所述模型。可使用可以随机选择的一批图像来更新所述模型的权重。可通过反复考虑训练图像的批次(子集)来更新所述模型权重。可针对每批图像使用不同的相机训练所述模型(即,批量更新中的所有图像可以属于某一特定源相机)。同样,在测试期间,每个相机的候选光源可以不同(对于与训练期间相同的候选光源)。
一种包括处理器的设备,可用于借助由上述方法生成的模型来确定由所述设备收集的源图像的所述场景照明颜色的所述最终估计。
图4示出了包括使用本文所述方法来执行AWB的相机的架构的示例。相机401连接到通信网络。相机401包括图像传感器402。所述相机还包括存储器403、处理器404和收发器405。所述存储器以非瞬态形式存储可由所述处理器404运行的代码。在一些实现方式中,所述代码可以包括如上所述的数据驱动模型。所述模型可以包括可由所述处理器直接执行的代码和/或诸如神经网络权重之类的参数,这些参数不是直接可执行指令,但用于配置存储在所述存储器403中的其它可执行代码。所述收发器405能够通过有线和无线通信信道之一或两者来发送和接收数据。例如,它可以支持以太网、IEEE 802.11B和/或蜂窝协议,例如4G或5G。
此类相机401通常具备一些板载处理能力。这可以由处理器所述404提供。所述处理器404还可用于所述设备的基本功能。
所述收发器405能够通过网络与其它实体410、411通信。这些实体可以在物理上远离所述相机401。所述网络可以是公共可访问网络,例如互联网。所述实体410、411可以基于云。实体410是计算实体。实体411是命令和控制实体。这些实体都是逻辑实体。在实践中,它们每个都可以由一个或多个物理设备(例如服务器和数据存储)提供,并且两个或多个实体的功能可以由单个物理设备提供。实现实体的每个物理设备都包括处理器和存储器。所述设备还可以包括收发器,用于向相机401的所述收发器405发送数据和从所述收发器接收数据。所述存储器以非瞬态方式存储可由所述处理器执行以按照本文所述的方式实现相应实体的代码。
所述命令和控制实体411可以训练用于估计所述源图像的所述照明颜色的所述模型。这通常是计算密集型任务,即使可以有效地描述结果模型,因此在云中执行所述模型的开发可能是有效的,其中可以预期有大量的能量和计算资源可用。可以预期,这比在典型相机上形成此类模型更有效。
在一种实现方式中,一旦在云端开发了所述模型,所述命令和控制实体就可以自动形成相应的模型并将其传输到相关的相机设备。在该示例中,AWB由处理器404在所述相机401处执行。
在另一种可能的实现方式中,可以由所述相机传感器402捕获图像,并且可以由所述收发器405将图像数据发送到云端以进行处理,包括图像信号处理器流水线中的AWB。然后所得到的目标图像可以发送回所述相机401,如图4中的412所示。
因此,所述方法可以通过多种方式部署,例如在云中、在所述设备上或者在专用硬件中。如上所述,云设施可以执行训练以开发新模型或改进现有模型。根据靠近数据语料库的计算能力,训练可以在靠近源数据的地方进行,也可以在云中进行,例如使用推理引擎。所述AWB校正还可以在相机、专用硬件或云中执行。
如上所述,在本文所述的AWB方法中,问题被构建为光源假设分类任务(与回归任务相反),以确定对于每个候选光源,图像是否是良好的白平衡图像。所述模型显示选择可能的候选光源(假设光源),并显示学习从生成的概率分布中决定最终估计。此外还学习估计最终预测的置信度。
所述方法将该AWB问题分解为三个子问题:(1)定义一组合适的候选光源及其对源图像的校正,(2)对于每个候选光源校正图像,对其非彩色进行二元分类,以及(3)通过概率加权对结果进行聚合,以实现光源的最终估计。
此外,可以学习与每个推理相关联的置信度值,有助于提高准确性以及提高在测试时可靠地推理不确定度并标记具有挑战性的图像的能力。
本文所述的方法在批量大小为32、初始学***衡。实验中使用了三个数据集:NUS(Dongliang Cheng、DilipK Prasad和Michael S Brown,“颜色恒常性的光源估计:为什么空间域方法有效以及颜色分布的作用”,JOSA A,31(5):1049-1058,2014年)、Cube(Simone Bianco、GianluigiCiocca、Claudio Cusano和Raimondo Schettini,“自动化颜色恒常算法选择和组合”,《Pattern Recognition》,43(3):695-705,2010年)以及Gehler-Shi(Lilong Shi和BrianFunt,568张图像的gehler颜色恒常性数据集的重新处理版本,http://www.cs.sfu.ca/~color/data/2000)。在这些实验中,对于NUS和Cube数据集,获得了出色的结果,对于Gehler-Shi数据集,提供了具有竞争力的结果。
因此,通过实验发现,在一些实现方式中,使用本文所述方法的光源估计准确性在三个公共数据集上可以与最新技术竞争,并且该技术能够利用相机间数据集来训练相机无关模型并提高了鲁棒性。
对提出的模型学习问题的所述改变,即:“结果图像是非彩色图像吗?”(参见‘相机颜色空间中的哪一点是正确的?’)允许替代地和自然地约束如何结合与不同传感器有关的新信息。
独立于设备的训练策略允许利用多相机数据集,并且可以优于仅使用单一相机数据训练的模型。所述方法能够使用多个相机进行训练,但只需要所需相机的候选光源。
通过为每个相机选择不同的候选光源并训练单个CNN,所述方法能够使用多相机数据集(即跨多个图像传感器)进行有效训练。以这种方式,所提出的假设是特定于相机的,但学习的模型权重是相机无关的,从而可以从众所周知的改进中自然受益,这些改进可以通过向CNN模型训练添加额外数据而获得。因此,所述方法能够利用由多个相机传感器提供的模型训练数据。学习通过(例如通过回归)将图像直接映射到相机颜色空间(位于特定传感器RGB空间)中的点来执行推理的函数,可以证明该传感器捕获的图像是准确的,但根据定义,由于图像与训练期间看到的相应地面真值光源对之间的关系,性能将从根本上与特定相机相关联。
与模型学习相关的还有数据的可用性;由于数据量级对(当代)学习性能的影响众所周知,因此需要增加训练数据量。
如上所述,除了考虑推理分布之外,还直接学***衡良好(非彩色)图像的似然。然后可以将标准统计工具应用于推理分布,以推出结果的确定度。可以提出一些问题,例如对输入图像的推理导致单模态分布还是多模态分布?(即是否有一个可能的方案或多个合理的光源候选方案)。也可以考虑分布的其它一级特征,例如色散、可变性、分散、扩散、“峰态”和“长尾”。因此,所述方法提供了关于结果确定度(或不确定度)和可解释性的推理。
总之,一般方法包括三个步骤:(1)选择一组n个候选光源以生成n个校正图像;(2)独立地(优选使用CNN)评估这n个图像以估计所述输入图像是良好白平衡图像的概率;(3)结合每个候选光源的所述概率,给出最终的光源估计。
通过采用这种策略,白平衡正确性问题被构建为分类问题。通过在训练期间使用相机特定的候选光源,同时使用一组网络参数来学习分类任务,所述方法提供了强大的归纳能力,可以在推理时捕获所述设备。所述方法可以将缩略图图像(例如64x64)作为输入,并与浅层网络配合使用,该网络允许作为移动设备上ISP的一部分实时实现。
申请方在此单独公开本文描述的每一个体特征及两个或两个以上此类特征的任意组合。以本领域技术人员的普通知识,能够基于本说明书将此类特征或组合作为整体实现,而不考虑此类特征或特征的组合是否能解决本文所公开的任何问题;且不对权利要求书的范围造成限制。本申请表明本发明的各方面可由任何这类单独特征或特征的组合构成。鉴于前文描述可在本发明的范围内进行各种修改对本领域技术人员来说是显而易见的。

Claims (13)

1.一种用于估计源图像的场景照明颜色的设备(401),其特征在于,所述设备用于:
确定(301)一组候选光源,根据每个候选光源确定对源图像的校正;
针对每个所述候选光源,对所述源图像应用(302)所述相应校正,以形成相应的一组校正图像(101、102、103);
针对所述一组校正图像中的每个校正图像,实施(303)训练卷积神经网络以估计所述相应校正图像的相应非彩色概率;
基于对所述一组校正图像的所述估计的非彩色概率,获得(304)所述源图像的所述场景照明颜色的最终估计。
2.根据权利要求1所述的设备,其特征在于,所述源图像的所述场景照明颜色的所述最终估计使用所述候选光源中至少两个的加权来获得。
3.根据权利要求1或2所述的设备,其特征在于,所述设备用于使用二元分类对每个校正图像的所述非彩色进行分类。
4.根据权利要求1或2所述的设备,其特征在于,所述设备还用于确定所述场景照明颜色的所述最终估计的置信值。
5.根据权利要求1或2所述的设备,其特征在于,所述设备还用于基于所述场景照明颜色的所述最终估计来变换所述源图像。
6.根据权利要求5所述的设备,其特征在于,所述变换后的图像代表所述源图像在规范光源下的场景。
7.根据权利要求1或2或6所述的设备,其特征在于,所述一组候选光源通过在光源空间中以均匀间隔采样来确定。
8.根据权利要求1或2或6所述的设备,其特征在于,所述一组候选光源通过K-均值聚类来确定。
9.根据权利要求1或2或6所述的设备,其特征在于,所述一组候选光源使用高斯混合模型来确定。
10.根据权利要求1或2或6所述的设备,其特征在于,所述训练卷积神经网络使用由至少两个相机捕获的一组训练图像来进行训练。
11.一种用于估计源图像的场景照明颜色的方法(300),其特征在于,所述方法包括以下步骤:
确定(301)一组候选光源,根据每个候选光源确定对源图像的校正;
针对每个所述候选光源,对所述源图像应用(302)所述相应校正,以形成相应的一组校正图像(101、102、103);
针对所述一组校正图像中的每个校正图像,实施(303)训练卷积神经网络以估计所述相应校正图像的相应非彩色概率;
基于对所述一组校正图像的所述估计的非彩色概率,获得(304)所述源图像的场景照明颜色的最终估计。
12.根据权利要求11所述的方法,其特征在于,所述源图像的所述场景照明颜色的所述最终估计使用所述候选光源中至少两个的加权来获得。
13.根据权利要求11或权利要求12所述的方法,其特征在于,所述训练卷积神经网络使用由至少两个相机捕获的一组图像来进行训练。
CN201980101469.5A 2019-11-13 2019-11-13 颜色恒常性的多假设分类 Active CN114586330B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2019/081178 WO2021093947A1 (en) 2019-11-13 2019-11-13 Multi-hypothesis classification for color constancy

Publications (2)

Publication Number Publication Date
CN114586330A CN114586330A (zh) 2022-06-03
CN114586330B true CN114586330B (zh) 2023-04-21

Family

ID=68618127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980101469.5A Active CN114586330B (zh) 2019-11-13 2019-11-13 颜色恒常性的多假设分类

Country Status (4)

Country Link
US (1) US11949996B2 (zh)
EP (1) EP3928503B1 (zh)
CN (1) CN114586330B (zh)
WO (1) WO2021093947A1 (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7885458B1 (en) * 2005-10-27 2011-02-08 Nvidia Corporation Illuminant estimation using gamut mapping and scene classification
CN106211804A (zh) * 2014-04-29 2016-12-07 英特尔公司 利用对原始图像数据的色度测量进行自动白平衡
CN106296658A (zh) * 2016-07-28 2017-01-04 电子科技大学 一种基于相机响应函数的场景光源估计准确性提升方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4830068B2 (ja) * 2006-01-20 2011-12-07 コニカミノルタセンシング株式会社 二次元色彩計及び分光感度補正方法
US8189067B2 (en) * 2009-07-31 2012-05-29 Hewlett-Packard Development Company, L.P. Determining the illuminant in a captured scene
US9336582B1 (en) 2015-04-17 2016-05-10 Google Inc. Convolutional color correction
US9794540B2 (en) * 2015-04-17 2017-10-17 Google Inc. Hardware-based convolutional color correction in digital images
JP6563751B2 (ja) * 2015-09-09 2019-08-21 三星電子株式会社Samsung Electronics Co.,Ltd. 画像処理装置及び画像処理方法
US10607329B2 (en) * 2017-03-13 2020-03-31 Adobe Inc. Illumination estimation from a single image
JP7023613B2 (ja) * 2017-05-11 2022-02-22 キヤノン株式会社 画像認識装置および学習装置
US10713816B2 (en) 2017-07-14 2020-07-14 Microsoft Technology Licensing, Llc Fully convolutional color constancy with confidence weighted pooling
CN112771367A (zh) * 2018-07-26 2021-05-07 国立大学法人东京大学 测量装置、测量***、测量程序以及测量方法
KR102522423B1 (ko) * 2018-07-30 2023-04-19 삼성디스플레이 주식회사 디스플레이 장치 및 그의 영상 처리 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7885458B1 (en) * 2005-10-27 2011-02-08 Nvidia Corporation Illuminant estimation using gamut mapping and scene classification
CN106211804A (zh) * 2014-04-29 2016-12-07 英特尔公司 利用对原始图像数据的色度测量进行自动白平衡
CN106296658A (zh) * 2016-07-28 2017-01-04 电子科技大学 一种基于相机响应函数的场景光源估计准确性提升方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Approaching the computational color constancy as a classification problem through deep learning;Seoung Wug Oh ET;《Pattern Recognition》;20160813;第61卷;全文 *

Also Published As

Publication number Publication date
US20220295030A1 (en) 2022-09-15
EP3928503B1 (en) 2024-04-17
US11949996B2 (en) 2024-04-02
WO2021093947A1 (en) 2021-05-20
CN114586330A (zh) 2022-06-03
EP3928503A1 (en) 2021-12-29

Similar Documents

Publication Publication Date Title
WO2019100724A1 (zh) 训练多标签分类模型的方法和装置
Awad et al. Multicomponent image segmentation using a genetic algorithm and artificial neural network
CN108229347B (zh) 用于人识别的拟吉布斯结构采样的深层置换的方法和装置
US11354772B2 (en) Cross-modality image generation
Song et al. EM simulation-aided zero-shot learning for SAR automatic target recognition
CN113273181B (zh) 用于相机自适应颜色恒常性的元学习
CN108428220A (zh) 静止轨道卫星序列遥感影像海岛礁区域自动几何校正方法
CN113095370A (zh) 图像识别方法、装置、电子设备及存储介质
US20230206594A1 (en) System and method for correspondence map determination
CN115346207A (zh) 一种基于实例结构相关性的二维图像中三维目标检测方法
CN114586330B (zh) 颜色恒常性的多假设分类
Kampffmeyer et al. Urban land cover classification with missing data using deep convolutional neural networks
WO2023193026A1 (en) Systems and methods for graph-based active learning using semi-supervised classification of sar data
Lukin et al. Improvement of multichannel image classification by combining elementary classifiers
Hu et al. Orstereo: Occlusion-aware recurrent stereo matching for 4k-resolution images
KR101324792B1 (ko) 지능형 운송 시스템을 위한 칼라 영역의 분할 시스템
KR102613135B1 (ko) 비주얼 로컬라이제이션을 수행하기 위한 방법 및 장치
JP7221892B2 (ja) 学習装置、学習方法、および学習プログラム
SU et al. Agricultural land use information extraction in Miyajimanuma wetland area based on remote sensing imagery
KR102616082B1 (ko) 비주얼 로컬라이제이션을 이용하여 카메라 포즈의 유효성을 결정하기 위한 방법 및 장치
KR102613133B1 (ko) 비주얼 로컬라이제이션을 이용하여 카메라 포즈의 유효성을 결정하기 위한 방법 및 장치
CN115620030B (zh) 一种图像匹配方法、装置、设备、介质
CN114693988B (zh) 卫星自主位姿的判定方法、***及存储介质
De Alvis et al. Online learning for scene segmentation with laser-constrained CRFs
CN118050291A (zh) 一种基于变分估计增强的夜间pm2.5估计方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant