CN117670706A - 用于生成经摩尔纹校正的图像文件的方法和相机设备 - Google Patents
用于生成经摩尔纹校正的图像文件的方法和相机设备 Download PDFInfo
- Publication number
- CN117670706A CN117670706A CN202311103794.XA CN202311103794A CN117670706A CN 117670706 A CN117670706 A CN 117670706A CN 202311103794 A CN202311103794 A CN 202311103794A CN 117670706 A CN117670706 A CN 117670706A
- Authority
- CN
- China
- Prior art keywords
- image file
- training
- ann
- raw image
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims description 99
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000012937 correction Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003707 image sharpening Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
- H04N23/81—Camera processing pipelines; Components thereof for suppressing or minimising disturbance in the image signal generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
Abstract
本申请涉及一种用于生成经摩尔纹校正的图像文件的方法,包括以下步骤:使用图像传感器捕获(110)原始图像文件;将所捕获的原始图像文件输入(120)到预训练的人工神经网络(ANN)中,其中该ANN被配置为基于输入的原始图像文件输出表示具有模糊区域的图像的计算的原始图像文件;将计算的原始图像文件输入(130)到图像处理单元(IPU)中;和由该IPU基于计算的原始图像文件来计算(140)RGB图像文件。
Description
技术领域
本发明涉及图像处理的技术领域。具体而言,本发明涉及一种用于生成经摩尔纹校正的图像文件的方法和对应的相机设备。此外,本发明还可以应用于视频处理和显示技术的技术领域。
背景技术
许多相机设备面临着通常被称为摩尔纹图案的伪影的问题。特别是,现代智能手机相机经常配备有相对较大的图像传感器(常常高达1英寸的传感器直径)和清晰的透镜。这样的设置通常会导致改善的图像质量。首先,信噪比随着传感器大小的增加而增加。其次,清晰的透镜允许在广泛的用例中提高细节水平,诸如不同的分辨率和变焦系数。
然而,所讨论的两种特征都会导致混叠,这是在模数转换(采样)过程中发生的信号破坏现象。根据捕获参数和输入内容,空间采样速率可能会变得不足,并低于众所周知的奈奎斯特极限。因此,输入信号频谱的高频分量被折叠到其其余部分上,从而产生不存在的谐波。因此,在所捕获的图像中会产生伪影。
捕获彩色图像所需的色彩滤波阵列(CFA)的使用进一步增加了最终得到混叠信号的可能性。特别是,CFA引入了每个颜色通道(R、G、B)都不同的相移,导致在包含高频细节的图像区域中出现明亮的低频和看起来不自然的彩色条纹(也被称为彩色摩尔纹)。
从信号处理的角度来看,混叠问题通常通过在模数转换(ADC)之前使用抗混叠滤波器来解决,其中应用低通滤波器来衰减输入信号频谱中超出奈奎斯特极限的极高频率。
在相机和传感器领域,这种滤波器是用于使所得到的图像模糊的透镜,因此它的使用将简单地等同于降低相机光学器件的清晰度。
然而,只要抗混叠滤波器的带宽自然取决于采样率,那么这种光学低通滤波器的参数将取决于捕获参数(例如,分辨率、传感器融合模式(sensor binning mode)和/或变焦系数),以便在保持滤波器性能的同时减少细节损失。这导致更复杂和更昂贵的光学***设计,并很快变得不切实际。
当对输入信号进行采样时,就无法完美重构其高频对应部分。也不可能用普通的滤波技术来修复其频谱的受损部分。假谐波成为图像内容的组成部分,并且将它们与实际图像内容区分开来是一个困难的、不适定的和研究相对较少的问题。
现代人工神经网络(ANN)在学习适用于不同的重构问题(诸如图像去噪或去模糊)的自然图像先验方面表现出了优越的能力。本发明提出应用ANN模型来重构被强彩色摩尔纹破坏的图像区域。
发明内容
为了解决上述问题,本发明提出实施一种用于生成经摩尔纹校正的图像文件的方法,包括以下步骤:
-使用图像传感器捕获原始(raw)图像文件;
-将所捕获的原始图像文件输入到预训练的人工神经网络(ANN)中,其中ANN被配置为基于输入的原始图像文件输出表示具有模糊区域的图像的计算的原始图像文件;
-将该计算的原始图像文件输入到图像处理单元(IPU)中;和
-由IPU基于计算的原始图像文件来计算RGB图像文件。
实施根据本发明的ANN允许高效的图像处理,而不需要任何硬件滤波。ANN被训练来计算正在进行摩尔纹校正的原始图像文件。通过从先前提供的包括未经校正和经校正的图像文件的训练数据中学习来训练ANN。根据本发明,原始图像/CFA图像被用作ANN的输入,并且由ANN输出相同类型的图像。通过选择这种“原始到原始”的方法,本发明与现有的硬件(诸如图像信号处理器(ISP)或现有的软件实现的IPU)兼容,其中在相机设备中实现根据本发明的方法所需的工程工作量显著减少。
此外,本发明允许在成像流水线的开始处校正摩尔纹效应。这是有利的,因为典型的IPU中的处理单元影响信号的性质(去马赛克、白平衡和颜色校正、去噪、色调映射等),从而通过以复杂的数据相关的方式混合相邻像素值来显著改变基础信号统计。与之相反,通过对原始图像应用ANN,只有图像传感器的属性会影响图像处理。
优选地,图像传感器可以实现为电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)传感器。
优选地,该方法还包括通过执行以下步骤来提供预训练的ANN:
-通过使用训练数据来训练ANN,其中训练数据包括成对的训练图像,并且每对训练图像包括表示没有任何模糊区域的训练图像的第一训练原始图像文件,和表示具有模糊区域的训练图像的第二训练原始图像文件。
因此,提供了高效的训练过程,允许ANN从先前捕获的训练图像数据中学习。
优选地,可以通过旋转或缩放包括在训练数据中的可用图像来扩充现有的训练数据。此外,可以通过添加噪声、颜色偏移或通过引入关于可用图像的亮度或清晰度的变化来扩充训练数据。
此外,训练数据可以包括表示原始训练图像的区域的可用训练图像的摘录或部分。
根据一些实施例,模糊区域可以与整个图像区域相同。换句话说,模糊区域的尺寸和整个图像的尺寸可以是相同的。
根据一些实施例,模糊区域可以小于整个图像。换句话说,模糊区域的尺寸可以小于整个图像的尺寸。因此,可以选择性地仅对图像中预期或检测到伪影的那些区域执行摩尔纹校正。
优选地,第一训练原始图像文件是通过对训练RGB图像文件应用色彩滤波阵列(CFA)而生成的。因此,可以从训练RGB图像文件高效地生成第一训练原始图像文件。
优选地,第二训练原始图像文件是通过对训练RGB图像文件应用抗混叠滤波器以及通过对经抗混叠滤波的训练RGB图像文件应用CFA而生成的。因此,第二训练原始图像文件可以从训练RGB图像文件中高效地生成。根据该实施例,训练数据可以以高计算效率提供,而第一训练原始图像文件和第二训练原始图像文件可以从单个训练RGB图像文件中计算。
优选地,可以在原始图像域中计算ANN的损失函数。
优选地,可以在RGB图像域中计算ANN的损失函数。
优选地,ANN被实现为卷积神经网络(CNN)。实验工作已经表明,实施CNN在摩尔纹校正的应用中产生相当好的结果。
为了解决上述问题,本发明还提出了一种包括图像传感器、处理单元和图像处理单元(IPU)的相机设备,其中
-图像传感器被配置为捕获原始图像文件;
-处理单元被配置为:
-将所捕获的原始图像文件输入到预训练的人工神经网络(ANN)中,其中ANN被配置为基于输入的原始图像文件输出表示具有模糊区域的图像的计算的原始图像文
件;和
-将计算的原始图像文件输入到信号处理器中;和
-IPU被配置为基于计算的原始图像文件来计算RGB图像文件。
优选地,处理单元还被配置为:
-通过使用训练数据来训练ANN,其中训练数据包括成对的训练图像,并且每对训练图像包括表示没有任何模糊区域的训练图像的第一训练原始图像文件,和表示具有模糊区域的训练图像的第二训练原始图像文件。
优选地,处理单元被配置为通过对训练RGB图像文件应用色彩滤波阵列(CFA)来生成第一训练原始图像文件。
优选地,处理单元被配置为通过对训练RGB图像文件应用抗混叠滤波器以及通过对经抗混叠滤波的训练RGB图像文件应用CFA来生成第二训练原始图像文件。
优选地,处理单元被配置为计算原始域中的ANN的损失函数。原始图像文件描述由图像传感器直接生成的图像。原始图像文件不由图像处理单元处理,并且包括捕获的图像数据的未改变的和原生的版本。为了能够在显示设备上显示,原始图像文件由图像处理单元处理,以便获得RGB文件,诸如JPEG或PNG文件。典型地,在该处理期间,进行了去马赛克、白平衡和降噪等的处理步骤。
优选地,处理单元被配置为计算RGB域中的ANN的损失函数。
优选地,ANN被实现为卷积神经网络(CNN)。
附图说明
在下文中,将参考示出了本发明的示例性实施例的附图,其中附图示出了下列:
图1示出了根据本发明的方法的实施例的示意图,
图2示出了根据本发明的相机设备的实施例的示意图,
图3示出了用于训练和使用人工神经网络的第一实施例的示意图;
图4示出了用于训练和使用人工神经网络的第二实施例的示意图,
图5示出了根据本发明的一些实施例的用于生成训练和验证数据的过程的示意图,
图6示出了根据本发明的一些实施例的损失函数设计的示意图,
图7示出了根据本发明的方法的第一实施例所获得的结果,和
图8示出了根据本发明的方法的第二实施例所获得的结果。
具体实施方式
在图1中,示意性地图示了根据本发明的方法的实施例。在第一方法步骤110中,使用图像传感器捕获原始图像文件。优选地,图像传感器可以是CCD或CMOS图像传感器。捕获的原始图像文件表示未经滤波的文件,没有对该图像文件应用附加的图像处理。在第二步骤120中,将捕获的原始图像文件输入到预训练的人工神经网络(ANN)中。ANN被配置为基于输入的原始图像文件输出表示具有模糊区域的图像的计算的原始图像文件。通过提供训练数据,预先训练ANN以供使用。优选地,训练数据包括作为成对的原始图像文件提供的多于1000或10000个原始图像文件。每对训练原始图像文件可以包括表示没有任何模糊区域的训练原始图像的第一训练原始图像文件(也被称为未处理的训练原始图像文件)和表示具有模糊区域的训练原始图像文件的第二训练原始图像文件(也被称为经处理的或经滤波的训练原始图像文件)。在第三步骤130中,将由ANN计算的原始图像文件输入到图像处理单元中,根据一些实施例,该图像处理单元可以是图像信号处理器(ISP)。IPU被配置为执行用于处理输入原始图像文件的若干处理步骤,诸如去马赛克、降噪和图像锐化。因此,在第四步骤140中,IPU基于输入的原始图像文件核算(即,计算)RGB图像文件。
在图2中,示意性地表示了根据本发明的相机设备10的实施例。相机设备10包括图像传感器、处理单元和图像处理单元(IPU),图像处理单元(IPU)可以被实现为独立的图像信号处理器(ISP)或软件实现的功能。图像传感器被配置为捕获原始图像文件。处理单元被配置为将捕获的原始图像文件输入到预训练的ANN中,并将由ANN计算的原始图像文件输入到IPU中。最后,IPU被配置为基于由ANN计算的原始图像文件来计算RGB图像文件。
在图3中,图示了根据本发明的用于训练和使用ANN的第一实施例。根据第一实施例,ANN用于模拟光学抗混叠滤波器的存在。首先考虑的是,ANN接收原始(CFA)图像作为输入,并产生相同类型的图像作为输出。该模型被训练以重构输入的模糊版本,即,就好像在相机光学器件中存在光学低通滤波器一样。图3图示了简化的训练过程和在生产中用于推理的模型的使用。
ANN被训练成对已经采样的信号应用抗混叠滤波器(AAF)。这不能用常规的滤波技术(例如,数字模糊)来实现,因为在混叠图像区域中,低通滤波和采样步骤是不可互换的。
在所描述的设置中出现的模型可以通过应用数字AAF(校正彩色摩尔纹,但是使原始图像更加模糊)来对原始图像进行预处理。经校正的原始图像稍后被馈送到传统的IPU中,根据一些实施例,该传统的IPU可以被实现为ISP。传统的IPU不是为校正彩色混叠而定制的,但通常具有内置的高级锐化机制。因此,IPU允许补偿由数字AAF引起的清晰度损失。
此外,所提出的模型还可以用作多帧方法的一部分,以数字方式渲染离焦帧,而不是捕获该帧,这将极大地简化重影伪影管理、图像配准、集成到相机固件中,并且还可以减少捕获时间。
使用第一实施例,能够从已经捕获的和可能混叠的清晰聚焦帧进行离焦帧合成。这减少了总捕获时间,并避免了复杂的图像拼接和防重影处理块的需要。
此外,使用根据所描述方案的经训练的ANN被应用于图像采集流水线的开始处,而不需要对其剩余部分进行复杂的调整,并且集成所需的工程工作量最小。
在图4中,图示了根据本发明的用于训练和使用ANN的第二实施例。上文所描述的和图3中图示的设置允许模拟不太清晰的光学***,而最终目标是尽可能保持图像清晰(例如,在不包含易于混叠的高频的图像区域中),否则局部应用低通滤波器。以这种方式工作的模型可以被视为自适应数字抗混叠滤波器。
定义这种滤波器的行为的方式是以其CFA版本作为输入来重构RGB图像。然后,最初的问题被视为去马赛克问题,因为IPU中的现有的去马赛克不能简单地被取代,所以这不符合如上所述的本发明的集成约束。为此,考虑不同的问题:将去马赛克应用于模型输出,并且在RGB域中计算损失函数。在该设置中,模型被视为去马赛克预处理步骤,其训练需要如下文所详述的去马赛克算法行为的知识。除此之外,在生产场景中,模型的使用方式与上文所讨论的完全相同(原始到原始)。然而,这次它直接重构了清晰的无混叠原始图像,这使其能够应用于一般的照片用例。
图4中所描述的第二实施例可以用于一般的照片捕获用例中,以盲的端对端方式从单个图像中去除彩色摩尔纹。与光学AAF不同的是,它允许保持清晰的图像区域,其不会被彩色摩尔纹破坏。
此外,如关于第一实施例所讨论的,使用根据所描述的方案的经训练的ANN被应用在图像采集流水线的开始处,而不需要对其剩余部分进行复杂的调整,并且集成所需的工程工作量最少。
在图5中,图示了根据本发明的优选的实施例的用于生成训练和验证数据的过程。由于问题的特殊性和原始图像的使用,没有或仅极少的数据可用于训练上文所描述的ANN模型。因此,优选地,可以使用图5中所图示的过程来构建数据集。因此,可以确保用于生成训练和验证数据的高效过程。
该过程的大部分对于在图3和图4中所图示的两个所提出的实施例是共同的。该生成过程的结果是一组图像,其中每个条目具有以下三个对应部分:(a)被摩尔纹破坏的输入图像,(b)第一实施例监督目标,以及(c)第二实施例监督目标。
训练和验证数据生成需要一组进一步被称为源图像的RGB图像,从而允许通过数值模拟获得逼真的原始图像。为了渲染源图像,手动选择的一组无摩尔纹的原始图像是在没有削波的情况下拍摄的,并使用常规的照片处理软件对其进行处理,执行去噪、透镜遮光和白平衡校正、去马赛克和最小颜色校正(颜色矩阵)。由于以下属性,所得到的源图像是特别令人感兴趣的:
·源图像无噪声且不含混叠,允许自由处理(主要是重新采样)它们以用于数据扩充目的。
·源图像在感知标准化的颜色空间中,即应用了白平衡和颜色校正,这使得它们的颜色统计独立于场景光源。只要没有应用复杂的颜色映射,并且在输入图像中不存在削波,则可以考虑根据任意选择的光源和给定的传感器,通过使用它们对应的白平衡标度和颜色矩阵,将图像颜色反转回至原始传感器颜色。通过这样做,最终得到的是RGB无噪声图像,其颜色看起来像逼真的原始图像颜色。
·然后通过应用CFA图案并根据给定的传感器噪声模型添加合成噪声,最终得到逼真的原始图像。根据给定的源图像的内容,应用CFA图案可能会导致混叠和彩色摩尔纹。
然后,优选地,源图像可以进行以下处理,以得到上述两个实施例的输入和监督目标图像:
·可以首先应用一组常见的数据扩充操作:随机平移、旋转、缩放、透视畸变和随机颜色变化。通过这些措施,可以增加数据集的多样性,并且可以避免过拟合。
·接下来可能会进行逆颜色处理,以得到原始传感器颜色。可以从预定义的一组光源中随机选取光源。
·接下来,为了确保一定量的混叠和彩色摩尔纹,在源图像的顶部上渲染合成的高频图案。为此,可以从具有从像素到像素快速变化的强度值的像素的规则网格开始,并应用一组随机几何变形来增加多样性。
·为了使所得到的图像看起来仍更逼真,可以应用随机曝光变化和模拟透镜遮光。
此时,数据流水线(pipeline)可以分成如下的三个分支:
1.神经网络输入图像可以通过简化的传感器模拟过程生成,该简化的传感器模拟过程由应用CFA、添加图像噪声和模仿传感器削波组成。由于合成的高频内容通过CFA二次采样,所以这些图像容易出现彩色摩尔纹。
2.为了获得第一实施例的监督目标(使用神经网络来模拟AAF,参见图3),图像可以用线性低通滤波器进行平滑,然后可以经过相同的传感器模拟。在这种情况下,由于该低通滤波器在CFA采样过程之前起作用并衰减高频信号分量,因此所得到的图像不具有彩色摩尔纹。
3.第二实施例的监督目标(使用神经网络来重构清晰的无摩尔纹的图像,参见图4)可以在不应用CFA的情况下获得,但是具有附加的颜色处理步骤以使图像看起来类似于去马赛克的图像。在这种情况下,所得到的图像没有彩色摩尔纹,只要源图像没有彩色摩尔纹,并且当前数据流分支中不涉及CFA二次采样。
除了上述之外,根据本发明,可以使用成像任务中常用的自动编码器架构的不同变体。除了所描述的数据集生成过程和损失函数之外,进一步的训练设置包括现有技术中已知的标准程序。例如,可以实现公共深度学习框架(PyTorch)、常规优化器和学习率调度策略。
在图6中,图示了根据图3所示的第一实施例的损失函数设计。如图3中所图示的,可以使用简单的损失函数来训练第一实施例中的模型,例如CFA域中模型输出和监督目标之间的L1差。虽然这已经允许训练模型,但是下文将提出改善的方法。
已知感知损失能够为不同成像任务实现更好的重构质量(例如,超分辨率或去噪,参见J.Johnson、A.Alahi和L.Fei-Fei:“Perceptual losses for real-time styletransfer and super-resolution.”,European conference on computer vision,Springer,Cham,2016年)。它使用预训练的卷积神经网络将图像映射到潜在的特征空间,并在该特征空间中最小化图像之间的差异。但是,它不能应用于原始图像,需要RGB输入。这意味着需要将去马赛克算法作为损失函数的一部分。在待训练的模型之后,它在损失函数中的使用需要其反向传播梯度的能力。此外,这种算法的最佳选项是IPU中使用的实际去马赛克。
为了满足这一需求,首先可以为去马赛克(demosaicking)任务训练另一个神经网络,其近似于IPU中的去马赛克单元。这可以通过用感兴趣的设备拍摄一组所捕获的原始照片并使用由IPU供应商提供的专用IPU模拟软件实现与IPU中完全相同的算法来进行。照片由模拟软件处理,该模拟软件可以选择转储去马赛克单元的输入和输出。然后,转储的内容可以用作其输入和监督目标,以训练执行去马赛克的卷积神经网络。然而,它的具体架构以及训练细节被认为超出了本发明的范围。
这种去马赛克算法符合要求:它允许梯度反向传播来在上游训练模型,并且它提供了原始IPU去马赛克单元的相当精确的近似。需要注意的是,它的权重可能会被冻结,以便它在摩尔纹校正模型训练期间不会自我演变。
将去马赛克CNN应用于模型输出和监督目标提供了可以被馈送至感知损失的RGB图像。可以遵循文献中的通用方法,该通用方法由总结L1损失项和基于VGG的感知损失项组成。
根据图4中所图示的第二实施例,神经网络可以用于原始图像中的端到端的摩尔纹校正。根据该实施例,清晰的无摩尔纹输出的重构也利用了去马赛克CNN。
简单的方法是在RGB域中应用类似的损失函数(L1+感知损失)。在这种情况下,只要该实施例中的监督目标已经是RGB图像,则去马赛克CNN仅需要应用于模型输出。
然而,本发明的实验工作已经表明,将第一实施例监督目标与第二实施例监督目标结合在一起会导致更强有力的摩尔纹校正。为了解释这一点,这两个图像还分别被称为模糊目标和清晰目标。该符号对应于两个图像中存在的模糊量。
即,要求尽可能地最小化在模型输出图像和清晰目标之间的差异。当模型不能进一步改善最小化该量时,需要最小化在模型输出和模糊目标之间的差异。这可以被放入如下公式中:如果a是与清晰目标的每像素差值,b是与模糊目标的每像素差值,则使a相对于b的每像素优先级最小化的复合量将是a(1+b)。
根据本发明,L1每像素差值可以用于a和b。这样的过程是局部自适应AAF的一种可能的正式定义,只要输出图像在由于混叠输入信号而不可能重构高频内容的区域中变得平滑。同样的去马赛克CNN自然以与上文所描述的相同的方式参与到这个过程中。
图7示出了通过训练和使用如在图3中所图示的ANN的上述第一实施例所获得的结果。从图7中可以看出,在左侧呈现的输入图像包括显著的摩尔纹图案。使用ANN计算的处理版本在图7的右侧示出。从图7中可以看出,经处理的版本中的摩尔纹图案显著减少。然而,特别是在放大时,经处理的图像看起来比原始图像更模糊。
图8示出了通过训练和使用如在图4中所图示的ANN的上述第二实施例所获得的结果。同样,输入图像在左侧示出,经处理的图像在右侧示出。从图8可以看出,在处理之后,摩尔纹图案显著减少。此外,即使经处理的图像放大,经处理的图像仍然清晰。
缩写列表
AAF抗混叠滤波器
ADC模数转换
CFA色彩滤波阵列
CNN卷积神经网络
IPU图像处理单元
ISP图像信号处理器
RAM随机存取存储器
RGB红色、绿色、蓝色。
Claims (14)
1.一种用于生成经摩尔纹校正的图像文件的方法,包括以下步骤:
-使用图像传感器捕获(110)原始图像文件;
-将所捕获的原始图像文件输入(120)到预训练的人工神经网络(ANN)中,其中所述ANN被配置为基于输入的原始图像文件输出表示具有模糊区域的图像的计算的原始图像文件;
-将所述计算的原始图像文件输入(130)到图像处理单元(IPU)中;和
-由所述IPU基于所述计算的原始图像文件来计算(140)RGB图像文件。
2.根据权利要求1所述的方法,还通过执行以下步骤来提供所述预训练的ANN:
-通过使用训练数据来训练所述ANN,其中所述训练数据包括成对的训练图像,并且每对训练图像包括表示没有任何模糊区域的训练图像的第一训练原始图像文件,和表示具有模糊区域的训练图像的第二训练原始图像文件。
3.根据权利要求2所述的方法,其中所述第一训练原始图像文件是通过对训练RGB图像文件应用色彩滤波阵列(CFA)而生成的。
4.根据权利要求3所述的方法,其中所述第二训练原始图像文件是通过对所述训练RGB图像文件应用抗混叠滤波器以及通过对经抗混叠滤波的训练RGB图像文件应用CFA而生成的。
5.根据权利要求2至4中任一项所述的方法,其中在原始域中计算所述ANN的损失函数。
6.根据权利要求2至4中任一项所述的方法,其中在RGB域中计算所述ANN的损失函数。
7.根据权利要求1至6中任一项所述的方法,其中所述ANN被实现为卷积神经网络(CNN)。
8.一种相机设备(10),包括图像传感器、处理单元和图像处理单元(IPU),其中
-所述图像传感器被配置为捕获原始图像文件;
-所述处理单元被配置为:
-将所捕获的原始图像文件输入到预训练的人工神经网络(ANN)中,其中所述ANN被配置为基于输入的原始图像文件输出表示具有模糊区域的图像的计算的原始图像文件;和
-将所述计算的原始图像文件输入到所述IPU中;和
-所述IPU被配置为基于所述计算的原始图像文件来计算RGB图像文件。
9.根据权利要求8所述的相机设备(10),其中所述处理单元还被配置为:
-通过使用训练数据来训练所述ANN,其中所述训练数据包括成对的训练图像,并且每对训练图像包括表示没有任何模糊区域的训练图像的第一训练原始图像文件,和表示具有模糊区域的训练图像的第二训练原始图像文件。
10.根据权利要求9所述的相机设备(10),其中所述处理单元被配置为通过对训练RGB图像文件应用色彩滤波阵列(CFA)来生成所述第一训练原始图像文件。
11.根据权利要求10所述的相机设备(10),其中所述处理单元被配置为通过对所述训练RGB图像文件应用抗混叠滤波器以及通过对经抗混叠滤波的训练RGB图像文件应用CFA来生成所述第二训练原始图像文件。
12.根据权利要求9至11中任一项所述的相机设备(10),其中所述处理单元被配置为计算原始域中的所述ANN的损失函数。
13.根据权利要求9至11中任一项所述的相机设备(10),其中所述处理单元被配置为计算RGB域中的所述ANN的损失函数。
14.根据权利要求8至13中任一项所述的相机设备(10),其中所述ANN被实现为卷积神经网络(CNN)。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP22290052.4A EP4332834A1 (en) | 2022-08-29 | 2022-08-29 | Method and camera device for generating a moiré-corrected image file |
EP22290052.4 | 2022-08-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117670706A true CN117670706A (zh) | 2024-03-08 |
Family
ID=83900238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311103794.XA Pending CN117670706A (zh) | 2022-08-29 | 2023-08-29 | 用于生成经摩尔纹校正的图像文件的方法和相机设备 |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP4332834A1 (zh) |
CN (1) | CN117670706A (zh) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102569699B1 (ko) * | 2018-12-24 | 2023-08-23 | 엘지디스플레이 주식회사 | 모아레 제거 모델을 생성하기 위한 장치, 모아레를 제거하기 위한 방법 및 모아레를 제거하기 위한 촬상 장치 |
EP4044110A4 (en) * | 2020-10-27 | 2023-02-22 | Samsung Electronics Co., Ltd. | METHOD FOR GENERATION OF IMAGE DATA WITH REDUCED NOISE AND ELECTRONIC DEVICE FOR IMPLEMENTING IT |
-
2022
- 2022-08-29 EP EP22290052.4A patent/EP4332834A1/en active Pending
-
2023
- 2023-08-29 CN CN202311103794.XA patent/CN117670706A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4332834A1 (en) | 2024-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11625815B2 (en) | Image processor and method | |
US9094648B2 (en) | Tone mapping for low-light video frame enhancement | |
JP5284537B2 (ja) | 画像処理装置、画像処理方法、画像処理プログラム、およびそれを用いた撮像装置 | |
US9307212B2 (en) | Tone mapping for low-light video frame enhancement | |
KR100911890B1 (ko) | 이미지 모델의 컬러 성분의 복원을 위한 방법, 시스템,프로그램 모듈, 및 컴퓨터 프로그램 생성물 | |
US8878967B2 (en) | RGBW sensor array | |
KR20110082421A (ko) | 하이 다이나믹 레인지 영상을 획득하는 장치 및 그 방법 | |
IES20080337A2 (en) | Image processing method and apparatus | |
Chang et al. | Low-light image restoration with short-and long-exposure raw pairs | |
CN113632134B (zh) | 用于生成高动态范围图像的方法、计算机可读存储介质和hdr相机 | |
Akyüz | Deep joint deinterlacing and denoising for single shot dual-ISO HDR reconstruction | |
CN115115516B (zh) | 基于Raw域的真实世界视频超分辨率的构建方法 | |
JP5765893B2 (ja) | 画像処理装置、撮像装置および画像処理プログラム | |
Rasheed et al. | LSR: Lightening super-resolution deep network for low-light image enhancement | |
Chang et al. | Beyond camera motion blur removing: How to handle outliers in deblurring | |
KR20090117617A (ko) | 화상 처리 장치, 방법, 및 프로그램 | |
EP4332834A1 (en) | Method and camera device for generating a moiré-corrected image file | |
Silva et al. | A deep learning approach to mobile camera image signal processing | |
JP7183015B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
US20120013775A1 (en) | Enhanced Image Capture Sharpening | |
JP2013235456A (ja) | 画像処理装置及びその制御方法、並びにプログラム | |
Yue et al. | Hdr video reconstruction with a large dynamic dataset in raw and srgb domains | |
WO2006112814A1 (en) | Edge-sensitive denoising and color interpolation of digital images | |
JP7248042B2 (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
KR102664666B1 (ko) | 모션 디블러링을 이용한 영상 복원 장치 및 이의 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |