CN115714919A

CN115714919A - 用于相机控制的方法、图像信号处理器及设备

Info

Publication number: CN115714919A
Application number: CN202210880734.8A
Authority: CN
Inventors: 亚尔诺·尼卡宁; 郭嘉琪
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2021-08-20
Filing date: 2022-07-25
Publication date: 2023-02-24
Also published as: EP4138390A1; US20230058934A1

Abstract

用于相机控制以获取图像的方法和设备。方法包括：由图像传感器获取包括至少一帧的图像帧流；通过图像传感器获取目标帧；确定目标帧中的场景信息；通过识别参考帧中目标帧的场景信息，从图像帧流中选择参考帧；确定参考帧的至少一个采集参数；并且使用采集参数从目标帧获取最终图像。

Description

用于相机控制的方法、图像信号处理器及设备

技术领域

本发明涉及电子设备和控制这种电子设备的方法。更特别地，本发明涉及一种用于相机控制以获取图像的方法以及实现该方法的图像信号处理器(ISP)。此外，本发明涉及实现这种方法的设备。

背景技术

在当前现有的相机***中，一些场景的取景是困难的，并且用于自动白平衡(AWB)、自动曝光控制(AEC)和色调映射(TM)的实施的算法可能会产生不令人满意的结果。特别是如果帧中只有一种颜色或只有有限数量的不同颜色可见，AWB可能无法达到正确的照明估计，并且AEC/TM可能无法正确估计对象的真实亮度。因此，同一场景的不同帧之间的颜色和亮度再现可能会不一致，从而导致图像和视频质量较差，以及用户体验较差。

同一场景的不同取景具有不同颜色和/或亮度再现的问题仍然存在于所有数码相机设备中。最常见的时间稳定性的处理仍然依赖于AWB/AEC/TM算法的采集参数的直接时间过滤，例如通过使用得出多帧算法结果的修剪均值或其他类似过滤器，这确保后续帧的采集参数之间的平滑过渡，但不能确保始终一致地再现相同照明下的相同对象。

为了解决此问题，应该使用更多关于场景的信息，而不仅仅是当前的相机帧。一种可能性是对连续的AWB和/或AEC/TM结果进行时间过滤。这会导致每个后续帧之间的平滑过渡，但不会防止收敛到错误的参数。因此，它不能解决提出的问题。

因此，本发明的目的是提高自动白平衡(AWB)、自动曝光控制(AEC)和色调映射(TM)算法中图像和视频的颜色和亮度再现的一致性和准确性。

发明内容

通过本发明，提供了用于相机控制以获取图像的方法，并且提供了相机设备。

在本发明的第一方面中，提供了用于相机控制以获取图像的方法。方法包括以下步骤：

通过图像传感器获取包括至少一个帧的图像帧流；

通过图像传感器获取目标帧；

确定目标帧的场景信息；

通过识别参考帧中的目标帧的场景信息，从图像帧流中选择至少一个参考帧；

确定参考帧的至少一个采集参数；以及

通过至少一个采集参数从目标帧确定最终图像。

因此，根据本发明，由相机的图像传感器获取包括至少一个帧并且优选地包括多个后续帧的图像帧流。特别地，图像帧流可以用作相机的预览，或者可以是视频流的一部分。

随后，由图像传感器获取目标帧，其中目标帧的选择可以通过用户交互来执行，诸如按下触发按钮开始录制视频或获取图像或者是视频流的下一个图像或者是预览操作的帧。因此，目标帧是用户想要捕捉或在预览中显示给用户的图像的原始数据。

随后，确定目标帧的场景信息。其中，场景信息可以与整个目标帧或目标帧中的任何现实世界对象相关。其中，对象包括可用于在图像帧流中识别的形状、表面和结构，并且可以包含多个整个对象和一些部分可见的对象，或者它可以仅包含一个对象的一部分。此外，可以为部分目标帧或完整目标帧确定场景信息。类似地，为了识别图像帧流的相应图像帧中的场景信息，可以确定图像帧的一部分或完整图像帧的场景信息以识别场景信息的匹配。

之后，通过在参考帧中识别目标帧的场景信息，从图像帧流中选择至少一个参考帧。检查图像帧流中的每个帧是否存在与相应图像帧中目标的对应场景信息的至少部分匹配。因此，检查图像帧流的图像帧的一致场景信息。具体而言，可以通过场景信息将目标帧内容与早期帧作为一个整体进行比较，以查看当前帧内容中有多少在早期帧中可见，而无需将目标帧内容分割成对象然后逐个对象来比较。如果能够在图像帧流的其中一帧中识别出场景信息，则选择图像帧流中的此帧作为参考帧。其中，优选地，此方法连续地检查图像帧流中的图像帧以识别相应的场景信息并选择参考帧。可替代地，仅检查那些可能提高采集准确性和一致性的图像帧。

从参考帧确定至少一个或多个采集参数，并且通过使用所确定的采集参数从目标帧确定最终图像。其中，采集参数可以与自动白平衡(AWB)、自动曝光控制(AEC)和/或色调映射(TM)参数有关。

因此，本发明使用在捕获目标帧之前获取的图像帧的采集参数，以提高图像和视频的颜色和亮度再现的一致性和准确性。因此，通过本发明，从先前获取的图像帧使用关于在其中操作相机的场景的更多信息。

优选地，场景信息可以包括针对图像帧流中的图像帧和目标帧的定位信息，例如，同时定位和映射(SLAM)数据。因此，通过利用SLAM数据，相机可以很容易地通过SLAM数据的重叠来确定场景信息是否匹配。其中，例如，通过SLAM数据，可以确定目标帧的对象的存在，该对象也存在于图像帧流的一个图像帧中。因此，基于获取的SLAM数据，可以执行参考帧的选择。其中，可以针对目标帧的一部分或完整的目标帧获取SLAM数据。类似地，可以针对完整的图像帧中的每一个或仅相应图像帧的部分获取SLAM数据。通过使用SLAM数据，无需使用大量带注释的真值数据来训练任何对象识别，从而降低了积累高质量训练数据的成本。此外，通过使用SLAM数据，本发明不限于识别特定的和先前训练的对象。特别地，通过使用SLAM数据，该方法独立于相应对象，这些对象可以是现实世界的任何对象、特定结构、表面或形状，它们由SLAM过程定位和建图。此外，大多数现代终端，诸如智能手机、平板电脑等，已经实现了SLAM模块，使得SLAM模块提供的信息可以用于本发明中目标帧的识别。

优选地，场景信息包括图像帧和/或目标帧的深度信息或里程信息。替代地或附加地，场景信息包括图像传感器即相机的位姿。因此，优选地，相机包括惯性运动单元(IMU)中的一个或多个，诸如加速度传感器、陀螺仪等，以便能够获取相机的位姿。其中，对象的深度信息可以由立体相机测量、LIDAR等提供。其中，位姿和深度信息/里程信息也可以被包括在SLAM数据中。

优选地，通过在参考帧中识别目标帧的场景信息而从图像帧流中选择参考帧包括通过场景信息确定来自图像帧流的图像帧与目标帧的至少部分重叠。因此，通过匹配目标帧和相应图像帧的场景信息，确定目标帧和图像帧的场景内容的部分重叠，以确保使用所选择的参考帧的至少一个采集参数确定最终图像是适用的。因此，通过至少部分重叠，当目标帧的场景信息与图像帧流的图像帧的场景信息一致时，目标帧中存在且可见的对象在相应图像帧中也至少部分存在且可见。

优选地，场景信息包括场景的坐标并且优选地包括场景的对象。通过识别目标帧的场景信息从图像流中选择参考帧包括计算场景的坐标以及确定与图像帧流的相应图像帧的坐标的重叠。因此，如果根据计算出的坐标，相应图像帧与目标帧的场景之间存在足够的重叠，则可以选择该图像帧作为参考帧。其中，如果使用对象的坐标，则对象可以是任何真实世界的对象，诸如形状、结构、表面等。此对象还可以是数个真实世界对象或其一部分，仅一个现实世界对象或其一部分。其中，优选地，使用SLAM数据和/或深度信息和/或图像传感器的位姿以计算场景或场景中对象的坐标。其中，优选地，坐标是在世界坐标系中计算的，以便能够在各个帧之间进行比较，并且还可以在相机正在移动或相机的位姿正在改变的情况下进行比较。

优选地，计算场景或场景的对象的坐标包括：

获取相应图像帧和/或目标帧中像素(u，v)的深度信息d；

优选通过下式确定相机***中的坐标(X_cam,Y_cam,d,1)

X_cam＝(u×4-px)×d÷cx以及

Y_cam＝(v×4+60-py)×d÷cy

其中(px,py)为图像传感器的主点，(cx,cy)为焦距，其中优选地cx＝cy；以及

优选通过下式将坐标转换到世界坐标系

其中(X,Y,Z,1)是世界坐标系中的坐标，并且(R|t)是图像传感器的位姿。

优选地，随后将提供的目标帧在世界坐标系中的坐标与同样在世界坐标系中的图像帧流中的每个图像帧的坐标进行比较，以确定与目标帧的部分重叠。

优选地，选择参考帧包括确定关于采集参数的相应帧的置信水平，并且如果置信水平高于预设阈值，则选择参考帧。因此，通过置信水平提供了确定的相应的图像帧的至少一个或多个采集参数是否适合使用以确定最终图像的度量。只有当置信水平足够高，即高于预设阈值时，才会选择图像帧流中的图像帧作为参考图像。特别地，要被选择作为参考帧的相应图像帧的置信水平需要高于目标帧的置信水平，以便提供图像的颜色和亮度再现的一致性和准确性的改进。特别地，如果在图像帧流中没有发现置信水平高于预设阈值的图像帧，则从目标帧本身确定采集参数。

优选地，通过图像帧流的相应图像帧和目标帧之间的最大重叠以及图像帧流的相应图像帧的置信水平来选择参考帧。因此，可以实现颜色和亮度一致性和准确性的最佳化。

优选地，置信度值由特别是针对AWB的色域(color gamut)、针对AEC和/或TM的亮度域(brightness gamut)、针对AWB的2D色度的凸包(a hull of the 2D chromaticity)、针对AEC和/或TM的1D亮度范围(1D brightness range)或针对AWB和/或AEC和/或TM的3D颜色直方图(3D color histogram)中的一个或多个确定。如果使用SLAM数据对相机在其中操作的场景制作粗略模型，则可以使用来自具有更高置信水平的图像帧的AWB/AEC/TM参数来校正导致具有置信水平较低的目标帧的采集参数，从而提高颜色和亮度再现的一致性和准确性。

优选地，来自图像帧流的图像帧包括具有低于最终图像的分辨率并且特别是小于640x480像素的分辨率、更优选地小于320x240像素的分辨率并且更优选地小于64x48像素的分辨率的低分辨率图像。因此，可以容易地存储和处理来自图像帧流的图像帧，而不会增加对设备的计算需求。

优选地，图像帧流中的图像帧被存储在相机的存储器中，以供后续用于确定采集参数。特别地，如果来自图像帧流的图像帧提供低分辨率图像，则可以容易地存储图像帧而不会消耗过多的内存。特别地，可以仅存储图像帧流中的具有高于预设阈值的置信水平的图像帧。因此，仅存储可用作参考图像的那些图像帧，而忽略图像帧流中的其他图像帧，以进一步减少对存储器的需求。

优选地，相机位姿与图像帧流的存储的图像帧一起被存储。因此，通过位姿，可以计算相应图像帧中的对象的坐标。进一步的信息可以与图像帧流的图像帧一起存储，诸如焦距、主点和深度信息。

优选地，方法进一步包括：

检测参考帧和目标帧之间的照明变化，并在确定采集参数之前使参考帧适应变化的照明。

优选地，选择多于一个参考帧，其中从多于一个参考帧例如通过平均来确定至少一个采集参数。特别地，可以使用加权平均，其中多于一个参考帧的采集参数由它们相应的置信度值加权。

优选地，针对视频流或预览图像流的每个新目标帧迭代地重复此方法的步骤。

在本发明的方面中，提供了图像信号处理器(ISP)。ISP被配置为执行上述方法的步骤。优选地，ISP可连接到图像传感器以接收图像数据或图像帧。进一步，IPS可以连接到实现ISP的设备的SLAM模块，此设备可以是终端等。

在本发明的方面中，提供了相机设备，优选地在移动终端中实现。相机设备包括图像传感器、处理器和存储指令的存储器，此指令在由处理器执行时执行上述方法的步骤。

优选地，相机设备包括获取SLAM数据以识别参考帧的SLAM模块。

附图说明

参照附图更详细地描述本发明。

附图示出：

图1是根据本发明的方法的流程图，

图2是根据本发明的方法的步骤的示例图像，

图3详细示出了根据本发明的方法的步骤，

图4是示出了本发明的另一个实施例的示意图以及

图5是根据本发明的相机设备。

具体实施方式

本发明涉及相机控制，以提高图像和视频的颜色和亮度再现的一致性和准确性，特别是在自动白平衡(AWB)、自动曝光控制(AEC)和色调映射(TM)算法期间。

优选地，根据本发明的方法被实施在优选为诸如智能手机、平板电脑等终端的相机模块中。优选地，相机模块连接到用于执行本发明的步骤的处理模块。处理模块可以包括图像信号处理器(ISP)等。然而，本发明不限于某种终端或任何具体实施方式。

参见图1，示出了用于相机控制以获取图像的方法。

在步骤S01中，由图像传感器获取图像帧流，其中图像帧流包括至少一个帧。

因此，由相机的图像传感器获取包括至少一个帧并且优选地包括多个后续帧的图像帧流。特别地，图像帧流可以用作相机的预览，或者是捕获的视频流的一部分。特别地，图像帧流的图像帧具有低分辨率，优选地低于640x480像素，更优选地分辨率低于320x240像素，更优选地分辨率低于64x48像素。可替代地，图像帧是3A统计数据而不是最初的原始帧，以减少内存消耗，例如是表示线性化原始相机RGB图像帧的2D RGB网格。

在步骤S02中，由图像传感器获取目标帧。

其中，目标帧的选择可以通过用户交互来执行，诸如按下触发按钮以开始录制视频或获取图像。可替代地，目标帧由要被捕获的视频流的下一帧或预览的下一帧确定。因此，目标帧是用户想要捕获的图像的原始数据。

在步骤S03中，优选地由处理模块或ISP确定目标帧的场景信息。

其中，场景信息包括关于目标帧的场景的任何信息。可以针对部分目标帧或完整目标帧确定场景信息。类似地，为了识别图像帧流的相应图像帧中的场景信息，可以确定图像帧的一部分或完整图像帧的场景信息以识别场景信息的匹配。

在步骤S04中，优选地由处理模块或ISP通过识别参考帧中的目标帧的场景信息，从图像帧流中选择参考帧。

检查图像帧流的每个帧是否在相应图像帧与目标帧的场景信息之间存在至少部分重叠，目标帧的场景内容是否部分或完全存在于相应图像帧中。可替代地，仅检查那些可能提高采集准确性和一致性的图像帧。如果能够在图像帧流的其中一帧中识别出场景信息，则选择图像帧流中的这一帧作为参考帧。其中，优选地，此方法连续地检查图像帧流中的图像帧以识别相应的场景信息并选择参考帧。因此，通过场景信息确定目标帧与图像帧流的相应图像帧之间的重叠，以在确定足够重叠的情况下识别要选择的可能参考帧。

在步骤S05中，优选地由处理模块或ISP确定参考帧的至少一个采集参数。其中，至少一个采集参数可以是从参考帧确定的自动白平衡(AWB)、自动曝光控制(AEC)和/或色调映射(TM)参数。

优选地，选择多于一个参考帧，其中至少一个采集参数例如通过平均从多于一个参考帧确定。特别是，可以选择匹配分数高于某个水平的所有参考帧。特别地，可以使用加权平均，其中多于一个参考帧的采集参数由它们相应的置信度值加权。因此，可以使用来自先前帧的更多信息来确定目标帧的采集参数，从而提供更可靠的结果。

在步骤S06中，优选地由处理模块或ISP通过至少一个采集参数从目标帧确定最终图像。

其中，目标帧包含原始数据，并且一旦确定相应的采集参数后，通过使用来自参考帧的一个或多个采集参数确定目标流的原始数据。

因此，通过本发明，捕获目标帧之前获取的图像帧的采集参数被使用以增加图像和视频的颜色和亮度再现的一致性和准确性。因此，通过本发明，从先前获取的图像帧中使用关于相机在其中操作的场景的更多信息。

在步骤S04中，定位信息，并且更优选地，SLAM数据可以用作场景信息，以对相机在其中操作的场景制作粗略模型，以确定参考帧，该参考帧包括与目标帧至少部分地相同的场景内容。然后，来自具有较高置信水平的帧的AWB/AEC/TM参数可用于校正导致具有较低置信水平的目标帧的参数，从而提高颜色和亮度再现的一致性和准确性。因此，通过利用SLAM数据，如果相应图像帧和目标帧之间的场景内容中存在至少部分重叠，则相机可以容易地确定目标帧的场景信息是否在图像帧流的图像帧的一个中也存在。因此，基于获取的SLAM数据，可以执行参考帧的选择。特别地，通过使用SLAM数据作为场景信息，此方法独立于要识别的相应对象，并且可以使用真实世界的任何对象，诸如由SLAM过程定位和映射的结构、表面或形状以确定目标帧和相应图像帧之间的重叠。此外，大多数现代终端，诸如智能手机、平板电脑等，已经实现了SLAM模块，使得由SLAM模块提供的信息可以用于本发明中目标帧的识别。

其中，此方法可以在迭代过程中实现，并针对是视频流的帧或预览的帧的每个新目标帧进行重复，从而不断提高图像再现。

参考图2，图2示出了获取最终图像的步骤。其中，图2涉及用于AWB算法的实现。然而，本方法也可以替代地或同时地在如上所述的AEC或TM算法中实现。

在图片A中获取初始图像，其中通过自动白平衡算法为初始图像确定与AWB相关的采集参数，并将其应用于图片B以实现正确调整的图片。其中，通过SLAM算法同时执行图片B的内容的定位和映射，并且对于相应图像帧的场景，确定点云作为场景信息。对包括图2的图片A到E的图像帧流的每个图像帧重复这些步骤。

图片C通过将相机移近对象14或通过放大示出了场景中相应对象的更近视图。其中，对象14存在于图像帧B和C中，其中点云的点14标记了对象14。类似地，通过点云的其他点10检测其他对象。

图片D示出了更近的相同对象14，从而减少了图像的色域。图片E仅包含对象14，并且几乎所有颜色信息都是直接从对象14本身提取的，导致低色域被用作确定图片E的相应AWB参数的信息。在图片B-D和E之间的比较中可以清楚地看到并在图片F和G中详细示出，AWB算法可能会失败，导致对象14的颜色错误，如图片F中所示。

在图2的图片B中，图像具有高色域，因此可以实现与AWB参数相关的采集参数的高置信水平。此外，图片E中示出的目标帧与图片B的内容完全重叠，因为两者都示出了对象14。

因此，通过本发明的方法，随后在图像D、C和B的每一个中以与获取相反的顺序识别包括对象14的图片E的场景信息，直到达到具有关于AWB参数的高置信水平并且场景内容中仍然有重叠，即示出对象14的图片。其中，图像帧不需要完全包括对象14，但是图片E的目标帧与可能的参考帧之间的场景内容的部分重叠可能足以改善颜色再现。此外，本方法不限于特定对象，并且任何作为场景内容的对象都可以作为场景信息，诸如表面、形状、结构等。尽管图2作为示例对象14示出，但其他对象或对象的一部分也是可能的。这种通过多个图像帧B-D中的图像帧与目标帧E之间的场景信息的重叠的比较和识别优选地通过获取SLAM数据作为图片B至E中的每一个的场景信息来执行。由此，对象14的SLAM数据可以通过在其他帧中由SLAM算法确定的对象14的世界坐标来识别，以便确定重叠。因此，在图2的示例中，图片C被用作参考帧，并且为图片C确定的AWB参数也用于图片E的AWB，导致图片E具有校正的AWB并产生正确的颜色，从而提高对象14的颜色一致性和准确性。校正后的AWB产生图2的图片G中所示的结果，该结果具有正确的颜色，并且不受图片E本身提供的减少的颜色信息的影响。

图3中示出了用于确定目标帧和相应图像帧的场景或场景内对象的坐标的步骤。图3示出了世界坐标系22。在第一步中，在获取可以用作参考帧的图像帧流的帧20时，通过获取的深度信息或里程信息，可以在由“cam1”表示的第一状态/位置的相机的相机坐标系26中确定对象14在图像帧20中的坐标。通过相机“cam1”的位姿(R1，t1)和对象14在“cam1”的相机坐标系26中的坐标，可以确定对象14在世界坐标系22中的坐标。其中，不必具有如图3中所示的真实世界对象。相反，可以使用任何对象、表面、形状或结构，并且可以确定坐标以确定目标帧和相应图像帧之间的重叠。此外，可以使用场景中存在的多个对象、场景中多个对象的部分或场景中仅一个对象的部分的坐标，以确定目标帧和相应图像帧之间的重叠。

类似地，对于目标帧32，根据由“cam2”表示的相机状态中的相机的3D点云34提供的深度信息，可以在“cam2”的相机坐标系30中确定目标帧32中的对象14的坐标。通过相机“cam2”的姿势(R2，t2)和对象14在“cam2”的相机坐标系30中的坐标，可以确定对象14在世界坐标系22中的坐标。因此，可以确定目标帧32和帧20之间的重叠。其中，在图3的示例中，重叠是由世界坐标系中3D点云34的一组3D点确定的，这些点在目标和参考帧中都可见，并且不区分这些点属于哪个对象。3D点云可以从深度信息、相机位置和/或相机方位信息(相机位姿)确定，如下面更详细地举例说明的。

可替代地，对于“cam2”的目标帧32，可以在世界坐标系中仅确定对象14的坐标。目标帧32的3D点云34在世界坐标系中可获得。使用来自目标帧32的深度信息/地图、相机位置和/或相机位姿来构建此3D点云34。对于图像帧20，基于图像帧20中的相机位姿和/或相机位置确定相机状态“cam1”的相机与那些3D点的距离以确定图像帧20的哪个区域覆盖3D点云34的那些3D点。因此，图像帧20的深度信息可能不可用并且确定仅参考帧32的场景或对象与图像帧20的重叠，而无需计算整个图像帧20在世界坐标系中的坐标。

其中，可以将目标帧中每个像素的坐标转换到世界坐标系22中。可替代地，仅确定目标帧的某些点的坐标。类似地，对于来自图像帧流的相应图像帧，要么对于每个像素，确定世界坐标系中的坐标，或者可替代地，对于相应图像帧的像素的选择，坐标被确定并转换到世界坐标系22中，以便识别目标帧或目标帧中的对象与相应图像帧之间的重叠。

由于为图像帧获取的SLAM数据至少包括深度信息，即里程信息，在图像帧流中，目标帧32的场景或对象14的坐标可以被转换到世界坐标系22中，然后可以与参考帧20的场景或对象14的世界坐标进行比较，以便确定对象14是否存在于目标帧32和参考帧20中。仅当存在重叠时，即对象14在相应的图像帧中至少部分可见时，才认为此帧被用作参考帧。使用所确定的参考帧的采集参数用于生成最终图像。其中，对于每一帧，检查场景是否与较早的帧存在至少部分重叠。如果是，则检查较早的帧对于可用的采集参数是否具有更高的置信水平(分别针对AWB、AEC和TM)。

参考图4，***总共包含3个部分。第一部分是通过来自图像、IMU和深度数据的SLAM输入数据46在设备上运行SLAM 48进行相机位姿估计和场景建模50，其获取深度图或深度信息。在此过程中，图像帧序列被捕获并存储40。存储的帧也可以是低分辨率3A统计数据而不是最初的原始帧以减少存储器消耗，例如表示线性化原始相机RGB图像的2D RGB网格。此外，每帧存储相应的相机位姿(4×4矩阵)，以及其他图像元数据，诸如相机的焦距(cx,cy)、主点(px,py)和未校正的算法参数42，诸如AWB收益。同时采集深度数据或里程数据。

为每一帧计算算法置信度值44；例如，色域、2D色度的凸包或3D颜色直方图可以用作AWB/AEC/TM的置信度指标，因为在FOV内更多可见的颜色通常会使场景对于AWB更容易，对于AEC和TM也更容易来估计对象相对于场景中其他对象的正确亮度。凸包应该从与设备无关的颜色空间中的图像数据中计算出来，以便能够对所有设备的高置信度和低置信度使用相同的阈值。较高置信度帧是可用于校正低置信度帧的潜在参考帧。

做出相应图像帧是否具有高置信水平的决定52。如果图像帧具有高置信水平，则存储图像帧以供以后用作视频流、预览或图片的参考帧。对于高置信度帧的最终图像，使用未校正的AWB/AEC/TM参数生成最终图像。

如果在决定中图像帧对于AWB/AEC/TM参数具有低置信水平，则***将检索深度数据并构建深度图或3D点云58作为场景信息。为了构建3D点云，首先需要将深度图中的每个像素(u,v)通过使用投影相机固有矩阵信息转换到相机坐标系中，如下所示，

X_cam＝(u×4-px)×d÷cx

Y_cam＝(v×4+60-py)×d÷cy

其中d是深度图中的真实深度值。之后，可以通过以下等式获得3D点：

其中(R|t)是估计的相机位姿。

下一步是从所有获取的潜在参考帧(或被识别为属于相机当前在其中操作的同一物理空间的任何高置信度帧)的数据62验证目标帧i内容是否已显示在最近的潜在参考帧60中。将之前确定的目标帧的3D点通过反向执行上述步骤而投影回潜在参考帧j，并将(R|t)替换为潜在参考帧的相机位姿。基于最大化低置信度帧i在参考帧j中可见的比例(c_common_area(i,j))和最大化参考帧j具有(c_confidence(j))的置信水平来选择帧j作为参考帧。根据本发明的一个实施例，最大值是乘积c_common_area(i,j)*c_confidence(j)，但其他实现也是可能的。

一旦选择了参考帧j，***就移动到第三部分。AWB在这里用作示例算法。自动白平衡(AWB)是一种相机控制算法，估计照明的色度并计算白平衡(WB)RGB增益，无论主要照明如何，白平衡(WB)RGB增益使能正确且一致地再现对象颜色，从而实现颜色恒定。例如，无论照明的颜色如何，白色对象都被再现为白色(如果排除了色彩适应处理)。WB对图像RGB像素的影响可以表示为

x′＝C·G·x，

其中x是对应于线性化原始相机RGB值的3x1向量，G是对角线3x3WB RGB增益矩阵(对角线值是WB RGB增益)，C是从线性化原始相机RGB转换到设备独立的线性RGB的3x3颜色空间转换矩阵。

通过比较属于在两帧中都是可见的并且已经被标准化以消除任何曝光差异的影响(两者都是3x1 RGB向量)的相同对象表面的线性化原始像素RGB平均值common_area_avg_rgb(i)和common_area_avg_rgb(j)检测64帧i和j之间的照明变化。其中，如图3中所示的3D点云34的每个点在目标帧和参考帧中都具有对应的RGB值。这些是从每一帧计算“common_area_avg_rgb”的点。如果欧几里得距离或其他差异度量diff(common_area_avg_rgb(i)，common_area_avg_rgb(j))大于某个阈值common_area_similarity_thr，则认为检测到照明变化，否则认为照明不变。

做出是否可以检测到照明变化的决定66。

1.如果在目标帧i和较高置信度参考帧j之间没有检测到照明变化，则帧j的WB增益可用于帧i 68，并且可以仅在顶部应用常规时间过滤以确保帧之间的平滑参数变化。

2.如果检测到照明变化，则在应用到目标帧i之前，需要根据照明变化校正70较高置信度参考帧jWB RGB增益。在应用到帧i之前校正因子(3x1向量)correction_factor＝common_area_avg_rgb(j)/common_area_avg_rgb(i)用作帧j的WB RGB增益的乘数。

此处针对AWB描述的内容也可以适用于AEC或TM。使用针对相应参考帧j确定的校正的AWB/AEC/TM参数并将其应用72到目标帧以实现高颜色准确性和一致性。

参考图5，图5示出了在诸如智能手机、平板电脑等终端中实现的相机设备100。相机设备100包括处理器102和存储器104。其中，存储器104存储指令，当由处理器102执行这些指令时，执行上述方法的步骤。其中，相机设备100进一步可以包括或连接到图像传感器以获取图像数据以用于本发明的方法中。此外，相机设备可以包括或可以连接到SLAM模块。其中，相机设备100可以具有单独的SLAM模块或SLAM模块被实现在相机设备100使用的终端设备中。在图5中，为了说明的目的，相机设备100与图像传感器106和SLAM模块108一起被示出作为终端的集成的组件。

因此，通过使用终端或相机的SLAM模块提供的SLAM数据/深度信息，可以使用有关相应场景的更多信息，从而可以在不同帧中识别场景信息，以使用具有较高置信水平的帧的采集参数提高颜色再现的一致性和准确性。

Claims

1.一种用于相机控制以获取图像的方法包括：

通过图像传感器获取包括至少一个帧的图像帧流(S01)；

通过所述图像传感器获取目标帧(S02)；

确定所述目标帧的场景信息(S03)；

通过识别参考帧中的所述目标帧的所述场景信息，从所述图像帧流中选择至少一个参考帧(S04)；

确定所述参考帧的至少一个采集参数(S05)；以及

通过所述至少一个采集参数从所述目标帧确定最终图像(S06)。

2.根据权利要求1所述的方法，其中，所述场景信息包括定位信息，并且优选地包括图像帧和所述目标帧的同步定位和建图(SLAM)数据。

3.根据权利要求1所述的方法，其中，所述场景信息包括所述图像帧和/或所述目标帧的深度信息和/或所述图像传感器的位姿。

4.根据权利要求1所述的方法，其中通过识别参考帧中的所述目标帧的所述场景信息从所述图像帧流中选择所述参考帧包括通过所述场景信息从所述图像帧流中确定与所述目标帧至少部分重叠的图像帧。

5.根据权利要求4所述的方法，其中场景信息包括场景的坐标，并且其中通过识别目标帧的场景信息从图像流中选择参考帧包括计算目标帧的坐标并确定与图像帧流的相应图像帧中的坐标的至少部分重叠。

6.根据权利要求5所述的方法，其中，计算场景的坐标包括：

获取帧(u,v,0)中像素的深度信息d；

优选地通过下式确定相机***中的坐标(X_cam,Y_cam,d,1)

X_cam＝(u×4-px)×d÷cx以及

Y_cam＝(v×4+60-py)×d÷cy

其中(px,py)为所述图像传感器的主点，(cx,cy)为焦距；以及

优选地通过下式将所述坐标转换到世界坐标系

其中(X,Y,Z,1)是世界坐标系中的坐标，并且(R|t)是所述图像传感器的位姿。

7.根据权利要求6所述的方法，包括将所述目标帧中的对象的世界坐标系中的坐标与来自所述流的每个图像帧进行比较以确定所述至少部分重叠。

8.根据权利要求1所述的方法，其中，选择参考帧包括确定针对所述采集参数的相应帧的置信水平，并且如果所述置信水平高于预设阈值，则选择所述参考帧。

9.根据权利要求1所述的方法，其中，所述参考帧是通过所述图像帧流的相应图像帧的最大重叠和最大置信度值来选择的。

10.根据权利要求9所述的方法，其中，所述置信度值由色域、亮度域、2D色度的凸包、1D亮度范围或3D颜色直方图中的一个或多个提供。

11.根据权利要求1所述的方法，其中来自所述图像帧流的图像帧包括分辨率低于最终图像或原始图像帧的3A统计数据的低分辨率图像。

12.根据权利要求1所述的方法，其中，存储所述图像帧流的图像帧，并且优选地，存储所述图像帧流的具有高于预设阈值的置信水平的那些图像帧。

13.根据权利要求12所述的方法，其中，所述相机位姿与所述图像帧流的存储的图像帧一起被存储。

14.根据权利要求1所述的方法，其中，所述方法进一步包括：

检测所述参考帧和所述目标帧之间的照明变化，并在确定所述采集参数之前使所述参考帧适应变化的照明。

15.根据权利要求1至14中任一项所述的方法，其中，针对视频流或预览图像流的每个新目标帧重复所述方法的步骤。

16.一种图像信号处理器(ISP)，被配置为执行根据权利要求1至15所述的方法的步骤。

17.一种相机设备，包括处理器和存储指令的存储器存储，所述指令在由处理器执行时执行根据权利要求1至15中任一项所述的方法的步骤。