CN117956278A

CN117956278A - 自动对焦的方法和装置

Info

Publication number: CN117956278A
Application number: CN202311269498.7A
Authority: CN
Inventors: 崔明燮; 李韩娥; 李炯旭
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2022-10-31
Filing date: 2023-09-27
Publication date: 2024-04-30

Abstract

一种处理器实现的方法包括：生成包括输入图像的相位信息的第一输入数据；生成其中编码有镜头位置信息的第二输入数据；以及通过将第一输入数据和第二输入数据输入到神经网络模型来确定与自动对焦相对应的镜头的位置信息。

Description

自动对焦的方法和装置

相关申请的交叉引用

本申请要求于2022年10月31日在韩国知识产权局递交的韩国专利申请No.10-2022-0142661、以及于2023年1月9日在韩国知识产权局递交的韩国专利申请No.10-2023-0002774的权益，其全部公开内容通过引用合并于此以用于所有目的。

技术领域

以下描述设计自动对焦的方法和装置。

背景技术

自动对焦(AF)功能可以在捕捉图像时调整焦点。

用于操作AF功能的方法可以包括例如对比度检测自动对焦(CDAF)方法和相位检测自动对焦(PDAF)方法。CDAF方法可以是在移动镜头的同时获得图像帧，并找到使得所获得的图像帧的清晰度最高的镜头位置的方法。PDAF方法可以是对入射到相机上的光进行分离，并基于通过分离而获得的两个图像帧来找到镜头位置的方法。

发明内容

提供本发明内容以用简化形式介绍对下面在具体实施方式中进一步描述的构思的选择。本发明内容不意在标识所请求保护的主题的关键特征或基本特征，也不意在帮助确定所请求保护的主题的范围。

在一个或多个总体方面，一种处理器实现的方法包括：生成包括输入图像的相位信息的第一输入数据；生成其中编码有镜头位置信息的第二输入数据；以及通过将第一输入数据和第二输入数据输入到神经网络模型来确定与自动对焦相对应的镜头的位置信息。

该方法可以包括：生成其中编码有与输入图像的感兴趣区域(ROI)相对应的位置信息的第三输入数据。

生成第三输入数据还可以包括：将第一输入数据中的ROI的相对位置编码为第一轴数据和第二轴数据。

生成第三输入数据还可以包括：基于通过镜头进入图像传感器的光的强度信息来对ROI的位置信息进行编码。

生成第三输入数据还可以包括：基于高斯滤波器来对ROI的位置信息进行编码。

确定镜头的位置信息可以包括：通过将第三输入数据连同第一输入数据和第二输入数据一起输入到神经网络模型来确定镜头的位置信息。

生成第二输入数据还可以包括：对镜头位置信息进行编码，使得镜头的位置被表示为连续的数值。

生成第二输入数据还可以包括：基于根据镜头的位置而调整到焦距的非线性函数值来对镜头位置信息进行编码。

生成第二输入数据还可以包括：以单通道的形式对镜头位置信息进行编码。

生成第二输入数据还可以包括：以缩放因子的形式对镜头位置信息进行编码。

确定镜头的位置信息可以包括：预测多个预设候选位置之中与自动对焦相对应的一个位置。

确定镜头的位置信息可以包括：确定与自动对焦相对应的一个标量值。

第一输入数据可以包括双像素图像。

在一个或多个总体方面，一种非暂时性计算机可读存储介质存储指令，该指令在由处理器执行时，将处理器配置为执行本文所描述的操作和/或方法中的任何一种、任何组合或全部。

在一个或多个总体方面，一种电子设备包括：一个或多个处理器，被配置为：生成包括输入图像的相位信息的第一输入数据；生成其中编码有镜头位置信息的第二输入数据；以及通过将第一输入数据和第二输入数据输入到神经网络模型来确定与自动对焦相对应的镜头的位置信息。

该一个或多个处理器可以被配置为生成其中编码有与输入图像的感兴趣区域(ROI)相对应的位置信息的第三输入数据。

为了生成第三输入数据，该一个或多个处理器可以被配置为将第一输入数据中的ROI的相对位置编码为第一轴数据和第二轴数据。

为了确定镜头的位置信息，该一个或多个处理器可以被配置为通过将第三输入数据连同第一输入数据和第二输入数据一起输入到人工神经网络模型来生成镜头的位置信息。

为了生成第二输入数据，该一个或多个处理器可以被配置为对镜头位置信息进行编码，使得镜头的位置被表示为连续的数值。

为了生成第二输入数据，该一个或多个处理器可以被配置为基于根据镜头的位置而调整到焦距的非线性函数值来对镜头位置信息进行编码。

为了确定镜头的位置信息，该一个或多个处理器可以被配置为预测多个预设候选位置之中与自动对焦相对应的一个位置。

为了确定镜头的位置信息，该一个或多个处理器可以被配置为生成与自动对焦相对应的一个标量值。

第一输入数据可以包括双像素图像。

在一个或多个总体方面，一种电子设备包括：可移动的镜头；图像传感器，被配置为生成与由镜头的当前位置形成的光学图像相对应的图像信号的相位信息；以及一个或多个处理器，被配置为：对图像信号中的感兴趣区域(ROI)的位置信息进行编码；以及基于相位信息和编码的ROI的位置信息来执行自动对焦。

该一个或多个处理器可以被配置为基于通过镜头进入图像传感器的光的强度信息来对ROI的位置信息进行编码。

为了对ROI的位置信息进行编码，该一个或多个处理器可以被配置为基于高斯滤波器来对ROI的位置信息进行编码。

在一个或多个总体方面，一种方法包括：获得通过镜头的当前位置而形成在第一像素上的第一图像、以及通过镜头的当前位置而形成在第二像素上的第二图像；获得与第一图像和第二图像的一部分相对应的感兴趣区域(ROI)；将与ROI相对应的第一图像、与ROI相对应的第二图像、镜头的当前位置以及ROI的位置输入到神经网络模型；从神经网络模型接收处于对焦的镜头的位置作为输出；以及将镜头移动到处于对焦的位置。

图像传感器的所有像素可以包括在成对的第一像素和第二像素中。

图像传感器的仅一些像素可以包括在成对的第一像素和第二像素中。

ROI可以是从用户输入的区域。

ROI可以是与特定对象相对应的区域。

该特定对象可以是人脸。

ROI可以是第一图像和第二图像中的预设区域。

ROI可以是第一图像和第二图像中的中心区域。

可以将ROI的x轴数据和y轴数据单独输入到神经网络模型。

可以将镜头的当前位置作为单通道输入到神经网络模型。

可以将镜头的当前位置作为标量值应用于神经网络模型。

可以输出处于对焦的镜头的位置，作为在镜头的可移动范围内的100个或更多个连续位置之一。

可以输出处于对焦的镜头的位置，作为在镜头的可移动范围内的1000个或更多个连续位置之一。

其他特征和方面将通过以下详细描述、附图和权利要求变得清楚明白。

附图说明

图1A示出了根据一个或多个示例实施例的使用人工神经网络(ANN)的示例深度学习操作方法。

图1B示出了根据一个或多个示例实施例的ANN的示例训练和推理方法。

图2A示出了根据一个或多个示例实施例的示例电子设备。

图2B示出了根据一个或多个示例实施例的示例相机模块。

图3示出了根据一个或多个示例实施例的自动对焦的示例方法。

图4A和图4B示出了根据一个或多个示例实施例的对镜头的位置进行编码的示例。

图5示出了根据一个或多个示例实施例的自动对焦的示例方法。

图6示出了根据一个或多个示例实施例的对与感兴趣区域(ROI)相对应的位置信息进行编码的示例。

在整个附图和详细描述中，除非另有描述或提供，否则相同的附图标记可以被理解为指代相同或相似的元件、特征以及结构。附图可以不按比例绘制，并且为了清楚、说明和方便，可以扩大附图中元件的相对尺寸、比例和描绘。

具体实施方式

提供以下详细描述以帮助读者获得对本文描述的方法、装置和/或***的全面理解。然而，在理解了本申请的公开内容之后，本文中描述的方法、装置和/或***的各种改变、修改和等同物将是显而易见的。例如，本文中描述的操作顺序仅仅是示例，并不限于在本文中阐述的那些操作顺序，而是可以在理解了本申请的公开内容之后明显地改变，除了必须以一定顺序进行的操作之外。此外，为了更加清楚和简洁，可以省略在理解了本申请的公开内容之后已知的特征的描述。

本文描述的特征可以以不同形式来实施，并且不应被解释为限于本文描述的示例。相反，提供本文中描述的示例仅仅是为了说明实现本文中描述的方法、装置和/或***的许多可行方式中的一些，这些可行方式在理解了本申请的公开内容之后将是显而易见的。

本文中使用的术语仅用于描述各种示例，而不用于限制本公开。除非上下文另外明确指示，否则冠词“一”、“一个”和“该”也意在包括复数形式。如本文中所使用的，术语“和/或”包括关联列出的项目中的任何一个以及任何两个或更多个的任何组合。作为非限制性示例，术语“包括”、“包含”和“具有”表示存在所阐述的特征、数目、操作、构件、元件和/或其组合，但不排除存在或添加一个或多个其他特征、数目、操作、构件、元件和/或其组合。

贯穿说明书，当组件或元件被描述为“连接到”、“耦接到”或“接合到”另一组件或元件时，该组件或元件可以直接地(例如，与该另一组件或元件接触)“连接到”、“耦接到”或“接合到”该另一组件或元件，或者可以合理地在其间***一个或多个其他组件或元件。当组件或元件被描述为“直接连接到”、“直接耦接到”或“直接接合到”另一组件或元件时，在其间不能***其他元件。同样地，例如“在......之间”和“直接在......之间”以及“与......相邻”和“与......紧邻”等表达方式也可以如前所述来解释。

尽管本文中可以使用诸如“第一”、“第二”和“第三”、或A、B、(a)、(b)等术语来描述各种构件、组件、区域、层或部分，但是这些构件、组件、区域、层或部分不应受这些术语的限制。例如，这些术语中的每一个不用于定义对应构件、组件、区域、层或部分的本质、顺序或序列，而是仅用于将对应构件、组件、区域、层或部分与其他构件、组件、区域、层或部分进行区分。因此，在不脱离示例的教导的情况下，本文中描述的示例中提及的第一构件、组件、区域、层或部分也可以被称为第二构件、组件、区域、层或部分。

除非另外定义，否则这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员通常所理解的含义相同并且基于对本申请的公开内容的理解的含义。诸如在常用词典中定义的术语应被解释为其含义与在相关技术的上下文和本申请的公开内容中的含义一致，而不应被解释为理想的或过于形式化的意义，除非本文明确地如此定义。在本文中，关于示例或实施例(例如，关于示例或实施例可以包括或实现什么)的术语“可以”的使用意味着存在其中包括或实现这样的特征的至少一个示例或实施例，而所有示例不限于此。

如本文中所使用的，术语“和/或”包括关联列出的项目中的任何一个以及任何两个或更多个的任何组合。短语“A、B和C中的至少一个”、“A、B或C中的至少一个”等旨在具有分离性含义，并且这些短语“A、B和C中的至少一个”、“A、B或C中的至少一个”等也包括其中A、B和/或C中的每一项可以为一个或多个的示例(例如，A、B和C中的每一项的一个或多个的任何组合)，除非对应描述和实施例需要将此类列表(例如，“A、B和C中的至少一个”)解释为具有联合性含义。

作为非限制性示例，本文描述的示例实施例可以是各种类型的产品，例如个人计算机(PC)、膝上型计算机、平板计算机、智能电话、电视(TV)、智能家电、智能车辆、信息亭和/或可穿戴设备。在下文中，将参考附图来详细描述示例。当参考附图描述示例时，相同的附图标记表示相同的组件，并且省略与其相关的重复描述。

自动对焦可以是自动对焦于特定对象的功能，并且也可以被称为自动聚焦或AF。一个或多个实施例的方法和装置可以快速且准确地执行对焦，从而提高用户在捕捉图像或视频时的便利性。

可以存在实现此类自动对焦功能的方法，例如对比度检测自动对焦(CDAF)方法和/或相位检测自动对焦(PDAF)方法。

CDAF方法可以是在移动镜头的同时获得图像帧，并找到使得所获得的图像帧的清晰度最高的镜头位置的方法。PDAF方法可以是对入射到相机上的光进行分离，并基于通过分离而获得的两个图像帧来找到镜头位置的方法。

因为CDAF方法在连续移动镜头的同时计算对比度度量，所以该方法可能使用相对大量的时间来达到最终位置。此外，CDAF方法可能获得不准确的对比度度量，并且可能无法识别是否达到峰值，直到直接移动镜头为止。

尽管PDAF方法可以快于CDAF方法，但因为PDAF方法立即找到镜头的位置，所以与CDAF方法相比，PDAF方法可能总体上具有较低的性能。此外，PDAF方法可能需要通过校准来根据相位差预先映射镜头的位置，并且在存在显著的器件工艺误差和噪声的低光条件下可能存在相位误差。

如下面将详细描述的，根据一个或多个示例实施例的自动对焦(或AF)方法可以使用深度学习来执行自动对焦。一个或多个实施例的自动对焦方法可以基于根据图像中每个像素的位置而变化的相位差的特性，通过添加位置编码作为人工神经网络(ANN)的输入来改善自动对焦性能。在下文中，在详细描述根据一个或多个示例实施例的自动对焦方法之前，将参考图1A和图1B来描述ANN的示例。

图1A示出了根据一个或多个示例实施例的使用ANN的示例深度学习操作方法。

包括深度学习等的人工智能(AI)方法可以将输入数据输入到ANN，并通过诸如卷积等运算来学习输出数据。ANN可以指代计算架构。在ANN中，节点可以彼此连接，并共同操作以处理输入数据。作为非限制性示例，ANN可以是或可以包括前馈神经网络、深度神经网络(DNN)、卷积神经网络(CNN)、递归神经网络(RNN)、深度置信网络(DBN)和/或受限玻尔兹曼机(RBM)。在前馈神经网络中，节点可以具有到其他节点的链接，并且此类链接可以在一个方向上(例如，在前向方向上)延伸穿过神经网络。

参考图1A，输入数据10可以被输入到包括一层或多层的ANN(例如，CNN 20)，并且输出数据30可以通过ANN输出。ANN可以是例如包括两层或更多层的DNN。

CNN 20可以用于从输入数据10中提取“特征”(例如，边界、线条和颜色)。CNN 20可以包括多个层，每个层可以接收数据，处理接收到的数据，并生成要从其输出的数据。从层输出的数据可以是通过在图像(或输入到CNN 20的特征图)与滤波器的权重值之间执行卷积运算而生成的特征图。CNN 20的初始层可以用于从输入中提取低级特征(例如，边缘或梯度)。CNN 20的后续层可以用于逐渐提取更复杂的特征(例如，图像中的眼睛和鼻子)。

参考图1B，根据实施例的自动对焦***可以包括训练设备100和推理设备150。训练设备100可以对应于具有各种处理功能(例如，生成神经网络、训练(或学习)神经网络以及重新训练神经网络的功能)的计算设备。训练设备100可以被实现为各种类型的设备(例如，个人计算机(PC)、服务器设备或移动设备)。

训练设备100可以通过重复地训练或学习给定的初始神经网络来生成训练的神经网络110。生成训练的神经网络110可以包括确定神经网络参数。该参数可以包括输入到神经网络以及从神经网络输出的各种类型的数据(例如，输入/输出激活、权重和/或偏差)。当重复训练神经网络时，可以调整(或调谐)神经网络参数，以响应于给定输入来生成更准确的输出。

训练设备100可以将训练的神经网络110发送到推理设备150。推理设备150可以是例如移动设备和/或嵌入式设备，或可以包括在例如移动设备和/或嵌入式设备中。作为用于驱动神经网络的专用硬件，推理设备150可以是包括处理器、存储器、输入/输出接口(或I/O接口)、显示器、通信接口和/或传感器中的至少一种的电子设备。

推理设备150可以是或可以包括配备有存储装置和微处理器、具有计算能力的任何类型的数字设备，例如，平板PC、智能电话、PC(例如，膝上型计算机等)、AI扬声器、智能TV、移动电话、导航设备、网络板、个人数字助理(PDA)、工作站等。

推理设备1 50可以操作训练的神经网络110而不进行改变，或操作通过处理(例如，量化)训练的神经网络110而获得(例如，生成)的神经网络160。操作处理后的神经网络160的推理设备150可以在独立于训练设备100的单独设备中实现。然而，示例不限于此，并且推理设备150也可以与训练设备100在相同设备中实现。例如，推理设备150可以包括训练设备100，或者训练设备100可以包括推理设备150。

图2A示出了根据一个或多个示例实施例的示例电子设备。

上面参考图1A和图1B提供的描述也可以应用于图2A的示例。例如，图1B的推理设备150的描述也可以应用于图2A的电子设备200。例如，电子设备200可以包括图1B的训练设备100和推理设备150中的任一者或两者。作为具有自动对焦的设备(例如，执行自动对焦操作的设备)，电子设备200可以是包括音频输出功能、有线/无线通信功能和/或其他功能的数字设备。

参考图2A，电子设备200可以包括处理器201(例如，一个或多个处理器)、存储器203(例如，一个或多个存储器)、以及相机模块205。

存储器203可以存储计算机可读指令。当由处理器201执行存储在存储器203中的指令时，处理器201可以处理由该指令定义的操作。存储器203可以包括例如随机存取存储器(RAM)、动态RAM(DRAM)、静态RAM(SRAM)、或本领域已知的其他类型的非易失性存储器。存储器203可以存储预训练的ANN模型。例如，存储器203可以是或可以包括存储指令的非暂时性计算机可读存储介质，该指令在由处理器201执行时，配置处理器201执行本文中参考图1A至图6描述的操作和方法中的任何一种、任何组合或全部。

处理器201可以控制电子设备200的整体操作。处理器201可以是具有被配置为执行期望操作的物理结构电路的硬件设备。期望操作可以包括程序中包括的代码或指令。硬件设备可以包括例如微处理器、中央处理单元(CPU)、图形处理单元(GPU)、处理器核、多核处理器、多处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、神经处理单元(NPU)等。

相机模块205可以捕捉静态图像和运动图像。相机模块205可以包括一个或多个镜头、图像传感器、图像信号处理器(ISP)和/或闪光灯。下面将参考图2B来描述相机模块205的详细配置的非限制性示例。

图2B示出了根据一个或多个示例实施例的示例相机模块。

参考图2B，相机模块205可以包括镜头组件210、闪光灯220、图像传感器230、图像稳定器240、存储器250(例如，一个或多个缓冲存储器)和ISP 260(例如，一个或多个ISP)。镜头组件210可以收集从作为要捕捉图像的目标的对象发射的光。镜头组件210可以包括一个或多个镜头。在示例中，相机模块205可以包括多个镜头组件210(例如，镜头组件210可以是多个镜头组件)。在该示例中，相机模块205可以包括并实现例如双相机、360度相机和/或球形相机。镜头组件210的一部分可以具有相同的镜头属性(例如，视角、焦距、自动对焦、f数和/或光学变焦)，或者镜头组件210中的至少一个可以具有与其他镜头组件不同的镜头属性。镜头组件210可以包括例如广角镜头和/或远摄镜头。

闪光灯220可以发射用于增强从对象发射或反射的光的光。在示例中，闪光灯220可以包括发光二极管(LED)(例如，红-绿-蓝(RGB)LED、白光LED、红外(IR)LED和/或紫外(UV)LED)和/或氙灯。图像传感器230可以通过将从对象发射或反射并透射过镜头组件210的光转换为电信号来获得与对象相对应的图像。在示例中，图像传感器230可以包括例如从具有不同属性的图像传感器(例如，RGB传感器、黑白(BW)传感器、IR传感器或UV传感器)之中选择的一个图像传感器、具有相同属性的多个图像传感器、或具有不同属性的多个图像传感器。附加地或备选地，图像传感器230可以获得图像的相位信息(例如，相位差)。图像传感器230可以包括例如被配置为获得相位信息的图像传感器(例如，双像素传感器和/或四像素传感器)。图像传感器230中包括的每个图像传感器可以使用例如电荷耦合器件(CCD)传感器和/或互补金属氧化物半导体(CMOS)传感器来实现。

图像稳定器240可以响应于相机模块205和/或包括相机模块205的电子设备200的移动，在特定方向上移动镜头组件210中包括的至少一个镜头或图像传感器230，和/或控制图像传感器230的操作特性(例如，调整读出定时)。至少一个镜头的移动和/或操作特性的控制可以补偿相机模块205和/或电子设备200的移动对要捕捉的图像的负面影响的至少一部分。在示例中，图像稳定器240可以使用设置在(例如，电子设备200中包括的)相机模块205内部或外部的陀螺仪传感器和/或加速度传感器来感测相机模块205或电子设备200的这种移动。在示例中，图像稳定器240可以是或可以包括例如光学图像稳定器。

存储器250可以临时存储通过图像传感器230获得的图像的至少一部分，以用于后续图像处理操作。例如，当通过快门使图像获取延迟或相对较快地获得多个图像时，所获得的原始图像(例如，拜耳图案的图像或高分辨率图像)可以存储在存储器250中，并且可以通过显示模块来预览与原始图像相对应的副本图像(例如，低分辨率图像)。随后，当满足指定条件(例如，用户输入或***命令)时，可以由例如ISP 260获得并处理存储在存储器250中的原始图像的至少一部分。在示例中，存储器250可以被配置为存储器203的至少一部分，或被配置为独立于存储器203操作的单独存储器。

ISP 260可以对通过图像传感器230获得的图像和/或存储在存储器250中的图像执行一个或多个图像处理操作。图像处理操作可以包括例如深度图生成、自动对焦、三维(3D)建模、全景生成、特征点提取、图像合成和/或图像补偿(例如，降噪、分辨率调整、亮度调整、模糊、锐化和/或柔化)。附加地或备选地，ISP 260可以控制相机模块205中包括的至少一个组件(例如，图像传感器230)。例如，ISP 260可以控制曝光时间、读出定时等。

通过ISP 260的处理而获得的图像可以再次存储在存储器250中以用于进一步处理，和/或被提供给相机模块205的外部组件(例如，存储器203、处理器201和/或显示模块)。在示例中，ISP 260可以被配置为处理器201的至少一部分，或被配置为独立于处理器201操作的单独处理器。例如，当ISP 260被配置为与处理器201分离的处理器时，由ISP 260处理的至少一个图像可以在不被处理器201改变的情况下按原样显示，或在由处理器201进行附加图像处理之后通过显示模块显示。

在示例中，电子设备200可以包括具有不同属性或功能的多个相机模块205(例如，相机模块205可以是多个相机模块)。在该示例中，相机模块205中的至少一个可以是广角相机，并且相机模块205中的至少另一个可以是远摄相机。类似地，相机模块205中的至少一个可以是前置相机，并且相机模块205中的至少另一个可以是后置相机。

图3示出了根据一个或多个示例实施例的自动对焦的示例方法(例如，自动对焦执行方法)。

为了便于描述，操作310至330将被描述为使用图2A和图2B所示的电子设备200来执行。然而，操作310至330也可以由合适***中的其他合适的电子设备来执行。

图3的操作可以按照所示的顺序和方式来执行。然而，在不脱离所示示例的精神和范围的情况下，可以改变一些操作的顺序，或者可以省略一些操作。图3的操作可以并行或同时执行。

在操作310中，电子设备200可以获得(例如，生成或确定)包括输入图像的相位信息的第一输入数据。第一输入数据可以是从图像传感器(例如，图2B的图像传感器230)获得的原始数据，并且可以包括可从其计算相位差的任何类型或所有类型的数据。第一输入数据可以包括例如双像素图像和/或四像素图像。例如，双像素传感器可以将从对象发射或反射并透射过镜头组件(例如，图2B的镜头组件210)的光划分成两个分支，并将其转换成电信号，并且计算(例如，确定)这两个信号之间的相位差，因此，可以获得与输入图像相对应的相位差。然而，获得第一输入数据的方法不限于前述示例，并且可以应用获得相位信息的各种方法。例如，该各种方法可以包括：双像素专业方法，其向应用双像素的RGB像素之中的绿色像素添加倾斜角结构，并且除左右相位差之外，还测量上下相位差；超级相位检测(PD)方法，其使用整个像素区域，用于识别相位差以满足焦点；四相位检测(QPD)方法，其使用所有像素来测量相位差；等等。

在操作320中，电子设备200可以获得其中编码有镜头位置信息的第二输入数据。电子设备200可以对镜头的当前位置进行编码。对镜头位置信息进行编码可以被解释为将相机镜头的位置表示为连续的数值。电子设备200可以在镜头组件210中包括的镜头的整个可移动范围内对镜头的连续位置进行建模。下面将参考图4A和图4B来详细描述对镜头的当前位置进行编码的方法的非限制性示例。

在操作330中，电子设备200可以通过将第一输入数据和第二输入数据输入到ANN模型来获得与自动对焦相对应的镜头的位置信息。ANN模型也可以被称为自动对焦确定模型。ANN模型可以包括CNN，但不限于此。ANN模型可以包括例如MobileNet-v2模型(其是考虑了移动环境的CNN)、VGGNet、ResNet、MCUNet等。

ANN模型可以通过训练设备100来训练，以接收第一输入数据和第二输入数据，并输出与自动对焦相对应的镜头的位置信息。例如，训练设备100可以将通过将用于学习的第一输入数据(例如，双像素图像)和其中编码有镜头的当前位置的第二输入数据输入到ANN模型而获得的镜头的位置与对应于用于学习的第一输入数据的镜头的真实位置之间的差确定为误差，并且可以通过将该误差反向传播到ANN中来更新用于操作或计算的ANN的权重和/或偏差。

训练设备100可以通过ANN的训练，将ANN模型配置为预测与预设的N个位置之一相对应的类别的分类模型、和/或根据ANN模型的输出值的定义来直接预测镜头的可移动范围的回归模型。例如，当训练设备100利用分类模型来训练ANN模型时，ANN模型可以输出与镜头的位置相对应的类别。例如，当训练设备100利用回归模型来训练ANN模型时，ANN模型可以输出与镜头的位置相对应的一个标量值。

上面参考图1A至图3提供的描述也可以应用于图4A和图4B的示例。根据实施例的电子设备200可以对当前镜头位置进行编码，并将相机镜头的位置表示为连续的数值。例如，参考图4A，电子设备200可以将相机镜头的整个可移动范围标准化为预设范围(例如，0和1之间的随机值)，并线性地表示镜头的当前位置(例如，“f”)。备选地，考虑到焦距相对于镜头位置的变化，电子设备200可以基于非线性函数对镜头的当前位置进行编码。

为了通过ANN模型来确定与自动对焦相对应的镜头的位置，可以将镜头的当前位置信息连同相位信息一起输入。在这种情况下，可以有多种方法来表示输入位置信息。例如，可以存在一种表示输入位置信息的方法，该方法包括：设置镜头的多个位置(例如，49个)，并在ANN模型的输入端仅激活这些位置(例如，49个)之中的对应位置，以表示镜头位置信息。

然而，根据这种表示输入位置信息的典型方法，可能存在的问题是：输入数据的大小极大并且仅可以覆盖离散的镜头位置。例如，当接收双像素图像中大小为128*128的中心块作为输入时，输入数据可以被配置为具有98条通道(其是2-通道块的通道数的49倍)，并且因此，每次估计镜头位置时，可能需要处理98*128*128(*16比特)＞3MB或更多的数据。

相反，参考图4B，一个或多个实施例的电子设备200可以对镜头的位置信息进行编码，并且将镜头的位置信息表示为单通道420。因此，为了有利地减少处理量，除第一输入数据410之外，一个或多个实施例的电子设备200可以通过仅将与镜头的位置编码相对应的单通道420添加到ANN模型的输入来减小总输入数据的大小。例如，当接收双像素图像中大小为128*128的中心块作为输入时，一个或多个实施例的电子设备200可以将总输入数据的大小减小到(2+1)*128*128(*16比特)(即，0.1MB或更小)。

尽管图4B示出了将镜头的位置信息编码为单通道420的示例，但对镜头的位置信息进行编码的方法不限于前述示例。例如，电子设备200也可以将镜头的位置信息编码为n通道(其中，n是大于或等于2的自然数)。电子设备200也可以以缩放因子的形式对镜头的位置信息进行编码。

与镜头的每个位置相对应的焦距可以针对每种类型的相机而不同，并且因此，除非在预先设置镜头的位置时根据相机和/或电子设备的类型来重新设置位置，否则可能发生误差。

此外，通过如上所述对镜头的位置信息进行编码，即使在相机改变时，一个或多个实施例的电子设备200也通过位置编码函数的简单转换仅利用一个ANN模型将位置信息应用于更多不同类型的相机。

图5示出了根据一个或多个示例实施例的自动对焦的示例方法(例如，自动对焦执行方法)。

为了便于描述，操作510至550将被描述为使用图2A和图2B所示的电子设备200来执行。然而，操作510至550也可以由合适***中的其他合适的电子设备来执行。

图5的操作可以按照所示的顺序和方式来执行。然而，在不脱离所示示例的精神和范围的情况下，可以改变一些操作的顺序，或者可以省略一些操作。图5的操作可以并行或同时执行。

电子设备200可以包括图像传感器和与图像传感器间隔开的可移动的镜头，其中图像传感器包括彼此间隔开的成对的第一像素和第二像素。图像传感器的所有像素可以包括在成对的第一像素和第二像素中。备选地，图像传感器的仅一些像素可以包括在成对的第一像素和第二像素中。

在操作510中，电子设备200可以获得通过镜头的当前位置而形成在第一像素上的第一图像和形成在第二像素上的第二图像。

在操作520中，电子设备200可以获得与第一图像和第二图像的一部分相对应的感兴趣区域(ROI)。该ROI可以通过各种方法来获得。例如，ROI可以包括与输入图像中包括的对象(例如，面部)相对应的区域(例如，面部区域)(该区域作为输入从用户接收，例如，通过用户触摸显示模块而输入的区域)、或第一图像和第二图像中的预设区域(例如，中心区域)。

在操作530中，电子设备200可以将与ROI相对应的第一图像、与ROI相对应的第二图像、镜头的当前位置以及ROI的位置输入到ANN模型。与ROI相对应的第一图像和与ROI相对应的第二图像可以包括上面参考图2A至图4B描述的第一输入数据，并且镜头的当前位置可以包括上面参考图2A至图4B描述的第二输入数据。

在操作540中，电子设备200可以从ANN模型接收处于对焦的镜头的位置作为输出。可以输出处于对焦的镜头的位置作为在镜头的可移动范围内的预设的n个或更多个连续位置之一(其中，n是大于或等于2的自然数，并且可以是例如100或1000)。

在操作550中，电子设备200可以将镜头移动到处于对焦的位置。

图6示出了根据一个或多个示例实施例的对与ROI相对应的位置信息进行编码的示例。

上面参考图1A至图5提供的描述也可以应用于图6的示例。

在输入图像中的所有位置处的相同图案中可能不发生相位差。因此，典型的相位差检测自动对焦方法可能具有其局限性，即使其通过针对输入图像中的ROI的每个位置单独地进行校准来预先设置针对来自传感器输出的相位差的焦距。

参考图6，根据实施例的训练设备100可以包括与输入图像中的ROI相对应的位置编码，并将该位置编码添加到ANN模型的输入数据中，从而允许ANN模型自动学习与输入图像中的相对位置相对应的特征。也就是说，训练设备100可以使用第一输入数据和第三输入数据来训练ANN模型。

电子设备200可以获得其中编码有与输入图像的ROI相对应的位置信息的第三输入数据。

电子设备200可以对与ROI相对应的位置信息进行编码。对与ROI相对应的位置信息进行编码可以被解释为将输入图像中的ROI表示为数值。例如，当输入图像是二维(2D)图像时，电子设备200可以将水平方向和竖直方向线性地表示为预设范围(例如，0和1之间的随机值)。备选地，电子设备200可以基于实际镜头和传感器的特性通过非线性表示来对与ROI相对应的位置信息进行编码。然而，获得第三输入数据的方法不限于前述示例，并且也可以使用对与ROI相对应的位置信息进行编码的各种方法。

例如，电子设备200可以基于通过镜头进入图像传感器的光的强度信息来对ROI的位置信息进行编码。通过镜头进入图像传感器的光可以根据图像传感器的相对位置而略有不同。电子设备200可以通过考虑此类相对光强度来对ROI的位置信息进行编码。备选地，电子设备200可以基于高斯滤波器来对ROI的位置信息进行编码。电子设备200可以应用高斯滤波器以从中心向边缘扩展的形式来对ROI的位置信息进行编码。

电子设备200可以通过将第三输入数据连同第一输入数据和第二输入数据一起输入到ANN模型来获得与自动对焦相对应的镜头的位置信息。例如，在第一输入数据610是双像素图像的情况下，将一条通道的第二输入数据620添加到两条通道的第一输入数据610，并且还添加了第三输入数据630，在第三输入数据630中添加有与ROI的x轴方向相对应的水平位置和与ROI的y轴方向相对应的竖直位置作为单独通道，因此，可以将总共五条通道的图像输入到ANN模型。

备选地，电子设备200可以通过将第一输入数据和第三输入数据输入到ANN模型来获得与自动对焦相对应的镜头的位置信息。电子设备200可以通过图像传感器获得与由镜头的当前位置形成的光学图像相对应的图像信号的相位信息。图像信号的相位信息可以是第一输入数据。电子设备200可以将ROI的位置信息编码在图像信号中，并基于相位信息和编码的ROI的位置信息来执行自动对焦。编码的ROI的位置信息可以是第三输入数据。

训练设备、推理设备、电子设备、处理器、存储器、相机模块、镜头组件、闪光灯、图像传感器、图像稳定器、ISP、本文中针对图1A至图6公开和描述的训练设备100、推理设备150、电子设备200、处理器201、存储器203、相机模块205、镜头组件210、闪光灯220、图像传感器230、图像稳定器240、存储器250、ISP 260以及其他装置、设备、单元、模块和组件由硬件组件实现或表示硬件组件。如上所述，或除上述描述之外，在适当的情况下可用于执行本申请中所描述的操作的硬件组件的示例包括控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器、以及被配置为执行本申请中所描述的操作的任何其他电子组件。在其他示例中，用于执行本申请中所描述的操作的一个或多个硬件组件由计算硬件(例如，由一个或多个处理器或计算机)实现。处理器或计算机可以由一个或多个处理元件实现，例如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器、或被配置为以定义的方式响应并执行指令以实现期望结果的任何其他设备或设备的组合。在一个示例中，处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可以执行指令或软件，例如，操作***(OS)和在OS上运行的一个或多个软件应用，以执行本申请中描述的操作。硬件组件还可以响应于指令或软件的执行来访问、操纵、处理、创建和存储数据。为了简洁起见，在本申请中描述的示例的描述中可以使用单数术语“处理器”或“计算机”，但是在其他示例中可以使用多个处理器或计算机，或者处理器或计算机可以包括多个处理元件、或多种类型的处理元件、或两者兼有。例如，单个硬件组件或者两个或更多个硬件组件可以由单个处理器、或两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可以由一个或多个处理器、或处理器和控制器来实现，并且一个或多个其他硬件组件可以由一个或多个其他处理器、或另一处理器和另一控制器来实现。一个或多个处理器或者处理器和控制器可以实现单个硬件组件、或者两个或更多个硬件组件。如上所述，或除上述描述之外，示例硬件组件可以具有不同的处理配置中的任一种或多种，所述不同的处理配置的示例包括单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理和多指令多数据(MIMD)多处理。

执行本申请描述的操作的图1A至6中示出的方法由计算硬件来执行，例如，由如上所述实现的、执行指令或软件以执行本申请中所描述的由所述方法执行的操作的一个或多个处理器或计算机来执行。例如，单个操作或者两个或更多个操作可以由单个处理器、或者两个或更多个处理器、或者处理器和控制器执行。一个或多个操作可以由一个或多个处理器、或者处理器和控制器执行，并且一个或多个其他操作可以由一个或多个其他处理器、或者另一处理器和另一控制器执行。一个或多个处理器或者处理器和控制器可以执行单个操作或者两个或更多个操作。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件可以被编写为计算机程序、代码段、指令或其任何组合，用于单独地或共同地指示或配置一个或多个处理器或计算机作为机器或专用计算机操作以执行由硬件组件执行的操作和如上所述的方法。在一个示例中，指令或软件包括由一个或多个处理器或计算机直接执行的机器代码，例如由编译器产生的机器代码。在另一个示例中，指令或软件包括由一个或多个处理器或计算机使用解释器执行的更高级的代码。可以基于附图中所示出的框图和流程图以及本文中的对应描述(其公开了用于执行由硬件组件执行的操作和如上所述的方法的算法)，使用任何编程语言来编写指令或软件。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可以被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或其上，并且因此，不是信号本身。如上所述，或除上述描述之外，非暂时性计算机可读存储介质的示例包括以下项中的任何一项的一个或多个：只读存储器(ROM)、可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储设备、硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、卡类型的存储器(比如，多媒体卡或微型卡(例如，安全数字(SD)或极限数字(XD)))、磁带、软盘、磁光数据存储设备、光学数据存储设备、硬盘、固态盘、以及被如下配置的任何其他设备：以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构，并且向一个或多个处理器或计算机提供指令或软件以及任何相关联的数据、数据文件和数据结构，使得该一个或多个处理器或计算机可以执行指令。在一个示例中，指令或软件以及任何相关联的数据、数据文件和数据结构分布在联网的计算机***上，使得一个或多个处理器或计算机以分布方式存储、访问和执行所述指令和软件以及任何相关联的数据、数据文件和数据结构。

尽管本公开包括特定示例，但是在理解了本申请的公开内容之后将显而易见的是，在不脱离权利要求及其等同物的精神和范围的情况下，可以对这些示例进行形式和细节上的各种改变。本文描述的示例应被认为仅是描述性的，而不是为了限制的目的。每个示例中的特征或方面的描述应被认为适用于其他示例中的类似特征或方面。如果所描述的技术以不同的顺序执行和/或如果所描述的***、架构、设备或电路中的组件以不同的方式组合和/或被其他组件或其等同物替换或补充，则可以实现合适的结果。

因此，除上述内容和所有附图公开内容之外，本公开的范围还包括权利要求及其等同物，即，在权利要求及其等同物的范围内的所有变化都应被解释为包括在本公开中。

Claims

1.一种处理器实现的方法，所述方法包括：

生成包括输入图像的相位信息的第一输入数据；

生成其中编码有镜头位置信息的第二输入数据；以及

通过将所述第一输入数据和所述第二输入数据输入到神经网络模型来确定与自动对焦相对应的镜头的位置信息。

2.根据权利要求1所述的方法，还包括：生成第三输入数据，在所述第三输入数据中编码有与所述输入图像的感兴趣区域ROI相对应的位置信息。

3.根据权利要求2所述的方法，其中，生成所述第三输入数据进一步包括：将所述第一输入数据中的所述ROI的相对位置编码为第一轴数据和第二轴数据。

4.根据权利要求2所述的方法，其中，生成所述第三输入数据进一步包括：基于通过所述镜头进入图像传感器的光的强度信息来对所述ROI的位置信息进行编码。

5.根据权利要求2所述的方法，其中，生成所述第三输入数据进一步包括：基于高斯滤波器对所述ROI的位置信息进行编码。

6.根据权利要求2所述的方法，其中，确定所述镜头的位置信息包括：通过将所述第三输入数据连同所述第一输入数据和所述第二输入数据一起输入到所述神经网络模型来确定所述镜头的位置信息。

7.根据权利要求1所述的方法，其中，生成所述第二输入数据进一步包括：对所述镜头位置信息进行编码，使得所述镜头的位置被表示为连续的数值。

8.根据权利要求1所述的方法，其中，生成所述第二输入数据进一步包括：基于根据所述镜头的位置而调整到焦距的非线性函数值来对所述镜头位置信息进行编码。

9.根据权利要求1所述的方法，其中，生成所述第二输入数据进一步包括：以单通道的形式对所述镜头位置信息进行编码。

10.根据权利要求1所述的方法，其中，生成所述第二输入数据进一步包括：以缩放因子的形式对所述镜头位置信息进行编码。

11.根据权利要求1所述的方法，其中，确定所述镜头的位置信息包括：预测多个预设候选位置之中与所述自动对焦相对应的一个位置。

12.根据权利要求1所述的方法，其中，确定所述镜头的位置信息包括：确定与所述自动对焦相对应的一个标量值。

13.根据权利要求1所述的方法，其中，所述第一输入数据包括双像素图像。

14.一种存储指令的非暂时性计算机可读存储介质，所述指令在由一个或多个处理器执行时，将所述一个或多个处理器配置为执行根据权利要求1所述的方法。

15.一种电子设备，所述电子设备包括：

一个或多个处理器，被配置为：

生成包括输入图像的相位信息的第一输入数据；

生成其中编码有镜头位置信息的第二输入数据；以及

16.根据权利要求15所述的电子设备，其中，所述一个或多个处理器被配置为生成第三输入数据，在所述第三输入数据中编码有与所述输入图像的感兴趣区域ROI相对应的位置信息。

17.根据权利要求16所述的电子设备，其中，为了生成所述第三输入数据，所述一个或多个处理器被配置为将所述第一输入数据中的所述ROI的相对位置编码为第一轴数据和第二轴数据。

18.根据权利要求16所述的电子设备，其中，为了确定所述镜头的位置信息，所述一个或多个处理器被配置为通过将所述第三输入数据连同所述第一输入数据和所述第二输入数据一起输入到所述神经网络模型来生成所述镜头的位置信息。

19.根据权利要求15所述的电子设备，其中，为了生成所述第二输入数据，所述一个或多个处理器被配置为对所述镜头位置信息进行编码，使得所述镜头的位置被表示为连续的数值。

20.根据权利要求15所述的电子设备，其中，为了生成所述第二输入数据，所述一个或多个处理器被配置为基于根据所述镜头的位置而调整到焦距的非线性函数值来对所述镜头位置信息进行编码。

21.根据权利要求15所述的电子设备，其中，为了确定所述镜头的位置信息，所述一个或多个处理器被配置为预测多个预设候选位置之中与所述自动对焦相对应的一个位置。

22.根据权利要求15所述的电子设备，其中，为了确定所述镜头的位置信息，所述一个或多个处理器被配置为生成与所述自动对焦相对应的一个标量值。

23.根据权利要求15所述的电子设备，其中，所述第一输入数据包括双像素图像。

24.一种电子设备，所述电子设备包括：

可移动的镜头；

图像传感器，被配置为生成与由所述镜头的当前位置形成的光学图像相对应的图像信号的相位信息；以及

一个或多个处理器，被配置为：

对所述图像信号中的感兴趣区域ROI的位置信息进行编码；以及

基于所述相位信息和编码的所述ROI的位置信息来执行自动对焦。

25.根据权利要求24所述的电子设备，其中，所述一个或多个处理器被配置为基于通过所述镜头进入所述图像传感器的光的强度信息来对所述ROI的位置信息进行编码。

26.根据权利要求24所述的电子设备，其中，为了对所述ROI的位置信息进行编码，所述一个或多个处理器被配置为基于高斯滤波器来对所述ROI的位置信息进行编码。

27.一种执行电子设备的自动对焦的方法，所述电子设备包括图像传感器和与所述图像传感器间隔开的可移动的镜头，所述图像传感器包括彼此间隔开的成对的第一像素和第二像素，所述方法包括：

获得通过所述镜头的当前位置而形成在所述第一像素上的第一图像、以及通过所述镜头的所述当前位置而形成在所述第二像素上的第二图像；

获得与所述第一图像和所述第二图像的一部分相对应的感兴趣区域ROI；

将与所述ROI相对应的第一图像、与所述ROI相对应的第二图像、所述镜头的所述当前位置以及所述ROI的位置输入到神经网络模型；

从所述神经网络模型接收处于对焦的所述镜头的位置作为输出；以及

将所述镜头移动到处于对焦的所述位置。

28.根据权利要求27所述的方法，其中，所述图像传感器的所有像素包括在成对的所述第一像素和所述第二像素中。

29.根据权利要求27所述的方法，其中，所述图像传感器的仅一些像素包括在成对的所述第一像素和所述第二像素中。

30.根据权利要求27所述的方法，其中，所述ROI是从用户输入的区域。

31.根据权利要求27所述的方法，其中，所述ROI是与特定对象相对应的区域。

32.根据权利要求31所述的方法，其中，所述特定对象是人脸。

33.根据权利要求27所述的方法，其中，所述ROI是所述第一图像和所述第二图像中的预设区域。

34.根据权利要求33所述的方法，其中，所述ROI是所述第一图像和所述第二图像中的中心区域。

35.根据权利要求27所述的方法，其中，将所述ROI的x轴数据和y轴数据单独输入到所述神经网络模型。

36.根据权利要求27所述的方法，其中，将所述镜头的所述当前位置作为单通道输入到所述神经网络模型。

37.根据权利要求27所述的方法，其中，将所述镜头的所述当前位置作为标量值应用于所述神经网络模型。

38.根据权利要求27所述的方法，其中，输出处于对焦的所述镜头的位置，作为在所述镜头的可移动范围内的100个或更多个连续位置之一。

39.根据权利要求27所述的方法，其中，输出处于对焦的所述镜头的位置，作为在所述镜头的可移动范围内的1000个或更多个连续位置之一。