CN113099103A

CN113099103A - 用于采集图像的方法、电子设备和计算机存储介质

Info

Publication number: CN113099103A
Application number: CN202010021729.2A
Authority: CN
Inventors: 时红仁; 程帅
Original assignee: Shanghai Pateo Electronic Equipment Manufacturing Co Ltd
Current assignee: Shanghai Pateo Electronic Equipment Manufacturing Co Ltd
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2021-07-09

Abstract

用于采集图像的方法、电子设备和计算机存储介质。本公开涉及一种用于采集图像的方法、装置和计算机存储介质。该方法包括：响应于确定语音输入与采集图像相关联，获取移动设备或车载摄像装置所显示的初始图像，语音输入是经由车辆或移动设备的拾音器所拾取的；基于语音输入，识别初始图像中的目标拍摄对象；基于与目标拍摄对象相关的图像特征，调整车载摄像装置和移动设备的摄像装置中的至少一个摄像装置的焦距和拍摄方位中的至少一项；以及针对目标拍摄对象选取对焦点，以用于拍摄目标图像。本公开能够满足不便于手动操作场景下的拍摄需求。

Description

用于采集图像的方法、电子设备和计算机存储介质

技术领域

本公开总体上涉及图像处理，并且具体地，涉及采集图像的方法、电子设备和计算机存储介质。

背景技术

传统的采集图像的方案例如包括：利用移动设备对准拍摄对象，然后通过手动调整变焦范围，之后手动选取对焦对象，再触碰移动设备以进行拍摄图像。传统的采集图像的方案需要大量的手动操作的过程，比较繁琐，且耗费时间，特别是在一些场景下，例如在行驶的交通工具上，或者用户戴着手套等，不便于手动操作移动设备，进而难以快速地针对所期望拍摄的对象进行拍摄。

因此，在传统的采集图像的方案中，因为需要繁琐的手动变焦、选取对焦对象、对焦、点选拍照等操作，比较耗时，并且难以满足一些不便于手动操作场景下的拍摄需求。

发明内容

本公开提供一种采集图像的方法、电子设备和计算机存储介质，能够满足不便于手动操作场景下的拍摄需求。

根据本公开的第一方面，提供了一种用采集图像的方法。该方法包括：响应于确定语音输入与采集图像相关联，获取移动设备或车载摄像装置所显示的初始图像，语音输入是经由车辆或移动设备的拾音器所拾取的；基于语音输入，识别初始图像中的目标拍摄对象；基于与目标拍摄对象相关的图像特征，调整车载摄像装置和移动设备的摄像装置中的至少一个摄像装置的焦距和拍摄方位中的至少一项；以及针对目标拍摄对象选取对焦点，以用于拍摄目标图像。

采集图像根据本发明的第二方面，还提供了一种电子设备，设备包括：存储器，被配置为存储一个或多个计算机程序；以及处理器，耦合至存储器并且被配置为执行一个或多个程序使装置执行本公开的第一方面的方法。

根据本公开的第三方面，还提供了一种非瞬态计算机可读存储介质。该非瞬态计算机可读存储介质上存储有机器可执行指令，该机器可执行指令在被执行时使机器执行本公开的第一方面的方法。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

图1示出了根据本公开的实施例的用于采集图像的方法的***100的示意图；

图2示出了根据本公开的实施例的用于采集图像的方法200的流程图；

图3示出了根据本公开的实施例的用于调整摄像装置的焦距的方法300的流程图；

图4示意性示出根据本公开实施例的用于调整摄像装置至目标拍摄方位的方法400；

图5示意性示出根据本公开实施例的车载摄像装置500的示意图；

图6示出了根据本公开的实施例的用于调整摄像装置至目标拍摄方位的方法600的流程图；

图7示意性示出根据本公开实施例的用于目标拍摄对象的识别模型的bottleneck结构700的示意图；

图8示意性示出根据本公开实施例的用于目标拍摄对象的识别模型的yolov3网络结构的示意图；

图9示意性示出了根据本公开的初始图像900的示意图；

图10示意性示出了根据本公开的经由识别模型识别的图像1000的示意图；

图11示意性示出了根据本公开的经焦距调整后的采集图像1100的示意图；

图12示意性示出根据本公开实施例的基于目标拍摄方位的采集图像1200的示意图；

图13示意性示出根据本公开实施例的用于对焦的方法1300的示意图；以及

图14示意性示出了适于用来实现本公开实施例的电子设备1400的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如上文所描述的，在上述传统的用于采集图像的方案中，因为需要繁琐的手动变焦、选取对焦对象、对焦、点选拍照等操作，因此比较耗时，并且难以满足一些不便于手动操作场景下的拍摄需求。。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于采集图像的方案。该方案包括：响应于确定语音输入与采集图像相关联，获取移动设备或车载摄像装置所显示的初始图像，语音输入是经由车辆或移动设备的拾音器所拾取的；基于语音输入，识别初始图像中的目标拍摄对象；基于与目标拍摄对象相关的图像特征，调整车载摄像装置和移动设备的摄像装置中的至少一个摄像装置的焦距和拍摄方位中的至少一项；以及针对目标拍摄对象选取对焦点，以用于拍摄目标图像。

在上述方案中，通过确定语音输入与采集图像相关联时，基于语音输入和初始图像来确定目标拍摄对象；以及调整车载摄像装置114或者移动设备120的镜头针对目标拍摄对象的焦距和/或拍摄方位中的至少一项来拍摄关于目标拍摄对象的目标图像，本公开能够通过根据用户语音来确认拍摄意图，以及基于初始图像中的与拍摄意图关联的目标拍摄对象的图像特征来变焦、调整拍摄方位和对焦，不需要繁琐的手动操作，因而能够实现满足不便于手动操作场景下的拍摄需求。

图1示出了根据本公开的实施例的用于采集图像的方法的***100的示意图。如图1所示，***100包括车辆110、移动设备120、服务器160。在一些实施例中，车辆110、用户122(例如乘客)的移动设备120、服务器160例如可以经由基站150、网络140进行数据交互。车辆110和移动设备120也可以经由Wi-Fi、蓝牙、蜂窝、NFC等无线通信手段进行数据交互与共享。

关于车辆110，其例如至少包括：车载计算设备114(例如车机)、车载数据感知设备、车载T-BOX等。车载数据感知设备用于实时感知车辆自身数据和车辆所在外部环境数据。车载数据感知设备至少包括多个车载摄像装置，其例如包括：车辆前置摄像头、车辆后置摄像头和车顶摄像装置112等。车顶摄像装置112可以调整镜头的焦距，以便实现针对目标拍摄对象的不同的焦距。车顶摄像装置112还可以基于所接收的驱动信号调整拍摄方位，以便使得目标拍摄对象在图像中的位置符合预定要求。在一些实施例中，车顶摄像装置112的拍摄方位可以覆盖车辆外部环境图像的全景。车辆110与移动设备120可以通过Wi-Fi、蓝牙、蜂窝、NFC等无线通信手段进行数据交互与共享。例如，移动设备120可以通过检测到移动设备120上的预定动作(例如摇一摇)而建立与车辆110之间的关联。通过移动设备120藉由预定动作(例如摇一摇)建立与车辆110之间的关联，能够以方便并且安全的方式，建立车辆与特定用户(如驾驶者)的关联移动设备之间的联系，以便共享数据与计算资源。

车载T-BOX用于与车载计算设备114(例如车机)、移动设备120、服务器160进行数据交互。在一些实施例中，车载T-BOX例如包括SIM卡、GPS天线，4G或5G天线等。当用户通过移动设备120(例如手机)的应用程序(APP)发送控制命令(例如，远程启动车辆、打开空调、调整座椅至合适位置等)，TSP后台会发出监控请求指令到车载T-BOX，车辆在获取到控制命令后，通过CAN总线发送控制报文并实现对车辆的控制，最后反馈操作结果到用户的移动设备120的APP上。车载T-BOX与车机之间通过canbus通信，实现数据交互，例如传输车辆状态信息、按键状态信息、控制指令等。车载T-BOX可以采集车辆110总线Dcan、Kcan、PTcan相关的总线数据。

关于车顶摄像装置112，在一些实施例中，其用于采集车辆环境图像。在一些实施例中，车顶摄像装置112例如包括摄像头、第一旋转装置(例如图5中的520)、第二旋转装置(例如图5中的530)和升降装置(例如图5中的540)。其中第一旋转装置可以带动摄像头围绕第一轴旋转360度。第二旋转装置可以用于带动摄像头围绕垂直于第一轴的第二轴进行旋转(旋转的角度范围例如处于0度至360度之间)。升降装置用于带动摄像头沿着竖直方向移动。在一些实施例中，升降装置用于将车顶摄像装置112从车体内伸出，或者从车外缩回。车顶摄像装置112可以经由车辆110(例如车载计算设备114和/或车载T-BOX)与移动设备120进行数据交互与共享。车顶摄像装置112也可以直接与移动设备120通过Wi-Fi、蓝牙、蜂窝、NFC等无线通信手段进行数据交互与共享。

关于移动设备120，其例如但不限于是手机。移动设备120可以直接与车载T-BOX进行数据交互，也可以经由基站150、网络140与服务器160进行数据交互。在一些实施例中，移动设备120可以是平板电脑、手机、穿戴设备等。

关于服务器160，其例如用于提供车联网的服务。服务器160例如经由网络140、基站150与车辆110和移动设备120进行数据交互。在一些实施例中，服务器160可以具有一个或多个处理单元，包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外，在每个计算设备上也可以运行着一个或多个虚拟机。

以下将结合图2、图9至图12描述根据本公开的实施例的用于采集图像的方法。图2示出了根据本公开的实施例的用于采集图像的方法200的流程图。图9示意性示出了根据本公开的初始图像900的示意图。图10示意性示出了根据本公开的经由识别模型识别的采集图像1000的示意图。图11示意性示出了根据本公开的经焦距调整后的采集图像1100的示意图。应当理解，方法200例如可以在图14所描述的电子设备1400处执行。也可以在图1所描述的移动设备120处或者车辆110处(例如而不限于车机等车载计算设备114)执行。应当理解，方法200还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框202处，车载计算设备114或者移动设备120确定语音输入是否与采集图像相关联。语音输入是经由车辆110或移动设备120的拾音器所拾取的。例如，用户122使得移动设备120的摄像头对着远处景物(例如图9所示前方的景物)，并且说“我要拍这辆车”或者“我要拍这颗树”。此时，车辆110或移动设备120的拾音器采集到用户122的上述语音输入。车载计算设备114或者移动设备120可以首先确定所接收的语音输入是否与采集图像相关联。

关于确定语音输入是否与采集图像相关联的方式可以包括多种。在一些实施例中，确定语音输入与采集图像相关联的方式包括：车载计算设备114或者移动设备120提取获取或接收的语音输入的声学特征；然后，基于声学特征，经由预定关键词识别模型，确定语音输入是否包括与预定关键词相关联的语音片段，预定关键词识别模型经由多个关于拍摄指令的语音样本数据所训练；以及响应于确定语音输入包括与预定关键词所包括的语音片段，确定语音输入与采集图像相关联。通过采用上述手段，使得车载计算设备114或者移动设备120可以在确定语音输入与采集图像无关联时，不必针对语音输入进行后续的识别处理，节省计算资源。

在一些实施例中，车载计算设备114或者移动设备120可以通过交互式问答来确定语音输入是否与采集图像相关联，例如，如果车载计算设备114或移动设备120确定语音输入是关于第一语音的应答。第一语音是经由车辆110或移动设备120的扬声器所输出的。例如，移动设备120的扬声器输出用于询问目标拍摄对象的第一语音来，例如是“请说出拍摄对象”。如果车载计算设备114或移动设备120确定移动设备120所采集到的用户的语音输入为关于第一语音的应答，则可以确定用户语音输入是与采集图像相关联的。

在框204处，如果车载计算设备114或移动设备120确定语音输入与采集图像相关联，获取移动设备120所显示的初始图像。例如，车载计算设备114或移动设备120获取用于在输入语音的同时，移动设备所采集的图像例如为图9所示的初始图像900。

在框206处，车载计算设备114或移动设备120基于语音输入，识别初始图像中的目标拍摄对象。

关于确定目标拍摄对象的方式可以包括多种。在一些实施例中，确定目标拍摄对象的方式例如包括：首先，车载计算设备114或移动设备120识别用户的语音输入，以确定用于指示目标拍摄对象的关键词。例如，用户122的语音输入时“我要拍这辆车”。车载计算设备114或移动设备120基于该语音输入例如确定用于指示目标拍摄对象的关键词例如是“车”。在一些实施例中，所确定的关键词可以为目标拍摄对象的属性(例如，类别、名称等)。

然后，车载计算设备114或移动设备120基于识别模型，识别初始图像包括的对象和对象类别，识别模型经由多个图像样本数据所训练。在一些实施例中，该识别模型例如用于检测出输入图片(例如是移动设备120所采集的初始图像)中感兴趣的目标(即对象)，以及输出对象类别和位置信息。在一些实施例中，识别模型可以得到对象列表，包括对应的对象类别和位置信息。例如，车载计算设备114或移动设备120基于识别模型，识别初始图像包括的对象和对象类别如图10所指示，包括对象1010和对象1020，对象1010的对象类别例如是“车”，对象1020的对象类别例如是“树”。

关于识别模型的检测算法，在一些实施例中，识别模型的检测算法例如采用实时目标检测算法yolo(第三个版本)框架，即yolov3框架，同时基础网络结构可以采用轻量的机器学习(ML)设备***的mobileNetv2网络。采用上述算法的优势在于其图像处理速度快，例如在GPU上针对每张图片的检测速度的可以达到20毫秒左右，另外，检测精度较高，实时性好，适于在运动车辆中的图像快速检测，以及与移动设备和车载计算设备的算力相匹配。下文将结合表一和图7来说明mobileNetv2网络结构，以及结合图8来说明yolov3网络结构，在此，不再赘述。

关于识别模型的图像样本数据，例如，可以通过人工、或者利用labelme软件等工具对多个采集图像进行打标，将采集图像中的对象以***边框的方式进行标注，并返回对象在训练图像中的相对位置(例如***边框中心点的位置)和对象类别，将经标注的多个采集图像作为图像样本数据以用于训练识别模型。

之后，如果车载计算设备114或移动设备120可以确定对象类别和关键词相匹配，确定对象为目标拍摄对象。例如，车载计算设备114或移动设备120基于该语音输入所确定用于指示目标拍摄对象的关键词是“车”，进一步确定初始图像中的对象的对象类别(例如图10所示对象1010的对象类别“车”与和所确定的关键词“车”相匹配)，则可以确定对象1010为目标拍摄对象。

在框208处，车载计算设备114或移动设备120基于与目标拍摄对象相关的图像特征，调整车载摄像装置(例如车顶摄像装置112)和移动设备的摄像装置中的至少一个摄像装置的焦距和拍摄方位中的至少一项。

在一些实施例中，调整至少一个摄像装置的焦距和拍摄方位中的至少一项例如包括：首先，车载计算设备114或移动设备120确定目标拍摄对象(例如图10中的1010)在初始图像1000中的尺寸比例。例如，确定目标拍摄对象的***边框(例如图10中的***边框1012)；再基于***边框(例如图10中的***边框1012)的面积与图像整体的面积之比，来确定尺寸比例。然后，如果车载计算设备114或移动设备120确定尺寸比例不属于预定比例，调整车载计算设备114或移动设备120的摄像装置的焦距至目标焦距。之后，车载计算设备114或移动设备120确定目标拍摄对象(例如图11中的1110)在基于目标焦距而生成的图像(例如图11中的1100)中的位置信息。例如，车载计算设备114或移动设备120基于目标焦距而生成的图像(例如图11中的1100)中的目标拍摄对象(例如图11中的1110)的***边框(例如图11中的***边框1112)的中心位置，确定位置信息。车载计算设备114或移动设备120如果确定上述位置信息不等于预定位置)，则调整车载计算设备114或移动设备120的摄像装置至目标拍摄方位。例如使得车载摄像装置112在目标拍摄方位所采集的图像(例如，图12所示的采集图像1200)中目标拍摄对象(如图12中的车1210)所处的位置信息(例如的车1210的***边框1212的中心位置)为预设位置(如0.5，0.618)。关于上述预定比例，在一些实施例中，其例如被预先设置，或者经由机器学习用户122的移动设备120处所存储的照片图像的图像特征所确定的。

下文将结合图3-5说明关于调整至少一个摄像装置至目标变焦比例和目标拍摄方位的具体方式，在此不再赘述。

在框210处，车载计算设备114或移动设备120针对目标拍摄对象选取对焦点，以用于拍摄目标图像。

在上述方案中，通过确定语音输入与采集图像相关联时，基于语音输入和初始图像来确定目标拍摄对象；以及调整车载摄像装置114或者移动设备120的镜头针对目标拍摄对象的焦距和/或拍摄方位中的至少一项来拍摄关于目标拍摄对象的目标图像，本公开能够通过根据用户语音来确认拍摄意图，并结合拍摄意图所指向的初始图像中的目标拍摄对象的图像特征来构图(例如变焦、调整拍摄方位)和对焦，不需要繁琐的手动变焦、选取对焦点以及对焦操作，因而能够实现满足不便于手动操作场景下的拍摄需求。

图3示出了根据本公开的实施例的用于调整摄像装置的焦距的方法300的流程图。应当理解，方法300例如可以在图14所描述的电子设备1400处执行。也可以在图1所描述的移动设备120处或者车辆110处(例如而不限于车机等车载计算设备114)执行。应当理解，方法300还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框302处，车载计算设备114或移动设备120确定目标焦距是否超出摄像装置的镜头的预定焦距阈值。该预定焦距阈值例如是对应于车载计算设备114或移动设备120中的一个或者多个摄像装置的总的变焦范围阈值(例如光学变焦范围)的预定焦距阈值。应当理解，摄像装置的光学变焦是利用一系列的透镜元件来实现的，透镜可以通过镜头移动来进行放大或缩小，光学变焦对画面的清晰度和分辨率没有任何损害，其拍摄图像在效果上更为接近目标拍摄对象。因此，车载计算设备114或移动设备120优先利用通过镜头的移动所进行的光学变焦来拍摄目标拍摄对象，从而减少数码变焦放大的图像使得目标拍摄对象的图像模糊不清。

在框304处，如果车载计算设备114或移动设备120确定目标焦距超出车载计算设备114或移动设备120的摄像装置的镜头的预定焦距阈值，基于预定焦距阈值拍摄关于目标拍摄对象的图像。应当理解，数码变焦不需额外的机械模组或镜头来进行镜头移动。而是对原有画面进行场景切割，再使用算法实现放大所切割图像，使得接近拍摄的目标拍摄图像。例如，如果车载计算设备114或移动设备120确定目标焦距超出摄像装置的一个或多个镜头的总的光学变焦的变焦范围阈值，则基于光学变焦的变焦范围阈值拍摄图像，以用于进一步结合数码变焦以弥补光学变焦的变焦范围难以满足拍摄期望的不足。

在框306处，车载计算设备114或移动设备120基于预定比例(该预定比例例如预先设置，或者经由机器学习用户122的移动设备120处所存储的照片图像的图像特征而确定的)，裁减基于预定焦距阈值(该预定焦距阈值例如与摄像装置的总的光学变焦的变焦范围阈值相关联)所拍摄的关于目标拍摄对象的图像，以生成目标图像。例如，车载计算设备114或移动设备120对基于光学变焦的变焦范围阈值拍摄图像进行场景切割，再使用算法放大所切割的图像，进而生成目标图像。在一些实时实施方式中，为了避免放大所切割的图像而造成的图像信息丢弃，可以通过在放大后的图像中添加更多的像素以用于保留图像细节。通过采用上述手段，可以实现同时兼顾数字变焦和光学变焦的优势，使得目标图像的拍摄不受光学变焦范围阈值有限所影响。

在一些实施例中，如果确定目标焦距没有超出摄像装置的镜头的预定焦距阈值，例如，在第一预定范围之内，则调整摄像装置的第一镜头至目标焦距。如果确定目标变焦比例超出第一预定范围但是依然在预定焦距阈值之内，则调整摄像装置的第二镜头至目标焦距。例如，车载计算设备114或移动设备120的摄像装置设置多个透镜元件，该多个透镜元件分别对应不同的光学变焦范围，通过上述手段，可以实现在更宽光学变焦范围内进行自动变焦。

图4示出了根据本公开的实施例的用于调整摄像装置至目标拍摄方位的方法400的流程图。应当理解，方法400例如可以在图14所描述的电子设备1400处执行。也可以在图1所描述的移动设备120处或者车辆110处(例如而不限于车机等车载计算设备114)执行。

在框402处，车载计算设备114或移动设备120确定车载计算设备114和移动设备120中的至少一个摄像装置的焦距是否已被调整至目标焦距。

在框404处，如果车载计算设备114或移动设备120确定至少一个摄像装置的焦距已被调整至目标焦距，获取至少一个摄像装置基于目标焦距而生成的图像中的目标拍摄对象的位置信息。在框406处，车载计算设备114或移动设备120基于位置信息、预定位置信息和初始拍摄方位，生成用于驱动车载计算设备114或移动设备120的旋转装置进行旋转的驱动信号，以用于调整车载计算设备114或移动设备120的摄像装置至目标拍摄方位。

关于初始拍摄方位，如前文，例如可以获取移动设备120或车顶摄像装置112拍摄初始图像时的初始拍摄方位。在一些实施例中，如果初始图像是移动设备120所拍摄的，如果用户期望车顶摄像装置112来拍摄目标图像，则车载计算设备114可以首先获取移动设备120拍摄初始图像时的初始拍摄方位，然后将车顶摄像装置112调整至与移动设备120的初始拍摄方向相匹配的初始拍摄方位，以便将该方位作为车顶摄像装置112用于调整拍摄方位的起点(即初始拍摄方位)。在一些实施例中，为了确定车顶摄像装置112是否已经被实际调整至初始拍摄方位。在一些实施例中，为了将车顶摄像装置112调整至与移动设备120的初始拍摄方位相匹配的初始拍摄方位，然后获取初始图像的图像特征。之后，车载计算设备114可以获取车顶摄像装置112所采集的环境图像。如果车载计算设备114可以确定车顶摄像装置112所采集的环境图像与移动设备120在初始拍摄方位所采集的初始图像的图像特征相匹配，则确定车顶摄像装置112已被实际调整至匹配的初始拍摄方位。

关于位置信息，例如，车载计算设备114如果确定目标拍摄对象(例如图11中的车1110)在基于目标焦距而生成的图像(例如图11中的1100)中的位置信息(例如图11中的1110的***边框1112的中心位置，其位置信息例如是0.7，0.6)不等于预定位置(如0.5，0.618)，则基于目标拍摄对象的位置信息(0.7，0.6)、预定位置(0.5，0.618)和初始拍摄方位，生成用于驱动车载计算设备114的第一旋转装置进行旋转的第一驱动信号，以便使得车载计算设备114的摄像头的拍摄方位调整的偏航角(yaw)为α，和/或用于驱动车载计算设备114的第二旋转装置进行旋转的第二驱动信号，以便车载计算设备114的摄像头的拍摄方位调整的俯仰角(pitch)为β。以便使得车顶摄像装置112在目标拍摄方位所采集的图像(例如，图12所示的图像1200)中目标拍摄对象(如图12中的车1210)所处的位置信息(例如的车1210的***边框1212的中心位置)为预设位置(如0.5，0.618)。

通过采用上述手段，车载计算设备114或移动设备120可以根据目标拍摄对象在基于目标焦距而生成的图像中的位置信息与预期位置的位置差来自动调整摄像装置的拍摄方位。

图5示意性示出根据本公开实施例的车载摄像装置500的示意图。应当理解，车载摄像装置500还可以包括未示出的附加结构和/或可以省略所示出的结构，本公开的范围在此方面不受限制。

如图5所示，车顶摄像装置500例如包括摄像头510、第一旋转装置520、第二旋转装置530和升降装置540。

第一旋转装置520可以在第一平面(例如水平面)上围绕第一轴(垂直于水平面的竖直轴，例如Z轴)旋转0至360度。在一些实施例中，第一旋转装置520的旋转范围也可以小于360度。第一旋转装置520例如是与第一驱动源(未示出)的旋转轴相连，第一旋转装置520也可以如图5所示，由第一驱动源(例如是，第一电机532)的转轴534经由第一传动机构(例如齿轮或者传输带526)所驱动而旋转。在一些实施例中，第一旋转装置520的旋转角度由第一驱动信号所控制。例如，摄像头510的拍摄方位由于第一驱动信号所驱动的第一旋转装置520转动而被调整了一偏航角(yaw)。

第二旋转装置530可以围绕第二轴(例如是，平行于第一平面的水平轴，第二轴垂直于第一轴)旋转0至360度，在一些实施例中，第二旋转装置530的旋转范围也可以小于360度。例如如图5所示的箭头550所示，沿顺时针方向旋转，也可以沿逆时针方向旋转。第二旋转装置530例如是第二驱动源(例如是第二电机，其包括与旋转轴相连的转子、定子)，第二旋转装置530的旋转轴可以直接或者经由第二传动机构(例如齿轮)与摄像头510相连。摄像头510的拍摄方位随着第二旋转装置530的旋转轴的转动而旋转。例如，摄像头510的拍摄方位由于第二驱动信号所驱动的第二旋转装置530转动而被调整了一俯仰角(pitch)。在一些实施例中，第二旋转装置530的旋转角度由第二驱动信号所控制。第二旋转装置530的固定部分(例如第二电机的外壳)与支撑装置540固定连接。

第二旋转装置530的外壳通过支撑装置540与第一旋转装置520相对固定连接。由于第二旋转装置530的外壳与第一旋转装置520相对固定连接，同时第一旋转装置520的旋转轴与摄像头510连接，因此，当第一驱动源(例如是，第一电机532)带动第一旋转装置520围绕Z轴旋转一预定角度时，第一旋转装置520也带动摄像头510也围绕Z轴旋转一预定角度。

通过采用上述手段，第一旋转装置520可以带动摄像头510围绕垂直于水平面的Z轴(竖直轴，即第一轴)进行旋转。第二旋转装置530可以带动摄像头510围绕垂直于第一轴的第二轴进行旋转。

在一些实施例中，车顶摄像装置500的升降装置540可以带动车顶摄像装置500沿着竖直方向上升或者下降，以便将车顶摄像装置500伸出车外，或者缩回车体内部。

在上述方案中，车顶摄像装置500可以根据驱动信号针对全景环境进行拍摄方位的调整。

图6示出了根据本公开的实施例的用于调整摄像装置至目标拍摄方位的方法600的流程图。应当理解，方法600例如可以在图14所描述的电子设备1400处执行。也可以在图1所描述的移动设备120处或者车辆110处(例如而不限于车机等车载计算设备114)执行。在框602处，移动设备120获取移动设备120与初始图像(例如图9所示图像900)相关联的初始拍摄方位，初始拍摄方位基于传感器(例如位姿传感器)的检测数据而确定。

在框604处，移动设备120基于目标拍摄方位和初始拍摄方位，生成用于指示移动关于至少一个摄像装置的移动的语音信息。例如，移动设备120的扬声器发出第二语音指示用户顺时针调整10度。

在框606处，移动设备120确定其摄像装置是否已被移动至目标拍摄方位。在一些实施例中，移动设备120可以通过确定目标拍摄对象的位置信息是否等于预定位置来确认摄像装置是否已被移动至目标拍摄方位。

在框608处，如果移动设备120确定移动设备120的摄像装置已被移动至目标拍摄方位，呈现提示信息，例如移动设备120通过显示指示或者语音提示来提醒用户122已经将移动设备120调整到位。

通过采用上述手段，可以在摄像装置不存在方位自动驱动装置的情况下，或者方位调整范围超出驱动装置的调整范围的情况下，也可以通过自动提示用户调整摄像装置的方位，以便获得预期效果的目标图像。

下文结合表一以及图7至8来说明用于实现用于目标拍摄对象的识别模型的网络结构。以下结合表一来说明mobileNet-v2的网络结构。

表一

在上述表一中，input代表输入图像尺寸，operator代表网络层，conv2d代表CNN层，其卷积核为3x3。bottleneck代表基本模块单元。此外，t代表卷积层扩展因子，c代表输出通道数，n代表bottlenet模块重复执行次数，s为卷积移动的步长大小，k代表对象类别数。

例如表一的第一行的输入图像尺寸例如是224*224的3通道的图像。对应的网络层为CNN层，其卷积核为3x3。输出是32通道。执行一次，卷积移动的步长为2。由于表一的第一行的卷积操作的移动的步长为2，表一的第二行的输入图像尺寸变为是112*112的32通道的图像。对应的网络层为bottleneck结构(下文将结合图8说明bottleneck结构)，扩展因子为1，输出是16通道，执行一次。卷积移动的步长为1。由于表一的第二行的的卷积移动的步长为1，因此表一的第三行的输入图像尺寸变为是112*112的16通道的图像。经由bottleneck处理，扩展因子为6，输出是24通道。执行2次。卷积移动的步长为2，然后依次类推……。avgpool为全局平均池化，池化核的大小为7x7，输出为1*1的1280通道的图像。之后，网络层为CNN层，其卷积核为1x1，输出k代表对象类别数。

图7示意性示出根据本公开实施例的用于目标拍摄对象的识别模型的bottleneck结构700的示意图。在图7中，图7左侧为步长为1时的结构，如图7左侧所示，710指示输入，712指示卷积核为1x1卷积操作，以及卷积之后的激活层Relu 6。714指示卷积核为3x3的深度卷积(Dwise_conv)操作，以及之后的激活层Relu 6。718指示卷积核为1x1的卷积操作，以及之后的线性变换(linear)操作。720指示叠加(Add)操作。

图7右侧为步长为2时的结构，如图7右侧所示，730指示输入。732指示卷积核为1x1卷积操作，以及卷积之后的激活层Relu 6。734指示卷积核为3x3的深度卷积(Dwise_conv)操作，卷积移动的步长为2，以及之后的激活层Relu 6。736指示卷积核为1x1的卷积操作，以及之后的线性变换(linear)操作。

图8示意性示出根据本公开实施例的用于目标拍摄对象的识别模型的yolov3网络结构的示意图。如图8所示，802指示输入图像。804至812指示5个mobilenet-stage阶段，其中每个mobilenet-stage阶段为将输入图像高、宽尺寸各自缩放为原来的1/2的处理。例如，804所指示的mobilenet-stage1阶段将输入图像由224*224缩放为原来的1/2，即112*112，例如，表一中的第一行的CNN层操作将对应的输入图像由224*224缩放至112*112，该CNN层操作可以视为mobilenet-stage1阶段。806所指示的mobilenet-stage2将由mobilenet-stage1输出的图像尺寸由112*112缩放为原来的1/2，即56*56。依次类推……。经由mobilenet-stage1至mobilenet-stage5阶段，输入图像高、宽尺寸分别被缩放为原来的1/32。通过mobilenet-stage阶段缩放图像尺寸，可以有利于提升目标拍摄对象的识别模块的处理速度。

在图8中，814、828和842分别指示卷积核为3x3的卷积操作。816、830和844分别指示卷积核为3x3的卷积操作。818、832和846分别指示卷积核为1x1的卷积操作。822和836分别指示卷积核为1x1的卷积操作。824和838分别指示上采样操作。826和840分别指示整合(例如将对应的特征图对应元素相加)操作。820、834和848分别指示输出。每个输出例如是对象类别数和对象的位置信息(例如关于***边框的坐标)。输出820为经由mobilenet-stage5阶段处理后的将图像高、宽尺寸分别被缩放为输入图像尺寸的1/32基础上，然后经卷积而输出的。输出834为经由整合操作826将mobilenet-stage5阶段的处理结果经卷积操作814、卷积操作822和上采样操作824后与mobilenet-stage4阶段的处理结果进行整合操作826之后，再经卷积操作830、卷积操作832而形成的。因此，输出834的图像尺寸与输出820的图像尺寸不同。同理，输出840的将整合操作826后的结果再次处理后与mobilenet-stage3阶段的处理结果进行整合操作840，因而，输出840的图像尺寸与输出820、834的图像尺寸不同。通过采用上述手段构建的目标拍摄对象的识别模型能够识别图像尺寸大小不同的对象，因此本公开能够针对车辆110行驶过程中远近景中尺寸大小不同的目标拍摄对象进行快速和准确的识别。

以下结合图12至图13说明用于对焦的方法1300。图12示意性示出根据本公开实施例的基于目标拍摄方位的采集图像1200的示意图。图13示意性示出根据本公开实施例的用于对焦的方法1300的示意图。

在框1302处，车载计算设备114或移动设备120确定摄像装置是否已被调整至目标拍摄方位。

在框1304处，如果车载计算设备114或移动设备120确定摄像装置已被调整至目标拍摄方位，确定目标拍摄对象为对焦对象。在一些实施例中，在调整摄像装置的拍摄方位中，可以跟踪目标拍摄对象的位置信息，如果车载计算设备114或移动设备120确定目标拍摄对象(如图12中的车1210)的位置信息(如图12中的***边框1212中心点的位置)等于预定位置信息，则确定摄像装置已被调整至目标拍摄方位。例如，图12中的目标拍摄对象(例如，车1210)在采集图像1200中的位置信息为预定位置信息(例如，0.5，0.618)，则车载计算设备114或移动设备120确定目标拍摄对象(例如，车1210)为对焦对象。

在框1306处，车载计算设备114或移动设备120基于针对对焦对象的多个对焦点，生成多帧图像数据，多个对焦点是经由驱动至少一个摄像装置移动镜头的多个对焦位置而产生的。

关于摄像装置移动镜头以便自动对焦的方式，在一些实施例中，例如通过将镜头配置入音圈马达来实现的，音圈马达例如主要有线圈，磁铁组和弹片构成，线圈通过上下两个弹片固定在磁铁组内，当给线圈通电时，线圈会产生磁场，线圈磁场和磁石组相互作用，线圈会向上移动，而例如配置在线圈里的摄像头便移动，当断电时，线圈在弹片弹力下返回，这样就实现了自动对焦功能。

在框1308处，车载计算设备114或移动设备120在多帧图像数据中确定对比度最大的图像数据。

在框1310处，使得至少一个摄像装置移动镜头至与对比度最大的图像数据相关联的对焦位置。

在上述方案中，可以直接在摄像装置调整到目标拍摄方位后自动针对目标拍摄对象作为对焦对象进行自动对焦，而无需手工在多个对象中选择对焦对象。

在一些实施例中，车载计算设备114或移动设备120也可以才采用其他自动对焦方式，例如采用“相位检测自动对焦”，例如通过比对左右两侧像素点的距离及其变化等来决定对焦的偏移值从而实现准确对焦。

图14示意性示出了适于用来实现本公开实施例的电子设备1400的框图。设备1400可以是用于实现执行图2至6所示的方法200、300、400、600和1300的设备。如图7所示，设备1400包括中央处理单元(CPU)1401，其可以根据存储在只读存储器(ROM)1402中的计算机程序指令或者从存储单元1408加载到随机访问存储器(RAM)1403中的计算机程序指令，来执行各种适当的动作和处理。在RAM 1403中，还可存储设备1400操作所需的各种程序和数据。CPU 1401、ROM 1402以及RAM1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。

设备1400中的多个部件连接至I/O接口1405，包括：输入单元1406、输出单元1407、存储单元1408，处理单元1401执行上文所描述的各个方法和处理，例如执行方法200、300、400、600和1300。例如，在一些实施例中，方法200、300、400、600和1300可被实现为计算机软件程序，其被存储于机器可读介质，例如存储单元1408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1402和/或通信单元1409而被载入和/或安装到设备1400上。当计算机程序加载到RAM 1403并由CPU 1401执行时，可以执行上文描述的方法200、300、400、600和1300的一个或多个操作。备选地，在其他实施例中，CPU 1401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、300、400、600和1300的一个或多个动作。

需要进一步说明的是，本公开可以是方法、装置、***和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上该仅为本公开的可选实施例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种采集图像的方法，包括：

响应于确定语音输入与采集图像相关联，获取移动设备或车载摄像装置所显示的初始图像，所述语音输入是经由车辆或所述移动设备的拾音器所拾取的；

基于所述语音输入，识别所述初始图像中的目标拍摄对象；

基于与所述目标拍摄对象相关的图像特征，调整所述车载摄像装置和所述移动设备的摄像装置中的至少一个摄像装置的焦距和拍摄方位中的至少一项；以及

针对所述目标拍摄对象选取对焦点，以用于拍摄目标图像。

2.根据权利要求1所述的方法，其中确定语音输入与采集图像相关联包括：

提取所述语音输入的声学特征；

基于所述声学特征，经由预定关键词识别模型，确定所述语音输入是否包括与预定关键词相关联的语音片段，所述预定关键词识别模型经由多个关于拍摄指令的语音样本数据所训练；以及

响应于确定所述语音输入包括与预定关键词所包括的语音片段，确定所述语音输入与采集图像相关联。

3.根据权利要求1所述的方法，其中确定语音输入与采集图像相关联包括：

响应于确定所述语音输入是关于第一语音的应答，所述第一语音是经由车辆或所述移动设备的扬声器所输出的。

4.根据权利要求2或3所述的方法，其中识别所述初始图像中的目标拍摄对象包括以下一项：

识别所述语音输入，以确定用于指示目标拍摄对象的关键词；

基于识别模型，识别所述初始图像包括的对象、对象类别，所述识别模型经由多个图像样本数据所训练；以及

响应于确定所述对象类别和所述关键词相匹配，确定所述对象为所述目标拍摄对象。

5.根据权利要求4所述的方法，其中调整至少一个摄像装置的焦距和拍摄方位中的至少一项包括：

确定所述目标拍摄对象在所述初始图像中的尺寸比例；

响应于确定所述尺寸比例不等于预定比例，调整所述至少一个摄像装置的焦距至目标焦距；

确定所述目标拍摄对象在基于所述目标焦距而生成的图像中的位置信息；以及

响应于确定所述位置信息不等于预定位置，调整所述至少一个摄像装置至目标拍摄方位。

6.根据权利要求5所述的方法，其中确定所述目标拍摄对象在所述初始图像中的尺寸比例包括：

确定所述目标拍摄对象的***边框；以及

基于所述***边框的面积与所述图像的整体面积之间的比例，确定所述尺寸比例。

7.根据权利要求5所述的方法，其中确定所述目标拍摄对象在基于所述目标焦距而生成的图像中的位置信息包括：

基于所述目标焦距而生成的图像中的所述目标拍摄对象的***边框的中心位置，确定所述位置信息。

8.根据权利要求7所述的方法，其中调整所述至少一个摄像装置至目标焦距和目标拍摄方位包括：

响应于确定所述目标焦距超出所述至少一个摄像装置的镜头的预定焦距阈值，基于所述预定焦距阈值拍摄关于所述目标拍摄对象的图像；以及

基于预定比例，裁减基于预定焦距阈值所拍摄的关于所述目标拍摄对象的图像，以生成所述目标图像。

9.根据权利要求5所述的方法，其中针对所述目标拍摄对象选取对焦点以用于拍摄目标图像包括：

响应于确定所述至少一个摄像装置已被调整至所述目标拍摄方位，确定所述目标拍摄对象为对焦对象；

获取针对所述目标对焦对的多个对焦点而生成多帧图像数据，所述多个对焦点是经由驱动所述至少一个摄像装置移动镜头的多个对焦位置而产生的；

在所述多帧图像数据中确定对比度最大的图像数据；以及

使得所述至少一个摄像装置所述镜头移动至与所述对比度最大的图像数据相关联的对焦位置。

10.根据权利要求5所述的方法，其中调整所述至少一个摄像装置至目标拍摄方位包括：

响应于确定所述至少一个摄像装置已被调整至目标焦距，获取所述移动设备与所述初始图像相关联的初始拍摄方位，所述初始拍摄方位基于传感器的检测数据而确定；以及

基于所述位置信息、预定位置信息和所述初始拍摄方位，生成用于驱动所述至少一个摄像装置中的至少一个的旋转装置进行旋转的驱动信号，以用于调整所述至少一个摄像装置至所述目标拍摄方位。

11.根据权利要求1所述的方法，其中调整所述至少一个摄像装置至目标拍摄方位包括：

获取所述移动设备与所述初始图像相关联的初始拍摄方位，所述初始拍摄方位基于传感器的检测数据而确定；

基于所述目标拍摄方位和所述初始拍摄方位，生成用于指示所述移动关于所述至少一个摄像装置的移动的语音信息；以及

响应于确定所述至少一个摄像装置已被移动至所述目标拍摄方位，呈现提示信息。

12.一种电子设备，包括：

存储器，被配置为存储一个或多个计算机程序；以及

处理器，耦合至所述存储器并且被配置为执行所述一个或多个程序使所述装置执行根据权利要求1-11中任一项所述的方法。

13.一种非瞬态计算机可读存储介质，其上存储有机器可执行指令，所述机器可执行指令在被执行时使机器执行根据权利要求1-11中任一项所述的方法的步骤。