CN115499580A

CN115499580A - 多模式融合的智能取景方法、装置及摄像设备

Info

Publication number: CN115499580A
Application number: CN202210977301.4A
Authority: CN
Inventors: 肖兵; 陈瑞斌; 邱俊锋; 李正国; 廖鑫
Original assignee: Zhuhai Shixi Technology Co Ltd
Current assignee: Zhuhai Shixi Technology Co Ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-12-20
Anticipated expiration: 2042-08-15
Also published as: CN115499580B

Abstract

本发明提供了一种多模式融合的智能取景方法、装置及摄像设备，所述方法包括：获取图像采集***所部署场景的视频原图像，识别所述视频原图像中的手部目标；检测所述手部目标触发手势控制指令；基于所述手势控制指令设定所述部署场景的取景模式；依据所述取景模式确定所述部署场景中的取景目标，输出所述视频原图像中关联所述取景目标的感兴趣区域。本发明通过简单的手势控制即可实现对人或物的特写，满足会议场景或是直播场景的图像输出需求。

Description

多模式融合的智能取景方法、装置及摄像设备

技术领域

本发明涉及智能控制技术领域，特别是一种多模式融合的智能取景方法、装置及摄像设备。

背景技术

随着图像采集技术的发展，智能取景***在影像方面越来越多地朝着超高清、大视野、智能化的方向发展。现有方案中，通过对画面进行图像处理技术实现人像特写，不论是在单人还是多人对场景，均能使画面中的用户处于最佳视图，同时减少超广角视野下人像周围的冗余背景，极大地提升了场景图像输出效果。

但是，现有的智能取景功能一般是对所有用户进行特写，即为多人特写。也有个别产品具有单人特写模式，其策略比较简单直接，是对画面中最大的(或认为最近的)人像目标进行特写，而其他的参会者若不处于最近位置则不会被特写。现实情况下，用户可能希望特写对象在与其他参会者前后相对位置变化时依然能被持续追踪，该策略就不能满足需求。而且，现有的智能取景功能相对单一，需要用户手动调节特写对象，不仅操作复杂而且无法满足用户多样化的需求。

发明内容

鉴于上述问题，本发明提出一种克服上述问题或者至少部分地解决上述问题的多模式融合的智能取景方法、装置及摄像设备。

根据本发明的第一方面，提供了一种基于手势控制的多模式融合的智能取景方法，所述方包括：

获取图像采集***所部署场景的视频原图像，识别所述视频原图像中的手部目标；

检测所述手部目标触发手势控制指令；

基于所述手势控制指令设定所述部署场景的取景模式；

依据所述取景模式确定所述部署场景中的取景目标，输出所述视频原图像中关联所述取景目标的感兴趣区域。

可选地，所述检测所述手部目标触发手势控制指令包括：

对所述手部目标进行跟踪，并生成所述手部目标的手部目标跟踪信息；

基于所述手部目标跟踪信息判断所述手部目标处于手势请求状态时，识别对应的手势控制指令。

可选地，所述基于所述手势控制指令设定所述部署场景的取景模式包括：

识别所述手势控制指令的指令类型，获取预先设置的于所述指令类型对应的取景模式切换逻辑；

依据所述取景模式切换逻辑设定所述部署场景的取景模式。

可选地，所述取景模式为多人特写模式、单人特写模式、全景模式、物体特写模式中任意一种。

可选地，所述依据所述取景模式确定所述部署场景中的取景目标，输出所述视频原图像中关联所述取景目标的感兴趣区域包括：

若取景模式为多人特写模式，则识别所述手势控制指令对应的多个第一人像目标，将多个所述第一人像目标作为取景目标；输出所述视频原图像中关联所述第二人像目标的感兴趣区域，以对多个所述第一人像目标进行特写；

若取景模式为单人特写模式，则识别所述手势控制指令对应的第二人像目标，将所述第二人像目标作为取景目标；输出所述视频原图像中关联所述第二人像目标的感兴趣区域，以对所述第二人像目标进行特写；

若取景模式为全景模式，则将所述部署场景的全场景作为取景目标，输出所述视频原图像；

若取景模式为物体特写模式，则检测所述手部目标关联的物体目标，将所述手部目标和/或物体目标作为取景目标，输出所述视频原图像中关联所述手部目标和/或物体目标对感兴趣区域，以对所述手部目标和/或所述物体目标进行特写。

可选地，若取景模式为单人特写模式，输出所述视频原图像中关联所述第二人像目标的感兴趣区域，以对所述第二人像目标进行特写，所述方法还包括：

若检测到所述视频原图像中新的手部目标触发所述手势控制指令，则识别所述手势控制指令对应的第三人像目标；

输出所述第三人像目标的特写图像，以实现单人特写模式下的人像切换。

可选地，所述输出所述视频原图像中关联所述手部目标和/或物体目标对感兴趣区域，以对所述手部目标和/或所述物体目标进行特写包括：

确定与所述物体目标关联的两个手部目标以及所述两个手部目标的手部检测框；

将所述两个手部目标的手部检测框作为感兴趣区域，并对所述视频原图像进行裁剪缩放，以对所述手部目标和/或所述物体目标进行特写。

确定所述物体目标的物体检测框；

获取所述两个手部目标的手部检测框和所述物体检测框的共同区域，将所述共同区域作为感兴趣区域，并对所述视频原图像进行裁剪缩放，以对所述手部目标和/或所述物体目标进行特写。

根据本发明的第二方面，提供了一种基于手势控制的多模式融合的智能取景装置，所述装置包括：

图像采集模块，用于获取图像采集***所部署场景的视频原图像，识别所述视频原图像中的手部目标；

手势控制模块，用于检测所述手部目标触发手势控制指令；

取景模式控制模块，用于基于所述手势控制指令设定所述部署场景的取景模式；

智能取景模块，用于依据所述取景模式确定所述部署场景中的取景目标，输出所述视频原图像中关联所述取景目标的感兴趣区域。

根据本发明的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面中任一项所述的方法。

根据本发明的第四方面，提供了一种摄像设备，所述摄像设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面中任一项所述的方法。

本发明提供了一种多模式融合的智能取景方法、装置及摄像设备，用户采用手势控制的交互方式即可实现取景模式的设置及切换，兼具多人特写、单人特写、全景模式、物体特写等多种模式的智能取景功能，进而能使产品体验更加自然、方便和智能。尤其是在会议室的会议场景和直播场景，通过简单的手势控制即可实现对人或物的特写，满足会议场景或是直播场景的图像输出需求。另外，在智能家居的应用场景中，用户通过手势即可实现智能设备的开启/关闭，或者运行模式切换、设备功能的控制等等，使设备更加智能化，进而提升用户对智能设备对使用体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明实施例的基于手势控制的多模式融合的智能取景方法流程示意图；

图2示出了根据本发明实施例的双手持物展示物体效果示意图

图3示出了根据本发明实施例的物体特写效果示意图；

图4示出了根据本发明实施例的基于手势控制的多模式融合的智能取景装置结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种基于手势控制的多模式融合的智能取景方法，如图1所示，本发明实施例提供的基于手势控制的多模式融合的智能取景方法至少可以包括以下步骤S101～S104。

S101，获取图像采集***所部署场景的视频原图像，识别视频原图像中的手部目标。本实施例的图像采集***可以为设置有一个或多个摄像头的图像采集***，获取到的视频原图像可以为图像采集***实时采集的视频流中的视频原图像，也可以是图像采集***预先采集的一段连续的视频原图像。

对于获取到的视频原图像可以进行手部检测，以识别视频原图像中的手部目标。可选地，可以将视频原图像输入深度神经网络模型，以利用深度神经网络模型实现手部的检测识别。本实施例的深度神经网络是预先训练至收敛状态的可以用于进行多目标检测的神经网络模型。传统的目标检测网络一般都支持多类目标检测，即一次推理可检测多类目标，只要训练阶段针对多类目标进行训练即可，比如采用比较典型的YOLO系列、SSD等网络。本实施例可以基于深度神经网络实现多类目标的检测，即对输入至深度神经网络中对人像或者手部等多个不同类型对目标进行同时检测识别。

S102，检测手部目标触发手势控制指令。对于步骤S101中识别出的各个手部目标进行跟踪监测以检测是否有手部目标触发手势控制指令。其中，手势控制指令是可以直接用于控制图像采集***对其部署场景的取景模式的快捷控制方式，处于部署场景中的各个人体对象均可以通过其手部触发手势控制指令，不同的手势可以对应触发不同的手势控制指令，具体可以根据不同的场景应用需求进行设置。

S103，基于手势控制指令设定部署场景的取景模式。

对于检测出的手部目标，可以对通过采集的连续视频原图像监测是否触发手势控制指令，并在确定触发手势控制指令后，响应于该手势控制指令设定部署场景的取景模式。本实施例的取景模式可以包括多人特写模式、单人特写模式、全景模式、物体特写模式中任意一种。

S104，依据取景模式确定部署场景中的取景目标，输出视频原图像中关联取景目标的感兴趣区域。

确定部署场景的取景模式之后，即可确定该取景模式下对应的取景目标，进而输出所确定的取景目标关联的感兴趣区域。其中，取景目标关联的感兴趣区域是视频原图像中的包含取景目标的图像区域，其可以根据目标检测时取景目标的检测框确定。

本发明实施例提供的方法，用户采用手势控制的交互方式即可实现取景模式的设置及切换，兼具多人特写、单人特写、全景模式、物体特写等多种模式的智能取景功能，进而能使产品体验更加自然、方便和智能。尤其是在会议室的会议场景和直播场景，通过简单的手势控制即可实现对人或物的特写，满足会议场景或是直播场景的图像输出需求。除此之外对于如产品发布会场景、教学场景或是其他多人/物的场景同样可以满足不同场景的取景需求。进一步地，在上述步骤S104之后，在检测到特定手势控制指令时，还可以退出当前的取景模式，进行全景图像的展示。

在上述步骤S102中提及，需要检测手部目标触发手势控制指令，具体可以对步骤S101识别出的各个手部目标进行跟踪监测，以及时检测手部目标是否触发手势控制指令，其可以包括以下步骤A1～A2。

A1，对手部目标进行跟踪，并生成手部目标的手部目标跟踪信息。对于步骤S101检测出的手部目标进行跟踪，得到相应的手部目标的ID和轨迹等手部跟踪信息。在进行手部目标跟踪时，优选SORT(Simple Online And Realtime Tracking)算法，该算法为经典的基于检测的多目标跟踪算法，具有计算量小、运算速度快的特点。当然，如果在应用需要且算力允许的情况下，还可选用DeepSORT等其他跟踪算法。

A2，基于手部目标跟踪信息判断手部目标处于手势请求状态时，识别对应的手势控制指令。

对于各个手部目标，可以监测分析各手部是否处手势请求状态，当判断任一手部目标处于手势请求状态时，则识别该手势目标所摆出的手势类型。本发明优选实施例中，可以仅对判定为处于手势控制请求状态的手部采用深度神经网络模型进行手型分类，该深度神经网络模型区别于进行手部目标检测的神经网络模型，是一种用于对手势进行分类识别的分类学习模型。分类时需要先根据手部检测框从原图中裁剪出手部图像，然后将其送入分类网络经推理得到相应的手势类别，进而确定对应的手势控制指令。

进一步地，上述步骤A2基于手部目标跟踪信息判断手部目标处于手势请求状态时，包括以下步骤A2-1～A2-4。

A2-1，获取手部目标对应的手部目标检测框，并根据手部目标检测框分析手部目标的稳定状态。本实施例的手部目标的稳定状态主要包括手部姿态稳定状态。前文介绍，会通过深度神经网络模型对视频原图像中的手部目标进行检测，本实施例中，后台在利用深度神经网络进行检测时，针对识别处的手部区域会生成检测框，该检测框是后台处理可以识别到的框或者演示算法效果时候可以看到的，正常情况下不会在视频原图像中显示检测框。可选地，本实施例中可以对任意手部跟踪目标，根据手部目标检测框判别手部大小和位置是否稳定。

可选地，在进行手部姿态稳定性判定时，即计算当前手部目标检测框B_current与稳定手部目标检测框B_stable的交并比(IoU，Intersection over Uion)，若该IoU超过阈值T_{hand_iou}，则认为该手部姿态稳定，否则，认为该手部姿态不稳定并用当前检测框B_current来更新稳定检测框B_stable。

除此之外，还可以用检测框各参数的标准差作为衡量指标，即对任意手部跟踪目标，计算前后帧或历史各帧的检测框参数(可以是(x,y,w,h)或(cx,cy,w,h)或(x₁,y₁,x₂,y₂)等形式)各自的标准差，若标准差小于预设阈值，则认为该手部姿态稳定，否则，认为该手部姿态不稳定。

手部跟踪属于多目标跟踪，多目标跟踪通常会为每个跟踪目标分配一个目标丢失帧数(记skip_count)用以记录跟踪目标未成功关联到检测框的连续次数，并设定一个统一的最大丢失帧数阈值(记Tmax_skip_count)，当skip_count≥Tmax_skip_count时就认为该目标消失将其从跟踪列表移除。换言之，本实施例中以手部目标跟踪丢失帧数作为衡量指标。具体地，设定目标丢失帧数阈值T_{hand_skip}，对任意跟踪的手部目标，若其丢失帧数不超过T_{hand_skip}(优选地，取值为1)，则认为该手部检测结果稳定，否则，认为该手部检测结果不稳定。

A2-2，确定与手部目标关联的人像目标。

在检测人像目标时，可以采用检测手部目标的深度神经网络学习模型对输入的视频原图像进行同步检测识别，得到视频原图像中的多个参考人像目标，对于检测出的人像进行多目标跟踪。其中，人像目标可以为人脸、人头、头肩、人体等其中至少一种。可选地，进行人像目标和手部目标的关联时可以包括：

A2-2-1，确定各参考人像目标的手势候选区域。

A2-2-2，依据手部目标的手部目标检测框与各手势候选区域的位置关系确定与手部目标关联的人像目标。手势候选区域优选为手势发起者上半身相关区域，手势候选区域应涵盖手势发起者面向人机交互设备在胸前或肩头正式且自然地做出交互手势时手部可能出现的大部分区域。比如，竖直方向为腹部以上、额头以下，水平方向为两臂之间，在此基础上可进一步根据实际需要适当微调。

手势候选区域可由手势发起者相应人像检测框计算得出，当手势发起者位置发生变化时，相应手势候选区域也会随之自动调整。(人像目标)以人头目标为例，预设手势候选区域相对于人头检测框的竖直偏移比例S_y，手势候选区域相对人头检测框宽、高的比例分别为S_w、S_h，即，手势候选区域的大小可以根据检测框的大小进行确定，具体可以根据检测框在各个方向上的参数进行比例放大以得到，例如，对任意人头检测框(x_head,y_head,w_head,h_head)，相应的手势候选区域(x_roi,y_roi,w_roi,h_roi)中各个参数的计算公式为：

w_roi＝w_head*S_w

h_roi＝h_head*S_h

x_roi＝x_head+w_head/2-w_roi/2

y_roi＝y_head+h_head*S_y

其中，S_w、S_h、S_y，可以根据不同的需求进行设置，本实施例对此不做限定。

对任意手部，在经过上述数据关联处理后，须有人像目标与之关联，才对该手部继续执行后续步骤处理。当然，还可以设定仅响应特定人像目标的手势指令，即，确定与手部目标关联的人像目标，且通过人像目标ID或是其他特征信息判断该人像目标属于预设的具有手势控制权限的人像目标时，可以继续进行后续的步骤。

A2-2-3，分析人像目标的人像姿态稳定状态。

考虑到用户在进行手势控制是处于一种刻意的状态(区别于非交互时的随意状态)，另外，为保证手势控制可靠性并节省后续某些不必要的手型分类计算，还需要对人像稳定性进行分析。具体地，对任意已关联到人像目标的手部目标，判别相应人像检测框是否稳定，若稳定，则对该手部目标继续后续处理。

A2-2-4，结合手部目标的稳定状态和人像目标的稳定状态判别手部目标是否处于稳定手势请求状态。

对任意手部目标，若其同时满足手部稳定性条件，存在稳定的人像目标与之关联并且相应人像目标也相对稳定，则认为该手部目标在当前帧(或时刻)处于瞬时稳定的状态。进一步，对每一个手部目标，统计其持续稳定的帧数n_stable(或时长t_stable)，并提前预设一个统一的持续稳定帧数n_stable(或时长T_stable)阈值，若n_stable≥N_stable(或t_stable≥T_stable)，则认为该手部目标处于手势请求(就绪)状态，否则认为处于非手势请求状态。注意，持续稳定的帧数n_stable(或时长t_stable)在上述步骤A2-2-1～A2-2-3任意环节不满足时，即被重置然后重新累计。

本实施例的手势稳定性确定方法，可以在确定请求有效的情况下予以响应，满足相应场景产品需求，并且能节省算力、十分高效，还能够避免由于临时的手部动作误判而影响用户的使用体验。

在本发明可选实施例中，上述步骤S103基于手势控制指令设定部署场景的取景模式可以包括以下步骤B1～B2。

B1，识别手势控制指令的指令类型，获取预先设置的与指令类型对应的取景模式切换逻辑。

B2，依据取景模式切换逻辑设定部署场景的取景模式。

取景模式切换逻辑可以包括取景模式的切换方式、取景对象的确认方式等。例如，取景模式切换逻辑中，是否需要对取景模式切换前的当前取景模式的判断，以及是否需要设置中间过渡的取景模式。举例来讲，当需要从全景模式切换至单人取景模式时，是否需要先切换至多人取景模式，再继续切换至单人取景模式；或者是，直接从全景取景模式直接切换至单人取景模式。当然，实际应用中还可以对取景模式切换过程中涉及的切换时间点、固定时间段内的取景切换频率等的设置，本发明实施例对此不做限定。例如，通过不同的手势类型匹配不同的指令类型，对于不同的指令类型，可以根据用户需求或场景需求预先设定对应的取景模式切换逻辑。

实际应用中，手部目标所发起的手势可以包括单手手势和双手手势，常见的单手手型有数字1～9、“大拇指”、“OK”、“Gun”、“单手比心”、“ILoveYou”等等。双手手势又可分为粘连型(双手接触，比如“双手爱心”、“拱手”、“合十”等)和非粘连型。粘连型双手手势理论上需要作为单独的目标类型加以检测，然后再进一步分类。非粘连型双手手势可以基于单手手型进行组合。对于不同的手势匹配不同取景模式的手势控制指令，具体可以根据不同的需求设置匹配关系，本发明实施例对此不做限定。

上述步骤S104中，对于不同的场景模式，确定取景目标的方式以及输出特写图像的方式也不相同。

一、若取景模式为多人特写模式。

识别手势控制指令对应的多个第一人像目标，将多个第一人像目标作为取景目标；输出视频原图像中关联第一人像目标的感兴趣区域，以对多个第一人像目标进行特写。

也就是说，若当前取景模式为多人特写模式，则可以将视频图像中包含多个第一人像目标的区域作为感兴趣区域，进而实现多人特写。进行多人特写时，可以对视频原图像进行裁剪缩放，以得到包含多个人像目标的图像后输出，从而实现对多人对特写。可选地，还可以对多个人像目标中对各个人像目标进行单独对裁剪缩放，将多个人像目标对应的人像按照特定方式拼接后进行展示，如并列、四宫格、九宫格等拼接展示方式，或者是在原图像上叠加展示等方式。本实施例中，确定各个手部标关联的多个人像目标时，可以参考上述A2-2所记载的手部目标与人像目标的关联方式，此处不再赘述。

二、取景模式为单人特写模式。

识别手势控制指令对应的第二人像目标，将第二人像目标作为取景目标；输出视频原图像中关联第二人像目标的感兴趣区域，以对第二人像目标进行特写。若当前取景模式为单人特写，则可以在场景切换的首帧记录该单人特写手势发起者的人像目标ID，确定对应人像检测框后将人像检测框中的图像进行裁剪缩放，并在首帧及后续帧仅将该人像ID对应的单个人像检测框进行裁剪缩放后实现特写展示。

进一步地，若检测到视频原图像中新的手部目标触发手势控制指令，则识别手势控制指令对应的第三人像目标；输出第三人像目标的特写图像，以实现单人特写模式下的人像切换。也就是说，在单人特写模式下，当另一个参会者通过手势请求单人特写，则记录新请求者的人像ID，并根据新的人像ID送入相应的单个人像检测框，即可实现单人特写模式下特写对象的转换。

本实施例中，识别触发手势控制指令对应的第二人像目标包括：对视频原图像进行人像检测，以识别视频原图像中的参考人像目标；确定各参考人像目标的手势候选区域；获取手部目标对应的手部目标检测框；依据手部目标的手部目标检测框与各手势候选区域的位置关系确定与手部目标关联的人像目标，作为手势控制指令对应的第二人像目标。其中，若手部目标的手部目标检测框包含于任一手势候选区域，则将该手势候选区域对应的参考人像目标作为手部目标关联的人像目标；或，若手部目标的手部目标检测框与任一手势候选框的重叠比例超过预设值，则将该手势候选区域对应的参考人像目标作为手部目标关联的人像目标。本实施例中，确定手部目标关联的人像目标的具体实现方式可以参考上述A2-2所记载的方式，此处不再赘述。

三、取景模式为全景模式。

将部署场景的全场景作为取景目标，输出视频原图像；

若当前取景模式为全景模式，无需确认任何人像检测框，可直接将视频原图像的全部区域作为感兴趣区域并进行输出展示。可选地，本实施例中还可以智能进入或退出智能取景模式进程，当检测到特定的手势控制指令时，可自动进入智能取景模式进程，反之，也可自动退出取景模式进程。在识别出取景模式为全景模式时，可以自动退出智能取景模式进程，此时，则自动输出展示视频原图像，当需要切换至其他取景模式时，会再次自动开启智能取景模式进程。

四、取景模式为物体特写模式。

检测手部目标关联的物体目标，将手部目标和/或物体目标作为取景目标，输出视频原图像中关联手部目标和/或物体目标对感兴趣区域，以对手部目标和/或物体目标进行特写。在进行物体特写时，可以对物体目标进行特写，或者是对手部目标和物体目标进行特写。

一方面，本实施例中对手部目标和/或物体目标进行特写可以包括：确定与物体目标关联的两个手部目标以及两个手部目标的手部检测框；将两个手部目标的手部检测框作为感兴趣区域，并对视频原图像进行裁剪缩放，以对手部目标和/或物体目标进行特写。

在本实施例中，若当前取景模式为物体特写，则根据手部目标及对应的手部跟踪信息判断用户是否处于双手展示物体的状态，如图2所示。若是则记录对应双手的手部ID，将两个手部的检测框作为感兴趣区域，后续根据这两个ID将相应的两个手部目标的手部检测框的图像进行裁剪缩放，这样一来，就会自动对持物的双手进行特写，自然地，物体也同时被特写，如图3所示。

另一方面，本实施例对手部目标和/或物体目标进行特写还可以包括：确定与物体目标关联的两个手部目标以及两个手部目标的手部检测框；确定物体目标的物体检测框；获取两个手部目标的手部检测框和物体检测框的共同区域，将共同区域作为感兴趣区域，并对视频原图像进行裁剪缩放，以对手部目标和/或物体目标进行特写。

可选地，也可将双手的检测框替换为由双手组成的手部、物体共同区域作为感兴趣区域。进一步，可根据需要，先对双手检测框或手部、物体共同区域经过设定比例的缩放再实现智能取景，从而实现对物体特写放大比例的调节，这样进行智能取景时，无需对内部逻辑及参数的修改，避免破环对应的智能取景模块的兼容性。前文所介绍的各个取景模式可以相互切换，用户仅需要通过做出相对应的手势即可。

比如希望在手持物品进行展示时能够对物体进行特写，即由人像特写转为物体特写。当然，在某些场景下，用户可能需要临时关闭特写而进入全景模式以期得到完整的画面效果。实际应用中，还可以将物体目标的物体检测框对应区域作为感兴趣区域，即，仅对物体目标进行特写，具体根据不同的应用场景或者物体目标的类型及大小进行设置，本发明实施例对此不做限定，

需要说明的是，要准确判断用户展示物体这一意图，不论是基于动态手势识别还是静态手势识别，都极具挑战。为此，本发明实施例提供的特定的物体特写场景：当用户需要进行物体特写时，需在胸前双手持物并保持一段时间(比如2～3s)，如图2所示。相应地，判定用户处于物体展示状态的判定策略为：根据手势检测，以判别是否存在一个人像关联了2只手的情形，若存在，则进一步检查相应的手势请求状态持续稳定的帧数n_stable(或时长t_stable)。

进一步，可选地，在进入物体特写模式模式后，用户无需继续保持双手持物姿态和位置不变，而是可以手持物体移动位置，或者变换一些更自然的手势，比如一手持物一手指物(展示并介绍时的手势)，只要能持续检测和跟踪到对应的双手手部目标，特写画面也会持续对双手进行追踪，亦即对物体保持特写追踪。相应地，当用户将物体放下时手部自然也随之放下，只要被追踪的双手目标至少1个丢失，就自然退出物体特写。

要对物体进行特写，除了需要判断用户进行物体特写的意图，还需确定物体所在区域。而要得到物体区域，常规的思路是进行物体检测。但现实情况是，用户展示的物体类别多种多样、形状千差万别，物体的背景也层出不穷，要达到可靠、稳定的效果，在物体检测方面挑战极大。考虑到用户双手持物这样特定而又较为通用的一种场景中，物体处于双手之间，由于手部检测效果容易保证，根据双手或由双手组成的共同区域(见图2所示手部、物体共同区域)进行特写，即可巧妙地将展示的物体包含其中。这样的方案简便易行，既能满足产品需求，又能复用已有模块和技术进而节省研发成本，且无需担忧计算开销。基于同一发明构思，本发明实施例还提供了一种基于手势控制的多模式融合的智能取景装置，如图4所示，本实施例的基于手势控制的多模式融合的智能取景装置可以包括：

图像采集模块410，用于获取图像采集***所部署场景的视频原图像，识别视频原图像中的手部目标；

手势控制模块420，用于检测手部目标触发手势控制指令；

取景模式控制模块430，用于基于手势控制指令设定部署场景的取景模式；

智能取景模块440，用于依据取景模式确定部署场景中的取景目标，输出视频原图像中关联取景目标的感兴趣区域。

在本发明一可选实施例中，手势控制模块420还可以用于：

对手部目标进行跟踪，并生成手部目标的手部目标跟踪信息；

基于手部目标跟踪信息判断手部目标处于手势请求状态时，识别对应的手势控制指令。

在本发明一可选实施例中，取景模式控制模块430还可以用于：

识别手势控制指令的指令类型，获取预先设置的与指令类型对应的取景模式切换逻辑；

依据所述取景模式切换逻辑设定所述部署场景的取景模式。

可选地，取景模式为多人特写模式、单人特写模式、全景模式、物体特写模式中任意一种。

在本发明一可选实施例中，智能取景模块440还可以用于：

若取景模式为物体特写模式，则检测所述手部目标关联的物体目标，将所述手部目标和/或物体目标作为取景目标，输出所述视频原图像中关联所述手部目标和/或物体目标对感兴趣区域，以对所述手部目标和/或所述物体目标进行特写。。

在本发明一可选实施例中，智能取景模块440还可以用于：

若检测到视频原图像中新的手部目标触发手势控制指令，则识别手势控制指令对应的第三人像目标；

输出第三人像目标的特写图像，以实现单人特写模式下的人像切换。

在本发明一可选实施例中，智能取景模块440还可以用于：

确定与物体目标关联的两个手部目标以及两个手部目标的手部检测框；

将两个手部目标的手部检测框作为感兴趣区域，并对视频原图像进行裁剪缩放，以对手部目标和/或物体目标进行特写。

在本发明一可选实施例中，智能取景模块440还可以用于：

确定物体目标的物体检测框；

获取两个手部目标的手部检测框和物体检测框的共同区域，将共同区域作为感兴趣区域，并对视频原图像进行裁剪缩放，以对手部目标和/或物体目标进行特写。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述实施例所述的方法。

本发明实施例还提供了一种摄像设备，所述摄像设备包括处理器以及存储器：所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；所述处理器用于根据所述程序代码中的指令执行上述实施例所述的方法。当然，摄像设备还包括用于实现图像采集的光学部件，光学部件可以包括镜头、滤光片等光学组件，或是外壳等其他常见的摄像设备的基本组件。

所属领域的技术人员可以清楚地了解到，上述描述的***、装置、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台摄像设备(例如个人计算机，服务器，或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，所述程序指令可以存储于一计算机可读取存储介质中，当所述程序指令被计算设备的处理器执行时，所述计算设备执行本发明各实施例所述方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

Claims

1.一种基于手势控制的多模式融合的智能取景方法，其特征在于，所述方法包括：

检测所述手部目标触发手势控制指令；

基于所述手势控制指令设定所述部署场景的取景模式；

2.根据权利要求1所述的方法，其特征在于，所述检测所述手部目标触发手势控制指令包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述手势控制指令设定所述部署场景的取景模式包括：

识别所述手势控制指令的指令类型，获取预先设置的与所述指令类型对应的取景模式切换逻辑；

依据所述取景模式切换逻辑设定所述部署场景的取景模式。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述取景模式为多人特写模式、单人特写模式、全景模式、物体特写模式中任意一种。

5.根据权利要求4所述的方法，其特征在于，所述依据所述取景模式确定所述部署场景中的取景目标，输出所述视频原图像中关联所述取景目标的感兴趣区域包括：

若取景模式为多人特写模式，则识别所述手势控制指令对应的多个第一人像目标，将多个所述第一人像目标作为取景目标；输出所述视频原图像中关联所述第一人像目标的感兴趣区域，以对多个所述第一人像目标进行特写；

若取景模式为物体特写模式，则检测所述手部目标关联的物体目标，将所述手部目标和/或物体目标作为取景目标，输出所述视频原图像中关联所述手部目标和/或物体目标的感兴趣区域，以对所述手部目标和/或所述物体目标进行特写。

6.根据权利要求5所述的方法，其特征在于，若取景模式为单人特写模式，输出所述视频原图像中关联所述第二人像目标的感兴趣区域，以对所述第二人像目标进行特写，所述方法还包括：

7.根据权利要求5所述的方法，其特征在于，所述输出所述视频原图像中关联所述手部目标和/或物体目标的感兴趣区域，以对所述手部目标和/或所述物体目标进行特写包括：

8.根据权利要求5所述的方法，其特征在于，所述输出所述视频原图像中关联所述手部目标和/或物体目标对感兴趣区域，以对所述手部目标和/或所述物体目标进行特写包括：

确定所述物体目标的物体检测框；

9.一种基于手势控制的多模式融合的智能取景装置，其特征在于，所述装置包括：

手势控制模块，用于检测所述手部目标触发手势控制指令；

10.一种摄像设备，其特征在于，所述摄像设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-8任一项所述的方法。