CN109218816B

CN109218816B - 基于人脸检测的音量调节方法、装置、电子设备及存储介质

Info

Publication number: CN109218816B
Application number: CN201811429641.3A
Authority: CN
Inventors: 周宸; 周宝; 陈远旭; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2022-08-12
Anticipated expiration: 2038-11-26
Also published as: CN109218816A

Abstract

本申请实施例公开了一种基于人脸检测的音量调节方法及装置，其中方法包括获取全景图像，对该全景图像进行人脸检测，根据该人脸检测得到的检测结果，确定该全景图像中用户的用户数量N，再根据该全景图像中N个用户在该全景图像上的N个位置，分别确定该N个用户的N个相对拍摄角度，并根据该N个用户的N个相对拍摄角度获取景深摄像头拍摄得到的至少一张深度图像，接着根据该至少一张深度图像计算该N个用户的深度距离，将该N个用户的深度距离中的最大值确定为目标深度距离，根据该用户数量和该目标深度距离对播放音量进行调整。采用本申请实施例，可以提高音量调节的准确性。

Description

基于人脸检测的音量调节方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于人脸检测的音量调节方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的发展，终端、多媒体、终端等能够发声的电子设备也在飞速发展，并在人们日常生活中得到广泛应用。然而目前常用的这些发声设备的音量通常需要手动调节，特别是在多人环境下，单一的音量无法满足这些设备所处环境及用户实时变化的要求。现有技术中也有结合环境音量因素对设备音量进行调节的方法，例如采用音量传感器探测环境噪声，对音量进行设置等。然而，在多人说话环境下，设备无法准确区分出环境噪声，因此现有技术中仅根据环境音量进行音量调节的方式不够准确。

发明内容

本申请实施例提供一种基于人脸检测的音量调节方法及装置，可以根据全景图像中的用户数量以及深度距离对音量进行调整，从而提高音量调节的准确性。

第一方面，本申请实施例提供了一种基于人脸检测的音量调节方法，该方法可包括：

获取第一摄像头在预设的转动角度范围内转动拍摄的多张图像进行图像合成得到的全景图像；

对该全景图像进行人脸检测，根据该人脸检测得到的检测结果，确定该全景图像中用户的用户数量N；

根据该全景图像中N个用户在该全景图像上的N个位置，分别确定该N个用户的N个相对拍摄角度；

根据该N个用户的N个相对拍摄角度获取景深摄像头拍摄得到的至少一张深度图像；

根据该至少一张深度图像计算该N个用户的深度距离，将该N个用户的深度距离中的最大值确定为目标深度距离；

根据该用户数量N和该目标深度距离对播放音量进行调整。

结合第一方面，在一种可能的实施方式中，根据该人脸检测得到的检测结果，确定该全景图像中用户的用户数量N，包括：若该人脸检测得到的检测结果中存在人脸，则获取该全景图像中人脸的数量；将该全景图像中人脸的数量确定为该全景图像中用户的用户数量N。

结合第一方面，在一种可能的实施方式中，根据该人脸检测得到的检测结果，确定该全景图像中用户的用户数量N，包括：若该人脸检测得到的检测结果中存在人脸，则对该全景图像上各人脸所在的图像区域进行人体骨架提取；统计该人体骨架提取得到的人体骨架的数量；将该人体骨架的数量确定为该目标全景图像中用户的用户数量N。

结合第一方面，在一种可能的实施方式中，根据该N个用户的N个相对拍摄角度获取景深摄像头拍摄得到的至少一张深度图像，包括：获取该景深摄像头在该N个相对拍摄角度上拍摄得到的N张深度图像，该景深摄像头在一个相对拍摄角度上拍摄一张深度图像；

根据该至少一张深度图像计算该N个用户的深度距离，将该N个用户的深度距离中的最大值确定为目标深度距离，包括：计算该N张深度图像中各张深度图像对应的用户的深度距离，将该各张深度图像对应的用户的深度距离中的最大值确定为目标深度距离。

结合第一方面，在一种可能的实施方式中，根据该N个用户的N个相对拍摄角度获取景深摄像头拍摄得到的至少一张深度图像，包括：获取该N个用户的N个相对拍摄角度中的最大值和最小值，计算该最大值与该最小值之间的绝对差值；若该绝对差值小于景深摄像头的最大拍摄角度，则获取该景深摄像头拍摄得到的包含该N个用户的深度图像。

结合第一方面，在一种可能的实施方式中，在根据该全景图像中N个用户在该全景图像上的N个位置，分别确定该N个用户的N个相对拍摄角度之前，该方法还包括：确定该用户数量N大于预设阈值。

结合第一方面，在一种可能的实施方式中，根据该用户数量N和该目标深度距离对播放音量进行调整，包括：根据该用户数量N和该目标深度距离确定出目标播放音量；获取当前的播放音量；检测该当前的播放音量与该目标播放音量之差的绝对值是否大于音量调节阈值；若该当前的播放音量与该目标播放音量之差的绝对值大于该音量调节阈值，则将该当前的播放音量调整至该目标播放音量。

第二方面，本申请实施例提供了一种音量调节装置，该装置包括：

第一获取模块，用于获取第一摄像头在预设的转动角度范围内转动拍摄的多张图像进行图像合成得到的全景图像；

人脸检测模块，用于对该全景图像进行人脸检测，根据该人脸检测得到的检测结果，确定该全景图像中用户的用户数量N；

第一确定模块，用于根据该全景图像中N个用户在该全景图像上的N个位置，分别确定该N个用户的N个相对拍摄角度；

获取模块，用于根据该N个用户的N个相对拍摄角度获取景深摄像头拍摄得到的至少一张深度图像；

计算模块，用于根据该至少一张深度图像计算该N个用户的深度距离，将该N个用户的深度距离中的最大值确定为目标深度距离；

调整模块，用于根据该用户数量N和该目标深度距离对播放音量进行调整。

结合第二方面，在一种可能的实施方式中，该人脸检测模块具体用于：对该全景图像进行人脸检测；若该人脸检测得到的检测结果中存在人脸，则获取该全景图像中人脸的数量；将该全景图像中人脸的数量确定为该全景图像中用户的用户数量N。

结合第二方面，在一种可能的实施方式中，该人脸检测模块具体用于：对该全景图像进行人脸检测；若该人脸检测得到的检测结果中存在人脸，则对该全景图像上各人脸所在的图像区域进行人体骨架提取；统计该人体骨架提取得到的人体骨架的数量；将该人体骨架的数量确定为该目标全景图像中用户的用户数量N。

结合第二方面，在一种可能的实施方式中，该获取模块具体用于：获取该景深摄像头在该N个相对拍摄角度上拍摄得到的N张深度图像，该景深摄像头在一个相对拍摄角度上拍摄一张深度图像；该计算模块具体用于：计算该N张深度图像中各张深度图像对应的用户的深度距离，将该各张深度图像对应的用户的深度距离中的最大值确定为目标深度距离。

结合第二方面，在一种可能的实施方式中，该获取模块具体用于：获取该N 个用户的N个相对拍摄角度中的最大值和最小值，计算该最大值与该最小值之间的绝对差值；若该绝对差值小于景深摄像头的最大拍摄角度，则获取该景深摄像头拍摄得到的包含该N个用户的深度图像。

结合第二方面，在一种可能的实施方式中，该装置还包括第二确定模块，用于在根据该全景图像中N个用户在该全景图像上的N个位置，分别确定该N 个用户的N个相对拍摄角度之前，确定该用户数量N大于预设阈值。

结合第二方面，在一种可能的实施方式中，该调整模块具体用于：根据该用户数量N和该目标深度距离确定出目标播放音量；获取当前的播放音量；检测该当前的播放音量与该目标播放音量之差的绝对值是否大于音量调节阈值；若该当前的播放音量与该目标播放音量之差的绝对值大于该音量调节阈值，则将该当前的播放音量调整至该目标播放音量。

第三方面，本申请实施例提供一种电子设备，包括处理器、输入设备、输出设备和存储器，该处理器、输入设备、输出设备和存储器相互连接，其中，该存储器用于存储支持终端执行上述方法的计算机程序，该计算机程序包括程序指令，该处理器被配置用于调用该程序指令，执行上述第一方面的基于人脸检测的音量调节方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面的基于人脸检测的音量调节装置方法。

本申请实施例通过获取第一摄像头在预设的转动角度范围内转动拍摄的多张图像进行图像合成得到的全景图像，对该全景图像进行人脸检测，根据该人脸检测得到的检测结果，确定该全景图像中用户的用户数量N，再根据该全景图像中N个用户在该全景图像上的N个位置，分别确定该N个用户的N个相对拍摄角度，并根据该N个用户的N个相对拍摄角度获取景深摄像头拍摄得到的至少一张深度图像，接着根据该至少一张深度图像计算该N个用户的深度距离，将该N个用户的深度距离中的最大值确定为目标深度距离，根据该用户数量和该目标深度距离对播放音量进行调整，可以结合全景图像中的用户数量以及深度距离对音量进行调整，从而提高音量调节的准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于人脸检测的音量调节方法的一示意流程图；

图2是本申请实施例提供的N个用户中任一用户A在全景图像上的位置的示意图；

图3是本申请实施例提供的基于人脸检测的音量调节方法的另一示意流程图；

图4a是人体骨架的示意图；

图4b是深度图像的中间图像区域的示意图；

图5是本申请实施例提供的音量调节装置的一示意性框图；

图6是本申请实施例提供的电子设备的一示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

还应当理解，在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请实施例可以应用在大、中型演讲、演唱会或教学等具有多位听众的场景中。以演讲为例，电子设备可以控制数字摄像头(第一摄像头)在预设的转动角度范围内转动拍摄多张图像，并可以将该多张图像进行图像拼接，从而合成一张全景图像。电子设备可以对该全景图像进行人脸检测，若该人脸检测的检测结果中存在人脸，则确定该全景图像中听众(用户)的听众数量N。电子设备可以检测该全景图像中N个听众的每个听众在该全景图像上的位置，得到N个位置，根据该N个位置分别确定该N个听众的N个相对拍摄角度，并可以根据该N个相对拍摄角度控制景深摄像头拍摄至少一张深度图像。电子设备可以根据景深摄像头拍摄的至少一张深度图像计算该N个听众的深度距离，并可以根据上述确定出的用户数量N以及这N个听众的深度距离中的最大值对电子设备的播放音量进行调整。本申请实施例在多人环境下，结合听众的数量以及听众与电子设备的距离(深度距离)对演讲时电子设备的播放音量进行调整，可以提高音量调节的准确性。

本申请实施例中的方法可以实现在包括终端、机器人、多媒体等能够发声的电子设备上。

下面将结合图1至图6，对本申请实施例提供的基于人脸检测的音量调节方法及装置进行说明。

参见图1，是本申请实施例提供的基于人脸检测的音量调节方法的一示意流程图。本申请实施例以终端为例来对图1所示的基于人脸检测的音量调节方法进行介绍。如图1所示，该基于人脸检测的音量调节方法可包括步骤：

S101，获取第一摄像头在预设的转动角度范围内转动拍摄的多张图像进行图像合成得到的全景图像。

在一些可行的实施方式中，终端可以控制第一摄像头在预设的转动角度范围内以预设的转动拍摄频率转动拍摄，并可以获取该第一摄像头转动拍摄的多张图像，可以利用图像拼接将该多张图像合成为一张全景图像。由于转动拍摄得到的多张图像的图像内容之间存在部分或全部重叠，所以本申请实施例对转动拍摄得到的多张图像进行图像拼接合成一张全景图像，从而去掉多张图像中重叠的图像内容，在后续处理中可以得到更精确的用户数量，进而使得音量调节更加精准。其中，预设的转动角度范围可以为任意一个角度范围，如0-45度、 30-120度、0-180度、60-270度、0-360度等等，该0度所在的方向可以为终端的正左方。该预设的转动拍摄频率可以为10秒，如第一摄像头每转动10秒就停止转动，拍摄一张图像，拍摄完成后继续转动。第一摄像头可以为数字摄像头，第一摄像头可以独立于终端之外，也可以集成在该终端上，本申请实施例不做限定。

在一些可行的实施方式中，由于第一摄像头在转动拍摄的过程中，很可能在开始拍摄后拍摄到的几张图像和/或结束拍摄前拍摄到的几张图像中不会拍摄到用户。因此，终端在获取到第一摄像头转动拍摄的多张图像之后，可以利用人脸检测算法检测该多张图像中各张图像是否存在人脸，利用图像拼接将该多张图像中存在人脸的图像合成为一张全景图像。其中，人脸检测算法可以包括局部二值模式(local binary patterns，LBP)人脸检测算法、基于面部双眼结构特征的人脸检测、基于二进小波变换的人脸检测等。本申请实施例通过人脸检测，将转动拍摄得到的多张图像中明显不存在人脸的图像剔除之后再合成为一张全景图像，可以提高图像合成的效率。

S102，对全景图像进行人脸检测，根据人脸检测得到的检测结果，确定全景图像中用户的用户数量N。

在一些可行的实施方式中，终端在获取到上述全景图像之后，可以对该全景图像进行人脸检测，并可以获取该人脸检测后得到的检测结果。若该人脸检测得到的检测结果中存在人脸，终端可以统计该检测结果中的人脸的数量，并可以将该人脸的数量确定为该全景图像中用户的用户数量N。其中，N可以为大于或等于1的整数。

S103，根据全景图像中N个用户在全景图像上的N个位置，分别确定N个用户的N个相对拍摄角度。

在一些可行的实施方式中，终端可以检测上述全景图像中用户的用户数量N 是否大于预设阈值。若该用户数量N大于该预设阈值(如预设阈值为1)，则终端可以分别获取该全景图像中N个用户的各个用户在该全景图像上的位置，得到N个位置；并可以获取该N个位置与参考角度之间的N个相对拍摄角度。该N个位置中每个位置与该参考角度形成一个相对拍摄角度。该参考角度可以为第一摄像头开始转动时的角度，即上述转动角度范围内的最小值。若该用户数量N等于该预设阈值(如预设阈值为1)，则可以将终端的播放音量调整至预设的固定音量值；若该用户数量N等于0，则可以将该终端的播放音量调整至0。

例如，以N个用户中的任一用户A为例。如图2所示，是本申请实施例提供的N个用户中任一用户A在全景图像上的位置的示意图。终端获取全景图像的大小，即长和宽。假设全景图像的长度为360个像素。终端检测用户A的人脸在全景图像中的像素区域，计算该像素区域的中心像素点a，将该中心像素点 a所在的位置确定为用户A在全景图像上的位置。假设该中心像素点a在距离全景图像最左边像素点的90个像素处，那么该中心像素点a的位置为第90个像素，即用户A在全景图像的第90个像素处。终端获取上述预设的转动角度范围，假设转动角度范围为0-180度，那么参考角度就为0度。终端计算用户A与参考角度0度之间的相对拍摄角度，即相对拍摄角度＝(用户A的位置/全景图像的长度)*转动角度＝(90/360)*180＝45度，转动角度＝转动角度范围中的最大值-转动角度中的最小值＝180-0＝180。又如，假设转动角度范围为30-120度，那么参考角度就为30度。终端计算用户A与参考角度30度之间的相对拍摄角度，即相对拍摄角度＝(90/360)*90＝22.5度，转动角度＝120-30＝90度。

S104，根据N个用户的N个相对拍摄角度获取景深摄像头拍摄得到的至少一张深度图像。

在一些可行的实施方式中，终端在确定出上述N个用户的N个相对拍摄角度之后，可以获取该N个相对拍摄角度中的最大值和最小值，并可以计算该N 个相对拍摄角度中的最大值与最小值之间的绝对差值。终端可以获取景深摄像头的最大拍摄角度，并可以检测该绝对差值是否小于该景深摄像头的最大拍摄角度。若该绝对差值小于该最大拍摄角度，说明上述N个用户在景深摄像头的一个拍摄视角内，则终端可以获取该景深摄像头的相对拍摄角度范围，并可以控制该景深摄像头在该相对拍摄角度范围内的任一相对拍摄角度上拍摄得到的一张包含该N个用户的深度图像。若该绝对差值大于或等于该最大拍摄角度，则终端可以获取该景深摄像头在该N个相对拍摄角度上拍摄得到的多张深度图像。其中，该景深摄像头的相对拍摄角度范围可以为：[N个相对拍摄角度中的最大值-1/2*最大拍摄角度，N个相对拍摄角度中的最小值+1/2*最大拍摄角度]。该景深摄像头可以为任一具有深度检测功能的摄像头，如TOF摄像头。该景深摄像头可以独立于终端之外，也可以集成在该终端上，本申请实施例不做限定。

例如，假设N＝5，上述5个相对拍摄角度分别为30度、100度、120度、 75度以及45度。终端获取这5个相对拍摄角度中的最大值120度以及最小值 30度，并计算最大值120度与最小值30度之间的绝对差值90度。假设深度摄像头的最大拍摄角度为120度，由于绝对差值90度小于最大拍摄角度120度，则终端可以计算5个相对拍摄角度中的最大值120度与最大拍摄角度一半60度的绝对差值，即120-1/2*120＝60度，并计算5个相对拍摄角度中的最小值30度与最大拍摄角度一半60度之和，即30+1/2*120＝90度，则景深摄像头的相对拍摄角度范围为60度到90度，即[60,90]。终端控制该景深摄像头在相对拍摄角度范围[60,90]的任一相对拍摄角度如85度上拍摄一张包含该N个用户的深度图像。

S105，根据至少一张深度图像计算N个用户的深度距离，将N个用户的深度距离中的最大值确定为目标深度距离。

在一些可行的实施方式中，终端在获取到上述至少一张深度图像之后。可以针对该至少一张深度图像中的各张深度图像，计算各张深度图像中各个用户与该景深摄像头之间的深度距离，并可以将该各个深度距离中的最大值确定为目标深度距离。

例如，假设景深摄像头拍摄的有3张深度图像，分别为D-image1、D-image2 以及D-image3。D-image1中包括a、b、c三个用户，D-image2中包括b、d两个用户，D-image3中包括e、f两个用户。终端计算深度图像D-image1中各个用户(用户a、b、c)的深度距离分别为2m、4m、2.5m，计算深度图像D-image2 中各个用户(用户b、d)的深度距离分别为4m、3m，计算深度图像D-image3 中各个用户(用户e、f)的深度距离分别为3.5m、5m,。终端从这7个深度距离中筛选出最大值5m作为目标深度距离。

S106，根据用户数量N和目标深度距离对播放音量进行调整。

在一些可行的实施方式中，终端可以获取预设的音量调节公式，并可以将上述用户数量N和上述目标深度距离带入该音量调节公式中，计算出目标播放音量。终端可以获取该终端当前的播放音量，并可以检测该当前的播放音量是否与该目标播放音量相同。若该当前的播放音量与该目标播放音量不相同，则可以将当前的播放音量调整至该目标播放音量。若该当前的播放音量与该目标播放音量相同，则不对该终端当前的播放音量进行调整。其中，预设的音量调节公式可以为：V＝a*(m*n*h),n＞1。V表示目标播放音量，a为一常量，n表示用户数量，m表示目标深度距离，h为固定音量值。n>1表示用户数量大于1。本申请实施例结合用户数量以及用户与终端的最远距离来调整终端的播放音量，更全面的考虑了环境因素对音量的影响，从而更精确的对音量进行调整。

在本申请实施例中，终端通过获取第一摄像头在预设的转动角度范围内转动拍摄的多张图像进行图像合成得到的全景图像，对该全景图像进行人脸检测，根据该人脸检测得到的检测结果，确定该全景图像中用户的用户数量N，再根据该全景图像中N个用户在该全景图像上的N个位置，分别确定该N个用户的 N个相对拍摄角度，并根据该N个用户的N个相对拍摄角度获取景深摄像头拍摄得到的至少一张深度图像，接着根据该至少一张深度图像计算该N个用户的深度距离，将该N个用户的深度距离中的最大值确定为目标深度距离，根据该用户数量和该目标深度距离对播放音量进行调整，可以结合全景图像中的用户数量以及深度距离对音量进行调整，从而提高音量调节的准确性。

参见图3，是本申请实施例提供的基于人脸检测的音量调节方法的另一示意流程图。如图3所示，该基于人脸检测的音量调节方法可包括步骤：

S301，获取第一摄像头在预设的转动角度范围内转动拍摄的多张图像进行图像合成得到的全景图像。

在一些可行的实施方式中，本申请实施例中的步骤S301可参考图1所示的步骤S101的实现方式，在此不再赘述。

S302，对全景图像进行人脸检测，若人脸检测得到的检测结果中存在人脸，则对全景图像上各人脸所在的图像区域进行人体骨架提取。

S303，统计人体骨架提取得到的人体骨架的数量。

S304，将人体骨架的数量确定为目标全景图像中用户的用户数量N。

在一些可行的实施方式中，终端可以对上述全景图像进行人脸检测，并可以获取该人脸检测后得到的检测结果。若该人脸检测的检测结果中存在人脸，终端可以对该全景图像上各人脸所在的图像区域进行人体骨架提取。终端可以统计对该全景图像上各人脸所在的图像区域进行该人体骨架提取后得到的人体骨架的数量，并可以将该人体骨架的数量确定为该目标全景图像中用户的用户数量N。本申请实施例通过结合人脸检测和人体骨架提取来检测全景图像中用户的用户数量，可以有效排除干扰，得到更准确的用户数量，进而使得音量调节更精确。如图4a所示，是人体骨架的示意图。其中，原始图像为第一摄像头拍摄的图像，人体骨架为对原始图像进行人体骨架提取后得到的骨架。

S305，根据全景图像中N个用户在全景图像上的N个位置，分别确定N个用户的N个相对拍摄角度。

在一些可行的实施方式中，本申请实施例中的步骤S305可参考图1所示的步骤S103的实现方式，在此不再赘述。

S306，获取景深摄像头在N个相对拍摄角度上拍摄得到的N张深度图像。

S307，计算N张深度图像中各张深度图像对应的用户的深度距离，将各张深度图像对应的用户的深度距离中的最大值确定为目标深度距离。

在一些可行的实施方式中，终端可以控制景深摄像头在上述N个相对拍摄角度的各个相对拍摄角度上拍摄一张深度图像，得到N张深度图像。终端可以计算该N张深度图像中各张深度图像位于中间图像区域中的用户的深度距离，并可以将该各个用户的深度距离中的最大值确定为目标深度距离。其中，N可以为大于或等于1的整数。由于每个相对拍摄角度上都对应有一个用户，所以在相对拍摄角度拍摄的深度图像中这个用户位于中间图像区域。

以N张深度图像中任一张深度图像为例。如图4b所示，是深度图像的中间图像区域的示意图。其中，深度图像的长为200个像素，宽为150个像素。预设一个用户框，该用户框的大小确定，如图4b所示的用户框为长50个像素、宽100个像素的矩形框。该用户框内的图像区域即为深度图像的中间图像区域。终端计算该深度图像上用户框内的图像区域中的用户的深度距离，如果用户框中有2个用户，终端就分别计算这2个用户的深度距离；如果用户框中没有用户，则计算该用户框最近的一个用户的深度距离。

在一些可行的实施方式中，终端在获取到N张深度图像之后，可以获取该 N个相对拍摄角度所对应的N个用户的人脸。一个相对拍摄角度对应一个用户。一个用户在全景图像上的位置与参考角度之间形成一个相对拍摄角度。针对该N 张深度图像中的任一深度图像i，可以获取拍摄该深度图像i的相对拍摄角度j，并可以获取该相对拍摄角度j所对应的用户k的人脸，终端可以计算该深度图像 i中与该用户k的人脸匹配的用户的深度距离。终端可以获取该N张深度图像计算得到的N个深度距离，并可以将该N个深度距离中的最大值确定为目标深度距离。

例如，假设N＝3，3个相对拍摄角度分别为45度、100度以及120度，45 度对应用户U1，100度对应用户U2，120度对应用户U3，3张深度图像分别为 D-image1、D-image2以及D-image3。终端获取拍摄深度图像D-image1的相对拍摄角度100度，并获取该100度对应的用户U2的人脸，计算深度图像D-image1 中与用户U2人脸匹配的用户的深度距离。终端获取拍摄深度图像D-image2的相对拍摄角度45度，并获取该45度对应的用户U1的人脸，计算深度图像 D-image2中与用户U1人脸匹配的用户的深度距离。终端获取拍摄深度图像 D-image3的相对拍摄角度120度，并获取该120度对应的用户U3的人脸，计算深度图像D-image3中与用户U3人脸匹配的用户的深度距离。将这3个深度距离中的最大值确定为目标深度距离。

S308，根据用户数量N和目标深度距离确定出目标播放音量。

S309，获取当前的播放音量。

S310，检测当前的播放音量与目标播放音量之差的绝对值是否大于音量调节阈值。

S311，若当前的播放音量与目标播放音量之差的绝对值大于音量调节阈值，则将当前的播放音量调整至目标播放音量。

在一些可行的实施方式中，终端可以获取预设的音量调节公式，并可以将上述用户数量N和上述目标深度距离带入该音量调节公式中，计算出目标播放音量。终端可以获取该终端当前的播放音量，并可以检测该当前的播放音量与该目标播放音量之差的绝对值是否大于预设的音量调节阈值。若该当前的播放音量与该目标播放音量之差的绝对值大于该音量调节阈值，则可以将该当前的播放音量调整至该目标播放音量。若该当前的播放音量与该目标播放音量之差的绝对值小于或等于该音量调节阈值，则可以不对该当前的播放音量进行调节。本申请实施例结合用户数量和目标深度距离确定出目标播放音量，当判断出目标播放音量与当前的播放音量差异较小时，则不调节当前的播放音量。当判断出目标播放音量与当前的播放音量差异较大时，将当前的播放音量调整值目标播放音量。可以防止音量频繁调节带来的影响，提高音量调节的容错性。

其中，预设的音量调节公式可以为：V＝a*(m*n*h),n＞1。V表示目标播放音量，a为一常量，n表示用户数量，m表示目标深度距离，h为固定音量值。 n>1表示用户数量大于1。预设的音量调节阈值可以为5分贝(dB)。

在本申请实施例中，终端通过人脸检测与人体骨架提取相结合来确定全景图像中用户的用户数量N，并根据N张深度图像计算N个用户的N个深度距离，从该N个深度距离中提取出最大值作为目标深度距离，根据该用户数量N和该目标深度距离确定目标播放音量。当判断出该目标播放音量与当前的播放音量之间的绝对差值大于预设的音量调节阈值时，将该当前的播放音量调整至目标播放音量，可以进一步提高音量调节的效率以及准确性。

参见图5，是本申请实施例提供的音量调节装置的一示意性框图。如图5所示，该音量调节装置可以包括：

第一获取模块10，用于获取第一摄像头在预设的转动角度范围内转动拍摄的多张图像进行图像合成得到的全景图像；

人脸检测模块20，用于对该全景图像进行人脸检测，根据该人脸检测得到的检测结果，确定该全景图像中用户的用户数量N；

第一确定模块30，用于根据该全景图像中N个用户在该全景图像上的N个位置，分别确定该N个用户的N个相对拍摄角度；

获取模块40，用于根据该N个用户的N个相对拍摄角度获取景深摄像头拍摄得到的至少一张深度图像；

计算模块50，用于根据该至少一张深度图像计算该N个用户的深度距离，将该N个用户的深度距离中的最大值确定为目标深度距离；

调整模块60，用于根据该用户数量N和该目标深度距离对播放音量进行调整。

在一些可行的实施方式中，该人脸检测模块20具体用于：对该全景图像进行人脸检测；若该人脸检测得到的检测结果中存在人脸，则获取该全景图像中人脸的数量；将该全景图像中人脸的数量确定为该全景图像中用户的用户数量 N。

在一些可行的实施方式中，该人脸检测模块20具体用于：对该全景图像进行人脸检测；若该人脸检测得到的检测结果中存在人脸，则对该全景图像上各人脸所在的图像区域进行人体骨架提取；统计该人体骨架提取得到的人体骨架的数量；将该人体骨架的数量确定为该目标全景图像中用户的用户数量N。

在一些可行的实施方式中，该获取模块40具体用于：获取该景深摄像头在该N个相对拍摄角度上拍摄得到的N张深度图像，该景深摄像头在一个相对拍摄角度上拍摄一张深度图像；该计算模块50具体用于：计算该N张深度图像中各张深度图像对应的用户的深度距离，将该各张深度图像对应的用户的深度距离中的最大值确定为目标深度距离。

在一些可行的实施方式中，该获取模块40具体用于：获取该N个用户的N 个相对拍摄角度中的最大值和最小值，计算该最大值与该最小值之间的绝对差值；若该绝对差值小于景深摄像头的最大拍摄角度，则获取该景深摄像头拍摄得到的包含该N个用户的深度图像。

在一些可行的实施方式中，该装置还包括第二确定模块70，用于在根据该全景图像中N个用户在该全景图像上的N个位置，分别确定该N个用户的N个相对拍摄角度之前，确定该用户数量N大于预设阈值。

在一些可行的实施方式中，该调整模块60具体用于：根据该用户数量N和该目标深度距离确定出目标播放音量；获取当前的播放音量；检测该当前的播放音量与该目标播放音量之差的绝对值是否大于音量调节阈值；若该当前的播放音量与该目标播放音量之差的绝对值大于该音量调节阈值，则将该当前的播放音量调整至该目标播放音量。

具体实现中，上述音量调节装置可通过上述各个模块执行上述图1或图3 所提供的实现方式中各个步骤所提供的实现方式，实现上述各实施例中所实现的功能，具体可参见上述图1或图3所示的方法实施例中各个步骤提供的相应描述，在此不再赘述。

在本申请实施例中，音量调节装置通过获取第一摄像头在预设的转动角度范围内转动拍摄的多张图像进行图像合成得到的全景图像，对该全景图像进行人脸检测，根据该人脸检测得到的检测结果，确定该全景图像中用户的用户数量N，再根据该全景图像中N个用户在该全景图像上的N个位置，分别确定该 N个用户的N个相对拍摄角度，并根据该N个用户的N个相对拍摄角度获取景深摄像头拍摄得到的至少一张深度图像，接着根据该至少一张深度图像计算该N 个用户的深度距离，将该N个用户的深度距离中的最大值确定为目标深度距离，根据该用户数量和该目标深度距离对播放音量进行调整，可以结合全景图像中的用户数量以及深度距离对音量进行调整，从而提高音量调节的准确性。

参见图6，是本申请实施例提供的电子设备的一示意性框图。如图6所示，本申请实施例中的电子设备可以包括：一个或多个处理器601；一个或多个输入设备602，一个或多个输出设备603和存储器604。上述处理器601、输入设备 602、输出设备603和存储器604通过总线605连接。存储器602用于存储计算机程序，所述计算机程序包括程序指令，处理器601用于执行存储器602存储的程序指令。其中，处理器601被配置用于调用所述程序指令执行：

根据该用户数量N和该目标深度距离对播放音量进行调整。

应当理解，在一些可行的实施方式中，所称处理器601可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array， FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备602可以包括第一摄像头、景深摄像头、麦克风等，输出设备603 可以包括扬声器等。

该存储器604可以包括只读存储器和随机存取存储器，并向处理器601提供指令和数据。存储器604的一部分还可以包括非易失性随机存取存储器。例如，存储器604还可以存储设备类型的信息。

具体实现中，本申请实施例中所描述的处理器601、输入设备602、输出设备603可执行本申请实施例提供的基于人脸检测的音量调节的方法中所描述的实现方式，也可执行本申请实施例所描述的音量调节装置的实现方式，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图1或图3所示的基于人脸检测的音量调节方法，具体细节请参照图1或图3 所示实施例的描述，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例所述的音量调节装置或电子设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smart mediacard,SMC)，安全数字(secure digital,SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请是参照本申请实施例的方法、装置和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程诊疗数据的处理设备的处理器以产生一个机器，使得通过计算机或其他可编程诊疗数据的处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程诊疗数据的处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程诊疗数据的处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于人脸检测的音量调节方法，其特征在于，包括：

对所述全景图像进行人脸检测，根据所述人脸检测得到的检测结果，确定所述全景图像中用户的用户数量N；

根据所述全景图像中N个用户在所述全景图像上的N个位置，分别确定所述N个用户的N个相对拍摄角度；

获取所述N个用户的N个相对拍摄角度中的最大值和最小值，计算所述最大值与所述最小值之间的绝对差值；

若所述绝对差值小于景深摄像头的最大拍摄角度，则获取所述景深摄像头的相对拍摄角度范围，并控制所述景深摄像头在所述相对拍摄角度范围内的任一相对拍摄角度上拍摄得到一张包含该N个用户的深度图像，所述景深摄像头的相对拍摄角度范围为：[N个相对拍摄角度中的最大值-1/2*最大拍摄角度，N个相对拍摄角度中的最小值+1/2*最大拍摄角度]；

若所述绝对差值大于或等于所述最大拍摄角度，则获取所述景深摄像头在所述N个相对拍摄角度上拍摄得到的N张深度图像，所述景深摄像头在一个相对拍摄角度上拍摄一张深度图像；

根据至少一张深度图像计算所述N个用户的深度距离，将所述N个用户的深度距离中的最大值确定为目标深度距离；

根据所述用户数量N和所述目标深度距离对播放音量进行调整。

2.根据权利要求1所述的方法，其特征在于，所述根据所述人脸检测得到的检测结果，确定所述全景图像中用户的用户数量N，包括：

若所述人脸检测得到的检测结果中存在人脸，则获取所述全景图像中人脸的数量；

将所述全景图像中人脸的数量确定为所述全景图像中用户的用户数量N。

3.根据权利要求1所述的方法，其特征在于，所述根据所述人脸检测得到的检测结果，确定所述全景图像中用户的用户数量N，包括：

若所述人脸检测得到的检测结果中存在人脸，则对所述全景图像上各人脸所在的图像区域进行人体骨架提取；

统计所述人体骨架提取得到的人体骨架的数量；

将所述人体骨架的数量确定为所述全景图像中用户的用户数量N。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述全景图像中N个用户在所述全景图像上的N个位置，分别确定所述N个用户的N个相对拍摄角度之前，所述方法还包括：

确定所述用户数量N大于预设阈值。

5.根据权利要求4所述的方法，其特征在于，所述根据所述用户数量N和所述目标深度距离对播放音量进行调整，包括：

根据所述用户数量N和所述目标深度距离确定出目标播放音量；

获取当前的播放音量；

检测所述当前的播放音量与所述目标播放音量之差的绝对值是否大于音量调节阈值；

若所述当前的播放音量与所述目标播放音量之差的绝对值大于所述音量调节阈值，则将所述当前的播放音量调整至所述目标播放音量。

6.一种音量调节装置，其特征在于，包括：

人脸检测模块，用于对所述全景图像进行人脸检测，根据所述人脸检测得到的检测结果，确定所述全景图像中用户的用户数量N；

确定模块，用于根据所述全景图像中N个用户在所述全景图像上的N个位置，分别确定所述N个用户的N个相对拍摄角度；

获取模块，用于获取所述N个用户的N个相对拍摄角度中的最大值和最小值，计算所述最大值与所述最小值之间的绝对差值；

所述获取模块，还用于当所述绝对差值小于景深摄像头的最大拍摄角度时，获取所述景深摄像头的相对拍摄角度范围，并控制所述景深摄像头在所述相对拍摄角度范围内的任一相对拍摄角度上拍摄得到一张包含该N个用户的深度图像，所述景深摄像头的相对拍摄角度范围为：[N个相对拍摄角度中的最大值-1/2*最大拍摄角度，N个相对拍摄角度中的最小值+1/2*最大拍摄角度]；

所述获取模块，还用于当所述绝对差值大于或等于所述最大拍摄角度时，获取所述景深摄像头在所述N个相对拍摄角度上拍摄得到的N张深度图像，所述景深摄像头在一个相对拍摄角度上拍摄一张深度图像；

计算模块，用于根据至少一张深度图像计算所述N个用户的深度距离，将所述N个用户的深度距离中的最大值确定为目标深度距离；

调整摸快，用于根据所述用户数量N和所述目标深度距离对播放音量进行调整。

7.一种电子设备，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的方法。