CN114374903B

CN114374903B - 拾音方法和拾音装置

Info

Publication number: CN114374903B
Application number: CN202011639494.XA
Authority: CN
Inventors: 张磊; 刘智辉
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-10-16
Filing date: 2020-12-31
Publication date: 2023-04-07
Anticipated expiration: 2040-12-31
Also published as: EP4213496A4; EP4213496A1; CN114374903A; WO2022078291A1; US20230254639A1

Abstract

本申请提供了一种拾音方法和拾音装置，可以根据摄像头拍摄的图像，检测该摄像机视场角范围内的人物，灵活调整拾音范围，提高拾音效果。该方法应用于包括摄像头和麦克风的设备，包括：根据摄像头拍摄的包括至少一个人物的图像，确定目标人物；将该目标人物所在的范围确定为目标拾音范围；在该目标拾音范围内通过麦克风进行拾音。

Description

拾音方法和拾音装置

技术领域

本申请涉及信息技术领域，尤其涉及一种拾音方法和拾音装置。

背景技术

拾音设备用于拾取声音信息，以实现声音信息的传播。例如，银行工作人员可以使用拾音设备拾取客户的语言信息，以实现与客户的沟通；智能音箱通过拾音设备拾取用户的语言指令，以完成相应地任务；会议软件通过拾音设备拾取参会人员的语言信息，以实现跨地域的沟通等。

现有技术中，拾音设备可以通过设定固定波束的拾音角度范围，对特定角度区域内的声音进行拾取。该方法可以在封闭的区域中对声音进行拾取，但在开放区域中对声音进行拾取时的效果不好。

发明内容

本申请提供了一种拾音方法和拾音装置，可以通过摄像头拍摄的图像，检测该摄像机视场角范围内的人物，根据人物位置灵活调整拾音范围，提高拾音效果。

第一方面，提供了一种拾音方法，应用于包括摄像头和麦克风的拾音设备，该方法包括：根据摄像头拍摄的包括至少一个人物的图像，确定目标人物；将该目标人物所在的范围确定为目标拾音范围；在该目标拾音范围内通过麦克风进行拾音。

应理解，若摄像头拍摄的图像中没有人物，则该拾音设备中的麦克风将会处于关闭状态，即不会进行声音拾取。

本申请实施例提供的方法，可以通过摄像头拍摄的图像，监测在摄像机的视场角范围内的人物，根据目标人物的所在范围，确定目标拾音范围。该方法可以根据该视场角范围内的人物，灵活调整拾音范围，提高拾音效果。

结合第一方面，在第一方面的某些实现方式中，根据摄像头拍摄的包括至少一个人物的图像，确定目标人物，可以包括：根据至少一个人物相对于摄像头的角度信息以及至少一个人物到摄像头的距离，确定目标人物，该角度信息是根据该至少一个人物在摄像头拍摄的图像的像素点信息和该摄像头的视场角的对应关系确定的。

具体地，拾音设备在出厂前会对摄像机拍摄的图像中的每个像素点同摄像头的视场角进行标定，则该拾音设备可以根据摄像头所拍摄的图像中至少一个人物的像素点信息，得到该至少一个人物的角度信息，然后根据该至少一个人物的角度信息和该至少一个人物到摄像头的距离，确定该至少一个人物在水平面的二维坐标，最后根据至少一个人物相对于水平面的二维坐标，确定目标人物。

本申请实施例提供的方法，可以通过至少一个人物在图像中的角度信息和该至少一个人物到摄像头的距离信息，确定该至少一个人物相对于水平面的二维坐标，根据该至少一个人物的二维坐标的分布范围，确定目标人物，从而根据该目标人物的二维坐标的所在范围，灵活确定矩形拾音范围，提高拾音效果。

结合第一方面，在第一方面的某些实现方式中，摄像头拍摄的图像可以包括第一图像和第二图像，该第一图像和该第二图像均包括至少一个人物；拾音方法还可以包括：将该至少一个人物在该第一图像和该第二图像中的坐标之差，确定为该至少一个人物的视差；基于该至少一个人物的视差，确定该至少一个人物到摄像头的距离。

具体地，拾音设备可以根据该摄像头可以在同一时刻拍摄两张包括至少一个人物的图像，确定同一个人物在不同图像中的坐标值之差即视差，然后利用相似三角形原理和该视差，确定该至少一个人物到摄像头的距离。

本申请实施例提供的方法，可以通过摄像头拍摄的至少一个人物的两幅图像，确定该至少一个人物到该摄像头的距离，可以节省硬件成本以及集成难度。

结合第一方面，在第一方面的某些实现方式中，至少一个人物到摄像头的距离是通过深度传感器获取的。

本申请实施例提供的方法，可以通过深度传感器，确定该至少一个人物到该摄像头的距离，无需内部计算，减少了计算复杂度，提高了确定拾音范围的效率，另外，通过深度传感器还可以提高拾音范围的精度，进而提升用户体验。

结合第一方面，在第一方面的某些实现方式中，上述至少一个人物包括两个或两个以上人物；根据至少一个人物在摄像头拍摄的图像中的位置信息和至少一个人物相对于摄像头的角度信息，确定目标人物，可以包括：利用聚类算法和角度信息，将至少一个人物分为至少两类人物；根据该至少两类人物的角度信息，确定至少两类人物与预设中心位置之间的角度；从该至少两类人物中选择与预设中心位置之间的角度小于或等于第一阈值，且人物数量大于或等于第二阈值的目标聚类；将该目标聚类中的人物确定为目标人物。

应理解，该至少一个人物包括一个人物时，拾音设备可以确定该一个人物与预设中心位置之间的角度，若该角度小于或等于第一阈值，则确定该一个人物为目标人物。

本申请实施例提供的方法，可以通过至少一个人物在图像中的像素点信息，确定该至少一个人物的角度信息，根据该至少一个人物的角度范围，确定目标人物，从而根据该目标人物的角度分布范围，灵活确定扇形拾音范围，提高拾音效果。

结合第一方面，在第一方面的某些实现方式中，上述至少一个人物包括两个或两个以上人物；根据至少一个人物相对于摄像头的角度信息以及至少一个人物到摄像头的距离，确定目标人物，可以包括：根据该至少一个人物到摄像头的距离以及角度信息，确定至少一个人物的水平面的二维坐标；利用聚类算法和该二维坐标，将至少一个人物分为至少两类人物；根据该至少两类人物的二维坐标，确定该至少两类人物与预设中心位置之间的距离；从该至少两类人物中选择与预设中心位置之间的距离小于或等于第三阈值，且人物数量大于或等于第四阈值的目标聚类；将目标聚类中的人物确定为目标人物。

应理解，该至少一个人物包括一个人物时，拾音设备可以确定该一个人物与预设中心位置之间的距离，若该距离小于或等于第三阈值，则确定该一个人物为目标人物。

本申请实施例提供的方法，可以通过至少一个人物到摄像头的距离以及角度信息，确定该至少一个人物的水平面的二维坐标，根据该至少一个人物的二维坐标范围，确定目标人物，从而根据该目标人物的二维坐标分布范围，灵活确定矩形拾音范围，提高拾音效果。

结合第一方面，在第一方面的某些实现方式中，在确定目标人物之前，拾音方法还包括：通过摄像头，在第一时刻获取至少一个人物的第三图像，在第二时刻获取该至少一个人物的第四图像；基于该至少一个人物在该第三图像和该第四图像中的位置信息，确定该至少一个人物的移动范围小于或等于第五阈值。

具体地，拾音设备可以通过摄像头拍摄不同时刻的该至少一个人物的图像，根据该至少一个人物在不同时刻的图像中的位置差异，确定该至少一个人物是否存在较大范围的移动，若存在较大移动，即该至少一个人物的移动范围大于第五阈值，则继续通过摄像头拍摄不同时刻的该至少一个人物的图像；若存在较小移动，即该至少一个人物的移动范围小于或等于第五阈值，确定该至少一个人物的移动范围基本稳定，则根据摄像头拍摄的包括至少一个人物的图像，确定目标人物，将目标人物所在的范围确定为目标拾音范围并通过麦克风对目标人物的声音进行声音提取。

应理解，若该至少一个人物的移动范围小于或等于第五阈值，则拾音设备可以根据上述第三图像、或者第四图像、或者摄像头拍摄的包括至少一个人物的图像，确定目标人物，从而将该目标人物所在的范围确定为目标拾音范围，并在该目标拾音范围内进行拾音。

本申请实施例提供的拾音方法，可以根据在不同时刻时，该至少一个人物在图像的位置信息，排除具有较大移动状态的人物，有利于确定目标人物，灵活调整拾音范围，提高拾音效果。

结合第一方面，在第一方面的某些实现方式中，在将目标人物所在的范围确定为目标拾音范围之前，还可以包括：根据该目标人物所在的范围确定候选拾音范围，比较该候选拾音范围与拾音设备上已设定的拾音范围；确定该候选拾音范围与拾音设备上已设定的拾音范围之间相差的幅度大于或等于第六阈值。

应理解，拾音设备上已经设定的拾音范围可以是初始默认值，也可以是上一次确定的目标拾音范围。

当候选拾音范围和拾音设备上已设定的目标拾音范围之间的变化的幅度大于或等于第六阈值时，拾音设备将该候选拾音范围作为新的目标拾音范围。如果候选拾音范围和拾音设备上已设定的目标拾音范围之间的变化的幅度小于第六阈值，则不作额外处理。

本实施例实施例提供的拾音方法，可以在确定目标人物位置发生变化导致原来的设定的拾音范围误差较大时，进行拾音范围的调整。避免拾音设备频繁地确定拾音范围，有利于节省计算成本，提高调整拾音范围的效率。

第二方面，提供了一种拾音装置，用于执行上述第一方面中任一种可能的实现方式中的方法。具体地，该装置包括用于执行上述第一方面中任一种可能的实现方式中的方法的模块。

第三方面，提供了另一种拾音装置，包括处理器，该处理器与存储器耦合，可用于执行存储器中的指令，以实现上述第一方面中任一种可能实现方式中的方法。可选地，该装置还包括存储器。可选地，该装置还包括通信接口，处理器与通信接口耦合。

第四方面，提供了一种处理器，包括：输入电路、输出电路和处理电路。处理电路用于通过输入电路接收信号，并通过输出电路发射信号，使得处理器执行上述第一方面中任一种可能实现方式中的方法。

在具体实现过程中，上述处理器可以为芯片，输入电路可以为输入管脚，输出电路可以为输出管脚，处理电路可以为晶体管、门电路、触发器和各种逻辑电路等。输入电路所接收的输入的信号可以是由例如但不限于接收器接收并输入的，输出电路所输出的信号可以是例如但不限于输出给发射器并由发射器发射的，且输入电路和输出电路可以是同一电路，该电路在不同的时刻分别用作输入电路和输出电路。本申请实施例对处理器及各种电路的具体实现方式不做限定。

第五方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序(也可以称为代码，或指令)当其在计算机上运行时，使得计算机执行上述第一方面中任一种可能实现方式中的方法。

附图说明

图1是一种用固定的波束限制扇形拾音范围的场景；

图2是另一种用固定的波束限制四边形拾音范围的场景；

图3是本申请实施例提供的一种拾音方法的示意性流程图；

图4是本申请实施例提供的另一种拾音方法的示意性流程图；

图5是本申请实施例提供的人脸中心位置信息示意图；

图6是本申请实施例提供的一种扇形拾音范围的示意图；

图7是本申请实施例提供的又一种拾音方法的示意性流程图；

图8是本申请实施例提供的另一种拾音方法的示意性流程图；

图9是双目摄像头测距原理的示意图；

图10是双目摄像头确定人物二维坐标的示意图；

图11是本申请实施例提供的一种矩形拾音范围的示意图；

图12是本申请实施例提供的又一种拾音方法的示意性流程图；

图13是本申请实施例提供的一种拾音装置的示意性框图；

图14是本申请实施例提供的另一种拾音装置的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

拾音设备是包括了麦克风的设备，用于拾取声音信息，以实现声音信息的传播。拾音设备的形式可以多种多样，例如，耳机、智能音箱、会议终端等。

下面，以上述拾音设备为部署了会议软件的会议终端为例，对本申请实施例进行说明。应理解，会议终端应用广泛，使用会议终端进行视频或者语音会议，可以解决跨地域开会产生的高成本的问题。目前，会议终端会被部署到开放区域的环境或者没有进行过专业声学设计的会议室，会造成会议终端拾取到开放区域的噪声或者非参会人员的噪声，导致影响通话体验，进而影响沟通效率。

目前存在两种用固定的波束限制拾音范围的方法，图1示出了第一种用固定的波束限制扇形拾音范围的场景100，会议终端可以通过一个麦克风在扇形拾音范围内进行拾音。如图1所示，该场景100包括麦克风101和参会人员102。应理解，本场景中的参会人员102的个数仅仅为一个示例。在图1所示的场景中，会议终端可以通过设定固定波束的扇形拾音范围，对扇形拾音范围内的参会人员102的声音进行拾取。

图2示出了第二种用固定的波束限制四边形拾音范围的场景200，会议终端可以通过两个麦克风在四边形拾音范围内进行拾音。如图2所示，该场景200包括麦克风201和参会人员202。应理解，本场景中的参会人员202的个数仅仅为一个示例。在图2所示的场景中，会议终端可以通过设定固定波束的四边形拾音范围，对四边形拾音范围内的参会人员202的声音进行声音拾取。

从图1和图2中可以看出，即使参会人员102或者参会人员202并没有在拾音范围内或者移动出拾音范围，该方法也只会采集固定了的拾音范围内的声音，将在拾音范围之外的参会人员的声音屏蔽，影响会议的沟通效率。

有鉴于此，本申请实施例提供一种拾音方法和装置，可以通过摄像头拍摄的图像，监测摄像头视场角范围内的人物，根据人物的位置信息，灵活调整拾音范围，提高拾音效果。

本申请实施例提供了一种拾音方法300，该方法300可以由包括摄像头和麦克风的拾音设备实现，该拾音设备中摄像机的光轴中心位于麦克风的中心点。

应理解，本申请实施例中涉及的扇形拾音范围、四边形拾音范围以及矩形拾音范围是针对拾音设备所处场景的俯视图而言的。

图3示出了本申请实施例提供的一种拾音方法300，该方法300可以灵活调整扇形拾音范围，也可以灵活调整四边形拾音范围。该方法300可以包括：

S301，根据摄像头拍摄的包括至少一个人物的图像，确定目标人物。

具体地，该至少一个人物为在摄像机的视场角范围内的人物。目标人物为通过麦克风进行声音拾取的人物。

示例性地，该摄像头在该拾音设备工作时，可以每间隔一段时间对摄像机的视场角范围内的人物进行拍摄，例如，1秒、3秒等，本申请实施例对该时间间隔不作限定。

S302，将该目标人物所在的范围确定为目标拾音范围。

具体地，根据目标人物的分布范围，确定目标拾音范围。

S303，在该目标拾音范围内通过麦克风进行拾音。

具体地，该拾音设备可以将目标拾音范围下发配置给麦克风，该麦克风在目标拾音范围内对目标人物的声音进行拾取。

作为一个可选的实施例，上述S301，可以包括：根据至少一个人物相对于摄像头的角度信息以及至少一个人物到摄像头的距离，确定目标人物，该角度信息是根据该至少一个人物在摄像头拍摄的图像的像素点信息和该摄像头的视场角的对应关系确定的。

可选地，该拾音设备可以利用识别技术识别到摄像头拍摄图像中的至少一个人物，该识别技术可以是人脸识别技术、人头识别技术等。

可选地，该拾音设备可以利用聚类算法和该至少一个人物相对于水平面的二维坐标，确定目标人物。其中，该聚类算法可以是k均值(k-means)聚类算法、均值偏移聚类算法、基于密度的聚类算法(density-based spatial clustering of applications withnoise，DBSCAN)、用高斯混合模型的最大期望聚类算法、凝聚层次聚类、图团体检测算法等，本申请实施例对此不作限定。

本申请实施例提供的方法，可以通过至少一个人物在图像中的角度信息和该至少一个人物到摄像头的距离信息，确定该至少一个人物相对于水平面的二维坐标，根据该至少一个人物的二维坐标的分布范围，确定目标人物，从而根据该目标人物的二维坐标的所在范围，灵活确定矩形拾音范围，从而提高拾音效果。

本申请实施例可以通过两种不同的方式获取上述至少一个人物到摄像头的距离。

在一种可能的实现方式中，上述摄像头拍摄的图像可以包括第一图像和第二图像，该第一图像和该第二图像均包括至少一个人物；方法300还可以包括：将该至少一个人物在该第一图像和该第二图像中的坐标之差，确定为该至少一个人物的视差；基于该至少一个人物的视差，确定该至少一个人物到摄像头的距离。

应理解，上述坐标为以摄像头光轴为中心的水平方向的坐标。

在另一种可能的实现方式中，上述至少一个人物到摄像头的距离是通过深度传感器获取的。

该深度传感器可以是相机阵列、毫米波雷达、激光雷达或者结构光传感器，本申请实施例对此不作限定。应理解，该深度传感器也可以为其它可测量距离的设备。

可选地，上述至少一个人物可以包括两个或两个以上人物；根据至少一个人物相对于摄像头的角度信息以及至少一个人物到摄像头的距离，确定目标人物，可以包括：根据该至少一个人物到摄像头的距离以及角度信息，确定至少一个人物的水平面的二维坐标；利用聚类算法和该二维坐标，将至少一个人物分为至少两类人物；根据该至少两类人物的二维坐标，确定该至少两类人物与预设中心位置之间的距离；从该至少两类人物中选择与预设中心位置之间的距离小于或等于第三阈值，且人物数量大于或等于第四阈值的目标聚类；将目标聚类中的人物确定为目标人物。

拾音设备可以设置到摄像头的距离为M的一个矩形区域为中心区域，在该中心区域的人物的聚类为中间聚类，将中间聚类以及根据角度信息可以聚类到该中间聚类的聚类确定为目标聚类，将目标聚类所包括的人物，确定为目标人物。

上述预设中心位置为该中心区域内的位置。示例性地，预设中心位置可以是该中心区域内的中心位置。

具体地，拾音设备可以先利用该至少一个人物到摄像头的距离以及角度信息，确定至少一个人物的水平面的二维坐标，再利用聚类算法和该二维坐标，对该至少一个人物进行聚类，将该至少一个人物聚为至少两类人物，并依次判断该至少两类人物中是否有人物在中心区域，若有人物在中心区域，将该人物所在的聚类确定为中间聚类，然后依次判断其它聚类中的人物与该中间聚类中的人物的距离是否小于或等于第三阈值，且人物数量是否大于或等于第四阈值，若满足条件，则确定为目标聚类，并将目标聚类所包括的人物，确定为目标人物。若该至少一个人物包括一个人物，拾音设备可以确定该一个人物与预设中心位置之间的距离，若该距离小于或等于第三阈值，则确定该一个人物为目标人物。

其中，拾音设备确定聚类之间人物的角度，可以选择位于聚类边缘的人物，计算聚类之间的最小距离。

应理解，拾音设备可以利用聚类算法和二维坐标，对该至少一个人物进行聚类，若该至少一个人物只能聚成一类，且有人物在中心区域，则将该至少一个人物均确定为目标人物。

还应理解，上述中心区域、第三阈值和第四阈值可以是拾音设备预设的。

作为一个可选的实施例，上述S301，根据摄像头拍摄的包括至少一个人物的图像，确定目标人物，可以包括：根据该至少一个人物在摄像头拍摄的图像中的位置信息和该至少一个人物相对于摄像头的角度信息，确定目标人物，所述位置信息是该至少一个人物在摄像头拍摄的图像的像素点信息。

具体地，拾音设备根据至少一个人物的像素点信息以及该像素点与摄像头视场角的对应关系，确定该至少一个人物相对于摄像头的角度信息，然后根据该角度信息和聚类算法，确定目标人物。

可选地，上述至少一个人物可以包括两个或两个以上人物；根据至少一个人物在摄像头拍摄的图像中的位置信息和至少一个人物相对于摄像头的角度信息，确定目标人物，可以包括：利用聚类算法和角度信息，将至少一个人物分为至少两类人物；根据该至少两类人物的角度信息，确定至少两类人物与预设中心位置之间的角度；从该至少两类人物中选择与预设中心位置之间的角度小于或等于第一阈值，且人物数量大于或等于第二阈值的目标聚类；将该目标聚类中的人物确定为目标人物。

拾音设备可以设置以摄像头光轴为中心的水平角度Φ度内的区域为中心区域，在该中心区域的人物的聚类为中间聚类，将中间聚类以及根据角度信息可以聚类到该中间聚类的聚类确定为目标聚类，将目标聚类所包括的人物，确定为目标人物。

具体地，拾音设备可以利用聚类算法和角度信息，对该至少一个人物进行聚类，将该至少一个人物聚为至少两类人物，再依次判断该至少两类人物中是否有人物在中心区域，若有人物在中心区域，将该人物所在的聚类确定为中间聚类，然后依次判断其它聚类中的人物与该中间聚类中的人物的角度是否小于或等于第一阈值，且人物数量是否大于或等于第二阈值，若满足条件，则确定为目标聚类，并将目标聚类所包括的人物，确定为目标人物。若该至少一个人物包括一个人物，拾音设备可以确定该一个人物与预设中心位置之间的角度，若该角度小于或等于第一阈值，则确定该一个人物为目标人物。

其中，拾音设备确定聚类之间人物的角度，可以选择位于聚类边缘的人物，计算聚类之间的最小角度。

应理解，拾音设备可以利用聚类算法和角度信息，对该至少一个人物进行聚类，若该至少一个人物只能聚成一类，且有人物在中心区域，则将该至少一个人物均确定为目标人物。

还应理解，上述中心区域、第一阈值和第二阈值可以是拾音设备预设的。

作为一个可选的实施例，在确定目标人物之前，方法300还包括：通过摄像头，在第一时刻获取至少一个人物的第三图像，在第二时刻获取该至少一个人物的第四图像；基于该至少一个人物在该第三图像和该第四图像中的位置信息，确定该至少一个人物的移动范围小于或等于第五阈值。

应理解，若该至少一个人物的移动范围小于或等于第五阈值，则拾音设备可以根据上述第三图像、或者第四图像、或者摄像头拍摄的包括至少一个人物的图像，确定目标人物。

第五阈值可以是角度，也可以是距离。若该至少一个人物在不同时刻的图像中的位置差异以角度信息度量，则第五阈值的量纲为度；若该至少一个人物在不同时刻的图像中的位置差异以距离信息度量，则第五阈值的量纲为长度单位。

本申请实施例提供的拾音方法，可以根据在不同时刻时，该至少一个人物在图像的位置信息，排除具有较大移动状态的人物，有利于确定目标人物，灵活调整拾音范围，提升拾音效果。

可选地，在将目标人物所在的范围确定为目标拾音范围之前，上述方法还包括：根据该目标人物所在的范围确定候选拾音范围，比较该候选拾音范围与拾音设备上已设定的拾音范围；确定该候选拾音范围与拾音设备上已设定的拾音范围之间相差的幅度大于或等于第六阈值。

可选地，拾音设备还可以通过摄像头为至少一个人物提供拍摄的图像；接收该至少一个人物选定的拾音范围；通过麦克风在该拾音范围内进行拾音。

具体地，拾音设备可以为该至少一个人物提供通过摄像头所拍摄的图像，该至少一个人物可以在图片中自主选定拾音范围，通过麦克风在该拾音范围内进行拾音。

示例性地，对于包括摄像头和麦克风的拾音设备，该拾音设备可以为至少一个人物提供通过摄像头所拍摄的图像，该至少一个人物可以通过交互界面在该图像上选择一段连续的区域，拾音设备可以根据该区域边界对应的角度，确定扇形拾音范围，并通过麦克风对该扇形拾音范围内的声音进行拾取。对于包括摄像头、麦克风和深度传感器的拾音设备，该拾音设备可以为至少一个人物提供通过摄像头所拍摄的三维图像，该至少一个人物可以通过及交互界面在该三维图像上选择一个水平矩形区域，拾音设备可以根据该区域对应的顶点坐标，确定矩形拾音范围，并通过麦克风对该矩形拾音范围内的声音进行拾取。

还应理解，该至少一个人物选定区域，拾音设备确定拾音范围后，拾音设备将不会进行灵活调整拾音范围，该拾音范围将会作为默认的配置保存在该拾音设备中。

本申请实施例提供的拾音方法，为该至少一个人物提供图形化交互界面，该至少一个人物可以直观方便的配置拾音范围，可以提升确定拾音范围的效率。

可选地，拾音设备还可以使用人眼追踪技术，从至少一个人物中选择目标人物。示例性地，可以通过人眼追踪技术对至少一个人物是否为目标人物进行判断，以增强灵活调整拾音范围的鲁棒性。

下面，以上述拾音设备为包括单目摄像头和一个麦克风的会议终端为例，结合图4至图7对本申请实施例进行详细说明。

图4示出了本申请实施例提供的一种拾音方法400，该方法400可以包括：

S401，获取通过单目摄像头拍摄的图像。

应理解，该图像中包含进入该单目摄像头的拍摄范围内的人员。

S402，通过人脸识别技术识别该图像中的人员的人脸信息。

示例性地，会议终端可以通过人脸识别技术，用矩形框框出该图像中的人员的人脸。

可选地，为保证这些人员处于会议终端合适的距离范围内，矩形框框出的人脸像素尺寸要大于第七阈值，该第七阈值可以是会议终端出厂前预设的。

S403，根据该图像中的人员的人脸信息，确定这些人员的位置信息。

具体地，会议终端可以用该图像中的人员的人脸矩形框中心的像素点信息作为这些人员的位置信息。其中，该像素点信息可以是坐标值，即在上述图像中建立坐标系，得到该图像中的人员的像素点坐标值作为这些人员的位置信息。其中，像素点坐标值为以摄像机光轴为中心的水平方向的坐标轴上的值。应理解，该坐标系的原点所在的位置可以是任意的，本申请对此不作限定。

S404，根据所述人员的位置信息，确定所述人员相对于单目摄像头的角度信息。

具体地，该角度信息是根据所述人员的位置信息和单目摄像头的视场角的对应关系所确定的。若位置信息和单目摄像头的视场角的对应关系为F_(x)，其中，x为位置信息。则将所述人员的位置信息依次带入到F_(x)中，即可得到所述人员相对于单目摄像头的角度信息。

所述人员的位置信息是以摄像机光轴为轴心的水平方向的位置，故角度信息也是以摄像机光轴为轴心的水平方向的角度。

示例性地，图5示出了单目摄像头拍摄的图像，在该图像中包括办公桌501和4个人员502，该会议终端可以利用人脸识别技术，在图像中的用矩形框框出4个人员502的面部，即在图5中用4个白色的矩形框框出该4个人员502的面部，然后，用每个矩形框中心的位置作为该4个人员502的像素点位置，即在图5中用4个白点示意该4个人员502的像素点位置，可以得到该4个人员502在该图像中的像素点位置。会议终端可以以图像的左下角作为原点建立坐标系，以摄像机光轴为轴心的水平方向的坐标轴设定为x轴，可以得到该4个人员502在该图像中的像素点坐标值，并将该4个人员502在该图像中的像素点坐标值作为为该4个人员502的位置信息。该位置信息和单目摄像头的视场角的对应关系为F_(x)，则将该4个人员502的像素点坐标值依次带入到F_(x)中，得到该4个人员502相对于单目摄像头的角度信息。

可选地，会议终端可以根据所述图像中的人员位置信息，确定包括所述人员的位置范围。

示例性地，在图5中，可以根据该4个人员502的像素点坐标值，确定坐标值最小X_min和坐标值最大X_max的人员502，然后，根据该坐标值最小X_min和坐标值最大X_max的人员502的角度信息，可以确定一个以单目摄像头O为中心，以直线OX_min和直线OX_max为边界的扇形范围，该扇形范围可以包括该4个人员502。

S405，根据所述图像中的人员相对于单目摄像头的角度信息和聚类算法，在这些人员中确定参会人员。

会议终端可以根据所述图像中的人员相对于单目摄像头的角度信息和聚类算法，确定各人员的位置分布，从而从这些人员中确定参会人员。

会议终端确定参会人员，有两种实现方式。

在第一种可实现的方式中，会议终端可以通过聚类算法将图像中的人员分成N类，其中，1≤N≤3。会议终端预设以单目摄像头光轴为中心的水平角度60度内的区域为中心区域，在该中心区域的人员的聚类为中间聚类，将中间聚类以及根据角度信息可以聚类到该中间聚类的聚类确定为目标聚类，将目标聚类所包括的人员，确定为参会人员。

其中，根据角度信息聚类到目标聚类的聚类需要满足的条件可以是：该聚类离该中间聚类的角度小于或等于第一阈值且该聚类的人数大于或等于第二阈值。应理解，第一阈值和第二阈值是会议终端出厂前预设的。

在第二种可实现的方式中，会议终端可以通过聚类算法将图像中的人员分成N类，其中，1≤N≤3。会议终端可以根据角度信息，确定角度最大的人员，将包括该角度最大的人员的聚类确定为***聚类，若该***聚类与其最近的聚类的角度人数大于或等于第八阈值并且该***聚类的人数小于或等于第九阈值，则将该***聚类排除为非目标聚类，然后，按此步骤依次判断其他聚类，得到不满足条件的聚类为目标聚类。

S406，将该参会人员所在的范围确定为目标拾音范围。

具体地，会议终端可以根据该参会人员在上述图像中的位置信息，确定在参会人员中以单目摄像头光轴为中心的水平方向的最大位置的参会人员以及最小位置的参会人员，进而根据最大位置的参会人员对应的角度信息以及最小位置的参会人员对应的角度信息，确定目标拾音范围，即确定扇形拾音范围。其中，会议终端可以通过建立坐标系，利用坐标轴上的值，判断参会人员位置的大小。

示例性地，图6示出了一种扇形拾音范围的示意图，图中包括墙体601、会议终端602、会议桌603以及人员604。应理解，人员604的个数仅仅为一个示例。会议终端602根据聚类算法将人员604聚成聚类1和聚类2，然后根据角度信息，确定聚类1为目标聚类，并确定目标聚类中的人员604为参会人员，然后根据该参会人员的位置信息，确定以单目摄像头光轴为中心的水平方向的最大位置的参会人员以及最小位置的参会人员，该2个参会人员的位置在图6中以白点示出，根据该2个参会人员的位置，确定目标拾音范围，图6中实线的扇形范围即为拾音范围。

可选地，为了防止计算误差以及为了保证可以对目标聚类中的参会人员进行拾音，可以在上述确定的目标拾音范围的基础上，在边界角度增加冗余量，作为最终的拾音范围，图6中虚线的扇形区域即为最终的拾音范围。

S407，在该目标拾音范围内通过麦克风进行拾音。

本申请实施例提供的方法，可以利用人脸识别技术识别各人员在图像中的像素点信息，根据该像素点信息，确定角度信息，然后，利用聚类算法和该角度信息，确定参会人物，最后，将该参会人物所在范围，确定为拾音范围。该方法可以根据该单目摄像头拍摄的图像，识别参会人员的所在范围，灵活确定扇形拾音范围，提高拾音效果。

图7示出了本发明实施例的另外一种实时调整拾音范围的方法700，该方法700可以包括：

S701，通过该单目摄像头，在第一时刻获取第三图像，在第二时刻获取第四图像。

应理解，该第三图像中包含第一时刻进入该单目摄像头的拍摄范围内的人员。而第四图像中包含第二时刻进入该单目摄像头拍摄范围内的人员。

具体地，第一时刻和第二时刻的时间间隔，例如1秒、3秒等，本申请对此不作限定。

示例性地，会议终端可以通过单目摄像机在第一时刻拍摄单目摄像机视场角范围内的各人员，获取该各人员的第三图像。间隔1秒后，在第二时刻拍摄单目摄像机视场角范围内的各人员，获取该各人员的第四图像。

S702，确定上述人员的移动范围是否小于或等于第五阈值。

对于那些同时出现在第三图像和第四图像中的人员，确定他们的移动范围是否小于或等于第五阈值，可以有两种可实现的方式。

在第一种可能的实现方式中，会议终端可以确定在该第三图像和该第四幅图像中人员的位置信息，即在该第三图像和该第四图像中人员的像素点坐标值，将在该两幅图像中人员的像素点坐标值的差值作为所述人员的移动范围，进而确定所述人员的移动范围是否小于或等于第五阈值。

在第二种可能的实现方式中，会议终端可以确定在第三幅图像和该第四幅图像中人员的位置信息，即在该第三图像和该第四图像中人员的像素点坐标值；然后，根据该像素点坐标值和该单目摄像头视场角的关系，确定在该两幅图像中人员的角度值；最后将所述人员该两幅图像中的角度值的差值作为所述人员的移动范围，进而确定所述人员的移动范围是否小于或等于第五阈值。示例性地，该阈值可以是5度。

应理解，在上述两种可实现的方式中，第五阈值的值和量纲可以均不相同。另外，如果有的人员出现在第四图像中，而没出现在第三图像中，可以认定这些人员的移动范围超过第五阈值；或者，有的人员出现在第三图像中，而没有出现在第四图像中，也可以认定这些人的移动范围超过第五阈值。具体的算法可以依据实际情况而设定，本申请不作限定。

若该摄像头拍摄范围内的所述人员的移动范围小于或等于第五阈值，则进入S703；若所述人员的移动范围大于第五阈值，则返回S701。

S703，根据单目摄像头拍摄的图像，确定参会人员。

可以理解的是，当摄像头拍摄范围内的人员趋于稳定时，根据该单目摄像头拍摄的图像确定参会人员。具体的实现过程可以参考上述实施例的步骤S402-S405，此处不再赘述。

S704，将该参会人员所在的范围确定为目标拾音范围。

具体地，会议终端根据确定的参会人员，将该参会人员的所在范围确定为目标拾音范围

S705，在该目标拾音范围内通过麦克风进行拾音。

本申请实施例提供的拾音方法，可以根据在不同时刻时，各人员在图像的位置信息，排除具有较大移动状态的人物，有利于确定参会人员，并据此灵活调整拾音范围，提升拾音效果。此外，该方法还可以通过周期性执行上述S701-S705，以根据不同时刻的情况灵活调整拾音范围。

可选的，由于参会人员随时可能发生变动，所以该方法还可以在S703和S704之间包括：将参会人员所在的范围确定为候选拾音范围，并比较该候选拾音范围与拾音设备上已经设定的拾音范围，判断两者之间变化的幅度是否大于或等于第六阈值。

应理解，拾音设备上已经设定的拾音范围可以是一个初始默认值。后续过程中，随着目标拾音范围的确定，拾音设备上设定的为该目标拾音范围。那么可以理解，此处拾音设备上已经设定的拾音范围可以是初始默认值，也可以是上一次确定的目标拾音范围。

当该候选拾音范围与拾音设备上已经设定的拾音范围之间的辩护幅度大于或等于第六阈值时，将该候选拾音范围作为新的目标拾音范围。如果候选拾音范围和拾音设备上已设定的目标拾音范围之间的变化的幅度小于第六阈值，则不作额外处理。其中，确定候选拾音范围的方法可以参考上述确定目标拾音范围的方式，在此不再赘述。

可见，本实施例中，还可以在确定参会人员位置发生变化导致原来的设定的拾音范围误差较大时，进行拾音范围的调整。避免拾音设备频繁地确定拾音范围，有利于节省计算成本，提高调整拾音范围的效率。

下面，以上述拾音设备为包括双目摄像头和两个麦克风的会议终端为例，结合图8和图12对本申请实施例进行详细说明。

本申请实施例提供了一种拾音方法800，该方法800由包括双目摄像头和两个麦克风的会议终端实现。图8示出了本申请实施例提供的一种拾音方法800，该方法800可以包括：

S801，获取通过双目摄像头拍摄的两幅图像。

应理解，该两幅图像中包含进入该双目摄像头的拍摄范围内的人员。

具体地，双目摄像头包括左摄像头和右摄像头，因此，会议终端使用双目摄像头可以得到包含各自拍摄范围内的人员的两幅图像。

S802，通过人脸识别技术识别该两幅图像中的人员的人脸信息。

具体地，会议终端可以通过人脸识别技术，分别在两幅图像中用矩形框框出各人员的人脸。

可选地，为保证各人员处于会议终端合适的距离范围内，用矩形框框出的人脸像素尺寸要大于第十阈值，该第十阈值是会议终端出厂前预设的。

S803，在该两幅图像中，根据所述人员的人脸信息，确定所述人员的位置信息。

具体地，会议终端可以用所述人员的人脸矩形框中心的像素点信息作为所述人员的位置信息。其中，该像素点信息可以是坐标值，即在该两幅图像中建立坐标系，得到所述人员在两幅图像中的像素点坐标值作为所述人员在两幅图像中位置信息。其中，像素点坐标值为以摄像机光轴为中心的水平方向的坐标轴上的值。应理解，该坐标系的原点所在的位置可以是任意的，本申请对此不作限定。

S804，根据所述人员在两幅图像中的位置信息，确定所述人员到该双目摄像头的距离。

具体的，同一人员在该两幅图像中的位置之差，即为视差，根据该视差，可以得到该人员到该双目摄像头的距离。根据此方法，可以得到所述人员到该双目摄像头的距离。

示例性地，如图9所示，P为各人员中的一个，O_L为左摄像头的光圈中心，O_R为右摄像头的光圈中心，线段O_LO_R的长度b为两个摄像头的中心距，直线P_LP_R为所在的平面为成像平面，P_L为人员P在左摄像头的成像点，P_R为人员P在右摄像头的成像点，f为双目摄像头的焦距，u_L、u_R为人员P在成像平面的点，z为人员P到摄像头的距离，根据相似三角形原理，可以得到：

S805，根据该两幅图像中任意一幅图像中所述人员的位置信息，确定所述人员的角度信息。

具体地，该角度信息是根据该位置信息和双目摄像头的视场角的对应关系所确定的。若位置信息和双目摄像头的视场角的对应关系为F_(x)，其中，x为位置信息。在该两幅图像中任意选择一幅图像，将各人员在该图像中的位置信息依次带入到F_(x)中，即可得到所述人员相对于双目摄像头的角度信息。

S806，根据所述人员到该双目摄像头的距离和所述人员的角度信息，确定所述人员位于平行于水平面的二维坐标。

具体地，会议终端可以根据三角函数关系，得到所述人员位于平行于水平面的坐标。示例性地，图10示出了会议终端确定所述人员位于平行于水平面的坐标的示意图，在图10中，P为所述人员中的一个，A为双目摄像头，线段AB的长度z为人员P到双目摄像头A的距离，角度α为人员P相对于双目摄像头A的角度，根据公式PB＝z tanα，可以得到PB的长度，若以A为原点，建立平行于水平面的坐标系，可以得到人员P的二维坐标。

S807，根据所述人员位于平行于水平面的二维坐标和聚类算法，在所述人员中确定参会人员。

会议终端可以根据所述人员位于平行于水平面的二维坐标和聚类算法，确定所述人员的位置分布，从而从所述人员中确定参会人员。

会议终端确定参会人员，有两种实现方式。

在第一种可实现的方式中，会议终端可以通过聚类算法将图像中的人员分成N类，其中，1≤N≤3。会议终端预设以双目摄像头光轴为中心的水平角度60度内的区域为中心区域，在该中心区域的人员的聚类为中间聚类，将中间聚类以及根据二维坐标可以聚类到该中间聚类的聚类确定为目标聚类，将目标聚类所包括的人员，确定为参会人员。

其中，根据二维坐标聚类到目标聚类的聚类需要满足的条件可以是：该聚类离该中间聚类的距离小于或等于第三阈值且该聚类的人数大于或等于第四阈值。应理解，第三阈值和第四阈值是会议终端出厂前预设的。

在第二种可实现的方式中，会议终端可以通过聚类算法将图像中的人员分成N类，其中，1≤N≤3。会议终端可以根据角度信息，确定角度最大的人员，将包括该角度最大的人员的聚类确定为***聚类，若该***聚类与其最近的聚类的角度人数大于或等于第十一阈值并且该***聚类的人数小于或等于第十二阈值，则将该***聚类排除为非目标聚类，然后，按此步骤依次判断其他聚类，得到不满足条件的聚类为目标聚类。

S808，将该参会人员所在的范围确定为目标拾音范围。

具体地，会议终端可以根据该参会人员在上述图像中的二维坐标，确定在参会人员中以双目摄像头光轴为中心的水平方向的最大坐标的人员以及最小坐标的人员、垂直方向的最大坐标的人员以及最小坐标的人员，进而根据该4个人员对应的坐标，确定目标拾音范围，即确定矩形拾音范围。

示例性地，图11示出了会议终端确定矩形拾音范围的示意图，图中包括墙体1101，会议终端1102，会议桌1103以及参会人员1104，应理解，参会人员1104的个数仅仅为一个示例。会议终端1102根据目标聚类中参会人员1104的位置信息，确定以双目摄像头光轴为中心的水平方向的最大坐标的参会人员1104以及最小坐标的参会人员1104、垂直方向的最大坐标的参会人员1104以及最小坐标的参会人员1104，该4个参会人员1104的位置在图11中以白点示出，根据该4个位置，确定目标拾音范围，图11中实线的矩形范围即为目标拾音范围。

可选地，为了防止计算误差以及为了保证可以对目标聚类中的参会人员进行拾音，会议终端可以在上述确定的目标拾音范围的基础上，在边界角度增加冗余量，作为目标拾音范围。例如，在图11中，在实线的矩形拾音范围上增加冗余量，变成由短线组成的矩形范围，会议终端1102可以将由短线组成的矩形范围作为目标拾音范围。

可选地，若该会议终端有白板功能，即该会议终端可以支持参会人员进行单击、双击、右键等操作，则拾音范围需要拾取该拾音设备周围人物的声音，则该拾音设备所处的平面可以作为目标拾音范围的边界。例如，在图11中，会议终端1102具有白板功能，目标拾音范围可以为由会议终端1102所处的平面、参会人员(X₁)1104、参会人员(X₂)1104、参会人员(X₃)1104组成的矩形区域，即图中由点线组成的矩形范围。应理解，会议终端1102可以在该矩形范围上增加冗余量，以防止计算误差以及保证会议终端1102可以对目标聚类中的参会人员进行拾音。

S809，在该目标拾音范围内通过麦克风进行拾音。

本申请实施例提供的方法，采用双目摄像头拍摄的图像，可以确定图像中的人员到双目摄像头的距离。再利用所述人员在图像中的位置信息，确定所述人员的角度信息。然后，根据所述人员到双目摄像头的距离和所述人员的角度信息，确定所述人员的位于平行于水平面的二维坐标。最后，根据聚类算法得到参会人员，并根据参会人员位于平行于水平面的二维坐标，确定合适的矩形拾音范围。该方法可以灵活确定矩形拾音范围，提高拾音效果。

应理解，上述方法700中采用了双目摄像头拍摄两幅图像的方法，根据该两幅图像的视差，确定了该两幅图像中的人物到双目摄像头的距离，在另一种可能的实现方式中，还可以采用深度传感器来获取图像中的人物到摄像头的距离。其中，该摄像头可以是任意具有拍摄功能的摄像头。

本申请实施例提供的方法，无需内部计算，减少了计算复杂度，提高了确定拾音范围的效率，另外，通过深度传感器还可以提高拾音范围的精度，进而提升用户体验。

图12示出了本发明实施例中的又一种实时调整拾音范围的方法1200，该方法1200可以包括：

S1201，通过双目摄像头，在第一时刻获取第三图像，在第二时刻获取第四图像。

具体地，双目摄像头在第一时刻可以拍摄两幅图像，会议终端可以获取任意一幅图像作为第三图像；在第二时刻可以拍摄另两幅图像，会议终端从中获取与第三图像相对应的图像。

S1202，确定上述图像中的人员的移动范围是否小于或等于第五阈值。

对于那些同时出现在第三图像和第四图像中的人员，确定他们的移动范围是否小于或等于第五阈值，可以有三种可实现的方式。

在第一种可能的实现方式中，会议终端可以确定所述人员在该第三图像和该第四图像中的位置信息，即所述人员在该第三图像和该第四图像中的像素点坐标值，将所述人员在该两幅图像中的像素点坐标值的差值作为所述人员的移动范围，进而确定所述人员的移动范围是否小于或等于第五阈值。

在第二种可能的实现方式中，会议终端可以确定所述人员在该第三图像和该第四图像中的位置信息，即所述人员在该第三图像和该第四图像中的像素点坐标值；然后，根据该像素点坐标值和该单目摄像头视场角的关系，确定将所述人员在该两幅图像中的角度值；最后将所述人员该两幅图像中的角度值的差值作为所述人员的移动范围，进而确定所述人员的移动范围是否小于或等于第五阈值。

在第三种可能的实现方式中，会议终端将在该第三图像和该第四图像中所述人员到双目摄像头的距离差作为所述人员的移动范围，进而确定所述人员的移动范围是否小于或等于第五阈值。

应理解，在上述三种可实现的方式中，第五阈值的值和量纲可以均不相同。另外，如果有的人员出现在第四图像中，而没出现在第三图像中，可以认定这些人员的移动范围超过第五阈值；或者，有的人员出现在第三图像中，而没有出现在第四图像中，也可以认定这些人的移动范围超过第五阈值。具体的算法可以依据实际情况而设定，本申请不作限定。

若该摄像头拍摄范围内的所述人员的移动范围小于或等于第五阈值，则进入S1203；若所述人员的移动范围大于第五阈值，则返回S1201。

S1203，根据双目摄像头拍摄的所述人员的图像，确定参会人员。

可以理解的是，当摄像头拍摄范围内的所述人员趋于稳定时，根据该双目摄像头拍摄的图像确定参会人员。应理解，会议终端可以使用双目摄像头拍摄的第四图像确定参会人员，也可以使用第四图像之后紧接着拍摄的图像确定参会人员。具体的实现过程可以参考上述实施例的S802-S807，此处不再赘述。

S1204，将该参会人员所在的范围确定为目标拾音范围。

具体地，会议终端根据确定的参会人员，将该参会人员的所在范围确定为目标拾音范围。

S1205，在该目标拾音范围内通过麦克风进行拾音。

本申请实施例提供的拾音方法，可以根据在不同时刻时，各人员在图像的位置信息，排除具有较大移动状态的人物，有利于确定参会人员，并据此灵活调整拾音范围，提升拾音效果。此外，该方法还可以通过周期性执行上述S1201-S1205，以根据不同时刻的情况灵活调整拾音范围。

可选的，由于参会人员随时可能发生变动，所以该方法还可以在S1203和S1204之间包括：将参会人员所在的范围确定为候选拾音范围，并比较该候选拾音范围与拾音设备上已经设定的拾音范围，判断两者之间变化的幅度是否大于或等于第六阈值。

上文中结合图3至图12，详细描述了本申请实施例的拾音方法，下面将结合图13至图14，详细描述本申请实施例的拾音装置。

图13示出了本申请实施例提供的拾音装置1300，该装置1300包括：处理单元1310和获取单元1320。

上述获取单元1320用于：通过摄像头获取包括至少一个人物的图像。

上述处理单元1310用于：根据摄像头拍摄的包括至少一个人物的图像，确定目标人物，将该目标人物所在的范围确定为目标拾音范围。

获取单元1320还用于：在该目标拾音范围内，通过麦克风获取该目标人物的声音。

可选地，处理单元1310具体用于：根据至少一个人物相对于摄像头的角度信息以及该至少一个人物到摄像头的距离，确定目标人物，该角度信息是根据至少一个人物在摄像头拍摄的图像的像素点信息和摄像头的视场角的对应关系确定的。

可选地，处理单元1310还用于：根据至少一个人物在摄像头拍摄的图像中的位置信息和该至少一个人物相对于摄像头的角度信息，确定目标人物，该位置信息是至少一个人物在摄像头拍摄的图像的像素点信息。

可选地，处理单元1310具体用于：将至少一个人物在第一图像和第二图像中的坐标之差，确定为该至少一个人物的视差；基于该至少一个人物的视差，确定该至少一个人物到摄像头的距离。

可选地，该至少一个人物到摄像头的距离是通过深度传感器获取的。

可选地，该至少一个人物包括两个或两个以上人物；处理单元1310还用于：利用聚类算法和角度信息，将至少一个人物分为至少两类人物；根据该至少两类人物的角度信息，确定该至少两类人物与预设中心位置之间的角度；从该至少两类人物中选择与预设中心位置之间的角度小于或等于第一阈值，且人物数量大于或等于第二阈值的目标聚类；将该目标聚类中的人物确定为目标人物。

可选地，该至少一个人物包括两个或两个以上人物；处理单元1310具体用于：根据至少一个人物到摄像头的距离以及角度信息，确定至少一个人物的水平面的二维坐标；利用聚类算法和该二维坐标，将该至少一个人物分为至少两类人物；根据该至少两类人物的二维坐标，确定该至少两类人物与预设中心位置之间的距离；从该至少两类人物中选择与预设中心位置之间的距离小于或等于第三阈值，且人物数量大于或等于第四阈值的目标聚类；将该目标聚类中的人物确定为目标人物。

可选地，该装置1300还包括获取单元，该获取单元用于：通过摄像头，在第一时刻获取至少一个人物的第三图像，在第二时刻获取至少一个人物的第四图像。处理单元1310还用于：基于至少一个人物在该第三图像和该第四图像中的位置信息，确定该至少一个人物的移动范围小于或等于第五阈值。

可选地，处理单元1310还用于：根据目标人物所在的范围确定候选拾音范围，比较该候选拾音范围与该装置上已设定的拾音范围；确定该候选拾音范围与该装置上已设定的拾音范围之间相差的幅度大于或等于第六阈值。

应理解，这里的装置1300以功能模块的形式体现。这里的术语“单元”可以指应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中，本领域技术人员可以理解，装置1300可以具体为上述实施例中的拾音设备，或者，上述实施例中拾音设备的功能可以集成在装置1300中，装置1300可以用于执行上述方法实施例中与拾音设备对应的各个流程和/或步骤，为避免重复，在此不再赘述。

上述装置1300具有实现上述方法中拾音设备执行的相应步骤的功能；上述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

在本申请的实施例，图13中的装置1300也可以是芯片或者芯片***，例如：片上***(system on chip，SoC)。

图14示出了本申请实施例提供的另一拾音装置1400。该装置1400包括摄像头1410、处理器1420以及麦克风1430。

上述摄像头1410用于：获取包括至少一个人物的图像。

上述处理器1420用于：根据摄像头拍摄的包括至少一个人物的图像，确定目标人物，将该目标人物所在的范围确定为目标拾音范围。

上述麦克风1430用于：在该目标拾音范围内，获取该目标人物的声音。

可选地，装置1400还可以包括麦克风1440。该麦克风1440用于：在目标拾音范围内，与麦克风1430拾取目标人物的声音。

可选地，处理器1420具体用于：根据至少一个人物相对于摄像头的角度信息以及该至少一个人物到摄像头的距离，确定目标人物，该角度信息是根据至少一个人物在摄像头拍摄的图像的像素点信息和摄像头的视场角的对应关系确定的。

可选地，处理器1420还用于：根据至少一个人物在摄像头拍摄的图像中的位置信息和该至少一个人物相对于摄像头的角度信息，确定目标人物，该位置信息是至少一个人物在摄像头拍摄的图像的像素点信息。

可选地，处理器1420具体用于：将至少一个人物在第一图像和第二图像中的坐标之差，确定为该至少一个人物的视差；基于该至少一个人物的视差，确定该至少一个人物到摄像头的距离。

可选地，装置1400还可以包括深度传感器1450。该深度传感器1450用于：获取上述至少一个人物到摄像头的距离。

可选地，该至少一个人物包括两个或两个以上人物；处理器1420还用于：利用聚类算法和角度信息，将至少一个人物分为至少两类人物；根据该至少两类人物的角度信息，确定该至少两类人物与预设中心位置之间的角度；从该至少两类人物中选择与预设中心位置之间的角度小于或等于第一阈值，且人物数量大于或等于第二阈值的目标聚类；将该目标聚类中的人物确定为目标人物。

可选地，该至少一个人物包括两个或两个以上人物；处理器1420具体用于：根据至少一个人物到摄像头的距离以及角度信息，确定至少一个人物的水平面的二维坐标；利用聚类算法和该二维坐标，将该至少一个人物分为至少两类人物；根据该至少两类人物的二维坐标，确定该至少两类人物与预设中心位置之间的距离；从该至少两类人物中选择与预设中心位置之间的距离小于或等于第三阈值，且人物数量大于或等于第四阈值的目标聚类；将该目标聚类中的人物确定为目标人物。

可选地，处理器1420还用于：通过摄像头，在第一时刻获取至少一个人物的第三图像，在第二时刻获取至少一个人物的第四图像；基于至少一个人物在该第三图像和该第四图像中的位置信息，确定该至少一个人物的移动范围小于或等于第五阈值。

可选地，处理器1420还用于：根据目标人物所在的范围确定候选拾音范围，比较该候选拾音范围与该装置上已设定的拾音范围；确定该候选拾音范围与该装置上已设定的拾音范围之间相差的幅度大于或等于第六阈值。

应理解，装置1400可以具体为上述实施例中的拾音设备，或者，上述实施例中拾音设备的功能可以集成在装置1400中，装置1400可以用于执行上述方法实施例中与拾音设备对应的各个步骤和/或流程。

本申请提供一种可读计算机存储介质，该可读计算机存储介质用于存储计算机程序，该计算机程序用于实现上述实施例中拾音设备对应的方法。

本申请提供一种芯片***，该芯片***用于支持上述拾音设备实现本申请实施例所示的功能。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种拾音方法，其特征在于，应用于包括摄像头和麦克风的设备，所述方法包括：

根据所述摄像头拍摄的包括至少一个人物的图像，确定目标人物；

将所述目标人物所在的范围确定为目标拾音范围；

在所述目标拾音范围内通过所述麦克风进行拾音；

所述根据所述摄像头拍摄的包括至少一个人物的图像，确定目标人物，包括：

对所述至少一个人物进行聚类；

将目标聚类所包括的人物，确定为目标人物；

其中，所述目标聚类包括中间聚类以及根据人物的角度信息可以聚类到所述中间聚类的聚类，所述中间聚类为在中心区域的人物的聚类，所述中心区域为所述设备预先设置的到所述摄像头的距离为第一距离的矩形区域，或者，所述中心区域为所述设备预先设置的以所述摄像头光轴为中心的第一水平角度内的区域。

2.根据权利要求1所述的方法，其特征在于，所述根据所述摄像头拍摄的包括至少一个人物的图像，确定目标人物，包括：

根据所述至少一个人物相对于所述摄像头的角度信息以及所述至少一个人物到所述摄像头的距离，确定所述目标人物，所述角度信息是根据所述至少一个人物在所述摄像头拍摄的图像的像素点信息和所述摄像头的视场角的对应关系确定的。

3.根据权利要求1所述的方法，其特征在于，所述根据摄像头拍摄的包括至少一个人物的图像，确定目标人物，包括：

根据所述至少一个人物在所述摄像头拍摄的图像中的位置信息和所述至少一个人物相对于所述摄像头的角度信息，确定所述目标人物，所述位置信息是所述至少一个人物在所述摄像头拍摄的图像的像素点信息。

4.根据权利要求2所述的方法，其特征在于，所述摄像头拍摄的图像包括第一图像和第二图像，所述第一图像和所述第二图像均包括所述至少一个人物；

所述方法还包括：

将所述至少一个人物在所述第一图像和所述第二图像中的坐标之差，确定为所述至少一个人物的视差；

基于所述至少一个人物的视差，确定所述至少一个人物到所述摄像头的距离。

5.根据权利要求2所述的方法，其特征在于，所述至少一个人物到所述摄像头的距离是通过深度传感器获取的。

6.根据权利要求3所述的方法，其特征在于，所述至少一个人物包括两个或两个以上人物；

所述根据至少一个人物在摄像头拍摄的图像中的位置信息和所述至少一个人物相对于所述摄像头的角度信息，确定所述目标人物，包括：

利用聚类算法和所述角度信息，将所述至少一个人物分为至少两类人物；

根据所述至少两类人物的角度信息，确定所述至少两类人物与预设中心位置之间的角度；

从所述至少两类人物中选择与所述预设中心位置之间的角度小于或等于第一阈值，且人物数量大于或等于第二阈值的目标聚类；

将所述目标聚类中的人物确定为所述目标人物。

7.根据权利要求2所述的方法，其特征在于，所述至少一个人物包括两个或两个以上人物；

所述根据所述至少一个人物相对于所述摄像头的角度信息以及所述至少一个人物到所述摄像头的距离，确定所述目标人物，包括：

根据所述至少一个人物到所述摄像头的距离以及所述角度信息，确定所述至少一个人物的水平面的二维坐标；

利用聚类算法和所述二维坐标，将所述至少一个人物分为至少两类人物；

根据所述至少两类人物的二维坐标，确定所述至少两类人物与预设中心位置之间的距离；

从所述至少两类人物中选择与所述预设中心位置之间的距离小于或等于第三阈值，且人物数量大于或等于第四阈值的目标聚类；

将所述目标聚类中的人物确定为所述目标人物。

8.根据权利要求6或7所述的方法，其特征在于，所述预设中心位置是所述中心区域内的中心位置。

9.根据权利要求1至7中任一项所述的方法，其特征在于，在所述确定目标人物之前，所述方法还包括：

通过所述摄像头，在第一时刻获取所述至少一个人物的第三图像，在第二时刻获取所述至少一个人物的第四图像；

基于所述至少一个人物在所述第三图像和所述第四图像中的位置信息，确定所述至少一个人物的移动范围小于或等于第五阈值。

10.根据权利要求9所述的方法，其特征在于，在将所述目标人物所在的范围确定为目标拾音范围之前，所述方法还包括：

根据所述目标人物所在的范围确定候选拾音范围，比较所述候选拾音范围与所述设备上已设定的拾音范围；

确定所述候选拾音范围与所述设备上已设定的拾音范围之间相差的幅度大于或等于第六阈值。

11.一种拾音装置，其特征在于，应用于包括摄像头和麦克风的设备，所述装置包括：

处理器、所述摄像头和所述麦克风；

其中，所述摄像头用于：获取包括至少一个人物的图像；

所述处理器用于：根据所述摄像头拍摄的包括至少一个人物的图像，确定目标人物，将所述目标人物所在的范围确定为目标拾音范围；

所述麦克风用于：在所述目标拾音范围内，获取所述目标人物的声音；

所述处理器具体用于：对所述至少一个人物进行聚类；将目标聚类所包括的人物，确定为目标人物；其中，所述目标聚类包括中间聚类以及根据人物的角度信息可以聚类到所述中间聚类的聚类，所述中间聚类为在中心区域的人物的聚类，所述中心区域为所述设备预先设置的到所述摄像头的距离为第一距离的矩形区域，或者，所述中心区域为所述设备预先设置的以所述摄像头光轴为中心的第一水平角度内的区域。

12.根据权利要求11所述的装置，其特征在于，所述处理器具体用于：

13.根据权利要求11所述的装置，其特征在于，所述处理器还用于：

14.根据权利要求12所述的装置，其特征在于，所述摄像头拍摄的图像包括第一图像和第二图像，所述第一图像和所述第二图像均包括所述至少一个人物；所述处理器具体用于：

15.根据权利要求12所述的装置，其特征在于，所述至少一个人物到所述摄像头的距离是通过深度传感器获取的。

16.根据权利要求13所述的装置，其特征在于，所述至少一个人物包括两个或两个以上人物；

所述处理器还用于：

将所述目标聚类中的人物确定为所述目标人物。

17.根据权利要求12所述的装置，其特征在于，所述至少一个人物包括两个或两个以上人物；

所述处理器具体用于：

将所述目标聚类中的人物确定为所述目标人物。

18.根据权利要求16或17所述的装置，其特征在于，所述预设中心位置是所述中心区域内的中心位置。

19.根据权利要求11至17中任一项所述的装置，其特征在于，所述处理器还用于：

20.根据权利要求19所述的装置，其特征在于，所述处理器还用于：

21.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序包括用于实现如权利要求1至10中任一项所述的方法的指令。

22.一种芯片***，其特征在于，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片***的设备执行权利要求1至10中任一项所述的方法。