CN107123423B

CN107123423B - 语音拾取装置及多媒体设备

Info

Publication number: CN107123423B
Application number: CN201710423629.0A
Authority: CN
Inventors: 于豪
Original assignee: Whaley Technology Co Ltd
Current assignee: Shanghai Ismartv Network Technologies Co ltd
Priority date: 2017-06-07
Filing date: 2017-06-07
Publication date: 2021-05-18
Anticipated expiration: 2037-06-07
Also published as: CN107123423A

Abstract

本发明提供一种语音拾取装置及多媒体设备。所述装置包括：用于采集图像的图像采集单元；与图像采集单元电性连接以对采集到的图像进行人脸识别的人脸识别单元；用于采集语音信号的语音采集单元；与语音采集单元连接以调整语音采集单元朝向的转向调整单元；与图像采集单元、人脸识别单元、语音采集单元、转向调整单元电性连接的处理控制单元。处理控制单元在人脸识别单元识别到采集的图像中存在人脸时，控制转向调整单元使语音采集单元对准所述人脸所在的方位，并控制语音采集单元对人脸所在方位的语音信号进行采集。所述装置能够根据用户的脸部位置自动转向地对用户发出的语音信号进行定向语音拾取，降低外界噪声干扰。

Description

语音拾取装置及多媒体设备

技术领域

本发明涉及音频拾取技术领域，具体而言，涉及一种语音拾取装置及多媒体设备。

背景技术

随着音频拾取技术的不断发展，音频拾取技术的应用愈发广泛。但是就音频拾取技术本身而言，尚且存在着很多技术问题需要解决。以语音拾取技术为例，就目前而言，市面上流通的语音拾取设备虽然可以对用户发出的语音信号进行语音拾取，但是在对用户发出的语音信号进行拾取的同时，通常也会将对大量的外界噪声进行语音拾取，使语音拾取设备拾取到的语音信号中夹杂着大量的外界噪声，相应的语音识别准确度不高，语音拾取的距离也很短。

发明内容

为了克服现有技术中的上述不足，本发明的目的在于提供一种语音拾取装置及多媒体设备，所述语音拾取装置及多媒体设备能够根据用户的脸部位置自动转向地对用户发出的语音信号进行定向语音拾取，降低外界噪声干扰，提高相应的语音识别准确度及语音拾取距离。

就语音拾取装置而言，本发明较佳的实施例提供一种语音拾取装置。所述装置包括：

用于采集图像的图像采集单元；

与所述图像采集单元电性连接，用于对图像采集单元采集到的图像进行人脸识别的人脸识别单元；

用于采集语音信号的语音采集单元；

与所述语音采集单元连接，用于调整所述语音采集单元朝向的转向调整单元；及

与所述图像采集单元、人脸识别单元、语音采集单元、转向调整单元电性连接的处理控制单元；

所述处理控制单元在所述人脸识别单元识别到所述图像采集单元采集的图像中存在人脸时，控制所述转向调整单元的运行以使所述语音采集单元对准图像中人脸所在的方位，并控制所述语音采集单元对人脸所在方位的语音信号进行采集。

在本发明较佳的实施例中，上述装置还包括用于对所述装置周边环境中的噪声信号进行采集的噪声采集单元；

所述处理控制单元与所述噪声采集单元电性连接，以根据所述噪声采集单元采集到的噪声信号对所述语音采集单元采集到的语音信号进行除噪处理，得到除噪后的语音信息。

在本发明较佳的实施例中，上述装置还包括用于进行数据交互的网络通信单元；

所述网络通信单元与所述处理控制单元电性连接，所述装置通过所述网络通信单元与服务器通信连接，以将所述处理控制单元得到的除噪后的语音信息发送给所述服务器进行语音识别，或接收服务器对除噪后的语音信息进行语音识别后得到的控制指令。

在本发明较佳的实施例中，上述装置还包括用于进行语音识别的语音识别单元；

所述语音识别单元与所述处理控制单元电性连接，以对所述处理控制单元得到的除噪后的语音信息进行语音识别，得到对应的控制指令。

在本发明较佳的实施例中，上述处理控制单元在所述人脸识别单元识别到的人脸的数目为多个时，获得各个人脸对应的控制权限，控制所述转向调整单元带动所述语音采集单元朝向控制权限最高的人脸所在的方位，以对所述人脸所在方位的语音信号进行采集。

在本发明较佳的实施例中，上述语音采集单元包括至少一个语音取样传声器，所述噪声采集单元包括至少一个噪声取样传声器，至少一个所述语音取样传声器配合至少一个所述噪声取样传声器形成一传声器阵列，以分别对人脸所在方位的语音信号和所述语音拾取装置周边环境中的噪声信号进行采集。

在本发明较佳的实施例中，上述处理控制单元包括音频处理子单元；

所述音频处理子单元用于对所述噪声采集单元采集到的噪声信号和所述语音采集单元采集到的语音信号进行放大处理后，并将放大后的噪声信号进行反相处理后与放大后的语音信号进行混合叠加，以消除所述语音信号中的噪声信号，得到除噪后的语音信息。

在本发明较佳的实施例中，上述滑动件包括容置在所述滑槽内的滑块，所述卡合组件与所述滑块固定连接，以使所述卡合组件可相对于所述灯条承载板沿远离所述支撑柱的方向滑动。

在本发明较佳的实施例中，上述装置还包括与所述图像采集单元连接，用于控制所述图像采集单元的图像采集方向的转动控制单元。

在本发明较佳的实施例中，上述处理控制单元在人脸识别单元识别到图像采集单元采集的图像中存在人脸时，对识别到的人脸的面部信息进行处理，得到所述人脸中嘴部对应的方位，并根据所述嘴部对应的方位控制所述转向调整单元，使所述语音采集单元对准所述嘴部对应的方位进行语音信号的采集。

就多媒体设备而言，本发明较佳的实施例提供一种多媒体设备。所述多媒体设备包括上述的语音拾取装置，所述多媒体设备对所述语音拾取装置采集到的语音信号进行语音识别，得到与所述语音信号匹配的控制指令，并根据所述控制指令执行相应的操作。

相对于现有技术而言，本发明较佳的实施例提供的语音拾取装置及多媒体设备具有以下有益效果：所述语音拾取装置及多媒体设备能够根据用户的脸部位置自动转向地对用户发出的语音信号进行定向语音拾取，降低外界噪声干扰，提高相应的语音识别准确度及语音拾取距离。具体地，所述语音拾取装置通过图像采集单元采集图像；通过与图像采集单元电性连接的人脸识别单元对采集到的图像进行人脸识别；通过语音采集单元进行语音信号的采集；通过与语音采集单元连接的转向调整单元对语音采集单元朝向进行调整；通过与图像采集单元、人脸识别单元、语音采集单元、转向调整单元电性连接的处理控制单元，在人脸识别单元识别到图像采集单元采集的图像中存在人脸时，控制转向调整单元的运行以使语音采集单元对准图像中人脸所在的方位，并控制语音采集单元对人脸所在方位的语音信号进行采集，从而实现对用户发出的语音信号的定向拾取，降低外界噪声干扰，提高相应的语音识别准确度及语音拾取距离。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举本发明较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对权利要求保护范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明第一实施例提供的语音拾取装置的方框示意图。

图2为本发明第二实施例提供的语音拾取装置的方框示意图。

图3为本发明第三实施例提供的语音拾取装置的方框示意图。

图4为本发明第四实施例提供的语音拾取装置的方框示意图。

图5为本发明第五实施例提供的语音拾取装置的方框示意图。

图标：100-语音拾取装置；110-图像采集单元；120-人脸识别单元；130-语音采集单元；140-转向调整单元；150-处理控制单元；160-噪声采集单元；170-网络通信单元；180-语音识别单元；190-转动控制单元；151-音频处理子单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如何提供一种能够根据用户的脸部位置自动转向地对用户发出的语音信号进行定向语音拾取，降低外界噪声干扰，提高相应的语音识别准确度及语音拾取距离的语音拾取装置及多媒体设备，对本领域技术人员而言，是急需解决的技术问题。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

第一实施例：

请参照图1，是本发明第一实施例提供的语音拾取装置100的方框示意图。在本发明实施例中，所述语音拾取装置100用于对用户发出的语音信号进行定向拾取，提高相应的语音识别准确度。所述语音拾取装置100包括图像采集单元110、人脸识别单元120、语音采集单元130、转向调整单元140及处理控制单元150。

在本发明实施例中，所述图像采集单元110用于采集图像。所述图像采集单元110包括一摄像头，所述图像采集单元110通过所述摄像头对所述语音拾取装置100周边环境进行图像采集，以确定所述语音拾取装置100的使用人员的具***置，便于实现定向语音拾取。

在本实施例中，所述摄像头可以是固定地对特定方向的环境信息进行图像采集，也可以是根据需求对不同方向的环境信息进行图像采集，具体的情况可由所述语音拾取装置100的使用人员或生产厂家根据不同的需求进行不同的设置。在本实施例中，所述摄像头可以是，但不限于，数字摄像头、模拟摄像头等。

在本发明实施例中，所述人脸识别单元120用于对所述图像采集单元110采集到的图像进行人脸识别，以确定语音拾取装置100的使用人员在图像中所在的方位。具体地，在本实施例中，所述人脸识别单元120与所述图像采集单元110电性连接，以对所述图像采集单元110采集到的图像进行人脸识别。在本实施例中，所述人脸识别单元120在识别到所述图像采集单元110采集的图像中存在人脸时，通过对所述图像进行分析处理从所述图像中获取与所述人脸对应的面部信息，并根据所述面部信息及所述人脸在所述图像中的位置，得到所述人脸对应的使用人员在语音拾取装置100的周边环境中所在的方位及所述人脸对应的方位。

在本实施例中，所述人脸识别单元120可以通过网络与云端计算服务器连接，以配合所述云端计算服务器的计算能力对图像采集单元110采集到的图像进行人脸识别；也可以仅通过所述人脸识别单元120包括的用于进行人脸识别的软件功能模块和/或硬件模块实现对所述图像进行的人脸识别。

在本发明实施例中，所述语音采集单元130用于对采集语音信号。所述语音采集单元130可以在所述人脸识别单元120识别到所述图像采集单元110采集的图像中存在人脸时，对人脸所在方位的语音信号进行采集，以实现定向语音拾取，降低外界噪声干扰。

在本实施例中，所述语音采集单元130包括至少一个语音取样传声器，所述语音采集单元130通过至少一个所述语音取样传声器对所述语音拾取装置100的使用人员对应的人脸所在方位的语音信号进行语音采集。在本实施例中，所述语音取样传声器优选为高灵敏度高指向性的传声器，所述传声器可以是，但不限于，电动式传声器、电容式传声器、电磁式传声器、压电式传声器及半导体传声器等。

在本发明实施例中，所述转向调整单元140用于对所述语音采集单元130的朝向进行调整，以使所述语音采集单元130能够对准所述人脸识别单元120识别到所述图像采集单元110采集的图像中人脸所在的方位，使所述语音采集单元130对所述人脸所在方位的语音信号进行采集，以实现对所述人脸对应的使用人员的定向语音拾取。在本实施例中，所述转向调整单元140与所述语音采集单元130连接，以调整所述语音采集单元130朝向。

在本实施例中，所述转向调整单元140包括用于带动所述语音采集单元130中的语音取样传声器进行转向调整的转向组件及用于控制所述转向组件的转向控制组件。所述转向组件与所述语音采集单元130中的语音取样传声器直接连接，以使所述语音采集单元130中的语音取样传声器能够在上下左右各个方向进行朝向的调整。所述转向控制组件与所述转向组件电性连接，以根据所述人脸识别单元120识别到的人脸所在的方位信息，控制所述转动组件带动所述语音采集单元130中的语音取样传声器对所述人脸所在方位的语音信号进行语音采集。

在本发明实施例中，所述处理控制单元150用于对信号进行处理，并根据处理结果对所述语音拾取装置100中的其他单元模块进行控制。具体地，在本实施例中，所述处理控制单元150与所述图像采集单元110、人脸识别单元120、语音采集单元130及转向调整单元140电性连接，以在所述人脸识别单元120识别到所述图像采集单元110采集的图像中存在人脸时，根据所述人脸对应的方位信息控制所述转向调整单元140的运行以使所述语音采集单元130对准图像中人脸所在的方位，并控制所述语音采集单元130对人脸所在方位的语音信号进行采集，实现对所述人脸对应的使用人员的定向语音拾取。

在本实施例中，所述处理控制单元150包括一存储器，所述处理控制单元150通过所述存储器可以对所述语音拾取装置100的特定使用人员的面部信息及对应的控制权限进行存储，以在所述人脸识别单元120识别到的人脸的数目为多个时，选取识别到的人脸中控制权限最高的人脸所在的方位作为所述语音采集单元130应当朝向的方位。具体地，当所述人脸识别单元120识别到的人脸的数目为多个时，所述处理控制单元150将由所述人脸识别单元120识别到的各个人脸的面部信息与存储在所述存储器中的特定使用人员的面部信息进行匹配。当匹配成功时，匹配成功的人脸可通过特定使用人员的面部信息与对应的控制权限之间的联系在所述存储器中查找到相应的控制权限；当未匹配成功时，未匹配成功的人脸对应的控制权限将被默认为最低的控制权限；当识别到的各个人脸的控制权限均为最低的控制权限时，所述处理控制单元150将从各个人脸中随机选取一个人脸作为控制权限最高的人脸。所述处理控制单元150在获取到控制权限最高的人脸对应的方位时，控制所述转向调整单元140带动所述语音采集单元130朝向控制权限最高的人脸所在的方位，以对所述人脸所在方位的语音信号进行语音采集，实现相应的定向语音拾取。在本实施例中，所述存储器可以是，但不限于，随机存取存储器，只读存储器，可编程只读存储器，可擦除只读存储器，电可擦除只读存储器等。

在本实施例中，所述处理控制单元150在所述人脸识别单元120识别到所述图像采集单元110采集的图像中存在人脸时，将对识别到的人脸的面部信息进行处理，得到所述人脸中嘴部对应的方位，并根据所述嘴部对应的方位控制所述转向调整单元140带动所述语音采集单元130对准所述人脸的嘴部所在的方位，使所述语音采集单元130对所述嘴部对应方位的语音信号进行采集。

在本实施例中，所述处理控制单元150可通过所述图像采集单元110中的摄像头实现对特定使用人员的面部信息的录入，可通过外接的输入设备实现对特定使用人员的控制权限的录入。所述处理控制单元150也可通过网络实现对特定使用人员的面部信息及对应的控制权限的录入。具体的录入方式可根据需求进行不同的设置。

第二实施例：

请参照图2，是本发明第二实施例提供的语音拾取装置100的方框示意图。在本发明实施例中，第二实施例提供的语音拾取装置100的形状构造、工作原理及取得的技术效果与第一实施例提供的语音拾取装置100类似，不同之处在于，第二实施例提供的语音拾取装置100还可以包括噪声采集单元160，且所述处理控制单元150还包括用于对音频信号进行处理的音频处理子单元151。

在本发明实施例中，所述噪声采集单元160用于对所述语音拾取装置100周边环境中的噪声信号进行采集。具体地，所述处理控制单元150与所述噪声采集单元160电性连接，以在所述语音采集单元130对所述人脸识别单元120识别到的人脸对应方位的语音信号进行采集时，控制所述噪声采集单元160对所述语音拾取装置100周边环境中的噪声信号进行采集，并根据所述噪声采集单元160采集到的噪声信号对所述语音采集单元130采集到的语音信号进行除噪处理，得到除噪后的语音信息。

在本实施例中，所述噪声采集单元160包括至少一个噪声取样传声器，所述噪声采集单元160通过至少一个所述噪声取样传声器对所述噪声信号进行采集。所述语音采集单元130中的至少一个所述语音取样传声器配合所述噪声采集单元160中的至少一个所述噪声取样传声器形成一传声器阵列，用于对空气中的音频信号进行采集。其中，所述音频信号包括人脸所在方位的语音信号和所述语音拾取装置100周边环境中的噪声信号。在本实施例的一种实施方式中，所述噪声取样传声器的数目优选为偶数个，所述噪声取样传声器分别设置在所述语音取样传声器的两侧。

在本实施例中，所述噪声取样传声器的朝向可以是固定的，所述噪声取样传声器的朝向可以是朝向所述语音拾取装置100的正前方，也可以是朝向所述语音拾取装置100的外侧偏转一定角度的方向，具体地朝向可以由所述语音拾取装置100的使用人员或生产厂家根据需要进行不同的设置。其中，所述噪声取样传声器可以是，但不限于，电动式传声器、电容式传声器、电磁式传声器、压电式传声器及半导体传声器等。

在本发明实施例中，所述处理控制单元150通过所述音频处理子单元151对所述语音采集单元130采集到的语音信号进行除噪处理。具体地，在本实施例的一种实施方式中，所述音频处理子单元151在获取到所述语音采集单元130采集到的语音信号及所述噪声采集单元160采集到的噪声信号时，分别对所述语音采集单元130采集到的语音信号及所述噪声采集单元160采集到的噪声信号进行放大处理，并将放大后的噪声信号进行反相处理，将处理后的噪声信号与放大后的语音信号进行混合叠加，以消除所述语音信号中的噪声信号，得到除噪后的语音信息。在本实施例的另一种实施方式中，所述音频处理子单元151也可以在对所述噪声采集单元160采集到的噪声信号及所述语音采集单元130采集到的语音信号进行放大处理后，根据放大后的噪声信号对放大后的语音信号进行滤波处理，得到除噪后的语音信息。

第三实施例：

请参照图3，是本发明第三实施例提供的语音拾取装置100的方框示意图。在本发明实施例中，第三实施例提供的语音拾取装置100的形状构造、工作原理及取得的技术效果与第二实施例提供的语音拾取装置100类似，不同之处在于，第三实施例提供的语音拾取装置100还可以包括语音识别单元180。

在本发明实施例中，所述语音识别单元180用于对语音信号进行语音识别。具体地，所述语音识别单元180与所述处理控制单元150电性连接，以对所述处理控制单元150得到的除噪后的语音信息进行语音识别，得到对应的控制指令。其中，所述控制指令用于对包括有所述语音拾取装置100的电子设备进行控制，所述控制指令与除噪后的所述语音信息相互对应。

第四实施例：

请参照图4，是本发明第四实施例提供的语音拾取装置100的方框示意图。在本发明实施例中，第四实施例提供的语音拾取装置100的形状构造、工作原理及取得的技术效果与第二实施例提供的语音拾取装置100类似，不同之处在于，第四实施例提供的语音拾取装置100还可以包括网络通信单元170。

在本发明实施例中，所述网络通信单元170用于进行数据交互。所述网络通信单元170与所述处理控制单元150电性连接，所述语音拾取装置100通过所述网络通信单元170与服务器通信连接，以将所述处理控制单元150得到的除噪后的语音信息发送给所述服务器进行语音识别，或接收所述服务器对除噪后的语音信息进行语音识别后得到的控制指令，其中，所述控制指令用于控制包括有所述语音拾取装置100的电子设备，所述控制指令与除噪后的语音信息相互对应。

第五实施例：

请参照图5，是本发明第五实施例提供的语音拾取装置100的方框示意图。在本发明实施例中，第五实施例提供的语音拾取装置100的形状构造、工作原理及取得的技术效果与第四实施例提供的语音拾取装置100类似，不同之处在于，第五实施例提供的语音拾取装置100还可以包括转动控制单元190。

在本发明实施例中，所述转动控制单元190与所述图像采集单元110连接，以控制所述图像采集单元110的图像采集方向。具体地，所述转动控制单元190包括用于带动所述图像采集单元110中的摄像头进行图像采集方向调整的转动组件及用于控制所述转动组件的转动控制组件。所述转动组件与所述图像采集单元110中的摄像头直接连接，所述转动控制组件与所述转动组件电性连接，以控制所述图像采集单元110中的摄像头按照预设转动策略地进行转动，实现对不同方向的环境信息的图像采集。

在本发明中，本发明实施例还提供一种多媒体设备。所述多媒体设备包括上述的第一实施例、第二实施例、第三实施例、第四实施例及第五实施例中任意一个实施例提供的语音拾取装置100。所述多媒体设备对所述语音拾取装置100根据使用人员的人脸所在方位采集到的语音信号进行语音识别，得到与所述语音信号匹配的控制指令，并根据所述控制指令执行相应的操作。在本实施例中，所述多媒体设备可以是，但不限于，智能音箱、智能电视、智能洗衣机、智能冰箱及智能机器人等。

综上所述，在本发明较佳的实施例提供的语音拾取装置及多媒体设备中，所述语音拾取装置及多媒体设备能够根据用户的脸部位置自动转向地对用户发出的语音信号进行定向语音拾取，降低外界噪声干扰，提高相应的语音识别准确度及语音拾取距离。具体地，所述语音拾取装置通过图像采集单元采集图像；通过与图像采集单元电性连接的人脸识别单元对采集到的图像进行人脸识别；通过语音采集单元进行语音信号的采集；通过与语音采集单元连接的转向调整单元对语音采集单元朝向进行调整；通过与图像采集单元、人脸识别单元、语音采集单元、转向调整单元电性连接的处理控制单元，在人脸识别单元识别到图像采集单元采集的图像中存在人脸时，控制转向调整单元的运行以使语音采集单元对准图像中人脸所在的方位，并控制语音采集单元对人脸所在方位的语音信号进行采集，从而实现对用户发出的语音信号的定向拾取，降低外界噪声干扰，提高相应的语音识别准确度及语音拾取距离。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音拾取装置，其特征在于，所述装置包括：

用于采集图像的图像采集单元；

用于采集语音信号的语音采集单元；

所述处理控制单元在所述人脸识别单元识别到所述图像采集单元采集的图像中存在人脸时，控制所述转向调整单元的运行以使所述语音采集单元对准图像中人脸所在的方位，并控制所述语音采集单元对人脸所在方位的语音信号进行采集；

所述处理控制单元具体用于在所述人脸识别单元识别到所述图像采集单元采集的图像中存在人脸时，对识别到的人脸的面部信息进行处理，得到所述人脸中嘴部对应的方位，并根据所述嘴部对应的方位控制所述转向调整单元，使所述语音采集单元对准所述嘴部对应的方位进行语音信号的采集；

所述处理控制单元在所述人脸识别单元识别到的人脸的数目为多个时，获得各个人脸对应的控制权限，控制所述转向调整单元带动所述语音采集单元朝向控制权限最高的人脸所在的方位，以对所述人脸所在方位的语音信号进行采集。

2.根据权利要求1所述的装置，其特征在于，所述装置还包括用于对所述装置周边环境中的噪声信号进行采集的噪声采集单元；

3.根据权利要求2所述的装置，其特征在于，所述装置还包括用于进行数据交互的网络通信单元；

4.根据权利要求2所述的装置，其特征在于，所述装置还包括用于进行语音识别的语音识别单元；

5.根据权利要求2所述的装置，其特征在于，所述语音采集单元包括至少一个语音取样传声器，所述噪声采集单元包括至少一个噪声取样传声器，至少一个所述语音取样传声器配合至少一个所述噪声取样传声器形成一传声器阵列，以分别对人脸所在方位的语音信号和所述语音拾取装置周边环境中的噪声信号进行采集。

6.根据权利要求2所述的装置，其特征在于，所述处理控制单元包括音频处理子单元；

7.根据权利要求1所述的装置，其特征在于，所述装置还包括与所述图像采集单元连接，用于控制所述图像采集单元的图像采集方向的转动控制单元。

8.一种多媒体设备，其特征在于，所述多媒体设备包括权利要求1-7中任意一项所述的语音拾取装置，所述多媒体设备对所述语音拾取装置采集到的语音信号进行语音识别，得到与所述语音信号匹配的控制指令，并根据所述控制指令执行相应的操作。