CN112311999A

CN112311999A - 智能视频音箱设备及其摄像头视角调整方法

Info

Publication number: CN112311999A
Application number: CN201910683590.5A
Authority: CN
Inventors: 尚海; 杜军红; 汤肖迅
Original assignee: Shanghai Longcheer Technology Co Ltd
Current assignee: Shanghai Longcheer Technology Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2021-02-02

Abstract

本申请提供了一种智能视频音箱设备及其摄像头视角调整方法，能够采集用户的声音并根据声音确定音源方向，再根据音源方向生成摄像头水平视角调整指令，摄像头角度调整装置根据该指令调整摄像头的水平视角，从而实现了对智能视频音箱用户位置的持续跟踪，从而能够准确采集用户的音频、视频，无需手动调整摄像头角度，从而提高了用户体验和沟通的效率。

Description

智能视频音箱设备及其摄像头视角调整方法

技术领域

本申请涉及智能设备领域，尤其涉及一种智能视频音箱设备及其摄像头视角调整方法。

背景技术

当前，智能视频音箱作为新类型的电子产品，逐步进入用户的家庭。智能视频音箱在传统的音箱上增加了显示屏幕和摄像头，也能够将通过摄像头采集的音频、视频等发送给远端的智能视频音箱用户。在现有的智能视频音箱产品中，摄像头固定设置，用户必须保持在智能视频音箱的摄像头的正前方才能达到较好的交互效果，要调整摄像头的采集视频区域需要用户手动进行调整，用户体验不佳。

发明内容

本申请的一个目的是提供一种智能视频音箱设备及其摄像头视角调整方法，用于解决现有技术下智能视频音箱无法跟踪用户实时位置的问题。

为实现上述目的，本申请的一些实施例提供了一种智能视频音箱设备的摄像头视角调整方法，该智能视频音箱设备包括摄像头，其中，该方法包括：

通过麦克风阵列采集用户声音；

根据采集的用户声音，通过声音定位确定音源方向；

控制装置根据确定的音源方向生成摄像头水平视角调整指令，并将指令发送至摄像头角度调整装置，以使所述摄像头角度调整装置根据指令调整摄像头的水平视角。

进一步地，该方法还包括：

通过麦克风阵列采集用户语音并进行语音识别，获得识别出的语音指令，所述语音指令包括摄像头视角调整语音指令；

控制装置根据接收的所述语音指令生成摄像头垂直视角调整指令；

将指令发送至摄像头角度调整装置，以使所述摄像头角度调整装置根据指令调整摄像头的垂直视角。

进一步地，所述语音指令还包括语音唤醒指令，所述语音唤醒指令包括语音关键字或语音声纹。

进一步地，根据采集的用户声音，通过声音定位确定音源方向，包括：

根据采集的用户声音，通过波达方向定位确定音源与麦克风阵列的角度信息。

进一步地，其中，该方法还包括：

在摄像头的视角调整完成后，将所述用户声音及所述摄像头获取的用户视频通过网络发送至其它用户所使用的智能视频音箱设备。

此外，本申请的一些实施例还提供了一种智能视频音箱设备，包括摄像头，其中，该设备还包括：

麦克风阵列，用于采集用户声音并根据用户声音确定音源方向，再将所述音源方向发送至控制装置；

控制装置，用于根据所述音源方向生成摄像头水平视角调整指令，并将指令发送至摄像头角度调整装置；

摄像头角度调整装置，用于接收所述摄像头水平视角调整指令，并根据指令调整摄像头的水平视角。

进一步地，所述麦克风阵列，还用于采集用户语音并进行语音识别，再将识别出的语音指令发送至控制装置，所述语音指令包括摄像头视角调整语音指令；所述控制装置，还用于根据接收的所述语音指令生成摄像头垂直视角调整指令，将指令发送至摄像头角度调整装置；所述摄像头角度调整装置，还用于接收所述摄像头垂直视角调整指令，并根据指令调整摄像头的垂直视角。

进一步地，所述麦克风阵列，用于：

进一步地，所述控制装置，还用于：

在摄像头的视角调整完成后，将所述用户声音及所述摄像头获取的用户视频通过网络发送至其它用户使用的智能视频音箱设备。

与现有技术相比，本申请提供的方案能够采集用户的声音并根据声音确定音源方向，再根据音源方向生成摄像头水平视角调整指令，摄像头角度调整装置根据该指令调整摄像头的水平视角，从而实现了对智能视频音箱用户位置的持续跟踪，从而能够准确采集用户的音频、视频，无需手动调整摄像头角度，从而提高了用户体验和沟通的效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请的一些实施例提供的一种智能视频音箱设备的摄像头视角调整方法的流程图。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请的一些实施例提供了一种智能视频音箱设备的摄像头视角调整方法，该智能视频音箱设备包括摄像头，还包括麦克风阵列、控制装置和摄像头角度调整装置。该智能视频音箱设备还可以包括显示屏幕、喇叭、无线通讯模块、供电***等部件，可用于实现与其他智能视频音箱设备的音频、视频交互。

麦克风阵列，是一组位于空间不同位置的全向麦克风按一定的形状规则布置形成的阵列，是对空间传播声音信号进行空间采样的一种装置，采集到的信号包含了其空间位置信息。根据声源和麦克风阵列之间距离的远近，可将阵列分为近场模型和远场模型。根据麦克风阵列的拓扑结构，则可分为线性阵列、平面阵列、体阵列等。

控制装置用于根据麦克风阵列的声音处理结果对摄像头角度调整装置进行控制，其可产生相应的控制指令来控制摄像头角度调整装置的运动。优选地，控制装置可实现为控制芯片，例如CPU等。摄像头角度调整装置与摄像头连接，并可实现摄像头的视角的调整，摄像头的视角可包括水平视角和垂直视角。

该摄像头视角调整方法如图1所示，该方法具体包括如下步骤：

步骤S101，通过麦克风阵列采集用户声音；

步骤S102，根据采集的用户声音，通过声音定位确定音源方向；

步骤S103，控制装置根据确定的音源方向生成摄像头水平视角调整指令，并将指令发送至摄像头角度调整装置，以使所述摄像头角度调整装置根据指令调整摄像头的水平视角。

该方案尤其适合用于希望摄像头对用户的实时位置进行跟踪的场景，能够根据用户发出的声音信号确定音源方向，再进一步根据音源方向控制摄像头角度调整装置调整摄像头的水平视角。

在步骤S101中，智能视频音箱设备首先通过麦克风阵列采集用户声音。在此，用户声音可以为用户语音，也可以为用户发出的其他声音，例如鼓掌、跺脚等声音。

在步骤S102中，麦克风阵列根据采集的用户声音，通过声音定位确定音源方向。本申请的一些实施例中，麦克风阵列根据采集的用户声音，通过波达方向定位确定音源与麦克风阵列的角度信息。波达方向(Direction Of Arrival，DOA)定位可利用麦克风的阵列天线和波达方向估计来确定一个从麦克风到信源的波达方向线，即为方向线，最后利用多个麦克风估计的波达方向进行三角测量，方向线的交点就是音源源的估计位置。通过测量声音信号的波达方向来估计音源位置，理论上估计只需要两个阵元就可以确定音源的位置，但在实际中，由于受到角度分辨率、多径和噪声限制，所需阵元通常要多于两个。

DOA的技术实现原理描述如下：

假设M个远场宽带信号入射到空间某阵列上，阵列由P个阵元组成，在理想情况下各阵元对信号源的增益一致，则第P个阵元接收到的信号为

式中s_m(t)和w_p(t)为宽带信号和宽带白噪声。假定M个宽带信号具有相同的中心频率f₀和带宽B＝f_H-f_L，其中f_H和f_L分别表示信号的最高频率和最低频率。

目前，在宽带阵列信号处理中，绝大部分算法都是将时域数据通过滤波器组或经过离散傅立叶变换(DFT)，转换成频域的阵列输出数据，进而可以得到宽带阵列信号的频域数据模型。因此对式进行离散傅立叶变换可得

其中f_L≤f_j≤f_H，X_p(f_j)为第p个传声器接收到的频域数据，S_m(f_j)为第m个源的频域数据，W_p(f_j)为第p个传声器处噪声的频域数据。将P个阵元在频率f_j处的数据排成一个列向量有X(f_j)＝[X₁(f_j),X₂(f_j),...,X_P(f_j)]^T，再根据式就可以得到宽带阵列信号的矢量模型为

X(f_j)＝A(f_j)S(f_j)+W(f_j) (1)

其中频率f_j处的信号矢量S(f_j)＝[S₁(f_j),S₂(f_j),...,S_M(f_j)]^T，频率f_j处的噪声矢量W(f_j)＝[W₁(f_j),W₂(f_j),...,W_P(f_j)]^T，A(f_j)为频率f_j处的导向矩阵，且

A(f_j)＝[a₁(f_j),a₂(f_j),...,a_M(f_j)] (2)

它的每一列为频率f_j处的导向矢量，

各个频率点的宽带阵列信号的频域模型和窄带阵列信号的时域模型在结构上是一致的，因此大部分窄带信号DOA估计算法可以直接应用到宽带信号的各个频点上，这也是将宽带时域信号变换到频域的重要原因。但需要注意的是为了保证经过DFT变换后输出数据之间互不相关，需要满足以下条件：信号观测时间T要远远大于宽带信号掠过阵列的最大传播时间τ_max，即T＞＞τ_max；或者信号的观测时间T要远远大于宽带信号带宽的倒数，即T＞＞1/B。

为简单起见，在下文中都以均匀线阵为例对宽带DOA估计算法进行介绍与研究。将均匀线阵的时间延迟表达式代入(1)式中，就可以得到均匀线阵的宽带阵列信号模型

X(f_j)＝A(f_j,θ)S(f_j)+W(f_j) (3)

其中导向矩阵A(f_j,θ)的每一列为

θ_m为第m个宽带源的入射方向。

在下文中，为书写方便，将A(f_j,θ)和a(f_j,θ_m)简写为A_j(θ)和a_j(θ_m)。根据(3)式可以得到频率f_j处的阵列协方差矩阵为

其中R_S(f_j)＝E{S(f_j)S^H(f_j)}为频率f_j处的信号协方差矩阵， R_W(f_j)＝E{W(f_j)W^H(f_j)}为频率f_j处的噪声协方差矩阵。进一步在高斯空时白噪声的假设下

则(4)式可以简化为

在实际处理中，通常把观测到的一段信号分成L个相邻的子段，把每一个子段称作快拍，把子段总数称为快拍数。因此在宽带阵列信号处理中快拍的概念与窄带阵列信号处理是不同的。根据L个快拍的频域阵列输出矢量 X_l(f_j)，l＝1,2,...,L，可以得到阵列输出在频率f_j处的协方差矩阵估计

宽带阵列信号模型是利用傅立叶变换将宽带信号划分成多个频带，每个频带可以看作是一个窄带阵列信号，这也决定了大部分宽带阵列DOA估计方法是窄带阵列DOA估计方法的扩展。宽带阵列DOA估计方法主要可以分成两类：最大似然估计方法和信号子空间类方法。最大似然估计方法分辨率高，角度估计准确，但运算复杂，尤其是当目标源个数较多时，需要进行多维搜索，在实际应用中难以实现。而信号子空间类方法运算复杂度低，无论目标源个数是多少，仅需要进行一维搜索，并且该类方法具有较高的估计精度和超分辨能力，因此被广泛研究与应用。

非相干信号子空间类方法主要是将宽带信号分解成多个互不重叠的窄带信号，然后在每个窄带上用窄带子空间方法(如MUSIC算法，Beamforming 算法等)估计目标源角度，最后将每个窄带上的估计结果组合得到最终目标源的DOA估计。

根据f_j频率处的协方差矩阵估计值

和阵列的导向矢量

就可以得到宽带波束形成算法的代价函数为

通过对上式进行一维搜索就可以获得音源的角度估计。

在步骤S103中，控制装置根据确定的音源方向生成摄像头水平视角调整指令，并将指令发送至摄像头角度调整装置，以使摄像头角度调整装置根据指令调整摄像头的水平视角。在此，音源方向优选可为一个角度信息，用以指明麦克风阵列与音源的角度，麦克风阵列的整体平面与摄像头的拍摄方向的角度预知，通过这些角度之间的关系，控制装置可得到音源与摄像头的角度信息，从而根据音源与摄像头的角度信息生成相应的摄像头水平视角调整指令，并将该指令发送至摄像头角度调整装置，摄像头角度调整装置根据该指令对摄像头的拍摄方向旋转相应的角度，从而实现对摄像头的水平视角的调整。这里，摄像头的旋转是在水平面上的左右旋转。

本申请的一些实施例中，该智能视频音箱设备还可以根据接收的用户语音指令对摄像头的垂直视角进行调整，具体可包括如下步骤：通过麦克风阵列采集用户语音并进行语音识别，获得识别出的语音指令，该语音指令包括摄像头视角调整语音指令；控制装置根据接收的语音指令生成摄像头垂直视角调整指令；将指令发送至摄像头角度调整装置，以使摄像头角度调整装置根据指令调整摄像头的垂直视角。在此，麦克风阵列采集用户的语音，并对采集的用户语音通过现有语音识别技术进行语音识别，并将语音识别的结果在预先设置的语音指令集合中进行匹配，若匹配成功，则认为采集的用户语音为指令集合中匹配的语音指令，该语音指令为识别出的语音指令。

优选地，识别出的语音指令可以为预设的摄像头视角调整语音指令，该指令发送至控制装置。控制装置接收该语音指令，并根据该语音指令生成摄像头垂直视角调整指令，该摄像头垂直视角调整指令可用于调整摄像头的上下角度。摄像头角度调整装置接收控制装置发送的摄像头垂直视角调整指令，并根据该指令对摄像头的俯仰角度进行上下调整，从而调整摄像头的垂直视角。

本申请的一些实施例中，语音指令还可以包括语音唤醒指令，语音唤醒指令包括语音关键字或语音声纹。在此，语音唤醒指令用于对麦克风阵列进行唤醒，从而接收用户发出的语音指令。

本申请的一些实施例中，该智能视频音箱设备还可以在摄像头的视角调整完成后，将用户声音及摄像头获取的用户视频通过网络发送至其它用户所使用的智能视频音箱设备。在此，摄像头视角调整完成后，摄像头可采集到用户的实时视频，麦克风阵列可采集到用户的声音，将这些视频和音频信息通过网络发送给远端的其他智能视频音箱设备，可以实现当前用户与其他远端用户的音频、视频交互，从而采集准确的用户音频、视频，提升了用户体验。

本申请的一些实施例中，麦克风阵列还用于采集用户语音并进行语音识别，再将识别出的语音指令发送至控制装置，所述语音指令包括摄像头视角调整语音指令；控制装置还用于根据接收的所述语音指令生成摄像头垂直视角调整指令，将指令发送至摄像头角度调整装置；摄像头角度调整装置还用于接收所述摄像头垂直视角调整指令，并根据指令调整摄像头的垂直视角。

本申请的一些实施例中，语音指令还包括语音唤醒指令，语音唤醒指令包括语音关键字或语音声纹。

本申请的一些实施例中，麦克风阵列用于根据采集的用户声音，通过波达方向定位确定音源与麦克风阵列的角度信息。

本申请的一些实施例中，控制装置还用于在摄像头的视角调整完成后，将用户声音及摄像头获取的用户视频通过网络发送至其它用户使用的智能视频音箱设备。

综上所述，本申请提供的方案能够采集用户的声音并根据声音确定音源方向，再根据音源方向生成摄像头水平视角调整指令，摄像头角度调整装置根据该指令调整摄像头的水平视角，从而实现了对智能视频音箱用户位置的持续跟踪，从而能够准确采集用户的音频、视频，无需手动调整摄像头角度，从而提高了用户体验和沟通的效率。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构) 可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。

Claims

1.一种智能视频音箱设备的摄像头视角调整方法，该智能视频音箱设备包括摄像头，其中，该方法包括：

通过麦克风阵列采集用户声音；

根据采集的用户声音，通过声音定位确定音源方向；

2.根据权利要求1所述的方法，其中，该方法还包括：

3.根据权利要求2所述的方法，其中，所述语音指令还包括语音唤醒指令，所述语音唤醒指令包括语音关键字或语音声纹。

4.根据权利要求1所述的方法，其中，根据采集的用户声音，通过声音定位确定音源方向，包括：

5.根据权利要求1所述的方法，其中，该方法还包括：

6.一种智能视频音箱设备，包括摄像头，其中，该设备还包括：

7.根据权利要求6所述的设备，其中，

所述麦克风阵列，还用于采集用户语音并进行语音识别，再将识别出的语音指令发送至控制装置，所述语音指令包括摄像头视角调整语音指令；

所述控制装置，还用于根据接收的所述语音指令生成摄像头垂直视角调整指令，将指令发送至摄像头角度调整装置；

所述摄像头角度调整装置，还用于接收所述摄像头垂直视角调整指令，并根据指令调整摄像头的垂直视角。

8.根据权利要求7所述的设备，其中，所述语音指令还包括语音唤醒指令，所述语音唤醒指令包括语音关键字或语音声纹。

9.根据权利要求6所述的设备，其中，所述麦克风阵列，用于：

10.根据权利要求6所述的设备，其中，所述控制装置，还用于：