CN110188179B

CN110188179B - 语音定向识别交互方法、装置、设备及介质

Info

Publication number: CN110188179B
Application number: CN201910466749.8A
Authority: CN
Inventors: 嵇望; 汪斌; 林达; 李林峰
Original assignee: Zhejiang Utry Information Technology Co ltd
Current assignee: Zhejiang Xiaoyuan Robot Co ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2020-06-19
Anticipated expiration: 2039-05-30
Also published as: CN110188179A

Abstract

本专利申请涉及人机语音交互领域，公开了一种语音定向识别交互方法，包括如下步骤：拾取正前方的声音信号进行识别，得到语音文本内容，获取该语音文本内容；基于图像采集角度和采集距离，获取同时满足所述图像采集角度和所述采集距离的人脸图像；根据所述语音文本内容和所述人脸图像，判断是否作出回复；其中，所述图像采集角度为60‑70度，所述采集距离小于等于1m。本专利申请还公开了一种语音定向识别交互装置、电子设备及计算机存储介质，本专利提供的语音定向识别交互方法符合日常交流习惯，能有效消除局外人的声音跟环境的声音，实现与正在前方交互的用户达成有效的拟人化沟通。

Description

语音定向识别交互方法、装置、设备及介质

技术领域

本发明涉及人机语音交互领域，具体涉及一种语音定向识别交互方法、装置、设备及介质。

背景技术

目前机器人或者语音助手的应用普遍处于复杂的环境下，比如会议室、户外、商场等嘈杂环境，从而会出现噪音、混响、人声干扰、回声等各种问题，并且在人机语音交互过程中，用于收声的阵列麦克风也会识别周围360度范围内的声音，为了解决误识环境音的问题，“唤醒词”技术在语音交互中被采用。在实际应用中，只有当机器人或语音交互助手接受到唤醒词之后才会对语音内容进行识别；否则，不进行识别。

“唤醒词”技术是当前主流机器人或智能设备进行人机交互时的主要触发方式。使用唤醒词唤醒的问题在于，对作为交互的主体人来说，他必须学习使用唤醒词，如果在一个陌生的地方遇到一个机器人，交互主题人完全不知道唤醒它的是哪一个唤醒词，如果没有唤醒词，将无法与它交流。再者，每次跟机器人对话前都要说一遍“唤醒词”，这样的交互流程不仅机械且影响交互的节奏，并且也会出现忘记说出“唤醒词”或频繁说出“唤醒词”的情况，导致主体交互人说完了一大段话，而机器人没有在聆听。

一般跟机器人交互都是站在其正前方，但是由于全向阵列麦克风的收音会导致收音过程中会混入局外人的声音跟环境的声音，即机器人身后或者左右有人声或者噪音也会收入并且识别，从而会降低语音识别的正确性，即使识别正确也有可能导致机器人错误应答，不能和正在前方交互的用户达成有效沟通。

为解决上述问题，中国专利CN105204628A公开了一种基于视觉唤醒的语音控制方法，包括语音控制设备接收到至少部分的语音信号后，启动安装在其上的图像接收单元，由图像接收单元获取图像并传送到图像识别单元进行识别，当识别到视线朝向所述语音控制设备的人脸时，进行语音识别。但是该专利仍然没有解决环境噪音的干扰，当语音控制设备360度范围内出现多个声源时，比如图像接收单元识别到人脸同时在语音控制设备接收到周围多个语音信号时，语音控制设备的识别效果会受到外界环境音的干扰。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种语音定向识别交互方法，结合人脸图像和声音信号确定特定交互对象后进行针对性回复，符合日常交流习惯。

本发明的目的之一采用以下技术方案实现：

一种语音定向识别交互方法，其特征在于，包括如下步骤：

获取采集到的语音文本内容；

获取同时满足图像采集角度和采集距离的人脸图像；

根据所述语音文本内容和所述人脸图像，判断是否作出回复；

其中，所述图像采集角度为60-70度，所述采集距离小于等于1m，且所述语音文本内容的采集方法为：对正前方的声音信号进行定向拾取和信号增强后，进行语音识别。

进一步地，所述人脸图像的采集步骤如下：对采集到的图像数据进行特征提取，再通过人脸检测算法判断图像中是否包含人脸，若不包含人脸，对所述图像数据不作处理；若包含人脸，则利用人脸角度估计算法和人脸距离估计算法计算图像中人脸的3D角度信息和距离信息，若人脸的3D角度信息和距离信息均满足条件，则保留该图像数据作为人脸图像；若不满足条件，则不采集。

进一步地，当同时获取到所述语音文本内容和所述人脸图像时，即针对所述语音文本内容作出回复，否则不作回复。

进一步地，所述人脸角度估计算法采用基于卷积神经网络的人脸检测算法，包括如下步骤：

建立人脸图片库，并对所述人脸图片库进行特征提取和分析，提取五官的形态和位置进行统计，得到统计分析结果；

采用深度卷积神经网络方法对所述统计分析结果进行训练得到建立部位分类器，根据人脸分类器对所述图像数据中的人脸进行评分，然后根据每个特征部位的得分进行规则分析得到人脸候选区域，最后结合边界回归算法得到最终的人脸检测结果。

进一步地，所述人脸角度估计算法采用了LVQ算法预先训练人脸在镜头中的90个角度模型，通过输入人脸的眼部特征匹配相应角度，最后得到人脸的3D角度信息。

进一步地，所述声音信号定向拾取后采用广义旁瓣消除器算法进行信号增强，具体为：将声音信号进行能量归一化，然后通过固定波束形成器产生主瓣上的正向语音参考信号，并通过旁瓣消除器产生噪声参考信号，最后利用噪声抵消器将消除主瓣信号上的噪声成分。

本发明的目的之二在于提供一种语音定向识别交互装置，采用以下技术方案实现：

语音定向识别交互装置，包括：

语音拾取设备，用于定向拾取正前方的声音信号，并进行语音识别，得到语音文本内容；

图像采集设备，预先设置有图像采集角度和采集距离，并采集同时满足所述图像采集角度和所述采集距离的人脸图像；

处理单元，用于获取所述语音文本内容和所述人脸图像，并判断是否作出回复。

进一步地，所述语音拾取设备定向拾取的收音范围为：收音角度60-70度，收音距离小于等于1m。

本发明的目的之三在于提供执行发明目的之一的电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，所述计算机程序被处理器执行时实现上述的语音定向识别交互方法。

本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音定向识别交互方法。

相比现有技术，本发明的有益效果在于：

定向识别来自正前方的声音信号，限制拾取声音信号的角度和距离，并对拾取到的声音信号进行信号增强，有助于消除环境噪音的干扰，避免拾取周围多个声音信号而影响识别效果；限制图像采集设备采集人脸图像的角度和距离，更符合日常交流模式，只有同时获取到特定范围和距离内的声音信号和人脸图像时，才相应回话，不仅更符合日常交流模式，更有助于达成有效沟通，增加人机沟通的拟人化效果。

附图说明

图1是本发明实施例1语音定向识别交互方法的流程示意图；

图2为本发明实施例2提供的语音定向识别交互装置的示意图；

图3是本发明实施例3的电子设备的结构框图。

具体实施方式

以下将结合附图，对本发明进行更为详细的描述，需要说明的是，下参照附图对本发明进行的描述仅是示意性的，而非限制性的。各个不同实施例之间可以进行相互组合，以构成未在以下描述中示出的其他实施例。

实施例1

语音定向识别交互方法，通过定向获取语音信号和符合要求的人脸图像，以进行语音交互，如图1所示，包括如下步骤：

获取采集到的语音文本内容；

获取同时满足图像采集角度和采集距离的人脸图像；

根据获取到的语音文本内容和人脸图像，判断是否作出回复；

其中，所述图像采集角度为60-70度，所述采集距离小于等于1m。

且上述语音文本内容的采集方法为：对正前方的声音信号进行定向拾取和信号增强后，进行语音识别。

当同时获取到所述语音文本内容和所述人脸图像时，即针对所述语音文本内容作出回复，否则不作回复。

在本实施例中，基于人脸检测算法、人脸角度估计算法和距离检测算法判断是否有人脸出现在60-70度角度范围且人脸距离在1m的距离范围内，利用人脸角度估计算法和距离检测算法采集人脸图像的步骤如下：首先，对采集到的图像数据进行特征提取，再通过人脸检测算法判断图像中是否包含人脸，若不包含人脸，对所述图像数据不作处理。

若包含人脸，则利用人脸角度估计算法和距离检测算法计算图像中人脸的3D角度信息和距离信息，若人脸的3D角度信息和距离信息均满足条件，则保留该图像数据作为人脸图像；若不满足条件，则不作处理。

上述人脸检测算法基于卷积神经网络方法，具体包括如下步骤：

采用深度卷积神经网络方法对所述统计分析结果进行训练建立部位分类器，根据人脸分类器对所述图像数据中的人脸进行评分，然后根据每个特征部位的得分进行规则分析得到人脸候选区域，最后结合边界回归算法得到最终的人脸检测结果。

在得到人脸检测结果后，将人脸头像从原始图像数据中抠出，并从中提取头像特征，并将特征经人脸角度估计算法计算得到此张人脸头像的3D角度信息。

本发明中提及的人脸角度估计算法采用学习向量量化LVQ(Learning VectorQuantization)的前向神经网络。首先准备一组人脸角度不同角度的图像，图像来自不同的100个人，每人90幅图像，人脸角度分别为：左方、左前方、前方、右前方、右方，依次从左到右，每1度1个人脸图像。

先将图片中描述眼睛位置的特征向量提取出来作为LVQ神经网络的输入，90个角度分别用1，2，3，.....，89，90表示，作为LVQ神经网络的输出。通过对训练集的图像进行训练，得到具有预测功能的网络，便可以对任意给出的人脸图像进行角度判断。

本发明中眼部位置特征向量提取具体方法是将采集到的9000幅图像先进行预处理，将图片按320×360的尺寸对人脸部位进行裁剪，然后将裁剪得到的图像按“人员编号_人脸角度”的格式进行命名，再将其转换成二值灰度图像，接着将图像划分成6行8列，人眼的位置信息可以用第2行的8个子矩阵来描述，用Sobel边缘算子进行边缘检测后8个子矩阵中的值为“1”的像素点个数与人脸角度有直接关系，只要分别统计出第2行的8个子矩阵中的值为“1”的像素点即可。

Sobel算子进行边缘检测，Sobel算子是一组方向算子，从不同的方向检测边缘。Sobel算子加强了中心像素上下左右4个方向像素的权重，运算结果是一幅边缘图像。该算子计算公式(1)(2)(3)表示：

f′_x(x，y)＝f(x-1，y+1)+2f(x，y+1)+f(x+1，y+1)-f(x-1，y-1)-2f(x，y-1)-f(x+1，y-1) (1)

f′_y(x，y)＝f(x-1，y-1)+2f(x-1，y)+f(x-1，y+1)-f(x+1，y-1)-2f(x+1，y)-f(x+1，y+1) (2)

G[f(x，y)]＝|f′_x(x，y)|+|f′_y(x，y)| (3)

式中f′_x(x，y)、f′_y(x，y)分别表示x方向和y方向的一阶微分，G[f(x，y)]为Sobel算子梯度，f(x，y)是具有整数像数坐标的输入图像。求出梯度后，可设定一个常数T，当G[f(x，y)]＞T时，标出该点为边界点，其图像设定为0，其它的设定为255，适当调整常数T的大小来达到最佳效果。在输入图像得到边缘检测结果之后，提取人眼位置处的像数信息，统计出划分网格第2行的8个子矩阵中的值为“1”的像素点的个数，提取的像素点个数用一个100×8的矩阵表示出来，作为LVQ神经网络的输入层。将准备的9000个不同人脸角度的样本提取出特征向量作为训练集，测试集为随机抽取的200个不同人脸角度的图片的特征向量。创建一个隐含层神经元个数为10的神经网络，将训练集和测试集输入到神经网络中进行训练学习，最后得到可预测人脸角度的神经网络模型，至此可预测人脸角度的神经网络模型创建完成。

该人脸角度估计算法是利用了LVQ算法预先训练人脸在镜头中的90个角度模型，通过输入人脸的眼部特征匹配相应角度，最后得到人脸的3D角度信息。

在本实施例中，距离检测算法采用公知的单目测距算法，在此不再赘述

本发明提供的语音定向识别交互方法可应用到智能语音交互设备上，该智能语音交互设备可以是具有行动能力或者转动能力的机器人，也可以是非移动式的机器人(类似于可视电话)，凡是要与机器人说话必须站到机器人的可视区域里面，不在可视区域里收到的语音，机器人不作任何回答。

在本实施例中在语音识别之前，对来自正前方的声音信号进行定向拾取和信号增强，选用广义旁瓣消除器算法进行语音信号增强，该广义旁瓣消除器算法具体为：将声音信号进行能量归一化，然后通过固定波束形成器产生主瓣上的正向声音参考信号，并通过旁瓣消除器产生噪声参考信号，最后利用噪声抵消器将消除主瓣信号上的噪声成分。

其中能量归一化基于能量归一化模块，具体采用以下公式(4)实现能量归一化：

固定波束形成器形成固定波束的过程是将所有阵元信号在同一个采集点数据叠加在一起再除以阵元数，从而产生主瓣上的正向声音参考信号，具体采用公式(5)实现：

本实施例采用的广义瓣消除器算法引入旁瓣消除器的作用为自适应噪声消除，从而进一步增强主瓣信号，利用旁瓣消除器对长度为512个点的帧数据处理过程，具体为公式(6)、(7)、(8)：

H_L(k)＝[h_m，0(k)，h_m，1(k)，...h_m，511(k)，]^T (7)

D(k)＝[d(k)，d(k-1)，...，d(k-511)]^T (8)

其中H_L(k)是第L个阵元的自适应调整且受限的参数向量，用于得到纯净的噪声信号。

最后利用噪声抵消器消除主瓣信号上的噪音，即从主瓣信号上减去合成的噪声信号达到进一步增强正向声音信号，具体算法见公式(9)、(10)、(11)：

其中，

W_L(k)＝[W_L，0(k)，_L，1(k)，..._L，511(k]^T (10)

Y_L(k)＝[Y_L(k)，Y_L(k-1)，...Y_L(k-511)]^T (11)

W_L(k)是该噪声抵消器中的抵消参数。

在上述算法中，W_L(k)和H_L(k)均通过归一化最小均方差算法进行自适应调整，因归一化最小均差算法为公知常识，在此不再进行赘述。

在本发明的更优实施例中，若通过上述距离检测算法计算出人脸到图像采集设备的距离大于1m，则控制机器人向前移动至1m范围内。

实施例2

本实施例公开了一种对应实施例1的语音定向识别交互方法的装置，请参照图2所示，包括：

语音拾取设备210，用于定向拾取正前方的声音信号，并进行语音识别，得到语音文本内容；

图像采集设备220，预先设置有图像采集角度和采集距离，并采集同时满足所述图像采集角度和所述采集距离的人脸图像；

处理单元230，用于获取所述语音文本内容和所述人脸图像，并判断是否作出回复。

在本实施例中，语音拾取设备210为固定安装的不可转向的阵列麦克风，阵列麦克风的设定方法是，将定向麦克风波束收音范围调节在正前方，角度控制在60-70度之间，拾音距离最远1m。

图像采集设备220采用安装摄像头实现，在本发明的更优实施例中，若通过上述距离检测算法计算出人脸到图像采集设备2的距离大于1m，则控制本实施例的装置向前移动至1m范围内。

实施例3

图3为本发明实施例3提供的电子设备的示意图，如图3所示，该电子设备包括处理器310、存储器320、输入装置330和输出装置340；计算机设备中处理器310的数量可以是一个或多个，图3中以一个处理器310为例；电子设备中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器320作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的语音定向识别交互方法对应的程序指令/模块(例如，语音定向识别交互装置中的处理单元230)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述实施例1的语音定向识别交互方法。

存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器320可进一步包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330在本实施例中用于接收语音文本内容和人脸图像等数据。输出装置340可包括显示屏等显示设备，本实施例中输出装置用于输出语音答复。

实施例4

本发明实施例4还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行语音定向识别交互方法，该方法包括：

获取采集到的语音文本内容；

获取同时满足图像采集角度和采集距离的人脸图像；

根据所述语音文本内容和所述人脸图像，判断是否作出回复。

当然，本实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的语音定向识别交互方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述语音定向识别交互方法的装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种语音定向识别交互方法，其特征在于，包括如下步骤：

获取采集到的语音文本内容；

获取同时满足图像采集角度和采集距离的人脸图像；

当同时获取到所述语音文本内容和所述人脸图像时，即针对所述语音文本内容作出回复，否则不作回复；

其中，所述图像采集角度为60-70度，所述采集距离小于等于1m，且所述语音文本内容的采集方法为：对正前方的声音信号进行定向拾取和信号增强后，进行语音识别；

所述人脸图像的采集步骤如下：对采集到的图像数据进行特征提取，再通过人脸检测算法判断图像中是否包含人脸，若不包含人脸，对所述图像数据不作处理；若包含人脸，则利用人脸角度估计算法和人脸距离估计算法计算图像中人脸的3D角度信息和距离信息，若人脸的3D角度信息和距离信息均满足条件，则保留该图像数据作为人脸图像；若不满足条件，则不采集。

2.如权利要求1所述的语音定向识别交互方法，所述人脸角度估计算法采用了LVQ算法预先训练人脸在镜头中的90个角度模型，通过输入人脸的眼部特征匹配相应角度，最后得到人脸的3D角度信息。

3.如权利要求1所述的语音定向识别交互方法，其特征在于，所述声音信号定向拾取后采用广义旁瓣消除器算法进行信号增强，具体为：将声音信号进行能量归一化，然后通过固定波束形成器产生主瓣上的正向语音参考信号，并通过旁瓣消除器产生噪声参考信号，最后利用噪声抵消器将消除主瓣信号上的噪声成分。

4.一种语音定向识别交互装置，其特征在于，包括：

对采集到的图像数据进行特征提取，再通过人脸检测算法判断图像中是否包含人脸，若不包含人脸，对所述图像数据不作处理；若包含人脸，则利用人脸角度估计算法和人脸距离估计算法计算图像中人脸的3D角度信息和距离信息，若人脸的3D角度信息和距离信息均满足条件，则保留该图像数据作为人脸图像；若不满足条件，则不采集；

处理单元，用于获取所述语音文本内容和所述人脸图像，并判断是否作出回复；当同时获取到所述语音文本内容和所述人脸图像时，即针对所述语音文本内容作出回复，否则不作回复。

5.如权利要求4所述的语音定向识别交互装置，其特征在于，所述语音拾取设备定向拾取的收音范围为：收音角度60-70度，收音距离小于等于1m。

6.一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3任一项所述的语音定向识别交互方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3任一项所述的语音定向识别交互方法。