CN111599366B

CN111599366B - 一种车载多音区语音处理的方法和相关装置

Info

Publication number: CN111599366B
Application number: CN202010424470.6A
Authority: CN
Inventors: 王飞; 蒋亚冲; 钱俊
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2024-04-12
Anticipated expiration: 2040-05-19
Also published as: CN111599366A

Abstract

本申请公开了一种车载多音区语音处理的方法和相关装置，该方法包括：通过各个车载座椅传感器检测得到包括至少一个位置方向的位置信息；利用回声消除技术和窄波束算法处理多路麦克风音频得到多路音频；结合位置信息和多路音频综合确定语音识别的目标方向。由此可见，在多路音频的基础上，将各个车载座椅传感器检测得到位置信息作为辅助信息，综合确定语音识别的目标方向，能够有效避免恶劣语音唤醒场景下车载多音区语音交互过程中语音唤醒时的声源定位干扰，以提高车载多音区语音交互过程中语音唤醒时声源定位的准确性，从而实现更精准的车载多音区语音交互，提升车载多音区语音交互的用户体验。

Description

一种车载多音区语音处理的方法和相关装置

技术领域

本申请涉及语音处理技术领域，尤其涉及一种车载多音区语音处理的方法和相关装置。

背景技术

随着科技的快速发展，语音交互技术逐渐应用于车载互联场景中，用户越来越习惯通过语音与车载设备进行交互，从而对车载语音交互***的要求和需求日益增多。为了满足车内各个用户与车载设备之间的语音交互，车载语音交互***推出车载多音区语音交互服务，以拓展语音交互的范围。

现有的车载多音区语音交互是指通过回声消除技术消除车载麦克风拾取的多路麦克风音频中的***回声，并通过窄波束算法实现语音降噪和语音分离，以得到多路音频进行语音唤醒和语音识别，若多路音频中存在触发唤醒回调的音频，在语音唤醒时进行声源定位确定语音识别的方向，以便后续进行定向语音识别，从而实现车载多音区语音交互。

但是，发明人经过研究发现，在恶劣语音唤醒场景下，语音唤醒时极其容易发生声源定位干扰，导致语音唤醒时声源定位出错，大大降低声源定位的准确性，严重影响车载多音区语音交互的效果，从而影响车载多音区语音交互的用户体验。

发明内容

有鉴于此，本申请实施例提供一种车载多音区语音处理的方法和相关装置，能够有效避免恶劣语音唤醒场景下车载多音区语音交互过程中语音唤醒时的声源定位干扰，以提高车载多音区语音交互过程中语音唤醒时声源定位的准确性，从而实现更精准的车载多音区语音交互，提升车载多音区语音交互的用户体验。

第一方面，本申请实施例提供了一种车载多音区语音处理的方法，所述方法包括：

获得各个车载座椅传感器检测的位置信息，所述位置信息包括至少一个位置方向；

对多路麦克风音频进行回声消除处理和窄波束算法处理获得多路音频；

基于所述位置信息和所述多路音频，确定语音识别的目标方向。

可选的，所述基于所述位置信息和所述多路音频，确定语音识别的目标方向，包括：

当所述位置信息只包括一个位置方向时，若所述多路音频中对应所述位置方向的音频触发唤醒回调，将所述位置方向确定为所述目标方向；

当所述位置信息包括多个位置方向时，将所述多路音频中对应所述多个位置方向中每个位置方向的音频中触发唤醒回调的音频确定为唤醒音频，基于所述唤醒音频确定所述目标方向。

可选的，所述基于所述唤醒音频确定所述目标方向，包括：

当所述唤醒音频为一路唤醒音频时，将所述唤醒音频对应的位置方向确定为所述目标方向；

当所述唤醒音频为多路唤醒音频时，基于所述多路唤醒音频中每路唤醒音频的唤醒得分和频谱能量，从所述多路唤醒音频中确定目标唤醒音频，将所述目标唤醒音频对应的位置方向确定为所述目标方向。

可选的，所述基于所述多路唤醒音频中每路唤醒音频的唤醒得分和频谱能量，从所述多路唤醒音频中确定目标唤醒音频，包括：

确定所述多路唤醒音频中最高唤醒得分和最高频谱能量对应的唤醒音频分别为第一唤醒音频和第二唤醒音频；

当所述第一唤醒音频与所述第二唤醒音频的唤醒得分差异大于预设唤醒得分差异且频谱能量差异小于第一预设频谱能量差异时，将所述第一唤醒音频确定为所述目标唤醒音频；

当所述第一唤醒音频与所述第二唤醒音频的唤醒得分差异小于等于所述预设唤醒得分差异或频谱能量差异大于等于所述第一预设频谱能量差异时，将所述第二唤醒音频确定为所述目标唤醒音频。

可选的，还包括：

当位置信息包括的多个位置方向的数量小于车内各个位置方向的数量时，将所述多路音频中对应车内各个位置方向中除所述多个位置方向之外的每个其他位置方向的音频确定为降噪参考音频；

对应地，所述基于所述唤醒音频确定所述目标方向，具体为：

基于所述降噪参考音频对所述唤醒音频进行自适应滤波算法处理获得降噪唤醒音频，基于所述降噪唤醒音频确定所述目标方向。

可选的，所述基于所述降噪参考音频对所述唤醒音频进行自适应滤波算法处理获得降噪唤醒音频，包括：

提取所述降噪参考音频的状态噪声信息；

基于所述状态噪声信息对所述唤醒音频进行自适应滤波算法处理获得所述降噪唤醒音频。

可选的，还包括：

获得多路待识别音频；

将所述多路待识别音频中对应所述目标方向的待识别音频确定为目标方向待识别音频；

基于预设时间内所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量，强降噪处理所述目标方向待识别音频获得强降噪目标方向待识别音频；所述主波束方向为所述目标方向。

可选的，所述基于预设时间内所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量，强降噪处理所述目标方向待识别音频获得强降噪目标方向待识别音频，包括：

基于预设时间内所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量，获得所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量差异；

若所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量差异大于等于第二预设频谱能量差异，剔除所述目标方向待识别音频中所述非主波束方向的待识别音频，获得所述强降噪目标方向待识别音频。

可选的，所述方法还包括：

基于所述基于所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频对应的用户音频特点，调整所述预设时间和/或所述第二预设频谱能量差异。

第二方面，本申请实施例提供了一种车载多音区语音处理的装置，所述装置包括：

位置信息获得单元，用于获得各个车载座椅传感器检测的位置信息，所述位置信息包括至少一个位置方向；

多路音频获得单元，用于对多路麦克风音频进行回声消除处理和窄波束算法处理获得多路音频；

目标方向确定单元，用于基于所述位置信息和所述多路音频，确定语音识别的目标方向。

可选的，所述第一确定单元包括：

第一确定子单元，用于当所述位置信息只包括一个位置方向时，若所述多路音频中对应所述位置方向的音频触发唤醒回调，将所述位置方向确定为所述目标方向；

第二确定子单元，用于当所述位置信息包括多个位置方向时，将所述多路音频中对应所述多个位置方向中每个位置方向的音频中触发唤醒回调的音频确定为唤醒音频，基于所述唤醒音频确定所述目标方向。

可选的，所述第二确定子单元包括：

第一确定模块，用于当所述唤醒音频为一路唤醒音频时，将所述唤醒音频对应的位置方向确定为所述目标方向；

第二确定模块，用于当所述唤醒音频为多路唤醒音频时，基于所述多路唤醒音频中每路唤醒音频的唤醒得分和频谱能量，从所述多路唤醒音频中确定目标唤醒音频，将所述目标唤醒音频对应的位置方向确定为所述目标方向。

可选的，所述第二确定模块包括：

第一确定子模块，用于确定所述多路唤醒音频中最高唤醒得分和最高频谱能量对应的唤醒音频分别为第一唤醒音频和第二唤醒音频；

第二确定子模块，用于当所述第一唤醒音频与所述第二唤醒音频的唤醒得分差异大于预设唤醒得分差异且频谱能量差异小于第一预设频谱能量差异时，将所述第一唤醒音频确定为所述目标唤醒音频；

第三确定子模块，用于当所述第一唤醒音频与所述第二唤醒音频的唤醒得分差异小于等于所述预设唤醒得分差异或频谱能量差异大于等于所述第一预设频谱能量差异时，将所述第二唤醒音频确定为所述目标唤醒音频。

可选的，所述装置还包括：

第二确定单元，用于当位置信息包括的多个位置方向的数量小于车内各个位置方向的数量时，将所述多路音频中对应车内各个位置方向中除所述多个位置方向之外的每个其他位置方向的音频确定为降噪参考音频；

对应地，所述第二确定子单元具体用于：

可选的，所述第二确定子单元包括：

提取模块，用于提取所述降噪参考音频的状态噪声信息；

获得模块，用于基于所述状态噪声信息对所述唤醒音频进行自适应滤波算法处理获得所述降噪唤醒音频。

可选的，所述装置还包括：

第三获得单元，用于获得多路待识别音频；

第三确定单元，用于将所述多路待识别音频中对应所述目标方向的待识别音频确定为目标方向待识别音频；

第四获得单元，用于基于预设时间内所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量，强降噪处理所述目标方向待识别音频获得强降噪目标方向待识别音频；所述主波束方向为所述目标方向。

可选的，所述第四获得单元包括：

第一获得子单元，用于基于预设时间内所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量，获得所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量差异；

第二获得子单元，用于若所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量差异大于等于第二预设频谱能量差异，剔除所述目标方向待识别音频中所述非主波束方向的待识别音频，获得所述强降噪目标方向待识别音频。

可选的，所述装置还包括：

调整单元，用于基于所述基于所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频对应的用户音频特点，调整所述预设时间和/或所述第二预设频谱能量差异。

第三方面，本申请实施例提供了一种终端设备，所述终端设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述第一方面任一项所述的车载多音区语音处理的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面任一项所述的车载多音区语音处理的方法。

与现有技术相比，本申请至少具有以下优点：

采用本申请实施例的技术方案，通过各个车载座椅传感器检测得到包括至少一个位置方向的位置信息；利用回声消除技术和窄波束算法处理多路麦克风音频得到多路音频；结合位置信息和多路音频综合确定语音识别的目标方向。由此可见，在多路音频的基础上，将各个车载座椅传感器检测得到位置信息作为辅助信息，综合确定语音识别的目标方向，能够有效避免恶劣语音唤醒场景下车载多音区语音交互过程中语音唤醒时的声源定位干扰，以提高车载多音区语音交互过程中语音唤醒时声源定位的准确性，从而实现更精准的车载多音区语音交互，提升车载多音区语音交互的用户体验。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种应用场景所涉及的***框架示意图；

图2为本申请实施例提供的一种车载多音区语音处理的方法的流程示意图；

图3为本申请实施例提供的另一种车载多音区语音处理的方法的流程示意图；

图4为本申请实施例提供的一种车载多音区语音处理的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前车载多音区语音交互过程中，在对多路麦克风音频进行回声消除处理和窄波束算法处理得到多路音频后，基于多路音频进行语音唤醒和语音识别。当多路音频中存在触发唤醒回调的音频，在语音唤醒时进行声源定位确定语音识别的方向，以便后续进行定向语音识别。但是，发明人经过研究发现，在恶劣语音唤醒场景下，例如，目标方向上的用户与车载设备进行语音交互时，目标方向对应的唤醒音频泄露到其他方向，该唤醒音频在其他方向上混合噪声对应的音频干扰目标方向对应的唤醒音频，导致语音唤醒时极其容易发生声源定位干扰，语音唤醒时声源定位出错大大降低声源定位的准确性，严重影响车载多音区语音交互的效果，从而影响车载多音区语音交互的用户体验。

为了解决这一问题，在本申请实施例中，通过各个车载座椅传感器检测得到包括至少一个位置方向的位置信息；利用回声消除技术和窄波束算法处理多路麦克风音频得到多路音频；结合位置信息和多路音频综合确定语音识别的目标方向。可见，在多路音频的基础上，将各个车载座椅传感器检测得到位置信息作为辅助信息，综合确定语音识别的目标方向，能够有效避免恶劣语音唤醒场景下车载多音区语音交互过程中语音唤醒时的声源定位干扰，以提高车载多音区语音交互过程中语音唤醒时声源定位的准确性，从而实现更精准的车载多音区语音交互，提升车载多音区语音交互的用户体验。

举例来说，本申请实施例的场景之一，可以是应用到如图1所示的场景中，该场景包括车载座椅传感器101、车载麦克风102和车载多音区语音交互***103。当车载座椅上有用户时，车载座椅传感器101可以检测到位置信息并发送至车载多音区语音交互***103；当车内用户说话时，车载麦克风102拾取多路麦克风音频发送至车载多音区语音交互***103；车载多音区语音交互***103采用本申请实施例的实施方式确定语音识别的目标方向，后续以目标方向进行定向语音识别。

可以理解的是，在上述应用场景中，虽然将本申请实施方式的动作描述由车载多音区语音交互系103执行，但是，本申请在执行主体方面不受限制，只要执行了本申请实施方式所公开的动作即可。

可以理解的是，上述场景仅是本申请实施例提供的一个场景示例，本申请实施例并不限于此场景。

下面结合附图，通过实施例来详细说明本申请实施例中车载多音区语音处理的方法和相关装置的具体实现方式。

示例性方法

参见图2，示出了本申请实施例中一种车载多音区语音处理的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤201：获得各个车载座椅传感器检测的位置信息，所述位置信息包括至少一个位置方向。

需要说明的是，在恶劣语音唤醒场景下，例如，当主驾方向上的用户与车载设备进行语音交互时，若主驾方向对应的唤醒音频泄露到副驾方向，该唤醒音频在副驾方向上混合噪声干扰主驾方向对应的唤醒音频，导致在语音唤醒时极其容易发生声源定位干扰，车载多音区语音交互***有可能定位语音识别的方向为副驾方向；即，恶劣语音唤醒场景下语音唤醒时声源定位出错，大大降低声源定位的准确性，严重影响车载多音区语音交互的效果，从而影响车载多音区语音交互的用户体验。因此，在本申请实施例中，为了避免目标方向的唤醒音频泄露到其他方向对语音唤醒时的声源定位干扰，可以考虑判断车内各个位置方向上是否有用户，即车内各个车载座椅上是否有用户，通过判断结果排除无用户的位置方向对应的音频对语音唤醒时的声源定位干扰。

具体地，车内各个车载座椅下均安装有传感器，称为车载座椅传感器，当车载座椅上有用户时，车载座椅传感器可以检测到位置信息发送至车载多音区语音交互***，该位置信息包括其对应的车载座椅所在的位置方向，简称为位置方向；当车载座椅上无用户时，车载座椅传感器无法检测到位置信息发送至车载多音区语音交互***。当车内的各个车载座椅中只有一个车载座椅上有用户，车载多音区语音交互***获得的各个车载座椅传感器检测的位置信息是指只有一个车载座椅传感器检测到的位置信息，则该位置信息只包括一个位置方向；当车内的各个车载座椅中多个车载座椅上均有用户，车载多音区语音交互***获得的各个车载座椅传感器检测的位置信息是指多个车载座椅传感器检测到的位置信息，则该位置信息包括多个位置方向。

作为步骤201的一种示例，以车载四音区语音交互为例，车内各个车载座椅分别为主驾车载座椅、副驾车载座椅、后排左侧车载座椅和后排右侧车载座椅，依次对应的各个车载座椅传感器分别为主驾车载座椅传感器、副驾车载座椅传感器、后排左侧车载座椅传感器和后排右侧车载座椅传感器。主驾车载座椅、副驾车载座椅、后排左侧车载座椅和后排右侧车载座椅上有用户对应的车载座椅传感器可以检测到位置信息发送至车载多音区语音交互***，该位置信息包括其对应的车载座椅所在的位置方向，比如，主驾方向、副驾方向、后排左侧方向或者后排右侧方向。

步骤202：对多路麦克风音频进行回声消除处理和窄波束算法处理获得多路音频。

需要说明的是，当车内用户说话时，车载麦克风可以拾取多路麦克风音频发送至车载多音区语音交互***，首先可以通过回声消除技术处理多路麦克风音频，以消除多路麦克风音频中的***回声，然后可以通过窄波束算法再进行处理，实现音频降噪的同时实现音频分离获得多路音频，使得多路音频中任意一路音频尽可能包括其主波束方向的音频。多路音频与车内各个位置方向一一对应。

作为步骤202的一种示例，在上述步骤201的示例的基础上，车载麦克风拾取并发送至车载多音区语音交互***的多路麦克风音频为主驾麦克风音频、副驾麦克风音频、后排左侧麦克风音频和后排右侧麦克风音频，对其进行回声消除处理和窄波束算法处理获得多路音频为主驾音频、副驾音频、后排左侧音频和后排右侧音频。

步骤203：基于所述位置信息和所述多路音频，确定语音识别的目标方向。

需要说明的是，在上述步骤201-步骤202的基础上，确定语音识别的目标方向时，不仅仅在语音唤醒时基于多路音频进行声源定位，还需要将能够表示车内各个位置方向上是否有用户的位置信息作为辅助信息，综合确定语音识别的目标方向。该方式能够有效避免恶劣语音唤醒场景下车载多音区语音交互过程中语音唤醒时的声源定位干扰，以提高车载多音区语音交互过程中语音唤醒时声源定位的准确性，从而实现更精准的车载多音区语音交互，提升车载多音区语音交互的用户体验。

在具体应用中，车载多音区语音交互***获得各个车载座椅传感器检测的位置信息可能只包括一个位置方向，也可能包括多个位置方向。当步骤201获得的位置信息只包括一个位置方向时，表示车内各个车载座椅中只有一个车载座椅上有用户，即，只有该位置方向可能为语音识别的目标方向，车内各个位置方向中除该位置方向之外的其他位置方向必然不可能为语音识别的目标方向；此时，只需要判断步骤202获得多路音频中对应该位置方向的音频是否触发唤醒回调，音频触发唤醒回调表示音频包括的唤醒词，即，音频为能够实现语音唤醒的唤醒音频，则将该位置方向确定语音识别的目标方向。当步骤201获得的位置信息包括多个位置方向时，表示车内各个车载座椅中多个车载座椅上均有用户，即，多个位置方向中任意一个位置方向可能为语音识别的目标方向，此时，首先需要判断多路音频中对应多个位置方向中每个位置方向的音频是否触发唤醒回调，触发唤醒回调的音频即可确定为唤醒音频，然后需要在确定出的唤醒音频的基础上进行声源定位确定语音识别的目标方向。因此，在本申请实施例一种可选的实施方式中，所述步骤203例如可以包括以下步骤：

步骤A：当所述位置信息只包括一个位置方向时，若所述多路音频中对应所述位置方向的音频触发唤醒回调，将所述位置方向确定为所述目标方向。

作为一种示例，在上述步骤201-步骤202示例的基础上，当位置信息只包括主驾方向，且判断得到多路音频中对应主驾方向的主驾音频触发唤醒回调时，即可将主驾方向直接确定为语音识别的目标方向。

步骤B：当所述位置信息包括多个位置方向时，将所述多路音频中对应所述多个位置方向中每个位置方向的音频中触发唤醒回调的音频确定为唤醒音频，基于所述唤醒音频确定所述目标方向。

其中，位置信息包括的多个位置方向的数量可能小于车内各个位置方向的数量，也可能等于车内各个位置方向的数量。作为一种示例，在上述步骤201的示例的基础上，位置信息包括主驾方向、副驾方向、后排左侧方向和后排右侧方向中任意两个位置方向或三个位置方向。作为另一种示例，在上述步骤201的示例的基础上，位置信息包括主驾方向、副驾方向、后排左侧方向和后排右侧方向共四个位置方向。

当位置信息包括的多个位置方向的数量小于车内各个位置方向的数量时，需要先在多路音频中筛选出对应多个位置方向中每个位置方向的音频，再判断筛选出的每个音频是否触发唤醒回调以确定唤醒音频；而当位置信息包括的多个位置方向的数量等于车内各个位置方向的数量时，直接判断多路音频中每个音频是否触发唤醒回调以确定唤醒音频。

上述步骤B中确定出的唤醒音频可能是一路唤醒音频，也可能是多路唤醒音频；当唤醒音频为一路唤醒音频时，表示只有该唤醒音频能够实现语音唤醒，即，只有该唤醒音频对应的位置方向为语音识别的目标方向，则语音唤醒时的声源定位是指将该唤醒音频对应的位置方向直接确定为语音识别的目标方向；当唤醒音频为多路唤醒音频时，多路唤醒音频中每路唤醒音频可能实现语音唤醒，即，多路唤醒音频中每路唤醒音对应的位置方向可能为语音识别的目标方向，此时，语音唤醒时的声源定位是指比较多路唤醒音频中不同唤醒音频的唤醒得分和频谱能量，确定其中一路唤醒音频为目标唤醒音频，从而将其对应的位置方向确定为语音识别的目标方向。其中，唤醒音频的唤醒得分是基于唤醒音频包括的唤醒词和预设唤醒词的匹配度确定的，其反映唤醒音频的频谱特征，唤醒音频的频谱能量是基于唤醒音频的频谱信息计算得到的，其反映唤醒音频的能量特征，综合两者可以实现声源定位。因此，在本申请实施例一种可选的实施方式中，所述步骤B中基于所述唤醒音频确定所述目标方向的步骤，例如可以包括以下步骤：

步骤B1：当所述唤醒音频为一路唤醒音频时，将所述唤醒音频对应的位置方向确定为所述目标方向。

作为一种示例，在上述步骤201的示例的基础上，当位置信息包括主驾方向和副驾方向，多路音频中对应主驾方向的主驾音频和对应副驾方向的副驾音频中，主驾音频触发唤醒回调，副驾音频无法触发唤醒回调，即，唤醒音频为主驾音频，则将主驾音频对应的主驾方向直接确定为语音识别的目标方向。

步骤B2：当所述唤醒音频为多路唤醒音频时，基于所述多路唤醒音频中每路唤醒音频的唤醒得分和频谱能量，从所述多路唤醒音频中确定目标唤醒音频，将所述目标唤醒音频对应的位置方向确定为所述目标方向。

步骤B2具体实施时，首先，可以基于每路唤醒音频的唤醒得分和频谱能量，确定最高唤醒得分对应的唤醒音频和最高频谱能量对应的唤醒音频；然后，比较上述两路唤醒音频的唤醒得分得到唤醒得分差异，以及比较上述两路唤醒音频的频谱能量得到频谱能量差异；最后，基于预设唤醒得分差异衡量上述唤醒得分差异的大小，以及基于第一预设频谱能量差异上述衡量频谱能量差异的大小，由于频谱能量差异相较于唤醒得分差异在声源定位时更值得信任，则参照如下表格确定最高唤醒得分对应的唤醒音频还是最高频谱能量对应的唤醒音频为目标唤醒音频。

唤醒得分差异	频谱能量差异	目标唤醒音频
			大	大	最高频谱能量对应的唤醒音频
大	小	最高唤醒得分对应的唤醒音频
			小	大	最高频谱能量对应的唤醒音频
小	小	最高频谱能量对应的唤醒音频

因此，在本申请实施例一种可选的实施方式中，所述步骤B2中基于所述多路唤醒音频中每路唤醒音频的唤醒得分和频谱能量，从所述多路唤醒音频中确定目标唤醒音频的步骤，例如可以包括以下步骤：

步骤B21：确定所述多路唤醒音频中最高唤醒得分和最高频谱能量对应的唤醒音频分别为第一唤醒音频和第二唤醒音频；

步骤B22：当所述第一唤醒音频与所述第二唤醒音频的唤醒得分差异大于预设唤醒得分差异且频谱能量差异小于第一预设频谱能量差异时，将所述第一唤醒音频确定为所述目标唤醒音频；

步骤B23：当所述第一唤醒音频与所述第二唤醒音频的唤醒得分差异小于等于所述预设唤醒得分差异或频谱能量差异大于等于所述第一预设频谱能量差异时，将所述第二唤醒音频确定为所述目标唤醒音频。

作为一种示例，第一唤醒音频为最高唤醒得分对应的唤醒音频，其唤醒得分为A₁，频谱能量为E₁；第二唤醒音频为最高频谱能量对应的唤醒音频，其唤醒得分为A₂，频谱能量为E₂；则第一唤醒音频与第二唤醒音频的唤醒得分差异为(A₁-A₂+0.01)/(A₁+0.01)，第一唤醒音频与所述第二唤醒音频的频谱能量差异为(E₂-E₁+0.01)/(E₂+0.01)。预设唤醒得分差异为0.13，第一预设频谱能量差异为0.19，当(A₁-A₂+0.01)/(A₁+0.01)＞0.13且(E₂-E₁+0.01)/(E₂+0.01)＜0.19时，将第一唤醒音频确定为目标唤醒音频；当(A₁-A₂+0.01)/(A₁+0.01)≤0.13或(E₂-E₁+0.01)/(E₂+0.01)≥0.19时，将第二唤醒音频确定为目标唤醒音频。

还需要说明的是，当位置信息包括的多个位置方向的数量小于车内各个位置方向的数量时，车内各个位置方向中除上述多个位置方向之外的其他位置方向(简称为其他位置方向)必然不可能为语音识别的目标方向，则可以将多路音频中对应其他位置方向的音频确定为降噪参考音频，通过降噪参考音频利用自适应滤波算法对唤醒音频进行二次降噪，得到二次降噪后的唤醒音频，记为降噪唤醒音频，基于降噪唤醒音频确定语音识别的目标方向。因此，在本申请实施例一种可选的实施方式中，还包括步骤C：当位置信息包括的多个位置方向的数量小于车内各个位置方向的数量时，将所述多路音频中对应车内各个位置方向中除所述多个位置方向之外的每个其他位置方向的音频确定为降噪参考音频；对应地，所述步骤B基于所述唤醒音频确定所述目标方向的步骤，例如具体可以为：基于所述降噪参考音频对所述唤醒音频进行自适应滤波算法处理获得降噪唤醒音频，基于所述降噪唤醒音频确定所述目标方向。

具体地，通过降噪参考音频利用自适应滤波算法对唤醒音频进行二次降噪，是指先提取降噪参考音频的状态噪声信息，再依据该状态噪声信息利用自适应滤波算法对唤醒音频进行二次降噪。即，在本申请实施例一种可选的实施方式中，所述步骤B中基于所述降噪参考音频对所述唤醒音频进行自适应滤波算法处理获得降噪唤醒音频的步骤，例如可以包括以下步骤：

步骤B3：提取所述降噪参考音频的状态噪声信息；

步骤B4：基于所述状态噪声信息对所述唤醒音频进行自适应滤波算法处理获得所述降噪唤醒音频。

通过本实施例提供的各种实施方式，通过各个车载座椅传感器检测得到包括至少一个位置方向的位置信息；利用回声消除技术和窄波束算法处理多路麦克风音频得到多路音频；结合位置信息和多路音频综合确定语音识别的目标方向。由此可见，在多路音频的基础上，将各个车载座椅传感器检测得到位置信息作为辅助信息，综合确定语音识别的目标方向，能够有效避免恶劣语音唤醒场景下车载多音区语音交互过程中语音唤醒时的声源定位干扰，以提高车载多音区语音交互过程中语音唤醒时声源定位的准确性，从而实现更精准的车载多音区语音交互，提升车载多音区语音交互的用户体验。

还需要说明的是，在确定语音识别的目标方向后，若目标方向上用户和非目标方向上用户同时说话，语音识别过程中的多路待识别音频是通过回声消除技术和窄波束算法处理获得的，由于窄波束算法可能存在泄漏问题，多路待识别音频中与目标方向对应的待识别音频既包括目标方向上用户的音频也包括非目标方向上用户的音频，容易导致语音识别出现识别串扰，大大降低语音识别的准确性，严重影响车载多音区语音交互的效果，从而影响车载多音区语音交互的用户体验。因此，在上述实施例的基础上，当获得多路待识别音频后，需要将多路待识别音频中对应目标方向的待识别音频作为目标方向待识别音频，依据目标方向待识别音频中一段时间内主波束方向和非主波束方向的待识别音频的频谱能量大小，对目标方向待识别音频进行强降噪处理，降低语音识别出现识别串扰的风险，提高语音识别的准确性，以提高车载多音区语音交互的效果，从而提升车载多音区语音交互的用户体验。

参见图3，示出了本申请实施例中另一种车载多音区语音处理的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤301：获得各个车载座椅传感器检测的位置信息，所述位置信息包括至少一个位置方向。

步骤302：对多路麦克风音频进行回声消除处理和窄波束算法处理获得多路音频。

步骤303：基于所述位置信息和所述多路音频，确定语音识别的目标方向。

需要说明的是，本实施例中步骤301-步骤303与上述实施例中步骤201-步骤203相同，步骤301-步骤303的具体实施方式可参见上述实施例中步骤201-步骤203具体实施方式，在此不再赘述。

步骤304：获得多路待识别音频。

步骤305：将所述多路待识别音频中对应所述目标方向的待识别音频确定为目标方向待识别音频。

作为一种步骤304-步骤305的示例，语音识别的目标方向为主驾方向，获得多路待识别音频为主驾待识别音频和副驾待识别音频，基于主驾方向确定多路待识别音频中目标方向待识别音频为主驾待识别音频。

步骤306：基于预设时间内所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量，强降噪处理所述目标方向待识别音频获得强降噪目标方向待识别音频；所述主波束方向为所述目标方向。

具体地，需要计算预设时间内目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量差异，利用第二预设频谱能量差异衡量该频谱能量差异的大小，该频谱能量差异较大时表示目标方向待识别音频中非主波束方向的待识别音频是窄波束算法处理后残留的干扰音频，需要将其剔除，从而得到实际需要进行语音识别的强降噪目标方向待识别音频。因此，在本申请实施例一种可选的实施方式中，所述步骤306例如可以包括以下步骤：

步骤D：基于预设时间内所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量，获得所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量差异；

步骤E：若所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量差异大于等于第二预设频谱能量差异，剔除所述目标方向待识别音频中所述非主波束方向的待识别音频，获得所述强降噪目标方向待识别音频。

作为一种示例，在上述步骤304-步骤305的示例的基础上，一段时间内主驾待识别音频中主驾方向和副驾方向的待识别音频的频谱能量差异大于等于第二预设频谱能量差异，剔除主驾待识别音频中副驾方向的待识别音频，获得强降噪主驾待识别音频。

还需要说明的是，由于目标方向待识别音频中主波束方向和非主波束方向的待识别音频对应的用户不同，其用户音频特点不同，因此，需要依据用户音频特点动态调整用于表示主波束方向和非主波束方向的待识别音频的频谱能量的比对时长的预设时间，以及用于衡量该频谱能量差异的大小的第二预设频谱能量差异。即，在本申请实施例一种可选的实施方式中，在步骤306之前例如还可以包括步骤F：基于所述基于所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频对应的用户音频特点，调整所述预设时间和/或所述第二预设频谱能量差异。

通过本实施例提供的各种实施方式，通过各个车载座椅传感器检测得到包括至少一个位置方向的位置信息；利用回声消除技术和窄波束算法处理多路麦克风音频得到多路音频；结合位置信息和多路音频综合确定语音识别的目标方向。先依据目标方向确定多路待识别音频中目标方向待识别音频，再依据其中主波束方向和非主波束方向的待识别音频的频谱能量进行强降噪处理，获得强降噪目标方向待识别音频。由此可见，在多路音频的基础上，将各个车载座椅传感器检测得到位置信息作为辅助信息，综合确定语音识别的目标方向，能够有效避免恶劣语音唤醒场景下车载多音区语音交互过程中语音唤醒时的声源定位干扰；且通过对应目标方向的待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量大小，对其进行强降噪处理，减少语音识别出现识别串扰的风险，以提高车载多音区语音交互过程中语音唤醒时声源定位的准确性，从而实现更精准的车载多音区语音交互，提升车载多音区语音交互的用户体验。

示例性装置

参见图4，示出了本申请实施例中一种车载多音区语音处理的装置的结构示意图。在本实施例中，所述装置例如具体可以包括：

第一获得单元401，用于获得各个车载座椅传感器检测的位置信息，所述位置信息包括至少一个位置方向；

第二获得单元402，用于对多路麦克风音频进行回声消除处理和窄波束算法处理获得多路音频；

第一确定单元403，用于基于所述位置信息和所述多路音频，确定语音识别的目标方向。

在本申请实施例一种可选的实施方式中，所述第一确定单元403包括：

在本申请实施例一种可选的实施方式中，所述第二确定子单元包括：

在本申请实施例一种可选的实施方式中，所述第二确定模块包括：

在本申请实施例一种可选的实施方式中，所述装置还包括：

对应地，所述第二确定子单元具体用于：

提取模块，用于提取所述降噪参考音频的状态噪声信息；

在本申请实施例一种可选的实施方式中，所述装置还包括：

第三获得单元，用于获得多路待识别音频；

在本申请实施例一种可选的实施方式中，所述第四获得单元包括：

在本申请实施例一种可选的实施方式中，所述装置还包括：

通过本实施例提供的各种实施方式，车载多音区语音处理的装置包括第一获得单元、第二获得单元和第一确定单元；其中，第一获得单元通过各个车载座椅传感器检测得到包括至少一个位置方向的位置信息；第二获得单元利用回声消除技术和窄波束算法处理多路麦克风音频得到多路音频；第一确定单元结合位置信息和多路音频综合确定语音识别的目标方向。由此可见，在多路音频的基础上，将各个车载座椅传感器检测得到位置信息作为辅助信息，综合确定语音识别的目标方向，能够有效避免恶劣语音唤醒场景下车载多音区语音交互过程中语音唤醒时的声源定位干扰，以提高车载多音区语音交互过程中语音唤醒时声源定位的准确性，从而实现更精准的车载多音区语音交互，提升车载多音区语音交互的用户体验。

此外，本申请实施例还提供了一种终端设备，所述终端设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行上述方法实施例所述的车载多音区语音处理的方法。

本申请实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述方法实施例所述的车载多音区语音处理的方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请。任何熟悉本领域的技术人员，在不脱离本申请技术方案范围情况下，都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本申请技术方案的内容，依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本申请技术方案保护的范围内。

Claims

1.一种车载多音区语音处理的方法，其特征在于，包括：

当所述位置信息只包括一个位置方向时，若所述多路音频中对应所述位置方向的音频触发唤醒回调，将所述位置方向确定为目标方向；

当所述位置信息包括多个位置方向时，将所述多路音频中对应所述多个位置方向中每个位置方向的音频中触发唤醒回调的音频确定为唤醒音频；

2.根据权利要求1所述的方法，其特征在于，所述基于所述多路唤醒音频中每路唤醒音频的唤醒得分和频谱能量，从所述多路唤醒音频中确定目标唤醒音频，包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述降噪参考音频对所述唤醒音频进行自适应滤波算法处理获得降噪唤醒音频，包括：

提取所述降噪参考音频的状态噪声信息；

5.根据权利要求1所述的方法，其特征在于，还包括：

获得多路待识别音频；

6.根据权利要求5所述的方法，其特征在于，所述基于预设时间内所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱能量，强降噪处理所述目标方向待识别音频获得强降噪目标方向待识别音频，包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

基于所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频对应的用户音频特点，调整所述预设时间和/或所述第二预设频谱能量差异。

8.一种车载多音区语音处理的装置，其特征在于，包括：

目标方向确定单元，用于基于所述位置信息和所述多路音频，确定语音识别的目标方向；

所述目标方向确定单元包括：

第二确定子单元，用于当所述位置信息包括多个位置方向时，将所述多路音频中对应所述多个位置方向中每个位置方向的音频中触发唤醒回调的音频确定为唤醒音频，基于所述唤醒音频确定所述目标方向；

所述第二确定子单元包括：

9.一种终端设备，其特征在于，所述终端设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的车载多音区语音处理的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-7任一项所述的车载多音区语音处理的方法。