CN106531179B

CN106531179B - 一种基于语义先验的选择性注意的多通道语音增强方法

Info

Publication number: CN106531179B
Application number: CN201510574907.3A
Authority: CN
Inventors: 付强; 王晓飞; 国雁萌; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2015-09-10
Filing date: 2015-09-10
Publication date: 2019-08-20
Anticipated expiration: 2035-09-10
Also published as: CN106531179A

Abstract

本发明提供了一种基于语义先验的选择性注意的多通道语音增强方法，所述方法包括：多传声器阵列拾取来自于混响环境中的任意方向的语音信号，采集多路语音信号并进行预处理；利用激活词语音识别模型检测预处理后的语音信号中存在的特定激活词；对未经切割的包含激活词段的信号进行处理得到完整的激活词段；采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析，得到目标声源的声波到达方向；对该方向的语音进行增强，并抑制其它方向的噪声以及远讲场景下的房间混响，获取得到目标方向的增强语音。本方明的方法可用于智能家电、智能家居、车载和可穿戴设备等需要远讲式语音输入和交互的场合，特别适用于复杂的声学噪声和干扰环境场合。

Description

一种基于语义先验的选择性注意的多通道语音增强方法

技术领域

本发明涉及语音处理领域，特别涉及一种基于语义先验的选择性注意的多通道语音增强方法。

背景技术

随着语音通信和人机语音交互***的不断普及，人们越来越期待抛开话筒和耳机等繁琐的设备，实现类似人类对话一般自然的人机语音交流。然而，语音是一种声波，在空气中传输时会受到各种影响，例如声波的衰减，墙壁和障碍物的多次反射(混响)，同时存在的其它声源以及环境噪声等。当多个语音***和多个说话人处于同一环境时，如何确保***正确接收语音信息，更决定了语音***能否走向实用。语音增强是一种复杂噪声环境中有效的提取目标语音信号的手段，分为单通道语音增强和多通道语音增强。

单通道语音增强主要利用语音和噪声在时频域分布的差异而实现噪声消除。单通道语音增强的两个核心问题是噪声估计和先验信噪比估计；前者是降低噪声的关键因素，而后者则关系到残留"音乐噪声"的程度。单通道增强算法在很多情况下能够显著提高信噪比，尤其对平稳噪声(白噪声,车噪等)有较好的消除效果。

多通道语音增强利用了传声器阵列拾取空间信息的能力，可以结合时域，频域以及空间信息，获得带有空间区分性的接收能力。通常，多通道语音增强需要先验的到达方位角信息，从而形成可靠的导向矢量，利用空余滤波理论，对来自非目标方向的干扰声加以抑制，相对于单通道语音增强来说，多通道语音增强具备更好的噪声抑制的能力。

人类听觉之所以能处理多声源和有混响的问题，甚至还能在多人说话时检测和跟踪自己感兴趣的语音，主要原因是人类听觉具有特定的选择注意能力。当人类对某种目标声音感兴趣时，能够根据具体任务和环境，选取目标语音与周围声音最有区分性的特征，并根据先验知识进行比对和筛选，排除干扰声音并获得目标语音。

对语音应用而言，日常家居、车载和户外等实际场景中可能存在的噪声或干扰是多方面的。而现有的语音增强或者分离方法，都很难达到对目标语音无失真拾取，而同时消除或抑制非目标信号的目的，特别是在多个相干声源同时存在、混响较大和低信噪比情况下。

基于多通道(传声器阵列)的语音增强利用多个传声器收到信号的幅度和相位差，可以对目标方向的信号形成空间选择性，使得波束成形(Beamforming,BM)、空间活动性检测(Directive speech activity detection，DSAD)算法指向目标方向，从而抑制或者拒绝非目标方向的干扰信号。但目标声源的波达方向(DOA)依然无法事先知道。在单声源假设下，可以用声源定位(Source Location，SL)技术确定目标声源的DOA，然而实际应用环境中，这种假设很难满足。绝大多数情况下，会同时存在多个声源，且个数未知。在有房间反射的混响场，情况会更复杂，导致目标声源的噪声过大。

发明内容

本发明的目的在于克服目前多通道语音增强方法存在的上述缺陷，将基于语义的声源识别和基于信号处理的声源定位技术相结合，融合传声器阵列的“空间滤波”特性，提出了一种基于语义先验的选择性注意的多通道语音增强方法，可以有效克服噪声和干扰。

为了实现上述目的，本发明提供了一种基于语义先验的选择性注意的多通道语音增强方法，所述方法包括：多传声器阵列拾取来自于混响环境中的任意方向的语音信号，采集多路语音信号并进行预处理；利用激活词语音识别模型检测预处理后的语音信号中存在的特定激活词；对未经切割的包含激活词段的信号进行处理得到完整的激活词段；采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行处理，得到目标声源的声波到达方向；对该方向的语音进行增强，并抑制其它方向的噪声以及远讲场景下的房间混响，获取得到目标方向的增强语音。

上述技术方案中，所述具体方法包括：

步骤1)多传声器阵列拾取来自于混响环境中的任意方向的语音信号，采集多路语音信号；

步骤2)对步骤1)采集的多路语音信号进行预处理；

步骤3)利用激活词语音识别模型检测预处理后的语音信号中是否存在特定的激活词；如果检测结果是肯定的，保留未经切割的包含激活词段的信号，进入步骤4)；否则，转入步骤1)；

步骤4)对未经切割的包含激活词段的信号进行语音活动性检测得到完整的激活词段；采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析，得到目标声源的声波到达方向；对该方向的语音进行增强，并抑制残余方向性噪声和来自于环境的扩散噪声以及远讲场景下的房间混响，获取到目标方向的增强语音。

上述技术方案中，所述步骤2)的具体过程为：如果多路语音信号中存在声学回波，对拾取到的多路语音信号进行回波抵消、抑制扩散背景噪声以及增益控制；否则，只对多路语音信号进行扩散背景噪声抑制和增益控制。

上述技术方案中，所述步骤3)中的利用激活词语音识别模型检测预处理后的语音信号中是否存在特定的激活词的具体过程为：根据先验的大量激活词数据或特定说话人的数据，训练得到说话人相关或者说话人无关的激活词语音识别模型；采用识别解码策略对激活词内容进行检测并计算置信度,从而完成分类判别，将语音识别和关键词检索算法相结合,实现对激活词的检测。

上述技术方案中，所述步骤4)具体包括：

步骤4-1)通过语音活动性检测将激活词的起点和尾点检出，获取完整的多通道激活词段；

步骤4-2)采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析；得到目标声源的声波到达方向信息，即获取到发出该特定语义的目标说话人方向；根据声波到达方向信息，对该方向的语音进行增强；

步骤4-3)采用多通道后滤波进一步抑制残余方向性噪声和来自于环境的扩散噪声以及远讲场景下的房间混响，获取得到目标方向的增强语音。

上述技术方案中，所述步骤4-2)具体包括：

步骤4-2-1)将激活词段变换到时频域，在每个频点上，分别对信号的相干部分和非相干部分进行跟踪；

步骤4-2-2)统计被直达声占据的时频点；

步骤4-2-3)在被直达声占据的时频点上，在低频无空间混叠部分得到信号到达时差的分布；

步骤4-2-4)在高频部分，根据低频得到的信号到达时差信息，去除空间混叠的影响，获取全频带的信号到达时差信息；继而获取声波到达方向信息；

步骤4-2-5)根据声波到达方向信息，对该方向的语音进行增强。

上述技术方案中，所述步骤4-2-5)中对语音进行增强的方式有两种：

第一种方式：根据声波到达方向信息，采用波束形成方法对已知方向语音进行增强，抑制来自于其他方向的相干性声源；

第二种方式：利用该已知方向进行空间目标语音信号检测，接受来自于目标区域的语音，拒绝来自于其他方向的声源。

本发明的优点在于：

1、本方明的方法可用于智能家电、智能家居、车载和可穿戴设备等需要远讲式语音输入和交互的场合，特别适用于复杂的声学噪声和干扰环境场合；

2、本发明的方法能够在远讲免提(far-field hands-free)条件下有选择性地拾取目标信号，抑制干扰和噪声。

附图说明

图1为本发明的基于语义先验的选择性注意的多通道语音增强方法的流程图；

图2为本发明的利用已知方向进行空间目标语音信号检测的流程图。

具体实施方式

目标语音区分于其它声音的特征有很多，而要充分利用这类特征进行检测，则需优先考虑先验知识最多和最可靠的特征。例如，当扬声器播放声音时，与扬声器声音相关的声音都可以认为是回声干扰；如果目标语音的语义已知，那么语义就是明显的区分性特征；如果目标语音的声波到达方向(Direction of Arrival,DOA)已知，那么通过检测DOA信息可以用于去除大量无关声音。通过对各种区分性信息的检测和比较，最终可以抑制声音的影响，并从混合声音中筛选出目标语音段。

下面结合附图对本发明进行详细描述。

如图1所示，一种基于语义先验的选择性注意的多通道语音增强方法，所述方法包括：

步骤2)对步骤1)采集的多路语音信号进行预处理；

如果语音信号中存在声学回波，对拾取到的多路语音信号进行回波抵消、抑制扩散背景噪声以及增益控制；否则，只对多路语音信号进行扩散背景噪声抑制和必要的增益控制；

根据先验的大量激活词数据或者某个特定说话人的数据，训练得到说话人相关或者说话人无关的激活词语音识别模型；采用识别解码策略对激活词内容进行检测并计算置信度,从而完成分类判别，将语音识别和关键词检索算法相结合,实现对激活词的检测。

步骤4)对未经切割的包含激活词段的信号进行语音增强；具体包括：

步骤4-1)通过语音活动性检测(VAD：Voice Activity Detection)将激活词的起点和尾点检出，获取完整的多通道激活词段；

步骤4-2)采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析；得到目标声源的DOA信息，即获取到发出该特定语义的目标说话人方向；具体包括：

步骤4-2-2)统计被直达声占据的时频点；

步骤4-2-3)在被直达声占据的时频点上，在低频无空间混叠部分得到到达时差(TDOA：Time Difference Of Arrival)的分布；

步骤4-2-4)在高频部分，根据低频得到的信号到达时差信息，去除空间混叠的影响，获取全频带的信号的TDOA，继而获取DOA信息；

步骤4-2-5)根据DOA信息，对已知方向的语音进行增强；所述步骤4-2-5)中对已知方向的语音进行增强的方式有两种：

第一种方式：根据DOA信息，采用波束形成方法对已知方向语音进行增强，抑制来自于其他方向的相干性声源；

在本实施例中，采用多通道基于对角加载(Diagonal Loading)的最小方差无失真响应波束形成方法抑制来自于其他方向的相干性声源，在其它实施例中，还可以基于子代的盲源分离技术(Blind Source Separation)实现方向性干扰的抑制。

第二种方式：利用该已知方向进行空间目标语音信号检测(DSAD)，接受来自于目标区域的语音，拒绝来自于其他方向的声源。

如图2所示，以双通道DSAD为例，对每个时频点利用波束参考能量比(Beam-to-Reference Ratio，BRR)以及信噪比SNR进行判决。对于BRR的判决阈值，结合了直达声混相声能量比(Direct-to-Reverberate Ratio，DRR)跟踪机制，使得每个时频点的检测阈值可以根据环境自适应调整，从而提高了每个时频点似然估计的准确性，利用旁瓣抑制机制降低高频混叠的影响，继而提高全带判决的准确性。

步骤4-3)采用多通道后滤波进一步抑制残余方向性噪声和来自于环境的扩散噪声以及远讲场景下的房间混响；获取得到增强语音。

Claims

1.一种基于语义先验的选择性注意的多通道语音增强方法，所述方法包括：多传声器阵列拾取来自于混响环境中的任意方向的语音信号，采集多路语音信号并进行预处理；利用激活词语音识别模型检测预处理后的语音信号中存在的特定激活词；对未经切割的包含激活词段的信号进行处理得到完整的激活词段；采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析，得到目标声源的声波到达方向；对该方向的语音进行增强，并抑制其它方向的噪声以及远讲场景下的房间混响，获取得到目标方向的增强语音；

所述方法具体包括：

步骤2)对步骤1)采集的多路语音信号进行预处理；

步骤4)对未经切割的包含激活词段的信号进行语音活动性检测得到完整的激活词段；采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析，得到目标声源的声波到达方向；对该方向的语音进行增强，并抑制残余方向性噪声和来自于环境的扩散噪声以及远讲场景下的房间混响，获取到目标方向的增强语音；

所述步骤3)中的利用激活词语音识别模型检测预处理后的语音信号中是否存在特定的激活词的具体过程为：根据先验的大量激活词数据或特定说话人的数据，训练得到说话人相关或者说话人无关的激活词语音识别模型；采用识别解码策略对激活词内容进行检测并计算置信度,从而完成分类判别，将语音识别和关键词检索算法相结合,实现对激活词的检测。

2.根据权利要求1所述的基于语义先验的选择性注意的多通道语音增强方法，其特征在于，所述步骤2)的具体过程为：如果多路语音信号中存在声学回波，对拾取到的多路语音信号进行回波抵消、抑制扩散背景噪声以及增益控制；否则，只对多路语音信号进行扩散背景噪声抑制和增益控制。

3.根据权利要求1所述的基于语义先验的选择性注意的多通道语音增强方法，其特征在于，所述步骤4)具体包括：

4.根据权利要求3所述的基于语义先验的选择性注意的多通道语音增强方法，其特征在于，所述步骤4-2)具体包括：

步骤4-2-2)统计被直达声占据的时频点；

5.根据权利要求4所述的基于语义先验的选择性注意的多通道语音增强方法，其特征在于，所述步骤4-2-5)中对语音进行增强的方式有两种：