CN106531179B - 一种基于语义先验的选择性注意的多通道语音增强方法 - Google Patents

一种基于语义先验的选择性注意的多通道语音增强方法 Download PDF

Info

Publication number
CN106531179B
CN106531179B CN201510574907.3A CN201510574907A CN106531179B CN 106531179 B CN106531179 B CN 106531179B CN 201510574907 A CN201510574907 A CN 201510574907A CN 106531179 B CN106531179 B CN 106531179B
Authority
CN
China
Prior art keywords
voice
signal
activation
activation word
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510574907.3A
Other languages
English (en)
Other versions
CN106531179A (zh
Inventor
付强
王晓飞
国雁萌
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201510574907.3A priority Critical patent/CN106531179B/zh
Publication of CN106531179A publication Critical patent/CN106531179A/zh
Application granted granted Critical
Publication of CN106531179B publication Critical patent/CN106531179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本发明提供了一种基于语义先验的选择性注意的多通道语音增强方法,所述方法包括:多传声器阵列拾取来自于混响环境中的任意方向的语音信号,采集多路语音信号并进行预处理;利用激活词语音识别模型检测预处理后的语音信号中存在的特定激活词;对未经切割的包含激活词段的信号进行处理得到完整的激活词段;采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析,得到目标声源的声波到达方向;对该方向的语音进行增强,并抑制其它方向的噪声以及远讲场景下的房间混响,获取得到目标方向的增强语音。本方明的方法可用于智能家电、智能家居、车载和可穿戴设备等需要远讲式语音输入和交互的场合,特别适用于复杂的声学噪声和干扰环境场合。

Description

一种基于语义先验的选择性注意的多通道语音增强方法
技术领域
本发明涉及语音处理领域,特别涉及一种基于语义先验的选择性注意的多通道语音增强方法。
背景技术
随着语音通信和人机语音交互***的不断普及,人们越来越期待抛开话筒和耳机等繁琐的设备,实现类似人类对话一般自然的人机语音交流。然而,语音是一种声波,在空气中传输时会受到各种影响,例如声波的衰减,墙壁和障碍物的多次反射(混响),同时存在的其它声源以及环境噪声等。当多个语音***和多个说话人处于同一环境时,如何确保***正确接收语音信息,更决定了语音***能否走向实用。语音增强是一种复杂噪声环境中有效的提取目标语音信号的手段,分为单通道语音增强和多通道语音增强。
单通道语音增强主要利用语音和噪声在时频域分布的差异而实现噪声消除。单通道语音增强的两个核心问题是噪声估计和先验信噪比估计;前者是降低噪声的关键因素,而后者则关系到残留"音乐噪声"的程度。单通道增强算法在很多情况下能够显著提高信噪比,尤其对平稳噪声(白噪声,车噪等)有较好的消除效果。
多通道语音增强利用了传声器阵列拾取空间信息的能力,可以结合时域,频域以及空间信息,获得带有空间区分性的接收能力。通常,多通道语音增强需要先验的到达方位角信息,从而形成可靠的导向矢量,利用空余滤波理论,对来自非目标方向的干扰声加以抑制,相对于单通道语音增强来说,多通道语音增强具备更好的噪声抑制的能力。
人类听觉之所以能处理多声源和有混响的问题,甚至还能在多人说话时检测和跟踪自己感兴趣的语音,主要原因是人类听觉具有特定的选择注意能力。当人类对某种目标声音感兴趣时,能够根据具体任务和环境,选取目标语音与周围声音最有区分性的特征,并根据先验知识进行比对和筛选,排除干扰声音并获得目标语音。
对语音应用而言,日常家居、车载和户外等实际场景中可能存在的噪声或干扰是多方面的。而现有的语音增强或者分离方法,都很难达到对目标语音无失真拾取,而同时消除或抑制非目标信号的目的,特别是在多个相干声源同时存在、混响较大和低信噪比情况下。
基于多通道(传声器阵列)的语音增强利用多个传声器收到信号的幅度和相位差,可以对目标方向的信号形成空间选择性,使得波束成形(Beamforming,BM)、空间活动性检测(Directive speech activity detection,DSAD)算法指向目标方向,从而抑制或者拒绝非目标方向的干扰信号。但目标声源的波达方向(DOA)依然无法事先知道。在单声源假设下,可以用声源定位(Source Location,SL)技术确定目标声源的DOA,然而实际应用环境中,这种假设很难满足。绝大多数情况下,会同时存在多个声源,且个数未知。在有房间反射的混响场,情况会更复杂,导致目标声源的噪声过大。
发明内容
本发明的目的在于克服目前多通道语音增强方法存在的上述缺陷,将基于语义的声源识别和基于信号处理的声源定位技术相结合,融合传声器阵列的“空间滤波”特性,提出了一种基于语义先验的选择性注意的多通道语音增强方法,可以有效克服噪声和干扰。
为了实现上述目的,本发明提供了一种基于语义先验的选择性注意的多通道语音增强方法,所述方法包括:多传声器阵列拾取来自于混响环境中的任意方向的语音信号,采集多路语音信号并进行预处理;利用激活词语音识别模型检测预处理后的语音信号中存在的特定激活词;对未经切割的包含激活词段的信号进行处理得到完整的激活词段;采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行处理,得到目标声源的声波到达方向;对该方向的语音进行增强,并抑制其它方向的噪声以及远讲场景下的房间混响,获取得到目标方向的增强语音。
上述技术方案中,所述具体方法包括:
步骤1)多传声器阵列拾取来自于混响环境中的任意方向的语音信号,采集多路语音信号;
步骤2)对步骤1)采集的多路语音信号进行预处理;
步骤3)利用激活词语音识别模型检测预处理后的语音信号中是否存在特定的激活词;如果检测结果是肯定的,保留未经切割的包含激活词段的信号,进入步骤4);否则,转入步骤1);
步骤4)对未经切割的包含激活词段的信号进行语音活动性检测得到完整的激活词段;采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析,得到目标声源的声波到达方向;对该方向的语音进行增强,并抑制残余方向性噪声和来自于环境的扩散噪声以及远讲场景下的房间混响,获取到目标方向的增强语音。
上述技术方案中,所述步骤2)的具体过程为:如果多路语音信号中存在声学回波,对拾取到的多路语音信号进行回波抵消、抑制扩散背景噪声以及增益控制;否则,只对多路语音信号进行扩散背景噪声抑制和增益控制。
上述技术方案中,所述步骤3)中的利用激活词语音识别模型检测预处理后的语音信号中是否存在特定的激活词的具体过程为:根据先验的大量激活词数据或特定说话人的数据,训练得到说话人相关或者说话人无关的激活词语音识别模型;采用识别解码策略对激活词内容进行检测并计算置信度,从而完成分类判别,将语音识别和关键词检索算法相结合,实现对激活词的检测。
上述技术方案中,所述步骤4)具体包括:
步骤4-1)通过语音活动性检测将激活词的起点和尾点检出,获取完整的多通道激活词段;
步骤4-2)采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析;得到目标声源的声波到达方向信息,即获取到发出该特定语义的目标说话人方向;根据声波到达方向信息,对该方向的语音进行增强;
步骤4-3)采用多通道后滤波进一步抑制残余方向性噪声和来自于环境的扩散噪声以及远讲场景下的房间混响,获取得到目标方向的增强语音。
上述技术方案中,所述步骤4-2)具体包括:
步骤4-2-1)将激活词段变换到时频域,在每个频点上,分别对信号的相干部分和非相干部分进行跟踪;
步骤4-2-2)统计被直达声占据的时频点;
步骤4-2-3)在被直达声占据的时频点上,在低频无空间混叠部分得到信号到达时差的分布;
步骤4-2-4)在高频部分,根据低频得到的信号到达时差信息,去除空间混叠的影响,获取全频带的信号到达时差信息;继而获取声波到达方向信息;
步骤4-2-5)根据声波到达方向信息,对该方向的语音进行增强。
上述技术方案中,所述步骤4-2-5)中对语音进行增强的方式有两种:
第一种方式:根据声波到达方向信息,采用波束形成方法对已知方向语音进行增强,抑制来自于其他方向的相干性声源;
第二种方式:利用该已知方向进行空间目标语音信号检测,接受来自于目标区域的语音,拒绝来自于其他方向的声源。
本发明的优点在于:
1、本方明的方法可用于智能家电、智能家居、车载和可穿戴设备等需要远讲式语音输入和交互的场合,特别适用于复杂的声学噪声和干扰环境场合;
2、本发明的方法能够在远讲免提(far-field hands-free)条件下有选择性地拾取目标信号,抑制干扰和噪声。
附图说明
图1为本发明的基于语义先验的选择性注意的多通道语音增强方法的流程图;
图2为本发明的利用已知方向进行空间目标语音信号检测的流程图。
具体实施方式
目标语音区分于其它声音的特征有很多,而要充分利用这类特征进行检测,则需优先考虑先验知识最多和最可靠的特征。例如,当扬声器播放声音时,与扬声器声音相关的声音都可以认为是回声干扰;如果目标语音的语义已知,那么语义就是明显的区分性特征;如果目标语音的声波到达方向(Direction of Arrival,DOA)已知,那么通过检测DOA信息可以用于去除大量无关声音。通过对各种区分性信息的检测和比较,最终可以抑制声音的影响,并从混合声音中筛选出目标语音段。
下面结合附图对本发明进行详细描述。
如图1所示,一种基于语义先验的选择性注意的多通道语音增强方法,所述方法包括:
步骤1)多传声器阵列拾取来自于混响环境中的任意方向的语音信号,采集多路语音信号;
步骤2)对步骤1)采集的多路语音信号进行预处理;
如果语音信号中存在声学回波,对拾取到的多路语音信号进行回波抵消、抑制扩散背景噪声以及增益控制;否则,只对多路语音信号进行扩散背景噪声抑制和必要的增益控制;
步骤3)利用激活词语音识别模型检测预处理后的语音信号中是否存在特定的激活词;如果检测结果是肯定的,保留未经切割的包含激活词段的信号,进入步骤4);否则,转入步骤1);
根据先验的大量激活词数据或者某个特定说话人的数据,训练得到说话人相关或者说话人无关的激活词语音识别模型;采用识别解码策略对激活词内容进行检测并计算置信度,从而完成分类判别,将语音识别和关键词检索算法相结合,实现对激活词的检测。
步骤4)对未经切割的包含激活词段的信号进行语音增强;具体包括:
步骤4-1)通过语音活动性检测(VAD:Voice Activity Detection)将激活词的起点和尾点检出,获取完整的多通道激活词段;
步骤4-2)采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析;得到目标声源的DOA信息,即获取到发出该特定语义的目标说话人方向;具体包括:
步骤4-2-1)将激活词段变换到时频域,在每个频点上,分别对信号的相干部分和非相干部分进行跟踪;
步骤4-2-2)统计被直达声占据的时频点;
步骤4-2-3)在被直达声占据的时频点上,在低频无空间混叠部分得到到达时差(TDOA:Time Difference Of Arrival)的分布;
步骤4-2-4)在高频部分,根据低频得到的信号到达时差信息,去除空间混叠的影响,获取全频带的信号的TDOA,继而获取DOA信息;
步骤4-2-5)根据DOA信息,对已知方向的语音进行增强;所述步骤4-2-5)中对已知方向的语音进行增强的方式有两种:
第一种方式:根据DOA信息,采用波束形成方法对已知方向语音进行增强,抑制来自于其他方向的相干性声源;
在本实施例中,采用多通道基于对角加载(Diagonal Loading)的最小方差无失真响应波束形成方法抑制来自于其他方向的相干性声源,在其它实施例中,还可以基于子代的盲源分离技术(Blind Source Separation)实现方向性干扰的抑制。
第二种方式:利用该已知方向进行空间目标语音信号检测(DSAD),接受来自于目标区域的语音,拒绝来自于其他方向的声源。
如图2所示,以双通道DSAD为例,对每个时频点利用波束参考能量比(Beam-to-Reference Ratio,BRR)以及信噪比SNR进行判决。对于BRR的判决阈值,结合了直达声混相声能量比(Direct-to-Reverberate Ratio,DRR)跟踪机制,使得每个时频点的检测阈值可以根据环境自适应调整,从而提高了每个时频点似然估计的准确性,利用旁瓣抑制机制降低高频混叠的影响,继而提高全带判决的准确性。
步骤4-3)采用多通道后滤波进一步抑制残余方向性噪声和来自于环境的扩散噪声以及远讲场景下的房间混响;获取得到增强语音。

Claims (5)

1.一种基于语义先验的选择性注意的多通道语音增强方法,所述方法包括:多传声器阵列拾取来自于混响环境中的任意方向的语音信号,采集多路语音信号并进行预处理;利用激活词语音识别模型检测预处理后的语音信号中存在的特定激活词;对未经切割的包含激活词段的信号进行处理得到完整的激活词段;采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析,得到目标声源的声波到达方向;对该方向的语音进行增强,并抑制其它方向的噪声以及远讲场景下的房间混响,获取得到目标方向的增强语音;
所述方法具体包括:
步骤1)多传声器阵列拾取来自于混响环境中的任意方向的语音信号,采集多路语音信号;
步骤2)对步骤1)采集的多路语音信号进行预处理;
步骤3)利用激活词语音识别模型检测预处理后的语音信号中是否存在特定的激活词;如果检测结果是肯定的,保留未经切割的包含激活词段的信号,进入步骤4);否则,转入步骤1);
步骤4)对未经切割的包含激活词段的信号进行语音活动性检测得到完整的激活词段;采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析,得到目标声源的声波到达方向;对该方向的语音进行增强,并抑制残余方向性噪声和来自于环境的扩散噪声以及远讲场景下的房间混响,获取到目标方向的增强语音;
所述步骤3)中的利用激活词语音识别模型检测预处理后的语音信号中是否存在特定的激活词的具体过程为:根据先验的大量激活词数据或特定说话人的数据,训练得到说话人相关或者说话人无关的激活词语音识别模型;采用识别解码策略对激活词内容进行检测并计算置信度,从而完成分类判别,将语音识别和关键词检索算法相结合,实现对激活词的检测。
2.根据权利要求1所述的基于语义先验的选择性注意的多通道语音增强方法,其特征在于,所述步骤2)的具体过程为:如果多路语音信号中存在声学回波,对拾取到的多路语音信号进行回波抵消、抑制扩散背景噪声以及增益控制;否则,只对多路语音信号进行扩散背景噪声抑制和增益控制。
3.根据权利要求1所述的基于语义先验的选择性注意的多通道语音增强方法,其特征在于,所述步骤4)具体包括:
步骤4-1)通过语音活动性检测将激活词的起点和尾点检出,获取完整的多通道激活词段;
步骤4-2)采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析;得到目标声源的声波到达方向信息,即获取到发出该特定语义的目标说话人方向;根据声波到达方向信息,对该方向的语音进行增强;
步骤4-3)采用多通道后滤波进一步抑制残余方向性噪声和来自于环境的扩散噪声以及远讲场景下的房间混响,获取得到目标方向的增强语音。
4.根据权利要求3所述的基于语义先验的选择性注意的多通道语音增强方法,其特征在于,所述步骤4-2)具体包括:
步骤4-2-1)将激活词段变换到时频域,在每个频点上,分别对信号的相干部分和非相干部分进行跟踪;
步骤4-2-2)统计被直达声占据的时频点;
步骤4-2-3)在被直达声占据的时频点上,在低频无空间混叠部分得到信号到达时差的分布;
步骤4-2-4)在高频部分,根据低频得到的信号到达时差信息,去除空间混叠的影响,获取全频带的信号到达时差信息;继而获取声波到达方向信息;
步骤4-2-5)根据声波到达方向信息,对该方向的语音进行增强。
5.根据权利要求4所述的基于语义先验的选择性注意的多通道语音增强方法,其特征在于,所述步骤4-2-5)中对语音进行增强的方式有两种:
第一种方式:根据声波到达方向信息,采用波束形成方法对已知方向语音进行增强,抑制来自于其他方向的相干性声源;
第二种方式:利用该已知方向进行空间目标语音信号检测,接受来自于目标区域的语音,拒绝来自于其他方向的声源。
CN201510574907.3A 2015-09-10 2015-09-10 一种基于语义先验的选择性注意的多通道语音增强方法 Active CN106531179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510574907.3A CN106531179B (zh) 2015-09-10 2015-09-10 一种基于语义先验的选择性注意的多通道语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510574907.3A CN106531179B (zh) 2015-09-10 2015-09-10 一种基于语义先验的选择性注意的多通道语音增强方法

Publications (2)

Publication Number Publication Date
CN106531179A CN106531179A (zh) 2017-03-22
CN106531179B true CN106531179B (zh) 2019-08-20

Family

ID=58346225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510574907.3A Active CN106531179B (zh) 2015-09-10 2015-09-10 一种基于语义先验的选择性注意的多通道语音增强方法

Country Status (1)

Country Link
CN (1) CN106531179B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960672B (zh) * 2017-03-30 2020-08-21 国家计算机网络与信息安全管理中心 一种立体声音频的带宽扩展方法与装置
CN107146614B (zh) * 2017-04-10 2020-11-06 北京猎户星空科技有限公司 一种语音信号处理方法、装置及电子设备
CN108877827B (zh) * 2017-05-15 2021-04-20 福州瑞芯微电子股份有限公司 一种语音增强交互方法及***、存储介质及电子设备
CN107346661B (zh) * 2017-06-01 2020-06-12 伊沃人工智能技术(江苏)有限公司 一种基于麦克风阵列的远距离虹膜跟踪与采集方法
CN108122563B (zh) * 2017-12-19 2021-03-30 北京声智科技有限公司 提高语音唤醒率及修正doa的方法
CN108447483B (zh) * 2018-05-18 2023-11-21 深圳市亿道数码技术有限公司 语音识别***
CN110164423B (zh) * 2018-08-06 2023-01-20 腾讯科技(深圳)有限公司 一种方位角估计的方法、设备及存储介质
CN110875045A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音识别方法、智能设备和智能电视
CN111081234B (zh) * 2018-10-18 2022-03-25 珠海格力电器股份有限公司 一种语音采集方法、装置、设备及存储介质
CN110047494B (zh) * 2019-04-15 2022-06-03 北京小米智能科技有限公司 设备响应方法、设备及存储介质
CN112289335A (zh) * 2019-07-24 2021-01-29 阿里巴巴集团控股有限公司 语音信号的处理方法、装置及拾音设备
CN110992977B (zh) * 2019-12-03 2021-06-22 北京声智科技有限公司 一种目标声源的提取方法及装置
CN113257251B (zh) * 2021-05-11 2024-05-24 深圳优地科技有限公司 机器人使用者的识别方法、设备及存储介质
CN113823311B (zh) * 2021-08-19 2023-11-21 广州市盛为电子有限公司 基于音频增强的语音识别方法及装置
CN113643714B (zh) * 2021-10-14 2022-02-18 阿里巴巴达摩院(杭州)科技有限公司 音频处理方法、装置、存储介质及计算机程序

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
CN102819009B (zh) * 2012-08-10 2014-10-01 香港生产力促进局 用于汽车的驾驶者声源定位***及方法
CN204390737U (zh) * 2014-07-29 2015-06-10 科大讯飞股份有限公司 一种家庭语音处理***

Also Published As

Publication number Publication date
CN106531179A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN106531179B (zh) 一种基于语义先验的选择性注意的多通道语音增强方法
CN110556103B (zh) 音频信号处理方法、装置、***、设备和存储介质
Okuno et al. Robot audition: Its rise and perspectives
WO2020103703A1 (zh) 一种音频数据处理方法、装置、设备及存储介质
US11158333B2 (en) Multi-stream target-speech detection and channel fusion
CN108962272A (zh) 拾音方法和***
JP5007442B2 (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
US9654894B2 (en) Selective audio source enhancement
CN112424863B (zh) 语音感知音频***及方法
US9294860B1 (en) Identifying directions of acoustically reflective surfaces
CN106782563B (zh) 一种智能家居语音交互***
Brutti et al. Multiple source localization based on acoustic map de-emphasis
US20080270131A1 (en) Method, preprocessor, speech recognition system, and program product for extracting target speech by removing noise
US10957338B2 (en) 360-degree multi-source location detection, tracking and enhancement
RU2758192C2 (ru) Звукозапись с использованием формирования диаграммы направленности
CN103392349A (zh) 用于空间选择性音频增强的***、方法、设备和计算机可读媒体
CN105532017A (zh) 用于波束形成以获得语音和噪声信号的装置和方法
CN105376673A (zh) 基于空间分析的麦克风阵列处理器
US11264017B2 (en) Robust speaker localization in presence of strong noise interference systems and methods
JP2023159381A (ja) 音声認識オーディオシステムおよび方法
CN110610718A (zh) 一种提取期望声源语音信号的方法及装置
CN113223544B (zh) 音频的方向定位侦测装置及方法以及音频处理***
Ba et al. Enhanced MVDR beamforming for arrays of directional microphones
CN116343808A (zh) 柔性麦克风阵列语音增强方法及装置、电子设备、介质
Jung et al. Adaptive microphone array system with two-stage adaptation mode controller

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant