CN114373475A - 一种基于麦克风阵列的语音降噪方法、装置以及存储介质 - Google Patents
一种基于麦克风阵列的语音降噪方法、装置以及存储介质 Download PDFInfo
- Publication number
- CN114373475A CN114373475A CN202111621218.5A CN202111621218A CN114373475A CN 114373475 A CN114373475 A CN 114373475A CN 202111621218 A CN202111621218 A CN 202111621218A CN 114373475 A CN114373475 A CN 114373475A
- Authority
- CN
- China
- Prior art keywords
- noise
- noise reduction
- voice signal
- frequency domain
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 99
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000003860 storage Methods 0.000 title claims description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000003491 array Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 abstract description 31
- 230000008569 process Effects 0.000 abstract description 9
- 230000008859 change Effects 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 10
- 239000000126 substance Substances 0.000 description 10
- 238000007796 conventional method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- XEBWQGVWTUSTLN-UHFFFAOYSA-M phenylmercury acetate Chemical compound CC(=O)O[Hg]C1=CC=CC=C1 XEBWQGVWTUSTLN-UHFFFAOYSA-M 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种基于麦克风阵列的语音降噪方法,解决了现有技术中求解滤波器的复杂度会随着滤波器长度的增大而迅速增大,并且对语音信号和噪声统计特性变化的跟踪能力下降的问题,该方法包括:获取带噪语音信号;对带噪语音信号进行预处理,确定频域带噪语音信号;估计频域带噪语音信号和噪声信号的统计特性;将麦克风阵列分为多个子阵列,分别估计出多个子滤波器,并确定频域降噪滤波器;根据频域降噪滤波器对频域带噪语音信号进行降噪处理,并转换为时域降噪语音信号,使得在滤波器的求解过程中所需的信号协方差矩阵维数更小,从而显著降低了求解语音降噪滤波器的复杂度,并且提高滤波器对语音信号和噪声统计特性变化的跟踪能力。
Description
技术领域
本申请涉及麦克风阵列技术领域,尤其涉及一种基于麦克风阵列的语音降 噪方法、装置以及存储介质。
背景技术
语音降噪在智能语音、人机交互、远程会议、助听设备、车载、虚拟现实、 临境通讯和军用超高背景噪声的语音通信等***中都起到举足轻重的作用,其 性能的好坏直接影响着语音交互的体验。
早期的语音交互***通常只装备一个麦克风,对应的降噪方法则为单道语 音降噪。单通道语音降噪方法具有实现简单、运算效率高等优点,能取得一定 的效果,但也有较大的局限性。研究表明,在一定条件下单通道降噪一定会引 入语音失真,且信噪比提升越大,引入的语音失真也越大。相比之下,多通道 语音降噪方法更有潜力在少引入或者不引入语音失真的前提下显著提升信噪 比。经典的多通道语音降噪方法包括多通道维纳滤波,多通道折中滤波,最小 方差无失真响应滤波、线性约束最小方差滤波、以及广义旁瓣对消等。近年来, 国内外研究人员提出了基于深度学习的语音降噪方法,可取得较好的性能,但由于其泛化能力通常较弱,当前还难以大范围地应用在实际***中。
为取得更好的语音降噪性能,通常需要装备更多的麦克风,以获取更加丰 富的空时频信息。但这通常也意味着需要设计更长的滤波器。而应用更长的滤 波器会带来以下的两个问题。第一,求解滤波器的复杂度会随着滤波器长度的 增大而迅速增大;第二,在滤波器的求解过程中所需的信号协方差矩阵的维数 会更大,因此需要更多的观测样本来估计信号的协方差矩阵,用以计算滤波器 的系数,导致对语音信号和噪声统计特性变化的跟踪能力下降,无法更好地处 理实际中常见的非平稳噪声。
发明内容
本申请实施例通过提供一种基于麦克风阵列的语音降噪方法,解决了在现 有技术中当滤波器长度较长时所导致的两个问题,即,第一,求解滤波器的复 杂度会随着滤波器长度的增大而迅速增大;第二,在滤波器的求解过程中所需 的信号协方差矩阵的维数会更大,因此需要更多的观测样本来估计信号的协方 差矩阵,用以计算滤波器的系数,导致对语音信号和噪声统计特性变化的跟踪 能力下降,无法更好地处理实际中常见的非平稳噪声。本申请实施例显著降低 了求解滤波器的复杂度,且在滤波器的求解过程中所需的信号协方差矩阵维数 更小,因此可以用更少的信号观测样本来估计其协方差矩阵,从而提高滤波器 对语音信号和噪声统计特性变化的跟踪能力。
第一方面,本发明实施例提供了一种基于麦克风阵列的语音降噪方法,该 方法包括:
获取带噪语音信号;
对所述带噪语音信号进行预处理,确定频域带噪语音信号;
估计所述频域带噪语音信号的统计特性,估计噪声信号的统计特性;
将麦克风阵列分为多个子阵列,分别估计出多个子滤波器;
根据所述多个子滤波器,确定频域降噪滤波器;
根据所述频域降噪滤波器对所述频域带噪语音信号进行降噪处理,确定频 域降噪语音信号;
将所述频域降噪语音信号转换为时域降噪语音信号。
结合第一方面,在一种可能的实现方式中,所述对所述带噪语音信号进行 预处理,包括:对所述带噪语音信号进行分帧、加窗后进行快速傅里叶变换。
结合第一方面,在一种可能的实现方式中,所述估计所述频域带噪语音信 号的统计特性,包括根据时间平滑估计方式进行带噪语音信号统计特性的估计。
结合第一方面,在一种可能的实现方式中,所述估计噪声信号的统计特性, 包括根据现有噪声估计算法估计噪声信号的统计特性。
结合第一方面,在一种可能的实现方式中,所述将麦克风阵列分为多个子 阵列,分别估计出多个子滤波器,包括利用降噪滤波器的低秩结构迭代估计出 多个子滤波器。
第二方面,本发明实施例提供了一种基于麦克风阵列的语音降噪装置,其 特征在于,包括
信号获取模块,用于获取带噪语音信号;
信号预处理模块,用于对所述带噪语音信号进行预处理,确定频域带噪语 音信号;
统计特性估计模块,用于估计所述频域带噪语音信号的统计特性,估计噪 声信号的统计特性;
子滤波器确定模块,用于将麦克风阵列分为多个子阵列,分别估计出多个 子滤波器;
频域降噪滤波器确定模块,用于根据所述多个子滤波器,确定频域降噪滤 波器;
降噪模块,用于根据所述频域降噪滤波器对所述频域带噪语音信号进行降 噪处理,确定频域降噪语音信号;
时域降噪语音信号确定模块,用于将所述频域降噪语音信号转换为时域降 噪语音信号。
结合第二方面,在一种可能的实现方式中,所述信号预处理模块,包括: 对所述带噪语音信号进行分帧、加窗后进行快速傅里叶变换。
结合第二方面,在一种可能的实现方式中,所述统计特性估计模块,包括: 包括根据时间平滑估计方式进行带噪语音信号统计特性的估计。
结合第二方面,在一种可能的实现方式中,所述统计特性估计模块,包括: 包括根据现有噪声估计算法估计噪声信号的统计特性。
结合第二方面,在一种可能的实现方式中,所述频域降噪滤波器确定模块, 包括:利用降噪滤波器的低秩结构迭代估计出多个子滤波器。
第三方面,本发明实施例提供了一种基于麦克风阵列的语音降噪服务器, 包括存储器和处理器;
所述存储器用于存储计算机可执行指令;
所述处理器用于执行所述计算机可执行指令,以实现如第一方面所述的方 法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机 可读存储介质存储有可执行指令,计算机执行所述可执行指令时能够实现 如第一方面任一项所述的方法。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优 点:
本发明实施例采用了一种基于麦克风阵列的语音降噪方法,该方法包括, 获取带噪语音信号;对带噪语音信号进行预处理,确定频域带噪语音信号;估 计频域带噪语音信号的统计特性,估计噪声信号的统计特性;将麦克风阵列分 为多个子阵列,分别估计出多个子滤波器;根据多个子滤波器,确定频域降噪 滤波器;根据频域降噪滤波器对频域带噪语音信号进行降噪处理,确定频域降 噪语音信号;将频域降噪语音信号转换为时域降噪语音信号。有效解决了在现 有技术中当滤波器长度较长时所导致的两个问题,即,第一,求解滤波器的复 杂度会随着滤波器长度的增大而迅速增大;第二,在滤波器的求解过程中所需的信号协方差矩阵的维数会更大,因此需要更多的观测样本来估计信号的协方 差矩阵,用以计算滤波器的系数,导致对语音信号和噪声统计特性变化的跟踪 能力下降,无法更好地处理实际中常见的非平稳噪声。本发明实施例显著降低 了求解滤波器的复杂度,且在滤波器的求解过程中所需的信号协方差矩阵维数 更小,因此可以用更少的信号观测样本来估计其协方差矩阵,从而提高滤波器 对语音信号和噪声统计特性变化的跟踪能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对本发 明实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下 面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于麦克风阵列的语音降噪方法的步骤流程 图;
图2为本申请实施例提供的基于麦克风阵列的语音降噪的装置的示意图;
图3为本申请实施例提供的基于麦克风阵列的语音降噪的服务器示意图;
图4为本申请实施例提供的方法的复杂度和传统方法复杂度的对比图;
图5为本申请实施例提供的方法的均方误差随迭代次数的变化的图像;
图6为本申请实施例提供的当噪声统计特性突然发生变化时,本申请实施 例提供的方法和传统方法的均方误差随时间变化的对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全 部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性 劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在早期的语音交互***中通常只配备一个麦克风,对应的语音降噪方法为 单通道语音降噪。单通道语音降噪方法具有实现简单、运算效率高等优点,能 取得一定的效果,但也具有很大的局限性。研究表明,在一定的条件下单通道 降噪一定会引入语音失真,且信噪比提升越大,引入的语音失真也就越大。相 比之下,多通道语音降噪方法更具有潜力,在少引入或者不引入语音失真的前 提下,显著提升信噪比。多通道语音降噪通常需要装备更多的麦克风,以获取 更加丰富的空时频信息。但相应的会导致两个问题,第一,求解滤波器的复杂 度会随着滤波器长度的增加而迅速的增大;第二,在滤波器的求解过程中所需的信号协方差矩阵的维数更大,因此需要更多的测样本来估计信号的协方差矩 阵,用以计算滤波器的系数,导致其对语音信号和噪声统计变化的跟踪能力下 降,无法更好地处理在实际中常见的非平稳噪声。
本发明实施例提供了一种基于麦克风阵列的语音降噪方法,如图1所示, 该方法包括以下步骤,
步骤S101,获取带噪语音信号。
步骤S102,对带噪语音信号进行预处理,确定频域带噪语音信号。
步骤S103,估计频域带噪语音信号的统计特性,估计噪声信号的统计特性。
步骤S104,将麦克风阵列分为多个子阵列,分别估计出多个子滤波器。
步骤S105,根据多个子滤波器,确定频域降噪滤波器。
步骤S106,根据频域降噪滤波器对频域带噪语音信号进行降噪处理,确定 频域降噪语音信号。
步骤S107,将频域降噪语音信号转换为时域降噪语音信号。
综合上述的方法步骤,构建一个更加合理的滤波器,避免了像现有的多通 道语音降噪方法一样整体计算一个很长的滤波器,更短的滤波器意味着少的滤 波器系数。因此,相校于现有的方法,本申请提供的方法显著降低了求解语音 降噪滤波器的复杂度,且在滤波器的求解过程中所需的信号协方差矩阵维数小, 所以可以用更少的信号观测样本来估计其协方差矩阵,从而可提高滤波器对语 音信号和噪声统计特性变化的跟踪能力。
在本申请的一个具体的实施例中,我们将时域带噪语音信号表示为,
ym(t)=xm(t)+vm(t),m=1,2,...,M (1)
其中,ym(t)表示第m个麦克风接收到的带噪语音信号;xm(t)表示第m个 麦克风接收到的纯净语音信号;vm(t)表示第m个麦克风接收到的背景噪声信号; t表示离散时间点;M表示麦克风的个数。
在本申请中的一个具体的实施例中,假设所有的信号都是零均值、带宽信 号,同时,假设语音信号和噪声信号不相关。语音降噪地目的为,通过带噪语 音信号恢复出纯净语音信号。为不失一般性,本申请中,将麦克风1设置为参 考麦克风,即设x1(t)为期望信号(需要恢复的信号)。
对带噪语音信号进行预处理,包括:对带噪语音信号进行分帧、加窗后进 行快速傅里叶变换,得到频域带噪语音信号,表示为:
其中,w表示窗函数;T表示窗函数的长度(也是语音信号帧的长度);L 表示两个相邻帧之间的步进长度;零均值随机变量Ym(k,n),Xm(k,n),Vm(k,n)分别为 ym(t),xm(t),vm(t),在第n帧第k个频带的傅里叶变换值,其中k∈{0,1,...,K-1}。
为方便起见,将信号模型用向量形式表示为
y(k,n)=x(k,n)+v(k,n) (3)
其中,
y(k,n)=[Y1(k,n),Y2(k,n),...,YM(k,n)]T (4)
x(k,n)和x(k,n)的定义与y(k,n)类似,上标T为转置符。
在传统方法中,通常需要设计一个长为M的滤波器h(k,n)来实现语音降噪, 即:
Z(k,n)=hH(k,n)y(k,n) (5)
其中
h(k,n)=[H1(k,n),H2(k,n),...,HM(k,n)]T (6)
Z(k,n)为X1(k,n)的估计值。但当M较大时,则会导致在背景技术中所述的 两个问题。
估计频域带噪语音信号的统计特性,包括根据时间平滑方式进行带噪语音 信号统计特性的估计。估计噪声信号的统计特性,包括根据现有噪声估计算法 估计噪声信号的统计特性。
由于语音信号和噪声不相关,所以Z(k,n)的方差可表示为:
ΦZ(k,n)=hH(k,n)Φy(k,n)h(k,n)
=hH(k,n)Φx(k,n)h(k,n)+hH(k,n)Φv(k,n)h(k,n) (7)
其中,Φa(k,n)=E[a(k,n)aH(k,n)],a(k,n)∈{y(k,n),x(k,n),v(k,n)}。通常,我们可 以应用时间平滑的方式估计Φy(k,n),而Φv(k,n)则可以根据现有文献中的噪声估计算法得到。得到Φy(k,n)及Φv(k,n)的估计值后,则可通过Φy(k,n)-Φv(k,n)得到 Φx(k,n)。
为导出本发明中的方法,将麦克风阵列分为M2个子阵,每个子阵中有M1个麦克风,即M=M1*M2,第1至M1个麦克风组成第一个子阵,第M1+1至2M1个麦克风组成第二个子阵,以此类推。在本发明中,我们假设M1≤M2。同样, 可以将滤波器h(k,n)按上述方式分解,即
其中,
此时,可以将子滤波器hm(k,n),m=1,2,...,M2组成一个维数为M1×M2的矩阵,即:
H(k,n)=[h1(k,n),h2(k,n),...,hM2(k,n)] (10)
需要注意的是,h(k,n)=vec[H(k,n)],vec(·)表示矩阵的向量化操作符。为简便起见,在后面不会引起歧义的地方将去掉符号k和n。对矩阵H进行奇异值 分解(SingularValue Decomposition,SVD),可将H分解为:
其中,
为一个M2×M2的矩阵,
各个通道接收到的带噪语音信号强相关,所以子滤波器hm(k,n),m=1,2,...,M2之间通常也是是强相关的,导致矩阵H通常不是行满秩矩阵。所以矩阵H通常 可以用前P个最大的奇异值及对应的奇异向量进行较好地近似,即:
需要注意的是,当P=M1时,hP=h。
应用关系式:
可将hP写为:
其中,
Hσ1,P=[Hσ1,1 Hσ1,2...Hσ1,P]H (24)
Hσ2,P=[Hσ2,1 Hσ2,2...Hσ2,P]H (25)
h σ1,P,h σ2,P,yσ1,P(t),yσ2,P(t),Hσ1,P和Hσ2,P的大小分别是M1P×1,M2P×1,M2P×1,M1P×1,M2P×M,M1P×M。可以看出,当参数P较小时,子滤波器h σ1,P和h σ2,P的长度远小于滤波器h的长度。
期望信号X1和其估计值Z的均方误差(mean square error,MSE)为
为导出本发明中的滤波器,将MSE写为如下形式:
其中,
需要注意的是,当参数P较小时,矩阵Φyσ1,p(M2P×M2P),和Φyσ2,p(M1P×M1P)的 维数远远小于矩阵Φy(M×M)的维数。
由此可带来两个优势:
1)相较于求解基于Φy的逆矩阵的传统多通道语音降噪滤波器,求解基于 Φyσ1,p和Φyσ2,p的逆矩阵的子滤波器h σ1,P和h σ2,P,所需的复杂度显著降低;
2)相较于估计矩阵Φy,可用更少的信号观测样本估计矩阵Φyσ1,p和 Φyσ2,p,使得子滤波器h σ1,P,和h σ2,P可更加快速地跟踪信号统计特性的变化。
对近似滤波器进行运算,包括:采用迭代求解的方式,得到维纳滤波器。
基于式(27)和(28),很难导出子滤波器h σ1,P和h σ2,P的闭式解。所 以,本发明中采用迭代求解的方式。为此,在求解其中一个子滤波器时,假设 另一个子滤波器固定,即
将子滤波器h σ1,P按如下方式初始化:
其中,
xp的定义与yp类似。可以看出,hσ1,W,p为第p个子矩阵的维也纳滤波器,长为M1。
将式(38)和(39)带入至式(34)中可得:
按上述方式,迭代至第n步时,我们有:
其中,
此时,可以得到本申请中的迭代维纳滤波器:
本发明实施例提供了一种基于麦克风阵列的语音降噪装置,如图2所示, 包括信号获取模块201,信号预处理模块202,统计特性估计模块203,子滤波 器确定模块204,频域降噪滤波器确定模块205,降噪模块206,时域降噪语音 信号确定模块207。信号获取模块201,用于获取带噪语音信号;信号预处理 模块202,用于对所述带噪语音信号进行预处理,确定频域带噪语音信号;统 计特性估计模块203,用于估计所述频域带噪语音信号的统计特性及噪声信号 的统计特性;子滤波器确定模块204,用于将麦克风阵列分为多个子阵列,分 别估计出多个子滤波器;频域降噪滤波器确定模块205,用于根据所述多个子 滤波器,确定频域降噪滤波器;降噪模块206,用于根据所述频域降噪滤波器 对所述频域带噪语音信号进行降噪处理,确定频域降噪语音信号;时域降噪语 音信号确定模块207,用于将所述频域降噪语音信号转换为时域降噪语音信号。
图4为本申请提供的方法的复杂度与传统方法复杂度的对比,图5为本申 请提供的方法的均方误差随迭代次数的变化,图6为噪声统计特性突然发生变 化时,本申请所提方法及传统方法的均方误差随时间的变化图。即本申请提供 的方法有效降低了复杂度,提高了滤波器对语音信号和噪声统计特性变化的跟 踪能力。
本发明实施例提供了一种基于麦克风阵列的语音降噪的服务器,如图3所 示,包括存储器301和处理器302;存储器301用于存储计算机可执行指令; 处理器302用于执行计算机可执行指令。
本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存 储有可执行指令,计算机执行可执行指令时能够。
上述存储介质包括但不限于随机存取存储器(英文:Random Access Memory;简称:RAM)、只读存储器(英文:Read-Only Memory;简称:ROM)、 缓存(英文:Cache)、硬盘(英文:Hard Disk Drive;简称:HDD)或者存储 卡(英文:Memory Card)。所述存储器可以用于存储计算机程序指令。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或 者无创造性的劳动可以包括更多或者更少的操作步骤。本实施例中列举的步骤 顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际 中的装置或客户端产品执行时,可以按照本实施例或者附图所示的方法顺序执 行或者并行执行(例如并行处理器或者多线程处理的环境)。
上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者 由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为 各种模块分别描述。在实施本申请时可以把各模块的功能在同一个或多个软件 和/或硬件中实现。当然,也可以将实现某功能的模块由多个子模块或子单元 组合实现。
本申请中所述的方法、装置或模块可以以计算机可读程序代码方式实现控 制器按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以 及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的 计算机可读介质、逻辑门、开关、专用集成电路(英文:Application Specific Integrated Circuit;简称:ASIC)、可编程逻辑控制器和嵌入微控制器的形 式,控制器的例子包括但不限于以下微控制器:ARC625D、Atmel AT91SAM、 Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以 被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程 来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控 制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件, 而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或 者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又 可以是硬件部件内的结构。
本申请所述装置中的部分模块可以在由计算机执行的计算机可执行指令 的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或 实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等。也可以 在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络 而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位 于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本 申请可借助软件加必需的硬件的方式来实现。基于这样的理解,本申请的技术 方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出 来,也可以通过数据迁移的实施过程中体现出来。该计算机软件产品可以存储 在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算 机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申 请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施方式采用递进的方式描述,各个实施方式之间相同 或相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的 不同之处。本申请的全部或者部分可用于众多通用或专用的计算机***环境或 配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型 设备、移动通信终端、多处理器***、基于微处理器的***、可编程的电子设 备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计 算环境等等。
以上实施例仅用以说明本申请的技术方案,而非对本申请限制;尽管参照 前述实施例对本申请进行了详细的说明,本领域普通技术人员应当理解:其依 然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技 术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离 本申请技术方案的范围。
Claims (8)
1.一种基于麦克风阵列的语音降噪方法,其特征在于,包括
获取带噪语音信号;
对所述带噪语音信号进行预处理,确定频域带噪语音信号;
估计所述频域带噪语音信号的统计特性,估计噪声信号的统计特性;
将麦克风阵列分为多个子阵列,分别估计出多个子滤波器;
根据所述多个子滤波器,确定频域降噪滤波器;
根据所述频域降噪滤波器对所述频域带噪语音信号进行降噪处理,确定频域降噪语音信号;
将所述频域降噪语音信号转换为时域降噪语音信号。
2.根据权利要求1所述的方法,其特征在于,所述对所述带噪语音信号进行预处理,包括:对所述带噪语音信号进行分帧、加窗后进行快速傅里叶变换。
3.根据权利要求1所述的方法,其特征在于,所述估计所述频域带噪语音信号的统计特性,包括根据时间平滑估计方式进行带噪语音信号统计特性的估计。
4.根据权利要求1所述的方法,其特征在于,所述估计噪声信号的统计特性,包括根据现有噪声估计算法估计噪声信号的统计特性。
5.根据权利要求1所述的方法,其特征在于,所述将麦克风阵列分为多个子阵列,分别估计出多个子滤波器,包括利用降噪滤波器的低秩结构迭代估计出多个子滤波器。
6.一种基于麦克风阵列的语音降噪装置,其特征在于,包括
信号获取模块,用于获取带噪语音信号;
信号预处理模块,用于对所述带噪语音信号进行预处理,确定频域带噪语音信号;
统计特性估计模块,用于估计所述频域带噪语音信号的统计特性,估计噪声信号的统计特性;
子滤波器确定模块,用于将麦克风阵列分为多个子阵列,分别估计出多个子滤波器;
频域降噪滤波器确定模块,用于根据所述多个子滤波器,确定频域降噪滤波器;
降噪模块,用于根据所述频域降噪滤波器对所述频域带噪语音信号进行降噪处理,确定频域降噪语音信号;
时域降噪语音信号确定模块,用于将所述频域降噪语音信号转换为时域降噪语音信号。
7.一种基于麦克风阵列的语音降噪服务器,其特征在于,包括存储器和处理器;
所述存储器用于存储计算机可执行指令;
所述处理器用于执行所述计算机可执行指令,以实现权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有可执行指令,计算机执行所述可执行指令时能够实现如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111621218.5A CN114373475A (zh) | 2021-12-28 | 2021-12-28 | 一种基于麦克风阵列的语音降噪方法、装置以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111621218.5A CN114373475A (zh) | 2021-12-28 | 2021-12-28 | 一种基于麦克风阵列的语音降噪方法、装置以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114373475A true CN114373475A (zh) | 2022-04-19 |
Family
ID=81142867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111621218.5A Pending CN114373475A (zh) | 2021-12-28 | 2021-12-28 | 一种基于麦克风阵列的语音降噪方法、装置以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114373475A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5917919A (en) * | 1995-12-04 | 1999-06-29 | Rosenthal; Felix | Method and apparatus for multi-channel active control of noise or vibration or of multi-channel separation of a signal from a noisy environment |
WO2006114100A1 (en) * | 2005-04-26 | 2006-11-02 | Aalborg Universitet | Estimation of signal from noisy observations |
CN110517701A (zh) * | 2019-07-25 | 2019-11-29 | 华南理工大学 | 一种麦克风阵列语音增强方法及实现装置 |
CN112802490A (zh) * | 2021-03-11 | 2021-05-14 | 北京声加科技有限公司 | 一种基于传声器阵列的波束形成方法和装置 |
CN113409804A (zh) * | 2020-12-22 | 2021-09-17 | 声耕智能科技(西安)研究院有限公司 | 一种基于变张成广义子空间的多通道频域语音增强算法 |
-
2021
- 2021-12-28 CN CN202111621218.5A patent/CN114373475A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5917919A (en) * | 1995-12-04 | 1999-06-29 | Rosenthal; Felix | Method and apparatus for multi-channel active control of noise or vibration or of multi-channel separation of a signal from a noisy environment |
WO2006114100A1 (en) * | 2005-04-26 | 2006-11-02 | Aalborg Universitet | Estimation of signal from noisy observations |
CN110517701A (zh) * | 2019-07-25 | 2019-11-29 | 华南理工大学 | 一种麦克风阵列语音增强方法及实现装置 |
CN113409804A (zh) * | 2020-12-22 | 2021-09-17 | 声耕智能科技(西安)研究院有限公司 | 一种基于变张成广义子空间的多通道频域语音增强算法 |
CN112802490A (zh) * | 2021-03-11 | 2021-05-14 | 北京声加科技有限公司 | 一种基于传声器阵列的波束形成方法和装置 |
Non-Patent Citations (2)
Title |
---|
XIANGHUI WANG ET AL: "Multichannel Iterative Noise Reduction Filters in the Short-Time-Fourier-Transform Domain Based on Kronecker Product Decomposition", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING ( VOLUME: 29), pages 2725 - 2739 * |
何成林, 杜利民, 马昕: "麦克风阵列语音增强的研究", 计算机工程与应用, no. 24 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pedersen et al. | Convolutive blind source separation methods | |
Wang et al. | A region-growing permutation alignment approach in frequency-domain blind source separation of speech mixtures | |
WO2020042370A1 (zh) | 多分量地震数据矢量去噪方法及多分量地震数据矢量去噪装置 | |
JP2007526511A (ja) | 周波数領域で多重経路多チャネル混合信号のブラインド分離のための方法及びその装置 | |
Jain et al. | Blind source separation and ICA techniques: a review | |
WO2007016445A2 (en) | System and method for optimizing the operation of an oversampled discrete fourier transform filter bank | |
Ali Khan et al. | Sparsity-aware adaptive directional time–frequency distribution for source localization | |
Yang et al. | A noise reduction method based on LMS adaptive filter of audio signals | |
Xie et al. | Underdetermined blind source separation of speech mixtures unifying dictionary learning and sparse representation | |
Das et al. | ICA methods for blind source separation of instantaneous mixtures: A case study | |
CN114373475A (zh) | 一种基于麦克风阵列的语音降噪方法、装置以及存储介质 | |
Albataineh et al. | A RobustICA-based algorithmic system for blind separation of convolutive mixtures | |
Hong et al. | Independent component analysis based single channel speech enhancement | |
Kulkarni et al. | Periodicity-aware signal denoising using Capon-optimized Ramanujan filter banks and pruned Ramanujan dictionaries | |
Makino et al. | Underdetermined blind source separation using acoustic arrays | |
Shivamurti et al. | Analytic discrete cosine harmonic wavelet transform (ADCHWT) and its application to signal/image denoising | |
Cichocki | Blind source separation: new tools for extraction of source signals and denoising | |
Onativia et al. | Finite dimensional FRI | |
CN111899754A (zh) | GA_FastICA算法的语音分离效果算法 | |
Shivamurti et al. | A dual tree complex discrete cosine Harmonic wavelet transform (ADCHWT) and its application to signal/image denoising | |
Ganage et al. | DTCWT-ICA based Improved DOA Estimation of Closely Spaced and Coherent Signals with Uniform Linear Array. | |
Pukenas | Three-mode biomedical signal denoising in the local phase space based on a tensor approach | |
Ling et al. | Optimal design of Hermitian transform and vectors of both mask and window coefficients for denoising applications with both unknown noise characteristics and distortions | |
CN117894332A (zh) | 一类基于克罗内克分解的时域多通道语音降噪方法 | |
Yue et al. | Application of the Recursive Hybird Myriad Filter in Seismic Data Denoising |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |