CN111402917B - 音频信号处理方法及装置、存储介质 - Google Patents
音频信号处理方法及装置、存储介质 Download PDFInfo
- Publication number
- CN111402917B CN111402917B CN202010176172.XA CN202010176172A CN111402917B CN 111402917 B CN111402917 B CN 111402917B CN 202010176172 A CN202010176172 A CN 202010176172A CN 111402917 B CN111402917 B CN 111402917B
- Authority
- CN
- China
- Prior art keywords
- signals
- frequency domain
- sound sources
- frame
- window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 121
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000000926 separation method Methods 0.000 claims abstract description 85
- 238000006243 chemical reaction Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims description 37
- 230000037433 frameshift Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000011914 asymmetric synthesis Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开是关于一种音频信号的处理方法及装置、存储介质。该方法包括:由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自在时域上的原始带噪信号;对于时域上的每一帧,采用第一非对称窗对所述至少两个麦克风各自的所述原始带噪信号进行加窗运算,获取加窗带噪信号;对所述加窗带噪信号进行时频转换,获取所述至少两个声源各自的频域带噪信号;根据所述频域带噪信号,获取所述至少两个声源的频域估计信号;根据所述频域估计信号,获得至少两个声源各自发出的音频信号。通过本公开实施例提供的技术方案,能够减少***延迟,提升分离效率。
Description
技术领域
本公开涉及信号处理领域,尤其涉及一种音频信号处理方法及装置、存储介质。
背景技术
相关技术中,智能产品设备拾音多采用麦克风阵列,应用麦克风波束形成技术提高语音信号处理质量,以提高真实环境下的语音识别率。但多个麦克风的波束形成技术对麦克风位置误差敏感,性能影响较大,另外麦克风个数增多了也会导致产品成本升高。
因此,目前越来越多的智能产品设备只配置两个麦克风;两个麦克风常采用完全不同于多个麦克风波束形成技术的盲源分离技术对语音进行增强,而如何提升盲源分离的处理效率,减少延迟是目前盲源分离技术中迫切需要解决的问题。
发明内容
本公开提供一种音频信号处理方法及装置、存储介质。
根据本公开实施例的第一方面,提供一种音频信号处理方法,包括:
由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自在时域上的原始带噪信号;
对于时域上的每一帧,采用第一非对称窗对所述至少两个麦克风各自的所述原始带噪信号进行加窗运算,获取加窗带噪信号;
对所述加窗带噪信号进行时频转换,获取所述至少两个声源各自的频域带噪信号;
根据所述频域带噪信号,获取所述至少两个声源的频域估计信号;
根据所述频域估计信号,获得至少两个声源各自发出的音频信号。
在一些实施例中,所述第一非对称窗hA(m)的定义域为大于或等于0且小于或等于N,峰值为hA(m1)=1,所述m1小于N且大于0.5N,所述N为所述音频信号的帧长。
在一些实施例中,所述第一非对称窗hA(m)包括:
其中,HK(x)是窗长为K的汉宁窗,所述M为帧移。
在一些实施例中,所述根据所述频域估计信号,获得至少两个声源各自发出的音频信号,包括:
对所述频域估计信号进行时频转换,获取至少两个声源各自的时域分离信号;
采用第二非对称窗对所述至少两个声源各自的时域分离信号进行加窗运算,获取加窗分离信号;
根据所述加窗分离信号,获取所述至少两个声源各自发出的音频信号。
在一些实施例中,所述采用第二非对称窗对所述至少两个声源各自的时域分离信号进行加窗运算,获取加窗分离信号,包括:
采用第二非对称窗hS(m)对第n帧所述时域分离信号进行加窗运算,得到第n帧加窗分离信号;
所述根据所述加窗分离信号,获取所述至少两个声源各自发出的音频信号,包括:
根据所述第n帧加窗分离信号叠加第n-1帧的音频信号,得到第n帧的音频信号,其中,n为大于1的整数。
在一些实施例中,所述第二非对称窗hS(m)的定义域为大于或等于0且小于或等于N,峰值为hS(m2)=1,所述m2等于N-M,所述N为所述音频信号的帧长,所述M为帧移。
在一些实施例中,所述第二非对称窗hS(m)包括:
其中,HK(x)是窗长为K的汉宁窗。
在一些实施例中,根据所述频域带噪信号,获取所述至少两个声源的频域估计信号,包括:
根据所述频域带噪信号,获取频域先验估计信号;
根据所述频域先验估计信号,确定各频点的分离矩阵;
根据所述分离矩阵和所述频域带噪信号,获取所述至少两个声源的所述频域估计信号。
根据本公开实施例的第二方面,提供一种音频信号处理装置,包括:
第一获取模块,用于由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自在时域上的原始带噪信号;
第一加窗模块,用于对于时域上的每一帧,采用第一非对称窗对所述至少两个麦克风各自的所述原始带噪信号进行加窗运算,获取加窗带噪信号;
第一转换模块,用于对所述加窗带噪信号进行时频转换,获取所述至少两个声源各自的频域带噪信号;
第二获取模块,用于根据所述频域带噪信号,获取所述至少两个声源的频域估计信号;
第三获取模块,用于根据所述频域估计信号,获得至少两个声源各自发出的音频信号。
在一些实施例中,所述第一非对称窗hA(m)的定义域为大于或等于0且小于或等于N,峰值为hA(m1)=1,所述m1小于N且大于0.5N,所述N为所述音频信号的帧长。
在一些实施例中,所述第一非对称窗hA(m)包括:
其中,HK(x)是窗长为K的汉宁窗,所述M为帧移。
在一些实施例中,所述第三获取模块,包括:
第二转换模块,用于对所述频域估计信号进行时频转换,获取至少两个声源各自的时域分离信号;
第二加窗模块,用于采用第二非对称窗对所述至少两个声源各自的时域分离信号进行加窗运算,获取加窗分离信号;
第一获取子模块,用于根据所述加窗分离信号,获取所述至少两个声源各自发出的音频信号。
在一些实施例中,所述第二加窗模块,具体用于:
采用第二非对称窗hS(m)对第n帧所述时域分离信号进行加窗运算,得到第n帧加窗分离信号;
所述第一获取子模块,具体用于:
根据所述第n帧加窗分离信号叠加第n-1帧的音频信号,得到第n帧的音频信号,其中,n为大于1的整数。
在一些实施例中,所述第二非对称窗hS(m)的定义域为大于或等于0且小于或等于N,峰值为hS(m2)=1,所述m2等于N-M,所述N为所述音频信号的帧长,所述M为帧移。
在一些实施例中,所述第二非对称窗hS(m)包括:
其中,HK(x)是窗长为K的汉宁窗。
在一些实施例中,根据第二获取模块,包括:
第二获取子模块,用于根据所述频域带噪信号,获取频域先验估计信号;
确定子模块,用于根据所述频域先验估计信号,确定各频点的分离矩阵;
第三获取子模块,用于根据所述分离矩阵和所述频域带噪信号,获取所述至少两个声源的所述频域估计信号。
根据本公开实施例的第三方面,提供一种音频信号处理装置,所述装置至少包括:处理器和用于存储能够在所述处理器上运行的可执行指令的存储器,其中:
处理器用于运行所述可执行指令时,所述可执行指令执行上述任一项音频信号处理方法中的步骤。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述任一项音频信号处理方法中的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:本公开实施例中通过加窗处理音频信号,使得每一帧音频信号由小变大,再由大变小。每相邻两帧之间存在重叠的区域,即帧移,从而使得分离后的信号能够保持连续性。同时,本公开实施例中采用非对称窗对音频信号进行加窗处理,从而使得帧移的长度可以根据实际需求来设定,如果设定较小的帧移,则可以带来较少的***延迟,进而提升处理效率,提升分离后的音频信号的时效性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种音频信号处理方法的流程图;
图2是根据一示例性实施例示出的一种音频信号处理方法的应用场景的框图;
图3是根据一示例性实施例示出的一种音频信号处理方法的流程图;
图4是根据一示例性实施例示出的一种非对称分析窗的函数图形;
图5是根据一示例性实施例示出的一种非对称合成窗的函数图形;
图6是根据一示例性实施例示出的一种音频信号处理装置的结构框图;
图7是根据一示例性实施例示出的一种音频信号处理装置的实体结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种音频信号处理方法的流程图,如图1所示,包括以下步骤:
步骤S101、由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自在时域上的原始带噪信号;
步骤S102、对于时域上的每一帧,采用第一非对称窗对所述至少两个麦克风各自的所述原始带噪信号进行加窗运算,获取加窗带噪信号;
步骤S103、对所述加窗带噪信号进行时频转换,获取所述至少两个声源各自的频域带噪信号;
步骤S104、根据所述频域带噪信号,获取所述至少两个声源的频域估计信号;
步骤S105、根据所述频域估计信号,获得至少两个声源各自发出的音频信号。
本公开实施例所述的方法应用在终端中。这里,所述终端为集成了两个或两个以上麦克风的电子设备。例如,所述终端可以为车载终端、计算机、或服务器等。
在一实施例中,所述终端还可以是:与集成了两个或两个以上麦克风的预定设备连接的电子设备;所述电子设备基于所述连接接收所述预定设备采集的音频信号,且基于所述连接将处理后的音频信号发送给所述预定设备。例如,所述预定设备为音箱等。
在实际应用中,所述终端中包括至少两个麦克风,所述至少两个麦克风同时检测至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号。这里,可以理解的是,本实施例中所述至少两个麦克风对所述两个声源发出的音频信号是同步进行检测的。
在本公开实施例的所述音频信号处理方法是,需要对预定时间内的音频帧的原始带噪信号获取完之后,才开始对该预定时间内的音频帧的音频信号进行分离。
在本公开实施例中,所述麦克风为2个或2个以上,所述声源为2个或2个以上。
在本公开实施例中,所述原始带噪信号为:包括至少两个声源发出的声音的混合信号。例如,所述麦克风为2个,分别为麦克风1和麦克风2;所述声源为2个,分别为声源1和声源2;则所述麦克风1的原始带噪信号为包括声源1和声源2的音频信号;所述麦克风2原始带噪信号同样也是均包括声源1和声源2音频信号。
例如,所述麦克风为3个,分别为麦克风1、麦克风2和麦克风3;所述声源为3个,分别为声源1、声源2和声源3;则所述麦克风1的原始带噪信号为包括声源1、声源2和声源3的音频信号;所述麦克风2和所述麦克风3的原始带噪信号同样也是均包括声源1、声源2和声源3的音频信号。
可以理解的是,若一个声源发出的声音在一个对应的麦克风中产生的信号为音频信号,则其它声源在所述麦克风中产生的信号为噪声信号。本公开实施例是需要从至少两个麦克风中恢复至少两个声源发出的声源。一般声源个数是与麦克风个数相同的,在一些实施例中,声源个数与麦克风个数也可以是不同的。
可以理解的是,麦克风采集声源发出声音的音频信号时,可以采集至少一帧音频帧的音频信号,此时采集到的音频信号为每一个麦克风的原始带噪信号。原始带噪信号可以是时域信号也可以是频域信号。如果原始带噪信号为时域信号,则可以根据时频转换的运算将时域信号转换为频域信号。
这里,时频转换是指时域信号与频域信号间的相互转换,可以基于快速傅里叶变换(FastFourierTransform,FFT),将时域信号进行频域变换。或者,可以基于短时傅里叶变换(short-timeFouriertransform,STFT),将时域信号进行频域变换。或者,还可以基于其它傅里叶变换,将时域信号进行频域变换。
示例性的,若第p个麦克风在第n帧的时域信号为:将第n帧的时域信号变变换为频域信号,确定第n帧的原始带噪信号为:/>其中,所述m为第n帧时域信号的离散时间点数量,k为频点。如此,本实施例可以通过所述时域到频域的变化,可以获得每一帧的原始带噪信号。当然,获取每一帧的原始带噪信号也可以基于其它的快速傅里叶变换公式,在此不做限制。
在本公开实施例中,采用非对称的分析窗对时域的原始带噪信号进行加窗运算,通过第一非对称窗截取每一帧的信号段,得到每一帧的加窗带噪信号。由于语音数据和视频数据不同,本没有帧的概念,但是为了传输与存储,以及程序能够进行批量处理,会根据指定的时间段或者离散时间点数进行分段,形成时域上的音频帧。然而,直接分段形成音频帧可能会破坏音频信号的连续性。为了保证音频信号的连续性,帧与帧之间需要保留重叠的部分数据,也就是存在帧移,相邻两针重叠的部分就是帧移。
这里,非对称窗是指窗函数的函数波形所形成的图形为非对称图形,例如,以峰值为轴的两侧的函数波形非对称。
在本公开实施例中,采用窗函数对音频信号对每一帧信号进行处理,使得信号从最小变化到最大,然后再变化到最小。这样,相邻两帧的重叠部分叠加后也不会造成失真。
如果采用对称的窗函数对音频信号进行处理,则帧移为帧长的一半,这样会导致较大的***延迟,从而降低分离效率,影响实时交互体验。因此,在本公开实施例中,采用非对称窗对音频信号进行加窗处理,使得每一帧音频信号加窗后强度较大的信号位于前半段或者后半段,这样,可以使相邻两帧信号之间的重叠部分集中在较短的区间内,从而减少延迟,提升分离效率。
在一些实施例中,所述第一非对称窗hA(m)的定义域为大于或等于0且小于或等于N,峰值为hA(m1)=1,所述m1小于N且大于0.5N,所述N为所述音频信号的帧长。
在本公开实施例中,采用第一非对称窗hA(m)作为分析窗来对每一帧原始带噪信号进行加窗处理。***的帧长为N,窗长则也为N,即每一帧信号具有N个离散时间点的音频信号采样。
这里,根据第一非对称窗hA(m)进行加窗处理,实际上是对一帧音频信号的每个时间点上的采样值乘以函数hA(m)的对应时间点的函数值,使得加窗后的每一帧的音频信号从0逐渐增大,再逐渐减小。在第一非对称窗的峰值的时间点m1处,加窗后的音频信号与原始音频信号相同。
在本公开实施例中,第一非对称窗的峰值所在的时间点m1小于N且大于0.5N,也就是在中心点以后,这样,可以减少相邻两帧之间重叠部分,也就是减少帧移,从而减少***延迟,提升信号处理的效率。
在一些实施例中,所述第一非对称窗hA(m)包括如下公式(1):
其中,HK(x)是窗长为K的汉宁窗,所述M为帧移。
本公开实施例中,提供公式(1)所示的第一非对称窗,在时间点m取值小于N-M时,第一非对称窗的函数由来表示。其中,H2(N-M)(m)为窗长为2(N-M)的汉宁窗。汉宁窗为余弦窗的一种,可以由如下公式(2)来表示:
而对于时间点m取值大于N-M时,第一非对称窗的函数由来表示。其中,H2M(m-(N-2M))为窗长为2M的汉宁窗。
如此,第一非对称窗的峰值位于m=N-M处。为了降低延迟,可以将帧移M设置较小,例如,M=N/4或M=N/8等等。这样,***的总延迟只有2M,而小于N,因此,能够达到降低延迟的作用。
在一些实施例中,所述根据所述频域估计信号,获得至少两个声源各自发出的音频信号,包括:
对所述频域估计信号进行时频转换,获取至少两个声源各自的时域分离信号;
采用第二非对称窗对所述至少两个声源各自的时域分离信号进行加窗运算,获取加窗分离信号;
根据所述加窗分离信号,获取所述至少两个声源各自发出的音频信号。
在本公开实施例中,原始带噪信号经过加窗处理以及视频转换后,转换为频域带噪信号。根据频域带噪信号,进行分离处理,可以获取到分离后的至少两个声源的频域信号。为了还原出至少两个声源的音频信号,需要先将得到的频域信号经过时频转换回到时域。
时频转换可以基于快速傅里叶逆变换(InverseFastFourierTransform,IFFT),将频域信号进行时域变换。或者,可以基于短时傅里叶逆变换(Inverseshort-timeFouriertransform,ISTFT),将频域信号变成时域信号。或者,还可以基于其它傅里叶逆变换,将频域信号进行时域变换。
回到时域的分离信号为各声源分为不同帧的时域分离信号,为了得到声源发出连续的音频信号,可以通过再次加窗处理,去除不需要的重复部分。然后进行合成,得到连续的音频信号,还原出声源各自发出的音频信号。
如此,能够减少还原出的音频信号中的噪声,提升信号质量。
在一些实施例中,所述采用第二非对称窗对所述至少两个声源各自的时域分离信号进行加窗运算,获取加窗分离信号,包括:
采用第二非对称窗hS(m)对第n帧所述时域分离信号进行加窗运算,得到第n帧加窗分离信号;
所述根据所述加窗分离信号,获取所述至少两个声源各自发出的音频信号,包括:
根据所述第n帧加窗分离信号叠加第n-1帧的音频信号,得到第n帧的音频信号,其中,n为大于1的整数。
在本公开实施例中,采用第二非对称窗作为合成窗对上述时域分离信号进行加窗处理,得到加窗分离信号。然后将每一帧的加窗分离信号与上一帧时域重叠的部分相加,得到当前帧的时域分离信号。如此,能够使还原出的音频信号保持连续性,更加接近原始的声源发出的音频信号,提升还原出的音频信号质量。
在一些实施例中,所述第二非对称窗hS(m)的定义域为大于或等于0且小于或等于N,峰值为hS(m2)=1,所述m2等于N-M,所述N为所述音频信号的帧长,所述M为帧移。
在本公开实施例中,采用第二非对称窗作为合成窗对分离后的每一帧音频信号进行加窗处理。第二非对称窗可以仅在帧移的两倍长度内取值,截取每一帧的后2M段音频,再与前一帧的重叠部分,也就是帧移部分相加,得到当前帧的时域分离信号。这样,经过处理后的每一帧连续起来就还原出了原始的声源发出的音频信号。
在一些实施例中,所述第二非对称窗hS(m)包括:
其中,HK(x)是窗长为K的汉宁窗。
本公开实施例中,提供公式(3)所示的第二非对称窗,在时间点m取值小于N-M且大于N-2M+1时,第一非对称窗的函数由来表示。其中,H2(N-M)(m)为窗长为2(N-M)的汉宁窗。H2M(m-(N-2M))为窗长为2M的汉宁窗。
而对于时间点m取值大于N-M时,第二非对称窗的函数由来表示。其中,H2M(m-(N-2M))为窗长为2M的汉宁窗。如此,第二非对称窗的峰值也位于m=N-M处。
在一些实施例中,根据所述频域带噪信号,获取所述至少两个声源的频域估计信号,包括:
根据所述频域带噪信号,获取频域先验估计信号;
根据所述频域先验估计信号,确定各频点的分离矩阵;
根据所述分离矩阵和所述频域带噪信号,获取所述至少两个声源的所述频域估计信号。
根据初始化的分离矩阵,或者上一帧的分离矩阵,可以对频域带噪信号进行初步的分离,得到先验估计信号,然后再根据先验估计信号,对分离矩阵进行更新。最后再根据分离矩阵对频域带噪信号进行分离,得到分离后的频域估计信号,即频域后验估计信号。
示例性的,上述分离矩阵可以基于协方差矩阵解得的特征值确定得到。协方差矩阵Vp(k,n)满足如下关系其中,β为平滑系数,Vp(k,n-1)为上一帧的协方差矩阵,Xp(k,n)为当前帧的原始带噪信号,即频域带噪信号。/>为当前帧的原始带噪信号的共轭转置矩阵。/>为加权系数。其中,/>为辅助变量。/>称为对比函数。这里,/>代表了第p个声源的基于整个频带的多维超高斯先验概率密度分布模型,也就是上述分布函数。/>为Yp(n)的共轭矩阵,Yp(n)为第p个声源在第n帧的频域估计信号,Yp(k,n)表示第p个声源在第n帧第k个频点的频域估计信号,即频域先验估计信号。
通过上述方法更新分离矩阵,能够以更高的分离性能分离得到更加准确的频域估计信号,进行时频转换后,即可还原出声源发出的音频信号。
本公开实施例还提供以下示例:
图3是根据一示例性实施例示出的一种音频信号处理方法的流程图;其中,所述音频信号处理方法中,如图2所示,声源包括声源1和声源2,麦克风包括麦克风1和麦克风2。基于所述音频信号处理方法,从麦克风1和麦克风2的原始带噪信号中恢复出声源1和声源2的音频信号。如图3所示,所述方法包括以下步骤:
步骤S301:初始化W(k)和Vp(k);
其中,初始化包括以下步骤:设***帧长为Nfft,则频点K=Nfft/2+1。
1)初始化各个频点的分离矩阵;
其中,所述/>为单位矩阵;所述k为频点;所述k=1,L,K。
2)初始化各声源在各个频点的加权协方差矩阵Vp(k)。
其中,/>为零矩阵;其中,所述p用于表示麦克风;p=1,2。
步骤S302:获得第p个麦克风在第n帧的原始带噪信号;
以代表第p个麦克风的一帧时域信号。m=1,..,Nfft。Nfft代表***帧长,也是FFT的长度。帧移为M。
对加非对称分析窗并进行FFT得:
其中,所述m为傅里叶变换所选取的点数;其中,所述FFT为快速傅里叶变换;所述为第p个麦克风第n帧的时域信号;这里,所述时域信号为原始带噪信号。所述hA(m)为非对称分析窗。
此时,Xp(k,n)的观测信号为:X(k,n)=[X1(k,n),X2(k,n)]T;其中,[X1(k,n),X2(k,n)]T为转置矩阵。
STFT是对当前帧时域信号乘上分析窗并进行FFT得到时频数据。当算法由估计出分离矩阵得到分离后的信号的时频数据后进行IFFT回到时域,然后再乘上合成窗,与上一帧输出的时域重叠部分进行相加得到重建的分离后的时域信号,这称作重叠相加技术。
现有的加窗算法一般采用基于对称的汉宁窗或者海明窗等窗函数。示例性地,可以使用根号周期汉宁窗:
其中,帧移窗长N=Nfft。***延迟为Nfft点。由于Nfft一般为4096或者更大,在fs=16kHz***采样率下,此时延迟为256ms或者更大。
在本公开实施例中,采用非对称分析窗与合成窗,设窗长为N=Nfft,帧移为M。为了低延迟,此时的M一般较小。示例性地,可设为或者其他值。
示例性地,非对称分析窗可以采用如下函数:
非对称合成窗可以采用如下函数:
当N=4096,M=512时,上述非对称分析窗的函数曲线如图4所示;上述非对称合成窗的函数曲线如图5所示。
步骤S303:利用上一帧的W(k)获得两个声源信号的先验频域估计;
令两个声源信号的先验频域估计Y(k,n)=[Y1(k,n),Y2(k,n)]T,其中Y1(k,n),Y2(k,n)分别为声源1和声源2在时频点(k,n)处的估计值。
通过分离矩阵W(k)对观测矩阵X(k,n)进行分离得到:Y(k,n)=W(k)'X(k,n);其中,W'(k)为上一帧(即当前帧的前一帧)的分离矩阵。
则第p个声源在第n帧的先验频域估计为:
步骤S304:更新加权协方差矩阵Vp(k,n);
计算更新的加权协方差矩阵:其中,所述β为平滑系数。在一实施例中,所述β为0.98;其中,所述Vp(k,n-1)为上一帧的加权协方差矩阵;所述/>为Xp(k,n)的共轭转置;所述/>为加权系数,其中,所述/>为辅助变量;所述/>为对比函数。
其中,所述代表了第p个声源的基于整个频带的多维超高斯先验概率密度函数。在一实施例中,/>此时,若所述/>则所述/>
步骤S305:解特征问题,以求得特征向量ep(k,n);
这里,所述ep(k,n)为第p个麦克风对应的特征向量。
其中,求所述特征问题:V2(k,n)ep(k,n)=λp(k,n)V1(k,n)ep(k,n),得到,
其中,tr(A)是迹函数,tr(A)即对矩阵A主对角线上的元素求和;det(A)为对矩阵A求行列式;λ1、λ2、e1以及e2为特征值。
步骤S306:获得各个频点的更新后的分离矩阵W(k);
基于上述特征问题的特征向量,求得更新后的当前帧的分离矩阵
步骤S307:利用当前帧的W(k)获得两个声源信号的后验频域估计;
利用当前帧的W(k)对原始带噪信号进行分离得到两个声源信号的后验频域估计Y(k,n)=[Y1(k,n),Y2(k,n)]T=W(k)X(k,n)。
步骤S308:根据后验频域估计进行时频转换得到分离后的时域信号。
进行IFFT,加合成窗,和上一帧时域重叠部分相加,得当前帧的时域分离信号yp(m),p=1,2
其中,为当前帧的时域信号加窗处理后的信号;/>为当前帧以前的各帧的时域重叠部分,/>为当前帧时域重叠部分。
更新给下一帧重叠相加使用/>
分别对进行ISTFT和重叠相加得到分离后的时域声源信号/>即/>其中m=1,…,Nfft。p=1,2。
经过上述分析窗与合成窗的处理,最终,***延迟为2M点,时延为2M/fs单位ms(毫秒)。在改变FFT点数的情况下,通过控制M的大小就可以得到满足实际需要的***延迟,解决了***延迟和算法性能之间的矛盾。
图6是根据一示例性实施例示出的一种音频信号处理装置的框图。参照图6,该装置600包括第一获取模块601、第一加窗模块602、第一转换模块603、第二获取模块604和第三获取模块605。
第一获取模块601,用于由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自在时域上的原始带噪信号;
第一加窗模块602,用于对于时域上的每一帧,采用第一非对称窗对所述至少两个麦克风各自的所述原始带噪信号进行加窗运算,获取加窗带噪信号;
第一转换模块603,用于对所述加窗带噪信号进行时频转换,获取所述至少两个声源各自的频域带噪信号;
第二获取模块604,用于根据所述频域带噪信号,获取所述至少两个声源的频域估计信号;
第三获取模块605,用于根据所述频域估计信号,获得至少两个声源各自发出的音频信号。
在一些实施例中,所述第一非对称窗hA(m)的定义域为大于或等于0且小于或等于N,峰值为hA(m1)=1,所述m1小于N且大于0.5N,所述N为所述音频信号的帧长。
在一些实施例中,所述第一非对称窗hA(m)包括:
其中,HK(x)是窗长为K的汉宁窗,所述M为帧移。
在一些实施例中,所述第三获取模块,包括:
第二转换模块,用于对所述频域估计信号进行时频转换,获取至少两个声源各自的时域分离信号;
第二加窗模块,用于采用第二非对称窗对所述至少两个声源各自的时域分离信号进行加窗运算,获取加窗分离信号;
第一获取子模块,用于根据所述加窗分离信号,获取所述至少两个声源各自发出的音频信号。
在一些实施例中,所述第二加窗模块,具体用于:
采用第二非对称窗hS(m)对第n帧所述时域分离信号进行加窗运算,得到第n帧加窗分离信号;
所述第一获取子模块,具体用于:
根据所述第n帧加窗分离信号叠加第n-1帧的音频信号,得到第n帧的音频信号,其中,n为大于1的整数。
在一些实施例中,所述第二非对称窗hS(m)的定义域为大于或等于0且小于或等于N,峰值为hS(m2)=1,所述m2等于N-M,所述N为所述音频信号的帧长,所述M为帧移。
在一些实施例中,所述第二非对称窗hS(m)包括:
其中,HK(x)是窗长为K的汉宁窗。
在一些实施例中,根据第二获取模块,包括:
第二获取子模块,用于根据所述频域带噪信号,获取频域先验估计信号;
确定子模块,用于根据所述频域先验估计信号,确定各频点的分离矩阵;
第三获取子模块,用于根据所述分离矩阵和所述频域带噪信号,获取所述至少两个声源的所述频域估计信号。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种音频信号处理装置700的实体结构框图。例如,装置700可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。
参照图7,装置700可以包括以下一个或多个组件:处理组件701,存储器702,电源组件703,多媒体组件704,音频组件705,输入/输出(I/O)接口706,传感器组件707,以及通信组件708。
处理组件701通常控制装置700的整体操作,诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件701可以包括一个或多个处理器710来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件701还可以包括一个或多个模块,便于处理组件701和其他组件之间的交互。例如,处理组件701可以包括多媒体模块,以方便多媒体组件704和处理组件701之间的交互。
存储器710被配置为存储各种类型的数据以支持在装置700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。
电源组件703为装置700的各种组件提供电力。电源组件703可以包括:电源管理***,一个或多个电源,及其他与为装置700生成、管理和分配电力相关联的组件。
多媒体组件704包括在所述装置700和用户之间提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件704包括一个前置摄像头和/或后置摄像头。当装置700处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和/或后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件705被配置为输出和/或输入音频信号。例如,音频组件705包括一个麦克风(MIC),当装置700处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器710或经由通信组件708发送。在一些实施例中,音频组件705还包括一个扬声器,用于输出音频信号。
I/O接口706为处理组件701和***接口模块之间提供接口,上述***接口模块可以是键盘、点击轮、按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件707包括一个或多个传感器,用于为装置700提供各个方面的状态评估。例如,传感器组件707可以检测到装置700的打开/关闭状态、组件的相对定位,例如所述组件为装置700的显示器和小键盘,传感器组件707还可以检测装置700或装置700的一个组件的位置改变,用户与装置700接触的存在或不存在,装置700方位或加速/减速和装置700的温度变化。传感器组件707可以包括接近传感器,被配置为在没有任何的物理接触时检测附近物体的存在。传感器组件707还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件707还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。
通信组件708被配置为便于装置700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络,如WiFi、2G或3G,或它们的组合。在一个示例性实施例中,通信组件708经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件708还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术或其他技术来实现。
在示例性实施例中,装置700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器702,上述指令可由装置700的处理器710执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述实施例中提供的任一种方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (16)
1.一种音频信号处理方法,其特征在于,包括:
由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自在时域上的原始带噪信号;
对于时域上的每一帧,采用第一非对称窗对所述至少两个麦克风各自的所述原始带噪信号进行加窗运算,获取加窗带噪信号;
对所述加窗带噪信号进行时频转换,获取所述至少两个声源各自的频域带噪信号;
根据所述频域带噪信号,获取所述至少两个声源的频域估计信号;
根据所述频域估计信号,获得至少两个声源各自发出的音频信号;其中,
所述根据所述频域估计信号,获得至少两个声源各自发出的音频信号,包括:
对所述频域估计信号进行时频转换,获取至少两个声源各自的时域分离信号;
采用第二非对称窗对所述至少两个声源各自的时域分离信号进行加窗运算,获取加窗分离信号;
根据所述加窗分离信号,获取所述至少两个声源各自发出的音频信号。
2.根据权利要求1所述的方法,其特征在于,所述第一非对称窗hA(m)的定义域为大于或等于0且小于或等于N,峰值为hA(m1)=1,所述m1小于N且大于0.5N,所述m为所述第一非对称窗hA(m)对应的时间点,所述m1为所述第一非对称窗hA(m)的峰值的时间点,所述N为所述音频信号的帧长。
3.根据权利要求2所述的方法,其特征在于,所述第一非对称窗hA(m)包括:
其中,HK(x)是窗长为K的汉宁窗,所述M为帧移。
4.根据权利要求1所述的方法,其特征在于,所述采用第二非对称窗对所述至少两个声源各自的时域分离信号进行加窗运算,获取加窗分离信号,包括:
采用第二非对称窗hS(m)对第n帧所述时域分离信号进行加窗运算,得到第n帧加窗分离信号;
所述根据所述加窗分离信号,获取所述至少两个声源各自发出的音频信号,包括:
根据所述第n帧加窗分离信号叠加第n-1帧的音频信号,得到第n帧的音频信号,其中,n为大于1的整数。
5.根据权利要求1所述的方法,其特征在于,所述第二非对称窗hS(m)的定义域为大于或等于0且小于或等于N,峰值为hS(m2)=1,所述m2等于N-M,所述m为所述第二非对称窗hS(m)对应的时间点,所述m2为所述第二非对称窗hS(m)的峰值的时间点,所述N为所述音频信号的帧长,所述M为帧移。
6.根据权利要求5所述的方法,其特征在于,所述第二非对称窗hS(m)包括:
其中,HK(x)是窗长为K的汉宁窗。
7.根据权利要求1所述的方法,其特征在于,根据所述频域带噪信号,获取所述至少两个声源的频域估计信号,包括:
根据所述频域带噪信号,获取频域先验估计信号;
根据所述频域先验估计信号,确定各频点的分离矩阵;
根据所述分离矩阵和所述频域带噪信号,获取所述至少两个声源的所述频域估计信号。
8.一种音频信号处理装置,其特征在于,包括:
第一获取模块,用于由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自在时域上的原始带噪信号;
第一加窗模块,用于对于时域上的每一帧,采用第一非对称窗对所述至少两个麦克风各自的所述原始带噪信号进行加窗运算,获取加窗带噪信号;
第一转换模块,用于对所述加窗带噪信号进行时频转换,获取所述至少两个声源各自的频域带噪信号;
第二获取模块,用于根据所述频域带噪信号,获取所述至少两个声源的频域估计信号;
第三获取模块,用于根据所述频域估计信号,获得至少两个声源各自发出的音频信号;其中,
所述第三获取模块,包括:
第二转换模块,用于对所述频域估计信号进行时频转换,获取至少两个声源各自的时域分离信号;
第二加窗模块,用于采用第二非对称窗对所述至少两个声源各自的时域分离信号进行加窗运算,获取加窗分离信号;
第一获取子模块,用于根据所述加窗分离信号,获取所述至少两个声源各自发出的音频信号。
9.根据权利要求8所述的装置,其特征在于,所述第一非对称窗hA(m)的定义域为大于或等于0且小于或等于N,峰值为hA(m1)=1,所述m1小于N且大于0.5N,所述m为所述第一非对称窗hA(m)对应的时间点,所述m1为所述第一非对称窗hA(m)的峰值的时间点,所述N为所述音频信号的帧长。
10.根据权利要求9所述的装置,其特征在于,所述第一非对称窗hA(m)包括:
其中,HK(x)是窗长为K的汉宁窗,所述M为帧移。
11.根据权利要求8所述的装置,其特征在于,所述第二加窗模块,具体用于:
采用第二非对称窗hS(m)对第n帧所述时域分离信号进行加窗运算,得到第n帧加窗分离信号;
所述第一获取子模块,具体用于:
根据所述第n帧加窗分离信号叠加第n-1帧的音频信号,得到第n帧的音频信号,其中,n为大于1的整数。
12.根据权利要求11所述的装置,其特征在于,所述第二非对称窗hS(m)的定义域为大于或等于0且小于或等于N,峰值为hS(m2)=1,所述m2等于N-M,所述m为所述第二非对称窗hS(m)对应的时间点,所述m2为所述第二非对称窗hS(m)的峰值的时间点,所述N为所述音频信号的帧长,所述M为帧移。
13.根据权利要求12所述的装置,其特征在于,所述第二非对称窗hS(m)包括:
其中,HK(x)是窗长为K的汉宁窗。
14.根据权利要求8所述的装置,其特征在于,根据第二获取模块,包括:
第二获取子模块,用于根据所述频域带噪信号,获取频域先验估计信号;
确定子模块,用于根据所述频域先验估计信号,确定各频点的分离矩阵;
第三获取子模块,用于根据所述分离矩阵和所述频域带噪信号,获取所述至少两个声源的所述频域估计信号。
15.一种音频信号处理装置,其特征在于,所述装置至少包括:处理器和用于存储能够在所述处理器上运行的可执行指令的存储器,其中:
处理器用于运行所述可执行指令时,所述可执行指令执行上述权利要求1至7任一项提供的音频信号处理方法中的步骤。
16.一种非临时性计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述权利要求1至7任一项提供的音频信号处理方法中的步骤。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010176172.XA CN111402917B (zh) | 2020-03-13 | 2020-03-13 | 音频信号处理方法及装置、存储介质 |
JP2020129305A JP7062727B2 (ja) | 2020-03-13 | 2020-07-30 | オーディオ信号処理方法および装置、記憶媒体 |
KR1020200095606A KR102497549B1 (ko) | 2020-03-13 | 2020-07-31 | 오디오 신호 처리 방법 및 장치, 저장 매체 |
US16/987,915 US11490200B2 (en) | 2020-03-13 | 2020-08-07 | Audio signal processing method and device, and storage medium |
EP20193324.9A EP3879529A1 (en) | 2020-03-13 | 2020-08-28 | Frequency-domain audio source separation using asymmetric windowing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010176172.XA CN111402917B (zh) | 2020-03-13 | 2020-03-13 | 音频信号处理方法及装置、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111402917A CN111402917A (zh) | 2020-07-10 |
CN111402917B true CN111402917B (zh) | 2023-08-04 |
Family
ID=71430799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010176172.XA Active CN111402917B (zh) | 2020-03-13 | 2020-03-13 | 音频信号处理方法及装置、存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11490200B2 (zh) |
EP (1) | EP3879529A1 (zh) |
JP (1) | JP7062727B2 (zh) |
KR (1) | KR102497549B1 (zh) |
CN (1) | CN111402917B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114007176B (zh) * | 2020-10-09 | 2023-12-19 | 上海又为智能科技有限公司 | 用于降低信号延时的音频信号处理方法、装置及存储介质 |
CN112599144B (zh) * | 2020-12-03 | 2023-06-06 | Oppo(重庆)智能科技有限公司 | 音频数据处理方法、音频数据处理装置、介质与电子设备 |
CN113053406B (zh) * | 2021-05-08 | 2024-06-18 | 北京小米移动软件有限公司 | 声音信号识别方法及装置 |
CN113362847A (zh) * | 2021-05-26 | 2021-09-07 | 北京小米移动软件有限公司 | 音频信号处理方法及装置、存储介质 |
CN114501283B (zh) * | 2022-04-15 | 2022-06-28 | 南京天悦电子科技有限公司 | 一种针对数字助听器的低复杂度双麦克风定向拾音方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW454168B (en) * | 1998-08-24 | 2001-09-11 | Conexant Systems Inc | Speech encoder using voice activity detection in coding noise |
WO2007095664A1 (en) * | 2006-02-21 | 2007-08-30 | Dynamic Hearing Pty Ltd | Method and device for low delay processing |
CN101405791A (zh) * | 2006-10-25 | 2009-04-08 | 弗劳恩霍夫应用研究促进协会 | 用于产生音频子带值的装置和方法以及用于产生时域音频采样的装置和方法 |
CN107077854A (zh) * | 2014-07-28 | 2017-08-18 | 弗劳恩霍夫应用研究促进协会 | 用于使用截短分析或合成窗口重叠部分对音频信号进行处理的处理器、方法及计算机程序 |
WO2019203127A1 (ja) * | 2018-04-19 | 2019-10-24 | 国立大学法人電気通信大学 | 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2820227B1 (fr) | 2001-01-30 | 2003-04-18 | France Telecom | Procede et dispositif de reduction de bruit |
US7343283B2 (en) | 2002-10-23 | 2008-03-11 | Motorola, Inc. | Method and apparatus for coding a noise-suppressed audio signal |
JP4172530B2 (ja) * | 2005-09-02 | 2008-10-29 | 日本電気株式会社 | 雑音抑圧の方法及び装置並びにコンピュータプログラム |
US8073147B2 (en) | 2005-11-15 | 2011-12-06 | Nec Corporation | Dereverberation method, apparatus, and program for dereverberation |
US8046219B2 (en) * | 2007-10-18 | 2011-10-25 | Motorola Mobility, Inc. | Robust two microphone noise suppression system |
US8577677B2 (en) * | 2008-07-21 | 2013-11-05 | Samsung Electronics Co., Ltd. | Sound source separation method and system using beamforming technique |
KR101529647B1 (ko) * | 2008-07-22 | 2015-06-30 | 삼성전자주식회사 | 빔포밍 기술을 이용한 음원 분리 방법 및 시스템 |
JP4660578B2 (ja) | 2008-08-29 | 2011-03-30 | 株式会社東芝 | 信号補正装置 |
JP5687522B2 (ja) | 2011-02-28 | 2015-03-18 | 国立大学法人 奈良先端科学技術大学院大学 | 音声強調装置、方法、及びプログラム |
JP5443547B2 (ja) * | 2012-06-27 | 2014-03-19 | 株式会社東芝 | 信号処理装置 |
CN106409304B (zh) * | 2014-06-12 | 2020-08-25 | 华为技术有限公司 | 一种音频信号的时域包络处理方法及装置、编码器 |
CN106504763A (zh) * | 2015-12-22 | 2017-03-15 | 电子科技大学 | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 |
CN109285557B (zh) * | 2017-07-19 | 2022-11-01 | 杭州海康威视数字技术股份有限公司 | 一种定向拾音方法、装置及电子设备 |
CN110189763B (zh) * | 2019-06-05 | 2021-07-02 | 普联技术有限公司 | 一种声波配置方法、装置及终端设备 |
-
2020
- 2020-03-13 CN CN202010176172.XA patent/CN111402917B/zh active Active
- 2020-07-30 JP JP2020129305A patent/JP7062727B2/ja active Active
- 2020-07-31 KR KR1020200095606A patent/KR102497549B1/ko active IP Right Grant
- 2020-08-07 US US16/987,915 patent/US11490200B2/en active Active
- 2020-08-28 EP EP20193324.9A patent/EP3879529A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW454168B (en) * | 1998-08-24 | 2001-09-11 | Conexant Systems Inc | Speech encoder using voice activity detection in coding noise |
WO2007095664A1 (en) * | 2006-02-21 | 2007-08-30 | Dynamic Hearing Pty Ltd | Method and device for low delay processing |
CN101405791A (zh) * | 2006-10-25 | 2009-04-08 | 弗劳恩霍夫应用研究促进协会 | 用于产生音频子带值的装置和方法以及用于产生时域音频采样的装置和方法 |
CN107077854A (zh) * | 2014-07-28 | 2017-08-18 | 弗劳恩霍夫应用研究促进协会 | 用于使用截短分析或合成窗口重叠部分对音频信号进行处理的处理器、方法及计算机程序 |
WO2019203127A1 (ja) * | 2018-04-19 | 2019-10-24 | 国立大学法人電気通信大学 | 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2021149084A (ja) | 2021-09-27 |
US11490200B2 (en) | 2022-11-01 |
KR20210117120A (ko) | 2021-09-28 |
JP7062727B2 (ja) | 2022-05-06 |
US20210289293A1 (en) | 2021-09-16 |
CN111402917A (zh) | 2020-07-10 |
EP3879529A1 (en) | 2021-09-15 |
KR102497549B1 (ko) | 2023-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111402917B (zh) | 音频信号处理方法及装置、存储介质 | |
CN111128221B (zh) | 一种音频信号处理方法、装置、终端及存储介质 | |
CN111009256B (zh) | 一种音频信号处理方法、装置、终端及存储介质 | |
CN111009257B (zh) | 一种音频信号处理方法、装置、终端及存储介质 | |
CN111429933B (zh) | 音频信号的处理方法及装置、存储介质 | |
CN111179960B (zh) | 音频信号处理方法及装置、存储介质 | |
CN111883164B (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN113314135B (zh) | 声音信号识别方法及装置 | |
CN111986693A (zh) | 音频信号的处理方法及装置、终端设备和存储介质 | |
US11430460B2 (en) | Method and device for processing audio signal, and storage medium | |
CN113053406B (zh) | 声音信号识别方法及装置 | |
CN112447184B (zh) | 语音信号处理方法及装置、电子设备、存储介质 | |
CN112201267A (zh) | 一种音频处理方法、装置、电子设备及存储介质 | |
CN112863537B (zh) | 一种音频信号处理方法、装置及存储介质 | |
CN111667842B (zh) | 音频信号处理方法及装置 | |
CN113223553B (zh) | 分离语音信号的方法、装置及介质 | |
CN111429934B (zh) | 音频信号处理方法及装置、存储介质 | |
CN113362847A (zh) | 音频信号处理方法及装置、存储介质 | |
CN118016078A (zh) | 音频处理方法、装置、电子设备及存储介质 | |
CN118038889A (zh) | 音频数据处理方法、装置、电子设备及存储介质 | |
CN114724578A (zh) | 一种音频信号处理方法、装置及存储介质 | |
CN117877507A (zh) | 语音信号增强方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information |
Address after: 100085 unit C, building C, lin66, Zhufang Road, Qinghe, Haidian District, Beijing Applicant after: Beijing Xiaomi pinecone Electronic Co.,Ltd. Address before: 100085 unit C, building C, lin66, Zhufang Road, Qinghe, Haidian District, Beijing Applicant before: BEIJING PINECONE ELECTRONICS Co.,Ltd. |
|
CB02 | Change of applicant information | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |