CN112002339B - 语音降噪方法和装置、计算机可读的存储介质及电子装置 - Google Patents
语音降噪方法和装置、计算机可读的存储介质及电子装置 Download PDFInfo
- Publication number
- CN112002339B CN112002339B CN202010713823.4A CN202010713823A CN112002339B CN 112002339 B CN112002339 B CN 112002339B CN 202010713823 A CN202010713823 A CN 202010713823A CN 112002339 B CN112002339 B CN 112002339B
- Authority
- CN
- China
- Prior art keywords
- voice data
- data
- voice
- noise reduction
- probability function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 136
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000000926 separation method Methods 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 104
- 230000009466 transformation Effects 0.000 claims description 31
- 230000000694 effects Effects 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 12
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种语音降噪方法和装置、计算机可读的存储介质及电子装置。其中,该方法包括:通过对待降噪的语音数据进行语音分离,得到语音数据的第一语音数据和第二语音数据,确定对应第一语音数据的第一概率函数和对应第二语音数据的第二概率函数;通过第一概率函数和第二概率函数确定语音数据的目标降噪数据;通过降噪数据对语音数据进行降噪处理,得到目标语音数据,达到了将进行降噪的语音数据分离为两个支路,即第一语音数据和第二语音数据,再利用通过两个支路中分离出的噪声数据对混有噪声的语音数据进行降噪的目的,进而解决了现有技术中,对语音降噪的精确性不高的技术问题。
Description
技术领域
本发明涉及语音处理领域,具体而言,涉及一种语音降噪方法和装置、计算机可读的存储介质及电子装置。
背景技术
语音信号处理技术是当今人机交互领域的一项关键技术,而语音降噪可以实现对输入语音的增强,得到较纯净的音频,对后端的语音识别具有极其重要的作用,是语音信号处理的关键技术。
目前的语音降噪方法,主要采用的是开源工具WebRTC中的降噪方法,即:对输入音频计算频谱平坦度、对数似然比(LRT)特征、频谱差异特征,根据特征更新语音/噪声的概率函数,根据概率函数更新噪声估计,根据噪声估计得到维纳滤波器,利用维纳滤波器实现对输入音频的降噪。这种方法直接在当前输入的带噪信号中进行噪声和信号的估计,因此估计噪声的时候,信号分量必定会影响噪声的准确估计,噪声的估计也必定影响噪声的估计,从而影响最终的降噪效果。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语音降噪方法和装置、计算机可读的存储介质及电子装置,以至少解决现有技术中,对语音降噪的精确性不高的技术问题。
根据本发明实施例的一个方面,提供了一种语音降噪方法,包括:对待降噪的语音数据进行语音分离,得到所述语音数据的第一语音数据和第二语音数据,其中,所述第一语音数据中的语音信号所占比例大于第一阈值,所述第二语音数据中的噪音信号所占比例大于第二阈值的语音数据;对所述第一语音数据和所述第二语音数据分别进行时频变换,确定对应所述第一语音数据的第一概率函数和对应所述第二语音数据的第二概率函数;通过所述第一概率函数和所述第二概率函数确定所述语音数据的目标降噪数据;通过所述降噪数据对所述语音数据进行降噪处理,得到目标语音数据。
根据本发明实施例的另一方面,还提供了一种语音降噪装置,包括:分离单元,用于对待降噪的语音数据进行语音分离,得到所述语音数据的第一语音数据和第二语音数据,其中,所述第一语音数据中的语音数据所占比例大于第一阈值,所述第二语音数据中的噪音数据所占比例大于第二阈值的语音数据;第一确定单元,用于对所述第一语音数据进行时频变换确定对应的第一概率函数,对所述第二语音数据进行时频变换确定对应的第二概率函数;第二确定单元,用于通过所述第一概率函数和所述第二概率函数确定所述语音数据的目标降噪数据;降噪单元,用于通过所述目标降噪数据对所述语音数据进行降噪处理,得到目标语音数据。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述语音降噪方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的语音降噪方法。
在本发明实施例中,通过对待降噪的语音数据进行语音分离,得到语音数据的第一语音数据和第二语音数据,其中,第一语音数据中的语音数据所占比例大于第一阈值,第二语音数据中的噪音数据所占比例大于第二阈值的语音数据;对第一语音数据进行时频变换确定对应的第一概率函数,对第二语音数据进行时频变换确定对应的第二概率函数;通过第一概率函数和第二概率函数确定语音数据的目标降噪数据;通过目标降噪数据对语音数据进行降噪处理,得到目标语音数据,达到了将进行降噪的语音数据分离为两个支路,即第一语音数据和第二语音数据,再利用通过两个支路中分离出的噪声数据对混有噪声的语音数据进行降噪的目的,从而实现了根据语音数据中的噪音数据进行语音的降噪处理的技术效果,进而解决了现有技术中,对语音降噪的精确性不高的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的语音降噪方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的语音降噪方法的流程图;
图3是根据本发明实施例的一种可选的语音降噪方法的流程图;
图4是根据本发明实施例的一种可选的语音降噪装置的结构示意图;
图5是根据本发明实施例的一种可选的语音降噪方法的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种语音降噪方法,可选地,作为一种可选的实施方式,上述语音降噪方法可以但不限于应用于如图1所示的硬件环境中,其中,该环境中可以包括但不限于用户设备102、网络110及服务器112。
其中,上述用户设备102中可以包括但不限于:显示器104,处理器106及存储器108。语音降噪104用于通过人机交互接口获取待降噪的语音数据;处理器106用于响应上述人机交互指令,对该待降噪的语音数据进行分离,得到第一语音数据和第二语音数据,其中,该第一语音数据中包括的语音数据比例大于第一阈值,第二语音数据包括的噪音数据比例大于第二阈值的语音数据。存储器108用于存储待降噪的语音数据、第一语音数据以及第二语音数据等信息。这里服务器可以包括但不限于:数据库114及处理引擎116,处理引擎116用于调用数据库114中存储的第一语音数据和第二语音数据,对第一语音数据进行时频变换确定对应的第一概率函数,对第二语音数据进行时频变换确定对应的第二概率函数;通过第一概率函数和第二概率函数确定语音数据的目标降噪数据;通过目标降噪数据对语音数据进行降噪处理,得到目标语音数据,达到了将进行降噪的语音数据分离为两个支路,即第一语音数据和第二语音数据,再利用通过两个支路中分离出的噪声数据对混有噪声的语音数据进行降噪的目的,从而实现了根据语音数据中的噪音数据进行语音的降噪处理的技术效果,进而解决了现有技术中,对语音降噪的精确性不高的技术问题。
具体过程如以下步骤:在终端设备102中。如步骤S102-S110,对待降噪的语音数据进行分离获取第一语音数据和第二语音数据,并将该第一语音数据和第二语音数据通过网络110发送服务器112。在服务器112对第一语音数据进行时频变换确定对应的第一概率函数,对第二语音数据进行时频变换确定对应的第二概率函数;通过第一概率函数和第二概率函数确定语音数据的目标降噪数据;通过目标降噪数据对语音数据进行降噪处理,得到目标语音数据。然后将上述确定出的结果返回终端设备102。
然后,如步骤S114-S116,终端设备102对待降噪的语音数据进行语音分离,得到语音数据的第一语音数据和第二语音数据,其中,第一语音数据中的语音数据大于第一阈值,第二语音数据包括的噪音数据大于第二阈值的语音数据;对第一语音数据进行时频变换确定对应的第一概率函数,对第二语音数据进行时频变换确定对应的第二概率函数;通过第一概率函数和第二概率函数确定语音数据的目标降噪数据;通过目标降噪数据对语音数据进行降噪处理,得到目标语音数据,达到了将进行降噪的语音数据分离为两个支路,即第一语音数据和第二语音数据,再利用通过两个支路中分离出的噪声数据对混有噪声的语音数据进行降噪的目的,从而实现了根据语音数据中的噪音数据进行语音的降噪处理的技术效果,进而解决了现有技术中,对语音降噪的精确性不高的技术问题。
可选地,在本实施例中,上述语音降噪方法可以但不限于应用于服务器112中,用于协助应用客户端获取的语音数据进行降噪处理。其中,上述应用客户端可以但不限于运行在用户设备102中,该用户设备102可以但不限于为手机、平板电脑、笔记本电脑、PC机等支持运行应用客户端的终端设备。上述服务器112和用户设备102可以但不限于通过网络实现数据交互,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,作为一种可选的实施方式,如图2所示,上述语音降噪方法包括:
步骤S202,对待降噪的语音数据进行语音分离,得到语音数据的第一语音数据和第二语音数据,其中,第一语音数据中的语音数据比例大于第一阈值,第二语音数据包括的噪音数据比例大于第二阈值的语音数据。
步骤S204,对第一语音数据进行时频变换确定对应的第一概率函数,对第二语音数据进行时频变换确定对应的第二概率函数。
步骤S206,通过第一概率函数和第二概率函数确定语音数据的目标降噪数据。
步骤S208,通过目标降噪数据对语音数据进行降噪处理,得到目标语音数据。
可选的,在本实施例中,上述待降噪的语音数据可以包括但不限于包含人类发出的包含噪音数据的语音数据、动物发出的包含噪音数据的语音。即上述待降噪的语音数据是为了需要去除声源中噪音的语音。
在本实施例中,对语音进行降噪需要先将语音数据分为两个支路。即声源分离,利用声源分离模块将输入的带噪语音分离成语音支路(相当于第一语音数据)和噪声支路(相当于第二语音数据)。其中,语音支路,语音信号占主要成分,带有少量的噪声;噪声支路,噪声占主要成分,带有少量的语音信号。
需要说明的是,对第一语音数据和第二语音数据分别进行时频变换之后,还可以包括:
S1,计算第一语音数据中的第一特征参数,其中,第一特征参数包括频谱平坦度特征参数、对数似然比特征参数和频谱差异特征参数;
S2,计算第二语音数据中的第二特征参数,其中,第二特征参数包括频谱平坦度特征参数、对数似然比特征参数和频谱差异特征参数;
S3,根据第一特征参数和第二特征参数确定第一概率函数和第二概率函数。
在实际应用中,在将语音进行分离后,对第一语音数据和第二语音数据进行分别进行时频变换,即分别将第一语音数据和第二语音数据的从时频变换到频域。分别计算第一语音数据和第二语音数据的频谱平坦度特征、对数似然比特征和频谱差异特征,根据三个特征更新语音(第一语音数据)/噪声(第二语音数据)的概率函数(即第一概率函数/第二概率函数)。其中,第一语音数据或第二语音数据可以根据该概率函数进行语音活性检测,进一步的判断还语音数据是噪音信息还是语音信号。例如,第一语音数据判断为语音信息。
可选的,在本实施例中,通过第一概率函数和第二概率函数确定语音数据的目标降噪数据,可以包括:
S1,根据第一概率函数确定第一语音数据的第一噪音数据;
S2,根据第一概率函数进行语音活性检测确定第一语音数据为语音数据的情况下,将第一噪音数据确定为目标噪音数据;
S3,根据第二概率函数确定第二语音数据的第二噪音数据;
S4,根据第一概率函数进行语音活性检测确定第二语音数据为噪音数据的情况下,将第二噪音数据确定为目标噪音数据。
可选的,在本实施例中,根据第一概率函数确定第一语音数据的第一噪音数据之前,还可以包括:
在根据第一概率函数确定的第一语音数据概率值大于门限值的情况下,确定第一语音数据为语音数据;
在根据第一概率函数确定的第一语音数据概率值小于门限值的情况下,确定第一语音数据为噪音数据。
通过本申请提供的实施例,对待降噪的语音数据进行语音分离,得到语音数据的第一语音数据和第二语音数据,其中,第一语音数据中的语音数据大于第一阈值,第二语音数据包括的噪音数据大于第二阈值的语音数据;对第一语音数据进行时频变换确定对应的第一概率函数,对第二语音数据进行时频变换确定对应的第二概率函数;通过第一概率函数和第二概率函数确定语音数据的目标降噪数据;通过目标降噪数据对语音数据进行降噪处理,得到目标语音数据,达到了将进行降噪的语音数据分离为两个支路,即第一语音数据和第二语音数据,再利用通过两个支路中分离出的噪声数据对混有噪声的语音数据进行降噪的目的,从而实现了根据语音数据中的噪音数据进行语音的降噪处理的技术效果,进而解决了现有技术中,对语音降噪的精确性不高的技术问题。
作为一种可选的实施例,通过降噪数据对语音数据进行降噪处理,得到目标语音数据之后,还可以包括:
利用短时傅里叶变换将目标语音数据从频域变换到时域,得到重建的目标语音数据。
可选的,在本实施例中,将目标语音数据从频域变换到时域,得到重建的目标语音数据,并对该重建的目标语音数据进行语音识别,解决了目前语音降噪性能不佳造成的语音识别率低的问题。
作为一种可选的实施例,本申请还提供了一种基于声源分离的语音降噪方法。
为了提高对信号和噪声的估计,进而提高降噪效果,在本实施例中,提出基于声源分离的降噪方法,即:输入带噪信号首先经过声源分离得到带有少量噪声的信号分量和几乎纯噪声的噪声分量,对两路分别进行噪声和信号的估计,最终根据信号支路的端点检测(Voice Activity Detection,VAD)来选择维纳滤波器所需的噪声估计。如果VAD判决为噪声,则采用噪声支路的噪声估计来进行维纳滤波,如果VAD判决为语音,则采用信号支路的噪声来进行维纳滤波。
如图3所示,基于声源分离的语音降噪方法的算法流程图。具体算法流程如下:
1.声源分离。利用声源分离模块将输入的带噪语音分离成语音支路和噪声支路。语音支路(相当于第一语音数据),语音信号占主要成分,带有少量的噪声;噪声支路(相当于第二语音数据),噪声占主要成分,带有少量的语音信号。
2.时频变换。对语音和噪声两个支路信号分别做时频变换到频域(相当于对第一语音数据和第二语音数据分别进行时频变换)。
3.特征提取。分别计算频谱平坦度特征、对数似然比特征和频谱差异特征,根据三个特征更新语音/噪声的概率函数。
4.VAD计算。对于语音支路,利用概率函数与门限比较进行语音活动检测(VAD),概率大于门限则判定为语音,概率小于门限则判定为噪声;两个支路分别根据各自的概率函数得到各个支路的噪声估计。
5.维纳滤波。根据步骤4中得到的VAD结果,若语音支路VAD判定为语音,则利用语音支路的噪声估计结果计算频域维纳滤波系数;若语音支路VAD判定为噪声,则利用噪声支路计算得到的噪声计算频域维纳滤波系数。
6.信号重建。利用短时傅里叶变换将信号从频域变换到时域。
本申请提供的实施例,具有如下优点:更优的降噪性能:由于本发明将输入音频分离为语音和噪声两个支路,对两路分别进行噪声和信号的估计,噪声和语音的估计准确度更高,因而降噪性能更好。算法复杂度低:由于本发明可以直接在开源代码的基础上增加声源分离之后得到,因此算法的实现难度低,复杂度低。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述语音降噪方法的语音降噪装置。如图4所示,该语音降噪装置包括:分离单元41、第一确定单元43、第二确定单元45以及降噪单元47。
分离单元41,用于对待降噪的语音数据进行语音分离,得到语音数据的第一语音数据和第二语音数据,其中,第一语音数据中的语音数据所占比例大于第一阈值,第二语音数据中的噪音数据所占比例大于第二阈值的语音数据;
第一确定单元43,用于对第一语音数据进行时频变换确定对应的第一概率函数,对第二语音数据进行时频变换确定对应的第二概率函数;
第二确定单元45,用于通过第一概率函数和第二概率函数确定语音数据的目标降噪数据;
降噪单元47,用于通过目标降噪数据对语音数据进行降噪处理,得到目标语音数据。
可选的,上述第一确定单元43,可以包括:
第一确定模块,用于根据第一概率函数确定第一语音数据的第一噪音数据;
第二确定模块,用于根据第一概率函数进行语音活性检测确定第一语音数据为语音数据的情况下,将第一噪音数据确定为目标噪音数据;
第三确定模块,用于根据第二概率函数确定第二语音数据的第二噪音数据;
第四确定模块,用于根据第一概率函数进行语音活性检测确定第二语音数据为噪音数据的情况下,将第二噪音数据确定为目标噪音数据。
通过本申请提供的实施例,分离单元41对待降噪的语音数据进行语音分离,得到语音数据的第一语音数据和第二语音数据,其中,第一语音数据中的语音数据大于第一阈值,第二语音数据包括的噪音数据大于第二阈值的语音数据;第一确定单元43对第一语音数据进行时频变换确定对应的第一概率函数,对第二语音数据进行时频变换确定对应的第二概率函数;第二确定单元45通过第一概率函数和第二概率函数确定语音数据的目标降噪数据;降噪单元47通过目标降噪数据对语音数据进行降噪处理,得到目标语音数据。
作为一种可选的实施例,上述装置还可以包括:
第一计算单元,用于对第一语音数据和第二语音数据分别进行时频变换之后,计算第一语音数据中的第一特征参数,其中,第一特征参数包括频谱平坦度特征参数、对数似然比特征参数和频谱差异特征参数;
第二计算单元,用于计算第二语音数据中的第二特征参数,其中,第二特征参数包括频谱平坦度特征参数、对数似然比特征参数和频谱差异特征参数;
根据第一特征参数和第二特征参数确定第一概率函数和第二概率函数。
作为一种可选的实施例,上述装置还可以包括:
第三确定单元,用于根据第一概率函数确定第一语音数据的第一噪音数据之前,在根据第一概率函数确定的第一语音数据概率值大于门限值的情况下,确定第一语音数据为语音数据;
第四确定单元,用于在根据第一概率函数确定的第一语音数据概率值小于门限值的情况下,确定第一语音数据为噪音数据。
作为一种可选的实施例,上述装置还可以包括:
第三得到单元,用于通过降噪数据对语音数据进行降噪处理,得到目标语音数据之后,利用短时傅里叶变换将目标语音数据从频域变换到时域,得到重建的目标语音数据。
根据本发明实施例的又一个方面,还提供了一种用于实施上述语音降噪方法的电子装置,如图5所示,该电子装置包括存储器502和处理器504,该存储器502中存储有计算机程序,该处理器504被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,对待降噪的语音数据进行语音分离,得到语音数据的第一语音数据和第二语音数据,其中,第一语音数据中的语音数据所占比例大于第一阈值,第二语音数据中的噪音数据所占比例大于第二阈值的语音数据;
S2,对第一语音数据进行时频变换确定对应的第一概率函数,对第二语音数据进行时频变换确定对应的第二概率函数;
S3,通过第一概率函数和第二概率函数确定语音数据的目标降噪数据;
S4,通过目标降噪数据对语音数据进行降噪处理,得到目标语音数据。
可选地,本领域普通技术人员可以理解,图5所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图5中所示更多或者更少的组件(如网络接口等),或者具有与图5所示不同的配置。
其中,存储器502可用于存储软件程序以及模块,如本发明实施例中的语音降噪方法和装置对应的程序指令/模块,处理器504通过运行存储在存储器502内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语音降噪方法。存储器502可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器502可进一步包括相对于处理器504远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器502具体可以但不限于用于待降噪的语音数据、分离出的第一语音数据、第二语音数据等信息。作为一种示例,如图5所示,上述存储器502中可以但不限于包括上述语音降噪装置中的分离单元41、第一确定单元43、第二确定单元45以及降噪单元47。此外,还可以包括但不限于上述语音降噪装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置506用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置506包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置506为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,对待降噪的语音数据进行语音分离,得到语音数据的第一语音数据和第二语音数据,其中,第一语音数据中的语音数据所占比例大于第一阈值,第二语音数据中的噪音数据所占比例大于第二阈值的语音数据;
S2,对第一语音数据进行时频变换确定对应的第一概率函数,对第二语音数据进行时频变换确定对应的第二概率函数;
S3,通过第一概率函数和第二概率函数确定语音数据的目标降噪数据;
S4,通过目标降噪数据对语音数据进行降噪处理,得到目标语音数据。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种语音降噪方法,其特征在于,包括:
对待降噪的语音数据进行语音分离,得到第一语音数据和第二语音数据,其中,所述第一语音数据中的语音数据所占比例大于第一阈值,所述第二语音数据中的噪音数据所占比例大于第二阈值;
对所述第一语音数据进行时频变换确定对应的第一概率函数,对所述第二语音数据进行时频变换确定对应的第二概率函数;
通过所述第一概率函数和所述第二概率函数确定所述语音数据的目标降噪数据;
通过所述目标降噪数据对所述语音数据进行降噪处理,得到目标语音数据;
通过所述第一概率函数和所述第二概率函数确定所述语音数据的目标降噪数据,包括:
根据所述第一概率函数确定所述第一语音数据的第一噪音数据;
根据所述第一概率函数进行语音活性检测确定所述第一语音数据为所述语音数据的情况下,将所述第一噪音数据确定为所述目标降噪数据;
根据所述第二概率函数确定所述第二语音数据的第二噪音数据;
根据所述第二概率函数进行语音活性检测确定所述第二语音数据为所述噪音数据的情况下,将所述第二噪音数据确定为所述目标降噪数据。
2.根据权利要求1所述的方法,其特征在于,在根据所述第一概率函数确定所述第一语音数据的第一噪音数据之前,所述方法包括:
在根据所述第一概率函数确定的所述第一语音数据的概率值大于门限值的情况下,确定所述第一语音数据为所述语音数据;
在根据所述第一概率函数确定的所述第一语音数据的概率值小于门限值的情况下,确定所述第一语音数据为所述噪音数据。
3.根据权利要求1所述的方法,其特征在于,对所述第一语音数据和所述第二语音数据分别进行时频变换之后,所述方法包括:
计算所述第一语音数据中的第一特征参数,其中,所述第一特征参数包括频谱平坦度特征参数、对数似然比特征参数和频谱差异特征参数;
计算所述第二语音数据中的第二特征参数,其中,所述第二特征参数包括频谱平坦度特征参数、对数似然比特征参数和频谱差异特征参数;
根据所述第一特征参数和所述第二特征参数确定所述第一概率函数和所述第二概率函数。
4.根据权利要求1所述的方法,其特征在于,通过所述降噪数据对所述语音数据进行降噪处理,得到目标语音数据之后,所述方法包括:
利用短时傅里叶变换将所述目标语音数据从频域变换到时域,得到重建的目标语音数据。
5.一种语音降噪装置,其特征在于,包括:
分离单元,用于对待降噪的语音数据进行语音分离,得到所述语音数据的第一语音数据和第二语音数据,其中,所述第一语音数据中的语音数据所占比例大于第一阈值,所述第二语音数据中的噪音数据所占比例大于第二阈值的语音数据;
第一确定单元,用于对所述第一语音数据进行时频变换确定对应的第一概率函数,对所述第二语音数据进行时频变换确定对应的第二概率函数;
第二确定单元,用于通过所述第一概率函数和所述第二概率函数确定所述语音数据的目标降噪数据;
降噪单元,用于通过所述目标降噪数据对所述语音数据进行降噪处理,得到目标语音数据;
所述第二确定单元,包括:
第一确定模块,用于根据所述第一概率函数确定所述第一语音数据的第一噪音数据;
第二确定模块,用于根据所述第一概率函数进行语音活性检测确定所述第一语音数据为所述语音数据的情况下,将所述第一噪音数据确定为所述目标降噪数据;
第三确定模块,用于根据所述第二概率函数确定所述第二语音数据的第二噪音数据;
第四确定模块,用于根据所述第二概率函数进行语音活性检测确定所述第二语音数据为所述噪音数据的情况下,将所述第二噪音数据确定为所述目标降噪数据。
6.根据权利要求5所述的装置,其特征在于,所述装置包括:
第一计算单元,用于对所述第一语音数据和所述第二语音数据分别进行时频变换之后,计算所述第一语音数据中的第一特征参数,其中,所述第一特征参数包括频谱平坦度特征参数、对数似然比特征参数和频谱差异特征参数;
第二计算单元,用于计算所述第二语音数据中的第二特征参数,其中,所述第二特征参数包括频谱平坦度特征参数、对数似然比特征参数和频谱差异特征参数;
根据所述第一特征参数和所述第二特征参数确定所述第一概率函数和所述第二概率函数。
7.一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至4任一项中所述的方法。
8.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至4任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010713823.4A CN112002339B (zh) | 2020-07-22 | 2020-07-22 | 语音降噪方法和装置、计算机可读的存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010713823.4A CN112002339B (zh) | 2020-07-22 | 2020-07-22 | 语音降噪方法和装置、计算机可读的存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112002339A CN112002339A (zh) | 2020-11-27 |
CN112002339B true CN112002339B (zh) | 2024-01-26 |
Family
ID=73467756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010713823.4A Active CN112002339B (zh) | 2020-07-22 | 2020-07-22 | 语音降噪方法和装置、计算机可读的存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112002339B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112652324A (zh) * | 2020-12-28 | 2021-04-13 | 深圳万兴软件有限公司 | 语音增强优化方法及语音增强优化***、可读存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0738454A (ja) * | 1993-05-19 | 1995-02-07 | N T T Idou Tsuushinmou Kk | 雑音軽減方法 |
CN1809105A (zh) * | 2006-01-13 | 2006-07-26 | 北京中星微电子有限公司 | 适用于小型移动通信设备的双麦克语音增强方法及*** |
KR20100072751A (ko) * | 2008-12-22 | 2010-07-01 | 한국전자통신연구원 | 잡음 제거 장치 및 방법 |
CN103295580A (zh) * | 2013-05-13 | 2013-09-11 | 北京百度网讯科技有限公司 | 一种语音信号噪声抑制方法及装置 |
CN103650040A (zh) * | 2011-05-16 | 2014-03-19 | 谷歌公司 | 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置 |
CN103813251A (zh) * | 2014-03-03 | 2014-05-21 | 深圳市微纳集成电路与***应用研究院 | 一种可调节去噪程度的助听器去噪装置和方法 |
CN104103278A (zh) * | 2013-04-02 | 2014-10-15 | 北京千橡网景科技发展有限公司 | 一种实时语音去噪的方法和设备 |
JP2015219316A (ja) * | 2014-05-15 | 2015-12-07 | 株式会社リコー | 装置、方法およびプログラム |
CN106486131A (zh) * | 2016-10-14 | 2017-03-08 | 上海谦问万答吧云计算科技有限公司 | 一种语音去噪的方法及装置 |
KR101874946B1 (ko) * | 2017-02-02 | 2018-07-05 | 인성 엔프라 주식회사 | 홈 네트워크 시스템 |
CN109817234A (zh) * | 2019-03-06 | 2019-05-28 | 哈尔滨工业大学(深圳) | 基于连续噪声跟踪的目标语音信号增强方法、***及存储介质 |
CN109859768A (zh) * | 2019-03-12 | 2019-06-07 | 上海力声特医学科技有限公司 | 人工耳蜗语音增强方法 |
CN110379440A (zh) * | 2019-07-19 | 2019-10-25 | 宁波奥克斯电气股份有限公司 | 语音降噪方法、装置、语音空调及计算机可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1570464A4 (en) * | 2002-12-11 | 2006-01-18 | Softmax Inc | SYSTEM AND METHOD FOR LANGUAGE PROCESSING USING AN INDEPENDENT COMPONENT ANALYSIS UNDER STABILITY RESTRICTIONS |
US8175871B2 (en) * | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
KR20120080409A (ko) * | 2011-01-07 | 2012-07-17 | 삼성전자주식회사 | 잡음 구간 판별에 의한 잡음 추정 장치 및 방법 |
US10269369B2 (en) * | 2017-05-31 | 2019-04-23 | Apple Inc. | System and method of noise reduction for a mobile device |
US10811030B2 (en) * | 2017-09-12 | 2020-10-20 | Board Of Trustees Of Michigan State University | System and apparatus for real-time speech enhancement in noisy environments |
-
2020
- 2020-07-22 CN CN202010713823.4A patent/CN112002339B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0738454A (ja) * | 1993-05-19 | 1995-02-07 | N T T Idou Tsuushinmou Kk | 雑音軽減方法 |
CN1809105A (zh) * | 2006-01-13 | 2006-07-26 | 北京中星微电子有限公司 | 适用于小型移动通信设备的双麦克语音增强方法及*** |
KR20100072751A (ko) * | 2008-12-22 | 2010-07-01 | 한국전자통신연구원 | 잡음 제거 장치 및 방법 |
CN103650040A (zh) * | 2011-05-16 | 2014-03-19 | 谷歌公司 | 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置 |
CN104103278A (zh) * | 2013-04-02 | 2014-10-15 | 北京千橡网景科技发展有限公司 | 一种实时语音去噪的方法和设备 |
CN103295580A (zh) * | 2013-05-13 | 2013-09-11 | 北京百度网讯科技有限公司 | 一种语音信号噪声抑制方法及装置 |
CN103813251A (zh) * | 2014-03-03 | 2014-05-21 | 深圳市微纳集成电路与***应用研究院 | 一种可调节去噪程度的助听器去噪装置和方法 |
JP2015219316A (ja) * | 2014-05-15 | 2015-12-07 | 株式会社リコー | 装置、方法およびプログラム |
CN106486131A (zh) * | 2016-10-14 | 2017-03-08 | 上海谦问万答吧云计算科技有限公司 | 一种语音去噪的方法及装置 |
KR101874946B1 (ko) * | 2017-02-02 | 2018-07-05 | 인성 엔프라 주식회사 | 홈 네트워크 시스템 |
CN109817234A (zh) * | 2019-03-06 | 2019-05-28 | 哈尔滨工业大学(深圳) | 基于连续噪声跟踪的目标语音信号增强方法、***及存储介质 |
CN109859768A (zh) * | 2019-03-12 | 2019-06-07 | 上海力声特医学科技有限公司 | 人工耳蜗语音增强方法 |
CN110379440A (zh) * | 2019-07-19 | 2019-10-25 | 宁波奥克斯电气股份有限公司 | 语音降噪方法、装置、语音空调及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112002339A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107623614B (zh) | 用于推送信息的方法和装置 | |
CN106486130B (zh) | 噪声消除、语音识别方法及装置 | |
CN110956957B (zh) | 语音增强模型的训练方法及*** | |
CN111863015B (zh) | 一种音频处理方法、装置、电子设备和可读存储介质 | |
CN106558314B (zh) | 一种混音处理方法和装置及设备 | |
CN112309414B (zh) | 基于音频编解码的主动降噪方法、耳机及电子设备 | |
CN110556125B (zh) | 基于语音信号的特征提取方法、设备及计算机存储介质 | |
CN111415653B (zh) | 用于识别语音的方法和装置 | |
CN111863014A (zh) | 一种音频处理方法、装置、电子设备和可读存储介质 | |
CN110992967A (zh) | 一种语音信号处理方法、装置、助听器及存储介质 | |
CN110428835A (zh) | 一种语音设备的调节方法、装置、存储介质及语音设备 | |
CN114974299B (zh) | 语音增强模型的训练、增强方法、装置、设备、介质 | |
CN112002339B (zh) | 语音降噪方法和装置、计算机可读的存储介质及电子装置 | |
CN111968651A (zh) | 一种基于wt的声纹识别方法及*** | |
CN113823313A (zh) | 语音处理方法、装置、设备以及存储介质 | |
CN113314147A (zh) | 音频处理模型的训练方法及装置、音频处理方法及装置 | |
CN106910494B (zh) | 一种音频识别方法和装置 | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
CN112331187B (zh) | 多任务语音识别模型训练方法、多任务语音识别方法 | |
CN111968620A (zh) | 算法的测试方法、装置、电子设备及存储介质 | |
CN108958699A (zh) | 语音拾取方法及相关产品 | |
CN113160850A (zh) | 一种基于重参数化的解耦方式的音频特征提取方法及装置 | |
CN114220430A (zh) | 多音区语音交互方法、装置、设备以及存储介质 | |
CN113178204A (zh) | 一种单通道降噪的低功耗方法、装置及存储介质 | |
WO2020039597A1 (ja) | 信号処理装置、音声通話端末、信号処理方法および信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |