CN112700789B - 一种噪声检测方法、非易失性可读存储介质及电子设备 - Google Patents

一种噪声检测方法、非易失性可读存储介质及电子设备 Download PDF

Info

Publication number
CN112700789B
CN112700789B CN202110310614.XA CN202110310614A CN112700789B CN 112700789 B CN112700789 B CN 112700789B CN 202110310614 A CN202110310614 A CN 202110310614A CN 112700789 B CN112700789 B CN 112700789B
Authority
CN
China
Prior art keywords
noise
frame
preset
frame number
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110310614.XA
Other languages
English (en)
Other versions
CN112700789A (zh
Inventor
阎张懿
林锦鸿
梁明亮
汪震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhongke Lanxun Technology Co ltd
Original Assignee
Shenzhen Zhongke Lanxun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongke Lanxun Technology Co ltd filed Critical Shenzhen Zhongke Lanxun Technology Co ltd
Priority to CN202110310614.XA priority Critical patent/CN112700789B/zh
Publication of CN112700789A publication Critical patent/CN112700789A/zh
Application granted granted Critical
Publication of CN112700789B publication Critical patent/CN112700789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及噪声检测技术领域,公开一种噪声检测方法、非易失性可读存储介质及电子设备。噪声检测方法包括:获取目标语音帧,根据目标语音帧,提取多类语音特征,根据多类语音特征,检测目标语音帧是否包含噪声信号。因此,本方法能够多维度地判断目标语音帧是否包含噪声信号,避免单一维度判断时出现误判或错判的情形,从而提高了噪声检测的准确度和可靠度。

Description

一种噪声检测方法、非易失性可读存储介质及电子设备
技术领域
本发明涉及噪声检测技术领域,具体涉及一种噪声检测方法、非易失性可读存储介质及电子设备。
背景技术
现有电子设备越来越具有降噪功能,其中,噪声检测的准确度是衡量电子设备降噪品质的重要维度。传统噪声检测方式通常采用单一特征检测噪声,由于噪声类型比较多变,例如低频噪声、中频噪声或高频噪声,并且语音信号也比较繁多,因此,采用单一特征检测某一类型的噪声,电子设备无法可靠准确地从语音信号中判断出噪声。
发明内容
本发明实施例的一个目的旨在提供一种噪声检测方法、非易失性可读存储介质及电子设备,其能够提高噪声检测的准确度。
在第一方面,本发明实施例提供一种噪声检测方法,包括:
获取目标语音帧;
根据所述目标语音帧,提取多类语音特征;
根据多类所述语音特征,检测所述目标语音帧是否包含噪声信号。
可选地,所述根据多类所述语音特征,检测所述目标语音帧是否包含噪声信号包括:
确定每类所述语音特征属于噪声特征的噪声概率;
根据多类所述语音特征的噪声概率,检测所述目标语音帧是否包含噪声信号。
可选地,所述根据多类所述语音特征的噪声概率,检测所述目标语音帧是否包含噪声信号包括:
根据每类所述语音特征的噪声概率及其对应的预设权重,计算每类所述语音特征的加权值;
累加每类所述语音特征的加权值,得到总加权值;
根据所述总加权值与第一预设噪声阈值,检测所述目标语音帧是否包含噪声信号。
可选地,所述根据所述总加权值与预设阈值,检测所述目标语音帧是否包含噪声信号包括:
判断所述总加权值是否大于所述第一预设噪声阈值;
若大于,确定所述目标语音帧属于确定包含噪声信号的类型。
可选地,所述根据所述总加权值与预设阈值,检测所述目标语音帧是否包含噪声信号还包括:
若所述总加权值小于所述第一预设噪声阈值,判断所述总加权值是否大于第二预设噪声阈值,其中,所述第二预设噪声阈值小于所述第一预设噪声阈值;
若大于,确定所述目标语音帧属于可能包含噪声信号的类型;
若小于,确定所述目标语音帧属于无噪声信号的类型。
可选地,所述噪声特征包括子带质心值特征和/或频谱模板组合特征和/或负斜率拟合特征,所述确定每类所述语音特征属于噪声特征的噪声概率包括:
根据子带质心值算法,求取所述目标语音帧的噪声频段范围的质心值,对所述质心值作归一化处理,得到所述语音特征属于子带质心值特征的噪声概率,和/或,
根据频谱模板组合算法,求取所述目标语音帧与预设语音帧模板之间的差异度,对所述差异度作归一化处理,得到所述语音特征属于频谱模板组合特征的噪声概率,和/或,
根据负斜率拟合算法,求取所述目标语音帧的幅度谱与线性近似幅度谱的误差,对所述误差作归一化处理,得到所述语音特征属于负斜率拟合特征的噪声概率。
可选地,所述方法还包括:
获取当前噪声检测状态;
根据所述当前噪声检测状态,选择噪声检测路径;
在所述噪声检测路径下,根据所述目标语音帧是否包含噪声信号的检测结果,执行对应操作。
可选地,所述当前噪声检测状态包括噪声确定状态、噪声可能状态及无噪声状态,所述根据所述当前噪声检测状态,选择噪声检测路径包括:
当所述当前噪声检测状态为噪声可能状态或无噪声状态,选择第一噪声检测路径;
当所述当前噪声检测状态为噪声确定状态,选择第二噪声检测路径。
可选地,所述在所述噪声检测路径下,根据所述目标语音帧是否包含噪声信号的检测结果,执行对应操作包括:
在所述第一噪声检测路径下:
当检测结果为所述目标语音帧属于确定包含噪声信号的类型时,对连续帧数累加预设数值,更新所述当前噪声检测状态为噪声确定状态,并根据累加后的连续帧数与预设帧数阈值,执行第一操作,所述连续帧数为时间连续且包含噪声信号的语音帧的帧数,和/或,
当检测结果为所述目标语音帧属于可能包含噪声信号的类型时,对连续帧数累加预设数值,设置所述当前噪声检测状态为噪声可能状态,并根据累加后的连续帧数与预设帧数阈值,执行第一操作,和/或,
当检测结果为所述目标语音帧属于无噪声信号的类型时,对连续帧数进行清零,设置所述当前噪声检测状态为无噪声状态。
可选地,所述在所述噪声检测路径下,根据所述目标语音帧是否包含噪声信号的检测结果,执行对应操作包括:
在所述第二噪声检测路径下:
当检测结果为所述目标语音帧属于确定包含噪声信号的类型时,对连续帧数累加预设数值,根据累加后的连续帧数与预设帧数阈值,执行第一操作,所述连续帧数为时间连续且包含噪声信号的语音帧的帧数,和/或,
当检测结果为所述目标语音帧不属于确定包含噪声信号的类型时,根据所述连续帧数与预设帧数阈值,执行第二操作。
可选地,所述根据累加后的连续帧数与预设帧数阈值,执行第一操作包括:
判断累加后的连续帧数是否大于所述预设帧数阈值;
若是,执行降噪操作;
若否,返回获取目标语音帧的步骤。
可选地,所述根据所述连续帧数与预设帧数阈值,执行第二操作包括:
判断所述连续帧数是否大于所述预设帧数阈值;
若是,执行间歇性噪声的判断操作;
若否,对所述连续帧数进行清零。
可选地,所述执行间歇性噪声的判断操作包括:
自所述目标语音帧开始,逆向遍历至最先包含噪声信号的历史语音帧,时间在所述目标语音帧与所述历史语音帧之间的中间语音帧都为未包含噪声信号的语音帧;
对所述中间语音帧的总数量累加预设数值,得到累加帧数;
判断所述累加帧数量是否小于间隔帧数阈值;
若是,执行第三操作;
若否,对所述连续帧数和所述累加帧数进行清零。
可选地,所述执行第三操作包括:
对所述连续帧数累加预设数值;
根据累计后的连续帧数与预设帧数阈值,执行第一操作。
可选地,所述方法还包括:当检测结果为所述目标语音帧属于确定包含噪声信号的类型时,对所述累加帧数进行清零。
可选地,所述执行降噪操作包括:
根据所述目标语音帧中噪声频段范围的质心值,确定噪声大小;
根据所述噪声大小,实施降噪操作。
可选地,所述方法还包括:
当检测所述目标语音帧包含噪声信号时,对连续帧数累加预设数值,并根据累加后的连续帧数与预设帧数阈值,执行第一操作,所述连续帧数为时间连续且包含噪声信号的语音帧的帧数;
当检测所述目标语音帧未包含噪声信号时,根据所述连续帧数与预设帧数阈值,执行第二操作。
可选地,在提取多类语音特征之前,所述方法还包括:
初步判断所述目标语音帧是否包含噪声信号;
若是,进入根据所述目标语音帧,提取多类语音特征的步骤;
若否,返回获取目标语音帧的步骤。
可选地,所述噪声信号为低频噪声,所述判断所述目标语音帧是否包含噪声信号包括:
求取所述目标语音帧中每个频点的功率的对数;
求取全部所述频点的对数的第一总和以及处于噪声频段范围内各个频点的对数的第二总和;
计算所述第二总和与所述第一总和的比值;
判断所述比值是否大于第三预设噪声阈值。
可选地,所述噪声信号为风噪。
在第二方面,一种非易失性可读存储介质,所述非易失性可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使电子设备执行上述的噪声检测方法。
在第三方面,本发明实施例提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被电子设备执行时,使电子设备执行上述的噪声检测方法。
在第四方面,本发明实施例提供一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的噪声检测方法。
本发明与现有技术相比至少具有以下有益效果:在本发明实施例提供的噪声检测方法中,首先,获取目标语音帧,然后,根据目标语音帧,提取多类语音特征,最后,根据多类语音特征,检测目标语音帧是否包含噪声信号,因此,本方法能够多维度地判断目标语音帧是否包含噪声信号,避免单一维度判断时出现误判或错判的情形,从而提高了噪声检测的准确度和可靠度。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1为本发明实施例提供的一种耳机的电路原理框图;
图2为本发明实施例提供的一种噪声检测方法的流程示意图;
图3a为图2所示的S23的流程示意图;
图3b为本发明实施例提供的各类风噪的频谱示意图;
图3c为图3a所示的S232的流程示意图;
图3d为图3c所示的S2323的流程示意图;
图4a为本发明另一实施例提供的一种噪声检测方法的流程示意图;
图4b为本发明实施例提供的各个语音帧在时间轴的示意图;
图5a为本发明再一实施例提供的一种噪声检测方法的流程示意图;
图5b为本发明另一实施例提供的各个语音帧在时间轴的示意图;
图6a为本发明再一实施例提供的一种噪声检测方法的流程示意图;
图6b为图6a所示的S27的流程示意图;
图6c为本发明实施例提供的噪声检测仿真效果图;
图7a为本发明实施例提供的一种噪声检测装置的结构示意图;
图7b为图7a所示的噪声检测模块的结构示意图;
图7c为本发明另一实施例提供的一种噪声检测装置的结构示意图;
图7d为本发明再一实施例提供的一种噪声检测装置的结构示意图;
图8为本发明再一实施例提供的一种噪声检测装置的结构示意图;
图9为本发明实施例提供的一种电子设备的电路结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,如果不冲突,本发明实施例中的各个特征可以相互结合,均在本发明的保护范围之内。另外,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。再者,本发明所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定,仅是对功能和作用基本相同的相同项或相似项进行区分。
本文提供的噪声检测方法可以适用于任何合适类型电子设备,诸如耳机、手机、智能手表、平板电脑、呼叫机、音箱等电子设备,当电子设备为耳机时,耳机可以包括入耳式耳机、头戴式耳机或挂耳式耳机等。
请参阅图1,耳机100包括换能器11、ADC转换器12、采样率转换器13、控制器14及乘法器15。
换能器11用于采集声音信号,声音信号可以为噪声信号或语音信号,其中,语音信号可以为用户发出的,亦可以为其它音频源设备发出的,换能器11可以为任何合适的声电换能器件,诸如麦克风之类。
ADC转换器12用于将声音信号转换成数字信号,采样率转换器13根据预设采样率对数字信号进行采样,控制器14根据噪声检测算法检测采样后的数字信号是否包含噪声信号,若包含噪声信号,控制器14根据降噪算法处理采样后的数字信号,得到噪声消除信号,将噪声消除信号与采样后的数字信号在乘法器15作乘法运算,得到降噪信号。
除了本文所阐述的降噪架构,本领域技术人员还可以根据本文所揭示的技术方案,演变出其它代替的降噪架构。
作为本发明实施例另一方面,本发明实施例提供一种噪声检测方法。请参阅图2,噪声检测方法S200包括:
S21、获取目标语音帧;
在本实施例中,目标语音帧为当前需要处理的语音帧,其中,语音帧为采用分帧加窗方法处理后的每帧语音信号,语音帧包括正常语音信号或噪声信号或噪声信号与语言信号的混合信号,此处的窗函数可以选择任意合适类型的窗函数,诸如汉宁窗、三角窗、矩形窗等。可以理解的是,噪声信号可以与正常语音信号同频段,亦可以不同频段。
S22、根据目标语音帧,提取多类语音特征;
在本实施例中,语音特征用于表示目标语音帧的特征,其可甄别目标语音帧是否包含噪声信号,电子设备可以根据不同语音特征提取算法,从目标语音帧中提取不同维度下的对应语音特征,从而得到多类语音特征,举例而言,电子设备获取语音片段,根据分帧加窗算法,从语音片段中提取出一帧帧的语音帧,并将当前帧语音帧作为目标语音帧,接着,根据短时傅里叶变换算法(STFT,short-time Fourier transform),将目标语音帧变换成频谱信号,后续根据不同语音特征提取算法,从频谱信号中提取不同维度下的对应语音特征。
S23、根据多类语音特征,检测目标语音帧是否包含噪声信号。
在本实施例中,电子设备可以根据任意合适规则,结合多类语音特征判断目标语音帧是否包含噪声信号。
因此,本实施例能够多维度地判断目标语音帧是否包含噪声信号,避免单一维度判断时出现误判或错判的情形,从而提高了噪声检测的准确度和可靠度。
通常,考虑到不同语音特征评价目标语音帧是否包含噪声信号的准确度不同,在一些实施例中,电子设备能够根据各个语言特征的置信度,综合判断目标语音帧是否包含噪声信号,因此,请参阅图3a,S23包括:
S231、确定每类语音特征属于噪声特征的噪声概率;
S232、根据多类语音特征的噪声概率,检测目标语音帧是否包含噪声信号。
在本实施例中,噪声特征可以为任意类型合适特征,诸如子带质心值特征和/或频谱模板组合特征和/或负斜率拟合特征,通常,诸如风噪、粉噪、褐噪等低频噪声符合上述各个噪声特征。
在一些实施例中,噪声的频段为低频段,例如,噪声为风噪、粉噪或褐噪等,其中,风噪是一种非常特别的噪声,其是由风在麦克风处形成的涡流所发出的噪声,对语音质量影响极大。通常风噪是突发性的,根据风量的大小,每次风噪的持续时间范围为几到几百毫秒,间隔时间随机,并且低频能量很大,具有高度的不平稳性和短时突变性。
在本实施例中,噪声概率用于指示目标语音帧包含噪声信号的概率,在目标语音帧中,每类语音特征属于噪声特征的概率可以相同,亦可以不同,例如,语音特征A属于噪声特征的概率为60%,语音特征B属于噪声特征的概率为70%,语音特征C属于噪声特征的概率为60%。
在本实施例中,电子设备得到多类语音特征的噪声概率后,其可以结合任意合适规则处理多类语音特征的噪声概率,以便检测目标语音帧是否包含噪声信号。
因此,采用本方法,其能够充分考虑到各个语音特征目标语音帧是否包含噪声信号的准确度,并将其综合起来,从而多维度、可靠、准确地判断目标语音帧是否包含噪声信号。
下面,以噪声为风噪为例,详细阐述语音特征属于噪声特征的噪声概率的原理,但是可以理解的是,下文所作的阐述并不对本发明的保护范围构成任何不当限定:
在一些实施例中,当噪声特征为子带质心值特征(Signal Sub-band Centroids,SSC)时,电子设备根据子带质心值算法,求取目标语音帧的噪声频段范围的质心值,对质心值作归一化处理,得到语音特征属于子带质心值特征的噪声概率。
举例而言,子带质心值为一定频率范围内通过能量加权平均的频率,反映的是语音信号的频率分布和能量分布的信息。在本文中,子带质心值算法中所选取的频率范围为噪声能量集中的范围,当噪声为风噪等低频噪声时,子带质心值算法中所选取的频率范围为低频段范围。质心计算如下:
Figure 847592DEST_PATH_IMAGE001
其中μ表示频点,λ表示帧数,fs为采样率,M为帧长。
Figure 466529DEST_PATH_IMAGE002
表示帧频域信号
Figure 511846DEST_PATH_IMAGE003
的平滑功率谱,如下所示:
Figure 110317DEST_PATH_IMAGE004
其中α为平滑因子,范围为0到1。随后对计算得到的质心进行归一化:
Figure 393531DEST_PATH_IMAGE005
在一些实施例中,当噪声特征为频谱模板组合特征(Spectrum TemplateCombination, STC)时,电子设备根据频谱模板组合算法,求取目标语音帧与预设语音帧模板之间的差异度,对差异度作归一化处理,得到语音特征属于频谱模板组合特征的噪声概率。
举例而言,令带噪语音幅度谱为
Figure 481573DEST_PATH_IMAGE006
,由于风噪也是加性噪声,因此可以认为估计的带噪语音幅度谱是由纯净的语音频谱模板
Figure 951869DEST_PATH_IMAGE007
和纯风噪频谱模板
Figure 416348DEST_PATH_IMAGE008
组成的:
Figure 554068DEST_PATH_IMAGE009
其中
Figure 750694DEST_PATH_IMAGE010
采用ITU-T P.50标准所定义的长时语音幅度谱公式[1]:
Figure 770603DEST_PATH_IMAGE011
Figure 710877DEST_PATH_IMAGE012
组可以采用真实录的纯风噪计算得出的幅度谱,然后计算实际的噪语音幅度谱
Figure 499842DEST_PATH_IMAGE013
与估计的均方误差:
Figure 132948DEST_PATH_IMAGE014
明显有最小值为0,那么将上式推导简化得:
Figure 640153DEST_PATH_IMAGE015
那么由上式可知,当
Figure 906091DEST_PATH_IMAGE016
越大风噪存在概率越小,那么为了符合我们的归一化规则,则归一化如下:
Figure 752824DEST_PATH_IMAGE017
在一些实施例中,当噪声特征为负斜率拟合特征(Negative Slope Fit, NSF)时,电子设备根据负斜率拟合算法,求取目标语音帧的幅度谱与线性近似幅度谱的误差,对误差作归一化处理,得到语音特征属于负斜率拟合特征的噪声概率。
举例而言,根据风噪的频谱特性,其大致上比较接近于
Figure 353570DEST_PATH_IMAGE018
的规律变化,其中f为频率,因此,如图3b所示,风噪幅度随着频率的提高而降低,亦即其幅度谱曲线斜率为负,本文用一组参数对风噪幅度谱进行近似的线性表达,即:
Figure 285754DEST_PATH_IMAGE019
其中
Figure 833410DEST_PATH_IMAGE020
,和用来控制近似的幅度谱斜率以及直流分量,为了方便我们将
Figure 596966DEST_PATH_IMAGE021
Figure 571875DEST_PATH_IMAGE022
用一向量表示:
Figure 788093DEST_PATH_IMAGE023
再用一组向量来表示:
Figure 873861DEST_PATH_IMAGE024
那么
Figure 695186DEST_PATH_IMAGE025
可以简化得表示为:
Figure 903314DEST_PATH_IMAGE026
然后采用最小均方误差准则来求解变量真实信号幅度谱和近似信号幅度谱的误差
Figure 544511DEST_PATH_IMAGE027
Figure 230707DEST_PATH_IMAGE028
将上式进行求解可以得出一组最优参数:
Figure 405074DEST_PATH_IMAGE029
如果该帧信号对应风噪,则斜率
Figure 784103DEST_PATH_IMAGE030
应为负值,而
Figure 912596DEST_PATH_IMAGE031
应小于某一特定的门限,这里设定不超过
Figure 402483DEST_PATH_IMAGE032
的50%。那么将以上参数归一化来对应风噪概率:
Figure 932821DEST_PATH_IMAGE033
在一些实施例中,综合多类语音特征的噪声概率进行判断时,电子设备可以利用加权算法进行判断,请参阅图3c,S232包括:
S2321、根据每类语音特征的噪声概率及其对应的预设权重,计算每类语音特征的加权值;
S2322、累加每类语音特征的加权值,得到总加权值;
S2323、根据总加权值与第一预设噪声阈值,检测目标语音帧是否包含噪声信号。
在一些实施例中,总加权值:
Figure 420435DEST_PATH_IMAGE034
Figure 98541DEST_PATH_IMAGE035
为子带质心值特征的预设权重,
Figure 329802DEST_PATH_IMAGE036
为频谱模板组合特征的预设权重,
Figure 776964DEST_PATH_IMAGE037
为负斜率拟合特征的预设权重,各类语音特征的预设权重可以均分,亦可以由用户根据业务规则自行定义。
在一些实施例中,请参阅图3d,S2323包括:
S2324、判断总加权值是否大于第一预设噪声阈值;
S2325、若大于,确定目标语音帧属于确定包含噪声信号的类型。
在本实施例中,“确定包含噪声信号的类型”定义为目标语音帧必包含噪声信号的类型。
在一些实施例中,当噪声特征比较明显和易判断时,若总加权值小于或等于第一预设噪声阈值,可以直接确定目标语音帧属于无噪声信号的类型。
在一些实施例中,考虑到噪声信号的变化程度比较复杂,如前所述,电子设备可以可靠确定目标语音帧必包含噪声信号或者目标语音帧不包含噪声信号,亦可以确定目标语音帧大概率地可能包含噪声信号,因此,为了兼顾“目标语音帧大概率地可能包含噪声信号”的情形,并且还为了方便后续能够高品质地实施降噪操作,在一些实施例中,电子设备也可以将目标语音帧是否包含噪声信号的各类情形予以统计和考虑,因此,在一些实施例中,请继续参阅图3d,S2323还包括:
S2326、若小于,判断总加权值是否大于第二预设噪声阈值,其中,第二预设噪声阈值小于第一预设噪声阈值,若是,执行S2327,若否,执行S2328;
S2327、若大于,确定目标语音帧属于可能包含噪声信号的类型;
S2328、若小于,确定目标语音帧属于无噪声信号的类型。
在本实施例中,“可能包含噪声信号的类型”定义为目标语音帧大概率包含噪声信号,“无噪声信号的类型”定义为目标语音帧必不包含噪声信号。
在本实施例中,第一预设噪声阈值与第二预设噪声阈值由用户根据业务需求自行定义,但如前所述的,第二预设噪声阈值小于第一预设噪声阈值。
由于本实施例充分考虑到在目标语音帧检测噪声时出现的上述三种情形,因此,借助本实施例提供的方法,其能够为后续步骤可靠准确和高品质地降噪作好准备。
如前所述,对于“目标语音帧属于确定包含噪声信号的类型”、“目标语音帧属于可能包含噪声信号的类型”及“目标语音帧属于无噪声信号的类型”三种类型,并且考虑到一些噪声具有持续性,为了更加可靠准确和高品质地降噪,上述三种类型对应的逻辑操作是不同的,因此,在一些实施例中,请参阅图4a,噪声检测方法S200还包括:
S24、获取当前噪声检测状态;
S25、根据当前噪声检测状态,选择噪声检测路径;
S26、在噪声检测路径下,根据目标语音帧是否包含噪声信号的检测结果,执行对应操作。
在一些实施例中,当前噪声检测状态用于表征电子设备检测最近上一帧目标语音帧是否包含噪声信号的检测结果,其中,当前噪声检测状态包括噪声确定状态、噪声可能状态及无噪声状态,若检测结果为最近上一帧目标语音帧属于确定包含噪声信号的类型,则当前噪声检测状态为噪声确定状态。若检测结果为最近上一帧目标语音帧属于可能包含噪声信号的类型,则当前噪声检测状态为噪声可能状态。若检测结果为最近上一帧目标语音帧属于无噪声信号的类型,则当前噪声检测状态为无噪声状态。其中,当电子设备开始执行噪声检测操作时,默认当前噪声检测状态为无噪声状态。
在一些实施例中,噪声检测路径用于指示电子设备在当前噪声检测状态的指引下,选择进入相应逻辑操作所在的路径。当当前噪声检测状态为噪声可能状态或无噪声状态,选择第一噪声检测路径,当当前噪声检测状态为噪声确定状态,选择第二噪声检测路径。
在一些实施例中,在第一噪声检测路径下:当检测结果为目标语音帧属于确定包含噪声信号的类型时,对连续帧数累加预设数值,更新当前噪声检测状态为噪声确定状态,并根据累加后的连续帧数与预设帧数阈值,执行第一操作,连续帧数为时间连续且包含噪声信号的语音帧的帧数,其中预设数值由用户根据业务需求自定义,例如,预设数值为1。
举例而言,状态标记位C0记录当前噪声检测状态,其中,标记噪声确定状态=2,噪声可能状态=1,无噪声状态=0。
第一帧数位C1记录连续帧数,如前所述,连续帧数为时间连续且包含噪声信号的语音帧的帧数,其中,此处“包含噪声信号的语音帧”包括“确定包含噪声的语音帧”和“可能包含噪声的语音帧”两种情形。
例如,第一语音帧A11、第二语音帧A12、第三语音帧A13……第九语音帧A19都属于确定包含噪声信号的类型,且第一语音帧A11、第二语音帧A12、第三语音帧A13……第九语音帧A19在时间上是连续的,则连续帧数为C1=9。
再例如,第一语音帧A11与第二语音帧A12都属于确定包含噪声信号的类型,第三语音帧A13属于可能包含噪声信号的类型,第四语音帧A14……第九语音帧A19都属于确定包含噪声信号的类型,则连续帧数也为C1=9。
再例如,第一语音帧A11属于确定包含噪声信号的类型,第二语音帧A12属于可能包含噪声信号的类型,第三语音帧A13属于确定包含噪声信号的类型,第四语音帧A14属于可能包含噪声信号的类型,第五语音帧A14……第九语音帧A19都属于确定包含噪声信号的类型,则连续帧数也为C1=9。
假设当前噪声检测状态为无噪声状态,电子设备调取状态标记位C0,C0=0,电子设备选择第一噪声检测路径。接着,电子设备根据目标语音帧B11是否包含噪声信号的检测结果执行对应操作。
当总加权值I0大于第一预设噪声阈值X1,则检测结果为目标语音帧B11属于确定包含噪声信号的类型,电子设备调取连续帧数C1,对连续帧数累加预设数值,例如,C1=C1+1,并更新当前噪声检测状态为噪声确定状态,亦即C0=2。
接着,电子设备根据累加后的连续帧数与预设帧数阈值,执行第一操作,举例而言,电子设备判断累加后的连续帧数是否大于预设帧数阈值,若是,执行降噪操作,若否,返回获取目标语音帧的步骤,例如,累加后的连续帧数C1=10,预设帧数阈值T1=9,由于噪声信号连续出现的语音帧数超过预设帧数阈值,则需要执行降噪操作。再例如,累加后的连续帧数C1=6,由于噪声信号连续出现的语音帧数尚未超过预设帧数阈值,电子设备需要继续检测下一帧目标语音帧是否包含噪声信号,以便可靠地触发执行降噪操作。
因此,采用本方法,其能够充分到噪声的连续性,以便可靠有效地执行降噪操作。
在一些实施例中,在第一噪声检测路径下:当检测结果为目标语音帧属于可能包含噪声信号的类型时,对连续帧数累加预设数值,设置当前噪声检测状态为噪声可能状态,并根据累加后的连续帧数与预设帧数阈值,执行第一操作。
举例而言,假设当前噪声检测状态为噪声可能状态,电子设备调取状态标记位C0,C0=1,电子设备选择第一噪声检测路径。接着,电子设备根据目标语音帧B12是否包含噪声信号的检测结果执行对应操作。
当总加权值I0小于第一预设噪声阈值X1但是大于第二预设噪声阈值X2,则检测结果为目标语音帧B12属于可能包含噪声信号的类型,电子设备调取连续帧数C1,对连续帧数累加预设数值,例如,C1=C1+1,并设置当前噪声检测状态为噪声可能状态,亦即C0=1。
接着,电子设备根据累加后的连续帧数与预设帧数阈值,执行第一操作,具体操作可以参考上述实施例所阐述的。
因此,为了尽量避免漏掉“目标语音帧可能包含噪声信号”的情形而导致无法可靠有效和高品质地降噪,本方法能够充分到噪声检测的实际情况,将高置信度的“目标语音帧可能包含噪声信号”情形作为要素,纳入后期执行降噪的判断条件,从而能够实现更加可靠有效和高品质地降噪的目的。
在一些实施例中,在第一噪声检测路径下:当检测结果为目标语音帧属于无噪声信号的类型时,对连续帧数进行清零,设置当前噪声检测状态为无噪声状态。
举例而言,假设当前噪声检测状态为噪声可能状态,电子设备调取状态标记位C0,C0=1,电子设备选择第一噪声检测路径。接着,电子设备根据目标语音帧B13是否包含噪声信号的检测结果执行对应操作。
当总加权值I0小于第二预设噪声阈值X2,则检测结果为目标语音帧B12属于无噪声信号的类型,电子设备调取连续帧数C1,对连续帧数进行清零,例如,C1=0,并设置当前噪声检测状态为无噪声状态,亦即C0=0。
可以理解的是,电子设备可以被配置在第一噪声检测路径下的上述三种情况中一种或两种或三种情形的操作逻辑。
在一些实施例中,在第二噪声检测路径下:当检测结果为目标语音帧属于确定包含噪声信号的类型时,对连续帧数累加预设数值,根据累加后的连续帧数与预设帧数阈值,执行第一操作。
举例而言,假设当前噪声检测状态为噪声确定状态,电子设备调取状态标记位C0,C0=2,电子设备选择第二噪声检测路径。接着,电子设备根据目标语音帧C11是否包含噪声信号的检测结果执行对应操作。
当总加权值I0大于第一预设噪声阈值X1,则检测结果为目标语音帧C11属于确定包含噪声信号的类型,电子设备调取连续帧数C1,对连续帧数累加预设数值,例如,C1=C1+1,此时C0依然为2。
接着,电子设备根据累加后的连续帧数与预设帧数阈值,执行第一操作,具体操作可以参考上述实施例所阐述的。
在一些实施例中,在第二噪声检测路径下:当检测结果为目标语音帧不属于确定包含噪声信号的类型时,根据连续帧数与预设帧数阈值,执行第二操作。
举例而言,假设当前噪声检测状态为噪声确定状态,电子设备调取状态标记位C0,C0=2,电子设备选择第二噪声检测路径。接着,电子设备根据目标语音帧C12是否包含噪声信号的检测结果执行对应操作。
当总加权值I0小于第一预设噪声阈值X1但是大于第二预设噪声阈值X2,则检测结果为目标语音帧C12属于可能包含噪声信号的类型,或者,总加权值I0小于第二预设噪声阈值X2,则检测结果为目标语音帧C12属于无噪声信号的类型,电子设备调取连续帧数C1,根据连续帧数与预设帧数阈值,执行第二操作。
在一些实施例中,在第二噪声检测路径下并且检测结果为目标语音帧不属于确定包含噪声信号的类型时,电子设备根据连续帧数与预设帧数阈值,执行第二操作时,判断连续帧数是否大于预设帧数阈值,若是,执行间歇性噪声的判断操作,若否,对连续帧数进行清零。
通常,若包含噪声信号的语音帧的连续出现的次数,亦即连续帧数未达到连续条件时,电子设备可以无需执行降噪操作,本实施例可以对连续帧数进行清零。若连续帧数达到连续条件,并且此时当前的目标语音帧未包含噪声信号而中断连续状态,电子设备需要执行间歇性噪声的判断操作。
一般的,一些噪声信号具有突发性,虽然对于每次突发产生的噪声信号是能够持续一定时长的,但是对于不同时间突发产生的噪声信号而言,比如包含噪声信号的语音帧集合D11与包含噪声信号的语音帧集合D12间隔一定时长,亦即上述两个语音帧集合之间是存在停顿时间的,亦即时间在上述两个语音帧集合之间的语音帧是属于无噪声类型的,若时间在上述两个语音帧集合之间的语音帧不作降噪处理,只对前后两端的语音帧作降噪处理,则会出现上述两个语音帧集合之间的语音信号(包括上述两个语音帧集合)的连续性变得不够自然,导致用户体验感比较差。这里,每个语音帧集合中的语音帧都是连续的并且连续帧数大于预设帧数阈值。
因此,电子设备需要执行间歇性噪声的判断操作,以便更加有效地和高品质地执行降噪操作。
在一些实施例中,电子设备执行间歇性噪声的判断操作时,首先,电子设备自目标语音帧开始,逆向遍历至最先包含噪声信号的历史语音帧,时间在目标语音帧与历史语音帧之间的中间语音帧都为未包含噪声信号的语音帧,请参阅图4b,在图4a中,各个语音帧按照时间顺序依次在时间轴上进行排列,其中,语音帧e1、e2、e3都包含噪声信号,e4、e5、e6及e7都不包含噪声信号,假设e8为目标语音帧,且e8也是不包含噪声信号的,则电子设备逆向遍历时,语音帧e3为最先包含噪声信号的语音帧,亦即语音帧e3为历史语音帧,语音帧e4、e5、e6及语音帧e7都为中间语音帧。
然后,电子设备对中间语音帧的总数量累加预设数值,得到累加帧数,其中,预设数值由用户自定义,例如,预设数值为1,如前所述,中间语音帧的总数量w=4,累加帧数C2=w+1=5。
最后,电子设备判断累加帧数量是否小于间隔帧数阈值,若是,执行第三操作,若否,对连续帧数C1和累加帧数C2进行清零,例如,间隔帧数阈值为6,由于累加帧数C2小于间隔帧数阈值T2,电子设备执行第三操作,或者,间隔帧数阈值T2为5,由于累加帧数C2不小于间隔帧数阈值T2,电子设备对连续帧数C1和累加帧数C2进行清零,亦即,请结合图4b,若目标语音帧e8还不包含噪声信号,由于无噪声信号的语音帧比较多和持续时间比较长,电子设备没必要将语音帧e4至e8也纳入降噪操作。
在一些实施例中,电子设备执行第三操作时,首先,对连续帧数累加预设数值,最后,根据累计后的连续帧数与预设帧数阈值,执行第一操作,例如,判断累加后的连续帧数是否大于预设帧数阈值,若是,执行降噪操作,若否,返回获取目标语音帧的步骤。
在一些实施例中,当检测结果为目标语音帧属于确定包含噪声信号的类型时,对累加帧数进行清零。
为了详细阐述在不同噪声检测路径下,电子设备根据目标语音帧是否包含噪声信号的检测结果执行对应操作的具体过程,下文结合图5a对此作出详细说明,可以理解的是,下文所作的阐述并不用于对本发明保护范围构成任何不当的限定,具体过程如下:
S510、C0是否为0或1,若是,执行S511,若否,执行S516;
S511、判断I0是否大于X1,若是,执行S512,若否,执行S513;
S512、设置C1=C1+1,C2=0,C0=2,并进入S524;
S513、判断I0是否大于X2,若是,执行S514,若否,执行S515;
S514、设置C1=C1+1,C0=1,并进入S524;
S515、设置C1=0,C0=0;
S516、判断I0是否大于X1,若是,执行S517,若否,执行S518;
S517、设置C1=C1+1,C2=0,并进入S524;
S518、判断C1是否大于T1,若否,执行S519,若是,执行S520;
S519、设置C1=0,C2=0,C0=0;
S520、设置C2=C2+1,进入S521;
S521、判断C2是否大于T2,若否,执行S522,若是,执行S523;
S522、设置C1=0,C2=0,C0=0;
S523、设置C1=C1+1,并进入S524;
S524、判断C1是否大于T1,若否,执行S525,若是,执行S526;
S525、重新获取目标语音帧;
S526、执行降噪操作。
在本实施例中,电子设备不仅能够可靠有效地降噪,而且还可以针对间歇性噪声的情形进行降噪,从而提高了降噪效果,以便高质量地输出语音。
在一些实施例中,为了详细理解本方法对间歇性噪声的情形进行降噪的原理,下文结合图5a与图5b对此作出详细说明,具体如下:
假设电子设备开始检测噪声时,当前噪声检测状态默认为无噪声状态,亦即,C0=0,连续帧数C1=0,累加帧数C2=0,预设帧数阈值T1=5,间隔帧数阈值T2=4。
由于C0=0,执行S511,判断目标语音帧f1是否包含噪声信号。假设目标语音帧f1属于确定包含噪声信号的类型,则设置C0=2,此时累加后的连续帧数C1=0+1=1。
接着,假设目标语音帧f2属于确定包含噪声信号的类型,此时累加后的连续帧数C1=1+1=2。依次类推,假设目标语音帧f3、f4、f5及f6都属于确定包含噪声信号的类型,因此,判断目标语音帧f6包含噪声信号后,此时累加后的连续帧数C1=6。
由于累加后的连续帧数C1=6大于预设帧数阈值T1=5,于是,电子设备开始执行降噪操作。
再接着,假设目标语音帧f7属于无噪声信号的类型,当判断到目标语音帧f7属于无噪声信号的类型时,执行S518,此时,C1=7,显然,C1=7大于T1=5,于是,电子设备开始统计累加帧数,亦即累加帧数C2=0+1=1。
由于累加帧数C2=1小于间隔帧数阈值T2=4,说明由包含噪声信号的语音帧变化到无噪声信号的语音帧的停顿时间比较小,如前所述的,为了使得相邻的包含噪声信号的语音帧和无噪声信号的语音帧在降噪过程中,变得更为自然,本文需要将停顿时间小的无噪声信号的语音帧同样纳入降噪操作中,因此,电子设备便将目标语音帧f7作为一帧累加到连续帧数,亦即,累加后的连续帧数C1=6+1=7。
很显然,累加后的连续帧数C1=7始终是大于预设帧数阈值T1=5,电子设备继续执行降噪操作。
假设目标语音帧f8、f9、f10、f11都属于无噪声信号的类型,在判断到目标语音帧f11属于无噪声信号的类型时,此时的累加帧数C2=5。
由于累加帧数C2=5大于间隔帧数阈值T2=4,说明属于无噪声信号的类型的语音帧连续过多,电子设备可以将此种情形视为“确实无噪声”的情形,因此,电子设备无需继续降噪操作。
返回观察,由此可知,假设电子设备就在目标语音帧f6执行完降噪操作后,目标语音帧f7、f8、f9、f10都不进行降噪操作,可以想象电子设备输出上述语音片段的音质效果不够自然。但是,采用本方法,即使目标语音帧f7、f8、f9、f10不包含噪声信号,但是为了寻求高质的语音,电子设备还能够对目标语音帧f7、f8、f9、f10进行降噪操作,从而达到高品质地降噪效果。
在一些实施例中,电子设备执行降噪操作时,可以根据目标语音帧中噪声频段范围的质心值,确定噪声大小,根据噪声大小,实施降噪操作,因此,采用本方法,其能够有效高质地实施降噪。
在一些实施例中,在执行S22之前,为了提高降噪效率和语音输出效率,当粗糙地判断目标语音帧未包含噪声信号时,电子设备可以无需对目标语音帧再作噪声检测处理,可以另取下一帧语音帧作为新的目标语音帧进行判断,请参阅图6a,噪声检测方法S200还包括:
S27、初步判断目标语音帧是否包含噪声信号,若是,进入S22,若否,返回S21。
因此,采用本方法,其能够高效地进行噪声检测。
在一些实施例中,噪声信号为低频噪声,请参阅图6b,S27包括:
S271、求取目标语音帧中每个频点的功率的对数;
S272、求取全部频点的对数的第一总和以及处于噪声频段范围内各个频点的对数的第二总和;
S273、计算第二总和与第一总和的比值;
S274、判断比值是否大于第三预设噪声阈值。
在本实施例中,第三预设噪声阈值由用户根据业务需求自定义,通过采用对数方法,其能够放大低频噪声的能量,从而能够有效地粗糙判断目标语音帧是否包含低频段的噪声信号。
如前所述,电子设备需要结合当前噪声检测状态以及根据目标语音帧是否包含噪声信号的检测结果,执行对应操作。但是,在一些实施例中,与上述各个实施例的不同点在于,电子设备执行对应操作时,其无需结合当前噪声检测状态,当检测目标语音帧包含噪声信号时,对连续帧数累加预设数值,并根据累加后的连续帧数与预设帧数阈值,执行第一操作,连续帧数为时间连续且包含噪声信号的语音帧的帧数。当检测目标语音帧未包含噪声信号时,根据连续帧数与预设帧数阈值,执行第二操作,此处的“执行第一操作”与“执行第二操作”可以参考上文提供的实施例,在此不再赘述。
为了详细本实施例提供的降噪方法的有益效果,本文结合图6c提供的噪声检测效果仿真图对此作出详细说明:
如图6c所示,自上而下地列明,第一个图为纯净语音的仿真效果图,第二个图为风噪的仿真效果图,第三个图为带有风噪的语音的仿真效果图。
第四个图为粗糙判断目标语音帧是否包含噪声信号时,第二总和与第一总和的比值,由第四个图可知,在带风噪的部分语音中,比值比较高;在无风噪的部分语音中,比值比较低,接近0。
第五个图为根据多类语音特征属于噪声特征的总加权值的示意图,由第五个图可知,在带风噪的部分语音中,总加权值比较高;在无风噪的部分语音中,总加权值比较低,接近0,因此,采用本实施例提供的噪声检测方法是具有比较高的噪声检测准确度和可靠度。
需要说明的是,在上述各个实施方式中,上述各步骤之间并不必然存在一定的先后顺序,本领域普通技术人员,根据本发明实施方式的描述可以理解,不同实施方式中,上述各步骤可以有不同的执行顺序,亦即,可以并行执行,亦可以交换执行等等。
作为本发明实施例的另一方面,本发明实施例提供一种噪声检测装置。其中,噪声检测装置可以为软件模块,所述软件模块包括若干指令,其存储在存储器内,处理器可以访问该存储器,调用指令进行执行,以完成上述各个实施方式所阐述的噪声检测方法。
在一些实施方式中,噪声检测装置亦可以由硬件器件搭建成的,例如,噪声检测装置可以由一个或两个以上的芯片搭建而成,各个芯片可以互相协调工作,以完成上述各个实施方式所阐述的噪声检测方法。再例如,噪声检测装置还可以由各类逻辑器件搭建而成,诸如由通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA) 、单片机、ARM(Acorn RISC Machine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合而搭建成。
请参阅图7a,噪声检测装置700包括语音分帧模块71、特征提取模块72及噪声检测模块73。
语音分帧模块71用于获取目标语音帧,特征提取模块72用于根据目标语音帧,提取多类语音特征,噪声检测模块73用于根据多类语音特征,检测目标语音帧是否包含噪声信号。
因此,本装置能够多维度地判断目标语音帧是否包含噪声信号,避免单一维度判断时出现误判或错判的情形,从而提高了噪声检测的准确度和可靠度。
在一些实施例中,请参阅图7b,噪声检测模块73包括概率确定单元731与噪声检测单元732,概率确定单元731用于确定每类语音特征属于噪声特征的噪声概率,噪声检测单元732用于根据多类语音特征的噪声概率,检测目标语音帧是否包含噪声信号。
在一些实施例中,噪声检测单元732具体用于:根据每类语音特征的噪声概率及其对应的预设权重,计算每类语音特征的加权值;累加每类语音特征的加权值,得到总加权值;根据总加权值与第一预设噪声阈值,检测目标语音帧是否包含噪声信号。
在一些实施例中,噪声检测单元732还具体用于:判断总加权值是否大于第一预设噪声阈值;若大于,确定目标语音帧属于确定包含噪声信号的类型。
在一些实施例中,噪声检测单元732还具体用于:若总加权值小于第一预设噪声阈值,判断总加权值是否大于第二预设噪声阈值,其中,第二预设噪声阈值小于第一预设噪声阈值,若大于,确定目标语音帧属于可能包含噪声信号的类型,若小于,确定目标语音帧属于无噪声信号的类型。
在一些实施例中,噪声特征包括子带质心值特征和/或频谱模板组合特征和/或负斜率拟合特征,概率确定单元731用于:根据子带质心值算法,求取目标语音帧的噪声频段范围的质心值,对质心值作归一化处理,得到语音特征属于子带质心值特征的噪声概率,和/或,根据频谱模板组合算法,求取目标语音帧与预设语音帧模板之间的差异度,对差异度作归一化处理,得到语音特征属于频谱模板组合特征的噪声概率,和/或,根据负斜率拟合算法,求取目标语音帧的幅度谱与线性近似幅度谱的误差,对误差作归一化处理,得到语音特征属于负斜率拟合特征的噪声概率。
在一些实施例中,请参阅图7c,噪声检测装置700还包括状态检测模块74、路径选择模块75及操作执行模块76,状态检测模块74用于获取当前噪声检测状态,路径选择模块75用于根据当前噪声检测状态,选择噪声检测路径,操作执行模块76用于在噪声检测路径下,根据目标语音帧是否包含噪声信号的检测结果,执行对应操作。
在一些实施例中,当前噪声检测状态包括噪声确定状态、噪声可能状态及无噪声状态,路径选择模块75具体用于:当当前噪声检测状态为噪声可能状态或无噪声状态,选择第一噪声检测路径;当当前噪声检测状态为噪声确定状态,选择第二噪声检测路径。
在一些实施例中,操作执行模块76具体用于:在第一噪声检测路径下:当检测结果为目标语音帧属于确定包含噪声信号的类型时,对连续帧数累加预设数值,更新当前噪声检测状态为噪声确定状态,并根据累加后的连续帧数与预设帧数阈值,执行第一操作,连续帧数为时间连续且包含噪声信号的语音帧的帧数,和/或,当检测结果为目标语音帧属于可能包含噪声信号的类型时,对连续帧数累加预设数值,设置当前噪声检测状态为噪声可能状态,并根据累加后的连续帧数与预设帧数阈值,执行第一操作,和/或,当检测结果为目标语音帧属于无噪声信号的类型时,对连续帧数进行清零,设置当前噪声检测状态为无噪声状态。
在一些实施例中,操作执行模块76具体还用于:在第二噪声检测路径下:当检测结果为目标语音帧属于确定包含噪声信号的类型时,对连续帧数累加预设数值,根据累加后的连续帧数与预设帧数阈值,执行第一操作,连续帧数为时间连续且包含噪声信号的语音帧的帧数,和/或,当检测结果为目标语音帧不属于确定包含噪声信号的类型时,根据连续帧数与预设帧数阈值,执行第二操作。
在一些实施例中,操作执行模块76具体还用于:判断累加后的连续帧数是否大于所述预设帧数阈值,若是,执行降噪操作,若否,返回语音分帧模块71。
在一些实施例中,操作执行模块76具体还用于:判断连续帧数是否大于预设帧数阈值,若是,执行间歇性噪声的判断操作,若否,对连续帧数进行清零。
在一些实施例中,操作执行模块76具体还用于:自目标语音帧开始,逆向遍历至最先包含噪声信号的历史语音帧,时间在目标语音帧与历史语音帧之间的中间语音帧都为未包含噪声信号的语音帧,对中间语音帧的总数量累加预设数值,得到累加帧数,判断累加帧数量是否小于间隔帧数阈值,若是,执行第三操作,若否,对连续帧数和累加帧数进行清零。
在一些实施例中,操作执行模块76具体还用于:对连续帧数累加预设数值,根据累计后的连续帧数与预设帧数阈值,执行第一操作。
在一些实施例中,操作执行模块76具体还用于:当检测结果为目标语音帧属于确定包含噪声信号的类型时,对累加帧数进行清零。
在一些实施例中,操作执行模块76具体还用于:根据目标语音帧中噪声频段范围的质心值,确定噪声大小,根据噪声大小,实施降噪操作。
在一些实施例中,在执行特征提取模块72之前,请参阅图7d,噪声检测装置700还包括噪声初判模块77,噪声初判模块77用于判断目标语音帧是否包含噪声信号,若是,执行特征提取模块72,若否,返回语音分帧模块71。
在一些实施例中,噪声信号为低频噪声,噪声初判模块77具体用于:求取目标语音帧中每个频点的功率的对数,求取全部频点的对数的第一总和以及处于噪声频段范围内各个频点的对数的第二总和,计算第二总和与第一总和的比值,判断比值是否大于第三预设噪声阈值。
在一些实施例中,噪声信号为风噪。
与上述各个实施例不同点在于,在本实施例中,请参阅图8,噪声检测装置700还包括第一操作模块78与第二操作模块79,第一操作模块78用于当检测目标语音帧包含噪声信号时,对连续帧数累加预设数值,并根据累加后的连续帧数与预设帧数阈值,执行第一操作,连续帧数为时间连续且包含噪声信号的语音帧的帧数,第二操作模块79用于当检测目标语音帧未包含噪声信号时,根据连续帧数与预设帧数阈值,执行第二操作。
需要说明的是,上述噪声检测装置可执行本发明实施方式所提供的噪声检测方法,具备执行方法相应的功能模块和有益效果。未在噪声检测装置实施方式中详尽描述的技术细节,可参见本发明实施方式所提供的噪声检测方法。
请参阅图9,图9为本发明实施例提供的一种电子设备的电路结构示意图。如图9所示,电子设备900包括一个或多个处理器91以及存储器92。其中,图9中以一个处理器91为例。
处理器91和存储器92可以通过总线或者其他方式连接,图9中以通过总线连接为例。
存储器92作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的噪声检测方法对应的程序指令/模块。处理器91通过运行存储在存储器92中的非易失性软件程序、指令以及模块,从而执行噪声检测装置的各种功能应用以及数据处理,即实现上述方法实施例提供的噪声检测方法以及上述装置实施例的各个模块或单元的功能。
存储器92可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器92可选包括相对于处理器91远程设置的存储器,这些远程存储器可以通过网络连接至处理器91。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述程序指令/模块存储在所述存储器92中,当被所述一个或者多个处理器91执行时,执行上述任意方法实施例中的噪声检测方法。
本发明实施例还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如图9中的一个处理器91,可使得上述一个或多个处理器可执行上述任意方法实施例中的噪声检测方法。
本发明实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被电子设备执行时,使所述电子设备执行任一项所述的噪声检测方法。
以上所描述的装置或设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元模块可以是或者也可以不是物理上分开的,作为模块单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络模块单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (20)

1.一种噪声检测方法,其特征在于,包括:
获取目标语音帧;
根据所述目标语音帧,提取多类语音特征;
根据多类所述语音特征,检测所述目标语音帧是否包含噪声信号;
获取当前噪声检测状态,其中,所述当前噪声检测状态包括噪声确定状态、噪声可能状态及无噪声状态;
根据所述当前噪声检测状态,选择噪声检测路径,其中,所述根据所述当前噪声检测状态,选择噪声检测路径包括:当所述当前噪声检测状态为噪声可能状态或无噪声状态,选择第一噪声检测路径;当所述当前噪声检测状态为噪声确定状态,选择第二噪声检测路径;
在所述噪声检测路径下,根据所述目标语音帧是否包含噪声信号的检测结果,执行对应操作。
2.根据权利要求1所述的方法,其特征在于,所述根据多类所述语音特征,检测所述目标语音帧是否包含噪声信号包括:
确定每类所述语音特征属于噪声特征的噪声概率;
根据多类所述语音特征的噪声概率,检测所述目标语音帧是否包含噪声信号。
3.根据权利要求2所述的方法,其特征在于,所述根据多类所述语音特征的噪声概率,检测所述目标语音帧是否包含噪声信号包括:
根据每类所述语音特征的噪声概率及其对应的预设权重,计算每类所述语音特征的加权值;
累加每类所述语音特征的加权值,得到总加权值;
根据所述总加权值与第一预设噪声阈值,检测所述目标语音帧是否包含噪声信号。
4.根据权利要求3所述的方法,其特征在于,所述根据所述总加权值与预设阈值,检测所述目标语音帧是否包含噪声信号包括:
判断所述总加权值是否大于所述第一预设噪声阈值;
若大于,确定所述目标语音帧属于确定包含噪声信号的类型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述总加权值与预设阈值,检测所述目标语音帧是否包含噪声信号还包括:
若所述总加权值小于所述第一预设噪声阈值,判断所述总加权值是否大于第二预设噪声阈值,其中,所述第二预设噪声阈值小于所述第一预设噪声阈值;
若大于,确定所述目标语音帧属于可能包含噪声信号的类型;
若小于,确定所述目标语音帧属于无噪声信号的类型。
6.根据权利要求2所述的方法,其特征在于,所述噪声特征包括子带质心值特征和/或频谱模板组合特征和/或负斜率拟合特征,所述确定每类所述语音特征属于噪声特征的噪声概率包括:
根据子带质心值算法,求取所述目标语音帧的噪声频段范围的质心值,对所述质心值作归一化处理,得到所述语音特征属于子带质心值特征的噪声概率,和/或,
根据频谱模板组合算法,求取所述目标语音帧与预设语音帧模板之间的差异度,对所述差异度作归一化处理,得到所述语音特征属于频谱模板组合特征的噪声概率,和/或,
根据负斜率拟合算法,求取所述目标语音帧的幅度谱与线性近似幅度谱的误差,对所述误差作归一化处理,得到所述语音特征属于负斜率拟合特征的噪声概率。
7.根据权利要求1所述的方法,其特征在于,所述在所述噪声检测路径下,根据所述目标语音帧是否包含噪声信号的检测结果,执行对应操作包括:
在所述第一噪声检测路径下:
当检测结果为所述目标语音帧属于确定包含噪声信号的类型时,对连续帧数累加预设数值,更新所述当前噪声检测状态为噪声确定状态,并根据累加后的连续帧数与预设帧数阈值,执行第一操作,所述连续帧数为时间连续且包含噪声信号的语音帧的帧数,和/或,
当检测结果为所述目标语音帧属于可能包含噪声信号的类型时,对连续帧数累加预设数值,设置所述当前噪声检测状态为噪声可能状态,并根据累加后的连续帧数与预设帧数阈值,执行第一操作,和/或,
当检测结果为所述目标语音帧属于无噪声信号的类型时,对连续帧数进行清零,设置所述当前噪声检测状态为无噪声状态。
8.根据权利要求1所述的方法,其特征在于,所述在所述噪声检测路径下,根据所述目标语音帧是否包含噪声信号的检测结果,执行对应操作包括:
在所述第二噪声检测路径下:
当检测结果为所述目标语音帧属于确定包含噪声信号的类型时,对连续帧数累加预设数值,根据累加后的连续帧数与预设帧数阈值,执行第一操作,所述连续帧数为时间连续且包含噪声信号的语音帧的帧数,和/或,
当检测结果为所述目标语音帧不属于确定包含噪声信号的类型时,根据所述连续帧数与预设帧数阈值,执行第二操作。
9.根据权利要求7或8所述的方法,其特征在于,所述根据累加后的连续帧数与预设帧数阈值,执行第一操作包括:
判断累加后的连续帧数是否大于所述预设帧数阈值;
若是,执行降噪操作;
若否,返回获取目标语音帧的步骤。
10.根据权利要求8所述的方法,其特征在于,所述根据所述连续帧数与预设帧数阈值,执行第二操作包括:
判断所述连续帧数是否大于所述预设帧数阈值;
若是,执行间歇性噪声的判断操作;
若否,对所述连续帧数进行清零。
11.根据权利要求10所述的方法,其特征在于,所述执行间歇性噪声的判断操作包括:
自所述目标语音帧开始,逆向遍历至最先包含噪声信号的历史语音帧,时间在所述目标语音帧与所述历史语音帧之间的中间语音帧都为未包含噪声信号的语音帧;
对所述中间语音帧的总数量累加预设数值,得到累加帧数;
判断所述累加帧数是否小于间隔帧数阈值;
若是,执行第三操作;
若否,对所述连续帧数和所述累加帧数进行清零。
12.根据权利要求11所述的方法,其特征在于,所述执行第三操作包括:
对所述连续帧数累加预设数值;
根据累计后的连续帧数与预设帧数阈值,执行第一操作。
13.根据权利要求11所述的方法,其特征在于,还包括:当检测结果为所述目标语音帧属于确定包含噪声信号的类型时,对所述累加帧数进行清零。
14.根据权利要求9所述的方法,其特征在于,所述执行降噪操作包括:
根据所述目标语音帧中噪声频段范围的质心值,确定噪声大小;
根据所述噪声大小,实施降噪操作。
15.根据权利要求1至6任一项所述的方法,其特征在于,还包括:
当检测所述目标语音帧包含噪声信号时,对连续帧数累加预设数值,并根据累加后的连续帧数与预设帧数阈值,执行第一操作,所述连续帧数为时间连续且包含噪声信号的语音帧的帧数;
当检测所述目标语音帧未包含噪声信号时,根据所述连续帧数与预设帧数阈值,执行第二操作。
16.根据权利要求1至6任一项所述的方法,其特征在于,在提取多类语音特征之前,所述方法还包括:
初步判断所述目标语音帧是否包含噪声信号;
若是,进入根据所述目标语音帧,提取多类语音特征的步骤;
若否,返回获取目标语音帧的步骤。
17.根据权利要求16所述的方法,其特征在于,所述噪声信号为低频噪声,所述判断所述目标语音帧是否包含噪声信号包括:
求取所述目标语音帧中每个频点的功率的对数;
求取全部所述频点的对数的第一总和以及处于噪声频段范围内各个频点的对数的第二总和;
计算所述第二总和与所述第一总和的比值;
判断所述比值是否大于第三预设噪声阈值。
18.根据权利要求1至6任一项所述的方法,其特征在于,所述噪声信号为风噪。
19.一种非易失性可读存储介质,其特征在于,所述非易失性可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使电子设备执行如权利要求1至18任一项所述的噪声检测方法。
20.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至18任一项所述的噪声检测方法。
CN202110310614.XA 2021-03-24 2021-03-24 一种噪声检测方法、非易失性可读存储介质及电子设备 Active CN112700789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110310614.XA CN112700789B (zh) 2021-03-24 2021-03-24 一种噪声检测方法、非易失性可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110310614.XA CN112700789B (zh) 2021-03-24 2021-03-24 一种噪声检测方法、非易失性可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN112700789A CN112700789A (zh) 2021-04-23
CN112700789B true CN112700789B (zh) 2021-06-25

Family

ID=75516784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110310614.XA Active CN112700789B (zh) 2021-03-24 2021-03-24 一种噪声检测方法、非易失性可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112700789B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113726367B (zh) * 2021-09-01 2023-01-20 嘉兴中科声学科技有限公司 信号检测方法、装置及电子设备
CN113744730B (zh) * 2021-09-13 2023-09-08 北京奕斯伟计算技术股份有限公司 声音检测方法及装置
CN115758223B (zh) * 2022-12-05 2023-10-27 千一禾盛(北京)科技有限公司 一种智能数据噪声筛选方法
CN118248133A (zh) * 2024-05-27 2024-06-25 暗物智能科技(广州)有限公司 二阶段语音识别方法、装置、计算机设备及可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
JP5919647B2 (ja) * 2011-05-11 2016-05-18 富士通株式会社 風雑音抑圧装置、半導体集積回路及び風雑音抑圧方法
CN106356070B (zh) * 2016-08-29 2019-10-29 广州市百果园网络科技有限公司 一种音频信号处理方法,及装置
US11069365B2 (en) * 2018-03-30 2021-07-20 Intel Corporation Detection and reduction of wind noise in computing environments
CN110970050B (zh) * 2019-12-20 2022-07-15 北京声智科技有限公司 语音降噪方法、装置、设备及介质
CN111261182B (zh) * 2020-05-07 2020-10-23 上海力声特医学科技有限公司 适用于人工耳蜗的风噪抑制方法及其***
CN112309417B (zh) * 2020-10-22 2023-07-07 瓴盛科技有限公司 风噪抑制的音频信号处理方法、装置、***和可读介质

Also Published As

Publication number Publication date
CN112700789A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN112700789B (zh) 一种噪声检测方法、非易失性可读存储介质及电子设备
EP3468162B1 (en) Method and device for tracking echo delay
CN105812993B (zh) 啸叫检测和抑制方法及其装置
US9548063B2 (en) Method and apparatus for acoustic echo control
US8781137B1 (en) Wind noise detection and suppression
US9438992B2 (en) Multi-microphone robust noise suppression
WO2017181772A1 (zh) 语音检测方法、装置及存储介质
CN104980337B (zh) 一种音频处理的性能提升方法及装置
TWI543149B (zh) 雜訊消除方法
CN112700787B (zh) 一种降噪方法、非易失性可读存储介质及电子设备
US9384756B2 (en) Cyclic noise reduction for targeted frequency bands
CN108305637B (zh) 耳机语音处理方法、终端设备及存储介质
CN112309417B (zh) 风噪抑制的音频信号处理方法、装置、***和可读介质
JP6493889B2 (ja) 音声信号を検出するための方法および装置
US9445189B2 (en) Noise suppressing apparatus and noise suppressing method
CN104038610A (zh) 一种通话语音调整方法及装置
CN110556125A (zh) 基于语音信号的特征提取方法、设备及计算机存储介质
JPWO2010087147A1 (ja) ハウリング抑圧装置、ハウリング抑圧方法、プログラム、及び集積回路
WO2013164981A1 (en) Processing apparatus, processing method, program, computer readable information recording medium and processing system
CN113421583B (zh) 降噪方法、存储介质、芯片及电子设备
EP3113181A1 (en) Decoding device, encoding device, decoding method, encoding method, terminal device, and base station device
US11610601B2 (en) Method and apparatus for determining speech presence probability and electronic device
JP5815435B2 (ja) 音源位置判定装置、音源位置判定方法、プログラム
CN112530450A (zh) 频域中的样本精度延迟识别
CN111477246A (zh) 语音处理方法、装置及智能终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant