CN112802463A - 一种音频信号筛选方法、装置及设备 - Google Patents

一种音频信号筛选方法、装置及设备 Download PDF

Info

Publication number
CN112802463A
CN112802463A CN202011557215.5A CN202011557215A CN112802463A CN 112802463 A CN112802463 A CN 112802463A CN 202011557215 A CN202011557215 A CN 202011557215A CN 112802463 A CN112802463 A CN 112802463A
Authority
CN
China
Prior art keywords
audio signal
frame
signal
noise
noise ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011557215.5A
Other languages
English (en)
Other versions
CN112802463B (zh
Inventor
刘鲁鹏
元海明
李贝
王晓红
陈佳路
高强
夏龙
郭常圳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ape Power Future Technology Co Ltd
Original Assignee
Beijing Ape Power Future Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ape Power Future Technology Co Ltd filed Critical Beijing Ape Power Future Technology Co Ltd
Priority to CN202011557215.5A priority Critical patent/CN112802463B/zh
Publication of CN112802463A publication Critical patent/CN112802463A/zh
Application granted granted Critical
Publication of CN112802463B publication Critical patent/CN112802463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Noise Elimination (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请是关于一种音频信号筛选方法、装置及设备。该方法包括:确定音频信号中每帧音频信号的信噪比;统计所述每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值;根据所述比例值与设定比例阈值的比较结果,确定所述音频信号是否为目标音频信号。本申请提供的方案,能够简单有效地实现筛选出背景噪声小的目标音频信号,具有更好的通用性。

Description

一种音频信号筛选方法、装置及设备
技术领域
本申请涉及语音识别技术领域,尤其涉及一种音频信号筛选方法、装置及设备。
背景技术
在语音识别的人工智能领域,需要大量的音频信号样本进行机器学习,音频信号样本的质量会直接影响到机器学习过程中训练模型的准确程度。而日常生活中收集到的音频信号会存在有大量噪声,不利于语音类别的模型训练,因此需要在众多音频信号中筛选出噪声较小的音频信号。相关技术中的音频筛选方法,通过将待筛选的音频的特征和目标音频(满足噪声要求的音频)的特征进行对比,若对比结果满足预设条件,则将待筛选音频作为可用音频或作为训练样本。
但是,相关技术所实施的方案,在进行特征对比之前,需要对每个音频信号进行特征提取,音频特征提取不易,可能因为音频特征提取有误,导致筛选的准确性不高;另外根据不同类别或功能的训练需求,音频特征提取需要设定相应的特征提取模型,特征提取模型的通用性不高,实现的复杂度较大。
发明内容
为克服相关技术中存在的问题,本申请提供一种音频信号筛选方法、装置及设备,该音频信号筛选方法能够简单有效地实现筛选出背景噪声小的目标音频信号,具有更好的通用性。
本申请第一方面提供一种音频信号筛选方法,包括:
确定音频信号中每帧音频信号的信噪比;
统计所述每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值;
根据所述比例值与设定比例阈值的比较结果,确定所述音频信号是否为目标音频信号。
在一种实施方式中,所述根根据所述比例值与设定比例阈值的比较结果,确定所述音频信号是否为目标音频信号,包括:
根据所述比例值大于设定比例阈值,确定所述音频信号为目标音频信号。
在一种实施方式中,所述统计所述每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值,包括:
遍历所述每帧音频信号的信噪比,确定所述每帧音频信号的信噪比大于设定信噪比阈值的帧数;
根据所述每帧音频信号的信噪比大于设定信噪比阈值的帧数与音频信号的总帧数,得到所述每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值。
在一种实施方式中,所述确定音频信号中每帧音频信号的信噪比,包括:
将所述音频信号进行分帧;
将每帧音频信号进行降噪处理,得到降噪后的每帧音频信号;
根据降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定所述降噪前的每帧音频信号的信噪比。
在一种实施方式中,所述将所述音频信号进行分帧,包括:
按预设时间长度将所述音频信号进行分帧;
其中如果所述音频信号的音频长度未满足所述预设时间长度的整数倍,对所述音频信号尾部进行补零处理使得满足所述预设时间长度的整数倍后,再分进行分帧。
在一种实施方式中,所述根据降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定所述降噪前的每帧音频信号的信噪比,包括:
根据降噪前的每帧音频信号的信号能量与降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量;
根据所述降噪后的每帧音频信号的信号能量与所述噪声能量的比值,进行对数运算,确定所述降噪前的每帧音频信号的信噪比。
本申请第二方面提供一种音频信号筛选装置,包括:
每帧信噪比模块,用于确定音频信号中每帧音频信号的信噪比;
比例值模块,用于统计所述每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值;
筛选模块,用于根据所述比例值模块确定的比例值与设定比例阈值的比较结果,确定所述音频信号是否为目标音频信号。
在一种实施方式中,所述每帧信噪比模块包括:
分帧子模块,用于将所述音频信号进行分帧;
降噪子模块,用于将所述分帧子模块得到的每帧音频信号进行降噪处理,得到降噪后的每帧音频信号;
确定子模块,用于根据所述降噪子模块得到的降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定所述降噪前的每帧音频信号的信噪比。
本申请第三方面提供一种电子设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当该可执行代码被该处理器执行时,使该处理器执行如上该的方法。
本申请第四方面提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当该可执行代码被电子设备的处理器执行时,使该处理器执行如上该的方法。
本申请提供的技术方案可以包括以下有益效果:
本申请技术方案先确定音频信号(即待筛选音频信号)中每帧音频信号的信噪比;统计所述每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值;然后就可以根据所述比例值与设定比例阈值的比较结果,确定所述音频信号是否为目标音频信号,也即可通过将每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值与设定比例阈值的比较来判断待筛选音频信号的背景噪声大小,从而筛选出背景噪声小的目标音频信号。该筛选方法简单有效,通用性强,能够有效降低音频信号筛选的复杂度,提高筛选效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细的描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1是本申请实施例示出的音频信号筛选方法的流程示意图;
图2是本申请实施例示出的音频信号筛选方法的另一流程示意图;
图3是本申请实施例示出的音频信号的分帧处理示意图;
图4是本申请实施例示出的音频信号筛选装置的结构示意图;
图5是本申请实施例示出的音频信号筛选装置的另一结构示意图;
图6是本申请实施例示出的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的优选实施方式。虽然附图中显示了本申请的优选实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“该”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在语音识别的人工智能领域,需要大量的音频信号样本进行模型训练,而日常生活中收集到的音频信号会存在有大量噪声,不利于语音类别的模型训练,因此需要在众多音频信号中筛选出噪声较小的音频信号。相关技术中,将待筛选的音频的特征和目标音频(满足噪声要求的音频)的特征进行对比,若对比结果满足预设条件,则将待筛选音频可用音频或作为训练样本。而在进行特征对比之前,需要对每个音频信号进行特征提取,音频特征提取不易,可能因为音频特征提取有误,导致筛选的准确性不高,且筛选效率较低。
针对上述问题,本申请实施例提供一种音频信号筛选方法,能够简单有效地实现筛选出背景噪声小的目标音频信号。
以下结合附图详细描述本申请实施例的技术方案。
图1是本申请实施例示出的音频信号筛选方法的流程示意图。
参见图1,本申请实施例中音频信号筛选方法的一个实施例包括:
步骤101、确定音频信号中每帧音频信号的信噪比。
信噪比(SNR,SIGNAL-NOISE RATIO)是指一个电子设备或者电子***中信号与噪声的比例。在本申请实施例中,每帧音频信号的信噪比指的是音频信号的每帧音频信号中有效声音信号与背景噪声的比例。
该步骤中,可以将音频信号进行分帧;将每帧音频信号进行降噪处理,得到降噪后的每帧音频信号;根据降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定降噪前的每帧音频信号的信噪比。
在本申请实施例中,对音频信号进行降噪处理的算法,可以为最小值跟踪噪声估计算法,最小值控制的递归平均算法(Minimum Controlled Regressive Averaging,MCRA),或基于维纳过滤的最小值控制递归平均 (Improved minimum control recursionaverage,IMCRA)算法。
可以理解的是,本申请实施例对降噪处理算法并不限定,可以为任意能够降低音频信号中背景噪声的算法。
步骤102、统计每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值。
该步骤中,可以遍历每帧音频信号的信噪比,确定每帧音频信号的信噪比大于设定信噪比阈值的帧数;根据每帧音频信号的信噪比大于设定信噪比阈值的帧数与音频信号的总帧数,得到每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值。
其中,设定信噪比阈值为判断每帧音频信号中背景噪声大小的经验阈值。在本申请实施例中,预设了一个经验阈值,即设定信噪比阈值。在实际应用中,可以根据实际需求,设定信噪比阈值的取值范围在15至25dB 之间,例如可以为20dB。
步骤103、根据比例值与设定比例阈值的比较结果,确定音频信号是否为目标音频信号。
该步骤中,根据每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值大于设定比例阈值,确定音频信号为目标音频信号。
例如,假设设定比例阈值为0.8,如果每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值大于0.8,则表示音频信号x中超过80%时长的信噪比都大于20dB,即音频信号x的噪声含量较少,音频信号x为干净音频,从而将音频信号x筛选出来。
本申请技术方案先确定音频信号(即待筛选音频信号)中每帧音频信号的信噪比;统计每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值;然后就可以根据比例值与设定比例阈值的比较结果,确定音频信号是否为目标音频信号,也即可通过将每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值与设定比例阈值的比较来判断待筛选音频信号的背景噪声大小,从而筛选出背景噪声小的目标音频信号。该筛选方法简单有效,通用性强,能够有效降低音频信号筛选的复杂度,提高筛选效率。
为了便于理解,以下提供了音频信号筛选方法的一个应用实施例进行说明,本申请实施例中音频信号筛选方法的一个实施例包括:
在本申请实施例中,假设语音识别的训练模型需要识别带有环境声音中的说话人声,该训练模型的训练样本需要背景噪声较小(或者说满足低背景噪声要求)的说话人声的音频信号。本申请实施例中待筛选音频信号的背景噪声可以为环境声音,即本申请实施例需要筛选出环境声音符合要求的音频信号,作为训练模型的训练样本。
图2是本申请实施例示出的音频信号筛选方法的另一流程示意图。
参见图2,本申请实施例中音频信号筛选方法的一个实施例包括:
步骤201、将音频信号进行分帧。
在本申请实施例中,假设音频信号为x,也即待筛选的音频信号。
该步骤可以按预设时间长度将音频信号进行分帧;其中如果音频信号的音频长度未满足预设时间长度的整数倍,对音频信号尾部进行补零处理使得满足预设时间长度的整数倍后,再分进行分帧。
例如,对音频信号x进行分帧,每帧长度可以为预设时间长度例如 32ms,若音频长度不足32ms的整数倍,可以先对音频信号x尾部补零,使音频信号x的长度达到32ms的整数倍后再进行分帧。分帧的方法可以参见图3所示,帧与帧之间不重叠,可以将分帧后的各帧音频信号记为:
xi,i=1,2,...,n。其中,n为音频信号x的总帧数。需说明的是,32ms 为经验值,可根据需要进行调整。
步骤202、将每帧音频信号进行降噪处理,得到降噪后的每帧音频信号。
该步骤对xi进行降噪,得到降噪后的每帧音频信号si
在本申请实施例中,对音频信号进行降噪处理的算法,可以为最小值跟踪噪声估计算法,最小值控制的递归平均算法(Minimum Controlled Regressive Averaging,MCRA),或基于维纳过滤的最小值控制递归平均 (Improved minimum control recursionaverage,IMCRA)算法。
需说明的是,其中对音频信号进行降噪处理所选择的算法并不限定,也即降噪算法无限制,只要能够消除音频信号中的背景噪声即可。
步骤203、分别计算每帧音频信号降噪前与降噪后的信号能量,得到降噪前的每帧音频信号的信号能量与降噪后的每帧音频信号的信号能量。
在本申请实施例中,可以确定降噪前的每帧音频信号xi的M个采样点,根据该降噪前的每帧音频信号xi中M个采样点分别对应的采样值,计算降噪前的每帧音频信号xi的信号能量。示例性的,可以根据以下公式计算该降噪前的每帧音频信号xi的信号能量Ex_i
Figure RE-GDA0003004228940000081
其中,Ex_i为降噪前的每帧音频信号xi的信号能量,M为该降噪前的每帧音频信号xi中的采样点总数,xi,j表示每帧音频信号xi中第j个采样点的取值。
在本申请实施例中,可以确定降噪后的每帧音频信号si与降噪前的每帧音频信号xi对应位置的M个采样点,根据该降噪后的每帧音频信号si中 M个采样点分别对应的采样值,计算该降噪后的每帧音频信号si的信号能量。示例性的,可以根据以下公式计算该降噪后的每帧音频信号si的信号能量Es_i
Figure RE-GDA0003004228940000082
其中,Es_i为降噪后的每帧音频信号si的信号能量,M为该降噪后的每帧音频信号si中的采样点总数,si,j表示每帧音频信号si中第j个采样点的取值。
可以理解的是,在实际应用中,对音频信号能量的计算还可以有其他方法实现,以上算法描述仅是示例性,不应作为音频信号能量计算的唯一限定。
步骤204、根据降噪前的每帧音频信号的信号能量与降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量。
该步骤将降噪前的每帧音频信号的信号能量减去降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量。
该步骤计算降噪前的每帧音频信号的噪声能量,也即计算xi的噪声能量,记为En_i
示例性的,可以根据以下公式计算xi的噪声能量En_i
En_i=Ex_i-Es_i
其中,En_i为xi的噪声能量,Es_i为降噪后的每帧音频信号si的信号能量,Ex_i为降噪前的每帧音频信号xi的信号能量。
步骤205、根据降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定降噪前的每帧音频信号的信噪比。
该步骤根据降噪后的每帧音频信号的信号能量与噪声能量的比值,进行对数运算,确定降噪前的每帧音频信号的信噪比。
记降噪前的每帧音频信号xi的信噪比为snri,示例性的,可以根据以下公式计算该信噪比:
snri=10log10(Es_i/En_i)
其中,snri为降噪前的每帧音频信号xi的信噪比,Es_i为降噪后的每帧音频信号的信号能量,En_i为降噪前的每帧音频信号的噪声能量。
步骤206、统计每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值。
该步骤中,遍历每帧音频信号的信噪比,确定每帧音频信号的信噪比大于设定信噪比阈值的帧数;根据每帧音频信号的信噪比大于设定信噪比阈值的帧数与音频信号的总帧数,得到每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值。
在本申请实施例中,假设设定信噪比阈值snrthresh为20dB。需说明的是,设定信噪比阈值为20dB只是举例说明但不局限于此,根据需要可调整。
该步骤中,遍历每帧信号的信噪比snri,统计snri大于snrthresh的帧数占音频信号x的总帧数n的比例值,该比例值记为r。
步骤207、根据比例值大于设定比例阈值,确定音频信号为目标音频信号。
例如,假设设定比例阈值为0.8,如果比例值r大于0.8,则表示音频信号x中超过80%时长的信噪比都大于20dB,即音频信号x的噪声含量较少,音频信号x为干净音频,则确定音频信号x为目标音频信号,可以将该音频信号x选入语音识别模型训练的样本库。反之,则丢弃音频信号 x。需说明的是,设定比例阈值为0.8只是举例说明但不局限于此,可根据需要调整,例如设定比例阈值的取值范围可以0.7至0.9之间。
在本申请实施例中,假设需要构建样本语音库,其中,样本语音库可以为不同距离和不同方位的周围用户相对于目标用户所发出的历史语音数据以及与历史语音数据相对应的历史文本数据;其中,历史语音数据可以包括常用沟通用语语音数据,历史文本数据包括常用沟通用语文本数据;常用沟通用语包括目标用户的名字、称谓、周围用户与目标用户之间的聊天常用语、周围用户与目标用户之间的打招呼用语等。样本语音库中的音频信号皆为经过本申请实施例中音频信号筛选方法筛选后的背景噪声较小的音频信号,使得使用该样本语音库进行模型训练时,训练效果能够更加优秀。
与前述应用功能实现方法实施例相对应,本申请还提供了一种音频信号筛选装置、电子设备及相应的实施例。
图4是本申请实施例示出的音频信号筛选装置的结构示意图。
参见图4,该音频信号筛选装置包括:每帧信噪比模块401、比例值模块402、筛选模块403。
每帧信噪比模块401,用于确定音频信号中每帧音频信号的信噪比。
比例值模块402,用于统计每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值。其中,该设定信噪比阈值为经验阈值。在实际应用中,可以根据实际需求,设定信噪比阈值的取值范围在 15至25dB之间,例如可以为20dB。
比例值模块402可以遍历每帧音频信号的信噪比,确定每帧音频信号的信噪比大于设定信噪比阈值的帧数;根据每帧音频信号的信噪比大于设定信噪比阈值的帧数与音频信号的总帧数,得到每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值。
筛选模块403,用于根据比例值模块确定的比例值与设定比例阈值的比较结果,确定音频信号是否为目标音频信号。
筛选模块403可以根据比例值大于设定比例阈值,则确定音频信号为目标音频信号,也即背景噪音较小的干净音频信号。例如,假设设定比例阈值为0.8,如果比例值大于0.8,则表示音频信号x中超过80%时长的信噪比都大于20dB,即音频信号x的噪声含量较少,音频信号x为干净音频,从而将音频信号x筛选出来。
本申请技术方案先确定音频信号(即待筛选音频信号)中每帧音频信号的信噪比;统计每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值;然后就可以根据比例值与设定比例阈值的比较结果,确定音频信号是否为目标音频信号,也即可通过将每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值与设定比例阈值的比较来判断待筛选音频信号的背景噪声大小,从而筛选出背景噪声小的目标音频信号。该筛选方法简单有效,通用性强,能够有效降低音频信号筛选的复杂度,提高筛选效率。
图5是本申请实施例示出的音频信号筛选装置的另一结构示意图。
参见图5,该音频信号筛选装置包括:每帧信噪比模块401、比例值模块402、筛选模块403。
其中,每帧信噪比模块401、比例值模块402、筛选模块403的功能可以参见图4中的描述,此处不再赘述。
每帧信噪比模块401还可以包括:分帧子模块4011、降噪子模块4012、确定子模块4013。
分帧子模块4011,用于将音频信号进行分帧。
其中,分帧子模块4011按预设时间长度将音频信号进行分帧;其中如果音频信号的音频长度未满足预设时间长度的整数倍,对音频信号尾部进行补零处理使得满足预设时间长度的整数倍后,再分进行分帧。
降噪子模块4012,用于将分帧子模块4011得到的每帧音频信号进行降噪处理,得到降噪后的每帧音频信号。
降噪子模块4012对音频信号进行降噪处理所选择的算法并不限定,也即降噪算法无限制,只要能够消除音频信号中的背景噪声即可。
确定子模块4013,用于根据降噪子模块4012得到的降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定降噪前的每帧音频信号的信噪比。
确定子模块4013可以根据降噪前的每帧音频信号的信号能量与降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量;
根据降噪后的每帧音频信号的信号能量与噪声能量的比值,进行对数运算,确定降噪前的每帧音频信号的信噪比。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
图6是本申请实施例示出的电子设备的结构示意图。该电子设备可以移动终端设备或服务器设备等。
参见图6,电子设备600包括存储器610和处理器620。
处理器620可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器610可以包括各种类型的存储单元,例如***内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器620或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。***内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。***内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器610可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器 610可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器610上存储有可执行代码,当可执行代码被处理器620处理时,可以使处理器620执行上文述及的方法中的部分或全部。
上文中已经参考附图详细描述了本申请的方案。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。本领域技术人员也应该知悉,说明书中所涉及的动作和模块并不一定是本申请所必须的。另外,可以理解,本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当该可执行代码(或计算机程序、或计算机指令代码)被电子设备(或电子设备、服务器等)的处理器执行时,使该处理器执行根据本申请的上述方法的各个步骤的部分或全部。
本领域技术人员还将明白的是,结合这里的申请所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本申请的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,该模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种音频信号筛选方法,其特征在于,包括:
确定音频信号中每帧音频信号的信噪比;
统计所述每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值;
根据所述比例值与设定比例阈值的比较结果,确定所述音频信号是否为目标音频信号。
2.根据权利要求1所述的方法,其特征在于,所述根根据所述比例值与设定比例阈值的比较结果,确定所述音频信号是否为目标音频信号,包括:
根据所述比例值大于设定比例阈值,确定所述音频信号为目标音频信号。
3.根据权利要求1所述的方法,其特征在于,所述统计所述每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值,包括:
遍历所述每帧音频信号的信噪比,确定所述每帧音频信号的信噪比大于设定信噪比阈值的帧数;
根据所述每帧音频信号的信噪比大于设定信噪比阈值的帧数与音频信号的总帧数,得到所述每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值。
4.根据权利要求1所述的方法,其特征在于,所述确定音频信号中每帧音频信号的信噪比,包括:
将所述音频信号进行分帧;
将每帧音频信号进行降噪处理,得到降噪后的每帧音频信号;
根据降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定所述降噪前的每帧音频信号的信噪比。
5.根据权利要求4所述的方法,其特征在于,所述将所述音频信号进行分帧,包括:
按预设时间长度将所述音频信号进行分帧;
其中如果所述音频信号的音频长度未满足所述预设时间长度的整数倍,对所述音频信号尾部进行补零处理使得满足所述预设时间长度的整数倍后,再分进行分帧。
6.根据权利要求4所述的方法,其特征在于,所述根据降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定所述降噪前的每帧音频信号的信噪比,包括:
根据降噪前的每帧音频信号的信号能量与降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量;
根据所述降噪后的每帧音频信号的信号能量与所述噪声能量的比值,进行对数运算,确定所述降噪前的每帧音频信号的信噪比。
7.一种音频信号筛选装置,其特征在于,包括:
每帧信噪比模块,用于确定音频信号中每帧音频信号的信噪比;
比例值模块,用于统计所述每帧音频信号的信噪比大于设定信噪比阈值的帧数占音频信号的总帧数的比例值;
筛选模块,用于根据所述比例值模块确定的比例值与设定比例阈值的比较结果,确定所述音频信号是否为目标音频信号。
8.根据权利要求7所述的装置,其特征在于,所述每帧信噪比模块包括:
分帧子模块,用于将所述音频信号进行分帧;
降噪子模块,用于将所述分帧子模块得到的每帧音频信号进行降噪处理,得到降噪后的每帧音频信号;
确定子模块,用于根据所述降噪子模块得到的降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定所述降噪前的每帧音频信号的信噪比。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-6中任一项所述的方法。
10.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-6中任一项所述的方法。
CN202011557215.5A 2020-12-24 2020-12-24 一种音频信号筛选方法、装置及设备 Active CN112802463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011557215.5A CN112802463B (zh) 2020-12-24 2020-12-24 一种音频信号筛选方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011557215.5A CN112802463B (zh) 2020-12-24 2020-12-24 一种音频信号筛选方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112802463A true CN112802463A (zh) 2021-05-14
CN112802463B CN112802463B (zh) 2023-03-31

Family

ID=75804517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011557215.5A Active CN112802463B (zh) 2020-12-24 2020-12-24 一种音频信号筛选方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112802463B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114040309A (zh) * 2021-09-24 2022-02-11 北京小米移动软件有限公司 风噪检测方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130191117A1 (en) * 2012-01-20 2013-07-25 Qualcomm Incorporated Voice activity detection in presence of background noise
CN108597498A (zh) * 2018-04-10 2018-09-28 广州势必可赢网络科技有限公司 一种多麦克风语音采集方法及装置
CN110265052A (zh) * 2019-06-24 2019-09-20 秒针信息技术有限公司 收音设备的信噪比确定方法、装置、存储介质及电子装置
CN110706693A (zh) * 2019-10-18 2020-01-17 浙江大华技术股份有限公司 语音端点的确定方法及装置、存储介质、电子装置
CN111833895A (zh) * 2019-04-23 2020-10-27 北京京东尚科信息技术有限公司 音频信号处理方法、装置、计算机设备和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130191117A1 (en) * 2012-01-20 2013-07-25 Qualcomm Incorporated Voice activity detection in presence of background noise
CN108597498A (zh) * 2018-04-10 2018-09-28 广州势必可赢网络科技有限公司 一种多麦克风语音采集方法及装置
CN111833895A (zh) * 2019-04-23 2020-10-27 北京京东尚科信息技术有限公司 音频信号处理方法、装置、计算机设备和介质
CN110265052A (zh) * 2019-06-24 2019-09-20 秒针信息技术有限公司 收音设备的信噪比确定方法、装置、存储介质及电子装置
CN110706693A (zh) * 2019-10-18 2020-01-17 浙江大华技术股份有限公司 语音端点的确定方法及装置、存储介质、电子装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114040309A (zh) * 2021-09-24 2022-02-11 北京小米移动软件有限公司 风噪检测方法、装置、电子设备及存储介质
CN114040309B (zh) * 2021-09-24 2024-03-19 北京小米移动软件有限公司 风噪检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112802463B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN112786066B (zh) 音频信号筛选方法、装置及电子设备
RU2316154C2 (ru) Кодирование стереофонических сигналов
US9215538B2 (en) Method and apparatus for audio signal classification
JP2006003899A (ja) ゲイン制約ノイズ抑圧
JP2006215568A (ja) 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体
CN106024002B (zh) 时间零收敛单麦克风降噪
CN108806707B (zh) 语音处理方法、装置、设备及存储介质
CN113539285B (zh) 音频信号降噪方法、电子装置和存储介质
CN110111811B (zh) 音频信号检测方法、装置和存储介质
CN112802463B (zh) 一种音频信号筛选方法、装置及设备
CN112309417A (zh) 风噪抑制的音频信号处理方法、装置、***和可读介质
Loellmann et al. Single-channel maximum-likelihood T60 estimation exploiting subband information
WO2023102930A1 (zh) 语音增强方法、电子设备、程序产品及存储介质
WO2015103973A1 (en) Method and device for processing audio signals
CN112750453B (zh) 一种音频信号筛选方法、装置、设备及存储介质
CN108093356B (zh) 一种啸叫检测方法及装置
EP4128226A1 (en) Automatic leveling of speech content
CN113611329A (zh) 一种语音异常检测的方法及装置
CN112652323B (zh) 音频信号筛选方法、装置、电子设备及存储介质
WO2024017110A1 (zh) 语音降噪方法、模型训练方法、装置、设备、介质及产品
CN108053834A (zh) 音频数据处理方法、装置、终端及***
CN108899041B (zh) 语音信号加噪方法、装置及存储介质
CN112289337A (zh) 一种滤除机器学习语音增强后的残留噪声的方法及装置
CN115457973A (zh) 说话人分割方法、***、终端及存储介质
CN115171735A (zh) 一种语音活动检测方法、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant