CN112530454A - 一种窄带语音信号检测方法、装置、***和可读存储介质 - Google Patents

一种窄带语音信号检测方法、装置、***和可读存储介质 Download PDF

Info

Publication number
CN112530454A
CN112530454A CN202011376870.0A CN202011376870A CN112530454A CN 112530454 A CN112530454 A CN 112530454A CN 202011376870 A CN202011376870 A CN 202011376870A CN 112530454 A CN112530454 A CN 112530454A
Authority
CN
China
Prior art keywords
energy
frequency
voice signal
voice
average energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011376870.0A
Other languages
English (en)
Inventor
方泽煌
康元勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yealink Network Technology Co Ltd
Original Assignee
Xiamen Yealink Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yealink Network Technology Co Ltd filed Critical Xiamen Yealink Network Technology Co Ltd
Priority to CN202011376870.0A priority Critical patent/CN112530454A/zh
Publication of CN112530454A publication Critical patent/CN112530454A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种窄带语音信号检测方法,包括:对待检测的语音信号进行傅里叶变换,以计算语音信号的全频段幅度谱能量;根据全频段幅度谱能量,计算高频平均能量和低频平均能量;其中,高频为5kHz~6kHz,低频为2.5kHz~3.5kHz;根据高频平均能量和低频平均能量,计算能量衰减比;当能量衰减比大于第一预设值时,判定待检测的语音信号为窄带语音信号。本发明利用语音信号本身的特征进行统计,并设计相关门限来判断的方法,能有效识别宽带信号和窄带信号,并且计算和内存占用资源小,可实时应用于会议***和终端设备中,以解决在多方会议通信时,窄带语音信号和宽带语音信号的交替出现使得频带扩展算法无法很好的作用在窄带语音信号的问题,有效提升频带扩展的效果。

Description

一种窄带语音信号检测方法、装置、***和可读存储介质
技术领域
本发明涉及语音信号检测技术领域,尤其涉及一种窄带语音信号检测方法、窄带语音信号检测装置、窄带语音信号检测***和计算机可读存储介质。
背景技术
随着会议通信和VoIP(Voice over Internet Protocol,基于IP的语音传输)通信的发展,人们对于语音信号质量的要求越来越高。但是当前主流语音通信中,使用范围最广的还是手提电话,手提电话是通过PSTN(Public Switched Telephone Network,公共交换电话网)进行语音信号传输,由于传统的带宽等各种原因限制,通过PSTN传输的语音采样率通常为8kHz,相对于16kHz的采样,被称为窄带语音信号。同时,采样率的降低也带来语音质量的急剧下降。研究表明,语音信号中高频段成分蕴含着丰富的声学信息,这些信息直接影响语音信号的音色、自然度、清晰度和可懂度等。这些高频信号的缺失会导致语音质量严重下降,会使得声音变得较为低沉,降低了原有自然语音的表现力,严重影响听者对声音的听感。同时诸如摩擦音、***音等很多辅音的频谱能量主要集中分布在高频部分,高频成分的缺失会导致语音可辨识度的下降,使得听者无法分辨相近的辅音,造成语音可懂度的降低,同时也会出现与说话人音色存在较大偏差的问题,影响听者对说话人的辨识。
因此,许多研究者提出各种各样的频带扩展算法改善其影响,但同时在多方会议通信的场景下,窄带语音信号和宽带语音信号的交替出现,使得频带扩展算法无法发挥真正效用。
发明内容
本发明目的在于,提供一种窄带语音信号检测方法、窄带语音信号检测装置、窄带语音信号检测***和计算机可读存储介质,能够实时检测当前信号是否为窄带信号,并能够部署于会议***和终端设备中,以解决在多方会议通信时,窄带语音信号和宽带语音信号的交替出现使得频带扩展算法无法很好的作用在窄带语音信号的问题。
为实现上述目的,本发明实施例提供一种窄带语音信号检测方法,包括:
对待检测的语音信号进行傅里叶变换,以计算所述语音信号的全频段幅度谱能量;
根据所述全频段幅度谱能量,计算高频平均能量和低频平均能量;其中,所述高频为5kHz~6kHz,所述低频为2.5kHz~3.5kHz;
根据所述高频平均能量和所述低频平均能量,计算能量衰减比;
当所述能量衰减比大于第一预设值时,判定所述待检测的语音信号为窄带语音信号。
在某一个实施例中,所述根据所述高频平均能量和所述低频平均能量,计算能量衰减比的步骤,包括:
根据以下公式,分别对所述高频平均能量和所述低频平均能量取对数,获得高频能量对数值和低频能量对数值:
E0'=20*log10(E0/T)
E1'=20*log10(E1/T)
根据以下公式,计算能量衰减比:
Ethr=E0'-E1'/(120-70)
其中,E0表示高频平均能量,E1表示低频的平均能量,E0’表示高频能量对数值,E1’表示低频能量对数值,Ethr表示能量衰减比,T表示所需输入的帧数,120为频谱6kHz所在的傅里叶频点,70为频谱3.5kHz所在的傅里叶频点。
在某一个实施例中,在所述当所述能量衰减比大于第一预设值时,判定所述待检测的语音信号为窄带语音信号的步骤之后,还包括:
根据所述低频能量对数值,对初步判定的所述窄带语音信号进行二次判断,其中:
当所述低频能量对数值大于第二预设值时,最终判定所述待检测的语音信号为窄带语音信号;
当所述低频能量对数值小于或等于第二预设值时,最终判定所述待检测的语音信号为宽带语音信号。
在某一个实施例中,所述对待检测的语音信号进行傅里叶变换,以计算所述语音信号的全频段幅度谱能量的步骤,包括:
将待检测的语音信号划分为多帧语音信号;其中,在划分多帧所述语音信号时,按照从待检测的语音信号以N个采样点为一帧,划分成多帧所述语音信号,划分的每一帧所述语音信号的长度为设定加窗宽度,且划分的相邻两帧所述语音信号之间存在一段设定重叠长度;
根据以下公式,对每一帧所述语音信号进行加窗处理:
S'(n)=S(n)×W(n)
Figure BDA0002808672350000021
其中,S(n)表示多个语音信号,W(n)表示汉明窗,N为帧长大小,a为汉明窗系数;
对分帧加窗后的各帧所述语音信号进行快速傅里叶变换,得到每一帧待检测的语音信号的频谱,傅里叶变换计算公式如下:
Figure BDA0002808672350000031
其中,X(k)为变换后的频谱,x(n)为待检测的语音时域信号,j表示虚数,
Figure BDA0002808672350000032
表示角频率,N1表示傅里叶变换的点数;
根据以下幅度谱能量公式,计算所述语音信号的全频段幅度谱能量:
Figure BDA0002808672350000033
其中,E(K1)表示幅度谱能量,real(X(k1)为变换后的频谱X(k)的实部,imag(X(k1)为变换后的频谱X(k)的实部。
在某一个实施例中,所述根据所述全频段幅度谱能量,计算高频平均能量和低频平均能量的步骤,包括:
根据所述全频段幅度谱能量和以下公式,计算高频平均能量和低频平均能量:
Figure BDA0002808672350000034
Figure BDA0002808672350000035
其中,E0表示高频平均能量,E1表示低频平均能量,E(K1)表示全频段幅度谱能量,频谱为5kHz~6kHz的k1范围是100~120,频谱为2.5kHz~3.5kHz的k1范围是50~70,T表示所需输入的帧数。
在某一个实施例中,在所述根据所述全频段幅度谱能量,计算高频平均能量和低频平均能量的步骤之后,在所述根据所述高频平均能量和所述低频平均能量,计算能量衰减比的步骤之前,还包括:
判断当前输入的帧数是否达到所需输入的帧数T;
若是,则根据所述高频平均能量和所述低频平均能量,计算能量衰减比;
若否,则返回到对待检测的语音信号进行傅里叶变换的步骤之前,继续累加语音信号能量,直至当前输入的帧数达到所需输入的帧数T。
本发明实施例还提供一种窄带语音信号检测装置,包括:
第一计算模块,用于对待检测的语音信号进行傅里叶变换,以计算所述语音信号的全频段幅度谱能量;
第二计算模块,用于根据所述全频段幅度谱能量,计算高频平均能量和低频平均能量;其中,所述高频为5kHz~6kHz,所述低频为2.5kHz~3.5kHz;
第三计算模块,用于根据所述高频平均能量和所述低频平均能量,计算能量衰减比;
判定模块,用于当所述能量衰减比大于第一预设值时,判定所述待检测的语音信号为窄带语音信号。
本发明实施例还提供一种窄带语音信号检测***,包括:采集单元、计算单元、传输单元和终端,所述采集单元与所述计算单元电连接,所述计算单元和所述终端分别与所述传输单元连接;
所述采集单元,用于采集语音并将语音信号发送至所述计算单元;
所述计算单元,包括存储器和处理器,所述存储器用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任意一个实施例中的窄带语音信号检测方法;
所述传输单元,用于传输所述计算单元计算的数据;
所述终端,用于接收所述计算单元计算的数据。
在某一个实施例中,所述采集单元包括声音采集器和信号转换器,所述声音采集器与所述信号转换器电连接,所述信号转换器与所述计算单元电连接,所述声音采集器用于采集语音,所述信号转换器用于将所述声音采集器所采集到的语音信号转换成数字信号;所述终端包括接入网络的实时会议通信***。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一个实施例中的窄带语音信号检测方法。
综上所述,相较于现有技术,本发明实施例中的窄带语音信号检测方法,利用语音信号本身的特征进行统计,并设计相关门限来判断的方法,能有效识别宽带信号和窄带信号。具体地,首先通过傅里叶变换,计算出待检测语音信号的全频段幅度谱能量,然后分别计算出高频平均能量和低频平均能量,进而计算出能量衰减比,最后以第一预设值作为判断条件,在当前能量衰减比大于第一预设值时,判定待检测的语音信号为窄带语音信号,从而能够实时检测当前语音信号是否为窄带信号,并且计算和内存占用资源小,可实时应用于会议***和终端设备中,以解决在多方会议通信时,窄带语音信号和宽带语音信号的交替出现使得频带扩展算法无法很好的作用在窄带语音信号的问题,有效提升频带扩展的效果。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明某一实施例提供的窄带语音信号检测方法的流程示意图;
图2是本发明另一具体实施例提供的窄带语音信号检测方法的流程示意图;
图3是本发明又一实施例提供的窄带语音信号检测方法的流程示意图;
图4是本发明某一实施例提供的窄带语音信号检测装置的结构示意图;
图5是本发明某一实施例提供的窄带语音信号检测***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1是本发明某一实施例提供的窄带语音信号检测方法的流程示意图,图2是本发明另一具体实施例提供的窄带语音信号检测方法的流程示意图。
本发明实施例提供的一种窄带语音信号检测方法,包括以下步骤:
S10、对待检测的语音信号进行傅里叶变换,以计算所述语音信号的全频段幅度谱能量。
可以理解,在多方会议通信的场景中,待检测的语音信号可由设置在终端会议设备上的声音采集器(例如麦克风)采集。由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。因此,本发明实施例中通过将待检测的语音信号进行傅里叶变换,可以计算出待检测的语音信号在频域上的全频段幅度谱能量。
S20、根据所述全频段幅度谱能量,计算高频平均能量和低频平均能量;其中,所述高频为5kHz~6kHz,所述低频为2.5kHz~3.5kHz。
具体地,在某一个实施例中,所述步骤S20根据所述全频段幅度谱能量,计算高频平均能量和低频平均能量,包括以下步骤:
S21、根据所述全频段幅度谱能量和以下公式,计算高频平均能量和低频平均能量:
Figure BDA0002808672350000061
Figure BDA0002808672350000062
其中,E0表示高频平均能量,E1表示低频平均能量,E(K1)表示全频段幅度谱能量,频谱为5kHz~6kHz的k1范围是100~120,频谱为2.5kHz~3.5kHz的k1范围是50~70,T表示所需输入的帧数。
在本发明实施例中,傅里叶变换的点数N1为320,因此对应到频谱为5kHz~6kHz的k1范围是100~120,对应频谱为2.5kHz~3.5kHz的k1范围是50~70。
然而,在不同的会议***中,语音输入的帧数不定,为此,请结合图2,在某一个具体实施例中,在所述步骤S20根据所述全频段幅度谱能量,计算高频平均能量和低频平均能量的步骤之后,在所述步骤S30根据所述高频平均能量和所述低频平均能量,计算能量衰减比的步骤之前,还包括以下步骤:
S50、判断当前输入的帧数是否达到所需输入的帧数T;
若是,则根据所述高频平均能量和所述低频平均能量,计算能量衰减比;
若否,则返回到对待检测的语音信号进行傅里叶变换的步骤之前,继续累加语音信号能量,直至当前输入的帧数达到所需输入的帧数T。
可以理解,在当前输入的帧数小于T时,需返回步骤S10之前,以使待检测的语音信号进行能量叠加,若满足指定帧数T,则进行下一步骤S30。
在某一个具体实施例中,所需输入的帧数T取10。
具体地,若当前输入的帧数小于10时,流程返回至步骤S10之前继续累加能量,直至当前输入的帧数达到所需输入的帧数10,然后进行下一步骤S30,以计算能量衰减比。
S30、根据所述高频平均能量和所述低频平均能量,计算能量衰减比。
具体地,在某一个实施例中,所述步骤S30根据所述高频平均能量和所述低频平均能量,计算能量衰减比,包括以下步骤:
S31、根据以下公式,分别对所述高频平均能量和所述低频平均能量取对数,获得高频能量对数值和低频能量对数值:
E0'=20*log10(E0/T)
E1'=20*log10(E1/T)
S32、根据以下公式,计算能量衰减比:
Ethr=E0'-E1'/(120-70)
其中,E0表示高频平均能量,E1表示低频的平均能量,E0’表示高频能量对数值,E1’表示低频能量对数值,Ethr表示能量衰减比,T表示所需输入的帧数,120为频谱6kHz所在的傅里叶频点,70为频谱3.5kHz所在的傅里叶频点。
在本发明实施例中,根据步骤S20的计算结果,分别对高频平均能量和低频平均能量取对数,并计算对应的能量衰减比。其中,T为步骤S20中输入的帧数大小。
S40、当所述能量衰减比大于第一预设值时,判定所述待检测的语音信号为窄带语音信号。
可以理解,若能量衰减比Ethr大于所设门限,即大于第一预设值,则判定为窄带语音信号并输出结果,以便后续的频带扩展算法发挥真正效用。
请结合图2和图3,在另一个实施例中,还包括步骤:
S41、当所述能量衰减比小于或等于所述第一预设值时,判定所述待检测的语音信号为宽带语音信号。
可以理解,若能量衰减比Ethr小于或等于所设门限,即小于或等于第一预设值,则判定为宽带语音信号并输出结果。
在某一个具体实施例中,预先设定能量衰减比的判断门限(即第一预设值),第一预设值的大小取值在为0.2~0.35范围内。
可以理解,在不同的会议***中,能量衰减比的判断阈值可做适当调整,本实施例中的第一预设值的大小取值在为0.2~0.35范围内,例如0.2、0.23、0.25、0.28、0.3、0.32、0.34或0.35。
以0.32为例,若Ethr大于0.32,则判定为窄带语音信号并输出结果;若Ethr小于或等于0.32,则判定为宽带语音信号并输出结果。当然,在实际其他会议***中,能量衰减比的第一预设值可以根据实际需求进行调整。
综上所述,相较于现有技术,本发明实施例中的窄带语音信号检测方法,利用语音信号本身的特征进行统计,并设计相关门限来判断的方法,能有效识别宽带信号和窄带信号。具体地,首先通过傅里叶变换,计算出待检测语音信号的全频段幅度谱能量,然后分别计算出高频平均能量和低频平均能量,进而计算出能量衰减比,最后以第一预设值作为判断条件,在当前能量衰减比大于第一预设值时,判定待检测的语音信号为窄带语音信号,从而能够实时检测当前语音信号是否为窄带信号,并且计算和内存占用资源小,可实时应用于会议***和终端设备中,以解决在多方会议通信时,窄带语音信号和宽带语音信号的交替出现使得频带扩展算法无法很好的作用在窄带语音信号的问题,有效提升频带扩展的效果。
请参阅图2和图3,在某一个实施例中,在所述步骤S40当所述能量衰减比大于第一预设值时,判定所述待检测的语音信号为窄带语音信号的步骤之后,还包括以下步骤:
S60、根据所述低频能量对数值,对初步判定的所述窄带语音信号进行二次判断,其中:
S61、当所述低频能量对数值大于第二预设值时,最终判定所述待检测的语音信号为窄带语音信号;
S62、当所述低频能量对数值小于或等于第二预设值时,最终判定所述待检测的语音信号为宽带语音信号。
在本发明实施例中,在步骤S40初步判定待检测的语音信号为窄带语音信号之后,还二次判断步骤S30中得到的低频能量对数值E1’是否大于所设门限(即第二预设值):若低频能量对数值E1’大于门限,则最终判定为窄带信号并输出结果,以便后续的频带扩展算法发挥真正效用;若低频能量对数值E1’小于或等于门限,则最终判定为宽带信号并输出结果。如此,通过二次判断,使最终获得的窄带语音信号更加准确。
在某一个具体实施例中,第二预设值为2.0。
可以理解,在不同的会议***中,第二预设值可做适当调整,本实施例中的第二预设值的大小取值在为1.0~3.0范围内,例如1.0、1.2、1.5、1.7、1.9、2.0、2.1、2.4、2.5、2.7、2.8、2.9或3.0。
以2.0为例,若低频能量对数值E1’大于2.0,则判定为窄带语音信号并输出结果;若低频能量对数值E1’小于或等于2.0,则判定为宽带语音信号并输出结果。
在某一个实施例中,所述步骤S10对待检测的语音信号进行傅里叶变换,以计算所述语音信号的全频段幅度谱能量的步骤,包括以下步骤:
S11、将待检测的语音信号划分为多帧语音信号;其中,在划分多帧所述语音信号时,按照从待检测的语音信号以N个采样点为一帧,划分成多帧所述语音信号,划分的每一帧所述语音信号的长度为设定加窗宽度,且划分的相邻两帧所述语音信号之间存在一段设定重叠长度。
可以理解,本步骤S11为对待检测的语音信号进行分帧。输入的时域语音信号是一系列有序信号,其中将N个采样点结合成一个观测单位,称为帧。在本发明实施例中N取320,对于16kHz的采样频率涵盖的时间为20ms。
此外,为避免相邻两帧变化过大,因此相邻两帧之间有一段重叠区域,优选的,本发明中采用10ms的重叠长度。
以设定加窗宽度为20ms,重叠长度为10ms为例,则对于一个待检测的一段100ms时长的语音信号,划分出的语音帧为:
第一个语音帧:0-20ms,
第二个语音帧:10ms-30ms;
第三个语音帧:20ms-40ms;
第四个语音帧:30ms-50ms;
依次类推,倒数第二个语音帧:70ms-90ms,最后一个语音帧:80ms-100ms。
S12、根据以下公式,对每一帧所述语音信号进行加窗处理:
S'(n)=S(n)×W(n)
Figure BDA0002808672350000091
其中,S(n)表示多个语音信号,W(n)表示汉明窗,N为帧长大小,a为汉明窗系数。
可以理解,本步骤S12为对分帧后的语音信号进行加窗。具体地,如上公式所示,将每一帧语音信号S(n)乘以汉明窗W(n),加窗使得语音信号有周期性,以减少语音信号FFT变换中的语音能量泄露。优选的,汉明窗系数a取0.46。
S13、对分帧加窗后的各帧所述语音信号进行快速傅里叶变换,得到每一帧待检测的语音信号的频谱,傅里叶变换计算公式如下:
Figure BDA0002808672350000092
其中,X(k)为变换后的频谱,x(n)为待检测的语音时域信号,j表示虚数,
Figure BDA0002808672350000093
表示角频率,N1表示傅里叶变换的点数。
可以理解,本步骤S13为对分帧加窗后的各帧语音信号进行快速傅里叶变换,由于语音信号在时域上的变换通常很难看出信号的特性,通过加窗后的每一帧语音信号必须再经过FFT(Fast Fourier Transform,快速傅里叶变换),以得到在频谱上的语音能量分布。具体地,在将获得分帧加窗后的各帧语音信号乘上汉明窗后,每帧还进行FFT变换,根据上述傅里叶变换计算公式将语音信号的频谱取模平方得到语音信号的能量谱,从而得到各个待检测语音信号每一帧的频谱。
S14、根据以下幅度谱能量公式,计算所述语音信号的全频段幅度谱能量:
Figure BDA0002808672350000094
其中,E(K1)表示幅度谱能量,real(X(k1)为变换后的频谱X(k)的实部,imag(X(k1)为变换后的频谱X(k)的实部。
可以理解,由于傅里叶变换的结果是一组具有复共轭的复数,因此根据步骤S13的结果,取傅里叶变换之后的N1/2+1的频谱来计算幅度谱能量,从而获得待检测语音信号的全频段幅度谱能量。在某一个具体实施例中,N1取320。
请参阅图4,图4是本发明某一实施例提供的窄带语音信号检测装置的结构示意图。本发明实施例的一种窄带语音信号检测装置10,包括:
第一计算模块11,用于对待检测的语音信号进行傅里叶变换,以计算所述语音信号的全频段幅度谱能量;
第二计算模块12,用于根据所述全频段幅度谱能量,计算高频平均能量和低频平均能量;其中,所述高频为5kHz~6kHz,所述低频为2.5kHz~3.5kHz;
第三计算模块13,用于根据所述高频平均能量和所述低频平均能量,计算能量衰减比;
判定模块14,用于当所述能量衰减比大于第一预设值时,判定所述待检测的语音信号为窄带语音信号。
其中,关于窄带语音信号检测装置10的具体限定可以参见上文中对于的限定,在此不再赘述。上述窄带语音信号检测装置10中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
请参阅图5,图5是本发明某一实施例提供的窄带语音信号检测***的结构示意图。本发明实施例的一种窄带语音信号检测***1000,包括:采集单元100、计算单元200、传输单元300和终端400,所述采集单元100与所述计算单元200电连接,所述计算单元200和所述终端400分别与所述传输单元300连接;
所述采集单元100,用于采集语音并将语音信号发送至所述计算单元200;
所述计算单元200,包括存储器和处理器,所述存储器用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任意一个实施例中的窄带语音信号检测方法;
所述传输单元300,用于传输所述计算单元200计算的数据;
所述终端400,用于接收所述计算单元200计算的数据。
具体地,在某一个实施例中,所述采集单元100包括声音采集器和信号转换器,所述声音采集器与所述信号转换器电连接,所述信号转换器与所述计算单元200电连接,所述声音采集器用于采集语音,所述信号转换器用于将所述声音采集器所采集到的语音信号转换成数字信号;所述终端400包括接入网络的实时会议通信***。
其中,声音采集器用于采集语音,信号转换器用于将环境中的声学信号转换成数字信号。本实施例中的声音采集器为麦克风,信号转换器为ADC硬件芯片。计算单元200包括存储器和处理器,存储器内存储有程序,该程序用于实现上述的一种窄带语音信号检测方法,处理器用于执行程序计算,本实施例中计算单元200为单片机或者其它嵌入式芯片。传输单元300用于传输计算单元200计算的数据,本实施例中传输单元300为传输数据的网络***或内部通信***;终端400用于接收窄带语音信号的检测结果,终端400为接入网络的实时会议通信***。本发明实施例中的一种窄带语音信号检测***通过执行算法逻辑计算和数据传输,从而可以实现实时通信过程中的应用,以解决在多方会议通信时,窄带语音信号和宽带语音信号的交替出现使得频带扩展算法无法很好的作用在窄带语音信号的问题,有效提升频带扩展的效果。
而处理器用于控制该窄带语音信号检测***的整体操作,以完成上述的窄带语音信号检测方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该窄带语音信号检测***的操作,这些数据例如可以包括用于在该窄带语音信号检测***上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static RandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在一示例性实施例中,窄带语音信号检测***可以被一个或多个应用专用集成电路(Application Specific 1ntegrated Circuit,简称AS1C)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的窄带语音信号检测方法,并达到如上述方法一致的技术效果。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任意一个实施例中的窄带语音信号检测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由窄带语音信号检测***的处理器执行以完成上述的窄带语音信号检测方法,并达到如上述方法一致的技术效果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种窄带语音信号检测方法,其特征在于,包括:
对待检测的语音信号进行傅里叶变换,以计算所述语音信号的全频段幅度谱能量;
根据所述全频段幅度谱能量,计算高频平均能量和低频平均能量;其中,所述高频为5kHz~6kHz,所述低频为2.5kHz~3.5kHz;
根据所述高频平均能量和所述低频平均能量,计算能量衰减比;
当所述能量衰减比大于第一预设值时,判定所述待检测的语音信号为窄带语音信号。
2.根据权利要求1所述的窄带语音信号检测方法,其特征在于,所述根据所述高频平均能量和所述低频平均能量,计算能量衰减比的步骤,包括:
根据以下公式,分别对所述高频平均能量和所述低频平均能量取对数,获得高频能量对数值和低频能量对数值:
E0'=20*log10(E0/T)
E1'=20*log10(E1/T)
根据以下公式,计算能量衰减比:
Ethr=E0'-E1'/(120-70)
其中,E0表示高频平均能量,E1表示低频的平均能量,E0’表示高频能量对数值,E1’表示低频能量对数值,Ethr表示能量衰减比,T表示所需输入的帧数,120为频谱6kHz所在的傅里叶频点,70为频谱3.5kHz所在的傅里叶频点。
3.根据权利要求2所述的窄带语音信号检测方法,其特征在于,在所述当所述能量衰减比大于第一预设值时,判定所述待检测的语音信号为窄带语音信号的步骤之后,还包括:
根据所述低频能量对数值,对初步判定的所述窄带语音信号进行二次判断,其中:
当所述低频能量对数值大于第二预设值时,最终判定所述待检测的语音信号为窄带语音信号;
当所述低频能量对数值小于或等于第二预设值时,最终判定所述待检测的语音信号为宽带语音信号。
4.根据权利要求1所述的窄带语音信号检测方法,其特征在于,所述对待检测的语音信号进行傅里叶变换,以计算所述语音信号的全频段幅度谱能量的步骤,包括:
将待检测的语音信号划分为多帧语音信号;其中,在划分多帧所述语音信号时,按照从待检测的语音信号以N个采样点为一帧,划分成多帧所述语音信号,划分的每一帧所述语音信号的长度为设定加窗宽度,且划分的相邻两帧所述语音信号之间存在一段设定重叠长度;
根据以下公式,对每一帧所述语音信号进行加窗处理:
S'(n)=S(n)×W(n)
Figure FDA0002808672340000021
其中,S(n)表示多个语音信号,W(n)表示汉明窗,N为帧长大小,a为汉明窗系数;
对分帧加窗后的各帧所述语音信号进行快速傅里叶变换,得到每一帧待检测的语音信号的频谱,傅里叶变换计算公式如下:
Figure FDA0002808672340000022
其中,X(k)为变换后的频谱,x(n)为待检测的语音时域信号,j表示虚数,
Figure FDA0002808672340000023
表示角频率,N1表示傅里叶变换的点数;
根据以下幅度谱能量公式,计算所述语音信号的全频段幅度谱能量:
Figure FDA0002808672340000024
其中,E(K1)表示幅度谱能量,real(X(k1)为变换后的频谱X(k)的实部,imag(X(k1)为变换后的频谱X(k)的实部。
5.根据权利要求1所述的窄带语音信号检测方法,其特征在于,所述根据所述全频段幅度谱能量,计算高频平均能量和低频平均能量的步骤,包括:
根据所述全频段幅度谱能量和以下公式,计算高频平均能量和低频平均能量:
Figure FDA0002808672340000025
Figure FDA0002808672340000026
其中,E0表示高频平均能量,E1表示低频平均能量,E(K1)表示全频段幅度谱能量,频谱为5kHz~6kHz的k1范围是100~120,频谱为2.5kHz~3.5kHz的k1范围是50~70,T表示所需输入的帧数。
6.根据权利要求5所述的窄带语音信号检测方法,其特征在于,在所述根据所述全频段幅度谱能量,计算高频平均能量和低频平均能量的步骤之后,在所述根据所述高频平均能量和所述低频平均能量,计算能量衰减比的步骤之前,还包括:
判断当前输入的帧数是否达到所需输入的帧数T;
若是,则根据所述高频平均能量和所述低频平均能量,计算能量衰减比;
若否,则返回到对待检测的语音信号进行傅里叶变换的步骤之前,继续累加语音信号能量,直至当前输入的帧数达到所需输入的帧数T。
7.一种窄带语音信号检测装置,其特征在于,包括:
第一计算模块,用于对待检测的语音信号进行傅里叶变换,以计算所述语音信号的全频段幅度谱能量;
第二计算模块,用于根据所述全频段幅度谱能量,计算高频平均能量和低频平均能量;其中,所述高频为5kHz~6kHz,所述低频为2.5kHz~3.5kHz;
第三计算模块,用于根据所述高频平均能量和所述低频平均能量,计算能量衰减比;
判定模块,用于当所述能量衰减比大于第一预设值时,判定所述待检测的语音信号为窄带语音信号。
8.一种窄带语音信号检测***,其特征在于,包括:采集单元、计算单元、传输单元和终端,所述采集单元与所述计算单元电连接,所述计算单元和所述终端分别与所述传输单元连接;
所述采集单元,用于采集语音并将语音信号发送至所述计算单元;
所述计算单元,包括存储器和处理器,所述存储器用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至6任一项所述的窄带语音信号检测方法;
所述传输单元,用于传输所述计算单元计算的数据;
所述终端,用于接收所述计算单元计算的数据。
9.根据权利要求8所述的窄带语音信号检测***,其特征在于,
所述采集单元包括声音采集器和信号转换器,所述声音采集器与所述信号转换器电连接,所述信号转换器与所述计算单元电连接,所述声音采集器用于采集语音,所述信号转换器用于将所述声音采集器所采集到的语音信号转换成数字信号;
所述终端包括接入网络的实时会议通信***。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的窄带语音信号检测方法。
CN202011376870.0A 2020-11-30 2020-11-30 一种窄带语音信号检测方法、装置、***和可读存储介质 Pending CN112530454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011376870.0A CN112530454A (zh) 2020-11-30 2020-11-30 一种窄带语音信号检测方法、装置、***和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011376870.0A CN112530454A (zh) 2020-11-30 2020-11-30 一种窄带语音信号检测方法、装置、***和可读存储介质

Publications (1)

Publication Number Publication Date
CN112530454A true CN112530454A (zh) 2021-03-19

Family

ID=74995273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011376870.0A Pending CN112530454A (zh) 2020-11-30 2020-11-30 一种窄带语音信号检测方法、装置、***和可读存储介质

Country Status (1)

Country Link
CN (1) CN112530454A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004118108A (ja) * 2002-09-27 2004-04-15 Nec Corp ブロードバンド信号検出方法及び装置
CN1988565A (zh) * 2005-12-23 2007-06-27 Qnx软件操作***(威美科)有限公司 窄带语音的带宽扩展
US20080195383A1 (en) * 2007-02-14 2008-08-14 Mindspeed Technologies, Inc. Embedded silence and background noise compression
CN102800317A (zh) * 2011-05-25 2012-11-28 华为技术有限公司 信号分类方法及设备、编解码方法及设备
CN103413557A (zh) * 2013-07-08 2013-11-27 深圳Tcl新技术有限公司 语音信号带宽扩展的方法和装置
CN104517614A (zh) * 2013-09-30 2015-04-15 上海爱聊信息科技有限公司 基于各子带特征参数值的清浊音判决装置及其判决方法
CN107408392A (zh) * 2015-04-05 2017-11-28 高通股份有限公司 音频带宽选择
CN108281157A (zh) * 2017-12-28 2018-07-13 广州市百果园信息技术有限公司 音乐中鼓点节拍的检测方法及计算机存储介质、终端
CN110556122A (zh) * 2019-09-18 2019-12-10 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004118108A (ja) * 2002-09-27 2004-04-15 Nec Corp ブロードバンド信号検出方法及び装置
CN1988565A (zh) * 2005-12-23 2007-06-27 Qnx软件操作***(威美科)有限公司 窄带语音的带宽扩展
US20080195383A1 (en) * 2007-02-14 2008-08-14 Mindspeed Technologies, Inc. Embedded silence and background noise compression
CN102800317A (zh) * 2011-05-25 2012-11-28 华为技术有限公司 信号分类方法及设备、编解码方法及设备
CN103413557A (zh) * 2013-07-08 2013-11-27 深圳Tcl新技术有限公司 语音信号带宽扩展的方法和装置
CN104517614A (zh) * 2013-09-30 2015-04-15 上海爱聊信息科技有限公司 基于各子带特征参数值的清浊音判决装置及其判决方法
CN107408392A (zh) * 2015-04-05 2017-11-28 高通股份有限公司 音频带宽选择
CN108281157A (zh) * 2017-12-28 2018-07-13 广州市百果园信息技术有限公司 音乐中鼓点节拍的检测方法及计算机存储介质、终端
CN110556122A (zh) * 2019-09-18 2019-12-10 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JOHANNES ABEL , ET AL.: "Sinusoidal-Based Lowband Synthesis for Artificial Speech Bandwidth Extension", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》, vol. 27, no. 4, XP011711118, DOI: 10.1109/TASLP.2019.2895969 *
王迎雪等: "考虑帧间信息的语音带宽扩展", 《声学学报》, vol. 42, no. 3 *

Similar Documents

Publication Publication Date Title
CN108464015B (zh) 麦克风阵列信号处理***
CN104067339B (zh) 噪音抑制装置
CN111149370B (zh) 会议***中的啸叫检测
CN111554315B (zh) 单通道语音增强方法及装置、存储介质、终端
CN108447496B (zh) 一种基于麦克风阵列的语音增强方法及装置
CN109727607B (zh) 时延估计方法、装置及电子设备
CN105118522B (zh) 噪声检测方法及装置
EP3275208B1 (en) Sub-band mixing of multiple microphones
WO2003052740A1 (en) Distributed speech recognition with configurable front-end
US10839820B2 (en) Voice processing method, apparatus, device and storage medium
CN110648687B (zh) 一种活动语音检测方法及***
US20060100866A1 (en) Influencing automatic speech recognition signal-to-noise levels
CN108022595A (zh) 一种语音信号降噪方法和用户终端
CN112489670B (zh) 时延估计方法、装置、终端设备和计算机可读存储介质
EP1913591B1 (en) Enhancement of speech intelligibility in a mobile communication device by controlling the operation of a vibrator in dependance of the background noise
US7917359B2 (en) Noise suppressor for removing irregular noise
Krishnamoorthy An overview of subjective and objective quality measures for noisy speech enhancement algorithms
CN104424954B (zh) 噪声估计方法与装置
CN111477246B (zh) 语音处理方法、装置及智能终端
CN112530454A (zh) 一种窄带语音信号检测方法、装置、***和可读存储介质
CN109215635B (zh) 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
CN114023352B (zh) 一种基于能量谱深度调制的语音增强方法及装置
CN113223561B (zh) 一种语音活动检测的方法、电子设备及装置
US11922933B2 (en) Voice processing device and voice processing method
CN114827363A (zh) 用于通话过程中消除回声的方法、设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination