CN100483509C - 声音信号分类方法和装置 - Google Patents

声音信号分类方法和装置 Download PDF

Info

Publication number
CN100483509C
CN100483509C CN 200610164456 CN200610164456A CN100483509C CN 100483509 C CN100483509 C CN 100483509C CN 200610164456 CN200610164456 CN 200610164456 CN 200610164456 A CN200610164456 A CN 200610164456A CN 100483509 C CN100483509 C CN 100483509C
Authority
CN
China
Prior art keywords
parameter
signal
type
module
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 200610164456
Other languages
English (en)
Other versions
CN101197135A (zh
Inventor
严勤
邓浩江
王珺
许剑峰
许丽净
李伟
张清
桑盛虎
杜正中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Institute of Acoustics CAS
Original Assignee
Huawei Technologies Co Ltd
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd, Institute of Acoustics CAS filed Critical Huawei Technologies Co Ltd
Priority to CN 200610164456 priority Critical patent/CN100483509C/zh
Priority to PCT/CN2007/003798 priority patent/WO2008067735A1/zh
Priority to EP07855800A priority patent/EP2096629B1/en
Publication of CN101197135A publication Critical patent/CN101197135A/zh
Application granted granted Critical
Publication of CN100483509C publication Critical patent/CN100483509C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种声音信号分类方法,包括:接收声音信号,根据背景噪声频谱分布参数和所述声音信号的频谱分布参数确定背景噪声的更新速率;根据所述更新速率对噪声参数进行更新,并根据子带能量参数和更新后的噪声参数对所述声音信号进行分类。本发明还公开了一种声音信号分类装置,包括:背景噪声参数更新模块,用于根据背景噪声频谱分布参数和当前声音信号的频谱分布参数确定背景噪声的更新速率,并发送所述确定的更新速率;PSC模块,用于接收来自所述背景噪声参数更新模块的更新速率,对噪声参数进行更新,并根据子带能量参数和更新后的噪声参数对当前声音信号进行分类,并发送分类确定的声音信号类型。

Description

声音信号分类方法和装置
技术领域
本发明涉及语音编码技术领域,特别涉及一种声音信号分类方法和一种声音信号分类装置。
背景技术
在语音通信中只有大约40%的信号是包含语音的,其它时间都是静音或背景噪声,为了节省传输带宽,在语音信号处理领域进行语音编码中,采用语音活动检测(VAD,Voice Activity Detection)技术,使得编码器可以对背景噪声和活动的语音采用不同的速率进行编码,即对背景噪声用较低的速率进行编码,对活动的语音用较高的速率进行编码,从而降低了平均码率,极大的促进了变速率语音编码技术的发展。
现有的信号检测器(VAD)均针对语音信号而开发,只将输入的音频信号分为两种:噪声和非噪声。较新的编码器如AMR_WB+和SMV,包含音乐信号的检测,作为VAD判决以外的一个修正和补充。AMR-WB+编码器的重要特征是在VAD检测之后,根据输入音频信号是语音还是音乐,用不同的模式进行编码,以在最大程度上减小码率,保证编码质量。
AMR-WB+中的两种不同编码模式包括:基于代数码本激励线性预测语音编码器ACELP(Algebraic Code Excited Linear Prediction)和变换激励编码TCX(Transform coded excitation)模式两种核心编码算法。ACELP属于通过建立语音发声模型,充分利用了语音的特点,对于语音信号的编码效率很高,加之其技术已经相当成熟,故可以通过在通用音频编码器上扩展使用前者使其语音编码质量得到很大提高。类似地,通过在低比特率的语音编码器上扩展使用TCX编码使其宽带音乐的编码质量得到提高。
AMR-WB+编码算法的ACELP和TCX模式选择算法根据复杂度有两种:开环选择算法和闭环选择算法。闭环选择对应高复杂度,为缺省选项,是一种基于感知加权信噪比的遍历搜索的选择方式,显然,这样的选择方法是很准确的,但它运算复杂度非常高,代码量也较大。
开环选择包括如下步骤:
首先在步骤101,由VAD模块根据声调标识(Tone_flag)和子带能量参数(Level[n]),确定信号是非有用信号还是有用信号。
然后在步骤102,进行初步模式选择(EC);
在步骤103,对步骤102初步确定的模式进行修正和细化模式选择(ESC),以确定选择的编码模式,具体基于开环基音参数和ISF参数进行。
在步骤104、进行TCXS处理,即当连续选择语音信号编码模式的次数小于三次时,进行小规模的闭环遍历搜索,最终确定编码模式,其中语音信号编码模式为ACELP,音乐信号编码模式为TCX。
在上述AMR-WB+的语音信号选择算法具有如下缺点:
1、现有的VAD模块在对信号进行分类时,对噪声和一些种类的音乐信号区分不够理想,降低了声音信号分类的准确性;
2、计算开环基音参数,对于ACELP编码模式是必要的运算,然而对于TCX编码模式是不必要的。按照AMR-WB+的结构设计,VAD和开环模式选择算法需要用到开环基音参数,因此对所有帧都需要计算开环基音,而这对于其它非ACELP编码模式(例如TCX)来说,属于冗余的复杂度,增加了编码模式选择的计算量,降低了效率。
3、虽然VAD检测算法在语音检测和噪声免疫上的表现是当前各种编码器中较优的,但在某些特殊的音乐信号拖尾部分有可能误将音乐信号判成噪音,这将导致音乐的尾音被截断,听起来不自然。
4、AMR-WB+的模式选择算法不考虑信号所处的信噪比环境,在低信噪比条件下区分语音和音乐的性能进一步恶化。
发明内容
有鉴于此,本发明提供了一种声音信号分类方法和一种声音信号分类装置,能够提高对声音信号分类检测的准确性。
本发明提供的一种声音信号分类检测方法包括:
接收声音信号,根据背景噪声频谱分布参数和所述声音信号的频谱分布参数确定背景噪声的更新速率;根据所述更新速率对噪声参数进行更新,并根据子带能量参数和更新后的噪声参数对所述声音信号进行分类,分类得到有用信号和非有用信号。
本发明提供的一种声音信号分类装置包括:背景噪声参数更新模块和信号初始分类PSC模块;
背景噪声参数更新模块用于根据背景噪声频谱分布参数和当前声音信号的频谱分布参数确定背景噪声的更新速率,并发送所述确定的更新速率;
PSC模块用于接收来自所述背景噪声参数更新模块的更新速率,对噪声参数进行更新,并根据子带能量参数和更新后的噪声参数对当前声音信号进行分类,并发送分类确定的声音信号类型。
从上述方案可以看出,本发明中通过确定背景噪声的更新速率,并根据该更新速率对噪声参数进行更新,再根据子带能量参数和更新后的噪声参数对信号进行初始分类,确定接收的语音信号中的非有用信号和有用信号,降低了将有用信号判决为噪音信号的误判,提高了声音信号分类的准确性。
附图说明
图1为现有技术中的AMR-WB+编码算法开环选择示意图;
图2为本发明声音信号分类检测方法的总体流程图;
图3为本发明声音信号分类装置的组成示意图;
图4为本发明具体实施例所基于的***组成示意图;
图5为本发明具体实施例中一种编码器参数提取模块计算各种参数的流程图;
图6为本发明具体实施例中另一种编码器参数提取模块计算各种参数的流程图;
图7为本发明具体实施例中PSC模块组成示意图;
图8为本发明具体实施例中信号分类判决模块确定特征参数的示意图;
图9为本发明具体实施例中信号分类判决模块进行语音判决的示意图;
图10为本发明具体实施例中信号分类判决模块进行音乐判决的示意图;
图11为本发明具体实施例中信号分类判决模块对初始判决结果进行修正的示意图;
图12为本发明具体实施例中信号分类判决模块对不确定信号进行初步修正分类示意图;
图13为本发明具体实施例中信号分类判决模块对信号进行最终分类修正示意图;
图14为本发明具体实施例中信号分类判决模块进行参数更新示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
本发明的主要思想是,根据当前声音信号的频谱分布参数和背景噪声频谱分布参数确定背景噪声的更新速率,并根据该更新速率对噪声参数进行更新,则在确定接收的语音信号中的有用信号和非有用信号时,根据该更新后的噪声参数进行,从而使得在确定有用信号和非有用信号时,噪声参数的准确性更高,提高了声音信号分类的准确性。
如图2所示,本发明首先提供了一种声音信号分类检测方法,该方法包括:
步骤201、接收声音信号,根据背景噪声频谱分布参数和所述声音信号的频谱分布参数确定背景噪声的更新速率;
步骤202、根据所述更新速率对噪声参数进行更新,并根据子带能量参数和更新后的噪声参数对所述声音信号进行分类。
步骤202中,将声音信号分类主要是分为有用信号类型和非有用信号类型。此后,还可以进一步确定有用信号的类型,所述类型包括语音信号和音乐信号,在确定时,根据噪声是否收敛,选择基于开环基音参数、导谱频率参数和子带能量参数确定,或选择基于导谱频率参数和子带能量参数确定。
此外,为防止将音乐信号拖尾误判为非有用信号,降低声音效果,本发明中还获取确定的有用信号类型,根据该有用信号类型确定信号拖尾长度,并进一步根据该信号拖尾长度确定接收的语音信号中的有用信号和非有用信号。这里,对音乐信号的拖尾可以设置的较大,从而提高音乐信号的声音效果。
在将有用信号确定为语音信号或音乐信号时,可以首先将不能够非常准确确定的信号设置为不确定类型,然后再根据其他参数对不确定类型进行修正,最终确定有用信号的类型。
由于非有用信号的编码方式并非均需要计算导谱频率参数,因此为降低分类过程中的计算量,提高分类效率,对确定出的非有用信号,如果其对应的编码方式不需要计算导谱频率参数,则不计算导谱频率参数。
如图3所示,本发明还提供了一种声音信号分类装置,包括背景噪声参数更新模块和信号初始分类(PSC)模块。其中,背景噪声参数更新模块用于根据当前声音信号的频谱分布参数和背景噪声频谱分布参数确定背景噪声的更新速率,并将确定的更新速率传送给所述PSC模块;PSC模块用于根据来自所述背景噪声参数更新模块的更新速率,对噪声参数进行更新,并根据子带能量参数和更新后的噪声参数对信号进行初始分类,将接收的语音信号确定为有用信号类型或非有用信号类型。
该声音信号分类装置进一步可以包括:信号分类判决模块;则PSC模块还将确定的信号类型传送给信号分类判决模块;信号分类判决模块基于开环基音参数、导谱频率参数和子带能量参数,或者基于导谱频率参数和子带能量参数,确定有用信号的类型,所述类型包括语音信号和音乐信号。
该声音信号分类装置进一步还可以包括:分类参数提取模块;则PSC模块通过分类参数提取模块将确定的信号类型传送给所述信号分类判决模块;分类参数提取模块还用于获取包括导谱频率参数和子带能量参数,或者进一步获取开环基音参数,将获取的参数处理为信号分类特征参数传送给所述分类判决模块;以及根据将获取的参数处理为声音信号的频谱分布参数和背景噪声频谱分布参数,并将这些频谱分布参数传送给所述背景噪声参数更新模块;则分类判决模块根据上述信号分类特征参数和PSC模块确定的信号类型,确定有用信号的类型,所述类型包括语音信号和音乐信号。
PSC模块进一步还可以用于将确定信号类型过程中计算的声音信号的信噪比传送给所述信号分类判决模块;信号分类判决模块进一步根据所述信噪比将有用信号确定为语音信号或音乐信号。
该声音信号分类装置进一步可以包括:编码器模式及速率选择模块;信号分类判决模块将确定的信号类型传送给所述编码器模式及速率选择模块;编码器模式及速率选择模块根据接收的所述信号类型确定声音信号的编码模式及速率。
该声音信号分类装置进一步可以包括:编码器参数提取模块,用于提取导谱频率参数和子带能量参数,或者进一步提取开环基音参数,并将提取的所述参数传送给所述分类参数提取模块,以及将提取的子带能量参数传送给PSC模块。
以下通过一个具体实施例对本发明提供的声音信号分类检测方法和声音信号分类装置进行说明。
如图4所示,为本发明具体实施例基于的***组成示意图。其中包括声音信号分类检测器(sound activity detector,SAD)它根据编码器的需要,将输入音频数字信号划分为不同的类,可分为非有用信号、语音和音乐三类,从而为编码器提供编码模式选择和速率选择的依据。
在图4中可以看出,SAD模块内部包括:背景噪声估计控制模块、信号初始分类模块、分类参数提取模块和信号分类判决模块共4个子模块。SAD作为编码器内部使用的信号分类器,为减少资源耗占及计算复杂度,将充分利用编码器自有的参数,所以通过编码器中的编码器参数提取模块计算子带能量参数及编码器参数,并将计算的参数提供给SAD模块。另外,SAD模块最终输出是信号判决类型,包括非有用信号、语音和音乐三类,提供给编码器模式和速率选择模块,供其选择编码器模式和速率。
以下分别对编码器中与SAD相关的模块、SAD中的各个子模块,以及各个模块之间的交互过程进行详细说明。
编码器中的编码器参数提取模块计算子带能量参数及编码器参数,并将计算的参数提供给SAD模块。其中,子带能量参数的计算可以采用滤波器组滤波的方法,具体的子带数量根据计算复杂度要求和分类准确性要求确定,在本实施例中下述以分为12个子带进行说明。
本实施例中,编码器参数提取模块计算各种SAD模块需要的参数的过程可以如图5或图6所示,
其中,图5所示的流程包括如下步骤:
步骤501、编码器参数提取模块首先计算子带能量参数。
步骤502、编码器参数提取模块根据来自PSC模块的信号初始判决结果(Vad_flag)决定是否需要进行导谱频率(ISF)运算,如果需要执行步骤503;否则执行步骤504。
本步骤中决定是否需要进行ISF运算包括:如果当前帧是非有用信号,则根据编码器的机制:如果编码器针对非有用信号的编码需要ISF参数,则进行ISF运算;若不需要,则编码器参数提取模块结束。如果当前帧是有用信号,则进行ISF运算。对于有用信号计算ISF参数,是大多数编码模式都需要的,因此不会给编码器带来冗余的复杂度。ISF参数计算的技术方案可以参考各种编码器的资料,在此不赘述。
步骤503、编码器参数提取模块计算ISF参数,然后执行步骤504。
步骤504、编码器参数提取模块计算开环基音参数。
通过上述图5的流程计算出的子带能量参数提供给SAD中的PSC模块和分类参数提取模块,其余参数提供给SAD中的分类参数提取模块。
图6所示的流程中,在图5流程的基础上,增加了根据初始噪声是否收敛来决定是否计算开环基音参数的步骤。其中,步骤601至步骤603与图5中的步骤501至步骤503基本相同,而在步骤604,判断初始化噪声参数,即噪声估计是否收敛,如果是则在步骤605计算开环基音参数;否则不计算开环基音参数。
由于开环基音参数对于有的编码模式,如TCX编码模式,属于冗余的计算,为降低计算复杂度,在噪声估计收敛之后,基本可以确定信号对应的编码模式不需要计算开环基音参数,因此就不再计算开环基音参数。
在噪声估计收敛之前,为确保噪声估计能够收敛及其收敛速度,需要计算开环基音参数,但这属于启动阶段的计算,可以忽略其复杂度。开环基音参数计算的技术方案可以参考基于ACELP的编码,在此不赘述。判断噪声估计是否收敛的依据可以是连续判决为噪声帧的次数超过门限噪声收敛门限(THR1),本实施例的一个示例中THR1值取20。
上述提取出的子带能量参数为:level[i]。其中,i表示向量的成员索引,本实施例中取1...12,分别对应0-200hz,200-400hz,400-600hz,600-800hz,800-1200hz,1200-1600hz,1600-2000hz,2000-2400hz,2400-3200hz,3200-40000hz,4000-4800hz,4800-6400hz。
上述提取出的ISF参数为:Isn[i],其中,n表示帧索引,i取1...16表示向量中成员索引。
上述提取出的开环基音参数包括:
开环基因增益(open_loop pitch gain,ol_gain)和开环基因延迟(open_loop pitch lag,ol_lag),以及音调标志(tone_flag)。其中,如果ol_gain的值大于音调门限(TONE_THR),则音调标志tone_flag设为1。
信号初始分类模块(PSC)可以采用各种已有的VAD算法方案来实现,具体包括背景噪声估计子模块、计算信噪比子模块、有用信号估计子模块、判决阈值调整字模块、比较子模块、拖尾保护有用信号子模块。本实施例中,如图7所示,PSC模块的具体实现也可以与现有的VAD算法模块有以下三点不同:
I、计算信噪比子模块根据该参数和子带能量参数计算信噪比,计算出的信噪比参数(snr)除在PSC模块内部使用外,还将该snr参数传送给信号分类判决模块,以使得信号分类判决模块在低信噪比条件下对语音和音乐的区分也更加准确。
II、由于现有的VAD对噪声和某些种类的音乐的区分不够理想,本实施例对VAD进行了以下改进:首先背景噪声参数的计算由背景噪声参数更新模块提供的更新速率acc来控制。由背景噪声估计子模块接收来自背景噪声参数更新模块的更新速率,对噪声参数进行更新,并将根据更新后的噪声参数计算的背景噪声子带能量估计参数传送给计算信噪比子模块。具体对更新速率的计算参见后续对背景噪声参数更新模块的说明,在本实施例的一个示例中,更新速率可以取4个档:acc1,acc2,acc3,acc4。对于不同的更新速率,确定不同的向上更新参数(update_up)和向下更新参数(update_down),update_up及update_down分别对应背景噪声向上及向下的更新速率。
然后噪声参数更新的方案具体可采用AMR_WB+中的方案:
If(bckr_estm[n]<levelm-1[n])
    update=update_up
else
    update=update_down
则噪声估计更新的公式为:
bckr_estm+1[n]=(1-update)*bckr_estm[n]+update*levelm-1[n]
则噪声频谱分布参数向量更新的公式为:
p ~ m + 1 [ i ] = ( 1 - update ) * p ~ m [ i ] + update * p m [ i ]
其中,
m:帧索引
n:子带索引
i:频谱分布参数向量的元素索引,i= 1,2,3,4
bckr_est:背景噪声估计子带能量
Figure C200610164456D0015150048QIETU
:背景噪声频谱分布参数向量估计
P:当前信号频谱分布参数向量
III、在现有的VAD中,一般都通过拖尾来保护有用信号不被误判为噪声,拖尾的长短应在保护信号和提高传输效率两方面取一个折衷。对于传统的语音编码器,拖尾的长短可以经学习取一个常量。而对于多速率编码器,面向的是包括音乐的音频信号,这类信号经常出现较长的低能量的拖尾,常规VAD较难将这部分拖尾检测出来,因此需要较长的拖尾对其进行保护。在实施例中,将托尾保护有用信号子模块中的拖尾长短设计为根据SAD信号判决结果自适应,如果判决出是音乐信号(SAD_flag=MUSIC)则设置较长的拖尾参数(hang_len=HANG_LONG),如果判决出是语音信号(SAD_flag=SPEECH),则设置较短的拖尾参数(hang_len=HANG_SHORT),具体设置方式如下:
If(SAD_flag=MUSIC)
    hang_len=HANG_LONG
else if(SAD_flag=SPEECH)
    hang_len=HANG_SHORT
else
    hang_len=0
其中:
SAD_flag  SAD判决标志
hang_len  拖尾保护长度
本实施例的一个示例中,HANG_LONG=100,HANG_SHORT=20,单位可以是帧数。
分类参数提取模块用于根据信号初始分类模块确定的Vad_flag参数和编码器参数提取模块提供的子带能量参数、ISF参数、开环基音参数计算信号分类判决模块和背景噪声参数更新模块需要的参数,以及将子带能量参数、ISF参数、开环基音参数和计算出的参数对应提供给信号分类判决模块和背景噪声参数。分类参数提取模块计算出的参数包括:
1、基音参数(pitch)
比较连续的开环基音延迟的差值,如果开环基音延迟的增量小于设定的阈值,则延迟计数累加;如果连续两帧的延迟计数之和足够大,则设置pitch=1,否则pitch=0。开环基音延迟的计算公式可参见AMR-WB+/AMR-WB标准文档。
2、长时信号相关值参数(meangain)
meangain是相邻三帧音调tone的滑动平均,其中tone=1000*tone_fig;tone_fig定义与AMR-WB+中的相同。
3、过零率(zcr)
zcr = 1 T &Sigma; i - 1 T - 1 II { x ( i ) x ( i - 1 ) < 0 }
II{A}在当A是truth是1,当是false时为0。
4、子带能量时域波动(t_flux)
t _ flux = &Sigma; i = 1 12 | level m ( i ) - level m - 1 ( i ) | short _ mean _ level _ energy
其中short_mean_level_energy表示短时平均能量
5、高低子带能量比(ra)
ra = sublevel _ high _ energy sublevel _ low _ energy
其中,本专利发明的一个实例:
   sublevel_high_energy=level[10]+level[11];
sublevel_low_energy=level[0]+level[1]+level[2]+level[3]+level[4]+level[5]+level[6]+level[7]+level[8]+level[9];
6、子带能量频域波动(f_flux)
f _ flux = &Sigma; i = 2 12 | level m ( i ) - level m ( i - 1 ) | short _ mean _ level _ energy
7、导谱距离短时平均(isf_meanSD):为五个相邻帧导谱距离Isf_SD的平均值,其中
Isf _ SD = &Sigma; i = 1 16 | Isf m ( i ) - Isf m - 1 ( i ) |
8、子带能量标准差平均参数(level_meanSD),表示两个相邻帧子带能量标准差(level_SD)的平均值,level_SD参数的计算方法参考上述Isf_SD的计算方法。
上述8个参数中,提供给背景噪声参数更新模块的参数包括:zcr、ra、f_flux和t_flux。提供给信号分类判决模块的参数包括:pitch、meangain、isf_meanSD和level_meanSD。
信号分类判决模块用于根据来自信号初始分类模块PSC的snr、Vad_flag,以及来自分类参数提取模块的子带能量参数、pitch、meangain、Isf_meanSD、level_meanSD将信号最终区分为:非有用信号(NOISE)、语音信号(SPEECH)和音乐信号(MUSIC)。信号分类判决模块中可以包括:参数更新子模块和判决子模块;所述参数更新子模块用于根据所述信噪比更新信号分类判决过程中的门限,并将更新后的门限提供给所述判决子模块;所述判决子模块用于接收来自PSC模块的声音信号类型,并对其中的有用信号基于开环基音参数、导谱频率参数、子带能量参数和所述更新后的门限,或者基于导谱频率参数和子带能量参数和所述更新后的门限,确定所述有用信号的类型,并发送所确定的有用信号的类型到编码器模式及速率选择模块。
将有用信号确定为语音信号或音乐信号包括:首先设置语音标识位的值和音乐标识位的值均为0,然后根据基音参数标识、长时信号相关值、导谱距离短时平均参数和子带能量子标准差平均参数将信号初步确定为语音类型、音乐类型或不确定类型,并根据初步确定出的语音类型或音乐类型对应修改语音标识位或音乐标识位的值;再根据子带能量、长时信号相关值、子带能量子标准差平均参数、speech_flag、music_flag、pitch值为1的连续帧数是否超过预先设置的拖尾帧数门限、连续的音乐帧数、连续的语音帧数,以及上一帧的类型,对初步确定出的所述语音类型、音乐类型或不确定类型进行修正,确定有用信号的类型,所述类型包括语音信号和音乐信号。
以下再对将有用信号确定为语音信号或音乐信号的具体流程进行说明:
为保证信号判决的稳定及避免频繁的判决结果的转换,本实施例提供了参数的标志拖尾机制,包括对pitch_flag、level_meanSD_high_flag、ISF_meanSD_high_flag、ISF_meanSD_low_flag、level_meanSD_low_flag、meangain_flag这些特征参数值的确定根据拖尾机制进行,这些特征参数值的具体确定如图8所示。
图8中的拖尾期间的长度根据拖尾参数标识值确定,本实施例中提供了两种拖尾设置,即确定拖尾参数标识值的方案:
第一种拖尾设置方案中,当参数值高于或低于一定门限时,对应的参数拖尾计数器值加一;否则对应的参数拖尾计数器值设置为0,并根据参数拖尾计数器的值设定不同的参数拖尾标识。其中,参数拖尾计数器的值越大,参数拖尾标识值的长度越长,具体在根据参数计数器设置参数拖尾标识值时根据实际情况确定,这里不再赘述。
第二种拖尾设置方案中,根据训练参数对应的决策树的各内部节点的错误率ER来控制拖尾长短,错误率小的参数,拖尾短;错误率大的参数,拖尾长。
此后,如果当前的信号分类为有用信号,进行语音和音乐的初始分类:
首先进行语音初始判决,如图9所示,在步骤901设置语音标识位=0,然后在步骤902,判断Isf_meanSD是否大于预先设定的第一导谱语音门限(例如为1500),如果是则设置语音标识位的值为1;否则,
在步骤903,判断是否pitch值为1,并且开关基音搜索获得的基音延迟值t_top_mean小于基音语音门限(例如为40),如果是,则设置语音标识位的值为1;否则,
在步骤904,判断pitch值为1的连续帧数是否超过预先设置的拖尾帧数门限(例如为2帧),如果是,则设置语音标识位的值为1;否则,
在步骤905,判断meangain是否大于预先设定的长时相关语音门限(例如为8000),如果是,则设置语音标识位的值为1;否则,
在步骤906,判断level_meanSD_high_flag和ISF_meanSD_high_fiag中是否有一个或两个的值为1,如果是,则设置语音标识位的值为1;否则不更改语音标识位的值。
然后,进行音乐初始判决,具体如图10所示:
在步骤1001,首先将音乐标识位设置为0,然后在步骤1002,判断信号同时满足标志ISF_meanSD_low_flag=1和level_meanSD_low_flag=1,如果是则设置音乐信号标志music_flag;否则,不更改音乐标识位的值。
此后,如图11所示,对初始判决结果进行修正:
首先在步骤1101、判断是否子带的即时能量小于子带能量门限(例如为5000),如果是则执行步骤1102;否则将信号确定为不确定类(UNCERTAIN);
在步骤1102,判断是否meangain_fiag=1,并且音乐持续计数器小于音乐持续计数语音判断门限(例如为3),如果是则将信号确定为语音信号;否则,
在步骤1103,判断ISF_meanSD的值大于预先设定的第二导谱语音门限(例如为2000),如果是则将信号确定为语音信号;否则,
在步骤1104,判断是否level_energy小于10000,并且之前判决为噪声的帧数超过了五帧,如果是,则将当前的信号类别置为不确定类,这是为了降低将噪声归为音乐类的误判;否则,
在步骤1105,判断是否音乐标识位和语音标识位的值均为1,如果是,则将当前信号类别确定位不确定类;否则,
在步骤1106,判断是否音乐标识位和语音标识位的值均为0,如果是,则将当前信号类别确定位不确定类;否则,
在步骤1107,判断是否音乐标识位为0,语音标识位为1,如果是,则将当前信号类型确定为语音类;否则,
在步骤1108,由于音乐标识位为1,语音标识位为0,将当前信号类型确定为音乐类。
在上述步骤1104、1105即步骤1106中确定出信号为不确定类后,执行步骤1109:判断是否pitch_flag=1,并且ISF_meanSD小于导谱音乐门限(例如为900),并且连续的语音帧数小于3,如果是,则将信号确定为音乐类;否则,将信号仍确定为不确定类;
而在上述步骤1103和步骤1107将信号确定为语音类后,执行步骤1110:是否连续的音乐帧数大于3,并且ISF_meanSD小于导谱音乐门限,如果是,则将信号确定为音乐信号;否则,将信号确定为语音信号。
在通过上述流程确定出语音信号和音乐信号后,对于仍然处于不确定类的信号,执行图12所示的流程,进行初步修正分类,包括:首先在步骤1201判断level_energy是否小于子带能量不确定类门限(例如为5000),如果是,仍将信号类型确定为不确定类;否则,在步骤1202,判断是否音乐的持续帧数大于1并且ISF_meanSD小于导谱音乐门限,如果是,将信号确定为音乐类;否则:
对语音和音乐拖尾标志清零,如果本帧之前为连续的语音类,且连续性较强,那么根据语音的特征参数对语音进行判决,若满足语音条件,那么设置语音拖尾标志speech_hangover_flag=1,具体包括图12中的步骤1203至步骤1206;如果本帧之前为连续的音乐类,且连续性较强,那么根据音乐的特征参数对音乐进行判决,若满足音乐条件,那么设置音乐拖尾的标志music_hangover_flag=1,具体包括图12中的步骤1207至步骤1210。
此后,如图12中的步骤1211至步骤1216所示,如果语音拖尾标志为1,音乐拖尾标志为0,将当前的信号类别置为语音类;如果音乐拖尾标志为1,语音拖尾标志为0,则将当前的信号类别置为音乐类;如果音乐拖尾标志和音乐拖尾标志同时为1或同时为0,将信号类别设为不确定类,这时如果之前音乐的连续性超过了20帧,将信号确定为音乐类,如果之前语音的连续性超过了20帧,将信号确定为语音类。
在经过上述初步修正后,在图13中对有用信号类型进行最终修正,继续根据当前的语境进行类别的修正,在步骤1301,如果当前的语境为音乐,且持续性很强,超过了3秒,即当前连续的音乐帧数超过了150帧,那么可根据ISF_meanSD的值进行强制修正,确定音乐信号。在步骤1302,如果当前的语境为语音,并且持续性很强,超过了3秒,即当前连续的语音帧数超过了150帧,那么可根据ISF_meanSD的值进行强制修正,确定语音信号类型;此后如果信号类别还为不确定类,那么在步骤1303根据之前的语境对信号类别进行修正,即将当前不确定的信号类别归纳为之前的信号类别。
在通过上述流程确定了有用信号的类别后,需要更新三个类别计数器和更新信号类别判决模块中的各门限值。对于三个类别计数器,如果当前分类为音乐signal_sort=music,则音乐计数器music_countinue_counter增加1,否则清零;其它类别计数器的处理类似,如图14所示,这里不再详述。而门限值根据信号初始分类模块输出的信噪比大小来更新,在实施例中列举的各门限示例是在20db信噪比条件下学习得到的值。
背景噪声参数更新模块利用SAD中分类参数提取模块中计算出的一些频谱分布参数,来控制背景噪声的更新速率。由于在实际应用环境可能出现背景噪声的能量水平突然提高的情况,这时易出现背景噪声估计因信号持续被判为有用信号而一直不能更新的状态,背景噪声参数更新模块的设置即解决了该问题。
该背景噪声参数更新模块根据来自分类参数提取模块中的参数,计算的有关频谱分布参数向量包含以下元素:
过零率zcr的短时平均
高低子带能量比ra的短时平均
子带能量频域波动f_flux的短时平均
子带能量时域波动t_flux的短时平均
其中,zcr_mean短时平均的计算方法如下,其它类似:
zcr_meanm=ALPHA□zcr_meanm-1+(1-ALPHA)□zcrm
其中ALPHA=0.96,m表示帧索引。
本实施例利用了背景噪声的频谱特性较为稳定的特点,其中频谱分布参数向量的成员可不限于以上列出的4个。当前背景噪声的更新速率由当前频谱分布参数与背景噪声频谱分布参数估计之间的差异dcb来控制。该差异可以通过欧式距离、Manhattan距离等算法来实现。本专利的一个发明实例采用Manhattan距离(一种距离计算方式的命名,类似于欧式距离),即:
d cb = &Sigma; i = 1 4 | p ( i ) - p ~ ( i ) |
其中,p是当前信号的频谱分布参数向量,
Figure C200610164456D0022150310QIETU
是背景噪声频谱分布参数向量估计。
在本实施例的一个示例中,当dcb<TH1时,模块输出更新速率acc1,代表最快更新速率;否则,当dcb<TH2时,输出更新速率acc2;否则,当dcb<TH3时,输出更新速率acc3;否则,输出更新速率acc4。这里的TH1、TH2、TH3和TH4为更新门限,具体根据实际环境情况确定。
以上是对本发明具体实施例的说明,在具体的实施过程中可对本发明的方法进行适当的改进,以适应具体情况的具体需要。因此可以理解,根据本发明的具体实施方式只是起示范作用,并不用以限制本发明的保护范围。

Claims (17)

1、一种声音信号分类方法,其特征在于,该方法包括:
A、接收声音信号,根据背景噪声频谱分布参数和所述声音信号的频谱分布参数确定背景噪声的更新速率;
B、根据所述更新速率对噪声参数进行更新,并根据子带能量参数和更新后的噪声参数对所述声音信号进行分类,分类得到有用信号和非有用信号。
2、根据权利要求1所述的方法,其特征在于,所述步骤B后进一步包括:
C、对所述分类得到的有用信号,基于开环基音参数、导谱频率参数和子带能量参数确定有用信号的类型,所述类型包括语音信号和音乐信号。
3、根据权利要求2所述的方法,其特征在于,所述步骤C之前进一步包括:
C0、检测噪声估计是否收敛,如果是,则执行步骤C1;否则,执行所述步骤C;
C1、对所述分类得到的有用信号,基于导谱频率参数和子带能量参数确定有用信号的类型,所述类型包括语音信号和音乐信号。
4、根据权利要求3所述的方法,其特征在于,所述步骤C0中,检测初始噪声是否收敛为:判断所述接收的声音信号前连续噪声帧数是否超过预先设定的噪声收敛门限,如果是,则确定噪声估计收敛;否则,确定噪声估计不收敛。
5、根据权利要求2所述的方法,其特征在于,所述步骤B中还获取所述确定的有用信号类型,根据该有用信号类型确定信号拖尾长度,并进一步根据该信号拖尾长度对所述声音信号进行分类。
6、根据权利要求2所述的方法,其特征在于,所述步骤C包括:
初始化语音标识位和音乐标识位,然后根据基音参数标识、长时信号相关参数、导谱距离短时平均参数和子带能量标准差平均参数,初步确定有用信号的类型,包括语音类型、音乐类型或不确定类型,并根据初步确定出的语音类型和音乐类型对应修改语音标识位和音乐标识位;
根据子带能量、长时信号相关参数、子带能量标准差平均参数、语音标识位、音乐标识位、基音参数标识值为1的连续帧数是否超过预先设置的拖尾帧数门限、连续的音乐帧数、连续的语音帧数、上一帧的类型,对初步确定出的所述语音类型、音乐类型或不确定类型进行修正,最终确定所述有用信号的类型,包括语音信号和音乐信号。
7、根据权利要求6所述的方法,其特征在于,所述拖尾帧数门限根据所述声音信号的信噪比进行调整。
8、根据权利要求1所述的方法,其特征在于,所述步骤B后,进一步包括:
D、对所述分类得到的非有用信号,确定其对应的编码方式,并根据确定的编码方式确定是否需要计算导谱频率参数。
9、根据权利要求1所述的方法,其特征在于,步骤B中所述的噪声参数包括:噪声估计参数和噪声频谱分布参数。
10、根据权利要求1或9所述的方法,其特征在于,所述步骤A包括:计算所述声音信号频谱分布参数与背景噪音频谱分布参数之间的差异参数,然后根据该差异参数确定更新速率。
11、根据权利要求10所述的方法,其特征在于,计算所述差异参数涉及的频谱分布参数包括:过零率短时平均参数、高低子带能量比短时平均参数、子带能量频域波动短时平均参数和子带能量时域波动短时平均参数。
12、一种声音信号分类装置,其特征在于,该装置包括:背景噪声参数更新模块和信号初始分类PSC模块;
所述背景噪声参数更新模块用于根据背景噪声频谱分布参数和当前声音信号的频谱分布参数确定背景噪声的更新速率,并发送所述确定的更新速率;
所述PSC模块用于接收来自所述背景噪声参数更新模块的更新速率,对噪声参数进行更新,并根据子带能量参数和更新后的噪声参数对当前声音信号进行分类,并发送分类确定的声音信号类型。
13、根据权利要求12所述的装置,其特征在于,该装置进一步包括:信号分类判决模块,用于接收来自PSC模块的声音信号类型,并对其中的有用信号基于开环基音参数、导谱频率参数和子带能量参数,或者基于导谱频率参数和子带能量参数,确定有用信号的类型,所述有用信号的类型包括语音信号和音乐信号,并发送所确定的有用信号的类型。
14、根据权利要求13所述的装置,其特征在于,该装置进一步包括:分类参数提取模块,用于接收来自PSC模块的声音信号类型,并将该声音信号类型传送给所述信号分类判决模块;和获取包括导谱频率参数和子带能量参数,或者获取开环基音参数、导谱频率参数和子带能量参数,将获取的参数处理为信号分类特征参数传送给所述信号分类判决模块;以及将获取的参数处理为声音信号的频谱分布参数和背景噪声频谱分布参数,并将这些频谱分布参数传送给所述背景噪声参数更新模块;
则所述信号分类判决模块根据所述信号分类特征参数和所述PSC模块确定的声音信号类型,确定有用信号的类型,所述有用信号的类型包括语音信号和音乐信号。
15、根据权利要求13或14所述的装置,其特征在于,所述信号分类判决模块包括:参数更新子模块和判决子模块;所述参数更新子模块用于根据信噪比更新信号分类判决过程中的门限,并将更新后的门限提供给所述判决子模块;
所述判决子模块用于接收来自PSC模块的声音信号类型,并对其中的有用信号基于开环基音参数、导谱频率参数、子带能量参数和所述更新后的门限,或者基于导谱频率参数和子带能量参数和所述更新后的门限,确定所述有用信号的类型,并发送所确定的有用信号的类型。
16、根据权利要求13所述的装置,其特征在于,该装置进一步包括:编码器模式及速率选择模块,用于接收来自信号分类判决模块的有用信号的类型,并根据接收的有用信号的类型确定声音信号的编码模式及速率。
17、根据权利要求14所述的装置,其特征在于,该装置进一步包括:编码器参数提取模块,用于提取子带能量参数传送给所述分类参数提取模块或者提取所述子带能量参数和编码器参数传送给所述分类参数提取模块,以及提取子带能量参数传送给所述PSC模块,所述编码器参数包括导谱频率参数和开环基音参数。
CN 200610164456 2006-12-05 2006-12-05 声音信号分类方法和装置 Active CN100483509C (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN 200610164456 CN100483509C (zh) 2006-12-05 2006-12-05 声音信号分类方法和装置
PCT/CN2007/003798 WO2008067735A1 (fr) 2006-12-05 2007-12-26 Procédé et dispositif de classement pour un signal sonore
EP07855800A EP2096629B1 (en) 2006-12-05 2007-12-26 Method and apparatus for classifying sound signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610164456 CN100483509C (zh) 2006-12-05 2006-12-05 声音信号分类方法和装置

Publications (2)

Publication Number Publication Date
CN101197135A CN101197135A (zh) 2008-06-11
CN100483509C true CN100483509C (zh) 2009-04-29

Family

ID=39491665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610164456 Active CN100483509C (zh) 2006-12-05 2006-12-05 声音信号分类方法和装置

Country Status (3)

Country Link
EP (1) EP2096629B1 (zh)
CN (1) CN100483509C (zh)
WO (1) WO2008067735A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5168162B2 (ja) * 2009-01-16 2013-03-21 沖電気工業株式会社 音信号調整装置、プログラム及び方法、並びに、電話装置
EP2490214A4 (en) * 2009-10-15 2012-10-24 Huawei Tech Co Ltd METHOD, DEVICE AND SYSTEM FOR SIGNAL PROCESSING
CN102299693B (zh) * 2010-06-28 2017-05-03 瀚宇彩晶股份有限公司 音讯调整***及方法
KR101696632B1 (ko) 2010-07-02 2017-01-16 돌비 인터네셔널 에이비 선택적인 베이스 포스트 필터
CN102446506B (zh) * 2010-10-11 2013-06-05 华为技术有限公司 音频信号的分类识别方法及装置
WO2012146290A1 (en) * 2011-04-28 2012-11-01 Telefonaktiebolaget L M Ericsson (Publ) Frame based audio signal classification
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
US9099098B2 (en) * 2012-01-20 2015-08-04 Qualcomm Incorporated Voice activity detection in presence of background noise
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
BR112015003356B1 (pt) * 2012-08-31 2021-06-22 Telefonaktiebolaget L M Ericsson (Publ) Método e aparelho para detecção de atividade de voz, codec para codificar voz ou som
CN102928713B (zh) * 2012-11-02 2017-09-19 北京美尔斯通科技发展股份有限公司 一种磁场天线的本底噪声测量方法
CN108074579B (zh) * 2012-11-13 2022-06-24 三星电子株式会社 用于确定编码模式的方法以及音频编码方法
CN106409310B (zh) * 2013-08-06 2019-11-19 华为技术有限公司 一种音频信号分类方法和装置
CN106328169B (zh) * 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
CN106328152B (zh) * 2015-06-30 2020-01-31 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测***
CN105654944B (zh) * 2015-12-30 2019-11-01 中国科学院自动化研究所 一种融合了短时与长时特征建模的环境声识别方法及装置
CN107123419A (zh) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 Sphinx语速识别中背景降噪的优化方法
CN108257617B (zh) * 2018-01-11 2021-01-19 会听声学科技(北京)有限公司 一种噪声场景识别***及方法
CN110992989B (zh) * 2019-12-06 2022-05-27 广州国音智能科技有限公司 语音采集方法、装置及计算机可读存储介质
CN113257276B (zh) * 2021-05-07 2024-03-29 普联国际有限公司 一种音频场景检测方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1331826A (zh) * 1998-12-21 2002-01-16 高通股份有限公司 可变速率语音编码
CN1354455A (zh) * 2000-11-18 2002-06-19 深圳市中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
CN1430778A (zh) * 2001-03-28 2003-07-16 三菱电机株式会社 噪声抑制装置
CN1624766A (zh) * 2000-08-21 2005-06-08 康奈克森特***公司 语音编码中噪音鲁棒分类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
US6694293B2 (en) * 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1331826A (zh) * 1998-12-21 2002-01-16 高通股份有限公司 可变速率语音编码
CN1624766A (zh) * 2000-08-21 2005-06-08 康奈克森特***公司 语音编码中噪音鲁棒分类方法
CN1354455A (zh) * 2000-11-18 2002-06-19 深圳市中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
CN1430778A (zh) * 2001-03-28 2003-07-16 三菱电机株式会社 噪声抑制装置

Also Published As

Publication number Publication date
CN101197135A (zh) 2008-06-11
EP2096629A4 (en) 2011-01-26
EP2096629B1 (en) 2012-10-24
WO2008067735A1 (fr) 2008-06-12
EP2096629A1 (en) 2009-09-02

Similar Documents

Publication Publication Date Title
CN100483509C (zh) 声音信号分类方法和装置
CN101197130B (zh) 声音活动检测方法和声音活动检测器
CN102446504B (zh) 语音/音乐识别方法及装置
Evangelopoulos et al. Multiband modulation energy tracking for noisy speech detection
CN101393741A (zh) 一种宽带音频编解码器中的音频信号分类装置及分类方法
CN101399039B (zh) 一种确定非噪声音频信号类别的方法及装置
CN101145345B (zh) 音频分类方法
CN102237085B (zh) 音频信号的分类方法及装置
WO2008058842A1 (en) Voice activity detection system and method
CN102089803A (zh) 用以将信号的不同段分类的方法与鉴别器
CN1335980A (zh) 借助于映射矩阵的宽频带语音合成
CN102714034B (zh) 信号处理的方法、装置和***
CN101447185A (zh) 一种基于内容的音频快速分类方法
CN1123862C (zh) 基于语音识别专用芯片的特定人语音识别、语音回放方法
CN107408383A (zh) 编码器选择
CN104318927A (zh) 一种抗噪声的低速率语音编码方法及解码方法
CN1920947A (zh) 用于低比特率音频编码的语音/音乐检测器
Wang et al. Phonetically-based vector excitation coding of speech at 3.6 kbps
CN101889306A (zh) 用于处理信号的方法和装置
Malenovsky et al. Two-stage speech/music classifier with decision smoothing and sharpening in the EVS codec
CN101067929B (zh) 使用共振峰增强提取话音共振峰轨迹的方法
CN101145343B (zh) 一种用于音频处理框架中的编码和解码方法
Sorin et al. The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation
Wang et al. Phonetic segmentation for low rate speech coding
Beritelli et al. Adaptive V/UV speech detection based on acoustic noise estimation and classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant