CN101617363B - 双端话音检测器 - Google Patents

双端话音检测器 Download PDF

Info

Publication number
CN101617363B
CN101617363B CN2007800516827A CN200780051682A CN101617363B CN 101617363 B CN101617363 B CN 101617363B CN 2007800516827 A CN2007800516827 A CN 2007800516827A CN 200780051682 A CN200780051682 A CN 200780051682A CN 101617363 B CN101617363 B CN 101617363B
Authority
CN
China
Prior art keywords
echo
spectral peak
signal
lsf
double talk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007800516827A
Other languages
English (en)
Other versions
CN101617363A (zh
Inventor
T·特朗普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN101617363A publication Critical patent/CN101617363A/zh
Application granted granted Critical
Publication of CN101617363B publication Critical patent/CN101617363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

双端话音检测器(14),用于通过指示何时所接收编码语音信号(6)由非回声信号(5)占支配地位即存在所谓的双端话音而控制在电信***中的回声路径估计。这是通过当信号功率超过第一阈值时从所接收编码语音信号的编码语音帧中提取LSP、把每个所述提取的LSP转换成LSP(线频谱频率)Qi和计算在每两个相邻的LSF之间的距离而被确定的。对于小于第二阈值的每个距离,在两个LSF之间定位频谱峰,以及确定所述频谱峰是否为回声。当预定数目的非回声频谱峰位于接收语音信号(6)中时,将指示双端话音,以及可以停止回声路径估计。

Description

双端话音检测器
技术领域
本发明涉及一种检测所接收编码语音信号是由非回声信号占支配地位的方法和一种估计在电信***中的回声路径的方法。而且,本发明涉及一种双端话音(double talk)检测器以及一种包括双端话音检测器的回声路径估计装置。
背景技术
例如由移动电话和IP电话进行的语音传输通常牵涉到语音编码,它是将语音压缩成一种代码以用语音编解码器进行传输。CELP(码激励线性预测)编码是通常使用的语音编码方法,其包括两个阶段(stage)即,对频谱包络(spectral envelope)进行建模的线性预测阶段和对线性预测阶段的剩余量进行建模的码本(code-book)阶段。
除了对信号的实际语音编码以外,信道编码也可以被用于信号的传输以便避免由于传输误差造成的损失,并且在语音数据流中最重要的比特常常通过较鲁棒的信道编码进行编码以便得到最佳的总编码结果。
重要的是减小噪声和干扰以便提高移动电话中的语音质量。回声(即话音信号反射回到讲话方)是主要的干扰,并且电话网中的主回声源是由PSTN(公共交换电话网)的本地交换机中4线到2线转换的阻抗失配造成的、所谓的混合电路中的电反射。通常,这个电回声由在电话***中-例如在作为在例如使用IP(互联网协议)那样的分组交换网络与例如PSTN那样的电路交换网络之间的接口的媒体网关中或者在作为在移动网络与PSTN之间的接口的移动业务交换中心中-靠近回声源安装的网络回声消除器而去除。在国际交换机(international exchange)中也需要网络回声消除器,并且在具有大的端对端传输延时的国家电话交换机中可能需要网络回声消除器。而且,如果在靠近回声源的电话交换机中没有回声消除器,则在另一个国家的国际运营商可能想要通过检测和去除在长途电话交换机中生成的回声来减小回声。
在移动通信网内另一个回声源是由话筒与扬声器之间的声音耦合引起的、在移动电话或IP电话内出现的声音串扰。为了按照标准要求减小声音耦合,移动电话通常提供回声衰减。然而,虽然移动电话提供按照要求的回声衰减,但源自声音串扰的回声仍旧可能发生,例如由于移动电话位置的很大变化或线路电平离标称电平的偏差而可能发生。
虽然传统的网络回声消除器能够控制电回声,但源自声音串扰的回声需要不同的回声消除器。由于移动通信网中的信号在语音编码器中进行编码并且然后通过引入误码的无线电信道进行发送,所以回声路径将是非线性和非稳定的并引入未知的延时。由此,传统的网络回声消除器不能处理从移动电话返回的声音回声。
传统上,回声控制包括确定所接收语音信号是由源自接收机附近即源自所谓的近端的分量还是由源自远处即源自所谓的远端的已知语音信号的反射(回声)占支配地位。从远端反射的已知语音信号即回声将被延时、变换、并与语音信号和源自近端的噪声混合。这示意性示于图1中,图1示出了第一移动电话1a和第二移动电话1b。第一语音信号3从第一移动电话1a发送,并且在到达第二移动电话1b之前在第一网络路径2a中被延时和被变换。然而,这个语音信号的反射部分4将被反射并且通过第二网络路径2b返回以被第一移动电话1a接收作为已知第一语音信号3的回声。因此,由第一移动电话接收的这个回声信号即远端信号源自第一语音信号,且通过了两个网络路径2a,2b。
从第二移动电话1b发送的第二语音信号5将被加到源自第一语音信号3的回声信号4上。因此,到达第一移动电话1a的接收语音信号6将包括回声信号分量4(即远端信号)和这个第二语音信号分量5(即近端信号),后者对于第一移动电话1a是未知的。由近端信号5而不是由回声信号4占支配地位的所接收语音信号6可被称为双端话音,而关于语音信号由近端信号占支配地位的确定,此后被称为双端话音检测。作为第一语音信号3的反射的、接收信号6的远端分量可以被回声控制装置抑制以便减小干扰和噪声。
回声控制装置通常估计回声路径的特性,这个估计将被源自近端的未知语音信号所打扰。所以,传统的回声控制装置避免在有源自近端的语音的情况下估计回声路径的特性。作为替代,回声控制装置将通过上述的双端话音检测来检测近端语音的存在,并且将在所接收信号是由近端话音占支配地位时的时段内停止(inactivate)或禁止估计回声路径特性。
双端话音检测例如可以通过比较近端分量与远端分量的信号电平以便检测双端话音而被执行,诸如例如由如例如在以下文献中描述的Geigel检测器:D.L Duttweiler,“A twelve-channel digital echo canceller”,IEEE Transactions on Communications,Vol.COM-26,No.5,May 1978。然而,这种双端话音检测的准确性是相当低的,因为它假设回声信号功率总是低于恒定倍数的远端信号功率,以及如果从近端返回的信号具有高于恒定倍数的远端信号功率的短期功率,则声称是双端话音。由此,检测器将遗漏由于线路电平的差异或由于近端扬声器以低于远端扬声器的话音进行谈话所引起的任何弱的双端话音状况。另外,这个常数可能很难确定,特别是对于声音回声,由于在回声路径中的放大,它可以强于引起它的远端信号。
可替代地,双端话音检测包括计算近端分量和远端分量的互相关、协方差或相干函数,如例如在美国专利No.6,035,034和No.6,766,019中描述的。这导致改进的检测性能,但需要更高的计算复杂性。
如上所述,在移动电信网中的语音信号通常以编码的格式被传输,AMR(自适应多速率)是针对语音编码所优化的音频数据压缩方案的一个例子。AMR通常被使用来对GSM(全球移动通信***)和UMTS(通用移动电信***)网络中的语音信号进行编码,并且它涉及基于链路条件从八个不同的比特速率之一中选择的链路适配。AMR可以使用不同的技术,诸如例如上述的CELP、或DTX(非连续传输)、VAD(Voice ActivityDetection,语音活动检测)或CNG(Comfort Noise Generation,舒适噪声生成),并且链路适配可以选择最好的编解码模式来满足本地无线电信道和容量要求。在很差的无线电传输的情形下,信道编码将增加,这将改进网络连接的质量和鲁棒性,但将导致恶化的话音信号。
同样地,IP电话语音信号通常在发送的移动电话中被编码并且通过网络被传输到另一个移动终端/电话,而不用网络中的任何解码。
因此,网络回声控制将必须被施加到编码的信号,优选地,通过直接修改在编码的比特流中的参数,而不用解码信号且不用在去除回声后执行第二编码,因为解码随后编码可能破坏TFO(Tandem Free Operation,免级联运行)和TrFO(Transcoder Free Operation,无转码器运行)的肯定的语音质量效果,TFO和TrFO通常在现代电信网中被引用以便增强语音质量。
传统的双端话音检测中的附加缺点在于,为了计算检测变量需要信号波形,要求在检测之前解码语音信号。然而,由于为了增强语音质量而使用TrFO(无转码器运行)和TFO(免级联运行),对编码的比特流直接进行操作的能力变得越来越重要,因为解码随后编码会降低TFO(免级联运行)和TrFO(无转码器运行)的肯定的语音质量效果。
而且,由于网络回声控制通常牵涉到双端话音检测,即确定所接收语音信号由近端信号占支配地位,所以改进的双端话音检测将改进网络回声控制。
所以,为实现可应用于编码的语音信号的改进且准确的双端话音检测,仍旧存在问题。
发明内容
本发明的目的是解决上述的问题,这个目的和其它目的是通过按照所附权利要求的方法和设备实现的。
按照第一方面,本发明提供一种检测所接收编码语音信号是由非回声信号占支配地位的方法,该方法包括以下步骤:
-如果所接收语音信号的信号功率超过第一阈值,则从所述所接收语音信号的编码语音帧中提取LSP(Line Spectral Pair,线频谱对);
-把每个所述提取的LSP转换成LSF(线频谱频率)ωi,以及计算在每两个相邻的LSF之间的距离;
-对于小于第二阈值的每个所述距离,计算由所述LSF围绕的频谱峰(spectral peak)ωc的频率,以及确定所述频谱峰是否是回声。
由此,完成可靠的双端话音检测,即所接收语音信号由非回声信号占支配地位。由于为了得到所需要的参数只需要部分解码,例如LSF(线频谱频率)通过对从编码的语音信号中提取的LSP(线频谱对)进行转换而得到,所以本发明可直接应用于编码的语音和非线性回声路径。
方法可包括以下进一步的步骤:
-对于不是回声的每个定位的频谱峰,对计数器进行增量;
-当计数器达到预定的阈值时指示双端话音。
确定频谱峰是否为回声可包括以下步骤:
-从第一语音信号的编码语音帧中提取LSP(线频谱对),并把所述LSP转换成LSF(线频谱频率)ωi
-如果在第一语音信号中围绕所述频谱峰ωc的相邻LSF之间的距离小于第三阈值,则确定所述频谱峰是回声。
而且,该方法可以只有在所述频谱峰ωc的频率低于第四阈值时才确定频谱峰ωc是否为回声,以便改进噪声容限(tolerance)。
为了提高准确性,如果频谱峰不是回声,则可以通过以下步骤在第一语音信号中搜索接近地(closely)定位的第二频谱峰:
-从两个相邻的LSF计算在第一语音信号中的第二频谱峰;
-如果在计算的第二频谱峰与中心频率ωc之间的距离小于第五阈值,则确定所述第二频谱峰是回声。
由ωi表示的LSF(线频谱频率)可以通过使用关系qi=cos(ωi)把每个提取的LSP(线频谱对)qi转换成对应的LSF而从LSP(线频谱对)qi而得到,并且频谱峰的中心频率ωc可以通过定位两个相邻的LSF,ωi+1i,和计算ωc=(ωi+1i)/2而被确定。而且,频谱编码可以是基于AMR-CELP-编码(AMR-CELP-coding)。
按照第二方面,本发明提供一种在电信***中回声路径估计的方法,以及如由按照第一方面的方法检测的,当所接收编码语音信号由非回声信号占支配地位时停止(deactivate)回声路径估计。
按照第三方面,本发明提供一种双端话音检测器,其在电信***中被布置成连接到编码的所接收语音信号和编码的所发送第一语音信号以便确定何时所述所接收语音信号由非回声信号占支配地位。双端话音检测器包括:
-信号功率监视器,被布置成确定何时所接收语音信号的信号功率超过第一阈值;
-频谱峰***,被布置成:
-从所述所接收语音信号的编码语音帧中提取LSP(线频谱对),并把每个所述提取的LSP转换成对应的LSF(线频谱频率)ωi
-计算在每两个相邻的LSF之间的距离和计算由小于第二阈值的距离所隔开的两个LSF所围绕的频谱峰ωc
-回声***,被布置成确定所定位的频谱峰ωc是否为回声。
双端话音检测器还可被布置成如果预定数目的频谱非回声峰位于接收信号中则指示所述所接收语音信号由非回声信号占支配地位,以及可包括用于计数在所接收语音信号中频谱非回声峰的数目的计数器。
所述回声***可被布置成:
-从第一语音信号的编码语音帧中提取LSP(线频谱对),并把所述提取的LSP转换成对应的LSF;
-计算在围绕所述频谱峰ωc的相邻LSF之间的距离,以及如果所述计算的距离小于第三阈值,则确定所述频谱峰是回声。
所述回声***还可被布置成:只有在所述频谱峰ωc的频率低于第四阈值时才确定频谱峰ωc是否为回声;以及如果所述频谱峰不是回声,则通过从所述LSF计算第二频谱峰,来搜索在第一语音信号中接近地定位的第二频谱峰,以及如果到中心频率ωc的距离小于第五阈值则确定所述第二频谱峰是回声。
按照第四方面,本发明提供用于电信***的回声路径估计装置,被布置成停止估计由非回声信号占支配地位的回声路径,回声路径估计装置包括按照第三方面的双端话音检测器,该双端话音检测器被布置成连接到在所述电信***中编码的所接收语音信号和编码的所发送第一语音信号。
因此,按照本发明的双端话音检测将通过当双端话音检测器指示所接收信号由不是回声的近端信号占支配地位时使得能实现停止在编码语音信号中回声路径估计而提供改进的回声控制。
附图说明
现在将参照附图更详细地描述本发明,其中:
-图1是示意地说明在两个移动电话之间的通信时的回声路径的框图;
-图2说明传统的AMR-CELP-合成(AMR-CELP-synthesis);
-图3图形说明1/A(z)的频率特性和A(z)的根的位置;
-图4图形说明A(z)的复数根(complex root)和对应的LSF;
-图5是说明按照本发明的实施例的双端话音检测的流程图;
-图6是按照本发明的、配备有双端话音检测器的、按照图1的框图;以及
-图7是说明按照本发明的双端话音检测器以及包括这样的双端话音检测器的回声路径估计的框图。
具体实施方式
在以下的说明中,阐述具体的细节,诸如特定的体系结构和步骤序列,以便提供对本发明的透彻了解。然而,本领域技术人员可以看到,本发明可以以可能不同于这些具体细节的其它实施例来实践。
而且,可以看到,所描述的功能可以使用结合编程的微处理器或通用计算机起作用的软件和/或使用专用集成电路来实施。在本发明以方法的形式被描述的场合下,本发明也可以被体现在计算机程序产品中以及在包括计算机处理器和存储器的***中,其中存储器用可以执行所描述的功能的一个或多个程序来编码。
参照图1,本发明的概念是通过检查通过转换从编码语音帧中提取的LSP(线频谱对)而得到的LSF(线频谱频率),从而检测所接收语音信号6由非回声信号(即由来自近端的未知语音/噪声分量5)占支配地位。LSF在包括所述未知近端分量5和来自远端的回声分量4的接收信号6中和直接在所述第一语音信号3中被检查,所述回声分量4是从第一移动电话1a所发送的第一语音信号的反射。按照本发明,当在所接收语音信号6的信号功率是较大时,在所接收语音信号6中检测到预定数目的一个或多个频谱非回声峰时,确定所接收语音信号6由非回声信号占支配地位,即存在双端话音。更具体地,如果在所接收语音信号6中LSP的检查揭示在两个相邻的LSF之间的距离小于阈值以及如果在第一语音信号3中没有检测到对应的频谱峰而同时所接收语音信号6的功率超过功率阈值,则检测到频谱非回声峰。
按照本发明,包括双端话音检测器的回声路径估计装置被布置成当双端话音检测器指示存在双端话音时禁止估计回声路径的特性,以避免由双端话音引起的干扰。
因此,为了区分未知近端信号5的存在与作为已知信号的反射的远端回声信号4,本发明确定在第一语音信号3与所接收信号6之间的非相似性。所接收信号6包括源自由第一移动电话1a发送的已知第一语音信号3的反射回声分量4和来自近端的即源自第二移动电话1b的未知第二语音/噪声信号5。非相似性通过定位在所接收信号6中和在第一语音信号3中的频谱峰以及比较在各个信号中峰的位置而被确定。语音信号中的频谱峰通过提取在编码的语音信号中以qi表示的LSP(线频谱对)以及使用关系qi=cos(ωi)把LSP转换成以ωi表示的LSF(线频谱频率)而得到。从包括第一语音信号3的反射分量4和第二语音/噪声信号5的接收信号6中以及直接在第一语音信号3中提取LSP,然后提取的LSP被转换成LSF。如果关于LSF和关于接收信号6的信号功率的某些条件被满足,则将指示双端话音。
图2是示意地说明按照示例性实施例的、本发明可应用于其的、基于CELP(码激励线性预测编码)合成模型的AMR(自适应多速率)语音解码器的框图。然而,本发明的另外实施例可应用于其它语音编解码器,特别是基于CELP合成模型的那些编解码器。在图2中,通过将来自自适应码本7(adaptive codebook)的、以音高增益(pitch gain)进行缩放(在12中)的自适应码向量和来自固定码本8的、以革新增益(innovativegain)进行缩放(在11中)的固定码向量相加,并通过在LP(线性预测)合成滤波器9中滤波激励信号以重建语音,来构建激励信号。最后,重建的语音信号传送通过自适应后置滤波器10。
AMR编解码器通常被应用到具有20ms长度、包括160个样本的帧,并且每个帧被划分成具有5ms长度和40个样本的子帧,在比特流中可得到的参数是LSP(线频谱对)向量、分数音高滞后(fractional pitchlag)(pitch period,音高周期)、革新的码向量、以及音高增益和革新增益。LSP向量承载关于语音的AR(自回归)模型的信息,并且代表以“量化友好(quantization friendly)”形式的线性预测(LP)合成多项式系数。LSP向量精确地承载语音信号的、与以下的LP多项式表达相同的频谱信息:
A ( z ) = 1 + Σ k = 1 K a k z - k
在这个多项式中,ak表示LP(线性预测)系数,以及z是复变量。出于量化和内插目的,LP滤波器系数(ak,k=1,...,10)可转换到LSP(线频谱对)表示形式,以及对于10阶LP滤波器,LSP被定义为分别是以下的求和多项式(sum polynomial)与差值(difference)多项式的根:
F′1(z)=A(z)+z-11A(z-1)以及F′2(z)=A(z)-z-11A(z-1)
以及多项式F1’(z)和F2’(z)分别是对称和反对称的。这些多项式的每个根都位于单位圆上并且是交替的,以使得F1’(z)具有根z=-1(ω=π)而F2’(z)具有根z=1(ω=0)。为了消去(eliminate)这两个根,定义两个新的多项式,即:
F1(z)=F1′(z)/(1+z-1)以及F2(z)=F′2(z)/(1-z-1)
每个多项式具有在单位圆
Figure G2007800516827D00091
上的五个共轭根,所以多项式可被写为:
F 1 ( z ) = Π i = , 13 , . . . , 9 ( 1 - 2 q i z - 1 + z - 2 ) 以及
F 2 ( z ) = Π i = 2 , 4 , . . . , 10 ( 1 - 2 q i z - 1 + z - 2 )
所谓的线频谱频率LSF,ωi可被用来定位语音帧的频谱峰以及在存在于编码的语音信号中的以qi表示的LSP(线频谱对)之间的关系,LSF用qi=cos(ωi)描述,以及ωi满足排序特性0<ω1<ω2<ω..<ω10<π。
LP滤波器把声道建模为自回归(all-pole,全极点)滤波器并且能够表示多达五个频谱峰。语音信号通常具有有峰的短时频谱(peaky short-timespectrum),图3中的有峰线图形说明在典型的AMR语音帧中1/A(z)在从0到0.9的归一化频率上的频率特性。LSF,ωi的频率位置用x符号表示,接近地间隔开的LSF围绕A(z)的对应根和频谱峰的每个位置。所述根在说明它们的角位置的图上用小圆表示,A(z)的每个根对应于由两个接近地间隔开的LSF围绕的所示频谱峰。应当指出,A(z)的根将以复共轭对(complex conjugate pair)出现,但在图3中仅仅说明了对应于正频率的根。
图4图形说明被表示为小圆的、A(z)的所述复数根的实部和虚部。LSF在图中用小的x符号表示,并且两个接近地间隔开的LSF围绕单位圆上前四个根中的每个根,这四个根对应于图3所示的四个根。图4揭示了在LP滤波器频率响应中的频谱峰的狭窄度(narrowness)确定单位圆上对应的A(z)根的接近度(closeness)。图3中的第一个根(对应于图4中的根z≈0.8+j0.33)定位得更接近于图4的单位圆并且与图3中的第四个根(对应于图4中的根z≈-0.75+j0.39)相比具有更接近地间隔开的LSF。因此,LSF常常处在单位圆上并且定位得围绕A(z)的根。另外,在围绕接近于单位圆的A(z)根的两个LSF之间的距离小于在围绕更远离单位圆的A(z)根的两个LSF之间的距离。本发明在检测双端话音时使用如在图3和4中表示的、在两个相邻的LSF之间的距离和对应的根/频谱峰的关系,即所接收语音信号由来自近端的未知语音/噪声分量占支配地位,而不是由来自远端的回声分量占支配地位。
因此,本发明通过使用在频谱峰的高度与在围绕峰的LSF之间的距离之间的关系来检测双端话音,并且通过提取编码的LSP,qi,和根据关系qi=cos(ωi)把LSP转换成对应的LSF来检查在接收的语音帧中的LSF,ωi。如果在所接收信号6中的信号功率很大并且如果相邻的且接近地间隔开的LSF指示在所接收信号6中存在一个或多个频谱峰且不对应于在第一语音信号3中的任何频谱峰,则将声称双端话音。
按照本发明的第一示例性实施例,双端话音的检测,即所接收编码语音信号由非回声信号占支配地位,是通过监视所接收信号6的功率而执行的,并且当这个功率超过第一阈值(例如-45dBm0)时,在所接收信号6中的编码语音帧的LSP被提取并被转换成对应的LSF。计算在每两个相邻的LSF之间的距离Δi=ωi+1i,并且如果这个距离小于第二阈值(例如0.03π),则在所述两个LSF之间定位的频谱峰的中心频率ωc被计算为ωc=(ωi+1i)/2。此后,通过定位在第一语音信号3中的任何对应的频谱峰而确定在所接收语音信号6中所定位的频谱峰是否为回声。按照这个第一示例性实施例,通过从第一语音信号3的编码语音帧中提取LSP、把LSP转换成对应的LSF和定位围绕接收信号的所述频谱峰的中心频率ωc的LSF对,来检查第一语音信号3。如果在这个LSF对之间的距离大于第三阈值(例如4·Δi),则确定在第一语音信号3中即在已知的远端信号中没有存在对应的频谱峰,以及在接收信号中在ωc处的频谱峰不是回声信号。
当例如通过计数器达到预定值而发现在接收信号6的语音帧中预定数目的非回声频谱峰时,确定所接收信号6由未知近端信号5占支配地位,并将声称双端话音。
按照本发明的第二实施例,通过比较在接收信号6中所定位的频谱峰的频率ωc与第四阈值(例如0.8π)以及仅在所定位的频谱峰的频率ωc低于这个阈值时才检查第一语音信号3,来达到更好的噪声容限。否则,在频率ωc处的频谱峰被假设为由噪声引起的。
按照本发明的第三实施例,在第一语音信号3中没有发现精确对应的频谱峰的情形下,通过定位在第一语音信号3中具有稍微高于或低于接收信号6的频谱峰ωc的频率的频率的、任何存在的频谱峰,来达到更高的准确性。如果能找到这样的频谱峰,并且在这个频谱峰的频率与接收信号的频谱峰ωc之间的差值小于第五阈值,则在接收信号中所定位的频谱峰ωc将被假设为是回声,并且不会对双端话音计数器进行增量。
按照本发明的回声路径估计装置包括按照本发明的实施例的双端话音检测器,并且该回声路径估计装置被布置成在双端话音检测器指示存在双端话音时,即接收信号由源自近端的非回声信号占支配地位,而不是由源自远端的回声信号占支配地位时,禁止回声路径估计。
图5是说明按照本发明的上述第一实施例的、检测双端话音的方法的流程图。首先,在步骤51,测量接收信号6的功率,并且在步骤53,如果它超过第一阈值,则将从编码的语音帧中提取LSP。LSF将通过把每个LSP转换成对应的LSF而获得,并且将在步骤54中计算在每两个相邻的LSF之间的距离。对于小于第二阈值的每个距离,在步骤55,计算位于在LSF之间的频谱峰的中心频率。在步骤56,从第一语音信号3中提取LSP,并把它转换成LSF,随后确定围绕位于接收信号6中的每个频谱峰频率的、第一语音信号3的相邻LSF以及计算它们之间的距离。在步骤57,确定每个计算的距离是否大于第三阈值,由此指示没有对应的频谱峰定位在第一语音信号3中,以及在接收信号中的频谱峰不是回声。对于不是回声的每个频谱峰,在步骤59,将对双端话音计数器进行增量。如果双端话音计数器达到预定的阈值,则将指示为双端话音,这就可以禁止在包括这样的双端话音检测器的回声控制装置中的任何回声路径估计。
图6是说明双端话音检测器14的位置和从第一移动电话1a发送的、通过在2a中延时和变换、到达第二移动电话1b的第一语音信号3的路径的框图。这个第一语音信号3的回声4连同源自第二移动电话1b附近的第二未知语音/噪声信号5一起被发回到第一移动电话1a,组合的接收信号6在到达第一移动电话1a之前通过2b中的延时和变换。按照本发明的示例性实施例的双端话音检测器14被布置成监视接收信号6的信号功率,以及当信号功率超过功率阈值时提取在第一语音信号3中和在接收信号6中的LSP(线频谱对)qi。通过使用关系qi=cos(ωi)把LSP转换成LSF(线频谱频率)ωi,并且将检查LSF以便检测在接收信号6中的、不是源自第一语音信号3的回声的频谱峰。如果在接收信号6的语音帧中检测到预定数目的非回声频谱峰,则确定所接收信号由源自近端的非回声信号占支配地位,并且将指示双端话音。在指示双端话音时,可以禁止在配备有双端话音检测器14的回声路径估计装置15中的回声路径估计。
图7是说明被连接到能够估计电信***中的回声路径的回声路径估计装置15的、按照本发明的示例性实施例的双端话音检测器14的功能特征的框图。
按照本发明的这个实施例的双端话音检测器14包括信号功率监视器16,该信号功率监视器16被布置成当测量的信号功率超过第一阈值时开始定位在所接收语音信号6中的频谱峰。双端话音检测器14包括频谱峰***18,该频谱峰***18被布置成通过提取LSP,qi和使用关系qi=cos(ωi)把提取的LSP转换成对应的LSF,ωi而定位在所接收语音信号中的任何频谱峰。此后,计算在每两个相邻的LSF之间的距离并与第二阈值进行比较,并且对于小于所述第二阈值的每个距离,计算频谱峰ωc的频率。而且,双端话音检测器包括回声***20,用于确定在所接收语音信号中所定位的每个频谱峰ωc是否为回声。当在所接收语音信号中定位预定数目的非回声频谱峰时,将指示双端话音并且将停止回声路径估计。
按照本发明的这个示例性实施例,回声***20被布置成通过从第一语音信号的编码的语音帧中提取LSP、把LSP转换成对应的LSF和定位围绕ωc的两个LSF,而确定所接收语音信号的频谱峰ωc是否为回声。此后,计算这两个LSF之间的距离,并且如果这个距离大于第三阈值,则确定在第一语音信号中不存在对应的频谱峰以及在所接收语音信号中所定位的频谱峰ωc是非回声频谱峰而不是回声。
按照本发明的、检测所接收语音信号由非回声信号占支配地位的方法、以及双端话音检测器和回声估计装置允许可靠地检测双端话音,并可应用于非线性回声路径以及编码的语音,因为为了得到需要的参数(例如来自从编码的语音信号提取的LSP(线频谱对)的LSF(线频谱频率)),只需要部分解码。因此,按照本发明的双端话音检测器通过当双端话音检测器指示所接收信号由不是回声的近端信号占支配地位时使能停止回声路径估计而将提供改进的回声控制。
虽然本发明是参照具体的示例性实施例描述的,但该描述通常只打算说明本发明的概念,而不应当看作为限制本发明的范围。

Claims (28)

1.一种检测所接收编码语音信号(6)是由非回声信号(5)占支配地位的方法,其特征在于以下步骤:
-如果所接收语音信号(6)的信号功率超过第一阈值,则从所述所接收语音信号(6)的编码语音帧中提取LSP(线频谱对);
-把每个所述提取的LSP转换成LSF(线频谱频率)ωi,以及计算在每两个相邻的LSF之间的距离;
-对于小于第二阈值的每个所述距离,计算由所述LSF围绕的频谱峰ωc的频率,以及确定所述频谱峰是否为回声。
2.按照权利要求1的方法,其特征在于进一步的步骤:
-对于不是回声的每个所定位的频谱峰,对计数器进行增量;
-当计数器达到预定的阈值时指示双端话音。
3.按照权利要求1的方法,其特征在于确定频谱峰是否为回声包括以下步骤:
-从第一语音信号(3)的编码语音帧中提取LSP(线频谱对),并把所述LSP转换成对应的LSF(线频谱频率)ωi,第一语音信号从第一移动电话发送;
-如果在第一语音信号(3)中围绕所述频谱峰ωc的相邻LSF之间的距离小于第三阈值,则确定所述频谱峰是回声。
4.按照权利要求1-3的任一项的方法,其特征在于只有在所述频谱峰ωc的频率低于第四阈值时才确定频谱峰ωc是否为回声。
5.按照权利要求3的方法,其特征在于如果所述频谱峰不是回声则通过以下附加步骤搜索在第一语音信号中接近地定位的第二频谱峰:
-从两个相邻的LSF计算在第一语音信号(3)中的第二频谱峰;
-如果在计算的第二频谱峰与中心频率ωc之间的距离小于第五阈值,则确定所述第二频谱峰是回声。
6.按照权利要求1-3的任一项的方法,其中由ωi表示的LSF(线频谱频率)通过使用关系qi=cos(ωi)把每个提取的LSP(线频谱对)qi转换成对应的LSF而得到。
7.按照权利要求1-3的任一项的方法,其中频谱峰的中心频率ωc通过定位两个相邻的LSF,ωi+1i,和计算ωc=(ωi+1i)/2而被确定。
8.按照权利要求2的方法,其特征在于双端话音的指示停止电信***中的回声路径估计。
9.一种估计电信***中的回声路径的方法,其特征在于回声路径估计通过由按照权利要求2的方法得到的双端话音指示而被停止。
10.一种估计电信***中的回声路径的方法,其中当所接收编码语音信号(6)是由非回声信号(5)占支配地位时停止回声路径估计,该方法的特征在于以下步骤:
-如果所接收语音信号(6)的信号功率超过第一阈值,则从所述所接收语音信号(6)的编码语音帧中提取LSP(线频谱对);
-把每个所述提取的LSP转换成对应的LSF(线频谱频率)ωi,以及计算在每两个相邻的LSF之间的距离;
-对于小于第二阈值的每个所述距离,计算由所述LSF围绕的频谱峰ωc的频率,以及确定所述频谱峰是否为回声;
当预定数目的频谱非回声峰被定位时,停止回声路径估计。
11.按照权利要求10的方法,其特征在于确定频谱峰是否为回声包括以下步骤:
-从第一语音信号(3)的编码语音帧中提取LSP(线频谱对),并把每个提取的LSP转换成对应的LSF(线频谱频率)ωi,第一语音信号从第一移动电话发送;
-如果在第一语音信号(3)中围绕所述频谱峰ωc的LSF之间的距离小于第三阈值,则确定所述频谱峰是回声。
12.按照权利要求10的方法,其特征在于只有在所述频谱峰ωc的频率低于第四阈值时才确定频谱峰ωc是否为回声。
13.按照权利要求10-12的任一项的方法,其中语音编码是基于AMR-CELP-编码的。
14.一种在电信***中被布置成连接到编码的所接收语音信号(6)和编码的所发送第一语音信号(3)的双端话音检测器(14),用于确定何时所述所接收语音信号(6)由非回声信号占支配地位,双端话音检测器的特征在于:
-信号功率监视器(16),被布置成确定何时所接收语音信号(6)的信号功率超过第一阈值;
频谱峰***(18),被布置成:
-从所述所接收语音信号的编码语音帧中提取LSP(线频谱对),并把每个所述提取的LSP转换成对应的LSF(线频谱频率)ωi
-计算在每两个相邻的LSF之间的距离和计算由小于第二阈值的距离所隔开的两个LSF所围绕的频谱峰ωc,;
-回声***(20),被布置成确定所定位的频谱峰ωc是否为回声。
15.按照权利要求14的双端话音检测器,还被布置成如果预定数目的频谱非回声峰位于接收信号(6)中则指示所述所接收语音信号(6)由非回声信号占支配地位。
16.按照权利要求14的双端话音检测器,还包括计数器(22),用于计数在所接收语音信号中频谱非回声峰的数目。
17.按照权利要求14-16的任一项的双端话音检测器,其特征在于,回声***(20)被布置成:
-从第一语音信号(3)的编码语音帧中提取LSP(线频谱对),并把所述提取的LSP转换成对应的LSF;
-计算在围绕所述频谱峰ωc的相邻LSF之间的距离,以及如果所述计算的距离小于第三阈值,则确定所述频谱峰是回声。
18.按照权利要求14-16的任一项的双端话音检测器,其中所述回声***(20)被布置成只有在所述频谱峰ωc的频率低于第四阈值时才确定频谱峰ωc是否为回声。
19.按照权利要求17的双端话音检测器,其中所述回声***(20)被进一步布置成如果所述频谱峰不是回声则通过以下步骤来搜索在第一语音信号中接近地定位的第二频谱峰:
-从所述LSF计算第二频谱峰,以及如果到中心频率ωc的距离小于第五阈值则确定所述第二频谱峰是回声。
20.按照权利要求14-16的任一项的双端话音检测器,其中由ωi表示的LSF(线频谱频率)通过使用关系qi=cos(ωi)把每个提取的LSP(线频谱对)qi转换成对应的LSF而得到。
21.按照权利要求14-16的任一项的双端话音检测器,其中频谱峰的中心频率ωc通过定位两个相邻的LSF,ωi+1i,和计算ωc=(ωi+1i)/2而被确定。
22.一种用于电信***的回声路径估计装置(15),被布置成停止估计由非回声信号占支配地位的回声路径,其特征在于包括按照权利要求20-21的任一项的、用于编码的语音信号的双端话音检测器(14)。
23.一种用于电信***的回声路径估计装置(15),被布置成停止估计由非回声信号占支配地位的回声路径,回声路径估计装置包括被布置成连接到在所述电信***中编码的所接收语音信号(6)和编码的所发送第一语音信号(3)的双端话音检测器(14),其特征在于所述双端话音检测器包括:
-信号功率监视器(16),被布置成确定何时所接收语音信号(6)的信号功率超过第一阈值;
-频谱峰***(18),被布置成:
-从所述所接收语音信号的编码语音帧中提取LSP(线频谱对),并把每个所述提取的LSP转换成对应的LSF(线频谱频率)ωi
-计算在每两个相邻的LSF之间的距离和计算由小于第二阈值的距离间隔开的两个LSF围绕的频谱峰ωc
-回声***(20),被布置成确定所定位的频谱峰ωc是否为回声。
24.按照权利要求23的回声路径估计装置,其中双端话音检测器还被布置成如果预定数目的频谱非回声峰位于接收信号(6)中,则指示所述所接收语音信号(6)由非回声信号占支配地位。
25.按照权利要求24的回声路径估计装置,其中双端话音检测器包括计数器(22),用于计数在所接收信号中频谱非回声峰的数目。
26.按照权利要求23-25的任一项的回声路径估计装置(15),其特征在于回声***(20)还被布置成:
-从第一语音信号(3)的编码语音帧中提取LSP(线频谱对),并把所述提取的LSP转换成对应的LSF;
-计算在围绕所述频谱峰ωc的相邻LSF之间的距离,以及如果所述计算的距离小于第三阈值则确定所述频谱峰是回声。
27.按照权利要求23-25的任一项的回声路径估计装置,其中回声***(20)被布置成只有在所述频谱峰ωc的频率低于第四阈值时才确定频谱峰ωc是否为回声。
28.按照权利要求26的回声路径估计装置,其中所述回声***(20)还被布置成如果所述频谱峰不是回声则通过以下步骤来搜索在第一语音信号中接近地定位的第二频谱峰:
-从两个相邻的LSF计算第二频谱峰,以及如果到中心频率ωc的距离小于第五阈值,则确定所述第二频谱峰是回声。
CN2007800516827A 2007-02-21 2007-02-21 双端话音检测器 Active CN101617363B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/SE2007/050100 WO2008103087A1 (en) 2007-02-21 2007-02-21 Double talk detector

Publications (2)

Publication Number Publication Date
CN101617363A CN101617363A (zh) 2009-12-30
CN101617363B true CN101617363B (zh) 2012-09-05

Family

ID=39710290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800516827A Active CN101617363B (zh) 2007-02-21 2007-02-21 双端话音检测器

Country Status (4)

Country Link
US (1) US8260613B2 (zh)
EP (1) EP2153439B1 (zh)
CN (1) CN101617363B (zh)
WO (1) WO2008103087A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102137194B (zh) * 2010-01-21 2014-01-01 华为终端有限公司 一种通话检测方法及装置
JP5156043B2 (ja) * 2010-03-26 2013-03-06 株式会社東芝 音声判別装置
WO2012105941A1 (en) * 2011-01-31 2012-08-09 Empire Technology Development Llc Measuring quality of experience in telecommunication system
CN102855881B (zh) * 2011-06-27 2014-12-03 华为技术有限公司 一种回声抑制方法和装置
EP2518986B1 (en) * 2011-07-25 2018-03-21 Huawei Technologies Co., Ltd. A device and method for controlling echo in parameter domain
DE102011053269A1 (de) 2011-09-05 2013-03-07 Schako Klima Luft, Ferdinand Schad Kg Vorrichtung zum Regeln eines Luftvolumenstroms
KR20130113779A (ko) * 2012-04-06 2013-10-16 한국전자통신연구원 광대역 어커스틱 에코 제거 장치 및 방법
US9697847B2 (en) 2013-03-14 2017-07-04 Semiconductor Components Industries, Llc Acoustic signal processing system capable of detecting double-talk and method
US9779752B2 (en) * 2014-10-31 2017-10-03 At&T Intellectual Property I, L.P. Acoustic enhancement by leveraging metadata to mitigate the impact of noisy environments
GB2525947B (en) * 2014-10-31 2016-06-22 Imagination Tech Ltd Automatic tuning of a gain controller
KR20170032603A (ko) 2015-09-15 2017-03-23 삼성전자주식회사 전자 장치, 그의 반향 신호 제거 방법 및 비일시적 컴퓨터 판독가능 기록매체
CN107786755B (zh) * 2016-08-30 2020-12-15 合肥君正科技有限公司 一种双端通话检测方法和装置
CN110718237B (zh) * 2018-07-12 2023-08-18 阿里巴巴集团控股有限公司 串音数据检测方法和电子设备
CN115988629B (zh) * 2023-03-13 2023-06-27 新华三技术有限公司 定时估计方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0847180A1 (en) * 1996-11-27 1998-06-10 Nokia Mobile Phones Ltd. Double talk detector
US6138092A (en) * 1998-07-13 2000-10-24 Lockheed Martin Corporation CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ZA95599B (en) * 1994-02-28 1996-02-06 Qualcomm Inc Doubletalk detection by means of spectral content
FR2729804B1 (fr) * 1995-01-24 1997-04-04 Matra Communication Annuleur d'echo acoustique a filtre adaptatif et passage dans le domaine frequentiel
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US6167133A (en) * 1997-04-02 2000-12-26 At&T Corporation Echo detection, tracking, cancellation and noise fill in real time in a communication system
US6078880A (en) * 1998-07-13 2000-06-20 Lockheed Martin Corporation Speech coding system and method including voicing cut off frequency analyzer
CN1243416C (zh) * 2000-03-27 2006-02-22 朗迅科技公司 用自适应判决门限来完成通话重叠检测的方法和装置
JP2002202799A (ja) * 2000-10-30 2002-07-19 Fujitsu Ltd 音声符号変換装置
KR100910282B1 (ko) * 2000-11-30 2009-08-03 파나소닉 주식회사 Lpc 파라미터의 벡터 양자화 장치, lpc 파라미터복호화 장치, 기록 매체, 음성 부호화 장치, 음성 복호화장치, 음성 신호 송신 장치, 및 음성 신호 수신 장치
US7386447B2 (en) * 2001-11-02 2008-06-10 Texas Instruments Incorporated Speech coder and method
US7378586B2 (en) * 2002-10-01 2008-05-27 Yamaha Corporation Compressed data structure and apparatus and method related thereto
US20040234067A1 (en) * 2003-05-19 2004-11-25 Acoustic Technologies, Inc. Distributed VAD control system for telephone
US7515704B2 (en) * 2004-01-05 2009-04-07 Telukuntla Krishna Prabhu N V R Method, apparatus and articles incorporating a step size control technique for echo signal cancellation
US8041564B2 (en) * 2005-09-12 2011-10-18 At&T Intellectual Property I, L.P. Multi-pass echo residue detection with speech application intelligence
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
JP5478213B2 (ja) * 2009-11-20 2014-04-23 オリンパスイメージング株式会社 カメラ

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0847180A1 (en) * 1996-11-27 1998-06-10 Nokia Mobile Phones Ltd. Double talk detector
US6138092A (en) * 1998-07-13 2000-10-24 Lockheed Martin Corporation CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency

Also Published As

Publication number Publication date
US20100063809A1 (en) 2010-03-11
EP2153439B1 (en) 2018-01-17
CN101617363A (zh) 2009-12-30
EP2153439A4 (en) 2012-01-25
US8260613B2 (en) 2012-09-04
EP2153439A1 (en) 2010-02-17
WO2008103087A1 (en) 2008-08-28

Similar Documents

Publication Publication Date Title
CN101617363B (zh) 双端话音检测器
US8781842B2 (en) Scalable coding with non-casual predictive information in an enhancement layer
KR101160218B1 (ko) 일련의 데이터 패킷들을 전송하기 위한 장치와 방법, 디코더, 및 일련의 데이터 패킷들을 디코딩하기 위한 장치
KR101300327B1 (ko) 에코 검출
US7558729B1 (en) Music detection for enhancing echo cancellation and speech coding
US9129600B2 (en) Method and apparatus for encoding an audio signal
EP2518986B1 (en) A device and method for controlling echo in parameter domain
JP4842472B2 (ja) フレーム抹消条件下で予測音声コーダの性能を改良するためにデコーダからエンコーダにフィードバックを供給するための方法および装置
US6937723B2 (en) Echo detection and monitoring
US20040243404A1 (en) Method and apparatus for improving voice quality of encoded speech signals in a network
AU4348297A (en) Combined speech coder and echo canceler
US20040186731A1 (en) Estimation method and apparatus of overall conversational speech quality, program for implementing the method and recording medium therefor
AU6067100A (en) Coded domain adaptive level control of compressed speech
EP1020848A2 (en) Method for transmitting auxiliary information in a vocoder stream
US20070263851A1 (en) Echo detection and delay estimation using a pattern recognition approach and cepstral correlation
KR20040044217A (ko) 디지털 통신의 음성 품질 향상 장치 및 방법
US8009825B2 (en) Signal processing
KR100451622B1 (ko) 통신용 보코더 및 이를 이용한 통신 방법
JP3970746B2 (ja) エコーキャンセラ性能評価試験装置
Wilson et al. An integrated voice codec and echo canceller implemented in a single DSP processor
Rages et al. Limits on echo return loss enhancement on a voice coded speech signal
Enzner et al. On the problem of acoustic echo control in cellular networks
EP1739917B1 (en) Terminal, system and method for discarding encoded parts of a sampled audio stream
JPH0766757A (ja) エコーキャンセル方法
Åkerberg et al. Audio Techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant