CN107393549A - 时延估计方法及装置 - Google Patents

时延估计方法及装置 Download PDF

Info

Publication number
CN107393549A
CN107393549A CN201710599217.2A CN201710599217A CN107393549A CN 107393549 A CN107393549 A CN 107393549A CN 201710599217 A CN201710599217 A CN 201710599217A CN 107393549 A CN107393549 A CN 107393549A
Authority
CN
China
Prior art keywords
present frame
audio signal
frame
signal
data block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710599217.2A
Other languages
English (en)
Inventor
王行
李骊
杨高峰
李朔
盛赞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing HJIMI Technology Co Ltd
Original Assignee
Beijing HJIMI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing HJIMI Technology Co Ltd filed Critical Beijing HJIMI Technology Co Ltd
Priority to CN201710599217.2A priority Critical patent/CN107393549A/zh
Publication of CN107393549A publication Critical patent/CN107393549A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种时延估计方法及装置,该方法包括:检测到第一音频信号的当前帧为语音帧时,计算所述当前帧的信噪比;根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整,所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的;根据所述调整后的数据块构建所述线性方程组,并求解得到所述声学传递函数比的估计值,以及根据所述声学传递函数比的估计值确定时延估计值。因此,采用本申请可以提高时延估计的准确性。

Description

时延估计方法及装置
技术领域
本发明涉及声源定位领域,特别涉及一种时延估计方法及装置。
背景技术
现有的声源定位技术中,基于时延估计的方法应用最为广泛,并且该方法的核心问题是时延估计的准确性。
目前,广义互相关法(Generalized Cross Correlation,GCC)是最常见的一种时延估计方法。其一般需要计算两路信号的互相关函数,时延值就是两路信号互相关函数的峰值位置。
但是,该方法抗混响、抗噪声能力较差,准确性不高。
发明内容
有鉴于此,本发明提供一种时延估计方法及装置,以提高时延估计的准确性。
第一方面,本发明实施例提供了一种时延估计方法,所述方法包括:
检测到第一音频信号的当前帧为语音帧时,计算所述当前帧的信噪比;
根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整,所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的;
根据所述调整后的数据块构建所述线性方程组,并求解得到所述声学传递函数比的估计值,以及根据所述声学传递函数比的估计值确定时延估计值。
可选的,所述方法还包括:
对所述第一音频信号进行语音激活检测,得到所述第一音频信号当前帧的对数能量值和当前帧的归一化自相关函数;
若所述对数能量值大于能量阈值、且所述归一化自相关函数的最大值大于指定阈值时,则确定当前帧为语音帧;
若所述对数能量值小于或等于所述能量阈值、且所述归一化自相关函数的最大值小于或等于所述指定阈值时,则确定当前帧为噪声帧。
可选的,所述第一音频信号是参考麦克风接收的音频信号;
所述根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整,包括:
对所述第一音频信号、以及其他麦克风接收的第二音频信号均进行频域转换,得到对应的频域信息;
根据所述对应的频域信息计算所述第一音频信号当前帧的自功率谱、以及所述第一音频信号当前帧与所述第二音频信号当前帧之间的互功率谱;
若所述当前帧的信噪比大于预设的信噪比阈值,则确定所述当前帧为强语音帧,并将所述当前帧对应的谱信息作为所述音频数据块内的谱信息;其中,所述当前帧对应的谱信息包括所述第一音频信号当前帧的自功率谱、以及所述第一音频信号当前帧与所述第二音频信号当前帧之间的互功率谱;
若所述当前帧的信噪比小于或等于所述预设的信噪比阈值,则确定所述当前帧为弱语音帧,并根据所述当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息,并将所述新的谱信息作为所述音频数据块内的谱信息;其中,所述下一语音帧对应的谱信息包括所述第一音频信号下一语音帧的自功率谱、以及所述第一音频信号下一语音帧与所述第二音频信号下一语音帧之间的互功率谱。
可选的,所述根据所述当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息,包括:
计算所述当前帧对应的谱信息与下一语音帧对应的谱信息的平均值,所述平均值为所述新的谱信息。
可选的,所述根据所述当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息,包括:
将所述当前帧对应的谱信息与下一语音帧对应的谱信息进行加权求和,所述加权求和值为所述新的谱信息。
可选的,所述方法还包括:
根据所述第一音频信号当前帧的信噪比与所述第一音频信号下一语音帧的信噪比,计算用于所述加权求和的加权系数。
可选的,所述方法还包括:
检测到所述第一音频信号的当前帧为噪声帧时,计算所述当前帧的背景噪声能量;
利用所述当前帧的背景噪声能量对本地背景噪声能量进行平滑更新。
可选的,所述计算所述当前帧的信噪比,包括:
将所述当前帧的能量除以本地背景噪声能量,得到所述当前帧的信噪比。
第二方面,本发明实施例提供了一种时延估计装置,所述装置包括:
计算模块,用于检测到第一音频信号的当前帧为语音帧时,计算所述当前帧的信噪比;
自适应调整模块,用于根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整,所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的;
时延估计值确定模块,用于根据所述调整后的数据块构建所述线性方程组,并求解得到所述声学传递函数比的估计值,以及根据所述声学传递函数比的估计值确定时延估计值。
第三方面,本发明实施例提供了一种时延估计装置,所述装置包括:
处理器;
被配置为存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
检测到第一音频信号的当前帧为语音帧时,计算所述当前帧的信噪比;
根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整,所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的;
根据所述调整后的数据块构建所述线性方程组,并求解得到所述声学传递函数比的估计值,以及根据所述声学传递函数比的估计值确定时延估计值。
第四方面,一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器处理时实现:
检测到第一音频信号的当前帧为语音帧时,计算所述当前帧的信噪比;
根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整,所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的;
根据所述调整后的数据块构建所述线性方程组,并求解得到所述声学传递函数比的估计值,以及根据所述声学传递函数比的估计值确定时延估计值。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请中,当检测到第一音频信号的当前帧为语音帧时,可以根据当前帧信噪比的大小对用于构建求解声传递函数比的线性方程组的音频信号数据块做出自适应调整,这样最终得到的时延估计值会比较准确,从而提高了时延估计的准确性。
本申请中,针对音频信号,不仅区分语音帧还是噪声帧,还根据语音帧的信噪比区分是强语音帧还是弱语音帧,这样可以根据不同程度的语音帧对当前帧对应的音频信号数据块进行自适应调整,使得最终得到的时延估计值更加准确,从而进一步提高了时延估计的准确性。
附图说明
图1是本申请根据一示例性实施例示出的一种时延估计方法流程图;
图2是本申请根据一示例性实施例示出的另一种时延估计方法流程图;
图3是本公开根据一示例性实施例示出的一种时延估计装置的框图;
图4是本公开根据一示例性实施例示出的一种时延估计装置所在设备的硬件结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请中可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
如图1所示,图1是本申请根据一示例性实施例示出的一种时延估计方法流程图,该方法可以用于声源定位设备中,可以包括以下步骤:
在步骤110中,检测到第一音频信号的当前帧为语音帧时,计算该当前帧的信噪比。
本申请中,声源定位设备需要对输入信号区分语音帧和噪声帧,针对语音帧进行时延估计;针对噪声帧只进行背景噪声能量的更新,而不进行时延估计,并且,更新后的背景噪声能量还可以用于计算后续语音帧的信噪比。
在一实施例中,至于如何区分语音帧和噪声帧,方法有很多,可以采用但不限于以下区分方式:
对第一音频信号进行语音激活检测,得到第一音频信号当前帧的对数能量值和当前帧的归一化自相关函数;
若当前帧的对数能量值大于能量阈值、且当前帧的归一化自相关函数的最大值大于指定阈值时,则确定当前帧为语音帧;
若当前帧的对数能量值小于或等于所述能量阈值、且当前帧的归一化自相关函数的最大值小于或等于所述指定阈值时,则确定当前帧为噪声帧。
比如:第一音频信号为参考麦克风接收的音频信号x1(n),对x1(n)进行话音激活检测(Voice Activity Detection,VAD)。首先,计算x1(n)的对数能量值ELP,如公式(1)所示。
其中,ε是一个很小的正常数,L为当前帧的帧长。
当ELP的值大于能量阈值Eth时,计算x1(n)的归一化自相关函数ρ(τ),如公式(2)所示。
其中,τ是待搜索的延迟,τ的搜索范围可以根据人类发音的基频范围及信号的采样率来具体确定。
若当前帧满足ELP的值大于能量阈值Eth,且归一化自相关函数的最大值ρmax(τ)大于指定阈值ρth时,则确定当前帧为语音帧,否则为噪声帧。
在一实施例中,本申请时延估计方法还包括针对噪声帧的处理方式,具体如下:
检测到第一音频信号的当前帧为噪声帧时,计算当前帧的背景噪声能量;
利用当前帧的背景噪声能量对本地背景噪声能量进行平滑更新。
比如:第一音频信号为参考麦克风接收的音频信号x1(n),计算x1(n)的背景噪声能量如公式(3)所示。
其中,L为当前帧的帧长,k为当前帧的帧号。
然后利用当前帧背景噪声能量对本地背景噪声能量进行平滑更新,其平滑更新如公式(4)所示。
其中,α是一个小于1的平滑因子,且初始背景噪声能量E0为0。
在一实施例中,在计算该当前帧的信噪比时,可以采用但不限于以下计算方式:
将当前帧的能量除以本地背景噪声能量,得到当前帧的信噪比。
比如:第一音频信号为参考麦克风接收的音频信号x1(n),计算当前帧的能量如公式(5)所示。
其中,L为当前帧的帧长,k为当前帧的帧号。
计算当前帧的信噪比SNRk,如公式(6)所示。
其中,是当前语音帧的能量,EN是只在噪声帧进行更新的背景噪声能量。
在步骤120中,根据当前帧的信噪比对当前帧对应的音频信号数据块进行自适应调整,该音频信号数据块是用于构建估计声学传递函数比的线性方程组的。
本申请中,声源定位设备计算当前帧的信噪比后,会根据该当前帧的信噪比的大小,自动对音频信号数据块中的内容进行调整。具体为:根据当前帧的信噪比的大小判断当前帧是强语音帧,还是弱语音帧,并根据不同的语音帧采取不同的调整方式。
在一实施例中,第一音频信号是参考麦克风接收的音频信号x1(n),当根据当前帧的信噪比对当前帧对应的音频信号数据块进行自适应调整时,可以采用以下方式:
对第一音频信号x1(n)、以及其他麦克风接收的第二音频信号xm(n)均进行频域转换,得到对应的频域信息;
根据对应的频域信息计算第一音频信号x1(n)当前帧的自功率谱以及第一音频信号x1(n)当前帧与第二音频信号xm(n)当前帧之间的互功率谱
若当前帧的信噪比大于预设的信噪比阈值,则将当前帧对应的谱信息作为当前帧对应的音频数据块内的谱信息;其中,当前帧对应的谱信息包括第一音频信号x1(n)当前帧的自功率谱以及第一音频信号x1(n)当前帧与第二音频信号xm(n)当前帧之间的互功率谱
若当前帧的信噪比小于或等于所述预设的信噪比阈值,则根据当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息,并将该新的谱信息作为当前帧对应的音频数据块内的谱信息;其中,下一语音帧对应的谱信息包括第一音频信号x1(n)下一语音帧的自功率谱以及第一音频信号x1(n)下一语音帧与第二音频信号xm(n)下一语音帧之间的互功率谱
其中,根据当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息时,可以采用但不限于以下两种方式:
第一种生成方式:计算当前帧对应的谱信息与下一语音帧对应的谱信息的平均值,该平均值为新的谱信息。其计算过程,如公式(7)所示。
其中,k为当前帧的帧号,i是数据块号,其范围从1到D(构建线性方程组时一般需要D个数据块),ω是频率,是第一音频信号x1(n)当前帧的自功率谱,是第一音频信号x1(n)下一语音帧的自功率谱,是第i个数据块内的自功率谱,是第一音频信号x1(n)当前帧与第二音频信号xm(n)当前帧之间的互功率谱,是第一音频信号x1(n)下一语音帧与第二音频信号xm(n)下一语音帧之间的互功率谱,是第i个数据块内的互功率谱。
第二种生成方式:将当前帧对应的谱信息与下一语音帧对应的谱信息进行加权求和,加权求和值为所述新的谱信息。其中,加权系数是根据第一音频信号当前帧的信噪比与第一音频信号下一语音帧的信噪比计算得到的。
上述加权求和的过程,如公式(8)所示。
其中,SNRk是第一音频信号当前帧的信噪比,SNRk+1是第一音频信号下一语音帧的信噪比,其余与公式(7)中相同,在此不再赘述。
在步骤130中,根据调整后的数据块构建线性方程组,并求解得到声学传递函数比的估计值,以及根据声学传递函数比的估计值确定时延估计值。
本申请中,当获得D个数据块的谱信息时,即D个数据块的自功率谱和互功率谱时,即可构建如下线性方程组,如公式(9)所示。
其中,是与混响与噪声有关的方向性干扰的偏置分量,Hm(ω)是声学传递函数比,其余与公式(7)中相同,在此不再赘述。
本申请中可以利用最小二乘法求解上述线性方程组即可获得声学传递函数比Hm(ω)的估计值。然后,再将估计得到的声学传递函数比Hm(ω)进行傅里叶反变换得到时域序列,并对该序列进行峰值搜索,序列最大值所在的位置即为时延估计值。
由上述实施例可见,当检测到第一音频信号的当前帧为语音帧时,可以根据当前帧信噪比的大小对用于构建求解声传递函数比的线性方程组的音频信号数据块做出自适应调整,这样最终得到的时延估计值会比较准确,从而提高了时延估计的准确性。
如图2所示,图2是本申请根据一示例性实施例示出的另一种时延估计方法流程图。该时延估计方法是以参考麦克风1、麦克风m为例来描述时延估计的具体过程。但不表明只包括参考麦克风1、麦克风m,本申请中可以多个其他麦克风,比如:参考麦克风1、麦克风2、麦克风3、…麦克风m。其时延估计的具体过程与参考麦克风1、麦克风m相同,在这里不再重复描述。
在步骤210中,输入参考麦克风1接收到的第一音频信号x1(n)和麦克风m接收到的第二音频信号xm(n)。
在步骤220中,对第一音频信号x1(n)进行VAD。
在步骤230中,判断第一音频信号x1(n)当前帧是否为语音帧。若是,则执行步骤250;若否,则执行步骤240。
本申请中,可以根据x1(n)的对数能量值ELP和x1(n)的归一化自相关函数ρ(τ)来判断第一音频信号x1(n)当前帧是否为语音帧。比如:若当前帧满足ELP的值大于能量阈值Eth,且归一化自相关函数的最大值ρmax(τ)大于指定阈值ρth时,则确定当前帧为语音帧,否则为噪声帧。其中,计算x1(n)的对数能量值ELP,如公式(1)所示,计算x1(n)的归一化自相关函数ρ(τ),如公式(2)所示。
在步骤240中,计算当前帧的背景噪声能量,并利用当前帧的背景噪声能量对本地背景噪声能量进行平滑更新,然后执行步骤210,接收下一帧的输入信号。
本申请中,计算x1(n)的背景噪声能量如公式(3)所示,平滑更新如公式(4)所示。
在步骤250中,计算第一音频信号x1(n)当前帧的信噪比、以及对第一音频信号x1(n)和第二音频信号xm(n)均进行快速傅里叶变换(Fast Fourier Transformation,FFT),并计算第一音频信号x1(n)当前帧的自功率谱、以第一音频信号x1(n)和第二音频信号xm(n)之间的互功率谱。
在步骤260中,判断第一音频信号当前帧的信噪比是否大于预设的信噪比阈值。若是,则执行步骤270;若否,则执行步骤280。
在步骤270中,确定当前帧为强语音帧,将第一音频信号x1(n)当前帧的自功率谱、以及第一音频信号x1(n)当前帧与第二音频信号xm(n)当前帧之间的互功率谱作为音频数据块内的谱信息。
在步骤280中,确定当前帧为弱语音帧,并根据当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息,并将新的谱信息作为音频数据块内的谱信息。
本申请中,根据当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息时,可以采用公式(7)所示的方式,也可以采用公式8所示的方式。
在步骤290中,构建线性方程组,并求解得到声学传递函数比的估计值,以及根据声学传递函数比的估计值确定时延估计值。
本申请中,当获得D个数据块的谱信息时,即D个数据块的自功率谱和互功率谱时,即可构建如下线性方程组,如公式(9)所示;然后,利用最小二乘法求解上述线性方程组即可获得声学传递函数比Hm(ω)的估计值,再将估计得到的声学传递函数比Hm(ω)进行傅里叶反变换得到时域序列;最后,对该序列进行峰值搜索,序列最大值所在的位置即为时延估计值。
由上述实施例可见,针对音频信号,不仅区分语音帧还是噪声帧,还根据语音帧的信噪比区分是强语音帧还是弱语音帧,这样可以根据不同程度的语音帧对当前帧对应的音频信号数据块进行自适应调整,使得最终得到的时延估计值更加准确,从而进一步提高了时延估计的准确性。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。
其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
如图3所示,图3是本申请根据一示例性实施例示出的一种时延估计装置的框图,所述装置可以应用于可以用于声源定位设备中,并用于执行图1或图2所示的时延估计方法,所述装置可以包括:计算模块31、自适应调整模块32和时延估计值确定模块33。
计算模块31,用于检测到第一音频信号的当前帧为语音帧时,计算所述当前帧的信噪比;
自适应调整模块32,用于根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整,所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的;
时延估计值确定模块33,用于根据所述调整后的数据块构建所述线性方程组,并求解得到所述声学传递函数比的估计值,以及根据所述声学传递函数比的估计值确定时延估计值。
由上述实施例可见,当检测到第一音频信号的当前帧为语音帧时,可以根据当前帧信噪比的大小对用于构建求解声传递函数比的线性方程组的音频信号数据块做出自适应调整,这样最终得到的时延估计值会比较准确,从而提高了时延估计的准确性。
与图3相应的,本公开还提供另一种时延估计装置的框图,所述装置可以应用于可以用于声源定位设备中,并用于执行图1或图2所示的时延估计方法,所述装置包括:
处理器;
被配置为存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
检测到第一音频信号的当前帧为语音帧时,计算所述当前帧的信噪比;
根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整,所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的;
根据所述调整后的数据块构建所述线性方程组,并求解得到所述声学传递函数比的估计值,以及根据所述声学传递函数比的估计值确定时延估计值。
需要说明的是,对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可,在此不进行赘述。
本发明的时延估计装置的实施例可以应用在声源定位设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明的时延估计检测装置所在设备的一种硬件结构图,除了图4所示的处理器、网络接口、内存以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等;从硬件结构上来讲该设备还可能是分布式的设备,可能包括多个接口卡,以便在硬件层面进行报文处理的扩展。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器处理时实现:
检测到第一音频信号的当前帧为语音帧时,计算所述当前帧的信噪比;
根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整,所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的;
根据所述调整后的数据块构建所述线性方程组,并求解得到所述声学传递函数比的估计值,以及根据所述声学传递函数比的估计值确定时延估计值。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (11)

1.一种时延估计方法,其特征在于,所述方法包括:
检测到第一音频信号的当前帧为语音帧时,计算所述当前帧的信噪比;
根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整,所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的;
根据所述调整后的数据块构建所述线性方程组,并求解得到所述声学传递函数比的估计值,以及根据所述声学传递函数比的估计值确定时延估计值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述第一音频信号进行语音激活检测,得到所述第一音频信号当前帧的对数能量值和当前帧的归一化自相关函数;
若所述对数能量值大于能量阈值、且所述归一化自相关函数的最大值大于指定阈值时,则确定当前帧为语音帧;
若所述对数能量值小于或等于所述能量阈值、且所述归一化自相关函数的最大值小于或等于所述指定阈值时,则确定当前帧为噪声帧。
3.根据权利要求1所述的方法,其特征在于,所述第一音频信号是参考麦克风接收的音频信号;
所述根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整,包括:
对所述第一音频信号、以及其他麦克风接收的第二音频信号均进行频域转换,得到对应的频域信息;
根据所述对应的频域信息计算所述第一音频信号当前帧的自功率谱、以及所述第一音频信号当前帧与所述第二音频信号当前帧之间的互功率谱;
若所述当前帧的信噪比大于预设的信噪比阈值,则确定所述当前帧为强语音帧,并将所述当前帧对应的谱信息作为所述音频数据块内的谱信息;其中,所述当前帧对应的谱信息包括所述第一音频信号当前帧的自功率谱、以及所述第一音频信号当前帧与所述第二音频信号当前帧之间的互功率谱;
若所述当前帧的信噪比小于或等于所述预设的信噪比阈值,则确定所述当前帧为弱语音帧,并根据所述当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息,并将所述新的谱信息作为所述音频数据块内的谱信息;其中,所述下一语音帧对应的谱信息包括所述第一音频信号下一语音帧的自功率谱、以及所述第一音频信号下一语音帧与所述第二音频信号下一语音帧之间的互功率谱。
4.根据权利要求3所述的方法,其特征在于,所述根据所述当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息,包括:
计算所述当前帧对应的谱信息与下一语音帧对应的谱信息的平均值,所述平均值为所述新的谱信息。
5.根据权利要求3所述的方法,其特征在于,所述根据所述当前帧对应的谱信息与下一语音帧对应的谱信息生成一个新的谱信息,包括:
将所述当前帧对应的谱信息与下一语音帧对应的谱信息进行加权求和,所述加权求和值为所述新的谱信息。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述第一音频信号当前帧的信噪比与所述第一音频信号下一语音帧的信噪比,计算用于所述加权求和的加权系数。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
检测到所述第一音频信号的当前帧为噪声帧时,计算所述当前帧的背景噪声能量;
利用所述当前帧的背景噪声能量对本地背景噪声能量进行平滑更新。
8.根据权利要求1所述的方法,其特征在于,所述计算所述当前帧的信噪比,包括:
将所述当前帧的能量除以本地背景噪声能量,得到所述当前帧的信噪比。
9.一种时延估计装置,其特征在于,所述装置包括:
计算模块,用于检测到第一音频信号的当前帧为语音帧时,计算所述当前帧的信噪比;
自适应调整模块,用于根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整,所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的;
时延估计值确定模块,用于根据所述调整后的数据块构建所述线性方程组,并求解得到所述声学传递函数比的估计值,以及根据所述声学传递函数比的估计值确定时延估计值。
10.一种时延估计装置,其特征在于,所述装置包括:
处理器;
被配置为存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
检测到第一音频信号的当前帧为语音帧时,计算所述当前帧的信噪比;
根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整,所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的;
根据所述调整后的数据块构建所述线性方程组,并求解得到所述声学传递函数比的估计值,以及根据所述声学传递函数比的估计值确定时延估计值。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器处理时实现:
检测到第一音频信号的当前帧为语音帧时,计算所述当前帧的信噪比;
根据所述当前帧的信噪比对所述当前帧对应的音频信号数据块进行自适应调整,所述音频信号数据块是用于构建估计声学传递函数比的线性方程组的;
根据所述调整后的数据块构建所述线性方程组,并求解得到所述声学传递函数比的估计值,以及根据所述声学传递函数比的估计值确定时延估计值。
CN201710599217.2A 2017-07-21 2017-07-21 时延估计方法及装置 Pending CN107393549A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710599217.2A CN107393549A (zh) 2017-07-21 2017-07-21 时延估计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710599217.2A CN107393549A (zh) 2017-07-21 2017-07-21 时延估计方法及装置

Publications (1)

Publication Number Publication Date
CN107393549A true CN107393549A (zh) 2017-11-24

Family

ID=60336543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710599217.2A Pending CN107393549A (zh) 2017-07-21 2017-07-21 时延估计方法及装置

Country Status (1)

Country Link
CN (1) CN107393549A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741759A (zh) * 2018-12-21 2019-05-10 南京理工大学 一种面向特定鸟类物种的声学自动检测方法
CN110459236A (zh) * 2019-08-15 2019-11-15 北京小米移动软件有限公司 音频信号的噪声估计方法、装置及存储介质
CN113205824A (zh) * 2021-04-30 2021-08-03 紫光展锐(重庆)科技有限公司 声音信号处理方法、装置、存储介质、芯片及相关设备
WO2022012629A1 (zh) * 2020-07-17 2022-01-20 华为技术有限公司 一种立体声音频信号时延估计方法及装置
WO2023273156A1 (zh) * 2021-06-28 2023-01-05 阿波罗智联(北京)科技有限公司 时延估计调整方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074236A (zh) * 2010-11-29 2011-05-25 清华大学 一种分布式麦克风的说话人聚类方法
US20140337016A1 (en) * 2011-10-17 2014-11-13 Nuance Communications, Inc. Speech Signal Enhancement Using Visual Information
US20160379620A1 (en) * 2014-08-01 2016-12-29 Bose Corporation System and method of microphone placement for noise attenuation
CN106293925A (zh) * 2015-05-25 2017-01-04 宇龙计算机通信科技(深圳)有限公司 一种多个应用共享硬件设备的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074236A (zh) * 2010-11-29 2011-05-25 清华大学 一种分布式麦克风的说话人聚类方法
US20140337016A1 (en) * 2011-10-17 2014-11-13 Nuance Communications, Inc. Speech Signal Enhancement Using Visual Information
US20160379620A1 (en) * 2014-08-01 2016-12-29 Bose Corporation System and method of microphone placement for noise attenuation
CN106293925A (zh) * 2015-05-25 2017-01-04 宇龙计算机通信科技(深圳)有限公司 一种多个应用共享硬件设备的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TSVI G.DVORKIND ET AL.: "Time Difference of Arrival Estimation of Speech Source in a Noisy and Reverberant Environment", 《CCIT》 *
张大威等: "复杂环境下基于时延估计的声源定位技术研究", 《通信学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741759A (zh) * 2018-12-21 2019-05-10 南京理工大学 一种面向特定鸟类物种的声学自动检测方法
CN109741759B (zh) * 2018-12-21 2020-07-31 南京理工大学 一种面向特定鸟类物种的声学自动检测方法
CN110459236A (zh) * 2019-08-15 2019-11-15 北京小米移动软件有限公司 音频信号的噪声估计方法、装置及存储介质
CN110459236B (zh) * 2019-08-15 2021-11-30 北京小米移动软件有限公司 音频信号的噪声估计方法、装置及存储介质
WO2022012629A1 (zh) * 2020-07-17 2022-01-20 华为技术有限公司 一种立体声音频信号时延估计方法及装置
CN113205824A (zh) * 2021-04-30 2021-08-03 紫光展锐(重庆)科技有限公司 声音信号处理方法、装置、存储介质、芯片及相关设备
CN113205824B (zh) * 2021-04-30 2022-11-11 紫光展锐(重庆)科技有限公司 声音信号处理方法、装置、存储介质、芯片及相关设备
WO2023273156A1 (zh) * 2021-06-28 2023-01-05 阿波罗智联(北京)科技有限公司 时延估计调整方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN107393549A (zh) 时延估计方法及装置
CN109839612B (zh) 基于时频掩蔽和深度神经网络的声源方向估计方法及装置
EP3703052B1 (en) Echo cancellation method and apparatus based on time delay estimation
JP4247037B2 (ja) 音声信号処理方法と装置及びプログラム
JP6663009B2 (ja) 音声強調のための全体最適化した最小二乗法ポストフィルタリング
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
JP4937622B2 (ja) 位置標定モデルを構築するコンピュータ実施方法
JP5663201B2 (ja) 音源方向推定装置及び音源方向推定方法
Dorfan et al. Tree-based recursive expectation-maximization algorithm for localization of acoustic sources
Laufer et al. Relative transfer function modeling for supervised source localization
Schwartz et al. Joint estimation of late reverberant and speech power spectral densities in noisy environments using Frobenius norm
Niwa et al. Post-filter design for speech enhancement in various noisy environments
BR112019013555A2 (pt) Aparelho para captura de áudio, método de captura de áudio e produto de programa de computador
BR112019013548A2 (pt) Aparelho de captura de áudio, método de operação para capturar áudio, e produto de programa de computador
US20240194220A1 (en) Position detection method, apparatus, electronic device and computer readable storage medium
CN109859769A (zh) 一种掩码估计方法及装置
CN111866665A (zh) 麦克风阵列波束形成方法及装置
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
Yun et al. A deep learning-based approach to non-intrusive objective speech intelligibility estimation
KR20180067920A (ko) 화성 성분에 기반한 음성 끝점 검출 장치 및 방법
JP6265903B2 (ja) 信号雑音減衰
Brendel et al. Distance estimation of acoustic sources using the coherent-to-diffuse power ratio based on distributed training
Song et al. Auditory scene analysis-based feature extraction for indoor subarea localization using smartphones
Jing et al. Acoustic source tracking based on adaptive distributed particle filter in distributed microphone networks
US20210136489A1 (en) Audio capture using beamforming

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171124