CN109102821B - 时延估计方法、***、存储介质及电子设备 - Google Patents

时延估计方法、***、存储介质及电子设备 Download PDF

Info

Publication number
CN109102821B
CN109102821B CN201811049712.7A CN201811049712A CN109102821B CN 109102821 B CN109102821 B CN 109102821B CN 201811049712 A CN201811049712 A CN 201811049712A CN 109102821 B CN109102821 B CN 109102821B
Authority
CN
China
Prior art keywords
reference signal
frequency
delay
signal
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811049712.7A
Other languages
English (en)
Other versions
CN109102821A (zh
Inventor
何赛娟
张华兵
周强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201811049712.7A priority Critical patent/CN109102821B/zh
Publication of CN109102821A publication Critical patent/CN109102821A/zh
Application granted granted Critical
Publication of CN109102821B publication Critical patent/CN109102821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明公开一种时延估计方法,包括:获取参考信号和麦克风所采集的麦克信号,并进行快速傅里叶变换以得到频域参考信号和频域麦克信号;将所述频域参考信号输入至自适应滤波器,以得到所述频域麦克信号中所包含的对应于所述频域参考信号的相关频域参考信号,所述频域麦克信号用于更新所述自适应滤波器;根据所述自适应滤波器输出的所述相关频域参考信号计算滤波器能量以用于确定时延值。解决了现有技术中采用互相关方法,在环境干扰情况下性能急剧下降,在环境比较复杂的场景或者双讲情况下时延估计结果非常不稳定的问题。

Description

时延估计方法、***、存储介质及电子设备
技术领域
本发明涉及音频信号处理技术领域,尤其涉及一种时延估计方法、***、存储介质及电子设备。
背景技术
随着信息技术的不断发展,各种各样的分布式智能硬件在各个领域的应用日益广泛。回声消除作为智能设备交互中不可或缺的环节一直是相关领域技术人员研究的热点。以能够语音控制的电视机顶盒为例,由于麦克风采集到的信号会混杂语音指令和电视节目自身声音,为了辨别使用者发出的语音指令,需要对电视语音进行消除。因此,准确的估计电视语音信号到麦克风之间的时延很大程度上影响着回音消除的质量。
回声消除是通过消除或者移除本地话筒中拾取到的远端的音频信号来阻止远端的声音返回去的一种处理方法。现有典型的回声消除方法是基于时延估计的方法,计算参考信号和麦克信号的线性相关性,并选取最大互相关对应的时延作为装置时延,以用于回声消除的。
互相关方法虽然是一种原理相对比较简单的时延估计方法,但由于算法本身缺陷,在环境干扰情况下性能急剧下降,在环境比较复杂的场景或者双讲情况下时延估计结果非常不稳定。另外,由于需要估计的时延较长,FFT的点数较多,复杂度比较大,CPU占用率较高。
发明内容
本发明实施例提供一种时延估计方法、***电子设备及存储介质,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种时延估计方法,包括:
获取参考信号和麦克风所采集的麦克信号,并进行快速傅里叶变换以得到频域参考信号和频域麦克信号;
将所述频域参考信号输入至自适应滤波器,以得到所述频域麦克信号中所包含的对应于所述频域参考信号的相关频域参考信号,所述频域麦克信号用于更新所述自适应滤波器;
根据所述自适应滤波器输出的所述相关频域参考信号计算滤波器能量以用于确定时延值。
第二方面,本发明实施例提供一种时延估计***,包括:
信号获取程序模块,用于获取参考信号和麦克风所采集的麦克信号,并进行快速傅里叶变换以得到频域参考信号和频域麦克信号;
自适应滤波程序模块,用于将所述频域参考信号输入至自适应滤波器,以得到所述频域麦克信号中所包含的对应于所述频域参考信号的相关频域参考信号,所述频域麦克信号用于更新所述自适应滤波器;
时延确定程序模块,用于根据所述自适应滤波器输出的所述相关频域参考信号计算滤波器能量以用于确定时延值。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项时延估计方法。
第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项时延估计方法。
第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项时延估计方法。
本发明实施例通过采用自适应滤波器来确定麦克风所采集到的麦克信号中所包含的与参考信号相关联的相关频域参考信号,并进一步通过计算自适应滤波器能量的方式确定参考信号的时延值。解决了现有技术中采用互相关方法,在环境干扰情况下性能急剧下降,在环境比较复杂的场景或者双讲情况下时延估计结果非常不稳定的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的时延估计方法的一实施例的流程图;
图2为本发明的步骤S10的一实施例的流程图;
图3为本发明的步骤S30的一实施例的流程图;
图4为本发明的步骤S30的另一实施例的流程图;
图5为本发明的步骤S30的又一实施例的流程图;
图6为本发明的时延估计方法的另一实施例的流程图;
图7为本发明的时延估计***的一实施例的原理框图;
图8为本发明的时延估计***中的信号获取程序模块的一实施例的原理框图;
图9为本发明的时延估计***中的时延确定程序模块的一实施例的原理框图;
图10为发明的时延估计***中的时延确定程序模块的另一实施例的原理框图;
图11为发明的时延估计***中的时延确定程序模块的又一实施例的原理框图;
图12为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“***”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地***、分布式***中另一元件交互的,和/或在因特网的网络通过信号与其它***交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本发明的实施例提供一种时延估计方法,该方法用于电子设备(例如,智能音箱、语音控制的电视机顶盒等)的回声消除,该方法包括以下步骤:
S10、获取参考信号和麦克风所采集的麦克信号,并进行快速傅里叶变换以得到频域参考信号和频域麦克信号;
S20、将所述频域参考信号输入至自适应滤波器,以得到所述频域麦克信号中所包含的对应于所述频域参考信号的相关频域参考信号,所述频域麦克信号用于更新所述自适应滤波器;
S30、根据所述自适应滤波器输出的所述相关频域参考信号计算自适应滤波器能量以用于确定时延值。
本发明实施例通过采用自适应滤波器来确定麦克风所采集到的麦克信号中所包含的与参考信号相关联的相关频域参考信号,并进一步通过计算自适应滤波器能量的方式确定参考信号的时延值。解决了现有技术中采用互相关方法,在环境干扰情况下性能急剧下降,在环境比较复杂的场景或者双讲情况下时延估计结果非常不稳定的问题。
此外,由于是在频域基于频域参考信号和频域麦克信号对自适应滤波器进行的块更新而不是点更新,减小了自适应滤波器更新的复杂度,从而降低了估计时延的复杂度。通过对参考信号进行自适应滤波,获得与麦克信号中所包含的与参考信号相关联的频域参考信号最匹配(最相近)的块或对应的采样点,从而获得延时,通过不断自适应加上一定的后处理可以获得一个较稳定的结果。
如图2所示,在本发明的一些实施例中上述步骤S10:所述获取参考信号和麦克风所采集的麦克信号,并进行快速傅里叶变换以得到频域参考信号和频域麦克信号包括:
S11、获取预先存储的参考信号和通过麦克风所采集麦克信号;示例性的,对于智能音箱而言,当播放歌曲的过程中,将播放的歌曲存储为参考信号,通过智能音箱的麦克所采集到的用户指令语音为麦克采集信号。
S12、将所述参考信号和所述麦克信号输入至低通滤波器进行滤波处理;低通滤波器采用15阶的FIR,考虑到复杂度和稳定度,降采样采用八倍降采样。
S13、分别对经滤波处理后的参考信号和麦克信号进行降采样;具体地,为了防止频率混叠,采用低通滤波器对经滤波处理后的麦克信号和参考信号进行低通滤波处理,之后再进行降采样,得到降采样之后的信号。先经过滤波器的作用是将高频信号滤掉,从而使在降采样过程中频谱向外扩展时不会产生混叠的现像,混叠会产生高频信号转变到低频带。
S14、分别对降采样得到的降采样参考信号和降采样麦克信号进行快速傅里叶变换以得到所述频域参考信号和频域麦克信号。对降采样之后的麦克信号和参考信号由时域转换到频域,以减小数据处理的复杂度。其中,快速傅里叶变换(FFT)的帧长为128或者256或者512或者其它大小,本发明对此不作限定。
如图3所示,在本发明的一些实施例中上述步骤S30:所述根据所述自适应滤波器输出的所述相关频域参考信号计算滤波器能量以用于确定时延值包括:
S31、在频域下根据所述相关频域参考信号计算每块滤波器块的能量;例如,在频域下滤波器块的值是很多复数点,[a1+j*b1,a2+j*b2,...,an+j*bn],那么该块的能量可以表示为(a1 2+b1 2+a2 2+b2 2+...+an 2+bn 2)也就是复数的绝对值平方或者叫幅度的平方。
S32、根据所述每块滤波器的能量中的最大值确定所述时延值。例如,滤波器块的能量一次为[1,2,4,2,1],那么最大的能量为4(从左到右第3个值),那么对应的时延为3(即是4的索引值),表示时延块数为3。
本发明实施例在频域下通过计算滤波器块能量的方式用于确定时延值,所需要计算处理的数据量少,降低了估计时延值的复杂度。
如图4所示,在本发明的一些实施例中上述步骤S30:所述根据所述自适应滤波器输出的所述相关频域参考信号计算滤波器能量以用于确定时延值包括:
S31′、对所述相关频域参考信号进行逆傅里叶变换以得到对应的相关时域参考信号;
S32′、在时域下根据所述相关时域参考信号计算每个采样点的能量;例如,输入的一串采样点[1,2,3,4],那么每个采样点的能量为12,22,32,42,即对应采样点的平方。
S33′、根据所述每个采样点的能量中的最大值确定所述时延值。例如,假设每个采样点能量为[1,2,4,2,1],那么最大的能量为4(从左到右第3个值),那么对应的时延为3(即是4的索引值),表示时延采样点为3,它与块时延的差别在于单位不一样,如果块时延要转换到采样点时延,那么需要在块时延基础上乘上每块的大小。
本发明实施例中在时域下,通过计算采样点能量的方式用于估计时延值,可以通过在时域下众多的采样点能量的估计来提升对时延值进行估计的精度。
如图5所示,在本发明的一些实施例中上述步骤S30:所述根据所述自适应滤波器输出的所述相关频域参考信号计算滤波器能量以用于确定时延值包括:
S31’、在频域下根据所述相关频域参考信号计算每块滤波器块的能量;
S32’、根据所述每块滤波器的能量中的最大值确定第一时延值;
S33’、对所述相关频域参考信号进行逆傅里叶变换以得到对应的相关时域参考信号;
S34’、在时域下根据所述相关时域参考信号计算每个采样点的能量;
S35’、根据所述每个采样点的能量中的最大值确定第二时延值;
S36’、根据所述第一时延值和所述第二时延值确定所述时延值。例如,每块滤波器块有512个点,如果采样点时延估计结果为1024,块时延结果为1,采样点时延转换到块时延1024/512=2,不等于块时延的估计值,那么这次估计结果作废,本时刻依然输出上一时刻的时延值。如果这个时候块时延估计的结果也为2,那么块时延和采样点时延估计的结果对应,可输出当前的结果。
本发明实施例中,采样点延时和块延时是需要对滤波器W值进行峰值搜索所对应的第几个点就是延时,应该是峰值搜索的结果。本发明实施例综合考虑采样点延时和块延时,两者相互作为参考,进一步提升了时延估计的精度。
如图6所示,为本发明的时延估计方法的领域实施例的流程图,具体包括以下步骤:降采样、傅里叶变换、自适应滤波、峰值搜索和后处理。输入两路信号(麦克信号及参考信号),输出每帧时延。下面对每个步骤分别进行介绍。
1)降采样
先对参考信号和麦克信号进行低通滤波,再进行降采样(能够减小算法复杂度)。
其中,为防止频率混叠,先经过一个低通滤波器,这里采用15阶或7阶的FIR,本发明对此不作限定。而抽样考虑复杂度和稳定度,采用8倍降采样或者4倍降采样,本发明对此不作限定。麦克信号和参考信号一起进行降采样,保证每次处理的数据长度一致,包括低通滤波和抽样。
先经过滤波器的作用是将高频信号滤掉,从而使在降采样过程中频谱向外扩展时不会产生混叠的现像,混叠会产生高频信号转变到低频带。
2)FFT(傅里叶变换)
降采样以后的麦克信号和参考信号分别进行FFT变换(傅里叶变换)。为了减小复杂度,在频域处理,因此需要FFT,FFT的帧长为128或者256或者512或者其它大小,本发明对此不作限定。
3)自适应滤波
这里使用循环卷积代替线性卷积方式,采用重叠保留法实现,使用50%重叠。自适应滤波的目的是为了将麦克信号中与参考信号的相关的部分估计出来。自适应滤波的输入是参考信号,输出是估计的麦克信号中相关的部分。
对于第k块滤波器和参考信号,参考信号滤波输出结果为:
y(k)=IFFT[X(k)W(k)]的后一半元素,
其中,X(k)为远端块信号,W(k)为滤波器块系数,而之所以只保留后一半元素,是因为后一半元素是循环卷积的结果。其中,元素就是采样点,远端块信号就是指之前的参考信号分成的一块一块的形式。
时域块误差信号为:
e(k)=d(k)-y(k),
其中,d(k)表示麦克信号。
频域块误差信号为:
E(k)=FFT[0e(k)],
其中,0表示在e(k)前添加一半的0。
对E(k)进行归一化,获得
Figure BDA0001794196900000091
其中,|X(k)|表示参考信号的平滑能量,δ是防止滤波器发散的固定值。
滤波器的更新量为:
Figure BDA0001794196900000092
的前一半元素,
其中,μ是步长系数因子,因为只有前一半的结果才是正确结果,后一半需要丢弃。该方法叫重叠保留法,意思是只保留一部分。
滤波器更新公式为:
W(k+1)=W(k)+FFT[Φ(k)0],
其中0表示在Φ(k)后添加一半的0。
滤波器的更新是比较关键的步骤,但其中的Φ(k)与误差
Figure BDA0001794196900000093
有关,而
Figure BDA0001794196900000094
和近端信号、参考信号在近端的估计值有关,而参考信号在近端的估计值需要进行参考信号滤波。所以这是一个不断迭代的过程。
4)峰值搜索
这里考虑输出采样点延时和块延时,需要两个不同分支。其中,
采样点时延的流程需要对整个滤波器先进行IFFT变换到时域,然后计算滤波器每个系数的能量,选取能量最大那个采样点作为估计的点时延。
而块延时的流程为在频域计算每块滤波器块的能量,然后取能量最大的块作为块时延。
这里的采样点延时和块延时是需要对滤波器W值进行峰值搜索所对应的第几个点就是延时,应该是峰值搜索的结果。点延时和块延时可以综合考虑也可以单独考虑用于估计时延。块延时的精度要求不高,复杂度低,但误差大;采样点延时,误差小,但更复杂。两者也可一起估计,可以相互作为参考,进一步提升精度。
5)后处理
后处理主要从两方面进行考虑:(1)时延在滤波器长度之外的情况;(2)短时的时延异常抖动的情况。
缓解第一个问题目前的手段是,以连续20帧进行短时分析,对每帧获得滤波器的平均能量和能量峰值,然后平均这20帧,比较其平均能量和峰值能量,如果峰值能量<平均能量的某个倍数关系,就认为该20帧的估计都不可信。之所以进行20帧一次统计,是防止短时内出现突然的零星的时延值,这对后续AEC滤波器调整没有意义,也能减小一定复杂度。
缓解第二个问题采用的方法是比较当前估计延时和之前20帧的平均估计的延时,如果超过某个阈值,即认为当前帧估计结果不可信,那就输出前一帧结果。如果认为当前帧可信,且连续多帧可信,即输出当前帧的时延结果并乘上降采样的倍数作为最终输出的采样点时延结果。
而关于块延时的后处理相对简单一些,因为块时延的估计结果浮动比较小,过多的后处理反而会影响准确度,因此只考虑问题(1),对当前块的能量与整个滤波器的平均能量进行比较,如果小于某个阈值,则认为当前的时延结果无效。
这里所说的帧概念就是一次性处理的麦克信号和参考信号的采样点数或者叫长度。因为需要实时输出,所以不能把一段音频全都进行处理,所以需要边处理边输出。这里帧的概念和之前块的长度是一样的,但滤波器有好几个这样的块组成。而后处理的输入是之前估计的每个帧的时延结果。这里是对多帧结果进行平滑等操作,后处理本质上是为了让结果更加稳定。输出也是时延结果,不过是结合多帧的一个综合输出。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
如图7所示,本发明的实施例还提供一种时延估计***700,包括:
信号获取程序模块710,用于获取参考信号和麦克风所采集的麦克信号,并进行快速傅里叶变换以得到频域参考信号和频域麦克信号;
自适应滤波程序模块720,用于将所述频域参考信号输入至自适应滤波器,以得到所述频域麦克信号中所包含的对应于所述频域参考信号的相关频域参考信号,所述频域麦克信号用于更新所述自适应滤波器;
时延确定程序模块730,用于根据所述自适应滤波器输出的所述相关频域参考信号计算滤波器能量以用于确定时延值。
本发明实施例通过采用自适应滤波器来确定麦克风所采集到的麦克信号中所包含的与参考信号相关联的相关频域参考信号,并进一步通过计算自适应滤波器能量的方式确定参考信号的时延值。解决了现有技术中采用互相关方法,在环境干扰情况下性能急剧下降,在环境比较复杂的场景或者双讲情况下时延估计结果非常不稳定的问题。
此外,由于是在频域基于频域参考信号和频域麦克信号对自适应滤波器进行的块更新而不是点更新,减小了自适应滤波器更新的复杂度,从而降低了估计时延的复杂度。通过对参考信号进行自适应滤波,获得与麦克信号中所包含的与参考信号相关联的频域参考信号最匹配(最相近)的块或对应的采样点,从而获得延时,通过不断自适应加上一定的后处理可以获得一个较稳定的结果。
如图8所示,本发明的一些实施例中,信号获取程序模块710包括:
信号获取程序单元711,用于获取预先存储的参考信号和通过麦克风所采集麦克信号;
滤波处理程序单元712,用于将所述参考信号和所述麦克信号输入至低通滤波器进行滤波处理;
降采样程序单元713,用于分别对经滤波处理后的参考信号和麦克信号进行降采样;
傅里叶变换程序单元714,用于分别对降采样得到的降采样参考信号和降采样麦克信号进行快速傅里叶变换以得到所述频域参考信号和频域麦克信号。
如图9所示,本发明的一些实施例中,时延确定程序模块730包括:
能量计算程序单元731,用于在频域下根据所述相关频域参考信号计算每块滤波器块的能量;
时延确定程序单元732,用于根据所述每块滤波器的能量中的最大值确定所述时延值。
如图10所示,本发明的一些实施例中,时延确定程序模块730包括:
信号转换程序单元731′,用于对所述相关频域参考信号进行逆傅里叶变换以得到对应的相关时域参考信号;
能量计算程序单元732′,用于在时域下根据所述相关时域参考信号计算每个采样点的能量;
时延确定程序单元733′,用于根据所述每个采样点的能量中的最大值确定所述时延值。
如图11所示,本发明的一些实施例中,时延确定程序模块730包括:
第一能量计算程序单元731’,用于在频域下根据所述相关频域参考信号计算每块滤波器块的能量;
第一时延确定程序单元732’,用于根据所述每块滤波器的能量中的最大值确定第一时延值;
逆傅里叶变换程序单元733’,用于对所述相关频域参考信号进行逆傅里叶变换以得到对应的相关时域参考信号;
第二能量计算程序单元734’,用于在时域下根据所述相关时域参考信号计算每个采样点的能量;
第二时延确定程序单元735’,用于根据所述每个采样点的能量中的最大值确定第二时延值;
时延确定程序单元736’,用于根据所述第一时延值和所述第二时延值确定所述时延值。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项时延估计方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项时延估计方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行时延估计方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时时延估计方法。
上述本发明实施例的时延估计***可用于执行本发明实施例的时延估计方法,并相应的达到上述本发明实施例的实现时延估计方法所达到的技术效果,这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
图12是本申请另一实施例提供的执行时延估计方法的电子设备的硬件结构示意图,如图12所示,该设备包括:
一个或多个处理器1210以及存储器1220,图12中以一个处理器1210为例。
执行时延估计方法的设备还可以包括:输入装置1230和输出装置1240。
处理器1210、存储器1220、输入装置1230和输出装置1240可以通过总线或者其他方式连接,图12中以通过总线连接为例。
存储器1220作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的时延估计方法对应的程序指令/模块。处理器1210通过运行存储在存储器1220中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例时延估计方法。
存储器1220可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据时延估计装置的使用所创建的数据等。此外,存储器1220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器1220可选包括相对于处理器1210远程设置的存储器,这些远程存储器可以通过网络连接至时延估计装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置1230可接收输入的数字或字符信息,以及产生与时延估计装置的用户设置以及功能控制有关的信号。输出装置1240可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器1220中,当被所述一个或者多个处理器1210执行时,执行上述任意方法实施例中的时延估计方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、***总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (6)

1.一种时延估计方法,包括:
获取参考信号和麦克风所采集的麦克信号,并进行快速傅里叶变换以得到频域参考信号和频域麦克信号;
将所述频域参考信号输入至自适应滤波器,以得到所述频域麦克信号中所包含的对应于所述频域参考信号的相关频域参考信号,所述频域麦克信号用于更新所述自适应滤波器;
在频域下根据所述相关频域参考信号计算每块滤波器块的能量;
根据所述每块滤波器的能量中的最大值确定第一时延值;
对所述相关频域参考信号进行逆傅里叶变换以得到对应的相关时域参考信号;
在时域下根据所述相关时域参考信号计算每个采样点的能量;
根据所述每个采样点的能量中的最大值确定第二时延值;
根据所述第一时延值和所述第二时延值确定时延值;
以连续20帧进行短时分析,对每帧获得滤波器的平均能量和能量峰值,然后平均这20帧,比较其平均能量和峰值能量,如果峰值能量<平均能量的某个倍数关系,就认为该20帧的估计都不可信;
比较当前估计延时和之前20帧的平均估计的延时,如果超过某个阈值,即认为当前帧估计结果不可信,那就输出前一帧结果;如果认为当前帧可信,且连续多帧可信,即输出当前帧的时延结果并乘上降采样的倍数作为最终输出的采样点时延结果。
2.根据权利要求1所述的方法,其中,所述获取参考信号和麦克风所采集的麦克信号,并进行快速傅里叶变换以得到频域参考信号和频域麦克信号包括:
获取预先存储的参考信号和通过麦克风所采集麦克信号;
将所述参考信号和所述麦克信号输入至低通滤波器进行滤波处理;
分别对经滤波处理后的参考信号和麦克信号进行降采样;
分别对降采样得到的降采样参考信号和降采样麦克信号进行快速傅里叶变换以得到所述频域参考信号和频域麦克信号。
3.一种时延估计***,包括:
信号获取程序模块,用于获取参考信号和麦克风所采集的麦克信号,并进行快速傅里叶变换以得到频域参考信号和频域麦克信号;
自适应滤波程序模块,用于将所述频域参考信号输入至自适应滤波器,以得到所述频域麦克信号中所包含的对应于所述频域参考信号的相关频域参考信号,所述频域麦克信号用于更新所述自适应滤波器;
时延确定程序模块,包括:
第一能量计算程序单元,用于在频域下根据所述相关频域参考信号计算每块滤波器块的能量;
第一时延确定程序单元,用于根据所述每块滤波器的能量中的最大值确定第一时延值;
逆傅里叶变换程序单元,用于对所述相关频域参考信号进行逆傅里叶变换以得到对应的相关时域参考信号;
第二能量计算程序单元,用于在时域下根据所述相关时域参考信号计算每个采样点的能量;
第二时延确定程序单元,用于根据所述每个采样点的能量中的最大值确定第二时延值;
时延确定程序单元,用于根据所述第一时延值和所述第二时延值确定时延值;
以连续20帧进行短时分析,对每帧获得滤波器的平均能量和能量峰值,然后平均这20帧,比较其平均能量和峰值能量,如果峰值能量<平均能量的某个倍数关系,就认为该20帧的估计都不可信;
比较当前估计延时和之前20帧的平均估计的延时,如果超过某个阈值,即认为当前帧估计结果不可信,那就输出前一帧结果;如果认为当前帧可信,且连续多帧可信,即输出当前帧的时延结果并乘上降采样的倍数作为最终输出的采样点时延结果。
4.根据权利要求3所述的***,其中,所述信号获取程序模块包括:
信号获取程序单元,用于获取预先存储的参考信号和通过麦克风所采集麦克信号;
滤波处理程序单元,用于将所述参考信号和所述麦克信号输入至低通滤波器进行滤波处理;
降采样程序单元,用于分别对经滤波处理后的参考信号和麦克信号进行降采样;
傅里叶变换程序单元,用于分别对降采样得到的降采样参考信号和降采样麦克信号进行快速傅里叶变换以得到所述频域参考信号和频域麦克信号。
5.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-2中任意一项所述的方法的步骤。
6.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-2中任意一项所述的方法的步骤。
CN201811049712.7A 2018-09-10 2018-09-10 时延估计方法、***、存储介质及电子设备 Active CN109102821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811049712.7A CN109102821B (zh) 2018-09-10 2018-09-10 时延估计方法、***、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811049712.7A CN109102821B (zh) 2018-09-10 2018-09-10 时延估计方法、***、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN109102821A CN109102821A (zh) 2018-12-28
CN109102821B true CN109102821B (zh) 2021-05-25

Family

ID=64865653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811049712.7A Active CN109102821B (zh) 2018-09-10 2018-09-10 时延估计方法、***、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN109102821B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109584898B (zh) * 2018-12-29 2022-05-31 上海瑾盛通信科技有限公司 一种语音信号的处理方法、装置、存储介质及电子设备
CN111294473B (zh) * 2019-01-28 2022-01-04 展讯通信(上海)有限公司 信号处理方法及装置
CN109862503B (zh) * 2019-01-30 2021-02-23 北京雷石天地电子技术有限公司 一种扬声器延时自动调整的方法与设备
CN110349592B (zh) * 2019-07-17 2021-09-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110992973A (zh) * 2019-11-29 2020-04-10 维沃移动通信有限公司 一种信号时延的确定方法和电子设备
CN111613238B (zh) * 2020-05-21 2023-09-19 阿波罗智联(北京)科技有限公司 信号之间延时的确定方法、装置、设备以及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3369077A (en) * 1964-06-09 1968-02-13 Ibm Pitch modification of audio waveforms
CN1691716A (zh) * 2004-04-23 2005-11-02 北京三星通信技术研究有限公司 回声消除装置
CN101026659B (zh) * 2006-02-23 2010-04-07 中兴通讯股份有限公司 一种回声延时定位的实现方法
CN100524466C (zh) * 2006-11-24 2009-08-05 北京中星微电子有限公司 一种麦克风回声消除装置及回声消除方法
CN101119135B (zh) * 2007-07-04 2010-09-01 深圳市融创天下科技发展有限公司 一种用于回音消除的步长参数调整方法及设备
EP2141696A1 (en) * 2008-07-03 2010-01-06 Deutsche Thomson OHG Method for time scaling of a sequence of input signal values
CN103700374B (zh) * 2013-12-25 2016-08-17 宁波菊风***软件有限公司 确定声学回声消除中***延时的方法及声学回声消除方法
CN104751853B (zh) * 2013-12-31 2019-01-04 辰芯科技有限公司 双麦克风噪声抑制方法及***
CN104038181B (zh) * 2014-06-05 2017-05-17 北京航空航天大学 一种基于nlms算法的自适应滤波器的构建方法
CN105810202B (zh) * 2014-12-31 2019-07-02 展讯通信(上海)有限公司 一种降低回声的方法、装置及通讯设备
CN105472191B (zh) * 2015-11-18 2019-09-20 百度在线网络技术(北京)有限公司 一种跟踪回声时延的方法和装置
EP3273608B1 (en) * 2016-07-20 2022-01-12 Sennheiser Electronic GmbH & Co. KG An adaptive filter unit for being used as an echo canceller
CN106936407B (zh) * 2017-01-12 2021-03-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 频域块最小均方自适应滤波方法
CN107123430B (zh) * 2017-04-12 2019-06-04 广州视源电子科技股份有限公司 回声消除方法、装置、会议平板及计算机存储介质
CN107785026B (zh) * 2017-10-18 2020-10-20 会听声学科技(北京)有限公司 一种用于机顶盒室内回声消除的时延估计方法
CN107610713B (zh) * 2017-10-23 2022-02-01 科大讯飞股份有限公司 基于时延估计的回声消除方法及装置

Also Published As

Publication number Publication date
CN109102821A (zh) 2018-12-28

Similar Documents

Publication Publication Date Title
CN109102821B (zh) 时延估计方法、***、存储介质及电子设备
CN109473118B (zh) 双通道语音增强方法及装置
CN109727604B (zh) 用于语音识别前端的频域回声消除方法及计算机储存介质
CN111341336B (zh) 一种回声消除方法、装置、终端设备及介质
US20140064476A1 (en) Systems and methods of echo &amp; noise cancellation in voice communication
CN111951819A (zh) 回声消除方法、装置及存储介质
US9866792B2 (en) Display apparatus and echo cancellation method thereof
CN110782914B (zh) 信号处理方法、装置、终端设备及存储介质
US11349525B2 (en) Double talk detection method, double talk detection apparatus and echo cancellation system
CN109727605B (zh) 处理声音信号的方法及***
US9773510B1 (en) Correcting clock drift via embedded sine waves
CN112602150A (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN109246548B (zh) ***噪声控制***、方法及计算装置
CN113539285A (zh) 音频信号降噪方法、电子装置和存储介质
US11380312B1 (en) Residual echo suppression for keyword detection
CN112151051A (zh) 音频数据的处理方法和装置及存储介质
WO2020135875A1 (zh) 一种基于维纳自适应的信道估计的方法及***
EP2716023A1 (en) Control of adaptation step size and suppression gain in acoustic echo control
CN111370016B (zh) 一种回声消除方法及电子设备
CN111989934B (zh) 回声消除装置、回声消除方法、信号处理芯片及电子设备
CN112997249B (zh) 语音处理方法、装置、存储介质及电子设备
JP2014164190A (ja) 信号処理装置、方法及びプログラム
CN112242145A (zh) 语音滤波方法、装置、介质和电子设备
CN114220451A (zh) 音频消噪方法、电子设备和存储介质
JP6221258B2 (ja) 信号処理装置、方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Time delay estimation methods, systems, storage media, and electronic devices

Effective date of registration: 20230726

Granted publication date: 20210525

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433

PE01 Entry into force of the registration of the contract for pledge of patent right