CN112786067A - 残留回声概率预测方法、模型训练方法、设备及存储装置 - Google Patents
残留回声概率预测方法、模型训练方法、设备及存储装置 Download PDFInfo
- Publication number
- CN112786067A CN112786067A CN202011642998.7A CN202011642998A CN112786067A CN 112786067 A CN112786067 A CN 112786067A CN 202011642998 A CN202011642998 A CN 202011642998A CN 112786067 A CN112786067 A CN 112786067A
- Authority
- CN
- China
- Prior art keywords
- probability prediction
- prediction model
- echo
- residual echo
- linear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 title claims abstract description 44
- 230000006870 function Effects 0.000 claims description 37
- 238000005457 optimization Methods 0.000 claims description 22
- 238000004088 simulation Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000002592 echocardiography Methods 0.000 claims description 5
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000006386 memory function Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本申请公开了一种残留回声概率预测模型的训练方法及训练设备、残留回声概率预测方法、残留回声消除设备及具有存储功能的装置。本申请的残留回声概率预测模型训练方法可以从残留回声样本中得到线性回声概率预测模型的参数以及非线性回声概率预测模型的参数,进一步通过线性回声概率预测模型的参数以及非线性回声概率预测模型的参数对残留回声进行消除,而不是将残留回声信号的能量比例看作是固定值,使得消除的残留回声更为准确,最终得到的语音信号更清晰。
Description
技术领域
本申请涉及语音信号处理、通信技术领域,特别是涉及一种残留回声的训练方法及残留回声训练***。
背景技术
传统的残留回声训练的方法通过一定的假设,即当前的残留回声和预测信号有一定的线性相关性,通过估计该相关系数,即可以估计出残留回声。
现有的估计残留回声的方法基本存在一些弊端,例如线性相关假设,仅仅通过一个系数就估计出残留回声,估计出的残留回声存在一定问题,因为残留回声并不是仅仅由当前时刻的预测信号决定的,得到当前时刻的预测信号的滤波器常数是不足以描述出残留回声的。
通过神经网络进行估计IRM(Ideal Ratio Mask)的方法进行残留回声训练,将残留回声信号的能量比例看作是固定值,指导模型训练,但是,现实世界存在的信号并不是确定的,是满足一定概率分布的随机信号,故该假设并不合理。
发明内容
本申请主要解决的技术问题是提供一种残留回声概率预测模型的训练方法及训练设备、残留回声概率预测方法、残留回声消除设备及具有存储功能的装置,解决了现有方案中将残留回声信号的能量比例看作是固定值的方式进行残留回声消除不合理的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种残留回声概率预测模型的训练方法,该残留回声概率预测模包括线性回声概率预测模型以及非线性残留回声概率预设模型,该训练方法包括:获取到残留回声样本;其中,残留回声样本包括线性残留回声以及非线性残留回声;分别利用残留回声样本对初始残留回声概率预测模型的初始线性回声概率预测模型以及初始非线性回声概率预测模型进行训练,得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数;通过设定函数对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行整合,得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数;计算得到优化函数的最优值,并将最优值对应的线性回声概率预测模型的当前参数确定为线性回声概率预测模型的参数;将最优值对应的非线性回声概率预测模型的当前参数确定为非线性回声概率预测模型的参数。
其中,分别利用残留回声样本对初始残留回声概率预测模型的初始线性回声概率预测模型以及初始非线性回声概率预测模型进行训练,得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的步骤,包括:利用残留回声样本对初始非线性回声概率预测模型进行训练,得到多组参数数据;对多组参数数据计算均值,得到非线性回声概率预测模型的初始参数。
其中,非线性回声概率预测模型为高斯模型;线性回声概率预测模型为拉普拉斯模型。
其中,通过设定函数对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行整合,得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数的步骤,包括:通过最大似然法则对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行整合。
其中,计算得到优化函数的最优值,并将最优值对应的线性回声概率预测模型的当前参数确定为线性回声概率预测模型的参数的步骤,包括:计算得到优化函数的最小值,并将最小值对应的线性回声概率预测模型的当前参数确定为线性回声概率预测模型的参数。
其中,残留回声概率预测模型还包括数据仿真模型,获取到残留回声样本的步骤,包括:通过数据仿真模型将近端语音信号、残留回声信号及噪声信号制作形成残留回声样本。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种残留回声概率预测方法,残留回声概率预测方法基于残留回声概率预测模型,残留回声概率预测模型包括线性回声概率预测模型以及非线性回声概率模型,残留回声概率预测方法包括:获取到待处理残留回声信号;将待处理残留回声信号的线性部分通过线性回声概率预测模型进行概率预测,得到待处理残留回声信号的线性残留回声概率分布;以及将待处理残留回声信号的非线性部分通过非线性回声概率预测模型进行概率预测,得到待处理残留回声信号的非线性残留回声概率分布;其中,残留回声概率预测模型是通过上述任一项的训练方法训练得到的。
其中,残留回声概率预测方法,还包括:通过待处理残留回声信号的线性残留回声概率分布,以及非线性残留回声概率分布对待处理残留回声信号进行回声预估;根据预估结果对待处理残留回声信号中的残留回声进行消除。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种残留回声概率预测模型的训练设备,包括相互耦接的处理器和存储器,其中,处理器用于执行存储器存储的计算机程序以执行上述任一项的残留回声概率预测模型的训练方法。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种残留回声的消除设备,包括相互耦接的处理器和存储器,其中,处理器用于执行存储器存储的计算机程序以执行上述任一项的残留回声概率预测方法。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种具有存储功能的装置,存储有程序数据,程序数据能够被处理器执行以实现如上述任一项的方法。
本申请的有益效果是:区别于现有技术的情况,本申请提供的残留回声概率模型的训练方法可以从残留回声样本中得到线性回声概率预测模型的参数以及非线性回声概率预测模型的参数,进一步通过线性回声概率预测模型的参数以及非线性回声概率预测模型的参数对残留回声进行消除,而不是将残留回声信号的能量比例看作是固定值,使得消除的残留回声更为准确,最终得到的语音信号更清晰。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的残留回声概率模型的训练方法的一实施例的流程示意图;
图2是本申请提供的残留回声概率预测方法的一实施例的流程示意图;
图3是本申请提供的残留回声的消除设备的一实施例的结构示意图;
图4是本申请提供的残留回声的消除设备的一实施例的结构示意图;
图5是本申请提供的具有存储功能的装置的一实施例的结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。
请参阅图1,图1是本申请提供的残留回声概率模型的训练方法的一实施例的流程示意图。
步骤S101:获取到残留回声样本。
在本实施例中,残留回声概率模型包括线性回声概率预测模型以及非线性回声概率模型,其中,在一个具体的实施方式中,非线性回声概率预测模型为高斯模型;线性回声概率预测模型为拉普拉斯模型。在其他实施方式中,也可以根据样本中残留回声的概率分布选择其他适合的模型,在此不再赘述。残留回声概率模型获取到残留回声样本,该残留回声样本通过房间冲激响应进行数据仿真得到,该残留回声样本的公式可以表示如下:
e(t)=s(t)+re(t)+n(t)
其中,e(t)为残留回声样本,s(t)为近端语音信号,re(t)为残留回声信号,re(t)包括线性残留回声rel和非线性残留回声ren,n(t)为噪音信号。
具体地,残留回声概率模型还包括数据仿真模型,通过数据仿真模型将近端语音信号、残留回声信号及噪声信号制作形成残留回声样本。其中,数据仿真模型可以通过Image Method仿真,制作出大量的训残留回声样本,具体通过调节近端语音信号与残留回声信号的比值和近端语音信号、残留回声信号与噪声信号的比值来增加残留回声样本的数据量,提高模型的泛化能力。
步骤S102:分别利用残留回声样本对初始残留回声概率预测模型的初始线性回声概率预测模型以及初始非线性回声概率预测模型进行训练,得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数。
在本实施例中,利用残留回声样本对初始残留回声概率预测模型的初始线性回声概率模型进行训练,从而得到线性回声概率预测模型的初始参数;同时,利用残留回声样本对初始残留回声预测模型的初始非线性回声概率预测模型进行训练,得到非线性回声概率预测模型的初始参数。
具体地,利用残留回声样本对初始残留回声概率预测模型的初始非线性回声概率模型进行训练时,从而得到多组参数数据。进一步地,根据该多组参数数据中的每组参数数据,计算残留回声样本中线性残留回声的均值、方差以及高斯模型中的比例。其中,线性回声概率预测模型的初始参数Zt为
多组参数数据为
其中,μ为均值,σ为方差,α为高斯模型中的比例。
在得到初始非线性回声概率预测模型的初始参数以及多组参数数据后,进一步地,通过多组参数数据计算残留回声样本中非线性残留回声的均值μi(yt),方差σi(yt)σi(yt)和比例αi(yt),其公式可以表示如下:
具体地,利用残留回声样本对初始残留回声概率预测模型的初始线性回声概率模型进行训练时,从而得到多组参数数据。由于残留回声样本数据较多,利用不同的残留回声样本对初始残留回声概率预测模型的初始线性回声概率模型进行训练时,每一个残留回声样本都会对应的得到参数数据,因此,最终会得到多组参数数据。在得到多组参数数据后,对多组参数数据计算均值,从而得到线性回声概率预测模型的初始参数。其中,初始线性回声概率模型通过如下公式训练处线性回声概率预测模型的初始参数μ和λ:
其中,rel为残留回声样本中的线性残留回声。
可选的,利用残留回声样本对初始残留回声概率预测模型的初始线性回声概率模型进行训练时,得到多组参数数据后,还可通过对多组参数数据进行优化处理,通过优化处理从多组参数数据中,选取最优画画的参数数据,得到线性回声概率预测模型的初始参数。
步骤S103:通过设定函数对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行整合,得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数。
在本实施例中,在得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数后,进一步地,通过设定函数对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行整合,从而得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数。
具体地,通过最大似然法则对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行整合,通过如下公式进行整合:
其中,μi(yt)非线性残留回声的均值,σi(yt)非线性残留回声的方差,αi(yt)为非线性残留回声的高斯中的比例,
从而得到如下方程:
通过上述方程对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行求和,从而得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数可以表示如下:
其中,αi(yt)为非线性残留回声的高斯中的比例。
步骤S104:将最优值对应的非线性回声概率预测模型的当前参数确定为非线性回声概率预测模型的参数;将最优值对应的非线性回声概率预测模型的当前参数确定为非线性回声概率预测模型的参数。
在本实施例中,得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数后,进一步对该优化函数进行优化处理,将经过优化处理后的优化函数的最优值对应的线性回声概率预测模型的当前参数确定为线性回声概率预测模型的参数;将最优值对应的非线性回声概率预测模型的当前参数确定为非线性回声概率预测模型的参数。其中,优选的,该优化处理为最小化线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数。
区别于现有技术的情况,本实施例提供的残留回声概率预测模型的训练方法,通过分别利用残留回声样本对初始残留回声概率预测模型的初始线性回声概率预测模型以及初始非线性回声概率预测模型进行训练,得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数;通过设定函数对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行整合,得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数;计算得到优化函数的最优值,并将最优值对应的线性回声概率预测模型的当前参数确定为线性回声概率预测模型的参数;将最优值对应的非线性回声概率预测模型的当前参数确定为非线性回声概率预测模型的参数。从而通过大量数据优化出残留回声的线性回声概率预测模型的参数以及非线性回声概率预测模型的参数,进一步通过线性回声概率预测模型的参数以及非线性回声概率预测模型的参数对残留回声进行消除,而不是将残留回声信号的能量比例看作是固定值,使得消除的残留回声更为准确,最终得到的语音信号更清晰。
请参阅图2,图2是本申请提供的残留回声概率预测方法的一实施例的流程示意图。
步骤S201:获取到待处理残留回声信号。
在本实施例中,残留回声概率预测方法基于上述残留回声概率预测模型,残留回声概率预测模型包括线性回声概率预测模型以及非线性回声概率模型,其中,残留回声概率预测模型是通过上述任一项的训练方法训练得到的。待处理残留回声信号为用户首先获取到的麦克信号,其中,麦克信号为x(t):
x(t)=s(t)+ref(t)*h+n(t)
其中,ref(t)为参考信号,h为扬声器到麦克风之间的传递函数,即房间冲激响应。
在麦克信号经过回声消除***进行处理后得到待处理残留回声信号,麦克信号经过回声消除***后,通常会将大部分回声消除掉,但由于设备震动、扬声器过饱和等非线性存在,线性回声消除并不能完全消除回声,故经过回声消除***的待处理残留回声信号为:
e(t)=s(t)+re(t)+n(t)
步骤S202:将待处理残留回声信号的线性部分通过线性回声概率预测模型进行概率预测,得到待处理残留回声信号的线性残留回声概率分布;以及将待处理残留回声信号的非线性部分通过非线性回声概率预测模型进行概率预测,得到待处理残留回声信号的非线性残留回声概率分布。
在本实施例中,将获取的待处理回声信号的线性部分通过线性回声概率预测模型进行概率预测,得到待处理残留回声信号的线性残留回声概率分布,即将待处理残留回声信号中的线性残留回声通过上述线性回声概率预测模型进行概率预测,通过线性回声概率预测模型的参数转化为线性残留回声存在概率,并根据线性残留回声的存在概率对待处理回声信号中的线性残留回声进行预估,根据预估结果确定待处理回声信号中的线性残留回声。
同时,将待处理残留回声信号的非线性部分通过非线性回声概率预测模型进行概率预测,得到待处理残留回声信号的非线性残留回声概率分布,即将待处理残留回声信号中的非线性残留回声通过上述非线性回声概率预测模型进行概率预测,通过非线性回声概率预测模型的参数转化为非线性残留回声存在概率,并根据非线性残留回声的存在概率对待处理回声信号中的非线性残留回声进行预估,根据预估结果确定待处理回声信号中的非线性残留回声。
进一步地,根据预估结果将确定后的待处理回声信号中的线性残留回声和非线性残留回声从待处理回声信号中消除掉,从而得到待处理回声信号中的语音信号。
区别于现有技术的情况,本实施例提供的残留回声概率预测方法,通过残留回声概率预测模型优化后的参数对麦克信号中的残留回声进行消除,而不是将残留回声信号的能量比例看作是固定值,使得消除的残留回声更为准确,最终得到的语音信号更清晰。
请参阅图3,图3是本申请提供的残留回声的消除设备的一实施例的结构示意图。本实施例中的残留回声概率预测模型的训练设备30包括相互耦接的存储器301和处理器302;存储器301用于存储计算机程序;处理器302用于执行计算机程序,以实现如上所述的残留回声概率预测模型的训练方法。
本实施例中的残留回声概率预测模型的训练设备30中的处理器302实现上述功能的具体过程可参阅上述方法实施例。
请参阅图4,图4是本申请提供的残留回声的消除设备的一实施例的结构示意图。本实施例中的残留回声的消除设备40包括相互耦接的存储器401和处理器402;存储器401用于存储计算机程序;处理器402用于执行计算机程序,以实现如上所述的残留回声概率预测方法。
本实施例中的残留回声的消除设备40中的处理器402实现上述功能的具体过程可参阅上述方法实施例。
请参阅图5,图5是本申请提供的具有存储功能的装置的一实施例的结构示意图,本申请还提供具有存储功能的装置50,存储有程序数据51,程序数据51能够被处理器执行以实现上述任一项的方法。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种残留回声概率预测模型的训练方法,其特征在于,所述残留回声概率预测模型包括线性回声概率预测模型以及非线性回声概率模型,所述训练方法包括:
获取到残留回声样本;其中,所述残留回声样本包括线性残留回声以及非线性残留回声;
分别利用所述残留回声样本对所述初始残留回声概率预测模型的初始线性回声概率预测模型以及初始非线性回声概率预测模型进行训练,得到所述线性回声概率预测模型的初始参数以及所述非线性回声概率预测模型的初始参数;
通过设定函数对所述线性回声概率预测模型的初始参数以及所述非线性回声概率预测模型的初始参数进行整合,得到所述线性回声概率预测模型的初始参数以及所述非线性回声概率预测模型的初始参数的优化函数;
计算得到所述优化函数的最优值,并将所述最优值对应的线性回声概率预测模型的当前参数确定为所述线性回声概率预测模型的参数;
将所述最优值对应的非线性回声概率预测模型的当前参数确定为所述非线性回声概率预测模型的参数。
2.根据权利要求1所述的残留回声概率预测模型的训练方法,其特征在于,所述分别利用所述残留回声样本对所述初始残留回声概率预测模型的初始线性回声概率预测模型以及初始非线性回声概率预测模型进行训练,得到所述线性回声概率预测模型的初始参数以及所述非线性回声概率预测模型的初始参数的步骤,包括:
利用所述残留回声样本对所述初始非线性回声概率预测模型进行训练,得到多组参数数据;
对所述多组参数数据计算均值,得到所述非线性回声概率预测模型的初始参数。
3.根据权利要求1或2所述的残留回声概率预测模型的训练方法,其特征在于,所述非线性回声概率预测模型为高斯模型;所述线性回声概率预测模型为拉普拉斯模型。
4.根据权利要求1所述的残留回声概率预测模型的训练方法,其特征在于,所述通过设定函数对所述线性回声概率预测模型的初始参数以及所述非线性回声概率预测模型的初始参数进行整合,得到所述线性回声概率预测模型的初始参数以及所述非线性回声概率预测模型的初始参数的优化函数的步骤,包括:
通过最大似然法则对所述线性回声概率预测模型的初始参数以及所述非线性回声概率预测模型的初始参数进行整合。
5.根据权利要求4所述的残留回声概率预测模型的训练方法,其特征在于,所述计算得到所述优化函数的最优值,并将所述最优值对应的线性回声概率预测模型的当前参数确定为所述线性回声概率预测模型的参数的步骤,包括:
计算得到所述优化函数的最小值,并将所述最小值对应的线性回声概率预测模型的当前参数确定为所述线性回声概率预测模型的参数。
6.根据权利要求1所述的残留回声概率预测模型的训练方法,其特征在于,所述残留回声概率预测模型还包括数据仿真模型,所述获取到残留回声样本的步骤,包括:
通过所述数据仿真模型将近端语音信号、残留回声信号及噪声信号制作形成所述残留回声样本。
7.一种残留回声概率预测方法,其特征在于,所述残留回声概率预测方法基于所述残留回声概率预测模型,所述残留回声概率预测模型包括线性回声概率预测模型以及非线性回声概率模型,残留回声概率预测方法包括:
获取到待处理残留回声信号;
将所述待处理残留回声信号的线性部分通过所述线性回声概率预测模型进行概率预测,得到所述待处理残留回声信号的线性残留回声概率分布;以及
将所述待处理残留回声信号的非线性部分通过所述非线性回声概率预测模型进行概率预测,得到所述待处理残留回声信号的非线性残留回声概率分布;
其中,所述残留回声概率预测模型是通过权利要求1~6任一项所述的训练方法训练得到的。
8.根据权利要求7所述的残留回声概率预测方法,其特征在于,所述残留回声概率预测方法,还包括:
通过所述待处理残留回声信号的线性残留回声概率分布,以及所述非线性残留回声概率分布对所述待处理残留回声信号进行回声预估;
根据预估结果对所述待处理残留回声信号中的残留回声进行消除。
9.一种残留回声概率预测模型的训练设备,其特征在于,包括相互耦接的处理器和存储器,其中,
所述处理器用于执行所述存储器存储的计算机程序以执行权利要求1至6任一项所述的残留回声概率预测模型的训练方法。
10.一种残留回声的消除设备,其特征在于,包括相互耦接的处理器和存储器,其中,
所述处理器用于执行所述存储器存储的计算机程序以执行权利要求7至8任一项所述的残留回声概率预测方法。
11.一种具有存储功能的装置,其特征在于,存储有程序数据,所述程序数据能够被处理器执行以实现如权利要求1-6或7-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011642998.7A CN112786067B (zh) | 2020-12-30 | 2020-12-30 | 残留回声概率预测方法、模型训练方法、设备及存储装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011642998.7A CN112786067B (zh) | 2020-12-30 | 2020-12-30 | 残留回声概率预测方法、模型训练方法、设备及存储装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112786067A true CN112786067A (zh) | 2021-05-11 |
CN112786067B CN112786067B (zh) | 2024-04-19 |
Family
ID=75755180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011642998.7A Active CN112786067B (zh) | 2020-12-30 | 2020-12-30 | 残留回声概率预测方法、模型训练方法、设备及存储装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112786067B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1176034A (zh) * | 1995-02-24 | 1998-03-11 | 艾利森公司 | 消除在扬声器电话中包括非线性失真的声学回声的装置和方法 |
KR20000024830A (ko) * | 1998-10-02 | 2000-05-06 | 김영환 | 무선시스템의 난리니어 파-앤드 에코 보상방법 |
US20130297298A1 (en) * | 2012-05-04 | 2013-11-07 | Sony Computer Entertainment Inc. | Source separation using independent component analysis with mixed multi-variate probability density function |
JP2014096027A (ja) * | 2012-11-09 | 2014-05-22 | Nippon Telegr & Teleph Corp <Ntt> | パラメータ推定装置、エコー消去装置、パラメータ推定方法、及びプログラム |
KR20150012752A (ko) * | 2013-07-26 | 2015-02-04 | 삼성전자주식회사 | 비선형 음향 에코 소거 장치 및 그 방법 |
WO2019062417A1 (zh) * | 2017-09-30 | 2019-04-04 | Oppo广东移动通信有限公司 | 应用清理方法、装置、存储介质及电子设备 |
CN109613461A (zh) * | 2018-12-27 | 2019-04-12 | 上海联影医疗科技有限公司 | 梯度回波序列设置方法、磁共振成像***扫描方法、设备及介质 |
CN110246515A (zh) * | 2019-07-19 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 回声的消除方法、装置、存储介质及电子装置 |
CN110838300A (zh) * | 2019-11-18 | 2020-02-25 | 紫光展锐(重庆)科技有限公司 | 回声消除的处理方法及处理*** |
CN111292759A (zh) * | 2020-05-11 | 2020-06-16 | 上海亮牛半导体科技有限公司 | 一种基于神经网络的立体声回声消除方法及*** |
CN111756906A (zh) * | 2020-06-24 | 2020-10-09 | 上海立可芯半导体科技有限公司 | 一种语音信号的回声抑制方法和装置 |
CN111885275A (zh) * | 2020-07-23 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 语音信号的回声消除方法、装置、存储介质以及电子装置 |
CN111933164A (zh) * | 2020-06-29 | 2020-11-13 | 北京百度网讯科技有限公司 | 语音处理模型的训练方法、装置、电子设备和存储介质 |
CN111968658A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 语音信号的增强方法、装置、电子设备和存储介质 |
-
2020
- 2020-12-30 CN CN202011642998.7A patent/CN112786067B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1176034A (zh) * | 1995-02-24 | 1998-03-11 | 艾利森公司 | 消除在扬声器电话中包括非线性失真的声学回声的装置和方法 |
KR20000024830A (ko) * | 1998-10-02 | 2000-05-06 | 김영환 | 무선시스템의 난리니어 파-앤드 에코 보상방법 |
US20130297298A1 (en) * | 2012-05-04 | 2013-11-07 | Sony Computer Entertainment Inc. | Source separation using independent component analysis with mixed multi-variate probability density function |
JP2014096027A (ja) * | 2012-11-09 | 2014-05-22 | Nippon Telegr & Teleph Corp <Ntt> | パラメータ推定装置、エコー消去装置、パラメータ推定方法、及びプログラム |
KR20150012752A (ko) * | 2013-07-26 | 2015-02-04 | 삼성전자주식회사 | 비선형 음향 에코 소거 장치 및 그 방법 |
WO2019062417A1 (zh) * | 2017-09-30 | 2019-04-04 | Oppo广东移动通信有限公司 | 应用清理方法、装置、存储介质及电子设备 |
CN109613461A (zh) * | 2018-12-27 | 2019-04-12 | 上海联影医疗科技有限公司 | 梯度回波序列设置方法、磁共振成像***扫描方法、设备及介质 |
CN110246515A (zh) * | 2019-07-19 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 回声的消除方法、装置、存储介质及电子装置 |
CN110838300A (zh) * | 2019-11-18 | 2020-02-25 | 紫光展锐(重庆)科技有限公司 | 回声消除的处理方法及处理*** |
CN111292759A (zh) * | 2020-05-11 | 2020-06-16 | 上海亮牛半导体科技有限公司 | 一种基于神经网络的立体声回声消除方法及*** |
CN111756906A (zh) * | 2020-06-24 | 2020-10-09 | 上海立可芯半导体科技有限公司 | 一种语音信号的回声抑制方法和装置 |
CN111933164A (zh) * | 2020-06-29 | 2020-11-13 | 北京百度网讯科技有限公司 | 语音处理模型的训练方法、装置、电子设备和存储介质 |
CN111968658A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 语音信号的增强方法、装置、电子设备和存储介质 |
CN111885275A (zh) * | 2020-07-23 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 语音信号的回声消除方法、装置、存储介质以及电子装置 |
Non-Patent Citations (3)
Title |
---|
MOCTAR I. MOSSI,ETAL: "A comparative assessment of noise and non-linear echo effects in acoustic echo cancellation", IEEE XPLORE * |
李鸿燕: "基干自适应滤波的声学回南消除筧法研究", 中国优秀硕士学位论文全文数据库 * |
陈林: "会议电话中的实时回声消除算法 研究与实现", 中国优秀硕士学位论文全文数据库 * |
Also Published As
Publication number | Publication date |
---|---|
CN112786067B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109841206B (zh) | 一种基于深度学习的回声消除方法 | |
JP4842583B2 (ja) | 多感覚音声強調のための方法および装置 | |
RU2407074C2 (ru) | Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи | |
CN112581973B (zh) | 一种语音增强方法及*** | |
CN101461257A (zh) | 自适应声学回声消除 | |
CN111312273A (zh) | 混响消除方法、装置、计算机设备和存储介质 | |
CN110930996B (zh) | 模型训练方法、语音识别方法、装置、存储介质及设备 | |
CN112634933B (zh) | 一种回声消除方法、装置、电子设备和可读存储介质 | |
CN105324981B (zh) | 回波抑制的方法、设备、介质及装置 | |
CN110111805A (zh) | 远场语音交互中的自动增益控制方法、装置及可读存储介质 | |
Richter et al. | Speech Enhancement with Stochastic Temporal Convolutional Networks. | |
CN111261148B (zh) | 语音模型的训练方法、语音增强处理方法及相关设备 | |
CN116030823B (zh) | 一种语音信号处理方法、装置、计算机设备及存储介质 | |
CN111048061A (zh) | 回声消除滤波器的步长获取方法、装置及设备 | |
CN113689878A (zh) | 回声消除方法、回声消除装置及计算机可读存储介质 | |
CN109215672B (zh) | 一种声音信息的处理方法、装置及设备 | |
CN113055787B (zh) | 回声消除方法、装置、电子设备和存储介质 | |
CN112214791B (zh) | 基于强化学习的隐私策略优化方法、***及可读存储介质 | |
CN112786067A (zh) | 残留回声概率预测方法、模型训练方法、设备及存储装置 | |
CN113571076A (zh) | 信号处理方法、装置、电子设备和存储介质 | |
CN115188389A (zh) | 基于神经网络的端到端语音增强方法、装置 | |
CN110309284B (zh) | 一种基于贝叶斯网络推理的自动对答方法及装置 | |
CN115083412B (zh) | 语音交互方法及相关装置、电子设备、存储介质 | |
CN111370016A (zh) | 一种回声消除方法及电子设备 | |
CN1605186A (zh) | 具有频谱回波尾部估计器的回波消除器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |