CN112786067A

CN112786067A - 残留回声概率预测方法、模型训练方法、设备及存储装置

Info

Publication number: CN112786067A
Application number: CN202011642998.7A
Authority: CN
Inventors: 李明子; 管青松
Original assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Current assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-11
Anticipated expiration: 2040-12-30
Also published as: CN112786067B

Abstract

本申请公开了一种残留回声概率预测模型的训练方法及训练设备、残留回声概率预测方法、残留回声消除设备及具有存储功能的装置。本申请的残留回声概率预测模型训练方法可以从残留回声样本中得到线性回声概率预测模型的参数以及非线性回声概率预测模型的参数，进一步通过线性回声概率预测模型的参数以及非线性回声概率预测模型的参数对残留回声进行消除，而不是将残留回声信号的能量比例看作是固定值，使得消除的残留回声更为准确，最终得到的语音信号更清晰。

Description

残留回声概率预测方法、模型训练方法、设备及存储装置

技术领域

本申请涉及语音信号处理、通信技术领域，特别是涉及一种残留回声的训练方法及残留回声训练***。

背景技术

传统的残留回声训练的方法通过一定的假设，即当前的残留回声和预测信号有一定的线性相关性，通过估计该相关系数，即可以估计出残留回声。

现有的估计残留回声的方法基本存在一些弊端，例如线性相关假设，仅仅通过一个系数就估计出残留回声，估计出的残留回声存在一定问题，因为残留回声并不是仅仅由当前时刻的预测信号决定的，得到当前时刻的预测信号的滤波器常数是不足以描述出残留回声的。

通过神经网络进行估计IRM(Ideal Ratio Mask)的方法进行残留回声训练，将残留回声信号的能量比例看作是固定值，指导模型训练，但是，现实世界存在的信号并不是确定的，是满足一定概率分布的随机信号，故该假设并不合理。

发明内容

本申请主要解决的技术问题是提供一种残留回声概率预测模型的训练方法及训练设备、残留回声概率预测方法、残留回声消除设备及具有存储功能的装置，解决了现有方案中将残留回声信号的能量比例看作是固定值的方式进行残留回声消除不合理的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种残留回声概率预测模型的训练方法，该残留回声概率预测模包括线性回声概率预测模型以及非线性残留回声概率预设模型，该训练方法包括：获取到残留回声样本；其中，残留回声样本包括线性残留回声以及非线性残留回声；分别利用残留回声样本对初始残留回声概率预测模型的初始线性回声概率预测模型以及初始非线性回声概率预测模型进行训练，得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数；通过设定函数对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行整合，得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数；计算得到优化函数的最优值，并将最优值对应的线性回声概率预测模型的当前参数确定为线性回声概率预测模型的参数；将最优值对应的非线性回声概率预测模型的当前参数确定为非线性回声概率预测模型的参数。

其中，分别利用残留回声样本对初始残留回声概率预测模型的初始线性回声概率预测模型以及初始非线性回声概率预测模型进行训练，得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的步骤，包括：利用残留回声样本对初始非线性回声概率预测模型进行训练，得到多组参数数据；对多组参数数据计算均值，得到非线性回声概率预测模型的初始参数。

其中，非线性回声概率预测模型为高斯模型；线性回声概率预测模型为拉普拉斯模型。

其中，通过设定函数对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行整合，得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数的步骤，包括：通过最大似然法则对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行整合。

其中，计算得到优化函数的最优值，并将最优值对应的线性回声概率预测模型的当前参数确定为线性回声概率预测模型的参数的步骤，包括：计算得到优化函数的最小值，并将最小值对应的线性回声概率预测模型的当前参数确定为线性回声概率预测模型的参数。

其中，残留回声概率预测模型还包括数据仿真模型，获取到残留回声样本的步骤，包括：通过数据仿真模型将近端语音信号、残留回声信号及噪声信号制作形成残留回声样本。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种残留回声概率预测方法，残留回声概率预测方法基于残留回声概率预测模型，残留回声概率预测模型包括线性回声概率预测模型以及非线性回声概率模型，残留回声概率预测方法包括：获取到待处理残留回声信号；将待处理残留回声信号的线性部分通过线性回声概率预测模型进行概率预测，得到待处理残留回声信号的线性残留回声概率分布；以及将待处理残留回声信号的非线性部分通过非线性回声概率预测模型进行概率预测，得到待处理残留回声信号的非线性残留回声概率分布；其中，残留回声概率预测模型是通过上述任一项的训练方法训练得到的。

其中，残留回声概率预测方法，还包括：通过待处理残留回声信号的线性残留回声概率分布，以及非线性残留回声概率分布对待处理残留回声信号进行回声预估；根据预估结果对待处理残留回声信号中的残留回声进行消除。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种残留回声概率预测模型的训练设备，包括相互耦接的处理器和存储器，其中，处理器用于执行存储器存储的计算机程序以执行上述任一项的残留回声概率预测模型的训练方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种残留回声的消除设备，包括相互耦接的处理器和存储器，其中，处理器用于执行存储器存储的计算机程序以执行上述任一项的残留回声概率预测方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种具有存储功能的装置，存储有程序数据，程序数据能够被处理器执行以实现如上述任一项的方法。

本申请的有益效果是：区别于现有技术的情况，本申请提供的残留回声概率模型的训练方法可以从残留回声样本中得到线性回声概率预测模型的参数以及非线性回声概率预测模型的参数，进一步通过线性回声概率预测模型的参数以及非线性回声概率预测模型的参数对残留回声进行消除，而不是将残留回声信号的能量比例看作是固定值，使得消除的残留回声更为准确，最终得到的语音信号更清晰。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的残留回声概率模型的训练方法的一实施例的流程示意图；

图2是本申请提供的残留回声概率预测方法的一实施例的流程示意图；

图3是本申请提供的残留回声的消除设备的一实施例的结构示意图；

图4是本申请提供的残留回声的消除设备的一实施例的结构示意图；

图5是本申请提供的具有存储功能的装置的一实施例的结构示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

请参阅图1，图1是本申请提供的残留回声概率模型的训练方法的一实施例的流程示意图。

步骤S101：获取到残留回声样本。

在本实施例中，残留回声概率模型包括线性回声概率预测模型以及非线性回声概率模型，其中，在一个具体的实施方式中，非线性回声概率预测模型为高斯模型；线性回声概率预测模型为拉普拉斯模型。在其他实施方式中，也可以根据样本中残留回声的概率分布选择其他适合的模型，在此不再赘述。残留回声概率模型获取到残留回声样本，该残留回声样本通过房间冲激响应进行数据仿真得到，该残留回声样本的公式可以表示如下：

e(t)＝s(t)+r_e(t)+n(t)

其中，e(t)为残留回声样本，s(t)为近端语音信号，r_e(t)为残留回声信号，r_e(t)包括线性残留回声r_el和非线性残留回声r_en，n(t)为噪音信号。

具体地，残留回声概率模型还包括数据仿真模型，通过数据仿真模型将近端语音信号、残留回声信号及噪声信号制作形成残留回声样本。其中，数据仿真模型可以通过Image Method仿真，制作出大量的训残留回声样本，具体通过调节近端语音信号与残留回声信号的比值和近端语音信号、残留回声信号与噪声信号的比值来增加残留回声样本的数据量，提高模型的泛化能力。

步骤S102：分别利用残留回声样本对初始残留回声概率预测模型的初始线性回声概率预测模型以及初始非线性回声概率预测模型进行训练，得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数。

在本实施例中，利用残留回声样本对初始残留回声概率预测模型的初始线性回声概率模型进行训练，从而得到线性回声概率预测模型的初始参数；同时，利用残留回声样本对初始残留回声预测模型的初始非线性回声概率预测模型进行训练，得到非线性回声概率预测模型的初始参数。

具体地，利用残留回声样本对初始残留回声概率预测模型的初始非线性回声概率模型进行训练时，从而得到多组参数数据。进一步地，根据该多组参数数据中的每组参数数据，计算残留回声样本中线性残留回声的均值、方差以及高斯模型中的比例。其中，线性回声概率预测模型的初始参数Z_t为

多组参数数据为

其中，μ为均值，σ为方差，α为高斯模型中的比例。

在得到初始非线性回声概率预测模型的初始参数以及多组参数数据后，进一步地，通过多组参数数据计算残留回声样本中非线性残留回声的均值μ_i(y_t)，方差σ_i(y_t)σ_i(y_t)和比例α_i(y_t)，其公式可以表示如下：

具体地，利用残留回声样本对初始残留回声概率预测模型的初始线性回声概率模型进行训练时，从而得到多组参数数据。由于残留回声样本数据较多，利用不同的残留回声样本对初始残留回声概率预测模型的初始线性回声概率模型进行训练时，每一个残留回声样本都会对应的得到参数数据，因此，最终会得到多组参数数据。在得到多组参数数据后，对多组参数数据计算均值，从而得到线性回声概率预测模型的初始参数。其中，初始线性回声概率模型通过如下公式训练处线性回声概率预测模型的初始参数μ和λ：

其中，r_el为残留回声样本中的线性残留回声。

可选的，利用残留回声样本对初始残留回声概率预测模型的初始线性回声概率模型进行训练时，得到多组参数数据后，还可通过对多组参数数据进行优化处理，通过优化处理从多组参数数据中，选取最优画画的参数数据，得到线性回声概率预测模型的初始参数。

步骤S103：通过设定函数对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行整合，得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数。

在本实施例中，在得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数后，进一步地，通过设定函数对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行整合，从而得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数。

具体地，通过最大似然法则对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行整合，通过如下公式进行整合：

其中，μ_i(y_t)非线性残留回声的均值，σ_i(y_t)非线性残留回声的方差，α_i(y_t)为非线性残留回声的高斯中的比例，

从而得到如下方程：

其中，Z_t为线性回声概率预测模型的初始参数，Z_t包括

和

通过上述方程对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行求和，从而得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数可以表示如下：

其中，α_i(y_t)为非线性残留回声的高斯中的比例。

步骤S104：将最优值对应的非线性回声概率预测模型的当前参数确定为非线性回声概率预测模型的参数；将最优值对应的非线性回声概率预测模型的当前参数确定为非线性回声概率预测模型的参数。

在本实施例中，得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数后，进一步对该优化函数进行优化处理，将经过优化处理后的优化函数的最优值对应的线性回声概率预测模型的当前参数确定为线性回声概率预测模型的参数；将最优值对应的非线性回声概率预测模型的当前参数确定为非线性回声概率预测模型的参数。其中，优选的，该优化处理为最小化线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数。

区别于现有技术的情况，本实施例提供的残留回声概率预测模型的训练方法，通过分别利用残留回声样本对初始残留回声概率预测模型的初始线性回声概率预测模型以及初始非线性回声概率预测模型进行训练，得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数；通过设定函数对线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数进行整合，得到线性回声概率预测模型的初始参数以及非线性回声概率预测模型的初始参数的优化函数；计算得到优化函数的最优值，并将最优值对应的线性回声概率预测模型的当前参数确定为线性回声概率预测模型的参数；将最优值对应的非线性回声概率预测模型的当前参数确定为非线性回声概率预测模型的参数。从而通过大量数据优化出残留回声的线性回声概率预测模型的参数以及非线性回声概率预测模型的参数，进一步通过线性回声概率预测模型的参数以及非线性回声概率预测模型的参数对残留回声进行消除，而不是将残留回声信号的能量比例看作是固定值，使得消除的残留回声更为准确，最终得到的语音信号更清晰。

请参阅图2，图2是本申请提供的残留回声概率预测方法的一实施例的流程示意图。

步骤S201：获取到待处理残留回声信号。

在本实施例中，残留回声概率预测方法基于上述残留回声概率预测模型，残留回声概率预测模型包括线性回声概率预测模型以及非线性回声概率模型，其中，残留回声概率预测模型是通过上述任一项的训练方法训练得到的。待处理残留回声信号为用户首先获取到的麦克信号，其中，麦克信号为x(t):

x(t)＝s(t)+ref(t)*h+n(t)

其中，ref(t)为参考信号，h为扬声器到麦克风之间的传递函数，即房间冲激响应。

在麦克信号经过回声消除***进行处理后得到待处理残留回声信号，麦克信号经过回声消除***后，通常会将大部分回声消除掉，但由于设备震动、扬声器过饱和等非线性存在，线性回声消除并不能完全消除回声，故经过回声消除***的待处理残留回声信号为：

e(t)＝s(t)+r_e(t)+n(t)

步骤S202：将待处理残留回声信号的线性部分通过线性回声概率预测模型进行概率预测，得到待处理残留回声信号的线性残留回声概率分布；以及将待处理残留回声信号的非线性部分通过非线性回声概率预测模型进行概率预测，得到待处理残留回声信号的非线性残留回声概率分布。

在本实施例中，将获取的待处理回声信号的线性部分通过线性回声概率预测模型进行概率预测，得到待处理残留回声信号的线性残留回声概率分布，即将待处理残留回声信号中的线性残留回声通过上述线性回声概率预测模型进行概率预测，通过线性回声概率预测模型的参数转化为线性残留回声存在概率，并根据线性残留回声的存在概率对待处理回声信号中的线性残留回声进行预估，根据预估结果确定待处理回声信号中的线性残留回声。

同时，将待处理残留回声信号的非线性部分通过非线性回声概率预测模型进行概率预测，得到待处理残留回声信号的非线性残留回声概率分布，即将待处理残留回声信号中的非线性残留回声通过上述非线性回声概率预测模型进行概率预测，通过非线性回声概率预测模型的参数转化为非线性残留回声存在概率，并根据非线性残留回声的存在概率对待处理回声信号中的非线性残留回声进行预估，根据预估结果确定待处理回声信号中的非线性残留回声。

进一步地，根据预估结果将确定后的待处理回声信号中的线性残留回声和非线性残留回声从待处理回声信号中消除掉，从而得到待处理回声信号中的语音信号。

区别于现有技术的情况，本实施例提供的残留回声概率预测方法，通过残留回声概率预测模型优化后的参数对麦克信号中的残留回声进行消除，而不是将残留回声信号的能量比例看作是固定值，使得消除的残留回声更为准确，最终得到的语音信号更清晰。

请参阅图3，图3是本申请提供的残留回声的消除设备的一实施例的结构示意图。本实施例中的残留回声概率预测模型的训练设备30包括相互耦接的存储器301和处理器302；存储器301用于存储计算机程序；处理器302用于执行计算机程序，以实现如上所述的残留回声概率预测模型的训练方法。

本实施例中的残留回声概率预测模型的训练设备30中的处理器302实现上述功能的具体过程可参阅上述方法实施例。

请参阅图4，图4是本申请提供的残留回声的消除设备的一实施例的结构示意图。本实施例中的残留回声的消除设备40包括相互耦接的存储器401和处理器402；存储器401用于存储计算机程序；处理器402用于执行计算机程序，以实现如上所述的残留回声概率预测方法。

本实施例中的残留回声的消除设备40中的处理器402实现上述功能的具体过程可参阅上述方法实施例。

请参阅图5，图5是本申请提供的具有存储功能的装置的一实施例的结构示意图，本申请还提供具有存储功能的装置50，存储有程序数据51，程序数据51能够被处理器执行以实现上述任一项的方法。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种残留回声概率预测模型的训练方法，其特征在于，所述残留回声概率预测模型包括线性回声概率预测模型以及非线性回声概率模型，所述训练方法包括：

获取到残留回声样本；其中，所述残留回声样本包括线性残留回声以及非线性残留回声；

分别利用所述残留回声样本对所述初始残留回声概率预测模型的初始线性回声概率预测模型以及初始非线性回声概率预测模型进行训练，得到所述线性回声概率预测模型的初始参数以及所述非线性回声概率预测模型的初始参数；

通过设定函数对所述线性回声概率预测模型的初始参数以及所述非线性回声概率预测模型的初始参数进行整合，得到所述线性回声概率预测模型的初始参数以及所述非线性回声概率预测模型的初始参数的优化函数；

计算得到所述优化函数的最优值，并将所述最优值对应的线性回声概率预测模型的当前参数确定为所述线性回声概率预测模型的参数；

将所述最优值对应的非线性回声概率预测模型的当前参数确定为所述非线性回声概率预测模型的参数。

2.根据权利要求1所述的残留回声概率预测模型的训练方法，其特征在于，所述分别利用所述残留回声样本对所述初始残留回声概率预测模型的初始线性回声概率预测模型以及初始非线性回声概率预测模型进行训练，得到所述线性回声概率预测模型的初始参数以及所述非线性回声概率预测模型的初始参数的步骤，包括：

利用所述残留回声样本对所述初始非线性回声概率预测模型进行训练，得到多组参数数据；

对所述多组参数数据计算均值，得到所述非线性回声概率预测模型的初始参数。

3.根据权利要求1或2所述的残留回声概率预测模型的训练方法，其特征在于，所述非线性回声概率预测模型为高斯模型；所述线性回声概率预测模型为拉普拉斯模型。

4.根据权利要求1所述的残留回声概率预测模型的训练方法，其特征在于，所述通过设定函数对所述线性回声概率预测模型的初始参数以及所述非线性回声概率预测模型的初始参数进行整合，得到所述线性回声概率预测模型的初始参数以及所述非线性回声概率预测模型的初始参数的优化函数的步骤，包括：

通过最大似然法则对所述线性回声概率预测模型的初始参数以及所述非线性回声概率预测模型的初始参数进行整合。

5.根据权利要求4所述的残留回声概率预测模型的训练方法，其特征在于，所述计算得到所述优化函数的最优值，并将所述最优值对应的线性回声概率预测模型的当前参数确定为所述线性回声概率预测模型的参数的步骤，包括：

计算得到所述优化函数的最小值，并将所述最小值对应的线性回声概率预测模型的当前参数确定为所述线性回声概率预测模型的参数。

6.根据权利要求1所述的残留回声概率预测模型的训练方法，其特征在于，所述残留回声概率预测模型还包括数据仿真模型，所述获取到残留回声样本的步骤，包括：

通过所述数据仿真模型将近端语音信号、残留回声信号及噪声信号制作形成所述残留回声样本。

7.一种残留回声概率预测方法，其特征在于，所述残留回声概率预测方法基于所述残留回声概率预测模型，所述残留回声概率预测模型包括线性回声概率预测模型以及非线性回声概率模型，残留回声概率预测方法包括：

获取到待处理残留回声信号；

将所述待处理残留回声信号的线性部分通过所述线性回声概率预测模型进行概率预测，得到所述待处理残留回声信号的线性残留回声概率分布；以及

将所述待处理残留回声信号的非线性部分通过所述非线性回声概率预测模型进行概率预测，得到所述待处理残留回声信号的非线性残留回声概率分布；

其中，所述残留回声概率预测模型是通过权利要求1～6任一项所述的训练方法训练得到的。

8.根据权利要求7所述的残留回声概率预测方法，其特征在于，所述残留回声概率预测方法，还包括：

通过所述待处理残留回声信号的线性残留回声概率分布，以及所述非线性残留回声概率分布对所述待处理残留回声信号进行回声预估；

根据预估结果对所述待处理残留回声信号中的残留回声进行消除。

9.一种残留回声概率预测模型的训练设备，其特征在于，包括相互耦接的处理器和存储器，其中，

所述处理器用于执行所述存储器存储的计算机程序以执行权利要求1至6任一项所述的残留回声概率预测模型的训练方法。

10.一种残留回声的消除设备，其特征在于，包括相互耦接的处理器和存储器，其中，

所述处理器用于执行所述存储器存储的计算机程序以执行权利要求7至8任一项所述的残留回声概率预测方法。

11.一种具有存储功能的装置，其特征在于，存储有程序数据，所述程序数据能够被处理器执行以实现如权利要求1-6或7-8任一项所述的方法。