CN110944089A

CN110944089A - 双讲检测方法及电子设备

Info

Publication number: CN110944089A
Application number: CN201911064792.8A
Authority: CN
Inventors: 宋钦梅; 方华; 屈跃强; 周骏华; 程宝平
Original assignee: Zhongchang (hangzhou) Information Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Zhongchang (hangzhou) Information Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2020-03-31

Abstract

本发明实施例涉及数据处理技术领域，公开了一种双讲检测方法及电子设备。本发明实施例中，双讲检测方法，包括：从设备的回声模块中获取初始语音信号；对所述初始语音信号进行预设信号处理得到语音处理信号；从所述语音处理信号中提取特征参数；将所述特征参数输入预设的深度学习双讲检测模型并得到双讲检测结果。本发明实施例适用于各种语音通话环境，大大提高双讲检测的准确性，从而提高回声消除算法的性能，提高了语音质量。

Description

双讲检测方法及电子设备

技术领域

本发明实施例涉及数据处理技术领域，特别涉及一种双讲检测方法及电子设备。

背景技术

在因特网上进行语音的实时传输已经应用广泛，影响因特网语音质量的关键的因素之一是回声的影响，因此，要提高因特网的语音质量，就必须在因特网的语音传输过程中进行回声处理。其中，检测回声消除算法的一个关键指标是双讲检测的准确率，如果在回声消除算法中双讲检测不准，那么就会出现语音断续、沟通不畅等情况，这将大大降低语音通话质量；因此，在回声消除处理中，双讲检测对于语音质量至关重要。

目前，双讲检测大多是基于传统时/频域计算来实现的，即通过远端语音与近端语音的互相关系数、频谱计算等思想来进行双讲检测计算的。然而，发明人发现现有技术中至少存在如下问题：由于网络电话(VOIP)语音通信中，回声产生的原因比较复杂，具有回声源复杂，回声路径延迟大，通话场景多变，通话设备类型多变等特点，而传统的双讲检测算法迭代的因子和采用的参数基本是固定的，因此具有局限性，无法随着说话语境/场景的变换进行有效的调整。

发明内容

本发明实施方式的目的在于提供一种双讲检测方法及电子设备，使得适用于各种语音通话环境，大大提高双讲检测的准确性，从而提高回声消除算法的性能，提高了语音质量。

为解决上述技术问题，本发明的实施方式提供了一种双讲检测方法，包括：从设备的回声模块中获取初始语音信号；对所述初始语音信号进行预设信号处理得到语音处理信号；从所述语音处理信号中提取特征参数；将所述特征参数输入预设的深度学习双讲检测模型并得到双讲检测结果。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的双讲检测方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的双讲检测方法。

本发明实施方式相对于现有技术而言，提供了一种双讲检测方法，该方法包括从设备的回声模块中获取初始语音信号；对初始语音信号进行预设信号处理得到语音处理信号；从语音处理信号中提取特征参数；将特征参数输入预设的深度学习双讲检测模型并得到双讲检测结果；即本发明实施例采用机器学习的方式预先搭建深度学习双讲检测模型，对不同通话场景下的双讲检测进行学习训练，从而很好的解决了传统双讲检测算法对于不同通话场景的局限性问题，本发明实施例适用于各种语音通话环境，大大提高双讲检测的准确性，从而提高回声消除算法的性能，提高了语音质量。

另外，对初始语音信号进行预设信号处理得到语音处理信号，包括：对所述初始语音信号进行预处理得到第一语音处理信号；对所述第一语音处理信号进行时频转换得到第二语音处理信号；本实施例中，提供了对初始语音信号的一种预设信号处理方式。

另外，对所述初始语音信号进行预处理得到第一语音处理信号，包括：对所述初始语音信号进行分帧、加窗以及去直流操作得到所述第一语音处理信号。本实施例中，提供了预处理的一种具体实现方式。

另外，所述预设的双讲检测模型的生成方法包括：从设备的回声模块中获取初始语音信号；对所述初始语音信号进行预设信号处理得到语音处理信号；从所述语音处理信号中提取特征参数；根据预设双讲检测方法搭建深度学习双讲检测模型；将所述特征参数输入所述深度学习双讲检测模型进行训练以得到经训练后所述深度学习双讲检测模型。本实施例中，提供了双讲检测模型的一种具体生成方法。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据第一实施方式的双讲检测方法的具体流程图；

图2是根据第二实施方式的双讲检测方法的具体流程图；

图3是根据第三实施方式的双讲检测方法的具体流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种双讲检测方法，如图1所示，双讲检测方法包括：

步骤101，从设备的回声模块中获取初始语音信号。

本实施方式中，初始语音信号包括近端语音信号与远端语音信号。例如A用户与B用户语音通话，从A用户的移动终端的角度来讲，A用户发出的语音信号即为近端语音信号，B用户发出的语音信号即为远端语音信号。

在一个例子中，电子设备以手机为例，当检测到A用户与B用户在即时通信类的应用程序例如微信上进行语音通话，那么A用户的手机就从微信的回声模块中获取A用户与B用户之间通话的语音信号，即为初始语音信号；然这里只是示例性说明，实际中不限于此。

步骤102，对初始语音信号进行预设信号处理得到语音处理信号。

步骤103，从语音处理信号中提取预设的特征参数。

本实施方式中，预设的特征参数至少包括近端语音信号与远端语音信号的互相关系数、远端语音的语音活动检测值、近端语音信号和线性回声处理后的回声残留信号的互相关系数；然实际中不限于此，本实施例对特征参数的类型不作任何限制。

步骤104，将特征参数输入预设的深度学习双讲检测模型并得到双讲检测结果。

在一个例子中，双讲检测结果可以为表征单通或双通的双讲检测标志。例如当检测出来为单通时，以预先设定的表征单通的双讲检测标志0表示；当检测出来为双通时，以预先设定的表征双通的双讲检测标志1表示；然这里只是示例性说明，本实施例对双讲检测标志的类型不作任何限制。

本发明的实施例相对于现有技术而言，本发明实施方式相对于现有技术而言，提供了一种双讲检测方法，该方法包括从设备的回声模块中获取初始语音信号；对初始语音信号进行预设信号处理得到语音处理信号；从语音处理信号中提取特征参数；将特征参数输入预设的深度学习双讲检测模型并得到双讲检测结果；即本发明实施例采用机器学习的方式预先搭建深度学习双讲检测模型，对不同通话场景下的双讲检测进行学习训练，从而很好的解决了传统双讲检测算法对于不同通话场景的局限性问题，本发明实施例适用于各种语音通话环境，可大大提高双讲检测的准确性，从而提高回声消除算法的性能，提高语音质量。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明的第二实施方式涉及一种双讲检测方法。第二实施方式在第一实施方式的基础上进行改进，主要改进之处在于：在本发明第二实施方式中，提供了对初始语音信号的一种预设信号处理方式。

本实施方式的双讲检测方法如图2所示，本实施方式的201、203-204与第一实施方式中的101、103-104对应相同，在此不再赘述，本实施例的202如下：

子步骤2021，对初始语音信号进行预处理得到第一语音处理信号。

在一个例子中，预处理包括：对初始语音信号进行分帧、加窗以及去直流操作得到第一语音处理信号；然这里只是示例性说明，实际中不限于此。

子步骤2022，对第一语音处理信号进行时频转换得到第二语音处理信号。

在一个例子中，对第一语音处理信号通过傅里叶变换进行时频转换得到第二语音处理信号；然实际中不限于此，本实施例还可以通过其他方式进行时域信号到频域信号的转换。

本发明的实施例相对于第一实施方式而言，提供了对初始语音信号的一种预设信号处理方式，即对初始语音信号进行预处理得到第一语音处理信号，对第一语音处理信号进行时频转换得到第二语音处理信号。

本发明的第三实施方式涉及一种双讲检测方法，第三实施方式在第二实施方式的基础上进行改进，主要改进之处在于：在本发明第三实施方式中，提供了预设的双讲检测模型的一种生成方法。

本实施方式中，预设的双讲检测模型的生成方法包括：

步骤301，从设备的回声模块中获取初始语音信号。

步骤302，对初始语音信号进行预设信号处理得到语音处理信号。

在一个例子中，预设信号处理的方式可以采用第二实施方式中的方式，在此不再赘述。

步骤303，从语音处理信号中提取预设的特征参数。

本实施方式中，预设的特征参数至少包括近端语音信号与远端语音信号的互相关系数、远端语音的语音活动检测值、近端语音信号和线性回声处理后的回声残留信号的互相关系数；然实际中不限于此，本实施例对特征参数的类型不作任何限制，可以根据实际需要设置。

步骤304，根据预设双讲检测方法搭建深度学习双讲检测模型。

在一个例子中，基于现有的近端语音信号与远端语音信号的互相关系数的双讲检测方法搭建深度学习双讲检测模型；具体而言，双讲检测的方法包括：近端信号input_near，远端信号input_far,(1)计算input_far的语音活动检测值vad_flag，vad_flag＝1表示远端有语音，vad_flag＝0表示远端无语音。(2)计算input_far和input_near的互相关值corr；corr数值小，代近端有语音的概率大；corr数值大，代表近端有语音的概率小。(3)根据(1)和(2)的计算结果，进行判断若vad_flag＝1，且corr小，那么是双讲状态；若vad_flag＝0，那么是只有近端通话的单通状态；若vad_flag＝1，且corr大，那么是只有远端通话的单通状态。然这里只是示例性说明，实际中不限于此，还可以采用其他预设的双讲检测方法搭建深度学习双讲检测模型。

步骤305，将特征参数输入深度学习双讲检测模型进行训练以得到经训练后深度学习双讲检测模型。

实际上，本实施例也可以为在第一实施方式的基础上的改进方案。

本实施方式相对于第二实施方式而言，提供了双讲检测模型的一种生成方法，即从设备的回声模块中获取初始语音信号，对初始语音信号进行预设信号处理得到语音处理信号，从语音处理信号中提取预设的特征参数，根据预设双讲检测方法搭建深度学习双讲检测模型。

本发明第四实施方式涉及一种电子设备，包括至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一至第三实施方式中任一实施方式中的的双讲检测方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，***接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明的实施方式相对于现有技术而言，提供了一种双讲检测方法，该方法包括从设备的回声模块中获取初始语音信号；对初始语音信号进行预设信号处理得到语音处理信号；从语音处理信号中提取特征参数；将特征参数输入预设的深度学习双讲检测模型并得到双讲检测结果；即本发明实施例采用机器学习的方式预先搭建深度学习双讲检测模型，对不同通话场景下的双讲检测进行学习训练，从而很好的解决了传统双讲检测算法对于不同通话场景的局限性问题，本发明实施例适用于各种语音通话环境，可大大提高双讲检测的准确性，从而提高回声消除算法的性能，提高语音质量。

本发明第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现第一至第三实施方式中任一实施方式中的的双讲检测方法。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种双讲检测方法，其特征在于，包括：

从设备的回声模块中获取初始语音信号；

对所述初始语音信号进行预设信号处理得到语音处理信号；

从所述语音处理信号中预设的特征参数；

将所述特征参数输入预设的深度学习双讲检测模型并得到双讲检测结果。

2.根据权利要求1所述的双讲检测方法，其特征在于，所述对所述初始语音信号进行预设信号处理得到语音处理信号，包括：

对所述初始语音信号进行预处理得到第一语音处理信号；

对所述第一语音处理信号进行时频转换得到第二语音处理信号。

3.根据权利要求2所述的双讲检测方法，其特征在于，所述对所述初始语音信号进行预处理得到第一语音处理信号，包括：

对所述初始语音信号进行分帧、加窗以及去直流操作得到所述第一语音处理信号。

4.根据权利要求2所述的双讲检测方法，其特征在于，所述对所述第一语音处理信号进行时频转换得到第二语音处理信号，为：

对所述第一语音处理信号通过傅里叶变换进行时频转换得到第二语音处理信号。

5.根据权利要求1所述的双讲检测方法，其特征在于，所述初始语音信号包括近端语音信号和远端语音信号；所述特征参数至少包括近端语音信号与远端语音信号的互相关系数、远端语音的语音活动检测值、近端语音信号和线性回声处理后的回声残留信号的互相关系数。

6.根据权利要求1所述的双讲检测方法，其特征在于，所述预设的双讲检测模型的生成方法包括：

从设备的回声模块中获取初始语音信号；

对所述初始语音信号进行预设信号处理得到语音处理信号；

从所述语音处理信号中提取预设的特征参数；

根据预设双讲检测方法搭建深度学习双讲检测模型；

将所述特征参数输入所述深度学习双讲检测模型进行训练以得到经训练后所述深度学习双讲检测模型。

7.根据权利要求1所时述的双讲检测方法，其特征在于，所述双讲检测结果为表征单通或双通的双讲检测标志。

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的双讲检测方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的双讲检测方法。