CN111128212A

CN111128212A - 混合语音分离方法及装置

Info

Publication number: CN111128212A
Application number: CN201911252348.9A
Authority: CN
Inventors: 李健; 徐浩; 梁志婷
Original assignee: Miaozhen Information Technology Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-05-08

Abstract

本发明提供了一种混合语音分离方法及装置，该方法包括：通过近端录音设备和远端录音设备分别采集近音轨和远音轨，其中，所述近音轨为包括第一语音和环境噪音的第一混合语音，所述远音轨为包括所述第一语音、第二语音和环境噪音的第二混合语音；对所述近音轨中的第一语音的每段录音的开始时间和结束时间进行标注得到第一标记文件；根据所述第一标记文件对所述远音轨中的混合语音进行分离。在本发明中，通过标记第一语音的开始和结束时间，从而从混合语音中识别第一语音，以分离出第一语音和第二语音，从而提高了在复杂背景音场景下的语音分离效果。

Description

混合语音分离方法及装置

技术领域

本发明涉及语音处理和识别领域，具体而言，涉及一种混合语音分离方法及装置。

背景技术

当前，市面上需要进行语音分离的录音器多用在安静环境，例如汽车内，或者用在背景音规律环境，例如看电视。分离方式多为二维水平摆放或者一维水平摆放，例如，使用2个～6个MIC通过声音的传播速度判断声音的方向与类型(人声、噪音)从而分离出不同方向人的声音(音轨)。

但是，按以上分离方式，在某些复杂环境下，例如，在服务场所中，背景音会变化的场景将导致无法正确的分离出人声(掺杂噪音和环境音)。

发明内容

本发明实施例提供了一种混合语音分离方法及装置，以至少解决相关技术中在背景音会变化的场景下语音分离效果不理想的问题。

根据本发明的一个实施例，提供了一种混合语音分离方法，包括：通过近端录音设备和远端录音设备分别采集近音轨和远音轨，其中，所述近音轨为包括第一语音和环境噪音的第一混合语音，所述远音轨为包括所述第一语音、第二语音和环境噪音的第二混合语音；对所述近音轨中的第一语音的每段录音的开始时间和结束时间进行标注得到第一标记文件；根据所述第一标记文件对所述远音轨中的混合语音进行分离。

可选地，对所述近音轨中的第一语音的每段录音的开始时间和结束时间进行标注得到第一标记文件之前，还包括：通过降噪处理以及基于空间信息对所述近音轨中的第一语音进行增强处理得到所述第一语音。

可选地，对所述近音轨中的第一语音的每段录音的开始时间和结束时间进行标注得到第一标记文件之前，还包括：对所述第一语音进行语音信号处理以判断出所述第一语音的每段录音的开始时间点和结束时间点。

可选地，根据所述第一标记文件对所述远音轨中的第二混合语音进行分离包括：将所述混合语音中与所述第一标记文件中的时间标记相同的语音识别为第一语音，以从所述第二混合语音中切分出所述第一语音和第二语音。

根据本发明的另一个实施例，提供了一种混合语音分离装置，包括：近端录音模块，用于采集近音轨，其中，所述近音轨为包括第一语音和环境噪音的第一混合语音；远端录音模块，用于采集远音轨，其中，所述远音轨为包括所述第一语音、第二语音和环境噪音的第二混合语音；标注模块，用于对所述近音轨中的第一语音的每段录音的开始时间和结束时间进行标注得到第一标记文件；分离模块，用于根据所述第一标记文件对所述远音轨中的混合语音进行分离。

可选地，所述装置还包括：预处理模块，用于通过降噪处理以及基于空间信息对所述近音轨中的第一语音进行增强处理得到所述第一语音。

可选地，所述装置还包括：判断模块，用于对所述第一语音进行语音信号处理以判断出所述第一语音的每段录音的开始时间点和结束时间点。

可选地，所述分离模块包括：识别单元，用于将所述第二混合语音中与所述第一标记文件中的时间标记相同的语音识别为第一语音；切分单元，用于从所述第二混合语音中切分出所述第一语音和第二语音。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

在本发明的上述实施例中，通过标记第一语音的开始和结束时间，从而从混合语音中识别第一语音，以分离出第一和第二语音，从而提高了在复杂背景音场景下的语音分离效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的混合语音分离方法的流程图；

图2是根据本发明实施例的服务场景下的语音分离方法的流程图；

图3是根据本发明实施例的混合语音分离装置的结构框图；

图4是根据本发明可选实施例的混合语音分离装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

在本实施例中提供了一种混合语音分离方法，图1是根据本发明实施例的方法流程图，如图1所示，该流程包括如下步骤：

步骤S102，通过近端录音设备和远端录音设备分别采集近音轨和远音轨，其中，所述近音轨为包括第一语音和环境噪音的第一混合语音，所述远音轨为包括所述第一语音、第二语音和环境噪音的第二混合语音；

步骤S104，对所述近音轨中的第一语音的每段录音的开始时间和结束时间进行标注得到第一标记文件；

步骤S106，根据所述第一标记文件对所述远音轨中的混合语音进行分离。

在本实施例的步骤S104之前，还可以包括：通过降噪处理以及基于空间信息对所述近音轨中的第一语音进行增强处理得到所述第一语音。基于空间信息对所述近音轨中的第一语音进行增强处理，具体地，可以是将近端录音设备设置为定向拾音设备，该定向拾音设备将第一语音的声源方位作为预设的拾音方位；对来源于预设的拾音方位的音频数据进行增强处理，即可得到清晰的第一语音。

在本实施例中，在对远音轨中的混合语音进行分离之前，还通过降噪处理以及基于空间信息对所述远音轨中非环境噪音的语音(未分离的第一语音和第二语音)进行增强处理；处理方式可以与近音轨的处理方式相同。

在本实施例中，对所述近音轨中的第一语音的每段录音的开始时间和结束时间进行标注得到第一标记文件之前，还可以包括：对所述第一语音进行语音信号处理以判断出所述第一语音的每段录音的开始时间点和结束时间点。

在本实施例中，对所述第一语音进行语音信号处理，具体可以是对第一语音进行语音端点检测；第一语音可能是若干个非连续的语音片段，通过语音端点检测可以标注出每个语音片段的起始端点和结束端点，对应地，即可确定第一语音中每个语音片段的开始时间点和结束时间点。

此外，还对远音轨中非环境噪音的语音(未分离的第一语音和第二语音)进行语音端点检测，标注远音轨中非环境噪音的语音(未分离的第一语音和第二语音)中的每个语音片段的开始时间点和结束时间点。

在实施例的步骤S106中，将所述混合语音中与所述第一标记文件中的时间标记相同的语音识别为第一语音，以从所述第二混合语音中切分出所述第一语音和第二语音。

根据第一语音中每个语音片段的开始时间点和结束时间点，以及远音轨中非环境噪音的语音(未分离的第一语音和第二语音)中的每个语音片段的开始时间点和结束时间点；可以确定远音轨中非环境噪音的语音中的哪些语音片段为第一语音，区分出第一语音后，则剩下的语音片段为第二语音。

为了便于对本发明所提供的技术方案的理解，下面将结合具体场景的实施例进行描述。

本实施例提供了一种混合语音分离方法。该方法可以应用于多种服务场景中。例如，一对一的服务场景，即，服务时一问一答录音。或一对多的服务场景，即，服务时一问多答录音。下面以服务场所中分离服务员和顾客的语音为例。

如图2所示，本实施例的方法主要包括如下步骤：

步骤S201，在服务员嘴边设置近端采集单元(第一MIC)采集近音轨，其中近音轨为包括环境噪音、服务员语音的混合音频，通过降噪处理，以及基于空间信息对服务员的语音进行增强处理，可得到服务员的语音。

步骤S202，在服务员正前方设置远端采集单元(第二MIC)采集远音轨。例如，可以以工牌的形式将第二MIC佩戴在服务员胸前。

步骤S203，第一MIC和第二MIC同时录音，并分别标记录音时间。

步骤S204，通过例如VAD技术对第一MIC采集的语音信号进行处理，判断服务员讲话开始时间点与结束时间点，并对第一MIC采集的语音信号中的各个语音片段添加开始时间点与结束时间点的标记，得到第一标记文件。

步骤S205，根据第一标记文件，对远音轨中的混合语音进行分离，将与第一标记文件中的时间标记相同的语音识别为服务员语音，从而切分出顾客的语音。

在本实施例中，通过所标注的录音时间，可以得知服务员的讲话时间，进而推断其它的时候是顾客在讲话，从而实现服务员和顾客的语音分离。

本实施例所提供的语音分离技术方案实现简单，在背景音复杂的服务场景区分服务员讲话更容易，录音器的功耗更低(算法简单)省电，节省存储空间，可以直接切分，应用场景明确，混合讲话就直接丢弃，从硬件端过滤掉无效音频，节省识别算力，例如，顾客讲话结束，服务员没有讲话，就是无效录音。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种混合语音分离装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”或“单元”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的混合语音分离装置的结构框图，如图3所示，该装置包括近端录音模块10、远端录音模块20、标注模块30和分离模块40。

近端录音模块10，用于采集近音轨，其中，所述近音轨为包括第一语音和环境噪音的第一混合语音。

远端录音模块20，用于采集远音轨，其中，所述远音轨为包括所述第一语音、第二语音和环境噪音的第二混合语音。

标注模块30，用于对所述近音轨中的第一语音的每段录音的开始时间和结束时间进行标注得到第一标记文件。

分离模块40，用于根据所述第一标记文件对所述远音轨中的混合语音进行分离。

图4是根据本发明可选实施例的混合语音分离装置的结构框图，如图4所示，该装置除包括图3所示的所有模块外，还可以包括预处理模块50和判断模块60。

预处理模块50，用于通过降噪处理以及基于空间信息对所述近音轨中的第一语音进行增强处理得到所述第一语音。

判断模块60，用于对所述第一语音进行语音信号处理以判断出所述第一语音的每段录音的开始时间点和结束时间点。

在本实施例中，分离模块40还可以包括识别单元41和切分单元42。

识别单元41，用于将所述第二混合语音中与所述第一标记文件中的时间标记相同的语音识别为第一语音。

切分单元42，用于从所述第二混合语音中切分出所述第一语音和第二语音。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种混合语音分离方法，其特征在于，包括：

通过近端录音设备和远端录音设备分别采集近音轨和远音轨，其中，所述近音轨为包括第一语音和环境噪音的第一混合语音，所述远音轨为包括所述第一语音、第二语音和环境噪音的第二混合语音；

对所述近音轨中的第一语音的每段录音的开始时间和结束时间进行标注得到第一标记文件；

根据所述第一标记文件对所述远音轨中的混合语音进行分离。

2.根据权利要求1所述的方法，其特征在于，对所述近音轨中的第一语音的每段录音的开始时间和结束时间进行标注得到第一标记文件之前，还包括：

通过降噪处理以及基于空间信息对所述近音轨中的第一语音进行增强处理得到所述第一语音。

3.根据权利要求2所述的方法，其特征在于，对所述近音轨中的第一语音的每段录音的开始时间和结束时间进行标注得到第一标记文件之前，还包括：

对所述第一语音进行语音信号处理以判断出所述第一语音的每段录音的开始时间点和结束时间点。

4.根据权利要求3所述的方法，其特征在于，根据所述第一标记文件对所述远音轨中的第二混合语音进行分离包括：

将所述第二混合语音中与所述第一标记文件中的时间标记相同的语音识别为第一语音，从所述第二混合语音中切分出所述第一语音和第二语音。

5.一种混合语音分离装置，其特征在于，包括：

近端录音模块，用于采集近音轨，其中，所述近音轨为包括第一语音和环境噪音的第一混合语音；

远端录音模块，用于采集远音轨，其中，所述远音轨为包括所述第一语音、第二语音和环境噪音的第二混合语音；

标注模块，用于对所述近音轨中的第一语音的每段录音的开始时间和结束时间进行标注得到第一标记文件；

分离模块，用于根据所述第一标记文件对所述远音轨中的混合语音进行分离。

6.根据权利要求5所述的装置，其特征在于，还包括：

预处理模块，用于通过降噪处理以及基于空间信息对所述近音轨中的第一语音进行增强处理得到所述第一语音。

7.根据权利要求6所述的装置，其特征在于，还包括：

判断模块，用于对所述第一语音进行语音信号处理以判断出所述第一语音的每段录音的开始时间点和结束时间点。

8.根据权利要求7所述的装置，其特征在于，所述分离模块包括：

识别单元，用于将所述第二混合语音中与所述第一标记文件中的时间标记相同的语音识别为第一语音；

切分单元，用于从所述第二混合语音中切分出所述第一语音和第二语音。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。