CN115862676A

CN115862676A - 基于深度学习的语音叠音检测方法、装置和计算机设备

Info

Publication number: CN115862676A
Application number: CN202310151526.9A
Authority: CN
Inventors: 黄文琦; 林全郴; 冯勤宇; 梁凌宇; 赵翔宇; 姚森敬
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-03-28

Abstract

本申请涉及一种基于深度学习的语音叠音检测方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取待识别语音信号，对待识别语音信号进行语音特征提取，得到待识别语音信号中各音帧对应的语音特征；对于任一音帧，将该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征输入至预训练的神经网络概率模型，得到该音帧对应的音帧类别概率向量；根据各音帧对应的音帧类别概率向量，确定待识别语音信号对应的待识别序列；根据待识别序列，确定待识别语音信号中的叠音段。采用本方法能够准确识别语音中的重叠语音段。

Description

基于深度学习的语音叠音检测方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于深度学习的语音叠音检测方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，各种各样的语音识别技术层出不穷。在进行语音识别时，常常需要对语音数据进行分析处理，从而得到准确的语音识别结果。

目前，在对真实生活场景中的说话人进行语言文字信息的识别时，常常由于同一时间段中存在两个或两个以上说话人同时说话的情况，例如日常的会议、对话和讨论，使得对主要说话人的语言文字信息识别存在较大困难，即目前的语言文字信息识别常常受到重叠语音段的干扰。然而，目前对于重叠语音段的检测方法常常无法准确地检测出真实对话语音段中的重叠语音段，使得后续对重叠语音段的数据处理结果不够准确，进而影响对语音段中语言文字信息的识别效果。

因此，传统技术中存在对语音段中重叠语音段的识别不够准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够准确识别重叠语音段的语音的基于深度学习的语音叠音检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

一种基于深度学习的语音叠音检测方法，其特征在于，方法包括：

获取待识别语音信号，对待识别语音信号进行语音特征提取，得到待识别语音信号中各音帧对应的语音特征；

对于任一音帧，将该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征输入至预训练的神经网络概率模型，得到该音帧对应的音帧类别概率向量；目标音帧包括在该音帧之前的预设数量音帧和在该音帧之后的预设数量音帧；音帧类别概率向量表征该音帧为叠音帧的概率信息和该音帧为非叠音帧的概率信息；

根据各音帧对应的音帧类别概率向量，确定待识别语音信号对应的待识别序列；待识别序列中的各元素用于表征相应的音帧为叠音帧或非叠音帧；

根据待识别序列，确定待识别语音信号中的叠音段。

在其中一个实施例中，对待识别语音信号进行语音特征提取，得到待识别语音信号中各音帧对应的语音特征，包括：

对待识别语音信号进行预加重处理，得到处理后语音信号；

对处理后语音信号进行分帧处理，得到待识别语音信号对应的各个音帧；

对各音帧对应的数据进行加窗处理，得到待识别语音信号中各音帧对应的语音数据；

对各音帧对应的语音数据进行傅里叶变换，得到各音帧对应的变换后语音数据；

对各音帧对应的变换后语音数据进行梅尔滤波，得到各音帧对应的滤波后语音数据；

将各音帧对应的滤波后语音数据进行对数运算，得到各音帧对应的转换后语音数据；

将各音帧对应的转换后语音数据进行离散余弦变换，得到各音帧对应的语音特征。

在其中一个实施例中，将该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征输入至预训练的神经网络概率模型，得到该音帧对应的音帧类别概率向量，包括：

根据该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征，确定该音帧对应的语音特征向量；

将该音帧对应的语音特征向量输入至预训练的神经网络概率模型，得到该音帧为叠音帧的概率信息和该音帧为非叠音帧的概率信息；

根据该音帧为叠音帧的概率信息和该音帧为非叠音帧的概率信息，确定该音帧对应的音帧类别概率向量。

在其中一个实施例中，根据各音帧对应的音帧类别概率向量，确定待识别语音信号对应的待识别序列，包括：

根据各音帧对应的音帧类别概率向量，生成待识别语音信号对应的音帧类别概率矩阵；

获取转移概率矩阵，根据音帧类别概率矩阵和转移概率矩阵，确定待识别语音信号中各音帧对应的音帧类别；

根据待识别语音信号中各音帧对应的音帧类别，生成待识别语音信号对应的待识别序列。

在其中一个实施例中，根据待识别序列，确定待识别语音信号中的叠音段，包括：

根据待识别序列，确定待识别语音信号的叠音段起点位置，以及，根据待识别序列，确定待识别语音信号的叠音段尾点位置；

根据叠音段起点位置和叠音段尾点位置，确定待识别语音信号中的叠音段。

在其中一个实施例中，根据待识别序列，确定待识别语音信号的叠音段起点位置，包括：

针对待识别序列中的任一叠音帧，确定在任一叠音帧之后的连续叠音帧；

在连续叠音帧的帧数量大于预设值的情况下，则确定任一叠音帧为起点叠音帧；

根据起点叠音帧，确定待识别语音信号的叠音段起点位置。

在其中一个实施例中，根据待识别序列，确定待识别语音信号的叠音段尾点位置，包括：

针对待识别序列中的任一非叠音帧，确定在任一非叠音帧之后的连续非叠音帧；

在连续非叠音帧的帧数量大于预设值的情况下，则确定任一非叠音帧为尾点叠音帧；

根据尾点叠音帧，确定待识别语音信号的叠音段尾点位置。

一种基于深度学习的语音叠音检测装置，其特征在于，装置包括：

提取模块，用于获取待识别语音信号，对待识别语音信号进行语音特征提取，得到待识别语音信号中各音帧对应的语音特征；

预测模块，用于对于任一音帧，将该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征输入至预训练的神经网络概率模型，得到该音帧对应的音帧类别概率向量；目标音帧包括在该音帧之前的预设数量音帧和在该音帧之后的预设数量音帧；音帧类别概率向量的元素表征该音帧为叠音帧的概率信息和该音帧为有效音帧的概率信息；

确定模块，用于根据各音帧对应的音帧类别概率向量，确定待识别语音信号对应的待识别序列；待识别序列中的各元素用于表征相应的音帧为叠音帧或有效音帧；

识别模块，用于根据待识别序列，确定待识别语音信号中的叠音段。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，其特征在于，处理器执行计算机程序时实现上述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现上述的方法的步骤。

上述基于深度学习的语音叠音检测方法、装置、计算机设备、存储介质和计算机程序产品，通过获取待识别语音信号，对待识别语音信号进行语音特征提取，得到待识别语音信号中各音帧对应的语音特征；对于任一音帧，将该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征输入至预训练的神经网络概率模型，得到该音帧对应的音帧类别概率向量；目标音帧包括在该音帧之前的预设数量音帧和在该音帧之后的预设数量音帧；音帧类别概率向量表征该音帧为叠音帧的概率信息和该音帧为非叠音帧的概率信息；根据各音帧对应的音帧类别概率向量，确定待识别语音信号对应的待识别序列；待识别序列中的各元素用于表征相应的音帧为叠音帧或非叠音帧；根据待识别序列，确定待识别语音信号中的叠音段；如此，可以将待识别语音信号转换为适用于进行语音特征提取的各个音帧数据，并且根据各个音帧数据，确定各个音帧为叠音帧的概率和为非叠音帧的概率，能够准确确定各个音帧的类别，进而准确地识别出待识别语音信号的叠音段的起点叠音帧和尾点叠音帧，有利于提高对待识别信号中的叠音段的识别效率。

附图说明

图1为一个实施例中一种基于深度学习的语音叠音检测方法的应用环境图；

图2为一个实施例中一种基于深度学习的语音叠音检测方法的流程示意图；

图3为一个实施例中一种基于深度学习的语音叠音检测方法的流程图；

图4为另一个实施例中一种语音叠音检测方法的流程示意图；

图5为一个实施例中一种基于深度学习的语音叠音检测装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的基于深度学***板电脑、物联网设备和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于深度学习的语音叠音检测方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤S202，获取待识别语音信号，对待识别语音信号进行语音特征提取，得到待识别语音信号中各音帧对应的语音特征。

其中，语音特征提取模型可以是用于提取语音信号的声学特征的模型。

具体实现中，服务器获取待识别语音信号，并对待识别语音信号进行语音特征提取，服务器得到待识别语音信号中各个音帧对应的语音特征向量。

例如，服务器使用MFCC特征提取模型对待语音信号进行语音特征提取，得到待语音信号中每一音帧对应的40维MFCC语音特征向量。

步骤S204，对于任一音帧，将该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征输入至预训练的神经网络概率模型，得到该音帧对应的音帧类别概率向量；目标音帧包括在该音帧之前的预设数量音帧和在该音帧之后的预设数量音帧；音帧类别概率向量表征该音帧为叠音帧的概率信息和该音帧为非叠音帧的概率信息。

其中，神经网络概率模型可以是用于确定音帧为叠音帧的概率和音帧为非叠音帧的概率模型。例如，神经网络概率模型可以是用于确定音帧为叠音帧的概率和音帧为非叠音帧的概率的DNN神经网络模型（一种深度学习框架，为具备至少一个隐层的神经网络）。

具体实现中，服务器将每一音帧对应的语音特征联合其前后数帧的语音特征作为输入向量，输入至预训练的神经网络概率模型，得到每一音帧对应的音帧类别概率向量，即通过神经网络概率模型确定每一音帧为叠音帧的概率和为非叠音帧的概率，并生成对应的概率向量，该概率向量即为音帧类别概率向量。

例如，在采用DNN神经网络模型确定音帧为叠音帧的概率和音帧为非叠音帧的概率时，将音帧对应的语音特征先后输入DNN神经网络模型的输入层、隐含层和输出层，使得音帧对应的语音特征与叠音帧和非叠音帧之间建立复杂的映射关系。当将每一音帧对应的语音特征及其前后数帧的语音特征作为输入向量输入至DNN神经网络模型时，该DNN神经网络模型可以输出每一音帧为叠音帧的概率和非叠音帧的概率，并以二维向量的形式进行存储。

步骤S206，根据各音帧对应的音帧类别概率向量，确定待识别语音信号对应的待识别序列；待识别序列中的各元素用于表征相应的音帧为叠音帧或非叠音帧。

其中，待识别序列可以是待识别语音信号中的各音帧对应的类别构成的序列。例如，待识别序列可以是

其中，0代表音帧为非叠音帧，1代表音帧为叠音帧，该待识别序列表示音帧1、音帧5、音帧6、音帧7为非叠音帧，音帧2、音帧3、音帧4为叠音帧。

具体实现中，服务器根据各音帧对应的音帧类别概率向量，确定各音帧的类别识别结果，并将各音帧对应的类别识别结果生成待识别序列。

步骤S208，根据待识别序列，确定待识别语音信号中的叠音段。

其中，叠音段识别模型可以是用于识别语音信号中的叠音段的模型。

具体实现中，服务器根据待识别序列，确定待识别语音信号中的叠音段。

为了便于本领域技术人员的理解，图3示例性地提供了一种基于深度学习的语音叠音检测方法流程图，其中，服务器将获取到的语音信号进行语音特征提取，并将语音特征提取后的数据输入至神经网络概率计算模型，得到语音信号各语音帧的类别识别结果，服务器针对各语音帧的类别识别结果生成待识别语音序列。服务器再对该待识别语音序列进行叠音段起点检测，若检测到叠音段起点，则继续检测叠音段尾点，在检测叠音段尾点时，判断当前的非叠音帧后的连续非叠音帧数量是否大于预设阈值，在当前的非叠音帧后的连续非叠音帧数量大于预设阈值的情况下，确定当前的非叠音帧为叠音段尾点；若未检测到叠音段起点，则判断当前的叠音帧后的连续叠音帧数量是否大于预设阈值，在当前的叠音帧后的连续叠音帧数量大于预设阈值的情况下，确定当前的叠音帧为叠音段起点，再继续检测叠音段尾点。

上述基于深度学习的语音叠音检测方法、装置、计算机设备、存储介质和计算机程序产品，通过获取待识别语音信号，将待识别语音信号输入至预训练的语音特征提取模型，得到待识别语音信号中各音帧对应的语音特征；对于任一音帧，将该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征输入至预训练的神经网络概率模型，得到该音帧对应的音帧类别概率向量；目标音帧包括在该音帧之前的预设数量音帧和在该音帧之后的预设数量音帧；音帧类别概率向量表征该音帧为叠音帧的概率信息和该音帧为非叠音帧的概率信息；根据各音帧对应的音帧类别概率向量，确定待识别语音信号对应的待识别序列；待识别序列中的各元素用于表征相应的音帧为叠音帧或非叠音帧；根据待识别序列，确定待识别语音信号中的叠音段；如此，可以将待识别语音信号转换为适用于进行语音特征提取的各个音帧数据，并且根据各个音帧数据，确定各个音帧为叠音帧的概率和为非叠音帧的概率，能够准确确定各个音帧的类别，进而准确地识别出待识别语音信号的叠音段的起点叠音帧和尾点叠音帧，有利于提高对待识别信号中的叠音段的识别效率。

在另一个实施例中，对待识别语音信号进行语音特征提取，得到待识别语音信号中各音帧对应的语音特征，包括：对待识别语音信号进行预加重处理，得到处理后语音信号；对处理后语音信号进行分帧处理，得到待识别语音信号对应的各个音帧；对各音帧对应的数据进行加窗处理，得到待识别语音信号中各音帧对应的语音数据；对各音帧对应的语音数据进行傅里叶变换，得到各音帧对应的变换后语音数据；对各音帧对应的变换后语音数据进行梅尔滤波，得到各音帧对应的滤波后语音数据；将各音帧对应的滤波后语音数据进行对数运算，得到各音帧对应的转换后语音数据；将各音帧对应的转换后语音数据进行离散余弦变换，得到各音帧对应的语音特征。

具体实现中，服务器对待识别语音信号进行预加重处理，即对待识别语音信号中的信号高频分量进行补偿，得到处理后语音信号，服务器对处理后语音信号进行分帧处理，将待识别语音分为多个小段，每一小段作为一个音帧，即得到待识别语音信号对应的各个音帧，服务器再对各个音帧对应的数据进行加窗处理，得到各个音帧对应的适用于进行傅里叶变换的语音数据，服务器对各个音帧对应的语音数据进行傅里叶变换，将各个音帧对应的语音数据从时域变换成时频域，得到各个音帧对应的变换后语音数据，服务器对各个音帧对应的变换后语音数据进行梅尔滤波，得到各个音帧对应的滤波器组，即得到各个音帧对应的滤波后语音数据，服务器将各个音帧对应的滤波器组进行对数运算，得到对数梅尔滤波器组，即得到各个音帧对应的转换后语音数据，服务器将各个音帧对应的转换后语音数据进行离散余弦变换，得到各个音帧对应的语音特征向量。

例如，在使用梅尔频率倒谱系数（MFCC）作为声学特征对待识别语音信号进行语音特征提取时，服务器将待识别语音信号依次进行预加重处理、分帧处理和加窗处理，得到各音帧对应的适用于进行傅里叶变换的语音数据，服务器再将各音帧对应的语音数据依次进行快速傅里叶变化处理、梅尔滤波处理、对数运算处理和离散余弦变换处理，得到各音帧对应的40维MFCC语音特征向量。

本实施例的技术方案，通过将待识别语音信号进行预加重处理、分帧处理和加窗处理，得到待识别语音信号中各音帧对应的语音数据，再将各音帧对应的语音数据依次进行傅里叶变换处理、梅尔滤波处理、对数预算处理和离散余弦变换处理，从而得到各个音帧对应的语音特征，确定各音帧对应的语音特征向量，能够得到较为准确的各个音帧对应的语音特征数据，有利于后续对各音帧的类别进行准确识别，能够提高对语音中重叠语音段的识别效率。

在另一个实施例中，将该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征输入至预训练的神经网络概率模型，得到该音帧对应的音帧类别概率向量，包括：根据该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征，确定该音帧对应的语音特征向量；将该音帧对应的语音特征向量输入至预训练的神经网络概率模型，得到该音帧为叠音帧的概率信息和该音帧为非叠音帧的概率信息；根据该音帧为叠音帧的概率信息和该音帧为非叠音帧的概率信息，确定该音帧对应的音帧类别概率向量。

具体实现中，服务器将每一音帧对应的语音特征联合其前后数帧的语音特征作为每一帧对应的语音特征向量，服务器将每一帧对应的语音特征向量输入至预训练的神经网络概率模型，该神经网络概率模型执行二分类任务，得到每一音帧为叠音帧的概率和每一音帧为非叠音帧的概率，服务器将每一音帧为叠音帧的概率和每一音帧为非叠音帧的概率生成概率向量，该概率向量即为音帧类别概率向量。

本实施例的技术方案，通过将待识别语音信号中各音帧对应的语音特征向量输入至预训练的神经网络概率模型，确定各音帧为叠音帧的概率信号和为非叠音帧的概率信息，从而确定该音帧对应的音帧类别概率向量，有利于准确识别各音帧的类别，提高对语音中的重叠语音段识别效率。

在另一个实施例中，根据各音帧对应的音帧类别概率向量，确定待识别语音信号对应的待识别序列，包括：根据各音帧对应的音帧类别概率向量，生成待识别语音信号对应的音帧类别概率矩阵；获取转移概率矩阵，根据音帧类别概率矩阵和转移概率矩阵，确定待识别语音信号中各音帧对应的音帧类别；根据待识别语音信号中各音帧对应的音帧类别，生成待识别语音信号对应的待识别序列。

其中，音帧类别概率矩阵可以是由各音帧对应的音帧类别概率向量组成的概率矩阵。例如，音帧类别概率矩阵可以是

其中，待识别语音信号的第i帧对应的音帧类别概率向量为

，其中，/>

为叠音帧的概率，/>

为非叠音帧的概率。

其中，转移概率矩阵可以是确定音帧从叠音帧跳转到非叠音帧的概率以及音帧从非叠音帧跳转到叠音帧的概率对应的矩阵。

具体实现中，服务器根据各音帧对应的音帧类别概率向量，并依据各音帧对应的时间先后顺序，生成待识别语音信号对应的音帧类别概率矩阵，服务器获取对应的转移概率矩阵，服务器利用维比特算法，并根据音帧类别概率矩阵和对应的转移概率矩阵，得到待识别语音信号中各音帧对应的音帧类别，服务器根据待识别语音信号中各音帧对应的音帧类别，生成待识别语音信号对应的待识别序列。

本实施例的技术方案，通过根据各音帧对应的音帧类别概率向量，生成待识别语音信号对应的音帧类别概率矩阵，并根据音帧类别概率矩阵和对应的转移概率矩阵，确定待识别语音信号中各音帧对应的音帧类别，并将各音帧对应的音帧类别生成待识别语音信号对应的待识别序列，能够较为准确地确定待识别语音信号中各音帧的音帧类别，为后续对叠音段的识别提供精确的数据，能够提高对语音的重叠语音段的识别效率。

在另一个实施例中，将根据待识别序列，确定待识别语音信号中的叠音段包括：根据待识别序列，确定待识别语音信号的叠音段起点位置，以及，根据待识别序列，确定待识别语音信号的叠音段尾点位置；根据叠音段起点位置和叠音段尾点位置，确定待识别语音信号中的叠音段。

具体实现中，服务器根据待识别序列，确定待识别语音信号的叠音段起点位置，并且，服务器根据待识别序列，确定待识别语音信号的叠音段尾点位置，服务器根据叠音段起点位置和叠音段尾点位置，确定待识别语音信号中的叠音段。

本实施例的技术方案，通过根据待识别序列，确定待识别语音信号的叠音段起点位置和叠音段尾点位置，进而确定待识别语音信号中的叠音段，实现了对叠音段的精准识别。

在另一个实施例中，根据待识别序列，确定待识别语音信号的叠音段起点位置，包括：针对待识别序列中的任一叠音帧，确定在任一叠音帧之后的连续叠音帧；在连续叠音帧的帧数量大于预设值的情况下，则确定任一叠音帧为起点叠音帧；根据起点叠音帧，确定待识别语音信号的叠音段起点位置。

具体实现中，服务器针对待识别序列中的每一叠音帧，当某一叠音帧之后连续的叠音帧数量超过预设阈值后，服务器将该叠音帧作为叠音段的起点叠音帧，该起点叠音帧为待识别语音信号的叠音段起点位置。

本实施例的技术方案，通过根据待识别序列中每一叠音帧之后的连续叠音帧的数量，确定待识别语音信号的叠音段起点位置，能够准确地识别出叠音段的起点，有利于精确识别待识别语音信号中的叠音段。

在其中一个实施例中，根据待识别序列，确定待识别语音信号的叠音段尾点位置，包括：针对待识别序列中的任一非叠音帧，确定在任一非叠音帧之后的连续非叠音帧；在连续非叠音帧的帧数量大于预设值的情况下，则确定任一非叠音帧为尾点叠音帧；根据尾点叠音帧，确定待识别语音信号的叠音段尾点位置。

具体实现中，服务器针对待识别序列中的每一非叠音帧，当某一非叠音帧之后连续的非叠音帧数量超过预设阈值后，服务器将该非叠音帧作为叠音段的尾点叠音帧，该尾点叠音帧为待识别语音信号的叠音段尾点位置。

本实施例的技术方案，通过根据待识别序列中每一非叠音帧之后的连续非叠音帧的数量，确定待识别语音信号的叠音段尾点位置，能够准确地识别出叠音段的尾点，有利于精确识别待识别语音信号中的叠音段。

在另一个实施例中，如图4所示，提供了一种基于深度学习的语音叠音检测方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤S402，获取待识别语音信号，对待识别语音信号进行语音特征提取，得到待识别语音信号中各音帧对应的语音特征。

步骤S404，对于任一音帧，根据该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征，确定该音帧对应的语音特征向量；目标音帧包括在该音帧之前的预设数量音帧和在该音帧之后的预设数量音帧。

步骤S406，将该音帧对应的语音特征向量输入至预训练的神经网络概率模型，得到该音帧为叠音帧的概率信息和该音帧为非叠音帧的概率信息。

步骤S408，根据该音帧为叠音帧的概率信息和该音帧为非叠音帧的概率信息，确定该音帧对应的音帧类别概率向量。

步骤S410，根据各音帧对应的音帧类别概率向量，确定待识别语音信号对应的待识别序列；待识别序列中的各元素用于表征相应的音帧为叠音帧或非叠音帧。

步骤S412，根据待识别序列，确定待识别语音信号中的叠音段。

需要说明的是，上述步骤的具体限定可以参见上文对一种基于深度学习的语音叠音检测方法的具体限定。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于深度学习的语音叠音检测方法的基于深度学习的语音叠音检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于深度学习的语音叠音检测装置实施例中的具体限定可以参见上文中对于基于深度学习的语音叠音检测方法的限定，在此不再赘述。

在一个实施例中，如图5所示，提供了一种基于深度学习的语音叠音检测装置，包括：

提取模块502，用于获取待识别语音信号，对待识别语音信号进行语音特征提取，得到待识别语音信号中各音帧对应的语音特征；

预测模块504，用于对于任一音帧，将该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征输入至预训练的神经网络概率模型，得到该音帧对应的音帧类别概率向量；目标音帧包括在该音帧之前的预设数量音帧和在该音帧之后的预设数量音帧；音帧类别概率向量的元素表征该音帧为叠音帧的概率信息和该音帧为有效音帧的概率信息；

确定模块506，用于根据各音帧对应的音帧类别概率向量，确定待识别语音信号对应的待识别序列；待识别序列中的各元素用于表征相应的音帧为叠音帧或有效音帧；

识别模块508，用于根据待识别序列，确定待识别语音信号中的叠音段。

在其中一个实施例中，提取模块502，具体用于对待识别语音信号进行预加重处理，得到处理后语音信号；对处理后语音信号进行分帧处理，得到待识别语音信号对应的各个音帧；对各音帧对应的数据进行加窗处理，得到待识别语音信号中各音帧对应的语音数据；对各音帧对应的语音数据进行傅里叶变换，得到各音帧对应的变换后语音数据；对各音帧对应的变换后语音数据进行梅尔滤波，得到各音帧对应的滤波后语音数据；将各音帧对应的滤波后语音数据进行对数运算，得到各音帧对应的转换后语音数据；将各音帧对应的转换后语音数据进行离散余弦变换，得到各音帧对应的语音特征。

在其中一个实施例中，预测模块504，具体用于根据该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征，确定该音帧对应的语音特征向量；将该音帧对应的语音特征向量输入至预训练的神经网络概率模型，得到该音帧为叠音帧的概率信息和该音帧为非叠音帧的概率信息；根据该音帧为叠音帧的概率信息和该音帧为非叠音帧的概率信息，确定该音帧对应的音帧类别概率向量。

在其中一个实施例中，确定模块506，具体用于根据各音帧对应的音帧类别概率向量，生成待识别语音信号对应的音帧类别概率矩阵；获取转移概率矩阵，根据音帧类别概率矩阵和转移概率矩阵，确定待识别语音信号中各音帧对应的音帧类别；根据待识别语音信号中各音帧对应的音帧类别，生成待识别语音信号对应的待识别序列。

在其中一个实施例中，识别模块508，具体用于根据待识别序列，确定待识别语音信号的叠音段起点位置，以及，根据待识别序列，确定待识别语音信号的叠音段尾点位置；根据叠音段起点位置和叠音段尾点位置，确定待识别语音信号中的叠音段。

在其中一个实施例中，识别模块508，具体用于针对待识别序列中的任一叠音帧，确定在任一叠音帧之后的连续叠音帧；在连续叠音帧的帧数量大于预设值的情况下，则确定任一叠音帧为起点叠音帧；根据起点叠音帧，确定待识别语音信号的叠音段起点位置。

在其中一个实施例中，识别模块508，具体用于针对待识别序列中的任一非叠音帧，确定在任一非叠音帧之后的连续非叠音帧；在连续非叠音帧的帧数量大于预设值的情况下，则确定任一非叠音帧为尾点叠音帧；根据尾点叠音帧，确定待识别语音信号的叠音段尾点位置。

上述基于深度学习的语音叠音检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于深度学习的语音叠音检测数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度学习的语音叠音检测方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述一种基于深度学习的语音叠音检测方法的步骤。此处一种基于深度学习的语音叠音检测方法的步骤可以是上述各个实施例的一种基于深度学习的语音叠音检测方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述一种基于深度学习的语音叠音检测方法的步骤。此处一种基于深度学习的语音叠音检测方法的步骤可以是上述各个实施例的一种基于深度学习的语音叠音检测方法中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时，使得处理器执行上述一种基于深度学习的语音叠音检测方法的步骤。此处一种基于深度学习的语音叠音检测方法的步骤可以是上述各个实施例的一种基于深度学习的语音叠音检测方法中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习的语音叠音检测方法，其特征在于，所述方法包括：

获取待识别语音信号，对所述待识别语音信号进行语音特征提取，得到所述待识别语音信号中各音帧对应的语音特征；

对于任一所述音帧，将该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征输入至预训练的神经网络概率模型，得到该音帧对应的音帧类别概率向量；所述目标音帧包括在该音帧之前的预设数量音帧和在该音帧之后的预设数量音帧；所述音帧类别概率向量表征该音帧为叠音帧的概率信息和该音帧为非叠音帧的概率信息；

根据各所述音帧对应的音帧类别概率向量，确定所述待识别语音信号对应的待识别序列；所述待识别序列中的各元素用于表征相应的音帧为叠音帧或非叠音帧；

根据所述待识别序列，确定所述待识别语音信号中的叠音段。

2.根据权利要求1 所述的方法，其特征在于，所述对所述待识别语音信号进行语音特征提取，得到所述待识别语音信号中各音帧对应的语音特征，包括：

对所述待识别语音信号进行预加重处理，得到处理后语音信号；

对所述处理后语音信号进行分帧处理，得到所述待识别语音信号对应的各个音帧；

对各所述音帧对应的数据进行加窗处理，得到所述待识别语音信号中各所述音帧对应的语音数据；

对各所述音帧对应的语音数据进行傅里叶变换，得到各所述音帧对应的变换后语音数据；

对各所述音帧对应的变换后语音数据进行梅尔滤波，得到各所述音帧对应的滤波后语音数据；

将各所述音帧对应的滤波后语音数据进行对数运算，得到各所述音帧对应的转换后语音数据；

将各所述音帧对应的转换后语音数据进行离散余弦变换，得到各所述音帧对应的语音特征。

3.根据权利要求1所述的方法，其特征在于，所述将该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征输入至预训练的神经网络概率模型，得到该音帧对应的音帧类别概率向量，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据各所述音帧对应的音帧类别概率向量，确定所述待识别语音信号对应的待识别序列，包括：

根据各所述音帧对应的音帧类别概率向量，生成所述待识别语音信号对应的音帧类别概率矩阵；

获取转移概率矩阵，根据所述音帧类别概率矩阵和所述转移概率矩阵，确定所述待识别语音信号中各音帧对应的音帧类别；

根据所述待识别语音信号中各音帧对应的音帧类别，生成所述待识别语音信号对应的待识别序列。

5.根据权利要求1所述的方法，其特征在于，所述根据所述待识别序列，确定所述待识别语音信号中的叠音段，包括：

根据所述待识别序列，确定所述待识别语音信号的叠音段起点位置，以及，根据所述待识别序列，确定所述待识别语音信号的叠音段尾点位置；

根据所述叠音段起点位置和所述叠音段尾点位置，确定所述待识别语音信号中的叠音段。

6.根据权利要求5所述的方法，其特征在于，所述根据所述待识别序列，确定所述待识别语音信号的叠音段起点位置，包括：

针对所述待识别序列中的任一叠音帧，确定在所述任一叠音帧之后的连续叠音帧；

在所述连续叠音帧的帧数量大于预设值的情况下，则确定所述任一叠音帧为起点叠音帧；

根据所述起点叠音帧，确定所述待识别语音信号的叠音段起点位置。

7.根据权利要求5所述的方法，其特征在于，所述根据所述待识别序列，确定所述待识别语音信号的叠音段尾点位置，包括：

针对所述待识别序列中的任一非叠音帧，确定在所述任一非叠音帧之后的连续非叠音帧；

在所述连续非叠音帧的帧数量大于预设值的情况下，则确定所述任一非叠音帧为尾点叠音帧；

根据所述尾点叠音帧，确定所述待识别语音信号的叠音段尾点位置。

8.一种基于深度学习的语音叠音检测装置，其特征在于，所述装置包括：

提取模块，用于获取待识别语音信号，对所述待识别语音信号进行语音特征提取，得到所述待识别语音信号中各音帧对应的语音特征；

预测模块，用于对于任一所述音帧，将该音帧对应的语音特征和该音帧关联的目标音帧对应的语音特征输入至预训练的神经网络概率模型，得到该音帧对应的音帧类别概率向量；所述目标音帧包括在该音帧之前的预设数量音帧和在该音帧之后的预设数量音帧；所述音帧类别概率向量的元素表征该音帧为叠音帧的概率信息和该音帧为有效音帧的概率信息；

确定模块，用于根据各所述音帧对应的音帧类别概率向量，确定所述待识别语音信号对应的待识别序列；所述待识别序列中的各元素用于表征相应的音帧为叠音帧或有效音帧；

识别模块，用于根据所述待识别序列，确定所述待识别语音信号中的叠音段。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。