CN113257230B

CN113257230B - 语音处理方法及装置、计算机可存储介质

Info

Publication number: CN113257230B
Application number: CN202110694885.XA
Authority: CN
Inventors: 李成飞; 汪光璟
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2022-02-08
Anticipated expiration: 2041-06-23
Also published as: CN113257230A

Abstract

本公开涉及语音处理方法及装置、计算机可存储介质，涉及语音处理领域。语音处理方法包括：对当前说话人的语音进行特征提取，得到语音特征；根据所述语音特征，利用具有不同参数的第一编码器和第二编码器，分别确定当前文本内容特征和当前说话人身份特征；根据所述当前说话人身份特征，确定与所述语音对应的目标说话人身份特征；根据所述当前文本内容特征和所述目标说话人身份特征，利用同一解码器，确定与所述语音对应的文本内容信息和说话人身份信息。根据本公开，可以提高语音处理的准确性。

Description

语音处理方法及装置、计算机可存储介质

技术领域

本公开涉及语音处理领域，特别涉及语音处理方法及装置、计算机可存储介质。

背景技术

相关技术中，采用单编码器对语音的语音特征进行编码，得到文本内容特征和说话人身份特征，进而将文本内容特征和说话人身份特征分别输入到不同的两个解码器中，得到与语音对应的文本内容信息和说话人身份信息。

发明内容

相关技术中，单编码器执行多编码任务，编码器的训练难度较大，相对于单编码任务而言，需要更大量的训练数据，编码器的准确性较低，从而语音处理的准确性较低。并且，双解码器分别对文本内容特征和说话人身份特征进行解码，语音处理的准确性较低。

针对上述技术问题，本公开提出了一种解决方案，提高语音处理的准确性。

根据本公开的第一方面，提供了一种语音处理方法，其特征在于，包括：对当前说话人的语音进行特征提取，得到语音特征；根据所述语音特征，利用具有不同参数的第一编码器和第二编码器，分别确定当前文本内容特征和当前说话人身份特征；根据所述当前说话人身份特征，确定与所述语音对应的目标说话人身份特征；根据所述当前文本内容特征和所述目标说话人身份特征，利用同一解码器，确定与所述语音对应的文本内容信息和说话人身份信息。

在一些实施例中，所述语音包括多帧语音，所述当前说话人身份特征包括与所述多帧语音对应的多帧当前说话人身份特征，确定与所述语音对应的目标说话人身份特征包括：计算所述多帧当前说话人身份特征的平均值；获取多个参考说话人的参考说话人身份特征；根据所述平均值与每个参考说话人的参考说话人身份特征之间的相似度，从所述多个参考说话人的说话人身份特征中，筛选出所述目标说话人身份特征。

在一些实施例中，确定与所述语音对应的当前文本内容信息和说话人身份信息包括：根据所述平均值与每个参考说话人的参考说话人身份特征之间的相似度，确定所述目标说话人身份特征的权重值；根据所述权重值，对所述目标说话人身份特征进行调整；根据所述当前文本内容特征和调整后的目标说话人身份特征，利用同一解码器，确定与所述语音对应的文本内容信息和说话人身份信息。

在一些实施例中，从所述多个参考说话人的参考说话人身份特征中，筛选出所述目标说话人身份特征包括：从所述多个参考说话人的参考说话人身份特征中，选择与所述平均值的相似度最大的参考说话人身份特征，作为所述目标说话人身份特征。

在一些实施例中，语音处理方法，还包括：利用带有说话人身份标注信息的所述多个参考说话人的参考语音，训练深度神经网络模型，得到所述多个参考说话人的参考说话人身份特征。

在一些实施例中，语音处理方法，还包括：利用第一训练数据训练所述第一编码器，所述第一训练数据包括多条第一训练语音和与每条第一训练语音对应的文本内容标注信息；利用第二训练数据训练所述第二编码器，所述第二训练数据包括多条第二训练语音和与每条第二训练语音对应的说话人身份标注信息。

在一些实施例中，所述第一编码器包括Transformer模型的编码层，所述第二编码器包括基于卷积增强的Transformer模型的编码层。

在一些实施例中，所述语音特征为梅尔频率倒谱系数MFCC或者滤波器组Fbank。

在一些实施例中，所述说话人身份信息包括学生和负责不同学科的老师。

根据本公开第二方面，提供了一种语音处理装置，其特征在于，包括：处理器，被配置为对当前说话人的语音进行特征提取，得到语音特征；第一编码器，被配置为根据所述语音特征，确定当前文本内容特征；第二编码器，被配置为根据所述语音特征，确定当前说话人身份特征，所述第二编码器与所述第一编码器具有不同参数；所述处理器，还被配置为根据所述当前说话人身份特征，确定与所述语音对应的目标说话人身份特征；解码器，被配置为根据所述当前文本内容特征和所述目标说话人身份特征，确定与所述语音对应的文本内容信息和说话人身份信息。

根据本公开第三方面，提供了一种语音处理装置，其特征在于，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行上述任一实施例所述的语音处理方法。

根据本公开的第四方面，提供了一种计算机可存储介质，其特征在于，其上存储有计算机程序指令，该指令被处理器执行时实现上述任一实施例所述的语音处理方法。

在上述实施例中，可以提高语音处理的准确性。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是示出根据本公开一些实施例的语音处理方法的流程图；

图2是示出根据本公开一些实施例的确定与语音对应的目标说话人身份特征的流程图；

图3是示出根据本公开一些实施例的语音处理装置的框图；

图4是示出根据本公开另一些实施例的语音处理装置的框图；

图5是示出用于实现本公开一些实施例的计算机***的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1是示出根据本公开一些实施例的语音处理方法的流程图。

如图1所示，语音处理方法包括：步骤S10，对当前说话人的语音进行特征提取，得到语音特征；步骤S20，根据语音特征，利用具有不同参数的第一编码器和第二编码器，分别确定当前文本内容特征和当前说话人身份特征；步骤S30，根据当前说话人身份特征，确定与语音对应的目标说话人身份特征；和步骤S40，根据当前文本内容特征和目标说话人身份特征，利用同一解码器，确定与语音对应的文本内容信息和说话人身份信息。例如，语音处理方法由语音处理装置执行。

在上述实施例中，采用具有不同参数的双编码器结构，分别确定文本内容特征和说话人身份特征，使得两个编码器的功能相对独立，可以降低编码器的训练难度，提高每个编码器的准确性，从而提高语音处理的准确性。并且，将说话人身份特征和文本内容特征一起输入到同一解码器中，使得文本内容特征的解码和说话人身份特征的解码之间相互辅助，可以进一步提高语音处理的准确性。

在步骤S10中，对当前说话人的语音进行特征提取，得到语音特征。在一些实施例中，语音包括多帧语音，语音特征包括多帧语音的多帧语音特征。每帧语音特征对应一帧语音。例如，语音特征为MFCC（Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数）或者Fbank（Filter Bank，滤波器组）。在一些实施例中，语音为wav格式的音频。

在步骤S20中，根据语音特征，利用具有不同参数的第一编码器和第二编码器，分别确定当前文本内容特征和当前说话人身份特征（也叫说话人特征）。当前文本内容特征描述当前说话人的语音的文本内容的编码特征。当前说话人身份特征描述当前说话人的说话人身份信息的编码特征。

在一些实施例中，多帧语音所对应的当前说话人身份特征包括与多帧语音对应的多帧当前说话人身份特征。多帧语音所对应的当前文本内容特征也可以包括与多帧语音对应的多帧当前文本内容特征。例如，多帧当前说话人身份特征可以构成一个当前说话人身份特征序列，多帧当前文本内容特征也可以构成一个当前文本内容特征序列。

在一些实施例中，在利用第一编码器确定当前文本内容特征之前，利用第一训练数据训练第一编码器。第一训练数据包括多条第一训练语音和与每条第一训练语音对应的文本内容标注信息。训练第一编码器的过程中，以最小化关于预测的文本内容信息和文本内容标注信息之间的差异的损失函数为目标。

第一编码器可以命名为ASR-Encoder。ASR-Encoder是由自注意力（self-attention）组成的Transformer编码层（Encoder-layer）。Transformer编码层由6个相同的层（Layer）组成，每个层由两个子层（sub-layer）组成，这两个子层分别是多头自注意力机制（multi-head self-attention mechanism）和全连接前向反馈网络（fully connectedfeed-forward network）。每个子层都增加了残差链接（residual connection）和标准化（normalization）。

例如，Transformer编码层的输出可以使用公式表示为：Transformer_encoder=LayerNorm(x+(SubLayer(x)))，其中，x表示输入，SubLayer(x)表示子层的操作，LayerNorm表示层的归一化。

子层的操作包括多头机制的操作，例如多头机制的结果可以表示为：MultiHead(Q,K,V)=Concat(head1,head2,…,headn)×Wo。Q、K、V为输入向量x与不同的第一参数矩阵相乘得到的向量，Wo为第二参数矩阵，headi表示第i个head的计算方式，Concat表示拼接操作。headi=Self_attention(Q×W1,K×W2,V×W3)。W1、W2和W3为三个第三参数矩阵，Self_attention代表自注意力机制。

，其中，Softmax是一个函数，d_k为Q的维度，K^T表示K的转置。

在利用第二编码器确定当前说话人身份特征之前，利用第二训练数据训练第二编码器。第二训练数据包括多条第二训练语音和与每条第二训练语音对应的说话人身份标注信息。训练第一编码器的过程中，以最小化关于预测的说话人身份信息和说话人身份标注信息之间的差异的损失函数为目标。

第二编码器可以命名为SPK-Encoder。SPK-Encoder是在第一编码器基础上的改进。考虑到是针对某条语音进行说话人身份信息的编码，一个说话人在连续的说话中，其语音身份信息是具有前后关联的，第二编码器通过在多头自注意力机制（multi-head self-attention mechanism）和全连接前向反馈网络（fully connected feed-forwardnetwork）之间增加一维卷机网络，使得SPK-Encoder同时考虑到全局和局部的信息，可以更好地学习说话人身份信息。

在一些实施例中，第一编码器包括Transformer模型的编码层，第二编码器包括基于卷积增强的Transformer模型的编码层。

在步骤S30中，根据当前说话人身份特征，确定与语音对应的目标说话人身份特征。

以多帧语音所对应的当前说话人身份特征包括与多帧语音对应的多帧当前说话人身份特征为例，可以通过如图2所示的方式实现确定与语音对应的目标说话人身份特征。

图2是示出根据本公开一些实施例的确定与语音对应的目标说话人身份特征的流程图。

如图2所示，确定与语音对应的目标说话人身份特征包括步骤S31-步骤S33。

在步骤S31中，计算多帧当前说话人身份特征的平均值。例如，当前说话人特征表示为特征向量，平均值为多帧特征向量的平均值，是语音的说话人身份信息编码向量。

在步骤S32中，获取多个参考说话人的参考说话人身份特征。

在一些实施例中，在获取多个参考说话人的参考说话人身份特征之前，利用带有说话人身份标注信息的多个参考说话人的参考语音，训练深度神经网络模型（Deep NeuralNetworks，DNN），得到多个参考说话人的参考说话人身份特征。例如，利用预先准备好的各个老师和学生的音频（参考说话人的语音），音频标注了说话人身份信息。在DNN模型训练阶段，经过训练，DNN模型可以进行帧级别的说话人身份信息识别（说话人分类）。DNN模型训练完成后，将DNN模型的最后的隐藏层的语音特征作为参考说话人身份特征（D-vector）。通过这种方式即可完成说话人身份特征的注册。

例如，多个参考说话人的参考说话人身份特征可以表示为一个二维的矩阵D×N，D为说话人身份信息向量的维度，N为参考说话人的数量。

在步骤S33中，根据平均值与每个参考说话人的参考说话人身份特征之间的相似度，从多个参考说话人的说话人身份特征中，筛选出目标说话人身份特征。在一些实施例中，从多个参考说话人的参考说话人身份特征中，选择与平均值的相似度最大的参考说话人身份特征，作为目标说话人身份特征。例如，使用余弦距离计算相似度。

在上述实施例中，采用平均值的方式来筛选目标说话人身份特征，可以提高语音处理的效率。

返回图1，在步骤S40中，根据当前文本内容特征和目标说话人身份特征，利用同一解码器，确定与语音对应的文本内容信息和说话人身份信息。例如，说话人身份信息（说话人角色信息）包括学生和负责不同学科的老师。负责不同学科的老师包括物理老师、化学老师、语文老师、英语老师等。在一些实施例中，解码器为Transformer模型的解码层。在计算自注意力时Q向量、K向量和V向量分别来自Transformer的编码层（第一编码器）的输出、目标说话人身份特征、上一时刻的编码向量。

在一些实施例中，在计算多帧当前说话人身份特征的平均值后，首先根据平均值与每个参考说话人的参考说话人身份特征之间的相似度，确定目标说话人身份特征的权重值。然后根据权重值，对目标说话人身份特征进行调整。最后根据当前文本内容特征和调整后的目标说话人身份特征，利用同一解码器，确定与语音对应的文本内容信息和说话人身份信息。通过利用根据相似度确定的权重值对目标说话人身份特征进行调整，可以减少参考说话人身份特征与当前说话人实际的说话人身份特征之间的差异，从而降低其对解码过程的负面影响，进一步提高语音处理的准确性。

在一些实施例中，可以将平均值与每个参考说话人的参考说话人身份特征之间的相似度的最大值，确定为目标说话人身份特征的权重值。

图3是示出根据本公开一些实施例的语音处理装置的框图。

如图3所示，语音处理装置3包括处理器31、第一编码器32、第二编码器33和解码器34。第一编码器32和第二编码器33具有不同参数。

处理器31被配置为对当前说话人的语音进行特征提取，得到语音特征，例如执行如图1所示的步骤S10。

第一编码器32被配置为根据语音特征，确定当前文本内容特征，例如执行如图1所示的步骤S20。

第二编码器33被配置为根据语音特征，确定当前说话人身份特征，例如执行如图1所示的步骤S20。

处理器31还被配置为根据当前说话人身份特征，确定与语音对应的目标说话人身份特征，例如执行如图1所示的步骤S30。

解码器34被配置为根据当前文本内容特征和目标说话人身份特征，确定与语音对应的文本内容信息和说话人身份信息，例如执行如图1所示的步骤S40。

在上述实施例中，整个语音处理装置中的编码器-解码器模型采用自回归的方式完整语音的解码，得到文本内容信息和说话人身份信息。

图4是示出根据本公开另一些实施例的语音处理装置的框图。

如图4所示，语音处理装置4包括存储器41；以及耦接至该存储器41的处理器42。存储器41用于存储执行语音处理方法对应实施例的指令。处理器42被配置为基于存储在存储器41中的指令，执行本公开中任意一些实施例中的语音处理方法。

图5是示出用于实现本公开一些实施例的计算机***的框图。

如图5所示，计算机***50可以通用计算设备的形式表现。计算机***50包括存储器510、处理器520和连接不同***组件的总线500。

存储器510例如可以包括***存储器、非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序（Boot Loader）以及其他程序等。***存储器可以包括易失性存储介质，例如随机存取存储器（RAM）和/或高速缓存存储器。非易失性存储介质例如存储有执行语音处理方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。

处理器520可以用通用处理器、数字信号处理器（DSP）、应用专用集成电路（ASIC）、现场可编程门阵列（FPGA）或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如判断模块和确定模块的每个模块，可以通过中央处理器（CPU）运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。

总线500可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构（ISA）总线、微通道体系结构（MCA）总线、***组件互连（PCI）总线。

计算机***50还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530、540、550以及存储器510和处理器520之间可以通过总线500连接。输入输出接口530可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口。存储接口550为软盘、U盘、SD卡等外部存储设备提供连接接口。

这里，参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个框以及各框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器，以产生一个机器，使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。

这些计算机可读程序指令也可存储在计算机可读存储器中，这些指令使得计算机以特定方式工作，从而产生一个制造品，包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。

本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

通过上述实施例中的语音处理方法及装置、计算机可存储介质，可以提高语音处理的准确性。

至此，已经详细描述了根据本公开的语音处理方法及装置、计算机可存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

Claims

1.一种语音处理方法，其特征在于，包括：

对当前说话人的语音进行特征提取，得到语音特征，所述语音包括多帧语音；

根据所述语音特征，利用具有不同参数的第一编码器和第二编码器，分别确定与所述当前说话人对应的当前文本内容特征和当前说话人身份特征，所述当前说话人身份特征包括与所述多帧语音对应的多帧当前说话人身份特征；

计算所述多帧当前说话人身份特征的平均值；

获取多个参考说话人的参考说话人身份特征；

根据所述平均值与每个参考说话人的参考说话人身份特征之间的相似度，从所述多个参考说话人的参考说话人身份特征中，筛选出目标说话人身份特征；

根据所述平均值与每个参考说话人的参考说话人身份特征之间的相似度，确定所述目标说话人身份特征的权重值；

根据所述权重值，对所述目标说话人身份特征进行调整；

根据所述当前文本内容特征和调整后的目标说话人身份特征，利用同一解码器，确定与所述语音对应的文本内容信息和说话人身份信息。

2.根据权利要求1所述的语音处理方法，其特征在于，从所述多个参考说话人的参考说话人身份特征中，筛选出目标说话人身份特征包括：

从所述多个参考说话人的参考说话人身份特征中，选择与所述平均值的相似度最大的参考说话人身份特征，作为所述目标说话人身份特征。

3.根据权利要求1所述的语音处理方法，其特征在于，还包括：

利用带有说话人身份标注信息的所述多个参考说话人的参考语音，训练深度神经网络模型，得到所述多个参考说话人的参考说话人身份特征。

4.根据权利要求1所述的语音处理方法，其特征在于，还包括：

利用第一训练数据训练所述第一编码器，所述第一训练数据包括多条第一训练语音和与每条第一训练语音对应的文本内容标注信息；

利用第二训练数据训练所述第二编码器，所述第二训练数据包括多条第二训练语音和与每条第二训练语音对应的说话人身份标注信息。

5.根据权利要求1所述的语音处理方法，其特征在于，所述第一编码器包括Transformer模型的编码层，所述第二编码器包括基于卷积增强的Transformer模型的编码层。

6.根据权利要求1所述的语音处理方法，其特征在于，所述语音特征为梅尔频率倒谱系数MFCC或者滤波器组Fbank。

7.根据权利要求1所述的语音处理方法，其特征在于，所述说话人身份信息包括学生和负责不同学科的老师。

8.一种语音处理装置，其特征在于，包括：

处理器，被配置为对当前说话人的语音进行特征提取，得到语音特征，所述语音包括多帧语音；

第一编码器，被配置为根据所述语音特征，确定与所述当前说话人对应的当前文本内容特征；

第二编码器，被配置为根据所述语音特征，确定与所述当前说话人对应的当前说话人身份特征，所述第二编码器与所述第一编码器具有不同参数，所述当前说话人身份特征包括与所述多帧语音对应的多帧当前说话人身份特征；

所述处理器，还被配置为计算所述多帧当前说话人身份特征的平均值；获取多个参考说话人的参考说话人身份特征；根据所述平均值与每个参考说话人的参考说话人身份特征之间的相似度，从所述多个参考说话人的参考说话人身份特征中，筛选出目标说话人身份特征；

解码器，被配置为根据所述平均值与每个参考说话人的参考说话人身份特征之间的相似度，确定所述目标说话人身份特征的权重值；根据所述权重值，对所述目标说话人身份特征进行调整；根据所述当前文本内容特征和调整后的目标说话人身份特征，利用同一解码器，确定与所述语音对应的文本内容信息和说话人身份信息。

9.一种语音处理装置，其特征在于，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行如权利要求1至7任一项所述的语音处理方法。

10.一种计算机可存储介质，其特征在于，其上存储有计算机程序指令，该指令被处理器执行时实现如权利要求1至7任一项所述的语音处理方法。