CN115273862A

CN115273862A - 语音处理的方法、装置、电子设备和介质

Info

Publication number: CN115273862A
Application number: CN202210939799.5A
Authority: CN
Inventors: 董林昊; 梁镇麟; 范志赟; 刘艺; 马泽君
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-11-01
Also published as: US20240046921A1

Abstract

本公开的实施例涉及语音处理的方法、装置、电子设备和介质。方法包括基于目标语音数据的帧级别声学特征，生成目标语音数据的字符级别语义特征。方法还包括基于帧级别声学特征，生成目标语音数据的字符级别声纹特征。方法还包括基于字符级别语义特征和字符级别声纹特征，确定目标语音数据中的发生说话人转换的字符。根据本公开的实施例，结合说话人的声学特征和语音内容，在字符级别上来检测语音数据中的说话人转换，不需要后期处理就能够直接输出基于说话人的语音识别结果，简化了语音识别过程。

Description

语音处理的方法、装置、电子设备和介质

技术领域

本公开的实施例涉及语音处理技术领域，并且更具体地，涉及语音处理的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

随着互联网和人工智能(Artificial Intelligence，AI)技术的快速发展，自动语音识别(Automatic Speech Recognition，ASR)得到给人们的生活带来了极大的便利。在一些场景(例如，远程会议、远程教学)中，存在收集和整理语音内容的需要，希望将按照说话人角色来进行语音识别。然而，可能存在多人交替说话或同时说话的时间，这给语音识别带来了挑战。

说话人转换检测(Speech Conversion Detect，SCD)旨在定位不同说话人开始说话的时间，SCD***通常用作说话人分割聚类的子模块，或用作语音识别任务的前端对长语音进行切割。SCD***性能的好坏将很大程度地影响后续处理任务。

发明内容

有鉴于此，本公开的实施例提出了语音处理的技术方案。

根据本公开的第一方面，提供了一种语音处理的方法。方法包括：基于目标语音数据的帧级别声学特征，生成目标语音数据的字符级别语义特征；基于帧级别声学特征，生成目标语音数据的字符级别声纹特征；以及基于字符级别语义特征和字符级别声纹特征，确定目标语音数据中的发生说话人转换的字符。

根据本公开的实施例，结合说话人的声学特征和语音内容，在字符级别上来检测语音数据中的说话人转换，不需要后期处理就能够直接输出基于说话人的语音识别结果，简化了语音识别过程。

根据本公开的第二方面，提供了一种语音处理的装置。装置包括语义特征生成单元、声纹特征生成单元和检测单元。语义特征生成单元被配置为基于目标语音数据的帧级别声学特征，生成目标语音数据的字符级别语义特征。声纹特征生成单元被配置为基于帧级别声学特征，生成目标语音数据的字符级别声纹特征。检测单元被配置为基于字符级别语义特征和字符级别声纹特征，确定目标语音数据中的发生说话人转换的字符。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理单元；至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令，指令当由至少一个处理单元执行时，使得设备执行根据本公开的第一方面的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，包括机器可执行指令，机器可执行指令在由设备执行时使设备执行根据本公开的第一方面的方法。

。根据本公开的第五方面，提供了一种计算机程序产品，包括机器可执行指令，机器可执行指令在由设备执行时使设备执行根据本公开的第一方面的方法。

提供该内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。该内容部分无意标识本公开的关键特征或必要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的实施例的在目标语音数据中检测说话人转换的过程的总体示意图；

图3示出了根据本公开的实施例的语音处理方法的示意流程图；

图4示出了根据本公开的实施例的语义特征模型的结构的示意图；

图5示出了根据本公开的实施例的声纹特征模型的结构的示意图；

图6示出了根据本公开的实施例的说话人转换检测模型的结构的示意图；

图7示出了根据本公开的实施例的语音处理装置的示意框图；以及

图8示出了可以用来实施本公开内容的实施例的示例设备的示意性框图。

具体实施方式

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限定性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。

可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其它满足相关法律法规的方式也可应用于本公开的实现方式中。

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

需要说明的是，本公开的使用的任何数值或数字均为示例性，绝不用于限制本公开的范围。

如上所述，说话人检测(SCD)***性能的好坏将很大程度地影响语音处理的后续处理任务。一些传统的方法使用了基于距离的方法。这类方法将长语音按固定长度进行切分，然后计算相邻片段中声纹特征之间的距离，一旦距离超过阈值，则判定两个片段之间发生了说话人的切换。然而这种方法的检测精度受限于语音段的切分长度，无法检测出说话人快速转换时的转换。还有一些端到端的方法，这类方法使用了神经网络模型来直接预测说话人转换，而不依赖于距离度量，然而这种方法在语音帧级别上预测说话人转换，对语音数据的标注有比较强的依赖，而且需要后期的语音到文本的识别处理，处理过程复杂。

有鉴于此，本公开的实施例提供了一种语音处理的方法。在该方法中，将目标语音数据的帧级别声学特征转换为目标语音数据的字符(token)级别语义特征。帧级别声学特征可以具有声学特征序列的形式，其中每个声学特征对应于语音数据中的一个语音帧，而字符级别语义特征可以具有语义特征序列的形式，其中每个语义特征对应于语音数据中的一个字符。在本文中，多个语音帧可以聚合在一起，对应于一个字符。在该方法中，还基于帧级别声学特征，生成目标语音数据的字符级别声纹特征。字符级别声纹特征可以具有声纹特征序列的形式，其中每个声纹特征对应于语音数据中的一个字符。在该方法中，还基于字符级别语义特征和字符级别声纹特征，确定目标语音数据中的发生说话人转换的字符。根据本公开的实施例，结合说话人的声学特征和语音内容，在字符级别上来检测语音数据中的说话人转换，不需要后期处理就能够直接输出基于说话人的语音识别结果，简化了语音识别过程。

以下参考图1至8详细描述本公开的实施例的实现细节。

图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示，***架构100可以包括终端设备1011、1012、1013，网络102和服务器103。网络102用以在终端设备1011、1012、1013和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等。

终端设备1011、1012、1013可以是硬件、软件或者软硬件的组合。当终端设备1011、1012、1013为硬件时，可以是具有计算能力的电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机等、台式机等。当终端设备1011、1012、1013为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如，具有语音处理或语音识别能能力的多个软件或软件模块)，也可以实现成单个软件或软件模块，本公开在此不做限制。

终端设备1011、1012、1013还可以从服务器103获取语音处理模型。终端设备1011、1012、1013可以经由麦克风实时采集语音数据，从其他设备接收语音数据，或者读取已存储的语音数据，作为目标语音数据，之后针对目标语音数据执行根据本公开的实施例的语音处理过程。

备选地，终端设备1011、1012、1013可以通过网络102与服务器103交互，以发送或接收数据等，例如，服务器103可以接收终端设备1011、1012、1013发送的实时采集或预先采集的语音数据，终端设备1011、1012、1013也可以接收服务器103输出的语音处理结果。

服务器103可以是硬件、软件或软硬件的组合。当服务器103为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器103为软件时，可以实现成多个软件或软件模块(例如，具有语音处理或语音识别能能力的多个软件或软件模块)，也可以实现成单个软件或软件模块，本公开在此不做限制。

服务器103可以是对从终端设备1011、1012、1013接收到的待识别的目标语音数据进行处理的服务器。服务器103可以从终端设备1011、1012、1013接收目标语音数据，之后针对目标语音数据执行根据本公开的实施例的语音处理过程。例如，服务器103可以将语音处理结果输出到终端设备1011、1012、1013。

需要说明的是，在本公开实施例所提供的语音处理过程由终端设备1011、1012、1013执行的情况下，若终端设备1011、1012、1013的本地存储有预先训练的语音处理模型，此时示例性***架构100可以不存在网络102和服务器103。语音处理模型可以由服务器103进行训练，并被下发给终端设备1011、1012、1013，也可以由终端设备1011、1012、1013中任一个在本地进行训练。

另外，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

以上参考图1描述了能够实施本公开的实施例的示例性环境。应理解，图1仅是示意性的，环境还可以包括更多的模块或组件，或者可以省略一些模块或组件，或者所示的模块或组件可以重新组合。本公开的实施例可以在与图1所示不同的环境中实施，本公开对此不做限制。

图2示出了根据本公开的实施例的在目标语音数据中检测说话人转换的过程的总体示意图。

在本文中，将采用本公开的实施例进行说话人转换检测的具有多个说话人的交互语音数据被称为目标语音数据。另外，本公开不限制目标语音数据的语种类型，目标语音数据可以是中文语音数据、或英文语音数据或在其他类型的语音数据。本公开也不限制目标语音数据的来源，目标语音数据可以预先采集的语音数据，也可以由终端设备实时采集的语音数据，或经由网络接收到的语音数据。

如图所示，检测说话人转换的过程200涉及语音处理模型210和声学特征提取模型250，二者均可以被实现或部署在如图1所示的任一个终端设备1011、1012、1013，或者服务器103处。

目标语音数据201作为输入被提供至声学特征提取单元250。声学特征提取单元250可以输出目标语音数据201的帧级别声学特征x＝(x₁,x₂,…,x_T)，其中T为语音帧的数目，x_i(i＝1，2，…T)为任一个语音帧的声学特征。具体地，在提取目标语音数据的声学特征时，可以通过如下方式来提取声学特征。首先需要对目标语音数据进行分帧处理，得到对应的语音帧序列，然后再对分帧后的语音帧序列进行预加重，进而再依次提取出每一语音帧的声学特征。声学特征包括用于表征对应语音帧的声学信息的特征数据，例如，可以是Fbank特征(Filter Bank)、梅尔倒谱系数(Mel scale Frequency CepstralCoefficients，MFCC)特征、或感知线性预测(Perceptual Linear Predictive，PLP)特征等。每个语音帧的声学特征x_i可以被表示为多维向量的形式，因而从声学特征提取单元230输出的帧级别声学特征x可以被表示为声学特征序列(例如矩阵)的形式。

帧级别声学特征x被提供至根据本公开的实施例的语音处理模型210。语音处理模型210可以被实现为神经网络模型，在经过训练之后，用于对帧级别声学特征x进行说话人转换检测，并输出字符级别处理结果p＝(p₁,p₂,…,p_s)，其中S为字符数目，p_i(i＝1，2，…S)为针对目标语音数据中的任一个字符的检测结果。在本文中，字符可以包括以下至少一项：字、单词、子词、字母、音节或者音素。多个语音帧可以聚合在一起，对应于一个字符。作为示例而非限制，语音处理模型210针对目标语音数据201进行字符级别的二分类，针对每个字符的检测结果p_i可以是例如“0”或“1”，其中“0”表示在当前字符处没有发生说话人转换，“1”表示从当前字符开始发生说话人转换。需要说明的是，在本文中，说话人转换包括从一个说话人到另一个说话人的转换，从一个说话人到多个说话人(即，说话人同时说话)的转换，从多个说话人到一个说话人的转换，从多个说话人到不同的多个说话人(至少一个说话人不同)的转换等。

总体上，语音处理模型210使用说话人的声纹特征(也被称为说话人特征或说话人表示)和语音内容两条线索来检测说话人转换。如图所示，语音处理模型210包括语义特征模型220、声纹特征模型230和说话人检测模型240。语音特征模型220接收帧级别声学特征x＝(x₁,x₂,…,x_T)来作为输入，并输出目标语音数据201的字符级别语义特征(未示出)。声纹特征模型230也接收帧级别声学特征x＝(x₁,x₂,…,x_T)来作为输入，并输出目标语音数据201的字符级别声纹特征(未示出)。然而，字符级别语义特征和字符级别声纹特征被提供至说话人转换检测模型240，由说话人转换检测模型240产生检测结果p＝(p₁,p₂,…,p_s)。

接下来参考图3至图6详细描述根据本公开的实施例的语音处理过程。

图3示出了根据本公开的实施例的语音处理方法的示意流程图。方法300可以由例如图1所示的终端设备1011、1012、1013中任一个或者服务器103来实现。具体地，方法300可以由图2所示的处语音处理模型210来实现。应当理解，方法300还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。以下结合图2详细描述方法300。为方便说明，结合图2进行描述。

在框310，基于目标语音数据的帧级别声学特征，生成所述目标语音数据的字符级别语义特征。框310所示的动作可以借助例如图2中的语义特征模型220来实施。

图4示出了根据本公开的实施例的语义特征模型220的结构的示意图。将参考图4描述生成字符级别语义特征的细节。

在图4中，语义特征模型220接收来自声学特征提取模型250的帧级别声学特征x＝(x₁,x₂,…,x_T)。帧级别声学特征x＝(x₁,x₂,…,x_T)被提供至语义编码器221。语义编码器221可以是例如基于堆叠Conformer的解码器(Stacked-Conformer Encoder)或其他合适的结构，其将输入的帧级别声学特征x进行高维抽取，得到帧级别语义编码特征h＝(h₁,h₂...h_U)，其中U为抽取后的语音帧的数目，h_i(i＝1，2，…U)为针对一个语音帧的语义编码特征。帧级别语义编码特征h也具有特征序列的形式。

帧级别语义编码特征h作为输入被提供至权重估计器222。权重估计器222可以针对帧级别语义编码特征h产生一组权重α＝(α₁,α₂...α_U)，其中每个权重逐帧地对应于帧级别语义编码特征h中的针对一个帧的语义编码特征h_i。在一些实施例中，权重估计器222可以被实现为网络模型并且可以被训练为针对不同的h产生不同的一组权重α。作为示例，权重估计器222可以包括卷积神经网络(CNN)和全连接网络。权重估计器222还可以包括其他具有时序建模能力的神经网络也可以使用，例如循环神经网络(RNN)。

权重α被提供至连续整合发放模型(Continuous Integrate-and-Fire，CIF)223。CIF 223用于对目标语音数据中逐帧累积的帧级别语义编码特征h进行整合发放，以确定出得到目标语音数据中以字符为边界的字符级别语义编码特征。利用CIF 223，可以基于权重估计器222输出的一组权重α和帧级别语义编码特征h生成字符级别语义编码特征c＝(c₁,c₂...c_S)，其中S表示字符的数目，c_i(i＝1，2，…S)为每个字符的语义编码特征。字符级别语义编码特征c＝(c₁,c₂...c_S)具有特征序列的形式，并可以被进一步用于产生语义特征模型220的输出。

具体地，可以基于权重α中的连续权重的累加值与阈值β的比较，划分帧级别语义编码特征。当累加值大于阈值β时，确定存在字节分解，并在此处对帧级别语义编码特征进行划分。

作为示例，假设α＝(0.1,0.5,0.6,0.3,0.6,0.5,0.2,0.1,0.4,0.5,0.2,…)，β＝1.0，上述权重分别对应于帧级别语义编码特征h_i(i＝1，2，…)。可以看出，前三个权重的累加值(0.1+0.5+0.6＝1.2)大于阈值1.0，因此，可以在第三帧的语义编码特征h₃之后，确定字符分界。进一步地，权重累加值超出阈值的部分可以被保留，并被用于下一个字符的定界。例如，前三个权重的累加值1.2超出阈值1.0的部分为0.2，0.2可以与候选的权重累加，由此确定第二个字符的分界。可以看出，超出部分与第四个、第五个权重的累加值(0.2+0.3+0.6＝1.1)大于阈值1.0，因此，在第五帧的语义编码特征h₃之后，确定字符分界，以此类推。由此，将帧级别语义编码特征h被划分至字符级别。如图4所示，权重α还被提供至声纹特征模型230，用于对帧级别声纹特征进行划分，也就是说，权重α在语义特征模型220和声纹特征模型230之间共享。具体细节将参考图5描述。

继续参考图4，CIF 223基于经划分的帧级别语义编码特征h＝(h₁,h₂...h_U)和权重α＝(α₁,α₂...α_U)，生成字符级别语义编码特征c＝(c₁,c₂...c_S)，其中S为字符的数目，c_i为目标语音数据的针对一个字符的语义编码特征。在一些实施例中，可以对帧级别语义编码特征h和权重α＝(α₁,α₂...α_U)进行加权求和，获取字符级别语义编码特征c＝(c₁,c₂...c_S)。继续上述示例，c₁＝α₁*h1+α₂*h2+α₃*h₃，c₂＝α₄*h4+α₅*h₅，…，以此类推。在一些实施例中，超出阈值β的部分可以被传递到下一个字符，例如，c₂＝(α₁+α₂+α₃+α₄-β)*h4+α₅*h₅，以此类推。

字符级别语义编码特征c＝(c₁,c₂...c_S)可以被提供至语义解码器224。语义解码器224可以是例如基于堆叠transformer的解码器(Stacked-Transformer Decoder)或其他合适的结构。语义解码器224对字符级别语义编码特征c＝(c₁,c₂...c_S)逐字符地进行递归解码，得到字符级别语义解码特征o＝(o₁,o₂...o_S)。在一些实施例中，可以将字符级别语义解码特征o＝(o₁,o₂...o_S)和字符级别语义编码特征c＝(c₁,c₂...c_S)进行拼接226，由此生成字符级别语义特征[c；o]，作为语义特征模型220的输出。字符级别语义特征[c；o]可以具有特征序列的形式。

如图4所示，字符级别语义解码特征o＝(o₁,o₂...o_S)可以被提供至Softmax层(例如，稠密softmax或全连接层)，得到语音到文字的识别结果y＝(y₁,y₂...y_S)。需要注意的是，识别结果y＝(y₁,y₂...y_S)不参与生成字符级别语义特征[c；o]的过程，但是其在训练过程中被使用，用于调整整个语义特征模型220中的各个模型的参数。根据本公开的实施例中，随着帧级别声学特征x被输入至语义特征模型210，可以同时产生语音到文字的识别结果y＝(y₁,y₂...y_S)和字符级别语义特征[c；o]，因此，不需要额外的后续处理就能够同时实现说话人转换检测和语音到文字的识别。需要说明的是，语义特征模型210输出的字符级别语义特征还可以具有其他形式，例如，可以是字符级别语义解码特征o＝(o₁,o₂...o_S)、或者字符级别语义编码特征c＝(c₁,c₂...c_S)、或者它们任意组合。

继续参考图3，在框320，基于帧级别声学特征，生成目标语音数据的字符级别声纹特征。框320所示的动作可以借助例如图2中的语义特征模型220来实施。

图5示出了根据本公开的实施例的声纹特征模型230的结构的示意图。将参考图5描述生成字符级别声纹特征的细节。

如图所示，声纹特征模型230接收来自声学特征提取模型250的帧级别声学特征x＝(x₁,x₂,…,x_T)。帧级别声学特征x＝(x₁,x₂,…,x_T)被提供至声纹编码器231。声纹编码器231可以例如具有ResNet18的结构或其他合适的结构，其将输入的帧级别声学特征x进行高维抽取，得到帧级别声纹编码特征z＝(z₁,z₂...z_U)，其中U为抽取后的语音帧的数目，z_i(i＝1，2，…U)为针对一个语音帧的声纹编码特征。帧级别声纹编码特征z也具有特征序列的形式，并且与帧级别语义编码特征h对应，二者的帧数U相同。

帧级别声纹编码特征z被提供至另一个CIF 233。CIF 233还接收来自语义识别模型220的权重估计器222的一组权重α。如上文所提及的，声纹特征模型230和语义特征模型220共享一组权重α。利用CIF 233，可以基于帧级别声纹编码特征z＝(z₁,z₂...z_U)和一组权重α，生成字符级别声纹特征。具体地，与语义特征模型220中的CIF 223类似，CIF 233可以基于一组权重α中的连续权重的累加值与阈值的比较，划分帧级别声纹编码特征。然后，基于经划分的帧级别声纹编码特征z＝(z₁,z₂...z_U)和权重α来生成字符级别声纹特征e＝(e₁,e₂...e_S)，其中S表示字符的数目，每个分量e_i(i＝1，2，…S)表示针对一个字符的声纹编码特征。例如，可以通过加权求和的方式，这与语义特征模型220中的CIF 223类似，这里不再赘述。由此，完成了帧级别声纹表示z到字符级别声纹特征e的转化。基于这样方式，共享来自于语义特征模型220的权重能够保证输出的e序列长度与c的长度严格一致，并且每个序列中的特征彼此对应，均对应于目标语音数据中的字符。

字符级别声纹特征e＝(e₁,e₂...e_S)进而被提供至声纹解码器234。声纹解码器234可以被实现为全连接结构，用于对字符级别声纹特征e＝(e₁,e₂...e_S)中的每个字符级声纹特征进行声纹解码，由此得到分类结果v＝(v₁,v₂...v_S)，其中每个分量v_i(i＝1，2，…S)表示针对一个字符的说话人分类的概率。在一些实施例中，声纹解码器234中的隐藏层输出m可以被保留，作为提供给说话人检测模型240使用的字符级别声纹特征来使用。字符级别声纹特征可以具有特征序列的形式。需要注意的是，分类结果v＝(v₁,v₂...v_S)不参与生成字符级别声纹特征m的过程，但是其在训练过程中被使用，用于调整整个语音处理模型210中的各个模型的参数。

继续参考图3，在框330，基于字符级别语义特征和字符级别声纹特征，确定目标语音数据中的发生说话人转换的字符。框330所示的动作可以借助例如图2中的说话人转换检测模型240来实施。

图6示出了根据本公开的实施例的说话人转换检测模型240的结构的示意图。将参考图6描述发生检测说话人转换的字符的细节。

如图所示，说话人转换检测模型240包括用于接收并处理字符级别语音特征[c；o]的语音内容抽取模型241。语音内容抽取模型241包括全连接结构242和Transformer结构243。字符级别语音特征[c；o]经过处理之后，得到目标语音数据201的语音内容表示l。语音内容表示l是字符级别的特征序列。

说话人转换检测模型240还包括用于接收并处理字符级别声学特征m的声纹差异提取模型245。声纹差异提取模型245包括串联的卷积层246和前馈网络(FFN)247。声纹差异提取模型245用于捕获每字符级别声纹特征与其前后相邻的声纹特征的差异量d。取决于卷积层246的卷积核的尺寸，“相邻”的含义包括紧密相邻和相隔一定距离(例如，相隔一个、两个或更多的字符位置)。

然后，可以将声纹特征的声纹差异表示d和语音内容表示l进行拼接248并且将提供到联合器249。联合器249可以采用全连接的结构或任何其他合适的结构，提供针对拼接的字符级别表示[l；d]中的每个字符的二分类检测结果。联合器249可以输出字符级别的预测结果p＝(p₁,p₂,…,p_S)，其中S为目标语音数据中的字符数目，p_i(i＝1，2，…S)为针对目标语音数据中的任一个字符的检测结果。

已描述了根据本公开的实施例的语音处理模型210的结构以及相应的语音处理的过程300。语音处理模型210可以被训练之后，接收目标语音数据201并实施上述过程300。本公开的实施例还提供了用于训练语音处理模型210的示例性方法。

在一些实施例中，针对语音处理模型210的训练可以分两个阶段进行。在第一阶段，分别独立地预训练语义特征模型220和声纹特征模型230的参数。在第二阶段，语义特征模型220与声纹特征模型230预加载在第一阶段训练得到的参数，然后，随机初始化说话人转换检测模型240的参数，再固定ASR部分的参数，联合优化声纹特征模型230和说话人转换检测模型240的参数。

以上参照图1至图6描述了根据本公开的实施例的语音处理方法或过程。相比于现有的方案，本公开的实施例能够结合说话人的声学特征和语音内容，在字符级别上来检测语音数据中的说话人转换，不需要后期处理就能够直接输出基于说话人的语音识别结果，简化了语音识别过程。在一些实施例中，帧级别声学特征分别被整合为字符级别的携带有语音内容的语义特征和携带说话人信息的声纹特征，并且二者彼此对齐，因此，通过较为简单的模型结构就可以利用说话人特征和语音内容两条线索来检测说话人转换。另一方面，说话人转换检测的过程和语音识别过程可以同时进行，由此可以简化后期对语音识别结果进行整理的过程。

图7示出了根据本公开的实施例的语音处理装置700的示意框图。装置700可以被实现在图1所示的任一个终端设备1011、1012、1013或服务器103处。

如图所示，装置700包括语义特征生成单元710、声纹特征生成单元720和检测单元730。语义特征生成单元710被配置为基于目标语音数据的帧级别声学特征，生成目标语音数据的字符级别语义特征。声纹特征生成单元720被配置为基于帧级别声学特征，生成目标语音数据的字符级别声纹特征。检测单元730被配置为基于字符级别语义特征和字符级别声纹特征，确定目标语音数据中的发生说话人转换的字符。

在一些实施例中，语义特征生成单元710还可以被配置为：对帧级别声学特征进行语义编码以得到帧级别语义编码特征；基于帧级别语义编码特征，生成一组权重，该一组权重中的权重逐帧地对应于帧级别语义编码特征中的针对帧的语义编码特征；以及基于一组权重和帧级别语义编码特征，生成字符级别语义特征。

在一些实施例中，语义特征生成单元710还可以被配置为：基于一组权重中的连续权重的累加值与阈值的比较，划分帧级别语义编码特征；以及基于经划分的帧级别语义编码特征和一组权重，生成字符级别语义特征。

在一些实施例中，语义特征生成单元710还可以被配置为：基于经划分的帧级别语义编码特征和一组权重，生成目标语音数据的字符级别语义编码特征；以及基于字符级别语义编码特征，生成字符级别语义特征。

在一些实施例中，语义特征生成单元710还可以被配置为：对字符级别语义编码特征进行语义解码，以得到字符级别语义解码特征；以及将字符级别语义解码特征和字符级别语义编码特征进行拼接，以生成字符级别语义特征。

在一些实施例中，声纹特征生成单元720还可以被配置为：对帧级别声学特征进行声纹编码，得到帧级别声纹编码特征；以及基于帧级别声纹编码特征和一组权重，生成字符级别声纹特征。

在一些实施例中，声纹特征生成单元720还可以被配置为：基于一组权重中的连续权重的累加值与阈值的比较，划分帧级别声纹编码特征；基于经划分的帧级别声纹编码特征和一组权重，生成字符级别声纹编码特征；以及对字符级别声纹编码特征进行声纹解码，以得到字符级别声纹特征。

在一些实施例中，检测单元730还可以被配置为：基于字符级别语义特征，生成目标语音数据的语音内容表示；基于字符级别声纹特征，生成目标语音数据的说话人声纹差异表示；以及基于语音内容表示和说话人声纹差异表示，确定目标语音数据中的发生说话人转换的字符。

在一些实施例中，目标语音数据的字符包括以下至少一项：字、单词、子词、字母、音节或者音素。

图8示出了可以用来实施本公开内容的实施例的示例设备800的示意性框图。例如，根据本公开实施例的终端设备1011、1012、1013或服务器103可以由设备800来实施。如图所示，设备800包括中央处理单元(CPU)或图形处理单元(GPU)801，其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。CPU/GPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程、处理、模型或装置，可由CPU/GPU 801执行或实现。例如，在一些实施例中，方法300可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序被加载到RAM 803并由CPU/GPU801执行时，可以执行上文描述的方法300的一个或多个动作、实现图2、图4至图6所示的语音处理模型210、语义特征模型220、声纹特征230模型、说话人转换检测模型240、声学特征提取模型250中任一个或多个、或者实现图7所示的装置700。

本公开可以是方法、装置、***和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施方式，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施方式。在不偏离所说明的各实施方式的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施方式的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施方式。

Claims

1.一种语音处理的方法，包括：

基于目标语音数据的帧级别声学特征，生成所述目标语音数据的字符级别语义特征；

基于所述帧级别声学特征，生成所述目标语音数据的字符级别声纹特征；以及

基于所述字符级别语义特征和所述字符级别声纹特征，确定所述目标语音数据中的发生说话人转换的字符。

2.根据权利要求1所述的方法，其中，基于目标语音数据的帧级别声学特征，生成所述目标语音数据的字符级别语义特征，包括：

对所述帧级别声学特征进行语义编码以得到帧级别语义编码特征；

基于所述帧级别语义编码特征，生成一组权重，所述一组权重中的权重逐帧地对应于所述帧级别语义编码特征中的针对帧的语义编码特征；以及

基于所述一组权重和所述帧级别语义编码特征，生成所述字符级别语义特征。

3.根据权利要求2所述的方法，其中，基于所述一组权重和所述帧级别语义编码特征生成所述字符级别语义特征序列包括：

基于所述一组权重中的连续权重的累加值与阈值的比较，划分所述帧级别语义编码特征；以及

基于经划分的帧级别语义编码特征和所述一组权重，生成所述字符级别语义特征。

4.根据权利要求3所述的方法，其中，基于经划分的帧级别语义编码特征和所述一组权重，生成所述字符级别语义特征包括：

基于经划分的帧级别语义编码特征和所述一组权重，生成所述目标语音数据的字符级别语义编码特征；以及

基于所述字符级别语义编码特征，生成所述字符级别语义特征。

5.根据权利要求4所述的方法，其中，基于所述字符级别语义编码特征生成所述字符级别语义特征包括：

对所述字符级别语义编码特征进行语义解码，以得到字符级别语义解码特征；以及

将所述字符级别语义解码特征和所述字符级别语义编码特征进行拼接，以生成所述字符级别语义特征。

6.根据权利要求2所述的方法，其中，基于所述帧级别声学特征生成所述目标语音数据的字符级别声纹特征包括：

对所述帧级别声学特征进行声纹编码，得到帧级别声纹编码特征；以及

基于所述帧级别声纹编码特征和所述一组权重，生成所述字符级别声纹特征。

7.根据权利要求6所述的方法，其中，基于所述帧级别声纹编码特征和所述一组权重来生成所述字符级别声纹特征包括：

基于所述一组权重中的连续权重的累加值与阈值的比较，划分所述帧级别声纹编码特征；

基于经划分的帧级别声纹编码特征和所述一组权重，生成字符级别声纹编码特征；以及

对所述字符级别声纹编码特征进行声纹解码，以得到所述字符级别声纹特征。

8.根据权利要求1所述的方法，其中，基于所述字符级别语义特征和所述字符级别声纹特征，确定所述目标语音数据中的发生说话人转换的字符，包括：

基于所述字符级别语义特征，生成所述目标语音数据的语音内容表示；

基于所述字符级别声纹特征，生成所述目标语音数据的说话人声纹差异表示；以及

基于所述语音内容表示和所述说话人声纹差异表示，确定所述目标语音数据中的发生说话人转换的字符。

9.根据权利要求1至9中任一项所述的方法，其中，所述目标语音数据的所述字符包括以下至少一项：字、单词、子词、字母、音节或者音素。

10.一种语音处理的装置，包括：

语义特征生成单元，被配置为基于目标语音数据的帧级别声学特征，生成所述目标语音数据的字符级别语义特征；

声纹特征生成单元，被配置为基于所述帧级别声学特征，生成所述目标语音数据的字符级别声纹特征；以及

检测单元，被配置为基于所述字符级别语义特征和所述字符级别声纹特征，确定所述目标语音数据中的发生说话人转换的字符。

11.一种电子设备，包括：

至少一个处理单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述设备执行根据权利要求1至9中任一项所述的方法。

12.一种计算机可读存储介质，包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行根据权利要求1至9中的任一项所述的方法。