CN116018638A

CN116018638A - 使用话音转换和语音识别模型的合成数据增强

Info

Publication number: CN116018638A
Application number: CN202180053523.0A
Authority: CN
Inventors: 法迪·比亚德希; 姜里羊; 佩德罗·J·莫雷诺门吉巴尔; 安德鲁·罗森伯格
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-08-31
Filing date: 2021-08-19
Publication date: 2023-04-25
Also published as: EP4205109A1; JP2023539888A; US11335324B2; KR20230056741A; WO2022046526A1; US20220068257A1

Abstract

一种用于训练语音转换模型(300)的方法(380)包括获得口头训练话语(305)集合中的多个转录(302)以及获得多个非口头训练文本话语。每个口头训练话语由与非典型语音相关联的目标说话者(104)说出，并且包括与对应非合成语音表示(304)配对的对应转录。该方法还包括使用该口头训练话语集合来调整TTS模型(210)，以合成在目标说话者的话音中并且捕获非典型语音的语音。对于每个非口头训练文本话语，该方法还包括生成合成语音表示(306)作为来自调整后的TTS模型的输出，该合成语音表示包括目标说话者的话音并且捕获非典型语音。该方法还包括基于合成语音表示来训练语音转换模型。

Description

使用话音转换和语音识别模型的合成数据增强

技术领域

本公开涉及使用话音转换和语音识别模型的合成数据增强。

背景技术

自动语音识别(ASR)，即获取音频输入并将音频输入转录为文本的过程已经极大地成为移动装置和其它装置中使用的一项重要技术。通常，自动语音识别试图通过获取音频输入(例如，语音话语)并将音频输入转录为文本来提供人说出的内容的准确转录。

开发基于深度学习的语音转换模型和ASR模型的一个挑战是这些模型的参数往往会过度拟合训练数据，从而导致在训练数据不够广泛时难以归纳不可见数据。虽然在更大的训练数据集上训练语音转换模型和ASR模型会提高准确性，但是缺乏包括由说话者以非典型语音模式(即声学多样性)说出的针对特定域(即语言多样性)的话语的足够训练数据，以通过这些模型实现可接受的准确性。

发明内容

本公开的一个方面提供一种用于训练语音转换模型的方法，所述语音转换模型针对与非典型语音相关联的目标说话者个性化。该方法包括由数据处理硬件获得多个训练文本话语。多个训练文本话语的第一部分包括口头训练话语集合中的多个转录。每个口头训练话语由与非典型语音相关联的目标说话者说出，并且包括与对应口头训练话语的对应非合成语音表示配对的对应转录。多个训练文本话语的第二部分包括与语音转换模型在其中被训练来学习的特定域相关的多个非口头训练文本话语。每个非口头训练文本话语不与任何对应的口头话语配对。该方法还包括由数据处理硬件使用该口头训练话语集合来调整文本到语音(TTS)模型，以合成在目标说话者的话音中的并且捕获了与目标说话者相关联的非典型语音的语音。对于多个非口头训练文本话语中的每个非口头训练文本话语，该方法包括由数据处理硬件生成对应非口头训练文本话语的合成语音表示作为来自调整后的TTS模型的输出。合成语音表示包括目标说话者的话音并且捕获与目标说话者相关联的非典型语音。该方法还包括由数据处理硬件基于由调整后的TTS模型针对多个非口头训练文本话语中的每个非口头训练文本话语生成的合成语音表示来训练语音转换模型。

本公开的实施方案可以包括以下可选特征中的一个或多个。在一些实施方案中，对于由调整后的TTS模型生成的每个合成语音表示，该方法进一步包括：由数据处理硬件生成目标说话者的话音中的合成标准流利语音的对应音频波形作为来自语音转换模型的输出；由数据处理硬件针对作为来自语音转换模型的输出而被生成的合成标准流利语音的对应音频波形生成文本表示，作为来自文本解码器的输出；以及由数据处理硬件确定与对应合成语音表示相关联的词错误率损失。词错误率损失是基于针对合成标准流利语音的对应音频波形作为来自文本解码器的输出而被生成的文本表示和对应非口头训练文本话语。在这些实施方案中，该方法还包括由数据处理硬件识别过滤的合成语音表示集合。每个过滤的合成语音表示集合对应于作为来自语音转换模型的输出而被生成的合成语音表示中的具有满足词错误率损失阈值的词错误率损失的相应一个。在这些实施方案中，基于由调整后的TTS模型针对多个非口头文本话语中的每个非口头文本话语生成的合成语音表示来训练语音转换模型包括在该过滤的合成语音表示集合上训练语音转换模型。语音转换模型不在作为来自语音转换模型的输出而被生成的具有不满足词错误率损失阈值的词错误率损失的合成语音表示中的任一个上训练。

在一些示例中，该方法进一步包括当语音转换模型先前未被训练为转换由具有与关联于目标说话者的非典型语音相同类型的非典型语音的说话者说出的输入话语的音频波形时，由数据处理硬件使用该口头训练话语集合来调整语音转换模型，以将由具有非典型语音的目标说话者说出的输入话语的音频波形转换成合成标准流利语音的音频波形。这里，生成合成标准流利语音的对应音频波形包括生成目标说话者的话音中的合成标准流利语音的对应音频波形作为来自调整后的语音转换模型的输出。在一些示例中，文本解码器驻留在语音转换模型上。在其它示例中，文本解码器驻留在与语音转换模型分离的参考自动语音识别模型上。

在一些实施方案中，语音转换模型包括端到端神经网络，该端到端神经网络被配置成将输入音频波形直接转换成对应输出音频波形。在这些实施方案中，在训练语音转换模型之后，该方法还可以包括在数据处理硬件处接收输入音频波形，所述输入音频波形对应于由与非典型语音相关联的目标说话者说出的话语；以及由数据处理硬件使用经训练的语音转换模型将对应于由与非典型语音相关联的目标说话者说出的话语的输入音频波形转换成对应于由目标说话者说出的话语的合成标准流利语音表示的输出音频波形。

在其它实施方案中，语音转换模型包括自动语音识别模型，该自动语音识别模型被配置成将语音转换成对应文本。在这些实施方案中，在训练语音转换模型之后，该方法还可以包括由数据处理硬件接收音频数据，所述音频数据对应于由与非典型语音相关联的目标说话者说出的话语；以及由数据处理硬件使用经训练的语音转换模型将对应于由与非典型语音相关联的目标说话者说出的话语的音频数据转换成由目标说话者说出的话语的标准文本表示。

多个训练文本话语的第二部分中的多个非口头训练文本话语的至少一部分可以包括针对与特定域相关的特定短语的手动书写文本。可选地，该方法可以包括由数据处理硬件执行非口头文本选择过程，以获得多个训练文本话语的第二部分中的非口头训练文本话语中的非口头训练文本话语。文本选择过程被配置成获得非口头文本话语的语料库。对于非口头文本话语的语料库中的每个非口头文本话语，文本选择过程被配置成确定与非口头文本话语出现在域特定语言模型中相关联的第一概率，并且确定与非口头文本话语出现在背景语言模型中相关联的第二概率。背景语言模型在非口头文本话语的语料库中的每个非口头文本话语上进行训练。对于非口头文本话语的语料库中的每个非口头文本话语，文本选择过程还被配置成基于第一概率、第二概率和出现在对应非口头文本话语中的单词数来确定分数。最后，文本选择过程被配置成选择非口头文本话语的语料库中的具有N最佳分数的非口头文本话语作为多个训练文本话语的第二部分中的非口头训练文本话语。

在一些实施方案中，TTS模型包括预训练的参考TTS模型，该预训练的参考TTS模型包括编码器部分和解码器部分。在这些实施方案中，调整TTS模型包括通过在编码器部分的参数保持固定的同时调谐解码器部分的参数来调整预训练的参考TTS模型。

本公开的另一方面提供一种用于训练语音转换模型的***，该语音转换模型针对与非典型语音相关联的目标说话者个性化。该***包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令，这些指令当在数据处理硬件上执行时使数据处理硬件执行操作。这些操作包括获得多个训练文本话语。多个训练文本话语的第一部分包括口头训练话语集合中的多个转录。每个口头训练话语由与非典型语音相关联的目标说话者说出，并且包括与对应口头训练话语的对应非合成语音表示配对的对应转录。多个训练文本话语的第二部分包括与语音转换模型在其中被训练来学习的特定域相关的多个非口头训练文本话语。每个非口头训练文本话语不与任何对应的口头话语配对。这些操作还包括使用该口头训练话语集合来调整文本到语音(TTS)模型，以合成在目标说话者的话音中的并且捕获了与目标说话者相关联的非典型语音的语音。对于多个非口头训练文本话语中的每个非口头训练文本话语，这些操作包括生成对应非口头训练文本话语的合成语音表示作为来自调整后的TTS模型的输出。合成语音表示包括目标说话者的话音并且捕获与目标说话者相关联的非典型语音。这些操作还包括基于由调整后的TTS模型针对多个非口头训练文本话语中的每个非口头训练文本话语生成的合成语音表示来训练语音转换模型。

本公开的实施方案可以包括以下可选特征中的一个或多个。在一些实施方案中，对于由调整后的TTS模型生成的每个合成语音表示，这些操作进一步包括：生成目标说话者的话音中的合成标准流利语音的对应音频波形作为来自语音转换模型的输出；针对作为来自语音转换模型的输出而被生成的合成标准流利语音的对应音频波形生成文本表示，作为来自文本解码器的输出；以及确定与对应合成语音表示相关联的词错误率损失。词错误率损失是基于针对合成标准流利语音的对应音频波形作为来自文本解码器的输出而被生成的文本表示和对应非口头训练文本话语。在这些实施方案中，这些操作还包括识别过滤的合成语音表示集合。每个过滤的合成语音表示集合对应于作为来自语音转换模型的输出而被生成的合成语音表示中的具有满足词错误率损失阈值的词错误率损失的相应一个。在这些实施方案中，基于由调整后的TTS模型针对多个非口头文本话语中的每个非口头文本话语生成的合成语音表示来训练语音转换模型包括在该过滤的合成语音表示集合上训练语音转换模型。语音转换模型不在作为来自语音转换模型的输出而被生成的具有不满足词错误率损失阈值的词错误率损失的合成语音表示中的任一个上训练。

在一些示例中，这些操作进一步包括，当语音转换模型先前未被训练为转换由具有与关联于目标说话者的非典型语音相同类型的非典型语音的说话者说出的输入话语的音频波形时，使用该口头训练话语集合来调整语音转换模型，以将由具有非典型语音的目标说话者说出的输入话语的音频波形转换成合成标准流利语音的音频波形。这里，生成合成标准流利语音的对应音频波形包括生成目标说话者的话音中的合成标准流利语音的对应音频波形作为来自调整后的语音转换模型的输出。在一些示例中，文本解码器驻留在语音转换模型上。在其它示例中，文本解码器驻留在与语音转换模型分离的参考自动语音识别模型上。

在一些实施方案中，语音转换模型包括端到端神经网络，该端到端神经网络被配置成将输入音频波形直接转换成对应输出音频波形。在这些实施方案中，在训练语音转换模型之后，这些操作还可以包括：接收对应于由与非典型语音相关联的目标说话者说出的话语的输入音频波形；以及使用经训练的语音转换模型将对应于由与非典型语音相关联的目标说话者说出的话语的输入音频波形转换成对应于由目标说话者说出的话语的合成标准流利语音表示的输出音频波形。

在其它实施方案中，语音转换模型包括自动语音识别模型，该自动语音识别模型被配置成将语音转换成对应文本。在这些实施方案中，在训练语音转换模型之后，该方法还可以包括：接收对应于由与非典型语音相关联的目标说话者说出的话语的音频数据；以及使用经训练的语音转换模型将对应于由与非典型语音相关联的目标说话者说出的话语的音频数据转换成由目标说话者说出的话语的标准文本表示。

多个训练文本话语的第二部分中的多个非口头训练文本话语的至少一部分可以包括针对与特定域相关的特定短语的手动书写文本。可选地，这些操作可以包括执行非口头文本选择过程，以获得多个训练文本话语的第二部分中的非口头训练文本话语中的非口头训练文本话语。文本选择过程被配置成获得非口头文本话语的语料库。对于非口头文本话语的语料库中的每个非口头文本话语，文本选择过程被配置成确定与非口头文本话语出现在域特定语言模型中相关联的第一概率，并且确定与非口头文本话语出现在背景语言模型中相关联的第二概率。背景语言模型在非口头文本话语的语料库中的每个非口头文本话语上进行训练。对于非口头文本话语的语料库中的每个非口头文本话语，文本选择过程还被配置成基于第一概率、第二概率和出现在对应非口头文本话语中的单词数来确定分数。最后，文本选择过程被配置成选择非口头文本话语的语料库中的具有N最佳分数的非口头文本话语作为多个训练文本话语的第二部分中的非口头训练文本话语。

在附图和下面的描述中阐述本公开的一个或多个实施方案的细节。其它方面、特征和优点将从说明书和附图以及从权利要求书变得显而易见。

附图说明

图1A是包括语音到语音转换模型的示例语音转换***的示意图。

图1B是包括语音到文本转换模型的示例语音转换***的示意图。

图2A是用于获得由目标说话者说出的口头训练话语集合的个性化种子数据收集阶段的示意图。

图2B是用于获得多个非口头训练文本话语的数据生成阶段的示意图。

图2C是用于调整参考文本到语音(TTS)模型并且调整参考语音到语音转换模型的调整阶段的示意图。

图2D是用于识别从调整后的TTS模型输出的过滤的合成语音表示集合的验证和过滤阶段的示意图。

图2E是用于训练语音转换模型的最终训练阶段的示意图。

图3是用于训练语音转换模型的方法的操作的示例布置的流程图。

图4是可以用于实现本文描述的***和方法的示例计算装置的示意图。

各个附图中的相同附图标记指示相同元件。

具体实施方式

自动语音识别(ASR)已经取得巨大的进步，其中引入端到端(E2E)基于深度学习的模型，以识别来自具有非典型语音模式的说话者的语音以用于转换成准确的转录。例如，非典型语音模式可以包括但不限于由于身体或神经状况(例如，患有肌萎缩性侧索硬化症(ALS)疾病的说话者)而导致的语音受损、带有浓重口音的语音和手语。语音到语音转换***可以应用类似的基于深度学习的模型，以将具有非典型语音模式的语音转换成标准流利输出语音。如本文所使用的并且除非另行指定，否则术语“语音转换***”和“语音转换模型”可以指ASR***/模型，其中输入的非典型语音被识别并转换成对应文本(例如，转录)，或语音到语音转换***/模型，其中输入的非典型语音被直接转换成标准流利合成语音而不执行语音识别。换句话说，语音到语音转换***/模型被配置成将对应于非典型语音的输入音频波形或声谱图转换成对应于标准流利语音的输出音频波形或声谱图，而不将输入音频波形转换成中间表示(例如，文本或音素)。如将变得显而易见的，语音转换模型以及用于训练语音转换模型的技术将通过实现识别和/或再现用户的预期语音而使具有非典型语音的用户能够与其他人类和语音接口(例如，数字助理)交谈并由其他人类和语音接口理解。

开发基于深度学习的语音转换模型和ASR模型的一个挑战是这些模型的参数往往会过度拟合训练数据，从而导致在训练数据不够广泛时难以归纳不可见数据。虽然在更大的训练数据集上训练语音转换模型和ASR模型会提高准确性，但缺乏足以朝向具有非典型语音并且在特定目标域中的目标说话者进行个性化的提供语言多样性和声学多样性两者的训练数据。例如，为了获得具有足够声学多样性的训练数据，具有非典型语音的目标说话者将必须记录数小时的口头话语，每个口头话语与对应转录配对。此外，为特定目标领域获得足够的语言多样性将要求从说话者记录的话语包括与特定目标域相关联的术语。例如，特定目标域可以包括但不限于职业领域(例如，视网膜专科医生)、教育学科(例如，心理学讲师)、音乐、导航或天气。特定目标域可以类似地是与目标说话者相关联的个性化域，其中与个性化域相关联的特定术语可以包括家庭成员的姓名、联系人姓名、与目标说话者相关联的音乐库中的音乐艺术家/专辑/歌曲等。

文本到语音(TTS)或语音合成***已经成功地应用Seq2Seq模型，以获得最先进的自然的、听起来真实的合成语音，人耳无法区分这种合成语音与人类语音。有利地，可以容易地且廉价地获得非口头文本话语或纯文本数据，以产生用于改进语音转换模型的训练的合成语音。例如，不仅可以使用非口头文本话语来增加训练数据集的量，而且非口头文本话语可以增加训练数据中的语言多样性，而没有必须获得转录的语音(例如，人类说出的音频和对应转录)的困难。

本文中的实施方案涉及改进用于训练语音转换模型(即，ASR或语音到语音转换)的训练数据，所述语音转换模型针对具有非典型语音的目标说话者进行个性化并且针对目标说话者的特定感兴趣域。具体来说，实施方案包括：对初始个性化种子数据进行采样，所述初始个性化种子数据对应于由具有非典型语音的目标说话者说出的记录话语的转录声学数据；并且使用采样的种子数据来调整/调谐基线文本到语音(TTS)模型。此处，“基线TTS模型”简单地指参考/现有TTS模型，其先前被训练为将输入文本转换成一个或多个预定义说话者的话音中的合成标准语音。此处，从目标说话者采样的个性化种子数据调谐/调整基线TTS模型，以将输入文本转换成目标说话者的话音中并且具有目标说话者的非典型语音模式的输出合成语音。预训练的基线TTS模型包括编码器部分和解码器部分，其中调整TTS模型可以包括在编码器部分的参数保持固定的同时调谐/重新训练解码器部分的参数。通过使用个性化种子数据以这种方式调整TTS模型，调整后的TTS模型可以用于将包括与特定域相关联的术语或短语的文本话语转换成合成训练话语，所述合成训练话语包括目标说话者的话音中并且具有目标说话者的相关联的非典型语音模式的合成语音。如将变得显而易见的，调整后的TTS模型可以生成针对特定域并且在目标说话者的话音(即，合成话音)中具有非典型语音的大量合成训练话语，以在训练语音转换模型时增加语言多样性和声学多样性两者。

由调整后的TTS模型产生的合成训练话语和对应转录用于调整/调谐基线语音转换模型。此处，“基线语音转换模型”指参考/现有ASR模型，所述参考/现有ASR模型在转录的声学数据的通用语料库上预训练以识别典型/标准语音，或参考/现有语音到语音转换模型，所述参考/现有语音到语音转换模型被训练为将来自跨越各种扬声器并且记录条件的语料库的多个话语中的每一个的输入音频波形(或声谱图)映射到预定义的标准扬声器的话音中的对应输出音频波形(或声谱图)。因此，合成训练话语提供足以调整/调谐通用语音转换模型以识别由目标说话者说出并且针对特定域的非典型语音和/或将所述非典型语音转换成标准文本和/或标准流利合成语音的语言多样性和声学多样性。在这些实施方案中，对应于由目标说话者说出的记录话语的转录声学数据的采样种子数据可以进一步用于调整/调谐基线语音转换模型。在其它实施方案中，由调整后的TTS模型产生的合成训练话语和采样种子数据的组合用于从头训练语音转换模型。

图1A图示语音转换模型300、300a，所述语音转换模型被配置成将对应于由与非典型语音相关联的目标说话者104说出的话语108的输入音频数据102转换成对应于由目标说话者104说出的相同话语114的合成标准流利语音表示的输出音频数据106。语音转换***100a的相关联的语音转换模型300包括语音到语音(S2S)转换模型300a，所述S2S转换模型被配置成将输入音频数据102(例如，输入声谱图)直接转换成输出音频数据106(例如，输出声谱图)，而不执行语音识别，或否则不需要从输入音频数据102生成任何中间离散表示(例如，文本或音素)。S2S转换模型300a包括：声谱图编码器310，所述声谱图编码器被配置成将输入音频数据102编码成隐藏特征表示(例如，一系列向量)；以及声谱图解码器320，所述声谱图解码器被配置成将隐藏表示解码成对应于合成标准流利语音表示的输出音频数据106。例如，当声谱图编码器310接收话语108的输入音频数据102时，声谱图编码器310可以处理音频的五个帧并且将音频的这五个帧转换成十个向量。向量不是音频数据102的帧的转录，而是音频数据102的帧的数学表示。进而，声谱图解码器320可以基于从光谱图编码器310接收到的向量来生成对应于合成标准流利语音表示的输出音频数据106。例如，声谱图解码器320可以从声谱图编码器310接收表示音频的五个帧的十个向量。此处，声谱图解码器320可以生成对应于话语114的合成标准流利语音表示的输出音频数据106的五个帧，所述话语114包括作为输入音频数据102的五个帧的预期单词或单词部分，但不具有非典型语音的不流利性。

在一些示例中，S2S转换模型300a还包括文本解码器(图2D)250，所述文本解码器将隐藏特征解码为文本表示，例如音素或字素。在这些示例中，声谱图解码器320和文本解码器250可以对应于S2S转换模型300a的并行解码分支，每个分支接收由声谱图编码器310编码的隐藏表示并且并行发出它们的输出音频数据106或文本表示中的相应一个。S2S转换***100a可以进一步包括合成器375，以将输出音频数据106合成为时域波形，用于作为流利标准流利语音的相同话语114的可听输出。时域音频波形包括定义音频信号随时间的幅度的音频波形。合成器375可以包括单元选择模块或WaveNet模块，用于将输出音频数据106合成为合成标准流利语音的时域波形。在一些实施方案中，合成器375包括声码器网络，即神经声码器，其被单独地训练并且基于梅尔频率声谱图调节以转换成时域音频波形。

在所示示例中，目标说话者104与非典型语音相关联，使得目标说话者104以可能难以理解的非典型语音模式说话。非典型语音模式可以包括但不限于由于身体或神经状况(例如，患有肌萎缩性侧索硬化症(ALS)疾病的说话者)而导致的语音受损、带有浓重口音的语音和手语。借助于示例，目标说话者104患有ALS疾病并且与由于ALS疾病导致的非典型语音相关联。相应地训练语音到语音转换***100a以将对应于由与ALS语音相关联的目标说话者104说出的话语108的输入音频数据102直接转换成对应于相同话语108的合成标准流利语音表示的输出音频数据106。因此，由输出音频数据106提供的合成标准流利语音表示提高由目标说话者104说出的ALS语音的可理解性。在不脱离本公开的范围的情况下，可以训练S2S转换模型300a以将对应于以第一语言的与非典型语音相关联的话语108的输入音频数据102直接转换成对应于在相同话音中但以不同的第二语言的相同话语108的合成标准流利语音表示的输出音频数据106。

与目标说话者104相关联的计算装置110可以捕获由目标说话者104说出的话语108，并且将对应输入音频数据102传输到语音到语音转换***100a以转换成输出音频数据106。此后，语音到语音转换***100a可以将对应于由目标说话者104说出的相同话语114的合成标准流利语音表示的输出音频数据106传输到与用户118相关联的另一计算装置116，由此该另一计算装置116可听地输出由目标说话者104说出的话语108的合成标准流利语音表示。在此示例中，目标说话者104和用户118诸如通过电话呼叫或其它类型的话音通信协议(例如，互联网话音协议)通过他们的相应计算装置110、116彼此交谈。虽然目标说话者104和其他用户118可以说相同的语言，但是其他用户118可能难以理解目标说话者104，因为目标说话者104由于ALS疾病而具有非典型语音。因此，当目标说话者104用可能难以理解的非典型语音(例如ALS语音)说话时，听到合成标准流利语音表示的其他用户118将更容易理解目标说话者104意图的话语108。换句话说，合成标准流利语音表示提供比由目标说话者用非典型语音说出的原始话语108更容易被另一用户理解的更一致节奏。值得注意的是，合成标准流利语音表示在目标说话者104的话音中。

在一些其它示例中，S2S转换***100a可以替代地将对应于由目标说话者104说出的话语的合成标准流利语音表示的输出音频数据106传递到输出音频装置，以可听地将目标说话者104的话音中的合成标准流利语音表示输出给听众。例如，目标说话者104可以是向一类学生提供讲座的心理学教授，其中由目标说话者104说出的话语包括属于具体的特定领域(例如心理学)的医学术语。如将变得显而易见的，训练语音到语音转换模型300a以学习与特定域相关联的语言多样性，以及学习与关联于目标说话者104的特定类型的非典型语音相关联的声学多样性。

或者，该另一计算装置116可以与下游自动语音识别(ASR)***相关联，其中语音到语音转换***100a用作前端，以提供对应于合成标准流利语音表示的输出音频数据106作为对ASR***的输入，用于转换成所识别的文本。所识别的文本可以呈现给其他用户118和/或可以提供给自然语言理解(NLU)***以用于进一步处理。语音到语音转换***100a的功能可以驻留在远程服务器112上、计算装置110、116中的任一个或两者上、或者远程服务器和计算装置110、116的任何组合上。在一些实施方案中，当目标说话者104将话语的对应部分作为非典型语音说出时，S2S转换模型300a连续地生成对应于话语的合成标准流利语音表示的输出音频数据106。通过连续地生成对应于由目标说话者104说出的话语108的部分的合成标准流利语音表示的输出音频数据106，可以更自然地为目标说话者104与用户118(或听众)之间的会话设定节奏。在一些额外实施方案中，S2S会话模型300a使用诸如话音活动检测、结束指示、查询结束检测等技术并且在将具有非典型语音的话语108的对应输入音频数据102转换成对应于相同话语114的合成标准流利语音表示的对应输出音频数据106之前，等待确定/检测目标说话者104何时停止说话。

现在参考图1B，在一些实施方案中，语音转换***100、100b包括语音到文本转换***100b，所述语音到文本转换***被配置成将对应于由与非典型语音相关联的目标说话者104说出的话语108的输入音频数据102转换成话语108的标准文本表示(即，转录)120。与图1A的S2S转换***100a一样，语音到文本转换***100b不仅被配置成识别与目标说话者104相关联的特定类型的非典型语音(例如，ALS语音)，而且还识别与特定域相关联的特定单词和/或短语。这些特定单词和/或短语可以包括专有名词或其它术语，这些专有名词或术语在用于训练一般/基线语音到文本***的一般训练语料库中一般不存在或不充分表示。

因此，语音到文本转换***100b可以对应于目标说话者104的个性化自动语音识别(ASR)***，所述ASR***可以识别目标说话者的特定类型的非典型语音模式以及特定域的语言信息以转换成对应标准文本表示120，所述对应标准文本表示捕获由与非典型语音相关联的目标说话者104说出的原始话语108的意图。另一用户118(图1A)可以获得话语108的标准文本表示120。在一些配置中，从***100b输出的标准文本表示120例如由在用户装置110或远程服务器112上的自然语言理解(NLU)模块处理，以执行用户命令。另外或替代地，文本到语音***(例如，在用户装置110或远程服务器112的任何组合上执行)可以将转录转换成合成语音，以供另一装置进行可听输出。语音到文本转换***100b的功能可以驻留在远程服务器112上、计算装置110中的任一个或两者上、或者远程服务器112和计算装置110的任何组合上。

与语音到文本转换***100b相关联的语音转换模型300可以包括语音到文本转换模型300b(可互换地称为自动语音识别(ASR)模型300b)，所述语音到文本转换模型被配置成通过将输入音频数据102转换成话语108的标准文本表示(即，转录)120来对非典型语音的话语108执行语音识别。S2S转换模型300a包括：编码器350，所述编码器被配置成将输入音频数据102编码成隐藏特征表示(例如，一系列向量)；以及文本解码器250，所述文本解码器被配置成将隐藏表示解码成标准转录120。例如，当文本编码器350接收话语108的输入音频数据102时，编码器350可以处理音频的五个帧并且将音频的这五个帧转换成十个向量。向量不是音频数据102的帧的转录，而是音频数据102的帧的数学表示。进而，文本解码器250可以基于从编码器350接收到的向量来生成标准转录120。例如，文本解码器250可以生成对应于话语180的标准转录120的一系列单词，所述话语包括输入音频数据102的五个帧中的预期单词或单词部分。在不脱离本公开的范围的情况下，可以训练ASR模型300b以将对应于以第一语言的与非典型语音相关联的话语108的输入音频数据102转换成以第二语言的话语108的对应标准转录。

参考图1A和1B，语音转换***100执行训练过程200，所述训练过程被配置成训练语音转换模型300，即，图1A的S2S转换模型300a和/或图1B的语音到文本转换模型300b。如下文将参考图2A到2E更详细地描述的，训练过程200包括个性化种子数据收集阶段200a(图2A)、数据生成阶段200b(图2B)、调整阶段200c(图2C)、验证和过滤阶段200d(图2D)和最终训练阶段200e(图2E)。

参考图2A，训练过程200的个性化种子数据收集阶段200a包括获得与非典型语音相关联的目标说话者104的口头训练话语305、305a-n集合。此处，每个口头训练话语305由目标说话者104说出，并且包括对应转录302a，所述对应转录与对应口头训练话语305的对应非合成语音表示304配对。因此，非合成语音表示304在目标说话者104的话音中并且包括用于与目标说话者104相关联的非典型语音(例如，ALS语音)的类型的非典型语音模式。口头训练话语305集合中的转录302a可以形成多个训练文本话语302的第一部分。每个转录302a可以是以目标说话者104的母语的标准转录。在一些示例中，口头训练话语305中的一些或全部包括与语音转换模型300在其中被训练来学习的特定域相关联的单词和/或短语。

在一些实施方案中，个性化种子数据收集阶段200a提示目标说话者104说出每个口头训练话语305，并且记录所述话语以获得对应的非合成语音表示304。为目标说话者104获得的每个非合成语音表示304可以与口头训练话语305的对应转录302a配对。因此，每个口头训练话语305包括由目标说话者104说出的手动转录的声学数据302a、304。在所示示例中，通过将对应转录302a显示在与目标说话者104相关联的计算装置110的图形用户界面上，个性化种子数据收集阶段200a提示用户说出每个口头训练话语305。这可以包括每个口头训练话语的单独提示，或者可以包括提示目标说话者一次说出任意数目的连续口头训练话语。另外或替代地，计算装置110可以可听地输出提示，以使目标说话者说出每个训练话语(例如，“请说出以下短语”)。口头训练话语305集合可以存储在覆盖在存储器硬件420(图4)上的数据存储202中。在一些示例中，个性化种子数据收集阶段200a收集约五百(500)个口头训练话语305。

参考图2B，训练过程200的数据生成阶段200b包括获得与语音转换模型300正在其中被训练来学习的特定域相关的多个非口头训练文本话语302b。例如，目标说话者104可以是心理学教授，使得特定域包括大学级心理学课程的心理学术语。每个非口头训练文本话语302b不与任何对应口头话语配对。多个非口头训练文本话语302b可以形成多个训练文本话语302的第二部分。

在一些实施方案中，数据生成阶段200b被配置成从非口头文本的语料库402中选择非口头训练文本话语302b。非口头文本的语料库402包括来自跨大范围域的大量非口头训练文本话语302b，并且包括比语音转换模型300正在其中被训练来学***衡它们的贡献。

数据生成阶段200b旨在从非口头文本语料库402中选择可用非口头训练文本话语302b的子集作为下文参考图2D和2E更详细描述的TTS合成的数据。换句话说，数据生成阶段200b旨在改进可用非口头训练文本话语302b的所选择子集与所针对的特定域(例如，心理学术语)之间的匹配，这转而减少利用大量非域特定数据所需的计算资源。因此，数据生成阶段200b通过选择最匹配语音转换模型300正被训练来学习的特定域的非口头训练文本话语302b来降低计算和存储器成本。

在一些示例中，通过简单地提供与特定域相关联的域标识符(未示出)作为对先前在整个非口头文本语料库402上训练的背景语言模型(LM)406的输入，数据生成阶段200b从语料库402中选择最匹配特定域的可用非口头训练文本话语302b的子集。如先前所提及的，非口头文本语料库402跨越多个不同的域。在这些示例中，背景LM 406可以包括能够可选地接受域标识符作为输入的最大熵(MaxEnt LM)，如在2014年2月12日提交的美国专利No.9,842,592中描述，所述专利的内容通过引用全部并入本文中。此处，与特定域相关联的域标识符可以允许MaxEnt LM从语料库402输出可能包括与特定域相关的单词和/或短语的可用非口头训练文本话语302b的子集。在一些配置中，统计语言模型不是评估单词的可能性，而是以反向模式操作，以随机地生成匹配与特定域相关的单词的统计分布的文本短语。

在额外示例中并且如图2A中所描绘的，数据生成阶段200b执行非口头文本选择过程，所述非口头文本选择过程使用从目标说话者104获得的口头训练话语305集合中的转录302a，以从语料库402中选择最匹配特定域的可用非口头训练文本话语302b的子集。此处，由目标说话者104说出的口头训练话语305包括与特定域相关的单词、短语和/或其它术语。可选地，除了或代替口头训练话语305集合中的转录302a，与特定域相关的不同转录话语集合可以用于选择非口头训练文本话语302b。这将提供不要求所有口头训练话语305都属于特定域的优点。

在非口头文本选择过程的第一阶段(STAGE A)期间，数据生成阶段200b构建两个语言模型404、406，以实现非口头训练文本话语302b的对比选择。此处，域特定语言模型(LM)404在口头训练话语305集合中的每个转录302a上进行训练。假设口头训练话语305集合属于语音转换模型300正针对其进行训练的特定域。另一方面，背景LM 406在整个非口头文本语料库402中的每个非口头训练文本话语302b上进行训练。如先前所提及的，非口头文本语料库402跨越多个不同的域。在一些示例中，第一阶段使用n元语言模型训练来构建两个语言模型404、406。在其它示例中，第一阶段使用神经网络语言模型训练来构建两个语言模型404、406。

在非口头文本选择过程的第二状态(STAGE B)期间，数据生成阶段200b使用两个对比LM 404、406以通过确定与非口头训练文本话语302b中的每个单词出现在特定域LM404中相关联的第一概率

以及确定与非口头训练文本话语302b中的每个单词出现在背景LM 406中相关联的第二概率

来评估非口头文本语料库402中的每个非口头训练文本话语302b。此后，对于非口头文本话语料库402中的每个非口头训练文本话语302b，过程200在记分器408处基于第一概率、第二概率和出现在对应非口头文本话语302b中的单词数#(w)来确定分数S。例如，可以如下计算每个非口头训练文本话语302b的分数S。

在确定分数之后，数据生成过程200b选择具有N最佳分数S的非口头训练文本话语302b，因为这些非口头训练文本话语302a最匹配特定域。文本语料库402可以包括数十亿个文本话语302b。代替或除了从可用文本语料库402中选择，非口头训练文本话语302b可以包括不是从LM生成的手动书写文本，以针对特定短语/不当名词(例如，家庭成员姓名、联系人姓名、游戏等)，和/或可以使用与特定域相关联的话题分类器从特定的感兴趣话题导出非口头训练文本话语302b。在数据生成阶段200b期间生成的非口头训练文本话语302b可以包括数百个话语，并且因此远超过从说话者收集的口头训练话语305的数目。如将变得显而易见的，非口头训练文本话语302b的内容增加语音转换模型300正被训练为学习的特定领域的语言多样性，而从非口头训练文本话语302b生成的对应合成语音表示增加语音转换模型300正在转换的非典型语音的声学多样性。

参考图2C，训练过程200的调整阶段200c包括使用在图2A的个性化种子数据收集阶段200a期间收集的口头训练话语305集合，以调整文本到语音(TTS)模型210和参考S2S转换模型301两者，以合成在目标说话者104的话音中的并且捕获了与目标说话者104相关联的非典型语音(例如，ALS语音)的语音。调整阶段200c可以在图2B的数据生成阶段200b之前、之后或同时发生。

TTS模型210可以在输入文本上进行预训练，以在一个或多个预定义说话者的话音中生成合成标准流利语音。因此，可以从具有典型语音的说话者获得用于训练TTS模型210的地面真实语音样本。

类似地，参考S2S转换模型301在对应于由各种不同说话者说出的大量话语的输入音频数据上预训练为对应输出音频数据，所述输出音频数据捕获单个预定义说话者的话音中的相同内容。值得注意的是，来自各种不同说话者的话语可以包括典型的语音模式、各种不同类型的非典型语音模式(例如，跨越不同方言的重口音、跨越不同神经状况的不规则语音)以及背景噪声。例如，参考S2S转换模型301可以包括端到端训练的语音到语音转换模型，所述语音到语音转换模型在可在https://arxiv.org/pdf/1904.04169.pdf处获得并且通过引用并入本文中的Parrotron：An End-to-End Speech-to-Speech Conversion Modeland its Applications to Hearing-Impaired Speech and Speech Separation(端到端的语音到语音转换模型及其在听力受损语音和语音分离中的应用)。参考S2S转换模型301可以使用序列到序列来标准化任意语音，可能包括背景噪声，并且在单个预定义目标说话者的话音中生成相同内容。源语音可以来自任何说话者或口音，并且可以包含复杂的韵律模式、缺陷、非典型语音和背景噪声，当将第一音频数据转换成具有固定口音和一致发音和韵律的干净的第二音频数据时，所有这些都通过标准化过程去除。换句话说，所述***可以用于投射掉所有非语言信息，包括说话者特性，并且仅保留所说的内容，而不是说出它的人、方式或地点。

由于TTS模型210被预训练为在除了目标说话者104之外的话音中生成合成标准流利语音并且参考S2S转换模型301在来自与典型语音和各种类型的非典型语音两者相关联的各种不同说话者的话语上进行预训练，因此调整阶段200c旨在使模型210、301适应目标说话者104的话音和与目标说话者104相关联的特定类型的非典型语音(ALS语音)两者。在一些示例中，然而，当参考S2S转换模型被预训练为转换与关联于目标说话者104的特定类型的非典型语音相关联的输入音频数据时，调整阶段200c放弃调整参考S2S转换模型301，因为已经将模型301训练成将与目标说话者104相关联的相同类型的非典型语音转换成标准流利语音。

调整阶段200c调整TTS模型210，以将口头训练话语305集合中的转录302a转换成在目标说话者104的话音中的并且捕获了与目标说话者104相关联的非典型语音的对应合成语音306。在一些实施方案中，TTS模型210包括编码器312和解码器314，所述编码器和解码器协作以处理转录302a来调整TTS模型210，以生成在目标说话者104的语音中的并且捕获了与目标说话者104相关联的非典型语音的合成语音306的时域音频波形。时域音频波形是定义音频信号随时间的幅度的音频波形。

编码器212可以是编码器神经网络212，所述编码器神经网络被配置成接收转录304作为字符序列，并且生成解码器214稍后将生成的每个梅尔频率声谱图的固定长度上下文向量213。由于调整TTS模型210以产生捕获目标说话者104的话音中的非典型语音的合成语音，因此调整阶段200c可以包括在编码器212的参数保持固定的同时调谐/重新训练解码器214的参数。解码器214可以是神经网络，所述神经网络被配置成接收由编码器神经网络212生成的固定长度上下文向量213作为输入，并且生成梅尔频率声谱图的对应帧作为每个固定长度上下文向量213的输出。梅尔频率声谱图是声音的频域表示。梅尔频率声谱图强调较低频，较低频对语音可理解性至关重要，而不强调高频，高频主要由摩擦音和其它噪声突发组成并且通常不需要以高保真度建模。合成语音306可以包括与从解码器214输出的梅尔频率声谱图相关联的合成语音表示，或者合成语音306可以是由声码器(未示出)基于从解码器214输出的梅尔频率声谱图而生成的时域音频波形。解码器214可以包括后网络，所述后网络可以通过细化由解码器生成的梅尔频率声谱图的声学特性以更好地匹配与目标说话者104相关联的话音和非典型语音来适应目标说话者104。

调整阶段200c调整参考S2S转换模型301以将来自口头训练话语305集合的非合成语音表示304转换成目标说话者104的话音中的合成标准流利语音。如先前所提及的，非合成语音表示304与由目标说话者104说出的话语相关联，并且因此捕获与目标说话者104相关联的非典型语音。此处，调整阶段200c可以将对应转录302a用作声谱图解码器320的地面真实，以准确地解码/发出合成标准流利语音316，所述合成标准流利语音传达输入的非合成语音表示304的预期内容。

参考图2D，对于在图2B的数据生成阶段200b期间获得的多个非口头训练文本话语中的每个非口头训练文本话语302b，验证和过滤阶段200d生成对应非口头训练文本话语302b的合成语音表示306作为来自调整后的TTS模型210的输出。由于口头训练话语305用于调整TTS模型210，因此每个合成语音表示306包括目标说话者的话音并且捕获与目标说话者104相关联的非典型语音。因此，从调整后的TTS模型210输出的每个合成语音表示306与多个非口头训练文本话语302b中的对应一个配对。

在所示示例中，验证和过滤阶段200d进一步使用调整后的S2S转换模型301，以对于从调整后的TTS模型210输出的每个合成语音表示306，生成在目标说话者104的话音中的合成标准流利语音316的对应音频波形，并且此后使用文本解码器250以针对作为来自调整后的S2S转换模型301的输出而被生成的合成标准流利语音316的对应音频波形生成文本表示318。如先前所提及的，如果先前训练参考S2S语音转换模型301以转换相同类型的非典型语音，则参考S2S语音转换模型301不需要(但仍可以)在从合成语音表示306生成合成标准流利语音的音频波形之前进行调整。在一些示例中，文本解码器250驻留在调整后的S2S语音转换模型301上，其中S2S语音转换模型301从文本解码器250发出文本表示318，并行地从声谱图解码器320发出合成标准流利语音316的对应音频波形。在其它示例中，文本解码器250驻留在与语音转换模型分离的参考自动语音识别模型上。

此后，对于从调整后的TTS模型210输出的每个合成语音表示306，验证和过滤阶段200d应用监督损失项模块340来确定与对应合成语音表示306相关联的词错误率损失342。具体来说，词错误率损失342是基于从文本解码器250输出的针对合成标准流利语音306和对应非口头训练文本话语302b的文本表示318。值得注意的是，非口头训练文本话语302b用作对调整后的TTS模型210的输入以转换成所得合成语音表示306并且用作用于验证从解码器250输出的对应文本表示318的地面真实。在所示示例中，验证和过滤阶段200d通过确定对应词错误率损失342是否满足词错误率损失阈值来验证从调整后的TTS模型210输出的每个合成语音表示306。当对应词错误率损失342满足词错误率损失阈值时，对应合成语音表示306存储在过滤的合成语音表示集合306A中以用于在训练语音转换模型300中使用。当对应词错误率损失342未能满足词错误率损失阈值时，对应合成语音表示306被丢弃并且不被用于训练语音转换模型300。

在所示示例中，监督损失项模块340基于对应文本表示318与充当地面真实的对应非口头训练文本话语302b之间的误识别单词数来确定词错误率损失342。例如，词错误率损失60％指示由文本解码器250从对应合成标准流利语音316中误识别对应文本表示318中的40％的单词。词错误率损失阈值可以被设定成任何值，并且可以根据需要进行调节。在一个示例中，词错误率损失阈值为70％指示必须准确地识别对应文本表示318中的至少70％的单词，以便对应合成语音表示306满足词错误率损失阈值，并且因此被接受在过滤的合成语音表示集合306A中。词错误率损失342和词错误率损失阈值的值集用作仅识别适合于训练语音转换模型300的合成语音表示306(即，过滤的合成语音表示集合306A)并且丢弃不适合于训练的任何合成语音表示306的代理。丢弃的合成语音表示306指示这样的输入音频波形(或声谱图)，由于文本解码器250以未能满足词错误率损失阈值的词错误率损失342产生对应本文表示318，调整后的S2S转换模型301无法准确地将所述输入音频波形转换成可理解的合成标准流利语音316。简单地说，丢弃的合成语音表示306与由调整后的TTS模型210生成的合成语音表示306的总数的小百分比相关联，这指示在内容质量和风格方面难以理解或与理想相距甚远。

尽管应理解，使用调整后的S2S转换模型301以从每个非典型合成语音表示306产生合成标准流利语音316并且由文本编码器250将语音识别应用于合成标准流利语音316上以产生文本表示318的步骤有助于验证用于训练语音转换模型300的合成语音表示306，但是这些步骤可以是可选的。例如，调整后的TTS模型210可以用于生成每个未配对的非口头训练文本话语302b的对应合成语音表示306，并且所有合成语音表示306可以用于训练语音转换模型300，而不应用调整后的S2S转换模型301、文本解码器250和监督损失项模块340以识别过滤的合成语音表示集合306A。

现在参考图2E，最终训练阶段200e包括基于由调整后的TTS模型210针对多个非口头训练文本话语302b中的每个非口头训练文本话语302b生成的合成语音表示306来训练语音转换模型300。更具体来说，训练过程200的最终训练阶段200e在过滤的合成语音表示集合306A上训练语音转换模型300，而不在因如在图2D的验证和过滤阶段200d中所讨论的词错误率损失342不满足词错误率损失阈值而被丢弃的合成语音表示306中的任一个上训练语音转换模型300。

在一些实施方案中，训练语音转换模型300包括训练针对目标说话者104个性化的S2S语音转换模型300a，以将与说话者的非典型语音相关联的输入音频波形直接转换成说话者的话音中的标准流利语音的对应输出波形。过滤的合成语音表示集合306A中的合成语音表示306A的数目为训练S2S语音转换模型300a提供足够的声学多样性，以学习目标说话者104的话音和与目标说话者104相关联的非典型语音的类型两者。此外，由于用于训练S2S转换模型300a的每个合成语音表示306与特定域相关，因此在过滤的合成语音表示集合306A中的合成语音表示306A的数目还为训练S2S语音转换模型300a提供足够的语言多样性，以学习可能存在于由目标说话者104说出的非典型语音话语108中的特定单词、名称、短语或与特定域相关联的其它术语。

在一些示例中，训练S2S转换模型300a包括在过滤的合成语音表示集合306A上调整参考S2S转换模型301(图2C)，每个过滤的合成语音表示与非口头训练文本话语302b中的对应一个配对。如先前所提及的，参考S2S转换模型301先前使用从具有不同说话风格和不同话音的各种不同说话者说出的话语进行训练，以产生在预定义说话者的话音中的标准流利语音。因此，在过滤的合成语音表示集合306A上调整参考S2S转换模型301提供针对目标说话者104个性化的经训练的S2S转换模型300a，以将对应于由与特定类型的非典型语音相关联的目标说话者104说出的话语的任何输入音频波形(例如，图1A的输入音频数据102)转换成对应于由目标说话者说出的相同话语的合成标准流利语音表示316的输出音频波形(例如，图1A的输出音频数据106)。在这些示例中，可以在来自在图2A的个性化种子数据收集阶段200a期间从目标说话者104收集的口头训练话语305集合的非合成语音表示304上进一步调整/调谐经训练的S2S语音转换模型300a。

在其它示例中，训练S2S转换模型300a包括从头训练S2S转换模型300a。从头训练S2S转换模型300a可以包括在过滤的合成语音表示集合306A和口头训练话语305集合中的非合成语音表示304的混合上进行训练，每个过滤的合成语音表示与非口头训练文本话语302b中的对应一个配对，每个非合成语音表示与对应转录302a配对。此处，可以并行地在非合成语音表示304和合成语音表示306的对应批次上训练模型300，使得模型300a并行地输出对应的合成标准流利语音表示316。

当训练S2S转换模型300a时，无论是通过调整参考S2S转换模型301还是从头开始，训练过程200的最终训练阶段200e都可以使用随机优化算法(诸如随机梯度下降)，以通过反向传播来训练模型300a。例如，自动语音识别器(例如，图2D的文本解码器250)可以为产生从S2S转换模型300a输出的每个对应的合成标准流利语音表示316的文本表示318，所述文本表示可以与用作地面真实的对应训练文本话语302a、302b进行比较，以获得词错误率损失342(图2D)。虽然自动语音识别器可以是单独训练的自动语音识别器，但自动语音识别器还可以包括S2S转换模型300a的文本解码器，所述文本解码器发出与由声谱图解码器320发出的对应合成标准流利语音表示316并行的文本表示318。无论从何处产生所得文本表示318，随机优化算法可以使用词错误率损失342，以基于实际输出(例如，文本表示318)与目标输出(转录和非口头训练文本话语302a、302b)之间的差异来定义相应的损失函数(例如，交叉熵损失函数)。例如，损失函数可以对于每个批次的训练示例进行计算，然后相对于模型300a中的每个权重进行区分。

在一些额外实施方案中，训练语音转换模型300另外或替代地包括训练针对目标说话者104个性化的语音到文本转换模型300b(可互换地称为“ASR模型”)，以将与说话者的非典型语音相关联的输入音频波形转换成对应文本，所述对应文本包括由目标说话者104说出的话语的标准转录120。过滤的合成语音表示集合306A中的合成语音表示306A的数目为训练ASR模型300b提供足够的声学多样性，以学习识别用与目标说话者104相关联的类型的非典型语音说出的话语108。此外，由于用于训练ASR模型300b的每个合成语音表示306与特定域相关，因此在过滤的合成语音表示集合306A中的合成语音表示306A的数目还为训练ASR模型300b提供足够的语言多样性，以学习识别可能存在于由目标说话者104说出的非典型语音话语108中的特定单词、名称、短语或与特定域相关联的其它术语。

与S2S语音转换模型300a一样，训练ASR模型300b可以包括调整参考ASR模型300b，所述参考ASR模型先前在由具有不同说话风格的各种不同说话者说出的训练话语的通用语料库上训练。此处，参考ASR模型300b可以在过滤的合成语音表示集合306A上调整，每个合成语音表示与非口头训练文本话语302b中的对应一个配对，并且然后参考ASR模型300b在来自在图2A的个性化种子数据收集阶段200a期间从目标说话者104收集的口头训练话语305集合的非合成语音表示304上进一步调整/调谐。另一方面，可以使用过滤的合成语音表示集合306A和口头训练话语305集合中的非合成语音表示304的混合从头训练ASR模型300b，每个过滤的合成语音表示与非口头训练文本话语302b中的对应一个配对，每个非合成语音表示与对应转录302a配对。

训练过程200的最终训练阶段200e可以使用随机优化算法(诸如随机梯度下降)，以通过反向传播来训练ASR模型300b。上文关于训练S2S转换模型300a讨论使用随机优化算法来训练ASR模型300b的细节。

图3提供用于训练语音转换模型的方法380的操作的示例布置的流程图，所述语音转换模型针对与非典型语音相关联的目标说话者进行个性化。可以参考图1A、1B和图2A到2E的训练过程200描述流程图。数据处理硬件410(图4)可以通过执行存储在与数据处理硬件410通信的存储器硬件420(图4)上的指令来执行方法380的操作。数据处理硬件410和存储器硬件420可以驻留在计算装置400(图400)上，诸如图1A和1B的远程服务器112和/或用户计算装置110上。在操作382处，方法380获得多个训练文本话语302a、302b。此处，多个训练文本话语的第一部分包括口头训练话语305、305a-n集合中的多个转录302a。每个口头训练话语305由与非典型语音相关联的目标说话者104说出并且包括对应转录302a，所述对应转录与对应口头训练话语305的对应非合成语音表示304配对。可以在图2A的个性化种子数据收集阶段200a期间获得口头训练话语305集合。多个训练文本话语的第二部分包括与语音转换模型300在其中被训练来学习的特定域相关的多个非口头训练文本话语302b。每个非口头训练文本话语302b不与任何对应口头话语配对。可以在图2B的数据生成阶段200b期间获得多个非口头训练文本话语302b。

在操作384处，方法380包括使用口头训练话语305集合来调整文本到语音(TTS)模型210，以合成在目标说话者的话音中的并且捕获了与目标说话者相关联的非典型语音的语音。参考图2C的调整阶段200c描述调整TTS模型210的细节。

在操作386处，对于多个非口头训练文本话语中的每个非口头训练文本话语302b，方法380还包括生成对应非口头训练文本话语302b的合成语音表示306作为来自调整后的TTS模型210的输出。此处，从调整后的TTS模型210输出的每个合成语音表示306在目标说话者104的话音中的并且捕获了与目标说话者104相关联的非典型语音。在操作388处，方法380还包括基于由调整后的TTS模型210针对多个非口头训练文本话语中的每个非口头训练话语302b生成的合成语音表示306来训练语音转换模型300。训练语音转换模型300包括训练S2S转换模型300a或语音到文本(例如，ASR)模型300b中的至少一个。

软件应用(即，软件资源)可以指使计算装置执行任务的计算机软件。在一些示例中，软件应用可以称为“应用”、“app”或“程序”。示例应用包括但不限于***诊断应用、***管理应用、***维护应用、文字处理应用、电子表格应用、消息传递应用、媒体流传输应用、社交网络应用和游戏应用。

非暂时性存储器可以是用于临时地或永久地存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算装置使用的物理装置。非暂时性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于快闪存储器和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

图4是可以用于实现在本文档中描述的***和方法的示例计算装置400的示意图。计算装置400预期表示各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其它合适的计算机。此处所示的组件、它们的连接和关系以及它们的功能意味着仅仅是示例性的，并不意味着限制本文档中描述和/或要求保护的发明的实施方式。

计算装置400包括处理器410、存储器420、存储装置430、连接到存储器420和高速扩展端口450的高速接口/控制器440以及连接到低速总线470和存储装置430的低速接口/控制器460。组件410、420、430、440、450和460中的每一个使用各种总线互连，并且可以安装在公共母板上或视情况以其它方式安装。处理器410可以处理用于在计算装置400内执行的指令，包括存储于存储器420中或存储装置430上以将图形用户界面(GUI)的图形信息显示在外部输入/输出装置(诸如耦合到高速接口440的显示器480)上的指令。在其它实施方案中，多个处理器和/或多个总线可以视情况与多个存储器以及多种类型的存储器一起使用。而且，可以连接多个计算装置400，其中每个装置提供必要操作的部分(例如，作为服务器组、刀片服务器群组、或多处理***)。

存储器420将信息非暂时性地存储在计算装置400内。存储器420可以是计算机可读介质、易失性存储器单元、或非易失性存储器单元。非暂时性存储器420可以是用于临时地或永久地存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算装置400使用的物理装置。非易失性存储器的示例包括但不限于快闪存储器和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储装置430能够为计算装置400提供大容量存储。在一些实施方案中，存储装置430是计算机可读介质。在各种不同实施方案中，存储装置430可以是软盘装置、硬盘装置、光盘装置，或磁带装置、快闪存储器或其它类似的固态存储器装置，或装置的阵列，包括存储区域网络或其它配置中的装置。在附加实施方案中，计算机程序产品有形地体现在信息载体中。计算机程序产品包含指令，所述指令在执行时执行一个或多个方法，诸如上述那些方法。信息载体是计算机或机器可读介质，诸如存储器420、存储装置430、或处理器410上的存储器。

高速控制器440管理计算装置400的带宽密集型操作，而低速控制器460管理较低带宽密集型操作。这种职责分配仅仅是示例性的。在一些实施方案中，高速控制器440耦合到存储器420、显示器480(例如，通过图形处理器或加速器)，以及可以接受各种扩展卡(未示出)的高速扩展端口450。在一些实施方案中，低速控制器460耦合到存储装置430和低速扩展端口490。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口490可以例如通过网络适配器耦合到一个或多个输入/输出装置，诸如键盘、定点装置、扫描仪或诸如交换机或路由器的联网装置。

如图所示，计算装置400可以通过多种不同形式实施。例如，计算装置可以实施为标准服务器400a，或多次实施于一组此类服务器400a中、实施为膝上型计算机400b，或实施为机架服务器***400c的一部分。

本文描述的***和技术的各种实施方案可以在数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方案可以包括在一个或多个计算机程序中的实施方案，所述计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，所述可编程处理器可以是专用的或通用的，耦合以从存储***、至少一个输入装置和至少一个输出装置接收数据和指令，并将数据和指令传输到存储***、至少一个输入装置和至少一个输出装置。

这些计算机程序(还称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以用高级程序化和/或面向对象的编程语言，和/或用汇编/机器语言实施。如本文所使用，术语“机器可读介质”和“计算机可读介质”指代用于将机器指令和/或数据提供到可编程处理器的任何计算机程序产品、非暂时性计算机可读介质、设备和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指代用于将机器指令和/或数据提供到可编程处理器的任何信号。

本说明书中描述的过程和逻辑流可以由还称为数据处理硬件的一个或多个可编程处理器执行，所述可编程处理器执行一个或多个计算机程序，以通过在输入数据上操作并且生成输出来执行功能。过程和逻辑流还可以通过专用逻辑电路执行，专用逻辑电路例如是FPGA(现场可编程门阵列)或ASIC(专用集成电路)。举例来说，适合于执行计算机程序的处理器包括通用微处理器和专用微处理器两者，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器，以及用于存储指令和数据的一个或多个存储器装置。通常，计算机还将包括用于存储数据的一个或多个大容量存储装置(例如，磁盘、磁光盘或光盘)，或可操作地耦合以从所述一个或多个大容量存储装置接收数据或将数据传递到所述一个或多个大容量存储装置，或这两者。然而，计算机不需要具有此类装置。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器装置，包括例如，半导体存储器装置，例如，EPROM、EEPROM和快闪存储器装置；磁盘，例如，内部硬盘或可移除磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，本公开的一个或多个方面可以在计算机上实施，该计算机具有显示装置，例如，CRT(阴极射线管)或LCD(液晶显示器)监视器，或触摸屏，以将信息显示给用户，以及任选地具有键盘和定点装置(例如，鼠标或轨迹球)，用户可以通过其将输入提供到计算机。其它种类的装置也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；以及从用户产生的输入可以以任何形式接收，包括声音、语音或触觉输入。另外，通过将文档发送到由用户使用的装置以及从所述装置接收文档；例如，通过响应于从web浏览器接收到的请求而将web页发送到用户的客户端装置上的web浏览器，计算机可以与用户交互。

已经描述多个实施方案。然而，应理解，在不脱离本公开的精神和范围的情况下可以进行各种修改。因此，其它实施方案在所附权利要求书的范围内。

Claims

1.一种训练语音转换模型(300)的方法(380)，所述方法(380)包括：

由数据处理硬件(410)获得多个训练文本话语(302)，其中：

所述多个训练文本话语(302)的第一部分包括口头训练话语(305)集合中的多个转录，每个口头训练话语(305)由与非典型语音相关联的目标说话者(104)说出并且包括与对应口头训练话语(305)的对应非合成语音表示(304)配对的对应转录；以及

所述多个训练文本话语(302)的第二部分包括与所述语音转换模型(300)在其中被训练来学习的特定域相关的多个非口头训练文本话语(302)，每个非口头训练文本话语(302)不与任何对应口头话语配对；

由所述数据处理硬件(410)使用所述口头训练话语(305)集合来调整文本到语音(TTS)模型(210)，以合成在所述目标说话者(104)的话音中的并且捕获了与所述目标说话者(104)相关联的所述非典型语音的语音；

对于所述多个非口头训练文本话语(302)中的每个非口头训练文本话语(302)，由所述数据处理硬件(410)生成对应非口头训练文本话语(302)的合成语音表示(306)作为来自调整后的TTS模型(210)的输出，所述合成语音表示(306)包括所述目标说话者(104)的所述话音并且捕获与所述目标说话者(104)相关联的所述非典型语音；以及

由所述数据处理硬件(410)基于由所述调整后的TTS模型(210)针对所述多个非口头训练文本话语(302)中的每个非口头训练文本话语(302)生成的所述合成语音表示(306)来训练所述语音转换模型(300)。

2.根据权利要求1所述的方法(380)，进一步包括：

对于由所述调整后的TTS模型(210)生成的每个合成语音表示(306)：

由所述数据处理硬件(410)生成所述目标说话者(104)的所述话音中的合成标准流利语音的对应音频波形，作为来自所述语音转换模型(300)的输出；

由所述数据处理硬件(410)针对作为来自所述语音转换模型(300)的输出而被生成的合成标准流利语音的所述对应音频波形生成文本表示(318)，作为来自文本解码器(250)的输出；以及

由所述数据处理硬件(410)基于针对合成标准流利语音的所述对应音频波形作为来自所述文本解码器(250)的输出而被生成的所述文本表示(318)和所述对应非口头训练文本话语(302)，来确定与所述对应合成语音表示(306)相关联的词错误率损失(342)；以及

由所述数据处理硬件(410)识别过滤的合成语音表示(306)集合，每个过滤的合成语音表示对应于作为来自所述语音转换模型(300)的输出而被生成的所述合成语音表示(306)中的具有满足词错误率损失阈值的词错误率损失(342)的相应一个，

其中基于由所述调整后的TTS模型(210)针对所述多个非口头训练文本话语(302)中的每个非口头训练文本话语(302)生成的所述合成语音表示(306)来训练所述语音转换模型(300)包括在所述过滤的合成语音表示(306)集合上训练所述语音转换模型(300)，而不在作为来自所述语音转换模型(300)的输出而被生成的具有不满足所述词错误率损失阈值的词错误率损失(342)的所述合成语音表示(306)中的任一个上训练所述语音转换模型(300)。

3.根据权利要求2所述的方法(380)，进一步包括，当所述语音转换模型(300)先前未被训练为转换由具有与关联于所述目标说话者(104)的所述非典型语音相同类型的非典型语音的说话者说出的输入话语的音频波形时：

由所述数据处理硬件(410)使用所述口头训练话语(305)集合来调整所述语音转换模型(300)，以将由具有非典型语音的所述目标说话者(104)说出的输入话语的音频波形转换成合成标准流利语音的音频波形，

其中生成合成标准流利语音的所述对应音频波形包括生成所述目标说话者(104)的所述话音中的合成标准流利语音的所述对应音频波形作为来自所述调整后的语音转换模型(300)的输出。

4.根据权利要求2或3所述的方法(380)，其中所述文本解码器(250)驻留在所述语音转换模型(300)上。

5.根据权利要求2至4中任一项所述的方法(380)，其中所述文本解码器(250)驻留在与所述语音转换模型(300)分离的参考自动语音识别模型上。

6.根据权利要求1至5中任一项所述的方法(380)，其中所述语音转换模型(300)包括端到端神经网络，所述端到端神经网络被配置成将输入音频波形直接转换成对应输出音频波形。

7.根据权利要求6所述的方法(380)，进一步包括，在训练所述语音转换模型(300)之后：

在所述数据处理硬件(410)处接收输入音频波形，所述输入音频波形对应于由与非典型语音相关联的所述目标说话者(104)说出的话语；以及

由所述数据处理硬件(410)使用经训练的语音转换模型(300)将对应于由与非典型语音相关联的所述目标说话者(104)说出的所述话语的所述输入音频波形转换成对应于由所述目标说话者(104)说出的所述话语的合成标准流利语音表示(316)的输出音频波形。

8.根据权利要求1至7中任一项所述的方法(380)，其中所述语音转换模型(300)包括自动语音识别模型，所述自动语音识别模型被配置成将语音转换成对应文本。

9.根据权利要求8所述的方法(380)，进一步包括，在训练所述语音转换模型(300)之后：

在所述数据处理硬件(410)处接收音频数据(102)，所述音频数据对应于由与非典型语音相关联的所述目标说话者(104)说出的话语；以及

由所述数据处理硬件(410)使用经训练的语音转换模型(300)将对应于由与非典型语音相关联的所述目标说话者(104)说出的所述话语的所述音频数据(102)转换成由所述目标说话者(104)说出的所述话语的标准文本表示(318)。

10.根据权利要求1至9中任一项所述的方法(380)，其中所述多个训练文本话语(302)的所述第二部分中的所述多个非口头训练文本话语(302)的至少一部分包括针对与所述特定域相关的特定短语的手动书写文本。

11.根据权利要求1至10中任一项所述的方法(380)，进一步包括由所述数据处理硬件(410)执行非口头文本选择过程，以获得所述多个训练文本话语(302)的所述第二部分中的所述非口头训练文本话语(302)，其中所述文本选择过程被配置成：

获得非口头文本话语的语料库(402)；

对于非口头文本话语的所述语料库(402)中的每个非口头文本话语(302)：

确定与所述非口头文本话语(302)出现在域特定语言模型(404)中相关联的第一概率；

确定与所述非口头文本话语(302)出现在背景语言模型(406)中相关联的第二概率，所述背景语言模型(406)在非口头文本话语的所述语料库(402)中的每个非口头文本话语(302)上进行训练；以及

基于所述第一概率、所述第二概率和出现在所述对应非口头文本话语(302)中的单词数来确定分数；以及

选择非口头文本话语的所述语料库(402)中的具有N最佳分数的所述非口头文本话语(402)作为所述多个训练文本话语(302)的所述第二部分中的所述非口头训练文本话语(302)。

12.根据权利要求1至11中任一项所述的方法(380)，其中：

所述TTS模型(210)包括预训练的参考TTS模型(210)，所述预训练的参考TTS模型包括编码器部分(350)和解码器部分(250)；以及

调整所述TTS模型(210)包括通过在所述编码器部分(350)的参数保持固定的同时调谐所述解码器部分(250)的参数来调整所述预训练的参考TTS模型(210)。

13.一种***(100)，包括：

数据处理硬件(410)；以及

与所述数据处理硬件(410)通信的存储器硬件(420)，所述存储器硬件(420)存储指令，所述指令当在所述数据处理硬件(410)上执行时使所述数据处理硬件(410)执行操作，所述操作包括：

获得多个训练文本话语(302)，其中：

所述多个训练文本话语(302)的第一部分包括口头训练话语(305)集合中的多个转录，每个口头训练话语(305)由与非典型语音相关联的目标说话者(104)说出并且包括与所述对应口头训练话语(305)的对应非合成语音表示(304)配对的对应转录；以及

使用所述口头训练话语(305)集合来调整文本到语音(TTS)模型(210)，以合成在所述目标说话者(104)的话音中的并且捕获了与所述目标说话者(104)相关联的所述非典型语音的语音；

对于所述多个非口头训练文本话语(302)中的每个非口头训练文本话语(302)，生成所述对应非口头训练文本话语(302)的合成语音表示(306)作为来自调整后的TTS模型(210)的输出，所述合成语音表示(306)包括所述目标说话者(104)的所述话音并且捕获与所述目标说话者(104)相关联的所述非典型语音；以及

基于由所述调整后的TTS模型(210)针对所述多个非口头训练文本话语(302)中的每个非口头训练文本话语(302)生成的所述合成语音表示(306)来训练所述语音转换模型(300)。

14.根据权利要求13所述的***(100)，其中所述操作进一步包括：

生成所述目标说话者(104)的所述话音中的合成标准流利语音的对应音频波形作为来自所述语音转换模型(300)的输出；

针对作为来自所述语音转换模型(300)的输出而被生成的合成标准流利语音的所述对应音频波形生成文本表示(318)，作为来自文本解码器(250)的输出；以及

基于针对合成标准流利语音的所述对应音频波形作为来自所述文本解码器(250)的输出而被生成的所述文本表示(318)和所述对应非口头训练文本话语(302)，来确定与所述对应合成语音表示(306)相关联的词错误率损失(342)；以及

识别过滤的合成语音表示(306)集合，每个过滤的合成语音表示对应于作为来自所述语音转换模型(300)的输出而被生成的所述合成语音表示(306)中的具有满足词错误率损失阈值的词错误率损失(342)的相应一个，

15.根据权利要求14所述的***(100)，其中所述操作进一步包括当所述语音转换模型(300)先前未被训练为转换由具有与关联于所述目标说话者(104)的所述非典型语音相同类型的非典型语音的说话者说出的输入话语的音频波形时：

使用所述口头训练话语(305)集合来调整所述语音转换模型(300)，以将由具有非典型语音的所述目标说话者(104)说出的输入话语的音频波形转换成合成标准流利语音的音频波形，

16.根据权利要求14或15所述的***(100)，其中所述文本解码器(250)驻留在所述语音转换模型(300)上。

17.根据权利要求14至16中任一项所述的***(100)，其中所述文本解码器驻留在与所述语音转换模型(300)分离的参考自动语音识别模型上。

18.根据权利要求13至17中任一项所述的***(100)，其中所述语音转换模型(300)包括端到端神经网络，所述端到端神经网络被配置成将输入音频波形直接转换成对应输出音频波形。

19.根据权利要求18所述的***(100)，其中所述操作进一步包括，在训练所述语音转换模型(300)之后：

接收形对应于由与非典型语音相关联的所述目标说话者(104)说出的话语的输入音频波形；以及

使用经训练的语音转换模型(300)将对应于由与非典型语音相关联的所述目标说话者(104)说出的所述话语的所述输入音频波形转换成对应于由所述目标说话者(104)说出的所述话语的合成标准流利语音表示(316)的输出音频波形。

20.根据权利要求13至19中任一项所述的***(100)，其中所述语音转换模型(300)包括自动语音识别模型，所述自动语音识别模型被配置成将语音转换成对应文本。

21.根据权利要求20所述的***(100)，其中所述操作进一步包括，在训练所述语音转换模型(300)之后：

接收对应于由与非典型语音相关联的所述目标说话者(104)说出的话语的音频数据(102)；以及

使用经训练的语音转换模型(300)将对应于由与非典型语音相关联的所述目标说话者(104)说出的所述话语的所述音频数据(102)转换成由所述目标说话者(104)说出的所述话语的标准文本表示(318)。

22.根据权利要求13至21中任一项所述的***(100)，其中所述多个训练文本话语(302)的所述第二部分中的所述多个非口头训练文本话语(302)的至少一部分包括针对与所述特定域相关的特定短语的手动书写文本。

23.根据权利要求13至22中任一项所述的***(100)，其中所述操作进一步包括执行非口头文本选择过程，以获得所述多个训练文本话语(302)的所述第二部分中的所述非口头训练文本话语(302)，其中所述文本选择过程被配置成：

获得非口头文本话语的语料库(402)；

24.根据权利要求13至23中任一项所述的***(100)，其中：