CN116665636B

CN116665636B - 音频数据处理方法、模型训练方法、电子设备和存储介质

Info

Publication number: CN116665636B
Application number: CN202211145922.2A
Authority: CN
Inventors: 龚雪飞
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2024-03-12
Anticipated expiration: 2042-09-20
Also published as: CN116665636A

Abstract

本申请涉及人工智能领域的语音合成方向，本申请实施例提供了一种音频数据处理方法、模型训练方法、电子设备和存储介质。该方法应用于电子设备，方法包括：获取待处理声学特征对应的音频类别；获取音频类别对应的聚类中心向量；将待处理声学特征对应的文本、持续时间以及聚类中心向量输入到声学模型的音频编码器，其中，声学模型为，基于音频类别样本以及对应音频类别样本的聚类中心向量样本进行模型训练所获取的模型；获取声学模型的输出。本申请实施例提供的技术方案中，基于音频类别和聚类中心向量训练出声学模型，在降低模型复杂度的同时保证了音频效果。

Description

音频数据处理方法、模型训练方法、电子设备和存储介质

【技术领域】

本申请涉及人工智能技术领域，尤其涉及一种音频数据处理方法、模型训练方法、电子设备和存储介质。

【背景技术】

语音合成技术，即将输入的文字信息转化为可听的声音信息，可以通过不同的音色说出想表达的内容。

端到端的语音合成(Text To Speech，简称TTS)***成为了主流的语音合成***框架。终端设备通过预装、采购的方式需要使用多家供应商的TTS技术能力，音色未进行统一，且同一终端设备上不同业务的语音播报效果不一致，不同终端设备上的语音播报效果也不一致，终端设备安装的TTS引擎合成的语音的音质较差，机械感较强。

【发明内容】

有鉴于此，本申请实施例提供了一种音频数据处理方法、模型训练方法、电子设备和存储介质，用以在降低模型复杂度的同时保证音频效果。

第一方面，本申请实施例提供了一种音频数据处理方法，方法应用于电子设备，方法包括：

获取待处理声学特征对应的音频类别；

获取音频类别对应的聚类中心向量；

将待处理声学特征对应的文本、持续时间以及聚类中心向量输入到声学模型的音频编码器，其中，声学模型为，基于音频类别样本以及对应音频类别样本的聚类中心向量样本进行模型训练所获取的模型；

获取声学模型的输出。

根据本申请实施例所提出的上述实现方式，基于音频类别对声学特征进行分类，能够在降低声学模型复杂度的同时保证音频效果。

在第一方面的一种实现方式中，获取待处理声学特征对应的音频类别，包括：

获取待处理声学特征以及待处理声学特征对应的文本、持续时间；

结合文本和持续时间，对待处理声学特征进行平均化，生成声学特征均值；

基于聚类算法，根据声学特征均值生成待处理声学特征对应的音频类别。

根据本申请实施例所提出的上述实现方式，能够提升语音合成的表现力，增加合成音频的韵律感，从而提升语音合成的语音质量。

在第一方面的一种实现方式中，声学模型的训练过程包括：

获取第一音频类别样本；

获取第一音频类别样本对应的第一聚类中心向量样本；

将第一聚类中心向量样本输入到声学模型的音频编码器，获取针对第一聚类中心向量样本的第一编码输出；

根据第一编码输出预测对应第一编码输出的第一预测音频类别；

根据第一预测音频类别以及第一音频类别样本训练声学模型的解码器。

在第一方面的一种实现方式中，根据第一预测音频类别以及第一音频类别样本训练声学模型的解码器，包括：

针对第一音频类别样本与第一预测音频类别进行损失计算，获取损失值；

根据损失值训练声学模型的解码器。

根据本申请实施例所提出的上述实现方式，基于损失值训练声学模型，提高了声学模型的准确度。

在第一方面的一种实现方式中，方法还包括：

根据第一编码输出计算对应第一预测音频类别的第一预测聚类中心向量；

根据第一编码输出以及第一预测聚类中心向量推理声学模型的解码器。

根据本申请实施例所提出的上述实现方式，基于音素类别对声学特征进行分类，能够降低声学模型复杂度。

在第一方面的一种实现方式中，获取第一音频类别样本，包括：

获取样本声学特征以及样本声学特征对应的文本、持续时间；

结合文本和持续时间，对样本声学特征进行平均化，生成声学特征均值；

基于聚类算法，根据声学特征均值生成第一音频类别样本以及第一聚类中心向量样本。

在第一方面的一种实现方式中，获取待处理声学特征对应的音频类别之前，方法还包括：

获取文本，文本的内容包括第一语种以及第二语种；

对文本进行拆分，生成多个文本词和每个文本词对应的词性，包括：基于第一语种以及第二语种间的语种差异对文本进行拆分；

针对文本词以及词性进行向量化，获取向量化结果；

针对第一语种对应的向量化结果，进行韵律预测计算，获取第一韵律预测结果；

针对第二语种对应的向量化结果，进行韵律预测计算，获取第二韵律预测结果；

将第一韵律预测结果以及第二韵律预测结果进行混合输出，输出多语种混合的韵律预测结果。

根据本申请实施例所提出的上述实现方式，能够实现韵律预测模型的小型化，以及输出多语种混合的韵律预测结果。

在第一方面的一种实现方式中，对文本进行拆分，生成多个文本词和每个文本词对应的词性，还包括：

为文本词添加对应的语种标记。

在第一方面的一种实现方式中，针对文本词以及词性进行向量化，获取向量化结果，包括：

对文本词进行文本向量化，生成文本向量；

对文本词进行语言识别码向量化，生成语言向量；

对词性进行词性向量化，生成词性向量。

在第一方面的一种实现方式中，针对第一语种对应的向量化结果，进行韵律预测计算，获取第一韵律预测结果，包括：

针对第一语种对应的向量化结果，通过双向长短时记忆进行计算，生成第一预测向量；

将第一预测向量通过模糊神经网络进行计算，生成第一训练向量；

将第一训练向量通过归一化指数函数进行计算，生成第一韵律预测结果。

在第一方面的一种实现方式中，文本的内容还包括第三语种；

对文本进行拆分，生成多个文本词和每个文本词对应的词性，包括：基于第一语种、第二语种以及第三语种间的语种差异对文本进行拆分；

方法还包括：

针对第三语种对应的向量化结果，进行韵律预测计算，获取第三韵律预测结果；

将第一韵律预测结果、第二韵律预测结果以及第三韵律预测结果进行混合输出，输出多语种混合的韵律预测结果。

第二方面，本申请实施例提供了一种模型训练方法，方法应用于电子设备，方法包括：

获取第一音频类别样本；

获取第一音频类别样本对应的第一聚类中心向量样本；

在第二方面的一种实现方式中，根据第一预测音频类别以及第一音频类别样本训练声学模型的解码器，包括：

根据损失值训练声学模型的解码器。

在第二方面的一种实现方式中，方法还包括：

在第二方面的一种实现方式中，获取第一音频类别样本，包括：

第三方面，本申请实施例提供了一种电子设备，电子设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当计算机程序指令被该处理器执行时，触发电子设备执行如第一方面所述的方法步骤。

第四方面，本申请实施例提供了一种电子设备，电子设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当计算机程序指令被该处理器执行时，触发电子设备执行如第二方面所述的方法步骤。

第五方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如第一方面和第二方面所述的方法。

【附图说明】

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为根据本申请一实施例提供的一种语音合成***的结构示意图；

图2为根据本申请一实施例提供的一种音频数据处理方法的流程示意图；

图3为根据本申请一实施例提供的另一种音频数据处理方法的流程示意图；

图4为根据本申请一实施例提供的一种音频数据处理装置的结构示意图；

图5为根据本申请一实施例提供的一种模型训练的流程图；

图6为根据本申请一实施例提供的一种模型训练样本获取流程图；

图7为根据本申请一实施例提供的另一种模型推理的流程图；

图8为根据本申请一实施例提供的声学模型结构示意图；

图9为根据本申请一实施例提供的一种电子设备的硬件结构示意图。

【具体实施方式】

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，甲和/或乙，可以表示：单独存在甲，同时存在甲和乙，单独存在乙这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

在端侧设备上运行TTS***，需要充分考虑功耗、时延、只读存储器(Read-On lyMemory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)指标。

图1为根据本申请一实施例提供的一种语音合成***的结构示意图，如图1所示，语音合成***包括：文本正则模块11、韵律预测模块12、注音模块13、声学模型14和声码器15。其中，文本正则模块11、韵律预测模块12和注音模块13为前端模块，声学模型14和声码器15为后端模块。

文本正则模块11用于利用正则表达式，将电话、时间、金钱、单位、符号、邮箱、日期等转换为标准化文字，即将输入的文本中简写或缩写的文字进行标准化。例如，Sep.11th需要标准化为September E l eventh。

韵律预测模块12用于执行前端韵律预测，使用深度网络预测文本的句子中词与此之间的停顿和/或重音。

其中，需要韵律文本数据对韵律预测模型进行训练。

注音模块13用于使用深度网络将文字转换为拼音，同时解决多音字的问题，其中，需要多音字数据对注音模型进行训练，可采用多音字分词+设定的规则进行注音。

例如，“模型”和“模样”，这里的“模”字就发不同的音，“模”字为多音字。所以在输入一个句子的时候，前端模块就需要准确判断出这个字的发音，生成发音信息。

又例如，speech是这个文本的字形，需要先把它转化成音素s p iy ch，得到语言学信息。

其中，需要多音字数据对注音模型进行训练，可采用多音字分词+设定的规则进行注音。

声学模型14用于并行计算网络将拼音转换为音频声学特征，其中，可通过声优录制的音频语料进行音色训练，可进行中英文混合编码实验。即基于前端模块产生的发音信息或语言学信息生成声学特征，声学特征包括梅尔频谱图。

声码器15用于通过生成式对抗网络(Generat ive Adversar i a l Networks，简称GAN)将声学特征来合成声音的波形图，以输出音频。

例如，输入文本：六合区现在4℃。文本正则模块11将六合区现在4℃处理为：六合区现在四摄氏度。韵律预测模块12将六合区现在四摄氏度处理为：六合区#2现在#1四#1摄氏度#3。注音模块13将六合区#2现在#1四#1摄氏度#3处理为：l u4 he2 qu1#2x i an4 zai4#1s i4#1she4 sh i4 du4#3。声学模型14将l u4 he2 qu1#2x i an4 za i4#1s i4#1she4 sh i4 du4#3处理为声学特征。声码器15将声学特征来合成声音的波形图，以输出音频。

又例如，输入文本：我今天去银行存了300块钱。文本正则化：我今天去银行存了三百块钱。分词：我/今天/去/银行/存了/三百/块/钱。词性分析：我(名词n)/今天(日期d)/去(动词v)/银行(名词n)/存了(动词v)/三百(数词num)/块(量词q)/钱(名词n)。韵律预测：我#2今天#1去#1银行我#2存了#1三百块钱#4。

在图1所示的语音合成***中，韵律预测模块12所实现的前端韵律预测是一个自然语言处理(Natura l Language Process i ng，简称NLP)领域的问题，针对上述问题，一种可行的解决方案是使用预训练模型后面接一个多分类网络。

本申请一实施例中，预训练模型包括：预训练的语言表征模型(B id i rect ional Encoder Representat ion from Transformers，简称Bert)、中文预训练模型(Albert)、用来产生词向量的相关模型(word to vector，简称Word2Vec)或超小型中文预训练模型(T i ny a l bert)等。

图2为根据本申请一实施例提供的一种音频数据处理方法的流程示意图。该数据处理方法为前端韵律预测方法，该前端韵律预测方法包括：在向韵律预测模块12中输入文本(I nput Text)后，韵律预测模块12执行如图2所示的下述步骤。

S11、对文本进行分词，生成多个文本词和每个文本词对应的词性。

例如，文本为“我今天很开心”，对文本进行分词，生成多个文本词“我”、“今天”、“很”和“开心”。则每个文本词对应的词性分别为：“我”对应的词性为人称代词，“今天”对应的词性为名词，“很”对应的词性为副词，“开心”对应的词性为形容词。

S121、根据预训练模型训练文本向量化模型。

S122、基于S121中的文本向量化模型对S11中生成的文本词进行文本向量化(Charembedd i ng)，生成文本向量。

S123、对S11中生成的词性进行词性向量化(Pos embedd i ng)，生成词性向量。

S131、将S122中生成的文本向量和S123中生成的词性向量通过双向长短时记忆(bid i rect iona l l org short term memory，简称BLSTM)和模糊神经网络(Factor isat ion Mach i ne supported Neura l Network，简称FNN)进行计算，生成训练向量。

具体的，BLSTM对S122中生成的文本向量和S123中生成的词性向量进行训练和预测，生成预测向量。

FNN对预测向量使用因子分解机(Factor i zat i on Mach i ne，简称FM)的隐向量进行计算，生成训练向量，该训练向量为基于FNN训练好的向量。

S141、将S131中生成的训练向量通过归一化指数函数(Softmax)进行计算，生成韵律预测结果。

基于图2所示的流程，预训练模型后面接一个多分类网络以实现前端韵律预测。多分类网络数据量特别大，无法在端侧设备落地。

针对上述问题，本申请一实施例提出了一种韵律预测方法。

图3为根据本申请一实施例提供的另一种音频数据处理方法的流程示意图。

在向韵律预测模块12中输入文本(I nput Text)后，韵律预测模块12执行如图3所示的下述步骤。

S31、对文本进行拆分，生成多个文本词(subword)和每个文本词对应的词性。并且，在拆分文本过程中，基于不同的语种(语言)进行拆分，并添加对应的语种(语言)标记。

具体的，文本的内容包括第一语种以及第二语种；对文本进行拆分，生成多个文本词和每个文本词对应的词性，包括：基于第一语种以及第二语种间的语种差异对文本进行拆分。

以下以中文(第一语种)/英文(第二语种)划分为例说明后续步骤的具体实现方式。

这里需要说明的是，本申请对于基于不同的语种(语言)进行文本拆分中的语种(语言)不做限制。在具体实现时，本领域的技术人员可以基于任意可行的语种(语言)区别对文本进行拆分。例如，针对中文/德文进行文本拆分，基于中文/英文/德文进行文本拆分。

例如，在一实施例中，针对不同的语种(语言)添加拆分标记(语言标记)，0代表中文，1代表英文。表一为文本拆分表。

表1DD222102I01

输入文本“再也不愿向邻国轻易低头了。He l l o’s”，拆分结果如表1所示。

文本词(Subword)为“再/也/不/愿/向/邻/国/轻/易/低/头/了/。/He l l o/’/s”。

对文本进行分词，生成文本词“再/也/不/愿/向/邻国/轻易/低头/了/。/He l lo’s”。其中，“再”的词性标记为“d”，拆分标记为“0”，“也”的词性标记为“d”，拆分标记为“0”，“不”的词性标记为“d”，拆分标记为“0”，“愿”的词性标记为“v”，拆分标记为“0”，“向”的词性标记为“p”，拆分标记为“0”，“邻国”的词性标记为“n”，拆分标记为“0”，“轻易”的词性标记为“d”，拆分标记为“0”，“低头”的词性标记为“v”，拆分标记为“0”，“了”的词性标记为“y”，拆分标记为“0”，“。”的词性标记为“w”，拆分标记为“0”，“He l l o”的词性标记为“n”，拆分标记为“1”，“’”的词性标记为“n”，拆分标记为“1”，“s”的词性标记为“n”，拆分标记为“1”。

S322、对S31中生成的文本词进行文本向量化(Char embedd i ng)，生成文本向量。

S323、对S31中生成的文本词进行语言识别码向量化(LangI D embedd i ng)，生成语言向量。

S324、对S31中生成的词性进行词性向量化(Pos embedd i ng)，生成词性向量。

之后，基于S323的结果，区分不同语种的向量，针对不同语种的向量分别进行韵律预测计算。

具体的，以中文/英文文本划分为例。

S331、将S322中生成的文本向量、S323中生成的语言向量和S324中生成的词性向量中，对应中文文本的向量，通过双向长短时记忆(b id i rect iona l l org shortterm memory，简称BLSTM)进行计算，生成第一预测向量。

S341、将S331中生成的第一预测向量通过模糊神经网络(Factor i sat i onMach i ne supported Neura l Network，简称FNN)进行计算，生成第一训练向量。

S351、将S341中生成的第一训练向量通过归一化指数函数(Softmax)进行计算，生成中文的韵律预测结果，以输出中文的韵律预测结果(CN Output)(第一韵律预测结果)。

S332、将S322中生成的文本向量、S323中生成的语言向量和S324中生成的词性向量中，对应英文文本的向量，通过双向长短时记忆(b id i rect iona l l org shortterm memory，简称BLSTM)进行计算，生成第二预测向量。

S342、将S332中生成的第二预测向量通过模糊神经网络(Factor i sat i onMach i ne supported Neura l Network，简称FNN)进行计算，生成第二训练向量。

S352、将S342中生成的第二训练向量通过归一化指数函数(Softmax)进行计算，生成英文的韵律预测结果，以输出英文的韵律预测结果(EN Output)(第二韵律预测结果)。

S351和S352之后，将中文的韵律预测结果(S351)和英文的韵律预测结果(S352)进行混合输出，输出中英文混合的韵律预测结果(merge output)(多语种混合的韵律预测结果)。

在图2所示实施例中，因为TTS需要支持多语种(例如，中英文)混说，词表数据量庞大(例如，英文的词表需要包括多个整个的英文单词)。

在图3所示实施例中，对输入的文本进行基于语种的字词拆分，就可以减少词表的数据量(以英文为例，词表包括英文的词源、词根和词缀，词表数据量可以下降约90％)，从而降低向量化(embedd i ng)模型(S322、S323、S324、S331、S332、S341、S432、S351、S352中所使用的一个或多个模型)的参数量。

进一步的，向量化(embedd i ng)模型支持多语种混合模型，这样就可以进一步减少模型数据量。例如，可以训练字表embedd i ng，构建多任务的多语种多任务韵律预测模型，合并subword对应的结果。

本申请实施例提供的数据处理方法的技术方案中，获取文本，文本的内容包括第一语种以及第二语种；对文本进行拆分，生成多个文本词和每个文本词对应的词性，包括：基于第一语种以及第二语种间的语种差异对文本进行拆分；针对文本词以及词性进行向量化，获取向量化结果；针对第一语种对应的向量化结果，进行韵律预测计算，获取第一韵律预测结果；针对第二语种对应的向量化结果，进行韵律预测计算，获取第二韵律预测结果；将第一韵律预测结果以及第二韵律预测结果进行混合输出，输出多语种混合的韵律预测结果，并能够实现韵律预测模型的小型化。

进一步的，在图1所示的语音合成***中，声学模型14通过学习音频的特征信息(音素级别)，自学习音频的细粒度韵律信息，并与输入音频一一对应，推断时可加入一个韵律预测模块。

具体的，图4为根据本申请一实施例提供的一种音频数据处理装置的结构示意图。数据处理装置为韵律预测模块，声学模型14基于图4所示的韵律预测模块实现细粒度韵律预测。

如图4所示，获取输入文本(I nput Text)，将输入文本输入语言识别码(LangI D)模块211，语言识别码(LangI D)模块211对输入的文本进行语言识别，生成语言识别码。

语言识别码模块211将语言识别码模块211中生成的语言识别码输入语言向量化模块(Lang Embedd i ng)212，语言向量化模块212对语言识别码进行语言向量化，生成语言向量。

将文本输入文本向量化模块(Text Embedd i ng)213，文本向量化模块213对文本进行向量化，生成文本向量。

语言向量化模块212将语言向量输入注意力(Transformer)模型214，文本向量化模块213将文本向量输入注意力模型214。

Transformer模型214从语言向量化模块(Lang Embedd i ng)212生成的语言向量和文本向量化模块(Text Embedd i ng)213生成的文本向量中提取全局特征。

获取待处理声学特征，将待处理声学特征与持续时间进行平均化(AVG)，并输入音频编码器(Phone encoder)，生成编码结果，其中，音频编码器包括2组叠加的一维卷积(Conv1 D)+线性整流函数(L i near rect i f icat ion funct ion，简称Re l u)模块215、归一化处理(LN)+丢弃(Dropout)模块216，以及线性层(L i near Layer)217。

其中，归一化处理(LN)+丢弃(Dropout)模块216中包括LN操作和dropout操作，LN操作是为了解决梯度消失的问题,dropout操作是为了解决过拟合的问题。

将持续时间(Durat ion)、注意力(Transformer)模型214生成的全局特征和音频编码器(Phone encoder)生成的编码结果输入上采样(LR)模块218，生成语音信号。

上采样(LR)模块218将语音信号发送至Transformer模型219，Transformer模型219对语音信号进行处理，生成语音特征。

Transformer模型219将语音特征发送至线性投影模块(L i near project ion)220，线性投影模块220对语音特征进行处理，生成线性预测结果。

线性投影模块220将线性预测结果发送至5层卷积的后处理网络(5conv l ayerpost-net)221，5层卷积的后处理网络221对线性预测结果进行处理，生成重构语音。

线性投影模块220生成的线性预测结果和5层卷积的后处理网络221生成的重构语音进行输出相加(残差连接)，生成音频声学特征。

基于图4所示结构，声学模型14学习细粒度的韵律信息就是一个回归问题，推断时拟合难度较大，需要增加模型复杂度来学习，不利于端侧设备部署。

针对上述问题，在本申请一实施例中，提出了一种声学模型细粒度韵律预测方法。对声学特征进行聚类，获取音频类别(Phone category)以及对应的聚类中心向量(Central vector)。

基于音频类别以及聚类中心向量训练声学模型，将声学模型学习细粒度韵律信息由回归问题转化为分类问题，从而在保证模型效果的前提下降低模型复杂程度。

图5为根据本申请一实施例提供的一种模型训练的流程图。

S500，获取用于训练模型的音频类别以及对应的聚类中心向量。

具体的，在S500中，求取音素级别对应的声学特征均值，使用聚类算法将声学特征均值聚类成N个类别(N为超参数)，并求取N个类别的聚类中心向量。

图6为根据本申请一实施例提供的模型训练样本获取流程图。电子设备执行如图6所示的下述步骤以实现S500。

获取输入文本(I nput Text)、持续时间(Durat ion)和声学特征(样本声学特征)，结合输入文本和持续时间，对声学特征进行平均化(AVG)，生成声学特征均值。

具体的，声学特征包括梅尔(me l)、线性预测系数(l pc)、线性谱等等。

将声学特征均值输入聚类算法模块411，生成N个音频类别(Phone category)和音频类别的聚类中心向量(Centra l vector 1、Centra l vector 2…Centra l vector N)。

具体的，在一实施例中，聚类算法模块411配置有聚类算法，聚类算法包括：均值漂移聚类、K均值聚类算法(K-kmeans)、自组织映射(Se l f-Organ i z i ng Map，简称SOM)聚类算法、模糊C均值算法(FCM)聚类算法等。

S510，选定第一真实音频类别(第一音频类别样本)，第一真实音频类别为S500中生成的一个真实的音频类别。

S520，将输入文本(I nput Text)输入到声学模型的音频编码器(phoneencoder)，输出第一编码输出。

S530，根据第一编码输出预测对应第一编码输出的第一预测音频类别。

具体的，训练韵律等级预测模块(音频类别预测器(Phone category pred ict))，韵律等级预测模块用于根据音频编码器的输出生成对应的音频类别。基于音频类别预测器(Phone category pred ict)实现S530。

S540，针对第一真实音频类别与第一预测音频类别进行损失计算(l oss)，获取损失值。

S550，根据S540计算的损失值训练声学模型的解码器。

其中，声学模型的解码器包括图8中的Transformer模型521和线性投影模块522。

进一步的，在对声学模型的解码器进行训练的基础上，还对声学模型的解码器进行推理(优化)。

图7为根据本申请一实施例提供的一种模型推理的流程图。

如图7所示，该方法包括：

S400，获取输入文本(I nput Text)，将输入文本输入到声学模型的音频编码器(phone encoder)，输出第一编码输出。

S410，将S400中第一编码输出输入音频类别预测器(Phone category pred ict)，生成第一预测聚类中心向量。

具体的，S410包括基于公式：

Centra l_V ＝ ∑^N _i＝0 (probab i l i ty_i * Centra l_vector_i) (式1)

计算第一预测聚类中心向量。

式1中：

Centra l_V为预测聚类中心向量；

Centra l_vector_i为第i个音频类别对应的聚类中心向量；

probab i l ity_i为第i个音频类别对应的概率值。

其中，音频类别预测器(Phone category pred ict)是一个多分类网络，将第一编码输出输入该网络，可输出音频类别，取该网络的上一层就是每个音频类别对应的概率值。

S420，根据S400输出的第一编码输出以及S410计算的第一预测聚类中心向量推理出声学模型的解码器。

图8为根据本申请一实施例提供的声学模型结构示意图。

如图8所示，可变信息预测器(var i ance pred ictor)524用于通过预训练的网络模型，根据Transformer模型521发送的全局特征预测声学辅助特征(如谐振频率f0，能量energy，音频类别phone category和/或持续时间durat i on)。

非自回归语音合成模型(Fastspeech)框架下的可变信息预测器524包括：一维卷积+线性整流函数模块525、归一化处理+丢弃模块526、一维卷积+线性整流函数模块527、归一化处理+丢弃模块528和线性层529。

基于可变信息预测器(var i ance pred ictor)524实现音频类别预测器。即，基于可变信息预测器(var i ance pred i ctor)524实现S530以及S410。

进一步的，在声学模型训练完毕后，如图8所示，声学模型的运行过程包括：

获取待处理声学特征。

根据待处理声学特征，获取待处理声学特征对应的音频类别(Phone category)。

查找音频类别对应的聚类中心向量(Centra l vector 1、Centra l vector 2…Centra l vector N)。

将聚类中心向量(Centra l vector 1、Centra l vector 2…Centra l vectorN)输入音频编码器(Phone encoder)，音频编码器对N个音频类别对应的聚类中心向量(Centra l vector 1、Centra l vector 2…Centra l vector N)进行计算，生成编码结果。

其中，音频编码器包括一维卷积(Conv1 D)+线性整流函数(L i near rect i ficat ion funct ion，简称Re l u)模块517、归一化处理(LN)+丢弃(Dropout)模块518和线性层(L i near Layer)519。

其中，归一化处理(LN)+丢弃(Dropout)模块518中包括LN操作和dropout操作，LN操作是为了解决梯度消失的问题,dropout操作是为了解决过拟合的问题。

获取文本，将文本输入(I nput Text)语言识别码(LangI D)模块513，语言识别码(LangI D)模块513对输入的文本进行语言识别，生成语言识别码。

语言识别码模块513将语言识别码模块513中生成的语言识别码输入语言向量化模块(Lang Embedd i ng)514，语言向量化模块514对语言识别码进行语言向量化，生成语言向量。

将文本输入文本向量化模块(Text Embedd i ng)515，文本向量化模块515对文本进行向量化，生成文本向量。

语言向量化模块514将语言向量输入Transformer模型516，文本向量化模块515将文本向量输入Transformer模型516，Transformer模型516对语言向量和文本向量进行计算，生成全局特征。

将持续时间(Durat ion)、注意力(Transformer)模型516生成的全局特征和音频编码器(Phone encoder)生成的编码结果输入上采样(LR)模块520，生成语音信号。

上采样(LR)模块520将语音信号发送至Transformer模型521，Transformer模型521对语音信号进行处理，生成语音特征。

Transformer模型521将语音特征发送至线性投影模块(L i near project ion)522，线性投影模块522对语音特征进行处理，生成线性预测结果。

线性投影模块522将线性预测结果发送至5层卷积的后处理网络(5conv l ayerpost-net)523，5层卷积的后处理网络523对线性预测结果进行处理，生成重构语音。

线性投影模块522生成的线性预测结果和5层卷积的后处理网络523生成的重构语音进行输出相加(残差连接)，生成音频声学特征。

根据图8所示声学模型，以音频类别(Phone category)以及对应的聚类中心向量(Centra l vector)为输入，将声学模型学习细粒度韵律信息由回归问题转化为分类问题，从而在保证模型效果的前提下降低模型复杂程度。

本申请一实施例还提出了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行上述方法。

本申请一实施例还提出了一种电子设备，电子设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发电子设备执行如本申请实施例所述的方法步骤。

具体的，在本申请一实施例中，上述一个或多个计算机程序被存储在上述存储器中，上述一个或多个计算机程序包括指令，当上述指令被上述设备执行时，使得上述设备执行本申请实施例所述的方法步骤。

示例性地，图9示出了本申请实施例提供的一电子设备的硬件结构示意图。如图9所示，电子设备可以包括处理器100，通信模块120，显示器130，指示器140、内部存储器150，外部存储器接口160，通用串行总线(universal serial bus，USB)接口170，电源管理模块180等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备的具体限定。在本申请另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

电子设备的处理器100可以是片上装置SOC，该处理器中可以包括中央处理器(Central Processing Unit，CPU)，还可以进一步包括其他类型的处理器。例如，处理器100可以是PWM控制芯片。

处理器100涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units，NPU)和图像信号处理器(Image Signal Processing，ISP)，处理器100还可包括必要的硬件加速器或逻辑处理硬件电路，如ASIC，或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外，处理器100可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储介质中。

处理器100可以包括一个或多个处理单元。例如：处理器100可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的部件，也可以集成在一个或多个处理器中。在一些实施例中，电子设备也可以包括一个或多个处理器100。其中，控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

在一些实施例中，处理器100可以包括一个或多个接口。接口可以包括集成电路间(inter-integrated circuit，I2C)接口，集成电路间音频(integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，和/或USB接口等。其中，USB接口170是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口170可以用于电子设备与***设备之间传输数据。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备的结构限定。在本申请另一些实施例中，电子设备也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

外部存储器接口160可以用于连接外部存储器，例如移动硬盘，实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口160与处理器100通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

电子设备的内部存储器150可以用于存储一个或多个计算机程序，该一个或多个计算机程序包括指令。处理器100可以通过运行存储在内部存储器150的上述指令，从而使得电子设备执行本申请一些实施例中所提供的方法，以及各种应用以及数据处理等。内部存储器150可以包括代码存储区和数据存储区。其中，代码存储区可存储操作***。数据存储区可存储电子设备使用过程中所创建的数据等。此外，内部存储器150可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储部件，闪存部件，通用闪存存储器(universal flash storage，UFS)等。

内部存储器150可以是只读存储器(read-only memory，ROM)、可存储静态信息和指令的其它类型的静态存储设备、随机存取存储器(random access memory，RAM)或可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备，或者还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何计算机可读介质。

处理器100和内部存储器150可以合成一个处理装置，更常见的是彼此独立的部件，处理器100用于执行内部存储器150中存储的程序代码来实现本申请实施例所述方法。具体实现时，内部存储器150也可以集成在处理器中，或者，独立于处理器。

电源管理模块180用于为电子设备供电。

电源管理模块180用于连接电池与处理器100。电源管理模块180接收电池的输入，为处理器100，内部存储器150，外部存储器接口160，通信模块120等供电。电源管理模块180还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块180也可以设置于处理器100中。

电子设备的通信功能可以通过通信模块120，调制解调处理器以及基带处理器等实现。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过显示器130进行显示。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器100，与通信模块120或其他功能模块设置在同一个器件中。

通信模块120可以提供应用在电子设备上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星***(global navigation satellite system，GNSS)等无线通信的解决方案。通信模块120可以是集成至少一个通信处理模块的一个或多个器件。通信模块120将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器100。通信模块120还可以从处理器100接收待发送的信号，对其进行调频，放大，转为电磁波辐射出去。

进一步的，本申请实施例阐明的设备、装置、模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。

本领域内的技术人员应明白，本申请实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

在本申请所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

具体的，本申请一实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行本申请实施例提供的方法。

本申请一实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，当其在计算机上运行时，使得计算机执行本申请实施例提供的方法。

本申请中的实施例描述是参照根据本申请实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本申请实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以意识到，本申请实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本申请的具体实施方式，任何熟悉本技术领域的技术人员在本申请公开的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种音频数据处理方法，其特征在于，所述方法应用于电子设备，所述方法包括：

获取待处理声学特征对应的音频类别；

获取所述音频类别对应的聚类中心向量；

将所述待处理声学特征对应的文本、持续时间以及所述聚类中心向量输入到声学模型的音频编码器，其中，所述声学模型为，基于音频类别样本以及对应所述音频类别样本的聚类中心向量样本进行模型训练所获取的模型；

获取所述声学模型的输出；

所述获取待处理声学特征对应的音频类别，包括：

获取所述待处理声学特征以及所述待处理声学特征对应的所述文本、所述持续时间；

结合所述文本和所述持续时间，对所述待处理声学特征进行平均化，生成声学特征均值；

基于聚类算法，根据所述声学特征均值生成所述待处理声学特征对应的音频类别。

2.根据权利要求1所述的方法，其特征在于，所述声学模型的训练过程包括：

获取第一音频类别样本；

获取所述第一音频类别样本对应的第一聚类中心向量样本；

将所述第一聚类中心向量样本输入到所述声学模型的音频编码器，获取针对所述第一聚类中心向量样本的第一编码输出；

根据所述第一编码输出预测对应所述第一编码输出的第一预测音频类别；

根据所述第一预测音频类别以及所述第一音频类别样本训练所述声学模型的解码器。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一预测音频类别以及所述第一音频类别样本训练所述声学模型的解码器，包括：

针对所述第一音频类别样本与所述第一预测音频类别进行损失计算，获取损失值；

根据所述损失值训练所述声学模型的解码器。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述第一编码输出计算对应所述第一预测音频类别的第一预测聚类中心向量；

根据所述第一编码输出以及所述第一预测聚类中心向量推理所述声学模型的解码器。

5.根据权利要求2所述的方法，其特征在于，所述获取第一音频类别样本，包括：

获取样本声学特征以及所述样本声学特征对应的文本、持续时间；

结合所述文本和所述持续时间，对所述样本声学特征进行平均化，生成声学特征均值；

基于聚类算法，根据所述声学特征均值生成所述第一音频类别样本以及所述第一聚类中心向量样本。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述获取待处理声学特征对应的音频类别之前，所述方法还包括：

获取文本，所述文本的内容包括第一语种以及第二语种；

对所述文本进行拆分，生成多个文本词和每个文本词对应的词性，包括：基于所述第一语种以及所述第二语种间的语种差异对所述文本进行拆分；

针对所述文本词以及所述词性进行向量化，获取向量化结果；

针对所述第一语种对应的所述向量化结果，进行韵律预测计算，获取第一韵律预测结果；

针对所述第二语种对应的所述向量化结果，进行韵律预测计算，获取第二韵律预测结果；

将所述第一韵律预测结果以及所述第二韵律预测结果进行混合输出，输出多语种混合的韵律预测结果。

7.根据权利要求6所述的方法，其特征在于，所述对所述文本进行拆分，生成多个文本词和每个文本词对应的词性，还包括：

为所述文本词添加对应的语种标记。

8.根据权利要求6所述的方法，其特征在于，所述针对所述文本词以及所述词性进行向量化，获取向量化结果，包括：

对所述文本词进行文本向量化，生成文本向量；

对所述文本词进行语言识别码向量化，生成语言向量；

对所述词性进行词性向量化，生成词性向量。

9.根据权利要求6所述的方法，其特征在于，所述针对所述第一语种对应的所述向量化结果，进行韵律预测计算，获取第一韵律预测结果，包括：

针对所述第一语种对应的所述向量化结果，通过双向长短时记忆进行计算，生成第一预测向量；

将所述第一预测向量通过模糊神经网络进行计算，生成第一训练向量；

将所述第一训练向量通过归一化指数函数进行计算，生成所述第一韵律预测结果。

10.根据权利要求6所述的方法，其特征在于，所述文本的内容还包括第三语种；

所述对所述文本进行拆分，生成多个文本词和每个文本词对应的词性，包括：基于所述第一语种、所述第二语种以及所述第三语种间的语种差异对所述文本进行拆分；

所述方法还包括：

针对所述第三语种对应的所述向量化结果，进行韵律预测计算，获取第三韵律预测结果；

将所述第一韵律预测结果、所述第二韵律预测结果以及所述第三韵律预测结果进行混合输出，输出所述多语种混合的韵律预测结果。

11.一种模型训练方法，其特征在于，所述方法应用于电子设备，所述方法包括：

获取第一音频类别样本；

获取所述第一音频类别样本对应的第一聚类中心向量样本；

将所述第一聚类中心向量样本输入到声学模型的音频编码器，获取针对所述第一聚类中心向量样本的第一编码输出；

根据所述第一预测音频类别以及所述第一音频类别样本训练所述声学模型的解码器；

所述获取第一音频类别样本，包括：

12.根据权利要求11所述的方法，其特征在于，所述根据所述第一预测音频类别以及所述第一音频类别样本训练所述声学模型的解码器，包括：

根据所述损失值训练所述声学模型的解码器。

13.根据权利要求11所述的方法，其特征在于，所述方法还包括：

14.一种电子设备，其特征在于，所述电子设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当所述计算机程序指令被该处理器执行时，触发所述电子设备执行如权利要求1-10中任一项所述的方法步骤。

15.一种电子设备，其特征在于，所述电子设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当所述计算机程序指令被该处理器执行时，触发所述电子设备执行如权利要求11-13中任一项所述的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-13中任一项所述的方法。