CN118098199A

CN118098199A - 个性化语音合成方法、电子设备、服务器和存储介质

Info

Publication number: CN118098199A
Application number: CN202410510488.6A
Authority: CN
Inventors: 龚雪飞; 邢晓羊; 何金玲; 金鑫
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2024-04-26
Filing date: 2024-04-26
Publication date: 2024-05-28

Abstract

本申请实施例提供一种个性化语音合成方法、电子设备、服务器和存储介质，该方法包括：在电子设备开启语音合成功能的情况下，获取电子设备中需要进行语音合成的文字信息，文字信息包括用户输入的文字信息和电子设备生成的文字信息；获取用户对应的音频特征和文本特征，音频特征为根据用户进行语音合成功能注册时所录入的语音信息而生成的特征，文本特征为根据用户进行语音合成功能注册时所朗读的注册文本信息而生成的特征；基于音频特征、文本特征以及文字信息对应的编码结果，确定对文字信息进行语音合成时的拉伸时长；基于拉伸时长，通过音频模型对文字信息和音频特征进行语音合成，输出个性化语音。该方法可以提高语音合成的效果。

Description

个性化语音合成方法、电子设备、服务器和存储介质

技术领域

本申请涉及电子技术领域，具体涉及一种个性化语音合成方法、电子设备、服务器和存储介质。

背景技术

随着电子设备的不断发展，电子设备丰富的功能为用户生活提供了极大的便利。例如，在电子设备开启语音助手功能的情况下，用户可以与电子设备进行语音对话，如果用户输入一句语音，则电子设备可以基于该语音进行语音回复。再例如，在电子设备开启人工智能（artificial intelligence，AI）通话功能的情况下，如果电子设备接通了一个来电，则用户可以在通话界面输入文字，使电子设备将文字合成语音发送给对方电子设备。

在上述场景下，无论是电子设备进行语音回复还是将文字合成语音，都会涉及语音合成（text to speech，TTS）过程。而为了提高用户的使用体验，电子设备还提供有个性化语音合成功能，可以供用户自己录制语音，使得后续电子设备输出的语音为用户自己的音色。对于此功能，如何使所合成的语音更贴近用户实际的韵律等特征是一个需要解决的问题。

发明内容

本申请提供了一种个性化语音合成方法、电子设备、服务器和存储介质，可以使合成的个性化语音的韵律等特征更贴近用户实际的特征，语音合成效果更佳。

第一方面，本申请提供一种个性化语音合成方法，该方法包括：在电子设备开启语音合成功能的情况下，获取电子设备中需要进行语音合成的文字信息，文字信息包括用户输入的文字信息和电子设备生成的文字信息；获取用户对应的音频特征和文本特征，音频特征为根据用户进行语音合成功能注册时所录入的语音信息而生成的特征，文本特征为根据用户进行语音合成功能注册时所朗读的注册文本信息而生成的特征；基于音频特征、文本特征以及文字信息对应的编码结果，确定对文字信息进行语音合成时的拉伸时长；基于拉伸时长，通过音频模型对文字信息和音频特征进行语音合成，输出个性化语音，其中，音频模型为根据训练数据中的第一文字信息和第一语音信息进行训练得到的与文本无关的模型。

其中，用户在使用电子设备的语音合成功能时，可以使电子设备输出用户想要使用的音色语音（即个性化语音），例如在语音助手功能的场景中，用户语音输入一段语句后，电子设备可以使用个性化语音进行回复，再例如在AI通话功能的场景中，用户输入文字信息，电子设备可以将文字信息转换为个性化语音（如用户自己的声音）回复给对方用户。

需要说明的是，本申请中的个性化语音合成方法可以由电子设备执行，也可以由服务器（如云端服务器）执行，在第一方面中以电子设备执行为例进行说明。

在本申请中，用户在进行语音合成功能注册（即自定义语音注册）时，用户可以朗读提示短语或语句（即注册文本），电子设备可以根据用户录入的语音信息来提取用户对应的音频特征，那么后续电子设备接收到文字信息后，便可以基于训练完成的音频模型对文字信息和用户对应的音频特征进行处理，得到带有用户音色的个性化语音。这里的音频模型为根据训练数据中的第一文字信息和第一语音信息进行训练得到的与文本无关的模型，那么，在对文字信息和用户对应的音频特征进行处理时，音频模型可以以用户对应的音频特征为提示，合成带有用户音色的语音来输出。而为了使所输出的语音信息的韵律等特征与用户实际的特征更加贴近，则需要对语音信息对应的时长进行有效预测，因此，本申请中基于用户进行语音合成功能注册时的音频特征、文本特征对当前的文字信息进行拉伸时长的预测，并基于该拉伸时长对文字信息和音频特征进行语音合成，以提高语音合成的效果。

对于上述电子设备中需要进行语音合成的文字信息，在语音助手功能的场景中，该文字信息可以为电子设备针对用户输入的语音进行查询并回复的信息，在AI通话功能的场景中，该文字信息可以为用户所输入的要回复对方用户的信息。

结合第一方面，在第一方面的有些实现方式中，上述基于音频特征、文本特征以及文字信息对应的编码结果，确定对文字信息进行语音合成时的拉伸时长，包括：将音频特征和文本特征输入第一时长预测模型，输出第一预测时长；将第一预测时长和文字信息对应的编码结果输入第二时长预测模型，输出拉伸时长。

其中，为提高拉伸时长的预测精度以提高语音合成的效果，本申请采用两级时长预测模型，第一时长预测模型基于用户对应的音频特征和文本特征，输出第一预测时长，再将第一预测时长和要语音合成的文字信息对应的编码结果输入第二时长预测模型，由第一预测时长作为提示信息，输出第二预测时长，也即上述的拉伸时长。

结合第一方面，在第一方面的有些实现方式中，上述第一时长预测模型和第二时长预测模型的训练方式包括：

获取第一文字信息对应的第一语义特征和第一语音信息对应的第一声学特征；

将第一语义特征与第一声学特征进行对齐处理，确定第一语义特征对应的第一拉伸时长特征；

生成随机数k，根据随机数k将第一语义特征划分为第一子特征和第二子特征，将第一拉伸时长特征划分为第三子特征和第四子特征，以及将第一声学特征划分为第五子特征和第六子特征；

将第一子特征和第五子特征输入第一时长预测模型，根据输出结果与第三子特征之间的损失，调整第一时长预测模型的参数值，以至第一时长预测模型收敛；

将第二子特征和第三子特征输入第二时长预测模型，根据输出结果与第四子特征之间的损失，调整第二时长预测模型的参数值，以至第二时长预测模型收敛。

可以理解，如果要使用上述两级时长预测模型，则需要对第一时长预测模型和第二时长预测模型进行训练，训练过程所使用的训练数据可以与上述音频模型所使用的训练数据一致。首先，电子设备可以对训练数据中的第一文字信息进行前端处理、维度映射处理（embedding）、编码处理（encoder）和时长拉伸处理（LR），得到第一语义特征（semantic），再对训练数据中的第一语音信息进行音频编码处理、多通道映射处理（embedding）和多通道累加处理，得到第一声学特征（acoustic）。同时，第一语义特征与第一声学特征对齐时，可以得到第一语义特征对应的第一拉伸时长特征（duration）。然后，电子设备可以生成一个随机数k，将第一语义特征划分为第一子特征prompt_se和第二子特征target_se，将第一拉伸时长特征划分为第三子特征prompt_dur和第四子特征target_dur，以及将第一声学特征划分为第五子特征prompt_ac和第六子特征target_ac。接下来，可以将prompt_se和prompt_ac输入第一时长预测模型，预测用户语音输出prompt_se对应的音素时的第一时长pmt_dur_predict，并计算pmt_dur_predict和prompt_dur之间的第一损失，基于该第一损失调整第一时长预测模型的模型参数，直至训练收敛；再将prompt_dur和target_se输入第二时长预测模型，以prompt_dur作为提示信息，预测用户语音输出target_se对应的音素时的第二时长tg_dur_predict，计算tg_dur_predict和target_dur之间的第二损失，并基于该第二损失调整第二时长预测模型的模型参数，直至训练收敛。

由于在第二时长预测模型训练的过程中，输入的是prompt_dur和target_se，相较于prompt_ac来说信息量大幅减少，因此，可以减少无关信息的干扰，提高时长预测模型的收敛效果，进而提高所预测的语音时长的准确性，提高语音合成的效果。

结合第一方面，在第一方面的有些实现方式中，随机数k的取值范围为[，/>]，L为第一语义特征的数据长度。

结合第一方面，在第一方面的有些实现方式中，上述根据随机数k将第一语义特征划分为第一子特征和第二子特征，包括：从第一语义特征的第一位置开始取k长度的特征作为第一子特征，剩余部分的特征组合作为第二子特征；

将第一拉伸时长特征划分为第三子特征和第四子特征，包括：从第一拉伸时长特征的第一位置开始取k长度的特征作为第三子特征，剩余部分的特征组合作为第四子特征；

将第一声学特征划分为第五子特征和第六子特征，包括：从第一声学特征的第一位置开始取k长度的特征作为第五子特征，剩余部分的特征组合作为第六子特征。

在上述使用随机数k对各个特征进行划分时，考虑到用户说话时刚开始可能会有一段时间的空白语音，如果将语义特征和声学特征划分为前后两部分，则前部分的特征中可能会有一些空值，那么在将前部分的特征记为prompt供后续作为提示信息的话，空值就会影响预测精度。因此，本申请中电子设备可以根据随机数k从语义特征、拉伸时长和声学特征的中间部分进行截取，再将剩余部分进行组合，以得到各个特征的prompt和target。

结合第一方面，在第一方面的有些实现方式中，上述基于拉伸时长，通过音频模型对文字信息和音频特征进行语音合成，输出个性化语音，包括：通过音频模型对文字信息进行特征提取，得到文字信息对应的具有拉伸时长的长度的语义特征；通过音频模型对语义特征和音频特征进行语音合成，输出个性化语音。

其中，在电子设备采用音频模型对文字信息和用户对应的音频特征进行语音合成时，可以基于拉伸时长先对文字信息进行特征提取，得到具有拉伸时长的长度的语义特征，进而再基于语义特征和用户对应的音频特征进行语音合成。

在一些实现方式中，电子设备可以先对文字信息进行文本正则处理、韵律预测处理、注音处理等前端处理，得到文字信息所对应的音素信息，再通过音频模型对音素信息进行维度映射处理、编码处理以及时长拉伸处理，得到具有拉伸时长的长度的语义特征。

其中，维度映射处理是指将高维度的数据（例如文字、图片、音频）映射到低维度空间的过程；编码处理是指对输入的文本信息进行特征整合，转化维高位抽象的特征块的过程；时长拉伸处理是指对文字信息进行朗读时长的拉伸，即预测朗读每个文字（或音素）时的时长，并将时长信息加入文字信息中。

在通过音频模型对语义特征和用户对应的音频特征进行语音合成时，可以将用户对应的音频特征作为音色提示，对语义特征和音频特征进行融合以及解码，以将文字信息转换为与用户音色相同的个性化语音。因此，无论对于什么样的文字信息，只要提取到用户注册时的音频特征，都可以将文字信息转换为个性化语音，提高了语音合成的处理效率。

结合第一方面，在第一方面的有些实现方式中，上述获取用户对应的音频特征和文本特征，包括：获取用户进行语音合成功能注册时所录入的语音信息，以及用户进行语音合成功能注册时所朗读的注册文本信息；对录入的语音信息进行音频编码处理、多通道映射处理以及多通道累加处理，得到用户对应的音频特征；对注册文本信息进行前端处理，得到文本特征。

其中，用户在进行语音合成功能注册时，电子设备提供有相应的注册界面。例如在语音助手功能的场景中，在智慧语音设置界面，用户可以对播报音色进行设置，例如进行自定义音色设置。在自定义音色设置界面，显示有朗读短语的提示，用户可以朗读对应的短语（即注册文本），以使电子设备对用户的声音进行录制。可选地，如果用户没有录制成功，则可以重新进行录制。可选地，在本申请中，用户在录入语音信息时，对应朗读的短语句数N≤2。

在录制完成之后，电子设备便可以对用户录制的语音信息进行音频编码处理、多通道映射处理以及多通道累加处理，以得到用户对应的音频特征，以及对注册文本信息进行前端处理，得到文本特征。可选地，电子设备还可以将用户对应的音频特征与用户的标识关联存储在特征库中，那么后续电子设备在进行语音合成时，可以直接从特征库中查找该用户对应的音频特征。

上述实现方式中，用户在自定义音色注册时，只需要朗读少句短语即可完成，无需再朗读多句，操作起来比较简易，提高了用户体验。

第二方面，本申请提供一种时长预测模型的训练方法，该方法包括：

获取训练数据中的第一文字信息和第一语音信息；

提取第一文字信息对应的第一语义特征和第一语音信息对应的第一声学特征；

其中，该时长预测模型的训练过程可以参见上述第一方面的描述，由于在第二时长预测模型训练的过程中，输入的是第三子特征prompt_dur和第二子特征target_se，相较于prompt_ac来说信息量大幅减少，因此，可以减少无关信息的干扰，提高时长预测模型的收敛效果，进而提高所预测的语音时长的准确性，提高语音合成的效果。

第三方面，本申请提供一种装置，该装置包含在电子设备中，该装置具有实现上述第一方面及上述第一方面的可能实现方式中电子设备行为的功能，或者具有实现第二方面中电子设备行为的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如，接收模块或单元、处理模块或单元等。

第四方面，本申请提供一种电子设备，电子设备包括：处理器、存储器和接口；处理器、存储器和接口相互配合，使得电子设备执行第一方面的技术方案中任意一种方法，或者执行第二方面的技术方案中的方法。

第五方面，本申请提供一种服务器，服务器包括一个或多个处理器；一个或多个存储器；所述存储器存储有一个或多个程序，当所述一个或多个程序被所述处理器执行时，使得所述服务器执行如第一方面的技术方案中任意一种方法，或者执行第二方面的技术方案中的方法。

在一个实现方式中，服务器可以为云端服务器，云端服务器在得到个性化语音之后，还可以将个性化语音返回给电子设备，由电子设备将个性化语音进行输出或者发送给其他电子设备。

第六方面，本申请提供一种芯片，包括处理器。处理器用于读取并执行存储器中存储的计算机程序，以执行第一方面及其任意可能的实现方式中的方法，或者执行第二方面的技术方案中的方法。

可选地，芯片还包括存储器，存储器与处理器通过电路或电线连接。

进一步可选地，芯片还包括通信接口。

第七方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储了计算机程序，当计算机程序被处理器执行时，使得该处理器执行第一方面的技术方案中任意一种方法，或者执行第二方面的技术方案中的方法。

第八方面，本申请提供一种计算机程序产品，计算机程序产品包括：计算机程序代码，当计算机程序代码在电子设备上运行时，使得该电子设备执行第一方面的技术方案中任意一种方法，或者执行第二方面的技术方案中的方法。

附图说明

图1是本申请实施例提供的一例语音助手功能的应用场景图；

图2是本申请实施例提供的一例AI通话功能的应用场景图；

图3是本申请实施例提供的一例电子设备的结构示意图；

图4是本申请实施例提供的一例对语音助手功能进行设置的界面示意图；

图5是本申请实施例提供的一例自定义音色设置过程的界面示意图；

图6是本申请实施例提供的另一例自定义音色设置过程的界面示意图；

图7是本申请实施例提供的又一例自定义音色设置过程的界面示意图；

图8是本申请实施例提供的一例音频模型训练过程的示意图；

图9是本申请实施例提供的一例时长预测模型训练过程的示意图；

图10是本申请实施例提供的一例个性化语音合成方法的过程示意图；

图11是本申请实施例提供的另一例个性化语音合成方法的过程示意图；

图12是本申请实施例提供的一例预测拉伸时长的过程示意图；

图13是本申请实施例提供的一例电子设备的软件结构框图；

图14是本申请实施例提供的一例个性化语音合成方法的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。

随着电子设备的不断发展，电子设备丰富的功能为用户生活提供了极大的便利。示例性地，在电子设备开启语音助手功能（例如A助理功能）的情况下，用户可以与电子设备进行语音对话，如果用户输入一句语音，则电子设备可以基于该语音进行语音回复，例如，用户语音输入“今天天气怎么样”，电子设备可以语音回复“今天最低气温为15摄氏度，最高气温为25摄氏度”；或者，用户还可以语音控制电子设备，例如，用户语音输入“打开A应用”，电子设备可以语音回复“好的”并进入A应用的界面。再示例性地，在电子设备开启AI通话功能的情况下，如果电子设备接通了一个来电，则用户可以在通话界面输入文字，使电子设备将文字合成语音发送给对方电子设备。

在语音助手功能的场景中，示例性地，当用户触发唤醒语音助手后，电子设备A可以显示如图1中的（a）图所示的语音输入界面，用户可以语音输入“今天天气怎么样”，此时电子设备A上可以显示出该语音对应的文字。在电子设备A识别到此语音后，便可以后台通过网络查询今天的天气信息，并将天气信息对应的文字转换为语音进行输出，例如语音输出“今天最低气温为15摄氏度，最高气温为25摄氏度”。或者，如图1中的（b）图所示，在电子设备A识别此语音后，可以显示出语音对话框，该语音对话框中显示有用户语音输入的“今天天气怎么样”文字、以及电子设备A查询到的天气信息对应的文字“今天最低气温为15摄氏度，最高气温为25摄氏度”，同时，电子设备A还可以语音输出此天气信息。

在AI通话功能的场景中，示例性地，如图2所示，当电子设备A接收到电子设备B的来电时，电子设备A显示来电界面，该来电界面可以上包括用户名、来电号码、号码归属地以及运营商等信息，还可以包括接听控件21、拒接控件22以及第一控件23，可选地，第一控件23可以为触控弹窗、卡片、控件、悬浮球等电子设备上用于用户交互的显示形式。可选地，第一控件23可以包括开启“通话字幕”功能的文字提示选项区。如果用户在电子设备A上接听了来电并点击了第一控件23，则电子设备A可以将第一控件23更新显示为第一窗口200，即用户能够直接在接起电话的同时打开通话字幕。此时，电子设备A可以将电子设备B传输的语音信息1转换为对应的文字信息1，并将文字信息1显示在第一窗口200内，例如图2中所示的文字信息1为“你好，我是理财顾问小李”。如果用户在电子设备A上输入要回复的信息“请问有什么事”并点击发送控件24，则电子设备A还可以在第一窗口200内显示用户输入的文字信息2“请问有什么事”，并将“请问有什么事”的文字信息转为“请问有什么事”的语音信息2传输至电子设备B。

由上述场景的描述可知，无论电子设备A进行语音助手的语音回复还是进行AI通话的语音通话，都会涉及语音合成TTS的过程，语音合成旨在使电子设备生成不同音色的人类语音。不同的是，在语音助手功能中，电子设备是将查询到的文字信息或者固定回复的文字信息转换为语音进行输出，在AI通话功能中，电子设备是将用户输入的文字信息转换为语音发送给对方电子设备，但本质都需要将文字信息转换为语音信息。

近年来，为了提高用户的使用体验，电子设备还提供有个性化语音合成功能，可以供用户自己录制语音，使得后续电子设备输出用户自己音色的语音。示例性地，在语音助手功能的场景中，用户可以自定义音色，通过朗读模板文字来录制语音，以生成属于自己的个性化音色，那么后续用户使用语音助手功能与电子设备进行对话时，电子设备所输出的语音为定制的个性化语音。在AI通话场景中，用户也可以自定义音色，生成属于自己的个性化音色，那么后续用户在电子设备A上输入要回复的文字信息时，电子设备可以将该文字信息转换为个性化语音对应的语音信息，这样的话相当于是使用用户自己的声音来回复对方，使得用户体验比较好。

在相关技术中，电子设备通常需要构造一个音频模型，通过音频模型对用户在自定义音色时的音频特征和要语音输出的文字信息进行处理，输出该文字信息对应的具有用户音色的语音信息。然而，在该过程中，因每个文字所对应的语音信息都会有一个语音时长，如果没有对语音时长进行一个有效的预测，则可能会出现输出的语音信息的韵律等特征与用户实际的特征有所差异，即个性化语音的合成效果不佳。

有鉴于此，本申请实施例提供一种个性化语音合成方法，在对文字信息进行语音时长的预测时，采用两级时长预测模型，提高所预测的语音时长的准确性，以使音频模型合成的个性化语音的韵律等特征更贴近用户实际的特征，语音合成效果更佳。需要说明的是，本申请提供的个性化语音合成方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实（augmented reality，AR）/虚拟现实（virtual reality，VR）设备、笔记本电脑、超级移动个人计算机（ultra-mobile personal computer，UMPC）、上网本、个人数字助理（personal digital assistant，PDA）、智能家居等可以进行个性化语音设置的电子设备上，本申请实施例对电子设备的具体类型不作任何限制。

示例性的，图3是本申请实施例提供的一例电子设备100的结构示意图。以电子设备100是手机为例，电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了***的效率。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。图3中的天线1和天线2的结构仅为一种示例。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星***(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯***(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。GNSS可以包括全球卫星定位***(global positioning system，GPS)，全球导航卫星***(global navigation satellite system，GLONASS)，北斗卫星导航***(beidounavigation satellite system，BDS)，准天顶卫星***(quasi-zenith satellitesystem，QZSS)和/或星基增强***(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作***，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

还可以理解，上述图3所示仅仅为电子设备为手机时的示例性说明。若电子设备是平板电脑，PC，PDA，可穿戴式设备等其他类型的设备时，电子设备的结构中可以包括比图3中所示更少的结构，也可以包括比图3中所示更多的结构，在此不作限制。

由上述描述可知，如果用户要使用个性化语音合成功能，则需要进行自定义音色（也即进行语音合成功能注册）。本申请实施例提供一种个性化语音合成功能的设置过程，下面以在语音助手功能的场景中进行设置为例来介绍一下。示例性地，如图4所示，用户点击电子设备桌面界面上的设置图标，可以使电子设备进入设置界面。在设置界面中，包括有不同功能的设置选项，例如WLAN选项、蓝牙选项、显示和亮度选项、智慧助手选项等等，在用户点击智慧助手选项控件41的情况下，电子设备可以跳转至智慧助手设置界面。在智慧助手设置界面，包括有不同的智慧功能，例如助手建议、负一屏、智慧文本、智慧搜索、智慧语音等等，在用户点击智慧语音选项控件42的情况下，电子设备可以跳转至智慧语音设置界面。在智慧语音设置界面，包括有语音助手不同的唤醒方式，例如语音唤醒、电源键唤醒、气息唤醒、耳机线控唤醒以及蓝牙设备唤醒，用户可以根据需求选择对应的唤醒方式来唤醒语音助手。可以理解，用户在智慧语音设置界面选择了唤醒方式之后，即开启了语音助手功能，则后续可以使用本申请的个性化语音合成方法来合成个性化语音，以输出语音信息与用户进行对话等。

同时，在智慧语音设置界面，还可以对播报音色进行设置。在用户点击播报音色选项控件43的情况下，电子设备可以跳转至图5所示的界面。在该界面上，电子设备提供有不同类型的音色以供用户选择，例如可以选择助手（男声）、助手（女声）等等。除此之外，电子设备还提供有自定义音色的功能，在用户点击自定义音色控件51的情况下，电子设备可以跳转至自定义音色设置界面。在自定义音色设置界面，显示有已经录制的音色，例如音色1和音色2，以及包括新建音色控件52，在用户点击新建音色控件52的情况下，电子设备可以跳转至新建音色界面。在新建音色界面，呈现有创建个人声音的引导术语，如果此时用户想要录制自己的个性化语音，则可以点击下一步控件53，以触发进行语音录制。在用户点击下一步控件53的情况下，电子设备可以呈现出朗读短语的提示，用户可以在点击开始控件54后朗读对应的短语（也可称之为注册文本），电子设备即可以对用户的声音进行录制。可选地，本申请实施例在用户自定义音色注册时，只需要朗读N句短语（N≤2）即可实现。

在一些情况下，如果用户在录制过程中出现干扰或者朗读异常，导致没有录制成功，则电子设备可以显示如图6所示的提示界面，显示“录入失败，请重新录制”的提示信息，那么用户可以重新点击开始控件54后朗读对应的短语。

在另一些情况下，如果用户已录制成功，则电子设备可以显示如图7所示的界面，在该界面上显示有“播放录音”控件71，用户点击该“播放录音”控件71则可以收听刚才录制的内容。如果用户不满意所录制的内容，则可以点击上一步控件72，电子设备重新进入图5所示的界面进行录制。如果用户满意所录制的内容，则可以点击下一步控件73，电子设备进入合成音色界面，在该合成音色界面上，电子设备可以呈现有默认的合成短语以及对应的合成音色。例如默认的合成短语为“已为您设置明天早上8点的闹钟”，对应的合成音色可以通过“试听”控件74来进行收听，可以理解，该合成音色是电子设备对上述用户录制时的声音进行分析，提取用户的音色特征，再利用音色特征对合成短语进行推理得到的合成音色，也即可以理解为模拟用户的声音来朗读合成短语。此时，如果用户满意合成音色的效果，则可以点击完成控件75，即完成了自定义音色过程，那么后续用户在使用语音助手功能时，便可以相应的体验个性化语音合成功能，电子设备可以将回复用户的文字信息转换为个性化语音进行输出。

由上述场景描述可知，本申请实施例中用户在自定义音色注册时，只需要朗读少句短语即可完成，无需再朗读多句，操作起来比较简易，提高了用户体验。

可以理解，对于在AI通话功能的场景中，用户也可以采用类似上述的方式进行自定义音色，那么电子设备可以将用户输入的文字信息转换为个性化语音发送给对方电子设备，即模拟用户的音色向对方电子设备发送通话内容。还可以理解，除了上述的语音助手功能的场景和AI通话功能的场景之外，在另外的一些场景，例如短视频配音场景中，也可以使用个性化语音合成功能，用户在自定义音色之后，电子设备可以将短视频中的台词以用户自己的声音进行输出，达到亲身配音的效果。

在上述场景中，如果用户点击了完成控件75完成自定义音色过程，那么电子设备可以对用户录制的声音进行音频特征提取，得到该用户对应的音频特征，如果后续用户输入了文字信息或者电子设备自身获取到文字信息，电子设备便可以基于已构造的音频模型，结合用户对应的音频特征将文字信息推理生成个性化语音。下面我们将详细介绍本申请实施例依据与文本无关的音频模型来进行个性化语音合成方法的过程。

首先，本申请实施例的音频模型需要进行训练，以得到收敛的网络模型。在一些实施例中，音频模型的训练过程可以由云端服务器执行，音频模型中还可以包括编码器和解码器。在训练之前，云端服务器可以获取多组训练数据，其中，每组训练数据可以包括一条文字信息和一条语音信息，不同组训练数据内的语音信息可以是由不同用户进行录制的。示例性地，某一组训练数据中的文字信息为“今天最高气温为25摄氏度”，语音信息则为一个用户朗读“今天最高气温为25摄氏度”时的语音。针对每组训练数据，云端服务器可以执行下述处理过程：以训练数据A为例，云端服务器对训练数据A中的文字信息和语音信息分别进行特征提取，得到语义特征（semantic）和声学特征（acoustic），然后基于语义特征和声学特征构造文本无关的prompt，进而对构造的prompt进行解码，得到输出结果。在另一些实施例中，如果电子设备具备模型训练的能力，音频模型的训练过程也可以由电子设备执行。

如图8所示，云端服务器对文字信息进行特征提取，得到语义特征的过程可以包括前端处理、维度映射处理（embedding）、编码处理（encoder）和时长拉伸处理（LR），这里的前端处理可以包括文本正则处理、韵律预测处理和注音处理。在一些实施例中，对文字信息进行特征提取得到语义特征的过程可以由语义编码器来执行。

其中，因在日常生活中一些文字是简写或者缩写的，因此云端服务器需要将这些文字进行标准化，例如将电话、时间、金钱、单位、符号、邮箱、日期等转换为标准化文字，也即进行文本正则处理，示例性地，Sep.11th需要展开写成全拼写的September Eleventh。可选地，这里云端服务器可以利用正则表达式对文字信息进行文本正则处理。然后，又因一些文字在朗读时词与词之间需要停顿或者重读，如果停顿不准确就会出现朗读不连贯、不自然的问题，甚至会影响对应语音信息的表达，因此云端服务器还需要对文字信息进行韵律预测处理，示例性地，对“今天最低气温15摄氏度”文字进行韵律预测后可以得到停顿方式为“今天#最低气温#15#摄氏度”。可选地，这里云端服务器可以使用深度网络来进行韵律预测，所使用的深度网络是已使用韵律文本数据进行训练所得到的。接下来，又因一些文字是多音字，在不同的词语中是不同的发音，那么云端服务器需要对文字信息进行注音处理，准确判断出文字信息中每个字的发音。可选地，这里云端服务器也可以使用深度网络将文字信息转换为拼音，以解决多音字问题，所使用的深度网络是已使用多音字数据进行训练所得到的。可选地，经过注音处理之后，云端服务器可以得到文字信息所对应的音素信息（phoneme）。

在将文字信息进行前端处理之后，云端服务器可以对文字信息进行维度映射处理（embedding）、编码处理（encoder）和时长拉伸处理。其中，embedding是指将高维度的数据（例如文字、图片、音频）映射到低维度空间的过程；encoder是指对输入的文本信息进行特征整合，转化维高位抽象的特征块的过程；时长拉伸处理是指对文字信息进行朗读时长的拉伸，即预测朗读每个文字（或音素）时的时长，并将时长信息加入文字信息中，得到文字信息对应的总时长帧信息，例如用户朗读一个文字的时长为n秒，那么包含10个文字的语句对应的总时长帧信息10×n秒。可选地，云端服务器在对文字信息进行时长拉伸处理时，对应的拉伸时长可以基于训练数据A中的语音信息来确定，因为训练数据A中的文字信息和语音信息是对应的，那么经过对齐处理后，该语音信息对应的语音时长可以作为要对文字信息进行拉伸的时长。

经过上述处理，云端服务器即可以得到文字信息对应的语义特征（semantic）。

同时，云端服务器还会对语音信息进行特征提取，得到声学特征（acoustic），也即是说，云端服务器可以并行的进行提取语义特征和提取声学特征。继续参见图8，云端服务器对语音信息进行特征提取，得到声学特征的过程可以包括音频编码处理、多通道映射处理（embedding）和多通道累加处理。

其中，云端服务器可以使用音频编码器对语音信息进行音频编码处理，所得到的是语音信息对应的声学向量，这里的声学向量可以为多通道的多帧特征向量，例如可以为8通道的特征向量，当然也可以为其他数量通道的特征向量，本申请实施例对此不做限制。然后，云端服务器可以对声学向量中每个通道的特征向量进行掩码（mask）后再进行embedding，即得到多通道的embedding，例如得到8通道的embedding。可选地，每个通道特征向量embedding的方式可以为acoustic_semb_i=embedding（mask（acoustic_i）），这里进行mask的作用为将多帧特征向量中的一些帧进行掩码来供后续的解码器推理，以训练推理的精度。接下来，云端服务器可以对多通道的embedding进行加权累加，得到一个通道的特征向量，也即得到声学特征（acoustic）。可选地，云端服务器可以依据acoustic=∑^N _i=1（w_i×acoustic_semb_i）计算声学特征，其中，w_i为通道对应的权重系数，N为通道数，例如N=8。

经过上述处理，云端服务器即可以得到语音信息对应的声学特征（acoustic）。可以理解，由于云端服务器在上述对文字信息进行时长拉伸时，可以基于语音信息对应的语音时长来确定，那么最终所得到的语义特征的长度和声学特征的长度相等。

在得到语义特征和声学特征之后，云端服务器可以开始构造与文本无关的prompt（即音频模型的核心部分，需要学习prompt中的音频特征），继续参见图8，该过程可以包括：首先生成一个随机数m，以根据该随机数m分别将语义特征和声学特征划分为两部分，其中，m小于语义特征（或声学特征）的长度，优选地，×len（semantic）≤m≤/>×len（semantic），len（semantic）为语义特征的长度。然后云端服务器根据随机数m将语义特征划分为两部分prompt_se和target_se，以及将声学特征划分为两部分prompt_ac和target_ac。接下来云端服务器通过音频模型对所划分的prompt_se和target_se、prompt_ac和target_ac进行融合，得到目标prompt和目标target。可选地，目标prompt=prompt_ac，目标target=a×target_se+b×target_ac，其中，a和b为权重系数，可以看出，这里的目标prompt与语义特征无关，即与文本无关，那么目标prompt可以作为后续解码器的提示信息，使解码器根据目标prompt中携带的音频特征为文字信息添加音色，即使得输出语音的音色尽可能接近上述输入的语音信息对应的音色，而目标target则可以作为音频模型的学习内容。

在得到目标prompt和目标target之后，云端服务器可以将目标prompt和目标target输入解码器进行解码，得到一个语音的输出结果，然后可以将该输出结果的特征与上述输入的语音信息的声学特征进行比对，计算损失函数，以根据该损失函数调整音频模型的参数值，最终得到收敛的音频模型。可选地，解码器的输入方式可以包括decoder_in=cat（目标prompt，目标target）。

对于上述音频模型的训练过程，在云端服务器对文字信息进行时长拉伸处理时，因为此时具有文字信息对应的语音信息来确定拉伸时长，而对于后续使用音频模型对电子设备获取的文字信息进行个性化语音生成时，所获取的文字信息并没有对应的语音信息来确定拉伸时长，那么就需要预测文字信息对应的拉伸时长。因此，在音频模型的训练过程中，本申请实施例还可以训练一个时长预测模型，以供后续对文字信息的拉伸时长进行预测。

在一些实施例中，云端服务器可以获取上述训练数据中文字信息对应的encoder结果以及将声学特征划分的prompt_ac输入网络模型中进行训练，通过交叉注意力机制（cross attention）训练得到时长预测模型。然而，因prompt_ac携带的声学特征的信息较多，例如携带有用户的语义信息、音色信息、音速信息甚至环境噪声信息等，如果采用该prompt_ac作为输入数据进行训练，可能会使时长预测模型在学***均化，导致时长预测模型的收敛效果不好，后续生成的个性化语音的效果也不佳。

在另一些实施例中，为提高时长预测模型的训练精度，该实施例对训练时的输入数据进行信息降维，并采用两级时长预测模型，以训练得到收敛效果较佳的时长预测模型。

具体地，在上述的音频模型的训练过程中，在得到文字信息对应的语义特征（semantic）或者encoder结果时，可以将其与声学特征进行对齐，即该语义特征对应的拉伸时长（duration）也可以获取到，那么云端服务器可以得到语义特征（semantic）、拉伸时长（duration）以及语音信息对应的声学特征（acoustic）。然后，如图9所示，云端服务器可以对语义特征、拉伸时长和声学特征进行划分，此时可以生成一个随机数k，以根据该随机数k分别将语义特征、拉伸时长和声学特征划分为多个部分，其中，k小于语义特征（或声学特征）的长度。在进行划分时，考虑到用户说话时刚开始可能会有一段时间的空白语音，如果参考上述音频模型训练时将语义特征和声学特征划分为前后两部分，则前部分的特征中可能会有一些空值，那么在将前部分的特征记为prompt供后续作为提示信息的话，空值就会影响预测精度。因此，本实施例中云端服务器可以根据随机数k从语义特征、拉伸时长和声学特征的中间部分进行截取，再将剩余部分进行组合，以得到各个特征的prompt和target。

示例性地，如图9所示，对于语义特征（semantic），从第一位置开始取k长度的特征作为prompt_se，再将该prompt_se前后的部分特征组合起来作为target_se。对于拉伸时长（duration）特征，从第一位置开始取k长度的特征作为prompt_dur，再将该prompt_dur前后的部分特征组合起来作为target_dur。对于声学特征（acoustic），从第一位置开始取k长度的特征作为prompt_ac，再将该prompt_ac前后的部分特征组合起来作为target_ac。可以理解，第一位置也可以是预设的一个中间位置，也可以是根据另一个随机数t确定的位置，本申请实施例对此不做限制。还可以理解，所拆分的prompt_se、prompt_dur和prompt_ac为文字信息、拉伸时长、语音信息中同一段位置所对应的特征。

可选地，随机数k的取值范围可以为：×len（semantic）≤k≤/>×len（semantic），len（semantic）为语义特征的长度（或声学特征的长度）。第一位置可以为语义特征（或声学特征、拉伸时长特征）的三分之一到二分之一处的位置。

在得到prompt_se和target_se、prompt_dur和target_dur、prompt_ac和target_ac之后，便可以作为输入数据对两级时长预测模型进行训练。本申请实施例中可以将两级时长预测模型分别记为第一时长预测模型和第二时长预测模型，首先对第一时长预测模型进行训练，云端服务器可以将prompt_se和prompt_ac输入第一时长预测模型，通过语音信息中的音频特征prompt_ac，预测用户语音输出prompt_se对应的音素时的第一时长pmt_dur_predict。又因prompt_se对应的实际拉伸时长prompt_dur已知，因此可以计算pmt_dur_predict和prompt_dur之间的第一损失（prompt_duration_loss），并基于该第一损失调整第一时长预测模型的模型参数，直至训练收敛。然后对第二时长预测模型进行训练，云端服务器可以将prompt_dur和target_se输入第二时长预测模型，以prompt_dur作为提示信息，预测用户语音输出target_se对应的音素时的第二时长tg_dur_predict。又因target_se对应的实际拉伸时长target_dur已知，因此可以计算tg_dur_predict和target_dur之间的第二损失（duration_loss），并基于该第二损失调整第二时长预测模型的模型参数，直至训练收敛。

由此，云端服务器训练得到了第一时长预测模型和第二时长预测模型，在第二时长预测模型训练的过程中，由于输入的是prompt_dur和target_se，相较于prompt_ac来说信息量大幅减少，因此，可以减少无关信息的干扰，提高时长预测模型的收敛效果，进而提高所预测的语音时长的准确性。

另外，因在此实施例中云端服务器是根据随机数k从语义特征、拉伸时长和声学特征的中间部分进行截取得到对应的prompt和target，那么，在上述音频模型的训练过程中要构造目标prompt和目标target时，也可以根据此实施例中得到的prompt_se和target_se、prompt_ac和target_ac来构造，进而再将目标prompt和目标target输入解码器进行解码，以参与音频模型的训练过程，同时提高了音频模型的训练精度。

经过上述过程，云端服务器即构造完成本申请实施例需要的音频模型和二级时长预测模型，那么如果用户在电子设备上注册了自定义音色，音频模型便可以获取自定义音色时的音频特征，例如在语音助手功能的场景中，音频模型可以结合音频特征和查询到的文字信息推理生成个性化语音，在AI通话功能的场景中，音频模型可以结合音频特征和用户输入的文字信息推理生成个性化语音。在一些实施例中，音频模型推理生成个性化语音的过程仍可以在云端服务器执行，那么这就需要电子设备将用户自定义音色时的语音信息和后续的文字信息发送至云端服务器。在另一些实施例中，音频模型推理生成个性化语音的过程也可以在电子设备执行，那么这就需要云端服务器将训练收敛的音频模型移植至电子设备。下面先以云端服务器来执行为例进行描述。

如图10所示，用户进行自定义音色注册后，电子设备可以将注册时录制的语音信息发送至云端服务器。云端服务器可以对语音信息进行音频特征提取，得到该用户对应的音频特征。可选地，云端服务器可以将用户的标识和音频特征进行对应起来并存储至特征库中，这里用户的标识可以为用户在电子设备上注册时使用的用户名、所使用的电子设备的设备标识等信息，本申请实施例对此不做限制。然后，如果云端服务器接收到电子设备发送的文字信息（可以是用户输入的文字信息，也可以是电子设备后台查询到的文字信息），则云端服务器可以先对文字信息进行文本正则处理、韵律预测处理、注音处理等前端处理，再将前端处理后的文字信息和用户对应的音频特征输入音频模型进行推理，输出个性化语音并返回给电子设备。可选地，音频模型可以包括编码器、声学模型和解码器等部分，编码器用于对文字信息进行特征提取，声学模型用于结合音频特征将文字信息转换为音频声学特征（即构造prompt的过程），音频解码器用于将音频声学特征转换为音频进行输出。可以理解，与上述音频模型训练过程不同的是，训练过程中训练数据中的文字信息和语音信息是成组对应的，而在该推理生成个性化语音的过程中，云端服务器所接收到的文字信息是实时变化的，所使用的音频特征是用户自定义音色注册时提取的，目的就在于基于用户的音频特征将实时变化的文字信息输出为带有用户音色的个性化语音。

对于图10所示的实施例，再结合图11描述云端服务器的执行过程：云端服务器在接收到用户自定义音色注册时录制的语音信息后，可以对语音信息进行音频编码处理、多通道映射处理（embedding）和多通道累加处理，得到该语音信息对应的声学特征（acoustic），作为用户对应的音频特征，并将音频特征和用户的标识对应起来存储至特征库中。在云端服务器接收到文字信息的情况下，可以对文本信息进行前端处理，得到文字信息所对应的音素信息（phoneme）。在将文字信息进行前端处理之后，云端服务器可以对文字信息（音素信息）进行维度映射处理（embedding）、编码处理（encoder）和时长拉伸处理，得到文本信息对应的语义特征（semantic）。接下来，云端服务器可以通过音频模型将音频特征（acoustic）和语义特征（semantic）合并起来，由音频特征（acoustic）作为提示，输入解码器中进行处理，输出个性化语音。可以理解，云端服务器可以将得到的个性化语音返回给电子设备，由电子设备通过语音助手功能输出给用户或者通过AI通话功能传输给对端电子设备。

其中，在云端服务器对文字信息进行时长拉伸处理时，因为此时没有文字信息对应的语音信息来确定拉伸时长，那么云端服务器就要基于上述构造的二级时长预测模型来预测拉伸时长。如图12所示，在云端服务器处理得到用户自定义音色注册时对应的声学特征（acoustic）的过程中，还可以对注册时所语音输入的注册文本进行处理，例如对注册文本进行包括文本正则处理、韵律预测处理和注音处理等的前端处理，得到注册文本所对应的音素信息（phoneme），该音素信息可以作为注册文本对应的文本特征。然后将声学特征（acoustic）和注册文本所对应的音素信息（phoneme）输入第一时长预测模型，输出第一预测时长，再将上述云端服务器对接收到的文字信息进行编码处理（encoder）后的结果作为semantic，将第一预测时长和该semantic输入第二时长预测模型，由第一预测时长作为提示信息，输出第二预测时长，该第二预测时长即对文字信息进行时长拉伸处理时的拉伸时长。

由上述音频模型的处理过程可以看出，本申请实施例在训练时构造的是与文本无关的音频模型，由prompt作为提示信息，后续输入任何文字信息都可推理出prompt中携带的音色对应的语音信息，因此，在实际场景使用时，用户只需要在注册时录制较短的语句，提取到用户的音频特征作为prompt输入音频模型即可输出个性化语音，无需再经过后微调的过程，使得数据处理效率更高。同时，在对文字信息进行个性化语音转换时，在时长预测阶段不再受声学特征中较多信息的干扰，而是由第一级预测时长作为提示信息进行时长预测，所预测的语音时长的准确性更高，以使音频模型合成的个性化语音的韵律等特征更贴近用户实际的特征，语音合成效果更佳。

在另一些实施例中，上述音频模型推理生成个性化语音的过程可以在电子设备执行，其中，电子设备所执行过程的技术原理与在云端服务器执行时的技术原理类似，具体过程不再赘述。

可以理解，电子设备的软件***可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。如果电子设备采用音频模型推理生成个性化语音，应结合电子设备的软件***架构来执行。本申请实施例以分层架构的Android***为例，示例性说明电子设备的软件结构。

图13是本申请实施例的电子设备的软件结构框图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android***分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和***库，以及内核层。应用程序层可以包括一系列应用程序包，例如Android应用程序包（Android application package，APK）。

如图13所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，音乐，视频，短信息等应用程序，还可以包括集成有音频模型的APK，该集成有音频模型的APK可以实现用户自定义音色注册以及根据用户的音频特征和输入的文字信息推理生成个性化语音的功能。

应用程序框架层为应用程序层的应用程序提供应用编程接口（applicationprogramming interface，API）和编程框架。应用程序框架层包括一些预先定义的函数。

如图13所示，应用程序框架层可以包括窗口管理器，内容提供器，视图***，电话管理器，资源管理器，通知管理器等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图***包括可视控件，例如显示文字的控件，显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

Android runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

***库可以包括多个功能模块。例如：表面管理器（surface manager），媒体库（media libraries），三维图形处理库（例如：OpenGL ES），2D图形引擎（例如：SGL）等。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

在电子设备执行上述个性化语音合成方法的情况下，图14是本申请实施例提供的一例个性化语音合成方法的流程示意图，如图14所示，该方法可以包括：

S101，在电子设备开启语音合成功能的情况下，获取电子设备中需要进行语音合成的文字信息。

其中，文字信息包括用户输入的文字信息和电子设备生成的文字信息，用户输入的文字信息可以为AI通话功能的场景下，用户所输入的要回复对方用户的信息，电子设备生成的文字信息可以为在语音助手功能的场景下，电子设备所查询到的要回复用户的信息。

S102，获取用户对应的音频特征和文本特征。

其中，该音频特征为根据用户进行语音合成功能注册时所录入的语音信息而生成的特征，文本特征为根据用户进行语音合成功能注册时所朗读的注册文本信息而生成的特征。

S103，基于音频特征、文本特征以及文字信息对应的编码结果，确定对文字信息进行语音合成时的拉伸时长。

其中，S103预测拉伸时长的过程可以参见上述图12的描述，在此不再赘述。

S104，基于拉伸时长，通过音频模型对文字信息和用户对应的音频特征进行语音合成，输出个性化语音。

其中，用户对应的音频特征为根据用户进行语音合成功能注册时所录入的语音信息而生成的特征，音频模型为根据训练数据中的第一文字信息和第一语音信息进行训练得到的与文本无关的模型。音频模型的处理过程可以详见上述实施例的描述，在此不再赘述。

上文详细介绍了本申请实施例提供的个性化语音合成方法的示例。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分为各个功能模块，例如检测单元、处理单元、显示单元等，也可以将两个或两个以上的功能集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例提供的电子设备，用于执行上述个性化语音合成方法，因此可以达到与上述实现方法相同的效果。

在采用集成的单元的情况下，电子设备还可以包括处理模块、存储模块和通信模块。其中，处理模块可以用于对电子设备的动作进行控制管理。存储模块可以用于支持电子设备执行存储程序代码和数据等。通信模块，可以用于支持电子设备与其他设备的通信。

其中，处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理（digital signal processor，DSP）和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。

在一个实施例中，当处理模块为处理器，存储模块为存储器时，本实施例所涉及的电子设备可以为具有图3所示结构的设备。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储了计算机程序，当计算机程序被处理器执行时，使得处理器执行上述任一实施例的个性化语音合成方法。

本申请实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的个性化语音合成方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的个性化语音合成方法。

其中，本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备（可以是单片机，芯片等）或处理器（processor）执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种个性化语音合成方法，其特征在于，所述方法包括：

在电子设备开启语音合成功能的情况下，获取所述电子设备中需要进行语音合成的文字信息，所述文字信息包括用户输入的文字信息和所述电子设备生成的文字信息；

获取所述用户对应的音频特征和文本特征，所述音频特征为根据所述用户进行语音合成功能注册时所录入的语音信息而生成的特征，所述文本特征为根据所述用户进行语音合成功能注册时所朗读的注册文本信息而生成的特征；

基于所述音频特征、所述文本特征以及所述文字信息对应的编码结果，确定对所述文字信息进行语音合成时的拉伸时长；

基于所述拉伸时长，通过音频模型对所述文字信息和所述音频特征进行语音合成，输出个性化语音，其中，所述音频模型为根据训练数据中的第一文字信息和第一语音信息进行训练得到的与文本无关的模型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述音频特征、所述文本特征以及所述文字信息对应的编码结果，确定对所述文字信息进行语音合成时的拉伸时长，包括：

将所述音频特征和所述文本特征输入第一时长预测模型，输出第一预测时长；

将所述第一预测时长和所述文字信息对应的编码结果输入第二时长预测模型，输出所述拉伸时长。

3.根据权利要求2所述的方法，其特征在于，所述第一时长预测模型和所述第二时长预测模型的训练方式包括：

获取所述第一文字信息对应的第一语义特征和所述第一语音信息对应的第一声学特征；

将所述第一语义特征与所述第一声学特征进行对齐处理，确定所述第一语义特征对应的第一拉伸时长特征；

生成随机数k，根据所述随机数k将所述第一语义特征划分为第一子特征和第二子特征，将所述第一拉伸时长特征划分为第三子特征和第四子特征，以及将所述第一声学特征划分为第五子特征和第六子特征；

将所述第一子特征和所述第五子特征输入所述第一时长预测模型，根据输出结果与所述第三子特征之间的损失，调整所述第一时长预测模型的参数值，以至所述第一时长预测模型收敛；

将所述第二子特征和所述第三子特征输入所述第二时长预测模型，根据输出结果与所述第四子特征之间的损失，调整所述第二时长预测模型的参数值，以至所述第二时长预测模型收敛。

4.根据权利要求3所述的方法，其特征在于，所述随机数k的取值范围为[，/>]，所述L为所述第一语义特征的数据长度。

5.根据权利要求3或4所述的方法，其特征在于，所述根据所述随机数k将所述第一语义特征划分为第一子特征和第二子特征，包括：

从所述第一语义特征的第一位置开始取k长度的特征作为所述第一子特征，剩余部分的特征组合作为所述第二子特征；

所述将所述第一拉伸时长特征划分为第三子特征和第四子特征，包括：

从所述第一拉伸时长特征的第一位置开始取k长度的特征作为所述第三子特征，剩余部分的特征组合作为所述第四子特征；

所述将所述第一声学特征划分为第五子特征和第六子特征，包括：

从所述第一声学特征的第一位置开始取k长度的特征作为所述第五子特征，剩余部分的特征组合作为所述第六子特征。

6.根据权利要求1所述的方法，其特征在于，所述基于所述拉伸时长，通过音频模型对所述文字信息和所述音频特征进行语音合成，输出个性化语音，包括：

通过所述音频模型对所述文字信息进行特征提取，得到所述文字信息对应的具有所述拉伸时长的长度的语义特征；

通过所述音频模型对所述语义特征和所述音频特征进行语音合成，输出所述个性化语音。

7.根据权利要求6所述的方法，其特征在于，所述通过所述音频模型对所述语义特征和所述音频特征进行语音合成，输出所述个性化语音，包括：

将所述音频特征作为音色提示，通过所述音频模型对所述语义特征和所述音频特征进行融合以及解码处理，得到并输出所述个性化语音。

8.根据权利要求6或7所述的方法，其特征在于，所述通过所述音频模型对所述文字信息进行特征提取，得到所述文字信息对应的具有所述拉伸时长的长度的语义特征，包括：

对所述文字信息进行前端处理，得到所述文字信息对应的音素信息，所述前端处理包括文本正则处理、韵律预测处理和注音处理中的至少一项处理过程；

通过所述音频模型对所述音素信息进行维度映射处理、编码处理以及时长拉伸处理，得到具有所述拉伸时长的长度的语义特征。

9.根据权利要求1所述的方法，其特征在于，所述获取所述用户对应的音频特征和文本特征，包括：

获取所述用户进行语音合成功能注册时所录入的语音信息，以及所述用户进行语音合成功能注册时所朗读的注册文本信息；

对所述录入的语音信息进行音频编码处理、多通道映射处理以及多通道累加处理，得到所述用户对应的音频特征；

对所述注册文本信息进行前端处理，得到所述文本特征。

10.根据权利要求9所述的方法，其特征在于，所述录入的语音信息对应的短语句数N≤2。

11.根据权利要求9或10所述的方法，其特征在于，在所述得到所述用户对应的音频特征之后，所述方法还包括：

将所述用户对应的音频特征与所述用户的标识关联存储至特征库中。

12.根据权利要求1所述的方法，其特征在于，在所述电子设备处于使用语音助手的场景下，所述文字信息为所述电子设备生成的文字信息，在所述电子设备处于使用人工智能AI通话的场景下，所述文字信息为所述用户输入的文字信息。

13.一种时长预测模型的训练方法，其特征在于，所述方法包括：

获取训练数据中的第一文字信息和第一语音信息；

提取所述第一文字信息对应的第一语义特征和所述第一语音信息对应的第一声学特征；

将所述第一子特征和所述第五子特征输入第一时长预测模型，根据输出结果与所述第三子特征之间的损失，调整所述第一时长预测模型的参数值，以至所述第一时长预测模型收敛；

将所述第二子特征和所述第三子特征输入第二时长预测模型，根据输出结果与所述第四子特征之间的损失，调整所述第二时长预测模型的参数值，以至所述第二时长预测模型收敛。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

一个或多个存储器；

所述存储器存储有一个或多个程序，当所述一个或多个程序被所述处理器执行时，使得所述电子设备执行如权利要求1至13中任一项所述的方法。

15.一种服务器，其特征在于，包括：

一个或多个处理器；

一个或多个存储器；

所述存储器存储有一个或多个程序，当所述一个或多个程序被所述处理器执行时，使得所述服务器执行如权利要求1至13中任一项所述的方法。

16.根据权利要求15所述的服务器，其特征在于，当所述一个或多个程序被所述处理器执行时，使得所述服务器还执行：

向电子设备发送个性化语音。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储了计算机程序，当所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至13中任一项所述的方法。