CN112820265A

CN112820265A - 一种语音合成模型训练方法和相关装置

Info

Publication number: CN112820265A
Application number: CN202010960441.1A
Authority: CN
Inventors: 廖锡光
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2021-05-18
Anticipated expiration: 2040-09-14
Also published as: CN112820265B

Abstract

本申请实施例公开一种语音合成模型训练方法和相关装置，在训练语音合成模型时，将已有的音视频作品作为训练样本，即收集音视频作品，从音视频作品中提取与第一应答角色对应的音视频片段。根据音视频片段识别第一应答角色对应的音频和音频对应的文本，进而根据音频和音频对应的文本训练得到第一应答角色对应的语音合成模型。后续可以通过第一应答角色的声音与用户进行语音交互，提高语音交互的趣味性。由于每个第一应答角色对应的语音合成模型以音视频作品为音频来源进行训练得到的，无需邀请配音人员或明星提前录制音频，降低了语音交互中所使用的语音合成模型的生成成本，提高了该模型生成的效率。

Description

一种语音合成模型训练方法和相关装置

技术领域

本申请涉及人工智能领域，特别是涉及一种语音合成模型训练方法和相关装置。

背景技术

随着人工智能技术的发展，智能语音设备，例如智能手机、智能音箱、聊天机器人等逐渐被广大用户使用。用户可以通过语音与上述智能语音设备交互，使得上述智能语音设备可以根据用户发出的语音做出应答。

为了丰富语音交互，使得语音交互更加生动有趣，用户可以自定义应答角色，使得智能语音设备可以通过自定义的应答角色的声音与用户进行交互，使得用户感觉自己在与应答角色对话。目前，智能语音设备的声音都是通过配音人员或者明星提前通过标准文本的音频录入，进行模型训练，得到该人物(即应答角色)的语音合成模型，从而利用用户自定义的人物的语音合成模型合成语音，与用户进行对话。

然而，这种方式需要邀请配音人员或明星提前录制音频，以便训练语音合成模型，导致模型生成的成本太大、效率较低。

发明内容

为了解决上述技术问题，本申请提供了一种语音合成模型训练方法和相关装置，降低了语音交互中所使用的语音合成模型的生成成本，提高了该模型生成的效率。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供一种语音合成模型训练方法，所述方法包括：

收集音视频作品；

从所述音视频作品中提取与第一应答角色对应的音视频片段；

根据所述音视频片段识别所述第一应答角色对应的音频和所述音频对应的文本；

根据所述音频和所述音频对应的文本训练得到所述第一应答角色对应的语音合成模型。

第二方面，本申请实施例提供一种语音合成模型训练装置，所述装置包括收集单元、提取单元、识别单元和训练单元：

所述收集单元，用于收集音视频作品；

所述提取单元，用于从所述音视频作品中提取与第一应答角色对应的音视频片段；

所述识别单元，用于根据所述音视频片段识别所述第一应答角色对应的音频和所述音频对应的文本；

所述训练单元，用于根据所述音频和所述音频对应的文本训练得到所述第一应答角色对应的语音合成模型。

第三方面，本申请实施例提供一种用于语音合成模型训练的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的方法。

由上述技术方案可以看出，本申请在训练语音合成模型时，将已有的音视频作品作为训练样本，即收集音视频作品，从音视频作品中提取与第一应答角色对应的音视频片段。根据音视频片段识别第一应答角色对应的音频和音频对应的文本，进而根据音频和音频对应的文本训练得到第一应答角色对应的语音合成模型。后续可以通过第一应答角色的声音与用户进行语音交互，提高语音交互的趣味性。由于每个第一应答角色对应的语音合成模型以音视频作品为音频来源进行训练得到的，无需邀请配音人员或明星提前录制音频，降低了语音交互中所使用的语音合成模型的生成成本，提高了该模型生成的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术成员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音合成模型训练方法的***架构示意图；

图2为本申请实施例提供的一种语音合成模型训练方法的流程图；

图3为本申请实施例提供的一种语音交互的模块结构示意图；

图4为本申请实施例提供的一种语音交互方法的流程图；

图5为本申请实施例提供的一种语音交互方法的流程图；

图6为本申请实施例提供的一种语音合成模型训练装置的结构图；

图7为本申请实施例提供的一种终端设备的结构图；

图8为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

目前，为了丰富语音交互，使得语音交互更加生动有趣，智能语音设备的声音都是通过配音人员或者明星提前通过标准文本的音频录入，进行模型训练，得到该人物(即应答角色)的语音合成模型，从而利用用户自定义的人物的语音合成模型合成语音，与用户进行对话，使得用户具有与明星对话的感受。

然而不同用户的喜好不同，有的用户喜欢明星A，有的用户喜欢明星B，有的用户可能喜欢的是明星C在某个影视剧中的角色，因此，为了尽可能满足不同用户的需求，需要邀请众多的明星提前进行音频录入，以得到大量音频数据对语音合成模型进行训练得到不同人物对应的语音合成模型。

然而，这种方式需要邀请配音人员或明星提前录制，导致语音交互中所使用的语音合成模型的生成成本太大、生成效率较低。

为了解决上述技术问题，本申请实施例提供一种语音交互方法，该语音交互方法中所使用的语音合成模型是以音视频作品为音频源进行训练得到的，从而无需邀请配音人员或明星提前录制音频，降低了语音交互中所使用的语音合成模型的生成成本，提高了该模型生成的效率。

另外，所有的音视频作品都可以作为训练语音合成模型的音频来源，音频来源丰富，便于训练丰富的语音合成模型。

本申请实施例可以涉及人工智能领域，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，可以涉及的人工智能技术包括计算机视觉(图像)、语音技术、自然语言处理、机器学习等方向。计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

例如，本申请实施例可以通过计算机视觉技术中的图像识别(Imagerecognition，IR)技术从音视频作品中提取应答角色对应的音视频片段，进而提取应答角色的音频及音频对应的文本。

语音技术(Speech Technology)的关键技术有语音识别技术和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。例如可以利用声纹识别技术识别语音信息是哪个用户输入的，通过语音识别技术识别语音信息的内容，以及根据语音合成技术生成语音信息对应的应答语音。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术，例如通过机器人问答技术对用户的语音信息做出回答，生成应答语音。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificial neuralnetwork)，例如卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural network，DNN)等。在本实施例中，可以通过机器学习的方式训练得到语音合成模型，以便在语音交互过程中，利用语音合成模型生成语音信息的应答语音。

参见图1，图1为本申请实施例提供的语音合成模型训练方法的***架构示意图。该***架构中包括终端设备101和服务器102，终端设备101可以与用户进行语音交互，当用户输入某一语音时，终端设备101可以对该语音做出应答，从而实现用户与终端设备101进行对话。

终端设备101可以是智能手机、平板电脑、笔记本电脑、智能手表、智能音箱、智能电视等具有智能语音助手的设备，但并不局限于此。

服务器102可以用于存储大量音视频作品，以及存储不同应答角色对应的语音合成模型。当然，服务器102也可以从其他服务器获取大量音视频作品。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，终端设备101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。服务器102可以收集音视频作品。其中，音视频作品可以是影视作品、动画作品、音乐作品等，音视频作品中包括至少一个角色，这些角色可以作为第一应答角色。

服务器102从音视频作品中提取与第一应答角色对应的音视频片段，例如《×××》中角色A的音视频片段。服务器102根据该音视频片段识别第一应答角色对应的音频和音频对应的文本，进而根据音频和音频对应的文本训练得到第一应答角色对应的语音合成模型。

训练得到的语音合成模型可以保存在服务器102中，当用户与终端设备101进行语音交互时，服务器102可以根据终端设备101发送的语音信息，调用语音合成模型，从而模仿第一应答角色的声音生成应答语音。

图1所示的***架构中，是利用服务器102执行上述语音合成模型训练方法，将调用语音合成模型训练生成的应答语音发送至终端设备101，从而使得终端设备101发出该应答语音。当然，也可以是服务器102向终端设备101发送语音合成模型，终端设备101利用语音合成模型生成应答语音，从而使得终端设备101发出该应答语音。在一些情况下，终端设备101也可以实现语音合成模型训练方法，存储一些应答角色和语音合成模型的对应关系，从而由终端设备101自身生成应答语音，并发出该应答语音。本申请实施例对语音合成模型训练方法的执行主体不做限定，图1所示的***架构仅是一种示例，并不构成对本申请的限定。

接下来，将结合附图以服务器为执行主体对本申请实施例提供的语音合成模型训练方法进行详细介绍。

参见图2，图2为本申请实施例提供的一种语音合成模型训练方法的流程图，所述方法包括：

S201、收集音视频作品。

网络上存在大量音视频作品，例如影视作品、动画作品等等。这些音视频作品中包括大量的角色，随着音视频作品的播放，用户对音视频作品中的很多角色非常喜欢，使得用户希望与音视频作品中的角色进行交互。

本申请实施例为了使得用户产生与音视频作品中的角色进行交互的感觉，可以将音视频作品中的角色作为第一应答角色，与用户进行交互。这就需要训练来自音视频作品中第一应答角色对应的语音合成模型。

为此，服务器可以收集大量音视频作品，以音视频作品为训练样本训练第一应答角色的语音合成模型。

S202、从所述音视频作品中提取与第一应答角色对应的音视频片段。

由于每个第一应答角色在音视频作品中并非时时出现，有一些片段中并未包括该第一应答角色，因此，服务器可以从音视频作品中提取与第一应答角色对应的音视频片段。

例如，电视剧“×××”中的角色A可以作为第一应答角色，当需要训练角色A对应的语音合成模型，则可以提取角色A的视频片段。

其中，提取音视频片段的方式可以是人工手动截取该第一应答角色的音视频片段，也可以通过图像识别的方式，识别出该第一应答角色正在说话的音视频片段。

在一些情况下，由于音视频作品中每个角色都有可能被用户自定义为应答角色，因此，可以针对音视频作品中每个角色训练语音合成模型，即第一应答角色为音视频作品中所有角色。

在一些情况下，不同角色说话时长有所不同，有些角色作为主要角色，说话时长很长，有些角色可能说话时长非常短。因此，为了保证模型训练的准确性，可以针对说话时长达到预设阈值的角色进行音视频片段提取，从而训练对应的语音合成模型。

由于音视频作品中包括大量角色，说话时长达到预设阈值的角色也可能非常多，有些角色是深受大众喜欢和关注的角色，有很大可能被用户自定义为应答角色，而有些角色可能几乎不会被自定义为应答角色。由于用户对于音视频作品中的角色多数会在网络上进行讨论，即评论信息。因此，可以获取针对音视频作品的评论信息，评论信息可以反映出各个角色的热度，用户对角色的喜爱度。热度高、喜爱度(好评度)高的角色越容易被用户自定义为应答角色，从而根据评论信息，从音视频作品中确定好评度大于预设阈值的角色为第一应答角色。

S203、根据所述音视频片段识别所述第一应答角色对应的音频和所述音频对应的文本。

在本实施例中，识别音频对应的文本的方式可以是直接通过图像识别的方式识别出音视频片段中的字幕文本，也可以通过语音识别模型，识别出音频对应的文本。

例如，角色A为第一应答角色，则在角色A对应的音视频片段中识别角色A的音频和音频对应的文本，从而利用得到的音频和音频对应的文本训练得到角色A的语音合成模型。

S204、根据所述音频和所述音频对应的文本训练得到所述第一应答角色对应的语音合成模型。

根据音视频片段识别应答角色对应的音频和音频对应的文本，从而将音频和音频对应的文本作为训练数据，根据音频和音频对应的文本对语音合成模型进行训练，得到应答角色的语音合成模型，S202-S204的过程可以参见图3中模型训练模块所示。

其中，语音合成模型可以是各种神经网络模型，例如CNN模型、DNN模型等。

基于前述训练得到的语音合成模型，接下来将对利用语音合成模型进行语音交互的方法进行介绍。参见图4，图4为本申请实施例提供的一种语音交互方法的流程图，所述方法包括：

S401、获取用户输入的语音信息。

为了丰富语音交互，使得语音交互更加生动有趣，用户可以在终端设备上自定义应答角色，使得终端设备可以通过自定义的应答角色的声音与用户进行交互，使得用户感觉自己在与应答角色对话。

例如，用户喜欢某个影视作品中的角色A，则用户可以在终端设备上设置角色A为应答角色，这样，终端设备便可以以角色A的声音对用户输入的语音信息做出应答。

当用户希望为终端设备即智能语音设备自定义应答角色时，智能语音设备可以接收该用户的自定义请求，并将该自定义请求发送至服务器，自定义请求包括角色标识，服务器根据角色标识设置智能语音设备的应答角色。

在本申请实施例中，触发自定义请求的方式可以包括多种，一种方式可以是终端设备提供应答角色候选列表，用户从应答角色候选列表中选定喜欢的应答角色，从而触发自定义请求。另一种方式是，用户直接在终端设备上输入喜欢的应答角色，从而触发自定义请求。

需要说明的是，在自定义应答角色时，还可以自定义应答角色的角色属性，参见图3所示，图3示出了一种语音交互的模块结构示意图，例如图3中角色属性模块，角色属性例如可以包括角色昵称、角色年龄、角色爱好等。因此，在一种可能的实现方式中，自定义请求中还可以包括应答角色的属性信息，这样根据角色标识设置智能语音设备的应答角色的方式可以是根据角色标识和属性信息，设置智能语音设备的应答角色和对应的角色属性。

当然，在一些情况下，角色属性可以是在设置完应答角色后设置的，此时，在根据角色标识设置智能语音设备的应答角色后，还可以获取应答角色的属性信息，从而设置应答角色对应的角色属性。

在本实施例中，用户通过自定义应答角色的角色属性，可以增加趣味性。

需要说明的是，在一些场景下，一个终端设备即智能语音设备可以被多个用户共用，由于不同用户的喜好不同，因此，不同用户自定义的应答角色可以不同，从而满足个性化需求。例如，在家庭场景中，老婆选择电视剧“×××”中的角色A作为应答角色，老公选择电视剧“×××”中的角色B作为应答角色。

在一个终端设备上设置了多个应答角色的情况下，为了针对不同的用户，准确地使用其自定义的应答角色做出应答，可以建立用户与应答角色的关联关系，参见图3所示，例如图3中所示的应答角色关联模块。用户A自定义的应答角色是角色A，则建立用户A与角色A的关联关系，当用户A输入语音信息时，需要使用角色A的声音做出应答；用户B自定义的应答角色是角色B，则建立用户B与角色B的关联关系，当用户B输入语音信息时，需要使用角色B的声音做出应答。

其中，用户与应答角色的关联关系可以通过不同的方式建立。在一些情况下，由于不同用户的声纹信息不同，因此，用户与应答角色的关联关系可以通过声纹信息与应答角色的关联关系体现，即用户在自定义应答角色时，可以在终端设备上注册的自己的声纹信息，该声纹信息可以表示用户的身份，因此，在自定义应答角色后，服务器可以获取该声纹信息，从而可以根据角色标识和声纹信息建立声纹信息与应答角色的关联关系。

在另一些情况下，不同用户针对应答角色设置的角色属性可能不同，因此，可以通过角色属性尤其是通过角色属性中的角色昵称来区分不同用户。因此，用户与应答角色的关联关系可以通过角色昵称与应答角色的关联关系体现，即用户在自定义应答角色时，可以定义应答角色的角色昵称，例如角色A的角色昵称为“老公”。这样，在自定义应答角色后，可以根据角色标识和角色昵称建立角色昵称与应答角色的关联关系。

在另一些情况下，由于不同用户可以针对不同应答角色定义同一角色昵称，例如用户A自定义的应答角色是角色A，为其设置的角色昵称是“老公”，用户B自定义的应答角色是角色B，为其设置的角色昵称也是“老公”，为了便于在后续使用时，准确地确定语音信息的应答角色，可以建立声纹信息、角色昵称与应答角色的关联关系，从而在角色昵称相同的情况下，可以根据声纹信息确定应答角色。

当然，在一些情况下，也可以由智能语音设备自身完成应答角色的设置、角色属性的设置、关联关系的建立，并通知服务器，本实施例对此不做限定。

在对终端设备完成上述自定义设置后，若用户希望通过语音控制该终端设备，即实现语音交互，则用户可以通过终端设备的麦克风输入语音信息，终端设备获取到语音信息后，可以将语音信息发送至服务器，以便服务器根据该语音信息生成用户自定义的应答角色的应答信息。

S402、根据所述语音信息，确定与所述语音信息匹配的目标应答角色。

服务器获取到用户输入的语音信息后，可以确定与语音信息匹配的目标应答角色，从而可以以目标应答角色的声音对语音信息做出应答。

S401中提供了多种关联关系，根据关联关系的不同，根据语音信息，确定与语音信息匹配的目标应答角色的方式也有所不同。若关联关系是声纹信息与应答角色的关联关系，则确定与语音信息匹配的目标应答角色的方式可以是根据语音信息进行声纹识别，得到声纹识别结果，该声纹识别结果可以体现语音信息中的声纹信息，即可以体现输入语音信息的用户是哪个用户，从而可以根据声纹识别结果和关联关系确定目标应答角色。

例如，用户A选择的应答角色是角色A，服务器中存储用户A的声纹信息与角色A的关联关系。当用户通过语音控制智能电视以希望播放某部电视剧时，用户输入的语音信息是“我想看×××”，服务器可以根据语音信息进行声纹识别，得到声纹识别结果，该声纹识别结果反映出其余用户A的声纹信息一致，则可以确定目标应答角色为角色A。

若关联关系是角色昵称与应答角色的关联关系，则确定与语音信息匹配的目标应答角色的方式可以是识别所述语音信息中所包括的角色昵称，根据所述关联关系和所述语音信息中包括的角色昵称，确定所述目标应答角色。

例如，用户A选择的应答角色是角色A，设置的角色A的角色昵称是“老公”，服务器中存储角色昵称“老公”与角色A的关联关系。当用户通过语音控制智能电视以希望播放某部电视剧时，用户输入的语音信息是“老公，我想看×××”，服务器可以识别其中包括的角色昵称“老公”，则可以确定目标应答角色为角色A。

当然，若关联关系是声纹信息、角色昵称与应答角色，则确定与语音信息匹配的目标应答角色的方式可以是识别所述语音信息中所包括的角色昵称，确定该角色昵称对应的应答角色，若该角色昵称对应的应答角色包括多个，或者输入该语音信息的用户不是自定义该角色昵称的用户，可以进一步根据声纹信息和关联关系确定目标应答角色。

S403、根据第一应答角色与语音合成模型之间的对应关系，确定所述目标应答角色对应的语音合成模型。

通过图2所对应的实施例可以训练得到第一应答角色的语音合成模型，将语音合成模型和第一应答角色的对应关系进行保存。服务器根据目标应答角色和对应关系，查找到与目标应答角色对应的语音合成模型。

在一些情况下，由于可能并非训练得到所有角色的语音合成模型，因此，可能存在训练得到的语音合成模型中不包括目标应答角色对应的语音合成模型的情况。在这些情况下，可以将目标应答角色作为第一应答角色，重新执行图2对应的实施例中从音视频作品中提取与第一应答角色对应的音视频片段的步骤，以更新训练得到的语音合成模型。

通过上述步骤，可以得到更多的用户可能自定义的目标应答角色，进而根据反馈结果，对语音合成模型进行补充，以便尽可能满足用户的交互需求。

S404、调用所述目标应答角色对应的语音合成模型，生成所述语音信息对应的应答语音。

在确定出目标应答角色后，服务器可以调用目标应答角色对应的语音合成模型，生成语音信息对应的应答语音，并将应答语音发送至终端设备，以便终端设备利用目标应答角色的声音发出应答语音。

若语音信息用于控制终端设备执行动作，则终端设备在发出应答语音后，可以执行对应的动作。

例如，目标应答角色是角色A，用户输入的语音信息是“老公，我想看×××”，则生成的应答语音可以是“好”(角色A的声音)，终端设备接收到应答语音后，以角色A的声音发出应答语音“好”，并播放电视剧“×××”。

在一些实施例中，用户为应答角色自定义了角色属性，在角色问答时，终端设备可以响应于用户的问答语音，向用户返回该角色属性。

例如，目标应答角色是角色A，角色属性为角色昵称“**”，如用户输入“你是谁”，生成的应答语音可以是“我是**”(角色A的声音)，终端设备接收到应答语音后，以角色A的声音发出应答语音“我是**”。

由上述技术方案可以看出，本申请在获取到用户输入的语音信息，以便实现语音交互时，可以根据语音信息，确定与语音信息匹配的目标应答角色，进而根据第一应答角色与语音合成模型之间的对应关系，确定目标应答角色对应的语音合成模型。然后调用目标应答角色对应的语音合成模型，生成语音信息对应的应答语音，实现通过目标应答角色的声音与用户进行语音交互，提高语音交互的趣味性。

接下来，将结合实际应用场景对本申请实施例提供的语音交互方法进行介绍。例如智能电视可以通过语音进行控制，智能电视作为智能语音设备可以通过语音与用户进行交互。参见图5，该方法包括：

S501、用户打开智能电视进入应答角色设置界面。

S502、用户选择喜欢的角色(例如角色A)作为目标应答角色。

S503、用户对智能电视进行语音控制时，输入语音信息“老公，我想看×××”。

S504、服务器获取语音信息“老公，我想看×××”。

S505、服务器根据语音信息确定目标应答角色为角色A。

S506、服务器根据第一应答角色和语音合成模型的对应关系确定目标应答角色对应的语音合成模型。

S507、服务器调用目标应答角色对应的语音合成模型，生成语音信息对应的应答语音“好”(角色A的声音)。

S508、智能电视接收到应答语音“好”，并以角色A的声音回答“好”。

S509、智能电视播放电视剧“×××”。

基于图2对应实施例提供的语音合成模型训练方法，本申请实施例还提供一种语音合成模型训练装置600，参见图6，所述装置600包括收集单元601、提取单元602、识别单元603和训练单元604：

所述收集单元601，用于收集音视频作品；

所述提取单元602，用于从所述音视频作品中提取与第一应答角色对应的音视频片段；

所述识别单元603，用于根据所述音视频片段识别所述第一应答角色对应的音频和所述音频对应的文本；

所述训练单元604，用于根据所述音频和所述音频对应的文本训练得到所述第一应答角色对应的语音合成模型。

在一种可能的实现方式中，所述装置还包括获取单元和确定单元：

所述获取单元，用于获取针对所述音视频作品的评论信息；

所述确定单元，用于根据所述评论信息，从所述音视频作品中确定好评度大于预设阈值的角色为所述第一应答角色。

在一种可能的实现方式中，所述装置还包括生成单元：

所述获取单元，还用于获取用户输入的语音信息；

所述确定单元，还用于根据所述语音信息，确定与所述语音信息匹配的目标应答角色；

根据所述第一应答角色与所述语音合成模型之间的对应关系，确定所述目标应答角色对应的语音合成模型；

所述生成单元，用于调用所述目标应答角色对应的语音合成模型，生成所述语音信息对应的应答语音。

在一种可能的实现方式中，若训练得到的语音合成模型中不包括所述目标应答角色对应的语音合成模型，所述确定单元还用于：

将所述目标应答角色作为所述第一应答角色，触发所述提取单元602重新执行从所述音视频作品中提取与第一应答角色对应的音视频片段的步骤，以更新训练得到的语音合成模型。

在一种可能的实现方式中，所述获取用户输入的语音信息之前，所述装置还包括接收单元和设置单元：

所述接收单元，用于接收所述用户的自定义请求，所述自定义请求包括角色标识；

所述设置单元，用于根据所述角色标识设置智能语音设备的应答角色。

在一种可能的实现方式中，若所述智能语音设备的应答角色包括多个，所述自定义请求中包括所述用户的声纹信息，所述装置还包括建立单元：

所述建立单元，用于根据所述角色标识和所述声纹信息建立所述声纹信息与应答角色的关联关系；

所述确定单元，还用于：

根据所述语音信息进行声纹识别，得到声纹识别结果；

根据所述声纹识别结果和所述关联关系确定所述目标应答角色。

在一种可能的实现方式中，所述自定义请求中还包括所述应答角色的属性信息，所述设置单元，用于：

根据所述角色标识和所述属性信息，设置所述智能语音设备的应答角色和对应的角色属性。

在一种可能的实现方式中，若所述智能语音设备的应答角色包括多个，所述属性信息包括角色昵称，所述建立单元，还用于：

根据所述角色标识和所述角色昵称建立所述角色昵称与应答角色的关联关系；

所述确定单元，用于：

识别所述语音信息中所包括的角色昵称；

根据所述关联关系和所述语音信息中包括的角色昵称，确定所述目标应答角色。

本申请实施例还提供了一种用于语音合成模型训练的设备，下面结合附图对该设备进行介绍。请参见图7所示，本申请实施例提供了一种用于语音合成模型训练的设备，该设备可以是终端设备，以终端设备为智能手机为例：

图7示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图。参考图7，智能手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(英文全称：wireless fidelity，英文缩写：WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解，图7中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器780是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行智能手机的各种功能和处理数据，从而对智能手机进行整体监控。可选的，处理器780可包括一个或多个处理单元；优选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

在本实施例中，所述终端设备700中的处理器780可以执行以下步骤；

收集音视频作品；

用于语音合成模型训练的设备还可以包括服务器，本申请实施例还提供服务器，请参见图8所示，图8为本申请实施例提供的服务器800的结构图，服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central ProcessingUnits，简称CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。

服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作***841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在本实施例中，所述服务器800中的中央处理器822可以执行以下步骤；

收集音视频作品；

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述各个实施例所述的语音交互方法。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的语音合成模型训练方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术成员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音合成模型训练方法，其特征在于，所述方法包括：

收集音视频作品；

2.根据权利要求1所述的方法，其特征在于，所述从所述音视频作品中提取与第一应答角色对应的音视频片段之前，所述方法还包括：

获取针对所述音视频作品的评论信息；

根据所述评论信息，从所述音视频作品中确定好评度大于预设阈值的角色为所述第一应答角色。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取用户输入的语音信息；

根据所述语音信息，确定与所述语音信息匹配的目标应答角色；

调用所述目标应答角色对应的语音合成模型，生成所述语音信息对应的应答语音。

4.根据权利要求3所述的方法，其特征在于，若训练得到的语音合成模型中不包括所述目标应答角色对应的语音合成模型，所述方法还包括：

将所述目标应答角色作为所述第一应答角色，重新执行从所述音视频作品中提取与第一应答角色对应的音视频片段的步骤，以更新训练得到的语音合成模型。

5.根据权利要求3所述的方法，其特征在于，所述获取用户输入的语音信息之前，所述方法还包括：

接收所述用户的自定义请求，所述自定义请求包括角色标识；

根据所述角色标识设置智能语音设备的应答角色。

6.根据权利要求5所述的方法，其特征在于，若所述智能语音设备的应答角色包括多个，所述自定义请求中包括所述用户的声纹信息，所述方法还包括：

根据所述角色标识和所述声纹信息建立所述声纹信息与应答角色的关联关系；

所述根据所述语音信息，确定与所述语音信息匹配的目标应答角色，包括：

根据所述语音信息进行声纹识别，得到声纹识别结果；

7.根据权利要求5所述的方法，其特征在于，所述自定义请求中还包括所述应答角色的属性信息，所述根据所述角色标识设置智能语音设备的应答角色，包括：

8.根据权利要求7所述的方法，其特征在于，若所述智能语音设备的应答角色包括多个，所述属性信息包括角色昵称，所述方法还包括：

识别所述语音信息中所包括的角色昵称；

9.一种语音合成模型训练装置，其特征在于，所述装置包括收集单元、提取单元、识别单元和训练单元：

所述收集单元，用于收集音视频作品；

10.一种用于语音合成模型训练的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-8任一项所述的方法。