CN110288077A

CN110288077A - 一种基于人工智能的合成说话表情的方法和相关装置

Info

Publication number: CN110288077A
Application number: CN201910745062.8A
Authority: CN
Inventors: 李广之; 陀得意; 康世胤
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2019-09-27
Anticipated expiration: 2038-11-14
Also published as: CN110288077B; CN109447234B; CN109447234A

Abstract

本申请实施例公开了一种基于人工智能的合成说话表情的方法和相关装置，至少涉及人工智能中的多种技术，针对终端发送的文本内容，确定文本内容对应的文本特征和所述文本特征所标识发音元素的时长，通过表情模型，获得所述文本特征、所标识发音元素的时长对应的目标表情特征；并向所述终端返回所述目标表情特征。该表情模型可以对该文本特征中具有不同时长的同一发音元素确定出不同的子表情特征，增加了说话表情的变化样式，根据表情模型所确定目标表情特征生成的说话表情与说话人的表情搭配，由于对于同一个发音元素说话表情具有不同的变化样式，从而改善了说话表情变化的过度不自然的情况，提高了用户的沉浸感。

Description

一种基于人工智能的合成说话表情的方法和相关装置

本申请对申请号为201811354206.9，申请日为2018年11月14日，发明名称为“一种模型训练方法、合成说话表情的方法和相关装置”的中国专利申请提出分案申请。

技术领域

本申请涉及数据处理领域，特别是涉及一种基于人工智能的合成说话表情的方法和相关装置。

背景技术

随着计算机技术的发展，人机交互已经比较常见，但多为单纯的语音交互，例如，交互设备可以根据用户输入的文字或语音确定回复内容，并播放根据回复内容合成的虚拟声音。

这种类型的人机交互带来的用户沉浸感难以满足目前用户的交互需求，为了提高用户沉浸感，具有表情变化能力例如可以口型变化的虚拟对象作为和用户的交互对象应运而生。这种虚拟对象可以卡通、虚拟人等虚拟形象，在与用户进行人机交互时，除了可以播放交互用的虚拟声音，还可以根据虚拟声音展示对应的表情，给用户提供一种虚拟对象发出该虚拟语音的感受。

目前这种虚拟对象做出何种表情主要是根据当前所播放的发音元素决定的，导致针对播放虚拟语音时，虚拟对象的表情变化样式局限，而且表情变化的过度不自然，给用户提供的感受实际并不好，难以起到提高用户沉浸感的作用。

发明内容

为了解决上述技术问题，本申请提供了一种用于合成说话表情的模型训练方法、合成说话表情的方法和相关装置，增加了说话表情的变化样式，根据表情模型所确定目标表情特征生成的说话表情，由于对于同一个发音元素说话表情具有不同的变化样式，从而一定程度上改善了说话表情变化的过度不自然的情况

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供一种用于合成说话表情的模型训练方法，包括：

获取包含说话人面部动作表情和对应语音的视频；

根据所述视频获取所述说话人的表情特征、所述语音的声学特征以及所述语音的文本特征；所述声学特征包括多个子声学特征；

根据所述文本特征和所述声学特征确定所述文本特征所标识发音元素的时间区间和时长；所述文本特征所标识的任一个发音元素为目标发音元素，所述目标发音元素的时间区间为所述目标发音元素在所述声学特征中所对应子声学特征在所述视频中的时间区间，所述目标发音元素的时长为所述目标发音元素所对应子声学特征的持续时间；

根据所述文本特征所标识发音元素的时间区间和时长，以及所述表情特征，确定第一对应关系，所述第一对应关系用于体现发音元素的时长与发音元素的时间区间在所述表情特征中对应的子表情特征间的对应关系；

根据所述第一对应关系训练表情模型；所述表情模型用于根据待定文本特征和所述待定文本特征所标识发音元素的时长确定对应的目标表情特征。

第二方面，本申请实施例提供一种用于合成说话表情的模型训练装置，所述装置包括获取单元、第一确定单元、第二确定单元和第一训练单元：

所述获取单元，用于获取包含说话人面部动作表情和对应语音的视频；

所述获取单元还用于根据所述视频获取所述说话人的表情特征、所述语音的声学特征以及所述语音的文本特征；所述声学特征包括多个子声学特征；

所述第一确定单元，用于根据所述文本特征和所述声学特征确定所述文本特征所标识发音元素的时间区间和时长；所述文本特征所标识的任一个发音元素为目标发音元素，所述目标发音元素的时间区间为所述目标发音元素在所述声学特征中所对应子声学特征在所述视频中的时间区间，所述目标发音元素的时长为所述目标发音元素所对应子声学特征的持续时间；

所述第二确定单元，用于根据所述文本特征所标识发音元素的时间区间和时长，以及所述表情特征确定第一对应关系，所述第一对应关系用于体现发音元素的时长与发音元素的时间区间在所述表情特征中对应的子表情特征间的对应关系；

所述第一训练单元，用于根据所述第一对应关系训练表情模型；所述表情模型用于根据待定文本特征和所述待定文本特征所标识发音元素的时长确定对应的目标表情特征。

第三方面，本申请实施例提供一种用于合成说话表情的模型训练设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面中任一项所述的用于合成说话表情的模型训练方法。

第四方面，本申请实施例提供一种合成说话表情的方法，所述方法包括：

确定文本内容对应的文本特征和所述文本特征所标识发音元素的时长；所述文本特征包括多个子文本特征；

通过所述文本特征、所标识发音元素的时长和表情模型，获得所述文本内容对应的目标表情特征；所述目标表情特征包括多个子表情特征，所述文本特征所标识的任一个发音元素为目标发音元素，在所述目标表情特征中，所述目标发音元素对应的子表情特征是根据所述目标发音元素在所述文本特征中对应的子文本特征和所述目标发音元素的时长确定得到的。

第五方面，本申请实施例提供一种合成说话表情的装置，所述装置包括确定单元和第一获取单元：

所述确定单元，用于确定文本内容对应的文本特征和所述文本特征所标识发音元素的时长；所述文本特征包括多个子文本特征；

所述第一获取单元，用于通过所述文本特征、所标识发音元素的时长和表情模型，获得所述文本内容对应的目标表情特征；所述目标表情特征包括多个子表情特征，所述文本特征所标识的任一个发音元素为目标发音元素，在所述目标表情特征中，所述目标发音元素对应的子表情特征是根据所述目标发音元素在所述文本特征中对应的子文本特征和所述目标发音元素的时长确定得到的。

第六方面，本申请实施例提供一种用于合成说话表情的设备，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行第四方面中任一项所述的合成说话表情的方法。

第七方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面中任一项所述的用于合成说话表情的模型训练方法或第四方面中任一项所述的合成说话表情的方法。

由上述技术方案可以看出，为了能够为虚拟对象确定出变化多样、表情过度自然的说话表情，本申请实施例提供了一种全新的表情模型训练方式，根据包含了说话人面部动作表情和对应语音的视频得到说话人的表情特征、所述语音的声学特征和所述语音的文本特征。由于声学特征和文本特征均是根据同一视频得到的，故可以根据声学特征确定出文本特征所标识发音元素的时间区间和时长。根据所述文本特征所标识发音元素的时间区间和时长，以及所述表情特征确定第一对应关系，所述第一对应关系用于体现发音元素的时长与发音元素的时间区间在所述表情特征中对应的子表情特征间的对应关系。

对于所标识发音元素中的目标发音元素来说，通过目标发音元素的时间区间可以从表情特征中确定出在该时间区间内的子表情特征，而目标发音元素的时长能够体现出目标发音元素在视频语音的各种表达语句下的不同持续时间，故确定出的子表情特征可以体现在不同表达语句中说话人说出该目标发音元素可能的表情。故根据第一对应关系训练得到的表情模型，针对待确定表情特征的文本特征，该表情模型可以对该文本特征中具有不同时长的同一发音元素确定出不同的子表情特征，增加了说话表情的变化样式，根据表情模型所确定目标表情特征生成的说话表情，由于对于同一个发音元素说话表情具有不同的变化样式，从而一定程度上改善了说话表情变化的过度不自然的情况。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的表情模型训练方法的应用场景示意图；

图2为本申请实施例提供的一种用于合成说话表情的模型训练方法的流程图；

图3为本申请实施例提供的一种声学模型训练方法的流程图；

图4为本申请实施例提供的一种合成说话表情的方法的应用场景示意图；

图5为本申请实施例提供的一种合成说话表情的方法的流程图；

图6为本申请实施例提供的一种人机交互中生成可视化语音合成方法的架构示意图；

图7a为本申请实施例提供的一种合成说话表情的模型训练装置的结构图；

图7b为本申请实施例提供的一种合成说话表情的模型训练装置的结构图；

图7c为本申请实施例提供的一种合成说话表情的模型训练装置的结构图；

图8a为本申请实施例提供的一种合成说话表情的装置的结构图；

图8b为本申请实施例提供的一种合成说话表情的装置的结构图；

图9为本申请实施例提供的一种服务器的结构图；

图10为本申请实施例提供的一种终端设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，虚拟对象与用户进行人机交互时，虚拟对象做出何种说话表情主要是根据当前所播放的发音元素决定的，例如，建立发音元素与表情的对应关系，一般情况下，一个发音元素对应一个说话表情，当播放到某个发音元素时，使得虚拟对象做出该发音元素所对应的说话表情，这种方法导致针对播放虚拟语音时，虚拟对象的说话表情只能是当前播放发音元素所对应的说话表情，虚拟对象的说话表情变化样式局限，而且由于一个发音元素仅对应一个说话表情，也会导致说话表情变化的过度不自然，给用户提供的感受实际并不好，难以起到提高用户沉浸感的作用。

为了解决上述技术问题，本申请实施例提供了一种全新的表情模型训练方式，在进行表情模型训练时，将文本特征、文本特征所标识的发音元素的时长、发音元素的时间区间在表情特征中对应的子表情特征作为训练样本，从而根据发音元素的时长与发音元素的时间区间在表情特征中对应的子表情特征间的对应关系进行训练得到表情模型。

本申请实施例所提供的合成说话表情的方法以及相应的用于合成说话表情的模型训练方法均可以是基于人工智能实现的，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述计算机视觉技术、语音处理技术、自然语言处理技术和深度学习等方向。

例如可以涉及计算机视觉(Computer Vision)中的图像处理(ImageProcessing)、图像语义理解(Image Semantic Understanding，ISU)、视频处理(videoprocessing)、视频语义理解(video semantic understanding，VSU)、三维物体重建(3Dobject reconstruction)、人脸识别(face recognition)等。

例如可以涉及语音技术(Speech Technology)中的语音识别技术，其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signalfrequency analyzing)、语音信号特征提取(Speech signal feature extraction)、语音信号特征匹配/识别(Speech signal feature matching/recognition)、语音的训练(Speech training)等。

例如可以涉及自然语言处理(Nature Language processing,NLP)中的文本预处理(Text preprocessing)和语义理解(Semantic understanding)等，其中包括词、句切分(word/sentence segementation)、词性标注(word tagging)、语句分类(word/sentenceclassification)等。

例如可以涉及机器学习(Machine learning，ML)中的深度学习(Deep Learning)，包括各类人工神经网络(artificial neural network)。

为了便于理解本申请的技术方案，下面结合实际应用场景对本申请实施例提供的表情模型训练方法进行介绍。

本申请提供的模型训练方法可以应用于对包括说话人说出语音的视频具有处理能力的数据处理设备，如终端设备、服务器。其中，终端设备具体可以为智能手机、计算机、个人数字助理(Personal Digital Assistant，PDA)、平板电脑等；服务器具体可以为独立服务器，也可以为集群服务器。

该数据处理设备可以具备实施计算机视觉技术的能力，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在本申请实施例中，数据处理设备可以通过计算机视觉技术从视频中获取说话人的表情特征、对应的持续时间等各类信息。

该数据处理设备可以具有实施语音技术中自动语音识别技术(ASR)和声纹识别技术等的能力。语音技术让数据处理设备能听、能看、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

在本申请实施例中，数据处理设备通过实施上述语音技术，可以对获取的视频进行语音识别，从而得到视频中说话人的声学特征、对应的发音元素、对应的持续时间等各类信息。

该数据处理设备还可以具有实施自然语言处理的能力，其是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解等技术。

在本申请实施例中，数据处理设备通过实施上述NLP技术，可以实现通过前述从视频中确定语音的文本特征。

该数据处理设备可以具备机器学习(Machine Learning,ML)能力。ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。

在本申请实施例中，用于合成说话表情的模型训练方法主要涉及对各类人工神经网络的应用，例如通过第一对应关系训练表情模型。

参见图1，图1为本申请实施例提供的表情模型训练方法的应用场景示意图，该应用场景中包括服务器101，服务器101可以获取包含了说话人面部动作表情和对应语音的视频，该视频可以是一个，也可以是多个。视频中语音包括的字符所对应的语种可以是汉语、英语、韩语等各种语种。

服务器101根据获取的视频可以获取说话人的表情特征、语音的声学特征和语音的文本特征。其中，说话人的表情特征可以表示说话人在视频中说出语音时的面部动作表情，例如可以包括口型特征、眼睛动作等，视频观看者通过说话人的表情特征可以感受到视频中的语音就是该说话人说出的。语音的声学特征可以包括语音的声波。语音的文本特征用于标识文本内容所对应的发音元素，需要说明的是，本申请实施例中的发音元素可以为说话人说出语音包括的字符对应的读音。

需要说明的是，在本实施例中，表情特征、声学特征和文本特征都可以通过特征向量的形式来表示。

由于声学特征和文本特征均是根据同一视频得到的，故服务器101可以根据文本特征和声学特征确定文本特征所标识发音元素的时间区间和时长。其中，时间区间为发音元素所对应的子声学特征在视频中所对应的开始时刻和结束时刻之间的区间，时长为发音元素所对应子声学特征的持续时间，例如可以为结束时刻和开始时刻之差。一个子声学特征是一个发音元素所对应的一部分声学特征，声学特征中可以包括多个子声学特征。

接着，服务器101根据文本特征所标识发音元素的时间区间和时长，以及表情特征确定第一对应关系，第一对应关系用于体现发音元素的时长与发音元素的时间区间在所述表情特征中对应的子表情特征间的对应关系。其中，一个子表情特征是一个发音元素所对应的一部分表情特征，表情特征中可以包括多个子表情特征。

对于所标识发音元素中的任一发音元素例如目标发音元素来说，目标发音元素的时间区间为目标发音元素在声学特征中所对应子声学特征在该视频中的时间区间，声学特征、文本特征和表情特征都是根据同一视频得到的，所对应的是同一个时间轴，故通过目标发音元素的时间区间可以从表情特征中确定出在该时间区间内的子表情特征。而目标发音元素的时长为目标发音元素所对应子声学特征的持续时间，能够体现出目标发音元素在视频语音的各种表达语句下的不同持续时间，故确定出的子表情特征可以体现在不同表达语句中说话人说出该目标发音元素可能的说话表情。

以说话人说出的语音为“你吃饭了吗”、包含该语音的视频的时长为2s为例，其中，文本特征用于标识“你吃饭了吗”这些字符的发音元素，文本特征所标识的发音元素包括“ni’chi’fan’le’ma”、表情特征表示说话人说出“你吃饭了吗”这段语音时说话人的说话表情，声学特征为说话人说出“你吃饭了吗”这段语音时发出的声波。目标发音元素为“ni’chi’fan’le’ma”中的任一发音元素，若目标发音元素为“ni”，“ni”的时间区间为第0s与第0.1s之间的区间，“ni”的时长为0.1s，“ni”所对应的子表情特征为视频中第0s到第0.1s之间的区间说话人说出语音所对应的一部分表情特征，例如可以是子表情特征A。服务器101在确定第一对应关系时，可以根据文本特征所标识发音元素“ni”的时间区间第0s与第0.1s确定出其对应的子表情特征A，这样，可以确定发音元素“ni”的时长0.1s与发音元素“ni”在时间区间第0s与第0.1s所对应的子表情特征A间的对应关系，第一对应关系包括了发音元素“ni”的时长0.1s与发音元素“ni”在时间区间第0s与第0.1s所对应的子表情特征A间的对应关系。

服务器101根据第一对应关系训练表情模型，表情模型用于根据待定文本特征和待定文本特征所标识发音元素的时长确定对应的目标表情特征。

可以理解的是，本实施关注的是发音元素，并不关注发音元素所对应的字符具体是什么。说话人说出的语音中同一个句子可能包括不同的字符，但是不同的字符可能对应的是相同的发音元素，这样，同一个发音元素位于不同的时间区间，可能具有不同的时长，从而对应不同的子表情特征。

例如，说话人说出的语音包括的字符为“和你说个秘密”，字符“秘”和“密”所对应的文本特征标识的发音元素都是“mi”，字符“秘”所对应的文本特征标识的发音元素“mi”的时间区间为第0.4s与第0.6s之间的区间，时长为0.2s，字符“密”所对应的文本特征标识的发音元素“mi”的时间区间为第0.6s与第0.7s之间的区间，时长为0.1s。可见，不同的字符“秘”和“密”所对应的文本特征标识同一个发音元素“mi”，但是对应的时长不同，因此，发音元素“mi”对应不同的子表情特征。

另外，根据说话人在说话时的表达方式的不同，说话人说出的语音中不同句子可能包括相同字符，相同字符所对应的文本特征标识的发音元素可能具有不同的时长，这样，同一个发音元素对应不同的子表情特征。

例如，说话人说出的语音为“你好”，字符“你”所对应的文本特征标识的发音元素“ni”的时长为0.1s，但是，在说话人说出的另一个语音“你我他”中，字符“你”所对应的文本特征标识的发音元素“ni”的时长可以为0.3s，此时，相同字符所对应的文本特征标识的发音元素具有不同的时长，使得同一个发音元素可以对应不同的子表情特征。

由于一个发音元素对应不同的时长，不同时长的发音元素所对应的子表情特征不同，第一对应关系能够体现出一个发音元素具有的不同发音元素的时长与子表情特征的对应关系，这样，在使用根据第一对应关系训练得到的表情模型确定子表情特征时，针对待确定表情特征的文本特征，该表情模型可以对该文本特征中具有不同时长的同一发音元素确定出不同的子表情特征，增加了说话表情的变化样式。另外，根据表情模型所确定目标表情特征生成的说话表情，由于对于同一个发音元素说话表情具有不同的变化样式，从而一定程度上改善了说话表情变化的过度不自然的情况。

可以理解的是，为了解决传统方式所存在的技术问题，增加说话表情的变化样式，改善说话表情变化的过度不自然的情况，本申请实施例提供了一种新的表情模型训练方法，并且利用该表情模型生成文本内容所对应的说话表情。接下来，将结合附图对本申请实施例提供的用于合成说话表情的模型训练方法和合成说话表情的方法进行介绍。

首先，对用于合成说话表情的模型训练方法进行介绍。参见图2，图2示出了一种用于合成说话表情的模型训练方法的流程图，所述方法包括：

S201、获取包含说话人面部动作表情和对应语音的视频。

包含了面部动作表情和对应语音的视频可以是说话人在有摄像头的录音环境，录制说话人说出的语音，同时通过摄像头录制说话人面部动作表情得到的。

S202、根据所述视频获取所述说话人的表情特征、所述语音的声学特征以及所述语音的文本特征。

其中，表情特征可以是通过对该视频中的面部动作表情进行特征提取得到的，声学特征可以是通过对该视频中的说话人说出语音进行特征提取得到的，文本特征可以是通过对该视频中的说话人说出语音所对应的文本进行特征提取得到的，表情特征、声学特征和文本特征都是根据同一视频得到的，具有相同的时间轴。

表情特征能够标识出说话人说出语音时面部动作表情上的特点，视频观看者通过表情特征能够看出说话人在发出哪些发音元素，在一种实现方式中，表情特征至少包括口型特征，口型特征能够直接体现出说话人说出语音时面部动作表情上的特点，从而保证视频观看者通过说话人的口型特征可以感受到视频中的语音就是该说话人说出的。

S203、根据所述文本特征和所述声学特征确定所述文本特征所标识发音元素的时间区间和时长。

在本实施例中，发音元素例如可以为说话人说出语音包括的字符对应的音节，字符可以是不同语种中的基础语义单位，例如在汉语中，字符可以是汉字，汉字对应的发音元素可以是拼音音节；在英语中，字符可以是单词，单词对应的发音元素可以是对应的音标或音标组合。举例来说，当字符为汉字时，字符对应的发音元素可以为拼音音节，比如，字符为汉字“你”，该字符对应的发音元素可以为拼音音节“ni”；当字符为英文时，字符对应的发音元素可以为英文音节，比如，字符为英文单词“ball”，该字符对应的发音元素可以为英文音节当然，发音元素也可以为字符对应的拼音音节所包括的最小发音单位，例如，说话人说出的语音包括的字符为“你”，发音元素可以包括“n”和“i”两个发音元素。

在一些情况下，基于声调可能也会对发音元素有所区分，因此，发音元素还可以包括声调。例如在汉语中，说话人说出语音包括的字符是“你是妮妮”，其中，字符“你”和“妮”的拼音音节都是“ni”，但是“你”的声调是三声，而“妮”的声调是一声，因此，“你”所对应的发音元素包括“ni”和三声声调，“妮”所对应的发音元素包括“ni”和一声声调，“你”和“妮”所对应的发音元素根据声调的不同而有所区分。在使用时，可以根据需求确定合适的发音元素。

需要说明的是，字符的语种和字符对应的发音元素的语种除了上述几种可能的方式以外，还可以为其它不同的语种，在此不对字符的语言种类做任何限定。为了便于描述，在本申请的各个实施例中，将主要以字符为汉字，字符对应的发音元素为拼音音节为例进行说明。

S204、根据所述文本特征所标识发音元素的时间区间和时长，以及所述表情特征，确定第一对应关系。

由于声学特征和文本特征均是根据同一视频得到的，声学特征本身包括了时间信息，故可以根据声学特征确定出文本特征所标识发音元素的时间区间和时长。其中，目标发音元素的时间区间为所述目标发音元素在所述声学特征中所对应子声学特征在所述视频中的时间区间，所述目标发音元素的时长为所述目标发音元素所对应子声学特征的持续时间，所述目标发音元素为所述文本特征所标识的任一个发音元素。

所述第一对应关系用于体现发音元素的时长与发音元素的时间区间在所述表情特征中对应的子表情特征间的对应关系。

在确定第一对应关系时，可以通过发音元素的时间区间从表情特征中确定出在该时间区间内发音元素对应的子表情特征，从而确定发音元素的时长与发音元素的时间区间在所述表情特征中对应的子表情特征间的对应关系。

可以理解的是，同一发音元素所对应的时长不仅可以不同，也可以相同，不仅同一发音元素所对应的时长不同时，同一发音音素所对应的子表情特征会不同，甚至当同一发音元素所对应的时长相同时，由于用于说出语音的语气、表达习惯不同等原因，也可以能导致具有相同时长的同一发音元素具有不同的子表情特征。

例如，说话人用兴奋的语气说出语音“妮妮”和说话人用愤怒的语气说出语音“妮妮”，文本特征所标识的发音元素的时长即使相同，由于说话人说话语气的原因，也可能使得同一发音元素对应的子表情特征不同。

S205、根据所述第一对应关系训练表情模型。

训练好的表情模型可以为待定文本特征确定其所标识发音元素对应的目标表情特征，其中，待定文本特征对应的文本内容为需要合成说话表情或还需要进一步生成虚拟声音的文本内容。待定文本特征和所述待定文本特征所标识发音元素的时长作为表情模型的输入，目标表情特征作为表情模型的输出。

用于训练表情模型的训练数据是第一对应关系，在第一对应关系中，具有相同时长或不同时长的同一发音元素会对应不同的子表情特征，这样，在后续使用训练得到的表情模型确定目标表情特征时，将待定文本特征和待定文本特征所标识发音元素的时长输入该表情模型后，也会得到与训练数据类似的情况，即具有不同时长的同一发音元素输入该表情模型后得到的目标表情特征可能不同，即使将具有相同时长的同一发音元素输入该表情模型后也可能得到不同的目标表情特征。

需要说明的是，在本实施例中同一发音元素可能具有不同的时长，具有不同时长的同一发音元素具有不同的表情特征，即使相同的时长也会具有不同的表情特征，通过发音元素对应的上下文信息可以准确的确定出该发音元素对应的是哪个时长，以及确定出的发音元素的时长对应的是哪个表情。

人在正常发音时，在不同上下文下，同一个发音元素表述的特点可能不同，例如，发音元素的时长不同，那么，同一个发音元素可能具有不同的子表情特征，也就是说，一个发音元素对应哪个时长，以及具有时长的该发音元素对应哪个表情特征与该发音元素的上下文有关。因此，在一种实现方式中，训练表情模型所用到的文本特征还可以用于标识所述语音中发音元素以及发音元素对应的上下文信息。这样，使得使用训练得到的表情模型确定表情特征时，根据上下文信息可以准确的确定出发音元素的时长，以及对应哪个子表情特征。

例如，说话人说出的语音为“你是妮妮”，其所对应的文本特征所标识的发音元素包括“ni’shi’ni’ni”，其中，发音元素“ni”出现三次，第一个发音元素“ni”的时长为0.1s，对应子表情特征A，第一个发音元素“ni”的时长为0.2s，对应子表情特征B，第三个发音元素“ni”的时长为0.1s，对应子表情特征C。若该文本特征还可以标识语音中发音元素以及发音元素对应的上下文信息，其中，第一个发音元素“ni”的上下文信息为上下文信息1，第二个发音元素“ni”的上下文信息为上下文信息2，第三个发音元素“ni”的上下文信息为上下文信息3，那么，使用训练得到的表情模型确定表情特征时，根据上下文信息1可以准确地确定出发音元素“ni”的时长为0.2s，对应的子表情特征为子表情特征A，以此类推。

由于上下文信息能够体现人在正常发音时的表达方式，通过上下文信息准确地确定出发音元素的时长和对应的子表情特征，使得利用根据第一对应关系训练得到的表情模型确定虚拟对象发出发音元素的目标表情特征时，能够使得虚拟对象的表达方式更贴合人的表达。另外，上下文信息可以告知在发出上一个发音元素的情况下，说话人发出当前发音元素所对应的子表情特征是什么样的，使得当前发音元素所对应的子表情特征与上下文发音元素所对应的子表情特征之间的衔接相关联，提高了后期生成说话表情的过度流畅程度。

由上述技术方案可以看出，为了能够为虚拟对象确定出变化多样、表情过度自然的说话表情，本申请实施例提供了一种全新的表情模型训练方式，根据包含了说话人面部动作表情和对应语音的视频得到说话人的表情特征、所述语音的声学特征和所述语音的文本特征。由于声学特征和文本特征均是根据同一视频得到的，故可以根据声学特征确定出文本特征所标识发音元素的时间区间和时长。

可以理解的是，通过图2所对应实施例提供的方法训练的表情模型生成说话表情时，可以增加说话表情的变化样式，改善了说话表情变化的过度不自然的情况。而在人机交互时，不仅向用户展示虚拟对象的说话表情，还可以播放交互用的虚拟声音。如果采用现有方式生成虚拟声音，可能会出现虚拟声音和本申请实施例所提供方案生成的说话表情不搭配的情况，在这种情况下，本申请实施例提供一种新的声学模型训练方法，通过该方式训练出的声学模型可以生成与说话表情搭配的虚拟声音，参见图3，该方法包括：

S301、确定所述文本特征所标识发音元素与所述声学特征间的第二对应关系。

S302、根据所述第二对应关系训练声学模型。

其中，所述第二对应关系用于体现发音元素的时长与发音元素在所述声学特征中对应的子声学特征间的对应关系。

训练好的声学模型可以为待定文本特征确定其所标识发音元素对应的目标声学特征。其中，待定文本特征和所述待定文本特征所标识发音元素的时长作为声学模型的输入，目标声学特征作为声学模型的输出。

在确定第二对应关系时，发音元素就是说话人说话发出的，声学特征与说话人发出的发音元素有对应关系，这样，根据文本特征所标识发音元素可以确定出发音元素在声学特征中对应的子声学特征，从而针对文本特征所标识的任一声学特征，可以确定文本特征所标识发音元素与所述声学特征间的第二对应关系。

可以理解的是，同一发音元素所对应的时长不仅可以不同，也可以相同，不仅在同一发音元素所对应的时长不同时，同一发音音素所对应的子声学特征会不同，甚至当同一发音元素所对应的时长相同时，由于用于说出语音的语气、表达方式不同等原因，也可以能导致具有相同时长的同一发音元素具有不同的子声学特征。

发音元素现本身包括了时间信息，可以通过发音元素的时间区间从表情特征中确定出在该时间区间内发音元素对应的子表情特征，从而确定发音元素的时长与发音元素的时间区间在所述表情特征中对应的子表情特征间的对应关系。

由于训练声学模型所使用的训练数据与训练表情模型所使用的训练数据来自同一视频，对应相同的时间轴，说话人发出一个发音元素时，说话人的声音与说话人的面部动作表情是搭配的，这样，根据该声学模型确定出的目标声学特征生成的虚拟声音与根据表情模型确定出的目标表情特征生成的说话表情是搭配的，给用户提供更好的感受，提高用户沉浸感。

另外，由于用于训练声学模型的训练数据是第二对应关系，在第二对应关系中，具有相同时长或不同时长的同一发音元素会对应不同的子声学特征，这样，在后续使用训练得到的声学模型确定目标声学特征时，将待定文本特征和待定文本特征所标识发音元素的时长输入该声学模型后，也会得到与训练数据类似的情况，即具有不同时长的同一发音元素输入该声学模型后得到的目标声学特征不同，即使同一发音元素具有相同时长，具有相同时长的同一发音元素输入该声学模型后也可以得到不同的目标声学特征。

由此可见，故根据第二对应关系训练得到的声学模型，针对待确定声学特征的文本特征，该声学模型可以对该文本特征中具有不同时长的同一发音元素确定出不同的子声学特征，增加了虚拟声音的变化样式，根据声学模型所确定目标声学特征生成的虚拟声音，由于对于同一个发音元素虚拟声音具有不同的变化样式，从而一定程度上改善了虚拟声音变化的过度不自然的情况。

可以理解的是，在利用表情模型确定待定文本特征所标识发音元素的时长对应的目标表情特征时，该表情模型的输入是待定文本特征和所述待定文本特征所标识发音元素的时长，其中，发音元素的时长直接决定了确定出的目标表情特征是什么。也就是说，为了确定出发音元素的时长对应的目标表情特征，首先需要确定出发音元素的时长，发音元素的时长可以通过多种方式进行确定。

其中一种确定发音元素的时长的方式可以是根据时长模型进行确定，为此，本实施提供一种时长模型的训练方法，该方法包括根据所述文本特征和所述文本特征所标识发音元素的时长训练时长模型。

训练好的时长模型可以为待定文本特征确定其所标识音素的时长。待定文本特征作为时长模型的输入，待定文本特征所标识发音元素的时长作为时长模型的输出。

由于训练该时长模型所使用的训练数据与训练表情模型和声学模型所使用的训练数据来自同一视频，训练该时长模型所使用的训练数据中包括的文本特征和文本特征所标识发音元素的时长即为训练表情模型和声学模型所使用文本特征和文本特征所标识发音元素的时长。这样，使用该时长模型确定出来的发音元素的时长适用于前述实施例训练得到的表情模型和声学模型，表情模型根据利用该时长模型得到的发音元素的时长确定出的目标表情特征，以及声学模型根据利用该时长模型得到的发音元素的时长确定出的目标声学特征符合人正常说话时的表达方式。

接下来，将对合成说话表情的方法进行介绍。本申请实施例提供的合成说话表情的方法可以应用于提供合成说话表情相关功能的设备，如终端设备、服务器等，其中，终端设备具体可以为智能手机、计算机、个人数字助理(Personal Digital Assistant，PDA)、平板电脑等；服务器具体可以为应用服务器，也可以为Web服务器，在实际应用部署时，该服务器可以为独立服务器，也可以为集群服务器。

本申请实施例提供的语音交互中确定说话表情的方法可以应用于多种应用场景，本申请实施例以两种应用场景为例。

第一种应用场景可以是在游戏场景中，不同用户之间通过虚拟对象进行交流，一个用户可以与另一个用户对应的虚拟对象进行交互，例如，用户A与用户B通过虚拟对象进行交流，用户A输入文本内容，用户B看到用户A对应的虚拟对象的说话表情，用户B与用户A对应的虚拟对象进行交互。

第二种应用场景可以应用在智能语音助手中，例如智能语音助手siri，当用户使用智能语音助手siri时，智能语音助手siri在向用户反馈交互信息时，还可以向用户展示虚拟对象的说话表情，用户与该虚拟对象进行交互。

为了便于理解本申请的技术方案，下面以服务器作为执行主体，结合实际应用场景对本申请实施例提供的合成说话表情的方法进行介绍。

参见图4，图4为本申请实施例提供的合成说话表情的方法的应用场景示意图。该应用场景中包括终端设备401和服务器402，其中，终端设备401用于将自身获取的文本内容发送至服务器402，服务器402用于执行本申请实施例提供的合成说话表情的方法，以确定终端设备401发送的文本内容对应的目标表情特征。

当服务器402需要确定文本内容对应的目标表情特征时，服务器402首先确定文本内容对应的文本特征和所述文本特征所标识发音元素的时长，接着，服务器402将文本特征和所标识发音元素的时长输入到图2对应的实施例训练出的表情模型得到文本内容对应的目标表情特征。

由于表情模型是根据第一对应关系训练得到的，所述第一对应关系用于体现发音元素的时长与发音元素的时间区间在所述表情特征中对应的子表情特征间的对应关系，在第一对应关系中具有相同时长或不同时长的同一发音元素会对应不同的子表情特征。这样，利用该表情模型确定目标表情特征时，针对待确定表情特征的文本特征，该表情模型可以对该文本特征中具有不同或相同时长的同一发音元素确定出不同的子表情特征，增加了说话表情的变化样式，根据表情模型所确定目标表情特征生成的说话表情，由于对于同一个发音元素说话表情具有不同的变化样式，从而一定程度上改善了说话表情变化的过度不自然的情况。

下面将结合附图，对本申请实施例提供的一种合成说话表情的方法进行介绍。

参见图5，图5示出了一种语音交互中确定说话表情的方法流程图，所述方法包括：

S501、确定文本内容对应的文本特征和所述文本特征所标识发音元素的时长。

在本实施例中，文本内容是指需要向与虚拟对象进行交互的用户反馈的文本，根据应用场景的不同文本内容可能会有所不同。

在上述提到的第一种应用场景中，文本内容可以是用户输入内容所对应的文本。例如，用户B看到用户A对应的虚拟对象的说话表情，用户B与用户A对应的虚拟对象进行交互，那么，用户A输入内容所对应的文本可以作为文本内容。

在上述提到的第二种应用场景中，文本内容可以是根据用户输入内容反馈的交互信息所对应的文本。例如，用户输入“今天天气怎么样”后，siri会针对用户输入进行回答，向用户反馈包括今天天气情况的交互信息，那么，向用户反馈的包括今天天气情况的交互信息所对应的文本可以作为文本内容。

需要说明的是，用户输入的方式可以是输入文本，也可以是输入语音。当用户输入的方式可以是输入文本时，则文本内容为终端设备101直接根据用户输入获得的或者是根据用户输入文本反馈的，当用户通过终端设备101输入的是语音，则文本内容为终端设备101对用户输入的语音进行识别获得的或根据识别到的用户输入语音反馈的。

对文本内容可以进行特征提取，从而得到文本内容对应的文本特征，文本特征可以包括多个子文本特征，根据文本特征可以确定出文本特征所标识发音元素的时长。

需要说明的是，在确定文本特征所标识发音元素的时长时，可以通过所述文本特征和时长模型，获得所述文本特征所标识发音元素的时长。其中，时长模型是根据历史文本特征和历史文本特征所标识发音元素的时长训练得到的。时长模型的训练方法参见前述实施例的介绍，此处不再赘述。

S502、通过所述文本特征、所标识发音元素的时长和表情模型，获得所述文本内容对应的目标表情特征。

也就是说，将所述文本特征和所标识发音元素的时长作为表情模型的输入，从而通过表情模型得到所述文本内容对应的目标表情特征。

在所述目标表情特征中，目标发音元素对应的子表情特征是根据所述目标发音元素在所述文本特征中对应的子文本特征和所述目标发音元素的时长确定得到的。

其中，所述目标发音元素为所述文本特征所标识发音元素中的任一发音元素，所述表情模型是根据图2对应的实施例所提供的方法训练得到的。

需要说明的是，由于在一些情况下，训练表情模型所用到的文本特征可以用于标识所述语音中发音元素以及发音元素对应的上下文信息。那么，在利用表情模型确定目标表情特征时，文本特征也可以用于标识所述文本内容中发音元素以及发音元素对应的上下文信息。

从上述技术方案可以看出，由于表情模型是根据第一对应关系训练得到的，所述第一对应关系用于体现发音元素的时长与发音元素的时间区间在所述表情特征中对应的子表情特征间的对应关系，在第一对应关系中具有相同时长或不同时长的同一发音元素会对应不同的子表情特征。这样，利用该表情模型确定目标表情特征时，针对待确定表情特征的文本特征，该表情模型可以对该文本特征中具有不同或相同时长的同一发音元素确定出不同的子表情特征，增加了说话表情的变化样式，根据表情模型所确定目标表情特征生成的说话表情，由于对于同一个发音元素说话表情具有不同的变化样式，从而一定程度上改善了说话表情变化的过度不自然的情况。

可以理解的是，通过图5所对应实施例提供的方法合成说话表情时，可以增加说话表情的变化样式，改善了说话表情变化的过度不自然的情况。而在人机交互时，不仅向用户展示虚拟对象的说话表情，还可以播放交互用的虚拟声音。如果采用现有方式生成虚拟声音，可能会出现虚拟声音和说话表情不搭配的情况，在这种情况下，本申请实施例提供一种合成虚拟声音的方法，通过该方式合成的虚拟声音可以与说话表情搭配，该方法包括通过所述文本特征、所标识发音元素的时长和声学模型，获得所述文本内容对应的目标声学特征。

其中，在所述目标声学特征中，所述目标发音元素对应的子声学特征是根据所述目标发音元素在所述文本特征中对应的子文本特征和所述目标发音元素的时长确定得到的；所述声学模型图3对应的实施例所提供的方法训练得到的。

由于确定目标声学特征所使用的声学模型的训练数据与确定目标表情特征所使用的表情模型的训练数据来自同一视频，对应相同的时间轴，说话人发出一个发音元素时，说话人的声音与说话人的表情是搭配的，这样，根据该声学模型确定出的目标声学特征生成的虚拟声音与根据表情模型确定出的目标表情特征生成的说话表情是搭配的，给用户提供更好的感受，提高用户沉浸感。

接下来，将结合具体应用场景，基于本申请实施例提供的模型训练方法和合成说话表情以及虚拟声音的方法，对人机交互中生成可视化语音合成方法进行介绍。

该应用场景可以游戏场景，用户A与用户B通过虚拟对象进行交流，用户A输入文本内容，用户B看到用户A对应的虚拟对象的说话表情并听到虚拟声音，用户B与用户A对应的虚拟对象进行交互。参见图6，图6示出了一种人机交互中生成可视化语音合成方法的架构示意图。

如图6所示，该架构示意图中包括模型训练部分和合成部分。其中，在模型训练部分，可以收集包含了说话人面部动作表情和对应语音的视频。对说话人说出语音所对应的文本进行文本分析、韵律分析，从而提取出文本特征。对说话人说出语音进行声学特征提取，从而提取出声学特征。对对说话人说出语音时的面部动作表情进行表情特征提取，从而提取出表情特征。对说话人说出语音通过强制对齐模块进行处理，根据文本特征和声学特征确定文本特征所标识发音元素的时间区间和时长。

然后，根据文本特征所标识发音元素的时长、对应的表情特征、文本特征进行表情模型训练，得到表情模型；根据文本特征所标识发音元素的时长、对应的声学特征、文本特征进行声学模型训练，得到声学模型；根据文本特征和文本特征所标识发音元素的时长进行时长模型训练，得到时长模型。至此，模型训练部分完成所需模型的训练。

接着进入合成部分，在合成部分可以利用训练得到的表情模型、声学模型、时长模型完成可视化语音合成。具体的，对待合成可视化语音的文本内容进行文本分析、韵律分析，得到文本内容对应的文本特征，将文本特征输入时长模型进行时长预测得到文本特征所标识发音元素的时长。将文本特征和所标识发音元素的时长一起生成的帧级特征向量输入表情模型进行表情特征预测得到文本内容对应的目标表情特征。将所述文本特征和所标识发音元素的时长一起生成的帧级特征向量输入声学模型进行声学特征预测得到文本内容对应的目标声学特征。最后，将得到的目标表情特征和目标声学特征进行渲染生成动画，从而得到可视化语音。

通过上述方案得到的可视化语音一方面增加了说话表情和虚拟语音的变化样式，一定程度上改善了说话表情变化的过度不自然的情况，另一方面，由于训练声学模型所使用的训练数据与训练表情模型所使用的训练数据来自同一视频，对应相同的时间轴，说话人发出一个发音元素时，说话人的声音与说话人的表情是搭配的，这样，根据该声学模型确定出的目标声学特征生成的虚拟声音与根据表情模型确定出的目标表情特征生成的说话表情是搭配的，故合成的可视化语音给用户提供更好的感受，提高用户沉浸感。

基于前述实施例提供的用于合成说话表情的模型训练方法和合成说话表情的方法，对本申请实施例提供的相关装置进行介绍。本实施例提供一种用于合成说话表情的模型训练装置700，参见图7a，所述装置700包括获取单元701、第一确定单元702、第二确定单元703和第一训练单元704：

所述获取单元701，用于获取包含说话人面部动作表情和对应语音的视频，以及用于根据所述视频得到所述说话人的表情特征、所述语音的声学特征以及所述语音的文本特征；所述声学特征包括多个子声学特征；

所述第一确定单元702，用于根据所述文本特征和所述声学特征确定所述文本特征所标识发音元素的时间区间和时长；所述文本特征所标识的任一个发音元素为目标发音元素，所述目标发音元素的时间区间为所述目标发音元素在所述声学特征中所对应子声学特征在所述视频中的时间区间，所述目标发音元素的时长为所述目标发音元素所对应子声学特征的持续时间；

所述第二确定单元703，用于根据所述文本特征所标识发音元素的时间区间和时长，以及所述表情特征确定第一对应关系，所述第一对应关系用于体现发音元素的时长与发音元素的时间区间在所述表情特征中对应的子表情特征间的对应关系；

所述第一训练单元704，用于根据所述第一对应关系训练表情模型；所述表情模型用于根据待定文本特征和所述待定文本特征所标识发音元素的时长确定对应的目标表情特征。

在一种实现方式中，参见图7b，所述装置700还包括第三确定单元705和第二训练单元706：

所述第三确定单元705，用于确定所述文本特征所标识发音元素与所述声学特征间的第二对应关系；所述第二对应关系用于体现发音元素的时长与发音元素在所述声学特征中对应的子声学特征间的对应关系；

所述第二训练单元706，用于根据所述第二对应关系训练声学模型，所述声学模型用于根据待定文本特征和所述待定文本特征所标识发音元素的时长确定对应的目标声学特征。

在一种实现方式中，参见图7c，所述装置700还包括第三训练单元707：

所述第三训练单元707，用于根据所述文本特征和所述文本特征所标识发音元素的时长训练时长模型，所述时长模型用于根据待定文本特征确定所述待定文本特征所标识发音元素的时长。

在一种实现方式中，所述文本特征用于标识所述语音中发音元素以及发音元素对应的上下文信息。

本申请实施例还提供一种合成说话表情的装置800，参见图8a，所述装置800包括确定单元801和第一获取单元802：

所述确定单元801，用于确定文本内容对应的文本特征和所述文本特征所标识发音元素的时长；所述文本特征包括多个子文本特征；

所述第一获取单元802，用于通过所述文本特征、所标识发音元素的时长和表情模型，获得所述文本内容对应的目标表情特征；所述目标表情特征包括多个子表情特征，所述文本特征所标识的任一个发音元素为目标发音元素，在所述目标表情特征中，所述目标发音元素对应的子表情特征是根据所述目标发音元素在所述文本特征中对应的子文本特征和所述目标发音元素的时长确定得到的。

在一种实现方式中，所述表情模型是根据第一对应关系训练得到的，所述第一对应关系用于体现发音元素的时长与发音元素的时间区间在所述表情特征中对应的子表情特征间的对应关系。

在一种实现方式中，参见图8b，所述装置800还包括第二获取单元803：

所述第二获取单元803，用于通过所述文本特征、所标识发音元素的时长和声学模型，获得所述文本内容对应的目标声学特征；在所述目标声学特征中，所述目标发音元素对应的子声学特征是根据所述目标发音元素在所述文本特征中对应的子文本特征和所述目标发音元素的时长确定得到的；

所述声学模型是根据第二对应关系训练得到的，所述第二对应关系用于体现发音元素的时长与发音元素在所述声学特征中对应的子声学特征间的对应关系。

在一种实现方式中，所述确定单元801具体用于通过所述文本特征和时长模型，获得所述文本特征所标识发音元素的时长；所述时长模型是根据历史文本特征和历史文本特征所标识发音元素的时长训练得到的。

在一种实现方式中，所述文本特征用于标识所述文本内容中发音元素以及发音元素对应的上下文信息。

由上述技术方案可以看出，为了能够为虚拟对象确定出变化多样、表情过度自然的说话表情，本申请实施例提供了一种全新的表情模型训练装置，根据包含了说话人面部动作表情和对应语音的视频得到所述说话人的表情特征、所述语音的声学特征和所述语音的文本特征。由于声学特征和文本特征均是根据同一视频得到的，故可以根据声学特征确定出文本特征所标识发音元素的时间区间和时长。根据所述文本特征所标识发音元素的时间区间和时长，以及所述表情特征确定第一对应关系，所述第一对应关系用于体现发音元素的时长与发音元素的时间区间在所述表情特征中对应的子表情特征间的对应关系。

对于所标识发音元素中的目标发音元素来说，通过目标发音元素的时间区间可以从表情特征中确定出在该时间区间内的子表情特征，而目标发音元素的时长能够体现出目标发音元素在视频语音的各种表达语句下的不同持续时间，故确定出的子表情特征可以体现在不同表达语句中说话人说出该目标发音元素可能的表情。故根据第一对应关系训练得到的表情模型，针对待确定表情特征的文本特征，语音交互中确定说话表情的装置通过该表情模型可以对该文本特征中具有不同时长的同一发音元素确定出不同的子表情特征，增加了说话表情的变化样式，根据表情模型所确定目标表情特征生成的说话表情，由于对于同一个发音元素说话表情具有不同的变化样式，从而一定程度上改善了说话表情变化的过度不自然的情况。

本申请实施例还提供了一种服务器，该服务器可以作为用于合成说话表情的模型训练设备，也可以作为用于合成说话表情的设备，下面将结合附图对该服务器进行介绍。请参见图9所示，服务器900，可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central Processing Units，简称CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在设备900上执行存储介质930中的一系列指令操作。

设备900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，和/或，一个或一个以上操作***941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图9所示的服务器结构。

其中，CPU 922用于执行如下步骤：

获取包含说话人面部动作表情和对应语音的视频；

根据所述视频获取所述说话人的表情特征、所述语音的声学特征以及所述语音的文本特征；所述声学特征包括多个子声学特征；根据所述文本特征和所述声学特征确定所述文本特征所标识发音元素的时间区间和时长；所述文本特征所标识的任一个发音元素为目标发音元素，所述目标发音元素的时间区间为所述目标发音元素在所述声学特征中所对应子声学特征在所述视频中的时间区间，所述目标发音元素的时长为所述目标发音元素所对应子声学特征的持续时间；

或者，CPU 922用于执行如下步骤：

请参见图10所示，本申请实施例提供了一种终端设备，该终端设备可以作为用于合成说话表情的设备，该终端设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图10示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图10，手机包括：射频(Radio Frequency，简称RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，简称WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理***与处理器1080逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器1080还具有以下功能：

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述图2至图3对应实施例所述的用于合成说话表情的模型训练方法或图5所对应实施例所述的合成说话表情的方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于人工智能的合成说话表情的方法，其特征在于，所述方法包括：

获取终端发送的文本内容；

确定所述文本内容对应的文本特征和所述文本特征所标识发音元素的时长；所述文本特征包括多个子文本特征；

通过表情模型，获得所述文本特征、所标识发音元素的时长对应的目标表情特征；所述目标表情特征包括多个子表情特征，所述文本特征所标识的任一个发音元素为目标发音元素，在所述目标表情特征中，所述目标发音元素对应的子表情特征是根据所述目标发音元素在所述文本特征中对应的子文本特征和所述目标发音元素的时长确定得到的；

向所述终端返回所述目标表情特征。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过所述文本特征、所标识发音元素的时长和声学模型，获得所述文本内容对应的目标声学特征；在所述目标声学特征中，所述目标发音元素对应的子声学特征是根据所述目标发音元素在所述文本特征中对应的子文本特征和所述目标发音元素的时长确定得到的。

3.根据权利要求1所述的方法，其特征在于，所述确定文本内容对应的文本特征和所述文本特征所标识发音元素的时长，包括：

通过所述文本特征和时长模型，获得所述文本特征所标识发音元素的时长。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述文本内容为向与虚拟对象进行交互的用户反馈的文本，所述文本内容包括用户输入内容所对应的文本，或者，根据用户输入内容反馈的交互信息所对应的文本。

5.根据权利要求1-3任意一项所述的方法，其特征在于，所述文本特征用于标识所述文本内容中发音元素以及发音元素对应的上下文信息。

6.根据权利要求1-3任意一项所述的方法，其特征在于，所述表情特征至少包括口型特征。

7.一种基于人工智能的合成说话表情的装置，其特征在于，所述装置包括获取单元、确定单元、第一获取单元和返回单元：

所述获取单元，用于获取终端发送的文本内容；

所述确定单元，用于确定所述文本内容对应的文本特征和所述文本特征所标识发音元素的时长；所述文本特征包括多个子文本特征；

所述第一获取单元，用于通过表情模型，获取所述文本特征、所标识发音元素的时长对应的目标表情特征；所述目标表情特征包括多个子表情特征，所述文本特征所标识的任一个发音元素为目标发音元素，在所述目标表情特征中，所述目标发音元素对应的子表情特征是根据所述目标发音元素在所述文本特征中对应的子文本特征和所述目标发音元素的时长确定得到的；

所述返回单元，用于向所述终端返回所述目标表情特征。

8.一种基于人工智能的合成说话表情的方法，其特征在于，所述方法包括：

获取包含说话人面部动作表情和对应语音的视频；

根据所述文本特征、所述文本特征所标识发音元素的时间区间和时长、所述表情特征和所述声学特征训练表情模型和声学模型；所述表情模型用于根据待定文本特征和所述待定文本特征所标识发音元素的时长确定对应的目标表情特征；所述声学模型用于根据待定文本特征和所述待定文本特征所标识发音元素的时长确定对应的目标声学特征；

获取终端发送的文本内容；

通过所述文本特征、所标识发音元素的时长，以及所述表情模型和声学模型，获得所述文本内容对应的目标表情特征和目标声学特征；

将所述目标表情特征和目标声学特征进行渲染生成动画。

9.根据权利要求8所述的方法，其特征在于，所述根据所述文本特征、所述文本特征所标识发音元素的时间区间和时长、所述表情特征和所述声学特征训练表情模型和声学模型，包括：

根据所述第一对应关系训练所述表情模型；

确定所述文本特征所标识发音元素与所述声学特征间的第二对应关系；所述第二对应关系用于体现发音元素的时长与发音元素在所述声学特征中对应的子声学特征间的对应关系；

根据所述第二对应关系训练所述声学模型。

10.根据权利要求8或9所述的方法，其特征在于，所述方法还包括：

根据所述文本特征和所述文本特征所标识发音元素的时长训练时长模型，所述时长模型用于根据待定文本特征确定所述待定文本特征所标识发音元素的时长；

所述文本特征所标识发音元素的时长通过如下方式确定：

通过所述文本特征和所述时长模型，获得所述文本特征所标识发音元素的时长。

11.一种用于基于人工智能的合成说话表情的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6或7-10中任意一项所述的基于人工智能的合成说话表情的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-6或7-10中任意一项所述的基于人工智能的合成说话表情的方法。