CN117115318B

CN117115318B - 口型动画合成方法及装置和电子设备

Info

Publication number: CN117115318B
Application number: CN202311051652.3A
Authority: CN
Inventors: 杨德心
Original assignee: Ant Blockchain Technology Shanghai Co Ltd
Current assignee: Ant Blockchain Technology Shanghai Co Ltd
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2024-05-28
Anticipated expiration: 2043-08-18
Also published as: CN117115318A

Abstract

本说明书实施例提供一种口型动画合成方法及装置和电子设备。该方法包括：对用于合成口型动画的原始数据进行预处理，得到与所述原始数据对应的文本数据中的各个文字，以及所述各个文字在所述原始数据对应的音频数据中的第一起始时间戳和第一停止时间戳；确定与所述文本数据中的各个文字对应的音素，并确定与所述各个文字对应的音素在第一时间戳范围内的第二起始时间戳和第二停止时间戳；根据音素与视素序列的映射关系，将与所述文本数据中的各个文字对应的音素映射为视素序列；生成与所述视素序列中的视素表示的口型幅度对应的口型，并将生成的所述口型按照时间戳的先后顺序合成为口型动画。

Description

口型动画合成方法及装置和电子设备

技术领域

本说明书实施例涉及计算机技术领域，尤其涉及一种口型动画合成方法及装置和电子设备。

背景技术

口型动画合成技术是指通过计算机生成与音频同步的嘴部形态动画。该技术可以应用于电影、电视节目、动画、游戏和虚拟人物等场景或领域中。

在相关技术中，口型动画合成通常是基于深度学习模型计算得到的。然而，深度学习模型合成的口型动画效果受制于模型训练时收集到的训练数据的质量和丰富性，因此难以达到生产环境的泛化要求。

发明内容

本说明书实施例提供的一种口型动画合成方法及装置和电子设备。

根据本说明书实施例的第一方面，提供一种口型动画合成方法，所述方法包括：

对用于合成口型动画的原始数据进行预处理，得到与所述原始数据对应的文本数据中的各个文字，以及所述各个文字在所述原始数据对应的音频数据中的第一起始时间戳和第一停止时间戳；

确定与所述文本数据中的各个文字对应的音素，并确定与所述各个文字对应的音素在第一时间戳范围内的第二起始时间戳和第二停止时间戳；其中，所述第一时间戳范围由所述音素对应的文字的所述第一起始时间戳和第一停止时间戳构成的时间戳范围；

根据音素与视素序列的映射关系，将与所述文本数据中的各个文字对应的音素映射为视素序列；其中，所述视素序列由与其存在映射关系的音素在第二时间戳范围内的若干连续的视素构成；所述视素序列中的视素表示与所述视素序列存在映射关系的音素对应的口型幅度变化；所述第二时间戳范围由所述音素在所述第一时间戳范围内的所述第二起始时间戳和所述第二停止时间戳构成的时间戳范围；

生成与所述视素序列中的视素表示的口型幅度对应的口型，并将生成的所述口型按照时间戳的先后顺序合成为口型动画。

可选的，所述原始数据包括文本数据；

所述对用于合成口型动画的原始数据进行预处理，得到与所述原始数据对应的文本数据中的各个文字，以及所述各个文字在所述原始数据对应的音频数据中的第一起始时间戳和第一停止时间戳，包括：

将用于合成口型动画的文本数据转换为音频数据；

确定所述文本数据中包含的各个文字，以及所述各个文字在所述音频数据中的第一起始时间戳和第一停止时间戳。

可选的，所述将用于合成口型动画的文本数据转换为音频数据，包括：

获取预设的音频风格，将用于合成口型动画的文本数据转换为所述音频风格的音频数据。

可选的，所述原始数据包括音频数据；

基于音频识别算法，识别用于合成口型动画的音频数据中的文本数据；

可选的，如果所述文本数据中的任一文字对应多个音素，并且所述多个音素中任意两个相邻的音素映射出的两个视素序列中的视素对应的时间戳存在重叠，则所述重叠的时间戳对应的视素表示的口型幅度的取值，为与该重叠的时间戳对应的两个视素表示的口型幅度的最大值。

可选的，在所述生成与所述视素序列中的视素表示的口型幅度对应的口型之前，还包括：

确定所述文本数据中的各个文字对应的音素是否为预设音素；

对预设音素映射得到的视素序列进行平滑处理。

可选的，所述预设音素包括连读音素；

所述对预设音素映射得到的视素序列进行平滑处理，包括：

根据连读音素与视素的映射关系，将所述连读音素映射为对应的连读视素序列；

将所述连读音素对应的视素序列替换为所述连读视素序列。

可选的，所述预设音素包括重音音素；

所述对预设音素映射得到的视素序列进行平滑处理，包括：

按照预设的幅度增大参数，增大所述重音音素映射得到的视素序列中的视素表示的口型幅度，并按照预设的延迟参数，延迟所述重音音素对应的所述第二停止时间戳。

可选的，所述预设音素包括闭口音素；

所述对预设音素映射得到的视素序列进行平滑处理，包括：

按照预设的渐变参数，将所述闭口音素映射得到的视素序列的起始时间戳之前以及所述起始时间戳之后的预设长度的时间戳范围内的视素表示的口型幅度逐渐降低至0。

可选的，所述闭口音素包括b音素、m音素、p音素中的至少一种。

可选的，所述生成与所述视素序列中的视素表示的口型幅度对应的口型，并将生成的所述口型按照时间戳的先后顺序合成为口型动画，包括：

确定所述视素序列中的视素表示的口型幅度发生变化的关键帧；

基于所述关键帧所在的视素表示的口型幅度生成关键帧口型；

将生成的各个关键帧口型按照关键帧的先后顺序合成为口型动画。

可选的，在将生成的所述口型按照时间戳的先后顺序合成为口型动画之后，还包括：

将所述口型动画叠加至预设的人脸模型，生成包含口型变化的人脸模型动画。

根据本说明书实施例的第二方面，提供一种口型动画合成装置，所述装置包括：

预处理单元，对用于合成口型动画的原始数据进行预处理，得到与所述原始数据对应的文本数据中的各个文字，以及所述各个文字在所述原始数据对应的音频数据中的第一起始时间戳和第一停止时间戳；

计算单元，确定与所述文本数据中的各个文字对应的音素，并确定与所述各个文字对应的音素在第一时间戳范围内的第二起始时间戳和第二停止时间戳；其中，所述第一时间戳范围由所述音素对应的文字的所述第一起始时间戳和第一停止时间戳构成的时间戳范围；

映射单元，根据音素与视素序列的映射关系，将与所述文本数据中的各个文字对应的音素映射为视素序列；其中，所述视素序列由与其存在映射关系的音素在第二时间戳范围内的若干连续的视素构成；所述视素序列中的视素表示与所述视素序列存在映射关系的音素对应的口型幅度变化；所述第二时间戳范围由所述音素在所述第一时间戳范围内的所述第二起始时间戳和所述第二停止时间戳构成的时间戳范围；

合成单元，生成与所述视素序列中的视素表示的口型幅度对应的口型，并将生成的所述口型按照时间戳的先后顺序合成为口型动画。

可选的，所述原始数据包括文本数据；

所述预处理单元，包括：

转换子单元，将用于合成口型动画的文本数据转换为音频数据；

确定子单元，确定所述文本数据中包含的各个文字，以及所述各个文字在所述音频数据中的第一起始时间戳和第一停止时间戳。

可选的，所述转换子单元，进一步用于获取预设的音频风格，将用于合成口型动画的文本数据转换为所述音频风格的音频数据。

可选的，所述原始数据包括音频数据；

所述预处理单元，包括：

识别子单元，基于音频识别算法，识别用于合成口型动画的音频数据中的文本数据；

可选的，在所述合成单元之前，还包括：

校验子单元，确定所述文本数据中的各个文字对应的音素是否为预设音素；

后处理子单元，对预设音素映射得到的视素序列进行平滑处理。

可选的，所述预设音素包括连读音素；

所述后处理子单元，包括：

连读处理子单元，根据连读音素与视素的映射关系，将所述连读音素映射为对应的连读视素序列；将所述连读音素对应的视素序列替换为所述连读视素序列。

可选的，所述预设音素包括重音音素；

所述后处理子单元，包括：

重音处理子单元，按照预设的幅度增大参数，增大所述重音音素映射得到的视素序列中的视素表示的口型幅度，并按照预设的延迟参数，延迟所述重音音素对应的所述第二停止时间戳。

可选的，所述预设音素包括闭口音素；

所述后处理子单元，包括：

闭口处理子单元，按照预设的渐变参数，将所述闭口音素映射得到的视素序列的起始时间戳之前以及所述起始时间戳之后的预设长度的时间戳范围内的视素表示的口型幅度逐渐降低至0。

可选的，所述合成单元，包括：

关键帧确定子单元，确定所述视素序列中的视素表示的口型幅度发生变化的关键帧；

口型合成子单元，基于所述关键帧所在的视素表示的口型幅度生成关键帧口型，将生成的各个关键帧口型按照关键帧的先后顺序合成为口型动画。

可选的，在所述合成单元之后，还包括：

叠加单元，将所述口型动画叠加至预设的人脸模型，生成包含口型变化的人脸模型动画。

根据本说明书实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为上述任一项口型动画合成方法。

根据本说明书实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述任一项口型动画合成方法。

本说明书实施例，提供了一种口型动画合成方案，对用于合成口型动画的原始数据进行预处理，得到与所述原始数据对应的文本数据中的各个文字的第一起始时间戳和第一停止时间戳；针对每个文字，拆解得到构成文字的音素，并确定每个音素的第二起始时间戳和第二停止时间戳；根据音素与视素序列的映射关系，将各个音素映射为对应的视素序列；生成视素序列中的视素表示的口型幅度对应的口型，并将生成的口型按照起止时间戳的先后顺序合成为口型动画。由于口型动画合成的过程完全是基于音素与视素序列的映射关系实现的，并不需要借助训练样本，因此不会受制于训练样本的质量和丰富度的问题。

附图说明

图1是本说明书一实施例提供的口型动画合成方法的流程图；

图2是本说明书一实施例提供的视素序列的示意图；

图3是本说明书一实施例提供的口型动画合成装置的硬件结构图；

图4是本说明书一实施例提供的口型动画合成装置的模块。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本说明书所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

本说明书旨在提供一种不需借助训练样本就可以生成口型动画的技术方案，由于口型动画合成的过程完全是基于音素与视素的映射关系实现的，不会受制于训练样本的质量和丰富度的问题，因此具有较好的泛化性。

以下请结合图1介绍本说明书提供的口型动画合成方法实施例，所述方法包括：

步骤110，对用于合成口型动画的原始数据进行预处理，得到与所述原始数据对应的文本数据中的各个文字，以及所述各个文字在所述原始数据对应的音频数据中的第一起始时间戳和第一停止时间戳。

本说明书支持多种数据类型的原始数据，如可以是文本数据也可以是音频数据。

在一示例性的实施例中，在所述原始数据包括文本数据时，可以将用于合成口型动画的文本数据转换为音频数据；确定所述文本数据中包含的各个文字，以及所述各个文字在所述音频数据中的第一起始时间戳和第一停止时间戳。

本说明书针对文本数据可以自动调用语音合成***以合成与文本数据相对应的音频数据，并且还可以确定文本数据中的各个文字在合成的音频数据中的第一起始时间戳和第一停止时间戳。所述第一起始时间戳和第一停止时间戳可以构成表示文字在音频数据中开始发音到结束发音的第一时间戳范围。

在一示例性的实施例中，所述将用于合成口型动画的文本数据转换为音频数据，进一步可以包括：

本说明书支持自定义的音频风格，用户可以预先指定想要实现的音频风格；当用户没有预先指定音频风格时，也可以使用默认的音频风格。

所述音频风格也可以称声音风格、语音风格等，可以是指人类个体在说明时所呈现出来的独特声音特征和表达方式。音频风格可以进一步细分为音色、韵律、语调、节奏、语速以及发音的准确性和流利度等多种维度。

通过为用户提供个性化的音频风格，可以避免生成的口型动画具有千篇一律的音频风格。

在一示例性的实施例中，在所述原始数据包括音频数据时，可以基于音频识别算法，识别用于合成口型动画的音频数据中的文本数据；确定所述文本数据中包含的各个文字，以及所述各个文字在所述音频数据中的第一起始时间戳和第一停止时间戳。

本说明书针对音频数据可以自动调用音频识别***以识别音频数据中的文本数据，并且还可以确定文本数据中的各个文字在音频数据中的第一起始时间戳和第一停止时间戳。与前述相同的，所述第一起始时间戳和第一停止时间戳可以构成表示文字在音频数据中开始发音到结束发音的第一时间戳范围。

步骤120，确定与所述文本数据中的各个文字对应的音素，并确定与所述各个文字对应的音素在第一时间戳范围内的第二起始时间戳和第二停止时间戳；其中，所述第一时间戳范围由所述音素对应的文字的所述第一起始时间戳和第一停止时间戳构成的时间戳范围。

本说明书在确定各个文字的第一起始时间戳和第一停止时间戳之后，可以进一步拆解构成文字的各个音素，并确定各个音素的第二起始时间戳和第二停止时间戳。

音素(phoneme)可以是根据语音的自然属性划分出来的最小语音单元。音素的组合可以构成文字、句子等复杂的语音内容。因此反过来，通过拆解文字也可以得到构成文字的音素。

由于一个文字可以对应有一个或多个音素，因此每个音素的第二起始时间戳和第二停止时间戳需要位于音素对应的文字的第一时间戳范围内。该第一时间戳范围如前所述可以是由音素对应的文字的所述第一起始时间戳和第一停止时间戳构成的时间戳范围。

与第一时间戳范围类似的，第二起始时间戳和第二停止时间戳也可以构成表示音素在音频数据中开始发音到结束发音的第二时间戳范围。

举例说明，某个文字的第一起始时间戳为1秒，第一停止时间戳为2秒，其第一时间戳范围可以记为[1s,2s]；假设拆解该文字得到两个不同的音素，那么这两个不同的音素的第二起始时间戳和第二停止时间戳均是位于[1s,2s]范围内。

例如，第一个音素的第二起始时间戳为1s，第二停止时间戳为1.5s，其构成的第二时间戳范围可以记为[1s,1.5s]；第二个音素的第二起始时间戳为1.5s，第二停止时间戳为2s，其构成的第二时间戳范围可以记为[1.5s,2s]。

步骤130，根据音素与视素序列的映射关系，将与所述文本数据中的各个文字对应的音素映射为视素序列；其中，所述视素序列由与其存在映射关系的音素在第二时间戳范围内的若干连续的视素构成；所述视素序列中的视素表示与所述视素序列存在映射关系的音素对应的口型幅度变化；所述第二时间戳范围由所述音素在所述第一时间戳范围内的所述第二起始时间戳和所述第二停止时间戳构成的时间戳范围。

视素(viseme)可以是指人类嘴唇的口型姿势的表达，通常可以表示音素对应的口型幅度。音素对应的口型幅度的数值一般可以表示为与静默闭嘴时口型幅度的差值。

由于每个音素具有一定的发音特点，体现在发音过程中会存在口型幅度的变化，因此音素可以对应若干连续的且表示不同口型幅度的视素；这些若干连续的视素就可以构成与音素存在映射关系的视素序列。通过收集每个音素的视素序列可以建立每个音素与视素序列之间的映射关系。

需要说明的是，不同的语言中可以包含不同数量和类型的音素，例如汉语有大约40个音素，英语有大约45个音素。因此，不同语言可以具有不同的音素与视素序列的映射关系。

本说明书针对汉语构建了汉语的音素与视素序列的映射关系，从而能够更好为服务汉语场景下的口型动画合成。

例如，对于字母“p”这个音素，根据确定的第二起始时间戳t_s，第二停止时间戳t_e，可以将音素p记为p＝(p,t_s,t_e)。

对于音素p转换后的视素序列可以结合图2所示的视素序列的示意图。通过映射关系可以将音素p转换为一个视素序列V(t)\in[0,1]^21；其中，V(t)为时间函数，对于每一个t，V(t)都可以为一个长度为21的位于0到1之间的数组，该数组表示这一时刻21个视素表示的口型幅度。这里长度21仅是一个示例，在实际应用中可以根据实际需求灵活进行设置。

值得一提的是，为了使得口型动画的口型与音频的配合更为自然顺畅，图2中是将映射得到的视素在时间轴(横轴)上整体向前平移。如果不进行平移，那么视素序列的第一个视素的时间戳与音素p的第二起始时间戳t_s一致的；类似的，视素序列的最后一个视素的时间戳与音素p的第二停止时间戳t_e也是一致的。

在本说明书中，如果所述文本数据中的任一文字对应多个音素，并且所述多个音素中任意两个相邻的音素映射出的两个视素序列中的视素对应的时间戳存在重叠，则所述重叠的时间戳对应的视素表示的口型幅度的取值，为与该重叠的时间戳对应的两个视素表示的口型幅度的最大值。

如前所述，同一个文字拆解得到的相邻音素的第一时间戳范围允许互相重叠，那么在转换为视素序列后，相邻音素映射出的两个视素序列中的视素对应的时间戳会存在重叠，即一个时间戳存在两个不同的视素。对此，需要明确重叠的时间戳下两个视素中的哪个作为才是生成口型的最终视素；从而不至于在生成口型时由于一个时间戳下出现两个视素导致报错。在实现时，所述重叠的时间戳对应的视素表示的口型幅度的取值，可以为与该重叠的时间戳对应的两个视素表示的口型幅度的最大值。

本说明书中，在映射出各个音素对应的视素序列之后，还可以进行下面的后处理：

对预设音素映射得到的视素序列进行平滑处理；其中，所述平滑处理用于对所述视素序列中的各个视素表示的口型幅度进行优化调整。

由于自然语言中存在一些特殊语音(如连读、重音、闭口音等)，为了确保口型动画的真实自然，可以对这些特殊语音的音素(即预设音素)对应的视素序列进行平滑处理。

在一示例性的实施例中，所述预设音素包括连读音素；相应地，所述对预设音素映射得到的视素序列进行平滑处理，可以包括：

将所述连读音素对应的视素序列替换为所述连读视素序列，以对所述视素序列中的连读音素的口型幅度进行优化调整。

本说明书中，对于连读音素可以根据连读音素与视素的映射关系将连读音素的视素序列替换为连读视素序列，从而使得口型动画中的连读更为自然真实。

在一示例性的实施例中，所述预设音素包括重音音素；相应地，所述对预设音素映射得到的视素序列进行平滑处理，可以包括：

按照预设的幅度增大参数，增大所述重音音素映射得到的视素序列中的视素表示的口型幅度，并按照预设的延迟参数，延迟所述重音音素对应的所述第二停止时间戳，以对所述视素序列中的重音音素的口型幅度进行优化调整。

本说明书中，对于重音音素可以适量增大重音音素映射得到的视素序列中视素的口型幅度并延长其重音音素的停止时间，从而使得口型动画中的重音更为自然真实。

在一示例性的实施例中，所述预设音素包括闭口音素；相应地，所述对预设音素映射得到的视素序列进行平滑处理，可以包括：

按照预设的渐变参数，将所述闭口音素映射得到的视素序列的起始时间戳之前以及所述起始时间戳之后的预设长度的时间戳范围内的视素表示的口型幅度逐渐降低至0，以对所述视素序列中的闭口音素的口型幅度进行优化调整。

本说明书中，闭口音素可以是指b音素、m音素、p音素中的至少一种。对于闭口音素为了突出其口型，可以会将闭口音素的起始时间戳附近的其他视素的口型幅度渐变为0，只留闭口音素所对应的视素，从而使得口型动画中的闭口音更为自然真实。

步骤140，生成与所述视素序列中的视素幅度对应的口型，并将所述口型按照音素起止时间戳的先后顺序合成为口型动画。

在映射得到每个音素对应的视素序列之后，可以根据视素序列中的视素表示的口型幅度生成对应的口型；由于口型幅度表示的是口型的大小，因此口型幅度越大，口型张开程度也越大，反之亦然。在生成所有口型之后，根据时间戳的先后顺序就可以将所有的口型排序并合成口型动画。由于口型的时间戳与文字的时间戳是对应的，因此口型动画和音频数据结合在一起时，口型变化与音频声音也是一致的，从而可以呈现更为真实自然的口型动画。

在一示例性的实施例中，所述步骤140，可以包括：

本说明书中，可以在视素序列中的视素表示的口型幅度发生变化的位置设置关键帧。其中，所述口型幅度发生变化的位置可以结合图2，图2中口型幅度发生变化的位置位于起始阶段与顶峰阶段的第一交界处(t1时间戳)，顶峰阶段与结束阶段的第二交界处(t2时间戳)，因此可以在第一交界处和第二交界处各放置一个关键帧。

通过设置关键帧可以得到关于视素的关键帧序列，进而生成关键帧所在的视素表示的口型幅度的关键帧口型，按照关键帧的先后顺序合成关键帧的口型动画。

相对于为所有视素一一生成口型动画，这种通过设置关键帧并生成关键帧的口型动画的方式更为快速，对计算量的要求也更低。可以应用于一些时效性要求较高的场景，例如实时口型输出的场景。比如虚拟主播场景，由于虚拟主播的口型需要根据真人主播的语音实时生成，因此可以采用这种关键帧的口型动画生成方式，以避免出现“音画不一致”。

在一示例性的实施例中，在将生成的所述口型按照时间戳的先后顺序合成为口型动画之后，还包括：

依然以虚拟主播场景为例，生成口型动画后，还可以将口型动画叠加至虚拟主播的脸部模型，从而合成出与真人主播声音同步的虚拟主播动画形象，该虚拟主播动画形象的人脸上的口型是随真人主播声音变化而动态变化的。

与前述口型动画合成方法实施例相对应，本说明书还提供了口型动画合成装置的实施例。所述装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将非易失性存储器中对应的计算机程序读取到内存中运行形成的。从硬件层面而言，如图3所示，为本说明书口型动画合成装置所在设备的一种硬件结构图，除了图3所示的处理器、网络接口、内存以及非易失性存储器之外，实施例中装置所在的设备通常根据口型动画合成实际功能，还可以包括其他硬件，对此不再赘述。

请参见图4，为本说明书一实施例提供的口型动画合成装置的模块图，所述装置对应了图1所示实施例，所述装置包括：

预处理单元410，对用于合成口型动画的原始数据进行预处理，得到与所述原始数据对应的文本数据中的各个文字，以及所述各个文字在所述原始数据对应的音频数据中的第一起始时间戳和第一停止时间戳；

计算单元420，确定与所述文本数据中的各个文字对应的音素，并确定与所述各个文字对应的音素在第一时间戳范围内的第二起始时间戳和第二停止时间戳；其中，所述第一时间戳范围由所述音素对应的文字的所述第一起始时间戳和第一停止时间戳构成的时间戳范围；

映射单元430，根据音素与视素序列的映射关系，将与所述文本数据中的各个文字对应的音素映射为视素序列；其中，所述视素序列由与其存在映射关系的音素在第二时间戳范围内的若干连续的视素构成；所述视素序列中的视素表示与所述视素序列存在映射关系的音素对应的口型幅度变化；所述第二时间戳范围由所述音素在所述第一时间戳范围内的所述第二起始时间戳和所述第二停止时间戳构成的时间戳范围；

合成单元440，生成与所述视素序列中的视素表示的口型幅度对应的口型，并将生成的所述口型按照时间戳的先后顺序合成为口型动画。

可选的，所述原始数据包括文本数据；

所述预处理单元410，包括：

可选的，所述原始数据包括音频数据；

所述预处理单元410，包括：

可选的，在所述合成单元440之前，还包括：

可选的，所述预设音素包括连读音素；

所述后处理子单元，包括：

可选的，所述预设音素包括重音音素；

所述后处理子单元，包括：

可选的，所述预设音素包括闭口音素；

所述后处理子单元，包括：

可选的，所述合成单元440，包括：

可选的，在所述合成单元440之后，还包括：

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上图4描述了口型动画合成装置的内部功能模块和结构示意，其实质上的执行主体可以为一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述任一口型动画合成方法的实施例。

在上述电子设备的实施例中，应理解，该处理器可以是处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，而前述的存储器可以是只读存储器(英文：read-only memory，缩写：ROM)、随机存取存储器(英文：random access memory，简称：RAM)、快闪存储器、硬盘或者固态硬盘。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

另外，本说明书还提供有一种计算机可读存储介质，所述计算机可读存储介质中的指令由电子设备的处理器执行时，可以使得所述电子设备能够执行上述任一口型动画合成方法的实施例。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

Claims

1.一种口型动画合成方法，所述方法包括：

2.根据权利要求1所述的方法，所述原始数据包括文本数据；

将用于合成口型动画的文本数据转换为音频数据；

3.根据权利要求2所述的方法，所述将用于合成口型动画的文本数据转换为音频数据，包括：

4.根据权利要求1所述的方法，所述原始数据包括音频数据；

5.根据权利要求1所述的方法，如果所述文本数据中的任一文字对应多个音素，并且所述多个音素中任意两个相邻的音素映射出的两个视素序列中的视素对应的时间戳存在重叠，则所述重叠的时间戳对应的视素表示的口型幅度的取值，为与该重叠的时间戳对应的两个视素表示的口型幅度的最大值。

6.根据权利要求1所述的方法，在所述生成与所述视素序列中的视素表示的口型幅度对应的口型之前，还包括：

对预设音素映射得到的视素序列进行平滑处理。

7.根据权利要求6所述的方法，所述预设音素包括连读音素；

所述对预设音素映射得到的视素序列进行平滑处理，包括：

将所述连读音素对应的视素序列替换为所述连读视素序列。

8.根据权利要求6所述的方法，所述预设音素包括重音音素；

所述对预设音素映射得到的视素序列进行平滑处理，包括：

9.根据权利要求6所述的方法，所述预设音素包括闭口音素；

所述对预设音素映射得到的视素序列进行平滑处理，包括：

10.根据权利要求1所述的方法，所述生成与所述视素序列中的视素表示的口型幅度对应的口型，并将生成的所述口型按照时间戳的先后顺序合成为口型动画，包括：

11.根据权利要求1所述的方法，在将生成的所述口型按照时间戳的先后顺序合成为口型动画之后，还包括：

12.一种口型动画合成装置，所述装置包括：

13.一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述权利要求1-11中任一项所述的方法。

14.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-11中任一项所述的方法。