WO2021196647A1

WO2021196647A1 - 交互对象的驱动方法、装置、设备以及存储介质

Info

Publication number: WO2021196647A1
Application number: PCT/CN2020/129830
Authority: WO
Inventors: 孙林
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2020-03-31
Filing date: 2020-11-18
Publication date: 2021-10-07
Also published as: CN111459451A; SG11202109201XA; KR20210124306A; TW202138987A; TWI759039B; JP2022531056A

Abstract

一种交互对象的驱动方法、装置、设备以及存储介质，所述方法包括：获取显示设备展示的交互对象的声音驱动数据（201）；基于所述声音驱动数据中所包含的目标数据，获取与所述目标数据匹配的交互对象的设定动作的控制参数序列（202）；根据所获得的控制参数序列控制所述交互对象执行所述设定动作（203）。

Description

交互对象的驱动方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及一种交互对象的驱动方法、装置、设备以及存储介质。

背景技术

人机交互的方式大多为：用户基于按键、触摸、语音进行输入，设备通过在显示屏上呈现图像、文本或虚拟人物进行回应。目前虚拟人物多是在语音助理的基础上改进得到的，用户与虚拟人物的交互还停留表面上。

发明内容

本公开实施例提供一种交互对象的驱动方案。

根据本公开的一方面，提供一种交互对象的驱动方法，所述方法包括：获取显示设备展示的交互对象的声音驱动数据；基于所述声音驱动数据中所包含的目标数据，获取与所述目标数据匹配的交互对象的设定动作的控制参数序列；根据所获得的控制参数序列控制所述交互对象执行所述设定动作。

结合本公开提供的任一实施方式，所述方法还包括：根据所述声音驱动数据对应的语音信息控制所述显示设备输出语音，和/或，根据所述声音驱动数据对应的文本信息展示文本。

结合本公开提供的任一实施方式，所述根据所获得的控制参数序列控制所述交互对象执行所述设定动作，包括：确定所述目标数据对应的语音信息；获取输出所述语音信息的时间信息；根据所述时间信息确定所述目标数据对应的设定动作的执行时间；根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作。

结合本公开提供的任一实施方式，所述控制参数序列包括一组或多组控制参数所述根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作，包括：以设定速率调用所述控制参数序列中的每组控制参数，使所述交互对象展示与每组控制参数对应的姿态。

结合本公开提供的任一实施方式，所述控制参数序列包括一组或多组控制参数，所述根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作，包括：根据所述执行时间，确定所述控制参数序列的调用速率；以所述调用速率调用所述控制参数序列中的每组控制参数，使所述交互对象输出与每组控制参数对应的姿态。

结合本公开提供的任一实施方式，所述根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作，包括：在输出所述目标数据对应的语音信息之前的设定时间，开始调用所述目标数据对应的控制参数序列，使所述交互对象开始执行所述设定动作。

结合本公开提供的任一实施方式，所述声音驱动数据包含多个目标数据，所述根据所获得的控制参数序列控制所述交互对象执行所述设定动作，包括：响应于检测到所述多个目标数据中相邻目标数据存在重叠，根据基于语序排列在前的目标数据对应的控制参数序列控制所述交互对象执行所述设定动作。

结合本公开提供的任一实施方式，所述声音驱动数据包含多个目标数据，所述根据所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作，包括：响应于检测到所述多个目标数据中相邻目标数据对应的控制参数序列在执行时间上重叠，对所述相邻目标数据对应的控制参数序列的重叠部分进行融合。

结合本公开提供的任一实施方式，所述基于所述声音驱动数据中所包含的目标数据，获取与所述目标数据匹配的交互对象的设定动作的控制参数序列，包括：响应于所述声音驱动数据包括音频数据，对所述音频数据进行语音识别，根据所识别出的语音内容，确定所述音频数据所包含的目标数据；响应于所述声音驱动数据包括文本数据，根据所述文本数据所包含的文本内容，确定所述文本数据所包含的目标数据。

结合本公开提供的任一实施方式，所述声音驱动数据包括音节数据，所述基于所述声音驱动数据中所包含的目标数据，获取与所述目标数据匹配的交互对象的设定动作的控制参数序列，包括：确定所述声音驱动数据所包含的音节数据是否与目标音节数据相匹配，其中，所述目标音节数据属于预先划分好的一种音节类型，一种音节类型对应于一种设定嘴型，一种设定嘴型设置有对应的控制参数序列；响应于所述音节数据与所述目标音节数据相匹配，基于匹配的所述目标音节数据所属的音节类型，获取与匹配的所述目标音节数据对应的设定嘴型的控制参数序列。

结合本公开提供的任一实施方式，所述方法还包括：获取所述声音驱动数据中目标数据以外的第一数据；获取所述第一数据的声学特征；获取与所述声学特征匹配的姿态控制参数；根据所述姿态控制参数控制所述交互对象的姿态。

根据本公开的一方面，提出一种交互对象的驱动装置，所述装置包括：第一获取单元，用于获取显示设备展示的交互对象的声音驱动数据；第二获取单元，用于基于所述声音驱动数据中所包含的目标数据，获取与所述目标数据匹配的交互对象的设定动作的控制参数序列；驱动单元，用于根据所获得的控制参数序列控制所述交互对象执行所述设定动作。

结合本公开提供的任一实施方式，所述装置还包括输出单元，用于根据所述声音驱动数据对应的语音信息控制所述显示设备输出语音，和/或，根据所述声音驱动数据对应的文本信息展示文本。

结合本公开提供的任一实施方式，所述驱动单元具体用于：确定所述目标数据对应的语音信息；获取输出所述语音信息的时间信息；根据所述时间信息确定所述目标数据对应的设定动作的执行时间；根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作。

结合本公开提供的任一实施方式，所述控制参数序列包括一组或多组控制参数；所述驱动单元在用于根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作时，具体用于：以设定速率调用所述控制参数序列中的每组控制参数，使所述交互对象展示与每组控制参数对应的姿态。

结合本公开提供的任一实施方式，所述控制参数序列包括一组或多组控制参数；所述驱动单元在用于根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作时，具体用于：根据所述执行时间，确定所述控制参数序列的调用速率；以所述调用速率调用所述控制参数序列中的每组控制参数，使所述交互对象输出与每组控制参数对应的姿态。

结合本公开提供的任一实施方式，所述控制参数序列包括一组或多组控制参数；所述驱动单元在用于根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作时，具体用于：在输出所述目标数据对应的语音信息之前的设定时间，开始调用所述目标数据对应的控制参数序列，使所述交互对象开始执行所述设定动作。

结合本公开提供的任一实施方式，所述声音驱动数据包含多个目标数据，所述驱动单元具体用于响应于检测到所述多个目标数据中相邻目标数据存在重叠，根据基于语序排列在前的目标数据对应的控制参数序列控制所述交互对象执行所述设定动作。

结合本公开提供的任一实施方式，所述声音驱动数据包含多个目标数据，所述驱动单元具体用于：响应于检测到所述多个目标数据中相邻目标数据对应的控制参数序列在执行时间上重叠，对所述相邻目标数据对应的控制参数序列的重叠部分进行融合。

结合本公开提供的任一实施方式，所述第二获取单元具体用于：响应于所述声音驱动数据包括音频数据，对所述音频数据进行语音识别，根据所述音频数据所包含的语音内容，确定所述音频数据所包含的目标数据；响应于所述声音驱动数据包括文本数据，根据所述文本数据所包含的文本内容，确定所述文本数据所包含的目标数据。

结合本公开提供的任一实施方式，所述声音驱动数据包括音节数据，所述第二获取单元具体用于：确定所述声音驱动数据所包含的音节数据是否与目标音节数据相匹配，其中，所述目标音节数据属于预先划分好的一种音节类型，一种音节类型对应于一种设定嘴型，一种设定嘴型设置有对应的控制参数序列；响应于所述音节数据与所述目标音节数据相匹配，基于匹配的所述目标音节数据所属的音节类型，获取与匹配的所述目标音节数据对应的设定嘴型的控制参数序列。

结合本公开提供的任一实施方式，所述装置还包括姿态控制单元，用于：获取所述声音驱动数据中目标数据以外的第一数据；获取所述第一数据的声学特征；获取与所述第一数据的声学特征匹配的姿态控制参数；根据所述姿态控制参数控制所述交互对象的姿态。

根据本公开的一方面，提供一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开提供的任一实施方式所述的交互对象的驱动方法。

根据本公开的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开提供的任一实施方式所述的交互对象的驱动方法。

本公开一个或多个实施例的交互对象的驱动方法、装置、设备及计算机可读存储介质，根据显示设备展示的交互对象的声音驱动数据中包含的至少一个目标数据，获取与所述目标数据匹配的交互对象的设定动作的控制参数，以控制所述显示设备展示的交互对象的动作，使得交互对象可以做出声音驱动数据中所包含的目标数据对应的动作，从而使交互对象说话的状态自然生动，提升了目标对象的交互体验。

附图说明

图1是根据本公开实施例提出的交互对象的驱动方法中显示设备的示意图；

图2是根据本公开实施例提出的交互对象的驱动方法的流程图；

图3是根据本公开实施例提出的交互对象的驱动方法的流程图；

图4是根据本公开实施例提出的交互对象的驱动方法的流程图；

图5是根据本公开实施例提出的交互对象的驱动装置的结构示意图；

图6是根据本公开实施例提出的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所述的、本公开的一些方面相一致的装置和方法的例子。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

本公开至少一个实施例提供了一种交互对象的驱动方法，所述驱动方法可以由终端设备或服务器等电子设备执行，所述终端设备可以是固定终端或移动终端，例如手机、平板电脑、游戏机、台式机、广告机、一体机、车载终端等等，所述服务器包括本地服务器或云端服务器等，所述方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

在本公开实施例中，交互对象可以是任意一种能够与目标对象进行交互的交互对象，其可以是虚拟人物，还可以是虚拟动物、虚拟物品、卡通形象等等其他能够实现交互功能的虚拟形象，虚拟形象的展现形式即可以是2D形式也可以是3D形式，本公开对此并不限定。所述目标对象可以是用户，也可以是机器人，还可以是其他智能设备。所述交互对象和所述目标对象之间的交互方式可以是主动交互方式，也可以是被动交互方式。一示例中，目标对象可以通过做出手势或者肢体动作来发出需求，通过主动交互的方式来触发交互对象与其交互。另一示例中，交互对象可以通过主动打招呼、提示目标对象做出动作等方式，使得目标对象采用被动方式与交互对象进行交互。

所述交互对象可以通过电子设备进行展示，所述电子设备还可以是电视机、带有显示功能的一体机、投影仪、虚拟现实(Virtual Reality，VR)设备、增强现实(Augmented Reality，AR)设备等，本公开并不限定电子设备的具体形式。

图1示出根据本公开实施例提出的显示设备。如图1所示，该显示设备具有显示屏，其可以在显示屏上显示立体画面，以呈现出虚拟场景以及交互对象。例如图1中显示屏显示的交互对象有虚拟卡通人物。

本公开中所述的电子设备可以包括内置的显示器或与上述显示设备集成为一体，通过显示器或显示设备，可以显示立体画面，以呈现出虚拟场景以及交互对象。在另一些实施例中，本公开中所述的电子设备还可以不包括内置的显示器，所需显示的内容可以通过有线或无线的连接通知外接的显示器呈现出虚拟场景以及交互对象。

在一些实施例中，响应于电子设备接收到用于驱动交互对象输出语音的声音驱动数据，交互对象可以对目标对象发出指定语音。可以根据电子设备周边目标对象的动作、表情、身份、偏好等，生成声音驱动数据，以驱动交互对象通过发出指定语音进行回应，从而为目标对象提供拟人化的服务。在交互对象与目标对象的交互过程中，存在根据该声音驱动数据驱动交互对象发出指定语音的同时，无法驱动所述交互对象做出与该指定语音同步的面部动作，使得交互对象在发出语音时呆板、不自然，影响了目标对象与交互体验。基于此，本公开实施例提出一种交互对象的驱动方法，以提升目标对象与交互对象进行交互的体验。

图2示出根据本公开实施例的交互对象的驱动方法的流程图，如图2所示，所述方法包括步骤201～步骤203。

在步骤201中，获取显示设备展示的交互对象的声音驱动数据。

在本公开实施例中，所述声音驱动数据可以包括音频数据(语音数据)、文本数据等等。所述声音驱动数据可以是电子设备根据与交互对象进行交互的目标对象的动作、表情、身份、偏好等生成的驱动数据，也可以是电子设备直接获取的，比如从内部存储器调用的声音驱动数据等。本公开对于该声音驱动数据的获取方式不进行限制。

在步骤202中，基于所述声音驱动数据中所包含的目标数据，获取与所述目标数据匹配的交互对象的设定动作的控制参数序列，所述控制参数序列包括一组或多组控制参数。

在本公开实施例中，目标数据为预先匹配了设定动作的数据，而所述设定动作通过相应的控制参数序列进行控制而实现，因而所述目标数据与所述设定动作的控制参数序列匹配。所述目标数据可以是设置的关键字、词、句等等。以关键词为“挥手”为例，在所述声音驱动数据中包含了文本数据时，“挥手”对应的目标数据为“挥手”的文本数据，和/或在所述声音驱动数据中包含了音频或音节数据时，“挥手”对应的目标数据为“挥手”的语音数据。在所述声音驱动数据匹配到上述目标数据时，则可以确定所述声音驱动数据中包含了目标数据。

所述设定动作可以利用通用的单元动画实现，该单元动画可以包含图像帧序列，该序列中的每个图像帧对应于所述交互对象的一个姿态，通过图像帧之间对应的姿态的变化即可以使交互对象实现设定动作。其中，一个图像帧中交互对象姿态可以通过一组控制参数实现，例如多个骨骼点的位移形成的一组控制参数。因此，利用多组控制参数形成的控制参数序列来控制交互对象的姿态变化，能够控制交互对象实现设定动作。

在一些实施例中，所述目标数据可以包括目标音节数据，所述目标音节数据与设定嘴型的控制参数相对应，一种目标音节数据属于预先划分好的一种音节类型，所述一种音节类型对应于一种设定嘴型，一种设定嘴型设置有对应的控制参数序列。

其中，音节数据是由至少一个音素组合形成的语音单位，所述音节数据包括拼音语言的音节数据，和非拼音语言(例如，汉语)的音节数据。一种音节类型是指发音动作一致或者基本一致的音节数据，一种音节类型可与交互对象的一种动作对应，具体的，一种音节类型可与交互对象说话时的一种设定的嘴型对应，即与一种发音动作对应，这样，同种类型的音节数据可以匹配设定的同种嘴型的控制参数序列，比如，拼音“ma”、“man”、“mang”这类型的音节数据，由于这类音节数据的发音动作基本一致，故可以视为同一类型，均可对应交互对象说话时“嘴巴张开”的嘴型的控制参数序列，这样，在检测到声音驱动数据中包括此类目标音节数据时，可根据该目标音节数据所匹配的嘴型的控制参数序列来控制交互对象做出对应的嘴型。进而，通过多种类型的音节数据，可匹配出多个不同类型的嘴型的控制参数序列，进而可以利用所述多个控制参数序列来控制交互对象的嘴型变化，控制交互对象实现拟人的说话状态。

在步骤203中，根据所获得的控制参数序列控制所述交互对象执行所述设定动作。

对于所述声音驱动数据中所包含的一个或多个目标数据，均可以获得相应的设定动作的控制参数序列。根据所获得的控制参数序列控制所述交互对象的动作，即可以实现所述声时驱动数据中各个目标数据对应的设定动作。

在本公开实施例中，根据显示设备展示的交互对象的声音驱动数据中包含的目标数据，获取与所述目标数据匹配的交互对象的设定动作的控制参数序列，以控制所述显示设备展示的交互对象的动作，使得交互对象可以做出声音驱动数据中所包含的目标数据对应的动作，从而使交互对象说话的状态自然生动，提升了目标对象的交互体验。

图3示出了根据本公开实施例的交互对象的驱动方法的流程图，如图3所示，所述方法还包括：

步骤204，根据所述声音驱动数据对应的语音信息控制所述显示设备输出语音，或者根据所述声音驱动数据对应的语音信息控制所述显示设备输出语音，并根据所述声音驱动数据对应的文本信息展示文本。

在控制显示设备输出声音驱动数据对应的语音的同时，根据所述声音驱动数据中各个目标数据匹配的控制参数序列，依次控制所述交互对象执行相应的动作，使得交互对象能够在输出语音的同时，根据声音所包含的内容做出动作，从而使交互对象说话的状态自然生动，提升了目标对象的交互体验。

还可以在控制显示设备输出声音驱动数据对应的语音的同时，在所述显示设备展示所述声音驱动数据对应的文本，再根据所述声音驱动数据中各个目标数据匹配的控制参数序列，依次控制所述交互对象执行相应的动作，使得交互对象能够在输出语音、展示文本的同时，根据声音、文本所包含的内容做出动作，从而使交互对象表达的状态自然生动，提升了目标对象的交互体验。

在本公开实施例中，由于只需要针对指定动作设置控制参数序列，即可以组成可变内容对应的图像帧序列，提高了交互对象的驱动效率。此外，目标数据可以根据需要进行增加或者修改，以应对变化的内容，便于对驱动***的维护和更新。

在一些实施例中，所述方法应用于服务器，包括本地服务器或云端服务器等，所述服务器对于交互对象的声音驱动数据进行处理，生成所述交互对象的姿态参数值，并根据所述姿态参数值利用三维或二维渲染引擎进行渲染，得到所述交互对象的回应动画。所述服务器可以将所述回应动画发送至终端设备进行展示来对目标对象进行回应，还可以将所述回应动画发送至云端，以使终端设备能够从云端获取所述回应动画来对目标对象进行回应。在服务器生成所述交互对象的姿态参数值后，还可以将所述姿态参数值发送至终端，以使终端完成渲染、生成回应动画、进行展示的过程。

在一些实施例中，所述方法应用于终端设备，所述终端设备对于交互对象的声音驱动数据进行处理，生成所述交互对象的姿态参数值，并根据所述姿态参数值利用三维或二维渲染引擎进行渲染，得到所述交互对象的回应动画，所述终端可以展示所述回应动画以对目标对象进行回应。

响应于声音驱动数据包括音频数据，可以通过对声音驱动数据进行语音识别，获得所述音频数据所包含的语音内容，并确定所述音频数据所包含的目标数据。通过将语音内容与目标数据进行匹配，可以确定所述声音驱动数据中所包含的目标数据。

响应于声音驱动数据包括文本数据，根据所述文本数据所包含的文本内容，确定所述文本数据所包含的目标数据。

在一些实施例中，在所述声音驱动数据包括音节数据的情况下，对所述声音驱动数据进行拆分得到至少一个音节数据。本领域技术人员应当理解，对于声音驱动数据的拆分方式可以不止一种，不同的拆分方式可以得到不同的音节数据组合，可以通过对不同的拆分方式设置优先级，将优先级高的拆分方式所得到的音节数据组合作为拆分结果。

将拆分得到的音节数据与目标音节数据进行匹配，响应于所述音节数据与任一音节类型的目标音节数据匹配，则可以确定所述音节数据与目标音节数据匹配，进而可以确定所述声音驱动数据包含所述目标数据。例如，目标音节数据可以包括“ma”、“man”、“mang”类型的音节数据，响应于所述声音驱动数据包含与“ma”、“man”、“mang”中的任一个匹配的音节数据，则确定所述声音驱动数据包含所述目标音节数据。

在所述声音驱动数据包含目标音节数据的情况下，根据所述目标音节数据所属的音节类型，获取与所述目标音节数据对应的设定嘴型的控制参数序列，控制交互对象做出对应的嘴型。通过上述方式，根据声音驱动数据所对应的嘴型的控制参数序列能够控制所述交互对象的嘴型变化，从而使交互对象实现拟人的说话状态。

拆分得到音节数据可以是多个音节数据。可以针对多个音节数据中的每个音节数据，查找该音节数据是否与某一目标音节数据匹配，当该音节数据与某一目标音节数据匹配时，获取与该目标音节数据对应的设定嘴型的控制参数序列。

在一些实施例中，如图4所示，步骤203进一步包括：

步骤2031：确定所述目标数据对应的语音信息；

步骤2032：获取输出所述语音信息的时间信息；

步骤2033：根据所述时间信息确定所述目标数据对应的设定动作的执行时间；以及

步骤2034：根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作。

在根据所述声音驱动数据对应的语音信息控制所述显示设备输出语音的情况下，可以确定输出目标数据所对应的语音信息的时间信息，例如开始输出所述目标数据对应的语音信息的时间、结束输出的时间以及持续时间。可以根据所述时间信息确定所述目标数据对应的设定动作的执行时间，在所述执行时内，或者在执行时间的一定范围内，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作。

在本公开实施例中，根据声音驱动数据输出语音的持续时间，与根据多个控制参数序列控制交互对象执行连续设定动作的持续时间，是一致的或者相近的；并且对于每个目标数据，输出对应的语音的持续时间，与根据对应的控制参数序列控制交互对象执行设定动作的持续时间，也是一致的或者相近的，以使交互对象说话的时间与进行动作的时间是匹配的，从而使交互对象的语音和动作同步、协调。

在一些实施例中，可以以设定速率调用所述控制参数序列中的每组控制参数，使所述交互对象展示与每组控制参数对应的姿态。也即，始终以恒定的速度来执行各个目标数据所对应的控制参数序列。

在目标数据对应的音素数目较少，而目标数据所匹配的设定动作的控制参数序列较长的情况下，也即在交互对象说出目标数据的时间较短，而执行动作的时间较长的情况下，可以在输出语音结束的同时，也停止调用该控制参数序列，停止执行该设定动作。并且，对于该设定动作执行结束的姿态，与下一指定动作开始执行的姿态，进行平滑的过渡，以使所述交互对象的动作流畅、自然，提高目标对象的交互感受。

在一些实施例中，对于每个目标数据，根据该目标数据对应的设定动作的执行时间，确定该目标数据对应的控制参数序列的调用速率，并以所述调用速率调用该目标数据对应的控制参数序列中的每组控制参数，使所述交互对象展示与每组控制参数对应的姿态。

在执行时间较短时，控制参数序列的调用速率相对较高；反之则较低。而控制参数序列的调用速率决定了交互对象执行动作的速率。例如，在以较高的速度调用控制参数序列的情况下，交互对象的姿态变化速度也相应较快，因而可以在较短的时间里完成设定动作。

在一些实施例中，可以根据输出目标数据的语音的时间对执行设定动作的时间进行调整，例如进行压缩或扩展，使得交互对象执行设定动作的时间与输出目标数据的语音的时间是匹配的，从而使交互对象的语音和动作同步、协调。

在一个示例中，可以在根据所述目标数据对应的音素输出语音之前的设定时间，开始调用所述目标数据对应的控制参数序列，使所述交互对象开始执行与控制参数序列对应的设定动作。

例如，在交互对象开始输出目标数据对应的语音之前的极短时间，例如0.1秒，开始调用目标数据对应的控制参数序列，使交互对象开始执行设定动作，更加符合真实人物说话的状态，使交互对象的说话更加自然、生动，提高了目标对象的交互体验。

在一些实施例中，在检测到多个目标数据中相邻目标数据存在重叠的情况下，可以根据基于语序(即，接收到的声音驱动数据的自然排列顺序)排列在前的目标数据对应的控制参数序列控制所述交互对象执行对应的设定动作，并忽略与该目标数据重叠的排列在后的目标数据。

可以将所述声音驱动数据所包含的各个目标数据以数组的形式进行存储，每个目标数据为其中的元素。应当注意的是，由于语素之间可以通过不同的方式进行组合，而得到不同的目标数据，因此，多个目标数据中相邻的两个目标数据之间可能存在重叠部分。例如，在声音驱动数据对应的文本是“天气真好”的情况下，其所对应的目标数据分别为：1、天，2、天气，3、真好。对于相邻目标数据1和2，它们之间包含了共同的语素“天”，并且目标数据1和2可以匹配相同的指定动作，例如用手指指向上方。

可以通过为各个目标数据分别设置优先级，根据优先级来确定执行重叠的目标数据中的哪一个。

在一个示例中，可以将首先出现的目标数据的优先级设置为高于后面的目标数据。针对以上“天气真好”的示例，“天”的优先级高于“天气”，因此，则根据“天”所对应的设定动作的控制参序列来控制所述交互对象执行设定动作，并忽略余下的语素“气”(即忽略与目标数据“天”重叠的目标数据“天气”)，接下来直接匹配“真好”。

在本公开实施例中，通过对于相邻目标数据重叠的情况设置匹配规则，可以避免交互对象重复执行设定动作。

在一些实施例中，在检测到所述多个目标数据中相邻目标数据对应的控制参数序列在执行时间上重叠的情况下，可以对所述相邻目标数据对应的控制参数序列的重叠部分进行融合。

在一个实施例中，可以将控制参数序列的重叠部分进行平均或者加权平均，以实现重叠的控制参数序列的融合。

在另一实施例中，可以利用插值的方法，将上一个动作的某一帧(例如，该动作对应的第一控制参数序列的第N组控制参数n)，按照过渡时间向下一个动作插值过渡，直到过渡到与下一个动作中第一帧开始重合(例如，找到下一个动作对应的第二控制参数序列中的第1组控制参数1与所述控制参数n相同，或者，将下一动作***到所述某一帧处，使得经过插值过渡后两个动作的总执行时间与相应的语音数据/文本数据的播放或显示时间相同)，则忽略上一个动作中某一帧之后的所有帧，直接执行下一个动作，从而实现了重叠的控制参数序列的融合。

通过对所述相邻目标数据对应的控制参数序列的重叠部分进行融合，使得交互对象的动作之间可以平滑过渡，以使所述交互对象的动作流畅、自然，提高目标对象的交互感受。

在一些实施例中，对于所述声音驱动数据中，各个目标数据以外的其他数据，例如将其称为第一数据，可以根据所述第一数据的声学特征匹配的姿态控制参数，并根据所述姿态控制参数控制所述交互对象的姿态。

响应于所述声音驱动数据包括音频数据，可以获取所述第一数据包含的语音帧序列，并获取至少一个语音帧对应的声学特征，根据所述声学特征对应的所述交互对象的姿态控制参数，例如姿态控制向量，来控制所述交互对象的姿态。

响应于所述声音驱动数据包括文本数据，可以根据文本数据中的语素所对应的音素，获取所述音素对应的声学特征，根据所述声学特征对应的所述交互对象的姿态控制参数，例如姿态控制向量，来控制所述交互对象的姿态。

在本公开实施例中，声学特征可以是与语音情感相关的特征，例如基频特征、共峰特征、梅尔频率倒谱系数(Mel Frequency Cofficient，MFCC)等等。

由于所述姿态控制参数值是与所述语音段的语音帧序列是匹配的，因此根据所述第一数据输出的语音和/展示的文本，与根据所述姿态参数值控制交互对象的姿态是同步进行的情况下，交互对象所做出的姿态与输出的语音和/或文本是同步的，给目标对象以所述交互对象正在说话的感觉。并且由于所述姿态控制向量是与输出声音的声学特征相关的，根据所述姿态控制向量进行驱动使得交互对象的表情和肢体动作具有了情感因素，使得交互对象的说话过程更加自然、生动，从而提高了目标对象的交互体验。

在一些实施例中，所述声音驱动数据包括至少一个目标数据，以及所述目标数据以外的第一数据。对于所述第一数据，根据所述第一数据的声学特征来确定姿态控制参数，以控制所述交互对象的姿态；对于所述目标数据，则根据与所述目标数据匹配的设定动作的控制参数序列，控制所述交互对象做出所述设定动作。

图5示出根据本公开至少一个实施例的交互对象的驱动装置的结构示意图，如图5所示，该装置可以包括：第一获取单元301，用于获取显示设备展示的交互对象的声音驱动数据；第二获取单元302，用于基于所述声音驱动数据中所包含的目标数据，获取与所述目标数据匹配的交互对象的设定动作的控制参数序列；驱动单元303，用于根据所获得的控制参数序列控制所述交互对象执行所述设定动作。

在一些实施例中，所述装置还包括输出单元，用于根据所述声音驱动数据对应的语音信息控制所述显示设备输出语音，和/或，根据所述声音驱动数据对应的文本信息展示文本。

在一些实施例中，所述驱动单元具体用于：确定所述目标数据对应的语音信息；获取输出所述语音信息的时间信息；根据所述时间信息确定所述目标数据对应的设定动作的执行时间；根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作。

在一些实施例中，所述控制参数序列包括一组或多组控制参数；所述驱动单元在用于根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作时，具体用于：以设定速率调用所述控制参数序列中的每组控制参数，使所述交互对象展示与每组控制参数对应的姿态。

在一些实施例中，所述控制参数序列包括一组或多组控制参数；所述驱动单元在用于根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作时，具体用于：根据所述执行时间，确定所述控制参数序列的调用速率；以所述调用速率调用所述控制参数序列中的每组控制参数，使所述交互对象输出与每组控制参数对应的姿态。

在一些实施例中，所述控制参数序列包括一组或多组控制参数；所述驱动单元在用于根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作时，具体用于：在输出所述目标数据对应的语音信息之前的设定时间，开始调用所述目标数据对应的控制参数序列，使所述交互对象开始执行所述设定动作。

在一些实施例中，所述声音驱动数据包含多个目标数据，所述驱动单元具体用于：响应于检测到所述多个目标数据中相邻目标数据存在重叠；根据基于语序排列在前的目标数据对应的控制参数序列控制所述交互对象执行所述设定动作。

在一些实施例中，所述声音驱动数据包含多个目标数据，所述驱动单元具体用于：响应于检测到所述多个目标数据中相邻目标数据对应的控制参数序列在执行时间上重叠，对所述相邻目标数据对应的控制参数序列的重叠部分进行融合。

在一些实施例中，所述第二获取单元具体用于：响应于所述声音驱动数据包括音频数据，对所述音频数据进行语音识别，根据识别出的语音内容，确定所述音频数据所包含的目标数据；响应于所述声音驱动数据包括文本数据，根据所述文本数据所包含的文本内容，确定所述文本数据所包含的目标数据。

在一些实施例中，所述目标数据包括目标音节数据，所述第二获取单元具体用于：确定所述声音驱动数据所包含的音节数据是否与目标音节数据相匹配，其中，所述目标音节数据属于预先划分好的一种音节类型，一种音节类型对应于一种设定嘴型，一种设定嘴型设置有对应的控制参数序列；响应于所述音节数据与所述目标音节数据相匹配，基于匹配的所述目标音节数据所属的音节类型，获取与匹配的所述目标音节数据对应的设定嘴型的控制参数序列。

在一些实施例中，所述装置还包括姿态控制单元，用于：获取所述声音驱动数据中目标数据以外的第一数据；获取所述第一数据的声学特征；获取与所述声学特征匹配的姿态控制参数；根据所述姿态控制参数控制所述交互对象的姿态。

本说明书至少一个实施例还提供了一种电子设备，如图6所示，所述设备包括存储器、处理器，存储器用于存储可在处理器上运行的计算机指令，处理器用于在执行所述计算机指令时实现本公开任一实施例所述的交互对象的驱动方法。本说明书至少一个实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例所述的交互对象的驱动方法。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、***或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位***(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和***通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

一种交互对象的驱动方法，包括：

获取显示设备展示的交互对象的声音驱动数据；

基于所述声音驱动数据中所包含的目标数据，获取与所述目标数据匹配的交互对象的设定动作的控制参数序列；

根据所获得的控制参数序列控制所述交互对象执行所述设定动作。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述声音驱动数据对应的语音信息控制所述显示设备输出语音，和/或，根据所述声音驱动数据对应的文本信息展示文本。
根据权利要求1或2所述的方法，其特征在于，所述根据所获得的控制参数序列控制所述交互对象执行所述设定动作，包括：

确定所述目标数据对应的语音信息；

获取输出所述语音信息的时间信息；

根据所述时间信息确定所述目标数据对应的设定动作的执行时间；

根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作。
根据权利要求3所述的方法，其特征在于，所述控制参数序列包括一组或多组控制参数，所述根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作，包括：

以设定速率调用所述控制参数序列中的每组控制参数，使所述交互对象展示与每组控制参数对应的姿态。
根据权利要求3所述的方法，其特征在于，所述控制参数序列包括一组或多组控制参数，所述根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作，包括：

根据所述执行时间，确定所述控制参数序列的调用速率；

以所述调用速率调用所述控制参数序列中的每组控制参数，使所述交互对象输出与每组控制参数对应的姿态。
根据权利要求3所述的方法，其特征在于，所述根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作，包括：

在输出所述目标数据对应的语音信息之前的设定时间，开始调用所述目标数据对应的控制参数序列，使所述交互对象开始执行所述设定动作。
根据权利要求1至6任一项所述的方法，其特征在于，所述声音驱动数据包含多个目标数据，所述根据所获得的控制参数序列控制所述交互对象执行所述设定动作，包括：

响应于检测到所述多个目标数据中相邻目标数据存在重叠，根据基于语序排列在前的目标数据对应的控制参数序列控制所述交互对象执行所述设定动作。
根据权利要求1至6任一项所述的方法，其特征在于，所述声音驱动数据包含多个目标数据，所述根据所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作，包括：

响应于检测到所述多个目标数据中相邻目标数据对应的控制参数序列在执行时间上重叠，对所述相邻目标数据对应的控制参数序列的重叠部分进行融合。
根据权利要求1至8任一项所述的方法，其特征在于，所述基于所述声音驱动数据中所包含的目标数据，获取与所述目标数据匹配的交互对象的设定动作的控制参数序列，包括：

响应于所述声音驱动数据包括音频数据，对所述音频数据进行语音识别，根据所识别出的语音内容，确定所述音频数据所包含的目标数据；

响应于所述声音驱动数据包括文本数据，根据所述文本数据所包含的文本内容，确定所述文本数据所包含的目标数据。
根据权利要求1至9任一项所述的方法，其特征在于，所述声音驱动数据包括音节数据，

所述基于所述声音驱动数据中所包含的目标数据，获取与所述目标数据匹配的交互对象的设定动作的控制参数序列，包括：

确定所述声音驱动数据所包含的音节数据是否与目标音节数据相匹配，其中，所述目标音节数据属于预先划分好的一种音节类型，一种音节类型对应于一种设定嘴型，一种设定嘴型设置有对应的控制参数序列；

响应于所述音节数据与所述目标音节数据相匹配，基于匹配的所述目标音节数据所属的音节类型，获取与匹配的所述目标音节数据对应的设定嘴型的控制参数序列。
根据权利要求1至10任一项所述的方法，其特征在于，所述方法还包括：

获取所述声音驱动数据中目标数据以外的第一数据；

获取所述第一数据的声学特征；

获取与所述声学特征匹配的姿态控制参数；

根据所述姿态控制参数控制所述交互对象的姿态。
一种交互对象的驱动装置，包括：

第一获取单元，用于获取显示设备展示的交互对象的声音驱动数据；

第二获取单元，用于基于所述声音驱动数据中所包含的目标数据，获取与所述目标数据匹配的交互对象的设定动作的控制参数序列；

驱动单元，用于根据所获得的控制参数序列控制所述交互对象执行所述设定动作。
根据权利要求12所述的装置，其特征在于，所述装置还包括输出单元，用于根据所述声音驱动数据对应的语音信息控制所述显示设备输出语音，和/或，根据所述声音驱动数据对应的文本信息展示文本。
根据权利要求12或13所述的装置，其特征在于，所述驱动单元具体用于：

确定所述目标数据对应的语音信息；

获取输出所述语音信息的时间信息；

根据所述时间信息确定所述目标数据对应的设定动作的执行时间；

根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作。
根据权利要求14所述的装置，其特征在于，所述控制参数序列包括一组或多组控制参数；所述驱动单元在用于根据所述执行时间，以所述目标数据对应的控制参数序列控制所述交互对象执行所述设定动作时，具体用于：

以设定速率调用所述控制参数序列中的每组控制参数，使所述交互对象展示与每组控制参数对应的姿态；或，

根据所述执行时间，确定所述控制参数序列的调用速率；

以所述调用速率调用所述控制参数序列中的每组控制参数，使所述交互对象输出与每组控制参数对应的姿态；或，

在输出所述目标数据对应的语音信息之前的设定时间，开始调用所述目标数据对应的控制参数序列，使所述交互对象开始执行所述设定动作。
根据权利要求12至15任一项所述的装置，其特征在于，所述声音驱动数据包含多个目标数据，所述驱动单元具体用于：

响应于检测到所述多个目标数据中相邻目标数据存在重叠，根据基于语序排列在前的目标数据对应的控制参数序列控制所述交互对象执行所述设定动作；或，

响应于检测到所述多个目标数据中相邻目标数据对应的控制参数序列在执行时间上重叠，对所述相邻目标数据对应的控制参数序列的重叠部分进行融合。
根据权利要求12至16任一项所述的装置，其特征在于，所述声音驱动数据包括音节数据，

所述第二获取单元具体用于：

确定所述声音驱动数据所包含的音节数据是否与目标音节数据相匹配，其中，所述目标音节数据属于预先划分好的一种音节类型，一种音节类型对应于一种设定嘴型，一种设定嘴型设置有对应的控制参数序列；

响应于所述音节数据与所述目标音节数据相匹配，基于匹配的所述目标音节数据所属的音节类型，获取与匹配的所述目标音节数据对应的设定嘴型的控制参数序列。
根据权利要求12至17任一项所述的装置，其特征在于，所述装置还包括姿态控制单元，用于：

获取所述声音驱动数据中目标数据以外的第一数据；

获取所述第一数据的声学特征；

获取与所述声学特征匹配的姿态控制参数；

根据所述姿态控制参数控制所述交互对象的姿态。
一种电子设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至11任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至11任一所述的方法。