CN114610158A

CN114610158A - 数据处理方法及装置、电子设备、存储介质

Info

Publication number: CN114610158A
Application number: CN202210302689.8A
Authority: CN
Inventors: 王辉
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-06-10

Abstract

本公开实施例是关于一种数据处理方法及装置、电子设备、存储介质，涉及计算机技术领域，该数据处理方法包括：接收客户端发送的实时输入信息，并根据所述实时输入信息生成回复语音；对所述回复语音进行分割以获取多个语音片段，并获取与每个所述语音片段匹配的虚拟对象的外表控制数据；根据所述语音片段以及与所述语音片段匹配的虚拟对象的外表控制数据，生成数据包；将所述数据包发送至客户端，以使客户端根据所述数据包对客户端中的所述虚拟对象进行交互控制。本公开的技术方案能够提高数据传输的同步性与交互精准性。

Description

数据处理方法及装置、电子设备、存储介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质。

背景技术

虚拟人技术可以通过对任意真人进行建模后生成虚拟对象，并展示在终端设备上，以通过虚拟对象与用户进行交互。

相关技术中，由于传输通道的不同或者是受网络延迟的影响，虚拟对象进行交互时的数据难以同步呈现，因此进行交互的时效性较差，且影响交互的精准性。并且，在进行交互过程中，计算量较大，需要消耗较多的功耗以及流量，交互流畅性较差。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种数据处理方法及装置、电子设备、存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的数据无法同步传输的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种数据处理方法，应用于服务器，包括：接收客户端发送的实时输入信息，并根据所述实时输入信息生成回复语音；对所述回复语音进行分割以获取多个语音片段，并获取与每个所述语音片段匹配的虚拟对象的外表控制数据；根据所述语音片段以及与每个所述语音片段匹配的虚拟对象的外表控制数据，生成数据包；将所述数据包发送至客户端，以使客户端根据所述数据包对客户端中的所述虚拟对象进行交互控制。

根据本公开的第二方面，提供一种数据处理方法，应用于客户端，包括：将实时输入信息发送至服务器，以使服务器生成针对所述实时输入信息的回复语音，并根据对所述回复语音进行分割得到的多个语音片段以及与所述语音片段匹配的虚拟对象的外表控制数据生成数据包；接收服务器返回的数据包，并根据所述数据包对所述虚拟对象进行交互控制。

根据本公开的第三方面，提供一种数据处理装置，应用于服务器，包括：回复语音生成模块，用于接收客户端发送的实时输入信息，并根据所述实时输入信息生成回复语音；语音分割模块，用于对所述回复语音进行分割以获取多个语音片段，并获取与每个所述语音片段匹配的虚拟对象的外表控制数据；数据包生成模块，用于根据所述语音片段以及与每个所述语音片段匹配的虚拟对象的外表控制数据，生成数据包；数据包发送模块，用于将所述数据包发送至客户端，以使客户端根据所述数据包对客户端中的所述虚拟对象进行交互控制。

根据本公开的第四方面，提供一种数据处理装置，应用于客户端，包括：信息接收模块，用于将实时输入信息发送至服务器，以使服务器生成针对所述实时输入信息的回复语音，并根据对所述回复语音进行分割得到的多个语音片段以及与所述语音片段匹配的虚拟对象的外表控制数据生成数据包；交互控制模块，用于接收服务器返回的数据包，并根据所述数据包对所述虚拟对象进行交互控制。

根据本公开的第五方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述第一方面或第二方面的数据处理方法及其可能的实现方式。

根据本公开的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面或第二方面的数据处理方法及其可能的实现方式。

本公开实施例中提供的数据处理方法、数据处理装置、电子设备以及计算机可读存储介质中，一方面，将回复语音分割为多个语音片段，并生成每个语音片段匹配的虚拟对象的外表控制数据，进而基于语音片段以及匹配的外表控制数据得到多个数据包，进一步将多个数据包发送至客户端，以使客户端根据数据包对虚拟对象进行交互控制。由于可以将回复语音以及匹配的外表控制数据切分为细粒度的数据包进行传输，通过数据包将回复语音和外表控制数据同步传输至客户端，因此改善了相关技术中可能因为网络延迟原因或者是传输通道不同而导致的数据传输不同步的问题，能够提高数据传输的同步性，能够实现同步渲染，进而实现精准交互，提高交互同步性、及时性和稳定性。另一方面，由于每个数据包中的数据都为轻量级数据，通过数据包对轻量级的数据进行传输，减少了资源消耗以及需要的流量，降低了计算量，避免了***卡顿的问题，能够提高虚拟对象交互控制的流畅性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的数据处理方法的***架构的示意图。

图2示意性示出本公开实施例中一种数据处理方法的示意图。

图3示意性示出本公开实施例中动态调整参考时间分割粒度的流程示意图。

图4示意性示出本公开实施例中时间分割粒度的示意图。

图5示意性示出本公开实施例中确定外表控制数据的流程示意图。

图6示意性示出本公开实施例中划分的数据包的示意图。

图7示意性示出本公开实施例中服务器进行数据传输处理的示意图。

图8示意性示出本公开实施例中另一种数据处理方法的流程示意图。

图9示意性示出本公开实施例中整体交互的流程示意图。

图10示意性示出本公开实施例中基于数据流的交互方法的流程示意图。

图11示意性示出本公开实施例中一种数据处理装置的框图。

图12示意性示出本公开实施例中另一种数据处理装置的框图。

图13示意性示出本公开实施例中电子设备的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

相关技术中，在虚拟人进行渲染时，要同时输入多种多媒体数据来驱动虚拟人，可能会导致***卡顿，影响流畅性。并且会出现肢体语言、脸部情感表情、唇形、眼部和语音在传输过程中不同步，导致虚拟人渲染表现不一致，无法解决延迟的问题，因此无法实现及时交互。

为了解决上述技术问题，本公开实施例中提供了一种数据处理方法，可以应用于用户与虚拟人进行对话交互的应用场景。

图1示出了可以应用本公开实施例的数据处理方法及装置的***架构的示意图。

如图1所示，***架构100可以包括客户端101、服务器102。其中，客户端101可以为智能设备，例如可以为智能手机、电脑、平板电脑、智能音箱等智能设备。客户端101上可以安装虚拟人应用程序，以通过虚拟人应用程序对应的虚拟对象与用户实现交互。服务器102可以为提供本公开实施例中数据处理相关服务的后台***，可以包括便携式计算机、台式计算机、智能手机等具有计算功能的一台电子设备或多台电子设备形成的集群，用于对客户端发送的数据进行处理。

该数据处理方法可以应用于与客户端中的虚拟人进行交互的场景中，也可以应用于多种媒体信息进行传输同步的应用场景。参考图1中所示，用户103将语音发送至客户端101，客户端101可以将语音发送至服务器102。服务器102首先判断是否接收到实时输入信息。若接收到实时输入信息，对所述实时输入信息进行语义分析处理生成回复语音；进一步将所述回复语音进行分割获取多个语音片段，并生成与每个所述语音片段匹配的外表控制数据；然后根据每个所述语音片段以及与每个所述语音片段匹配的虚拟对象的外表控制数据，生成多个数据包以通过多个数据包实现数据同步；最后将所述多个数据包发送至客户端。基于此，客户端101可以基于接收到的多个数据包中的数据控制虚拟对象执行对应的交互操作，例如控制虚拟对象执行与回复语音对应的动作，以及展示与回复语音对应的表情等等。

服务器102可以与客户端101相同，即客户端101与服务器102均为智能设备，例如可以为智能手机。服务器102也可以与客户端101不同，此处不做特殊限定。

需要说明的是，本公开实施例所提供的数据处理方法可以由服务器102来执行。相应地，数据处理方法可通过程序等方式设置于服务器102中。

接下来，参考图2对本公开实施例中的数据处理方法进行详细说明。

在步骤S210中，接收客户端发送的实时输入信息，并根据所述实时输入信息生成回复语音。

本公开实施例中，客户端可以为智能手机、平板电脑、智能音箱、智能电视、可穿戴设备等任何能够实现语音对话的智能设备。客户端中可以安装虚拟人应用程序，且虚拟人应用程序可以构建虚拟对象。虚拟对象指的是虚拟人或者是虚拟形象，且虚拟对象能够与用户进行语音交互，从而实现智能对话功能。虚拟人可以是通过对任意用户进行建模后，生成用户的虚拟形象，以还原真人效果，并且虚拟人可以设置于在包括手机、电脑等多种智能设备上，与用户进行互动对话。客户端中的虚拟对象和服务器以及用户可以组成对话***，以实现对话交互。

在交互场景中，实时输入信息可以为客户端采集的信息，且实时输入信息可以为用户通过安装在客户端上的应用程序输入的信息。实时输入信息可以为语音信息，也可以为文本信息。实时输入信息用于与客户端上的虚拟对象进行交互。当实时输入信息为文本信息时，可以使用文本转语音的方式将其转换为语音信息。此处以实时输入信息为实时语音为例进行说明。

在一种实施例中，为了避免同一空间内的其他智能设备对实时语音的影响，可以对采集到的语音信息进行语音识别，将其中包含的用户输入的语音信息确定为实时语音，并且将不同口音的语音信息进行识别得到实时语音，以提高接收到的语音的准确性。示例性地，可以检测是否接收到其他智能设备输入的语音信息。若检测到其他设备输入的语音信息，则可以将这些语音信息进行过滤，只保留用户输入的语音信息作为实时语音。其他设备可以为任意类型的智能设备，例如智能音箱或者是智能终端等等。

回复语音指的是针对实时输入信息的回答信息，例如可以为实时语音对应的答案或者是搜索结果。当实时输入信息为实时语音时，回复语音可以根据实时语音的实时语义和实时意图而确定。示例性地，可以对实时语音进行语义分析得到对应的语义，并对实时语音进行意图识别确定其意图。

语义分析用于使用句子的语义结构来表示语言的结构。意图识别指的是用于识别出实时语音的用途和意图。示例性地，对于用户输入的实时语音，根据意图识别模型计算出每一个意图的概率，最终将概率最高的意图确定为实时语音的意图。意图识别模型可以用于在交互场景中确定输入所属的意图。意图识别模型的输入为对话数据(实时语音)，输出为对话数据所属的意图(实时语音的意图)。意图识别模型例如可以为卷积神经网络模型、长短期记忆网络模型、BERT(Bidirectional Encoder Representations fromTransformer，基于Transformer的双向编码器表征)模型等文本分类模型。需要说明的是，上述列出的各个模型仅为示例，在实际应用中，意图识别模型还可以采用其他类型的文本分类模型，本公开对此不作具体的限定。

本公开实施例中，服务器中包含表示语音语义服务的后台服务，后台服务中包括NLP(Natural language process，自然语言处理)计算引擎。示例性地，可以调用服务器中的后台服务可以接收由客户端采集的实时语音，并对实时语音进行语义分析以及意图识别。NLP计算引擎可以用于计算与实时语音对应的回复语音的文本信息。与此同时，还可以对回复语音的文本信息进行语义分析得到对应的回复语义，以及对回复语音的文本信息进行意图识别得到对应的回复意图。进一步地，可以通过TTS(Text to Speech，文本到语音)对回复语音的文本信息进行文本语音转换，生成对应的回复语音。

在步骤S220中，对所述回复语音进行分割以获取多个语音片段，并获取与每个所述语音片段匹配的虚拟对象的外表控制数据。

本公开实施例中，对回复语音进行分割指的是将一段完整的回复语音分割为多个语音片段。语音片段可以为回复语音中的部分内容，且语音片段的长度可以相同或者是不同。在对回复语音进行分割时，可以基于时间顺序依次进行划分。

在一种实施例中，可以基于时间分割粒度将所述回复语音按照时间顺序进行分割，得到多个语音片段。此处用于分割的回复语音可以为单位时间的回复语音。单位时间可以是任意的时间长度，如每秒或每分等，此处不作具体限定。时间分割粒度指的是用于划分语音的标准，其可以用于确定语音片段的数量。时间分割粒度不同，其划分的语音片段的长度以及得到的语音片段的数量也不同，且时间分割粒度的大小与语音片段的数量负相关，时间分割粒度的大小与语音片段的长短正相关。即，时间分割粒度越大，语音片段的长度越长，语音片段的数量越少；时间分割粒度越小，语音片段的长度越短，语音片段的数量越多。本公开实施例中，在确定时间分割粒度的情况下，可以基于时间分割粒度对回复语音进行快速分割，从而提高语音片段的响应速度和数据传输效率。

对于同一段回复语音而言，可以采用一种或多种时间分割粒度来进行划分。本公开实施例中，为了提高语音分割准确性，可以动态调整时间分割粒度，进而结合多种时间分割粒度来对回复语音进行有效划分。在进行语音分割时，首先可以获取参考时间分割粒度。进一步可以对参考时间分割粒度进行动态调整以获取合适的时间分割粒度。其中，参考时间分割粒度指的是默认的分割粒度。示例性地，可以根据评估参数来确定参考时间分割粒度，评估参数用于表示语音分割的评价标准。其中，评估参数可以为性能参数、还原度、完整度中的一种或多种的结合。性能参数可以为功耗参数以及分割效率参数等等；还原度指的是多个语音片段与回复语音的相似度；完整度指的是多个语音片段相对于回复语音的完整性。可以通过多个候选分割粒度对测试语音进行分割，分别得到每个候选分割粒度对应的测试语音的多个测试片段。接下来可以将多个测试片段与测试语音进行对比，以确定测试语音的评估参数，即确定性能参数、还原度以及完整性。进一步可以将性能参数以及还原度、完整性按照排列顺序进行排列，并将性能参数最大、还原度最大和/或完整度最高的候选分割粒度确定为参考时间分割粒度。通过性能参数、还原度以及完整度确定参考时间分割粒度，能够准确地确定默认的分割粒度。

本公开实施例中，单位时间为每秒，参考时间分割粒度例如可以为50ms，当然也可以为20ms或者是其它粒度，此处以参考时间分割粒度为50ms为例进行说明。当参考时间分割粒度为50ms时，可以将单位时间的回复语音分割成20个语音片段。

为了实现语音的准确分割，可以基于回复语音的实时属性信息对参考时间分割粒度进行动态调整。实时属性信息可以包括回复语音的语速、情感标签状态以及完整度等等。此处以实时属性信息为回复语音的语速为例进行说明。

图3中示意性示出了动态调整参考时间分割粒度的流程图，参考图3中所示，主要包括以下步骤：

在步骤S310中，判断回复语音的语速是否满足第一调整条件。若是，则转至步骤S320。若否，则转至步骤S330。

在步骤S320中，对所述参考时间分割粒度进行减小获取所述时间分割粒度。

在步骤S330中，判断回复语音的语速是否满足第二调整条件。若是，则转至步骤S340。若否，则转至步骤S350。

在步骤S340中，对所述参考时间分割粒度进行增加获取所述时间分割粒度。

在步骤S350中，将参考时间分割粒度作为时间分割粒度。

本公开实施例中，当实时属性信息为回复语音的语速时，第一调整条件为大于标准语速，例如可以为2倍速、4倍速等等。具体可以根据实时语音或者是回复语音的频率、空白时间长度等信息，确定回复语音的语速，进而确定回复语音的语速是否满足第一调整条件或者是否满足第二调整条件。若确定回复语音的语速满足第一调整条件，即大于标准语速，则可以减小参考时间分割粒度以将减小后的确定为时间分割粒度。在进行减小时，可以按照回复语音的语速来确定减小程度，且减小程度可以与回复语音的语速正相关，时间分割粒度可以与回复语音的语速负相关。即语速越快，减小程度越大，时间分割粒度越小。若回复语音的语速不大于标准语速，则继续判断回复语音的语速是否满足第二调整条件。

第二调整条件为小于标准语速，为了避免无效分割，可以增加参考时间分割粒度。由于分割粒度太大会影响同步效果，因此可以将参考时间分割粒度增加预设倍数得到时间分割粒度。预设倍数可以根据实际需求而确定，例如可以为1倍或者是2倍等等。需要说明的是，在回复语音的语速小于标准语速时，可以将参考时间分割粒度增加1倍或者2倍即可，此时参考时间分割粒度不会与回复语音的语速正相关或负相关。

如果回复语音的语速不满足第一调整条件或不满足第二调整条件，即回复语音的语速为标准语速，则将参考时间分割粒度作为时间分割粒度即可。

举例而言，参考图4中所示，若通过实时语音的频率、空白时间长度等信息，确定回复语音中的前0.4秒属于正常语速，与其相邻的0.4秒属于2倍速，后0.2秒属于0.5倍速。可以对前0.4秒使用参考时间分割粒度作为时间分割粒度1进行划分。对与其相邻的0.4秒而言，可将参考时间分割粒度降低一半得到时间分割粒度2，使用时间分割粒度2进行划分。对后0.2秒而言，可将参考时间分割粒度增加至2倍得到时间分割粒度3，使用时间分割粒度3进行划分。其中，时间分割粒度1大于时间分割粒度2，时间分割粒度3大于时间分割粒度1。

除此之外，实时属性信息还可以为回复语音的情感标签状态，情感标签状态可以用于表示回复语音中是否包含情感标签，因此可以基于回复语音中是否包含情感标签来动态调整参考时间分割粒度以得到时间分割粒度。若不包含，则增加参考时间分割粒度。若包含，则根据情感标签的数量减小参考时间分割粒度，且情感标签的数量与时间分割粒度负相关。即，情感标签的数量越多，时间分割粒度越小。

另外，还可以根据回复语音的完整度来动态调整参考时间分割粒度。示例性地，当完整度较低时，可减小参考时间分割粒度。

本公开实施例中，通过回复语音的实时属性信息来动态调整参考时间分割粒度以得到准确的时间分割粒度，能够对回复语音进行准确划分，得到符合实际情况的多个语音片段，增加了合理性。

在将回复语音分割为多个语音片段后，可以生成与每个语音片段匹配的虚拟对象的外表控制数据。外表控制数据可以用于表示虚拟对象的渲染数据。对于虚拟对象而言，其外表控制数据可以包括多个预设部位的数据，例如可以包括但不限于动作数据(形体数据)以及表情驱动数据。动作数据可以为能够执行动作的部位的数据，例如可以包括但不限于手部动作、脚部动作以及腿部动作等等。表情驱动数据可以通过多个能够调整状态的部位的驱动数据来表示，因此表情驱动参数可以包括多个参数。能够调整状态指的是状态能够发生变化而不是固定不变。能够调整状态的部位的驱动数据可以包括但不限于脸部表情数据、唇形数据以及眼部数据。基于此，外表控制数据可以包括但不限于动作数据以及脸部表情数据、唇形数据、眼部数据等驱动数据。

示例性地，可以根据回复语音的文本信息确定情感标签，并结合每个所述语音片段以及所述情感标签获取每个所述语音片段匹配的所述外表控制数据。情感标签指的是用于表示针对于实时语音而生成的回复语音的表情的标签。情感标签例如可以为开心、微笑等标签。其中，可以根据情感引擎中的情感模型生成情感标签。情感模型可以为训练好的机器学习模型或者是任意类型的分类模型。可基于训练数据以及训练数据的真实标签对机器学习模型进行训练，具体将训练数据输入至机器学习模型中获取对应的预测标签。根据预测标签与真实标签来调整机器学习模型的模型参数，直至预测标签与真实标签保持一致为止，得到训练好的机器学习模型作为情感模型。训练数据可以为任意类型的语音数据。在此基础上，在生成实时语音对应的回复语音的文本信息后，可将回复语音的文本信息输入至情感引擎，通过情感引擎中的情感模型来确定回复语音的文本信息的情感标签。

由于外表控制数据可以包括动作数据以及表情驱动数据，因此在确定外表控制数据时，可以通过不同方式来确定。图5中示意性示出了确定外表控制数据的流程图，参考图5中所示，主要包括以下步骤：

在步骤S510中，对各所述语音片段进行语音动作转换，获取各所述语音片段的动作数据。

本步骤中，首先可以对每个语音片段进行语音动作转换，将语音片段转换为对应的动作数据。此处的动作数据可以表示为浮点型数组或者是字符串形式。语音动作转换指的是将回复语音转换为用于预测虚拟对象可能执行的动作的驱动数据，动作数据可以包括动作幅度数据以及动作姿态数据，动作幅度数据用于表示动作幅度，动作姿态数据用于表示动作姿态。

需要说明的是，对于相同的回复语音，对应的动作数据可能相同或不同。具体可以根据回复语音切分成的语音片段的语音属性来确定动作数据。语音属性可以包括回复语音的音量以及语速等等。回复语音的音量可以与动作数据中的动作幅度数据正相关，回复语音的语速也可以与动作数据中的动作幅度数据正相关。相同的回复语音可以对应多种候选动作姿态，可以从候选动作姿态中选择出一个确定为动作姿态数据。例如，可以判断候选动作姿态是否被执行过，若所有候选动作姿态均执行过，则随机选择一个候选动作姿态作为动作姿态。若存在未执行的候选动作姿态，则从未执行的候选动作姿态中随机选择一个候选动作姿态作为动作姿态。基于此，可以根据语音片段的语音属性来确定动作幅度数据和动作姿态数据，从而基于多个维度准确地确定动作数据。

在步骤S520中，根据各所述语音片段以及所述情感标签确定各所述语音片段对应的表情驱动数据。

本步骤中，在确定动作数据的同时，可以根据语音片段以及由回复语音的文本信息确定的情感标签来确定语音片段对应的表情驱动数据。其中，可以生成多个能够调整状态的部位的驱动数据，进而将多个驱动数据组合成表情驱动数据。生成多个能够调整状态的部位的驱动数据用于表示每个部位的状态，例如脸部表情数据可以为微笑、伤心对应的数据等等；眼部驱动数据可以包括但不限于眨眼、闭眼对应的数据；唇部驱动数据例如可以为打开、关闭对应的数据等等。

本公开实施例中，通过将回复语音按照时间分割粒度划分为多个语音片段，并结合情感标签生成每个语音片段对应的动作数据和表情驱动数据。基于此，动作数据和表情驱动数据也是一小段一小段生成的，由于每个语音片段均与外表控制数据相匹配，因此每个语音片段都与其对应的外表控制数据保持同步。

接下来，继续参考图2中所示，在步骤S230中，根据所述语音片段以及与每个所述语音片段匹配的虚拟对象的外表控制数据，生成数据包。

本公开实施例中，可以根据多个语音片段以及与每个语音片段匹配的外表控制数据生成多个数据包，具体可以将每个语音片段以及每个语音片段匹配的外表控制数据进行同步组合，得到每一个语音片段对应的数据包。基于此，每个数据包中都包含语音片段、语音片段对应的动作数据以及表情驱动数据，且表情驱动数据可以包括多个参数，多个参数指的是能够调整状态的部位的驱动数据，基于此多个参数可以包括但不限于脸部表情数据、唇形数据以及眼部数据。需要补充的是，语音片段与外表控制数据之间保持同步，且外表控制数据自身保持同步。外表控制数据自身保持同步指的是外表控制数据中包含的表情驱动数据以及动作数据之间保持同步，且所述表情驱动数据包含的多个参数之间相互保持同步。因此，数据包能够将语音字段与其对应的外表控制数据进行同步，避免了相关技术中由于网络异常或者是其它原因而导致的数据不同步的问题。

举例而言，参考图6中所示，回复语音可以分为数据包1、数据包2…数据包n。对于数据包1而言，其中可以包括语音片段1、语音片段1的动作数据1以及表情驱动数据1。对于数据包n而言，其中可以包括语音片段n、语音片段n的动作数据n以及表情驱动数据n。需要说明的是，每个数据包中包含的数据的类型相同(例如都可以是语音片段、动作数据以及表情驱动数据)，每种类型数据的具体数值可以相同或不同。

继续参考图2中所示，在步骤S240中，将所述数据包发送至客户端，以使客户端根据所述数据包对客户端中的所述虚拟对象进行交互控制。

本公开实施例中，在生成多个数据包后，可以按照时间顺序将数据包发送至客户端。由于每个数据包中的数据均是同步好的数据，因此能够使得语音片段和外表控制数据保持同步。客户端接收到数据包后，可以将数据包中的动作数据和表情驱动数据发送至虚拟对象的渲染引擎，以使渲染引擎根据数据包中的数据生成对应的指令来对虚拟对象进行渲染，驱动虚拟对象执行与动作数据对应的动作，以及驱动虚拟对象展示与表情驱动数据对应的表情，从而实现与用户的交互。

参考图7中所示，用户701将实时输入信息A发送至客户端702，客户端702将实时输入信息发送至服务器703，服务器703对实时输入信息进行解析生成其对应的回复语音B，并对回复语音B进行切分得到数据包1、数据包2至数据包n。服务器703按照时间顺序将数据包返回至客户端702，以控制客户端702中的虚拟对象704与用户701进行交互。

本公开实施例中，在将数据包发送至客户端的过程中，回复语音也传输到音频播放器，进行同步播放。因为将回复语音中的每帧数据切割成比较小的语音片段，且每帧数据已经同步完善，所以客户端接收到的每帧数据也是语音和外表控制数据同步的，从而可以确保虚拟对象在外表的形体、脸部表情、唇形、眼部等部位的状态的一致性，并且唇形、脸部、眼部的状态也和语音同步一致。每秒数据流的小粒度的切分，且语音数据和外表控制数据在服务器端就已经同步好，客户端收到的数据也确保始终是同步好，不会受网络影响等造成数据的不同步。通过服务器后端处理复杂数据，且动作、脸部表情、唇形、眼部等表情算法都是部署在服务器端，智能语音语义服务也是部署在服务器端。客户端侧只是负责渲染虚拟人的3D外形，以及接收驱动数据来确保数据传输的轻量性，也节省客户端侧的功耗，同时也不会因为渲染而出现卡顿等情况，提高了渲染流畅性和稳定性，也提高了交互的准确性。

本公开实施例中，还提供了一种数据处理方法，可以应用于客户端，参考图8中所示，主要包括以下步骤S810和S820：

在步骤S810中，将实时输入信息发送至服务器，以使服务器生成针对所述实时输入信息的回复语音，并根据对所述回复语音进行分割得到的多个语音片段以及与所述语音片段匹配的虚拟对象的外表控制数据生成数据包；

在步骤S820中，接收服务器返回的数据包，并根据所述数据包对所述虚拟对象进行交互控制。

其中，客户端可以采集用户输出的实时输入信息，并将实时输入信息发送至服务器。服务器可以按照步骤S210至步骤S240中的方法，对实时输入信息生成回复语音，并对回复语音按照时间分割粒度划分为多个语音片段，进而生成每个语音片段对应的外表控制数据，并将语音片段以及其对应的外表控制数据组合成一个数据包。进一步地，将数据包按照时间顺序返回至客户端。

客户端可以接收数据包，并对每个数据包中的语音片段和外表控制数据进行解析，通过该语音片段以及外表控制数据生成指令对客户端中安装的虚拟对象进行控制和渲染。

本公开实施例中，每包同步好的数据包中只包含驱动数据，驱动数据只有1224个Float的数据。轻量的网络传输，提高了数据传输效率，且提高了虚拟对象的渲染流畅性，使得虚拟对象渲染的表情动作更准确，并且减小了功耗。由于客户端可以接收由服务器传输的根据回复语音以及匹配的外表控制数据切换为细粒度的数据包，通过数据包进行交互控制，因此改善了相关技术中可能因为网络延迟原因或者是传输通道不同而导致的数据传输不同步的问题，能够提高数据传输的同步性，能够实现同步渲染，进而实现精准交互，提高交互及时性和稳定性。

需要补充的是，整个交互过程主要通过服务器和客户端中的虚拟对象来实现。参考图9中所示的服务架构，服务器901包括ASR(Automatic Speech Recognition，自动语音识别)后台服务、情感标记引擎、TTS(Text to Speech，文本到语音)、数据分割、动作引擎、数据同步。客户端902包含UI显示(3D渲染引擎)以及音频播放。

基于上述服务架构，后台服务接收客户端发送的实时输入信息，识别实时输入信息的语义以及意图，并将其发送至NLP计算引擎，以通过NLP计算引擎计算回复语音的文本信息。情感标记引擎将后台服务ASR传输回复语音的文本信息对应的语义和意图等信息转换为情感标签。TTS接收回复语音的文本信息并进行文本语音转换生成回复语音，以将其转换为语音流的形式传输至动作引擎。

动作引擎将回复语音对应的语音流和情感标签转换为外表控制数据。外表控制数据包括动作数据和欧拉数据(脸部表情、唇部、眼部组成的表情驱动数据)。进一步地，动作引擎将回复语音按照时间分割粒度进行分割得到多个语音片段，并将每个语音片段以及与其对应的外表控制数据进行数据同步生成多个数据包。例如将回复语音分割成50ms一帧的数据包，一秒对应20包，并将数据包返回给客户端。其中每个数据包中的数据都是同步好的数据，即每个数据包中的形体姿势、脸部表情、唇形、眼部等驱动数据自身同步，并且外表控制数据和语音数据的音轨也同步。

客户端收到每个数据包后，对数据包中的外表控制数据进行解析并发送至虚拟对象的3D渲染引擎，以实时渲染形象，具体包括但不限于驱动虚拟对象的动作、脸部表情、唇形、眼部等预设部位，以使虚拟对象展示语音片段对应的动作和表情。

图10中示意性示出了基于数据流的交互流程图，参考图10中所示，主要包括以下步骤：

在步骤S1010中，客户端接收用户发送的实时输入信息，例如可以为实时语音。客户端中可以配置虚拟对象的应用程序。

在步骤S1020中，客户端将实时输入信息(实时语音)发送至服务器的后台服务和TTS，以通过NLP生成回复语音的文本信息，并通过TTS将回复语音的文本信息转换为语音流。

在步骤S1030中，将语音流发送至情感标记引擎，生成情感标签。

在步骤S1040中，将语音流按照时间分割粒度划分，得到多个语音片段。

在步骤S1050中，将情感标签发送至动作引擎并将语音流发送至动作引擎，生成语音片段对应的外表控制数据。

在步骤S1060中，根据语音片段和对应的外表控制数据生成多个数据包。

在步骤S1070中，将多个数据包中的语音流以及外表控制数据进行同步，并发送至客户端。

在步骤S1080中，客户端根据外表控制数据进行渲染。

本公开实施例中的技术方案，通过服务器处理动作数据、表情驱动数据等高计算量的操作，能够减小客户端的计算功耗，提高客户端的操作流畅性。通过将回复语音分割为细粒度的语音片段，并将语音片段以及语音片段对应的外表控制数据同步组合成多个数据包，以将数据包发送至客户端进行交互，避免了相关技术中由于网络问题或者是其它原因导致的数据传输不同步的问题，避免了语音和外表控制数据不一致的问题，提高了动作的同步性和流畅性，能够实现及时交互以及实现精准交互。

本公开实施例中提供了一种数据处理装置，参考图11中所示，该数据处理装置1100可以包括：

回复语音生成模块1101，用于接收客户端发送的实时输入信息，并根据所述实时输入信息生成回复语音；

语音分割模块1102，用于对所述回复语音进行分割以获取多个语音片段，并获取与每个所述语音片段匹配的外表控制数据；

数据包生成模块1103，用于根据所述语音片段以及与每个所述语音片段匹配的虚拟对象的外表控制数据，生成数据包；

数据包发送模块1104，用于将所述数据包发送至客户端，以使客户端根据所述数据包对客户端中的所述虚拟对象进行交互控制。

在本公开的一种示例性实施例中，语音分割模块包括：分割控制模块，用于基于时间分割粒度将所述回复语音按照时间顺序进行分割，得到多个语音片段。

在本公开的一种示例性实施例中，分割控制模块包括：动态调整模块，用于根据所述回复语音的实时属性信息，对参考时间分割粒度进行动态调整以获取所述时间分割粒度，并根据所述时间分割粒度对所述回复语音进行分割获取所述多个语音片段。

在本公开的一种示例性实施例中，动态调整模块包括：第一调整模块，用于若所述回复语音的实时属性信息满足第一调整条件，对所述参考时间分割粒度进行减小获取所述时间分割粒度；第二调整模块，用于若所述回复语音的实时属性信息满足第二调整条件，对所述参考时间分割粒度进行增加获取所述时间分割粒度。

在本公开的一种示例性实施例中，所述装置还包括：参考粒度确定模块，用于根据评估参数确定所述参考时间分割粒度；所述评估参数包括性能参数、还原度、完整度中的至少一种。

在本公开的一种示例性实施例中，语音分割模块包括：外表控制数据确定模块，用于根据所述回复语音确定情感标签，并结合每个所述语音片段以及所述情感标签获取每个所述语音片段匹配的所述外表控制数据。

在本公开的一种示例性实施例中，外表控制数据确定模块包括：动作数据获取模块，用于对各所述语音片段进行语音动作转换，获取各所述语音片段的动作数据；表情驱动数据获取模块，用于根据各所述语音片段以及所述情感标签确定各所述语音片段对应的表情驱动数据。

在本公开的一种示例性实施例中，数据包生成模块包括：组合模块，用于将每个语音片段以及每个语音片段对应的外表控制数据进行同步组合，获取多个数据包。

需要说明的是，上述数据处理装置中各模块的具体细节已经在对应的数据处理方法中进行了详细描述，因此此处不再赘述。

本公开实施例中还提供了一种数据处理装置，参考图12中所示，该数据处理装置1200可以包括：

信息接收模块1201，用于将实时输入信息发送至服务器，以使服务器生成针对所述实时输入信息的回复语音，并根据对所述回复语音进行分割得到的多个语音片段以及与所述语音片段匹配的虚拟对象的外表控制数据生成数据包；

交互控制模块1202，用于接收服务器返回的数据包，并根据所述数据包对所述虚拟对象进行交互控制。

图13示出了适于用来实现本公开示例性实施方式的电子设备的示意图。本公开的终端可以被配置为如图13所示电子设备的形式，然而，需要说明的是，图13示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本公开的电子设备至少包括处理器和存储器，存储器用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得处理器可以实现本公开示例性实施方式的方法。

具体的，如图13所示，电子设备1300可以包括：处理器1310、内部存储器1321、外部存储器接口1322、通用串行总线(Universal Serial Bus，USB)接口1330、充电管理模块1340、电源管理模块1341、电池1342、天线1、天线2、移动通信模块1350、无线通信模块1360、音频模块1370、扬声器1371、受话器1372、麦克风1373、耳机接口1374、传感器模块1380、显示屏1390、摄像模组1391、指示器1392、马达1393、按键1394以及用户标识模块(SubscriberIdentification Module，SIM)卡接口1395等。其中传感器模块1380可以包括深度传感器、压力传感器、陀螺仪传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器及骨传导传感器等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备1300的具体限定。在本申请另一些实施例中，电子设备1300可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。

处理器1310可以包括一个或多个处理单元，例如：处理器1310可以包括应用处理器、调制解调处理器、图形处理器、图像信号处理器、控制器、视频编解码器、数字信号处理器、基带处理器和/或神经网络处理器(Neural-Network Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。另外，处理器1310中还可以设置存储器，用于存储指令和数据。本示例性实施方式中的数据处理方法可以由应用处理器、图形处理器或图像信号处理器来执行，当方法涉及到神经网络相关的处理时，可以由NPU来执行。

内部存储器1321可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器1321可以包括存储程序区和存储数据区。外部存储器接口1322可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备1300的存储能力。

移动终端1300的通信功能可以通过移动通信模块、天线1、无线通信模块、天线2、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块可以提供应用在移动终端1300上2G、3G、4G、5G等移动通信解决方案。无线通信模块可以提供应用在移动终端200上的无线局域网、蓝牙、近场通信等无线通信解决方案。

显示屏用于实现显示功能，如显示用户界面、图像、视频等。摄像模块用于实现拍摄功能，如拍摄图像、视频等。音频模块用于实现音频功能，如播放音频，采集语音等。电源模块用于实现电源管理功能，如为电池充电、为设备供电、监测电池状态等。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读存储介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种数据处理方法，应用于服务器，其特征在于，包括：

接收客户端发送的实时输入信息，并根据所述实时输入信息生成回复语音；

对所述回复语音进行分割以获取多个语音片段，并获取与每个所述语音片段匹配的虚拟对象的外表控制数据；

根据所述语音片段以及与每个所述语音片段匹配的虚拟对象的外表控制数据，生成数据包；

将所述数据包发送至客户端，以使客户端根据所述数据包对客户端中的所述虚拟对象进行交互控制。

2.根据权利要求1所述的数据处理方法，其特征在于，所述对所述回复语音进行分割以获取多个语音片段，包括：

基于时间分割粒度将所述回复语音按照时间顺序进行分割，得到多个语音片段。

3.根据权利要求2所述的数据处理方法，其特征在于，所述基于时间分割粒度将所述回复语音按照时间顺序进行分割，得到多个语音片段，包括：

根据所述回复语音的实时属性信息，对参考时间分割粒度进行动态调整以获取所述时间分割粒度，并根据所述时间分割粒度对所述回复语音进行分割获取所述多个语音片段。

4.根据权利要求3所述的数据处理方法，其特征在于，所述根据所述回复语音的实时属性信息，对参考时间分割粒度进行动态调整以获取所述时间分割粒度，包括：

若所述回复语音的实时属性信息满足第一调整条件，对所述参考时间分割粒度进行减小获取所述时间分割粒度；

若所述回复语音的实时属性信息满足第二调整条件，对所述参考时间分割粒度进行增加获取所述时间分割粒度。

5.根据权利要求3所述的数据处理方法，其特征在于，所述方法还包括：

根据评估参数确定所述参考时间分割粒度；所述评估参数包括性能参数、还原度、完整度中的至少一种。

6.根据权利要求1所述的数据处理方法，其特征在于，所述获取与每个所述语音片段匹配的虚拟对象的外表控制数据，包括：

根据所述回复语音确定情感标签，并结合每个所述语音片段以及所述情感标签获取每个所述语音片段匹配的所述外表控制数据。

7.根据权利要求6所述的数据处理方法，其特征在于，所述外表控制数据包括动作数据以及表情驱动数据；所述结合每个所述语音片段以及所述情感标签获取每个所述语音片段匹配的所述外表控制数据，包括：

对各所述语音片段进行语音动作转换，获取各所述语音片段的动作数据；

根据各所述语音片段以及所述情感标签确定各所述语音片段对应的表情驱动数据。

8.根据权利要求1所述的数据处理方法，其特征在于，所述根据每个所述语音片段以及与每个所述语音片段匹配的虚拟对象的外表控制数据，生成多个数据包，包括：

将每个语音片段以及每个语音片段对应的外表控制数据进行同步组合，获取多个数据包。

9.一种数据处理方法，应用于客户端，其特征在于，包括：

将实时输入信息发送至服务器，以使服务器生成针对所述实时输入信息的回复语音，并根据对所述回复语音进行分割得到的多个语音片段以及与所述语音片段匹配的虚拟对象的外表控制数据生成数据包；

接收服务器返回的数据包，并根据所述数据包对所述虚拟对象进行交互控制。

10.一种数据处理装置，应用于服务器，其特征在于，包括：

回复语音生成模块，用于接收客户端发送的实时输入信息，并根据所述实时输入信息生成回复语音；

语音分割模块，用于对所述回复语音进行分割以获取多个语音片段，并获取与每个所述语音片段匹配的虚拟对象的外表控制数据；

数据包生成模块，用于根据所述语音片段以及与每个所述语音片段匹配的虚拟对象的外表控制数据，生成数据包；

数据包发送模块，用于将所述数据包发送至客户端，以使客户端根据所述数据包对客户端中的所述虚拟对象进行交互控制。

11.一种数据处理装置，应用于客户端，其特征在于，包括：

信息接收模块，用于将实时输入信息发送至服务器，以使服务器生成针对所述实时输入信息的回复语音，并根据对所述回复语音进行分割得到的多个语音片段以及与所述语音片段匹配的虚拟对象的外表控制数据生成数据包；

交互控制模块，用于接收服务器返回的数据包，并根据所述数据包对所述虚拟对象进行交互控制。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-9任意一项所述的数据处理方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-9任意一项所述的数据处理方法。