WO2021102647A1

WO2021102647A1 - 数据处理方法、装置和存储介质

Info

Publication number: WO2021102647A1
Application number: PCT/CN2019/120706
Authority: WO
Inventors: 郝杰
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2021-06-03
Also published as: CN114514576A

Abstract

一种数据处理方法、装置和存储介质。其中，所述方法包括：第一终端获取待处理数据（101）；所述第一终端对所述待处理数据中的第一语音数据进行翻译，得到翻译文本，并对所述待处理数据中的第一图像数据进行图像识别，得到识别结果，利用所述翻译文本和/或识别结果，确定目标音色模板（102）；所述第一终端从音色模板数据库中选取所述目标音色模板，利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据（103）；输出所述音频数据（104）。

Description

数据处理方法、装置和存储介质

技术领域

本申请涉及终端技术，具体涉及一种数据处理方法、装置及存储介质。

背景技术

随着文化的快速发展，表演文化越来越受欢迎，呈现出全球化趋势，并以特定形式逐渐走进大众生活中，比如二次元人物表演等。通常，在二次元人物表演活动中，用户只能看到表演者的体型，但不能听到表演者以个性化音色与观众实现变声交流，进而无法给观众带来代入感更强的互动体验，从而导致表演效果不佳。

发明内容

本申请实施例提供一种数据处理方法、装置和存储介质。

本申请实施例提供一种数据处理方法，包括：

获取待处理数据；

对所述待处理数据中的第一语音数据进行翻译，得到翻译文本；并对所述待处理数据中的第一图像数据进行图像识别，得到识别结果；利用所述翻译文本和/或识别结果，确定目标音色模板；

从音色模板数据库中选取所述目标音色模板；利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据；

输出所述音频数据。

本申请实施例还提供一种数据处理装置，包括：

获取单元，配置为获取待处理数据；

第一处理单元，配置为对所述待处理数据中的第一语音数据进行翻译，得到翻译文本；并对所述待处理数据中的第一图像数据进行图像识别，得到识别结果；

第二处理单元，配置为利用所述翻译文本和/或识别结果，确定目标音色模板；从音色模板数据库中选取所述目标音色模板；利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据；

输出单元，配置为输出所述音频数据。

本申请实施例又提供了一种数据处理装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一所述方法的步骤。

本申请实施例还提供了一种存储介质，其上存储有计算机指令，所述指令被处理器执行时实现上述任一所述方法的步骤。

本申请实施例提供的数据处理方法、装置和存储介质，获取待处理数据；对所述待处理数据中的第一语音数据进行翻译，得到翻译文本；并对所述待处理数据中的第一图像数据进行图像识别，得到识别结果；利用所述翻译文本和/或识别结果，确定目标音色模板；从音色模板数据库中选取所述目标音色模板；利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据；输出所述音频数据，从而使用所述目标音色将使用所述第二终端的第二用户的谈话内容播放给使用所述第一终端的第一用户，促使所述第一用户对所述第二用户的谈话内容产生浓厚的兴趣，实现所述第二用户与所述第一用户之间的变声交流，给所述第一用户带来代入感更强的互动体验。

附图说明

图1为本申请实施例数据处理方法的实现流程示意图；

图2为本申请实施例第一终端基于所述翻译文本确定目标音色模板的实现流程示意图；

图3为本申请实施例第一终端基于所述第一图像数据的识别结果确定目标音色模板的实现流程示意图；

图4为本申请实施例第一终端基于所述翻译文本和所述第一图像数据的识别结果确定目标音色模板的实现流程示意图；

图5为本申请实施例第一终端生成与所述目标音色匹配的音频数据的实现流程示意图一；

图6为本申请实施例第一终端生成与所述目标音色匹配的音频数据的实现流程示意图二；

图7为本申请实施例第一终端生成与所述目标音色匹配的音频数据的实现流程示意图三；

图8为本申请实施例第一终端生成与所述目标音色匹配的音频数据的实现流程示意图四；

图9为本申请实施例第一终端生成与所述目标音色匹配的音频数据的实现流程示意图五；

图10a为本申请实施例第一终端通过目标音色播放第二用户的谈话内容的一种实现流程示意图；

图10b为本申请实施例第一终端通过目标音色播放第二用户的谈话内容的又一种实现流程示意图；

图11为本申请实施例第一用户与第二用户进行互动交流的示意图；

图12为本申请实施例的数据处理装置的组成结构示意图一；

图13为本申请实施例的数据处理装置的组成结构示意图二。

具体实施方式

在对本申请实施例的技术方案进行详细说明之前，首先对相关技术进行简单说明。

相关技术中，随着文化的快速发展，表演文化越来越受欢迎，呈现出全球化趋势，并以特定形式逐渐走进大众生活中，比如二次元人物表演等。目前，在二次元人物表演中，用户只能看到表演者的体型，但不能听到表演者以个性化音色与观众实现变声交流，进而无法给观众带来代入感更强的互动体验，从而导致表演效果不佳。

实际应用中，表演者可以穿上米老鼠、唐老鸭等玩偶形状的服饰进行角色表演，并与观看表演的观众进行互动，在表演过程中，客户端可以采集表演者的音频，将采集的音频发送给服务端，所述服务端通过对音频数据进行识别，得到识别文本，再对所述识别文本进行翻译，得到翻译结果；将翻译结果发送给客户端，通过耳机设备播报语音，以实现表演者与观看表演的观众之间的互动，但表演者不能以个性化音色如米老鼠、唐老鸭音色、某个明星如刘德华的音色与观众实现变声交流，进而无法给观众带来代入感更强的互动体验，从而导致表演效果不佳。在全球化背景下，表演者更无法以个性化音色与不同母语的观众实现跨语言交流。

基于此，在本申请的各种实施例中，第一终端获取待处理数据；对所述待处理数据中的第一语音数据进行翻译，得到翻译文本；并对所述待处理数据中的第一图像数据进行图像识别，得到识别结果；利用所述翻译文本和/或识别结果，确定目标音色模板；从音色模板数据库中选取所述目标音色模板；利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据(可以包括在线转换和离线转换)；输出所述音频数据，从而使用所述目标音色将使用所述第二终端的第二用户的谈话内容播放给使用所述第一终端的第一用户，促使所述第一用户对所述第二用户的谈话内容产生浓厚的兴趣，实现所述第二用户与所述第一用户之间的变声交流。

下面结合附图及具体实施例对本申请作进一步详细的说明。

本申请实施例提供了一种数据处理方法，应用于第一终端，图1为本申请实施例数据处理方法的实现流程示意图；如图1所示，所述方法包括：

步骤101：第一终端获取待处理数据。所述待处理数据包括：第一语音数据、第一图像数据。

其中，所述第一语音数据包括使用所述第一终端的第一用户与使用第二终端的第二用户进行互动交流时所述第二用户产生的语音数据。所述第一图像数据包括所述第二用户与所述第二用户进行互动交流时所述第二用户所穿服装的图像数据。所述第一终端和第二终端的具体类型，本申请可以不做限定，例如可以为智能手机、个人计算机、笔记本电脑、平板电脑和便携式可穿戴设备等。

下面对所述第一终端如何获取所述待处理数据进行说明。

在一实施例中，所述第二终端可以设置有或者连接有语音采集模块，如麦克风，通过所述语音采集模块对所述第二用户的声音进行采集，得到所述第一语音数据；所述第二终端与所述第一终端建立通信，通过无线传输模块将采集的所述第一语音数据传输至所述第一终端。所述无线传输模块可以是蓝牙模块、无线保真(WiFi，Wireless Fidelity)模块等。

举例来说，在二次元表演场景下，所述第二用户通过角色扮演方式与所述第二用户进行互动交流时，所述第二用户针对当前流行的音乐歌曲发起对话，第二终端利用语音采集模块采集所述第二用户的语音，得到第一语音数据；第二终端与第一终端建立通信，通过无线传输模块将第一语音数据发送至第一终端。在应用同传的会议场景下，所述第二用户与所述第二用户进行互动交流时，所述第二用户针对香港问题发起对话，第二终端利用语音采集模块采集所述第二用户的语音，得到第一语音数据；第二终端与第一终端建立通信，将第一语音数据发送至第一终端。

在另一实施例中，所述第二终端可以设置有或者连接有图像采集模块，如摄像头，通过所述视频采集模块对对所述第二用户所穿的服装进行图像采集，得到第一图像数据；所述第二终端与所述第一终端建立通信，通过无线传输模块将采集的所述第一图像数据传输至所述第一终端。

举例来说，在二次元表演场景下，所述第二用户通过角色扮演方式与所述第二用户进行互动交流时，所述第二用户身穿米老鼠形状的服装，第二终端利用图像采集模块采集所述第二用户所穿的服装，得到第一图像数据；第二终端与第一终端建立通信，通过无线传输模块将第一语图像数据发送至第一终端。在应用同传的会议场景下，所述第二用户与所述第二用户进行互动交流时，所述第二用户身穿一身笔挺的西装，第二终端利用图像采集模块采集所述第二用户所穿的服装，得到第一图像数据；第二终端与第一终端建立通信，通过无线传输模块将第一图像数据发送至第一终端。

这里，所述第二终端将所述第二用户的第一语音数据发送给所述第一终端，所述第一终端后续可以针对所述第一语音数据进行翻译处理，从而帮助使用所述第一用户通过自身熟悉的语种弄懂所述第二用户的谈话内容，进而促进所述第一用户与所述第二用户之间的交流更顺畅。

这里，所述第二终端将所述第二用户的第一语音数据发送给所述第一终端，所述第一终端后续可以根据所述第二用户的谈话内容确定目标音色模板，并通过目标音色将所述第二用户的谈话内容播放给所述第一用户，从而帮助所述第一用户深刻理解所述第二用户的演讲内容。

这里，所述第二终端将所述第二用户所穿服装的第一图像数据发送给所述第一终端，则所述第一终端后续可以根据所述第二用户所穿服装确定目标音色模板，并通过目标音色将所述第二用户的谈话内容播放给所述第一用户，从而激发起所述第一用户对所述第二用户的谈话内容的兴趣。

步骤102：所述第一终端对所述待处理数据中的第一语音数据进行翻译，得到翻译文本；并对所述待处理数据中的第一图像数据进行图像识别，得到识别结果；利用所述翻译文本和/或识别结果，确定目标音色模板。

在一实施例中，所述对所述待处理数据中的第一语音数据进行翻译，得到翻译文本，包括：

采用语音识别技术对所述第一语音数据进行语音识别，获得识别文本；

运用预设的翻译模型对所述识别文本进行翻译，获得所述翻译文本。

其中，所述翻译模型，用于将第一语种的文本翻译为至少一种第二语种的文本；所述第一语种与第二语种不同。

在一实施例中，对所述待处理数据中的第一图像数据进行图像识别，得到识别结果，包括：

对所述待处理数据中的第一图像数据进行图像预处理，得到预处理后的第一图像数据；从所述预处理后的第一图像数据中提取特征数据；采用图像识别技术对提取的特征数据进行图像识别，获得识别结果。

其中，对所述第一图像数据进行图像预处理包括：对所述第一图像数据进行数据加强、归一化等。

下面对所述第一终端如何确定目标音色模板进行说明。

所述第一终端确定目标音色模板，具体可以包括以下几种情况：

第一种情况，所述第一终端基于所述第一语音数据对应的翻译文本，确定目标音色模板；

第二种情况，所述第一终端基于所述第一图像数据对应的识别结果，确定目标音色模板；

第三种情况，所述第一终端基于所述翻译文本和所述识别结果，结合所述第一用户的选择，确定目标音色模板。

实际应用时，所述第二终端将所述第二用户的第一语音数据发送给所述第一终端，如此，所述第一终端可以根据所述第二用户的谈话内容确定目标音色模板。

基于此，在一实施例中，所述利用所述翻译文本，确定目标音色模板，包括：从所述翻译文本中搜索与预设字符串对应的第一文本；当从所述翻译文本中搜索到与预设字符串对应的所述第一文本时，基于所述第一文本，确定所述目标音色模板。

举例来说，在应用同传的会议场景下，所述第二用户与所述第一用户进行互动交流时，所述第二用户针对华为事件发起的对话对应的识别文本为“任正非是个了不起的企业家”，假设预设字符串对应的第一文本为“任正非”，由于识别文本“任正非是个了不起的企业家”中能够搜索到与预设字符串对应的所述第一文本，因此确定任正非的音色为目标音色模板。

在一示例中，以第一语音数据对应的翻译文本为例，描述第一终端基于所述翻译文本确定目标音色模板的实现流程示意图，如图2所示，包括：

步骤1：第一终端从所述翻译文本中搜索与预设字符串对应的第一文本；

假设预设字符串对应的第一文本为“任正非”或“刘德华”等。翻译文本为“刘德华是我最喜欢的明星之一”。

步骤2：当从所述翻译文本中搜索到与预设字符串对应的所述第一文本时，基于所述第一文本，确定所述目标音色模板。

需要说明的是，这里，为了促进所述第二用户与所述第一用户的互动交流，利用所述第二用户的谈话内容中所包含的某个人物，确定目标音色模板，如此，能够激发所述第一用户对所述第二用户所发起的谈话内容产生极大的兴趣，后续可以使用该人物的音色将所述第二用户的谈话内容播放给所述第一用户，实现变声交流。

实际应用时，所述第二终端将所述第二用户所穿服装的第一图像数据发送给所述第一终端，如此，所述第一终端可以根据所述第二用户所穿服装确定目标音色模板。

基于此，在一实施例中，所述利用所述识别结果，确定目标音色模板，包括：判断所述识别结果是否表征第一图像数据对应的第一图像与预设图像相匹配；当所述识别结果表征第一图像数据对应的第一图像与预设图像相匹配时，基于所述第一图像，确定所述目标音色模板。

举例来说，在二次元表演场景下，所述第二用户通过角色扮演方式与所述第一用户进行互动交流时，所述第二用户身穿米老鼠形状的服装，假设预设图像对应的服装为米老师服装，由于所述第一图像数据对应的第一图像与预设图像相匹配，因此确定米老鼠音色为目标音色模板。

在一示例中，以第一图像数据的识别结果为例，描述第一终端基于所述第一图像数据的识别结果确定目标音色模板的实现流程示意图，如图3所示，包括：

步骤1：第一终端判断所述第一图像数据的识别结果是否表征第一图像数据对应的第一图像与预设图像相匹配。

假设预设图像对应的服装为西装、米老鼠服装、唐老师服装等等。所述第二用户身穿的服务为西装，即所述第一图像对应的服装为西装。

步骤2：当所述识别结果表征第一图像数据对应的第一图像与预设图像相匹配时，基于所述第一图像，确定所述目标音色模板。

步骤3：当所述识别结果表征第一图像数据对应的第一图像与预设图像不匹配时，将设置为默认的音色模板作为所述目标音色模板。

需要说明的是，这里，为了促进所述第二用户与所述第一用户的互动交流，可以利用所述第二用户身穿的服装，确定目标音色模板，如此，能够激发所述第一用户对所述第二用户所发起的谈话内容产生极大的兴趣，后续可以使用与所述第二用户所穿的服装对应的音色将所述第二用户的谈话内容播放给所述第一用户，达到人声合一的效果。

实际应用时，所述第二终端将所述第二用户的第一语音数据、第一图像数据发送给所述第一终端，如此，所述第一终端可以根据所述第二用户所穿服装、所述第二用户的谈话内容和所述第一用户的选择确定目标音色模板。

在一示例中，描述第一终端基于所述翻译文本和所述第一图像数据的识别结果确定目标音色模板的实现流程示意图，如图4所示，包括：

步骤1：第一终端判断翻译文本中是否包含与预设字符串对应的第一文本；并判断所述第一图像数据的识别结果是否表征第一图像数据对应的第一图像与预设图像相匹配。

步骤2：当从所述翻译文本中搜索到与预设字符串对应的所述第一文本且所述识别结果表征第一图像数据对应的第一图像与预设图像相匹配时，显示提示信息。

其中，所述提示信息用于提示用户从所述第一文本对应的音色模板和所述第一图像对应的音色模板中选择所需的音色模板。

这里，还可以在显示界面显示音色模板列表，所述音色模板列表用于用户选择自身所需的音色模板。

步骤3：接收针对所述提示信息的第一操作；响应所述第一操作，将用户选择的音色模板作为目标音色模板。

需要说明的是，这里，为了促进所述第二用户与所述第一用户的互动交流，可以根据用户自身选取的音色模板，确定目标音色模板，如此，能够激发所述第一用户对所述第二用户所发起的谈话内容产生极大的兴趣，后续可以使用所述第一用户所选的音色将所述第二用户的谈话内容播放给所述第一用户，提高所述第一用户的满意度。

这里，当从所述翻译文本中未搜索到与预设字符串对应的所述第一文本且所述识别结果表征第一图像数据对应的第一图像与预设图像不匹配时，还可以将设置为默认的音色模板作为所述目标音色模板。

步骤103：所述第一终端从音色模板数据库中选取所述目标音色模板，利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据。

实际应用时，所述第一终端从音色模板数据库中选取所述目标音色模板之前，还需要建立音色模板数据库。

基于此，在一实施例中，所述方法还包括：

所述第一终端采集至少两个语音数据；将所述至少两个语音数据作为训练数据；

在卷积神经网络的输入层输入所述训练数据，在所述卷积神经网络的至少一层特征提取层对所述训练数据进行输入到输出的映射，得到至少两个特征数据；

基于所述至少两个特征数据，得到至少两个音色模板；

基于所述至少两个音色模板，生成音色模板数据库。

其中，一个语音数据可以是指经过用户授权后采集的一个用户的语音数据。

需要说明的是，利用所述卷积神经网络，能够实现快速采集不同用户的音色，通过对用户音色的克隆，得到多个经典角色的个性化音色模板，如米老鼠角色的音色模板、明星人物的音色模板、二次元人物的音色模板等。

在一实施例中，所述利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据，包括：

所述第一终端获取与所述音频数据的接收者的目标语言；

判断所述翻译文本对应的语言与所述目标语言是否属于同一个语种；

当确定所述翻译文本对应的语言与所述目标语言属于同一个语种时，利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据。

实际应用时，可以根据所述音频数据的接收者的音频确定接收者的目标语言；还可以是根据所述音频数据的接收者输入的文本信息进行确定。

在一实施例中，所述方法还包括：

当所述翻译文本对应的语言与所述目标语言属于不同语种时，将所述翻译文本转换为与所述目标语言匹配的文本；

利用选取的目标音色模板，将转换得到的文本转换为与目标音色匹配的音频数据。

在全球化场景下，通过将所述翻译文本转换为与音频数据的接收者的目标语言匹配的文本，能够帮助使用所述第一用户通过自身熟悉的语种听懂所述第二用户的谈话内容，进而保证双方能够顺畅地交流。

下面对所述第一终端如何利用目标音色模板生成音频数据进行说明。

所述第一终端利用选取的目标音色模板，结合所述翻译文本生成音频数据，具体可以包括以下几种情况：

第一种情况，利用目标音色模板，对所述翻译文本进行文本到语音(TTS，Text To Speech)转换，得到音频数据。

第二种情况，利用目标音色模板，结合所述第二用户的语调，对所述翻译文本进行TTS转换，得到音频数据。

第三种情况，利用目标音色模板，结合所述第二用户的语调、情感，对所述翻译文本进行TTS转换，得到音频数据。

第四种情况，利用目标音色模板，结合所述第二用户的语调、情感、语速，对所述翻译文本进行TTS转换，得到音频数据。

第五种情况，利用多个目标音色模板，对所述翻译文本进行TTS转换，得到音频数据。

在一实施例中，所述利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据，包括：所述第一终端利用选取的目标音色模板，对所述翻译文本进行文本到语音(TTS，Text To Speech)TTS转换，生成与所述目标音色匹配的音频数据。

在一示例中，以目标音色为例，描述第一终端生成与所述目标音色匹配的音频数据的实现流程示意图，如图5所示，包括：

步骤1：第一终端确定目标音色模板。

第二用户针对华为事件向第一用户发起的对话对应的识别文本为“任正非是个了不起的企业家”，所述第一终端基于所述识别文本对应的翻译文本，将任正非的音色模板作为目标音色模板。

步骤2：所述第一终端利用所述目标音色模板，对所述翻译文本进行TTS转换，生成与所述目标音色匹配的音频数据。

所述第一终端通过任正非的音色将第二用户的谈话内容“任正非是个了不起的企业家”播放给所述第一用户，从而激发所述第一用户对所述第二用户的谈话内容的浓厚兴趣。

在一实施例中，生成与所述目标音色匹配的音频数据时，所述方法还包括：所述第一终端对所述第一语音数据进行特征提取，得到语调特征；利用选取的目标音色模板，结合所述语调特征，对所述翻译文本进行TTS转换，生成与所述目标音色匹配的音频数据。

其中，所述语调特征可以表征所述第二用户发出声音的轻重缓急。

在一实施例中，对所述第一语音数据进行语调特征提取，得到语调特征，包括：使用自相关法从所述第一语音数据中提取浊音段的基频值；并对所述第一语音数据中的无声段和清音段进行插值处理，最终得到基频曲线；对所述基频曲线进行拟合，得到连续光滑音频曲线；对得到的连续光滑音频曲线取对数、滤波处理，得到语调特征。

当所述第二用户与所述第一用户进行互动交流时，所述第一终端可以通过基于所述第二用户所穿的服装确定的目标音色，结合所述第二用户的语调将所述第二用户的谈话内容播放给所述第一用户。或者，通过基于所述第二用户的谈话内容确定的目标音色，结合所述第二用户的语调将所述第二用户的谈话内容播放给所述第一用户，如此，所述第一用户不仅对所述第二用户的谈话内容会产生极大的兴趣，而且对所述第二用户本人也会产生亲近感。

在一示例中，以目标音色和第二用户的语调为例，描述第一终端生成与所述目标音色匹配的音频数据的实现流程示意图，如图6所示，包括：

步骤1：第一终端确定目标音色模板。

第二用户针对华为事件向第一用户发起的对话对应的识别文本为“任正非是个了不起的企业家”。

所述第一终端基于所述识别文本对应的翻译文本，将任正非的音色模板作为目标音色模板。

步骤2：所述第一终端对所述第二用户的第一语音数据进行特征提取，得到语调特征。

步骤3：所述第一终端利用所述目标音色模板，结合所述语调特征，对所述翻译文本进行TTS转换，生成与所述目标音色匹配的音频数据。

所述第一终端通过任正非的音色，结合所述第二用户的语调，将所述第二用户的谈话内容“任正非是个了不起的企业家”播放给所述第一用户。

在一实施例中，生成与所述目标音色匹配的音频数据时，所述方法还包括：所述第一终端对所述第一语音数据进行特征提取，得到情感特征；利用选取的目标音色模板，结合所述情感特征和语调特征，生成与所述目标音色匹配的音频数据。

其中，所述情感特征可以表征所述第二用户在谈话时所产生的情感，例如生气、恐惧、悲伤等。

具体来说，对所述第一语音数据进行情感特征提取，得到情感特征的过程可以包括：从所述语音数据中提取共振峰特征；基于提取的共振峰特征，识别用户的情感特征。

当所述第二用户与所述第一用户进行互动交流时，所述第一终端可以通过基于所述第二用户所穿的服装确定的目标音色，结合所述第二用户的语调、情感将所述第二用户的谈话内容播放给所述第一用户；或者，通过基于所述第二用户的谈话内容确定的目标音色，结合所述第二用户的语调、情感将所述第二用户的谈话内容播放给所述第一用户，如此，所述第一用户不仅对所述第二用户的谈话内容会产生极大的兴趣，而且对所述第二用户本人也会产生好奇。

在一示例中，以目标音色和第二用户的语调、情感为例，描述第一终端生成与所述目标音色匹配的音频数据的实现流程示意图，如图7所示，包括：

步骤1：第一终端确定目标音色模板。

步骤2：所述第一终端对所述第二用户的第一语音数据进行特征提取，得到语调、情感特征。

步骤3：所述第一终端利用所述目标音色模板，结合所述语调、情感特征，对所述翻译文本进行TTS转换，生成与所述目标音色匹配的音频数据。

所述第一终端通过任正非的音色，结合所述第二用户的语调、情感，将所述第二用户的谈话内容“任正非是个了不起的企业家”播放给所述第一用户。

在一实施例中，生成与所述目标音色匹配的音频数据时，所述方法还包括：

所述第一终端对所述第一语音数据进行特征提取，得到语速特征；

利用选取的目标音色模板，结合所述语速特征、所述情感特征和所述语调特征，生成与所述目标音色匹配的音频数据

其中，所述语速特征表征所述第二用户在单位时间内说出的词汇量。

这里，所述第一终端对所述第二用户的第一语音数据进行特征提取，得到语速特征的过程包括：基于所述第一语音数据，统计在单位时间内的词汇量；基于统计的词汇量，获得语速特征。

当所述第二用户与所述第一用户进行互动交流时，所述第一终端可以通过基于所述第二用户所穿的服装确定的目标音色，结合所述第二用户的语调、情感、语速将所述第二用户的谈话内容播放给所述第一用户；或者，通过基于所述第二用户的谈话内容确定的目标音色，结合所述第二用户的语调、情感、语速将所述第二用户的谈话内容播放给所述第一用户，如此，所述第一用户不仅对所述第二用户的谈话内容会产生极大的兴趣，而且对所述第二用户本人也会产生好奇。

在一示例中，以目标音色和第二用户的语调、情感、语速为例，描述第一终端生成与所述目标音色匹配的音频数据的实现流程示意图，如图8所示，包括：

步骤1：第一终端确定目标音色模板。

步骤2：所述第一终端对所述第二用户的第一语音数据进行特征提取，得到语调、情感、语速特征。

步骤3：所述第一终端利用所述目标音色模板，结合所述语调、情感、语速特征，对所述翻译文本进行TTS转换，生成与所述目标音色匹配的音频数据。

所述第一终端通过任正非的音色，结合所述第二用户的语调、情感、语速，将所述第二用户的谈话内容“任正非是个了不起的企业家”播放给所述第一用户。

在一实施例中，所述第一终端根据所述第二用户的识别文本确定的目标音色模板的数量为至少两个；生成与所述目标音色匹配的音频数据时，所述方法还包括：所述第一终端按照目标音色模板的数量对所述翻译文本进行分段，得到至少两个段落；利用所述至少两个目标音色模板，对所述至少两个段落分别进行TTS转换，获得至少两个音频片段；对所述至少两个音频片段进行拼接，得到音频数据。

当所述第二用户与所述第一用户进行互动交流时，所述第一终端可以通过基于所述第二用户的谈话内容确定多个目标音色，通过所述多个目标音色将所述第二用户的谈话内容播放给所述第一用户，如此，所述第一用户对所述第二用户的谈话内容会产生极大的好奇。

在一示例中，以多个目标音色为例，描述第一终端生成与所述目标音色匹配的音频数据的实现流程示意图，如图9所示，包括：

步骤1：第一终端确定多个目标音色模板。

第二用户针对华为事件向第一用户发起的对话对应的识别文本为“任正非是个了不起的企业家、刘德华是我最喜欢的明星之一”。

所述第一终端基于所述识别文本对应的翻译文本，将任正非和刘德华的音色模板作为目标音色模板。

步骤2：所述第一终端对所述第二用户的第一语音数据进行翻译，得到翻译文本，对翻译文本进行分段，得到两个段落。

步骤3：所述第一终端利用两个目标音色模板，对所述两个段落进行TTS转换，生成两个音频片段；

步骤4：对所述两个音频片段进行拼接，得到音频数据。

步骤104：输出所述音频数据。

这里，所述第一终端可以通过音频输出模块播放与所述目标音色匹配的音频。其中，所述音频输出模块可通过所述第一终端的扬声器实现。

具体来说，当所述第二用户与所述第一用户进行互动交流时，所述第一终端不使用所述第二用户的音色将所述第二用户的谈话内容播放给所述第一用户，而是通过基于所述第二用户所穿的服装确定的目标音色将所述第二用户的谈话内容播放给所述第一用户。

当所述第二用户与所述第一用户进行互动交流时，所述第一终端不使用所述第二用户的音色将所述第二用户的谈话内容播放给所述第一用户，而是通过基于所述第二用户的谈话内容确定的目标音色将所述第二用户的谈话内容播放给所述第一用户。

当所述第二用户与所述第一用户进行互动交流时，所述第一终端不使用所述第二用户的音色将所述第二用户的谈话内容播放给所述第一用户，而是通过基于所述第一用户所选取的目标音色将所述第二用户的谈话内容播放给所述第一用户。

在一示例中，以离线转换为例，描述第一终端通过目标音色播放第二用户的谈话内容的实现流程示意图，如图10a所示，包括：

步骤1：第二终端将第二用户的第一语音数据、第一图像数据发送至第一终端。

如图11所示，所述第二终端利用麦克风采集第二用户的音频如“hello，where are you from？”，得到第一语音数据，利用摄像头采集所述第二用户所穿的米老鼠，得到第一图像数据；通过无线传输模块将所述第一语音数据、第一图像数据发送至所述第一终端。

步骤2：所述第一终端对所述第一语音数据进行翻译，得到翻译文本；对所述第一图像数据进行图像识别，得到识别结果。

步骤3：所述第一终端利用所述翻译文本和/或识别结果，确定目标音色模板。

步骤4：所述第一终端从音色模板数据库中选择所述目标音色模板，利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据。

步骤5：所述第一终端输出所述音频数据。

如图11所示，所述第一终端通过米老鼠音色将所述第二用户的谈话内容对应的翻译文本“小朋友，你来自哪里啊”播放给所述第一用户。

在一示例中，以在线转换为例，描述所述第一终端通过目标音色播放第二用户的谈话内容的实现流程示意图，如图10b所示，包括：

所述第二终端利用麦克风采集第二用户的音频如“hello，where are you from？”，得到第一语音数据；并利用摄像头采集所述第二用户所穿的米老鼠，得到第一图像数据；通过无线传输模块将所述第一语音数据、第一图像数据发送至所述第一终端。

步骤4：所述第一终端从音色模板数据库中选择所述目标音色模板，将所述翻译文本和目标音色模板发送至服务器。

服务器利用所述目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据；将所述音频数据返回给所述第一终端。

步骤5：所述第一终端接收服务器发送的音频数据并输出。

所述第一终端通过米老鼠音色将所述第二用户的谈话内容对应的翻译文本“小朋友，你来自哪里啊”播放给所述第一用户。

这里，可以由所述第一终端将所述翻译文本转换为与目标音色匹配的音频数据；也可以由所述服务器将所述翻译文本转换为与目标音色匹配的音频数据，同时支持在线转换和离线转换，实现方式更加灵活。

应理解，上述实施例中说明各步骤的顺序并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本发明实施例提供的数据处理方法，第一终端接收第二终端发送的待处理数据；对所述待处理数据中的第一语音数据进行翻译，得到翻译文本；并对所述待处理数据中的第一图像数据进行图像识别，得到识别结果；利用所述翻译文本和/或识别结果，确定目标音色模板；从音色模板数据库中选取所述目标音色模板；利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据(可以包括在线转换和离线转换)；输出所述音频数据，从而可以使用所述目标音色将使用所述第二终端的第二用户的谈话内容播放给使用所述第一终端的第一用户，促使所述第一用户对所述第二用户的谈话内容产生浓厚的兴趣，实现所述第二用户与所述第一用户之间的变声交流。

为实现本申请实施例的数据处理方法，本申请实施例还提供了一种数据处理装置，设置在第一终端上。图12为本申请实施例的数据处理装置的组成结构示意图；如图12所示，所述数据处理装置包括：

获取单元121，配置为获取待处理数据；

第一处理单元122，配置为对所述待处理数据中的第一语音数据进行翻译，得到翻译文本；并对所述待处理数据中的第一图像数据进行图像识别，得到识别结果；

第二处理单元123，配置为利用所述翻译文本和/或识别结果，确定目标音色模板；从音色模板数据库中选取目标音色模板；利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据；

输出单元124，配置为输出所述音频数据。

在一实施例中，所述第一处理单元122，配置为采用语音识别技术对所述第一语音数据进行语音识别，获得识别文本；

在一实施例中，所述第一处理单元122，配置为对所述待处理数据中的第一图像数据进行图像预处理，得到预处理后的第一图像数据；

从所述预处理后的第一图像数据中提取特征数据；

采用图像识别技术对提取的特征数据进行图像识别，获得识别结果。

其中，所述图像预处理包括：对所述第一图像数据进行数据加强、归一化等。

在一实施例中，所述第二处理单元123，配置为从所述翻译文本中搜索与预设字符串对应的第一文本；

当从所述翻译文本中搜索到与预设字符串对应的所述第一文本时，基于所述第一文本，确定所述目标音色模板。

在一实施例中，所述第二处理单元123，配置为判断所述识别结果是否表征第一图像数据对应的第一图像与预设图像相匹配；

当所述识别结果表征第一图像数据对应的第一图像与预设图像相匹配时，基于所述第一图像，确定所述目标音色模板。

在一实施例中，所述第二处理单元123，配置为获取与所述音频数据的接收者的目标语言；

判断所述翻译文本对应的语言与所述目标语言是否属于同一语种；

当确定所述翻译文本对应的语言与所述目标语言属于同一语种时，利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据。

在一实施例中，所述第二处理单元123，配置为当所述翻译文本对应的语言与所述目标语言属于不同语种时，将所述翻译文本转换为与所述目标语言匹配的文本；利用选取的目标音色模板，将转换得到的文本转换为与目标音色匹配的音频数据。

在一实施例中，所述装置还包括：

生成单元，配置为所述第一终端采集至少两个语音数据；将所述至少两个语音数据作为训练数据；

基于所述至少两个特征数据，得到至少两个音色模板；

基于所述至少两个音色模板，生成音色模板数据库。

在一实施例中，所述第二处理单元123，配置为：

利用选取的目标音色模板，对所述翻译文本进行TTS转换，生成与所述目标音色匹配的音频数据。

在一实施例中，所述第二处理单元123，配置为：

所述第一终端对所述第一语音数据进行特征提取，得到语调特征；

利用选取的目标音色模板，结合所述语调特征，对所述翻译文本进行TTS转换，生成与所述目标音色匹配的音频数据。

在一实施例中，所述第二处理单元123，配置为：

所述第一终端对所述第一语音数据进行特征提取，得到情感特征；

利用选取的目标音色模板，结合所述情感特征和语调特征，生成与所述目标音色匹配的音频数据。

在一实施例中，所述第二处理单元123，配置为：

所述第一终端按照目标音色模板的数量对所述翻译文本进行分段，得到至少两个段落；

利用所述至少两个目标音色模板，对所述至少两个段落分别进行TTS转换，获得至少两个音频片段；

对所述至少两个音频片段进行拼接，得到音频数据。

实际应用时，所述获取单元121、输出单元124可通过所述数据处理装置中的通信接口实现；所述第一处理单元122、所述第二处理单元123均可由所述数据处理装置中的处理器实现。

需要说明的是：上述实施例提供的装置在进行数据处理时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将终端的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述设备的硬件实现，本申请实施例还提供了一种数据处理装置，设置在第一终端上，图13为本申请实施例的数据处理装置的硬件组成结构示意图，如图13所示，数据处理装置130包括存储器133、处理器132及存储在存储器133上并可在处理器132上运行的计算机程序；位于数据处理装置的处理器132执行所述程序时实现上述数据处理装置侧一个或多个技术方案提供的方法。

具体地，位于数据处理装置130的处理器132执行所述程序时实现：接收第二终端发送的待处理数据；所述待处理数据是所述第二终端获取的；对所述待处理数据进行翻译，得到翻译文本；并从音色模板数据库中选取目标音色模板；利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据；输出所述音频数据。

位于数据处理装置130的处理器132执行所述程序时实现：获取与所述音频数据的接收者的语种匹配的目标语言；

判断所述翻译文本对应的语言是否与所述目标语言相同；

当确定所述翻译文本对应的语言与所述目标语言相同时，利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据。

当所述翻译文本对应的语言与所述目标语言不同时，将所述翻译文本转换为与所述目标语言匹配的文本；

位于数据处理装置130的处理器132执行所述程序时实现：采集至少一个语音数据；

针对所述至少一个语音数据中每个语音数据，提取相应语音数据的特征数据；

利用提取的特征数据，基于神经网络模型，确定对应的音色模板；

基于确定的音色模板，生成音色模板数据库。

位于数据处理装置130的处理器132执行所述程序时实现：利用选取的目标音色模板，对所述翻译文本进行文本转语音TTS转换，生成与所述目标音色匹配的音频数据。

位于数据处理装置130的处理器132执行所述程序时实现：将所述翻译文本和目标音色模板发送至数据处理装置；所述翻译文本和目标音色模板用于供所述数据处理装置对所述翻译文本进行TTS转换，生成与所述目标音色匹配的音频数据；

接收所述数据处理装置发送的与所述目标音色匹配的音频数据。

位于数据处理装置130的处理器132执行所述程序时实现：所述音频数据随着所述待处理数据的获取进行同步输出。

需要说明的是，位于数据处理装置130的处理器132执行所述程序时实现的具体步骤已在上文详述，这里不再赘述。

可以理解，数据处理装置还包括通信接口131；数据处理装置中的各个组件通过总线***134耦合在一起。可理解，总线***134配置为实现这些组件之间的连接通信。总线***134除包括数据总线之外，还包括电源总线、控制总线和状态信号总线等。

可以理解，本实施例中的存储器133可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

上述本申请实施例揭示的方法可以应用于处理器132中，或者由处理器132实现。处理器132可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器132中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器132可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器132可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器132读取存储器中的信息，结合其硬件完成前述方法的步骤。

本申请实施例还提供了一种存储介质，具体为计算机存储介质，更具体的为计算机可读存储介质。其上存储有计算机指令，即计算机程序，该计算机指令被处理器执行时上述数据处理装置侧一个或多个技术方案提供的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、数据处理装置、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

一种数据处理方法，包括：

获取待处理数据；

对所述待处理数据中的第一语音数据进行翻译，得到翻译文本；并对所述待处理数据中的第一图像数据进行图像识别，得到识别结果；

利用所述翻译文本和/或识别结果，确定目标音色模板；

从音色模板数据库中选取所述目标音色模板，利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据；

输出所述音频数据。
根据权利要求1所述的方法，其中，所述利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据，包括：

获取所述音频数据的接收者的目标语言；

判断所述翻译文本对应的语言是否与所述目标语言属于同一语种；

当确定所述翻译文本对应的语言与所述目标语言属于同一语种时，利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据。
根据权利要求2所述的方法，其中，所述方法还包括：

当所述翻译文本对应的语言与所述目标语言属于不同语种时，将所述翻译文本转换为与所述目标语言匹配的文本；

利用选取的目标音色模板，将转换得到的文本转换为与目标音色匹配的音频数据。
根据权利要求1至3任一项所述的方法，其中，所述利用所述翻译文本，确定目标音色模板，包括：

从所述翻译文本中搜索与预设字符串对应的第一文本；

当从所述翻译文本中搜索到与预设字符串对应的所述第一文本时，基于所述第一文本，确定所述目标音色模板。
根据权利要求1至3任一项所述的方法，其中，所述利用所述识别结果，确定目标音色模板，包括：

判断所述识别结果是否表征第一图像数据对应的第一图像与预设图像相匹配；

当所述识别结果表征第一图像数据对应的第一图像与预设图像相匹配时，基于所述第一图像，确定所述目标音色模板。
根据权利要求1所述的方法，其中，所述利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据，包括：

利用选取的目标音色模板，对所述翻译文本进行文本到语音TTS转换，生成与所述目标音色匹配的音频数据。
根据权利要求6所述的方法，其中，生成与所述目标音色匹配的音频数据时，所述方法还包括：

对所述第一语音数据进行特征提取，得到语调特征；

利用选取的目标音色模板，结合所述语调特征，对所述翻译文本进行TTS转换，生成与所述目标音色匹配的音频数据。
根据权利要求7所述的方法，其中，生成与所述目标音色匹配的音频数据时，所述方法还包括：

对所述第一语音数据进行特征提取，得到情感特征；

利用选取的目标音色模板，结合所述情感特征和语调特征，生成与所述目标音色匹配的音频数据。
根据权利要求8所述的方法，其中，生成与所述目标音色匹配的音频数据时，所述方法还包括：

对所述第一语音数据进行特征提取，得到语速特征；

利用选取的目标音色模板，结合所述语速特征、所述情感特征和所述语调特征，生成与所述目标音色匹配的音频数据。
一种数据处理装置，包括：

获取单元，配置为获取待处理数据；

第一处理单元，配置为对所述待处理数据中的第一语音数据进行翻译，得到翻译文本；并对所述待处理数据中的第一图像数据进行图像识别，得到识别结果；

第二处理单元，配置为利用所述翻译文本和/或识别结果，确定目标音色模板；从音色模板数据库中选取所述目标音色模板；利用选取的目标音色模板，将所述翻译文本转换为与目标音色匹配的音频数据；

输出单元，配置为输出所述音频数据。
一种数据处理装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至9任一项所述方法的步骤。
一种存储介质，其上存储有计算机指令，所述指令被处理器执行时实现权利要求1至9任一项所述方法的步骤。