CN113177457A

CN113177457A - 用户服务方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113177457A
Application number: CN202110442969.4A
Authority: CN
Inventors: 韦嘉楠; 关天爱; 郑权; 周超勇; 刘玉宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-27

Abstract

本申请提供一种用户服务方法、装置、设备及计算机可读存储介质，该方法包括：响应于用户的询问信息确定应答文本；基于训练好的语音合成模型，对所述应答文本进行语音合成，得到所述应答文本的音频序列；基于训练好的脸部特征图预测模型，根据所述音频序列预测所述音频序列中各时刻对应的脸部特征图；基于脸部处理模型，根据所述各时刻的脸部特征图生成各时刻对应的脸部图像；将所述各时刻的脸部图像进行合成得到视频流，并将所述音频序列***所述视频流，生成并输出用于应答所述询问信息的客服影像。本申请能够提供一种虚拟可视化的智能客服，提高用户的使用体验度。本申请还涉及区块链技术，模型能够存储在区块链节点中。

Description

用户服务方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及智能客服技术领域，尤其涉及一种用户服务方法、装置、设备及计算机可读存储介质。

背景技术

在如今的在线客服***中日渐成为不可或缺的存在。智能客服由自动语音识别(Automatic Speech Recognition，ASR)、对话管理(Dialog Management，DM)和从文本到语音(Text To Speech，TTS)三部分组成，对用户的语音进行理解并做出解答。得益于互联网技术、人工智能、大数据的发展，智能客服的功能也不断完善，在机器人语言处理、语义识别、关键词匹配、知识库建设乃至自主学习等方面都有了很大改进，越来越多地被运用于如今人们的工作生活，但是，传统的智能客服只提供语音解答、手势体态以及提供信息指导来帮助用户，表现形式单一，用户不能直观地看到客服形象。

发明内容

本申请的主要目的在于提供一种用户服务方法、装置、设备及计算机可读存储介质，旨在提供一种虚拟人物可视化的智能客服，提高用户的使用体验度。

第一方面，本申请提供一种用户服务方法，所述用户服务方法包括以下步骤：

响应于用户的询问信息确定应答文本；

基于训练好的语音合成模型，对所述应答文本进行语音合成，得到所述应答文本的音频序列；

基于训练好的脸部特征图预测模型，根据所述音频序列预测所述音频序列中各时刻对应的脸部特征图；

基于脸部处理模型，根据所述各时刻的脸部特征图生成各时刻对应的脸部图像；

将所述各时刻的脸部图像进行合成得到视频流，并将所述音频序列***所述视频流，生成并输出用于应答所述询问信息的客服影像。

第二方面，本申请还提供一种用户服务装置，所述用户服务装置包括：

文本确定模块，用于响应于用户的询问信息确定应答文本；

语音合成模块，用于基于训练好的语音合成模型，对所述应答文本进行语音合成，得到所述应答文本的音频序列；

特征图预测模块，用于基于训练好的脸部特征图预测模型，根据所述音频序列预测所述音频序列中各时刻对应的脸部特征图；

脸部图像生成模块，用于基于脸部处理模型，根据所述各时刻的脸部特征图生成各时刻对应的脸部图像；

影像生成模块，用于将所述各时刻的脸部图像进行合成得到视频流，并将所述音频序列***所述视频流，生成并输出用于应答所述询问信息的客服影像。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的用户服务方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的用户服务方法的步骤。

本申请提供一种用户服务方法、装置、设备及计算机可读存储介质，本申请通过响应于用户的询问信息确定应答文本；基于训练好的语音合成模型，对所述应答文本进行语音合成，得到所述应答文本的音频序列；基于训练好的脸部特征图预测模型，根据所述音频序列预测所述音频序列中各时刻对应的脸部特征图；基于脸部处理模型，根据所述各时刻的脸部特征图生成各时刻对应的脸部图像；将所述各时刻的脸部图像进行合成得到视频流，并将所述音频序列***所述视频流，生成并输出用于应答所述询问信息的客服影像。可以使用户在进行人机交互时得到一个具有脸部表情且能够解决用户问题的智能客服影像。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的一种用户服务方法的流程示意图；

图2为本申请一实施例提供的一种用户服务方法的流程示意图；

图3为本申请一实施例提供的一种用户服务方法的语音合成模型训练的示意框图；

图4为图2提供的一种用户服务方法的子步骤流程示意图；

图5为本申请一实施例提供的一种用户服务方法的流程示意图；

图6为本申请一实施例提供的一种用户服务方法的脸部特征图预测模型训练的示意框图；

图7为图5提供的一种用户服务方法的子步骤流程示意图；

图8为本申请实施例提供的一种用户服务装置的示意性框图；

图9为本申请一实施例涉及的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供一种用户服务方法、装置、计算机设备及计算机可读存储介质。其中，该用户服务方法可应用于终端设备中，该终端设备可以手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请的实施例提供的一种用户服务方法的流程示意图。

如图1所示，该用户服务方法包括步骤S110至步骤S150。

步骤S110、响应于用户的询问信息确定应答文本。

示例性的，智能客服在为用户提供服务的过程中，获取用户的询问信息，并基于该用户信息进行应答，以解决用户的问题。

示例性的，获取到用户的询问信息后，确定回答相关询问信息的应答文本，可以理解的，在智能客服中预设有多个应答文本，且应答文本与询问信息有对应关系，根据询问信息能够确定用于应答的应答文本。

例如，询问信息为“大楼有无停车场”，对应的应答文本可以是“有地下停车场，停车场入口位于大楼的东边”或“无停车场”，可以理解的，若询问信息是“大楼是否方便停车”或“自驾是否便利”对应的应答文本也可以是上述的应答文本。

步骤S102、基于训练好的语音合成模型，对所述应答文本进行语音合成，得到所述应答文本的音频序列。

示例性的，语音合成模型可以使用文本到语音合成(TTS)技术，对应答文本进行语音合成处理，从而得到应答文本的音频序列，通过播放应答文本的音频序列，可以达到对应答文本进行语音播报的目的，以使用户能够听到智能客服的回答。

示例性的，确定回答询问信息的应答文本后，将应答文本输入到训练好的语音合成模型，得到应答文本的音频序列。

在一些实施例中，所述语音合成模型包括声谱预测网络和声码器，所述根据所述应答文本得到音频序列包括：基于所述声谱预测网络，对所述应答文本进行特征预测得到所述应答文本的梅尔频谱；基于所述声码器，通过扩大卷积对梅尔频谱进行处理，得到所述音频序列。

示例性的，声谱预测网络可以通过应答文本来预测得到应答文本的梅尔频谱，可以理解的，应答文本通过短时傅里叶变换(STFT)可以得到声谱图，梅尔频谱则是声谱图经梅尔滤波器处理后得到的。通常情况下，人耳对低频音调的感知较灵敏，在高频时人耳是很迟钝的，梅尔频谱能够分析出声波低频率中的细节，恰好对应了频率越高人耳越迟钝的客观规律，且较于声谱图大小更为合适，可以有效提升计算机的处理速度。

示例性的，声谱预测网络还包括编码器(encoder)、注意力网络(attentionnetwork)和译码器(decoder)，其中，编码器(encoder)对应答文本进行词嵌入以及映射处理，得到文本特征序列，注意力网络(attention network)用于确定文本特征序列中不同部分的重要性，以使句子的上下文关联，译码器(decoder)通过注意力网络(attentionnetwork)处理后的文本特征序列预测得到文本的梅尔频谱。

例如，编码器(encoder)可以对应答文本进行词嵌入处理得到字符序列，并将字符序列输入到三层卷积层，以提取上下文信息，然后输入到一个双向LSTM层中得到文本特征序列，可以理解的，编码器(encoder)的输入输出序列均具有相同的长度，因此通过编码器(encoder)处理后位于原本应答文本的信息并无丢失。

示例性的，从编码器(encoder)输出的文本特征序列进入注意力网络(attention)进行注意力计算，注意力计算能够使句子的上下文进行关联，从而提升句子输出的准确程度。

例如，句子“the cat is black”经编码器(encoder)中提取到的文本特征序列可能是“lechatestnoir”，经过译码器(decoder)输出的可能会有多种结果，通过注意力网络(attention network)可以有效分析上下文的关系，从而得到最贴合实际的输出结果。

注意力网络(attention network)通过译码器(decoder)输出的文本特征序列的状态与对应文本特征序列的原状态(编码器输出的目标隐状态)比较，生成注意力权重，可以通过下式计算：

其中，h_t为译码器输出的文本特征序列的状态(decoder outputs)，h_S为编码器输出的文本特征序列的状态(encoder outputs)，score表示score函数，exp表示取score函数运算结果的实数部分。

基于注意力权重，通过计算上下文向量的加权平均值得到注意力向量，并将注意力向量作为下一时间步的输入。

在本语音合成模型中，score函数可用下式表示：

其中，v_a、W、V、U、b是待训练的参数，s_i是当前译码器输出的文本特征序列状态(decoder outputs)，h_j是当前编码器输出的文本特征序列的状态(encoder outputs)，f是位置特征，f可由累加注意力权重并进行卷积而得到。

通过累加注意力权重，可以使注意力网络(attention network)了解它学习到的注意力信息，使在应答文本中持续进行特征提取并且避免重复和未预料的语音。以提升编码器(encoder)输出的文本特征序列的准确度。

文本特征序列进行注意力计算之后进入译码器(decoder)，解码过程从输入上一步的输出声谱或上一步的真实声谱到PreNet开始，通过PreNet的输出和使用上一个解码步输出计算而得的上下文向量(context vector)做拼接后通过一个2层的单向LSTM层，计算得到新的上下文向量，然后新的上下文向量(context vector)与单向LSTM层的输出做拼接，送入投影层(linear projection)以预测输出，其中输出有两种形式，一是通过线性转换得到梅尔频谱，另一种是<stop token>的概率，后者是一个二分类问题，用于决定解码过程是否结束。

输出的梅尔频谱要通过一个5层卷积的post-net，post-net预测了残差，并加入到预测结果当中，来提升总体的效果，示例性的，每一个post-net是由512个滤波器组成。

经过post-net处理后的梅尔频谱进入声码器(vocoder)，声码器(vocoder)是一个波浪网络(WaveNet)，可以通过扩大卷积对梅尔光谱图进行处理，最终输出音频序列。

在一些实施例中，如图2所示，图2为本申请一实施例提供的一种用户服务方法的流程示意图，方法还包括步骤S210～步骤S220。

步骤S210、获取语音合成模型的第一训练数据，所述第一训练数据包括多个预设应答文本，以及根据各所述预设应答文本录制的音频样本。

示例性的，在使用语音合成模型前或使用过程中，需要先利用第一训练数据对语音合成模型进行训练，以使语音合成模型预测的音频序列更符合需求。

可以理解的，多个预设应答文本包括了应答不同问题对应的文本，以适应用户提出的不同的询问信息。

示例性的，第一训练数据还包括根据预设应答文本录制的音频样本，可以理解的，可以是播音员依照预设应答文本朗读的音频，将该通过朗读记录下来音频作为训练数据对语音合成模型进行训练。

步骤S220、根据所述第一训练数据对所述语音合成模型进行训练，得到训练好的语音合成模型。

示例性的，将第一训练数据中的预设应答文本输入语音合成模型，以对语音合成模型进行训练，得到训练好的语音合成模型。

由于第一训练数据是预设应答文本，以及预设应答文本的音频，可以适应领域的自适应性，使训练得到的语音合成模型的效果更好，减少异常应答的几率。

在一些实施例中，如图3、图4所示，图3为本申请一实施例提供的一种用户服务方法的语音合成模型训练的示意框图，图4为图2提供的一种用户服务方法的子步骤流程示意图，步骤S220包括步骤S221～步骤S223。

步骤S221、基于所述语音合成模型，根据所述预设应答文本得到与所述预设应答文本对应的音频序列。

示例性的，将预设应答文本输入语音合成模型中，以使语音合成模型预测预设应答文本对应的音频序列，预测的步骤如步骤S120。

步骤S222、根据所述音频样本和预测得到的音频序列计算得到所述音频序列的损失值。

示例性的，通过根据预设文本录制的音频样本，与通过语音合成模型预测得到的音频序列计算损失值，可以得到语音合成模型的预测效果。

示例性的，可以通过下式计算音频序列的损失值：

其中，n为音频样本或音频序列的总个数，i为当前的音频样本和音频序列的序号，y_real为根据预设应答文本录制得到的音频样本，y_final为预设应答文本通过语音合成模型预测得到的音频序列，λ为正则化参数，p为参数总数，w为神经网络中的参数。

步骤S223、根据所述损失值对所述语音合成模型的参数进行调整。

示例性的，得到损失值之后可以对声谱预测网络中的v_a、W、V、U、b以及其他的参数进行调整，同时根据预设应答文本的音频序列对声码器(vocoder)进行修正，从而得到训练好的语音合成模型。

通过预设应答文本以及预设应答文本录制得到的音频样本对语音合成模型进行训练，使训练数据领域分布与应用时的数据领域分布相同，以适应领域，达到更好的训练效果，从而提升语音合成模型的音频预测效果。

示例性的，训练好的语音合成模型可以存储在区块链中，可以理解的，本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

步骤S130、基于训练好的脸部特征图预测模型，根据所述音频序列预测所述音频序列中各时刻对应的脸部特征图。

示例性的，得到应答文本的音频序列后，可以根据音频序列预测脸部在朗读音频时对应的动作，如口型、表情的变化。可以理解的，在朗读音频时，每个时刻对应的文本可能会不一样，从而，每个时刻对应的脸部动作也会不一样，预测与音频序列各时刻对应的脸部动作，可以得到更生动的虚拟客服影像。

示例性的，脸部的动作可以用脸部特征图表征，可以理解的，脸部特征图是用若干个特征点表征脸部的重要特征，例如脸部轮廓、五官等，脸部特征图中的特征点可以有68个，其中，17个为脸部轮廓的特征点，51个为脸部内部的特征点，即眼睛、眉毛、鼻子和嘴巴。

可以理解的，在不同时刻通过脸部特征点位置的变化，得到不同的脸部特征图能够表征脸部的不同时刻的动作。

在一些实施例中，脸部特征图模型包括LSTM网络，步骤S130包括步骤S131。

步骤S131、所述LSTM网络包括多个处理单元，所述处理单元根据音频序列的至少两个时刻预测生成对应的脸部特征图，并将预测得到的脸部特征图输入下一处理单元。

示例性的，所述音频序列的第一时刻和第二时刻对应的音频经第一处理单元处理后生成第一时刻的脸部特征图，并传递到第二单元，所述音频序列的第二时刻和第三时刻经第二处理单元处理后生成第二时刻的脸部特征图，并传递到第三单元，以此类推。

示例性的，将各个处理单元输出的脸部特征图进行整合，可以得到与音频序列中各时刻对应的脸部特征图。

在一些实施例中，如图5所示，图5为本申请一实施例提供的一种用户服务方法的流程示意图，方法包括步骤S310～步骤S320。

步骤S310、获取第二训练数据，所述第二训练数据包括多个视频样本。

示例性的，视频样本可以是播音员根据预设应答文本朗诵时，录制的视频样本，可以理解的，视频样本包括音频以及脸部图像。

步骤S320、根据所述视频样本中的音频和脸部特征图对所述脸部特征图预测模型进行训练，得到训练好的脸部特征图预测模型。

示例性的，通过视频样本中的音频和脸部图像对脸部特征图预测模型进行训练，以提升脸部特征图预测模型预测的准确度。

在一些实施例中，如图6、图7所示，图6为本申请一实施例提供的一种用户服务方法的脸部特征图预测模型训练的示意框图，图7为图5提供的一种用户服务方法的子步骤流程示意图，步骤S320还包括步骤S321～步骤S324。

步骤S321、从所述视频样本中提取音频和各时刻的脸部特征图。

示例性的，可以通过调用opencv和dlib对视频样本中的脸部特征进行提取，得到视频样本中各时刻对应的脸部特征图。

示例性的，从视频样本中提取音频，以用于预测与音频对应的脸部特征图。

步骤S322、基于所述脸部特征图预测模型，根据所述视频样本的音频预测各时刻的脸部特征图。

示例性的，将从视频样本中提取的音频输入到脸部特征图预测模型中，以预测与音频对应的各时刻的脸部特征图。可参照步骤S131。

步骤S323、根据从所述视频样本中提取的脸部特征图和根据所述视频样本预测得到的脸部特征图进行对比，得到脸部特征图的脸部特征误差值。

示例性的，将从视频样本提取的脸部特征图和预测得到的脸部特征图进行对比，得到脸部特征图中各个特征点位置的误差值。

例如，可以确定从视频样本提取的脸部特征图中各个特征点的位置，以及确定预测得到的脸部特征图中各个特征点的位置，计算对应特征点的位置关系，得到各特征点的位置误差，从而确定脸部特征误差值。

步骤S324、根据所述脸部特征误差值对所述脸部特征图预测模型进行参数调整，得到训练好的脸部特征图预测模型。

示例性的，根据得到的脸部特征误差值对脸部特征图预测模型的参数进行调整，以调整脸部特征图预测模型的预测效果，使预测效果更接近从视频样本中提取的脸部特征图，从而提高脸部特征图预测模型预测脸部特征图的真实度。

通过视频样本中的音频以及脸部特征图对脸部特征图预测模型进行预测，可以提升脸部特征图预测模型的预测效果，以得到更真实的脸部特征图，提高合成脸部图像时的真实度。

示例性的，训练好的特征图预测模型也可以存储在区块链中。

在一些实施例中，方法还包括步骤S3211和S3212。

步骤S3211、对从所述第二训练数据的视频样本中提取的脸部特征图进行仿射变换和归一化处理，得到标准化脸部特征图。

示例性的，视频样本中可能会提取到位置偏转的脸部图像，即脸部图像不是相对于显示位置正立的，因而在进行损失值计算时可能误差会较大，对提取的脸部特征图进行仿射变换处理，使各时刻的脸部特征图所处的位置相同并偏转角度为零。

例如，可以通过调用opencv来实现仿射变换的过程，通过至少两幅脸部特征图之间的联系，如脸部特征图中各对应特征点的位置关系，求得一个向量矩阵，将多个脸部特征图通过一个向量矩阵和一个向量，进行对齐，即统一所处的位置以及将偏转角度置零。

示例性的，对提取的脸部特征图进行归一化处理，例如通过最大最小值归一化方法对脸部特征图进行归一化处理，处理之后的脸部特征图大小相同，并且可以不受脸部旋转和大小的影响，增加兼容性。

通过对从视频样本中提取的脸部特征图进行仿射变换和归一化处理，可以避免视频样本中的脸部有偏转角度、以及脸部旋转、位置不同、图像大小偏差的问题。

步骤S3212、根据标准化脸部特征图和根据所述视频样本预测得到的脸部特征图进行对比，得到脸部特征图的脸部特征误差值。

示例性的，通过仿射变换和归一化处理之后的标准化脸部特征图与预测得到的脸部特征图进行对比以计算脸部特征误差值，因为可以减少计算时的误差，从而可以更精准地调整脸部特征图预测模型的参数，提升脸部特征图预测模型的预测效果。

步骤S140、基于脸部处理模型，根据所述各时刻的脸部特征图生成各时刻对应的脸部图像。

示例性的，脸部特征图只能指示脸部特征点的位置，并不是完整的脸部图像，基于脸部特征图生成脸部图像，从而使用户可以看到生动的客服影像。

示例性的，各时刻对应的脸部特征图中的特征点位置会不同，以表示在不同时刻对应的表情和脸部动作，对各时刻对应的脸部特征图逐一进行处理，以生成对应的脸部图像。

可以理解的，脸部处理模型也可以存储在区块链中。

在一些实施例中，脸部处理模型包括生成器和判别器，步骤S140包括步骤S141～步骤S143。

步骤S141、基于所述生成器，对脸部特征图进行多次采样降维处理得到采样脸部特征图，以及对降采样操作后的采样脸部特征图进行反卷积和拼接得到脸部图像，其中，在每次采样降维处理之后都进行标准化处理和通过线性整流函数进行线性处理。

示例性的，生成器中具有一个U型网络(U-Net)，是一种全卷积结构，U型网络具有压缩路径(contracting path)和扩展路径(expansive path)，其中，压缩路径(contracting path)和扩展路径(expansive path)至少包括4个处理层且一一对应。

在压缩路径(contracting path)中，每一个处理层对输入的脸部特征图进行降采样处理，且每一个处理层均接入批标准化层(Batch Normalization)和线性整流函数(ReLU)，其中，批标准化层(Batch Normalization)将脸部特征图规整为均值为0，方差为1的正态分布状态，线性整流函数(ReLU)简化计算过程和避免了梯度***和梯度消失问题。

在扩展路径(expansive path)中，每一个处理层对采样脸部特征图进行反卷积操作，具体的，每一个处理层对输入的脸部特征图进行尺寸翻倍，同时将个数去除一半，以及与对应的压缩路径(contracting path)中处理层的脸部特征图进行拼接，由于压缩路径(contracting path)中处理层的脸部特征图与对应的扩展路径(expansive path)处理层的脸部特征图尺寸不一样，先对压缩路径(contracting path)中处理层的脸部特征图进行裁剪，然后进行拼接，经过与降采样次数相同次数的反卷积以及拼接后，得到并输出脸部图像。

示例性的，扩展路径(expansive path)中每个处理层均接入批标准化层(BatchNormalization)和带泄露线性整流函数(Leaky ReLU)，可以理解的，批标准化层(BatchNormalization)规整处理层生成的脸部图像，带泄露线性整流函数(Leaky ReLU)避免了梯度消失，从而使生成的脸部图像更接近真实。

步骤S142、基于所述判别器，将所述生成网络输出的脸部图像分割成若干块，以及对每一块图像进行真假判断，并根据每一块图像的真假判定结果确定脸部图像的真假。

生成器生成的脸部图像进入判断器，判断器对脸部图像映射成大小为N×N的矩阵X，即将脸部图像分成大小相同的若干块，对每一块图像单独进行真假判断，得到判断结果x_ij，其中，x_ij表征在矩阵X中对应图像块为真实的概率，通过对x_ij求平均值，从而确定脸部图像是真实还是假。

步骤S143、若确定脸部图像为真实，输出所述脸部图像。

示例性的，根据判断器求得的平均值，确定脸部图像是否进行输出，若判断器确定为真实，则对脸部图像进行输出。

步骤S150、将所述各时刻的脸部图像进行合成得到视频流，并将所述音频序列***所述视频流，生成并输出用于应答所述询问信息的客服影像。

示例性的，步骤S140中输出的脸部图像是每一帧独立的，按照时间顺序将每一帧脸部图像进行合成，得到视频流。

示例性的，合成视频流之后将音频序列***视频流中，以使播放视频的同时能有对应的音频，从而得到应答询问信息的客服影像。

在一些实施例中，方法还包括：对视频流或音频序列进行线性插值处理，以得到频率相同的视频流和音频序列。

示例性的，生成的视频中每一帧图像的频率可能与合成的音频序列的频率不相同，若将频率不相同的音频序列***视频流中，会导致声画不同步的情况。

例如，脸部处理模型通过更小的时间间隔生成了各时刻的脸部图像，将各时刻的脸部图像整合得到的视频流会更连贯，但音频序列采样的时间间隔可能较脸部图像生成的时间间隔长，即在每秒中，脸部图像生成了30帧，而音频序列只有20帧，若此时将音频序列***视频流中，会导致声画不同步。

示例性的，对视频流的频率和音频序列的频率进行对比，确定频率低的一方，如确定音频序列的频率低于视频流的频率，对频率低的一方进行线性插值，以合理补偿缺失的数据，使视频流和音频序列具有相同的频率，从而解决声画不同步的问题。

上述实施例提供的用户服务方法可以使用户从视觉和听觉上感知客服的应答，提高用户的使用体验。

请参阅图8，图8是本申请一实施例提供的一种用户服务装置的示意图，该用户服务装置可以配置于服务器或终端中，用于执行前述的用户服务方法。

如图8所示，该用户服务装置，包括：文本确定模块110、语音合成模块120、特征图预测模块130、脸部图像生成模块140、影像生成模块150。

文本确定模块110，用于响应于用户的询问信息确定应答文本。

语音合成模块120，用于基于训练好的语音合成模型，对所述应答文本进行语音合成，得到所述应答文本的音频序列。

特征图预测模块130，用于基于训练好的脸部特征图预测模型，根据所述音频序列预测所述音频序列中各时刻对应的脸部特征图。

脸部图像生成模块140，用于基于脸部处理模型，根据所述各时刻的脸部特征图生成各时刻对应的脸部图像。

影像生成模块150，用于将所述各时刻的脸部图像进行合成得到视频流，并将所述音频序列***所述视频流，生成并输出用于应答所述询问信息的客服影像。

示例性的，语音合成模块120包括声谱预测子模块、声码器子模块。

声谱预测子模块，用于对所述应答文本进行特征预测得到所述应答文本的梅尔频谱。

声码器子模块，用于通过扩大卷积对梅尔频谱进行处理，得到所述音频序列。

示例性的，用户服务装置还包括第一训练数据获取模块、语音合成模型训练模块。

第一训练数据获取模块，用于获取第一训练数据，所述第一训练数据包括多个预设应答文本，以及根据各所述预设应答文本录制的音频样本。

语音合成模型训练模块，用于根据所述第一训练数据对所述语音合成模型进行训练，得到训练好的语音合成模型。

示例性的，用户服务装置还包括第二训练数据获取模块、特征图预测模型训练模块。

第二训练数据获取模块，用于获取第二训练数据，所述第二训练数据包括多个视频样本。

特征图预测模型训练模块，用于根据所述视频样本中的音频和脸部特征图对所述脸部特征图预测模型进行训练，得到训练好的脸部特征图预测模型。

示例性的，特征图预测模型训练模块还包括音频和脸部提取子模块，误差计算子模块，参数调整子模块。

音频和脸部提取子模块，用于从所述视频样本中提取音频和各时刻的脸部特征图。

特征图预测模块140，还用于基于所述脸部特征图预测模型，根据所述视频样本的音频预测各时刻的脸部特征图。

误差计算子模块，用于根据从所述视频样本中提取的脸部特征图和根据所述视频样本预测得到的脸部特征图进行对比，得到脸部特征图的脸部特征误差值。

参数调整子模块，用于根据所述脸部特征误差值对所述脸部特征图预测模型进行参数调整，得到训练好的脸部特征图预测模型。

示例性的，特征图预测模型训练模块还包括归一处理子模块。

归一处理子模块，用于对从所述第二训练数据的视频样本中提取的脸部特征图进行仿射变换和归一化处理，得到标准化脸部特征图。

误差计算子模块，还用于根据标准化脸部特征图和根据所述视频样本预测得到的脸部特征图进行对比，得到脸部特征图的脸部特征误差值。

示例性的，脸部图像生成模块140包括生成器子模块、判别器子模块、脸部图像输出子模块。

生成器子模块，用于基于所述生成器，对脸部特征图进行多次降采样处理得到采样脸部特征图，以及对采样脸部特征图进行反卷积和拼接得到脸部图像，其中，在每次降采样处理之后都进行标准化处理和通过线性整流函数进行线性处理。

判别器子模块，用于基于所述判别器，将所述生成网络输出的脸部图像分割成若干块，以及对每一块图像进行真假判断，并根据每一块图像的真假判定结果确定脸部图像的真假。

脸部图像输出子模块，用于若确定脸部图像为真实，输出所述脸部图像。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的方法、装置可用于众多通用或专用的计算***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

示例性地，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器或终端。

如图9所示，该计算机设备包括通过***总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作***和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种用户服务方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种用户服务方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

响应于用户的询问信息确定应答文本；

在一个实施例中，所述处理器在实现根据所述应答文本得到音频序列时，用于实现：

基于所述声谱预测网络，对所述应答文本进行特征预测得到所述应答文本的梅尔频谱；

基于所述声码器，通过扩大卷积对梅尔频谱进行处理，得到所述音频序列。

在一个实施例中，所述处理器在实现用户服务方法时，用于实现：

获取第一训练数据，所述第一训练数据包括多个预设应答文本，以及根据各所述预设应答文本录制的音频样本；

根据所述第一训练数据对所述语音合成模型进行训练，得到训练好的语音合成模型。

获取第二训练数据，所述第二训练数据包括多个视频样本；

根据所述视频样本中的音频和脸部特征图对所述脸部特征图预测模型进行训练，得到训练好的脸部特征图预测模型。

在一个实施例中，所述处理器在实现根据所述视频样本中的音频和脸部特征图对所述脸部特征图预测模型进行训练时，用于实现：

从所述视频样本中提取音频和各时刻的脸部特征图；

基于所述脸部特征图预测模型，根据所述视频样本的音频预测各时刻的脸部特征图；

根据从所述视频样本中提取的脸部特征图和根据所述视频样本预测得到的脸部特征图进行对比，得到脸部特征图的脸部特征误差值；

根据所述脸部特征误差值对所述脸部特征图预测模型进行参数调整，得到训练好的脸部特征图预测模型。

对从所述第二训练数据的视频样本中提取的脸部特征图进行仿射变换和归一化处理，得到标准化脸部特征图；

所述根据提取的脸部特征图和根据所述视频样本预测得到的脸部特征图进行对比，得到脸部特征图的脸部特征误差值包括：

根据标准化脸部特征图和根据所述视频样本预测得到的脸部特征图进行对比，得到脸部特征图的脸部特征误差值。

在一个实施例中，所述处理器在实现基于脸部处理模型，根据所述各时刻的脸部特征图生成各时刻对应的脸部图像时，用于实现：

基于所述生成器，对脸部特征图进行多次降采样处理得到采样脸部特征图，以及对采样脸部特征图进行反卷积和拼接得到脸部图像，其中，在每次降采样处理之后都进行标准化处理和通过线性整流函数进行线性处理；

基于所述判别器，将所述生成网络输出的脸部图像分割成若干块，以及对每一块图像进行真假判断，并根据每一块图像的真假判定结果确定脸部图像的真假；

若确定脸部图像为真实，输出所述脸部图像。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述用户服务的具体工作过程，可以参考前述用户服务控制方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请用户服务方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种用户服务方法，其特征在于，包括：

响应于用户的询问信息确定应答文本；

2.如权利要求1所述的用户服务方法，其特征在于，所述语音合成模型包括声谱预测网络和声码器，所述根据所述应答文本得到音频序列包括：

3.如权利要求1所述的用户服务方法，其特征在于，所述方法还包括：

4.如权利要求1-3中任一项所述的用户服务方法，其特征在于，所述方法还包括：

获取第二训练数据，所述第二训练数据包括多个视频样本；

5.如权利要求4中任一项所述的用户服务方法，其特征在于，所述根据所述视频样本中的音频和脸部特征图对所述脸部特征图预测模型进行训练，包括：

从所述视频样本中提取音频和各时刻的脸部特征图；

6.如权利要求5中任一项所述的用户服务方法，其特征在于，所述方法还包括：

7.如权利要求1-3中任一项所述的用户服务方法，其特征在于，所述脸部处理模型包括生成器和判别器，所述基于脸部处理模型，根据所述各时刻的脸部特征图生成各时刻对应的脸部图像，包括：

若确定脸部图像为真实，输出所述脸部图像。

8.一种用户服务装置，其特征在于，所述用户服务装置包括：

文本确定模块，用于响应于用户的询问信息确定应答文本；

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的用户服务方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的用户服务方法的步骤。