CN112100352A

CN112100352A - 与虚拟对象的对话方法、装置、客户端及存储介质

Info

Publication number: CN112100352A
Application number: CN202010962857.7A
Authority: CN
Inventors: 李彤辉; 胡天舒; 马明明; 洪智滨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-12-18
Also published as: US20210201886A1

Abstract

本申请公开了与虚拟对象的对话方法、装置、客户端及存储介质，涉及人工智能领域，具体为自然语言处理、知识图谱、计算机视觉和语音技术领域。具体实现方案为：所述方法应用于客户端，在客户端处于离线模式的情况下，将客户端采集的第一语音转换成第一文本内容；基于离线自然语言处理NLP和/或客户端预先存储的目标数据库，获取针对第一文本内容进行应答的第二文本内容；对第二文本内容进行语音合成，以得到第二语音；使用虚拟对象对第二语音进行口型模拟，得到虚拟对象使用第二语音发言的目标视频；播放目标视频。根据本申请的技术，解决了与虚拟对象实时对话过程中的网络传输问题，提高了与虚拟对象的实时对话的实现效果。

Description

与虚拟对象的对话方法、装置、客户端及存储介质

技术领域

本申请涉及计算机技术，尤其涉及人工智能领域，具体涉及一种与虚拟对象的对话方法、装置、客户端及存储介质。

背景技术

随着人工智能的高速发展，虚拟对象如虚拟人物的使用已得到了广泛应用，比如，使用虚拟对象进行对话即是其中应用之一。目前，与虚拟对象进行对话的方案被广泛应用于各个场景，比如，客服、主持人和导购等等。

在与虚拟对象的对话中，通常需要借助于网络来传输与虚拟对象的对话视频，其对网络要求比较高。

发明内容

本公开提供了一种与虚拟对象的对话方法、装置、客户端及存储介质。

根据本公开的第一方面，提供了一种与虚拟对象的对话方法，包括：

在所述客户端处于离线模式的情况下，将所述客户端采集的第一语音转换成第一文本内容；

并基于离线自然语言处理NLP和/或所述客户端预先存储的目标数据库，获取针对所述第一文本内容进行应答的第二文本内容；其中，所述目标数据库中关联存储有目标文本内容和针对所述目标文本内容进行应答的文本内容；

对所述第二文本内容进行语音合成，以得到第二语音；

使用虚拟对象对所述第二语音进行口型模拟，得到所述虚拟对象使用所述第二语音发言的目标视频；

播放所述目标视频。

根据本公开的第二方面，提供了一种与虚拟对象的对话装置，包括：

转换模块，用于在所述客户端处于离线模式的情况下，将所述客户端采集的第一语音转换成第一文本内容；

获取模块，用于基于离线自然语言处理NLP和/或所述客户端预先存储的目标数据库，获取针对所述第一文本内容进行应答的第二文本内容；其中，所述目标数据库中关联存储有目标文本内容和针对所述目标文本内容进行应答的文本内容；

语音合成模块，用于对所述第二文本内容进行语音合成，以得到第二语音；

口型模拟模块，用于使用虚拟对象对所述第二语音进行口型模拟，得到所述虚拟对象使用所述第二语音发言的目标视频；

播放模块，用于播放所述目标视频。

根据本公开的第三方面，提供了一种客户端，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面中的任一项方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行第一方面中的任一项方法。

根据本申请的技术解决了与虚拟对象实时对话过程中的网络传输问题，提高了与虚拟对象的实时对话的实现效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的与虚拟对象的对话方法的流程示意图；

图2是本申请实施例中与虚拟对象的对话方法的实现流程示意图；

图3是根据本申请第二实施例的与虚拟对象的对话装置的结构示意图；

图4是用来实现本申请实施例的与虚拟对象的对话方法的客户端的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

第一实施例

如图1所示，本申请提供一种与虚拟对象的对话方法，包括如下步骤：

步骤S101：在所述客户端处于离线模式的情况下，将所述客户端采集的第一语音转换成第一文本内容。

本实施例中，与虚拟对象的对话方法涉及计算机技术，具体涉及人工智能、自然语言处理(NLP，Natural Language Processing)、知识图谱、计算机视觉和语音技术领域，其应用于客户端。

所述客户端指的是可与虚拟对象进行实时对话的应用程序的客户端，也就是说，其是一个终端，该终端上安装有可与虚拟对象进行实时对话的应用程序。

与虚拟对象进行实时对话指的是虚拟对象可以实时应答用户提出的问题或回应用户的聊天内容，从而形成了用户与虚拟对象的实时对话过程，比如，用户说“你好”，相应的，虚拟对象可以回应“你好”，又比如，用户提出问题“怎么找到某某物品”，相应的，虚拟对象可以应答该物品的具***置，以引导用户。

所述虚拟对象可以为虚拟人物，也可以为虚拟动物，还可以为虚拟植物，总之，该虚拟对象指的是一个具备虚拟形象的对象。其中，所述虚拟人物可以为卡通人物或非卡通人物。

该实时对话过程可以以视频的形式呈现给用户，该视频中可以包括虚拟对象针对用户提出的问题而进行应答的播放画面。

待对话用户指的是通过客户端与虚拟对象进行对话的用户，该待对话用户可以向客户端以自然语言形式提出问题，即可以通过所述客户端实时说出想要提出的问题。相应的，客户端可以接收待对话用户实时输入的第一语音，之后，在所述客户端处于离线模式的情况下，该客户端可以对第一语音进行语言识别，生成第一文本内容。其中，该第一文本内容可以指的是待对话用户输入的第一语音的文本描述，即该第一语音的语义信息。

其中，所述客户端处于离线模式指的是所述客户端处于无网、断网、弱网或者网络拥塞的状态。

在一具体实施方式中，在所述客户端处于离线模式的情况下，可以采用现有的或者新的自动语音识别技术(ASR，Automatic Speech Recognition)识别所述客户端采集的第一语音，得到第一文本内容。

步骤S102：基于离线自然语言处理NLP和/或所述客户端预先存储的目标数据库，获取针对所述第一文本内容进行应答的第二文本内容；其中，所述目标数据库中关联存储有目标文本内容和针对所述目标文本内容进行应答的文本内容。

该步骤中，客户端获取到第一文本内容之后，可以基于第一文本内容离线获取针对所述第一文本内容进行应答的第二文本内容。

其中，在所述第一文本内容为待对话用户提出的问题的文本内容，所述第二文本内容可以为待对话用户提出的问题的答案，在所述第一文本内容为待对话用户的聊天内容的文本内容，所述第二文本内容可以为对该聊天内容的回应内容。

可以有多种方式基于第一文本内容来获取第二文本内容，比如，客户端中可以预先存储一个目标数据库，该目标数据库中关联存储有目标文本内容和针对所述目标文本内容进行应答的文本内容。

其中，所述目标文本内容的数量可以包括多个，在这些目标文本内容中可以包括至少一个历史文本内容，该至少一个历史文本内容可以指的是与虚拟对象的历史对话中用户所提的所有问题或者用户的所有互动内容，或者，该至少一个历史文本内容可以指的是与虚拟对象的历史对话中用户所提的高频问题或者用户与虚拟对象的高频互动内容。

在这些目标文本内容中也可以包括至少一个预测文本内容，该至少一个预测文本内容指的是在一些对话场景中所预测的用户可能会提的一些问题以及这些问题的答案，以及还可以包括日常一些对话的互动内容。比如，针对物品导购的对话场景，用户可能会提的问题是“怎么找到某某物品”，又比如，针对物品维护的对话场景，用户可能会提的问题是“怎么使用某某物品”。

相应的，客户端可以从该目标数据库中匹配得到针对第一文本内容进行应答的第二文本内容。

又比如，客户端可以对第一文本内容进行离线自然语言处理NLP，得到针对第一文本内容进行应答的第二文本内容。其中，离线自然语言处理NLP指的是不依赖于网络，完全在客户端上进行的自然语言处理。

还比如，可以结合目标数据库和离线自然语言处理NLP，在目标数据库中未匹配到针对第一文本内容进行应答的第二文本内容的情况下，可以对所述第一文本内容进行离线自然语言处理NLP，获得所述第二文本内容。

步骤S103：对所述第二文本内容进行语音合成，以得到第二语音。

该步骤中，可以采用现有的或者新的语音合成技术比如从文本到语音(TTS，TextTo Speech)技术，对第二文本内容进行语音合成，得到目标文件，所述目标文件中包括所述第二语音。

在剔除掉目标文件的头文件以及目标文件的格式之后，可以得到编码格式为脉冲编码调制(PCM，Pulse Code Modulation)格式的第二语音。

步骤S104：使用虚拟对象对所述第二语音进行口型模拟，得到所述虚拟对象使用所述第二语音发言的目标视频。

该步骤中，客户端在得到第二语音之后，使用虚拟对象对所述第二语音进行口型模拟，具体的，可以有两种方式使用虚拟对象对所述第二语音进行口型模拟，第一种方式为，所述客户端上可以存储有一个预先训练的口型预测模型，该口型预测模型的输入可以为虚拟对象和第二语音，相应的，输出可以为所述虚拟对象对所述第二语音的发言过程中的多张目标图片。

第二种方式为，所述客户端本地可以存储有口型图片，这些口型图片可以关联语音，相应的，可以基于第二语音从本地存储的口型图片中匹配得到第二语音的口型图片，并基于第二语音的口型图片进行虚拟对象关于所述第二语音的口型模拟，得到所述虚拟对象对所述第二语音的发言过程中的多张目标图片。

其中，所述虚拟对象可以为所述客户端本地存储的虚拟对象库中的虚拟对象。

之后，所述客户端可以基于口型模拟得到的多张目标图片，生成目标视频。该目标视频中可以合成有所述虚拟对象对所述第二语音的发言过程中的口型连续变化过程，以及所述第二语音的音频信号，如此可以得到虚拟对象针对所述客户端采集的第一语音进行实时应答的视频。

为了使生成的目标视频更加真实以及更加生动，可以将虚拟对象对所述第二语音的发言过程中的口型连续变化过程与第二语音的音频信号进行对应，避免出现虚拟对象的口型与音频不对应的情况发生，以真实反映虚拟对象对第二语音的发言过程。另外，在虚拟对象对第二语音的发言过程中可以对虚拟对象的表情以及动作进行模拟，使得待对话用户与虚拟对象的对话更加生动且有趣。

步骤S105：播放所述目标视频。

生成目标视频之后，可以跳转至播放界面，以播放所述目标视频。

进一步的，在待对话用户未确认结束对话的情况下，若客户端再次接收到待对话用户输入的第一语音，在一可选实施方式中，在客户端处于离线模式的情况下，可以采用上述步骤在所述目标视频中使用所述虚拟对象再次模拟针对待对话用户输入的第一语音的应答语音的发言。在该种应用场景下，其是与一个虚拟对象的一次完整对话过程，在该次完整对话过程中，待对话用户可以与虚拟对象进行多次互动，即待对话用户可以多次向虚拟对象提出问题，或者也可以一次向虚拟对象提出多个问题，虚拟对象可以按照待对话用户提出的问题顺序，依次对待对话用户的问题进行应答。

在待对话用户未确认结束对话的情况下，若客户端再次接收到待对话用户输入的第一语音，在另一可选实施方式中，在客户端处于离线模式的情况下，也可以采用上述步骤并重新使用新的虚拟对象模拟针对待对话用户输入的第一语音的应答语音的发言，得到一个新的视频并进行播放。在该种应用场景下，待对话用户每提出一个问题，即是与虚拟对象的一次对话过程，即实现了待对话用户与虚拟对象的一次互动。

可以根据待对话用户提出的问题的类型使用不同的虚拟对象进行应答，比如，当待对话用户提出的问题是关于物品导购的，可以使用类型为导购员的虚拟对象与待对话用户进行对话，又比如，当待对话用户提出的问题是关于物品维护的，可以使用类型为客服的虚拟对象与待对话用户进行对话。

在待对话用户确认结束对话的情况下，客户端可以自动关闭目标视频，以自动关闭与虚拟对象的对话过程。

当然，在待对话用户未确认结束对话的情况下，当待对话用户很久没有与虚拟对象进行互动时，即客户端很久没有接收到待对话用户输入的第一语音时，可以触发关闭该目标视频，或者可以触发虚拟对象主动对话，以提示待对话用户是否还需要与其对话，若没有得到回应，则关闭目标视频。

本实施例中，通过在所述客户端处于离线模式的情况下，将所述客户端采集的第一语音转换成第一文本内容；并基于离线自然语言处理NLP和/或所述客户端预先存储的目标数据库，获取针对所述第一文本内容进行应答的第二文本内容；其中，所述目标数据库中关联存储有目标文本内容和针对所述目标文本内容进行应答的文本内容；对所述第二文本内容进行语音合成，以得到第二语音；使用虚拟对象对所述第二语音进行口型模拟，得到所述虚拟对象使用所述第二语音发言的目标视频；播放所述目标视频。

这样，在所述客户端处于离线模式的情况下，可以在客户端离线完成与虚拟对象的整个对话过程，包括获取待对话用户输入的第一语音开始、使用语音识别ASR将第一语音转换为第一文本内容、使用自然语言处理NLP和/或目标数据库获取针对第一文本内容进行应答的第二文本内容、使用语音合成TTS将第二文本内容合成第二语音、至获取虚拟对象并通过目标视频使用虚拟对象应答该第一语音的整个过程。如此，可以避免借助于网络来传输与虚拟对象的对话视频，从而在客户端处于无网、断网、弱网或网络拥塞的情况下均可实现与虚拟对象的对话。根据本申请实施例的技术方案，很好地解决了与虚拟对象的对话过程中网络传输的问题，提高了与虚拟对象的对话实现效果。

为了更好地理解本申请的方案，参见图2，图2是本申请实施例中与虚拟对象的对话方法的实现流程示意图，如图2所示，与虚拟对象的对话过程均是在客户端上实现，其所作的处理相对于服务器来说均可以称之为离线处理，在客户端上实现的流程如下：

步骤S201：在客户端上获取待对话用户实时输入的第一语音；

步骤S202：在客户端处于离线模式的情况下，对第一语音进行离线语音识别ASR，输出第一文本内容；

步骤S203：对第一文本内容进行离线自然语言处理NLP，输出第二文本内容；

当然，在该步骤中，也可以基于第一文本内容在目标数据库查询第二文本内容，或者结合目标数据库，基于第一文本内容在目标数据库中未查询到第二文本内容的情况下，对第一文本内容进行离线自然语言处理NLP，输出第二文本内容。

步骤S204：对第二文本内容进行离线语音合成TTS，输出PCM格式的第二语音；

步骤S205：使用离线虚拟对象模拟第二语音的发言，生成目标视频；

步骤S206：在客户端上播放该目标视频。

可知，上述待对话用户与虚拟对象的对话过程均是在客户端上实现的，如此，可以很好地解决与虚拟对象的对话过程中的网络传输问题，在地铁站、商场和银行等这些弱网环境或无网环境均可以实现。

可选的，所述步骤S102具体包括：

在所述第一文本内容与所述目标数据库中存储的目标文本内容匹配成功的情况下，将所述目标数据库中与所述第一文本内容匹配成功的目标文本内容所关联的文本内容确定为所述第二文本内容；或者，

在所述第一文本内容与所述目标数据库中存储的目标文本内容匹配失败的情况下，对所述第一文本内容进行离线自然语言处理NLP，获得所述第二文本内容；或者，

对所述第一文本内容进行离线自然语言处理NLP，获得所述第二文本内容。

本实施方式中，可以有三种方式基于第一文本内容离线获取第二文本内容，第一种方式为，客户端中可以预先存储一个目标数据库，该目标数据库中关联存储有目标文本内容和针对所述目标文本内容进行应答的文本内容。

相应的，客户端在所述第一文本内容与所述目标数据库中存储的目标文本内容匹配成功的情况下，将所述目标数据库中与所述第一文本内容匹配成功的目标文本内容所关联的文本内容确定为所述第二文本内容。

第二种方式为，客户端可以对第一文本内容进行离线自然语言处理NLP，得到针对第一文本内容进行应答的第二文本内容。其中，离线自然语言处理NLP指的是不依赖于网络，完全在客户端上进行的自然语言处理。

第三种方式为，可以结合目标数据库和离线自然语言处理NLP，在目标数据库中未匹配到针对第一文本内容进行应答的第二文本内容的情况下，可以对所述第一文本内容进行离线自然语言处理NLP，获得所述第二文本内容。

本实施方式中，通过离线自然语言处理NLP获取第一文本内容的答案，以获得第二文本内容，可以使得与虚拟对象的对话更加智能。而基于目标数据库获取第二文本内容，可以借助于客户端的数据存储技术，从而可以节省客户端的处理资源。结合两者获取第二文本内容，即可以节省客户端的处理资源，又可以使得与虚拟对象的对话更加智能。

可选的，所述步骤S104具体包括：

基于本地存储的口型图片对所述虚拟对象使用所述第二语音发言的口型进行模拟，得到所述虚拟对象对所述第二语音的发言过程中的多张目标图片；

对所述多张目标图片进行处理，得到所述虚拟对象对所述第二语音的发言过程中口型连续变化的视频；

将所述口型连续变化的视频和所述第二语音的音频信号进行合成，得到所述目标视频。

本实施方式中，客户端可以预先存储有虚拟对象的图片，该虚拟对象的图片是静止的，且通常虚拟对象的口型是闭合的，为了使虚拟对象达到更加真实的效果，可以对所述虚拟对象使用第二语音发言的口型进行模拟，得到所述虚拟对象对所述第二语音的发言过程中的多张目标图片。

比如，第二语音是“你好”，可以首先对虚拟对象使用“你”发言的口型进行模拟，得到对“你”发言过程中的至少一张目标图片，当然，为了体现口型的连续性，可以得到多张目标图片，如可以模拟在对“你”发言过程中口型从闭合到开合的整个过程，得到多张目标图片。然后，对虚拟对象使用“好”发言的口型进行模拟，也可以得到多张目标图片。最终得到所述虚拟对象对所述第二语音的发言过程中的多张目标图片。

可以使用客户端的数据存储技术，在本地存储多张口型图片，且这些口型图片可以关联有语音，相应的，可以从这些口型图片中匹配得到第二语音的口型图片，并基于第二语音的口型图片进行虚拟对象关于所述第二语音的口型模拟，得到所述虚拟对象对所述第二语音的发言过程中的多张目标图片。

可以采用图片合成视频的处理技术对所述多张目标图片进行处理，在处理过程中，可以对虚拟对象使用第二语音发言的口型进行渲染，最终获得所述虚拟对象对所述第二语音的发言过程中口型连续变化的视频。

需要说明的是，该口型连续变化的视频中没有声音，可以将所述口型连续变化的视频和所述第二语音的音频信号进行合成，得到所述目标视频。该目标视频即体现了虚拟对象真实说话的场景。

另外，可以将虚拟对象对所述第二语音的发言过程中的口型连续变化过程与第二语音的音频信号进行对应，避免出现虚拟对象的口型与音频不对应的情况发生，以真实反映虚拟对象对第二语音的发言过程。还有，在虚拟对象对第二语音的发言过程中可以对虚拟对象的表情以及动作进行模拟，使得待对话用户与虚拟对象的对话更加生动且有趣。

本实施方式中，通过对所述虚拟对象使用所述第二语音发言的口型进行模拟，得到所述虚拟对象对所述第二语音的发言过程中的多张目标图片；对所述多张目标图片进行处理，得到所述虚拟对象对所述第二语音的发言过程中口型连续变化的视频；将所述口型连续变化的视频和所述第二语音的音频信号进行合成，得到所述目标视频，该目标视频中体现了虚拟对象真实说话的场景，从而可以使待对话用户与虚拟对象的对话更加真实以及更加生动。并且，采用客户端的数据存储技术，基于本地存储的口型图片对所述虚拟对象使用所述第二语音发言的口型进行模拟，如此，可以节省客户端的处理资源。

可选的，所述步骤S101之前，所述方法还包括：

检测所述客户端的网络传输速率；

在所述网络传输速率小于预设值的情况下，确定所述客户端处于离线模式。

本实施方式中，在接收到待对话用户实时输入的第一语音时，可以检测所述客户端的网络传输速率，若所述网络传输速率大于或等于预设值，则可以将第一语音发送给服务器，由服务器生成与虚拟对象的对话视频，并通过网络传输给客户端进行显示。

而在网络传输速率小于预设值的情况下，可以在客户端上离线生成并播放与虚拟对象的对话视频。其中，所述预设值可以根据实际情况进行设定，通常该预设值设置的比较小，以确定在客户端处于断网、无网、弱网或网络拥塞的情况下，离线生成并播放与虚拟对象的对话视频。

这样，可以保证在网络质量比较好时，可以借助于服务器的强大功能查找第一文本内容的答案，使得与虚拟对象的对话更加准确且智能。而在断网、弱网、无网或网络拥塞的情况下，可以借助于客户端的离线处理，生成并播放与虚拟对象的对话视频。如此，不管是在网络质量好，还是在断网、弱网、无网或者网络拥塞的场景下均能实现与虚拟对象的对话，一方面，在网络质量比较好的情况下，可以保证与虚拟对象的对话更加准确且智能，另一方面，在客户端存在网络问题的情况下，可以保证与虚拟对象对话过程中的稳定性。

可选的，所述步骤S104之前，所述方法还包括：

基于所述第一文本内容确定所述虚拟对象的类型；

从预设的虚拟对象库中选取所述类型的虚拟对象。

本实施方式中，可以基于所述第一文本内容确定所述虚拟对象的类型，具体的，可以根据待对话用户提出的问题的类型确定所述虚拟对象的类型，之后，从预设的虚拟对象库中选取所述类型的虚拟对象，以使用不同的虚拟对象进行应答。

所述虚拟对象的类型可以从多个方面进行分类，从身份上进行分类，其类型可以分为导购员和客服等。比如，当待对话用户提出的问题是关于物品导购的，可以使用类型为导购员的虚拟对象与待对话用户进行对话，当待对话用户提出的问题是关于物品维护的，可以使用类型为客服的虚拟对象与待对话用户进行对话。

从形象上分类，其类型可以分为卡通人物和非卡通人物等，当待对话用户提出的问题是关于游戏的，可以使用类型为卡通人物的虚拟对象与待对话用户进行对话。

另外，在使用虚拟对象对第二语音进行模拟之前，可以通过人脸识别技术或声音识别技术获取待对话用户的属性信息，该属性信息可以包括年龄和性别等，之后，也可以基于待对话用户的属性信息从预设的虚拟对象库中选取属性与所述待对话用户的属性信息匹配的所述虚拟对象。

其中，预设的虚拟对象库中不仅可以包括多种类型的虚拟对象，而且针对同一种类型的虚拟对象也可以存在多种属性，比如，针对类型为导购员的虚拟对象，其年龄属性可以包括20岁和50岁等，且性别属性可以包括男性和女性。

在进行虚拟对象的选取时，可以结合待对话用户的属性信息选取虚拟对象，在基于第一文本内容确定所述虚拟对象的类型之后，还可以将待对话用户的属性信息与该虚拟对象库中该类型的虚拟对象的各属性进行匹配，以将该类型的虚拟对象中属性与待对话用户的属性信息比较相似的虚拟对象选取作为与所述待对话用户进行对话的虚拟对象。比如，待对话用户为25岁的女性，可以在类型为导购员的虚拟对象中选取年龄为20岁，且性别为女的虚拟对象与所述待对话用户进行对话。这样，可以使得对话更加生动且有趣，提高了用户的体验。

第二实施例

如图3所示，本申请提供一种与虚拟对象的对话装置300，所述装置应用于客户端，包括：

转换模块301，用于在所述客户端处于离线模式的情况下，将所述客户端采集的第一语音转换成第一文本内容；

获取模块302，用于基于离线自然语言处理NLP和/或所述客户端预先存储的目标数据库，获取针对所述第一文本内容进行应答的第二文本内容；其中，所述目标数据库中关联存储有目标文本内容和针对所述目标文本内容进行应答的文本内容；

语音合成模块303，用于对所述第二文本内容进行语音合成，以得到第二语音；

口型模拟模块304，用于使用虚拟对象对所述第二语音进行口型模拟，得到所述虚拟对象使用所述第二语音发言的目标视频；

播放模块305，用于播放所述目标视频。

可选的，所述获取模块302包括：

确定单元，用于在所述第一文本内容与所述目标数据库中存储的目标文本内容匹配成功的情况下，将所述目标数据库中与所述第一文本内容匹配成功的目标文本内容所关联的文本内容确定为所述第二文本内容；

第一处理单元，用于在所述第一文本内容与所述目标数据库中存储的目标文本内容匹配失败的情况下，对所述第一文本内容进行离线自然语言处理NLP，获得所述第二文本内容；

第二处理单元，对所述第一文本内容进行离线自然语言处理NLP，获得所述第二文本内容。

可选的，所述口型模拟模块304包括：

口型模拟单元，用于基于本地存储的口型图片对所述虚拟对象使用所述第二语音发言的口型进行模拟，得到所述虚拟对象对所述第二语音的发言过程中的多张目标图片；

图片处理单元，用于对所述多张目标图片进行处理，得到所述虚拟对象对所述第二语音的发言过程中口型连续变化的视频；

音视频合成单元，用于将所述口型连续变化的视频和所述第二语音的音频信号进行合成，得到所述目标视频。

可选的，所述装置还包括：

检测模块，用于检测所述客户端的网络传输速率；

第一确定模块，用于在所述网络传输速率小于预设值的情况下，确定所述客户端处于离线模式。

可选的，所述装置还包括：

第二确定模块，用于基于所述第一文本内容确定所述虚拟对象的类型；

选取模块，用于从预设的虚拟对象库中选取所述类型的虚拟对象。

本申请提供的与虚拟对象的对话装置300能够实现上述与虚拟对象的对话方法实施例实现的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

根据本申请的实施例，本申请还提供了一种客户端和一种可读存储介质。

如图4所示，是根据本申请实施例的与虚拟对象的对话方法的客户端的框图。客户端旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、大型计算机、和其它适合的计算机。客户端还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该客户端包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在客户端内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个客户端，各个客户端提供部分必要的操作(例如，多处理器***)。图4中以一个处理器401为例。

存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的与虚拟对象的对话方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的与虚拟对象的对话方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的与虚拟对象的对话方法对应的程序指令/模块(例如，附图3所示的转换模块301、获取模块302、语音合成模块303、口型模拟模块304和播放模块305)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行客户端的各种功能应用以及数据处理，即实现上述方法实施例中的与虚拟对象的对话方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据与虚拟对象的对话方法的客户端的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至与虚拟对象的对话方法的客户端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

与虚拟对象的对话方法的客户端还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生和与虚拟对象的对话方法的客户端的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本实施例中，通过在所述客户端处于离线模式的情况下，可以在客户端离线完成与虚拟对象的整个对话过程，包括获取待对话用户输入的第一语音开始、使用语音识别ASR将第一语音转换为第一文本内容、使用自然语言处理NLP和/或目标数据库获取针对第一文本内容进行应答的第二文本内容、使用语音合成TTS将第二文本内容合成第二语音、至获取虚拟对象并通过目标视频使用虚拟对象应答该第一语音的整个过程。如此，可以避免借助于网络来传输与虚拟对象的对话视频，从而在客户端处于无网、断网、弱网或网络拥塞的情况下均可实现与虚拟对象的对话。根据本申请实施例的技术方案，很好地解决了与虚拟对象的对话过程中网络传输的问题，提高了与虚拟对象的对话实现效果。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种与虚拟对象的对话方法，所述方法应用于客户端，包括：

对所述第二文本内容进行语音合成，以得到第二语音；

播放所述目标视频。

2.根据权利要求1所述的方法，其中，所述基于离线自然语言处理NLP和/或所述客户端预先存储的目标数据库，获取针对所述第一文本内容进行应答的第二文本内容，包括：

3.根据权利要求1所述的方法，其中，所述使用虚拟对象对所述第二语音进行口型模拟，得到所述虚拟对象使用所述第二语音发言的目标视频，包括：

4.根据权利要求1所述的方法，所述在所述客户端处于离线模式的情况下，将所述客户端采集的第一语音转换成第一文本内容之前，还包括：

检测所述客户端的网络传输速率；

5.根据权利要求1所述的方法，所述使用虚拟对象对所述第二语音进行口型模拟，得到所述虚拟对象使用所述第二语音发言的目标视频之前，还包括：

基于所述第一文本内容确定所述虚拟对象的类型；

从预设的虚拟对象库中选取所述类型的虚拟对象。

6.一种与虚拟对象的对话装置，所述装置应用于客户端，包括：

播放模块，用于播放所述目标视频。

7.根据权利要求6所述的装置，其中，所述获取模块包括：

8.根据权利要求6所述的装置，其中，所述口型模拟模块包括：

9.根据权利要求6所述的装置，还包括：

检测模块，用于检测所述客户端的网络传输速率；

10.根据权利要求6所述的装置，还包括：

11.一种客户端，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。