CN111415662A

CN111415662A - 用于生成视频的方法、装置、设备和介质

Info

Publication number: CN111415662A
Application number: CN202010182273.8A
Authority: CN
Inventors: 殷翔
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-07-14

Abstract

本公开的实施例公开了用于生成视频的方法、装置、设备和介质。该用于生成视频的方法的一具体实施方式包括：获取目标用户的用户交互信息；基于用户交互信息，生成针对用户交互信息的反馈信息；基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频。该实施方式可以通过生成视频的方式与用户进行信息交互，由此提高了交互方式的多样性，有助于避免用户与真人进行交互过程中产生的羞涩感。

Description

用于生成视频的方法、装置、设备和介质

技术领域

本公开的实施例涉及计算机技术领域，具体涉及用于生成视频的方法、装置、设备和介质。

背景技术

人机交互技术(Human-Computer InteracTIon Techniques)是信息化技术发展的产物，是一种通过计算机输入、输出设备，以有效的方式实现人与计算机对话的技术。其实现了从人适应计算机到计算机适应人的转化。

目前，人机交互方式不仅包括键盘输入、手柄操作，还包括更加新奇的方式，例如，手指的微小动作、声波在空气中的振动、眼珠和舌头的转动等等，都可以实现信息传递，完成人与机器之间的“对话”。

发明内容

本公开提出了用于生成视频的方法、装置、设备和介质。

第一方面，本公开的实施例提供了一种用于生成视频的方法，该方法包括：获取目标用户的用户交互信息；基于用户交互信息，生成针对用户交互信息的反馈信息；基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频。

在一些实施例中，反馈信息为文本信息；以及，基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频，包括：确定与文本信息相对应的音素信息和语调信息；基于音素信息和语调信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频。

在一些实施例中，基于音素信息和语调信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频，包括：基于音素信息，确定待生成的语音音频的音频帧数量，以及待生成的图像序列的图像数量，其中，音频帧数量与图像数量相等；基于音素信息和语调信息，生成语音音频和图像序列，其中，语音音频包括的音频帧的数量为音频帧数量，图像序列中的图像的数量为图像数量，图像序列指示预设人员执行与语音音频相对应的动作；将语音音频和图像序列进行合成，得到用于指示预设人员执行与语音音频相对应的动作的视频。

在一些实施例中，语音音频中的音频帧与图像序列中的图像一一对应，图像序列中的图像的口型表征：预设人员发出与该图像相对应的音频帧指示的语音。

在一些实施例中，用户交互信息包括用户视频；以及，基于用户交互信息，生成针对用户交互信息的反馈信息，包括：响应于用户视频中的语音音频满足预设语调调整条件，生成用于指示用户调整音频的语调的反馈信息；响应于用户视频中的图像中的口型符合预设口型调整条件，生成用于指示用户调整口型的反馈信息。

在一些实施例中，基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频，包括：响应于用户交互信息包括语音音频，从预先确定的情感类别集合中，确定语音音频所属的情感类别；基于反馈信息和所确定的情感类别，生成用于指示预设人员执行目标动作的视频，其中，目标动作与反馈信息以及所确定的情感类别指示的情感相对应。

在一些实施例中，用户交互信息包括外语语音音频，预设人员为外教；以及，基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频，包括：响应于反馈信息为文本信息，将文本信息输入至针对外教预先训练的生成模型，生成与文本信息相对应的语音音频，以及用于指示外教发出所生成的语音音频的图像序列，其中，生成模型用于生成与所输入的文本信息相对应的语音音频，以及用于指示外教发出与所输入的文本信息相对应的语音音频的图像序列；基于所生成的图像序列和与文本信息相对应的语音音频，生成用于指示外教发出与文本信息相对应的语音音频的视频。

在一些实施例中，生成模型通过如下步骤训练得到：获取目标视频，其中，目标视频为对外教进行图像拍摄和语音录制而获得的视频，目标视频的播放时长大于或等于预设阈值；从目标视频中提取相匹配的图像和音频帧，得到训练样本集合，其中，训练样本集合中的训练样本包括音频帧、与音频帧相匹配的图像，以及与音频帧相对应的文本信息；采用机器学习算法，将训练样本集合中的训练样本包括的文本信息作为输入数据，将训练样本包括的音频帧和图像作为期望输出数据，训练得到生成模型。

第二方面，本公开的实施例提供了一种用于生成视频的装置，该装置包括：获取单元，被配置成获取目标用户的用户交互信息；第一生成单元，被配置成基于用户交互信息，生成针对用户交互信息的反馈信息；第二生成单元，被配置成基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频。

第三方面，本公开的实施例提供了一种用于生成视频的电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行，使得该一个或多个处理器实现如上述用于生成视频的方法中任一实施例的方法。

第四方面，本公开的实施例提供了一种用于生成视频的计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述用于生成视频的方法中任一实施例的方法。

本公开的实施例提供的用于生成视频的方法、装置、设备和介质，通过获取目标用户的用户交互信息，然后，基于用户交互信息，生成针对用户交互信息的反馈信息，之后，基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频，这样可以通过生成视频的方式与用户进行信息交互，由此提高了交互方式的多样性，有助于避免用户与真人进行交互过程中产生的羞涩感，提高用户的表达能力。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的一个实施例可以应用于其中的示例性***架构图；

图2是根据本公开的用于生成视频的方法的一个实施例的流程图；

图3是根据本公开的用于生成视频的方法的一个应用场景的示意图；

图4是根据本公开的用于生成视频的方法的又一个实施例的流程图；

图5是根据本公开的用于生成视频的装置的一个实施例的结构示意图；

图6是适于用来实现本公开的实施例的电子设备的计算机***的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的实施例的用于生成视频的方法或用于生成视频的装置的实施例的示例性***架构100。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送数据(例如用户交互信息)等。终端设备101、102、103上可以安装有各种客户端应用，例如视频播放软件、视频处理应用、新闻资讯类应用、图像处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有信息处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如基于终端设备101、102、103发送的用户交互信息，生成用于指示预设人员执行相对应的动作的视频的后台视频处理服务器。可选的，后台视频处理服务器还可以将所生成的视频反馈给终端设备，以供终端设备播放。作为示例，服务器105可以是云端服务器。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

还需要说明的是，本公开的实施例所提供的用于生成视频的方法可以由服务器执行，也可以由终端设备执行，还可以由服务器和终端设备彼此配合执行。相应地，用于生成视频的装置包括的各个部分(例如各个单元、子单元、模块、子模块)可以全部设置于服务器中，也可以全部设置于终端设备中，还可以分别设置于服务器和终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当用于生成视频的方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该***架构可以仅包括用于生成视频的方法运行于其上的电子设备(例如服务器或终端设备)。

继续参考图2，示出了根据本公开的用于生成视频的方法的一个实施例的流程200。该用于生成视频的方法，包括以下步骤：

步骤201，获取目标用户的用户交互信息。

在本实施例中，用于生成视频的方法的执行主体(例如图1所示的服务器或终端设备)可以通过有线连接方式或者无线连接方式从其他电子设备，或者本地获取目标用户的用户交互信息。

其中，上述目标用户可以是任意用户。上述用户交互信息可以用于指示目标用户与上述执行主体进行交互。作为示例，用户交互信息可以包括但不限于以下形式的信息：文字、语音、图像、视频等等。

在这里，当上述执行主体为终端设备时，上述执行主体可以通过设置于其上的语音获取装置、图像获取装置、鼠标、键盘、触摸屏中的至少一项，来获取目标用户的用户交互信息；当上述执行主体为服务器时，上述执行主体可以在目标用户使用的终端设备通过语音获取装置、图像获取装置、鼠标、键盘、触摸屏中的至少一项获取到该目标用户的用户交互信息之后，从该终端设备获取该目标用户的用户交互信息。

步骤202，基于用户交互信息，生成针对用户交互信息的反馈信息。

在本实施例中，基于步骤201获取到的用户交互信息，上述执行主体可以生成针对该用户交互信息的反馈信息。其中，当用户交互信息指示用户的操作指令时，上述反馈信息可以是表征上述操作指令是否完成的信息；当户交互信息指示用户的问题时，上述反馈信息可以是对上述问题的回复信息。

作为示例，上述执行主体或者与上述执行主体通信连接的电子设备中，可以预先关联存储有用户交互信息和用户交互信息的反馈信息。由此，在上述执行主体执行步骤201之后，可以在本地或者与其通信连接的电子设备中查找与所获取的用户交互信息关联存储的反馈信息，以及将查找到的反馈信息作为该步骤202生成的、针对用户交互信息的反馈信息。

作为又一示例，上述执行主体或者与上述执行主体通信连接的电子设备可以首先采用机器学习算法，基于包括用户交互信息和用户交互信息的反馈信息的训练样本，训练反馈信息生成模型。其中，反馈信息生成模型可以用于生成用户交互信息的反馈信息。在获得反馈信息生成模型之后，上述执行主体可以将用户交互信息输入至该反馈信息生成模型，从而生成针对该用户交互信息的反馈信息。

实践中，在上述用户交互信息包括文本信息，或者包括语音音频信息的情况下，上述执行主体可以采用对话机器人，来生成用户交互信息的反馈信息。

步骤203，基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频。

在本实施例中，基于步骤202生成的反馈信息，上述执行主体可以生成用于指示预设人员执行与该反馈信息相对应的动作的视频。

其中，预设人员可以是任意人员。作为示例，该预设人员可以是预先确定的人员，也可以是目标用户从预先确定的人员集合中选取的人员。

在这里，反馈信息和动作之间的对应关系可以预先建立，例如反馈信息可以与表征动作的动作信息关联存储，由此可以建立反馈信息和动作之间的对应关系。此外，上述执行主体还可以采用机器学习算法训练得到的模型，生成用于指示预设人员执行与该反馈信息相对应的动作的图像序列，进而获得由所生成的图像序列组成的视频。

在本实施例的一些可选的实现方式中，在用户交互信息包括语音音频的情况下，上述执行主体可以采用如下方式执行上述步骤203：

第一步，从预先确定的情感类别集合中，确定语音音频所属的情感类别。作为示例，上述情感类别集合中的情感类别可以表征以下任一情感：喜悦、生气、担忧、焦虑等等。可以理解，情感类别集合中的情感类别所表征的情感可以根据实际需求确定，在此不做限定。

可以理解，目标用户发出的语音音频可以包含喜悦、生气、担忧、焦虑等情感。实践中，可以基于隐马尔可夫和高斯混合模型的方法，确定语音音频所属的情感类别；也可以采用基于SVM(Support Vector Machine，支持向量机)的分类方法，确定语音音频所属的情感类别；还可以采用深度神经网络、端到端的方法，或者其他语音情感识别方法，确定语音音频所属的情感类别。

第二步，基于反馈信息和所确定的情感类别，生成用于指示预设人员执行目标动作的视频。其中，目标动作与反馈信息以及所确定的情感类别指示的情感相对应。

在这里，当反馈信息指示语音时，与反馈信息以及所确定的情感类别指示的情感相对应的动作(即目标动作)，可以表征：预设人员在具有所确定的情感类别指示的情感的情况下发出该语音。例如，如果反馈信息指示“啊”的音频，所确定的情感类别指示的情感指示“惊恐”，那么，由于发出该语音时需要张嘴，因而，目标动作可以表征：预设人员在具有惊恐的情感下张嘴。此外，当反馈信息指示图像时，目标动作可以表征：预设人员在具有所确定的情感类别指示的情感的情况下执行与该图像相对应的肢体动作。例如，如果反馈信息指示“笑”的图像，所确定的情感类别指示的情感指示“尴尬”，那么，目标动作可以表征：目标人员尴尬地笑。

在这里，上述执行主体可以将反馈信息和所确定的情感类别输入至预先训练的视频生成模型，从而获得用于指示预设人员执行目标动作的视频。其中，上述视频生成模型可以表征反馈信息、情感类别和用于指示预设人员执行目标动作的视频之间的对应关系。

作为示例，上述视频生成模型可以基于采用机器学习算法训练得到的生成式对抗网络获得，此外，视频生成模型也可以是存储有反馈信息、情感类别和用于指示预设人员执行目标动作的视频的二维表或数据库。

例如，上述生成式对抗网络可以包括生成网络和判别网络。其中，生成网络可以用于根据所输入的反馈信息和情感类别，生成用于指示预设人员执行目标动作的视频。判别网络可以用于判断所生成的视频是否符合预设条件。作为示例，判别模型可以根据计算得到的损失函数的函数值与预设阈值之间的大小关系，来判断所生成的视频是否符合预设条件。作为示例，上述预设条件可以包括：所生成的视频与真实录制的视频的相似度大于或等于预设阈值。由此，上述视频生成模型可以是训练完成的生成式对抗网络包括的生成网络。

可以理解，上述可选的实现方式所生成的视频指示的目标动作与所确定的情感类别指示的情感相对应，由此，可以提高所生成的视频的准确度。

在本实施例的一些可选的实现方式中，在用户交互信息包括外语语音音频，预设人员为外教，反馈信息为文本信息的情况下，上述执行主体可以采用如下步骤执行上述步骤203：

第一步，将文本信息输入至针对上述外教预先训练的生成模型，生成与文本信息相对应的语音音频，以及用于指示外教发出所生成的语音音频的图像序列。其中，生成模型用于生成与所输入的文本信息相对应的语音音频，以及用于指示外教发出与所输入的文本信息相对应的语音音频的图像序列。这里，每个外教可以对应一个生成模型，不同的外教可以对应不同的生成模型。

在上述可选的实现方式的一些应用场景中，上述生成模型可以通过如下步骤训练得到：

步骤一，获取目标视频。其中，目标视频为对外教进行图像拍摄和语音录制而获得的视频，目标视频的播放时长大于或等于预设阈值。

步骤二，从目标视频中提取相匹配的图像和音频帧，得到训练样本集合。其中，训练样本集合中的训练样本包括音频帧、与音频帧相匹配的图像，以及与音频帧相对应的文本信息。

步骤三，采用机器学习算法，将训练样本集合中的训练样本包括的文本信息作为输入数据，将训练样本包括的音频帧和图像作为期望输出数据，训练得到生成模型。

可以理解，上述应用场景中，首先获取播放时长较长(播放时长大于或等于预设阈值)的目标视频，然后，通过从目标视频中提取相匹配的图像和音频帧来获得训练样本，从而训练得到生成模型，由此，可以使得训练得到的生成模型生成的视频更接近真实录制的视频，提高视频生成的准确性。

可选的，上述生成模型还可以基于采用机器学习算法训练得到的生成式对抗网络获得，例如，该生成式对抗网络可以包括生成网络和判别网络。其中，生成网络可以用于生成与文本信息相对应的语音音频，以及用于指示外教发出所生成的语音音频的图像序列。判别模型可以用于判断所生成的视频(语音音频和/或图像序列)是否符合预设条件。作为示例，判别模型可以根据计算得到的损失函数的函数值与预设阈值之间的大小关系，来判断所生成的语音音频和/或图像序列是否符合预设条件。其中，上述预设条件可以包括以下至少一项：所生成的语音音频与真实录制的语音音频的相似度大于或等于预设阈值；所生成的图像序列与真实录制的视频中的图像序列的相似度大于或等于预设阈值；所生成的语音音频与用于指示外教发出所生成的语音音频的图像序列的匹配度大于或等于匹配度预设阈值。可以理解，如果发出所生成的语音音频指示的语音需要张嘴，而所生成的图像序列指示外教闭嘴，那么，可以确定所生成的语音音频与用于指示外教发出所生成的语音音频的图像序列不匹配(即匹配度小于匹配度预设阈值)。

第二步，基于所生成的图像序列和与文本信息相对应的语音音频，生成用于指示外教发出与文本信息相对应的语音音频的视频。

通常，视频包括音频和图像序列(即视频帧序列)。该第二步中生成的视频包括的音频可以为上述第一步中生成的与文本信息相对应的语音音频，该第二步中生成的视频包括的图像序列可以为上述第一步中生成的图像序列。

可以理解，目前，越来越多的人选择采用一对一的外教学习方式，来学习更加地道和纯正的外语(例如英语)。随着外语的应用越来越广泛，与国内老师相比，私人外教的优势是口语。从发音准度和用词来说，具有先天优势。然而，一对一外教的学习方式，在学习时间、学习地点、学习成本等方面，存在较大局限性。并且，真人口语练习时，用户往往存在羞涩感，从而导致学习效率低下。而上述可选的实现方式可以基于所生成的图像序列和与文本信息相对应的语音音频，生成用于指示外教发出与文本信息相对应的语音音频的视频，从而可以应用于外语学习的交互场景，通过生成外教讲师的视频与用户进行交互，可以减少真人口语练习时的羞涩感，解决了一对一外教的学习方式在学习时间、学习地点、学习成本等方面存在的局限性。

继续参见图3，图3是根据本实施例的用于生成视频的方法的应用场景的一个示意图。在图3的应用场景中，终端设备301首先获取目标用户302的用户交互信息303(图示中为“Good morning，madam”)，然后，终端设备301基于用户交互信息303，生成针对用户交互信息303的反馈信息304(图示中为“Morning”)，之后，终端设备301基于反馈信息304，生成用于指示预设人员执行与反馈信息相对应的动作的视频305。可选的，终端设备301在生成视频305之后，还可以播放视频305，以实现与目标用户302之间的信息交互。在这里，示例性的，视频305可以指示预设人员发出反馈信息304(即“Morning”)对应的语音，也即视频305中呈现的预设人员的图像的口型与反馈信息304对应的语音相匹配。

本公开的上述实施例提供的方法，通过获取目标用户的用户交互信息，然后，基于用户交互信息，生成针对用户交互信息的反馈信息，之后，基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频，这样可以通过生成视频的方式与用户进行信息交互，由此提高了交互方式的多样性，有助于避免用户与真人进行交互过程中产生的羞涩感，提高用户的表达能力。

在本实施例的一些可选的实现方式中，用户交互信息可以包括用户视频。具体地，用户视频可以是对目标用户进行图像拍摄和语音录制而获得的视频。由此，上述执行主体可以采用如下步骤来执行上述步骤202：

在用户视频中的语音音频满足预设语调调整条件的情况下，上述执行主体可以生成用于指示用户调整音频的语调的反馈信息。

其中，上述预设语调调整条件可以包括：用户视频中的语音音频的语调与该语音音频预先关联的语调不匹配。

可以理解，在用户视频中的语音音频满足预设语调调整条件的情况下，通常目标用户的语音音频的语调不正确，因而，上述可选的实现方式可以通过生成用于指示用户调整音频的语调的反馈信息，进而纠正用户的语调，以便纠正目标用户的发音。

在本实施例的一些可选的实现方式中，用户交互信息可以包括用户视频。例如，用户视频可以是对目标用户进行图像拍摄和语音录制而获得的视频。由此，上述执行主体还可以采用如下步骤来执行上述步骤202：

在用户视频中的图像中的口型符合预设口型调整条件的情况下，生成用于指示用户调整口型的反馈信息。

其中，上述预设口型调整条件可以包括：用户视频中的图像中的口型与该图像对应的语音音频(或音频帧)指示的语音不匹配。

可以理解，在用户视频中的图像中的口型符合预设口型调整条件的情况下，通常目标用户的发音口型不正确，因而，上述可选的实现方式可以通过生成用于指示用户调整口型的反馈信息，进而纠正用户的口型，以便纠正目标用户的发音。

进一步参考图4，其示出了用于生成视频的方法的又一个实施例的流程400。该用于生成视频的方法的流程400，包括以下步骤：

步骤401，获取目标用户的用户交互信息。

在本实施例中，步骤401与图2对应实施例中的步骤201基本一致，这里不再赘述。

步骤402，基于用户交互信息，生成针对用户交互信息的反馈信息。

在本实施例中，用于生成视频的方法的执行主体(例如图1所示的服务器或终端设备)可以基于用户交互信息，生成针对用户交互信息的反馈信息。其中，反馈信息为文本信息。

在本实施例中，步骤402与图2对应实施例中的步骤202基本一致，这里不再赘述。

步骤403，确定与文本信息相对应的音素信息和语调信息。

在本实施例中，上述执行主体可以确定与文本信息相对应的音素(phone)信息和语调(tone)信息。

作为示例，上述执行主体可以将文本信息输入到预先训练的音素和语调训练模型，从而得到与文本信息相对应的音素信息和语调信息。其中，上述音素和语调训练模型可以用于确定与文本信息相对应的音素信息和语调信息。例如，音素和语调训练模型可以通过如下步骤训练得到：

获取训练样本集合。其中，训练样本集合中的训练样本包括文本信息、与文本信息相对应的音素信息和语调信息。音素信息可以指示音素(例如单音素或三音素等)，也可以是预先确定的音素集合中的各个音素的后验概率(即未经归一化处理的数值)。

采用机器学习算法，将训练样本集合中的文本信息作为输入数据，将与输入的文本信息相对应的音素信息和语调信息作为期望输出数据，训练得到音素和语调训练模型。

可以理解，在上述实现方式中，可以采用机器学习算法训练得到的音素和语调训练模型，提高音素信息和语调信息确定的准确度。

可选的，上述执行主体还可以预先建立文本信息、与文本信息相对应的音素信息和语调信息之间的对应关系，从而将与文本信息建立关联关系的音素信息和语调信息，分别作为与该文本信息相对应的音素信息和语调信息。

步骤404，基于音素信息和语调信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频。

在本实施例中，上述执行主体可以基于音素信息和语调信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频。

在本实施例的一些可选的实现方式中，上述执行主体可以采用如下步骤，执行上述步骤404：

首先，基于音素信息，确定待生成的语音音频的音频帧数量，以及待生成的图像序列的图像数量。其中，音频帧数量与图像数量相等。

可以理解，由于音素信息指示的因素的数量决定了语音音频的播放时长，因而可以通过音素信息指示的音素的数量，来确定待生成的语音音频的音频帧数量。

然后，基于音素信息和语调信息，生成语音音频和图像序列。其中，语音音频包括的音频帧的数量为音频帧数量，图像序列中的图像的数量为图像数量，图像序列指示预设人员执行与语音音频相对应的动作。作为示例，上述执行主体可以首先基于音素信息和语调信息，生成语音音频，然后生成指示预设人员执行与语音音频相对应的动作(例如指示预设人员发出语音音频指示的语音)的图像序列。

最后，将语音音频和图像序列进行合成，得到用于指示预设人员执行与语音音频相对应的动作的视频。

可以理解，上述可选的实现方式可以基于数量相等的语音帧和图像，来生成用于指示预设人员执行与语音音频相对应的动作的视频，可以使得播放过程中的语音音频的音频和图像的匹配度进一步提高。

需要说明的是，除上面所记载的内容外，本申请实施例还可以包括与图2对应的实施例相同或类似的特征、效果，在此不再赘述。

从图4中可以看出，本实施例中的用于生成视频的方法的流程400可以音素信息和语调信息，来生成用于指示预设人员执行与反馈信息相对应的动作的视频，从而有助于提高所生成的视频中图像与语音的匹配程度。

在上述可选的实现方式的一些应用场景中，语音音频中的音频帧与图像序列中的图像一一对应。图像序列中的图像的口型表征：预设人员发出与该图像相对应的音频帧指示的语音。

可以理解，上述应用场景中，图像序列中的图像的口型表征预设人员发出与该图像相对应的音频帧指示的语音，由此可以使得最终生成的视频中的图像的口型和语音音频更为吻合，从而进一步提高了所生成的视频中图像与语音的匹配程度。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了一种用于生成视频的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，除下面所记载的特征外，该装置实施例还可以包括与图2所示的方法实施例相同或相应的特征，以及产生与图2所示的方法实施例相同或相应的效果。该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于生成视频的装置500包括：获取单元501，被配置成获取目标用户的用户交互信息；第一生成单元502，被配置成基于用户交互信息，生成针对用户交互信息的反馈信息；第二生成单元503，被配置成基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频。

在本实施例中，用于生成视频的装置500的获取单元501可以通过有线连接方式或者无线连接方式从其他电子设备，或者本地获取目标用户的用户交互信息。

在本实施例中，基于获取单元501获取到的用户交互信息，上述第一生成单元502可以生成针对该用户交互信息的反馈信息。

在本实施例中，基于第一生成单元502生成的反馈信息，上述第二生成单元503可以生成用于指示预设人员执行与该反馈信息相对应的动作的视频。

在本实施例的一些可选的实现方式中，反馈信息为文本信息；以及，第二生成单元503包括：第一确定子单元(图中未示出)，被配置成确定与文本信息相对应的音素信息和语调信息；第一生成子单元(图中未示出)，被配置成基于音素信息和语调信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频。

在本实施例的一些可选的实现方式中，第一生成子单元包括：确定模块(图中未示出)，被配置成基于音素信息，确定待生成的语音音频的音频帧数量，以及待生成的图像序列的图像数量，其中，音频帧数量与图像数量相等；生成模块(图中未示出)，被配置成基于音素信息和语调信息，生成语音音频和图像序列，其中，语音音频包括的音频帧的数量为音频帧数量，图像序列中的图像的数量为图像数量，图像序列指示预设人员执行与语音音频相对应的动作；合成模块(图中未示出)，被配置成将语音音频和图像序列进行合成，得到用于指示预设人员执行与语音音频相对应的动作的视频。

在本实施例的一些可选的实现方式中，语音音频中的音频帧与图像序列中的图像一一对应，图像序列中的图像的口型表征：预设人员发出与该图像相对应的音频帧指示的语音。

在本实施例的一些可选的实现方式中，用户交互信息包括用户视频；以及，第一生成单元包括：第二生成子单元(图中未示出)，被配置成响应于用户视频中的语音音频满足预设语调调整条件，生成用于指示用户调整音频的语调的反馈信息；第三生成子单元(图中未示出)，被配置成响应于用户视频中的图像中的口型符合预设口型调整条件，生成用于指示用户调整口型的反馈信息。

在本实施例的一些可选的实现方式中，第二生成单元包括：第二确定子单元(图中未示出)，被配置成响应于用户交互信息包括语音音频，从预先确定的情感类别集合中，确定语音音频所属的情感类别；第四生成子单元(图中未示出)，被配置成基于反馈信息和所确定的情感类别，生成用于指示预设人员执行目标动作的视频，其中，目标动作与反馈信息以及所确定的情感类别指示的情感相对应。

在本实施例的一些可选的实现方式中，用户交互信息包括外语语音音频，预设人员为外教；以及，第二生成单元包括：输入子单元(图中未示出)，被配置成响应于反馈信息为文本信息，将文本信息输入至针对外教预先训练的生成模型，生成与文本信息相对应的语音音频，以及用于指示外教发出所生成的语音音频的图像序列，其中，生成模型用于生成与所输入的文本信息相对应的语音音频，以及用于指示外教发出与所输入的文本信息相对应的语音音频的图像序列；第五生成子单元(图中未示出)，被配置成基于所生成的图像序列和与文本信息相对应的语音音频，生成用于指示外教发出与文本信息相对应的语音音频的视频。

在本实施例的一些可选的实现方式中，生成模型通过如下步骤训练得到：获取目标视频，其中，目标视频为对外教进行图像拍摄和语音录制而获得的视频，目标视频的播放时长大于或等于预设阈值；从目标视频中提取相匹配的图像和音频帧，得到训练样本集合，其中，训练样本集合中的训练样本包括音频帧、与音频帧相匹配的图像，以及与音频帧相对应的文本信息；采用机器学习算法，将训练样本集合中的训练样本包括的文本信息作为输入数据，将训练样本包括的音频帧和图像作为期望输出数据，训练得到生成模型。

本公开的上述实施例提供的装置，通过获取单元501获取目标用户的用户交互信息，然后，第一生成单元502基于用户交互信息，生成针对用户交互信息的反馈信息，之后，第二生成单元503基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频，这样可以通过生成视频的方式与用户进行信息交互，由此提高了交互方式的多样性，有助于避免用户与真人进行交互过程中产生的羞涩感，提高用户的表达能力。

下面参考图6，其示出了适于用来实现本公开的实施例的电子设备的计算机***600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图6所示，计算机***600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有***600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本公开的方法中限定的上述功能。

需要说明的是，本公开所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，所述程序设计语言包括面向目标的程序设计语言—诸如Python、Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

根据本公开的一个或多个实施例，本公开提供了一种用于生成视频的方法，该方法包括：获取目标用户的用户交互信息；基于用户交互信息，生成针对用户交互信息的反馈信息；基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频。

根据本公开的一个或多个实施例，本公开提供的用于生成视频的方法中，反馈信息为文本信息；以及，基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频，包括：确定与文本信息相对应的音素信息和语调信息；基于音素信息和语调信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频。

根据本公开的一个或多个实施例，本公开提供的用于生成视频的方法中，基于音素信息和语调信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频，包括：基于音素信息，确定待生成的语音音频的音频帧数量，以及待生成的图像序列的图像数量，其中，音频帧数量与图像数量相等；基于音素信息和语调信息，生成语音音频和图像序列，其中，语音音频包括的音频帧的数量为音频帧数量，图像序列中的图像的数量为图像数量，图像序列指示预设人员执行与语音音频相对应的动作；将语音音频和图像序列进行合成，得到用于指示预设人员执行与语音音频相对应的动作的视频。

根据本公开的一个或多个实施例，本公开提供的用于生成视频的方法中，语音音频中的音频帧与图像序列中的图像一一对应，图像序列中的图像的口型表征：预设人员发出与该图像相对应的音频帧指示的语音。

根据本公开的一个或多个实施例，本公开提供的用于生成视频的方法中，用户交互信息包括用户视频；以及，基于用户交互信息，生成针对用户交互信息的反馈信息，包括：响应于用户视频中的语音音频满足预设语调调整条件，生成用于指示用户调整音频的语调的反馈信息；响应于用户视频中的图像中的口型符合预设口型调整条件，生成用于指示用户调整口型的反馈信息。

根据本公开的一个或多个实施例，本公开提供的用于生成视频的方法中，基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频，包括：响应于用户交互信息包括语音音频，从预先确定的情感类别集合中，确定语音音频所属的情感类别；基于反馈信息和所确定的情感类别，生成用于指示预设人员执行目标动作的视频，其中，目标动作与反馈信息以及所确定的情感类别指示的情感相对应。

根据本公开的一个或多个实施例，本公开提供的用于生成视频的方法中，用户交互信息包括外语语音音频，预设人员为外教；以及，基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频，包括：响应于反馈信息为文本信息，将文本信息输入至针对外教预先训练的生成模型，生成与文本信息相对应的语音音频，以及用于指示外教发出所生成的语音音频的图像序列，其中，生成模型用于生成与所输入的文本信息相对应的语音音频，以及用于指示外教发出与所输入的文本信息相对应的语音音频的图像序列；基于所生成的图像序列和与文本信息相对应的语音音频，生成用于指示外教发出与文本信息相对应的语音音频的视频。

根据本公开的一个或多个实施例，本公开提供的用于生成视频的方法中，生成模型通过如下步骤训练得到：获取目标视频，其中，目标视频为对外教进行图像拍摄和语音录制而获得的视频，目标视频的播放时长大于或等于预设阈值；从目标视频中提取相匹配的图像和音频帧，得到训练样本集合，其中，训练样本集合中的训练样本包括音频帧、与音频帧相匹配的图像，以及与音频帧相对应的文本信息；采用机器学习算法，将训练样本集合中的训练样本包括的文本信息作为输入数据，将训练样本包括的音频帧和图像作为期望输出数据，训练得到生成模型。

根据本公开的一个或多个实施例，本公开提供了一种用于生成视频的装置，该装置包括：获取单元，被配置成获取目标用户的用户交互信息；第一生成单元，被配置成基于用户交互信息，生成针对用户交互信息的反馈信息；第二生成单元，被配置成基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频。

根据本公开的一个或多个实施例，本公开提供的用于生成视频的装置中，反馈信息为文本信息；以及，第二生成单元包括：第一确定子单元，被配置成确定与文本信息相对应的音素信息和语调信息；第一生成子单元，被配置成基于音素信息和语调信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频。

根据本公开的一个或多个实施例，本公开提供的用于生成视频的装置中，第一生成子单元包括：确定模块，被配置成基于音素信息，确定待生成的语音音频的音频帧数量，以及待生成的图像序列的图像数量，其中，音频帧数量与图像数量相等；生成模块，被配置成基于音素信息和语调信息，生成语音音频和图像序列，其中，语音音频包括的音频帧的数量为音频帧数量，图像序列中的图像的数量为图像数量，图像序列指示预设人员执行与语音音频相对应的动作；合成模块，被配置成将语音音频和图像序列进行合成，得到用于指示预设人员执行与语音音频相对应的动作的视频。

根据本公开的一个或多个实施例，本公开提供的用于生成视频的装置中，语音音频中的音频帧与图像序列中的图像一一对应，图像序列中的图像的口型表征：预设人员发出与该图像相对应的音频帧指示的语音。

根据本公开的一个或多个实施例，本公开提供的用于生成视频的装置中，用户交互信息包括用户视频；以及，第一生成单元包括：第二生成子单元，被配置成响应于用户视频中的语音音频满足预设语调调整条件，生成用于指示用户调整音频的语调的反馈信息；第三生成子单元，被配置成响应于用户视频中的图像中的口型符合预设口型调整条件，生成用于指示用户调整口型的反馈信息。

根据本公开的一个或多个实施例，本公开提供的用于生成视频的装置中，第二生成单元包括：第二确定子单元，被配置成响应于用户交互信息包括语音音频，从预先确定的情感类别集合中，确定语音音频所属的情感类别；第四生成子单元，被配置成基于反馈信息和所确定的情感类别，生成用于指示预设人员执行目标动作的视频，其中，目标动作与反馈信息以及所确定的情感类别指示的情感相对应。

根据本公开的一个或多个实施例，本公开提供的用于生成视频的装置中，用户交互信息包括外语语音音频，预设人员为外教；以及，第二生成单元包括：输入子单元，被配置成响应于反馈信息为文本信息，将文本信息输入至针对外教预先训练的生成模型，生成与文本信息相对应的语音音频，以及用于指示外教发出所生成的语音音频的图像序列，其中，生成模型用于生成与所输入的文本信息相对应的语音音频，以及用于指示外教发出与所输入的文本信息相对应的语音音频的图像序列；第五生成子单元，被配置成基于所生成的图像序列和与文本信息相对应的语音音频，生成用于指示外教发出与文本信息相对应的语音音频的视频。

根据本公开的一个或多个实施例，本公开提供的用于生成视频的装置中，生成模型通过如下步骤训练得到：获取目标视频，其中，目标视频为对外教进行图像拍摄和语音录制而获得的视频，目标视频的播放时长大于或等于预设阈值；从目标视频中提取相匹配的图像和音频帧，得到训练样本集合，其中，训练样本集合中的训练样本包括音频帧、与音频帧相匹配的图像，以及与音频帧相对应的文本信息；采用机器学习算法，将训练样本集合中的训练样本包括的文本信息作为输入数据，将训练样本包括的音频帧和图像作为期望输出数据，训练得到生成模型。

描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、第一生成单元和第二生成单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取目标用户的用户交互信息的单元”。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取目标用户的用户交互信息；基于用户交互信息，生成针对用户交互信息的反馈信息；基于反馈信息，生成用于指示预设人员执行与反馈信息相对应的动作的视频。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离本公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于生成视频的方法，包括：

获取目标用户的用户交互信息；

基于所述用户交互信息，生成针对所述用户交互信息的反馈信息；

基于所述反馈信息，生成用于指示预设人员执行与所述反馈信息相对应的动作的视频。

2.根据权利要求1所述的方法，其中，所述反馈信息为文本信息；以及

所述基于所述反馈信息，生成用于指示预设人员执行与所述反馈信息相对应的动作的视频，包括：

确定与所述文本信息相对应的音素信息和语调信息；

基于所述音素信息和所述语调信息，生成用于指示预设人员执行与所述反馈信息相对应的动作的视频。

3.根据权利要求2所述的方法，其中，所述基于所述音素信息和所述语调信息，生成用于指示预设人员执行与所述反馈信息相对应的动作的视频，包括：

基于所述音素信息，确定待生成的语音音频的音频帧数量，以及待生成的图像序列的图像数量，其中，所述音频帧数量与所述图像数量相等；

基于所述音素信息和所述语调信息，生成语音音频和图像序列，其中，所述语音音频包括的音频帧的数量为所述音频帧数量，所述图像序列中的图像的数量为所述图像数量，所述图像序列指示预设人员执行与所述语音音频相对应的动作；

将所述语音音频和所述图像序列进行合成，得到用于指示所述预设人员执行与所述语音音频相对应的动作的视频。

4.根据权利要求3所述的方法，其中，所述语音音频中的音频帧与所述图像序列中的图像一一对应，所述图像序列中的图像的口型表征：所述预设人员发出与该图像相对应的音频帧指示的语音。

5.根据权利要求1-4之一所述的方法，其中，所述用户交互信息包括用户视频；以及

所述基于所述用户交互信息，生成针对所述用户交互信息的反馈信息，包括：

响应于所述用户视频中的语音音频满足预设语调调整条件，生成用于指示用户调整音频的语调的反馈信息；

响应于所述用户视频中的图像中的口型符合预设口型调整条件，生成用于指示用户调整口型的反馈信息。

6.根据权利要求1-4之一所述的方法，其中，所述基于所述反馈信息，生成用于指示预设人员执行与所述反馈信息相对应的动作的视频，包括：

响应于所述用户交互信息包括语音音频，从预先确定的情感类别集合中，确定所述语音音频所属的情感类别；

基于所述反馈信息和所确定的情感类别，生成用于指示预设人员执行目标动作的视频，其中，所述目标动作与所述反馈信息以及所确定的情感类别指示的情感相对应。

7.根据权利要求1-4之一所述的方法，其中，用户交互信息包括外语语音音频，所述预设人员为外教；以及

响应于所述反馈信息为文本信息，将所述文本信息输入至针对所述外教预先训练的生成模型，生成与所述文本信息相对应的语音音频，以及用于指示所述外教发出所生成的语音音频的图像序列，其中，所述生成模型用于生成与所输入的文本信息相对应的语音音频，以及用于指示所述外教发出与所输入的文本信息相对应的语音音频的图像序列；

基于所生成的图像序列和与所述文本信息相对应的语音音频，生成用于指示所述外教发出与所述文本信息相对应的语音音频的视频。

8.根据权利要求7所述的方法，其中，所述生成模型通过如下步骤训练得到：

获取目标视频，其中，所述目标视频为对所述外教进行图像拍摄和语音录制而获得的视频，所述目标视频的播放时长大于或等于预设阈值；

从所述目标视频中提取相匹配的图像和音频帧，得到训练样本集合，其中，所述训练样本集合中的训练样本包括音频帧、与音频帧相匹配的图像，以及与音频帧相对应的文本信息；

采用机器学习算法，将所述训练样本集合中的训练样本包括的文本信息作为输入数据，将训练样本包括的音频帧和图像作为期望输出数据，训练得到生成模型。

9.一种用于生成视频的装置，包括：

获取单元，被配置成获取目标用户的用户交互信息；

第一生成单元，被配置成基于所述用户交互信息，生成针对所述用户交互信息的反馈信息；

第二生成单元，被配置成基于所述反馈信息，生成用于指示预设人员执行与所述反馈信息相对应的动作的视频。

10.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。