CN110968736B

CN110968736B - 视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN110968736B
Application number: CN201911228480.6A
Authority: CN
Inventors: 刘炫鹏
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2021-02-02
Anticipated expiration: 2039-12-04
Also published as: CN110968736A; WO2021109678A1

Abstract

本申请公开了一种视频生成方法、装置、电子设备及存储介质。所述方法包括：获取用户输入的交互信息；根据交互信息获取场景视频，所述场景视频中包括待匹配人物；获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；输出所述待播放视频。从而通过视频的方式给将信息活灵活现的显示给用户，并将视频中的特定人物的脸部特征替换为目标人脸特征，增强用户的代入感，从而提升用户获取信息的使用体验。

Description

视频生成方法、装置、电子设备及存储介质

技术领域

本申请涉及电子设备技术领域，更具体地，涉及一种视频生成方法、装置、电子设备及存储介质。

背景技术

随着科技的发展，人们的生活日益丰富，人们获取文本中的信息的方式也越来越多，越来越方便。相比于之前仅能通过阅读的方式来获取文本中的信息，现在还可以通过音频的方式来实现。

然而，通过音频的方式可以方便用户在不用看着文本的情况下，也能获取到文本信息，但较为枯燥，无趣，用户难以了解文本内容的以及环境场景相融合的具体信息，从而降低了用户获取信息的体验感。

发明内容

本申请提出了一种视频生成方法、装置、电子设备及存储介质，将信息通过视频的方式展示给用户，让用户同时从听觉和视觉上去获取信息，从而使信息能够更加生动形象地表现出来，并将用户的脸复现在视频中，以增强用户对信息的代入感，从而提升了用户获取信息的体验感。

第一方面，本申请实施例提供了一种视频生成方法，该方法包括：获取用户输入的交互信息；根据所述交互信息获取场景视频，所述场景视频中包括待匹配人物；获取用户的人脸信息并提取对应的人脸特征作为目标特征；以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；输出所述待播放视频。

可选的，根据所述交互信息获取场景视频包括：对所述交互信息进行语义理解，获取所述交互信息的语义信息；根据所述语义信息搜索相关的视频文本信息；根据所述视频文本信息生成场景视频。

可选的，根据视频文本信息生成场景视频，包括：对所述视频文本信息按照场景进行切割，获得至少一段场景文本；对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频；若生成一个子场景视频，将所述一个子场景视频作为所述场景视频；若生成多个子场景视频，将所述多个子场景视频合成为所述场景视频。

可选的，对所述至少一点场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频，包括：从所述视频文本信息中提取语义特征，所述语义特征包括人物，地点，事件；将所述视频文本信息转换为语音信息；根据所述语义特征和所述语音信息，生成以所述人物在所述地点执行所述事件的子场景视频。

可选的，根据所述交互信息获取场景视频，包括：对所述交互信息进行语义理解，获取所述交互信息的语义信息；根据所述语义信息搜索相关的视频文件作为所述场景视频。

可选的，以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征得到待播放视频，包括：对所述场景视频进行语义理解，获取整个场景视频的主角，将所述主角作为所述场景视频中的待匹配人物；将所述待匹配人物的脸部特征替换为所述目标人脸特征。

可选的，以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征得到待播放视频，包括：

显示所述场景视频中的所有人物，以指示用户从所述所有人物中选取指定人物；获取用户所选取的指定人物，以所述指定人物作为所述场景视频中的待匹配人物；将所述待匹配人物的脸部特征替换为所述目标人脸特征。

第二方面，本申请实施例提供了一种视频生成装置，该装置包括：信息输入模块，用于获取用户输入的交互信息；场景视频获取模块，用于根据所述交互信息获取场景视频，所述场景视频中包括待匹配人物；人脸获取模块，用于获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；视频生成模块，用于以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；输出模块，用于输出所述待播放视频。

可选的，所述场景视频获取模块还包括：理解单元，用于对对所述交互信息进行语义理解，获取所述交互信息的语义信息；视频生成单元，用于根据所述语义信息搜索相关的视频文本信息；根据所述视频文本信息生成场景视频。

可选的，所述视频生成单元还包括：切割子单元，用于对所述视频文本信息按照场景进行切割，获得至少一段场景文本；生成子单元，用于对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频；合成子单元，用于若生成一个子场景视频，将所述一个子场景视频作为所述场景视频；若生成多个子场景视频，将所述多个子场景视频合成为所述场景视频。

可选的，所述生成子单元还用于从所述场景文本中提取语义特征，所述语义特征包括人物，地点，事件；将所述场景文本转换为语音信息；根据所述语义特征和所述语音信息，生成以所述人物在所述地点执行所述事件的子场景视频。

可选的，所述场景视频获取模块还用于对所述交互信息进行语义理解，获取所述交互信息的语义信息；根据所述语义信息搜索相关的视频文件作为所述场景视频。

可选的，所述视频生成模块还包括：确定单元，用于对所述场景视频进行语义理解，获取整个场景视频的主角，将所述主角作为所述场景视频中的待匹配人物；替换单元，用于将所述待匹配人物的脸部特征替换为所述目标人脸特征。

可选的，所述视频生成模块还包括：显示单元，用于显示所述场景视频中的所有人物，以指示用户从所述所有人物中选取指定人物；获取用户所选取的指定人物，以所述指定人物作为所述场景视频中的待匹配人物；替换单元，用于将所述待匹配人物的脸部特征替换为所述目标人脸特征。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括一个或多个处理器；存储器，与所述一个或多个处理器电连接；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如上述应用于电子设备的方法。

第四方面，本申请实施列提供一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

本申请实施例提供的视频生成方法，装置，电子设备及存储介质，通过获取用户输入的交互信息；根据交互信息获取场景视频，所述场景视频中包括待匹配人物；获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；输出所述待播放视频。从而通过视频的方式给将信息活灵活现的显示给用户，并将视频中的特定人物的脸部特征替换为目标人脸特征，增强用户的代入感，从而提升用户获取信息的使用体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个实施例提供的视频生成方法的流程图。

图2示出了本申请实施例提供的对待匹配人物的脸部特征进行替换的示意图。

图3示出了本申请另一个实施例提供的视频生成方法的流程图。

图4示出了本申请一个实施例提供的视频生成方法中步骤S240的流程示意图。

图5示出了本申请又一个实施例提供的视频生成方法的流程图。

图6示出了本申请再一个实施例提供的视频生成方法的流程图。

图7示出了本申请一个实施例提供的视频生成装置的功能模块图。

图8示出了本申请实施例提出的用于执行根据本申请实施例的视频生成方法的电子设备的结构框图。

图9示出了本申请实施例提供的用于保存或者携带实现根据本申请实施例的视频生成方法的程序代码的存储介质。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

随着社会及进步，科技发展，人们可以通过各种方式获取信息和知识的途径越来越多，例如，阅读文本，听取音频或是观看视频都可以获取到各种信息。然而通过阅读文本或听取音频的方式较为单调，用户在阅读文本或听取音频的时间较长时，通常会感到枯燥，从而导致用户的体验较差。视频具有较好的表现方式，可以通过声音和画面为用户提供信息，然而，由于画面中的人物不是用户本身，则产生的代入感较弱，从而导致用户的体验较差。

发明人在研究中发现，在通过视频获取信息时，可以将用户的脸复现在视频中的某个人物上，以增强用户的代入感，更好的获取视频中的信息，从而增强用户的体验。

由此，发明人提出了本申请实施例中的视频生成方法、装置、电子设备及存储介质。在通过视频展示信息内容的同时，将用户的脸复现在所述视频的某个人物上，以增强用户的的代入感，从而提升用户的体验。

下面将对本申请实施例进行详细的说明。

请参阅图1，本申请实施例提供了一种视频生成方法，可应用于电子设备。其中，电子设备可以是具有显示屏、具有拍摄相机、具有音频输出功能且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于电子设备上具有的语音模块输入语音、字符输入模块输入字符等，具体的该方法可以包括：

步骤S110：获取用户输入的交互信息。

本实施例中，可通过电子设备中集成的多种信息输入模块或与电子设备连接的多种信息输入装置获取用户输入的交互信息。

在一些实施方式中，交互信息

包括但不限于语音信息、文本信息、图像信息、动作信息等各种类型的信息。其中，语音信息可以包括语音类的音频信息，例如汉语，英语音频等，以及非语言类的音频信息，例如音乐音频等；文本信息可以包括文字类的文本信息，例如中文、英文等，以及非文字类的文本信息，例如特殊符号，字符表情等；图像信息可以包括静态图像信息，例如静态图片、照片等，以及动态图像信息，例如动态图片、视频图像等；动作信息可以包括用户动作信息，例如用户手势、身体动作、表情动作等，以及终端动作信息，例如终端设备的位置、姿态和摇动、旋转等运动状态等。

可以理解的是，对应于不同种类的交互信息，可以通过终端设备上不同类型的信息输入模块进行信息采集。例如，可通过麦克风等音频输入设备采集用户的语音信息，通过触摸屏或物理按键采集用户输入的文本信息，通过摄像头采集图像信息，通过光学传感器、重力传感器等采集动作信息等。

对于同一个请求，可以对应不同的类型的交互信息。例如，用户想要输入“我想听阿拉丁的故事”的请求时，用户可以通过语音输入的方式输入对应的音频，也可以上传与阿拉丁相关的图片或输入对应的文本信息。可以理解的是，对应于同一个请求，可以仅输入一种类型的交互信息，也可以同时输入多种类型的交互信息，使用户的意图更加明确，更易被电子识别。

本实施例中，通过多种方式来获取不同种类的交互信息，使得用户的多种交互方式可以自由得到响应，不再局限于传统机械式的人机交互手段，实现了人机之间的多态交互，满足更多的交互场景。

步骤S120：根据所述交互信息获取场景视频，所述场景视频中包括待匹配人物。

在获取用户输入的交互信息后，可以对交互信息进行语义理解，获取交互信息的语义信息，以实现精准的理解用户的交互信息。

场景视频，可以是电子设备针对用户输入的交互信息，获取的与所述交互信息相关的视频信息。

作为一种实施方式，可以是根据所述语义信息，搜索与语义信息相关的视频。例如，用户输入的交互信息为“我想听阿拉丁的故事”，与该交互信息对应的场景视频可以是与阿拉丁对应的的影视作品等。

作为另一种实施方式，可以是根据所述语义信息，搜索与语义信息相关的视频文本信息。例如，用户输入的交互信息为“我想听阿拉丁的故事”，则搜索与阿拉丁相关的故事文本，根据所述故事文本生成对应的场景视频。

具体的，可以对获取到的视频文本信息按照场景进行切割，获得多段场景文本，基于每一段场景文本进行语义理解，获取每段场景文本中的人物，地点和事件，并将场景文本转换为语音信息，在生成与场景文本对应的子场景视频时，则可以根据所述人物，地点和事件，生成所述人物在所述地点执行所述事件的视频画面，将语音信息与所述视频画面合成，则可以得到与场景文本对应的子场景视频。若生成一个子场景视频，则将所述一个子场景视频作为场景视频；若生成多个子场景视频，则对所述多个子场景视频进行拼接合成为所述场景视频。

步骤S130：获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征。

获取用户的人脸信息，并根据用户的人脸信息提取人脸特征。其中，所述人脸信息可以是人脸图像，或是一段包括人脸的视频。本申请实施例中，人脸特征可以是用于描述人脸全部或部分形态的特征点集合，其记载有人脸上各个特征点在空间中的位置信息和深度信息，通过获取人脸特征即可重建人脸局部或全部的图像。在一些实施方式中，可以将获取的人脸图像或人脸视频，输入特征提取模型中，以获得人脸特征。其中，可以理解的是人脸特征可以是五官特征，例如，眉毛，眼部，鼻部，嘴部，耳部的特征。

其中获取用户的人脸信息，可以通过电子设备的摄像装置采集的用户的人脸图像，也可以是用户所提供的人脸图像。通过摄像装置采集人脸图像时，可以是在电子设备获取到用户输入的交互信息后，启动电子设备的摄像装置采集人脸图像。根据人脸信息提取人脸特征，可以是将所述获取到的人脸图像或视频在电子设备端提取人脸特征作为目标人脸；也可以是通过网络等将获取到的人脸图像或视频发送给服务器，由服务器提取人脸特征作为人脸特征。定义目标人脸特征为根据获取到的人脸信息提取到的人脸特征。

步骤S140：以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频。

在获取到与交互信息对应的场景视频，以及目标人脸特征后，可以将所述目标人脸特征替换所述场景视频中的待匹配人物的脸部特征生成待播放视频。

其中，待匹配人物为获取的场景视频中需要替换的人物。在一些实施方式中，可以是对用户指定的人物进行脸部特征点的替换。在一些实施方式中，可以是对所述场景视频进行语义理解，获取整个场景视频中的主角，对主角的脸部特征进行替换。将目标人脸特征复现在所述场景视频中待匹配人物的脸上，得到待播放视频。

对场景视频中的待匹配人物的脸部特征进行替换时，由于场景视频可以拆分为多帧图像，则可以对所述场景视频中的每一帧图像进行处理，分别检测每一帧图像中是否存在所述待匹配人物；若在某一帧图像中存在所述待匹配人物，则对所述待匹配人物的脸部特征进行定位确定替换区，将替换区替换为所述目标人脸特征。由此，该场景视频中存在所述待匹配人物画面中，所述待匹配人物的脸部特征都会被替换为目标人脸特征，而场景视频中的其他人物和场景可以不做处理，保持在所述场景视频中原有的图像。

在以目标人脸特征替换待匹配人物的脸部特征时，可以对所述待匹配人物的脸部特征进行定位，获得待替换区，并将待替换区中的脸部特征替换为所述目标人脸特征。请参阅图2，示出了脸部特征替换的示意图。其中141为场景视频中的待匹配人物，142为对所述待匹配人物的脸部特征进行定位后得到的替换区，143为获取的目标人脸特征，144为将待匹配人物的脸部特征替换为所述目标人脸特征后的人物。

步骤S150：输出所述待播放视频。

对所述待播放视频进行输出，可以是在电子设备上播放所述待播放视频，结合声音和画面内容，给用户呈现活灵活现的视频内容，并且待播放视频中将用户的脸部特征复现在所述待播放视频的人物身上，提升了用户对视频内容的代入感。

作为一种实施方式，当电子设备获取交互信息后，可以在电子设备本地对交互信息进行识别，并根据所述交互信息获取场景视频。并采集人脸信息，提取对应的目标人脸特征，对场景视频中的待匹配人物进行脸部特征的替换，以得到待播放视频。

作为一种实施方式，在电子设备与服务器建立通信连接的状态下，当电子设备获取到用户输入的交互信息后，还可以将交互信息转发至服务器，由服务器通过对交互信息进行语义理解获取对应的场景视频，电子设备将获取到的人脸信息发送给服务器，由服务器获取进行人脸特征的提取获得目标人脸特征，并将场景视频中的待匹配人物的脸部特征替换为目标人脸特征，得到待播放视频，将所述待播放视频发送给所述电子设备进行播放。从而可以减小电子设备的本地运算存储压力。

可以理解的是，步骤S120和步骤S130的前后顺序并不做限定，可以是在获取到所述交互信息后，同时进行步骤S120和步骤S130，也可以是在获取到用户输入的交互信息后，先执行步骤S130获取用户的人脸信息提取目标人脸特征，也可以是先执行步骤S120，根据交互信息获取场景视频。在实际的执行过程中，可以根据需要进行设置，在此不做具体的限定。

本申请实施例提出的视频生成方法，获取用户输入的交互信息；根据交互信息获取场景视频，所述场景视频中包括待匹配人物；获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；输出所述待播放视频。从而将信息通过语音和画面相结合的方法，活灵活现的展现在用户面前，同时将用户的脸复现在视频的人物上，交互更直观，增强用户对信息的代入感，从而提升了用户获取信息的体验。

请参阅图3，本申请另一实施例提供了一种视频生成方法，本实施例在前述实施例的基础上，重点描述了根据视频文本信息生成场景视频的过程，该方法可以包括：

步骤S210：获取用户输入的交互信息。

本实施例中，步骤S210的具体描述可以参考上一实施例中的步骤S110，本实施例对此不再赘述。

步骤S220：对所述交互信息进行语义理解，获取所述交互信息的语义信息。

本实施例中，针对交互信息的不同类型，可以将交互信息输入与交互信息类型对应的识别模型中，并基于识别模型对该交互信息进行识别，获取对应的语义信息。

作为一种实施方式，当用户输入的交互信息为语音信息时，可以基于语音识别模型对交互信息进行识别，获取对应的语义信息；当交互信息为文本信息时，可以基于文字识别模型，获取对应的语义信息；当交互信息为图像信息时，可以基于图像识别模型对交互信息进行识别，获取对应的语义信息；当交互信息为动作信息时，可以基于肢体语言识别模型、终端姿态识别模型或手势识别模型来对交互信息进行识别，获取对应的语义信息。

步骤S230：根据所述语义信息搜索相关的视频文本信息。

在获取到交互信息对应的语义信息后，可以了解到用户的真正的意图，实现更加精准的搜索，根据所述语义信息搜索相关的视频文本信息，可以理解的是，视频文本信息可以是指描述整个视频内容的文本信息。例如，视频为阿拉丁，那么描述整个视频内容的文本信息则为故事《阿拉丁与神灯》。

作为一种实施方式中，通过对交互信息的语义理解获取语义信息，可以根据语义信息在网络上搜索相关的视频文本信息。例如，用户的输入的交互信息为“听阿拉丁故事”。通过语义理解可以知道用户是想要听取阿拉丁的故事，则可以搜索与阿拉丁相关的视频文本信息，即为《阿拉丁与神灯》的故事文本。

作为一种实施方式，可以预先建立文本数据库，所述文本数据库中存储着多个标注后的视频文本信息，其中，标注的内容可以是场景，人物，段落等。在获取到语义信息后，则可以根据所述语义信息在所述数据库中搜索对应的视频文本信息。可以理解的是，可根据实际的需求进行视频文本信息的标注，在此不做限定。

步骤S240：根据所述视频文本信息生成场景视频。

在获取到视频文本信息后，则可以依据视频文本信息生成对应的场景视频，具体的，可以包括以下步骤，可参阅图4所示出的方法流程图。

步骤S241：对所述视频文本信息按照场景进行切割，获得至少一段场景文本。

通常，视频文本信息中涉及多个场景，则可以将视频文本信息按照场景进行切割，获取对应的场景文本。

作为一种实施方式，对所述视频文本信息进行切割，可以是预先对所述视频文本信息进行人工标注，其中，标注的内容可以是场景信息，人物信息，时间信息等。可根据实际的需求进行人工标注，在此不做限定。在标注完成后，可以将标注后的视频文本信息存储在数据库中，可以通过查询所述数据库获取标注后的视频文本信息。则可以根据视频文本信息中的标注信息，对所述视频文本信息进行切割，获得一段或多段场景文本。若所述视频文本信息只有一个场景，则只会获得一段场景文本，若涉及多个场景，则可以获得多段场景文本。

例如，获取的标注后的视频文本信息中包括两个场景，其中一个场景为街道，另一个为屋内。对该视频文本信息进行切割，则可以获取到两段场景文本。进一步的，还可以为所述场景文本添加所述场景文本在所述视频文本信息中的位置信息，以便于确定场景的发生顺序。

作为一种实施方式，对所述视频文本信息进行切割，可以是将所述视频文本信息输入第一深度学习模型中进行切割。可以理解的是，第一深度学习模型，可以通过大量的数据进行训练，以实现对所述视频文本信息按照场景进行切割，从而获取到视频文本信息按照场景切割后的至少一个场景文本。

步骤S242：对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频。

对所述视频文本信息按照场景进行切割后，可以获取到至少一段场景文本。其中，若切割后获得一段场景文本，则对该一段场景文本进行语义理解，生成对应所述一段场景文本的子场景视频；若获取到多个场景文本，则分别对每一段场景文本进行语义理解，生成分别对应每一段场景文本的子场景视频。

具体的，可以是对所述场景文本进行语义理解，从所述场景文本中提取语义特征，所述语义特征包括人物，地点，事件；将所述场景文本转换为语音信息；根据所述语义特征和所述语音信息，生成以所述人物在所述地点执行所述事件的子场景视频。

其中，所述子场景视频中的音频可以由场景文本转换成的音频信息；所述子场景视频中的画面内容可以根据语义特征中的人物，事件，地点等信息获取到。

作为一种实施方式，可以预先建立图像数据库，并为所述图像数据库的中每个图像添加对应的标签，则可以根据人物获取与该人物对应的图像信息，根据事件获取与该事件对应的动作，根据地点获取与该地点对应的场景，将获取的图像进行叠加合成，则可以得到以所述人物在所述地点执行所述事件的画面内容。

作为一种实施方式，可以是根据所述人物，事件，地点，在网络上搜索对应的画面的内容，并将画面内容进行叠加合成，得到以所述人物在所述地点获取所述事件的画面内容。

例如，场景文本为“阿拉丁来到地道口，因为最上面的一级台阶离地面跨度太大，迈不上去，便请求魔法师拉他一把”。对所述场景文本进行语义理解，提取对应的语义特征，其中语义特征中包括人物阿拉丁和魔法师，地点为地道口，事件为阿拉丁请求魔法师拉他。

则可以获取阿拉丁和魔法师的人物形象，伸手请求拉他一把的动作，以及地道口的场景，将画面进行合成叠加，则可以生成阿拉丁在地道口请求魔法师拉他一把的画面内容。将场景文本转换为语音信息，将所述画面内容和语音信息进行合成，则可以生成所述子场景视频。

作为一种实施方式，将场景文本转换为语音信息时，若已经获取到用户的人脸信息，则可以对用户的人脸信息进行识别，识别人脸信息中人物的性别，年龄等信息，将所述语音信息的音色与所述人物进行匹配。例如，识别的人脸信息为女，年龄10岁，则可以将所述语音信息的音色处理为甜美型，以贴近用户的身份形象，使得用户在听到所述语音信息时，产生更好的代入感。

步骤S243：若生成一个子场景视频，将所述一个子场景视频作为所述场景视频。

若对视频文本信息进行切割后，仅获得一段场景文本，则对应所述场景文本生成一个子场景视频，则将所述一个子场景视频作为所述场景视频。

步骤S244：若生成多个子场景视频，将所述多个子场景视频合成为所述场景视频。

若对视频文本信息进行切割后，获得多段场景文本，则根据每一段场景文本生成对应的多个子场景视频。将所述多个子场景视频按照视频文本信息的发生顺序，将多个子场景视频合成为场景视频。

作为一种实施方式，可以在生成所述子场景视频时，在所述子场景视频中添加对应的场景文本在所述视频文本信息中的位置信息，其中，所述位置信息可以是场景文本在所述视频文本信息中所在的段落信息，例如，场景文本在视频文本信息中的段落为第12段，则可以在生成与所述场景文本对应的子场景视频时，添加标注位置标注为第12段。

可以理解的是，标注可以通过人工对场景文本进行标注时，同时也标注的对应的段落信息，在通过所述场景文本生成对应的子场景视频时，则可以获取所述场景文本的段落信息作为位置标注，添加进所述子场景视频中。

将多个子场景视频合成为场景视频，可以是获取每个子场景视频中的位置标注，按照所述位置标注的先后顺序对所述子场景视频进行拼接合成得到所述场景视频。例如，生成了三个子场景视频，分别为第一子场景视频，第二子场景视频，第三子场景视频。其中，第一子场景视频中的位置标注为第1段，第二子场景视频中的位置标注为第12段，第三子场景视频中的位置标注为第6段，则可以通过所述位置标注，确定各个子场景视频的发生顺序为第一子场景视频，第三子场景视频，第二子场景视频，则可以按照该顺序将三个子场景视频进行拼接得到所述场景视频。

可以理解的是，根据视频文本信息生成的场景视频中，可以包括多个人物，其中一个人物则可以是待匹配人物，以对所述待匹配的人物的脸部特征进行替换。

步骤S250：获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征。

步骤S260：以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频。

步骤S270：输出所述待播放视频。

步骤S250至步骤S270可参照前述实施例对应部分，在此不再赘述。

本申请实施例提出视频生成方法，通过交互信息获取视频文本信息，将所述视频文本信息按照场景进行切割，获得至少一段场景文本；对所述至少一段场景文本进行语义理解，分别生成对应每一段场景的子场景视频；若生成一个子场景视频，将所述子场景视频作为所述场景视频；若生成多个子场景视频，将所述多个子场景视频合成为所述场景视频。可以将视频文本信息转换为对应的场景视频，以给用户展示活灵活现的信息内容。

请参阅图5，本申请另一实施例提供了一种视频生成方法，本实施例在前述实施例的基础上，重点描述了根据交互信息获取场景视频的过程，该方法可以包括：

步骤S310：获取用户输入的交互信息。

步骤S320：对所述交互信息进行语义理解，获取所述交互信息的语义信息。

步骤S310至步骤S320可参照前述实施例部分，在此不再赘述。

步骤S330：根据所述语义信息搜索相关的视频文件作为所述场景视频。

获取到所述交互信息对应的语义信息后，则可以直接根据所述语义信息搜搜相关的视频文本作为所述场景视频。例如，用户的交互信息为“怎么做红烧肉”，通过语义理解可以获知用户是想知道怎么做红烧肉，则搜索与做红烧肉相关的视频教程，将所述搜索的到的视频教程作为所述场景视频。

在搜索相关的视频教程时，可能获取到多个视频教程，则可以根据视频的播放量以及评论量将播放量或评论量最高的视频教程作为所述场景视频。可以理解的是，如何根据从搜索到的视频教程中选取场景视频可以根据实际的需求进行设置，在此不做限定。

可以理解的是，在根据语义信息进行搜索时，可以是在专门的数据库中进行搜索，也可以是通过网络进行网络查找，可根据实际的需求进行设置，在此不做限定。

步骤S340：获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征。

步骤S350：以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频。

步骤S360：输出所述待播放视频。

步骤S340至步骤S360可参照前述实施例对应部分，在此不再赘述。

本申请实施例提出视频生成方法，通过获取用户输入的交互信息；对所述交互信息进行语义理解，获取所述交互信息的语义信息，根据所述语义信息搜索相关的视频文件作为所述场景视频，获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；输出所述待播放视频。可以语义信息搜索相关的视频，从而通过视频的方式给将信息活灵活现的显示给用户，通过将所述视频中的待匹配人物的脸部特征进行替换，增强用户的代入感，从而提升用户获取信息的使用体验。

请参阅图6，本申请又一实施例提供了一种视频生成方法，本实施例在前述实施例的基础上，重点描述了确定所述场景视频中待匹配人物的过程，具体的该方法可以包括：

步骤S410：获取用户输入的交互信息。

步骤S420：根据所述交互信息获取场景视频。

步骤S430：确定所述场景视频中的待匹配人物。

在根据所述交互信息获取到的场景信息中，可以包括多个人物。在所述多个人物中，可以选择一个人物作为待匹配人物，进行脸部特征的替换。

作为一种实施方式，可以是对获取到的场景视频进行语义理解，获取整个场景视频中的主角，将所述主角作为待匹配人物，进行后续的脸部特征的替换。例如，获取到的场景视频为阿拉丁相关的视频，则可以对所述场景视频进行语义理解，获知所述场景视频中的主角为阿拉丁，则可以将阿拉丁作为待匹配人物。

具体的，在对所述场景视频进行语义理解时，可以对场景视频中每个人物出现的次数以及时长进行统计，将出现次数最多的人物作为所述场景视频的主角。例如，在一段场景视频中，出现的人物有人物A，人物B和人物C，其中，人物A出现2次，第一次出现的时长为50s，第二次出现的时长为10s；人物B出现一次，时长为10s；人物C出现1次，出现的时长为1s，结合每个人物出现的次数及时长，则可以确定人物A为该场景视频的主角。那么，人物A则可以作为所述场景视频的待匹配人物。

作为一种实施方式，可以是获取所述场景视频中所出现的人物，显示在所述场景视频中出现的人物，以指示用户从所显示的人物中选取指定人物，获取用户所选取的指定人物，以所述指定人物作为所述场景视频中的待匹配人物。

步骤S440：获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征。

步骤S450：以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频。

步骤S460：输出所述待播放视频。

步骤S440至步骤S460可参照前述实施例对应部分，在此不再赘述。

请参阅图7，其示出了本申请实施例提供的一种视频生成装置500，应用于电子设备，所述装置500包括信息输入模块510，场景视频获取模块520，人脸获取模块530，视频生成模块540以及输出模块550。

所述信息输入模块510，用于获取用户输入的交互信息；场景视频获取模块520，用于根据所述交互信息获取场景视频，所述场景视频中包括待匹配人物；人脸获取模块530，用于获取用户的人脸信息并提取对应的人脸特征作为目标特征；视频生成模块540，用于以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；输出模块550，用于输出所述待播放视频。

所述场景视频获取模块520还包括：理解单元，用于对所述交互信息进行语义理解，获取所述交互信息的语义信息；视频生成单元，用于根据所述语义信息搜索相关的视频文本信息；根据所述视频文本信息生成场景视频。

所述视频生成单元还包括：切割子单元，用于对所述视频文本信息按照场景进行切割，获得至少一段场景文本；生成子单元，用于对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频；合成子单元，用于若生成一个子场景视频，将所述一个子场景视频作为所述场景视频；若生成多个子场景视频，将所述多个子场景视频合成为所述场景视频。

所述生成子单元还用于从所述场景文本中提取语义特征，所述语义特征包括人物，地点，时间；将所述场景文本转换为语音信息；根据所述语义特征和所述语音信息，生成以所述人物在所述地点执行所述事件的子场景视频。

所述场景视频获取模块520还用于对所述交互信息进行语义理解，获取所述交互信息的语义信息；根据所述语义信息搜索相关的视频文件作为所述场景视频。

所述视频生成模块540还包括：确定单元，用于对所述场景视频进行语义劣迹，获取整个场景视频的主角，将所述主角作为所述场景视频中的待匹配人物；替换单元，用于将所述待匹配人物的脸部特征替换为所述目标人脸特征。

所述视频生成模块540还包括：显示单元，用于显示所述场景视频中的所有人物，以指示用户从所述所有人物中选取指定人物；获取用户所选取的指定人物，以所述指定人物作为所述场景视频中的待匹配人物；替换单元，用于将所述待匹配人物的脸部特征替换为所述目标人脸特征。

需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

综上所述，通过获取用户输入的交互信息；根据交互信息获取场景视频，所述场景视频中包括待匹配人物；获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；输出所述待播放视频。从而通过视频的方式给将信息活灵活现的显示给用户，并将视频中的特定人物的脸部特征替换为目标人脸特征，增强用户的代入感，从而提升用户获取信息的使用体验。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图8，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备600可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备600可以包括一个或多个如下部件：处理器610、存储器620，以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器620中并被配置为由一个或多个处理器610执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器610可以包括一个或者多个处理核。处理器610利用各种接口和线路连接整个电子设备600内的各个部分，通过运行或执行存储在存储器620内的指令、程序、代码集或指令集，以及调用存储在存储器620内的数据，执行电子设备600的各种功能和处理数据。可选地，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块通信芯片进行实现。

存储器620可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器620可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备600在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图9，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质700中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质700可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质700包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

获取用户输入的交互信息；

根据所述交互信息获取场景视频，所述场景视频中包括待匹配人物，包括：

对所述交互信息进行语义理解，获取所述交互信息的语义信息；

根据所述语义信息搜索相关的视频文本信息，其中，所述视频文本信息为描述整个视频内容的文本信息；

对所述视频文本信息按照场景进行切割，获得至少一段场景文本；

对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频；

若生成一个子场景视频，将所述一个子场景视频作为所述场景视频；

若生成多个子场景视频，将所述多个子场景视频合成为所述场景视频，其中，所述场景视频包括语音信息以及视频画面；

获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；

以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；

输出所述待播放视频。

2.根据权利要求1所述的方法，其特征在于，所述对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频，包括：

从所述场景文本中提取语义特征，所述语义特征包括人物，地点，事件；

将所述场景文本转换为语音信息；

根据所述语义特征和所述语音信息，生成以所述人物在所述地点执行所述事件的子场景视频。

3.根据权利要求1所述的方法，其特征在于，所述根据所述交互信息获取场景视频，包括：

根据所述语义信息搜索相关的视频文件作为所述场景视频。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征得到待播放视频，包括：

对所述场景视频进行语义理解，获取整个场景视频的主角，将所述主角作为所述场景视频中的待匹配人物；

将所述待匹配人物的脸部特征替换为所述目标人脸特征。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征得到待播放视频，包括：

显示所述场景视频中的所有人物，以指示用户从所述所有人物中选取指定人物；

获取用户所选取的指定人物，以所述指定人物作为所述场景视频中的待匹配人物；

将所述待匹配人物的脸部特征替换为所述目标人脸特征。

6.一种视频生成装置，其特征在于，所述装置包括：

信息输入模块，用于获取用户输入的交互信息；

场景视频获取模块，用于根据所述交互信息获取场景视频，所述场景视频中包括待匹配人物；

所述场景视频获取模块包括：理解单元，用于对所述交互信息进行语义理解，获取所述交互信息的语义信息；视频生成单元，用于根据所述语义信息搜索相关的视频文本信息，其中，所述视频文本信息为描述整个视频内容的文本信息；切割子单元，用于对所述视频文本信息按照场景进行切割，获得至少一段场景文本；生成子单元，用于对所述至少一段场景文本进行语义理解，分别生成对应每一段场景文本的子场景视频；合成子单元，用于若生成一个子场景视频，将所述一个子场景视频作为所述场景视频；若生成多个子场景视频，将所述多个子场景视频合成为所述场景视频，其中，所述场景视频包括语音信息以及视频画面；

人脸获取模块，用于获取用户的人脸信息并提取对应的人脸特征作为目标人脸特征；

视频生成模块，用于以所述目标人脸特征替换所述场景视频中待匹配人物的脸部特征生成待播放视频；

输出模块，用于输出所述待播放视频。

7.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，与所述一个或多个处理器电连接；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1至5任一项所述的方法。

8.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1至5任一项所述的方法。