CN116017043A

CN116017043A - 视频生成方法、装置、电子设备和存储介质

Info

Publication number: CN116017043A
Application number: CN202211589769.2A
Authority: CN
Inventors: 严庆辉
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-04-25

Abstract

本申请公开了一种视频生成方法、装置、电子设备和存储介质。属于电子设备技术领域。其中，视频生成方法，包括：识别目标文本，根据目标文本中的多个关键词确定出多个标签；接收对多个标签中的目标标签的第一输入；响应于第一输入，显示目标媒体素材，目标媒体素材的内容与目标标签的内容匹配；根据目标媒体素材生成目标视频。

Description

视频生成方法、装置、电子设备和存储介质

技术领域

本申请属于电子设备技术领域，具体涉及一种视频生成方法、装置、电子设备和存储介质。

背景技术

在相关技术中，用户通过创作视频网络日志(video blog，vlog)来记录和分享生活。

在创作vlog时，用户需要拍摄并保存多段视频或图片素材，然后撰写vlog脚本，按照vlog脚本，逐次在拍摄好的众多素材中，逐一找到需要的素材，在逐一导入视频剪辑软件中，在视频剪辑软件中手动调整视频顺序后，再开始视频编辑。

该过程的操作复杂，导致创作vlog的步骤复杂。

发明内容

本申请实施例的目的是提供一种视频生成方法、装置、电子设备和存储介质，能够简化创造vlog的操作步骤。

第一方面，本申请实施例提供了一种视频生成方法，包括：

识别目标文本，根据目标文本中的多个关键词确定出多个标签；

接收对多个标签中的目标标签的第一输入；

响应于第一输入，显示目标媒体素材，目标媒体素材的内容与目标标签的内容匹配；

根据目标媒体素材生成目标视频。

第二方面，本申请实施例提供了一种视频生成装置，包括：

识别模块，用于在显示目标文本的情况下，对目标文本进行识别，在目标文本中确定出N个标签信息，N为正整数；

识别模块，用于识别目标文本，根据目标文本中的多个关键词确定出多个标签；

接收模块，用于接收对多个标签中的目标标签的第一输入；

显示模块，用于响应于第一输入，显示目标媒体素材，目标媒体素材的内容与目标标签的内容匹配；

视频生成模块，用于根据目标媒体素材生成目标视频。

第三方面，本申请实施例提供了一种电子设备，包括处理器和存储器，存储器存储可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，该可读存储介质上存储程序或指令，该程序或指令被处理器执行时实现如第一方面的方法的步骤。

第五方面，本申请实施例提供了一种芯片，该芯片包括处理器和通信接口，该通信接口和该处理器耦合，该处理器用于运行程序或指令，实现如第一方面的方法的步骤。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面的方法。

在本申请实施例中，用户输入目标文本，该目标文本即视频vlog的脚本文本。电子设备自动对目标文本进行识别，通过提取关键词的方式，在其中确定标签信息，这些标签信息也是与用户拍摄的媒体素材相关联的标签。

用户通过第一输入，在自动识别出的多个标签中，选择用户创作vlog的目标标签，通过目标标签，自动在电子设备的媒体素材库中，筛选出内容与目标标签的内容相匹配的目标媒体素材，并显示与用户选择的目标标签队一行的目标媒体素材，根据目标媒体素材来生成最终的vlog视频，也即目标视频，过程中不需要用户手动浏览素材库来找到需要的素材，也不需要用户手动将挑选好的素材导入视频剪辑软件，简化了创作vlog视频的操作步骤。

附图说明

图1示出了根据本申请实施例的视频生成方法的流程图；

图2示出了根据本申请实施例的视频生成方法的界面图之一；

图3示出了根据本申请实施例的视频生成方法的界面图之二；

图4示出了根据本申请实施例的视频生成方法的界面图之三；

图5示出了根据本申请实施例的视频生成装置的结构框图；

图6示出了根据本申请实施例的电子设备的结构框图；

图7为实现本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频生成方法、装置、电子设备和存储介质进行详细地说明。

在本申请的一些实施例中，提供了一种视频生成方法，图1示出了根据本申请实施例的视频生成方法的流程图，如图1所示，该方法包括：

步骤102，识别目标文本，根据目标文本中的多个关键词确定出多个标签；

步骤104，接收对多个标签中的目标标签的第一输入；

步骤106，响应于第一输入，显示目标媒体素材，目标媒体素材的内容与目标标签的内容匹配；

步骤108，根据目标媒体素材生成目标视频。

在本申请实施例中，目标文本即用户编辑好的vlog文字脚本，用户可以在如记事本、备忘录或其他文本编辑软件中输入该目标文本。

如果电子设备检测到正在显示目标文本，则可以弹出对应的提示窗，询问用户是否为vlog文字脚本，如果用户选择确定，则自动对当前显示的目标文本进行语义识别，通过语义识别提取关键词的技术，在目标文本中确定出至少一个标签，其中，标签的内容与电子设备的媒体素材库中的媒体素材的内容相对应。

举例来说，图2示出了根据本申请实施例的视频生成方法的界面图之一，如图2所示，目标文本200中包括“1月2日”、“公园”、“宠物小狗”等关键词，则在识别出这些关键词后，在原始的目标文本200中高亮显示这些标签202。

在高亮显示标签202后，进一步接收用户对标签202中的目标标签204的第一输入，当用户通过第一输入选中目标标签204时，以目标标签204的内容为“1月2日”为例，则将电子设备的媒体素材库，如相册软件中，拍摄日为“1月2日”的媒体素材确定为目标媒体素材。

用户通过点击多个目标标签，从而在媒体素材库确定出一个或多个目标媒体素材。在得到这些目标媒体素材后，电子设备自动将这些媒体素材进行拼接处理，并形成为最终的目标视频，即用户想要的vlog视频。

本申请实施例能够自动在电子设备的媒体素材库中，筛选出与目标标签的内容相匹配的目标媒体素材，并自动根据目标媒体素材来生成最终的vlog视频，也即目标视频，过程中不需要用户手动浏览素材库来找到需要的素材，也不需要用户手动将挑选好的素材导入视频剪辑软件，简化了创作vlog视频的操作步骤。

在本申请的一些实施例中，目标媒体素材的数量为多个，根据目标媒体素材生成目标视频，包括：

根据多个目标媒体素材对应的多个目标标签的顺序，对多个目标媒体素材进行排序，得到排序后的图像素材序列；其中，多个目标标签的顺序为多个目标标签对应的关键词在目标文本中的顺序；

根据图像素材序列生成目标视频。

在本申请实施例中，图3示出了根据本申请实施例的视频生成方法的界面图之二，如图3所示，目标文本300中，高亮显示有多个标签302，用户按照顺序选中了这些目标标签304，则在当前的显示界面中，按照用户选中目标标签304的顺序，来显示按照相同顺序排序后的目标媒体素材306，这些目标媒体素材306形成为图像素材序列308。

举例来说，用户按照顺序选中了标签“1月2日”、“公园”和“小狗”，则按照相同的顺序，显示对应的素材。

本申请实施例通过根据用户选中目标标签的顺序，生成图像素材序列，并按照图像素材序列来生成vlog视频，即目标视频，无需用户再次手动对图像素材进行排序或拼接，减少了创作vlog的操作步骤。

在本申请的一些实施例中，所述根据所述图像素材序列生成所述目标视频，包括：

接收对所述多个目标标签的第二输入；

响应于所述第二输入，确定与所述多个目标标签对应的多个目标音频素材；

按照所述多个目标标签的顺序，对所述多个目标音频素材进行排序，得到音频素材序列；

根据所述音频素材序列和所述图像素材序列生成所述目标视频。

在本申请实施例中，在得到图像素材序列后，用户可以进一步通过对目标标签进行第二输入，在目标音频素材库中，查找到音乐标签与目标标签匹配的一个或多个目标音频素材，作为当前创作中的vlog视频的目标音频素材，并根据目标标签被选中的顺序，对这些目标音频素材进行排序，得到音频素材序列，并对音频素材序列和图像素材序列进行合成，得到同时包括画面和背景音乐的vlog视频。

具体地，目标音频素材与目标标签的内容存在预设的映射关系，如目标标签的内容为“公园”，则该目标标签对应的音频素材为恬静的音乐。如果目标标签的内容为“运动”，则目标标签对应的音频素材为激昂的音乐。

本申请实施例能够根据用户选择的关键词标签来自动匹配合适的音乐素材作为vlog视频的背景音乐，无需用户手动剪辑或添加背景音乐，简化了生成vlog视频的步骤。

在本申请的一些实施例中，根据图像素材序列生成目标视频，包括：

在目标文本中确定与多个目标标签一一对应的多个语句；

按照多个目标标签的顺序，对多个语句进行排序，得到语句序列；

根据语句序列和图像素材序列生成目标视频。

在本申请实施例中，在用户选择一个目标标签后，可以在原始的目标文本中，将目标标签所在的语句摘选出来，并根据用户选择多个目标标签的先后顺序，对这些语句进行排序，形成为语句序列。

在生成目标视频时，根据语句序列和图像素材序列，来生成最终的vlog视频。具体地，比如目标文本中有一个句子为“今天去了公园”，用户选择“公园”为目标标签，根据该目标标签确定了公园的图像，并将“今天去了公园”这个语句摘选出来，在生成目标视频时，在公园的图像中添加“今天去了公园”这句话，作为图像的配文。

按照相同的方式，在每个图像素材中，添加对应排序的语句，从而自动在vlog视频里配上文字。

本申请实施例通过根据用户选择的目标标签，对原始的目标文本进行分割，从中摘取对应的语句作为vlog视频的配文，简化了vlog视频的剪辑步骤。

在本申请的一些实施例中，目标标签包括目标时间信息、目标位置信息和目标对象信息；

显示目标媒体素材，包括：

根据目标对象信息，确定与目标对象匹配的对象图像；

在预设的媒体库中，确定素材拍摄时间与目标时间信息相匹配，或素材拍摄位置与目标位置信息相匹配，或图像内容与对象图像相匹配的目标媒体素材。

在本申请实施例中，目标标签至少包括目标时间信息、目标位置信息和目标对象信息。

其中，目标时间信息具体为拍摄媒体素材的时间，目标位置信息具体为拍摄媒体素材的地理位置，目标对象信息具体为拍摄的媒体素材，如图像或视频中包含的拍摄对象，如某个人物，如家人、朋友等，或某种景物，如建筑、花草等。

在用户选择了目标时间、目标地点和目标对象后，电子设备在预设的媒体库中，首先根据一级标签，也即时间和地点，选择拍摄时间与拍摄地点与用户选择的目标时间和目标地点相匹配的媒体素材，将这些媒体素材形成为媒体素材集合。

进一步地，根据用户选择的目标对象的二级标签，对媒体素材集合中的每一份媒体素材进行图形识别，判断其拍摄内容中，是否包括目标对象。如果一份媒体素材的拍摄内容中包括目标对象，则对其进行显示，如果不包括目标对象，则将其舍弃。

最终得到拍摄时间为目标时间、拍摄地点为目标地点且拍摄内容中包括目标对象的媒体素材，用户可以根据自身喜好或需求，在显示的媒体素材中选择目标媒体素材。

本申请实施例通过基于拍摄时间、拍摄地点和拍摄对象来自动选择满足用户需求的媒体素材，不需要用户手动在媒体素材库的海量信息中手动筛选需要的素材，简化了创作vlog视频的步骤。

在本申请的一些实施例中，目标对象信息为目标对象的名称，根据目标对象信息，确定与目标对象匹配的对象图像，包括：

根据名称，获取目标对象的图像；

在预设的媒体库中，确定图像内容与图像相匹配的目标媒体素材。

在本申请实施例中，目标对象信息具体为目标对象的名称，以目标对象是人为例，则目标对象信息可以是这个人的姓名、昵称或与当前用户的关系等。如果目标对象是建筑，则目标对象信息可以是这个建筑的建筑名、地址等。

在得到目标对象的名称后，可以通过互联网来获取该目标对象的图像，也可以在当前电子设备的存储空间中，如相册中查找该目标对象的图像。举例来说，目标对象为某个人，则可以通过互联网查找这个人的照片，或者在当前电子设备的相册中搜索这个人的照片，并根据查找到的照片，也即目标对象的图像，在预设的媒体库中，也即保存有vlog素材的媒体库中，根据图像识别技术，去匹配与目标对象的图像相匹配的目标媒体素材。

本申请实施例通过根据目标对象的名称来查找目标对象的图像，并根据目标对象的图像在预设媒体库中匹配对应的vlog媒体素材，无需用户手动在海量素材中查找需要的素材，简化了vlog编辑步骤。

在本申请的一些实施例中，媒体素材具体包括图片素材和视频素材中的人一种，或两种组合。用户可以根据不同的目标标签，选择多个目标媒体素材。

具体地，图4出了根据本申请实施例的视频生成方法的界面图之三，如图4所示，在用户选择了目标媒体素材之后，电子设备显示素材预览界面400，素材预览界面400中，显示有目标文本402，和用户选择的多个目标媒体素材404。

其中，在目标文本402中，包括高亮显示的多个目标标签4022，其中，在每个目标标签4022旁，均显示有标签与目标标签相匹配的一个或多个目标媒体素材404，目标文本402和这些目标媒体素材404形成为用户创作中的vlog视频的图文手账，用户可以根据素材预览界面400中的图文手账判断选择的素材是否为需要的素材。

在用户确定选择的素材无误后，对素材预览界面进行用于确定生成视频的第三输入，在接收到第三输入后，电子设备根据用户选中的，当前高亮显示的目标标签，确定与目标标签相匹配的目标音频素材，能够理解的是，电子设备包括目标音频素材库，目标音频素材库中包括多个目标音频素材，每个目标音频素材上均配置有一个或多个音乐标签，在目标音频素材库中，查找到音乐标签与目标标签匹配的一个或多个目标音频素材，作为当前创作中的vlog视频的目标音频素材。

同时，在接收到第三输入后，电子设备根据用户选择多个目标媒体素材的选择顺序，也即第二输入的顺序，将这些被第二输入选中的目标媒体素材排序为素材序列。

按照素材序列中图片素材和视频素材的排序，依次合并这些媒体素材，并添加目标音频素材作为背景音乐，合成为目标视频，也即用户希望创作的vlog视频。

能够理解的是，在合成目标视频时，还可以根据预设的逻辑，如素材的拍摄时间顺序，地理位置顺序等，来对目标媒体素材进行排序，得到不同的素材序列，从而生成不同风格的vlog视频。

在一些实施方式中，在生成目标视频时，还可以在不同的目标媒体素材之间，添加专场特效，如淡入淡出特效、快闪特效等，用户还可以选择不同风格的视频滤镜，来生成不同效果的vlog视频，本申请对此不作限制。

本申请实施例能够根据用户编写的文本脚本，自动筛选对应的媒体素材，并根据用户选择的目标标签和目标媒体素材，显示预览界面，帮助用户快速预览vlog视频，并根据用户选择的素材自动生成vlog视频，降低了vlog视频的拍摄门槛。

在本申请的一些实施例中，在根据目标媒体素材生成目标视频之后，视频生成方法还包括：

播放目标视频；

接收对目标视频的第三输入；

响应于第三输入，执行目标操作，目标操作包括：保存目标视频、分享目标视频或删除目标视频。

在本申请实施例中，在得到目标视频后，电子设备根据生成的目标视频，自动播放该目标视频，从而帮助用户掌握目标视频的创作效果。在目标视频的播放过程中或播放结束后，用户可以通过第三输入，来对目标视频进行保存、分享或删除操作。

具体地，如果用户对当前得到的目标视频感到满意，则可以将该视频保存在本地，也可以在保存的同时，将目标视频分享给其他用户观看，如通过社交软件来发布目标视频。

如果用户对得到的目标视频不满意，则可以删除目标视频，并重新生成vlog视频。

本申请实施例简化了v创作log视频的操作步骤，降低了创作vlog视频的门槛。

本申请实施例提供的视频生成方法，执行主体可以为视频生成装置。本申请实施例中以视频生成装置执行视频生成的方法为例，说明本申请实施例提供的视频生成的装置。

在本申请的一些实施例中，提供了一种视频生成装置，图5示出了根据本申请实施例的视频生成装置的结构框图，如图5所示，视频生成装置500包括：

识别模块502，用于识别目标文本，根据目标文本中的多个关键词确定出多个标签；

接收模块504，用于接收对多个标签中的目标标签的第一输入；

显示模块506，用于响应于第一输入，显示目标媒体素材，目标媒体素材的内容与目标标签的内容匹配；

视频生成模块508，用于根据目标媒体素材生成目标视频。

在本申请的一些实施例中，目标媒体素材的数量为多个，视频生成装置还包括：

排序模块，用于根据多个目标媒体素材对应的多个目标标签的顺序，对多个目标媒体素材进行排序，得到排序后的图像素材序列；其中，多个目标标签的顺序为多个目标标签对应的关键词在目标文本中的顺序；

视频生成模块，还用于根据图像素材序列生成目标视频。

在本申请的一些实施例中，接收模块，还用于接收对多个目标标签的第二输入；

视频生成装置还包括：

音频确定模块，用于响应于第二输入，确定与多个目标标签对应的多个目标音频素材；

排序模块，还用按照多个目标标签的顺序，对多个目标音频素材进行排序，得到音频素材序列；

视频生成模块，还用于根据音频素材序列和图像素材序列生成目标视频。

在本申请的一些实施例中，确定模块，还用于在目标文本中确定与多个目标标签一一对应的多个语句；

排序模块，还用于按照多个目标标签的顺序，对多个语句进行排序，得到语句序列；

视频生成模块，还用于根据语句序列和图像素材序列生成目标视频。

视频生成装置还包括：

图像确定模块，用于根据目标对象信息，确定与目标对象匹配的对象图像；

在本申请的一些实施例中，目标对象信息为目标对象的名称，视频生成装置还包括：

获取模块，用于根据名称，获取目标对象的图像；

图像确定模块，还用于在预设的媒体库中，确定图像内容与图像相匹配的目标媒体素材。

本申请实施例中的视频生成装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频生成装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***，可以为iOS操作***，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的视频生成装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，本申请实施例还提供一种电子设备，图6示出了根据本申请实施例的电子设备的结构框图，如图6所示，电子设备600包括处理器602，存储器604，存储在存储器604上并可在处理器602上运行的程序或指令，该程序或指令被处理器602执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

图7为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709以及处理器710等部件。

本领域技术人员可以理解，电子设备700还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理***与处理器710逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器710，用于识别目标文本，根据目标文本中的多个关键词确定出多个标签；

用户输入单元707，用于接收对多个标签中的目标标签的第一输入；

显示单元706，用于响应于第一输入，显示目标媒体素材，目标媒体素材的内容与目标标签的内容匹配；

处理器710，用于根据目标媒体素材生成目标视频。

本申请实施例能够自动在电子设备的媒体素材库中，筛选出与目标标签的内容相匹配的目标媒体素材，并自动根据目标媒体素材来生成最终的vlog视频，也即目标视频，过程中不需要用户手动浏览素材库来找到需要的素材，也

不需要用户手动将挑选好的素材导入视频剪辑软件，简化了创作vlog视频的操5作步骤。

可选地，目标媒体素材的数量为多个；

处理器710，还用于根据多个目标媒体素材对应的多个目标标签的顺序，对多个目标媒体素材进行排序，得到排序后的图像素材序列；其中，多个目标

标签的顺序为多个目标标签对应的关键词在目标文本中的顺序；根据图像素材0序列生成目标视频。

可选地，用户输入单元707，还用于接收对多个目标标签的第二输入；5处理器710，用于响应于第二输入，确定与多个目标标签对应的多个目标

音频素材；按照多个目标标签的顺序，对多个目标音频素材进行排序，得到音频素材序列；根据音频素材序列和图像素材序列生成目标视频。

本申请实施例通过根据用户选择的目标标签，对原始的目标文本进行分

割，从中摘取对应的语句作为vlog视频的配文，简化了vlog视频的剪辑步骤。0可选地，处理器710，还用于在目标文本中确定与多个目标标签一一对应的多个语句；按照多个目标标签的顺序，对多个语句进行排序，得到语句序列；

根据语句序列和图像素材序列生成目标视频。

本申请实施例通过基于拍摄时间、拍摄地点和拍摄对象来自动选择满足用

户需求的媒体素材，不需要用户手动在媒体素材库的海量信息中手动筛选需要5的素材，简化了创作vlog视频的步骤。

可选地，目标标签包括目标时间信息、目标位置信息和目标对象信息；

处理器710，还用于根据目标对象信息，确定与目标对象匹配的对象图像；在预设的媒体库中，确定素材拍摄时间与目标时间信息相匹配，或素材拍摄位置与目标位置信息相匹配，或图像内容与对象图像相匹配的目标媒体素材。

可选地，目标对象信息为目标对象的名称；

处理器710，还用于根据名称，获取目标对象的图像；在预设的媒体库中，确定图像内容与图像相匹配的目标媒体素材。

应理解的是，本申请实施例中，输入单元704可以包括图形处理器(GraphicsProcessing Unit，GPU)7041和麦克风7042，图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元706可包括显示面板7061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板7061。用户输入单元707包括触控面板7071以及其他输入设备7072中的至少一种。触控面板7071，也称为触摸屏。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作***、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器709可以包括易失性存储器或非易失性存储器，或者，存储器709可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器709包括但不限于这些和任意其它适合类型的存储器。

处理器710可包括一个或多个处理单元；可选的，处理器710集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作***、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中的电子设备中的处理器。可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频生成方法，其特征在于，包括：

识别目标文本，根据所述目标文本中的多个关键词确定出多个标签；

接收对所述多个标签中的目标标签的第一输入；

响应于所述第一输入，显示目标媒体素材，所述目标媒体素材的内容与所述目标标签的内容匹配；

根据所述目标媒体素材生成目标视频。

2.根据权利要求1所述的视频生成方法，其特征在于，

所述目标媒体素材的数量为多个，所述根据所述目标媒体素材生成目标视频，包括：

根据多个目标媒体素材对应的多个目标标签的顺序，对所述多个目标媒体素材进行排序，得到排序后的图像素材序列；其中，所述多个目标标签的顺序为所述多个目标标签对应的所述关键词在所述目标文本中的顺序；

根据所述图像素材序列生成所述目标视频。

3.根据权利要求2所述的视频生成方法，其特征在于，所述根据所述图像素材序列生成所述目标视频，包括：

接收对所述多个目标标签的第二输入；

4.根据权利要求2所述的视频生成方法，其特征在于，所述根据所述图像素材序列生成所述目标视频，包括：

在所述目标文本中确定与所述多个目标标签一一对应的多个语句；

按照所述多个目标标签的顺序，对所述多个语句进行排序，得到语句序列；

根据所述语句序列和所述图像素材序列生成所述目标视频。

5.根据权利要求1所述的视频生成方法，其特征在于，所述目标标签包括目标时间信息、目标位置信息和目标对象信息；

所述显示目标媒体素材，包括：

根据所述目标对象信息，确定与目标对象匹配的对象图像；

在预设的媒体库中，确定素材拍摄时间与所述目标时间信息相匹配，或素材拍摄位置与所述目标位置信息相匹配，或图像内容与所述对象图像相匹配的所述目标媒体素材。

6.根据权利要求5所述的视频生成方法，其特征在于，所述目标对象信息为所述目标对象的名称，所述根据所述目标对象信息，确定与目标对象匹配的对象图像，包括：

根据所述名称，获取所述目标对象的图像；

在预设的媒体库中，确定图像内容与所述图像相匹配的所述目标媒体素材。

7.一种视频生成装置，其特征在于，包括：

识别模块，用于在显示目标文本的情况下，对所述目标文本进行识别，在所述目标文本中确定出N个标签信息，N为正整数；

识别模块，用于识别目标文本，根据所述目标文本中的多个关键词确定出多个标签；

接收模块，用于接收对所述多个标签中的目标标签的第一输入；

显示模块，用于响应于所述第一输入，显示目标媒体素材，所述目标媒体素材的内容与所述目标标签的内容匹配；

视频生成模块，用于根据所述目标媒体素材生成目标视频。

8.根据权利要求7所述的视频生成装置，其特征在于，所述目标媒体素材的数量为多个，所述视频生成装置还包括：

排序模块，用于根据多个目标媒体素材对应的多个目标标签的顺序，对所述多个目标媒体素材进行排序，得到排序后的图像素材序列；其中，所述多个目标标签的顺序为所述多个目标标签对应的所述关键词在所述目标文本中的顺序；

所述视频生成模块，还用于根据所述图像素材序列生成所述目标视频。

9.根据权利要求8所述的视频生成装置，其特征在于，

所述接收模块，还用于接收对所述多个目标标签的第二输入；

所述视频生成装置还包括：

音频确定模块，用于响应于所述第二输入，确定与所述多个目标标签对应的多个目标音频素材；

所述排序模块，还用于按照所述多个目标标签的顺序，对所述多个目标音频素材进行排序，得到音频素材序列；

所述视频生成模块，还用于根据所述音频素材序列和所述图像素材序列生成所述目标视频。

10.根据权利要求8所述的视频生成装置，其特征在于，还包括：

语句确定模块，用于在所述目标文本中确定与所述多个目标标签一一对应的多个语句；

所述排序模块，还用于按照所述多个目标标签的顺序，对所述多个语句进行排序，得到语句序列；

所述视频生成模块，还用于根据所述语句序列和所述图像素材序列生成所述目标视频。

11.根据权利要求7所述的视频生成装置，其特征在于，所述目标标签包括目标时间信息、目标位置信息和目标对象信息；

所述视频生成装置还包括：

图像确定模块，用于根据所述目标对象信息，确定与目标对象匹配的对象图像；以及

12.根据权利要求11所述的视频生成装置，其特征在于，所述目标对象信息为所述目标对象的名称，所述视频生成装置还包括：

获取模块，用于根据所述名称，获取所述目标对象的图像；

所述图像确定模块，还用于在预设的媒体库中，确定图像内容与所述图像相匹配的所述目标媒体素材。

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的视频生成方法的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的视频生成方法的步骤。