CN114339423A

CN114339423A - 短视频生成方法、装置、计算设备及计算机可读存储介质

Info

Publication number: CN114339423A
Application number: CN202111597387.XA
Authority: CN
Inventors: 季焕文; 陶杰; 于芹
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-12

Abstract

本发明实施例涉及视频处理技术领域，公开了一种短视频生成方法，该方法包括：根据目标视频的热度的峰值数据，确定多个关键视频帧；根据各关键视频帧中的人物数据和音频数据，确定多个初始视频段；从所述初始短视频中生成各个角色的角色剧本视频；基于所述角色剧本视频生成目标短视频。通过上述方式，本发明实施例增强了短视频合成过程中的用户体验。

Description

短视频生成方法、装置、计算设备及计算机可读存储介质

技术领域

本发明实施例涉及视频处理技术领域，具体涉及一种短视频生成方法、装置、计算设备及计算机可读存储介质。

背景技术

对于短视频生成，目前技术方案，一般通过运营制作，演员录制短视频后上传供用户体验。

本申请的发明人在实施本发明实施例的过程中发现，现有的短视频生成需要运营、演员以及多方面支撑，合成效率低，玩法少，用户体验差。

发明内容

鉴于上述问题，本发明实施例提供了一种短视频生成方法、装置、计算设备及计算机可读存储介质，用于解决现有技术中存在的短视频生成的用户体验差问题。

根据本发明实施例的一个方面，提供了一种短视频生成方法，所述方法包括：

根据目标视频的热度的峰值数据，确定多个关键视频帧；

根据各关键视频帧中的人物数据和音频数据，确定多个初始视频段；

从所述初始短视频中生成各个角色的角色剧本视频；

基于所述角色剧本视频生成目标短视频。

在一种可选的方式中，所述热度为热度曲线；所述根据目标视频的热度的峰值数据，确定多个关键视频帧根据目标视频的热度的峰值数据，确定多个关键视频帧，包括：确定所述热度曲线中各个峰值前后的关键视频帧；根据所述人物数据确定所述峰值前后的关键视频帧是否存在人物；若没有人物，则标记所述峰值前后的关键视频帧分别作为起始帧或所述终止帧；若存在人物，则确定所述关键视频帧对应的音频数据是否存在人声；若没有人声，则标记所述峰值前后的关键视频帧分别作为起始帧或所述终止帧；根据所述起始帧和所述终止帧，确定多个初始视频段。

在一种可选的方式中，所述确定所述热度曲线中各个峰值前后的关键视频帧，包括：若所述峰值前后的关键视频帧中存在人物且存在人声，则继续向前或向后寻找所述关键视频帧附近的视频帧作为所述关键视频帧。

在一种可选的方式中，所述从所述初始短视频中生成各个角色的角色剧本视频，包括：根据用户的历史观影信息，从所述多个初始视频段中筛选出至少一个初始视频段形成初始短视频；识别所述初始短视频中各个角色的声纹，根据所述声纹从所述初始短视频中生成各个角色的角色剧本视频。

在一种可选的方式中，所述根据用户的历史观影信息，从所述多个初始视频段中筛选出至少一个初始视频段，作为初始短视频，包括：根据所述历史观影信息，确定各个所述初始视频段对应的用户的情绪程度；根据所述情绪程度，从所述多个初始视频段中筛选出至少一个初始视频段，作为初始短视频。

在一种可选的方式中，所述识别根据所述初始短视频中各个角色的声纹，根据所述声纹从所述初始短视频中生成各个角色的角色剧本视频，包括：对所述初始短视频进行解码，得到解码后的初始短视频；对解码后的初始短视频进行声纹识别，得到所述初始短视频中各个角色的音轨；根据音轨生成所述初始短视频中各个角色对应的角色剧本视频。

在一种可选的方式中，所述基于所述角色剧本视频生成目标短视频，包括：接收用户对所述角色剧本视频的处理请求，所述处理请求包括用户输入的声音处理请求和/或画面人物处理请求；根据所述声音处理请求，对所述角色剧本视频进行音频处理；和/或根据所述画面人物处理请求，对所述角色剧本视频进行画面处理。

根据本发明实施例的又一方面，提供了一种短视频生成装置，所述装置包括：

第一确定模块，根据目标视频的热度的峰值数据，确定多个关键视频帧用于根据目标视频的热度的峰值数据，确定多个关键视频帧；

第二确定模块，用于根据各关键视频帧中的人物数据和音频数据，确定多个初始视频段；

生成模块，用于从所述初始短视频中生成各个角色的角色剧本视频；

合成模块，用于基于所述角色剧本视频生成目标短视频。

根据本发明实施例的另一方面，提供了一种计算设备，包括：

处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行所述的短视频生成方法的操作。

根据本发明实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令在计算设备上运行时，使得计算设备执行所述的短视频生成方法的操作。

本发明实施例根据目标视频的热度的峰值数据，确定多个关键视频帧；根据各关键视频帧中的人物数据和音频数据，确定多个初始视频段，从所述初始短视频中生成各个角色的角色剧本视频，基于所述角色剧本视频生成目标短视频，能够有效提高短视频生成的效率、有效提高了用户体验。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

附图仅用于示出实施方式，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的短视频生成方法的流程示意图；

图2示出了本发明实施例提供的短视频生成方法中的热度曲线的示意图；

图3示出了本发明实施例提供的短视频生成方法中识别各个角色的示意图；

图4示出了本发明实施例提供的短视频生成方法中短视频生成的应用场景的示意图；

图5示出了本发明实施例提供的短视频生成方法中对角色剧本视频进行画面处理的示意图；

图6示出了本发明实施例提供的短视频生成装置的结构示意图；

图7示出了本发明实施例提供的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。

图1示出了本发明实施例提供的短视频生成方法的流程图，该方法由计算设备执行。该计算设备可以是计算机设备、终端设备、智能设备、视频播放设备等，本发明实施例不做具体限制。如图1所示，该方法包括以下步骤：

步骤110：根据目标视频的热度的峰值数据，确定多个关键视频帧。

其中，本发明实施例根据目标视频的热度、人物数据及音频数据，从所述目标视频中确定出多个初始视频段。本发明实施例中，根据目标视频的热度、人物数据及音频数据，从所述目标视频中确定出多个初始视频段之前，所述方法包括：对目标视频进行分片，得到多个视频分片；确定各个视频分片对应的热度。其中，所述热度为热度曲线。具体地，根据gop(Group of Pictures，图像组，指两个I帧之间的距离，Reference(参考周期)指两个P帧之间的距离)对视频进行分片，得到多个视频分片。将平均音频大于预设分贝阈值的视频分片作为中点视频分片；其中，在用户观影过程中，对音频进行采集，对音频进行降噪后，若当前视频分片的平均音频大于预设分贝阈值，则将该当前视频分片的I帧(I帧(Intra codedframes)：I帧图像采用帧内编码方式，即只利用了单帧图像内的空间相关性，而没有利用时间相关性。I帧使用帧内压缩，不使用运动补偿，由于I帧不依赖其它帧，所以是随机存取的入点，同时是解码的基准帧。I帧主要用于接收机的初始化和信道的获取，以及节目的切换和***，I帧图像的压缩倍数相对较低。I帧图像是周期性出现在图像序列中的，出现频率可由编码器选择)标记为中点α，其中，预设分贝阈值可依据具体场景进行相应设置，在本发明的一个实施例中，该预设分贝阈值可以是60。对当前α所在的分片向前(后)检测上(下)一个分片，若db<40，则标记之前检测的视频分片为预起始(结束)点，当前找到的db≥40的视频分片数量标记为n，若n小于第一数量阈值则不符合要求，反之则加入视频推荐备选队列。根据该视频推荐备选队列，生成热度曲线，该热度曲线中热度的高低显示了用户对当前片段的欣赏，从侧面反映出当前片段的出彩程度。其中，第一数量阈值可以是3。本发明实施例中，如图2所示，热度曲线可以是弹幕曲线图。其中，预先统计各个视频分片中的弹幕数量，以视频分片的时间戳为横轴，弹幕数量为纵轴绘制弹幕曲线图。

步骤120：根据各关键视频帧中的人物数据和音频数据，确定多个初始视频段。

本发明实施例中，在得到热度曲线后，确定热度曲线中各个峰值前后的视频帧确定起始帧和终止帧，根据所述起始帧和所述终止帧，确定多个初始视频段。具体地，确定热度曲线中各个峰值，将该峰值对应的视频帧确定为中点，根据该中点分别向前寻找起始帧β，向后寻找终止帧θ，起始帧β和终止帧θ以热度曲线上切线斜率骤降的点(可以设置触发值)为帧信号，在确定切线斜率后，标记该切线斜率对应的视频帧为预起始点β和预结束点θ。其中，确定所述热度曲线中各个峰值前后的关键视频帧；确定所述峰值前后的关键视频帧是否存在人物；若存在人物，则确定所述关键视频帧对应的音频数据是否存在人声；若存在人声，则标记所述峰值前后的关键视频帧分别作为起始帧或所述终止帧。具体地，向前取距离预起始点β最近的关键帧β1(若当前β就是关键帧，那么β1就代指β)，再通过解码分离视频帧和音频帧，先检测关键视频帧，若没有人物，则标记为起始帧即为关键视频帧β1。若有人物，则再继续检测关键视频帧对应的音频帧，若音频帧没有人声，则标记为该关键视频帧β1即为起始帧，否则继续往前寻找起始点关键视频帧β2，直到寻找到起始帧βn。同样的方式，向后寻找找出结束帧θn，根据起始帧βn和结束帧θn生成初始视频段。接着，继续以第二高的点按上述流程生成短视频(若第二高的点在上述生成的短视频中涵盖，则继续寻找下一个高点)，直到生成预设第二数量的初始视频段。其中，本发明实施例并不具体限制预设第二数量的具体数值，在本发明的一个实施方式中，该预设第二数量可以是5。从而根据峰值前后的起始帧和结束帧，得到多个初始视频段。

步骤130：从所述初始短视频中生成各个角色的角色剧本视频。

本发明实施例中，在得到多个初始视频段后，首先根据用户的历史观影信息，从所述多个初始视频段中筛选出至少一个初始视频段，作为初始短视频。

其中，用户的历史观影信息可以是用户的历史行为s，观看记录t，喜爱偏好p，明星打榜o、以及观看过程中的面部表情变化f(当用户在某一时刻出现情绪波动，比如大笑，或者哭泣表示完全的代入剧情中)。

本发明实施例中，根据所述历史观影信息，确定各个所述初始视频段对应的用户的情绪程度；根据所述情绪程度，从所述多个初始视频段中筛选出至少一个初始视频段，作为初始短视频。具体地，采集用户的历史行为s、观看记录t、喜爱偏好p、明星打榜o以及观看过程中的面部表情变化f进行权重配比。

其中，情绪权重指的是对当前片段视频的用户情绪进行分析，通过图像分类进行表情预测，推出用户是开心、平静还是沮丧等状态g，再对当前用户音频进行分析，通过采样p个音频帧获取对应分贝db来反映当前情绪的激烈程度，通过db1*db2*db3.../(p*10)得到情绪状态k，k接近6时达到最大权重配比，推导出公式y＝-5/24k^2+25/12k，得出情绪状态k实际对应的权重配比y。

对比各个剪辑的多个初始视频段对应的情绪程度，对比方法为每个初始视频段进行关键帧提取，提取数量n，计算加权值为(s*0.1+t*0.1+p*0.2+o*0.2+f*0.4*y)/n，根据该加权值确定出权重前N位的初始视频段，作为初始短视频，从而将该初始短视频反馈给用户进行玩法制作。其中，N可以为2。

然后，识别所述初始短视频中各个角色的声纹，根据所述声纹从所述初始短视频中生成各个角色的角色剧本视频。

其中，本发明实施例对所述初始短视频进行解码，得到解码后的初始短视频，对解码后的初始短视频进行声纹识别，得到所述初始短视频中各个角色的音轨，根据音轨生成所述初始短视频中各个角色对应的角色剧本视频。具体地，对剪辑后的初始短视频进行解码，依据声纹识别划分角色，依次剔除对应角色的音轨，生成多个角色剧本视频，将制作好的多个角色剧本视频上传至c端管理平台，默认发布到测试环境，运营人员可根据效果发布至线上环境，用户可以根据字幕进行配音，将录音合成到视频音轨中，从而生成有趣的剧本视频。如图3所示，从左往右看依次有出a b c三个角色，但是当前精彩片段声纹分析主要是a和c的对话，或者b的比重不高(当前对白中声纹占比不超过20％)，所以生成的这个短剧有a c两个剧本，分别为剔除a角和剔除c角的剧本。

步骤140：基于所述角色剧本视频生成目标短视频。

本发明实施例中，接收用户对所述角色剧本视频的处理请求，根据所述处理请求对所述角色剧本视频进行处理，得到目标短视频。

本发明实施例中，如图4所示，在c端管理平台中用户可选择其中一个角色剧本视频，进入短视频处理，其中可以点击录制/暂停、删除上一分段、面部采集等。

其中，该处理请求包括用户输入的声音处理请求和/或画面人物处理请求。因此，根据所述处理请求对所述角色剧本视频进行处理，具体包括：根据所述声音处理请求，对所述角色剧本视频进行音频处理；和/或根据所述画面人物处理请求，对所述角色剧本视频进行画面处理。

其中，对于音频处理请求，可以录制用户的声音，合成到视频中，对不满意的可以进行分段删除，重新补录。对于画面人物处理，若开启面部采集，会有一个摄像头采集的画面进行画中画显示，面部采集可以选择用户表情采集或者整体面部采集。表情采集，是指当前用户展示的面部表情会通过ai自动合成到c角本身人物上，如图5所示，通过采集后替换原先视频中人物脸部，将原图4中的人物面部替换为用户面部。整体面部采集，是将用户整个摄像头检测到的人脸进行替换，如果中途有人脸未检测到，会将之前采集的用户人脸和视频中的人物表情进行ai融合，进行补齐。本发明实施例中，还可以提供好友连麦拍剧本，演对手戏，代入感更佳。拍摄完之后可以合成视频并发布。(也可以提供拍摄配音ai打分，依据和原视频的语气段落等对比进行打分)。

本发明实施例中，声音处理请求可以包括交换角色声音、搞怪配音、鬼畜视频等。具体地，交换角色声音，例如有a b c d四个角色对应a1 b1 c1 d1四种声纹，进行排列组合后，移除带有a a1或b b1或c c1或d d1组合，从剩余的组合c41*c31中，根据角色性别进行优先交换，即按照相同性别优先交换的原则进行配对。搞怪配音，根据用户的观看历史，喜爱偏好，打榜情况等，进行人物检索，提取对应人物声纹进行角色配音替换(不足情况下采用大数据进行匹配，随机选取当下热门如动漫角色声音，周星驰配音等)，生成搞怪视频。鬼畜视频，依托上述剪辑的视频，已知中点α关键帧，取关键帧前后各n帧进行前后***，使最出彩的部分进行鬼畜，生成鬼畜视频。体育直播赛事中，例如在足球比赛中，当有进球时，弹出快速制作进球视频，截取进球前30s进球后10s，用户可以上传一张人像照片，将人像抠出后，替换至射门球员的脸部，进行换脸，视频其余人员可自动替换为搞怪头像，并且可以配置一段解说，合成视频，进行趣味分享。

图6示出了本发明实施例提供的短视频生成装置的结构示意图。如图3所示，该装置300包括：

第一确定模块310，根据目标视频的热度的峰值数据，确定多个关键视频帧用于根据目标视频的热度的峰值数据，确定多个关键视频帧；

第二确定模块320，用于根据各关键视频帧中的人物数据和音频数据，确定多个初始视频段；

生成模块330，用于从所述初始短视频中生成各个角色的角色剧本视频；

合成模块340，用于基于所述角色剧本视频生成目标短视频。

在一种可选的方式中，所述根据目标视频的热度的峰值数据，确定多个关键视频帧之前，所述方法包括：对目标视频进行分片，得到多个视频分片；确定各个视频分片对应的热度数据。

在一种可选的方式中，所述热度为热度曲线；所述根据目标视频的热度的峰值数据，确定多个关键视频帧，包括：根据所述热度曲线中各个峰值前后的视频帧起始帧和终止帧；根据所述起始帧和所述终止帧，确定多个初始视频段。

在一种可选的方式中，根据所述热度曲线中各个峰值前后的视频帧确定起始帧和终止帧，包括：确定所述热度曲线中各个峰值前后的关键视频帧；确定所述峰值前后的关键视频帧是否存在人物；若存在人物，则确定所述关键视频帧对应的音频数据是否存在人声；若存在人声，则标记所述峰值前后的关键视频帧分别作为起始帧或所述终止帧。

在一种可选的方式中，所述确定所述热度曲线中各个峰值前后的关键视频帧，包括：若所述峰值前后的关键视频帧中存在人物且存在人声，则将所述关键视频帧作为所述起始帧或所述终止帧。

在一种可选的方式中，所述处理请求包括用户输入的声音处理请求和/或画面人物处理请求；所述接收用户对所述角色剧本视频的处理请求，根据所述处理请求对所述角色剧本视频进行处理，得到目标短视频，包括：根据所述声音处理请求，对所述角色剧本视频进行音频处理；和/或根据所述画面人物处理请求，对所述角色剧本视频进行画面处理。

本发明实施例的短视频生成装置的具体工作步骤与上述方法实施例的具体步骤大体一致，此处不再赘述。

图7示出了本发明实施例提供的计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图7所示，该计算设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。处理器402，用于执行程序410，具体可以执行上述用于短视频生成方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机可执行指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以被处理器402调用使计算设备执行以下操作：

根据目标视频的热度的峰值数据，确定多个关键视频帧；

从所述初始短视频中生成各个角色的角色剧本视频；

基于所述角色剧本视频生成目标短视频。

在一种可选的方式中，所述根据目标视频的热度数据、人物数据及音频数据，从所述目标视频中确定出多个初始视频段之前，所述方法包括：对目标视频进行分片，得到多个视频分片；确定各个视频分片对应的热度数据。

在一种可选的方式中，所述热度为热度曲线；所述根据目标视频的热度的峰值数据，确定多个关键视频帧，包括：确定所述热度曲线中各个峰值前后的关键视频帧；，包括所述根据所述关键视频帧中的人物数据和/或音频数据，确定多个初始视频段，包括：根据所述人物数据确定所述峰值前后的关键视频帧是否存在人物；若没有人物，则标记所述峰值前后的关键视频帧分别作为起始帧或所述终止帧；若存在人物，则确定所述关键视频帧对应的音频数据是否存在人声；若没有人声，则标记所述峰值前后的关键视频帧分别作为起始帧或所述终止帧；根据所述起始帧和所述终止帧，确定多个初始视频段。

本发明实施例的计算设备的具体工作步骤与上述方法实施例的具体步骤大体一致，此处不再赘述。

本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有至少一可执行指令，该可执行指令在计算设备上运行时，使得所述计算设备执行上述任意方法实施例中的短视频生成方法。

可执行指令具体可以用于使得计算设备执行以下操作：

根据目标视频的热度的峰值数据，确定多个关键视频帧；

从所述初始短视频中生成各个角色的角色剧本视频；

基于所述角色剧本视频生成目标短视频。

在一种可选的方式中，所述热度为热度曲线；所述根据目标视频的热度的峰值数据，确定多个关键视频帧，包括：确定所述热度曲线中各个峰值前后的关键视频帧；根据所述人物数据确定所述峰值前后的关键视频帧是否存在人物；若没有人物，则标记所述峰值前后的关键视频帧分别作为起始帧或所述终止帧；若存在人物，则确定所述关键视频帧对应的音频数据是否存在人声；若没有人声，则标记所述峰值前后的关键视频帧分别作为起始帧或所述终止帧；根据所述起始帧和所述终止帧，确定多个初始视频段。

在一种可选的方式中，所述从所述初始短视频中生成各个角色的角色剧本视频，包括：根据用户的历史观影信息，从所述多个初始视频段中筛选出至少一个初始视频段形成初始短视频；识别所述初始短视频中各个角色的声纹，根据所述声纹从所述初始短视频中生成各个角色的角色剧本视频。在一种可选的方式中，所述根据用户的历史观影信息，从所述多个初始视频段中筛选出至少一个初始视频段，作为初始短视频，包括：根据所述历史观影信息，确定各个所述初始视频段对应的用户的情绪程度；根据所述情绪程度，从所述多个初始视频段中筛选出至少一个初始视频段，作为初始短视频。

本发明实施例提供一种短视频生成装置，用于执行上述短视频生成方法。

本发明实施例提供了一种计算机程序，所述计算机程序可被处理器调用使计算设备执行上述任意方法实施例中的短视频生成方法。

本发明实施例提供了一种计算机程序产品，计算机程序产品包括存储在计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令在计算机上运行时，使得所述计算机执行上述任意方法实施例中的短视频生成方法。

在此提供的算法或显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。

本领域技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种短视频生成方法，其特征在于，所述方法包括：

根据目标视频的热度的峰值数据，确定多个关键视频帧；

从所述初始短视频中生成各个角色的角色剧本视频；

基于所述角色剧本视频生成目标短视频。

2.根据权利要求1所述的方法，其特征在于，所述热度为热度曲线；所述根据目标视频的热度的峰值数据，确定多个关键视频帧根据目标视频的热度的峰值数据，确定多个关键视频帧，包括：

确定所述热度曲线中各个峰值前后的关键视频帧；

根据所述人物数据确定所述峰值前后的关键视频帧是否存在人物；

若没有人物，则标记所述峰值前后的关键视频帧分别作为起始帧或所述终止帧；

若存在人物，则确定所述关键视频帧对应的音频数据是否存在人声；

若没有人声，则标记所述峰值前后的关键视频帧分别作为起始帧或所述终止帧；

根据所述起始帧和所述终止帧，确定多个初始视频段。

3.根据权利要求2所述的方法，其特征在于，所述确定所述热度曲线中各个峰值前后的关键视频帧，包括：

若所述峰值前后的关键视频帧中存在人物且存在人声，则继续向前或向后寻找所述关键视频帧附近的视频帧作为所述关键视频帧。

4.根据权利要求1所述的方法，其特征在于，所述从所述初始短视频中生成各个角色的角色剧本视频，包括：

根据用户的历史观影信息，从所述多个初始视频段中筛选出至少一个初始视频段形成初始短视频；

识别所述初始短视频中各个角色的声纹，根据所述声纹从所述初始短视频中生成各个角色的角色剧本视频。

5.根据权利要求4所述的方法，其特征在于，所述根据用户的历史观影信息，从所述多个初始视频段中筛选出至少一个初始视频段，作为初始短视频，包括：

根据所述历史观影信息，确定各个所述初始视频段对应的用户的情绪程度；

根据所述情绪程度，从所述多个初始视频段中筛选出至少一个初始视频段，作为初始短视频。

6.根据权利要求4所述的方法，其特征在于，所述识别根据所述初始短视频中各个角色的声纹，根据所述声纹从所述初始短视频中生成各个角色的角色剧本视频，包括：

对所述初始短视频进行解码，得到解码后的初始短视频；

对解码后的初始短视频进行声纹识别，得到所述初始短视频中各个角色的音轨；

根据音轨生成所述初始短视频中各个角色对应的角色剧本视频。

7.根据权利要求1所述的方法，其特征在于，所述基于所述角色剧本视频生成目标短视频，包括：

接收用户对所述角色剧本视频的处理请求，所述处理请求包括用户输入的声音处理请求和/或画面人物处理请求；根据所述声音处理请求，对所述角色剧本视频进行音频处理；和/或

根据所述画面人物处理请求，对所述角色剧本视频进行画面处理。

8.一种短视频生成装置，其特征在于，所述装置包括：

合成模块，用于基于所述角色剧本视频生成目标短视频。

9.一种计算设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7任意一项所述的短视频生成方法的操作。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令在计算设备上运行时，使得计算设备执行如权利要求1-7任意一项所述的短视频生成方法的操作。