CN113453040B

CN113453040B - 短视频的生成方法、装置、相关设备及介质

Info

Publication number: CN113453040B
Application number: CN202010223607.1A
Authority: CN
Inventors: 亢治; 胡康康; 李超
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2023-03-10
Anticipated expiration: 2040-03-26
Also published as: CN113453040A; WO2021190078A1

Abstract

本申请提供一种短视频的生成方法、装置、相关设备及介质。其中方法包括获取目标视频，通过语义分析获得目标视频中的至少一个视频片段的起止时间和所属语义类别的概率；其中，每个视频片段属于一个或多个语义类别；然后，根据至少一个视频片段的起止时间和所属语义类别的概率，从至少一个视频片段中生成目标视频对应的短视频。通过语义分析识别目标视频中具有一个或多个语义类别的视频片段，以直接提取最能体现目标视频内容且具有连续性的视频片段来合成短视频，不仅考虑了目标视频中帧与帧之间内容的连贯性，也提升了短视频的生成效率。

Description

短视频的生成方法、装置、相关设备及介质

技术领域

本申请涉及视频处理技术，尤其涉及短视频的生成方法、装置、相关设备及介质。

背景技术

随着终端设备的相机效果的不断优化、新媒体社交平台的不断发展以及移动网络的速度提升，越来越多的人喜欢通过短视频分享自己的日常生活。不同于传统视频时长较长的特点，短视频的时长一般仅有几秒或几分钟不等，因此具有生产成本低、传播速度快、社交属性强等特点，因此受到广大用户的喜爱。同时，也因为时间长度有限，短视频的视频内容要能够在很短的时间内呈现出重点。因此，人们通常长视频进行筛选剪辑等操作，从而生成一段重点突出的短视频。

目前，有一些专业的视频剪辑软件可以根据用户操作对视频进行节选、拼接等；还有一些应用程序可以直接从视频中截取一段规定时长的视频片段，例如从一段1分钟的视频中截取最开始的10秒，或者截取用户任意选定的10秒片段。但是，上述两种方式中，一种过于繁琐，需要用户自己学习软件操作并自己剪辑；另一种又过于简单，不能把视频的精华部分都截取出来。因此，需要一种更智能的方式可以自动提取视频中的重点片段并生成短视频。

在现有技术的一些方案中，通过识别视频中每帧视频图像的特征信息来确定视频图像的重要性，然后再根据各帧视频图像的重要性筛选出一部分视频图像生成短视频。这种方法虽然实现了智能生成短视频，但是由于针对的是单帧视频图像进行识别，忽略了帧与帧之间的关联，容易导致短视频的内容过于零散，不够连贯，不能表达出一段视频的内容脉络，此难以满足用户对短视频内容的实际需求。另一方面，目标视频中有大量的、冗余的视频图像，如果对每一帧视频图像进行一一识别，再相互比对后选择重要的视频图像合成短视频，会导致计算时间过长，影响短视频的生成效率。

发明内容

本申请提供一种短视频的生成方法、装置、相关设备及介质。该方法可以由短视频的生成装置，例如智能终端、服务器等实施，通过视频语义分析模型识别目标视频中具有一个或多个语义类别的视频片段，以直接提取体现目标视频内容且具有连续性的视频片段来合成短视频，不仅考虑了目标视频中帧与帧之间内容的连贯性，提升短视频的呈现效果，使短视频内容更满足用户的实际需求，也提升了短视频的生成效率。

以下从多个方面介绍本申请，容易理解的是，该以下多个方面的实现方式可互相参考。

第一方面，本申请提供一种短视频的生成方法。短视频的生成装置获取目标视频，其中目标视频包括多帧视频图像，通过语义分析确定目标视频中的至少一个视频片段，并获得至少一个视频片段的起止时间和所属语义类别的概率，其中，视频片段包括连续帧视频图像，视频片段的帧数可以等于或小于目标视频的帧数，且视频片段是属于一个或多个语义类别的，也即视频片段包括的连续帧视频图像属于一个或多个语义类别；然后根据至少一个视频片段的起止时间和所属语义类别的概率，从至少一个视频片段中选择出用于进行短视频生成的片段，并合成短视频。

在该技术方案中，通过语义分析识别目标视频中具有一个或多个语义类别的视频片段，以直接提取最能体现目标视频内容且具有连续性的视频片段来合成短视频，该短视频可以作为目标视频的视频摘要，或者视频浓缩，本申请中不仅考虑了目标视频中帧与帧之间内容的连贯性，提升短视频的呈现效果，使短视频内容更满足用户的实际需求，也提升了短视频的生成效率。

在该技术方案中，通过视频语义分析模型识别目标视频中具有一个或多个语义类别的视频片段，以直接提取最能体现目标视频内容且具有连续性的视频片段来合成短视频，不仅考虑了目标视频中帧与帧之间内容的连贯性，提升短视频的呈现效果，使短视频内容更满足用户的实际需求，也提升了短视频的生成效率。

在第一方面一种可能的实现方式中，目标视频包括m帧视频图像，m为正整数，短视频的生成装置在语义分析时，具体可以提取目标视频中每帧视频图像的n维特征数据，并基于m帧视频图像的时间顺序生成m*n的视频特征矩阵，将视频特征矩阵转化成多层特征图，基于多层特征图中的各特征点在视频特征矩阵上生成对应的至少一个候选框，根据候选框确定至少一个连续语义特征序列，并确定每个连续语义特征序列对应的视频片段的起止时间和所属语义类别的概率，其中，n为正整数。

在该技术方案中，通过将目标视频进行特征提取，可以将时间-空间两个维度的目标视频，转换为在一个视频特征矩阵内就可以呈现的空间维度的特征图，为后续对目标视频的片段分割和选择奠定了基础；在候选框选取时，将视频特征矩阵替代原图，将原本在空间领域用于图像识别的候选框生成方法，适用在了时空领域中，使候选框从圈定图像中的物体区域转变为圈定视频特征矩阵中的连续语义特征序列。从而达到了将目标视频中包含语义类别的视频片段直接识别出来的目的，无需再一帧一帧的进行识别和筛选。这样相对于现有的每帧视频图像在时间上串联起来进行时序建模的循环网络模型，该技术方案更加简捷，从而计算速度更快，减少了计算时间和资源占用。

在第一方面一种可能的实现方式中，所属语义类别的概率包括所属行为类别的概率和所属场景类别的概率；目标视频包括m帧视频图像，m为正整数，短视频的生成装置在语义分析时，将所属行为类别的概率和所属场景类别的概率通过两种方式分别获取。针对所属行为类别的概率，具体可以提取目标视频中每帧视频图像的n维特征数据，并基于m帧视频图像的时间顺序生成m*n的视频特征矩阵，将视频特征矩阵转化成多层特征图，基于多层特征图中的各特征点在视频特征矩阵上生成对应的至少一个候选框，根据候选框确定至少一个连续语义特征序列，并确定每个连续语义特征序列对应的视频片段的起止时间和所属行为类别的概率，其中，n为正整数。针对所属场景类别的概率，可以根据目标视频中每帧视频图像的n维特征数据识别并输出目标视频中每帧视频图像的所属场景类别的概率。

在该技术方案中，将所属场景类别和所属行为类别的识别路径区分开来，所属场景类别的概率采用常规的单帧图像的识别方式，既能够将场景类别加入输出结果中，又能够重点识别动态的行为类别，利用不同识别方式擅长的处理方向，节约计算时间且提高识别准确度。

在第一方面一种可能的实现方式中，在视频特征矩阵上生成的至少一个候选框的宽度不变。

在该技术方案中，候选框的宽度保持不变，无需不断调整去搜索不同长宽的空间范围，只需要在长度维度上进行搜索，可以节省搜索空间的时间，从而进一步节省了模型的计算时间和占用的资源。

在第一方面一种可能的实现方式中，短视频的生成装置根据每个视频片段的起止时间和所属行为类别的概率、每个视频片段中的每帧视频图像的所属场景类别的概率，确定至少一个视频片段的平均类别概率；再根据至少一个视频片段的平均类别概率，从至少一个视频片段中生成目标视频对应的短视频。

在第一方面一种可能的实现方式中，短视频的生成装置可以针对每个视频片段计算平均类别概率，具体可以根据视频片段的起止时间，确定视频片段对应的多帧视频图像及帧数；将视频片段的所属行为类别的概率确定为视频片段中每帧视频图像的所属行为类别的概率；获取多帧视频图像中的每帧视频图像的所属场景类别的概率；将多帧视频图像中的每帧视频图像的所属行为类别的概率与所属场景类别的概率的和除以帧数，得到视频片段的平均类别概率。

在第一方面一种可能的实现方式中，短视频的生成装置根据至少一个视频片段的所属语义类别的概率的大小顺序和起止时间，依次从至少一个视频片段中确定出至少一个摘要视频片段，然后获取至少一个摘要视频片段并合成目标视频对应的短视频。

在该技术方案中，视频片段的所属语义类别的概率可以说明视频片段的重要程度，因此，基于所属语义类别的概率对至少一个视频片段进行筛选，可以在短视频的预设时长内，尽可能呈现更重要的视频片段。

在第一方面一种可能的实现方式中，短视频的生成装置根据每个视频片段的起止时间，在目标视频中截取视频片段；根据至少一个视频片段的所属语义类别的概率的大小顺序，对各视频片段进行排序显示；当接收到对任意一个或多个视频片段的选择指令时，确定被选择的视频片段为摘要视频片段；根据至少一个摘要视频片段，合成目标视频对应的短视频。

在该技术方案中，通过与用户交互的方式，将分割好的视频片段按照所属语义类别的概率反映出的重要性的先后顺序呈现给用户，用户基于自己的兴趣或需要进行选择后，生成相应的短视频，从而使短视频更能满足用户需要。

在第一方面一种可能的实现方式中，短视频的生成装置可以根据每个视频片段所属语义类别的概率、每个视频片段的所属语义类别对应的类别权重，确定至少一个视频片段的兴趣类别概率；根据至少一个视频片段的起止时间和兴趣类别概率，从至少一个视频片段中生成目标视频对应的短视频。

在该技术方案中，在保证短视频内容的连贯性以及短视频生成效率的基础上，又进一步考虑所属语义类别对应的类别权重，从而在选择用于合成短视频的视频片段时，能够更具有针对性，例如挑选出指定的某一种或多种语义类别的视频片段，满足更加灵活多样的用户需求。

在第一方面一种可能的实现方式中，短视频的生成装置可以通过本地数据库和历史操作记录中的媒体数据信息，确定媒体数据的各种所属语义类别分别对应的类别权重。

在该技术方案中，根据本地数据库和历史操作记录分析了用户偏好，以此确定所属语义类别的类别权重，从而在选择用于合成短视频的视频片段时，能够更符合用户兴趣，得到千人千面的短视频。

在第一方面一种可能的实现方式中，短视频的生成装置在确定每种所属语义类别对应的类别权重时，具体可以先确定本地数据库中的视频和图像的所属语义类别，统计每种所属语义类别的出现次数；然后确定历史操作记录中用户操作过的视频和图像的所属语义类别，统计每种所属语义类别的操作时长和操作频率；最后根据每种所属语义类别的出现次数、操作时长和操作频率，计算每种所属语义类别对应的类别权重。

在第一方面一种可能的实现方式中，短视频的生成装置根据至少一个视频片段的兴趣类别概率的大小顺序和起止时间，依次从至少一个视频片段中确定出至少一个摘要视频片段，然后获取至少一个摘要视频片段并合成目标视频对应的短视频。

在该技术方案中，视频片段的兴趣类别概率可以说明视频片段的重要程度和用户的感兴趣程度，因此，基于兴趣类别概率对至少一个视频片段进行筛选，可以在短视频的预设时长内，尽可能呈现更重要且更符合用户兴趣的视频片段。

在第一方面一种可能的实现方式中，至少一个摘要视频片段的片段时长之和不大于预设的短视频时长。

在第一方面一种可能的实现方式中，短视频的生成装置根据每个视频片段的起止时间，在目标视频中截取视频片段；根据至少一个视频片段的兴趣类别概率的大小顺序，对各视频片段进行排序显示；当接收到对任意一个或多个视频片段的选择指令时，确定被选择的视频片段为摘要视频片段；根据至少一个摘要视频片段，合成目标视频对应的短视频。

在该技术方案中，通过与用户交互的方式，将分割好的视频片段按照兴趣类别概率反映出的重要性和兴趣度的综合先后顺序呈现给用户，用户基于自己当前的兴趣或需要再进行选择后，生成相应的短视频，从而使短视频更能满足用户的即时需要。

在第一方面一种可能的实现方式中，短视频的生成装置还可以对目标视频进行时域分割，得到至少一个分割片段的起止时间；根据至少一个视频片段的起止时间和至少一个分割片段的起止时间，确定各视频片段与各分割片段之间的至少一个重叠片段；从至少一个重叠片段中生成所述目标视频对应的短视频。

在该技术方案中，KTS分割得到的分割片段的内容一致性较高，视频语义分析模型识别出的视频片段则是具有语义类别的片段，可以说明在视频片段中的重要性。两种分割方法结合后得到的重叠片段的内容一致性和重要性都比较高，同时也可以修正视频语义分析模型的结果，从而生成的短视频更加连贯且符合用户需求。

第二方面，本申请提供一种短视频的生成装置。该短视频的生成装置可以包括视频获取模块、视频分析模块和短视频生成模块。在一些实现方式中，短视频的生成装置还可以包括信息获取模块和类别权重确定模块。短视频的生成装置通过上述模块实现第一方面的任意实现方式提供的部分或全部方法。

第三方面，本申请提供一种终端设备，该终端设备包括存储器和处理器，存储器用于存储计算机可读指令(或者称之为计算机程序)，处理器用于读取计算机可读指令以实现上述第一方面的任意实现方式提供的方法。

第四方面，本申请提供一种服务器，该终端设备包括存储器和处理器，存储器用于存储计算机可读指令(或者称之为计算机程序)，处理器用于读取计算机可读指令以实现上述第一方面的任意实现方式提供的方法。

第五方面，本申请提供一种计算机存储介质，该计算机存储介质可以是非易失性的。该计算机存储介质中存储有计算机可读指令，当该计算机可读指令被处理器执行时实现上述第一方面的任意实现方式提供的方法。

第六方面，本申请提供一种计算机程序产品，该计算机程序产品中包含计算机可读指令，当该计算机可读指令被处理器执行时实现上述第一方面的任意实现方式提供的方法。

附图说明

图1是本申请实施例提供的一种短视频的生成方法的应用场景示意图；

图2是本申请实施例提供的一种短视频的生成方法的应用环境示意图；

图3是本申请实施例提供的另一种短视频的生成方法的应用环境示意图；

图4是本申请实施例提供的一种短视频的生成方法的流程示意图；

图5是本申请实施例提供的一种视频特征矩阵的示意图；

图6是本申请实施例提供的一种视频语义分析模型的模型架构示意图；

图7是本申请实施例提供的一种特征金字塔的结构示意图；

图8是本申请实施例提供的一种ResNet50的原理示意图；

图9是本申请实施例提供的一种区域选取网络的原理示意图；

图10是本申请实施例提供的另一种视频语义分析模型的模型架构示意图；

图11是本申请实施例提供的另一种短视频的生成方法的流程示意图；

图12为本申请实施例提供的一种终端设备的结构示意图；

图13为本申请实施例提供的一种终端设备的软件架构示意图；

图14是本申请实施例提供的一种服务器的结构示意图；

图15是本申请实施例提供的一种短视频的生成装置的结构示意图。

具体实施方式

为了方便理解本申请实施例的技术方案，首先介绍本申请相关技术所适用的应用场景。

如图1所示，为本申请实施例提供的短视频的生成方法的应用场景示意图。本申请的技术方案适用于针对一个或多个视频生成短视频并发送至各类应用平台进行分享或存储的应用场景。其中，视频与短视频之间可以是一对一、多对一、一对多或多对多的关系，即可以是一个视频对应生成一个或多个短视频，也可以是多个视频对应生成一个或多个短视频。实际上，上述几种情况的短视频生成方法都是一致的，因此，本申请实施例以一个目标视频生成对应的一个或多个短视频为例进行描述。

本申请实施例的应用场景在针对不同的业务时可以衍生出各种具体的业务场景。例如，在社交软件或短视频平台的视频分享业务场景中，用户可以拍摄一段视频，并确定将此视频生成短视频，然后将生成的短视频分享社交软件的好友或者发布在平台上。在行车记录的业务场景中，可以将拍摄的一段行车记录视频生成短视频，上传至交警平台。在存储空间清理的业务场景中，可以将存储空间中的所有视频生成相应的短视频保存在相册中，然后删除、压缩或迁移存储空间中的原视频以节省存储空间。又例如，针对一些电影、电视剧、记录片等各类视频影像内容，用户想要通过几分钟的视频摘要浏览影像内容，选择自己感兴趣的视频进行观看，本申请的技术方案也适用于将此类视频影像内容生成视频摘要，或者说浓缩视频，便于用户浏览查看。

本申请实施例中的短视频的生成方法可以通过短视频的生成装置实现。本申请实施例的短视频的生成装置可以是终端设备，也可以是服务器。

终端设备实现时，终端设备应具备实现技术方案的功能模块或芯片(例如视频语义分析模块、视频播放模块等)以生成短视频，该终端设备上安装的应用程序也可以调用终端设备的本地功能模块或芯片进行短视频生成。

在由服务器实现时，服务器应具备实现技术方案的功能模块或芯片(例如视频语义分析模块)以生成短视频。服务器可以是用于存储数据的存储服务器，可以利用本申请实施例的技术方案，将其存储的视频生成短视频作为一种视频摘要，并基于此进行视频数据整理、分类、调用、压缩、迁移等等操作，提升存储空间利用率以及数据调用效率。服务器也可以是具有短视频生成功能的客户端或网页所对应的服务器。其中，客户端可以是安装在终端设备上的应用程序，也可以是在应用程序上搭载的小程序；网页可以是运行在浏览器上的页面等。如图2所示的场景中，终端设备获取到用户触发的短视频生成指令后，将目标视频发送给客户端对应的服务器，由服务器进行短视频生成，然后将短视频返回给终端设备，终端设备进行短视频的分享和存储等操作。如用户A在短视频客户端点击了短视频生成指令，此时终端设备将目标视频传送至后台服务器进行短视频生成处理，服务器生成短视频后返回给终端设备，用户A可以将该短视频分享给用户B或者存储在草稿箱、图库等存储空间。如图3所示的场景中，终端设备A的用户可以触发短视频分享指令，该指令携带目标用户标识，服务器除了返回给终端设备进行分享和存储以外，也可以直接向目标用户标识对应的终端设备B进行分享。例如，用户A在短视频客户端点击了短视频分享指令，短视频分享指令中携带了目标用户B的标识，此时短视频客户端将目标视频以及目标用户B的标识传送至服务器，服务器生成短视频后，可以将该短视频直接发送给目标用户B的标识对应的终端设备B，同时，也可以将短视频返回给终端设备A。进一步，终端设备还可以在短视频生成过程中与服务器有更进一步的交互，例如服务器可以将分割出的视频片段发给终端设备，终端设备将用户选择的视频片段或视频片段标识发送给服务器，从而服务器根据用户选择进行短视频生成等。因此，可以理解的，上述实施场景仅示例性展示了本申请技术方案适用的部分场景。

基于以上示例场景，本申请实施例中的终端设备具体可以是手机、平板电脑、笔记本电脑、车载设备、可穿戴设备等，服务器具体可以是物理服务器、云服务器等。

在该应用场景中，为了生成视频对应的短视频，需要经历视频分割、视频片段选择以及视频片段合成三个阶段。具体来说，终端设备从视频中分割出多个有意义的视频片段，然后从多个视频片段中选择出可以用于生成短视频的重要视频片段，最后将被选择的视频片段进行合成，从而得到视频对应的短视频。本申请实施例的技术方案就是针对上述三个阶段进行的优化。

应理解的，本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

请参见图4，图4是本申请实施例提供的一种短视频的生成方法的流程示意图，该方法包括但不限于以下步骤：

S101，获取目标视频。

在本申请实施例中，目标视频包括多帧视频图像，是用于生成短视频的视频，也可以理解为生成短视频的素材。为便于后续描述，可以用m表示目标视频的帧数，即目标视频包括m帧视频图像，m为大于或等于1的正整数。

基于上述应用场景的描述，目标视频可以是终端设备即时拍摄的视频，例如，用户打开社交软件或短视频平台的拍摄功能后拍摄的视频。目标视频也可以是存储在存储空间中的历史视频，例如终端设备或者服务器的媒体数据库中的视频。目标视频还可以是从其他设备接收到的视频，例如，服务器从终端设备接收到的短视频生成指示消息所携带的视频。

S102，通过语义分析获得目标视频中的至少一个视频片段的起止时间和所属语义类别的概率。

在本申请实施例中，语义分析可以采用机器学习模型实现，本申请称为视频语义分析模型。视频语义分析模型可以实现图1中三个阶段中的视频分割阶段的功能并为视频片段选择阶段提供概率数据的支持。本申请实施例中的视频分割可以理解为基于视频语义分析的视频分割，目的是将目标视频中属于一个或多个语义类别的视频片段确定出来，其中，视频片段指的是k帧连续的视频图像，k为小于或等于m的正整数。可以看出，不同于现有技术中对单帧视频图像识别后进行筛选和重组形成的视频片段，本申请实施例直接将目标视频中具有连续语义的视频片段分割出来，避免最后生成的短视频过于跳跃，且能够节省合成时间，提升短视频的生成效率。

具体来说，视频语义分析模型可以具备图像特征提取功能，提取出目标视频中每帧视频图像的n维特征数据，其中，n为正整数。n维特征数据可以反映一帧视频图像的空间特征，在本申请实施例中，特征提取的具体方式可以不作限定，每一维特征数据也可以不指向某种具体属性特征。具体可以是提取RGB参数等属性特征维度，也可以是经过神经网络等方式提取的多种特征相互融合后得到的抽象特征数据。然后，视频语义分析模型可以基于目标视频包括的m帧视频图像的时间顺序，生成m*n的视频特征矩阵。这里的视频特征矩阵可以理解为一种时空特征图，其既反映了每帧视频图像的空间特征，又反映了帧与帧之间在时序上的先后排列顺序。如图5所示，是一种示例性的视频特征矩阵，其中，每一行代表了一帧视频图像的n维特征数据，列与列之间是按照目标视频的时间先后顺序排列的。

通过将目标视频进行特征提取，可以将时间-空间两个维度的目标视频，转换为在一个视频特征矩阵内就可以呈现的空间维度的特征图，为后续对目标视频的片段分割和选择奠定了基础，这样相对于现有的每帧视频图像在时间上串联起来进行时序建模的循环网络模型，本申请实施例的视频语义分析模型可以设计的更加简捷，从而计算速度更快，减少了计算时间和资源占用。

视频语义分析模型可以从视频特征矩阵中识别对应的至少一个连续语义特征序列。连续语义特征序列是视频语义分析模型预测出的属于一个或多个语义类别的连续特征序列，可以包括一帧或多个连续帧中的特征数据。仍以图5为例，其中第一个框和第二个框中圈定的特征数据就分别对应连续语义特征序列a和连续语义特征序列b。其中，语义类别可以是行为类别、表情类别、身份类别、场景类别等这种大类类别，也可以是大类类别中的各个从属类别，例如行为类别中的打球类别、握手类别等等。可以理解的，语义类别可以根据实际业务需要进行定义。

可以理解的，每个连续语义特征序列可以对应一个视频片段。例如，图5中的连续语义特征序列a对应的是目标视频的第1帧和第2帧的连续视频图像。可以看出，在本申请实施例的实施场景中，主要关注的是时间域的内容，因此视频语义分析模型的一个输出是连续语义特征序列对应的视频片段的起止时间。例如，连续语义特征序列a对应的视频片段的起止时间就是第1帧的开始时间t1以及第2帧的结束时间t2，输出为(t1，t2)。另外，视频语义分析模型预测连续语义特征序列的所属语义类别时，实际上是预测连续语义特征序列的特征与各种语义类别的吻合概率，将最吻合的类别确定为所属语义类别，同时所属语义类别也对应有一个预测概率，本申请实施例的视频语义分析模型就可以输出该连续语义特征序列的所属语义类别的概率，这样视频语义分析模型就可以确定出连续语义特征序列对应的视频片段的起止时间以及所属语义类别的概率。

在一种可能的实施场景中，视频语义分析模型可以是如图6所示的模型架构，具体包括卷积神经网络(Convolutional Neural Networks,CNN)10、特征金字塔网络(FPN，Feature Pyramid Network)20、序列生成网络(SPN，Sequence Proposal Network)30和第一全连接层40。下面针对该模型架构对S102进行详细描述。

首先，将获取到的目标视频输入CNN中。CNN是一种常见的分类网络，一般可以包括输入层、卷积层、池化层和全连接层。其中，卷积层的功能是对输入数据进行特征提取，在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤，留下的信息则是具有尺度不变性的特征，是最能表达图像的特征。本申请实施例中就是利用CNN中这两层的特征提取功能，将池化层的输出作为目标视频中每帧视频图像的n维特征数据，并基于目标视频包括的m帧视频图像的时间顺序，生成m*n的视频特征矩阵。需要说明的是，本申请实施例不限定CNN的具体模型结构，ResNet、GoogleNet、MobileNet等经典的图像分类网络都可以适用于本申请实施例的技术方案。

然后，将m*n的视频特征矩阵传递至FPN中。通常，利用网络对物体进行检测时，浅层网络分辨率高，学到的是图像的细节特征，深层网络分辨率低，学到的更多的是语义特征，因此，多数的物体检测算法都是只采用顶层特征做预测。但是，由于最深层的特征图的一个特征点映射在原图中的区域会比较大，因此小物体就会检测不到，导致检测性能较低。此时，浅层网络的细节特征就显得尤为重要。如图7所示，FPN就是将多层间的特征进行融合的网络，可以把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接，从而生成多尺度下各层特征图，且每层特征都有丰富的语义信息，识别的也就越精确。可以看出，因为越上层的特征图尺寸越小，因此形成了形似金字塔的形状。在本申请实施例中，就是将视频特征矩阵转化成这样的多层特征图。

以50层深层残差网络(ResNet50)为例，说明FPN的实现原理。如图8所示，首先自底向上在网络中进行正向传播，依次对下层特征进行2倍下采样的卷积计算，得到C2、C3、C4、C5四个特征图。进一步对每个特征图进行1*1的卷积，然后自顶向下横向连接，即自M5开始进行2倍上采样后与C4的1*1卷积结果求和，得到M4，M4与C3也按照上述方法进行融合，依次类推。最后M2、M3、M4、M5分别进行3*3卷积，得到P2、P3、P4、P5，对M5进行2倍下采样得到P6。P2、P3、P4、P5、P6就是5层特征金字塔。

进一步，将特征金字塔传递至SPN中。SPN可以针对特征金字塔的每层特征图生成对应的候选框，用于确定连续语义特征序列。为了更清楚理解SPN的原理，在介绍SPN之前，先对区域生成网络(Region Proposal Network，RPN)进行介绍。

RPN是一种区域选取网络，一般用于图像中的对象检测(物体检测、人脸检测等)，用于确定对象在图中的具体区域。如图9所示，一个图像通过特征提取后可以得到一个特征图，特征图可以理解为多个特征数据组成的表征图像特征的矩阵，特征图中一个特征点就代表一个特征数据。特征图中的特征点与原图都有一一对应的映射关系，如图7中的其中一个特征点映射到原图中就是一个小框，这个小框的具体大小与原图和特征图的比例有关。将小框的中心点作为锚点可以生成一组锚点框，锚点框的数量以及每个锚点框的长宽比可以预先设置，例如图9中示出的是3个大框就是按照预先设定的数量和长宽比生成的一组锚点框。可以理解的，特征图中的每一个特征点都会对应映射在原图上这样一组锚点框，因此原图上会映射出p*s个锚点框，其中p是特征图中的特征点数量，s是预设的一组锚点框的数量。在确定出锚点框的同时，RPN还会对锚点框中的图像进行前后景判断，得到一个前景分数和一个后景分数，可以将前景分数排序前几个的锚点框筛选出来确定为真正的锚点框，具体选择的锚点框数量可以根据情况设定。这样，就可以过滤无用的后景内容，将锚点框集中圈定在前景内容较多的区域上，便于进行后续的类别识别。在对RPN进行训练时，训练样本是真实框的中心位置以及长宽尺度，训练使得锚点框与真实框之间的差距与预测的候选框与锚点框之间的差距尽可能的接近，从而使得该模型输出的候选框越准确。由于训练参考的是候选框与锚点框的差距，因此在应用RPN进行候选框提取的时候，RPN输出的也是预测得到的候选框相对于锚点框的偏移量，即中心位置的平移量(t_x，t_y)和长宽尺度的变化量(t_w，t_h)。

本申请实施例中的SPN与RPN的原理基本相似，区别主要在于，本申请实施例中特征金字塔的每层特征图中的特征点不是映射到原图中，而是视频特征矩阵上，因此候选框也是在视频特征矩阵上生成，从而候选框由提取区域变成了提取特征序列。另外，在视频特征矩阵上生成的候选框携带了时间和空间两种信息，前文提到了本申请实施例主要关注的是时间域的内容。在视频特征矩阵上，长度代表时间维度，宽度代表空间维度，我们只关注候选框的长度，而不关注宽度。因此，本申请实施例的候选框在预设长宽时，其宽度可以保持不变，这样，SPN无需像RPN一样不断调整去搜索不同长宽的空间范围，只需要在长度维度上进行搜索，可以节省搜索空间的时间，从而进一步节省了模型的计算时间和占用的资源。具体的，宽度可以与视频特征矩阵的n维数据的维度保持一致，使候选框圈定全部特征，提取的将是各种时间段的全维度特征数据。

例如，P2层的特征图大小如果为256*256，其相对于视频特征矩阵的步长为4，则P2上的一特征点会对应在视频特征矩阵上生成一个4*4的小框作为锚点，若设置4个基准像素序列值{50、100、200、400}，则以锚点为中心，每个特征点会对应生成4个长度值分别为{4*50、4*100、4*200、4*400}的锚点框，锚点框的宽度则是n，以圈定n维数据。

也就是说，在本申请实施例中，候选框的中心位置的变化只是在长度方向上的偏移，候选框的尺度变化也只是在长度方向上的增减。因此，SPN的训练样本可以是多种语义类别的特征序列以及经标记的真实框的中心位置在长度维度上的坐标以及长度值。相应的，在应用SPN进行候选框提取的时候，SPN输出的也是预测得到的候选框相对于锚点框的在长度方向的偏移量，即中心位置在长度方向的平移量(t_y)和长度的变化量(t_h)。根据偏移量确定出候选框，从而在视频特征矩阵中框选出一段有对象的连续序列，即连续语义特征序列。需要说明的是，除上述宽度坐标无需考虑之外，SPN的训练方法，包括损失函数、分类误差、回归误差等是与RPN相似的，因此这里不作赘述。

可以理解的，特征金字塔的每一层特征图上的每一个特征点都将在视频特征矩阵中映射多个预设尺寸的候选框，这样庞大的候选框数量可能会导致各个候选框之间的重叠，导致最后截取出很多重复序列。因此，可以在生成候选框之后，进一步采用非极大值抑制(Non-Maximum Suppression，NMS)的方式，滤除重叠的冗余候选框，只保留信息量最大的候选框。NMS的原理是根据重叠候选框之间的交并比(Intersection-over-Union，IoU)进行筛选的，由于NMS已经是常见的候选框或检测框的过滤方法，因此这里不作赘述。

进一步的，由于特征金字塔中每层特征图相对于视频特征矩阵的尺寸比例都不相同，因此候选框裁剪的连续语义特征序列之间的大小也会有很大差距，后续全连接层对连续语义特征序列进行分类前，将连续语义特征序列调整到同样大小的固定尺寸的难度较大。因此，可以根据连续语义特征序列的长度，将其映射在特征金字塔的某一层中，从而使多个连续语义特征序列之间的大小尽量接近。本申请实施例中，连续语义特征序列越大，则选择越高层的特征图进行映射，连续语义特征序列越小，则选择越低层的特征图进行映射。具体来说，可以采用以下公式计算连续语义特征序列映射的特征图的层级d：

d＝[d₀+log₂(wh/244)]

其中，d₀为初始层级，在图8所示的实施例中，P2为初始层级，则d₀为2，w和h分别是连续语义特征序列在视频特征矩阵中的宽度的长度。可以理解的，w保持不变，h越大则d越大，从而进行映射的特征图的层级越高。

之后，可以将在对应层的特征图映射后裁剪出的连续语义特征序列进行尺寸调整，并输入第一全连接层40中。第一全连接层40对每个连续语义特征序列进行语义分类，输出连续语义特征序列对应的视频片段的所属语义类别的概率，同时也可以根据连续语义特征序列的中心以及长度偏移量，输出视频片段的起止时间，也即开始时间和结束时间。

根据以上描述可以看出，本申请实施例中SPN将视频特征矩阵替代原图，将原本在空间领域用于图像识别的候选框生成方法，适用在了时空领域中，使候选框从圈定图像中的物体区域转变为圈定视频中的时间范围。从而达到了将目标视频中包含语义类别的视频片段直接识别出来的目的，无需再一帧一帧的进行识别和筛选。

根据上述描述可以看出，图6的模型架构可以用于识别动态的连续语义，例如动态的行为、表情、场景等等，但对于静态的场景等类别，由于帧与帧之间画面没有什么差异，如果仍采用图6的模型架构来实施的话，反而会浪费计算时间，且识别也并不准确。此时可以分为两种实施场景。

在第一种可能的实施场景中，采用图6的模型识别视频片段的所属语义类别，其中所属语义类别可以包括至少一种动作类别、至少一种表情类别、至少一种身份类别、至少一种动态场景等任意一种或多种。可以看出，在这种实施场景中，主要对动作、表情、人脸、动态场景等动态语义进行识别，因此采用图4的视频语义分析模型可以直接得到至少一个视频片段的所属行为类别的概率。具体来说，某一段视频片段的所属语义类别可以是一种，例如，t1-t2这段起止时间的视频片段属于踢球类别的概率为90％；所属语义类别也可以是多种，例如，t3-t4这段起止时间的视频片段属于踢球类别的概率为90％、属于大笑类别的概率为80％、属于某一人脸的概率是85％，此时，t3-t4的视频片段的所属行为类别的概率可以是以上三个概率之和。在这种实施场景中，视频语义分析模型主要针对动态语义类别进行识别，在动态语义类别已经能够匹配用户对视频片段重要程度的认知时，可以采用该模型进行识别。

在第二种可能的实施场景中，所属语义类别的概率可以包括所属行为类别的概率和所属场景类别的概率。在此实施场景中，如图10所示，可以在视频语义分析模型中的CNN之后再引入另一个第二全连接层50，可以根据目标视频中每帧视频图像的n维特征数据，识别每帧视频图像的所属场景类别的概率。此时，视频语义分析模型可以输出至少一个视频片段的起止时间、所属行为类别的概率以及所属场景类别的概率。可以理解的，该场景中视频语义分析模型输出的所属场景类别的概率，可以是起止时间对应的各帧视频图像的所属场景类别的概率，也可以是目标视频的每帧视频图像的场景类别概率。在这种实施场景中，将所属场景类别和所属行为类别的识别路径区分开来，所属场景类别无论是静态还是动态，都采用常规的单帧图像的识别方式，也就是说，将所属场景识别单独通过CNN10和第二全连接层50进行识别，FPN20、SPN30和第一全连接层40则更专注在动态的行为类别的识别上，这样可以利用各个网络擅长的处理方向，把静态场景的类别加入输出结果中的同时，又可以节约计算时间且提高识别准确度。

S103，根据至少一个视频片段的起止时间和所属语义类别的概率，从至少一个视频片段中生成目标视频对应的短视频。

根据至少一个视频片段的起止时间，短视频的生成装置可以确定目标视频中具有语义类别的视频片段，然后根据所属语义类别的概率，结合设定的筛选规则可以筛选出其中符合要求的视频片段，最终生成目标视频对应的短视频。其中，筛选规则可以是预设的短视频时长或帧数，还可以是用户对各种语义类别的兴趣等。

可以理解，视频片段的所属语义类别的概率的大小可以代表视频片段中语义成分的多样性和准确性，因此，本申请实施例以视频片段的所属语义类别的概率作为衡量视频片段重要性的指标，用以在至少一个视频片段中筛选出用于生成短视频的视频片段。具体来说，在上述提到的不同场景中，短视频有不同的生成方法。

在上述第一种实施场景中，可以有两种实现方式生成短视频。

在第一种可能的实施场景的第一种实现方式中，短视频的生成装置可以根据至少一个视频片段的所属语义类别的概率的大小顺序和起止时间，依次从至少一个视频片段中确定出至少一个摘要视频片段；获取至少一个摘要视频片段并合成目标视频对应的短视频。

可以理解的，短视频具有时间短的特点，对短视频的时长有一定要求，因此需要结合短视频时长对至少一个视频片段进行筛选。在第一种实现方式中，短视频的生成装置可以对至少一个视频片段的所属语义类别的概率的大小进行排序，然后结合每个视频片段的起止时间和短视频时长，依次选择出至少一个摘要视频片段，且至少一个摘要视频片段的片段时长之和不大于预设的短视频时长。例如，视频语义分析模型分割出3个视频片段，经过概率排序后为：片段C—135％、片段B—120％、片段A—90％，其中，片段A的片段时长为10s，片段B的片段时长为5s，片段C的片段时长为2.5s，若预设的短视频时长为10s，则会先选择片段C，然后再选择片段B，最后再选择片段A时发现片段时长之和超出了10s，则不选择片段A，仅选择片段C和片段B，并生成短视频。进一步的，还可以在多个摘要视频片段之间添加转场特效等，以补充短视频时长中的剩余时间。

另一方面，若至少一个摘要视频片段的片段时长之和与预设的短视频时长之差不超过预设阈值，也可以对摘要视频片段进行裁剪以满足短视频时长要求。例如短视频的生成装置可以对排序最后的摘要视频片段进行裁剪，也可以对每一个摘要视频片段都进行部分裁剪，最终生成满足短视频时长的短视频。例如，若上例中片段A的片段时长为3s，则可以裁剪片段A的最后0.5s，也可以将三个片段各自裁剪0.2s等方式，以生成满足10s内的短视频。还例如，上例中若片段C的片段时长为11s，则也需要对片段C进行裁剪以满足短视频时长。

进一步的，在短视频生成时，短视频的生成装置可以根据至少一个摘要视频片段的起止时间，在目标视频中截取对应的摘要视频片段，然后拼接生成短视频。具体来说，可以按照至少一个摘要视频片段的所属语义类别的概率大小顺序进行拼接，这样可以将重要的摘要视频片段呈现在短视频的前段，突出重点，吸引用户兴趣。还可以按照至少一个摘要视频片段在目标视频中的时间先后顺序进行拼接，这样可以按照目标视频中的真实时间线呈现短视频，可以还原目标视频的原本时间线索。

除上述方式外，还有其他方式对摘要视频片段进行裁剪、拼接以及增加特效，并且还可以将目标视频中的音频和图像分开合成，还可以根据摘要视频片段的起止时间筛选字幕信息并添加在对应的摘要视频片段中等。由于这些视频剪辑方法已存在多种现有技术，因此本申请不多作赘述。

基于上述描述，可以看出，视频片段的所属语义类别的概率可以说明视频片段的重要程度，因此，基于所属语义类别的概率对至少一个视频片段进行筛选，可以在短视频的预设时长内，尽可能呈现更重要的视频片段。

在第一种实施场景的第二种实现方式中，短视频的生成装置可以根据每个视频片段的起止时间，在目标视频中截取视频片段，根据至少一个视频片段的所属语义类别的概率的大小顺序，对各视频片段进行排序显示。当接收到对任意一个或多个视频片段的选择指令时，确定被选择的视频片段为摘要视频片段，根据至少一个摘要视频片段，合成目标视频对应的短视频。

在第二种实现方式中，短视频的生成装置根据每个视频片段的起止时间，先在目标视频中截取出视频片段，然后至少一个视频片段的所属语义类别的概率的大小顺序，排序呈现给用户，这样用户可以根据自己的兴趣或喜好查看和选择这些视频片段，并通过触控、点击等选择指令，选择其中一个或多个视频片段作为摘要视频片段，从而进一步根据摘要视频片段生成短视频。其中根据摘要视频片段生成短视频的方法与第一种实现方式相似，这里不作赘述。可以看出，第二种实现方式通过与用户交互的方式，将分割好的视频片段按照重要性的先后顺序呈现给用户，用户基于自己的兴趣或需要进行选择后，生成相应的短视频，从而使短视频更能满足用户需要。

可选的，从至少一个视频片段中生成目标视频对应的短视频时，短视频的生成装置还可以先获取用户输入的或者历史记录中的主题关键字，将至少一个视频片段的所属语义类别与主题关键字进行匹配，将匹配程度满足阈值的视频片段确定为主题视频片段，再从至少一个主题视频片段中生成目标视频对应的短视频。

进一步可选的，从至少一个视频片段中生成目标视频对应的短视频时，短视频的生成装置还可以先对目标视频进行时域分割，得到至少一个分割片段的起止时间，然后根据至少一个视频片段的起止时间和至少一个分割片段的起止时间，确定各视频片段与各分割片段之间的至少一个重叠片段，再从至少一个重叠片段中生成目标视频对应的短视频。

具体来说，可以对目标视频进行核时域分割(Kernel Temporal Segmentation，KTS)。KTS是一种基于核方法的变化点检测算法，通过聚焦一维信号特征的一致性，来检测信号中的跳变点，能够区分信号跳变是由噪声引起的还是内容变化引起的。在本申请实施例中，KTS可以通过对输入的目标视频的每帧视频图像的特征数据进行统计分析，检测出信号的跳变点，以实现对不同内容的视频片段的划分，将目标视频分为若干不重叠的分割片段，从而得到至少一个分割片段的起止时间。然后再结合至少一个视频片段的起止时间，确定出各视频片段与各分割片段之间的至少一个重叠片段。例如，一分割片段的起止时间为t1-t2，一视频片段的起止时间为t1-t3，则重叠片段则为t1-t2对应的片段。最后可以参考上述第一种可能实施场景的两种实现方式，从至少一个重叠片段中确定出摘要视频片段，以生成目标视频对应的短视频。

可以看出，KTS分割得到的分割片段的内容一致性较高，视频语义分析模型识别出的视频片段则是具有语义类别的片段，可以说明在视频片段中的重要性。两种分割方法结合后得到的重叠片段的内容一致性和重要性都比较高，同时也可以修正视频语义分析模型的结果，从而生成的短视频更加连贯且符合用户需求。

在上述第二种可能实施场景中，所属语义类别的概率包括所属行为类别的概率和所属场景类别的概率，由于所属行为类别的概率针对的是一段视频片段，而所属行为类别的概率针对的是一段视频片段中的每帧视频图像，因此可以先将两种概率整合在一起后，再进行摘要视频片段的选择。也就是说，可以根据每个视频片段的起止时间和所属行为类别的概率、每个视频片段中的每帧视频图像的所属场景类别的概率，先确定至少一个视频片段的平均类别概率，然后再根据至少一个视频片段的平均类别概率，从至少一个视频片段中生成目标视频对应的短视频。

具体来说，针对每个视频片段，短视频的生成装置可以根据视频片段的起止时间，确定视频片段对应的多帧视频图像及帧数，将视频片段的所属行为类别的概率确定为多帧视频图像中每帧视频图像的所属行为类别的概率，也即视频片段对应每帧视频图像的所属行为类别的概率与整段视频片段的所属行为类别的概率一致。然后，再获取视频语义分析模型输出的多帧视频图像中的每帧视频图像的所属场景类别的概率，将视频片段对应的多帧视频图像中的每帧视频图像的所属行为类别的概率与所属场景类别的概率的和除以帧数，得到视频片段的平均类别概率。按照上述方式，最终确定至少一个视频片段的平均类别概率。

根据至少一个视频片段的平均类别概率，从至少一个视频片段中生成目标视频对应的短视频时，短视频的生成装置可以根据平均类别概率的大小排序，自动确定摘要视频片段或用户指定摘要视频片段，然后根据摘要视频片段合成短视频。具体细节与第一种场景中的两种实现方式相似，可以参考上文描述，此处不作赘述。同理，该实施场景中，也可以基于上述KTS分割后的重叠片段进行后续操作，此处也不作赘述。

基于上述技术方案，可以看出，本申请实施例通过视频语义分析模型识别目标视频中具有一个或多个语义类别的视频片段，以直接提取最能体现目标视频内容且具有连续性的视频片段来合成短视频，不仅考虑了目标视频中帧与帧之间内容的连贯性，提升短视频的呈现效果，使短视频内容更满足用户的实际需求，也提升了短视频的生成效率。

进一步的，本申请实施例适用的一些业务场景中(例如，社交软件的短视频分享业务场景)，还可以结合用户兴趣来生成短视频，以使得短视频更贴合用户喜好。请参见图11，图11是本申请实施例提供的另一种短视频的生成方法的流程示意图，该方法包括但不限于以下步骤：

S201，获取目标视频。

S202，通过语义分析获得目标视频中的至少一个视频片段的起止时间、所属语义类别和所属语义类别的概率。

S201-S202的具体实现方式请参考S101-S102的描述，区别在于S102可以只输出所属语义类别的概率，而S202既输出所属语义类别也输出所属语义类别的概率，这里不作赘述。

S203，根据每个视频片段的所属语义类别的概率和所属语义类别对应的类别权重，确定至少一个视频片段的兴趣类别概率。

在本申请实施例中，各种所属语义类别存在对应的类别权重，类别权重可以用于表征用户对分别各种所属语义类别的感兴趣程度，例如，在本地数据库的图像或视频中出现频率越高的所属语义类别，说明用户对此类别的图像或视频的存储数量大，即更感兴趣，则可以设置越高的类别权重；又例如，在历史操作记录中查看次数越多的图像或视频的所属语义类别，说明用户更关注此类别的图像或视频，也可以设置越高的类别权重。具体来说，可以预先为各种所属语义类别确定对应的类别权重，然后直接调用每个视频片段的所属语义类别对应的类别权重。

在本申请实施例一种可能的实现方式中，可以通过以下步骤确定各种所属语义类别对应的类别权重：

步骤一：获取本地数据库和历史操作记录中的媒体数据信息。

在本申请实施例中，本地数据库可以是用于存储或处理各类数据的存储空间，也可是专用于存储媒体数据(图片、视频等)的专用数据库，例如图库。历史操作记录指用户对数据的各项操作(浏览、移动、编辑等操作)产生的记录，例如本地日志文件。媒体数据信息是指图像、视频等类型数据的各类信息，可以包括图像和视频本身，可以是对图像和视频的特征信息，可以是图像和视频的操作信息，还可以是图像和视频的各项统计信息等等。

步骤二：根据媒体数据信息，确定媒体数据的各种所属语义类别分别对应的类别权重。

在一种可能的实现方式中，首先，短视频的生成装置可以确定本地数据库中的视频和图像的所属语义类别，统计每种所属语义类别的出现次数。然后，确定本地日志文件中用户操作过的视频和图像的所属语义类别，统计每种所属语义类别的操作时长和操作频率。具体来说，针对本地数据库中包括的视频和图像以及本地日志文件中用户操作过的视频和图像，可以进行语义分析，最后得到每张图像和每个视频的所属语义类别。在实施过程中，可以采用上述步骤S102中提到的视频语义分析模型对视频进行分析，得到视频的所属语义类别；可以采用现有技术常用的图像识别模型对图像进行分析，得到图像的所属语义类别。然后对每种所属语义类别的出现次数、操作时长和操作频率进行统计。例如，图库中有6张图片和4个视频，打球类别的出现次数为5次，吃饭类别的出现次数为1次，微笑类别的出现次数为2次。需要说明的是，这里的操作可以包括浏览、编辑、分享等各项操作，在统计操作时长和操作频率时，可以针对每项操作进行分别统计，也可以针对所有操作进行总数统计，例如，可以统计打球类别的浏览频率为2次/天，编辑频率为1次/天，分享频率为0.5次/天，浏览时长为20小时，编辑时长为40小时；也可以统计打球类别的操作频率为3.5次/天，操作时长为60小时。最后，根据每种所属语义类别的出现次数、操作时长和操作频率，计算每种所属语义类别对应的类别权重。具体来说，可以根据预设的权重公式，结合每种所属语义类别的出现次数、操作时长和操作频率，计算每种所属语义类别对应的类别权重。其中，预设的权重公式能够体现出现次数、操作时长和操作频率的数值越大，所属语义类别的类别权重越高。

可选的，可以采用以下公式计算任一所属语义类别i的类别权重w_i：

其中，count_{freq_i}、view_{freq_i}、view_{time_i}、share_{freq_i}和edit_{freq_i}分别是本地数据库和历史操作记录中所属语义类别i的出现次数、浏览频率、浏览时间、分享频率和编辑频率，

和

分别是本地数据库和历史操作记录中识别到的所有h种所属语义类别的出现次数、浏览频率、分享频率和编辑频率。

最终可以得到h种所属语义类别的类别权重W＝(w₁、w₂……w_h)。

具体来说，对于每个视频片段，其所属语义类别可以为一个或多个，在只有一个所属语义类别时(例如属于握手类别)，可以确定这一个所属语义类别的类别权重，并计算类别权重与所属语义类别的概率的乘积作为视频片段的兴趣类别概率。在有多个所属语义类别时(例如属于握手类别和微笑类别)，则可以分别确定每个所属语义类别的类别权重，然后计算每个所属语义类别对应的类别权重与概率的乘积后求和，以得到视频片段的兴趣类别概率。例如，假设视频片段A的所属语义类别包括类别1和类别2，类别1的概率为P₁，类别2的概率为P₂，类别1和类别2分别对应的类别权重为w₁和w₂，则视频片段A的兴趣类别概率P_w＝P₁*w₁+P₂*w₂。

进一步的，由于所属语义类别可以包括多种，如上文提到的，多种类别还可以划分出几种大类类别，因此还可以再对大类类别权重进行设置，例如，微笑类别、哭泣类别、生气类别都可以视为表情类别或者人脸类别，而游泳类别、跑步类别、打球类别都可以视为行为类别，人脸类别和行为类别这两大类就可以再具体设置不同的大类类别权重。具体设置方法可以由用户自己调整，也可以根据上述本地数据库和历史操作记录进一步确定大类类别权重，由于方法原理类似，因此在此不作赘述。

需要说明的是，在上述第二种可能的实施方式中，短视频的生成装置可以先确定每个视频片段中的每帧视频图像的所属场景类别的概率和所属行为类别的概率分别对应的类别权重，按照上述方法将对应的概率和类别权重的乘积求和确定出每帧视频图像的权重概率，然后再将每帧视频图像的权重概率的和除以帧数得到视频片段的兴趣类别概率。

S204，根据至少一个视频片段的起止时间和兴趣类别概率，从至少一个视频片段中确定出目标视频对应的短视频。

S204的具体实施方式与S103中第一种可能的实施场景的两种实现方式相似，区别在于S103中是针对所属语义类别的概率进行的排序，而S204则针对兴趣类别概率进行排序，因此具体实现方式可以参考S103，这里不作赘述。同理，该实施场景中，也可以基于上述KTS分割后的重叠片段进行后续操作，此处也不作赘述。

相对于S103的两种实现方式，S204中的兴趣类别概率综合说明了视频片段的重要性和兴趣度两个维度，因此在排序后进一步选择摘要视频片段，可以尽可能呈现更重要且更符合用户兴趣的视频片段。

基于上述技术方案，可以看出，本申请实施例在保证短视频内容的连贯性以及短视频生成效率的基础上，又进一步根据本地数据库和历史操作记录分析了用户偏好，从而在选择用于合成短视频的视频片段时，能够更具有针对性，更符合用户兴趣，得到千人千面的短视频。

图12示出了短视频的生成装置为终端设备100的结构示意图。

应该理解的是，终端设备100可以具有比图中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

终端设备100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是终端设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了***的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端设备100的结构限定。在本申请另一些实施例中，终端设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。

终端设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

终端设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，终端设备100可以包括1个或N个显示屏194，N为大于1的正整数。

终端设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。本发明实施例中，摄像头193包括采集人脸识别所需图像的摄像头，如红外摄像头或其他摄像头。该采集人脸识别所需图像的摄像头一般位于终端设备的正面，例如触控屏的上方，也可以位于其他位置，本发明实施例对此不做限制。在一些实施例中，终端设备100可以包括其他摄像头。终端设备还可以包括点阵发射器(图中未示出)，用于发射光线。摄像头采集人脸反射的光线，得到人脸图像，处理器对人脸图像进行处理和分析，通过与存储的人脸图像的信息进行比较以进行验证。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端设备100可以支持一种或多种视频编解码器。这样，终端设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行终端设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作***，至少一个功能所需的应用(比如人脸识别功能，指纹识别功能、移动支付功能等)等。存储数据区可存储终端设备100使用过程中所创建的数据(比如人脸信息模板数据，指纹信息模板等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universalflash storage，UFS)等。

终端设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动终端设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。

陀螺仪传感器180B可以用于确定终端设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定终端设备100围绕三个轴(即，x，y和z轴)的角速度。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。

环境光传感器180L用于感知环境光亮度。终端设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。

指纹传感器180H用于采集指纹。终端设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。其中，该指纹传感器180H可以设置在触控屏下方，终端设备100可以接收用户在触控屏上该指纹传感器对应的区域的触摸操作，终端设备100可以响应于该触摸操作，采集用户手指的指纹信息，实现本申请实施例中所涉及的指纹识别通过后打开隐藏相册，指纹识别通过后打开隐藏应用，指纹识别通过后登录账号，指纹识别通过后完成付款等。

温度传感器180J用于检测温度。在一些实施例中，终端设备100利用温度传感器180J检测的温度，执行温度处理策略。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于终端设备100的表面，与显示屏194所处的位置不同。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端设备100可以接收按键输入，产生与终端设备100的用户设置以及功能控制有关的键信号输入。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过***SIM卡接口195，或从SIM卡接口195拔出，实现和终端设备100的接触和分离。在一些实施例中，终端设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在终端设备100中，不能和终端设备100分离。

终端设备100的软件***可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android***为例，示例性说明终端设备100的软件结构。

图13是本申请实施例的终端设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android***分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和***库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图13所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序(也可以称为应用)。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图13所示，应用程序框架层可以包括窗口管理器，内容提供器，视图***，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图***包括可视控件，例如显示文字的控件，显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供终端设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话界面形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，终端设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

***库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子***进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

图14示出了短视频的生成装置为服务器200的结构示意图。

应该理解的是，服务器200可以具有比图中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

服务器200可以包括：处理器210和存储器220，处理器210可以通过总线连接到存储器220。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是服务器200的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器210中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器210中的存储器为高速缓冲存储器。该存储器可以保存处理器210刚用过或循环使用的指令或数据。如果处理器210需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器210的等待时间，因而提高了***的效率。

在一些实施例中，处理器210可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对服务器200的结构限定。在本申请另一些实施例中，服务器200也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当服务器200在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。服务器200可以支持一种或多种视频编解码器。这样，服务器200可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现服务器200的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

存储器220可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器210通过运行存储在存储器220的指令，从而执行服务器200的各种功能应用以及数据处理。存储器220可以包括存储程序区和存储数据区。其中，存储程序区可存储操作***，至少一个功能所需的应用(比如人脸识别功能，指纹识别功能、移动支付功能等)等。存储数据区可存储服务器200使用过程中所创建的数据(比如人脸信息模板数据，指纹信息模板等)等。此外，存储器220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

进一步的，上述服务器200还可以是经过虚拟化的服务器，即服务器200上具有虚拟出的多个逻辑服务器，每个逻辑服务器都可以依赖服务器200中的软件、硬件等部件实现相同的数据存储和处理功能。

图15为本申请实施例中的短视频的生成装置300的结构示意图，该短视频的生成装置300可以应用于上述终端设备100或服务器200中。该短视频的生成装置300可以包括：

视频获取模块310，用于获取目标视频；

视频分析模块320，用于通过语义分析获得所述目标视频中的至少一个视频片段的起止时间和所属语义类别的概率；其中，每个所述视频片段属于一个或多个语义类别；

短视频生成模块330，用于根据所述至少一个视频片段的起止时间和所属语义类别的概率，从所述至少一个视频片段中生成所述目标视频对应的短视频。

在一种可能的实施场景中，所述目标视频包括m帧视频图像，所述m为正整数；所述视频分析模块320具体用于：

提取所述目标视频中每帧视频图像的n维特征数据，并基于m帧视频图像的时间顺序生成m*n的视频特征矩阵，所述n为正整数；

将所述视频特征矩阵转化成多层特征图，基于所述多层特征图中的各特征点在所述视频特征矩阵上生成对应的至少一个候选框；

根据所述候选框确定至少一个连续语义特征序列，并确定每个所述连续语义特征序列对应的视频片段的起止时间和所属语义类别的概率。

在一种可能的实施场景中，所述所属语义类别的概率包括所属行为类别的概率和所属场景类别的概率；所述目标视频包括m帧视频图像，所述m为正整数；所述视频分析模块320具体用于：

根据所述候选框确定至少一个连续语义特征序列，并确定每个所述连续语义特征序列对应的视频片段的起止时间和所属行为类别的概率；

根据所述目标视频中每帧视频图像的所述n维特征数据识别并输出所述目标视频中每帧视频图像的所属场景类别的概率。

在一种可能的实施场景中，所述至少一个候选框的宽度不变。

在一种可能的实施场景中，所述短视频生成模块330具体用于：

根据每个所述视频片段的起止时间和所属行为类别的概率、每个所述视频片段中的每帧视频图像的所属场景类别的概率，确定所述至少一个视频片段的平均类别概率；

根据所述至少一个视频片段的平均类别概率，从所述至少一个视频片段中生成所述目标视频对应的短视频。

在一种可能的实现方式中，所述短视频生成模块330具体用于：

针对每个所述视频片段，根据所述视频片段的起止时间，确定所述视频片段对应的多帧视频图像及帧数；

将所述视频片段的所属行为类别的概率确定为所述视频片段中每帧视频图像的所属行为类别的概率；

获取所述多帧视频图像中的每帧视频图像的所属场景类别的概率；

将所述多帧视频图像中的每帧视频图像的所属行为类别的概率与所属场景类别的概率的和除以所述帧数，得到所述视频片段的平均类别概率。

在一种可能的实施场景中，所述视频分析模块320具体用于：

通过语义分析获得所述目标视频中的至少一个视频片段的起止时间、所属语义类别和所属语义类别的概率；

所述短视频生成模块330具体用于：

根据每个所述视频片段的所属语义类别的概率和所属语义类别对应的类别权重，确定所述至少一个视频片段的兴趣类别概率；

根据所述至少一个视频片段的起止时间和兴趣类别概率，从所述至少一个视频片段中生成所述目标视频对应的短视频。

在一种可能的实施场景中，所述装置300还包括：

信息获取模块340，用于获取本地数据库和历史操作记录中的媒体数据信息；

类别权重确定模块350，用于根据所述媒体数据信息，确定媒体数据的各种所属语义类别分别对应的类别权重。

在一种可能的实现方式中，所述类别权重确定模块350具体用于：

确定本地数据库中的视频和图像的所属语义类别，统计每种所属语义类别的出现次数；

确定历史操作记录中用户操作过的视频和图像的所属语义类别，统计每种所属语义类别的操作时长和操作频率；

根据每种所述所属语义类别的出现次数、操作时长和操作频率，计算每种所述所属语义类别对应的类别权重。

根据所述至少一个视频片段的兴趣类别概率的大小顺序和起止时间，依次从所述至少一个视频片段中确定出至少一个摘要视频片段；

获取所述至少一个摘要视频片段并合成所述目标视频对应的短视频。

可选的，所述至少一个摘要视频片段的片段时长之和不大于预设的短视频时长。

根据每个所述视频片段的起止时间，在所述目标视频中截取所述视频片段；

根据所述至少一个视频片段的兴趣类别概率的大小顺序，对各所述视频片段进行排序显示；

当接收到对任意一个或多个所述视频片段的选择指令时，确定被选择的所述视频片段为摘要视频片段；

根据所述至少一个摘要视频片段，合成所述目标视频对应的短视频。

对所述目标视频进行时域分割，得到至少一个分割片段的起止时间；

根据所述至少一个视频片段的起止时间和所述至少一个分割片段的起止时间，确定各所述视频片段与各所述分割片段之间的至少一个重叠片段；

从所述至少一个重叠片段中生成所述目标视频对应的短视频。

本领域普通技术人员可以理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种短视频的生成方法，其特征在于，包括：

获取目标视频；

通过语义分析获得所述目标视频中的至少一个视频片段的起止时间和所属语义类别的概率；其中，每个所述视频片段属于一个或多个语义类别；

根据所述至少一个视频片段的起止时间和所属语义类别的概率，从所述至少一个视频片段中生成所述目标视频对应的短视频；

所述目标视频包括m帧视频图像，所述m为正整数；所述通过语义分析获得所述目标视频中的至少一个视频片段的起止时间和所属语义类别的概率包括：

2.根据权利要求1所述的方法，其特征在于，所述所属语义类别的概率包括所属行为类别的概率和所属场景类别的概率；所述通过语义分析获得所述目标视频中的至少一个视频片段的起止时间和所属语义类别的概率还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少一个视频片段的起止时间和所属语义类别的概率，从所述至少一个视频片段中生成所述目标视频对应的短视频包括：

4.根据权利要求3所述的方法，其特征在于，所述根据每个所述视频片段的起止时间和所属行为类别的概率、每个所述视频片段中的每帧视频图像的场景类别的概率，确定所述至少一个视频片段的平均类别概率包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述通过语义分析获得所述目标视频中的至少一个视频片段的起止时间和所属语义类别的概率包括：

所述根据所述至少一个视频片段的起止时间和所属语义类别的概率，从所述至少一个视频片段中生成所述目标视频对应的短视频包括：

6.根据权利要求5所述的方法，其特征在于，所述根据每个所述视频片段的所属语义类别的概率和所属语义类别对应的类别权重，确定所述至少一个视频片段的兴趣类别概率之前，还包括：

获取本地数据库和历史操作记录中的媒体数据信息；

根据所述媒体数据信息，确定媒体数据的各种所属语义类别分别对应的类别权重。

7.根据权利要求6所述的方法，其特征在于，所述根据所述媒体数据信息，确定媒体数据的各种所属语义类别分别对应的类别权重包括：

8.根据权利要求6-7任一项所述的方法，其特征在于，所述根据所述至少一个视频片段的起止时间和兴趣类别概率，从所述至少一个视频片段中生成所述目标视频对应的短视频包括：

9.根据权利要求6-7任一项所述的方法，其特征在于，所述根据所述至少一个视频片段的起止时间和兴趣类别概率，从所述至少一个视频片段中生成所述目标视频对应的短视频包括：

10.根据权利要求1-4任一项所述的方法，其特征在于，所述从所述至少一个视频片段中生成所述目标视频对应的短视频包括：

11.一种短视频的生成装置，其特征在于，包括：

视频获取模块，用于获取目标视频；

视频分析模块，用于通过语义分析获得所述目标视频中的至少一个视频片段的起止时间和所属语义类别的概率；其中，每个所述视频片段属于一个或多个语义类别；

短视频生成模块，用于根据所述至少一个视频片段的起止时间和所属语义类别的概率，从所述至少一个视频片段中生成所述目标视频对应的短视频；

所述目标视频包括m帧视频图像，所述m为正整数；所述视频分析模块具体用于：

12.根据权利要求11所述的装置，其特征在于，所述所属语义类别的概率包括所属行为类别的概率和所属场景类别的概率；所述视频分析模块还用于：

13.根据权利要求12所述的装置，其特征在于，所述短视频生成模块具体用于：

14.根据权利要求13所述的装置，其特征在于，所述短视频生成模块具体用于：

15.根据权利要求11-14任一项所述的装置，其特征在于，所述装置还包括：

所述视频分析模块具体用于：

所述短视频生成模块具体用于：

16.根据权利要求15所述的装置，其特征在于，所述装置还包括：

信息获取模块，用于获取本地数据库和历史操作记录中的媒体数据信息；

类别权重确定模块，用于根据所述媒体数据信息，确定媒体数据的各种所属语义类别分别对应的类别权重。

17.根据权利要求16所述的装置，其特征在于，所述类别权重确定模块具体用于：

18.根据权利要求16-17任一项所述的装置，其特征在于，所述短视频生成模块具体用于：

19.根据权利要求16-17任一项所述的装置，其特征在于，所述短视频生成模块具体用于：

20.根据权利要求11-14任一项所述的装置，其特征在于，所述短视频生成模块具体用于：

21.一种终端设备，其特征在于，包括存储器和处理器，其中，

所述存储器用于存储计算机可读指令；所述处理器用于读取所述计算机可读指令并实现如权利要求1-10任一项所述的方法。

22.一种服务器，其特征在于，包括存储器和处理器，其中，

23.一种计算机存储介质，其特征在于，存储有计算机可读指令，且所述计算机可读指令在被处理器执行时实现如权利要求1-10任一项所述的方法。