CN114245232B

CN114245232B - 一种视频摘要生成方法、装置、存储介质及电子设备

Info

Publication number: CN114245232B
Application number: CN202111531817.8A
Authority: CN
Inventors: 于朋鑫; 王少康; 陈宽
Original assignee: Infervision Medical Technology Co Ltd
Current assignee: Infervision Medical Technology Co Ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2023-10-31
Anticipated expiration: 2041-12-14
Also published as: CN114245232A

Abstract

本发明实施例公开了一种视频摘要生成方法、装置、存储介质及电子设备。其中方法包括：获取待处理视频，提取待处理视频中的关键帧；对各关键帧进行预设处理，得到各关键帧的处理结果，将各关键帧的处理结果进行展示，并获取展示过程中用户对待处理视频中关键帧和非关键帧、关键帧的处理结果的交互信息；基于关键帧的处理结果和交互信息在待处理视频中确定用于生成视频摘要的目标视频帧，并基于目标视频帧生成待处理视频的视频摘要。通过对关键帧进行预设处理，减少了处理时长以及用户的等待时长，加快了处理结果的展示效率。基于交互信息以及各视频帧的处理结果形成视频摘要，将用户对各视频帧的关注度和处理结果相融合，提高了视频摘要的准确度。

Description

一种视频摘要生成方法、装置、存储介质及电子设备

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种视频摘要生成方法、装置、存储介质及电子设备。

背景技术

云平台对人工智能应用的推广具有重要价值，一方面，人工智能应用通常具有较高的计算硬件依赖，其成本对于欠发达地区来说是难以承受的，而云平台可以极大降低对本地设备的要求，使人工智能应用更容易推广；另一方面，借助通信技术的发展，云平台可以更简便的实现多中心间的联合工作，助力产业发展。

目前，对医学视频分析的处理方法为将用户上传的多个视频数据依次或分批输入人工智能计算模块中，反馈将计算数据，使用户可以查看结果，其中，在计算队列中的数据用户则无法查看。当上传了大量数据时，计算队列中会囤积多个未处理数据，用户只能查看已完成的数据，并等待其它数据的处理结果。同时，针对于视频数据生成结果报告的情况，由于视频中视频帧数量大、内容冗余等情况，导致生成的结果报告中同样存在大量冗余信息。

发明内容

本发明实施例提供一种视频摘要生成方法、装置、存储介质及电子设备，以实现提高视频摘要的生成效率，减少信息冗余。

第一方面，本发明实施例提供了一种视频摘要生成方法，包括：

获取待处理视频，提取所述待处理视频中的关键帧；

对所述各关键帧进行预设处理，得到所述各关键帧的处理结果，将所述各关键帧的处理结果进行展示，并获取展示过程中用户对所述待处理视频中关键帧和非关键帧、所述关键帧的处理结果的交互信息；

基于所述关键帧的处理结果和所述交互信息在所述待处理视频中确定用于生成视频摘要的目标视频帧，并基于所述目标视频帧生成所述待处理视频的视频摘要。

第二方面，本发明实施例还提供了一种视频摘要生成装置，包括：

关键帧提取模块，用于获取待处理视频，提取所述待处理视频中的关键帧；

关键帧处理模块，用于对所述各关键帧进行预设处理，得到所述各关键帧的处理结果，将所述各关键帧的处理结果进行展示；

交互信息采集模块，用于获取展示过程中用户对所述待处理视频中关键帧和非关键帧、所述关键帧的处理结果的交互信息；

视频摘要生成模块，用于基于所述关键帧的处理结果和所述交互信息在所述待处理视频中确定用于生成视频摘要的目标视频帧，并基于所述目标视频帧生成所述待处理视频的视频摘要。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明任一实施例提供的视频摘要生成方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例提供的视频摘要生成方法。

本实施例的技术方案，通过提取待处理视频中的关键帧，对关键帧进行预设处理，减少了处理时长以及用户的等待时长；对待处理视频中关键帧处理结果的展示，加快了处理结果的展示效率。在展示过程中，记录各视频帧的交互信息，并基于交互信息以及各视频帧的处理结果形成视频摘要，将用户对各视频帧的关注度和处理结果相融合，提高了视频摘要的准确度。

附图说明

图1为本发明实施例提供的一种视频摘要生成方法的流程示意图；

图2是本发明实施例提供的一种目标视频帧的确定流程图；

图3是本发明实施例提供的一种视频摘要生成流程示意图；

图4是本发明实施例提供的一种视频摘要生成装置的结构示意图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1为本发明实施例提供的一种视频摘要生成方法的流程示意图，本实施例可适用于对视频进行快速处理，避免长时间等待的情况，该方法可以由本发明实施例提供的一种视频摘要生成装置来执行，该视频摘要生成装置可以由软件和/或硬件来实现，该视频摘要生成装置可以配置在电子计算设备上，具体包括如下步骤：

S110、获取待处理视频，提取所述待处理视频中的关键帧。

S120、对所述各关键帧进行预设处理，得到所述各关键帧的处理结果，将所述各关键帧的处理结果进行展示，并获取展示过程中用户对所述待处理视频中关键帧和非关键帧、所述关键帧的处理结果的交互信息。

S130、基于所述关键帧的处理结果和所述交互信息在所述待处理视频中确定用于生成视频摘要的目标视频帧，并基于所述目标视频帧生成所述待处理视频的视频摘要。

本实施例中的待处理视频可以包括但不限于医学影像视频、监测视频等，对视频的处理方式可以包括但不限于对各视频帧中感兴区域的识别、对视频帧中感兴趣区域的分割、对视频帧的分类、对视频帧进行人脸识别等，对此不作限定。

在接收到对待处理视频的处理指令的情况下，识别待处理视频中的关键帧，其中，关键帧为待处理视频中的局部视频帧，通过对关键帧进行处理，减少处理的视频帧数据，加快了处理速度。在一些可选实施例中，提取所述待处理视频中的关键帧，包括：基于预设间隔帧数，在所述待处理视频中抽取关键帧，其中，预设间隔帧数可以是固定设置的，例如可以是10帧；或者，预设间隔帧数可以是根据待处理视频的总帧数确定的，其中，预设间隔帧数可以是基于待处理视频的总帧数和预设比例确定的，预设比例可以是10％，该预设间隔帧数为正整数。

在一些可选实施例中，提取待处理视频中的关键帧的目的在于剔除重复视频帧，减少对重复视频帧进行处理导致的时间消耗。相应的，提取所述待处理视频中的关键帧，包括：确定所述待处理视频中的各相邻视频帧的视频差异，在所述视频差异满足预设条件时，在所述相邻视频帧中确定关键帧。其中，可以是计算相邻视频帧的相似度，通过相似度确定视频差异，具体的，可通过计算相邻视频帧的距离信息(例如可以是欧式距离信息)确定相似度，或者，通过将相邻视频帧的对应像素点的像素值进行比对，以确定相似度，该相似度可以是相邻视频帧的对应像素点的像素值差值在预设范围内的像素点数量比例。

视频差异与相似度负相关，相邻视频帧的相似度越大，视频差异越小，相邻视频帧的相似度越小，视频差异越大。具体的，相邻视频帧的相似度小于预设阈值，相邻视频帧的视频差异满足差异条件，即相邻视频帧不是重复图像帧，可在相邻视频帧中确定至少一个关键帧。可选的，将待处理视频的首帧确定为关键帧，对于满足差异条件的每对相邻视频帧中，将相邻视频帧的后一帧确定为关键帧。

可选的，可设置关键帧的帧数，该帧数可以是用户预先输入的，还可以是根据待处理视频的总帧数和预设比例确定的。相应的，可在确定每一组相邻视频帧的视频差异后，基于视频差异进行排序，例如可以是基于视频差异进行从大到小的排序，在预设排序范围的相邻视频帧的确定关键帧，以降低关键帧的数量。

在一些实施例中，提取关键帧的目的包括但不限于剔除重复视频帧、提取包括预设对象的视频帧等，相应的，可根据关键帧的提取目的预先设置多个关键帧提取模型，并根据关键帧的提取目的调用对应的关键帧提取模型，将待处理视频输出至关键帧提取模型，并得到该关键帧提取模型输出的关键帧或者关键帧信息，关键帧信息可以是关键帧的时间戳或者帧序号。其中，关键帧提取模型可以是基于样本视频和样本视频的标准关键帧训练得到，以用于剔除重复视频帧的提取目的为例，样本视频的标准关键帧为样本视频中的非重复视频帧，即通过视频差异确定的关键帧。以提取包括预设对象的视频帧的提取目的为例，样本视频的标准关键帧可以是包括样本视频中包括预设对象的视频帧，例如预设对象可以是预设人脸，或者预设的感兴趣区域，其中，预设的感兴趣区域可以是预设的病灶。

相应的，提取所述待处理视频中的关键帧包括：基于预设关键帧提取模型在所述待处理视频中提取关键帧。可选的，可设置关键帧的帧数，在关键帧提取模型确定的关键帧中随机确定上述帧数的关键帧。

对提取的关键帧进行预设处理，其中，预设处理可以是根据处理需求确定，例如包括但不限于对各视频帧中感兴区域的识别、对视频帧中感兴趣区域的分割、对视频帧的分类、对视频帧进行人脸识别等，对此不作限定。可选的，预先设置预设处理模型，根据处理需求调用对应的预设处理模型，将提取的关键帧分别输入至调用的预设处理模型中，得到预设处理模型对各关键帧的处理结果。相应的，根据处理需求，预设处理模型包括但不限于感兴趣区域提取模型、感兴趣区域分割模型、视频帧分类模型、人脸识别模型等。相应的，关键帧的处理结果包括但不限于关键帧的分类结果、关键帧中包括感兴趣区域的概率、关键帧中感兴趣区域中像素点位置、关键帧的识别结果和识别概率等。

通过对待处理视频中提取的局部视频帧，即关键帧进行处理，替代对待处理视频帧中全部视频帧的处理过程，并将关键帧的处理结果进行可视化显示，减少了待处理视频的处理时长以及用户的等待时长。

本实施例中，电子设备配置有显示部件，或者，电子设备与显示部件电连接或通信连接，通过显示部件对关键帧的处理结果进行可视化的显示，例如显示部件可以是显示器或者显示屏等。本实施例中不限定关键帧的处理结果的展示方式，示例性的，可以是每一关键帧的处理结果形成一展示页面，该展示页面中可以包括处理结果、以及关键帧的标识(例如时间戳或者关键帧序号)、关键帧图像的一项或多项。相应的，展示页面内存在以切换空间，以实现展示页面与相邻展示页面的切换。示例性的，可根据关键帧在待处理视频中的位置，形成一索引，该索引可以是列表形式、进度条形式等不做限定。示例性的，列表形式的索引中包括关键帧的标识，每一标识与对应关键帧的展示页面关联，在检测到索引中关键帧的标识被选择时，显示被选择标识对应的展示页面，以展示标识对应的关键帧的处理结果。QA在一些实施例中，索引中还可以包括非关键帧的标识，非关键帧的标识可以是与对应的视频帧关联，在非关键帧的标识被选择时，显示对应的视频帧，需要说明的是，在索引中关键帧标识和非关键帧标识区别显示，便于对二者进行区分。示例性的，进度条形式的索引以时间戳或许视频帧顺序的形式关联待处理视频中的每一帧，进度条形式的索引中关键帧对应的索引位置区别显示，例如可以是通过不同颜色或者高亮等形式进行区别显示，便于用户快速锁定关键帧位置，索引中的各视频帧位置与待处理视频中的各视频帧一一关联，在任一视频帧位置被选项时显示关联的视频帧，在视频帧存在处理结果的情况下，可将处理结果显示在展示页面的预设位置，或者，将视频帧中的预设位置。以处理结果为识别概率、分类结果等的文本信息为例，展示界面中可包括处理结果展示区域，该展示区域中用于显示上述处理结果，在处理结果为感兴趣区域的分割结果为例，可以是在视频帧中将分割结果对应的像素点区别显示，例如可以是高亮显示等。

通过将关键帧的处理结果进行可视化显示，便于用于查看关键帧的处理结果，以及实现与用户的交互。

在处理结果的展示过程中，实时监测用户对处理结果和/或待处理视频中各视频帧的交互信息，通过交互信息体现用户对视频帧的关注度，示例性的，对一视频帧的浏览时间长，表明对该视频帧的关注度高；对一视频帧进行查看、标注、缩放、分享等操作，表明对该视频帧的关注度高。

在一些实施例中，交互信息包括时间维度的交互信息和操作维度的交互信息。其中，时间维度的交互信息包括如下的一种或多种：停留时长、停留时长占比、访问次数。在任一视频帧(包括关键帧和非关键帧)被选择进行展示的情况下，访问次数累积加一，即在任一视频帧在从其他视频帧被切换至展示状态下，访问次数累积加一。每一次被访问的展示时长为点击进入某一视频帧的时刻作为起始点，做出结束决策(例如生成摘要报告或直接离开该视频帧的展示界面)的时刻作为结束点，起始点与结束点之间的时间差值为单次访问的停留时长，在存在对任一视频帧的多次访问的情况下，将各次访问的停留时长进行累加，得到总的停留时长。停留时长占比为任一视频帧的停留时长占待处理视频中全部视频帧的总停留时长的比例。

操作维度的交互信息包括但不限于缩放操作、视频帧的参数调节、标注操作、分享操作等。其中，对视频帧进行调节的参数包括但不限于对比度、亮度等。上述对视频帧的操作可以是通过预设的调节手势或者预设的调节控件实现，在检测到用户输入的调节手势或者预设的调节控件被触发的情况下，确定存在对应操作的交互信息。

在一些可选实施例中，所述获取展示过程中用户对所述待处理视频中关键帧和非关键帧、所述关键帧的处理结果的交互信息，包括：对所述待处理视频中关键帧、非关键帧、所述关键帧的处理结果中的任一项，在检测到对所述任一项的选择操作的情况下，记录展示时间信息和展示次数信息，以及在对上述任一项的展示过程中，在检测到预设操作时，记录所述预设操作对应的操作信息。对于关键帧或者非关键帧的任一视频帧，在上述任一视频帧被选择进行展示的情况下，或者任一视频帧的处理结果被选择的情况下，累积该视频帧的访问次数加一，并记录该视频帧或处理结果的当前次停留时长。在上述任一视频帧的展示过程中，监测是否存在预设操作，例如可以是监测用户的触控手势，以及对展示界面各个控件的选择操作，若监测到任一预设操作，记录该预设操作，示例性的，将该预设操作对应的交互信息记为1，在对视频帧的展示过程中，未监测到预设操作，则将该预设操作对应的交互信息记为0。

示例性的，缩放操作可以是通过缩放控件实现，或者，通过两手指输入的对向或背向的手势轨迹实现，在视频帧的展示过程中监测到缩放控件被触发，或者检测到缩放手势的情况下，记录该视频帧存在缩放操作，例如可以是将该视频帧的缩放操作的交互信息记为1。示例性的，标注操作可以是通过对标注控件的选择实现或者通过在视频帧中添加文本、图形的形式实现等。在视频帧的展示过程中监测到标注控件被触发，或者检测到视频帧中存在标注信息的情况下，记录该视频帧存在标注操作，例如可以是将该视频帧的标注操作的交互信息记为1。

在接收到视频摘要的生成指令的情况下，基于展示过程中的各视频帧的交互信息和关键帧的处理结果，形成视频摘要，该视频摘要兼顾的视频帧的处理结果和用户对视频帧的关注度，提高的视频摘要的有效性。在待处理视频帧确定用于生成视频摘要的目标视频帧，基于目标视频帧生成视频摘要。可选的，可以是在关键帧中确定目标视频帧，还可以是在关键帧和非关键帧中确定目标视频帧，其中，非关键帧可以是待处理视频中的全部非关键帧，还可以是局部非关键帧，局部非关键帧可以是随机采样得到，或者，根据预设规则采样得到，非关键帧的数量可以是预先设置，还可以是根据关键帧数量确定的，例如可以是关键帧数量的n倍，对此不做限定。其中，目标视频帧的筛选范围内的视频帧为摘要候选视频帧，即摘要候选视频帧包括关键帧，或者，所述待处理视频中摘要候选视频帧包括关键帧和非关键帧。

在一些实施例中，所述基于所述关键帧的处理结果和所述交互信息在所述待处理视频中确定用于生成视频摘要的目标视频帧，包括：基于各视频帧的交互信息确定对应视频帧的用户关注度，基于各视频帧的用户关注度和处理结果确定各视频帧的重要性指数，基于各视频帧的重要性指数确定用于生成视频摘要的目标视频帧。其中，各交互信息预先设置有权重信息，将各交互信息与对对应的权重信息进行加权处理得到用户关注度。将视频帧的处理结果转换为处理数值，示例性的，可以是将处理结果中的识别概率作为处理数值；或者，将分类结果转换为对应的数值表示；或者，将视频帧中是否存在感兴趣区域分别设置为1和0等；以及对不存在处理结果的视频帧，将处理数值设置为特定数值，例如-1等。用户关注度和处理结果分别设置有权重信息，基于用户关注度和处理结果，以及对应的权重信息生成重要性指数。根据重要性指数对各视频帧进行排序，根据排序确定目标视频帧。可选的，根据视频摘要中目标视频帧的数量，在排序的视频帧中确定目标视频帧，示例性的，目标视频帧的数量可以是10，或者待处理视频总帧数的20％等，将重要性指数排序中前n位的视频帧确定为目标视频帧，基于该目标视频帧生成视频摘要，其中，n为目标视频帧的数量。

在一些实施例中，基于所述关键帧的处理结果和所述交互信息在所述待处理视频中确定用于生成视频摘要的目标视频帧，包括：基于所述待处理视频中摘要候选视频帧的图像特征和各摘要候选视频帧对应的交互信息，生成各摘要候选视频帧的视频特征信息；将所述各摘要候选视频帧的视频特征信息输入至视频帧筛选模型，得到各摘要候选视频帧的重要性指数，基于所述重要性指数在所述摘要候选视频帧中确定目标视频帧。

本实施例中，通过将摘要候选视频帧的图像特征和各摘要候选视频帧对应的交互信息进行融合，得到摘要候选视频帧的视频特征信息，提高了特征信息的全面性，进一步提高了目标视频帧确定的准确性。

可选的，基于所述待处理视频中摘要候选视频帧的图像特征和各摘要候选视频帧对应的交互信息，生成各摘要候选视频帧的视频特征信息，包括：基于预设的特征提取模型，分别提取各所述摘要候选视频帧的图像特征；将所述各摘要候选视频帧对应的交互信息转换为对应数值；对于每一摘要候选视频帧，将所述摘要候选视频帧的图像特征和交互信息对应的数值，形成作为视频特征信息的特征向量。

在一些实施例中，特征提取模型可以是卷积神经网络模型。将各摘要候选视频帧分别输入至上述卷积神经网络模型，得到各摘要候选视频帧的图像特征，图像特征可以是向量特征或矩阵特征。将各摘要候选视频帧对应的交互信息转换为对应数值，其中，不同交互信息对应的数值类型可以不同，例如，操作维度的交互信息可以是1和0，例如存在预设操作，则该预设操作对应的数值为1，不存在预设操作，则该预设操作的数值为0；例如时间维度的交互信息对应的数值可以是监测到的时长或者比例等。可以是将每一视频帧的交互信息对应的数据，形成向量特征，向量特征各交互信息的对应数据基于预设顺序排列。将图像特征和交互信息的相邻特征进行拼接，得到视频特征信息的特征向量。在一些实施例中，视频特征信息的特征向量中还包括处理结果对应的数值，其中，处理结果对应的数值可以是识别概率、分割结果对应的数字矩阵(例如感兴趣区域的像素点为1，非感兴趣区域的像素点为0)、分类结果对应的数字分类标识等。示例性的，参见图2，图2是本发明实施例提供的一种目标视频帧的确定流程图。图2中的特征向量中包括图像特征、视频帧的位置标识、关键帧标识、处理结果(预测概率)、缩放操作的数值、停留时长、停留时长占比、被反复访问的次数。其中，非关键帧的预测概率均设置为第一数值，例如为0.001，对于未停留的视频帧的停留时长设置为第二数值，例如0.01等。将上述特征信息拼接得到特征向量。

将特征向量输入到视频帧筛选模型，得到上述各视频帧的重要性指数。视频帧筛选模型包括变压器网络和多层感知机网络。其中，变压器网络(Transformer Network)可以包括多个编码模块，各编码模块依次连接，用于对输入的特征向量进行特征提取，多层感知机网络对变压器网络提取的特征信息进行处理，得到各视频帧的重要性指数。每一编码模块分别提取各视频帧的特征以及相邻视频帧的特征，避免相似视频帧被同时筛选作为目标视频帧的情况。

基于目标视频帧生成视频摘要可以是基于目标视频帧图像、目标视频帧的处理结果中的一项或多项形成视频摘要。通过形成视频摘要，便于用户通过浏览视频摘要替代浏览对待处理视频，简化了待处理视频的分析处理过程，减少了待处理视频中的干扰信息，提高了对待处理视频进行分析处理的针对性和有效性。

在上述实施例的基础上，基于所述目标视频帧生成所述待处理视频的视频摘要，包括：基于所述目标视频帧的重要性指数，对所述目标视频帧进行排序；基于排序的目标视频帧和/或所述目标视频帧的处理结果生成视频摘要。通过将目标视频帧进行排序，对目标视频帧对应的摘要信息进行排序，形成的视频摘要，便于用户根据重要性指数浏览视频摘要。

在上述实施例的基础上，通过交互界面展示关键帧的处理结果，同时在交互界面中还包括多个处理控件，处理控件包括但不限于非关键帧的处理控件、视频摘要的生成控件。在非关键帧的处理控件被选择的情况下，对待处理视频中的非关键帧进行预设处理。可选的，非关键帧的处理控件可以是包括进行处理的非关键帧的选择，其中，进行处理的非关键帧可以是全部的非关键帧，还可以是被用户选择的非关键帧，例如在视频帧的选择模式下，在索引中对视频帧的标识或者时间戳进行选择，将选择的非关键帧确定为进行处理的视频帧，提高视频帧处理的针对性，避免全部视频帧进行处理导致的时间消耗和算力浪费，同时通过对非关键的处理，避免关键帧选择的提取的遗漏。

在视频摘要的生成控件被选择的情况下，基于已处理的视频帧的处理结果以及交互信息，生成视频摘要。其中，已处理的视频帧包括已处理的关键帧，或者包括已处理的关键帧和已处理的非关键帧。

相应的，本实施例提供的方法还包括：在展示过程中，接收对所述待处理视频中非关键帧的处理指令，响应于所述处理指令，对所述处理指令对应的非关键帧进行预设处理，并展示处理结果。通过在关键帧处理后，由用户选择是否对非关键帧进行处理，避免直接对全部视频帧进行处理导致的耗时长的问题，同时避免了仅对关键帧进行处理导致的处理结果遗漏的问题。根据用户需求对待处理视频进行处理，提高了不同视频的差异性处理，符合用户需求。

在上述实施例的基础上，本发明实施例还提供了一个优选实例，参见图3，图3是本发明实施例提供的一种视频摘要生成流程示意图。该处理流程具体为：对输入视频数据(即上述实施例中的待处理视频)进行关键帧提取，关键帧提取有两个作用，一个是优化任务调度过程以优化用户体验，降低平台计算负担；另一方面是将其用于模型预测并生成用户的初步参考信息，并可以根据该结果直接输出视频摘要报告。可以根据视频前后帧的差异波动来提取关键帧，或以固定间隔提取帧作为关键帧，或通过深度学习算法来提取关键帧。

使用人工智能预测模型(即上述实施例中的处理模型)获得关键帧预测结果(上述实施例中的处理结果)，并将结果返回用户交互页面。人工智能预测模型的功能可以包括但不限于病灶检测、分割、量化等。

用户在交互页面中根据关键帧预测结果决定：(1)是否对全部视频帧进行预测，如果不需要则交互结束；(2)是否输出摘要报告，如果不需要则交互结束。检测用于在交互页面的操作，确定是否对全部视频帧进行预测，以及是否输出摘要报告。在关键帧预测结果的展示过程中，记录用户在交互页面中的交互信息。交互信息包括时间维度交互信息特征和逐帧多维度信息特征(例如操作维度的交互信息)，其中，时间维度的特征是我们将从用户点击进入某一数据的时刻作为起始点，用户做出结束决策(生成摘要报告或直接离开该数据界面)的时刻作为结束点，其中的每个时间点用户只能停留在整个视频N个帧的某一帧上，根据该记录可以得到每一帧与时间信息相关的特征，长度为N，包括“用户在某一帧的停留时长”，“某一帧的停留时长占比”，“某一帧被反复访问的次数”等。逐帧多维度信息特征由多个长度为N的向量组成，记录的信息可以是在每一帧上是否发生某个类型的行为，比如“是否进行局部的放缩”，“是否调节对比度”等基于用户交互得到的信息，也可以是“当前帧是否为关键帧”，“当前帧的预测结果”等基于之前的算法或模型得到的结果。

在检测到对全部视频帧进行预测的操作指令的情况下，对整个视频使用人工智能预测模型得到预测结果，返回到交互页面由用户进行查看，同时记录用户在交互页面中的交互信息。用户可以进一步决定是否输出摘要报告，如果不需要则交互结束。对全部视频帧进行预测，说明用户认为初步得到的关键帧不足以概括视频信息，可以将这一信息视作先验信息，用于构建新特征或者在帧排序时对某些帧(例如关键帧)进行一些额外的操作，比如降低权重。

在检测到输出摘要报告的操作指令的情况下，使用输入视频，关键帧，关键帧预测结果和此时已记录的用户交互信息进行特征构建，基于变压器结构的多模态深度学习模型预测每一帧的重要指数，参见图2，根据预测结果生成视频摘要报告，返回给用户。

图4是本发明实施例提供的一种视频摘要生成装置的结构示意图，该装置包括：

关键帧提取模块210，用于获取待处理视频，提取所述待处理视频中的关键帧；

关键帧处理模块220，用于对所述各关键帧进行预设处理，得到所述各关键帧的处理结果，将所述各关键帧的处理结果进行展示；

交互信息采集模块230，用于获取展示过程中用户对所述待处理视频中关键帧和非关键帧、所述关键帧的处理结果的交互信息；

视频摘要生成模块240，用于基于所述关键帧的处理结果和所述交互信息在所述待处理视频中确定用于生成视频摘要的目标视频帧，并基于所述目标视频帧生成所述待处理视频的视频摘要。

可选的，所述交互信息包括时间维度的交互信息和操作维度的交互信息；

交互信息采集模块230用于：

对所述待处理视频中关键帧、非关键帧、所述关键帧的处理结果中的任一项，在检测到对所述任一项的选择操作的情况下，记录展示时间信息和展示次数信息，以及在对上述任一项的展示过程中，在检测到预设操作时，记录所述预设操作对应的操作信息。

可选的，视频摘要生成模块240包括：

视频特征信息生成单元，用于基于所述待处理视频中摘要候选视频帧的图像特征和各摘要候选视频帧对应的交互信息，生成各摘要候选视频帧的视频特征信息；

目标视频帧确定单元，用于将所述各摘要候选视频帧的视频特征信息输入至视频帧筛选模型，得到各摘要候选视频帧的重要性指数，基于所述重要性指数在所述摘要候选视频帧中确定目标视频帧。

可选的，所述待处理视频中摘要候选视频帧包括关键帧，或者，所述待处理视频中摘要候选视频帧包括关键帧和非关键帧；

视频特征信息生成单元用于：

基于预设的特征提取模型，分别提取各所述摘要候选视频帧的图像特征；

将所述各摘要候选视频帧对应的交互信息转换为对应数值；

对于每一摘要候选视频帧，将所述摘要候选视频帧的图像特征和交互信息对应的数值，形成作为视频特征信息的特征向量。

可选的，所述视频帧筛选模型包括变压器网络和多层感知机网络。

可选的，视频摘要生成模块240用于：

基于所述目标视频帧的重要性指数，对所述目标视频帧进行排序；基于排序的目标视频帧和/或所述目标视频帧的处理结果生成视频摘要。

可选的，关键帧提取模块210用于：

基于预设间隔帧数，在所述待处理视频中抽取关键帧；或者，

确定所述待处理视频中的各相邻视频帧的视频差异，在所述视频差异满足预设条件时，在所述相邻视频帧中确定关键帧；或者，

基于预设关键帧提取模型在所述待处理视频中提取关键帧。

可选的，该装置还包括：

非关键帧处理模块，用于在展示过程中，接收对所述待处理视频中非关键帧的处理指令，响应于所述处理指令，对所述处理指令对应的非关键帧进行预设处理，并展示处理结果。

本发明实施例所提供的视频摘要生成装置可执行本发明任意实施例所提供的视频摘要生成方法，具备执行视频摘要生成方法相应的功能模块和有益效果。

图5为本发明实施例提供的一种电子设备的结构示意图。图5示出了适于用来实现本发明实施方式的电子设备12的框图。图5显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。设备12典型的是承担图像分类功能的电子设备。

如图5所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器16，存储装置28，连接不同***组件(包括存储装置28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及***组件互连(Peripheral Component Interconnect，PCI)总线。

电子设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(Random Access Memory，RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory，CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储装置28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块26的程序36，可以存储在例如存储装置28中，这样的程序模块26包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网关环境的实现。程序模块26通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、摄像头、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网关适配器20与一个或者多个网关(例如局域网(Local Area Network，LAN)，广域网Wide Area Network，WAN)和/或公共网关，例如因特网)通信。如图所示，网关适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)***、磁带驱动器以及数据备份存储***等。

处理器16通过运行存储在存储装置28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明上述实施例所提供的视频摘要生成方法。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的视频摘要生成方法。

当然，本发明实施例所提供的一种计算机可读存储介质，其上存储的计算机程序不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的视频摘要生成方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的源代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的源代码可以用任何适当的介质传输，包括——但不限于否线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机源代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。源代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网关——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频摘要生成方法，其特征在于，包括：

获取待处理视频，提取所述待处理视频中的关键帧；

对所述各关键帧进行预设处理，得到所述各关键帧的处理结果，将所述各关键帧的处理结果进行展示，并获取展示过程中用户对所述待处理视频中关键帧和非关键帧、所述关键帧的处理结果的交互信息；所述交互信息包括时间维度的交互信息和操作维度的交互信息；所述操作维度的交互信息包括缩放操作、视频帧的参数调节、标注操作、分享操作；

基于所述关键帧的处理结果和所述交互信息在所述待处理视频中确定用于生成视频摘要的目标视频帧，并基于所述目标视频帧生成所述待处理视频的视频摘要；

所述获取展示过程中用户对所述待处理视频中关键帧和非关键帧、所述关键帧的处理结果的交互信息，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述关键帧的处理结果和所述交互信息在所述待处理视频中确定用于生成视频摘要的目标视频帧，包括：

基于所述待处理视频中摘要候选视频帧的图像特征和各摘要候选视频帧对应的交互信息，生成各摘要候选视频帧的视频特征信息；

将所述各摘要候选视频帧的视频特征信息输入至视频帧筛选模型，得到各摘要候选视频帧的重要性指数，基于所述重要性指数在所述摘要候选视频帧中确定目标视频帧。

3.根据权利要求2所述的方法，其特征在于，所述待处理视频中摘要候选视频帧包括关键帧，或者，所述待处理视频中摘要候选视频帧包括关键帧和非关键帧；

所述基于所述待处理视频中摘要候选视频帧的图像特征和各摘要候选视频帧对应的交互信息，生成各摘要候选视频帧的视频特征信息，包括：

将所述各摘要候选视频帧对应的交互信息转换为对应数值；

4.根据权利要求3所述的方法，其特征在于，所述视频帧筛选模型包括变压器网络和多层感知机网络。

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标视频帧生成所述待处理视频的视频摘要，包括：

基于所述目标视频帧的重要性指数，对所述目标视频帧进行排序；

基于排序的目标视频帧和/或所述目标视频帧的处理结果生成视频摘要。

6.根据权利要求1所述的方法，其特征在于，所述提取所述待处理视频中的关键帧，包括：

基于预设关键帧提取模型在所述待处理视频中提取关键帧。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在展示过程中，接收对所述待处理视频中非关键帧的处理指令，响应于所述处理指令，对所述处理指令对应的非关键帧进行预设处理，并展示处理结果。

8.一种视频摘要生成装置，其特征在于，包括：

交互信息采集模块，用于获取展示过程中用户对所述待处理视频中关键帧和非关键帧、所述关键帧的处理结果的交互信息；所述交互信息包括时间维度的交互信息和操作维度的交互信息；所述操作维度的交互信息包括缩放操作、视频帧的参数调节、标注操作、分享操作；

视频摘要生成模块，用于基于所述关键帧的处理结果和所述交互信息在所述待处理视频中确定用于生成视频摘要的目标视频帧，并基于所述目标视频帧生成所述待处理视频的视频摘要；

所述交互信息采集模块，还用于对所述待处理视频中关键帧、非关键帧、所述关键帧的处理结果中的任一项，在检测到对所述任一项的选择操作的情况下，记录展示时间信息和展示次数信息，以及在对上述任一项的展示过程中，在检测到预设操作时，记录所述预设操作对应的操作信息。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的视频摘要生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的视频摘要生成方法。