CN111581433B

CN111581433B - 视频处理方法、装置、电子设备及计算机可读介质

Info

Publication number: CN111581433B
Application number: CN202010420727.0A
Authority: CN
Inventors: 钟瑞
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2023-10-10
Anticipated expiration: 2040-05-18
Also published as: CN111581433A; WO2021232978A1

Abstract

本申请公开了一种视频处理方法、装置、电子设备及计算机可读介质，涉及视频技术领域，方法包括：获取待处理的目标视频；获取所述目标视频中待处理图像帧对应的目标场景类型；根据所述待处理图像帧的时间戳，确定所述目标场景类型在所述目标视频内的场景时间片段，其中，所述目标视频中，所述场景时间片段内的图像帧对应的场景类型均为所述目标场景类型；根据所述场景类型以及该场景类型对应的场景时间片段生成视频标注结果。因此，能够识别视频中的图像帧的场景类型，并且结合场景类型以及场景类型在视频内的出现时间得到标注结果，使得标注结果能够反应视频的时间段与场景的对应关系，使得标注结果更直观且更加符合用户需求。

Description

视频处理方法、装置、电子设备及计算机可读介质

技术领域

本申请涉及视频技术领域，更具体地，涉及一种视频处理方法、装置、电子设备及计算机可读介质。

背景技术

视频标注是在视频预览或录像回放过程中，直接在视频上进行突出标记，使视频更具有针对性的视频处理方式，在诸多领域应用广泛。例如，视频标注是公安侦查民警在视频案件研判中最常用的一种分析手段，使公安干警可定位和重点关注嫌疑目标，锁定重要视频线索信息。又如，视频标注还可以用于医学领域的影像图像分析，医师可通过视频标注重点标出发生病变或产生异常的身体部位。再如，视频标注还可以作为视频的一种存储方式，可以作为视频对应的描述内容，用户通过该视频标注能够快速获取视频内的部分内容。

但是，目前的视频标注技术，大多采用人工标注的方法，必须要人为的对相册中的内容进行识别与标注，标注效率低下，耗费大量的人力与财力，且随着疲劳度的增加标注的准确度也会下降。

发明内容

本申请提出了一种视频处理方法、装置、电子设备及计算机可读介质，以改善上述缺陷。

第一方面，本申请实施例提供了一种视频处理方法，包括：获取待处理的目标视频；获取所述目标视频中待处理图像帧对应的目标场景类型；根据所述待处理图像帧的时间戳，确定所述目标场景类型在所述目标视频内的场景时间片段，其中，所述目标视频中，所述场景时间片段内的图像帧对应的场景类型均为所述目标场景类型；根据所述场景类型以及该场景类型对应的场景时间片段生成视频标注结果。

第二方面，本申请实施例还提供了一种视频处理装置，包括：视频获取单元、场景获取单元、确定单元和处理单元。视频获取单元，用于获取待处理的目标视频。场景获取单元，用于获取所述目标视频中待处理图像帧对应的目标场景类型。确定单元，用于根据所述待处理图像帧的时间戳，确定所述目标场景类型在所述目标视频内的场景时间片段，其中，所述目标视频中，所述场景时间片段内的图像帧对应的场景类型均为所述目标场景类型。处理单元，用于根据所述场景类型以及该场景类型对应的场景时间片段生成视频标注结果。

第三方面，本申请实施例还提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行上述方法。

第四方面，本申请实施例还提供了一种计算机可读介质，所述可读存储介质存储有处理器可执行的程序代码，所述程序代码被所述处理器执行时使所述处理器执行上述方法。

本申请提供的视频处理方法、装置、电子设备及计算机可读介质，获取待处理的目标视频；获取所述目标视频中待处理图像帧对应的目标场景类型；根据所述待处理图像帧的时间戳，确定所述目标场景类型在所述目标视频内的场景时间片段，其中，所述目标视频中，所述场景时间片段内的图像帧对应的场景类型均为所述目标场景类型；根据所述场景类型以及该场景类型对应的场景时间片段生成视频标注结果。因此，能够识别视频中的图像帧的场景类型，并且结合场景类型以及场景类型在视频内的出现时间得到标注结果，使得标注结果能够反应视频的时间段与场景的对应关系，使得标注结果更直观且更加符合用户需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的视频处理方法的方法流程图；

图2示出了本申请实施例提供的视频下载界面的示意图；

图3示出了本申请实施例提供的视频播放界面的示意图；

图4示出了本申请另一实施例提供的视频处理方法的方法流程图；

图5示出了本申请实施例提供的Mobilenet_V1网络的训练过程；

图6示出了本申请实施例提供的识别待处理图像的场景分类的过程；

图7示出了本申请实施例提供的Yolo_V3网络结构的示意图；

图8示出了图4中的S460的流程图；

图9示出了本申请实施例提供的视频标注结果的示意图；

图10示出了本申请又一实施例提供的视频处理方法的方法流程图；

图11示出了本申请一实施例提供的视频处理装置的模块框图；

图12示出了本申请另一实施例提供的视频处理装置的模块框图；

图13示出了本申请实施例提供的电子设备的示意图；

图14是本申请实施例的用于保存或者携带实现根据本申请实施例的视频处理方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

目前，视频标注方法主要是人工标注和机器学习的视频标注。

例如，一种人工的视频标注方法可以是，首先通过网页构建一个盛放视频的容器界面，在视频部分里面加载视频，后根据视频的内容，通过人工拖动滑块或点击视频拖动条来改变视频播放时间点或确认视频播放内容的时间点，通过点击视频的知识点面板来将标注视频的内容。

随着机器学习技术在计算机视觉领域的不断应用，对标注过的数据需求量越来越大。机器学习属于人工智能的一种，人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

例如，一种基于机器学习的视频标注方法可以是根据特征提取对视频标注，具体地，首先对获取的视频流进行解码处理，并接收所有帧图像对应的标注命令，后根据标注命令将所有帧图像对应的所有存储特征进行提取处理，最后将每一标注命令对应的存储特征和接收时间保存至标注记录中。

但是，发明人在研究中发现，现有的基于人工标注的方法必须要人为的对相册中的内容进行识别与标注，标注效率低下，耗费大量的人力与财力，且随着疲劳度的增加标注的准确度也会下降，最重要的是会侵犯相册用户的隐私。基于特征提取的视频标注方法的缺点在于只记录了视频中是否包含该类别的特征，没有将视频中的特征进行排序，从而导致视频标注的结果很难对视频的内容进行诠释。

因此，为了克服上述缺陷，本申请实施例提供了一种视频处理方法，该方法应用于电子设备，作为一种实施方式，该方法的执行主体可以是电子设备，使得视频处理方法由电子设备在本地就可以执行，避免将该视频发送至云服务器而导致数据的泄露而危害用户的隐私。具体地，如图1，该方法包括：S101至S104。

S101：获取待处理的目标视频。

作为一种实施方式，待处理的目标视频可以是电子设备内已经存储的视频中的至少部分视频。在一些实施例中，该待处理的目标视频可以是用户由电子设备所存储的视频中的选中的视频。例如，电子设备可以将所存储的视频在电子设备的屏幕上显示，用户从所显示的多个视频中选中至少部分视频，作为待处理的目标视频。

作为另一种实施方式，该待处理的目标视频可以是用户请求下载的视频。如图2所示，图2所显示的界面为某应用程序提供的视频下载界面，该应用程序可以是视频类应用程序，即具有视频播放功能的应用程序，用户能够通过该应用程序在线观看视频以及下载视频。用户在视频下载界面内选中要下载的视频，则电子设备能够检测到用户触发的下载请求对应的视频的标识。例如，检测用户在该视频下载界面内触发的下载按钮对应的视频，所触发的下载按钮对应的视频为用户请求下载的视频。

将请求下载的视频作为待处理的目标视频，从而能够在用户请求下载视频的时候，就可以对该视频执行本申请实施例的视频处理方法，以便在将该视频存储的时候，能够将该视频与该视频标注结果对应存储。

当然，也可以将请求下载的视频的标识记录或者将视频存储，在指定条件下对从该下载的视频中选择至少部分视频作为待处理的目标视频。

作为又一种实施方式，该待处理的目标视频可以是用户通过视频录制应用程序录制的视频。例如用户在相机应用通过视频录制功能录制的视频，则该视频可以作为待处理的目标视频，从而可以在将该视频存储的时候，将该视频与该视频对应的视频标注结果对应存储。

当然，也可以将录制的视频的标识存储，在指定条件下将该视频作为待处理的目标视频。

其中，该指定条件可以是预先设定的本申请实施例的处理方法的执行条件，即在该指定条件下可以对待处理的目标视频执行本申请实施例的方法，以便得到待处理的目标视频的视频结果。作为一种实施方式，该指定条件可以是预设周期，例如，24小时，即每间隔预设周期执行本申请实施例的方法。作为一种实施方式，该指定条件可以是电子设备处于空闲状态，从而能够避免电子设备由于执行本申请实施例的方法而导致功耗过高，进而导致***卡顿，具体地，该空闲状态的具体实施方式可以参考后续实施例。

S102：获取所述目标视频中待处理图像帧对应的目标场景类型。

其中，待处理图像帧可以是目标视频的对应的所有图像帧中的至少部分图像帧。作为一种实施方式，该待处理图像帧可以是目标视频的部分时间段的图像帧，例如，可以是视频的片头部分的结束时刻至片尾部分的开始时刻之间的时间段对应的图像帧，从而可以不对视频的片头部分和片尾部分做视频处理得到对应的标注结果，介绍数据运算量。当然，该待处理图像帧还可以是目标视频的对应的所有图像帧中的关键帧，也可以减少数据运算量。作为另一种实施方式，可以将目标视频内的所有的图像帧作为待处理图像帧，从而能够提高视频标注结果的准确性和全面性。

作为一种实施方式，每个图像帧对应一个场景，而每个场景对应一个场景类别，在一些实施例中，该场景类别可以包括：自拍、合影、建筑、美食、蓝天、剪影、日落、沙滩、运动、草地、文字、夜景。即场景所表征的是整个图像帧所表达的内容，而图像帧内的各个物体可以作为场景内的各个要素。例如，整个图像为用户A和用户B的合影，则该图像帧的场景类型为合影，该场景内的要素包括用户A和用户B，用户A和用户B的类型为人物。

作为一种实施方式，可以基于机器学习识别待处理图像帧的场景类型，例如，预先训练好一个神经网络结构，例如，可以是VGG-Net或ResNet等。将该待处理图像帧作为该神经网络结构的输入图像，则该神经网络结构的输出为该待处理图像对应的场景类型，即目标场景类型。

具体地，神经网络结构的最后一层的输出是输入图像属于每个预先定义的场景类别的概率的分布向量，在构建集成分类器的过程中，可以将深度神经网络的若干中间层的输出作为输入图像的特征，训练Softmax分类器；采用批量随机梯度下降法和反向传播算法对深度网络模型进行训练。从而，通过该神经网络的分类器就能够得到待处理图像帧对应的目标场景类型。

作为一种实施方式，待处理图像帧可以是多个图像，且该待处理图像帧可以对应多个场景类型，从而所得到的目标场景类型也可以是多个。例如，待处理图像帧包括图像1、图像2、图像3、图像4、图像5、图像6、图像7、图像8、图像9，其中，图像1、图像2、图像3、图像4、图像5对应的场景类型均为第一场景类型，图像6、图像7、图像8、图像9对应的场景类型均为第二场景类型，则该待处理的9个图像帧对应的目标场景类型分别为第一场景类型和第二场景类型。

S103：根据所述待处理图像帧的时间戳，确定所述目标场景类型在所述目标视频内的场景时间片段。

其中，所述目标视频中，所述场景时间片段内的图像帧对应的场景类型均为所述目标场景类型。

其中，目标视频内的每个图像帧都对应有时间戳，每个图像帧的时间戳能够反映该图像帧在目标视频内的播放顺序。视频可以看作是多个图像帧按照一定顺序合成播放，因此，将多个图像帧按照一定顺序编码之后得到的图像集合就可以看作是视频，而该时间戳就可以是用于表征某个图像帧在视频内的播放顺序的标记信息。通常，将视频的第一个图像帧作为起始图像，所对应的时间戳为起始时间戳，然后，该起始图像之后的图像帧按照播放顺序在该起始时间戳的基础上增加一定数值，每相邻的两个图像帧之间的差值可以是固定的。

因此，视频内的每个图像帧都对应该视频的播放时间轴上的一个时间点，而该时间点即为图像帧的时间戳。其中，该视频的播放时间轴与视频的播放时间长度有关，可以是以0为起点，以视频的总播放时间长度为起点，例如，该视频的总长度为10秒，则该视频的播放时间轴为以0为起点，10秒为终点的时间轴。而视频内的每个图像帧的时间戳都位于该播放时间轴上，由此就能够确定每个图像帧在时间播放轴上的位置。

其中，该场景时间片段可以包括该场景的起始时间和终点时间的至少一种。

根据S102能够确定每个待处理图像帧对应的场景类型，再根据每个待处理图像帧对应的场景类型，就能够确定每个场景类型的起始时刻和终点时刻。例如，上述的图像1、图像2、图像3、图像4、图像5对应的场景类型均为第一场景类型，图像6、图像7、图像8、图像9对应的场景类型均为第二场景类型，图像1、图像2、图像3、图像4、图像5、图像6、图像7、图像8、图像9对应的时间戳分别为t1、t2、t3、t4、t5、t6、t7、t8、t9，则可以确定第一场景类型的场景时间片段为t1至t5，即在视频的播放时间轴上，t1至t5之间的所有图像帧对应的场景类型均为第一场景类型，第二场景类型的场景时间片段为t6至t9，即在视频的播放时间轴上，t6至t9之间的所有图像帧对应的场景类型均为第二场景类型。

S104：根据所述目标场景类型以及该目标场景类型对应的场景时间片段生成视频标注结果。

其中，该视频标注结果描述目标视频内的场景时间片段对应的场景类型为目标场景类型，从而通过该视频标注结果就能够获知目标视频的某个时间段内的场景类型，且能够明确该类型的场景的起始时刻和终止时刻，以便用于在需要查询某个场景的视频时，能够根据该场景对应的场景时间片段在目标视频内快速定位到该场景的起始时刻和终止时刻，方便快速查阅。

作为一种实施方式，该视频标注结果可以是该目标视频对应的描述内容，该描述内容可以是文本内容，具体地，该描述内容用于通过文本的形式表述目标视频内的多个场景类型以及每个场景类型对应的起始时刻和终止时刻。例如，该描述内容可以是“场景：自拍，场景时间片段为2秒至5秒”。

作为另一种实施方式，该视频标注结果可以是基于目标视频的时间轴而设置的内容，具体地，请参阅后续实施例。

在一些实施例中，电子设备可以将该视频标注结果显示。作为一种实施方式，该电子设备能够将该视频标注结果在电子设备的指定界面内显示。例如，该指定界面可以是该目标视频的播放界面，作为一种实施方式，可以将该视频标注结果在所播放的目标视频的进度条上显示，即在该进度条上标志该目标场景类型的场景时间片段以及该目标场景类型。

如图3所示，在图3所示的视频播放界面内所播放的内容是目标视频，在该目标视频的进度条301上显示有目标场景类型对应的第一标记302和第二标记303。其中，第一标记302用于表征目标场景类型的起点时刻在进度条301上的位置，第二标记303用于表征目标场景类型的终点时刻在进度条301上的位置。用户触发该第一标记302和第二标记303能够显示第一内容和第二内容，其中，第一内容用于说明该第一标记302对应的位置为目标场景类型的起点时刻，如图3所示的“自拍场景起始时刻”，第二内容用于说明该第二标记303对应的位置为目标场景类型的终点时刻。因此，用户在观看该目标视频时，通过该第一标记302和第二标记303能够明确视频内的各个场景在视频的进度条301上的位置，方便用户快速定位到所感兴趣的场景。其中，视频的进度条301为视频的播放时间轴。

请参阅图4，图4示出了本申请另一实施例提供的视频处理方法，具体地，该方法不仅可以识别目标视频内的场景，还可以识别具体场景内的各个物体，并结合场景和物体生成视频标注结果。具体地，请参阅图4，该方法包括：S410至S460。

S410：获取待处理的目标视频。

S420：获取所述目标视频中待处理图像帧对应的目标场景类型。

作为一种实施方式，基于计算机视觉方法的神经网络来判断待处理图像帧中的内容，具体地，可以采用Mobilenet网络模型。其中，MobileNet的基本单元是深度级可分离卷积(depthwise separable convolution)。深度级可分离卷积是一种可分解卷积操作(factorized convolutions)，其可以分解为两个更小的操作：depthwise convolution和pointwise convolution。Depthwise convolution和标准卷积不同，对于标准卷积其卷积核是用在所有的输入通道上，而depthwise convolution针对每个输入通道采用不同的卷积核，就是说一个卷积核对应一个输入通道。而pointwise convolution其实就是普通的卷积，只不过其采用1x1的卷积核。对于depthwise separable convolution，其首先是采用depthwise convolution对不同输入通道分别进行卷积，然后采用pointwise convolution将上面的输出再进行结合，这样会大大减少计算量和模型参数量。因此，Mobilenet网络模型也可以看做是轻量化卷积神经网络。

作为一种实施方式，可以基于Mobilenet_V1获取所述目标视频中待处理图像帧对应的目标场景类型，具体地，可以是在已经使用数据集训练好的MobileNet_V1的基础上进行微调(Finetune)。

如表1所示，为该Mobilenet_V1网络结构示意图。

表1

该网络可以将待处理图像帧分为10类，即评1-10分。在Mobilenet_V1的网络结构中，type标识每一层的算子类型，其中，conv表示卷积层，Avg Pool表示平均池化层，Softmax表示Softmax层，FC表示全连接层。Stride表示每一次操作的步长，s1表示步长为1，s2表示步长为2。Filter Shape表示滤波器的大小，3x3x3x32表示有3个颜色通道，卷积核大小为3x3，卷积核的个数为32，3x3x32dw表示depthwise卷积的通道为3，卷积核的大小为1x3卷积核的个数为32，Pool 7x7表示平均池化的卷积核大小为7x7，1024x1000表示全连接层包含1024x1000个神经元，Classifier表示最终分类的类别，在图片打分网络中，Classifier的值为10，代表1-10分的输出值，Input Size表示输入的大小，224x224x3表示3通道的224x224的图像。

如图5所示，图5示出了Mobilenet_V1网络的训练过程。通常一个图片的分类网络包含两部分，前一部由多层的卷积核组成，负责提取图片中的多样化特征，后一部分通常由全连接组成，负责获取卷积层提取的特征然后对图片进行分类判断。经过ImageNet项目提供的训练数据的训练，图片分类网络的图片特征提取模块已经较为完善，所以需要改进和训练的部分是图片类别判断模块，Finetune的策略为先单独对图片类别判断模块进行训练，后进行网络的全局微调，加入图片特征提取模块一起训练，其中单独训练全连接层(FC层)4000步，全局微调1000步。分类网络所使用的Finetune数据集为预先获取的数据集，包括280类数据，每类数据5000张，共计140万张，每张图片都被标注了具体的物理标签，该物理标签用于表示需要检测图像的内容，例如，场景类型或目标物体等。

如图6所示，图6示出了识别待处理图像的场景分类的过程，具体地，将待处理图像帧输入到网络中，经过特征提取和类别判断，最终输出该图待处理图像帧对应的场景类别。具体地，该网络可以输出该待处理图像帧的场景类别标签，具体地，所包含的类别标签可以包括：自拍、合影、建筑、美食、蓝天、剪影、日落、沙滩、运动、草地、文字、夜景。

S430：根据所述待处理图像帧的时间戳，确定所述目标场景类型在所述目标视频内的场景时间片段。

S440：对所述待处理图像帧内的目标物体检测，得到目标物体类别。

其中，该目标物体可以是图像内的具体的各个物体对应的类别，即具体场景内各个物体的类别。

作为一种实施方式，可以继续使用该Mobilenet网络模型对所述待处理图像帧内的目标物体检测，得到目标物体类别。

作为另一种实施方式，基于YOLO目标检测模型，对所述待处理图像帧内的目标物体检测，得到目标物体类别。

基于深度学习算法的一系列目标检测算法可以包括：先产生候选区域然后再进行卷积神经网络(Convolutional Neural Networks,CNN)分类(即RCNN(Regions with CNNfeatures)算法)，以及直接对输入图像应用算法并输出类别和相应的定位的算法(即YOLO算法)。

于本申请实施例中，可以使用已经训练好的Yolo_V3网络对待处理图像帧内的目标物体检测和识别。

如图7所示，图7示出了Yolo_V3网络结构。其中，网络输入大小为416x416，通道为3，DBL表示Darknetconv2d_BN_Leaky，是yolo_v3的基本组件，就是卷积+BN+Leaky relu。resn：n代表数字，有res1，res2,…,res8等等，表示这个res_block里含有多少个res_unit。concat：张量拼接。将darknet中间层和后面的某一层的上采样进行拼接。最终网络输出每个检测到的物体的类别和位置。网络输出1000类的物体以及检测框。其中，该检测框用于表示该物体在该物体所在的图像内的位置。

S450：根据所述待处理图像帧的时间戳，确定所述目标物体类别在所述目标视频内的物体时间片段。

其中，确定目标物体类别在所述目标视频内的物体时间片段可以参考前述确定目标场景类别对应的场景时间片段的实施方式。具体地，确定图像帧的时间戳，图像帧内的时间戳可以作为该目标物体的时间戳，从而就能够确定出目标视频内的每个类别的目标物体的对应的时间戳，从而就能够确定每个目标物体的在目标视频内出现的时间片段。

S460：根据所述目标场景类型、所述场景时间片段、所述目标物体类别以及所述物体时间片段生成视频标注结果。

具体地，在前述根据目标场景类型、所述场景时间片段确定的视频标注结果的基础上，再根据目标物体类别以及所述物体时间片段添加与该目标物体类别对应的内容。

具体地，该视频标注结果除了可以描述上述的目标视频内的场景时间片段对应的场景类型为目标场景类型，从而通过该视频标注结果就能够获知目标视频的某个时间段内的场景类型，且能够明确该类型的场景的起始时刻和终止时刻之外，还可以确定目标视频内的每个目标物体类别的起始时刻和终止时刻。

作为一种实施方式，该视频标注结果可以是基于目标视频的时间轴而设置的内容，具体地，请参阅图8，S460可以包括S461至S465。

S461：获取所述目标视频的播放时间。

S462：根据所述播放时间确定时间轴。

其中，所述时间轴可以是上述的视频对应的播放时间轴，则具体地获取目标视频的播放时间以及根据播放时间确定时间轴的实施方式可以参考前述实施例，在此不再赘述。

S463：根据所述目标场景类型对应的场景时间片段确定所述目标场景类型在所述时间轴上的场景区间。

其中，所述场景时间片段包括目标场景类型在该时间轴上的起始时间和终点时间，因此，该时间轴上该目标场景类型的起始时间和终点时间之间的区域，作为目标场景类型对应的场景区间。

S464：根据所述目标物体类别对应的物体时间片段确定所述目标物体类别在所述时间轴上的目标物体区间。

同理，所述物体时间片段包括目标物体类别在该时间轴上的起始时间和终点时间，因此，该时间轴上该目标物体类别的起始时间和终点时间之间的区域，作为目标物体类别对应的目标物体区间。

S465：根据所述时间轴、所述场景区间、所述目标物体区间、所述目标场景类型和所述目标物体类别生成视频标注结果。

作为一种实施方式，可以在时间轴上可以对应将场景区间和目标物体区间标注出，并且还可以根据目标场景类型和所述目标物体类别生成第一内容和第二内容，从而在时间轴上的场景区间对应标注第一内容，以及在目标物体区间对应标注第二内容，从而在时间轴上能够明确场景区间和目标物体区间的位置，并且能够根据第一内容和第二内容明确各个区间所对应的场景或目标物体的类别。

具体地，根据所述时间轴、所述场景区间、所述目标物体区间、所述目标场景类型和所述目标物体类别生成视频标注结果的实施方式可以是，获取所述目标场景类型对应的场景标注内容和所述目标物体类别对应的物体标注内容；根据所述时间轴、所述场景区间、所述目标物体区间、所述目标场景类型和所述目标物体类别生成视频标注结果。其中，所述视频标注结果包括时间轴，所述时间轴被标记出场景区间和目标物体区间，且在场景区间的位置处显示有场景标注内容，在目标物体区间的位置处显示有物体标注内容。

其中，场景标注内容是用于描述该场景类别的内容，可以是文本、图片等，例如，场景类别是室内，则场景标注内容是文本“室内”，同理，物体标注内容是用于描述该物体类别的内容，可以是文本、图片等，例如，物体类别是椅子，则物体标注内容是文本“椅子”。

另外，需要说明的是，目标物体的类别可以是该物体的类别，还可以是该物体的具体某个细节的类别，具体地，物体类别包括主类别和主类别下的子类别，该主类别用于描述该物体的整体类别，例如，人。该子类别可是该目标物体的具体某个细节内容的类别，该目标物体的主类别是人，该子类别可以是表情类别或情绪类别。

作为一种实施方式，该视频标注结果可以是一个显示内容，在该显示内容内包括时间轴，时间轴被标记出场景区间和目标物体区间，且在场景区间的位置处显示有场景标注内容，在目标物体区间的位置处显示有物体标注内容。如图9所示，该显示内容包括时间轴图像、各个场景区间的场景图像和各个目标物体区间的目标物图像，则每个场景图像和目标物图像的长度与时间轴图像的比例关系，与该场景时间片段和物体时间片段的时间长度与目标视频的播放时间长度的比例关系一致，从而能够反映出目标视频的时间轴上，各个场景和目标物存在的时间区间。另外，在各个场景区间的场景图像和各个目标物体区间的目标物图像上，显示有场景标注内容或物体标注内容。

请参阅图10，图10示出了本申请另一实施例提供的视频处理方法，具体地，该方法可以在电子设备空闲的时候执行视频处理方法。具体地，请参阅图10，该方法包括：S1001至S1005。

S1001：获取所述电子设备的工作状态。

电子设备的工作状态包括繁忙状态和空闲状态，其中，繁忙状态表示电子设备当前的功耗比较高，如果对目标视频处理得到视频标注结果的话，可能会导致***卡顿，而空闲状态与繁忙状态相反，即当前的功耗较低，如果对目标视频处理得到视频标注结果的话，产生***卡顿的可能性较小。

作为一种实施方式，该工作状态确定可以通过CPU使用率、充电状态和当前时刻中的至少一个确定。

在一些实施例中，以CPU使用率确定电子设备的工作状态。具体地，判断所述电子设备的CPU使用率是否低于使用率阈值，如果低于，则确定所述电子设备的工作状态为空闲状态，否则，确定所述电子设备的工作状态为繁忙状态。

则具体地，中央处理器的使用率可以通过查看电子设备的任务管理器而获取，例如，在安卓***下，通过adb shell top指令获取CPU的使用率。其中，使用率阈值可以是用户设定的使用率，例如，使用率阈值可以是60％，假设CPU的当前的使用率为40％，则40％小于60％，判定中央处理器的使用率小于使用率阈值，假如CPU的当前的使用率为70％，则70％大于60％，判定中央处理器的使用率大于使用率阈值。

而如果中央处理器的使用率小于使用率阈值，则表示CPU当前资源比较富裕，则可以确定电子设备的工作状态处于空闲状态，则可以执行S1002，而如果中央处理器的使用率大于或等于使用率阈值，则表示CPU当前资源比较匮乏，则可以确定电子设备的工作状态处于繁忙状态。

另外，由于CPU的使用率与电子设备当前启动的应用程序有关，则可以在电子设备处于繁忙状态的时候，判断当前所开启的应用程序中是否存在与预设应用程序匹配的应用程序，其中，预设应用程序为允许***在用户未授权的情况下将应用程序关闭的应用程序，如果存在，则将与预设应用程序匹配的应用程序的关闭，然后再获取CPU当前的使用率作为CPU的使用率，并返回执行判断所述中央处理器的使用率是否小于使用率阈值的操作。

具体地，电子设备内预先存储有预设应用程序的列表，在该预设应用程序的列表内包括多个指定应用程序的标识，其中，指定应用程序为用户授权的允许***在用户未授权的情况下将应用程序关闭的应用程序，具体地，可以是用户手动输入该指定应用程序的标识。

因此，在CPU使用率过高的情况下，将允许***在用户未授权的情况下将应用程序关闭的应用程序的进程杀死，从而释放一定的CPU资源，降低CPU使用率。

在一些实施例中，以充电状态和当前时刻确定电子设备的工作状态。具体地，如果电子设备处于充电状态且当前时刻位于预设时间范围内，则确定电子设备的工作状态处于空闲状态，否则，确定电子设备的工作状态处于繁忙状态。其中，预设时间范围可以是预先设定的时间区间，在该时间区间内用户使用电子设备的概率较小，例如，该预设时间范围为凌晨1点到6点，在该时间段内用户处于睡眠状态，且电子设备处于充电状态，则此时电子设备的***资源被占用的较少，处于空闲状态。

进一步，还可以在电子设备处于充电状态且当前时刻位于预设时间范围内的基础上，增加电子设备的握持状态的检测，即如果电子设备处于充电状态且当前时刻位于预设时间范围内以及电子设备的握持状态为未被握持状态，则确定电子设备的工作状态处于空闲状态，否则，确定电子设备的工作状态处于繁忙状态。

具体地，用户在握持电子设备时，所握持的部位一般集中在电子设备的底部边框、顶部边框以及背面的靠近底部或者顶部的位置处，因此，可以在顶部边框和底部边框的位置处设置检测器件，从而检测用户是否手持电子设备，即电子设备能够检测电子设备是否处于被握持状态。

作为一种实施方式，可以在顶部边框和底部边框的位置处设置压力传感器，当用户手持电子设备的时候，该压力传感器能够检测到压力值，则判定电子设备处于被握持状态。也可以在顶部边框和底部边框的位置处设置温度传感器，在用户未握持电子设备时，温度传感器所检测的温度值为第一温度值，而在用户握持电子设备时，所检测的温度值为第二温度值，而第一温度值小于第二温度值，且第二温度值大于预设温度值，例如，该预设温度值为37，即人体的体温，则如果该第二温度值大于预设温度值，则判定电子设备处于被握持状态。

作为另一种实施方式，还可以检测电子设备的触摸屏是否能够检测到用户的触摸操作，如果能够检测到，则确定握持状态为被握持状态，否则，确定处于未被握持状态。于该实施方式中，电子设备在被息屏的时候，触摸屏未被关闭，保持能够检测触摸操作的状态。

在有一种实施方式中，可以同时结合CPU使用率、充电状态和当前时刻确定电子设备的状态，即在CPU使用率小于使用率阈值，且电子设备处于充电状态以及当前时刻位于预设时间范围内，则判定电子设备的工作状态处于空闲状态，否则，确定电子设备的工作状态处于繁忙状态。

S1002：若所述工作状态为空闲状态，则获取待处理的目标视频。

S1003：获取所述目标视频中待处理图像帧对应的目标场景类型。

S1004：根据所述待处理图像帧的时间戳，确定所述目标场景类型在所述目标视频内的场景时间片段。

S1005：根据所述目标场景类型以及该目标场景类型对应的场景时间片段生成视频标注结果。

因此，在电子设备处于空闲状态的时候，再执行获取待处理的目标视频以后后续获取视频标注结果的操作，能够避免在电子设备内运行该方法的时候，导致电子设备卡顿而影响用户使用。

另外，本申请实施例所使用的Mobilenet网络模型和YOLO目标检测模型结构简单，算法复杂度地，更适合在电子设备上运行。

请参阅图11，其示出了本申请实施例提供的一种视频处理装置1100的结构框图该装置可以包括：视频获取单元1101、场景获取单元1102、确定单元1103和处理单元1104。

视频获取单元1101，用于获取待处理的目标视频；

场景获取单元1102，用于获取所述目标视频中待处理图像帧对应的目标场景类型；

确定单元1103，用于根据所述待处理图像帧的时间戳，确定所述目标场景类型在所述目标视频内的场景时间片段，其中，所述目标视频中，所述场景时间片段内的图像帧对应的场景类型均为所述目标场景类型；

处理单元1104，用于根据所述场景类型以及该场景类型对应的场景时间片段生成视频标注结果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

请参阅图12，其示出了本申请实施例提供的一种视频处理装置1200的结构框图该装置可以包括：视频获取单元1201、场景获取单元1202、第一确定单元1203、第二确定单元1204和处理单元1205。

视频获取单元1201，用于获取待处理的目标视频。

具体地，视频获取单元1201还用于获取所述电子设备的工作状态；若所述工作状态为空闲状态，则获取待处理的目标视频。

场景获取单元1202，用于获取所述目标视频中待处理图像帧对应的目标场景类型。

场景获取单元1202还用于基于Mobilenet网络模型，获取所述目标视频中待处理图像帧对应的目标场景类型。

第一确定单元1203，用于根据所述待处理图像帧的时间戳，确定所述目标场景类型在所述目标视频内的场景时间片段，其中，所述目标视频中，所述场景时间片段内的图像帧对应的场景类型均为所述目标场景类型。

第二确定单元1204，用于对所述待处理图像帧内的目标物体检测，得到目标物体类别；根据所述待处理图像帧的时间戳，确定所述目标物体类别在所述目标视频内的物体时间片段；根据所述目标场景类型、所述场景时间片段、所述目标物体类别以及所述物体时间片段生成视频标注结果。

进一步地，第二确定单元1204还用于获取所述目标视频的播放时间；根据所述播放时间确定时间轴；根据所述目标场景类型对应的场景时间片段确定所述目标场景类型在所述时间轴上的场景区间；根据所述目标物体类别对应的物体时间片段确定所述目标物体类别在所述时间轴上的目标物体区间；根据所述时间轴、所述场景区间、所述目标物体区间、所述目标场景类型和所述目标物体类别生成视频标注结果。

进一步地，第二确定单元1204还用于获取所述目标场景类型对应的场景标注内容和所述目标物体类别对应的物体标注内容；根据所述时间轴、所述场景区间、所述目标物体区间、所述目标场景类型和所述目标物体类别生成视频标注结果，其中，所述视频标注结果包括时间轴，所述时间轴被标记出场景区间和目标物体区间，且在场景区间的位置处显示有场景标注内容，在目标物体区间的位置处显示有物体标注内容。

进一步地，第二确定单元1204还用于基于YOLO目标检测模型，对所述待处理图像帧内的目标物体检测，得到目标物体类别。

处理单元1205，用于根据所述目标场景类型、所述场景时间片段、所述目标物体类别以及所述物体时间片段生成视频标注结果。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图13，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图14，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1400中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1400可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1400包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1400具有执行上述方法中的任何方法步骤的程序代码1410的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1410可以例如以适当形式进行压缩。

综上所述，本申请提供的视频处理方法、装置、电子设备及计算机可读介质，获取待处理的目标视频；获取所述目标视频中待处理图像帧对应的目标场景类型；根据所述待处理图像帧的时间戳，确定所述目标场景类型在所述目标视频内的场景时间片段，其中，所述目标视频中，所述场景时间片段内的图像帧对应的场景类型均为所述目标场景类型；根据所述场景类型以及该场景类型对应的场景时间片段生成视频标注结果。因此，能够识别视频中的图像帧的场景类型，并且结合场景类型以及场景类型在视频内的出现时间得到标注结果，使得标注结果能够反应视频的时间段与场景的对应关系，使得标注结果更直观且更加符合用户需求。

进一步地，使用了基于深度学习的图片场景识别与图片物体检测与识别的网络，完整的记录了视频中不同时间点所处的场景，以及不同时间点中视频场景内所出现的物体。

有益于：1)对视频事件发生过程的记录；2)后续对于视频发生内容的分析；3)拓宽视频内容搜索的维度；4)特定物体等的视频剪辑。

在视频内容场景识别中使用了基于深度学习的Mobilenet_V1网络，在视频内容检测与识别中使用了Yolo_V3网络，支持12中场景与1000类物体的检测与识别，并且所选择的网络都是较为轻量的网络，在保证模型轻量级的同时大大降低了计算量，可以直接在手机本地离线运行，不需要将用户拍照的数据上传到云端，在保证用户隐私的前提下同时提高了用户体验。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理的目标视频；

获取所述目标视频中待处理图像帧对应的目标场景类型，其中，所述待处理图像帧为所述目标视频对应的所有图像帧中的关键帧；

根据所述待处理图像帧的时间戳，确定所述目标场景类型在所述目标视频内的场景时间片段，其中，所述目标视频中，所述场景时间片段内的图像帧对应的场景类型均为所述目标场景类型；

对所述待处理图像帧内的目标物体检测，得到目标物体类别；

根据所述待处理图像帧的时间戳，确定所述目标物体类别在所述目标视频内的物体时间片段；

获取所述目标视频的播放时间；

根据所述播放时间确定时间轴；

根据所述目标场景类型对应的场景时间片段确定所述目标场景类型在所述时间轴上的场景区间；

根据所述目标物体类别对应的物体时间片段确定所述目标物体类别在所述时间轴上的目标物体区间；

获取所述目标场景类型对应的场景标注内容和所述目标物体类别对应的物体标注内容；

根据所述时间轴、所述场景区间、所述目标物体区间、所述目标场景类型和所述目标物体类别生成视频标注结果，其中，所述视频标注结果包括时间轴，所述时间轴被标记出场景区间和目标物体区间，且在场景区间的位置处显示有场景标注内容，在目标物体区间的位置处显示有物体标注内容。

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标视频中待处理图像帧对应的目标场景类型，包括：

基于Mobilenet网络模型，获取所述目标视频中待处理图像帧对应的目标场景类型。

3.根据权利要求1所述的方法，其特征在于，所述对所述待处理图像帧内的目标物体检测，得到目标物体类别，包括：

基于YOLO目标检测模型，对所述待处理图像帧内的目标物体检测，得到目标物体类别。

4.根据权利要求1-3任一所述的方法，其特征在于，应用于电子设备，所述获取待处理的目标视频，包括：

获取所述电子设备的工作状态；

若所述工作状态为空闲状态，则获取待处理的目标视频。

5.一种视频处理装置，其特征在于，包括：

视频获取单元，用于获取待处理的目标视频；

场景获取单元，用于获取所述目标视频中待处理图像帧对应的目标场景类型，其中，所述待处理图像帧为所述目标视频对应的所有图像帧中的关键帧；

确定单元，用于根据所述待处理图像帧的时间戳，确定所述目标场景类型在所述目标视频内的场景时间片段，其中，所述目标视频中，所述场景时间片段内的图像帧对应的场景类型均为所述目标场景类型；

处理单元，用于对所述待处理图像帧内的目标物体检测，得到目标物体类别；根据所述待处理图像帧的时间戳，确定所述目标物体类别在所述目标视频内的物体时间片段；获取所述目标视频的播放时间；根据所述播放时间确定时间轴；根据所述目标场景类型对应的场景时间片段确定所述目标场景类型在所述时间轴上的场景区间；根据所述目标物体类别对应的物体时间片段确定所述目标物体类别在所述时间轴上的目标物体区间；获取所述目标场景类型对应的场景标注内容和所述目标物体类别对应的物体标注内容；根据所述时间轴、所述场景区间、所述目标物体区间、所述目标场景类型和所述目标物体类别生成视频标注结果，其中，所述视频标注结果包括时间轴，所述时间轴被标记出场景区间和目标物体区间，且在场景区间的位置处显示有场景标注内容，在目标物体区间的位置处显示有物体标注内容。

6.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1-4任一项所述的方法。

7.一种计算机可读介质，其特征在于，所述计算机可读介质存储有处理器可执行的程序代码，所述程序代码被所述处理器执行时使所述处理器执行权利要求1-4任一项所述方法。