CN113688839B

CN113688839B - 视频处理方法及装置、电子设备、计算机可读存储介质

Info

Publication number: CN113688839B
Application number: CN202111244288.3A
Authority: CN
Inventors: 李继凡; 史欣田
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-02-08
Anticipated expiration: 2041-10-26
Also published as: CN113688839A

Abstract

本申请实施例提供了一种视频处理方法及装置、电子设备及计算机可读存储介质，涉及人工智能、云技术和多媒体技术领域。该方法包括：在获取待处理视频的目标图像序列之后，确定该目标图像序列中的目标视频图像，结合视频中各目标视频图像中初始区域边界之间的位置关系，对该目标视频图像中的目标区域的初始区域边界进行筛选，以滤除目标视频图像中的非有效边界，得到最终的目标视频图像的有效边界，确定目标视频图像中目标区域的位置。本申请实施例能够精确地确定目标区域视频中目标区域所在的位置，以便对存在目标区域的待处理视频做进一步处理。

Description

视频处理方法及装置、电子设备、计算机可读存储介质

技术领域

本申请涉及人工智能、云技术和多媒体技术领域，具体而言，本申请涉及一种视频处理方法及装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

随着科学技术的飞速发展，包括图像、视频在内的多媒体信息已经成为人们生活中不可或缺的一部分。然而在一些视频中通常具有复杂场景，这些复杂场景会影响对视频中的有效信息的获取。

目前，相关技术中，主要基于传统数字图像处理技术，通过计算可视区域面积对所获取的图像进行识别，进而对视频做进一步处理，以提取视频中的有效信息，但根据相关技术中所记载进行视频处理的方式的准确率较低，用户体验感不好，需要进行改进。

发明内容

本申请实施例的目的旨在提供一种视频处理方法及装置、电子设备、计算机可读存储介质及计算机程序产品。为了实现该目的，本申请实施例提供的技术方案如下：

一方面，本申请实施例提供了一种视频处理方法，该方法包括：

获取待处理视频的目标图像序列，该目标图像序列中包含待处理视频中的至少一个图像；

确定目标图像序列中的至少一个目标视频图像，目标视频图像是指存在目标区域的图像，目标区域为非有效信息区域；

确定每个目标视频图像中的目标区域的初始区域边界；

根据所有目标视频图像中的各初始区域边界在所属的图像中的图像位置，筛选各初始区域边界中的有效边界；

对于每个目标视频图像，基于目标视频图像的有效边界，确定目标视频图像中目标区域的位置。

另一方面，本申请实施例提供了一种视频处理装置，该装置包括图像序列获取模块、目标视频图像确定模块和位置确定模块：

图像序列获取模块，用于获取待处理视频的目标图像序列，该目标图像序列中包含待处理视频中的至少一个图像；

目标视频图像确定模块，用于确定目标图像序列中的至少一个目标视频图像，目标视频图像是指存在目标区域的图像，目标区域为非有效信息区域；

位置确定模块，用于确定每个目标视频图像中的目标区域的初始区域边界；

可选地，位置确定模块在根据所有目标视频图像中的各初始区域边界在所属的图像中的图像位置，筛选各初始区域边界中的有效边界时，用于：

根据每个初始区域边界在图像中的图像位置，确定所有目标视频图像中每个图像位置对应的初始边界集合、以及在每个图像位置存在初始区域边界的图像的第一数量，其中，一个图像位置对应的初始边界集合包括在图像位置出现的所有初始区域边界；

根据每个初始边界集合中包括的初始区域边界的第一数量，对各初始边界集合进行筛选，得到目标边界集合，将各目标边界集合中的初始区域边界作为有效边界。

可选地，位置确定模块用于在根据每个初始边界集合中包括的初始区域边界的第一数量，对各初始边界集合进行筛选，得到目标边界集合时，用于：

将各初始边界集合中对应的第一数量满足第一预设条件的集合，确定为目标边界集合，其中，第一预设条件包括以下至少一项：

第一数量大于或等于第一阈值；

第一数量与第一总数量的第一比值大于或等于第一预设占比，其中，第一总数量为目标图像序列中目标视频图像的数量。

可选地，对于每个目标视频图像，初始区域边界包括第一方向的初始区域边界和第二方向的初始区域边界，第一方向和第二方向分别对应于目标视频图像的宽度方向和高度方向；

位置确定模块在根据所有目标视频图像中的各初始区域边界在所属的图像中的图像位置，筛选各初始区域边界中的有效边界时，用于：

根据所有目标视频图像中的各初始区域边界在所属的图像中的图像位置，确定各初始区域边界中对应于第一方向上的有效边界；

根据所有目标视频图像中的各初始区域边界在所属的图像中的图像位置，确定各初始区域边界中对应于第二方向上的有效边界；

对于每个目标视频图像，位置确定模块在基于目标视频图像的有效边界，确定目标视频图像中目标区域的位置时，用于：

基于目标视频图像的第一方向上的有效边界和第二方向上的有效边界，确定目标视频图像中目标区域的位置。

可选地，对于每个目标视频图像，位置确定模块在基于目标视频图像的有效边界，确定目标视频图像中目标区域的位置时，用于：

对于目标视频图像的每个有效边界，确定该有效边界与目标边缘的第一距离，目标边缘为目标视频图像的图像边缘中与该有效边界较近的边缘；

其中，第一方向上的有效边界对应的目标边缘为第二方向的图像边缘，第二方向上的有效边界对应的目标边缘为第一方向的图像边缘；

基于第一距离大于或等于第二阈值的有效边界，确定目标视频图像中目标区域的位置。

确定目标视频图像中各有效边界之间的第二距离；

对第二距离小于或等于第三阈值的各有效边界进行去重处理；

基于去重后的有效边界，确定目标视频图像中目标区域的位置。

可选地，位置确定模块在确定每个目标视频图像中的目标区域的初始区域边界时，用于：

确定目标图像序列中包含的目标视频图像的第二数量；

在第二数量满足第二预设条件时，确定每个目标视频图像中的目标区域的初始区域边界，其中，第二预设条件包括以下至少一项：

第二数量大于或等于第四阈值；

第二数量与第二总数量的第一比值大于或等于第二预设占比，其中，第二总数量为目标图像序列中所有图像的数量。

可选地，目标视频图像确定模块在确定目标图像序列中的至少一个目标视频图像时，用于：

对于目标图像序列中的每个图像，通过调用训练好的图像识别模型，得到图像的图像识别结果，图像识别结果包括第一结果和第二结果，第一结果表征了图像中是否是目标视频图像，第二结果表征了图像中包含的目标区域的区域类型；

根据目标图像序列中的每个图像的第一结果，确定目标图像序列中的至少一个目标视频图像；

该装置还包括区域类型确定模块，该区域类型确定模块用于根据目标图像序列中的每个图像的第二结果，确定各目标视频图像中目标区域的区域类型；

根据各目标视频图像中目标区域的区域类型，确定待处理视频中目标区域的区域类型。

可选地，该区域类型确定模块在根据各目标视频图像中目标区域的区域类型，确定待处理视频中目标区域的区域类型时，用于：

根据各目标视频图像中目标区域的区域类型，统计目标图像序列中对应于每种区域类型的目标视频图像的第二数量；

将最大的第二数量所对应的区域类型，确定为待处理视频中目标区域的区域类型。

可选地，该装置还包括模型训练模块，该模型训练模块用于通过以下方式训练得到图像识别模型：

获取训练数据集，训练数据集中包含多个训练样本，每个训练样本包括样本图像以及样本图像的标注标签，标注标签包括第一标签和第二标签，第一标签用于表征样本图像是否是目标视频图像，第二标签用于表征样本图像中包含的目标区域的区域类型；

将训练数据集中的每个样本图像输入至初始神经网络模型中，得到每个样本图像的图像识别结果；

基于各样本图像的第一结果和第一标签，确定神经网络模型的第一损失函数的值；基于各样本图像的第二结果和第二标签，确定神经网络模型的第二损失函数的值；

基于第一损失函数的值和第二损失函数的值，确定总损失值；

在总损失值满足预设的训练结束条件情况下，结束训练，得到图像识别模型；

在总损失值不满足预设的训练结束条件的情况下，对神经网络模型的模型参数进行调整，并基于训练数据集对调整后的模型继续进行训练。

可选地，待处理视频为待推荐视频集中的每个待推荐视频，该装置还包括视频推荐模块，该视频推荐模块用于将待推荐视频集中不存在目标视频图像的待推荐视频，确定为目标推荐视频；

或者，待处理视频为待剪辑视频，该装置还包括视频剪辑模块，该视频剪辑模块用于对待处理视频中的每个目标视频图像进行相应的预处理，得到剪辑后的视频。

再一方面，本申请提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行计算机程序以实现上述视频处理方法。

另一方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述视频处理方法。

另一方面，本申请提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述视频处理方法。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供的方案，在获取待处理视频的目标图像序列之后，确定该目标图像序列中的目标视频图像，结合视频中各目标视频图像中初始区域边界之间的位置关系，对该目标视频图像中的目标区域的初始区域边界进行筛选，以滤除目标视频图像中的非有效边界，得到最终的目标视频图像的有效边界，能够精确地确定目标区域视频中目标区域所在的位置，以便对存在目标区域的待处理视频做进一步处理，提高视频的观感和页面美观度，提升用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种视频处理方法的流程示意图。

图2a为本申请实施例提供的图像中目标区域为黑色边框的示意图。

图2b为本申请实施例提供的图像中目标区域为毛玻璃边框的示意图。

图3a示出了目标视频图像vm1中的初始区域边界的示意图。

图3b示出了目标视频图像vm1的第一方向上的有效边界和第二方向上的有效边界的示意图。

图3c示出了目标视频图像vm1中的第一距离大于或等于第二阈值的有效边界的示意图。

图3d示出了目标视频图像vm1中的第二距离大于第三预设阈值的各有效边界以及去重后的有效边界的示意图。

图4示出了本申请实施例提供的确定目标视频图像中目标区域所在的位置的流程图。

图5为示出了一种训练目标区域识别模型的流程示意图。

图6为本申请另一可选实施例提供的一种视频处理方法的流程示意图。

图7为本申请另一可选实施例提供的一种视频处理方法的流程示意图。

图8示出了本申请所适用的一种视频推荐***的结构示意图。

图9示出了本场景实施例的视频处理流程示意图。

图10为本申请实施例提供的一种视频处理装置的结构示意图。

图11为本申请实施例提供的一种用于视频处理的电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或 “耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”指示实现为“A”，或者实现为“A”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在视频类APP等、网页等可以获取视频的平台上存在大量的视频，通过视频获取信息已经成为人们获取信息的主要来源之一。但视频中存在的越来越复杂的场景，会影响用户对视频中的主体内容的获取，不利于用户进一步捕捉与视频可视区域有关的信息，用户体验感不好。

基于上述，为了使用户可以进一步捕捉与视频中的主体内容有关的信息，精确地确定该视频中的图像中的目标区域的位置，以便提高后续视频处理的效率，本申请提供了一种视频处理方法及装置、电子设备、计算机可读存储介质及计算机程序产品，在获取待处理视频的目标图像序列之后，确定该目标图像序列中的目标视频图像，结合视频中各目标视频图像中初始区域边界之间的位置关系，对该目标视频图像中的目标区域的初始区域边界进行筛选，以滤除目标视频图像中的非有效边界，得到最终的目标视频图像的有效边界，能够精确地确定目标区域视频中目标区域所在的位置，以便对存在目标区域的待处理视频做进一步处理，提高视频的观感和页面美观度，提升用户体验。

可选的，本申请实施例提供的信息推荐方法，可以基于人工智能(ArtificialIntelligence，AI)技术实现。比如，目标图像序列中的各个图像的图像识别结果可以通过调用训练好的图像识别模型实现。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。随着人工智能技术研究和进步，人工智能技术已经在多个领域广泛展开研究和应用，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

其中，上述图像识别模型可以是基于计算机视觉技术(Computer Vision, CV)的神经网络模型。计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

可选的，本申请实施例所涉及的数据处理可以基于云技术（Cloud technology）实现，比如，在对神经网络模型进行训练得到上述图像识别模型时，可以采用云技术，训练过程中所涉及的数据计算可以采用云计算(Cloud computing)方式。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。云计算则是指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

图1为本申请实施例提供的一种视频处理方法的流程示意图。该视频处理方法的执行主体可以是视频处理装置。在一种可能的实现方式中，该视频处理装置可以包括但不限于终端设备或服务器，可选的，该服务器可以是云服务器。其中，终端设备可以是视频播放设备、视频推荐设备、用户设备（User Equipment，UE）、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理（Personal Digital Assistant，PDA）、手持设备、计算设备或者可穿戴设备等。其中，该方法可以实现为一个应用程序或者作为已有的具有视频处理功能的应用程序的插件或功能模块，比如，可以作为视频类应用程序的一个新的功能模块。通过执行本申请实施例的该方法，对该目标视频图像中的目标区域的初始区域边界进行筛选，以滤除目标视频图像中的非有效边界，得到最终的目标视频图像的有效边界，能够精确地确定目标区域视频中目标区域所在的位置，以便对存在目标区域的待处理视频做进一步处理，提高视频的观感和页面美观度，提升用户体验。其中，该视频处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

可选的，该方法可以由用户终端执行，比如用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、可穿戴电子设备、AR/VR设备等。

如图1中所示，本申请实施例提供的视频处理方法可以包括以下步骤S11-步骤S16，可选的，该方法可以由服务器执行。

步骤S11：获取待处理视频的目标图像序列，该目标图像序列中包含待处理视频中的至少一个图像。

可选的，待推荐视频包括短视频，也可以包括长视频。其中，短视频可以为时长在15秒以内的视频，长视频可以为时长大于15秒的视频。其中，待处理视频也可以是一帧图像，也可以是包含多帧图像的图像序列。同样的，目标图像序列可以是一帧图像，也可以是包含多帧图像的图像序列。

对于基于待处理视频获取目标图像序列的具体方式，本申请实施例不做限定，比如，目标图像序列可以是待处理视频，或者为了减少数据处理量，提高处理效率，可以通过预配置的抽帧策略对待处理视频进行抽帧处理得到的图像序列。

作为一种可选的实现方式，可以按照预设时间间隔对待处理视频进行抽帧处理，得到待处理视频的目标图像序列，其中，预设时间间隔可以根据待处理视频的总播放时长或视频所包含的图像的数量确定，本申请对此不做限制。比如，预设时间间隔可以跟视频的总播放时长或视频所包含的图像的数量成正相关。例如，在待处理视频的总播放时长为1小时的情况下，可以设置预设时间间隔为1分钟，在待处理视频的总播放时长时长为15分钟时，预设时间间隔可以是5秒。当然，不同的视频对应的预设时间间隔也可以相同。

作为另一可选方式，还可以在待处理视频中抽取关键帧，从而将所抽取的关键帧形成的图像序列，确定为待处理视频的目标图像序列。

步骤S12：确定目标图像序列中的至少一个目标视频图像，其中，目标视频图像是指存在目标区域的图像，目标区域为非有效信息区域。

如上文所述，视频中存在的场景会影响用户对视频中的主题内容的获取，因此，在本申请中，可以将视频中存在的场景称为非有效信息，非有效信息所在的区域称为非有效信息区域，也即目标区域。可以将视频中与视频中的主体内容相关的信息称为有效信息，有效信息所在的区域称为有效信息区域。同样地，可以将存在目标区域的图像称为目标视频图像。

在可选的实施方式中，目标视频图像中的目标区域可以包括纯色区域、毛玻璃区域、重复屏区域等形成的区域。其中，“毛玻璃区域”是指在视频中的主体内容周围，利用图像的邻域内的一个像素点的颜色来替代当前像素点颜色形成的区域。“纯色区域”是指在视频中的主体内容周围，利用纯色边框形成的区域，其中，纯色也可以为黑色、白色、褐色等，本申请对此不做限制。“重复屏区域”是指在视频中的主体内容周围，通过重复视频中的主体内容的画面形成的区域。

其中，目标视频图像中的目标区域可以为在视频图像的上边缘、下边缘、左边缘、右边缘与视频的有效信息区域之间形成的区域。作为该实现方式的一个示例，图2a为本申请实施例提供的图像中目标区域为黑色边框的示意图。图2b为本申请实施例提供的图像中目标区域为毛玻璃边框的示意图。如图2a所示，在视频图像的上边缘（即图2a中H方向中与箭头方向相反的边缘）、下边缘（即图2a中H方向中与箭头方向相同的边缘）、左边缘（即图2a中W方向中与箭头方向相反的边缘）、右边缘（即图2a中W方向中与箭头方向相同的边缘）与视频的有效信息区域之间形成的黑色边框为该视频图像的目标区域。如图2b所示，在视频图像的左边缘（即图2b中W方向中与箭头方向相反的边缘）、右边缘（即图2b中W方向中与箭头方向相同的边缘）与视频的有效信息区域之间形成的毛玻璃边框为该视频图像的目标区域。

由于目标区域能够使视频中的主体内容与视频图像的边缘分开，达到分屏的效果，因此，在下文中也将存在目标区域的图像称为“分屏特效图像”，将存在目标区域的视频也称为“分屏特效视频”，将视频的目标区域与视频的有效信息区域之间的边界、以及目标视频图像的目标区域与目标视频图像的有效信息区域之间的边界称为“分屏边界”、“有效边界”，其中，“有效边界”应为“视频的目标区域”中远离“目标视频图像的至少一个边缘”的边界，或“有效边界”应为“目标视频图像的目标区域”远离“目标视频图像的至少一个边缘”的边界。

步骤S13：确定每个目标视频图像中的目标区域的初始区域边界。其中，目标视频图像中目标区域的初始区域边界可以为目标视频图像中的所有直线。

在该实现方式中，可以依次确定每个目标视频图像中的初始区域边界，也可以直接确定目标图像序列中所有目标视频图像中的初始区域边界，本申请对此不做限制。

在该实现方式中，可以通过以下任意一种方式确定目标图像序列中每个目标视频图像的初始目标区域边界：Hough（霍夫）直线检测算法，LSD（Line Segment Detector，直线检测分割）算法等，本申请对此不做限制。其中，在通过Hough直线检测算法确定目标图像序列中每个目标视频图像的初始目标区域边界的情况下，可以设置Hough直线检测算法中的清零阈值为70-80，本申请对此不做限制。例如，可以设置Hough直线检测算法中的清零阈值为85。

例如，在目标图像序列中包括目标视频图像vm1~目标视频图像vm6的情况下，经过步骤S13，可以确定目标视频图像vm1中的所有直线L1~L10，目标视频图像vm2中的所有直线L11~L19，目标视频图像vm3中的所有直线L20~L32，目标视频图像vm4中的所有直线L33~L40，目标视频图像vm5中的所有直线L41~L51、目标视频图像vm6中的所有直线L52~L64。其中，图3a示出了目标视频图像vm1中的初始区域边界的示意图。

在一种可能的实现方式中，在步骤S13之前，该方法还可以包括：对每个目标视频图像进行预处理。具体地：

作为该实现方式的一个示例，可以根据预设图像大小（即预设图像尺寸）对每个目标视频图像进行缩放处理，将每个目标视频图像缩放至预设图像大小，从而提高对后续视频处理的效率。其中，预设图像大小可以为（w，h），其中，w和h可以相等，例如，设置w=h=300。

作为该实现方式的另一个示例，还可以通过以下至少一种方式对目标视频图像进行去噪处理：均值滤波、高斯滤波、中值滤波、双边滤波等，从而消除在获取和/或传输分屏特效图像的过程中，由于噪声干扰，使图像恶化、质量下降、图像模糊等妨碍获取图像信息的图像噪声，其中，图像噪声可以包括高斯噪声、脉冲噪声、瑞丽噪声、伽马噪声、指数分布噪声、均匀分布噪声等。其中，在采用均值滤波的方式对目标视频图像进行去噪处理时，均值滤波核大小可以为（g，g），其中，g为大于或等于3的正整数，例如，g的取值可以为3、5、9等。在本申请实施例中，g的取值可以为3。

通过对每个目标视频图像进行预处理，可以消除各目标视频图像中与获取视频中的有效信息无关的信息，增强有关信息的可检测性和最大限度地简化图像数据，从而改进对每个目标视频图像作进一步处理的可靠性。

步骤S14：根据所有目标视频图像中的各初始区域边界在所属的图像中的图像位置，筛选各初始区域边界中的有效边界。

步骤S15：对于每个目标视频图像，基于目标视频图像的有效边界，确定目标视频图像中目标区域的位置。

可选地，在某一目标视频图像中不存在有效边界的情况下，可以将其他存在有效边界的目标视频图像中目标区域所在的位置确定为该目标视频图像中目标区域所在的位置。

在一种可能的实现方式中，可以将所确定的目标视频图像的有效边界确定为存在目标区域的待处理视频中目标区域所在的位置。

通过本申请中的视频处理方法，结合视频中各目标视频图像中初始区域边界之间的位置关系，对该目标视频图像中的目标区域的初始区域边界进行筛选，以滤除目标视频图像中的非有效边界，得到最终的目标视频图像的有效边界，能够精确地确定目标区域视频中目标区域所在的位置，以便对存在目标区域的待处理视频做进一步处理，提高视频的观感和页面美观度，提升用户体验。

可选地，根据所有目标视频图像中的各初始区域边界在所属的图像中的图像位置，筛选各初始区域边界中的有效边界，包括：

根据每个初始区域边界在图像中的图像位置，确定所有目标视频图像中每个图像位置对应的初始边界集合、以及在每个图像位置存在初始区域边界的图像的第一数量，其中，一个图像位置对应的初始边界集合包括在图像位置出现的所有初始区域边界。

在该实现方式中，可以以相同尺寸的各目标视频图像中指定点为坐标原点，形成坐标系，例如，将相同尺寸的各目标视频图像的左边缘所在的直线与下边缘所在的直线所形成的交点（也即，各目标视频图像的左下角顶点）作为坐标原点，以坐标原点指向目标视频图像的右边缘的方向为x轴的正方向（也即，图2a、图2b中的W方向），以坐标原点指向目标视频图像的上边缘的方向为y轴的正方向（也即，图2a、图2b中的H方向的相反方向），形成坐标系，从而将每个初始区域边界在该坐标系中的位置确定为每个初始区域边界在图像中的图像位置。

在该实现方式中，针对同一图像位置，若初始区域边界与该图像位置之间的距离小于或等于i*w以及i*h之间的最小值，则可以视为该图像位置对应的初始边界集合中包括该初始区域边界。

由于目标图像序列中每个目标视频图像中的目标区域所在的位置并不是一一对应的，通过确定每个初始区域边界在对应的目标视频图像中的图像位置，可以有效确定在一个图像位置出现的所有初始区域边界。

接上例，可以确定所有直线L1~L64在各自所属的目标视频图像中的图像位置，在L3、L15、L27、L36、L44、L52在各自所属的目标视频图像中的图像位置均可以视为y₁=k₁x+b₁的情况下，可以将L3、L15、L27、L36、L44、L52所形成的集合确定为上述初始边界集合，其中，y=k₁x+b₁也即上述同一图像位置。

在该实现方式中，对于每个图像位置，第一数量可以为在该图像位置存在初始区域边界的图像的数量。作为示例，针对图像位置y₁=k₁x+b₁，由于有6个目标视频图像在该位置都存在初始区域边界，因此，该第一数量为6。

在该实现方式中，若每个图像位置仅存在一个初始区域边界，则第一数量也可以视为每个初始边界集合中所包含的初始区域边界的数量。

在一种可能的实现方式中，根据每个第一数量，对各初始边界集合进行筛选，得到目标边界集合，包括：

第一数量大于或等于第一阈值；

可选地，在第一数量不满足第一预设条件的情况下，可以将不满足第一预设条件的第一数量对应的初始边界集合删除。

上述第一阈值和第一预设占比的具体取值可以根据实际需求选择。比如，上述第一预设占比的取值可以是1/3，在各初始边界集合中对应的第一数量与目标图像序列中目标视频图像的数量之间的比值大于或等于1/3的情况下，则认为第一数量满足第一预设条件，可以将该第一数量对应的初始边界集合作为目标边界集合。

可选地，在实际应用中，第一阈值的取值可以跟目标图像序列中目标视频图像的数量成正比，比如，可以是指多个第一阈值，每个阈值对应一个图像数量范围，在对初始边界集合进行筛选时，可以根据目标图像序列中目标视频图像的数量确定具体应该使用哪个第一阈值。或者是，目标图像序列中目标视频图像的数量是固定的，第一阈值可以是一个固定值。

通过判断第一数量是否满足第一预设条件，在第一数量满足第一预设条件的情况下，将满足第一预设条件的第一数量对应的初始边界集合确定为目标边界集合。可以将虽然在目标图像序列中的各目标视频图像中的同一图像位置、但该同一图像位置的目标区域边界数量过少的初始边界集合删除，也即，该同一图像位置的目标区域边界不能作为整个存在目标区域的待处理视频中目标区域所在的位置。将在目标图像序列中的各目标视频图像中，存在同一图像位置、且该同一图像位置的目标区域边界数量较多的初始边界集合（也即目标边界集合）中的目标区域边界作为有效边界，并将每个目标视频图像中的有效边界，确定为该目标视频图像中的目标区域所在的位置，能够更精确地对目标视频图像中的目标区域进行定位，使目标视频图像中目标区域所在的位置能够更好地指示存在目标区域的视频中目标区域的位置。

在该实现方式中，如上文所述，由于目标图像序列中每个目标视频图像中的目标区域所在的位置并不是一一对应的，通过根据每个初始目标区域边界在对应的目标视频图像中的图像位置，将所有初始目标区域边界中处于同一图像位置的初始目标区域边界形成初始边界集合，并根据第一数量，进一步对各初始边界集合进行筛选，得到目标边界集合，将各目标边界集合中的目标区域边界作为有效边界，并将每个目标视频图像中的有效边界，确定为该目标视频图像中的目标区域所在的位置，能够更精确地对目标视频图像中的目标区域进行定位，使目标视频图像中目标区域所在的位置能够更好地指示存在目标区域的视频中目标区域的位置。

在一种可能的实现方式中，对于每个目标视频图像，初始区域边界包括第一方向的初始区域边界和第二方向的初始区域边界，第一方向和第二方向分别对应于目标视频图像的宽度方向和高度方向。如图2a和图2b所示的目标视频图像中，第一方向可以为图2a和图2b所示的W方向，对应于目标视频图像的宽度方向，第二方向可以为图2a和图2b所示的H方向，对应于目标视频图像的高度方向，其中，第一方向与第二方向垂直，可以通过将处于第一方向的目标视频图像旋转90度，得到处于第二方向的该目标视频图像。

在该实现方式中，步骤S14（也即，根据所有目标视频图像中的各初始区域边界在所属的图像中的图像位置，筛选各初始区域边界中的有效边界）可以进一步地包括：

根据所有目标视频图像中的各初始区域边界在所属的图像中的图像位置，确定各初始区域边界中对应于第二方向上的有效边界。

在该实现方式中，对于每个目标视频图像，步骤S15（也即，基于目标视频图像的有效边界，确定目标视频图像中目标区域的位置）可以进一步地包括：基于目标视频图像的第一方向上的有效边界和第二方向上的有效边界，确定目标视频图像中的目标区域所在的位置。

如图3b所示，图3b示出了目标视频图像vm1的第一方向上的有效边界和第二方向上的有效边界的示意图。

可选地，可以根据第一方向上的每个初始区域边界在图像中的图像位置，确定对应于第一方向的至少一个初始边界集合，进而将第一方向的至少一个初始边界集合中的初始区域边界确定为各初始区域边界中对应于第一方向上的有效边界；

根据第二方向上的每个初始区域边界在图像中的图像位置，确定对应于第二方向的至少一个初始边界集合，进而将第二方向的至少一个初始边界集合中的初始区域边界确定为各初始区域边界中对应于第二方向上的有效边界。

可选地，可以通过水平直线检测的方式，将初始边界集合中的所有初始区域边界中与第一方向的法线之间的角度在正负0.1%范围内的初始区域边界（也就是初始边界集合中的所有初始区域边界中与第一方向的法线之间的角度差为-0.09°至+0.09°的初始区域边界）确定对应于第一方向的初始边界集合。将初始边界集合中的所有初始区域边界中与第二方向的法线之间的角度在正负0.1%范围内的初始目标区域边界（也就是初始边界集合中的所有初始区域边界中与第二方向的法线之间的角度差为-0.09°至+0.09°的初始区域边界）确定对应于第二方向的初始边界集合。

通过上述方式，可以得到目标视频图像的第一方向上的有效边界和第二方向上的有效边界，进而可以将目标视频图像的第一方向上的有效边界、第二方向上的有效边界与目标视频图像的边缘所形成的区域确定为目标视频图像中的目标区域，从而可以更精确地确定目标视频图像中的目标区域所在的位置。

在一种可能的实现方式中，对于每个目标视频图像，步骤S15（也即，基于目标视频图像的有效边界，确定目标视频图像中目标区域的位置）可以进一步地包括：

确定有效边界与目标边缘之间的第一距离，其中，目标边缘为目标视频图像中与有效边界较近的边缘；

可选地，可以将第一距离小于第二预设阈值的有效边界删除。

在该实现方式中，目标视频图像的边缘可以包括目标视频图像的上边缘、下边缘、左边缘、右边缘中至少一个边缘。可以根据Canny算子、Sobel（索贝尔）算子、Prewitt（维特）算子、Roberts（罗伯茨）算子等中的任意一种方式确定目标视频图像的边缘。其中，在通过Canny算子确定目标视频图像的边缘情况下，可以设置Canny算子中的双滞后阈值中的最小值minVa为70-80，可以设置双滞后阈值中的最大值maxVaL为120-130，卷积核的大小apertureSize为3，本申请对此不作限制。其中，通过双滞后阈值中的最小值可以确定出目标视频图像的最不明显的边缘，通过双滞后阈值中的最大值可以确定出目标视频图像的最明显的边缘。例如，可以设置minVal为75，maxVaL为125。

上述第一阈值的具体取值可以根据实际需求选择。比如，第一阈值可以根据预设图像大小确定，例如，可以设置第一阈值为预设图像大小的宽度和/或长度与i的乘积。接上例，在通过对每个目标视频图像进行预处理，将每个目标视频图像缩放至预设图像大小（w，h）的情况下，可以设置在W方向的第二阈值为i*w，在H方向的第二阈值为i*h，其中，i可以为0.01。具体地：在确定第一方向上的有效边界与第二方向的图像边缘之间的第一距离大于或等于0.01*w，且第二方向上的有效边界与第一方向的图像边缘之间的第一距离大于或等于0.01*h的情况下，将该第一方向上的有效边界和第二方向上的有效边界与该目标图像的图像边缘形成的区域确定为目标区域，进而确定目标视频图像中目标区域的位置。如图3c所示，图3c示出了目标视频图像vm1中的第一距离大于或等于第二阈值的有效边界的示意图。

如上文所述，由于目标视频图像中的目标区域可以为在视频图像的上边缘、下边缘、左边缘、右边缘与视频中的主体内容之间形成的区域。所以，最终确定的“有效边界”应为“视频的目标区域”远离“视频的至少一个边缘”的边界，或“目标视频图像的目标区域”远离“目标视频图像的至少一个边缘”的边界。因此，通过确定有效边界与目标边缘之间的第一距离，从而根据第一距离与第二预设阈值之间的关系，将第一距离大于或等于第二预设阈值的有效边界，确定为目标视频图像中的目标区域所在的位置，可以滤除有效边界中距离目标边缘较近的有效边界，更精确地确定目标视频图像中的目标区域所在的位置，进而更精确地确定存在目标区域的待处理视频中目标区域所在的位置。

在一种可能的实现方式中，步骤S15（也即，基于目标视频图像的有效边界，确定目标视频图像中目标区域的位置）可以进一步地包括：

确定目标视频图像中各有效边界之间的第二距离；

基于去重后的有效边界，确定目标视频图像中的目标区域的位置。

在该实现方式中，可以将第二距离大于第三预设阈值的各有效边界以及去重后的有效边界所形成的边界与目标视频图像的边缘所形成的区域确定为目标视频图像中的目标区域，进而确定目标视频图像中的目标区域所在的位置。如图3d所示，图3d示出了目标视频图像vm1中的第二距离大于第三预设阈值的各有效边界以及去重后的有效边界的示意图。

上述第三阈值的具体取值可以根据实际需求选择。比如，第三阈值可以根据预设图像大小确定，例如，可以设置第一阈值为预设图像大小的宽度和/或长度与i的乘积。接上例，在通过对每个目标视频图像进行预处理，将每个目标视频图像缩放至预设图像大小（w，h）的情况下，可以设置在W方向的第三阈值为i*w，在H方向的第三阈值为i*h，其中，i可以为0.01。

具体地：在确定第一方向上的各有效边界之间的第二距离小于或等于0.01*w的情况下，对第一方向上的各有效边界进行去重处理，得到第一方向上的去重后的有效边界。在确定第二方向上的各有效边界之间的第二距离小于或等于0.01*h的情况下，对第二方向上的各有效边界进行去重处理，得到第二方向上的去重后的有效边界。将第一方向上的第二距离大于第三预设阈值的各有效边界、第一方向上的去重后的有效边界、第二方向上的第二距离大于第三预设阈值的各有效边界和第二方向上的去重后的有效边界与该目标图像的图像边缘形成的区域确定为目标区域，进而确定目标视频图像中目标区域的位置。

由于在每个目标视频图像中，可能存在重复的有效边界，因此，通过计算各有效边界之间的第二距离，对第二距离小于或等于第三预设阈值的各有效边界进行去重处理，并根据去重后的有效边界，确定目标视频图像中的目标区域所在的位置，可以更精确地确定目标视频图像中的目标区域所在的位置，进而更精确地确定存在目标区域的待处理视频中目标区域所在的位置。

在该实现方式中，确定每个目标视频图像中的目标区域的初始区域边界，可以包括：

确定目标图像序列中包含的目标视频图像的第二数量；

第二数量大于或等于第四阈值；

可选的，确定目标图像序列中包含的目标视频图像的第二数量，可以包括：根据目标图像序列中的每个图像的第一结果，确定目标图像序列中的目标视频图像的第二数量；

可选地，该方法还包括：在第二数量满足第二预设条件的情况下，还可以确定待处理视频中存在目标区域。

可选地，在第二数量不满足第二预设条件的情况下，可以认为待处理视频不存在目标区域，可以不执行确定每个目标视频图像中的目标区域的初始区域边界及其后续的步骤。

上述第四阈值和第二预设占比的具体取值可以根据实际需求选择。比如，上述第二预设占比的取值可以是1/3，在目标图像序列中包含的目标视频图像的第二数量与目标图像序列中所有图像的第一比值大于或等于1/3的情况下，则认为该第二数量满足第二预设条件。

可选的，在实际应用中，第四阈值的取值可以跟目标图像序列中包含的图像的总数量成正相关，比如，可以是指多个第四阈值，每个阈值对应一个图像数量范围，在对待处理视频进行处理时，可以根据该视频的目标图像序列中包含的图像的总数量确定具体应该使用哪个第四阈值。或者是，待处理视频的目标图像序列包含的图像的数量是固定的，第四阈值可以是一个固定值。

通过判断目标图像序列中的目标视频图像的第二数量是否满足第二预设条件，在第二数量满足第二预设条件的情况下，确定待处理视频存在目标区域，可以考虑到对单个图像的识别结果的准确性和视频的连续性，结合对目标图像序列中各图像的图像识别结果，确定目标图像序列中包含的目标视频图像的第二数量，确定待处理视频是否存在目标区域，从而确定待处理视频是否存在目标区域，进而确定每个目标视频图像中的目标区域的初始区域边界。

为便于理解本申请实施例提供的视频处理方法，下面以确定目标图像序列中的一个目标视频图像中目标区域所在的位置为例，结合图4对本申请实施例提供的视频处理方法进行描述。图4示出了本申请实施例提供的确定目标视频图像中目标区域所在的位置的流程图。如图4所示，在确定目标图像序列中的一个目标视频图像中目标区域所在的位置的过程中，可以包括输入目标视频图像、确定目标视频图像中的有效边界、输出目标视频图像中的有效边界、确定目标视频图像中目标区域所在的位置几个步骤。

其中，可以通过步骤S701和步骤S702实现输入目标视频图像。具体地：

在步骤S701中，可以将分屏特效图像（也即，前文所述目标视频图像）的当前方向作为第一方向，得到第一方向的分屏特效图像，并输入第一方向的分屏特效图像。

在步骤S702中，可以在第一方向的基础上，将分屏特效图像旋转90度，得到第二方向的分屏特效图像，并输入第二方向的分屏特效图像。

其中，本申请实施例对步骤S701和步骤S702的执行顺序不做限制。

可以通过步骤S703至步骤S713实现确定分屏特效图像中的目标分屏边界，具体地：

在步骤S703中，将分屏特效图像缩放至预设图像大小（w，h），并执行步骤S704。

在步骤S704中，对分屏特效图像的进行去噪处理。

在步骤S705中，确定分屏特效图像的至少一个边缘。例如，分屏特效图像的上边缘、下边缘、左边缘、右边缘中的至少一个边缘。

在步骤S706中，确定分屏特效图像中的初始分屏特效边界（也即，前文所述初始区域边界）。

其中，在本申请实施例中，如图4所示，可以在执行完步骤S701和步骤S702之后，再执行步骤S703至步骤S706。也可以在执行完步骤S703至步骤S706之后，再执行步骤S701和步骤S702。本申请对此不作限制。

在步骤S707中，确定分屏特效图像中第一方向上的初始分屏特效边界。

在步骤S708中，根据第一方向上的每个初始分屏特效边界在图像中的图像位置，确定所有目标视频图像中第一方向上的每个图像位置对应的初始边界集合，根据第一方向上的在每个图像位置存在初始区域边界的图像的第一数量，对第一方向上的各初始边界集合进行筛选，将满足第一预设条件的第一数量对应的第一方向上的初始边界集合，确定为第一方向上的目标边界集合，将第一方向上的各目标边界集合中的初始分屏特效边界作为第一方向上的有效分屏边界（也即，前文所述的第一方向的初始区域边界）。

在步骤S709中，确定第一方向上的有效分屏边界与第二方向的边缘（也即，前文所述的第二方向的图像边缘）之间的第一距离，筛选出第一距离大于或等于第二阈值的第一方向上的有效边界。

在步骤S710中，确定第一方向上的各有效分屏边界之间的第二距离，对第二距离小于或等于第三阈值的各有效分屏边界进行去重处理，得到第一方向上的去重后的有效边界。

其中，本申请实施例对步骤S709和步骤S710的执行顺序不做限制。

在步骤S711中，确定分屏特效图像中第二方向上的初始分屏特效边界。

在步骤S712中，根据第二方向上的每个初始分屏特效边界在图像中的图像位置，确定所有目标视频图像中第二方向上的每个图像位置对应的初始边界集合，根据第二方向上的在每个图像位置存在初始区域边界的图像的第一数量，对第二方向上的各初始边界集合进行筛选，将满足第一预设条件的第一数量对应的第二方向上的初始边界集合，确定为第二方向上的目标边界集合，将第二方向上的各目标边界集合中的初始分屏特效边界作为第二方向上的有效分屏边界（也即，前文所述的第二方向的初始区域边界）。

在步骤S713中，确定第二方向上的有效分屏边界与第二方向的边缘（也即，前文所述的第一方向的图像边缘）之间的第一距离，筛选出第一距离大于或等于第二阈值的第二方向上的有效边界。

在步骤S714中，确定第二方向上的各有效分屏边界之间的第二距离，对第二距离小于或等于第三阈值的各有效分屏边界进行去重处理，得到第二方向上的去重后的有效边界。

其中，本申请实施例对步骤S713和步骤S714的执行顺序不做限制。

其中，在本申请实施例中，可以在执行完步骤S707至步骤S710之后，再执行步骤S711至步骤S714。也可以在执行完步骤S711至步骤S714之后，再执行步骤S707至步骤S710。本申请对此不作限制。

可以通过步骤S715和步骤S716实现输出分屏特效图像中的目标分屏边界，具体地：

在步骤S715中，输出第一方向上的目标分屏边界（也即，前文所述第一方向上的去重后的有效边界）。

其中，可以在执行完步骤S707至步骤S710之后，执行步骤S715。也可以在执行完步骤S707至步骤S714之后，执行步骤S715。本申请对此不作限制。

在步骤S716中，输出第二方向上的目标分屏边界（也即，前文所述第二方向上的去重后的有效边界）。

其中，可以在执行完步骤S711至步骤S714之后，执行步骤S716。也可以在执行完步骤S707至步骤S714之后，执行步骤S716。本申请对此不作限制。

其中，本申请对步骤S715和步骤S716的执行顺序不作限制。

可以通过步骤S717实现确定目标分屏图像中分屏特效所在的位置（也即，前文所述目标视频图像中目标区域所在的位置），具体地：

在步骤S717中，将第一方向上的第二距离大于第三预设阈值的各有效边界、第一方向上的去重后的有效边界、第二方向上的第二距离大于第三预设阈值的各有效边界和第二方向上的去重后的有效边界与该目标图像的图像边缘形成的区域确定为目标区域，进而确定目标视频图像中目标区域所在的位置。

通过上述方式，通过对目标视频图像进行缩放处理、去噪处理、确定目标视频图像中的初始目标区域边界、至少一个边缘，分别从第一方向和第二方向上，结合在每个图像位置存在初始区域边界的图像的第一数量、有效目标区域与目标边缘之间的第一距离、各有效边界之间的第二距离，对目标视频图像中的初始区域边界进行筛选，能够更精确地对目标视频图像中的目标区域进行定位，确定目标视频图像中目标区域所在的位置。

在一种可能的实现方式中，步骤S12可以具体包括：对于目标图像序列中的每一个图像，通过调用训练好的图像识别模型，得到该图像的图像识别结果，图像识别结果包括第一结果和第二结果，其中，第一结果表征了该图像中是否是目标视频图像，第二结果表征了该图像中包含的目标区域的区域类型。

在该实现方式中，该方法还可以包括：根据目标图像序列中的每个图像的第二结果，确定各目标视频图像中目标区域的区域类型；

其中，图像识别模型可以是基于包含大量训练样本的训练数据集对神经网络模型进行训练得到的。其中，对于图像识别模型的具体网络结构本申请实施例不做限定，可以根据实际需求配置。可选的，图像识别模型可以是基于卷积神经网络的模型，可以包括但不限于基于InceptionNet（开始神经网络），ResNet（残差网络），DenseNet（浓密神经网络），VggNet（一种深度卷积神经网络），SENet（Squeeze-and-Excitation Networks，挤压与激活网络）等模型结构的神经网络模型。其中，模型的输入为一帧图像或者是将一帧图像进行向量化处理后的图像数据，对于待处理视频而言，模型的输入即为目标图像序列中的每个图像或者向量化后的处理结果，模型的输出为图像识别结果。

本申请的可选实施例中，该图像识别模型可以通过以下方式训练得到，具体地：

获取训练数据集，训练数据集中包含多个训练样本，每个训练样本包括样本图像以及样本图像的标注标签，标注标签包括第一标签和第二标签，第一标签用于表征样本图像是否是目标视频图像，第二标签用于表征样本图像中目标区域的类型；

在总损失值满足预设的训练结束条件情况下，结束训练，得到上述图像识别模型；

其中，对于第一损失函数和第二损失函数的具体函数形式本申请实施例不做限定，可以根据实际需求选择。可选的，第一损失函数可以是目标识别损失函数，表征了识别的准确性，比如，第一损失函数可以包括以下任意一种，softmax（归一化）损失，cosface（cosinelossfordeepface，深度面部余弦损失），arcface（arcsinelossfordeepface，深度面部反正弦损失），center loss（中心损失）等，本申请对此不做限制。第二损失函数可以是多分类预测损失函数，第二损失函数可以包括以下任意一种，softmax，cosface，arcface，center loss等，本申请对此不做限制。其中，第一损失函数与第二损失函数可以为同一种损失函数，也可以是不同的损失函数。在实际实施时，第一损失函数和第二损失函数可以相同，比如，第一损失函数中的交叉熵可以为二分类交叉熵，第二损失函数中的交叉熵可以为n分类交叉熵。

通过训练数据集、第一损失函数和第二损失函数，引入了更多的监督信息，对图像识别模型进行训练，可以使得通过调用训练好的图像识别模型，实现了多任务学习训练，既能够识别出输入该模型的图像是否是目标视频图像，也即该输入图像中是否存在目标区域，又能够确定该目标视频图像所包含的目标区域的区域类型，提高了模型的准确度，从而更好的满足实际应用需求。

作为一个示例，图5为示出了一种训练目标区域识别模型的流程示意图。如图5所示，可以包括步骤S31至步骤S34。

步骤S31：获取大量的训练图像（也即，前文所述训练数据集中的“样本图像”）。

步骤S32：将各训练图像分别输入至基干网络（也即，前文所述初始神经网络模型）中。

步骤S33：判断训练图像是否是分屏特效图像（也即，前文所述目标视频图像），也即，得到训练图像的第一结果。

步骤S34：判断该训练图像是哪一类分屏特效图像（也即，前文所述目标视频图像中目标区域的区域类型），也即，得到针对各个训练图像的第二结果。

其中，步骤S33和步骤S34可以同时执行，也可以先执行步骤S23，在根据步骤S33确定训练图像是目标视频图像的情况下，执行步骤S34。本申请对此不做限制。

在执行完步骤S33和步骤S34之后，可以根据针对训练图像“是否是目标视频图像”的判断结果和第一标签（真实结果，即训练图像是目标视频图像或者是训练图像不是目标视频图像），确定基干网路的第一损失函数的值。可以根据“该训练图像是哪一类目标视频图像”的判断结果和第二标签（真实结果，即训练图像所包含的目标区域的区域类型），确定基干网络的第二损失函数的值。并基于第一损失函数的值和第二损失函数的值，确定总损失值。在总损失值满足预设的训练结束条件情况下，结束训练，得到上述目标区域识别模型。在总损失值不满足预设的训练结束条件的情况下，对基干网络的模型参数进行调整，并基于训练数据集中的各训练图像对调整后的基干网络继续进行训练，直至总损失值满足预设的训练结束条件。

其中，对于图像识别结果中第一结果和第二结果的具体数据形式本申请实施例不做限定。比如，可以通过不同的表示方式分别表示第一结果和第二结果，也可以通过同一种表示方式表示第一结果和第二结果。第一结果可以是0或1，0表征该图像不是目标视频图像，1表征该图像是目标视频图像。第二结果可以包含多个概率值或者是一个类型的标识，其中，每个概率值表示该图像中所包含的目标区域分别被识别为不同类型的概率，在该图像中所包含的目标区域被识别为某一类型的概率值最大时，可以将该概率值最大的类型确定为该图像中所包含的目标区域，第二结果中包含的概率值的数量等于目标视频图像中可能包含的目标区域的区域类型的总数量。

比如，可以用a0~an作为特定的标签表征图像识别结果，其中，a0用于表征图像不是目标视频图像，a1~an分别用于表征图像中目标区域的特效类型。其中，n可以根据目标视频图像中可能包含的目标区域的区域类型的种类确定，本申请对此不做限制。比如，在图像中可能包含的目标区域的区域类型有3种，则n的取值为3。例如，如上文所述，在目标视频图像包含的目标区域的区域类型包括毛玻璃区域、纯色屏区域、重复屏区域3种的情况下，对应地，第二结果可以用a0（用于表征图像不是目标视频图像）、a1（用于表征图像中包含的目标区域的区域类型为“毛玻璃区域”）、a2（用于表征图像中包含的目标区域的区域类型为“纯色屏区域”）、a3（用于表征图像中包含的目标区域的区域类型为“重复屏区域”）中的任意一种表示。举例来讲，在图像不是目标视频图像的情况下，可以输出第一结果为0，第二结果为a0，也可以仅输出第一结果为0，而不输出第二结果。在图像中包含的目标区域的区域类型为“黑边特效”的情况下，可以输出：第一结果为1，第二结果为a2。

作为一个示例，图6为本申请另一可选实施例提供的一种视频处理方法的流程示意图。可以通过图6所示的步骤S51至步骤S54实现上述方法。其中：

步骤S51：获取图像序列，也即，上文步骤S11中的获取待处理视频的目标图像序列。

步骤S52：将图像序列输入至卷积神经网络模型，也即，上文步骤S12中的调用训练好的目标区域识别模型，以及训练好的基干网络。

步骤S53：得到识别结果和分类结果，也即，上文步骤S12中的得到图像的图像识别结果，该图像识别结果包括第一结果和第二结果。其中，第一结果也即识别结果，可以用于表征图像序列中的图像中是否是目标视频图像。第二结果也即分类结果，可以用于表征图像序列中的图像中的目标区域的特效类型。

步骤S54：进行视频帧投票，修正识别结果。也即，上文所描述的“在第二数量满足第二预设条件的情况下，确定待处理视频存在目标区域”，以及“在第二数量不满足第二预设条件的情况下，确定待处理视频不存在目标区域”。

可选地，根据各目标视频图像中目标区域的区域类型，确定待处理视频中目标区域的区域类型，可以包括：

通过在各目标视频图像的特效类型不同的情况下，确定目标图像序列中对应于每种特效类型的目标视频图像的第三数量，并将最大的第三数量所对应的特效类型，确定为待处理视频中目标区域的特效类型，可以更精确地确定待处理视频中目标区域的特效类型。

根据本申请实施例所提供的视频处理方法，在获取待处理视频的目标图像序列之后，通过调用训练好的目标区域识别模型，对目标图像序列中的每一个图像进行识别，得到针对目标图像序列中的每一个图像的第一结果和第二结果，可以在根据第一结果确定所识别的图像是否为目标视频图像的同时，根据第二结果确定所识别的图像中目标区域的特效类型。并根据第一结果确定目标图像序列中的目标视频图像的第二数量，从而根据第二数量确定待处理视频是否存在目标区域。进而，能够在确定待处理视频存在目标区域的情况下，确定每个目标视频图像中的目标区域的初始区域边界，对存在目标区域的待处理视频做进一步处理，例如，在待处理视频中的画面被目标区域覆盖的情况下，裁剪掉待处理视频中每个目标视频图像中的目标区域，解决了相关技术中“对含有目标区域的视频进行处理的准确率较低，用户体验感不好”的技术问题，提高了对存在目标区域的视频进行处理的准确率，提升了用户体验感。

图7为本申请另一可选实施例提供的一种视频处理方法的流程示意图。如图7所示，可以包括步骤S41至步骤S43。

步骤S41：进行视频抽帧，也即，上文步骤S11中的获取待处理视频的目标图像序列。

步骤S42：进行目标视频图像识别和分类，也即，上文步骤S12中，对于目标图像序列中的每一个图像，通过调用训练好的目标区域识别模型，得到图像的图像识别结果。进行目标视频图像识别，也即，获取上述第一结果。进行目标视频图像分类，也即，获取上述第二结果。

步骤S43：进行目标区域定位，也即，上文步骤S14至步骤S19中所描述的内容。

在一种可能的实现方式中，待处理视频为待推荐视频集中的每个待推荐视频，该方法还包括：将待推荐视频集中不存在目标视频图像的待推荐视频，确定为目标推荐视频；

或者，待处理视频为待剪辑视频，该方法还包括：对待处理视频中的每个目标视频图像进行相应的预处理，得到剪辑后的视频。

在该实现方式中，对待处理视频中的每个目标视频图像进行相应的预处理，可以包括以下任意一项：

删除目标视频图像；

根据每个目标视频图像中目标区域所在的位置，裁剪掉待处理视频中每个目标视频图像中的目标区域。

通过在视频推荐过程中，将各待推荐视频中不存在目标区域的待处理视频确定为目标推荐视频，可以更好地将存在目标区域的待处理视频过滤掉，提高所推荐的视频的观感与页面美观度，提升用户体验。

通过在视频播放过程中，在待处理视频存在目标区域时，对每个目标视频图像中的目标区域进行相应的预处理操作，得到处理后的视频，并播放处理后的视频，可以将待播放视频恢复至没有目标区域之前的视频，仅播放与视频可视区域有关的画面，使用户可以直接捕捉到与视频的有效信息，提高用户体验感。

为便于理解本申请实施例提供的视频处理方法的应用价值，下面结合一个具体应用场景实施例进行说明。本申请提供的方案可以应用于视频推荐过程中，该方案可以实现为一个应用程序或者应用程序的插件，通过该应用程序，用户可以通过在终端设备的搜索页面输入搜索关键词，获取到与搜索关键词相关的视频，服务器端可以根据用户输入的搜索关键词为用户筛选与搜索关键词相关的、且不存在目标区域的视频并推荐给用户。

本申请实施例提供的视频处理方法可以适用于任何需要对视频进行处理的场景中，可以包括但不限于视频推荐场景。为了更好的说明本申请实施例方案的实用性，下面结合视频推荐场景对本申请实施例的方案进行说明。

图8示出了本申请所适用的一种视频推荐***的结构示意图，如图8所示，该***可以包括服务器81和用户的终端设备82，终端设备82中可以安装视频类APP，用户可以通过该APP的客户端观看、搜索视频等。终端设备82通过网络83与服务器81连接，服务器81侧配置有视频库，视频库中存储有大量的视频。下面结合该***对本申请方案可选实施例进行说明，图9示出了本场景实施例的视频处理流程示意图，可以包括步骤S91至步骤S98。

步骤S91：在终端设备82的客户端的用户页面s上输入搜索关键词“小狗”，并点击搜索控件“Q”，通过网络30向服务器81发送包含“小狗”关键字的视频获取指令。

步骤S92：服务器81通过网络30接收获取“小狗”关键字的视频获取指令。

步骤S93：服务器81在视频库中获取设定数量的包含“小狗”的视频（简称为“小狗视频”），并将所获取的所有“小狗视频”作为待推荐视频，执行步骤S94至步骤S98或者执行步骤S65-68。

步骤S94：从待推荐视频中确定目标推荐视频。

可选的，可以将待推荐视频直接作为目标推荐视频，或者通过A处理确定目标推荐视频。

其中，A处理可以通过步骤S110至步骤S130实现。

步骤S110：对于待推荐视频（即待处理视频）进行抽帧处理，确定待推荐视频的目标视频序列；

步骤S120：确定目标视频序列中的各个目标视频图像。

可选的，可以通过图像识别模型得到目标视频序列中各个图像识别结果。其中，对于目标视频序列中的每个图像，图像识别结果包括该图像是否是目标视频图像，以及在该图像为目标视频图像的情况下，该目标视频图像中目标区域的区域类型。在图像识别结果表征该图像是目标视频图像的情况下，将该图像确定为目标视频图像。

步骤S130：统计目标视频序列中目标视频图像的第二数量与目标视频图像序列中所有图像的第二总数量的第一比值；

如果第一比值小于1/3（也即，前文所述的第二预设占比），可以确定该待推荐视频中包括不包括目标区域，并将待推荐视频确定为目标推荐视频。如果第一比值大于1/3（也即，前文所述的第二预设占比），则可以确定该待推荐视频中包括目标区域，并删除待推荐视频中的目标视频图像（也即，上文中剪辑后的视频），或者，确定待推荐视频中目标区域的位置，对待推荐视频中目标视频图像的目标区域进行裁剪，将裁剪后的目标视频图像替换相应图像帧，将替换后的视频确定为目标推荐视频（也即，上文中剪辑后的视频）。

可选地，在确定该待推荐视频中包括目标区域的情况下，可以根据待推荐视频中每帧目标视频图像的目标区域的面积与该帧目标视频图像所有区域的总面积的比值，和/或，待推荐视频中目标区域的区域类型，确定对该待推荐视频中各帧目标视频图像的下一步处理操作。

可选地，若每帧目标视频图像的目标区域的面积与该帧目标视频图像所有区域的总面积的比值大于1/2，则将该帧目标视频图像删除。若该比值小于1/2，则根据该帧目标视频图像中目标区域的位置，对该帧目标视频图像的目标区域进行裁剪，保留该帧目标视频图像的非目标区域，并将裁剪后的目标视频图像放大为与该帧目标视频图像的大小一致的图像，从而将经过放大处理后的图像替换为相应图像帧。

可选地，在该待推荐视频中每帧目标视频图像的目标区域的区域类型为毛玻璃区域或纯色屏区域的情况下，根据该帧目标视频图像中目标区域的位置，对该帧目标视频图像的目标区域进行裁剪，保留该帧目标视频图像的非目标区域，并将裁剪后的目标视频图像放大为与该帧目标视频图像的大小一致的图像，从而将经过放大处理后的图像替换为相应图像帧。在该待推荐视频中每帧目标视频图像的目标区域的区域类型为重复屏区域的情况下，将该帧目标视频图像删除。

步骤S95：将各个待推荐视频作为目标推荐视频，将各个目标推荐视频的标识信息（视频的名称、封面等信息）推送给终端设备，以使终端设备在接收到的目标推荐视频的标识信息后，将目标推荐视频的标识信息显示给用户。

其中，终端设备可以通过列表的形式显示目标推荐视频的标识信息，本公开对此不做限制。

步骤S96：在终端设备检测到对应于目标推荐视频的控件被触发的情况下，确定该目标推荐视频为待播放视频，并通过网络83向服务器81发送请求播放该待播放视频的指令。

步骤S97：服务器81通过网络30接收请求播放待播放视频的指令。

步骤S98：将请求播放待播放视频的指令对应的待播放视频确定为目标播放视频，将该目标播放视频的标识信息（视频的名称、封面等信息）推送给终端设备，以使终端设备82根据该目标播放视频的标识信息播放该目标播放视频。

其中，如果待播放视频是通过A处理的视频，则可以将该待播放视频的内容发送给终端设备82进行播放。如果该待播放视频是未通过A处理（也就是直接将待推荐推荐作为目标推荐视频）的视频，则可以执行下述B处理对待播放视频进行处理，并将处理后的待播放视频（也即目标播放视频）的内容发送给终端设备82进行播放。

其中，B处理可以包括步骤S210至步骤S230。

步骤S210：对于每个待播放视频（即待处理视频）进行抽帧处理，确定待播放视频的目标视频序列；

步骤S220：确定目标视频序列中的各个目标视频图像。

可选的，可以通过图像识别模型得到目标视频序列中每个图像的图像识别结果，在图像的第一结果表征图像中是目标视频图像情况下，将该图像确定为目标视频图像。

步骤S230：统计目标视频序列中目标视频图像的第二数量与目标视频图像序列中所有图像的第二总数量的第一比值；

如果第一比值小于1/3（也即，前文所述的第二预设占比），将待推荐视频确定为目标播放视频。如果第一比值大于1/3（也即，前文所述的第二预设占比），则删除待播放视频中的目标视频图像（也即，上文中剪辑后的视频），或者，确定待播放视频中目标区域的位置，对待播放视频中目标视频图像的目标区域进行裁剪，将裁剪后的目标视频图像替换相应图像帧，将替换后的视频确定为目标播放视频（也即，上文中剪辑后的视频）。

其中，可以通过步骤S231至步骤S237确定待推荐视频或待播放视频中目标区域的位置。

步骤S231：确定每个目标视频图像中的目标区域的初始区域边界。

其中，可以先对每个目标视频图像进行预处理，该预处理包括将各个目标视频图像缩放至目标大小，并根据缩放后的目标视频图像，确定每个缩放后的目标视频图像中目标区域的初始区域边界。

步骤S232：根据每个初始区域边界在图像中的图像位置，确定所有目标视频图像中每个图像位置对应的初始边界集合。

步骤S233：根据在每个图像位置存在初始区域边界的图像的第一数量，对各初始边界集合进行筛选，将各初始边界集合中对应的第一数量与第一总数量的第一比值大于或等于1/3（也即，前文所述第一预设占比）的集合，确定为目标边界集合。

步骤S234：将各目标边界集合中的初始区域边界作为有效边界。

步骤S235：对于各目标视频图像中的每个图像，确定该目标视频图像中有效边界与目标边缘的第一距离，筛选得到第一距离大于或等于第二阈值的有效边界。也即，在确定该目标视频图像中第一方向上的有效边界与第二方向的图像边缘之间的第一距离大于或等于0.01*w，且第二方向上的有效边界与第一方向的图像边缘之间的第一距离大于或等于0.01*h的情况下，将该目标视频图像中第一方向上的有效边界以及第二方向上的有效边界作为特定有效边界。

步骤S236：确定第一距离大于或等于第二阈值的各特定有效边界之间的第二距离，对第二距离小于或等于第三阈值的各有效边界进行去重处理，得到去重后的各有效边界。也即，在确定第一方向上的各特定有效边界之间的第二距离小于或等于0.01*w的情况下，对第一方向上的各特定有效边界进行去重处理，得到第一方向上的去重后的有效边界。在确定第二方向上的各特定有效边界之间的第二距离小于或等于0.01*h的情况下，对第二方向上的各特定有效边界进行去重处理，得到第二方向上的去重后的有效边界。

步骤S237：对于每个目标视频图像，将第二距离大于第三预设阈值的各有效边界以及去重后的有效边界所形成的边界与目标视频图像的边缘所形成的区域确定为目标视频图像中的目标区域，进而确定目标视频图像中目标区域的位置。

本申请实施例还提供了一种视频处理装置。图10为本申请实施例提供的一种视频处理装置的结构示意图。如图10所示，该视频处理装置50包括图像序列获取模块501、目标视频图像确定模块502和位置确定模块503。

图像序列获取模块501，用于获取待处理视频的目标图像序列，该目标图像序列中包含待处理视频中的至少一个图像。

目标视频图像确定模块502，用于确定目标图像序列中的至少一个目标视频图像，目标视频图像是指存在目标区域的图像，目标区域为非有效信息区域。

位置确定模块503，用于确定每个目标视频图像中的目标区域的初始区域边界；

可选地，位置确定模块503用于在根据每个初始边界集合中包括的初始区域边界的第一数量，对各初始边界集合进行筛选，得到目标边界集合时，用于：

第一数量大于或等于第一阈值；

位置确定模块503在根据所有目标视频图像中的各初始区域边界在所属的图像中的图像位置，筛选各初始区域边界中的有效边界时，用于：

可选地，对于每个目标视频图像，位置确定模块503在基于目标视频图像的有效边界，确定目标视频图像中目标区域的位置时，用于：

确定目标视频图像中各有效边界之间的第二距离；

可选地，位置确定模块503在确定每个目标视频图像中的目标区域的初始区域边界时，用于：

确定目标图像序列中包含的目标视频图像的第二数量；

第二数量大于或等于第四阈值；

可选地，目标视频图像确定模块502在确定目标图像序列中的至少一个目标视频图像时，用于：

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

根据本申请实施例所提供的视频处理装置，能够结合视频中各目标视频图像中初始区域边界之间的位置关系以及各目标视频图像之间的时间、空间关系，以滤除目标视频图像中的非有效边界，得到最终的目标视频图像的有效边界，能够精确地确定目标区域视频中目标区域所在的位置，以便对存在目标区域的待处理视频做进一步处理，提高视频的观感和页面美观度，提升用户体验。

本申请实施例还提供了一种电子设备。该电子设备包括存储器、处理器及存储在存储器上的计算机程序，处理器执行计算机程序以实现上述方法。

图11为本申请实施例提供的一种用于视频处理的电子设备的结构示意图。在一个可选实施例中提供了一种电子设备，如图11所示，图11所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

基于与本申请实施例提供的方法相同的原理，本申请实施例还提供了一种本计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述本申请任一可选实施例中提供的方法。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理视频的目标图像序列，所述目标图像序列中包含所述待处理视频中的至少一个图像；

确定目标图像序列中的至少一个目标视频图像，所述目标视频图像是指存在目标区域的图像，所述目标区域为非有效信息区域；

确定每个所述目标视频图像中的目标区域的初始区域边界；

根据所有所述目标视频图像中的各所述初始区域边界在所属的图像中的图像位置，筛选各所述初始区域边界中的有效边界；

对于每个所述目标视频图像，基于所述目标视频图像的有效边界，确定所述目标视频图像中目标区域的位置；

其中，所述根据所有所述目标视频图像中的各所述初始区域边界在所属的图像中的图像位置，筛选各所述初始区域边界中的有效边界，包括：

根据每个所述初始区域边界在图像中的图像位置，确定所有所述目标视频图像中每个图像位置对应的初始边界集合、以及在每个图像位置存在初始区域边界的图像的第一数量，其中，一个图像位置对应的初始边界集合包括在所述图像位置出现的所有初始区域边界；

根据每个所述初始边界集合中包括的初始区域边界的第一数量，对各所述初始边界集合进行筛选，得到目标边界集合，将各所述目标边界集合中的初始区域边界作为有效边界。

2.根据权利要求1所述的方法，其特征在于，所述根据每个所述初始边界集合中包括的初始区域边界的第一数量，对各所述初始边界集合进行筛选，得到目标边界集合，包括：

将各所述初始边界集合中对应的所述第一数量满足第一预设条件的集合，确定为所述目标边界集合，其中，所述第一预设条件包括以下至少一项：

所述第一数量大于或等于第一阈值；

所述第一数量与第一总数量的第一比值大于或等于第一预设占比，其中，所述第一总数量为所述目标图像序列中目标视频图像的数量。

3.根据权利要求1或2所述的方法，其特征在于，对于每个所述目标视频图像，所述初始区域边界包括第一方向的初始区域边界和第二方向的初始区域边界，所述第一方向和所述第二方向分别对应于所述目标视频图像的宽度方向和高度方向；

所述根据所有所述目标视频图像中的各所述初始区域边界在所属的图像中的图像位置，筛选各所述初始区域边界中的有效边界，包括：

根据所有所述目标视频图像中的各所述初始区域边界在所属的图像中的图像位置，确定各所述初始区域边界中对应于所述第一方向上的有效边界；

根据所有所述目标视频图像中的各所述初始区域边界在所属的图像中的图像位置，确定各所述初始区域边界中对应于所述第二方向上的有效边界；

对于每个所述目标视频图像，所述基于所述目标视频图像的有效边界，确定所述目标视频图像中目标区域的位置，包括：

基于所述目标视频图像的第一方向上的有效边界和第二方向上的有效边界，确定所述目标视频图像中目标区域的位置。

4.根据权利要求3所述的方法，其特征在于，对于每个所述目标视频图像，所述基于所述目标视频图像的有效边界，确定所述目标视频图像中目标区域的位置，包括：

对于所述目标视频图像的每个有效边界，确定该有效边界与目标边缘的第一距离，所述目标边缘为所述目标视频图像的图像边缘中与该有效边界较近的边缘；

其中，所述第一方向上的有效边界对应的目标边缘为第二方向的图像边缘，所述第二方向上的有效边界对应的目标边缘为第一方向的图像边缘；

基于所述第一距离大于或等于第二阈值的有效边界，确定所述目标视频图像中目标区域的位置。

5.根据权利要求1或2所述的方法，其特征在于，对于每个所述目标视频图像，所述基于所述目标视频图像的有效边界，确定所述目标视频图像中目标区域的位置，包括：

确定所述目标视频图像中各有效边界之间的第二距离；

对所述第二距离小于或等于第三阈值的各有效边界进行去重处理；

基于去重后的有效边界，确定所述目标视频图像中目标区域的位置。

6.根据权利要求1所述的方法，其特征在于，所述确定每个所述目标视频图像中的目标区域的初始区域边界，包括：

确定所述目标图像序列中包含的目标视频图像的第二数量；

在所述第二数量满足第二预设条件时，确定每个所述目标视频图像中的目标区域的初始区域边界，其中，所述第二预设条件包括以下至少一项：

所述第二数量大于或等于第四阈值；

所述第二数量与第二总数量的第一比值大于或等于第二预设占比，其中，所述第二总数量为所述目标图像序列中所有图像的数量。

7.根据权利要求1所述的方法，其特征在于，所述确定目标图像序列中的至少一个目标视频图像，包括：

对于所述目标图像序列中的每个图像，通过调用训练好的图像识别模型，得到所述图像的图像识别结果，所述图像识别结果包括第一结果和第二结果，所述第一结果表征了所述图像中是否是目标视频图像，所述第二结果表征了所述图像中包含的目标区域的区域类型；

根据所述目标图像序列中的每个图像的第一结果，确定所述目标图像序列中的至少一个目标视频图像；

所述方法还包括：

根据所述目标图像序列中的每个图像的第二结果，确定各所述目标视频图像中目标区域的区域类型；

根据各所述目标视频图像中目标区域的区域类型，确定所述待处理视频中目标区域的区域类型。

8.根据权利要求7所述的方法，其特征在于，所述根据各所述目标视频图像中目标区域的区域类型，确定所述待处理视频中目标区域的区域类型，包括：

根据各所述目标视频图像中目标区域的区域类型，统计所述目标图像序列中对应于每种区域类型的目标视频图像的第二数量；

将最大的所述第二数量所对应的区域类型，确定为所述待处理视频中目标区域的区域类型。

9.根据权利要求7或8所述的方法，其特征在于，所述图像识别模型是通过以下方式训练得到的：

获取训练数据集，所述训练数据集中包含多个训练样本，每个所述训练样本包括样本图像以及所述样本图像的标注标签，所述标注标签包括第一标签和第二标签，所述第一标签用于表征所述样本图像是否是目标视频图像，所述第二标签用于表征所述样本图像中包含的目标区域的区域类型；

将所述训练数据集中的每个所述样本图像输入至初始神经网络模型中，得到每个所述样本图像的图像识别结果；

基于各所述样本图像的第一结果和第一标签，确定所述神经网络模型的第一损失函数的值；基于各所述样本图像的第二结果和第二标签，确定所述神经网络模型的第二损失函数的值；

基于所述第一损失函数的值和所述第二损失函数的值，确定总损失值；

在所述总损失值满足预设的训练结束条件情况下，结束训练，得到所述图像识别模型；

在所述总损失值不满足所述预设的训练结束条件的情况下，对所述神经网络模型的模型参数进行调整，并基于所述训练数据集对调整后的模型继续进行训练。

10.根据权利要求1所述的方法，其特征在于，

所述待处理视频为待推荐视频集中的每个待推荐视频，所述方法还包括：将所述待推荐视频集中不存在目标视频图像的待推荐视频，确定为目标推荐视频；

或者，所述待处理视频为待剪辑视频，所述方法还包括：对所述待处理视频中的每个目标视频图像进行相应的预处理，得到剪辑后的视频。

11.一种视频处理装置，其特征在于，包括：

图像序列获取模块，用于获取待处理视频的目标图像序列，所述目标图像序列中包含所述待处理视频中的至少一个图像；

目标视频图像确定模块，用于确定目标图像序列中的至少一个目标视频图像，所述目标视频图像是指存在目标区域的图像，所述目标区域为非有效信息区域；

位置确定模块，用于确定每个所述目标视频图像中的目标区域的初始区域边界；

所述位置确定模块在根据所有所述目标视频图像中的各所述初始区域边界在所属的图像中的图像位置，筛选各所述初始区域边界中的有效边界时，用于：

12.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-10中任意一项所述的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-10中任意一项所述的方法。