CN114422848A - 视频分割方法、装置、电子设备及存储介质 - Google Patents

视频分割方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114422848A
CN114422848A CN202210062253.6A CN202210062253A CN114422848A CN 114422848 A CN114422848 A CN 114422848A CN 202210062253 A CN202210062253 A CN 202210062253A CN 114422848 A CN114422848 A CN 114422848A
Authority
CN
China
Prior art keywords
sequence
video
image frame
frames
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210062253.6A
Other languages
English (en)
Inventor
赵天昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210062253.6A priority Critical patent/CN114422848A/zh
Publication of CN114422848A publication Critical patent/CN114422848A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种视频分割方法、装置、电子设备及存储介质,所述方法包括:获取目标视频中的图像帧序列;获取所述图像帧序列中的相邻图像帧之间的相似度;将与前一图像帧之间的相似度小于预设相似度阈值的图像帧作为动作发生帧,并将在所述图像帧序列中连续的动作发生帧进行合并,得到动作发生序列;基于所述动作发生序列所覆盖的时间区间,对所述目标视频进行分割,得到分割出的目标片段。本申请实施例能够降低视频分割的成本。

Description

视频分割方法、装置、电子设备及存储介质
技术领域
本申请涉及视频剪辑领域,具体涉及一种视频分割方法、装置、电子设备及存储介质。
背景技术
在日常生活的许多场景中,均会存在视频剪辑的需求。一般情况下,多是由人工操作剪辑软件对视频进行分割,进而对分割出的片段进行编辑,从而完成视频剪辑。这一过程中视频分割显然会耗费大量人力。出于节省人力的需求,现有技术中,通常采取深度学习的方式对视频进行分割,以实现自动化智能化的视频剪辑。但由于现有技术的这一方式在分割视频时高度依赖深度学习,而深度学习对于算力的要求较高,从而导致视频分割的成本较高。
发明内容
本申请的一个目的在于提出一种视频分割方法、装置、电子设备及存储介质,能够降低视频分割的成本。
根据本申请实施例的一方面,公开了一种视频分割方法,所述方法包括:
获取目标视频中的图像帧序列;
获取所述图像帧序列中的相邻图像帧之间的相似度;
将与前一图像帧之间的相似度小于预设相似度阈值的图像帧作为动作发生帧,并将在所述图像帧序列中连续的动作发生帧进行合并,得到动作发生序列;
基于所述动作发生序列所覆盖的时间区间,对所述目标视频进行分割,得到分割出的目标片段。
根据本申请实施例的一方面,公开了一种视频分割装置,所述装置包括:
第一序列获取模块,配置为获取目标视频中的图像帧序列;
相似度获取模块,配置为获取所述图像帧序列中的相邻图像帧之间的相似度;
第二序列获取模块,配置为将与前一图像帧之间的相似度小于预设相似度阈值的图像帧作为动作发生帧,并将在所述图像帧序列中连续的动作发生帧进行合并,得到动作发生序列;
视频分割模块,配置为基于所述动作发生序列所覆盖的时间区间,对所述目标视频进行分割,得到分割出的目标片段。
在本申请的一示例性实施例中,所述装置配置为:选取固定视角的视频作为所述目标视频。
在本申请的一示例性实施例中,所述装置配置为:对接收到的原始视频进行视角检测,根据视角检测结果,将所述原始视频中的固定视角的视频段作为所述目标视频。
在本申请的一示例性实施例中,所述装置配置为:按照预设的帧数间隔,周期性地对所述目标视频进行抽帧,得到所述图像帧序列。
在本申请的一示例性实施例中,所述装置配置为:
将所述图像帧序列中的各图像帧进行向量化处理,得到所述图像帧序列中的各图像帧对应的图像向量;
基于所述图像帧序列中的各图像帧对应的图像向量,计算所述图像帧序列中的相邻图像帧之间的向量距离;
基于所述图像帧序列中的相邻图像帧之间的向量距离,获取所述图像帧序列中的相邻图像帧之间的相似度。
在本申请的一示例性实施例中,所述装置配置为:
按照所述时间区间对所述目标视频进行分割,得到所述时间区间的候选片段;
对所述候选片段进行对象检测,将对象检测结果符合预设条件的候选片段作为所述目标片段。
在本申请的一示例性实施例中,所述装置配置为:
逐帧对所述候选片段进行对象检测,确定包含有感兴趣对象的图像帧在所述候选片段所占的比例;
将所述比例大于预设比例阈值的候选片段作为所述目标片段。
在本申请的一示例性实施例中,所述装置配置为:
使用预设的滑动窗口在所述时间区间大于预设时段长度的动作发生序列内滑动,并获取滑动窗口范围内各动作发生帧对应的相似度;
基于所述滑动窗口范围内各动作发生帧对应的相似度,筛选出动作变化最剧烈的滑动窗口;
基于所述动作变化最剧烈的滑动窗口,对所述目标视频进行分割,得到所述目标片段。
在本申请的一示例性实施例中,所述装置配置为:
将所述滑动窗口范围内各动作发生帧对应的相似度进行求和,并将求和所得累加值最小的滑动窗口作为所述动作变化最剧烈的滑动窗口。
根据本申请实施例的一方面,公开了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现以上任一项实施例。
根据本申请实施例的一方面,公开了一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行以上任一项实施例。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
本申请实施例中,通过相邻图像帧之间的相似度筛选出动作发生帧,并通过合并连续的动作发生帧得到动作发生序列,进而基于动作发生序列所覆盖的时间区间对目标视频进行分割,能够使得分割出的目标片段能够集中展示出目标视频的对象的显著活跃运动片段。由于本申请实施例所调用算力主要是消耗在图像帧相似度的计算上,相比于高度依赖深度学习进行视频分割的现有技术,本申请实施例降低了对于算力的需求,从而降低了视频分割的成本。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
通过参考附图详细描述其示例实施例,本申请的上述和其它目标、特征及优点将变得更加显而易见。
图1示出了根据本申请一个实施例的示例性***架构的示意图。
图2示出了根据本申请一个实施例的视频分割方法的流程图。
图3示出了根据本申请一个实施例的视频分割实施过程的示意图。
图4示出了根据本申请一个实施例的视频分割实施过程的流程图。
图5示出了根据本申请一个实施例的视频分割装置的框图。
图6示出了根据本申请一个实施例的电子设备硬件图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式使得本申请的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中,提供许多具体细节从而给出对本申请的示例实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本申请的各方面变得模糊。
附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了本申请一实施例的示例性***架构的示意图。
如图1所示,该***架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种,当然也可以是台式计算机等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。服务器105为本申请技术方案的示例性执行主体。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,该实施例只是示例性地展示了本申请可以应用的***架构,不应对本申请的功能和使用范围造成限制。
本申请提供了一种视频分割方法,主要应用于视频剪辑领域。图2示出了该方法的流程图,该方法的示例性执行主体为服务器,该方法包括:
步骤S210、获取目标视频中的图像帧序列;
步骤S220、获取图像帧序列中的相邻图像帧之间的相似度;
步骤S230、将与前一图像帧之间的相似度小于预设相似度阈值的图像帧作为动作发生帧,并将在图像帧序列中连续的动作发生帧进行合并,得到动作发生序列;
步骤S240、基于动作发生序列所覆盖的时间区间,对目标视频进行分割,得到分割出的目标片段。
本申请实施例中,目标视频为待分割的视频。为了分割目标视频,获取目标视频中的图像帧序列。该图像帧序列中的图像帧按照目标视频的播放顺序依次排列。
进而获取该图像帧序列中的相邻图像帧之间的相似度。相似度也可以称为相关性系数。对于两个相邻图像帧而言,相似度越大,说明后一图像帧与前一图像帧相比,图像信息的变化程度越小,目标视频中的对象运动得越平稳;反之,相似度越小,说明后一图像帧与前一图像帧相比,图像信息的变化程度越大,目标视频中的对象运动得越剧烈。其中,目标视频中的对象泛指目标视频拍摄到的各对象,可以为任意能够通过视觉识别出的实体,例如行人、车辆、树木等。
若其中一个图像帧与其前一图像帧之间的相似度小于预设相似度阈值,则说明在从其前一图像帧到该图像帧的过程中,目标视频中的对象很有可能作出了较为剧烈的动作,故将该图像帧作为动作发生帧,以标志目标视频中的对象作出了较为剧烈的动作。
定位得到图像帧序列中各符合条件的动作发生帧后,将在图像帧序列中连续的动作发生帧进行合并,得到由多个连续的动作发生帧所组成的动作发生序列。
由于动作发生帧用于标志目标视频中的对象作出了较为剧烈的动作,因此包含多个连续的动作发生帧的动作发生序列,可以用于标志目标视频中的对象在该动作发生序列所覆盖的时间区间内,连续作出了较为剧烈的动作,即,处于显著活跃的运动状态。因此也可以将动作发生序列所覆盖的时间区间内称为运动显著区间,以用于标志目标视频中的对象处于显著活跃的运动状态。
因此,基于该动作发生序列所覆盖的时间区间,对目标视频进行分割,可以使得分割出的目标片段能够集中展示出目标视频中的对象的显著活跃运动片段。
由此可见,本申请实施例中,通过相邻图像帧之间的相似度筛选出动作发生帧,并通过合并连续的动作发生帧得到动作发生序列,进而基于动作发生序列所覆盖的时间区间对目标视频进行分割,能够使得分割出的目标片段能够集中展示出目标视频的对象的显著活跃运动片段。由于本申请实施例所调用算力主要是消耗在图像帧相似度的计算上,相比于高度依赖深度学习进行视频分割的现有技术,本申请实施例降低了对于算力的需求,从而降低了视频分割的成本。
图3示出了本申请一实施例的视频分割实施过程的示意图。
参考图3所示,该实施例中,将目标视频包含的图像帧提取出来,并依次排列,得到如图所示的图像帧序列。从第二个图像帧开始,逐帧计算与前一图像帧之间的相似度,得到如图所示的相邻图像帧之间的相似度:第二个图像帧与第一个图像帧之间的相似度为0.92,第三个图像帧与第二个图像帧之间的相似度为0.86,第四个图像帧与第三个图像帧之间的相似度为0.88,同理不再赘述其他相似度。
预设相似度阈值为0.90,将所对应相似度小于0.90的图像帧筛选出来,得到如图所示的动作发生帧。并将在图像帧序列中连续的动作发生帧进行合并,得到如图所示的两个动作发生序列。其中,所对应相似度为0.89的第八个图像帧虽然也是动作发生帧,但由于其是孤立的,故其无法组成动作发生序列。
得到如图所示的两个动作发生序列后,即可确定各动作发生序列所覆盖的时间区间,即,如图所示的运动显著区间。进而按照运动显著区间对目标视频进行分割,可以分割出两个目标片段。
下面对本申请各实施例的具体实施过程分别进行详细描述。
在一实施例中,选取固定视角的视频作为目标视频。
该实施例中,考虑到本申请中的视频分割过程,是建立在相邻图像帧之间的相似度能够用于描述对象动作剧烈程度的基础上的。而当视频的视角不固定时,即使对象没有作出剧烈动作,相邻图像帧之间的相似度也会减小。因此,为了保证分割出的目标片段能够准确展示出目标视频中的对象的显著活跃运动片段,选择固定视角的视频作为目标视频。
在一实施例中,获取视频拍摄设备在拍摄过程中的运动信息。将该视频拍摄设备在静止过程中所拍摄视频作为固定视角的视频。
该实施例中,考虑到视频拍摄设备运动的时候,所拍摄视频的视角通常是不固定的;反之,视频拍摄设备静止的时候,所拍摄视频的视角通常是固定的。因此,获取视频拍摄设备在拍摄过程中的运动信息,从而确定视频拍摄设备在哪一拍摄时间段是静止的,进而将其在静止过程中所拍摄视频作为固定视角的视频,并选取该固定视角的视频作为目标视频,以进行视频分割。
其中,视频拍摄设备在拍摄过程中的运动信息,可以通过设于视频拍摄设备上的运动传感器采集得到,也可以通过对视频拍摄设备所在载体接收到的运动控制指令进行分析得到(例如:视频拍摄设备设于无人机上,通过分析无人机接收到的运动控制指令,可以得到视频拍摄设备在拍摄过程中的运动信息)。
该实施例的优点在于,在通过视频拍摄设备在拍摄过程中的运动信息选取固定视角的视频的过程中,只需通过运动传感器采集数据或者分析运动控制指令即可确定哪一拍摄时间段的视频是固定视角的,十分便捷。
在一实施例中,对接收到的原始视频进行视角检测,根据视角检测结果,将原始视频中的固定视角的视频段作为目标视频。
该实施例中,接收到原始视频之后,对原始视频进行视角检测。视角检测结果主要用于描述原始视频中的视角变化过程。根据视角检测结果,可以确定原始视频中哪一段的视角是没有发生变化,或者哪一段的视角所发生变化小于预设视角偏差阈值,进而将该段视频作为固定视角的视频段,并将该段视频作为目标视频,以进行视频分割。
其中,可以采取参照物位置检测的方式进行视角检测。具体的,预先设置参照物,这些参照物为一般情况下短时间内客观静止或者近乎客观静止的物体,例如大楼、太阳等。接收到原始视频之后,检测出原始视频中包含的参照物,并确定参照物在原始视频各图像帧中的位置。若参照物在某一视频段的图像帧中的位置始终保持一致,或者在某一视频段的图像帧中的位置之间偏差小于预设位置偏差阈值,则确定该视频段的视角没有发生变化,或者该视频的视角所发生变化小于预设视角偏差阈值。
该实施例的优点在于,通过视角检测的方式,即使没有拍摄原始视频的视频拍摄设备的相关信息也可以选取出固定视角的视频段,适用范围广。
在一实施例中,按照预设的帧数间隔,周期性地对目标视频进行抽帧,得到图像帧序列。
该实施例中,每隔预设的帧数间隔(例如:每隔2帧)对目标视频进行抽帧,将抽取出的图像帧按照抽取顺序进行排列合并,得到图像帧序列。
在另一实施例中,也可以采取随机帧数间隔的方式对目标视频进行抽帧,从而得到图像帧序列。
在一实施例中,将图像帧序列中的各图像帧进行向量化处理,得到图像帧序列中的各图像帧对应的图像向量。基于图像帧序列中的各图像帧对应的图像向量,计算图像帧序列中的相邻图像帧之间的向量距离。基于图像帧序列中的相邻图像帧之间的向量距离,获取图像帧序列中的相邻图像帧之间的相似度。
该实施例中,得到图像帧序列中的各图像帧对应的图像向量之后,可以通过计算相邻图像帧之间的图像向量的欧式距离、余弦距离、皮尔逊相关系数(即,协方差与标准差之商)等方式,得到相邻图像帧之间的向量距离。进而可以直接将相邻图像帧之间的向量距离作为相邻图像帧之间的相似度,也可以对相邻图像帧之间的向量距离进行归一化处理后得到相邻图像帧之间的相似度。
在另一实施例中,也可以采取对比相邻图像帧的像素值分布的方式,计算得到相邻图像帧之间的相似度。
在一实施例中,按照动作发生序列所覆盖的时间区间对目标视频进行分割,将分割出的片段直接作为目标片段。
在一实施例中,按照动作发生序列所覆盖的时间区间对目标视频进行分割,得到该时间区间的候选片段。对候选片段进行对象检测,将对象检测结果符合预设条件的候选片段作为目标片段。
该实施例中,得到动作发生序列后,确定各动作发生序列所覆盖的时间区间,进而按照对应的时间区间对目标视频进行分割,得到初步分割出的候选片段。进而对候选片段进行对象检测,确定候选片段中的各图像帧包含的对象,得到对象检测结果。若其中一个候选片段的对象检测结果符合预设条件,则将该候选片段作为目标片段。
在一实施例中,逐帧对候选片段进行对象检测,确定包含有感兴趣对象的图像帧在候选片段所占的比例。将比例大于预设比例阈值的候选片段作为目标片段。
该实施例中,预设条件为包含有感兴趣对象的图像帧所占比例大于预设比例阈值。
分割出候选片段后,针对每一候选片段,逐帧对该候选片段进行对象检测,确定包含有感兴趣对象的图像帧。其中,感兴趣对象主要为预设的特定类型的对象。例如,将猫预设为感兴趣对象。
进而确定包含有感兴趣对象的图像帧数量,并将包含有感兴趣对象的图像帧数量除以该候选片段的图像帧总数,得到包含有感兴趣对象的图像帧在该候选片段所占的比例。若该比例大于预设比例阈值(例如:大于50%),说明该候选片段的对象检测结果符合预设条件,则将该候选片段作为目标片段。
在一实施例中,采用对象检测模型对候选片段进行对象检测。
具体的,可以预先训练得到采取YOLO(You Only Look Once)系列算法进行对象检测的对象检测模型。针对待进行对象检测的候选片段,将候选片段的图像帧逐个取出并输入对象检测模型,根据检测到的对象的概率值,识别出图像帧中包含的各对象,并对识别出的对象进行类别划分。例如,不仅使用矩形框将图像帧中行人、车辆、猫分别框选出来,还确定框选出来的对象是属于行人还是属于车辆还是属于猫。
进一步的,针对识别出的对象,还可以根据对象的概率值,去除概率值低于预设概率值阈值的对象,以减少误检。
在一实施例中,使用预设的滑动窗口在时间区间大于预设时段长度的动作发生序列内滑动,并获取滑动窗口范围内各动作发生帧对应的相似度。基于滑动窗口范围内各动作发生帧对应的相似度,筛选出动作变化最剧烈的滑动窗口。基于动作变化最剧烈的滑动窗口,对目标视频进行分割,得到目标片段。
该实施例中,在合并得到的动作发生序列中,当其中一个动作发生序列所覆盖的时间区间大于预设时段长度时,若直接按照该动作发生序列所覆盖的时间区间对目标视频进行分割,分割出的目标片段将会过长。出于精简目标片段的考虑,使用预设的滑动窗口筛选出该动作发生序列中动作变化最剧烈的部分,从而基于该动作变化最剧烈的部分分割目标视频,从而使得分割出来的目标片段得到精简。
具体的,针对所覆盖的时间区间大于预设时段长度的动作发生序列,使用预设的滑动窗口在该动作序列内滑动。从滑动窗口的初始位置开始,每次滑动窗口发生滑动,获取滑动窗口范围内各动作发生帧对应的相似度。针对各处位置的滑动窗口,基于其范围内各动作发生帧对应的相似度,筛选出动作变化最剧烈的滑动窗口。进而基于动作变化最剧烈的滑动窗口,对目标视频进行分割,得到目标片段。
其中,基于动作变化最剧烈的滑动窗口对目标视频进行分割以得到目标片段时,可以直接将按照动作变化最剧烈的滑动窗口对目标视频进行分割所得到的片段作为目标片段;也可以先将按照动作变化最剧烈的滑动窗口对目标视频进行分割所得到的片段作为候选片段,进而对候选片段进行对象检测,最终将对象检测结果符合预设条件的候选片段作为目标片段。
该实施例的优点在于,通过采取滑动窗口对过长的动作发生序列进行截取筛选,精简了分割出来的目标片段,增大了目标片段所展示显著活跃运动片段的信息浓度。
在一实施例中,将滑动窗口范围内各动作发生帧对应的相似度进行求和,并将求和所得累加值最小的滑动窗口作为动作变化最剧烈的滑动窗口。
在一实施例中,将滑动窗口范围内各动作发生帧对应的相似度进行平均,并将平均所得平均值最小的滑动窗口作为动作变化最剧烈的滑动窗口。
图4示出了本申请一实施例的视频分割实施过程的流程图。
参考图4所示,该实施例中,客户端将固定视角的目标视频或者目标视频的URL(Universal Resource Locator,统一资源定位符)上传到服务器。服务器直接读取目标视频,或者根据URL读取目标视频,进而按照预设的帧数间隔(例如:2帧)周期性地对目标视频进行抽帧,得到图像帧序列。
计算该图像帧序列中所有相邻图像帧之间的相似度。
将所有与前一图像帧之间的相似度小于预设相似度阈值(例如:0.9)的图像帧作为动作发生帧。
合并在图像帧序列中连续的动作发生帧,得到至少一个动作发生序列。
针对所覆盖时间区间不超过预设时段长度(例如:2分钟)的动作发生序列,按照该动作发生序列所覆盖的时间区间对目标视频进行分割,得到对应的候选片段。进而逐帧对该候选片段进行对象检测,检测出包含有感兴趣对象(例如:猫)的图像帧。进而根据对象检测结果对候选片段进行后处理,若包含有感兴趣对象的图像帧在该候选片段所占的比例大于预设比例阈值(例如:50%),则将该候选片段作为目标片段并以URL的方式输出至客户端;反之,则不将该候选片段作为目标片段。
针对所覆盖时间区间大于预设时段长度的动作发生序列,采用预设的滑动窗口(例如:长度1分钟的滑动窗口)在该动作发生序列内滑动,将滑动窗口中各动作发生帧对应的相似度进行求和,进而将所得累加值最小的滑动窗口作为动作变化最剧烈的滑动窗口。进而按照动作变化最剧烈的滑动窗口对目标视频进行分割,得到对应的候选片段。进而逐帧对该候选片段进行对象检测,检测出包含有感兴趣对象的图像帧。进而根据对象检测结果对候选片段进行后处理,若包含有感兴趣对象的图像帧在该候选片段所占的比例大于预设比例阈值,则将该候选片段作为目标片段并以URL的方式输出至客户端;反之,则不将该候选片段作为目标片段。
图5示出了根据本申请一实施例的视频分割装置,所述装置包括:
第一序列获取模块310,配置为获取目标视频中的图像帧序列;
相似度获取模块320,配置为获取所述图像帧序列中的相邻图像帧之间的相似度;
第二序列获取模块330,配置为将与前一图像帧之间的相似度小于预设相似度阈值的图像帧作为动作发生帧,并将在所述图像帧序列中连续的动作发生帧进行合并,得到动作发生序列;
视频分割模块340,配置为基于所述动作发生序列所覆盖的时间区间,对所述目标视频进行分割,得到分割出的目标片段。
在本申请的一示例性实施例中,所述装置配置为:选取固定视角的视频作为所述目标视频。
在本申请的一示例性实施例中,所述装置配置为:对接收到的原始视频进行视角检测,根据视角检测结果,将所述原始视频中的固定视角的视频段作为所述目标视频。
在本申请的一示例性实施例中,所述装置配置为:按照预设的帧数间隔,周期性地对所述目标视频进行抽帧,得到所述图像帧序列。
在本申请的一示例性实施例中,所述装置配置为:
将所述图像帧序列中的各图像帧进行向量化处理,得到所述图像帧序列中的各图像帧对应的图像向量;
基于所述图像帧序列中的各图像帧对应的图像向量,计算所述图像帧序列中的相邻图像帧之间的向量距离;
基于所述图像帧序列中的相邻图像帧之间的向量距离,获取所述图像帧序列中的相邻图像帧之间的相似度。
在本申请的一示例性实施例中,所述装置配置为:
按照所述时间区间对所述目标视频进行分割,得到所述时间区间的候选片段;
对所述候选片段进行对象检测,将对象检测结果符合预设条件的候选片段作为所述目标片段。
在本申请的一示例性实施例中,所述装置配置为:
逐帧对所述候选片段进行对象检测,确定包含有感兴趣对象的图像帧在所述候选片段所占的比例;
将所述比例大于预设比例阈值的候选片段作为所述目标片段。
在本申请的一示例性实施例中,所述装置配置为:
使用预设的滑动窗口在所述时间区间大于预设时段长度的动作发生序列内滑动,并获取滑动窗口范围内各动作发生帧对应的相似度;
基于所述滑动窗口范围内各动作发生帧对应的相似度,筛选出动作变化最剧烈的滑动窗口;
基于所述动作变化最剧烈的滑动窗口,对所述目标视频进行分割,得到所述目标片段。
在本申请的一示例性实施例中,所述装置配置为:
将所述滑动窗口范围内各动作发生帧对应的相似度进行求和,并将求和所得累加值最小的滑动窗口作为所述动作变化最剧烈的滑动窗口。
下面参考图6来描述根据本申请实施例的电子设备40。图6显示的电子设备40仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,电子设备40以通用计算设备的形式表现。电子设备40的组件可以包括但不限于:上述至少一个处理单元410、上述至少一个存储单元420、连接不同***组件(包括存储单元420和处理单元410)的总线430。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元410执行,使得所述处理单元410执行本说明书上述示例性方法的描述部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元410可以执行如图2中所示的各个步骤。
存储单元420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。
存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备40也可以与一个或多个外部设备500(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备40交互的设备通信,和/或与使得该电子设备40能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口450进行。输入/输出(I/O)接口450与显示单元440相连。并且,电子设备40还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器460通过总线430与电子设备40的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备40使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
在本申请的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述方法实施例部分描述的方法。
根据本申请的一个实施例,还提供了一种用于实现上述方法实施例中的方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如JAVA、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由所附的权利要求指出。

Claims (12)

1.一种视频分割方法,其特征在于,所述方法包括:
获取目标视频中的图像帧序列;
获取所述图像帧序列中的相邻图像帧之间的相似度;
将与前一图像帧之间的相似度小于预设相似度阈值的图像帧作为动作发生帧,并将在所述图像帧序列中连续的动作发生帧进行合并,得到动作发生序列;
基于所述动作发生序列所覆盖的时间区间,对所述目标视频进行分割,得到分割出的目标片段。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
选取固定视角的视频作为所述目标视频。
3.根据权利要求1所述的方法,其特征在于,选取固定视角的视频作为所述目标视频,包括:
对接收到的原始视频进行视角检测,根据视角检测结果,将所述原始视频中的固定视角的视频段作为所述目标视频。
4.根据权利要求1所述的方法,其特征在于,获取目标视频中的图像帧序列,包括:
按照预设的帧数间隔,周期性地对所述目标视频进行抽帧,得到所述图像帧序列。
5.根据权利要求1所述的方法,其特征在于,获取所述图像帧序列中的相邻图像帧之间的相似度,包括:
将所述图像帧序列中的各图像帧进行向量化处理,得到所述图像帧序列中的各图像帧对应的图像向量;
基于所述图像帧序列中的各图像帧对应的图像向量,计算所述图像帧序列中的相邻图像帧之间的向量距离;
基于所述图像帧序列中的相邻图像帧之间的向量距离,获取所述图像帧序列中的相邻图像帧之间的相似度。
6.根据权利要求1所述的方法,其特征在于,基于所述动作发生序列所覆盖的时间区间,对所述目标视频进行分割,得到分割出的目标片段,包括:
按照所述时间区间对所述目标视频进行分割,得到所述时间区间的候选片段;
对所述候选片段进行对象检测,将对象检测结果符合预设条件的候选片段作为所述目标片段。
7.根据权利要求6所述的方法,其特征在于,对所述候选片段进行对象检测,将对象检测结果符合预设条件的候选片段作为所述目标片段,包括:
逐帧对所述候选片段进行对象检测,确定包含有感兴趣对象的图像帧在所述候选片段所占的比例;
将所述比例大于预设比例阈值的候选片段作为所述目标片段。
8.根据权利要求1~7任一项所述的方法,其特征在于,基于所述动作发生序列所覆盖的时间区间,对所述目标视频进行分割,得到分割出的目标片段,包括:
使用预设的滑动窗口在所述时间区间大于预设时段长度的动作发生序列内滑动,并获取滑动窗口范围内各动作发生帧对应的相似度;
基于所述滑动窗口范围内各动作发生帧对应的相似度,筛选出动作变化最剧烈的滑动窗口;
基于所述动作变化最剧烈的滑动窗口,对所述目标视频进行分割,得到所述目标片段。
9.根据权利要求8所述的方法,其特征在于,基于所述滑动窗口范围内各动作发生帧对应的相似度,筛选出动作变化最剧烈的滑动窗口,包括:
将所述滑动窗口范围内各动作发生帧对应的相似度进行求和,并将求和所得累加值最小的滑动窗口作为所述动作变化最剧烈的滑动窗口。
10.一种视频分割装置,其特征在于,所述装置包括:
第一序列获取模块,配置为获取目标视频中的图像帧序列;
相似度获取模块,配置为获取所述图像帧序列中的相邻图像帧之间的相似度;
第二序列获取模块,配置为将与前一图像帧之间的相似度小于预设相似度阈值的图像帧作为动作发生帧,并将在所述图像帧序列中连续的动作发生帧进行合并,得到动作发生序列;
视频分割模块,配置为基于所述动作发生序列所覆盖的时间区间,对所述目标视频进行分割,得到分割出的目标片段。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至9任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至9任一项所述的方法。
CN202210062253.6A 2022-01-19 2022-01-19 视频分割方法、装置、电子设备及存储介质 Pending CN114422848A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210062253.6A CN114422848A (zh) 2022-01-19 2022-01-19 视频分割方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210062253.6A CN114422848A (zh) 2022-01-19 2022-01-19 视频分割方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114422848A true CN114422848A (zh) 2022-04-29

Family

ID=81275917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210062253.6A Pending CN114422848A (zh) 2022-01-19 2022-01-19 视频分割方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114422848A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197706A (zh) * 2023-04-23 2023-12-08 青岛尘元科技信息有限公司 渐出渐入镜头的分割方法和***、存储介质及电子设备

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100119152A1 (en) * 2008-11-12 2010-05-13 Arcsoft, Inc. Automatic Determination of Exciting Segments from a Video
CN102629384A (zh) * 2012-02-28 2012-08-08 成都三泰电子实业股份有限公司 视频监控中异常行为的检测方法
CN102724554A (zh) * 2012-07-02 2012-10-10 西南科技大学 一种基于场景分割的视频资源语义水印嵌入方法
CN104063883A (zh) * 2014-07-07 2014-09-24 杭州银江智慧医疗集团有限公司 一种基于对象和关键帧相结合的监控视频摘要生成方法
CN108966004A (zh) * 2018-06-27 2018-12-07 维沃移动通信有限公司 一种视频处理方法及终端
CN110765932A (zh) * 2019-10-22 2020-02-07 北京商海文天科技发展有限公司 一种场景变化感知方法
CN110798735A (zh) * 2019-08-28 2020-02-14 腾讯科技(深圳)有限公司 视频处理方法、装置及电子设备
CN110855904A (zh) * 2019-11-26 2020-02-28 Oppo广东移动通信有限公司 视频处理方法、电子装置和存储介质
CN111464834A (zh) * 2020-04-07 2020-07-28 腾讯科技(深圳)有限公司 一种视频帧处理方法、装置、计算设备及存储介质
CN113112519A (zh) * 2021-04-23 2021-07-13 电子科技大学 基于感兴趣目标分布的关键帧筛选方法
CN113361426A (zh) * 2021-06-11 2021-09-07 爱保科技有限公司 车辆定损图像获取方法、介质、装置和电子设备
CN113573061A (zh) * 2020-04-29 2021-10-29 安徽华米健康科技有限公司 一种视频抽帧方法、装置及设备
CN113569607A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 动作识别方法、装置、设备以及存储介质
CN113591674A (zh) * 2021-07-28 2021-11-02 桂林电子科技大学 一种面向实时视频流的边缘环境行为识别***
CN113810654A (zh) * 2020-06-12 2021-12-17 宇龙计算机通信科技(深圳)有限公司 图像视频的上传方法、装置、存储介质以及电子设备
CN113825012A (zh) * 2021-06-04 2021-12-21 腾讯科技(深圳)有限公司 视频数据处理方法和计算机设备

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100119152A1 (en) * 2008-11-12 2010-05-13 Arcsoft, Inc. Automatic Determination of Exciting Segments from a Video
CN102629384A (zh) * 2012-02-28 2012-08-08 成都三泰电子实业股份有限公司 视频监控中异常行为的检测方法
CN102724554A (zh) * 2012-07-02 2012-10-10 西南科技大学 一种基于场景分割的视频资源语义水印嵌入方法
CN104063883A (zh) * 2014-07-07 2014-09-24 杭州银江智慧医疗集团有限公司 一种基于对象和关键帧相结合的监控视频摘要生成方法
CN108966004A (zh) * 2018-06-27 2018-12-07 维沃移动通信有限公司 一种视频处理方法及终端
CN110798735A (zh) * 2019-08-28 2020-02-14 腾讯科技(深圳)有限公司 视频处理方法、装置及电子设备
CN110765932A (zh) * 2019-10-22 2020-02-07 北京商海文天科技发展有限公司 一种场景变化感知方法
CN110855904A (zh) * 2019-11-26 2020-02-28 Oppo广东移动通信有限公司 视频处理方法、电子装置和存储介质
CN111464834A (zh) * 2020-04-07 2020-07-28 腾讯科技(深圳)有限公司 一种视频帧处理方法、装置、计算设备及存储介质
CN113573061A (zh) * 2020-04-29 2021-10-29 安徽华米健康科技有限公司 一种视频抽帧方法、装置及设备
CN113810654A (zh) * 2020-06-12 2021-12-17 宇龙计算机通信科技(深圳)有限公司 图像视频的上传方法、装置、存储介质以及电子设备
CN113569607A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 动作识别方法、装置、设备以及存储介质
CN113112519A (zh) * 2021-04-23 2021-07-13 电子科技大学 基于感兴趣目标分布的关键帧筛选方法
CN113825012A (zh) * 2021-06-04 2021-12-21 腾讯科技(深圳)有限公司 视频数据处理方法和计算机设备
CN113361426A (zh) * 2021-06-11 2021-09-07 爱保科技有限公司 车辆定损图像获取方法、介质、装置和电子设备
CN113591674A (zh) * 2021-07-28 2021-11-02 桂林电子科技大学 一种面向实时视频流的边缘环境行为识别***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197706A (zh) * 2023-04-23 2023-12-08 青岛尘元科技信息有限公司 渐出渐入镜头的分割方法和***、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN108229280B (zh) 时域动作检测方法和***、电子设备、计算机存储介质
CN112488073A (zh) 目标检测方法、***、设备及存储介质
US11210795B2 (en) Pedestrian flow funnel generation method and apparatus, storage medium and electronic device
CN110555405B (zh) 目标跟踪方法及装置、存储介质和电子设备
CN108229418B (zh) 人体关键点检测方法和装置、电子设备、存储介质和程序
CN109389096B (zh) 检测方法和装置
CN111046956A (zh) 遮挡图像检测方法、装置、电子设备及存储介质
CN110780965B (zh) 基于视觉的流程自动化方法、设备及可读存储介质
CN112183353A (zh) 一种图像数据处理方法、装置和相关设备
CN111209431A (zh) 一种视频搜索方法、装置、设备及介质
US11915500B2 (en) Neural network based scene text recognition
CN111723728A (zh) 基于双向交互网络的行人搜索方法、***、装置
CN111931719B (zh) 高空抛物检测方法以及装置
CN112784835B (zh) 圆形***的真实性识别方法、装置、电子设备及存储介质
CN110941978A (zh) 一种未识别身份人员的人脸聚类方法、装置及存储介质
CN114898416A (zh) 一种人脸识别方法、装置、电子设备及可读存储介质
CN112347296A (zh) 一种基于人脸识别的人员与案件关联分析方法和装置
CN114898266A (zh) 训练方法、图像处理方法、装置、电子设备以及存储介质
CN114422848A (zh) 视频分割方法、装置、电子设备及存储介质
CN117671440A (zh) 一种异常人像档案的检测方法及其***
KR102230559B1 (ko) 데이터 프로그래밍에 기반한 레이블링 모델 생성 방법 및 장치
CN112348011A (zh) 一种车辆定损方法、装置及存储介质
CN113869163B (zh) 目标跟踪方法、装置、电子设备及存储介质
CN115393755A (zh) 视觉目标跟踪方法、装置、设备以及存储介质
CN115311680A (zh) 人体图像质量检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220429