CN114363720A

CN114363720A - 一种基于计算机视觉的视频切片方法、***、设备及介质

Info

Publication number: CN114363720A
Application number: CN202111492456.0A
Authority: CN
Inventors: 郝禄国; 曾文彬; 罗杰强; 李泽伟; 杨琳; 葛海玉
Original assignee: Guangzhou Hison Computer Technology Co ltd
Current assignee: Guangzhou Hison Computer Technology Co ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-04-15
Anticipated expiration: 2041-12-08
Also published as: CN114363720B

Abstract

本发明公开了一种基于计算机视觉的视频切片方法、***、设备及介质，方法包括：本发明实施例对待切片视频进行解码并输出视频帧图片；对所述视频帧图片进行手部关键点提取处理，确定手部关键点时间序列流；通过滑动窗口对所述手部关键点时间序列流进行手部动作匹配，确定手部行为信息；对所述视频帧图片进行目标检测，确定节点三元组；根据所述手部行为信息对所述节点距离进行位置检测，确定行为三元组；根据所述行为三元组中的动作起止时间戳对所述待切片视频进行剪辑，确定视频切片；能够通过手部与物体的交互行为确定切片的起止时间戳，实现自动化视频切片，提高了视频切片的效率，可广泛应用于视频切片技术领域。

Description

一种基于计算机视觉的视频切片方法、***、设备及介质

技术领域

本发明涉及视频切片技术领域，尤其是一种基于计算机视觉的视频切片方法、***、设备及介质。

背景技术

随着视频技术的成熟，应用于视频的视频切片技术也在不断发展。视频切片技术，是指从一段长视频中截取有价值的、精彩的、重点关注的时间段。现有的视频切片技术根据不同的应用场景分为手动视频切片和自动视频切片。其中，手动视频切片为编辑者对视频采用视频编辑软件进行后期剪切，自动视频切片为视频录制过程中实时打点数据信息进行自动剪切，但自动视频切片仅限于游戏录制等能实时获取过程数据的应用场景。而对于实操类的技能考核，通过摄像机拍摄视频，事后通过人工观看实操考试过程进行打分，但是这种做法比较浪费时间。而现有技术中自动视频切片技术需要实时打点数据，并不适用于技能考核打分场景。

发明内容

有鉴于此，本发明实施例提供一种高效率的基于计算机视觉的视频切片方法、***、设备及介质，以实现自动对视频进行切片。

一方面，本发明提供了一种基于计算机视觉的视频切片方法，包括：

对待切片视频进行解码并输出视频帧图片；

对所述视频帧图片进行手部关键点提取处理，确定手部关键点时间序列流；

通过滑动窗口对所述手部关键点时间序列流进行手部动作匹配，确定手部行为信息，所述手部行为信息包括手部动作类型和动作起止时间戳；

对所述视频帧图片进行目标检测，确定节点三元组，所述节点三元组包括手部节点、物体节点和所述手部节点和所述物体节点的节点距离；

根据所述手部行为信息对所述节点距离进行位置检测，确定行为三元组，所述行为三元组包括手部节点、物体节点和手部行为信息；

根据所述行为三元组中的动作起止时间戳对所述待切片视频进行剪辑，确定视频切片。

可选地，所述对所述视频帧图片进行手部关键点提取处理，确定手部关键点时间序列流，包括：

通过手部识别算法对所述视频帧图片进行手部识别，检测所述视频帧图片是否含有手部目标；

当检测到所述视频帧图片含有手部目标时，对所述视频帧图片进行关键点提取，确定手部关键点；

根据所述视频帧图片的时间戳结合所述手部关键点，确定手部关键点时间序列流。

可选地，所述通过滑动窗口对所述手部关键点时间序列流进行手部动作匹配，确定手部行为信息，包括：

通过滑动窗口对所述手部关键点时间序列进行组合，确定时间窗口，所述时间窗口用于表征多帧连续的视频帧图片的手部关键点数据；

通过动作识别算法对所述时间窗口进行手部动作匹配，确定手部行为信息。

可选地，所述对所述视频帧图片进行目标检测，确定节点三元组，包括：

通过目标检测算法对所述视频帧图片中的手部和物体进行目标检测，确定手部节点和物体节点，所述手部节点用于表征手部坐标，所述物体节点用于表征物体名称和物体坐标；

对所述手部节点和所述物体节点进行距离计算，确定节点距离；

将所述手部节点、物体节点和所述节点距离组合为节点三元组。

可选地，所述根据所述手部行为信息对所述节点距离进行位置检测，确定行为三元组，包括：

根据所述手部行为信息中的手部动作类型确定物体与手部的距离；

根据所述物体与手部的距离对所述节点距离进行位置检测，当所述节点距离检测正确时，将所述手部行为信息、手部节点和物体节点确定为行为三元组。

可选地，所述根据所述行为三元组中的动作起止时间戳对所述待切片视频进行剪辑，确定视频切片，包括：

根据所述行为三元组确定切片视频文件名信息；

根据所述行为三元组中的动作起止时间戳对所述待切片视频进行切片，并根据所述切片视频文件名信息对切片视频进行命名，确定视频切片。

可选地，所述通过动作识别算法对所述时间窗口进行手部动作匹配，确定手部行为信息，包括：

获取手部动作模型，所述手部动作模型通过动作识别算法对预设手部动作进行识别训练得到；

通过动作识别算法对所述时间窗口的手部关键点与所述手部动作模型进行匹配，确定手部行为信息。

另一方面，本发明实施例还公开了一种基于计算机视觉的视频切片***，包括：

第一模块，用于对待切片视频进行解码并输出视频帧图片；

第二模块，用于对所述视频帧图片进行手部关键点提取处理，确定手部关键点时间序列流；

第三模块，用于通过滑动窗口对所述手部关键点时间序列流进行手部动作匹配，确定手部行为信息，所述手部行为信息包括手部动作类型和动作起止时间戳；

第四模块，用于对所述视频帧图片进行目标检测，确定节点三元组，所述节点三元组包括手部节点、物体节点和所述手部节点和所述物体节点的节点距离；

第五模块，用于根据所述手部行为信息对所述节点距离进行位置检测，确定行为三元组，所述行为三元组包括手部节点、物体节点和手部行为信息；

第六模块，用于根据所述行为三元组中的动作起止时间戳对所述待切片视频进行剪辑，确定视频切片。

另一方面，本发明实施例还公开了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

另一方面，本发明实施例还公开了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

另一方面，本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明实施例对待切片视频进行解码并输出视频帧图片；对所述视频帧图片进行手部关键点提取处理，确定手部关键点时间序列流；通过滑动窗口对所述手部关键点时间序列流进行手部动作匹配，确定手部行为信息，所述手部行为信息包括手部动作类型和动作起止时间戳；对所述视频帧图片进行目标检测，确定节点三元组，所述节点三元组包括手部节点、物体节点和所述手部节点和所述物体节点的节点距离；根据所述手部行为信息对所述节点距离进行位置检测，确定行为三元组，所述行为三元组包括手部节点、物体节点和手部行为信息；根据所述行为三元组中的动作起止时间戳对所述待切片视频进行剪辑，确定视频切片；能够通过手部与物体的交互行为确定切片的起止时间戳，实现自动化视频切片，提高了视频切片的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种基于计算机视觉的视频切片方法流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

对于实操类的技能考核应用场景，通过摄像机现场拍摄把视频保存下来，事后再通过观看实操考试过程视频进行打分，但是这种方法需要观看完整的视频过程，耗费大量的时间。为了节省时间，需要计算机自动完成实验考核关键步骤的有效视频切片。本发明基于实验技能考核应用场景，通过对关键动作的起始和结束时间点的触发条件进行动作识别，对视频进行自动切片。

参照图1，本发明实施例提供一种基于计算机视觉的视频切片方法，包括：

对待切片视频进行解码并输出视频帧图片；

其中，本发明实施例获取待切片视频，对待切片文件进行解码并连续输出视频帧图片。提取每张视频帧图片中的手部关键点并结合视频帧图片的时间戳，生成手部关键点时间序列流。通过滑动窗口对手部关键点时间序列流进行组合并进行手部动作匹配，得到手部行为信息，手部行为信息用于表征通过手部动作匹配得到的手部动作类型，并根据手部关键点时间序列流确定手部动作的开始时间戳和手部动作的结束时间戳。另外，对每张视频帧图片进行目标检测，检测视频帧图片中的手部和其他物体，得到节点三元组，节点三元组包括手部节点、物体节点和手部节点和物体节点之间的节点距离。根据手部行为信息中的手部动作类型对节点距离进行位置检测，对位置符合的节点三元组进行更新，将手部行为信息替换节点距离，生成行为三元组。根据行为三元组中储存的动作起止时间戳对待切片视频进行剪切，生成关键动作的视频切片。

进一步作为优选的实施方式，所述对所述视频帧图片进行手部关键点提取处理，确定手部关键点时间序列流，包括：

其中，本发明实施例通过手部识别算法对视频帧图片进行手部识别，筛选画面中出现手部的视频帧图片，对含有手部目标的视频帧图片进行关键点提取，提取得到视频帧图片的手部关键点。根据视频帧图片的时间戳对手部关键点进行记录，得到手部关键点时间序列流。本发明实施例通过对手部关键点识别，并结合视频帧图片的时间戳形成手部关键点时间序列流，能够根据手部关键点时间序列流进行手部动作识别，确定关键动作的起止时间，根据起止时间对视频进行自动视频切片。

进一步作为优选的实施方式，所述通过滑动窗口对所述手部关键点时间序列流进行手部动作匹配，确定手部行为信息，包括：

其中，本发明实施例设置大小可变的滑动窗口，对手部关键点时间序列进行组合，得到多个时间窗口，时间窗口包含有多帧连续的视频帧图片的手部关键点数据，并将时间窗口保存在缓存区。通过动作识别算法对时间窗口进行手部动作匹配，检测每个时刻是否有待识别手部动作的手部关键点数据，若匹配成功则输出手部行为信息，手部行为信息包括手部动作的类型和手部动作的起止时间戳信息。

进一步作为优选的实施方式，所述对所述视频帧图片进行目标检测，确定节点三元组，包括：

其中，通过目标检测算法对视频帧图片进行目标检测，对视频帧图片中的手部和其他物体进行识别，得到手部节点和物体节点，手部节点包含手部坐标信息，物体节点包含物体名称和物体坐标信息。根据手部坐标信息和物体坐标信息计算得到手部节点和物体节点之间的节点距离。将手部节点、物体节点和节点距离组合为节点三元组。

进一步作为优选的实施方式，所述根据所述手部行为信息对所述节点距离进行位置检测，确定行为三元组，包括：

其中，手部行为信息包括手部动作类型，根据不同的手部动作类型确定不同的物体与手部的距离，如手部动作类型为点击、抓取等，不同的手部动作类型使得不同的手部关键点或手部与物体的距离不同，可根据实际应用场景设置相应的距离阈值进行距离判断。根据物体与手部的距离对节点三元组中的节点距离进行判断，若节点距离符合根据实际应用场景设置的预设条件时，将手部行为信息和节点三元组中的手部节点和物体节点确定为行为三元组。

进一步作为优选的实施方式，所述根据所述行为三元组中的动作起止时间戳对所述待切片视频进行剪辑，确定视频切片，包括：

根据所述行为三元组确定切片视频文件名信息；

其中，根据行为三元组中物体节点的名称和动作类型确定切片视频文件名信息，并通过行为三元组中手部行为信息中的动作起止时间戳对待切片视频进切片，根据切片视频文件名信息对切片视频进行命名，得到视频切片。

进一步作为优选的实施方式，所述通过动作识别算法对所述时间窗口进行手部动作匹配，确定手部行为信息，包括：

其中，根据不同的应用场景生成不同的手部动作模板，根据手部动作模板通过动作识别算法训练得到手部动作模型。通过动作识别算法对时间窗口中的手部关键点序列流进行动作识别，与手部动作模型进行匹配，匹配成功则得到手部行为信息，手部行为信息包括手部动作类型和手部动作起止时间戳。

结合附图1。本发明的流程具体包括：对待切片视频进行解码并输出连续的多帧视频帧图片，一方面对视频帧图片进行手部关键点提取得到带有时间戳的手部关键点时间序列流，根据滑动窗口对手部关键点时间序列流进行手部动作匹配处理，得到手部动作类型和动作起止时间戳。另一方面对视频帧图片进行目标检测，得到手部坐标信息和物体坐标信息，根据手部与物体的距离形成节点三元组。根据不同的应用场景确定不同的距离，对节点三元组中的节点距离进行判断，若符合条件则更新节点三元组为带有手部行为信息的行为三元组。根据行为三元组中的起止时间戳对视频进行切分处理，得到切分视频。本发明实施例通过计算机视觉技术来检测手与物交互的行为方法，进而获得切片视频的起止时间戳信息，完成自动视频切片的功能。

本发明实施例还提供了一种基于计算机视觉的视频切片***，包括：

第一模块，用于对待切片视频进行解码并输出视频帧图片；

与图1的方法相对应，本发明实施例还提供了一种电子设备，包括处理器以及存储器；所述存储器用于存储程序；所述处理器执行所述程序实现如前面所述的方法。

与图1的方法相对应，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

综上所述，本发明实施例具有以下优点：

(1)本发明实施例通过计算机视觉技术识别手与物交互的特定行为，获得特定行为的切片开始和结束时间戳信息，能够对视频进行切片。

(2)本发明实施例利用手部关键点的时间序列分析手部行为，能够简化手部行为分析的复杂度。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-On ly Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于计算机视觉的视频切片方法，其特征在于，包括：

对待切片视频进行解码并输出视频帧图片；

2.根据权利要求1所述的一种基于计算机视觉的视频切片方法，其特征在于，所述对所述视频帧图片进行手部关键点提取处理，确定手部关键点时间序列流，包括：

3.根据权利要求1所述的一种基于计算机视觉的视频切片方法，其特征在于，所述通过滑动窗口对所述手部关键点时间序列流进行手部动作匹配，确定手部行为信息，包括：

4.根据权利要求1所述的一种基于计算机视觉的视频切片方法，其特征在于，所述对所述视频帧图片进行目标检测，确定节点三元组，包括：

5.根据权利要求1所述的一种基于计算机视觉的视频切片方法，其特征在于，所述根据所述手部行为信息对所述节点距离进行位置检测，确定行为三元组，包括：

6.根据权利要求1所述的一种基于计算机视觉的视频切片方法，其特征在于，所述根据所述行为三元组中的动作起止时间戳对所述待切片视频进行剪辑，确定视频切片，包括：

根据所述行为三元组确定切片视频文件名信息；

7.根据权利要求3所述的一种基于计算机视觉的视频切片方法，其特征在于，所述通过动作识别算法对所述时间窗口进行手部动作匹配，确定手部行为信息，包括：

8.一种基于计算机视觉的视频切片***，其特征在于，包括：

第一模块，用于对待切片视频进行解码并输出视频帧图片；

9.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。