CN113810751A - 视频处理方法及设备、电子设备及服务器 - Google Patents

视频处理方法及设备、电子设备及服务器 Download PDF

Info

Publication number
CN113810751A
CN113810751A CN202010537094.1A CN202010537094A CN113810751A CN 113810751 A CN113810751 A CN 113810751A CN 202010537094 A CN202010537094 A CN 202010537094A CN 113810751 A CN113810751 A CN 113810751A
Authority
CN
China
Prior art keywords
target
video
window
time
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010537094.1A
Other languages
English (en)
Other versions
CN113810751B (zh
Inventor
张士伟
夏朱荣
耿致远
唐铭谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Academy Beijing Technology Co ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010537094.1A priority Critical patent/CN113810751B/zh
Publication of CN113810751A publication Critical patent/CN113810751A/zh
Application granted granted Critical
Publication of CN113810751B publication Critical patent/CN113810751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明实施例提供一种视频处理方法及设备、电子设备及服务器,该方法包括:检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间;对所述第一起始时间进行时间修正处理,获得目标起始时间;基于所述目标起始时间,获取目标视频片段。本发明实施例提高了。

Description

视频处理方法及设备、电子设备及服务器
技术领域
本发明涉及电子设备技术领域,尤其涉及一种视频处理方法及设备、电子设备及服务器。
背景技术
随着多媒体技术的快速发展,各种类型的视频出现爆发式增长。快速增长的视频使得人们从海量视频中获取关注的内容的难度增加。为了提高视频的信息传输效率,从视频中提取关键内容的视频片段是一种较为常用的技术手段。
现有技术中,为了从视频中提取关键内容的视频片段,需要用户从时长较长的视频中确定视频中关键内容对应的视频片段,基于该视频片段的起始时间以及终止时间,起始时间以及终止时间为视频的时间轴上的点。之后,再采用手动剪辑方式,从长视频中剪辑获得该视频片段。例如,在一个足球比赛的视频中,人们较为关注足球射门的片段,用户通常可以通过人工识别方式确定足球射门的视频片段,并获得足球射门的视频片段。
但是,采用人工识别关键内容的视频片段,再进行视频剪辑的方式需要消耗大量人工,视频片段的获取效率较低。
发明内容
有鉴于此,本发明实施例提供一种视频处理方法及设备、电子设备及服务器,用以解决现有技术中人工识别关键内容所在起始时间以及终止时间以进行视频剪辑导致的剪辑效率较低的技术问题。
第一方面,本发明实施例提供一种视频处理方法,包括:
检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间;
对所述第一起始时间进行时间修正处理,获得目标起始时间;
基于所述目标起始时间,获取目标视频片段。
第二方面,本发明实施例提供一种视频处理方法,包括:
检测用户输入的目标视频以及目标内容;
检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间;
对所述第一起始时间进行时间修正处理,获得目标起始时间;
基于所述目标起始时间,获取目标视频片段;
为所述用户输出所述目标视频片段。
第三方面,本发明实施例提供一种视频处理方法,包括:
接收电子设备发送的目标视频以及目标内容;其中,所述目标视频以及所述目标内容为所述电子设备检测用户输入获得的;
检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间;
对所述第一起始时间进行时间修正处理,获得目标起始时间;
基于所述目标起始时间,获取目标视频片段;
发送所述目标视频片段至所述电子设备,以供所述电子设备为所述用户输出所述目标视频片段。
第四方面,本发明实施例提供一种视频处理设备,包括:存储组件以及处理组件;其中,所述存储组件用于存储一条或多条计算机指令;所述一条或多条计算机指令被所述处理组件调用执行;
所述处理组件用于:
检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间;对所述第一起始时间进行时间修正处理,获得目标起始时间;基于所述目标起始时间,获取目标视频片段。
第五方面,本发明实施例提供一种电子设备,包括:存储组件以及处理组件;其中,所述存储组件用于存储一条或多条计算机指令;所述一条或多条计算机指令被所述处理组件调用执行;
所述处理组件用于:
获取用户输入的目标视频以及目标内容;检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间;对所述第一起始时间进行时间修正处理,获得目标起始时间;基于所述目标起始时间,获取目标视频片段;为所述用户输出所述目标视频片段。
第六方面,本发明实施例提供一种服务器,其特征在于,包括:存储组件以及处理组件;其中,所述存储组件用于存储一条或多条计算机指令;所述一条或多条计算机指令被所述处理组件调用执行;
所述处理组件用于:
接收电子设备发送的目标视频以及目标内容;其中,所述目标视频以及所述目标内容为所述电子设备检测用户输入获得的;检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间;对所述第一起始时间进行时间修正处理,获得目标起始时间;基于所述目标起始时间,获取目标视频片段;发送所述目标视频片段至所述电子设备,以供所述电子设备为所述用户输出所述目标视频片段。
本发明实施例,检测目标视频中存在目标内容的第一视频片段,该第一视频片段可以对应第一起始时间,可以对该第一起始时间进行时间修正处理,以获得目标起始时间,从而可以根据目标起始时间,获得的目标视频片段。通过先简单识别存在目标内容的第一视频片段,再对第一视频片段的第一起始时间进行时间修正,以获得准确包含目标内容的目标起始时间,从而可以根据该目标起始时间,获得准确的目标视频片段。通过自动检测存在目标内容的视频片段以进行时间修正的方式,自动完成目标视频中存在目标内容的视频片段的自动剪辑,实现自动剪辑,提高剪辑效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种视频处理方法的一个实施例的流程图;
图2为本发明实施例提供的一种视频处理方法的又一个实施例的流程图;
图3为本发明实施例提供的一种视频处理方法的又一个实施例的流程图;
图4为本发明实施例提供的一种视频处理方法的又一个实施例的流程图;
图5为本发明实施例提供的一种视频处理方法的又一个实施例的流程图;
图6为本发明实施例提供的一种视频处理方法的又一个实施例的流程图;
图7a~图7b为本发明实施例提供的一种视频处理方法的一个示例图;
图8为本发明实施例提供的一种视频处理方法的又一个示例图;
图9为本发明实施例提供的一种视频处理设备的一个实施例的结构示意图;
图10为本发明实施例提供的一种电子设备的一个实施例的结构示意图;
图11为本发明实施例提供的一种服务器的一个实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地,取决于语境,短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者***中还存在另外的相同要素。
本申请实施例的技术方案可以应用于视频自动剪辑场景中,通过对目标视频中存在目标内容的视频片段进行自动获取并提取,以完成视频的自动剪辑,提高目标内容的视频片段的剪辑效率。
现有技术中,为了从视频中提取关键内容的视频片段,需要用户从视频时长较长的一个完整的视频中识别关键内容对应的视频片段,并记录视频片段在视频的时间轴上的起始时间以及终止时间,以从完整的视频中剪辑起始时间以及终止时间对应的视频片段。例如,将整个视频输入至视频剪辑软件,并输入剪辑的起始时间以及终止时间,视频剪辑软件即可以完成视频片段的剪辑。但是这种剪辑方式,需要人工识别视频片段的起始时间以及终止时间,并采用手动剪辑方式进行剪辑,剪辑效率较低。
本申请实施例中,检测目标视频中存在目标内容的第一视频片段,该第一视频片段可以对应第一起始时间,可以对该第一起始时间进行时间修正处理,以获得目标起始时间,从而可以根据该目标起始时间,获得目标视频中的目标视频片段。通过先简单识别存在目标内容的第一视频片段,再对第一视频片段进行时间修正,以获得准确包含目标内容的目标起始时间,从而可以根据该目标起始时间,获得准确的目标视频片段。通过自动检测存在目标内容的视频片段以进行时间修正的方式,自动完成目标视频中存在目标内容的视频片段的自动剪辑,实现自动剪辑,提高剪辑效率。
下面将结合附图对本申请实施例进行详细描述。
如图1所示,为本申请实施例提供的一种视频处理方法的一个实施例的流程图,所述方法可以包括以下几个步骤:
101:检测目标视频中存在目标内容的第一视频片段。
其中,第一视频片段对应有第一起始时间。
目标内容为用户需要的关键内容。目标内容可以由用户指定。
视频片段是否存在目标内容可以通过将目标内容输入内容识别模型,并利用内容识别模型检测视频片段中存在目标内容的概率来判断。通过获取视频片段中存在目标内容的概率,通过概率是否满足预设阈值来确认该视频片段是否为存在目标内容。
内容识别模型可以为深度神经网络模型,可以预先训练获得。例如,可以获取多个训练视频片段,每个训练视频片段对应有标签数据,该标签数据即为训练视频片段存在目标内容的概率,每个训练视频片段的标签数据可以进行手动或自动标识;构建深度神经网络的内容识别模型;从而可以利用多个训练数据以及多个训练数据分别对应的标签数据,训练内容识别模型,以获得内容识别模型的模型参数。内容识别模型的具体的训练过程与现有技术相同,在此不再赘述。
可选地,在一些实施例中,可以将目标视频按照预定划分时长划分为多个备选视频片段,该多个备选视频片段按照时序组合可以形成该目标视频。之后可以将多个备选视频片段输入内容识别模型,以获得多个备选视频片段存在目标内容的备选概率,如果备选概率大于预设目标概率阈值,可以确认该备选概率对应备选视频片段为第一视频片段,以获得第一视频片段。
本申请实施例中,第一视频片段可以包括多个,可以对任一个第一视频片段均执行图1所示的视频处理方法,以获得相应的目标视频片段。
102:对第一起始时间进行时间修正处理,获得目标起始时间。
第一视频片段是目标视频基于划分或者多个窗口片段组合获得的,是对目标视频中存在目标内容的视频片段的简单获取,第一视频片段的精度较差,需要对第一视频片段的第一起始时间进行时间修正处理,以获得更精确的目标起始时间。
在一些实施例中,为了获得更精确的目标视频片段,可以对第一视频片段进行识别条件判断,以筛选更符合准确存在目标内容的第一视频片段之后,再对满足识别条件的第一视频片段的第一起始时间进行时间修正处理,以获得更准确的目标起始时间。
103:基于目标起始时间,获取目标视频片段。
可选地,基于目标起始时间,获取目标视频片段具体可以先确定目标起始时间对应的目标终止时间。之后,可以确定目标起始时间为目标视频的时间轴上的片段起始点,以及该目标起始时间对应的目标终止时间为目标视频的时间轴上的一个片段终止点,该片段起始点以及该片段终止点之间的视频片段即为目标视频片段。
在一种可能的设计中,可以预先设置目标视频片段的片段时长,目标起始时间对应的目标终止时间可以根据该目标起始时间与片段时长的加和计算获得。
在又一种可能的设计中,目标起始时间对应的目标终止时间可以基于第一视频片段对应的第一终止时间确定。可以对第一视频片段的第一终止时间进行时间修正处理,以获得该第一视频片段的目标起始时间对应的目标终止时间。
本申请实施例所提供的视频处理方法可以应用于电子设备或者与电子设备对应的服务器中。该电子设备例如可以包括:手机、笔记本、平板电脑、个人计算机、可穿戴设备、带有屏幕的智能音箱、超级计算机等,本申请实施例对电子设备的具体类型不作过多限定。与电子设备对应的服务器可以基于有线或无线等通信连接方式实现与电子设备的通信,该服务器具体可以包括:计算机、超级笔记本等普通服务器或者云服务器,本申请实施例对服务器的具体类型不作过多限定。
当本申请所提供的技术方案应用于电子设备时,目标视频可以是电子设备采集的。当本申请所提供的技术方案应用于与电子设备对应的服务器时,目标视频可以由电子设备提供至服务器的。
本申请实施例中,检测目标视频中存在目标内容的第一视频片段,该第一视频片段可以对应第一起始时间,可以对该第一起始时间进行时间修正处理,以获得目标起始时间,从而可以根据该目标起始时间,获得目标视频中的目标视频片段。通过先简单识别存在目标内容的第一视频片段,再对第一视频片段进行时间修正,以获得准确包含目标内容的目标起始时间,从而可以根据该目标起始时间,获得准确的目标视频片段。通过自动检测存在目标内容的视频片段以进行时间修正的方式,自动完成目标视频中存在目标内容的视频片段的自动剪辑,实现自动剪辑,提高剪辑效率。
基于预设目标视频片段的片段时长的方式获取的目标视频片段不够准确,第一视频片段还对应有第一终止时间,所述第一视频片段的第一起始时间以及第一终止时间相对应。可以采用更精确的调整方式获取目标起始时间对应的目标终止时间。
如图2所示,为本申请实施例提供的一种视频处理方法的又一个实施例的流程图,该方法可以包括以下几个步骤:
201:检测目标视频中存在目标内容的第一视频片段。
其中,第一视频片段对应有第一起始时间以及第一终止时间。
202:对第一视频片段分别对应的第一起始时间以及第一终止时间进行时间修正处理,获得目标起始时间,以及目标起始时间分别对应的目标终止时间。
203:基于目标起始时间以及目标起始时间对应的目标终止时间,获取目标视频片段。
本申请实施例中,在检测目标视频中存在目标内容的第一视频片段之后,可以对该第一视频片段对应的第一起始时间进行时间修正以及第一终止时间进行时间修正,以获得每个第一视频片段的目标起始时间以及目标终止时间,实现对第一视频片段的准确修正,获得精确的目标视频片段。通过检测第一视频片段以及对第一视频片段的时间修正,实现目标视频片段的自动化获取,提高目标视频片段的获取效率。
作为一个实施例,第一视频片段可以包括多个,对第一视频片段对应的第一起始时间以及第一终止时间进行时间修正处理,获得目标起始时间,以及目标起始时间对应的目标终止时间可以包括:
对满足第一识别条件的第一视频片段的第一起始时间以及第一终止时间进行时间调整处理,获得第二起始时间以及第二起始时间对应的第二终止时间;
基于第二起始时间以及第二起始时间分别对应的第二终止时间,获取第二视频片段;其中,第二视频片段包括多个。
对满足第二识别条件的第二视频片段的第二起始时间以及第二终止时间进行时间修正处理,获得目标起始时间以及目标起始时间对应的目标终止时间。
可选地,由于第一识别条件对多个第一视频片段进行了识别选择,此时相较于不满足第一识别条件的第一视频片段,满足第一识别条件的第一视频片段为存在目标内容的可能性更高的视频片段,与该第一视频片段相邻的一小段视频片段中存在目标内容的可能性也较高,因此,对满足第一识别条件的第一视频片段的第一起始时间以及第一终止时间进行时间调整处理时,可以对该第一视频片段进行片段延长,以使得目标视频片段包含更完整的目标内容。
对满足第一识别条件的第一视频片段的第一起始时间以及第一终止时间进行时间调整处理,获得多个第二起始时间以及多个第二起始时间分别对应的第二终止时间。具体可以对第一视频片段的第一起始时间按照时间轴减少预设时长,以及第一终止时间按照时间轴增加预设时长,获得第二起始时间以及该第二起始时间对应的第二终止时间。例如,当第一视频片段的第一起始时间为10秒,第一终止时间为20秒时,预设时长为5秒,可以将第一起始时间减去5秒,获得的5秒为第二起始时间,第一起始时间增加5秒,获得的25秒为第二终止时间。
在一些实施例中,第一起始时间减去第二起始时间的差值为预设时长,第二终止时间减去第一终止时间的差值为预设时长。预设时长可以为正数也可以为负数。预设时长的大小可以根据实际需求而设置。例如,当检测第一视频片段的前N帧图像帧以及后N帧图像帧均包含目标内容时,预设时长可以为正数,也即减少第一起始时间的值,增大第一终止时间的值,获得时间更长的视频片段。当检测第一视频片段的前N帧图像帧以及后N帧图像帧均不包含目标内容时,预设时长可以为负数,也即增大第一起始时间的值,减小第一终止时间的值,获得时长更短的视频片段。N为大于1的正整数。在后续的第二起始时间以及第二终止时间的时间调整处理以及第三起始时间以及第三终止时间的时间调整处理均可以采用该方式来确定预设时长的值。
本申请实施例中,在对第一视频片段进行时间修正处理时,可以先对满足第一识别条件的第一视频片段进行时间调整,以获得第二视频片段,之后可以对第二视频片段进行时间修正处理,获得目标视频片段。通过对满足第一识别条件的第一视频片段进行时间调整处理,可以获取第一次筛选出的多个第二视频片段,通过对满足视频片段的时间进行多次调整,可以获得多次精确处理的目标视频片段。通过对满足识别条件的视频片段的提取可以提高目标视频片段的获取效率以及准确性。
为了获得更准确的目标视频片段,在对第一视频片段进行识别选择以及时间调整的基础上,可以再执行多次识别选择以及时间调整,以提高获得的目标视频片段的精度。因此,作为又一个实施例,对满足第二识别条件的第二视频片段的第二起始时间以及第二终止时间进行时间修正处理,获得目标起始时间以及目标起始时间分别对应的目标终止时间可以包括:
对满足第二识别条件的第二视频片段的第二起始时间以及第二终止时间进行时间调整处理,获得第三起始时间以及第三起始时间对应的第三终止时间;
基于第三起始时间以及第三起始时间对应的第三终止时间,获得第三视频片段;
对满足第三识别条件的第三视频片段的第三起始时间以及第三终止时间进行时间调整处理,获得目标起始时间以及目标起始时间分别对应的目标终止时间。
本申请实施例中,对满足第二识别条件的第二视频片段的第二起始时间以及第二终止时间进行时间调整处理,以及对满足第三识别条件的第三起始时间以及第三终止时间进行时间调整处理时,采用的时间调整方法与对满足第一识别条件的第一视频片段的第一起始时间以及第一终止时间进行时间调整处理时采用的时间调整方法相同,有关该方法的调整原理以及步骤,已在前述实施例中详细描述,在此不再赘述。但是,在实际调整时,三者可以采用不同的预设时长,每次识别条件片段之后,可以选取更小的预设时长,以确保调整精度。例如,第一起始时间以及第一终止时间对应的第一预设时长可以为5秒,第二起始时间以及第二终止时间对应的第二预设时长可以为3秒,第三起始时间以及第三终止时间对应的第三预设时长可以为2秒。
本申请实施例中,对满足第二识别条件的第二视频片段的第二起始时间以及第二终止时间进行时间调整处理,可以获得第三视频片段,第三视频片段可以是相较于第二视频片段对目标内容包含的可能性更高的视频片段。在对满足第三识别条件的第三视频片段再次进行时间调整处理,可以对第三视频片段进行更准确的识别,以提高获得的目标视频片段的准确度。
作为一种可能的实现方式,对满足第一识别条件的第一视频片段的第一起始时间以及第一终止时间进行时间调整处理,获得第二起始时间以及第二起始时间分别对应的第二终止时间之前,方法还包括:
选取多个第一视频片段中满足第一识别条件的第一视频片段。
选取多个第一视频片段中满足第一识别条件的第一视频片段可以采用对多个第一视频片段进行第一关键信息提取的方式进行条件选项。第一识别条件可以包括:包含目标内容对应的第一目标信息;从而根据多个第一视频片段分别对应的第一关键信息,选取多个第一视频片段中包含第一目标信息的第一视频片段。第一关键信息例如可以包括:人脸信息、声纹信息、场景信息或者动作信息等。
作为又一种可能的实现方式,对满足第二识别条件的第二视频片段的第二起始时间以及第二终止时间进行时间调整处理,获得第三起始时间以及第三起始时间分别对应的第三终止时间之前,方法还可以包括:
选取多个第二视频片段中满足第二识别条件的第二视频片段。
选取多个第二视频片段中满足第二识别条件的第二视频片段可以采用对多个第二视频片段进行第二关键信息提取的方式进行识别条件的选择。第二识别条件可以包括:包含目标内容对应的第二目标信息;从而根据多个第二视频片段分别对应的第二关键信息,选取多个第二视频片段中包含第二目标信息的第二视频片段。第二关键信息例如可以包括:人脸信息、声纹信息、场景信息或者动作信息等。
作为又一种可能的实现方式,对满足第三识别条件的第三视频片段的第三起始时间以及第三终止时间进行时间调整处理,获得目标起始时间以及目标起始时间分别对应的目标终止时间之前,方法还可以包括:
选取多个第三视频片段中满足第三识别条件的第三视频片段。
选取多个第三视频片段中满足第三识别条件的第三视频片段可以采用对多个第三视频片段进行关键信息提取的方式进行识别条件的选择。第三识别条件可以包括:包含目标内容对应的第三目标信息;从而根据多个第三视频片段分别对应的第三关键信息,选取多个第三视频片段中包含第三目标信息的第三视频片段。第三关键信息例如可以包括:人脸信息、声纹信息、场景信息或者动作信息等。
在实际应用中,第一目标信息、第二目标信息以及第三目标信息可以互不相同,也可以相同也可以其中两个相同一个不同,具体可以根据实际的识别需求而设置。例如,在目标内容为存在射门动作的视频片段时,第一目标信息、第二目标信息以及第三目标信息均可以为射门动作信息。又例如,在目标内容为A用户存在射门动作的视频片段时,第一目标信息以及第二目标信息均可以为射门动作信息,第三目标信息可以为A用户的射门动作信息。
但是,由于第一关键信息、第二关键信息以及第三关键信息仅为各自视频片段中的部分信息,并不能代表视频片段的全部信息,通过关键信息以进行目标信息确认的技术方案,获得的满足识别条件的视频片段的精度较差。
因此,为了获得更准确的选取效果,在某些实施例中,选取第一视频片段中满足第一识别条件的第一视频片段可以包括:
对多个第一视频片段进行识别处理,获得多个第一识别结果;
根据多个第一识别结果,确定满足第一识别条件的第一视频片段。
在某些实施例中,选取多个第二视频片段中满足第二识别条件的第二视频片段可以包括:
对多个第二视频片段进行识别处理,获得多个第二识别结果;
根据多个第二识别结果,确定满足第二识别条件的第二视频片段。
在某些实施例中,选取多个第三视频片段中满足第三识别条件的第三视频片段包括:
对多个第三视频片段进行识别处理,获得多个第三识别结果;
根据多个第三识别结果,确定满足第三识别条件的第三视频片段。
本申请实施例中,在确认第一视频片段、第二视频片段或者第三视频片段进行识别处理时,可以采用相同的识别处理方式,以确认任一个第一视频片段、第二视频片段或者第三视频片段对应的识别结果。
如图3所示,为本申请实施例提供的一种视频处理方法的又一个实施例的流程图,该方法可以包括以下几个步骤:
301:检测目标视频中存在目标内容的多个第一视频片段。
其中,第一视频片段对应有第一起始时间以及第一终止时间。
302:对多个第一视频片段进行识别处理,获得多个第一识别结果。
303:根据多个第一识别结果,确定满足第一识别条件的多个第一视频片段。
304:对满足第一识别条件的多个第一视频片段的第一起始时间以及第一终止时间分别进行时间调整处理,获得多个第二起始时间以及多个第二起始时间分别对应的第二终止时间。
305:基于第多个二起始时间以及多个第二起始时间分别对应的第二终止时间,获取多个第二视频片段。
306:对多个第二视频片段进行识别处理,获得多个第二识别结果。
307:根据多个第二识别结果,确定满足第二识别条件的多个第二视频片段。
308:对满足第二识别条件的多个第二视频片段的第二起始时间以及第二终止时间分别进行时间调整处理,获得多个第三起始时间以及多个第三起始时间分别对应的第三终止时间;
309:基于多个第三起始时间以及多个第三起始时间分别对应的第三终止时间,获得多个第三视频片段;
310:对多个第三视频片段分别进行识别处理,获得多个第三识别结果;
311:根据多个第三识别结果,确定满足第三识别条件的多个第三视频片段。
312:对满足第三识别条件的多个第三视频片段的第三起始时间以及第三终止时间分别进行时间调整处理,获得多个目标起始时间以及多个目标起始时间分别对应的目标终止时间。
313:基于多个目标起始时间以及多个目标起始时间分别对应的目标终止时间,获取多个目标视频片段。
本申请实施例中,在获取多个第一视频片段,以及该第一视频片段对应的第一起始时间以及第一终止时间之后,在对第一视频片段进行时间修正处理时,可以通过多次识别处理以及选择处理,并增加时间调整处理,以对第一起始时间以及所述第一起始时间对应的第一终止时间进行更严密更精确地多次调整,提高调节精度,获得更准确的目标视频片段。
在确认第一视频片段、第二视频片段或者第三视频片段进行识别处理时,可以采用相同的识别处理方式,以确认任一个第一视频片段、第二视频片段或者第三视频片段各自对应的识别结果。
在一种可能的设计中,可以通过以下方式对视频片段进行识别处理,获得视频片段对应的识别结果:
提取视频片段的片段特征;
将特征片段输入目标内容对应的内容识别模型,获得视频片段中存在目标内容的目标概率;
根据视频片段中存在目标内容的目标概率,确定视频片段对应的识别结果。
其中,视频片段可以包括;第一视频片段、第二视频片段或者第三视频片段。
在对视频片段进行识别处理时,可以采用识别模型的方式进行识别处理时,采用目标概率识别的方式,可以将所视频片段进行特征提取,以确认目标内容在视频片段对应的出现概率。在一些所述中,出现概率越高,视频识别结果越好。
在进行视频片段特征的提取时,可以直接采用利用视频片段的提取模型进行提取的方式,但是这种根据提取的片段特征较为单一,不能包含不同片段间的信息,为了获得更准确的片段特征,作为一种可能的实现方式,提取视频片段的片段特征可以包括:
提取目标视频的多个窗口片段;其中,多个窗口片段分别对应有窗口起始时间以及窗口结束时间;多个窗口片段中存在与任一个窗口片段的部分片段相同的至少一个窗口片段。
分别提取多个窗口片段的片段特征,获得多个窗口片段分别对应的窗口片段特征;
获取窗口起始时间大于或等于视频片段的起始时间以及窗口终止时间小于或等于视频片段的终止时间的多个目标窗口片段;
根据多个目标窗口片段分别对应的窗口片段特征,确定视频片段的片段特征。
可以采用滑窗方式选取多个窗口片段。多个窗口片段的片段时长相同。
本申请实施例,采用窗口片段以及窗口片段对应的窗口片段特征的方式,以获得视频片段的片段特征,可以融合多个窗口片段间的片段特征,可以获得更全面的片段特征。
本申请实施例中,在提取片段特征时,采用了实时提取多个窗口片段以及实时提取多个窗口片段分别对应的片段特征的方式,在一些实施例中,还可以获取已生成的目标视频的多个窗口片段以及多个窗口片段分别对应的窗口片段特征的方式,进行视频片段的片段特征的获取,并不对窗口片段以及窗口片段特征的获取方式进行过多限定。
在某些实施例中,根据多个目标窗口片段各自的窗口片段特征,确定视频片段的片段特征可以包括:
对多个目标窗口片段各自的窗口片段特征进行特征融合处理,获得视频片段的片段特征。
在将多个目标窗口片段分别对应的窗口片段特征进行特征融合处理时,可以采用多种特征融合方式,例如,采用将多个窗口片段分别对应的窗口片段特征进行加权计算或者采用融合算法进行特征融合的方式获得片段特征。
为了获得准确的片段特征,作为一种可能的实现方式,对多个目标窗口片段各自的窗口片段特征进行特征融合处理,获得视频片段的片段特征包括:
根据区域感兴趣池化算法,对多个目标窗口片段各自的窗口片段特征进行特征融合处理,获得视频片段的片段特征。
区域感兴趣池化算法(RoI Pooling,Region of interest pooling)是将得到的多个窗口片段分别对应的窗口片段特征结合其对应的视频片段的起始时间以及终止时间进行融合的特征提取方法,得到片段特征。采用区域感兴趣池化算法对多个窗口片段各自的窗口片段特征进行特征融合处理过程与现有技术相同,在此不再赘述。
在对多个窗口片段进行窗口片段特征提取时,可以采用多种特征提取方式进行特征提取。作为一种可能的实现方式,分别提取多个窗口片段的片段特征,获得多个窗口片段分别对应的窗口片段特征可以包括:
将多个窗口片段依次输入特征提取模型,获得多个窗口基础特征;
对多个窗口基础特征进行特征分析处理,获得多个窗口分别对应的窗口片段特征。
特征提取模型可以为基础提取模型,用于提取窗口片段的基础特征的神经网络模型,该特征提取模型可以预先训练获得,具体的训练过程与现有技术相同,在此不再赘述。
在获得多个窗口片段分别对应的窗口基础特征之后,还对多个窗口片段分别对应的窗口基础特征进行了特征分析处理,以获得多个窗口分别对应的窗口片段特征。通过对窗口片段特征进行特征分析处理,可以使得窗口片段特征中包含更全面的特征信息,提高窗口片段特征的特性表达性,以促使提高目标视频片段的获取精度。
对窗口片段特征进行特征分析处理可以采用多层处理方式,例如,可以依次采用全局特征分析、局部特征分析处理、时序特征增加等处理方式完成对窗口片段的特征分析处理。。
作为一种可能的实现方式,对多个窗口基础特征进行特征分析处理,获得多个窗口片段分别对应的窗口片段特征包括:
对多个窗口基础特征进行注意机制处理,将多个窗口的上下文特征增加到多个窗口基础特征中,获得多个上下文特征;
将多个上下文特征进行时间特征处理,将多个窗口的时间特征增加到多个上下文特征中,获得多个窗口片段分别对应的窗口片段特征。
本申请实施例中,对多个窗口基础特征进行注意机制处理,主要是将全局特征以及局部特征进行了融合,获得的上下文特征中包含了全局特征以及局部特征,获得的特征更准确。之后,再利用时间特征对多个上下文特征进行处理,以将各个窗口片段之间的时间特性增加到特征的表达过程中,使得获得的窗口片段包含多层含义,更有利于窗口片段的差异分析,以获得更准确的片段集合的划分结果,使得特征片段的划分结果更准确,提高目标视频片段的获取精度。
在一种可能的设计中,对多个窗口基础特征进行注意机制处理,将多个窗口的上下文特征增加到多个窗口基础特征中,获得多个上下文特征包括:
基于全局池化算法,提取多个窗口基础特征分别对应的全局特征;
根据多个窗口基础特征以及多个窗口基础特征分别对应的全局特征,确定多个窗口基础特征分别对应的注意力掩码;
针对任一个窗口基础特征,将所述窗口基础特征与所述窗口基础特征对应的注意力掩码进行点乘计算,获得所述窗口基础特征对应的注意力特征,以获得多个注意力特征;
将多个注意力特征分别进行归一化计算,获得多个上下文特征。
可选地,将多个注意力特征进行归一化计算可以包括将多个注意力特征依次输入归一化指数函数进行归一化计算,计算获得多个上下文特征。
全局池化算法(Global Average Pooling)是对多个窗口基础特征进行全局特征分析处理,获得多个全局特征;再针对任一个窗口片段特征,将该窗口片段特征对应的全局特征,与该窗口片段特征进行注意力掩码计算,获得多个注意力掩码,该每个注意力掩码代表其对应的窗口基础特征对应的全局特性。之后,将窗口基础特征与注意力掩码进行点乘计算以获得包含了全局特性以及局部特性的注意力特征。为了标准化表达,可以将多个注意力特征进行归一化计算,以获得归一化后的多个上下文特征。
本申请实施例中,采用上下文注意机制的方式将全局特征以及局部特征进行了全面提取,增加了上下文特征表达的更全面性。
在又一种可能的设计中,将多个上下文特征进行时间特征处理,将多个窗口的时间特征增加到多个上下文特征中,获得多个窗口片段特征包括:
确定时序分组模块中的基础分组层、时序卷积层、归一化层以及融合层;
将多个上下文特征输入基础分组层,以对多个上下文特征按照预设分组规则进行至少两次分组,获得至少两个分组结果;其中,分组结果包括至少两个分组集合,分组集合包括至少一个上下文特征;
将多个分组集合中各自的至少一个上下文特征输入时序卷积层,获得多个分组集合分别对应的时序特征;
将多个时序特征分别输入归一化层,获得多个归一时序特征;
针对任一个分组结果,将该分组结果对应的至少两个归一时序特征进行融合处理,获得时序组特征,以获得至少两个分组结果分别对应的时序组特征;
将至少两个分组结果分别对应的时序组特征进行融合处理,获得目标时序特征;
基于至少一个上下文特征分别与目标时序特征的乘积,获得多个窗口片段特征。
为了便于理解目标时序特征的获取过程,以多个上下文特征的数量为9个,对多个上下文特征按照预设分组规则进行两次分组为例,对时间特征处理的过程进行详细描述。
假设,基础分组层对9个上下文特征进行的一次分组获得的第一分组结果为5个上下文特征构成的A1分组集合以及4个上下文特征构成A2的分组集合;进行的另一次分组获得的第二分组结果为3个上下文特征构成的B1分组集合、3个上下文特征构成的B2分组集合以及剩余3个上下文特征构成的B3分组集合。
将A1分组集合中的5个上下文特征输入时序卷积层,计算获得A1时序特征;A2分组集合中的4个上下文特征输入时序卷积层,计算获得A2时序特征;将B1分组集合中的3个上下文特征输入时序卷积层,计算获得B1时序特征;将B2分组集合中的3个上下文特征输入时序卷积层,计算获得B2时序特征以及将B3分组集合中的3个上下文特征输入时序卷积层,计算获得B3时序特征。
将A1时序特征进行归一化计算,获得A1归一时序特征;将A2时序特征进行归一化计算,获得A2归一时序特征;将B1时序特征进行归一化计算,获得B1归一时序特征;将B2时序特征进行归一化计算,获得B2归一时序特征;以及将B3时序特征进行归一化计算,获得B3归一时序特征。
之后,将第一分组结果对应的A1归一时序特征与A2归一时序特征进行融合处理,获得A时序组特征;将第二分组结果对应的B1归一时序特征、B2归一时序特征以及B3归一时序特征进行特征融合,获得B时序组特征。
之后,在将A时序组特征以及B时序组特征进行特征融合,获得目标时序组特征。
在实际应用中,特征的融合方式可以包括多种,例如,可以包括基于深度学习理论的特征融合算法、基于特征依赖模型的特征融合算法、均值融合算法、乘法融合或加法融合算法或者基于贝叶斯理论的特征融合算法。本申请实施例中对于特征的融合方式并不作出过多限定。
此外,在将至少两个归一时序特征融合获得时序组特征时采用的特征融合算法与将两个分组结果分别对应的时序组特征进行融合处理时采用的特征融合方式可以相同,也可以不同,具体可以根据实际的融合需要而确定。
作为一种可能的实现方式,多个第一识别结果包括多个第一目标概率;多个第二识别结果包括多个第二目标概率;多个第三识别结果包括:多个第三目标概率;
可选地,根据多个第一识别结果,确定满足第一识别条件的第一视频片段可以包括:
确定多个第一目标概率中大于第一概率阈值的第一目标概率对应的第一视频片段,获得候选第一视频片段;
对候选第一视频片段进行冗余去除处理,获得满足第一识别条件的第一视频片段。
可选地,根据多个第二识别结果,确定满足第二识别条件的第二视频片段可以包括:
确定多个第二目标概率中大于第二概率阈值的第二目标概率对应的第二视频片段,获得候选第二视频片段;
对候选第二视频片段进行冗余去除处理,获得满足第二识别条件的第二视频片段。
可选地,根据多个第三识别结果,确定满足第三识别条件的第三视频片段可以包括:
确定多个第三目标概率中大于第三概率阈值的第三目标概率对应的第三视频片段为满足第三识别条件的第三视频片段。
其中,第一概率阈值小于第二概率阈值,第二概率阈值小于第三概率阈值。
本申请实施例中,在根据识别结果对视频片段进行选择时,可以根据识别结果包含的目标概率进行视频片段的选择,以获得准确的选择结果。另外,通过使用三次选择,并在候选选择过程中,不断增加概率阈值的大小,以使得选择获得的第三视频片段包含目标内容的概率更高,获得的目标视频片段更准确。另外,在获得的满足识别条件的视频片段中,可能存在部分片段相同时间较长的两个视频片段,也即,两个视频片段的重叠性较高,可以对其中一个视频片段进行冗余去除,以减少处理压力,提高处理效率。从而本申请实施例可以以更高效、更准确地选择方式选择出目标视频片段,提高目标视频片段的自动选择的有效性以及精度。
在某些实施例中,可选地,对候选第一视频片段进行冗余去除处理,获得满足第一识别条件的第一视频片段可以包括:
基于非极大值抑制算法,对候选第一视频片段进行冗余去除处理,获得满足第一识别条件的第一视频片段;
可选地,对候选第二视频片段进行冗余去除处理,获得满足第二识别条件的第二视频片段可以包括:
基于非极大值抑制算法,对候选第二视频片段进行冗余去除处理,获得满足第二识别条件的第二视频片段。
对应冗余视频片段的冗余去除方式可以包括多种,例如可以对候选视频片段进行片段质量评价,以将质量评价不高的片段进行冗余去除。
本申请实施例中采用非极大值抑制算法,可以选择最可能包含目标内容的视频片段,可以提高选择精度。
作为一个实施例,第一视频片段可以包括多个;检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间以及第一终止时间可以包括:
提取目标视频的多个窗口片段;其中,多个窗口片段分别对应有窗口起始时间以及窗口结束时间;多个窗口片段中存在与任一个窗口片段的部分片段相同的至少一个窗口片段;
将多个窗口片段中满足同一聚合条件的窗口片段划分至同一窗口片段集合中,获得多个窗口片段集合;
根据任一个窗口片段集合中的窗口片段对应的窗口起始时间以及窗口结束时间,确定所述窗口片段集合对应的最小窗口起始时间以及最大窗口结束时间;
根据多个窗口片段集合分别对应的最小窗口时间以及对应的最大窗口结束时间,获取多个第一视频片段;
其中,所述第一视频片段的第一起始时间为对应的窗口片段集合的最小窗口起始时间以及第一终止时间为对应的窗口片段集合的最大窗口结束时间。
如图4所示,为本申请实施例提供的一种视频处理方法的又一个实施例的流程图,该方法可以包括以下几个步骤:
401:提取目标视频的多个窗口片段。
其中,多个窗口片段分别对应有窗口起始时间以及窗口结束时间;多个窗口片段中存在与任一个窗口片段的部分片段相同的至少一个窗口片段。
可选地,可以采用滑窗方式提取目标视频的多个窗口片段。对目标视频进行滑窗时,采用的窗口大小以及滑动步长可以根据实际需求设定。如果对视频的处理精度较高可以将采用较小的窗口大小以及滑动步长。例如,窗口大小可以设置为2秒,步长可以设置为1秒。如果对视频的处理精度要求不高,可以采用较大的窗口大小以及滑动步长。例如,窗口大小可以设置为8秒,步长可以设置为2秒。
提取目标视频的多个窗口片段可以包括:基于预设窗口大小以及滑动步长,获取目标视频对应的多个窗口片段。
在一些实施例中,可以采用设置多组窗口大小以及滑动步长,并依次获取每一组窗口大小以及滑动步长在目标视频中滑窗时对应的窗口片段。将多组窗口大小以及滑动步长分别在目标视频中滑窗时获取的窗口片段均作为目标视频的多个窗口片段,以执行后续的将多个窗口片段中满足同一聚合条件的窗口片段划分至同一窗口片段集合中,获得多个窗口片段集合等步骤。
也即,基于预设窗口大小以及滑动步长,获取目标视频对应的多个窗口片段可以包括:确定至少一个窗口大小以及每个窗口大小对应的滑动步长;根据至少一个窗口大小以及每个窗口大小对应的滑动步长分别在目标视频上滑动时获取的视频片段,确定目标视频对应的多个窗口片段。其中,任一个窗口片段对应有窗口起始时间以及窗口结束时间。多个窗口片段中存在与任一个窗口片段的部分片段相同的至少一个窗口片段。
402:将多个窗口片段中满足同一聚合条件的窗口片段划分至同一窗口片段集合中,获得多个窗口片段集合。
403:根据任一个窗口片段集合中的窗口片段对应的窗口起始时间以及窗口结束时间,确定窗口片段集合对应的最小窗口起始时间以及最大窗口结束时间。
404:根据多个窗口片段集合分别对应的最小窗口时间以及对应的最大窗口结束时间,获取多个第一视频片段。
其中,第一视频片段的第一起始时间为对应的窗口片段集合的最小窗口起始时间以及第一视频片段的第一终止时间为对应的窗口片段集合的最大窗口结束时间。
405:对多个第一视频片段分别对应的第一起始时间以及第一终止时间进行时间修正处理,获得多个目标起始时间以及多个目标起始时间分别对应的目标终止时间;
406:基于多个目标起始时间以及多个目标起始时间分别对应的目标终止时间,获取多个目标视频片段。
本申请实施例中,在获得多个第一视频片段时,可以采用滑窗方式,获得多个窗口片段,以对多个窗口片段中包含目标内容的窗口片段进行片段聚合的方式获得多个第一视频片段。通过对窗口视频片段的聚合,可以使多个第一视频片段的获取与目标内容的关联性更高,从而在对多个第一视频片段进行时间修正处理之后,获得更准确的目标视频片段,提高目标视频片段的获取精度。
作为一个实施例,将多个窗口片段中满足同一聚合条件的窗口片段划分至同一窗口片段集合中,获得多个窗口片段集合可以包括:
将多个窗口片段依次输入特征提取模型,获得多个窗口基础特征;
将多个窗口基础特征依次输入目标内容对应的内容识别模型,获得多个窗口片段中存在目标内容的窗口概率;
对多个窗口概率进行概率区域识别处理,获得多个概率区域;
针对任一个概率区域,确定位于该概率区域的所有窗口概率对应的窗口片段构成的窗口片段集合;
确定多个概率区域分别对应的窗口片段集合构成的多个窗口片段集合。
针对任一个概率区域,确定位于该概率区域的所有窗口概率对应的窗口片段构成的窗口片段集合可以包括:确定任一个概率区域对应的区域起始时间以及区域结束时间;确定窗口起始时间大于或等于区域起始时间以及窗口结束时间小于或等于区域结束时间的所有窗口片段构成的窗口片段集合。
其中,针对任一个概率区域,该概率区域的区域起始时间以及区域结束时间具体可以通过以下方式确定:确定该概率区域的区域左边界对应的左边界窗口概率,以及区域右边界对应的右边界窗口概率。确定左边界窗口概率对应的窗口片段的窗口起始时间,为该概率区域的区域起始时间;确定右边界窗口概率对应的窗口片段的窗口结束时间,为该概率区域的区域结束时间。
本申请实施例中,对满足同一聚合条件的窗口片段进行片段聚合时,可以获取窗口片段中存在目标内容的窗口概率,以进行概率区域识别的方式,进行窗口片段的聚合,提高聚合效率以及准确性。
作为一种可能的实现方式,对多个窗口概率进行概率区域识别处理,获得多个概率区域可以包括:
利用分水岭算法,对多个窗口概率进行概率区域识别处理,获得多个概率区域。
分水岭算法是一种较为常用的区域分割算法,本申请实施例中,采用分水岭算法将多个窗口概率所在的整体区域作为待分割区域,并采用分水岭算法,将该整体区域进行概率区域分割,以获得多个概率区域。其中,任一个概率区域中包含多个窗口概率,该概率区域中的所有窗口概率对应的窗口片段组成一个窗口片段集合。
在实际应用中,可能存在将存在目标内容的目标视频片段进行综合展示的需求。在一种可能的设计中,目标视频片段可以包括多个。在基于所述目标起始时间,获取目标视频片段之后,该方法还可以包括:
将多个目标视频片段进行拼接处理,获得存在目标内容的关键视频。
将多个目标视频片段进行拼接处理时可以采用现有的视频拼接算法,在此不再赘述。
在实际应用中,目标视频可以属于多个生活、工作或者场景,目标内容可以根据用户实际的需求而设置。在一些实施例中,目标视频可以为球赛视频,目标内容可以包括:存在进球动作。目标视频片段即可以为存在进球动作的视频片段。这时,可能存在对各个球员进球分数或者比赛结果的统计需要。在基于所述目标起始时间,获取目标视频片段之后,该方法还可以包括:
确定至少一个参数用户以及所述至少一个参数用户分别所属的参赛队伍的队伍标签信息;
统计目标视频片段中,至少一个参赛用户分别对应的目标视频片段的片段数量,获得所述至少一个参数队伍分别对应的进球数量;
根据至少一个参赛用户分别对应的队伍标签信息以及进球数量,确定所述目标视频对应的比赛结果。
目标视频对应的比赛结果可以包括:每个参赛用户的进球数量,至少一个参赛队伍分别对应的进球总量,或者基于至少一个参赛队伍分别对应的进球总量确定的至少一个参赛队伍对应的比赛名次等。比赛结果可以以多种数据形式存在,具体可以根据实际使用需求而设置。
作为一种可能的实现方式,所述根据至少一个参赛用户分别对应的队伍标签信息以及进球数量,确定所述目标视频对应的比赛结果可以包括:
统计属于同一队伍标签信息的参赛用户的进球数量的总和,获得至少一个参赛队伍分别对应的进球总量;
根据所述至少一个参赛队伍分别对应的进球总量,获取所述至少一个参赛队伍对应的比赛名次。
如图5所示,为本申请实施例提供的一种视频处理方法的又一个实施例的流程图,该方法可以包括:
501:检测用户输入的目标视频以及目标内容。
502:检测目标视频中存在目标内容的第一视频片段。
其中,第一视频片段对应有第一起始时间。
503:对第一起始时间进行时间修正处理,获得目标起始时间。
504:基于目标起始时间,获取目标视频片段。
505:为用户输出目标视频片段。
本申请实施例中部分步骤与前述实施例步骤相同,在此不再赘述。
本申请实施例中,电子设备可以检测用户输入的目标视频以及目标内容,并检测该目标视频中存在目标内容的第一视频片段。从而可以对该第一视频片段的第一起始时间进行时间修正处理,以获得目标起始时间。之后可以基于目标起始时间,获取目标视频片段。从而可以为用户输出目标视频片段。提供一种与用户直接交互的方案,从而为用户实施目标视频片段的自动截取。
如图6所示,为本申请实施例提供的一种视频处理方法的又一个实施例的流程图,该方法可以包括:
601:接收电子设备发送的目标视频以及目标内容。
其中,目标视频以及目标内容为电子设备检测用户输入获得的。
602:检测目标视频中存在目标内容的第一视频片段。
其中,第一视频片段对应有第一起始时间。
603:对第一起始时间进行时间修正处理,获得目标起始时间。
604:基于目标起始时间,获取目标视频片段。
605:发送目标视频片段至电子设备,以供电子设备为用户输出目标视频片段。
本申请实施例中部分步骤与前述实施例步骤相同,在此不再赘述。
本申请实施例中,电子设备可以检测用户发送的目标视频以及目标内容,并通过检测该目标视频中存在目标内容的第一视频片段。从而可以对该第一视频片段分别对应的第一起始时间进行时间修正处理,以获得目标起始时间。之后可以基于目标起始时间,获取目标视频片段。从而可以为用户输出目标视频片段。电子设备通过将目标视频以及目标容发送至服务器,以在服务器实现目标视频片段的获取,可以减少电子设备的处理压力,提高处理效率。
为了便于理解,以电子设备执行本申请实施例的技术方案,电子设备实际为笔记本为例对本申请进行详细介绍。
如图7a所示,用户可以在笔记本M1提供的上传界面中的视频上传控件701上传目标视频,以及输入目标内容的文本框702中输入目标内容。该目标内容例如可以是文字、图片或者目标视频片段,为了输入图片或者目标视频片段在文本框702中可以提供图片或者视频传输的提示控件703。以目标视频为球赛视频为例,目标内容可以为:“存在射门动作的视频片段”的文字内容。在一些实施例中,还可以对输入目标内容的文本框进行文字提示,例如,在文本框702之前以文本框704“请输入想截取的内容”的提示形式进行提示。
在又一些实施例中,在上传界面中还可以显示触发视频片段截取指令的提示控件705,用户触发该截取控件705之后,笔记本即可以开始进行片段截取。笔记本M1可以获取S701用户上传的球赛视频,以及“存在射门动作的视频片段”的目标内容。之后,笔记本M1可以检测目标视频S702中存在目标内容的第一视频片段,其中,该第一视频片段可以对应有第一起始时间。之后,可以对该第一视频片段的第一起始时间进行时间修正处理S703,获得目标起始时间,以基于该目标起始时间,获取S704目标视频片段。
之后,如图7b所示,笔记本M1可以为用户输出该目标视频片段710。在一些实施例中,可以显示视频片段保存的提示信息,例如,保存控件711,用户点击该保存控件711之后,笔记本M1可以将目标视频片段进行保存。
为了便于理解,以服务器执行本申请实施例的技术方案,服务器实际为云服务器为例对本申请进行详细介绍。
如图8所示,用户可以通过电子设备例如平板电脑M2提供的上传界面中的视频上传控件801上传目标视频,以及输入目标内容的文本框802中输入目标内容。该目标内容例如可以是文字或图片。该目标内容例如可以是文字、图片或者目标视频片段,为了输入图片或者目标视频片段在文本框802中可以提供图片或者视频传输的提示控件803。以目标视频为球赛视频为例,目标内容可以为:“存在射门动作的视频片段”的文字内容。平板电脑M2可以将目标视频以及目标内容发送至云服务器M3。
在又一些实施例中,在上传界面中还可以显示目标视频以及目标内容的发送控件804,用户触发该发送控件804之后,平板电脑M2即可以将目标视频以及目标内容发送S801至云服务器M3。云服务器M3可以接收S802平板电脑M2发送的球赛视频构成的目标视频以及“存在射门动作的视频片段”构成的目标内容。之后,云服务器M3可以检测S803目标视频中存在目标内容的第一视频片段,该第一视频片段对应有第一起始时间。从而对第一视频片段分别对应的第一起始时间进行时间修正处理802,获得目标起始时间,以基于目标起始时间,获取803目标视频片段。
之后,云服务器M3发送S806目标视频片段至平板电脑M2,以供平板电脑为用户输出目标视频片段。
如图9所示,为本申请实施例提供的一种视频处理设备的实施例的结构示意图,该视频处理设备可以包括:存储组件901以及处理组件902;其中,存储组件901用于存储一条或多条计算机指令;一条或多条计算机指令被处理组件902调用执行;
处理组件902用于:
检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间;对所述第一起始时间进行时间修正处理,获得目标起始时间;基于所述目标起始时间,获取目标视频片段。
在实际应用中,该视频处理设备可以配置于服务器或者电子设备中。
本申请实施例中,检测目标视频中存在目标内容的第一视频片段,该第一视频片段可以对应第一起始时间,可以对该第一起始时间进行时间修正处理,以获得目标起始时间,从而可以根据目标起始时间,获得目标视频中的目标视频片段。通过先简单识别存在目标内容的第一视频片段,再对第一视频片段进行时间修正,以获得准确包含目标内容的目标起始时间,从而可以根据该目标起始时间,获得准确的目标视频片段。通过自动检测存在目标内容的视频片段以进行时间修正的方式,自动完成目标视频中存在目标内容的视频片段的自动剪辑,实现自动剪辑,提高剪辑效率。
作为一个实施例,第一视频片段还对应有第一终止时间;第一视频片段的第一起始时间以及第一终止时间相对应;处理组件对所述第一起始时间进行时间修正处理,获得目标起始时间具体可以包括:
对所述第一视频片段对应的第一起始时间以及第一终止时间进行时间修正处理,获得所述目标起始时间,以及所述目标起始时间对应的目标终止时间;
处理组件基于目标起始时间,获取目标视频片段具体可以包括:
基于目标起始时间以及目标起始时间分别对应的目标终止时间,获取目标视频片段。
作为一种可能的实现方式,第一视频片段包括多个,处理组件对第一视频片段分别对应的第一起始时间以及第一终止时间进行时间修正处理,获得目标起始时间以及目标起始时间分别对应的目标终止时间具体可以包括:
对满足第一识别条件的第一视频片段的第一起始时间以及第一终止时间进行时间调整处理,获得第二起始时间以及所述第二起始时间对应的第二终止时间;
基于所述第二起始时间以及所述第二起始时间对应的第二终止时间,获取第二视频片段;其中,第二视频片段包括多个;
对满足第二识别条件的第二视频片段的第二起始时间以及第二终止时间进行时间修正处理,获得所述目标起始时间以及所述目标起始时间分别对应的目标终止时间。
在某些实施例中,处理组件对满足第二识别条件的第二视频片段的第二起始时间以及第二终止时间进行时间修正处理,获得目标起始时间以及目标起始时间分别对应的目标终止时间具体可以包括:
对满足第二识别条件的第二视频片段的第二起始时间以及第二终止时间进行时间调整处理,获得第三起始时间以及第三起始时间分别对应的第三终止时间;
基于第三起始时间以及第三起始时间分别对应的第三终止时间,获得第三视频片段;
对满足第三识别条件的第三视频片段的第三起始时间以及第三终止时间进行时间调整处理,获得目标起始时间以及目标起始时间分别对应的目标终止时间。
在一种可能的设计中,处理组件还可以用于:
选取多个第一视频片段中满足第一识别条件的第一视频片段;
选取多个第二视频片段中满足第二识别条件的第二视频片段;
选取多个第三视频片段中满足第三识别条件的第三视频片段。
作为又一个实施例,处理组件选取多个第一视频片段中满足第一识别条件的第一视频片段具体可以包括:
对所述多个第一视频片段进行识别处理,获得多个第一识别结果;
根据所述多个第一识别结果,确定满足第一识别条件的第一视频片段;
处理组件选取多个第二视频片段中满足第二识别条件的第二视频片段具体可以包括:
对所述多个第二视频片段进行识别处理,获得多个第二识别结果;
根据所述多个第二识别结果,确定满足第二识别条件的第二视频片段;
处理组件选取多个第三视频片段中满足第三识别条件的第三视频片段具体可以包括:
对所述多个第三视频片段进行识别处理,获得多个第三识别结果;
根据所述多个第三识别结果,确定满足第三识别条件的第三视频片段。
在某些实施例中,处理组件可以通过以下方式对视频片段进行识别处理,获得视频片段对应的识别结果:
提取视频片段的片段特征;
将片段特征输入目标内容对应的内容识别模型,获得视频片段中存在目标内容的目标概率;
根据视频片段中存在目标内容的目标概率,确定视频片段对应的识别结果。
作为一个实施例,处理组件提取视频片段的片段特征具体可以包括:
提取目标视频的多个窗口片段;其中,多个窗口片段分别对应有窗口起始时间以及窗口结束时间;多个窗口片段中存在与任一个窗口片段的部分片段相同的至少一个窗口片段;
分别提取多个窗口片段的片段特征,获得多个窗口片段分别对应的片段特征;
确定视频片段的起始时间以及终止时间;
获取窗口起始时间大于或等于视频片段的起始时间以及窗口终止时间小于或等于视频片段的终止时间的多个目标窗口片段;
根据多个目标窗口片段各自的窗口片段特征,确定视频片段的片段特征。
在某些实施例中,处理组件根据多个目标窗口片段各自的窗口片段特征,确定视频片段的片段特征具体可以包括:
对多个目标窗口片段各自的窗口片段特征进行特征融合处理,获得视频片段的片段特征。
作为一种可能的实现方式,处理组件对多个目标窗口片段各自的窗口片段特征进行特征融合处理,获得视频片段的片段特征具体可以包括:
根据区域感兴趣池化算法,对多个目标窗口片段各自的窗口片段特征进行特征融合处理,获得视频片段的片段特征。
作为又一个实施例,处理组件分别提取多个窗口片段的片段特征,获得多个窗口片段分别对应的窗口片段特征具体可以包括:
将多个窗口片段依次输入特征提取模型,获得多个窗口基础特征;
对多个窗口基础特征进行特征分析处理,获得多个窗口片段分别对应的窗口片段特征。
在一种可能的设计中,处理组件对多个窗口基础特征进行特征分析处理,获得多个窗口片段分别对应的窗口片段特征具体可以包括:
对多个窗口基础特征进行注意机制处理,将多个窗口的上下文特征增加到多个窗口基础特征中,获得多个上下文特征;
将多个上下文特征进行时间特征处理,将多个窗口的时间特征增加到多个上下文特征中,获得多个窗口片段分别对应的窗口片段特征。
在一种可能的设计中,处理组件对多个窗口基础特征进行注意机制处理,将多个窗口的上下文特征增加到多个窗口基础特征中,获得多个上下文特征具体可以包括:
基于全局池化算法,提取所述多个窗口基础特征分别对应的全局特征;
根据所述多个窗口基础特征以及所述多个窗口基础特征分别对应的全局特征,确定所述多个窗口基础特征分别对应的注意力掩码;
针对任一个窗口基础特征,将所述窗口基础特征与所述窗口基础特征对应的注意力掩码进行点乘计算,获得所述窗口基础特征对应的注意力特征,以获得多个注意力特征;
将所述多个注意力特征分别进行归一化计算,获得多个上下文特征。
在又一种可能的设计中,处理组件将多个上下文特征进行时间特征处理,将多个窗口的时间特征增加到多个上下文特征中,获得多个窗口片段特征具体可以包括:
确定时序分组模块中的基础分组层、时序卷积层、归一化层以及融合层;将多个上下文特征输入基础分组层,以对多个上下文特征按照预设分组规则进行至少两次分组,获得至少两个分组结果;其中,分组结果包括至少两个分组集合,分组集合包括至少一个上下文特征;
将至少两个分组结果分别对应的至少两个分组集合中各自的至少一个上下文特征输入时序卷积层,获得至少两个分组结果分别对应的至少两个时序特征;
将多个分组集合中各自的至少一个上下文特征输入时序卷积层,获得多个分组集合分别对应的时序特征;
将多个时序特征分别输入归一化层,获得多个归一时序特征;
针对任一个分组结果,将该分组结果对应的至少两个归一时序特征进行融合处理,获得时序组特征,以获得至少两个分组结果分别对应的时序组特征;
将至少两个分组结果分别对应的时序组特征进行融合处理,获得目标时序特征;
基于至少一个上下文特征分别与目标时序特征的乘积,获得多个窗口片段特征。
作为又一个实施例,多个第一识别结果包括多个第一目标概率;多个第二识别结果包括多个第二目标概率;多个第三识别结果包括:多个第三目标概率;
处理组件根据多个第一识别结果,确定满足第一识别条件的第一视频片段具体可以包括:
确定多个第一目标概率中大于第一概率阈值的第一目标概率对应的第一视频片段,获得候选第一视频片段;
对候选第一视频片段进行冗余去除处理,获得满足第一识别条件的第一视频片段;
处理组件根据多个第二识别结果,确定满足第二识别条件的第二视频片段具体可以包括:
确定多个第二目标概率中大于第二概率阈值的第二目标概率对应的第二视频片段,获得候选第二视频片段;
对候选第二视频片段进行冗余去除处理,获得满足第二识别条件的第二视频片段;
处理组件根据多个第三识别结果,确定满足第三识别条件的第三视频片段具体可以包括:
确定多个第三目标概率中大于第三概率阈值的第三目标概率对应的第三视频片段为满足第三识别条件的第三视频片段;
其中,第一概率阈值小于第二概率阈值,第二概率阈值小于第三概率阈值。
作为一种可能的实现方式,处理组件对候选第一视频片段进行冗余去除处理,获得满足第一识别条件的第一视频片段具体可以包括:
基于非极大值抑制算法,对候选第一视频片段进行冗余去除处理,获得满足第一识别条件的第一视频片段;
处理组件对候选第二视频片段进行冗余去除处理,获得满足第二识别条件的第二视频片段具体可以包括:
基于非极大值抑制算法,对候选第二视频片段进行冗余去除处理,获得满足第二识别条件的第二视频片段。
作为又一个实施例,第一视频片段包括多个;处理组件检测目标视频中存在目标内容的第一视频片段;其中,第一视频片段对应有第一起始时间具体可以包括:
提取目标视频的多个窗口片段;其中,多个窗口片段分别对应有窗口起始时间以及窗口结束时间;多个窗口片段中存在与任一个窗口片段的部分片段相同的至少一个窗口片段;
将多个窗口片段中满足同一聚合条件的窗口片段划分至同一窗口片段集合中,获得多个窗口片段集合;
根据任一个窗口片段集合中的窗口片段对应的窗口起始时间以及窗口结束时间,确定窗口片段集合对应的最小窗口起始时间以及最大窗口结束时间;
根据多个窗口片段集合分别对应的最小窗口时间以及对应的最大窗口结束时间,获取多个第一视频片段;
其中,第一视频片段的第一起始时间为对应的窗口片段集合的最小窗口起始时间以及第一终止时间为对应的窗口片段集合的最大窗口结束时间。
在一种可能的设计中,处理组件将多个窗口片段中满足同一聚合条件的窗口片段划分至同一窗口片段集合中,获得多个窗口片段集合具体可以包括:
将多个窗口片段依次输入特征提取模型,获得多个窗口基础特征;
将多个窗口基础特征依次输入目标内容对应的内容识别模型,获得多个窗口片段中存在目标内容的窗口概率;
对多个窗口概率进行概率区域识别处理,获得多个概率区域;
针对任一个概率区域,确定位于所述概率区域的所有窗口概率对应的窗口片段构成的窗口片段集合;
确定多个概率区域分别对应的窗口片段集合构成的多个窗口片段集合。
在一种可能的设计中,处理组件对多个窗口概率进行概率区域识别处理,获得多个概率区域具体可以包括:
利用分水岭算法,对多个窗口概率进行概率区域识别处理,获得多个概率区域。
作为又一个实施例,所述目标视频片段可以包括多个,所述处理组件还可以用于:
将多个目标视频片段进行拼接处理,获得存在所述目标内容的关键视频。
作为又一个实施例,所述目标内容可以包括:存在进球动作;所述目标视频片段为存在进球动作的视频片段;
所述处理组件还可以用于:
确定至少一个参赛用户以及所述至少一个参赛用户分别所属的参赛队伍的队伍标签信息;
统计所述目标视频片段中,所述至少一个参赛用户分别对应的目标视频片段的片段数量,获得所述至少一个参赛用户分别对应的进球数量;
根据所述至少一个参赛用户分别对应的队伍标签信息以及进球数量,确定所述目标视频对应的比赛结果。
图9的实现视频处理设备可以执行图1所示实施例的视频处理的方法,其实现原理和技术效果不再赘述。对于上述实施例中的处理组件所执行的各个步骤的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,计算机程序执行时可以执行如前述实施例的任一种视频处理方法。
如图10所示,为本申请实施例提供的一种电子设备的一个实施例的结构示意图,该电子设备可以包括:存储组件1001以及处理组件1002;其中,存储组件1001用于存储一条或多条计算机指令;一条或多条计算机指令被处理组件调用执行;
处理组件1002用于:
获取用户输入的目标视频以及目标内容;检测目标视频中存在目标内容的第一视频片段;其中,第一视频片段对应有第一起始时间;对第一起始时间进行时间修正处理,获得目标起始时间;基于目标起始时间,获取目标视频片段;为用户输出目标视频片段。
本申请实施例中的处理组件所执行的部分内容与图9所示的实施例部分内容相同,在此不再赘述。
如图11所示,为本申请实施例提供的一种服务器的一个实施例的结构示意图,该服务器可以包括:存储组件1101以及处理组件1102;其中,存储组件1101用于存储一条或多条计算机指令;一条或多条计算机指令被处理组件1102调用执行;
处理组件1102用于:
接收电子设备发送的目标视频以及目标内容;其中,目标视频以及目标内容为电子设备检测用户输入获得的;检测目标视频中存在目标内容的第一视频片段;其中,第一视频片段对应有第一起始时间;对第一起始时间进行时间修正处理,获得目标起始时间;基于目标起始时间,获取目标视频片段;发送目标视频片段至电子设备,以供电子设备为用户输出目标视频片段。
本申请实施例中的处理组件所执行的部分内容与图9所示的实施例部分内容相同,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (26)

1.一种视频处理方法,其特征在于,包括:
检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间;
对所述第一起始时间进行时间修正处理,获得目标起始时间;
基于所述目标起始时间,获取目标视频片段。
2.根据权利要求1所述的方法,其特征在于,所述第一视频片段还对应有第一终止时间,所述第一视频片段的第一起始时间以及第一终止时间相对应;所述对所述第一起始时间进行时间修正处理,获得目标起始时间包括:
对所述第一视频片段对应的第一起始时间以及第一终止时间进行时间修正处理,获得所述目标起始时间,以及所述目标起始时间对应的目标终止时间;
所述基于所述目标起始时间,获取目标视频片段包括:
基于所述目标起始时间以及所述目标起始时间对应的目标终止时间,获取目标视频片段。
3.根据权利要求2所述的方法,其特征在于,所述第一视频片段包括多个,所述对所述第一视频片段对应的第一起始时间以及第一终止时间进行时间修正处理,获得所述目标起始时间以及所述目标起始时间对应的目标终止时间包括:
对满足第一识别条件的第一视频片段的第一起始时间以及第一终止时间进行时间调整处理,获得第二起始时间以及所述第二起始时间对应的第二终止时间;
基于所述第二起始时间以及所述第二起始时间对应的第二终止时间,获取第二视频片段;其中,第二视频片段包括多个;
对满足第二识别条件的第二视频片段的第二起始时间以及第二终止时间进行时间修正处理,获得所述目标起始时间以及所述目标起始时间分别对应的目标终止时间。
4.根据权利要求3所述的方法,其特征在于,所述对满足第二识别条件的第二视频片段的第二起始时间以及第二终止时间进行时间修正处理,获得所述目标起始时间以及所述目标起始时间分别对应的目标终止时间包括:
对满足第二识别条件的第二视频片段的第二起始时间以及第二终止时间进行时间调整处理,获得第三起始时间以及所述第三起始时间对应的第三终止时间;
基于所述第三起始时间以及所述第三起始时间对应的第三终止时间,获得第三视频片段;其中,所述第三视频片段包括多个;
对满足第三识别条件的第三视频片段的第三起始时间以及第三终止时间进行时间调整处理,获得所述目标起始时间以及所述目标起始时间对应的目标终止时间。
5.根据权利要求4所述的方法,其特征在于,所述对满足第一识别条件的第一视频片段的第一起始时间以及第一终止时间进行时间调整处理,获得第二起始时间以及所述第二起始时间对应的第二终止时间,之前方法还包括:
选取多个第一视频片段中满足第一识别条件的第一视频片段;
所述对满足第二识别条件的第二视频片段的第二起始时间以及第二终止时间进行时间修正处理,获得所述目标起始时间以及所述目标起始时间分别对应的目标终止时间之前,所述方法还包括:
选取多个第二视频片段中满足第二识别条件的第二视频片段;
所述对满足第三识别条件的第三视频片段的第三起始时间以及第三终止时间进行时间调整处理,获得所述目标起始时间以及所述目标起始时间对应的目标终止时间之前,所述方法还包括:
选取多个第三视频片段中满足第三识别条件的第三视频片段。
6.根据权利要求5所述的方法,其特征在于,所述选取多个第一视频片段中满足第一识别条件的第一视频片段包括:
对所述多个第一视频片段进行识别处理,获得多个第一识别结果;
根据所述多个第一识别结果,确定满足第一识别条件的第一视频片段;
所述选取多个第二视频片段中满足第二识别条件的第二视频片段包括:
对所述多个第二视频片段进行识别处理,获得多个第二识别结果;
根据所述多个第二识别结果,确定满足第二识别条件的第二视频片段;
所述选取多个第三视频片段中满足第三识别条件的第三视频片段包括:
对所述多个第三视频片段进行识别处理,获得多个第三识别结果;
根据所述多个第三识别结果,确定满足第三识别条件的第三视频片段。
7.根据权利要求6所述的方法,其特征在于,通过以下方式对所述视频片段进行识别处理,获得所述视频片段对应的识别结果:
提取所述视频片段的片段特征;
将所述片段特征输入所述目标内容对应的内容识别模型,获得所述视频片段中存在所述目标内容的目标概率;
根据所述视频片段中存在所述目标内容的目标概率,确定所述视频片段对应的识别结果。
8.根据权利要求7所述的方法,其特征在于,所述提取所述视频片段的片段特征包括:
提取所述目标视频的多个窗口片段;其中,所述多个窗口片段分别对应有窗口起始时间以及窗口结束时间;所述多个窗口片段中存在与任一个窗口片段的部分片段相同的至少一个窗口片段;
分别提取所述多个窗口片段的片段特征,获得所述多个窗口片段分别对应的片段特征;
确定所述视频片段的起始时间以及终止时间;
获取窗口起始时间大于或等于所述视频片段的起始时间以及窗口终止时间小于或等于所述视频片段的终止时间的多个目标窗口片段;
根据所述多个目标窗口片段各自的窗口片段特征,确定所述视频片段的片段特征。
9.根据权利要求8所述的方法,其特征在于,所述根据所述多个目标窗口片段各自的窗口片段特征,确定所述视频片段的片段特征包括:
对所述多个目标窗口片段各自的窗口片段特征进行特征融合处理,获得所述视频片段的片段特征。
10.根据权利要求9所述的方法,其特征在于,所述对所述多个目标窗口片段各自的窗口片段特征进行特征融合处理,获得所述视频片段的片段特征包括:
根据区域感兴趣池化算法,对所述多个目标窗口片段各自的窗口片段特征进行特征融合处理,获得所述视频片段的片段特征。
11.根据权利要求7所述的方法,其特征在于,所述分别提取所述多个窗口片段的片段特征,获得所述多个窗口片段分别对应的窗口片段特征包括:
将所述多个窗口片段依次输入特征提取模型,获得多个窗口基础特征;
对所述多个窗口基础特征进行特征分析处理,获得所述多个窗口片段分别对应的窗口片段特征。
12.根据权利要求11所述的方法,其特征在于,所述对所述多个窗口基础特征进行特征分析处理,获得所述多个窗口片段分别对应的窗口片段特征包括:
对所述多个窗口基础特征进行注意机制处理,将所述多个窗口的上下文特征增加到所述多个窗口基础特征中,获得多个上下文特征;
将所述多个上下文特征进行时间特征处理,将所述多个窗口的时间特征增加到所述多个上下文特征中,获得所述多个窗口片段分别对应的窗口片段特征。
13.根据权利要求12所述的方法,其特征在于,所述对所述多个窗口基础特征进行注意机制处理,将所述多个窗口的上下文特征增加到所述多个窗口基础特征中,获得多个上下文特征包括:
基于全局池化算法,提取所述多个窗口基础特征分别对应的全局特征;
根据所述多个窗口基础特征以及所述多个窗口基础特征分别对应的全局特征,确定所述多个窗口基础特征分别对应的注意力掩码;
针对任一个窗口基础特征,将所述窗口基础特征与所述窗口基础特征对应的注意力掩码进行点乘计算,获得所述窗口基础特征对应的注意力特征,以获得多个注意力特征;
将所述多个注意力特征分别进行归一化计算,获得多个上下文特征。
14.根据权利要求12所述的方法,其特征在于,所述将所述多个上下文特征进行时间特征处理,将所述多个窗口的时间特征增加到所述多个上下文特征中,获得所述多个窗口片段特征包括:
确定时序分组模块中的基础分组层、时序卷积层、归一化层以及融合层;
将所述多个上下文特征输入所述基础分组层,以对所述多个上下文特征按照预设分组规则进行至少两次分组,获得至少两个分组结果;其中,所述分组结果包括至少两个分组集合,所述分组集合包括至少一个上下文特征;
将多个分组集合中各自的至少一个上下文特征输入所述时序卷积层,获得多个分组集合分别对应的时序特征;
将多个时序特征分别输入所述归一化层,获得多个归一时序特征;
针对任一个分组结果,将所述分组结果对应的至少两个归一时序特征进行融合处理,获得时序组特征,以获得所述至少两个分组结果分别对应的时序组特征;
将所述至少两个分组结果分别对应的时序组特征进行融合处理,获得目标时序特征;
基于所述至少一个上下文特征分别与所述目标时序特征的乘积,获得所述多个窗口片段特征。
15.根据权利要求7所述的方法,其特征在于,所述多个第一识别结果包括多个第一目标概率;所述多个第二识别结果包括多个第二目标概率;所述多个第三识别结果包括:多个第三目标概率;
所述根据所述多个第一识别结果,确定满足第一识别条件的第一视频片段包括:
确定所述多个第一目标概率中大于第一概率阈值的第一目标概率对应的第一视频片段,获得候选第一视频片段;
对所述候选第一视频片段进行冗余去除处理,获得满足第一识别条件的第一视频片段;
所述根据所述多个第二识别结果,确定满足第二识别条件的第二视频片段包括:
确定所述多个第二目标概率中大于第二概率阈值的第二目标概率对应的第二视频片段,获得候选第二视频片段;
对所述候选第二视频片段进行冗余去除处理,获得满足第二识别条件的第二视频片段;
所述根据所述多个第三识别结果,确定满足第三识别条件的第三视频片段包括:
确定所述多个第三目标概率中大于第三概率阈值的第三目标概率对应的第三视频片段为满足第三识别条件的第三视频片段;
其中,所述第一概率阈值小于所述第二概率阈值,所述第二概率阈值小于所述第三概率阈值。
16.根据权利要求15所述的方法,其特征在于,所述对所述候选第一视频片段进行冗余去除处理,获得满足第一识别条件的第一视频片段包括:
基于非极大值抑制算法,对所述候选第一视频片段进行冗余去除处理,获得满足第一识别条件的第一视频片段;
所述对所述候选第二视频片段进行冗余去除处理,获得满足第二识别条件的第二视频片段包括:
基于所述非极大值抑制算法,对所述候选第二视频片段进行冗余去除处理,获得满足第二识别条件的第二视频片段。
17.根据权利要求1所述的方法,其特征在于,所述第一视频片段包括多个;所述检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间包括:
提取所述目标视频的多个窗口片段;其中,所述多个窗口片段分别对应有窗口起始时间以及窗口结束时间;所述多个窗口片段中存在与任一个窗口片段的部分片段相同的至少一个窗口片段;
将所述多个窗口片段中满足同一聚合条件的窗口片段划分至同一窗口片段集合中,获得多个窗口片段集合;
根据任一个窗口片段集合中的窗口片段对应的窗口起始时间以及窗口结束时间,确定所述窗口片段集合对应的最小窗口起始时间以及最大窗口结束时间;
根据所述多个窗口片段集合分别对应的最小窗口时间以及对应的最大窗口结束时间,获取多个第一视频片段;
其中,所述第一视频片段的第一起始时间为对应的窗口片段集合的最小窗口起始时间以及第一终止时间为对应的窗口片段集合的最大窗口结束时间。
18.根据权利要求17所述的方法,其特征在于,所述将所述多个窗口片段中满足同一聚合条件的窗口片段划分至同一窗口片段集合中,获得多个窗口片段集合包括:
将所述多个窗口片段依次输入特征提取模型,获得多个窗口基础特征;
将所述多个窗口基础特征依次输入所述目标内容对应的内容识别模型,获得所述多个窗口片段中存在所述目标内容的窗口概率;
对所述多个窗口概率进行概率区域识别处理,获得多个概率区域;
针对任一个概率区域,确定位于所述概率区域的所有窗口概率对应的窗口片段构成的窗口片段集合;
确定所述多个概率区域分别对应的窗口片段集合构成的所述多个窗口片段集合。
19.根据权利要求18所述的方法,其特征在于,所述对所述多个窗口概率进行概率区域识别处理,获得多个概率区域包括:
利用分水岭算法,对所述多个窗口概率进行概率区域识别处理,获得多个概率区域。
20.根据权利要求1所述的方法,其特征在于,所述目标视频片段包括多个,所述方法还包括:
将多个目标视频片段进行拼接处理,获得存在所述目标内容的关键视频。
21.根据权利要求1所述的方法,其特征在于,所述目标内容包括:存在进球动作;所述目标视频片段为存在进球动作的视频片段;
所述方法还包括:
确定至少一个参赛用户以及所述至少一个参赛用户分别所属的参赛队伍的队伍标签信息;
统计所述目标视频片段中,所述至少一个参赛用户分别对应的目标视频片段的片段数量,获得所述至少一个参赛用户分别对应的进球数量;
根据所述至少一个参赛用户分别对应的队伍标签信息以及进球数量,确定所述目标视频对应的比赛结果。
22.一种视频处理方法,其特征在于,包括:
检测用户输入的目标视频以及目标内容;
检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间;
对所述第一起始时间进行时间修正处理,获得目标起始时间;
基于所述目标起始时间,获取目标视频片段;
为所述用户输出所述目标视频片段。
23.一种视频处理方法,其特征在于,包括:
接收电子设备发送的目标视频以及目标内容;其中,所述目标视频以及所述目标内容为所述电子设备检测用户输入获得的;
检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间;
对所述第一起始时间进行时间修正处理,获得目标起始时间;
基于所述目标起始时间,获取目标视频片段;
发送所述目标视频片段至所述电子设备,以供所述电子设备为所述用户输出所述目标视频片段。
24.一种视频处理设备,其特征在于,包括:存储组件以及处理组件;其中,所述存储组件用于存储一条或多条计算机指令;所述一条或多条计算机指令被所述处理组件调用执行;
所述处理组件用于:
检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间;对所述第一起始时间进行时间修正处理,获得目标起始时间;基于所述目标起始时间,获取目标视频片段。
25.一种电子设备,其特征在于,包括:存储组件以及处理组件;其中,所述存储组件用于存储一条或多条计算机指令;所述一条或多条计算机指令被所述处理组件调用执行;
所述处理组件用于:
获取用户输入的目标视频以及目标内容;检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间;对所述第一起始时间进行时间修正处理,获得目标起始时间;基于所述目标起始时间,获取目标视频片段;为所述用户输出所述目标视频片段。
26.一种服务器,其特征在于,包括:存储组件以及处理组件;其中,所述存储组件用于存储一条或多条计算机指令;所述一条或多条计算机指令被所述处理组件调用执行;
所述处理组件用于:
接收电子设备发送的目标视频以及目标内容;其中,所述目标视频以及所述目标内容为所述电子设备检测用户输入获得的;检测目标视频中存在目标内容的第一视频片段;其中,所述第一视频片段对应有第一起始时间;对所述第一起始时间进行时间修正处理,获得目标起始时间;基于所述目标起始时间,获取目标视频片段;发送所述目标视频片段至所述电子设备,以供所述电子设备为所述用户输出所述目标视频片段。
CN202010537094.1A 2020-06-12 2020-06-12 视频处理方法及设备、电子设备及服务器 Active CN113810751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010537094.1A CN113810751B (zh) 2020-06-12 2020-06-12 视频处理方法及设备、电子设备及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010537094.1A CN113810751B (zh) 2020-06-12 2020-06-12 视频处理方法及设备、电子设备及服务器

Publications (2)

Publication Number Publication Date
CN113810751A true CN113810751A (zh) 2021-12-17
CN113810751B CN113810751B (zh) 2022-10-28

Family

ID=78892189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010537094.1A Active CN113810751B (zh) 2020-06-12 2020-06-12 视频处理方法及设备、电子设备及服务器

Country Status (1)

Country Link
CN (1) CN113810751B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6771285B1 (en) * 1999-11-26 2004-08-03 Sony United Kingdom Limited Editing device and method
CN102414755A (zh) * 2009-03-16 2012-04-11 苹果公司 用于编辑电子消息中的音频或视频附件的设备、方法和图形用户界面
CN103096184A (zh) * 2013-01-18 2013-05-08 深圳市龙视传媒有限公司 一种视频编辑方法及装置
CN107615766A (zh) * 2015-04-16 2018-01-19 维斯克体育科技有限公司 用于创建和分配多媒体内容的***和方法
CN107888988A (zh) * 2017-11-17 2018-04-06 广东小天才科技有限公司 一种视频剪辑方法及电子设备
CN108229280A (zh) * 2017-04-20 2018-06-29 北京市商汤科技开发有限公司 时域动作检测方法和***、电子设备、计算机存储介质
CN108476289A (zh) * 2017-07-31 2018-08-31 深圳市大疆创新科技有限公司 一种视频处理方法、设备、飞行器及***
CN108471550A (zh) * 2018-03-16 2018-08-31 维沃移动通信有限公司 一种视频截取方法及终端
CN109740530A (zh) * 2018-12-29 2019-05-10 深圳Tcl新技术有限公司 视频段的提取方法、装置、设备及计算机可读存储介质
CN109889860A (zh) * 2019-03-12 2019-06-14 山东云缦智能科技有限公司 一种直播视频文件拆条方法、装置及***
US20190267037A1 (en) * 2018-02-27 2019-08-29 Boe Technology Group Co., Ltd. Method, apparatus and terminal for controlling video playing
CN110267116A (zh) * 2019-05-22 2019-09-20 北京奇艺世纪科技有限公司 视频生成方法、装置、电子设备和计算机可读介质
CN110796069A (zh) * 2019-10-28 2020-02-14 广州博衍智能科技有限公司 一种行为检测方法、***、设备及机器可读介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6771285B1 (en) * 1999-11-26 2004-08-03 Sony United Kingdom Limited Editing device and method
CN102414755A (zh) * 2009-03-16 2012-04-11 苹果公司 用于编辑电子消息中的音频或视频附件的设备、方法和图形用户界面
CN103096184A (zh) * 2013-01-18 2013-05-08 深圳市龙视传媒有限公司 一种视频编辑方法及装置
CN107615766A (zh) * 2015-04-16 2018-01-19 维斯克体育科技有限公司 用于创建和分配多媒体内容的***和方法
CN108229280A (zh) * 2017-04-20 2018-06-29 北京市商汤科技开发有限公司 时域动作检测方法和***、电子设备、计算机存储介质
CN108476289A (zh) * 2017-07-31 2018-08-31 深圳市大疆创新科技有限公司 一种视频处理方法、设备、飞行器及***
CN107888988A (zh) * 2017-11-17 2018-04-06 广东小天才科技有限公司 一种视频剪辑方法及电子设备
US20190267037A1 (en) * 2018-02-27 2019-08-29 Boe Technology Group Co., Ltd. Method, apparatus and terminal for controlling video playing
CN108471550A (zh) * 2018-03-16 2018-08-31 维沃移动通信有限公司 一种视频截取方法及终端
CN109740530A (zh) * 2018-12-29 2019-05-10 深圳Tcl新技术有限公司 视频段的提取方法、装置、设备及计算机可读存储介质
CN109889860A (zh) * 2019-03-12 2019-06-14 山东云缦智能科技有限公司 一种直播视频文件拆条方法、装置及***
CN110267116A (zh) * 2019-05-22 2019-09-20 北京奇艺世纪科技有限公司 视频生成方法、装置、电子设备和计算机可读介质
CN110796069A (zh) * 2019-10-28 2020-02-14 广州博衍智能科技有限公司 一种行为检测方法、***、设备及机器可读介质

Also Published As

Publication number Publication date
CN113810751B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN111062871B (zh) 一种图像处理方法、装置、计算机设备及可读存储介质
CN107707931B (zh) 根据视频数据生成解释数据、数据合成方法及装置、电子设备
CN110267119B (zh) 视频精彩度的评价方法及相关设备
US9646227B2 (en) Computerized machine learning of interesting video sections
CN111428088A (zh) 视频分类方法、装置及服务器
US20220172476A1 (en) Video similarity detection method, apparatus, and device
CN109508406B (zh) 一种信息处理方法、装置及计算机可读存储介质
CN109063611B (zh) 一种基于视频语义的人脸识别结果处理方法和装置
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN110688524A (zh) 视频检索方法、装置、电子设备及存储介质
CN112487207A (zh) 图像的多标签分类方法、装置、计算机设备及存储介质
EP4239585A1 (en) Video loop recognition method and apparatus, computer device, and storage medium
CN110826365B (zh) 一种视频指纹生成方法和装置
CN111401238B (zh) 一种视频中人物特写片段的检测方法及装置
CN112686165A (zh) 视频中目标对象的识别方法、装置、电子设备及存储介质
CN113496208B (zh) 视频的场景分类方法及装置、存储介质、终端
CN113255685B (zh) 一种图像处理方法、装置、计算机设备以及存储介质
CN112818995B (zh) 图像分类方法、装置、电子设备及存储介质
CN111639230B (zh) 一种相似视频的筛选方法、装置、设备和存储介质
CN114339362A (zh) 视频弹幕匹配方法、装置、计算机设备和存储介质
CN114519863A (zh) 人体重识别方法、人体重识别装置、计算机设备及介质
CN111191591B (zh) 一种水印检测、视频处理方法和相关设备
CN115119014A (zh) 视频处理方法、插帧数量模型的训练方法及装置
CN108235126B (zh) 在视频中***推荐信息的方法和装置
CN111046232B (zh) 一种视频分类方法、装置及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231114

Address after: Room 2801, 28th Floor, Building 9, Zone 4, Wangjing Dongyuan, Chaoyang District, Beijing

Patentee after: Alibaba Damo Academy (Beijing) Technology Co.,Ltd.

Address before: Box 847, four, Grand Cayman capital, Cayman Islands, UK

Patentee before: ALIBABA GROUP HOLDING Ltd.

TR01 Transfer of patent right