CN115205736A - 视频数据的识别方法和装置、电子设备和存储介质 - Google Patents

视频数据的识别方法和装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115205736A
CN115205736A CN202210784195.8A CN202210784195A CN115205736A CN 115205736 A CN115205736 A CN 115205736A CN 202210784195 A CN202210784195 A CN 202210784195A CN 115205736 A CN115205736 A CN 115205736A
Authority
CN
China
Prior art keywords
video
target
model
sequence
adjusting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210784195.8A
Other languages
English (en)
Inventor
胡郡郡
唐大闰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202210784195.8A priority Critical patent/CN115205736A/zh
Publication of CN115205736A publication Critical patent/CN115205736A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请提供了一种视频数据的识别方法和装置、电子设备和存储介质,其中,该方法包括:获取待处理的目标视频片段;将所述目标视频片段输入目标模型中,得到视频特征,其中,所述目标模型用于得出能够表征所述目标视频片段内包含的视频的特征信息,所述目标模型是通过对初始模型的模型参数进行调整后得到的;根据所述视频特征,确定对所述目标视频片段中的视频数据的识别结果。通过本申请,解决了相关技术中存在的自动化程度较低,不能准确识别出视频片段的视频内容特征的问题。

Description

视频数据的识别方法和装置、电子设备和存储介质
技术领域
本申请涉及视频图像处理领域,尤其涉及一种视频数据的识别方法和装置、电子设备和存储介质。
背景技术
目前,在确定视频片段中出现的能够表征视频特征的介质(比如人物、背景、动作等)时,需要将视频片段中出现的图像与现有的一些图像进行图像比对,这时现有的图像对比通常是将得到的至少两张图像做相似度对比,比如使用哈希算法、直方图算法、结构相似度算法等方式完成各个图像之间的相似度度量,进而确定视频片段图像中的内容特征。
但是,上述的相关技术需要对图像进行对比式学习,自动化程度较低,且比对出来的结果与实际图像之间误差较大。
因此,相关技术在视频帧数据识别处理上存在自动化程度较低,不能准确识别出视频片段的视频内容特征的问题。
发明内容
本申请提供了一种视频数据的识别方法和装置、电子设备和存储介质,以至少解决相关技术中存在自动化程度较低,不能准确识别出视频片段的视频内容特征的问题。
根据本申请实施例的一个方面,提供了一种视频数据的识别方法,该方法包括:
获取待处理的目标视频片段;
将所述目标视频片段输入目标模型中,得到视频特征,其中,所述目标模型用于得出能够表征所述目标视频片段内包含的视频的特征信息,所述目标模型是通过对初始模型的模型参数进行调整后得到的;
根据所述视频特征,确定对所述目标视频片段中的视频数据的识别结果。
根据本申请实施例的另一个方面,还提供了一种视频数据的识别装置,该装置包括:
第一获取单元,用于获取待处理的目标视频片段;
第一输入单元,用于将所述目标视频片段输入目标模型中,得到视频特征,其中,所述目标模型用于得出能够表征所述目标视频片段内包含的视频的特征信息,所述目标模型是通过对初始模型的模型参数进行调整后得到的;
确定单元,用于根据所述视频特征,确定对所述目标视频片段中的视频数据的识别结果。
可选地,该装置还包括:
第二获取单元,用于在所述将所述目标视频片段输入目标模型中,得到视频特征之前,获取初始视频片段,其中,所述初始视频片段为训练所述初始模型的样本集;
划分单元,用于对所述初始视频片段进行等频帧数的划分,得到多个视频子片段,其中,所述视频子片段内包含多个视频帧,每一个所述视频子片段中的所述视频帧的数量相同;
遮罩单元,用于利用遮罩方案对所述视频子片段进行遮罩处理,得到被遮挡的第一视频帧和未被遮挡的第二视频帧,其中,所述第一视频帧和所述第二视频帧的个数都为至少一个;
调整单元,用于根据所述第一视频帧和所述第二视频帧,调整所述初始模型的模型参数,得到所述目标模型。
可选地,遮罩单元包括:
遮罩处理模块,用于按照所述遮罩方案中的遮罩比例对所述视频子片段进行遮罩处理,得到所述第一视频帧和所述第二视频帧。
可选地,调整单元包括:
第一确定模块,用于根据所述第一视频帧,确定所述第一视频帧当前所处在的目标位置;
第二确定模块,用于根据所述第二视频帧,确定由所述第二视频帧所组成的第一序列;
调整模块,用于根据所述目标位置和所述第一序列,调整所述模型参数,得到所述目标模型。
可选地,调整模块包括:
第一输入子单元,用于将所述第一序列输入编码器内,得到编码后的第二序列;
加入子单元,用于在所述第二序列中的所述目标位置处加入多个遮罩标识,得到第三序列,其中,所述遮罩标识用于增加所述第二序列的完整度;
第二输入子单元,用于将所述第三序列输入解码器内,得到解码后的特征向量;
调整子单元,用于利用所述特征向量和损失函数,调整所述模型参数,得到所述目标模型。
可选地,调整子单元包括:
利用所述损失函数获取所述特征向量的计算结果;
根据所述计算结果反向传播更新所述模型参数,直到所述计算结果大于或者等于预设阈值时,停止对所述模型参数的调整,得到所述目标模型,其中,所述预设阈值为停止调整所述模型参数的最低值。
可选地,该装置还包括:
第三获取单元,用于获取下游任务信息;
第二输入单元,用于将所述目标视频片段对应的原始视频帧序列输入编码器内,得到编码后的第四序列;
结合单元,用于将所述第四序列与下游任务信息进行结合,得到结合后的应用结果。
根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。
根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。
本申请实施例可以应用于深度学习技术领域进行计算机视觉,在本申请实施例中,通过获取待处理的目标视频片段;将目标视频片段输入目标模型中,得到视频特征,其中,目标模型用于得出能够表征目标视频片段内包含的视频的特征信息,目标模型是通过对初始模型的模型参数进行调整后得到的;根据视频特征,确定对目标视频片段中的视频数据的识别结果。由于本申请实施例通过利用训练好的目标模型对获取的待处理的目标视频片段进行处理,得到相应的视频特征,通过该视频特征是可以识别出目标视频片段内视频数据的内容特征的,比如是背景、人物还是执行的某些动作等,进而实现自动识别的效果,同时在整个视频数据识别之前,也实现了视频自监督编码器预训练,这样由初始模型预训练完成后的目标模型得到的视频数据的识别结果更加准确和便捷,进而解决了相关技术中存在的自动化程度较低,不能准确识别出视频片段的视频内容特征的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种可选的视频数据的识别方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的视频数据的识别方法的流程示意图;
图3是根据本申请实施例的一种可选的视频数据的识别的模型框图示意图;
图4是根据本申请实施例的一种可选的视频数据的识别装置的结构框图;
图5是根据本申请实施例的一种可选的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种视频数据的识别方法。可选地,在本实施例中,上述视频数据的识别方法可以应用于如图1所示的硬件环境中。如图1所示,终端102中可以包含有存储器104、处理器106和显示器108(可选部件)。终端102可以通过网络110与服务器112进行通信连接,该服务器112可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器112上或独立于服务器112设置数据库114,用于为服务器112提供数据存储服务。此外,服务器112中可以运行有处理引擎116,该处理引擎116可以用于执行由服务器112所执行的步骤。
可选地,终端102可以但不限于为可以计算数据的终端,如移动终端(例如手机、平板电脑)、笔记本电脑、PC(Personal Computer,个人计算机)机等终端上,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI(Wireless Fidelity,无线保真)及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。
此外,在本实施例中,上述视频数据的识别方法还可以但不限于应用于处理能力较强大的独立的处理设备中,而无需进行数据交互。例如,该处理设备可以但不限于为处理能力较强大的终端设备,即,上述视频数据的识别方法中的各个操作可以集成在一个独立的处理设备中。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,在本实施例中,上述视频数据的识别方法可以由服务器112来执行,也可以由终端102来执行,还可以是由服务器112和终端102共同执行。其中,终端102执行本申请实施例的视频数据的识别方法也可以是由安装在其上的客户端来执行。
以运行在服务器为例,图2是根据本申请实施例的一种可选的视频数据的识别方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤S201,获取待处理的目标视频片段;
步骤S202,将目标视频片段输入目标模型中,得到视频特征,其中,目标模型用于得出能够表征目标视频片段内包含的视频的特征信息,目标模型是通过对初始模型的模型参数进行调整后得到的;
步骤S203,根据视频特征,确定对目标视频片段中的视频数据的识别结果。
可选地,在本申请实施例中,首先会先得到训练好的目标模型,该目标模型是对视频片段样本集进行自监督编码器预训练好的模型,也即是对初始模型的模型参数进行调整后得到的最终模型,利用该目标模型能够确定出视频片段中视频数据的识别结果。
更具体地,服务器获取到待处理的目标视频片段,其中,该目标视频片段是需要进行视频数据识别的任意一段或多段片段。然后将目标视频片段输入到训练好的目标模型中,输出视频特征,其中,该视频特征通常是某一向量特征,通过该向量特征可以得出对目标视频片段中的视频数据的识别结果,比如识别出当前目标视频片段中是背景、人物还是执行的某些动作等。
在本申请实施例中,通过获取待处理的目标视频片段;将目标视频片段输入目标模型中,得到视频特征,其中,目标模型用于得出能够表征目标视频片段内包含的视频的特征信息,目标模型是通过对初始模型的模型参数进行调整后得到的;根据视频特征,确定对目标视频片段中的视频数据的识别结果。由于本申请实施例通过利用训练好的目标模型对获取的待处理的目标视频片段进行处理,得到相应的视频特征,通过该视频特征是可以识别出目标视频片段内视频数据的内容特征的,比如是背景、人物还是执行的某些动作等,进而实现自动识别的效果,同时在整个视频数据识别之前,也实现了视频自监督编码器预训练,这样由初始模型预训练完成后的目标模型得到的视频数据的识别结果更加准确和便捷,进而解决了相关技术中存在的自动化程度较低,不能准确识别出视频片段的视频内容特征的问题。
作为一种可选实施例,在将目标视频片段输入目标模型中,得到视频特征之前,方法还包括:
获取初始视频片段,其中,初始视频片段为训练初始模型的样本集;
对初始视频片段进行等频帧数的划分,得到多个视频子片段,其中,视频子片段内包含多个视频帧,每一个视频子片段中的视频帧的数量相同;
利用遮罩方案对视频子片段进行遮罩处理,得到被遮挡的第一视频帧和未被遮挡的第二视频帧,其中,第一视频帧和第二视频帧的个数都为至少一个;
根据第一视频帧和第二视频帧,调整初始模型的模型参数,得到目标模型。
可选地,在本申请实施例中,阐述了对视频编码器的初始模型进行训练的过程,具体地,先选取训练样本集,如获取初始视频片段(即图3中的视频片段),然后对这些初始视频片段进行等频帧数数值的划分,得到多个视频子片段,需要说明的是,由于本申请实施例是按照等频帧数划分规则进行的划分,所以每一个视频子片段中包含的多个视频帧的个数是相同的。即,所有视频子片段中包含的帧数都为N,获取每个视频子片段的帧数据N*C*H*W,其中N为帧数,为超参数,可以调节,C为输入图片的通道数,W,H为输入图片的长宽。
之后利用遮罩方案中设置的遮罩比例对视频子片段进行遮罩处理,如图3遮罩K个视频帧,得到被遮挡的部分和未被遮挡的部分,其中,将被遮挡的部分称作第一视频帧,可以用N*遮罩比例表示,未被遮挡的部分称为第二视频帧,可以用N*(1-遮罩比例)表示,另外,第一视频帧和第二视频帧的个数都为至少一个,同时遮罩比例是根据历史经验和多次实验得到的,其比例可以是80%、70%、60%等。需要说明的是,为了能够较好地训练初始模型,可以将遮挡比例设置大一些,以提高训练难度,提升目标模型的准确性。
之后根据得到的第一视频帧和第二视频帧去调整初始模型的模型参数,进而确定出最终训练好的目标模型。
在本申请实施例中,通过设置对视频帧的遮罩比例,能够较好地训练初始模型,提高训练难度,提升目标模型的准确性。
作为一种可选实施例,根据第一视频帧和第二视频帧,调整初始模型的模型参数,得到目标模型包括:
根据第一视频帧,确定第一视频帧当前所处在的目标位置;
根据第二视频帧,确定由第二视频帧所组成的第一序列;
根据目标位置和第一序列,调整模型参数,得到目标模型。
可选地,由第一视频帧可以确定出当前遮挡掉的视频帧的位置,称为目标位置,由第二视频帧,可以组成第一序列,然后将第一序列输入编码器内,得到编码后的第二序列,然后在第二序列的对应的被遮挡掉的目标位置处加入多个遮罩标识(如图3添加的遮罩标识),比如Mask Token 1等,进而得到第三序列,然后将第三序列输入到解码器中,得到解码后的特征向量。举例说明:例如原视频帧序列为1、2、3、4、5,遮盖掉了偶数帧,那就是将1、3、5输入编码器得到视频特征11、33、55,在该视频特征中加入Mask Token得到11、MaskToken2、33、Mask Token4、55,然后将11、Mask Token2、33、Mask Token4、55这个序列输入到解码器中,得到解码后的特征向量。
可以理解的是,上述目标位置对应于遮罩标识,也即是将遮罩掉的视频帧用遮罩标识进行了替代,以使得得到的第三序列能够完整的表征出对应的视频子片段。本申请实施例中的遮罩标识的表示可以任意设定,本申请不对其做具体限定。
最后将解码后的特征向量与损失函数相结合,反向传播更新网络,不断重建初始视频片段,调整初始模型的模型参数,进而最终确定出目标模型。
在本申请实施例中,通过设置遮罩标识来完整对应的视频子片段,有利于初始模型的训练和目标模型的生成。
作为一种可选实施例,利用特征向量和损失函数,调整模型参数,得到目标模型包括:
利用损失函数获取特征向量的计算结果;
根据计算结果反向传播更新模型参数,直到计算结果大于或者等于预设阈值时,停止对模型参数的调整,得到目标模型,其中,预设阈值为停止调整模型参数的最低值。
可选地,在本申请实施例中,设置一预设阈值,其中,该预设阈值的作用在停止调整模型参数的无限循环,即为停止调整模型参数的最低值。具体地,利用损失函数进行loss计算,将得到的计算结果反向传播更新模型参数,不断调整模型参数,直到再次得到的计算结果大于或者等于该预设阈值,则停止对模型参数的调整,即可将当前训练的初始模型作为目标模型。
作为一种可选实施例,该方法还包括:
获取下游任务信息;
将目标视频片段对应的原始视频帧序列输入编码器内,得到编码后的第四序列;
将第四序列与下游任务信息进行结合,得到结合后的应用结果。
可选地,在本申请实施例中,需要将编码后的视频特征应用到下游任务中,所以服务器先获取到下游任务,这些下游任务通常是与识别出的视频特征能够结合应用的。在这里,下游任务会舍弃解码器只保留编码器,将目标视频片段对应的原始视频帧序列输入编码器内,得到编码后的第四序列,再将第四序列与下游任务信息进行结合,得到结合后的应用结果。
在本申请实施例中,将编码后得到的视频特征(即第四序列)应用于下游任务中,可以提高下游任务的处理速度。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述视频数据的识别方法的视频数据的识别装置。图4是根据本申请实施例的一种可选的视频数据的识别装置的结构框图,如图4所示,该装置可以包括:
第一获取单元401,用于获取待处理的目标视频片段;
第一输入单元402,与第一获取单元401相连,用于将目标视频片段输入目标模型中,得到视频特征,其中,目标模型用于得出能够表征目标视频片段内包含的视频的特征信息,目标模型是通过对初始模型的模型参数进行调整后得到的;
确定单元403,与第一输入单元402相连,用于根据视频特征,确定对目标视频片段中的视频数据的识别结果。
需要说明的是,该实施例中的第一获取单元401可以用于执行上述步骤S201,该实施例中的第一输入单元402可以用于执行上述步骤S202,该实施例中的确定单元403可以用于执行上述步骤S203。
通过上述模块,通过利用训练好的目标模型对获取的待处理的目标视频片段进行处理,得到相应的视频特征,通过该视频特征是可以识别出目标视频片段内视频数据的内容特征的,比如是背景、人物还是执行的某些动作等,进而实现自动识别的效果,同时在整个视频数据识别之前,也实现了视频自监督编码器预训练,这样由初始模型预训练完成后的目标模型得到的视频数据的识别结果更加准确和便捷,进而解决了相关技术中存在的自动化程度较低,不能准确识别出视频片段的视频内容特征的问题。
作为一种可选的实施例,该装置还包括:
第二获取单元,用于在将目标视频片段输入目标模型中,得到视频特征之前,获取初始视频片段,其中,初始视频片段为训练初始模型的样本集;
划分单元,用于对初始视频片段进行等频帧数的划分,得到多个视频子片段,其中,视频子片段内包含多个视频帧,每一个视频子片段中的视频帧的数量相同;
遮罩单元,用于利用遮罩方案对视频子片段进行遮罩处理,得到被遮挡的第一视频帧和未被遮挡的第二视频帧,其中,第一视频帧和第二视频帧的个数都为至少一个;
调整单元,用于根据第一视频帧和第二视频帧,调整初始模型的模型参数,得到目标模型。
作为一种可选的实施例,遮罩单元包括:
遮罩处理模块,用于按照遮罩方案中的遮罩比例对视频子片段进行遮罩处理,得到第一视频帧和第二视频帧。
作为一种可选的实施例,调整单元包括:
第一确定模块,用于根据第一视频帧,确定第一视频帧当前所处在的目标位置;
第二确定模块,用于根据第二视频帧,确定由第二视频帧所组成的第一序列;
调整模块,用于根据目标位置和第一序列,调整模型参数,得到目标模型。
作为一种可选的实施例,调整模块包括:
第一输入子单元,用于将第一序列输入编码器内,得到编码后的第二序列;
加入子单元,用于在第二序列中的目标位置处加入多个遮罩标识,得到第三序列,其中,遮罩标识用于增加第二序列的完整度;
第二输入子单元,用于将第三序列输入解码器内,得到解码后的特征向量;
调整子单元,用于利用特征向量和损失函数,调整模型参数,得到目标模型。
作为一种可选的实施例,调整子单元包括:
利用损失函数获取特征向量的计算结果;
根据计算结果反向传播更新模型参数,直到计算结果大于或者等于预设阈值时,停止对模型参数的调整,得到目标模型,其中,预设阈值为停止调整模型参数的最低值。
作为一种可选的实施例,该装置还包括:
第三获取单元,用于获取下游任务信息;
第二输入单元,用于将目标视频片段对应的原始视频帧序列输入编码器内,得到编码后的第四序列;
结合单元,用于将第四序列与下游任务信息进行结合,得到结合后的应用结果。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种用于实施上述视频数据的识别方法的电子设备,该电子设备可以是服务器、终端、或者其组合。
图5是根据本申请实施例的一种可选的电子设备的结构框图,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501、通信接口502和存储器503通过通信总线504完成相互间的通信,其中,
存储器503,用于存储计算机程序;
处理器501,用于执行存储器503上所存放的计算机程序时,实现如下步骤:
获取待处理的目标视频片段;
将目标视频片段输入目标模型中,得到视频特征,其中,目标模型用于得出能够表征目标视频片段内包含的视频的特征信息,目标模型是通过对初始模型的模型参数进行调整后得到的;
根据视频特征,确定对目标视频片段中的视频数据的识别结果。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,如图5所示,上述存储器503中可以但不限于包括上述视频数据的识别装置中的第一获取单元401、第一输入单元402、确定单元403。此外,还可以包括但不限于上述视频数据的识别装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
此外,上述电子设备还包括:显示器,用于显示视频数据的识别结果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,实施上述视频数据的识别方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图5其并不对上述电子设备的结构造成限定。例如,终端设备还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行视频数据的识别方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
获取待处理的目标视频片段;
将目标视频片段输入目标模型中,得到视频特征,其中,目标模型用于得出能够表征目标视频片段内包含的视频的特征信息,目标模型是通过对初始模型的模型参数进行调整后得到的;
根据视频特征,确定对目标视频片段中的视频数据的识别结果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请实施例的又一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一个实施例中的视频数据的识别方法步骤。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例视频数据的识别方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种视频数据的识别方法,其特征在于,所述方法包括:
获取待处理的目标视频片段;
将所述目标视频片段输入目标模型中,得到视频特征,其中,所述目标模型用于得出能够表征所述目标视频片段内包含的视频的特征信息,所述目标模型是通过对初始模型的模型参数进行调整后得到的;
根据所述视频特征,确定对所述目标视频片段中的视频数据的识别结果。
2.根据权利要求1所述的方法,其特征在于,在所述将所述目标视频片段输入目标模型中,得到视频特征之前,所述方法还包括:
获取初始视频片段,其中,所述初始视频片段为训练所述初始模型的样本集;
对所述初始视频片段进行等频帧数的划分,得到多个视频子片段,其中,所述视频子片段内包含多个视频帧,每一个所述视频子片段中的所述视频帧的数量相同;
利用遮罩方案对所述视频子片段进行遮罩处理,得到被遮挡的第一视频帧和未被遮挡的第二视频帧,其中,所述第一视频帧和所述第二视频帧的个数都为至少一个;
根据所述第一视频帧和所述第二视频帧,调整所述初始模型的模型参数,得到所述目标模型。
3.根据权利要求2所述的方法,其特征在于,所述利用遮罩方案对所述视频子片段进行遮罩处理,得到被遮挡的第一视频帧和未被遮挡的第二视频帧包括:
按照所述遮罩方案中的遮罩比例对所述视频子片段进行遮罩处理,得到所述第一视频帧和所述第二视频帧。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一视频帧和所述第二视频帧,调整所述初始模型的模型参数,得到所述目标模型包括:
根据所述第一视频帧,确定所述第一视频帧当前所处在的目标位置;
根据所述第二视频帧,确定由所述第二视频帧所组成的第一序列;
根据所述目标位置和所述第一序列,调整所述模型参数,得到所述目标模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标位置和所述第一序列,调整所述模型参数,得到所述目标模型包括:
将所述第一序列输入编码器内,得到编码后的第二序列;
在所述第二序列中的所述目标位置处加入多个遮罩标识,得到第三序列,其中,所述遮罩标识用于增加所述第二序列的完整度;
将所述第三序列输入解码器内,得到解码后的特征向量;
利用所述特征向量和损失函数,调整所述模型参数,得到所述目标模型。
6.根据权利要求5所述的方法,其特征在于,所述利用所述特征向量和损失函数,调整所述模型参数,得到所述目标模型包括:
利用所述损失函数获取所述特征向量的计算结果;
根据所述计算结果反向传播更新所述模型参数,直到所述计算结果大于或者等于预设阈值时,停止对所述模型参数的调整,得到所述目标模型,其中,所述预设阈值为停止调整所述模型参数的最低值。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取下游任务信息;
将所述目标视频片段对应的原始视频帧序列输入编码器内,得到编码后的第四序列;
将所述第四序列与下游任务信息进行结合,得到结合后的应用结果。
8.一种视频数据的识别装置,其特征在于,所述装置包括:
第一获取单元,用于获取待处理的目标视频片段;
第一输入单元,用于将所述目标视频片段输入目标模型中,得到视频特征,其中,所述目标模型用于得出能够表征所述目标视频片段内包含的视频的特征信息,所述目标模型是通过对初始模型的模型参数进行调整后得到的;
确定单元,用于根据所述视频特征,确定对所述目标视频片段中的视频数据的识别结果。
9.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,其特征在于,
所述存储器,用于存储计算机程序;
所述处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至7中任一项所述的方法步骤。
10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现权利要求1至7中任一项中所述的方法步骤。
CN202210784195.8A 2022-06-28 2022-06-28 视频数据的识别方法和装置、电子设备和存储介质 Pending CN115205736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210784195.8A CN115205736A (zh) 2022-06-28 2022-06-28 视频数据的识别方法和装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210784195.8A CN115205736A (zh) 2022-06-28 2022-06-28 视频数据的识别方法和装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN115205736A true CN115205736A (zh) 2022-10-18

Family

ID=83578797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210784195.8A Pending CN115205736A (zh) 2022-06-28 2022-06-28 视频数据的识别方法和装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115205736A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230017072A1 (en) * 2021-07-08 2023-01-19 Google Llc Systems And Methods For Improved Video Understanding
WO2024082943A1 (zh) * 2022-10-20 2024-04-25 腾讯科技(深圳)有限公司 视频检测方法和装置、存储介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230017072A1 (en) * 2021-07-08 2023-01-19 Google Llc Systems And Methods For Improved Video Understanding
WO2024082943A1 (zh) * 2022-10-20 2024-04-25 腾讯科技(深圳)有限公司 视频检测方法和装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN108830235B (zh) 用于生成信息的方法和装置
CN111950638B (zh) 基于模型蒸馏的图像分类方法、装置和电子设备
CN112950581B (zh) 质量评估方法、装置和电子设备
CN111858869B (zh) 一种数据匹配方法、装置、电子设备和存储介质
EP3893125A1 (en) Method and apparatus for searching video segment, device, medium and computer program product
CN109740018B (zh) 用于生成视频标签模型的方法和装置
CN109829432B (zh) 用于生成信息的方法和装置
CN115205736A (zh) 视频数据的识别方法和装置、电子设备和存储介质
CN110009059B (zh) 用于生成模型的方法和装置
CN109685805B (zh) 一种图像分割方法及装置
CN110096617B (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN110807472B (zh) 图像识别方法、装置、电子设备及存储介质
CN110097004B (zh) 面部表情识别方法和装置
CN110991298A (zh) 图像的处理方法和装置、存储介质及电子装置
CN113240071B (zh) 图神经网络处理方法、装置、计算机设备及存储介质
CN116524206B (zh) 目标图像的识别方法及装置
CN113516697A (zh) 图像配准的方法、装置、电子设备及计算机可读存储介质
CN109543557B (zh) 视频帧的处理方法、装置、设备以及存储介质
CN115757933A (zh) 推荐信息生成方法、装置、设备、介质和程序产品
CN110008907B (zh) 一种年龄的估计方法、装置、电子设备和计算机可读介质
CN114187545A (zh) 渐变镜头的识别方法和装置、电子设备和存储介质
CN112288748A (zh) 一种语义分割网络训练、图像语义分割方法及装置
CN116912518B (zh) 图像的多尺度特征处理方法及装置
CN116309274B (zh) 图像中小目标检测方法、装置、计算机设备及存储介质
CN113610064B (zh) 笔迹识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination