CN113762041A - 视频分类方法、装置、计算机设备和存储介质 - Google Patents
视频分类方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113762041A CN113762041A CN202110479843.4A CN202110479843A CN113762041A CN 113762041 A CN113762041 A CN 113762041A CN 202110479843 A CN202110479843 A CN 202110479843A CN 113762041 A CN113762041 A CN 113762041A
- Authority
- CN
- China
- Prior art keywords
- video
- classified
- information
- attention
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种视频分类方法、装置、计算机设备和存储介质,包括:对待分类视频对应的多个待分类视频片段进行三维特征提取,得到各个待分类视频片段对应的初始待分类特征信息;对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息;基于各个待分类视频片段对应的分类影响度对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的待分类视频片段对应的注意力度;基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征;基于目标待分类视频特征确定视频分类结果。采用本方法能够提高视频分类准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种视频分类方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展和应用,各种内容平台不断涌现,用户可以在内容平台上发布和浏览多样化的短视频内容。内容平台会对视频进行分类,以便视频管理和用户搜索。
传统技术中,对视频进行分类主要是基于视频中的关键帧来确定视频的分类结果。然而,若视频中的关键帧被干扰,则无法得到准确的视频分类结果。
发明内容
基于此,有必要针对上述技术问题,提供一种视频分类方法、装置、计算机设备和存储介质,能够提高关键帧被干扰视频的视频分类准确性。
一种视频分类方法,所述方法包括:
获取待分类视频对应的多个待分类视频片段;
对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息;
对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征待分类视频片段对应的注意力度;
基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的待分类视频片段对应的注意力度;
基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征;
基于目标待分类视频特征确定待分类视频对应的视频分类结果。
在一个实施例中,获取待分类视频对应的多个待分类视频片段,包括:
从待分类视频中过滤头部视频帧和尾部视频帧,得到候选视频;
对候选视频中的各个候选视频帧进行等间隔视频帧抽取,得到多个中间视频帧;
按照视频帧对应的时间信息,对头部视频帧、尾部视频帧和各个中间视频帧进行排序,得到目标视频帧序列;
对目标视频帧序列进行切分,得到多个待分类视频片段。
在一个实施例中,对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息,包括:
基于各个待分类视频片段形成对应的三维视频图像块,三维视频图像块的三个维度分别为视频帧的长、宽和当前待分类视频片段的视频帧个数;
通过由三维卷积层和三维池化层组成的三维卷积网络,提取三维视频图像块中时间相邻像素点之间的运动信息,得到运动特征,提取三维视频图像块中空间相邻像素点之间的图像信息,得到图像特征,组成对应的初始待分类特征信息。
在一个实施例中,视频分类结果包括运动标签,基于目标待分类视频特征确定待分类视频对应的视频分类结果,包括:
基于目标待分类视频特征中的图像特征对待分类视频进行对象识别,得到待分类视频中的多个目标对象;
基于目标待分类视频特征中的运动特征对目标对象进行全局轨迹识别,得到各个目标对象对应的全局运动轨迹;
基于各个目标对象对应的全局运动轨迹确定各个目标对象之间的互动信息;
基于各个目标对象之间的互动信息和目标对象的对象类型得到待分类视频对应的运动标签。
在一个实施例中,基于各个目标对象对应的全局运动轨迹确定各个目标对象之间的互动信息,包括:
基于存在交叉的全局运动轨迹和全局运动轨迹在交叉前后的运动方向,生成对应的目标对象之间的互动信息。
一种视频分类装置,所述装置包括:
视频获取模块,用于获取待分类视频对应的多个待分类视频片段;
特征提取模块,用于对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息;
初阶注意力分配模块,用于对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征待分类视频片段对应的注意力度;
二阶注意力分配模块,用于基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的待分类视频片段对应的注意力度;
信息融合模块,用于基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征;
视频分类模块,用于基于目标待分类视频特征确定待分类视频对应的视频分类结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待分类视频对应的多个待分类视频片段;
对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息;
对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征待分类视频片段对应的注意力度;
基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的待分类视频片段对应的注意力度;
基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征;
基于目标待分类视频特征确定待分类视频对应的视频分类结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待分类视频对应的多个待分类视频片段;
对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息;
对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征待分类视频片段对应的注意力度;
基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的待分类视频片段对应的注意力度;
基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征;
基于目标待分类视频特征确定待分类视频对应的视频分类结果。
上述视频分类方法、装置、计算机设备和存储介质,通过获取待分类视频对应的多个待分类视频片段,对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息,对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征待分类视频片段对应的注意力度,基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的待分类视频片段对应的注意力度,基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征,基于目标待分类视频特征确定待分类视频对应的视频分类结果。这样,二阶注意力信息可以提高非关键分类影响度的待分类视频片段对应的注意力度,即提高非关键视频片段对应的注意力度,非关键视频片段的特征信息在一定程度上可以预测关键帧视频片段的特征信息。因此,在对关键帧被干扰的视频进行分类时,基于融合有非关键视频片段的特征信息的目标待分类视频特征也可以识别出视频的内容,借助于非关键视频片段可以有效提高关键帧被干扰视频的视频分类准确性。
一种视频分类方法,所述方法包括:
获取训练视频对应的多个训练视频片段和训练视频对应的训练标签,将各个训练视频片段输入待训练的目标视频分类模型;
对各个训练视频片段进行三维特征提取,得到各个训练视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始训练特征信息;
对各个训练视频片段对应的初始训练特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征训练视频片段对应的注意力度;
基于各个训练视频片段对应的分类影响度,对各个训练视频片段对应的初始训练特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的训练视频片段对应的注意力度;
基于初阶注意力信息和二阶注意力信息,对各个训练视频片段对应的初始训练特征信息进行融合,得到目标训练视频特征;
基于目标训练视频特征确定训练视频对应的目标预测标签,基于训练标签和目标预测标签之间的差异调整目标视频分类模型的模型参数,直至满足收敛条件,得到训练完成的目标视频分类模型。
在一个实施例中,对各个训练视频片段进行三维特征提取,得到各个训练视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始训练特征信息,包括:
通过目标视频分类模型中的三维卷积网络,分别对各个训练视频片段进行三维特征提取,得到各个训练视频片段分别对应的初始训练特征信息;三维卷积网络的网络参数是基于训练视频对应的多个训练视频片段和训练视频对应的训练标签进行预训练得到的。
在一个实施例中,三维卷积网络的预训练包括以下步骤:
将各个训练视频片段输入待训练的初始视频分类模型,初始视频分类模型包括待训练的三维卷积网络;
分别对各个训练视频片段进行三维特征提取,得到各个训练视频片段分别对应的中间训练特征信息;
基于各个中间训练特征信息得到训练视频对应的初始预测标签;
基于初始预测标签和训练标签之间的标签差异调整初始视频分类模型的模型参数,直至满足收敛条件,得到训练完成的初始视频分类模型;训练完成的初始视频分类模型包括训练完成的三维卷积网络。
一种视频分类装置,所述装置包括:
视频获取模块,用于获取训练视频对应的多个训练视频片段和训练视频对应的训练标签,将各个训练视频片段输入待训练的目标视频分类模型;
特征提取模块,用于对各个训练视频片段进行三维特征提取,得到各个训练视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始训练特征信息;
初阶注意力分配模块,用于对各个训练视频片段对应的初始训练特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征训练视频片段对应的注意力度;
二阶注意力分配模块,用于基于各个训练视频片段对应的分类影响度,对各个训练视频片段对应的初始训练特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的训练视频片段对应的注意力度;
信息融合模块,用于基于初阶注意力信息和二阶注意力信息,对各个训练视频片段对应的初始训练特征信息进行融合,得到目标训练视频特征;
参数调整模块,用于基于目标训练视频特征确定训练视频对应的目标预测标签,基于训练标签和目标预测标签之间的差异调整目标视频分类模型的模型参数,直至满足收敛条件,得到训练完成的目标视频分类模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取训练视频对应的多个训练视频片段和训练视频对应的训练标签,将各个训练视频片段输入待训练的目标视频分类模型;
对各个训练视频片段进行三维特征提取,得到各个训练视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始训练特征信息;
对各个训练视频片段对应的初始训练特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征训练视频片段对应的注意力度;
基于各个训练视频片段对应的分类影响度,对各个训练视频片段对应的初始训练特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的训练视频片段对应的注意力度;
基于初阶注意力信息和二阶注意力信息,对各个训练视频片段对应的初始训练特征信息进行融合,得到目标训练视频特征;
基于目标训练视频特征确定训练视频对应的目标预测标签,基于训练标签和目标预测标签之间的差异调整目标视频分类模型的模型参数,直至满足收敛条件,得到训练完成的目标视频分类模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取训练视频对应的多个训练视频片段和训练视频对应的训练标签,将各个训练视频片段输入待训练的目标视频分类模型;
对各个训练视频片段进行三维特征提取,得到各个训练视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始训练特征信息;
对各个训练视频片段对应的初始训练特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征训练视频片段对应的注意力度;
基于各个训练视频片段对应的分类影响度,对各个训练视频片段对应的初始训练特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的训练视频片段对应的注意力度;
基于初阶注意力信息和二阶注意力信息,对各个训练视频片段对应的初始训练特征信息进行融合,得到目标训练视频特征;
基于目标训练视频特征确定训练视频对应的目标预测标签,基于训练标签和目标预测标签之间的差异调整目标视频分类模型的模型参数,直至满足收敛条件,得到训练完成的目标视频分类模型。
上述视频分类方法、装置、计算机设备和存储介质,获取训练视频对应的多个训练视频片段和训练视频对应的训练标签,将各个训练视频片段输入待训练的目标视频分类模型,对各个训练视频片段进行三维特征提取,得到各个训练视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始训练特征信息,对各个训练视频片段对应的初始训练特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征训练视频片段对应的注意力度,基于各个训练视频片段对应的分类影响度,对各个训练视频片段对应的初始训练特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的训练视频片段对应的注意力度,基于初阶注意力信息和二阶注意力信息,对各个训练视频片段对应的初始训练特征信息进行融合,得到目标训练视频特征,基于目标训练视频特征确定训练视频对应的目标预测标签,基于训练标签和目标预测标签之间的差异调整目标视频分类模型的模型参数,直至满足收敛条件,得到训练完成的目标视频分类模型。这样,二阶注意力信息可以提高非关键分类影响度的待分类视频片段对应的注意力度,即提高非关键视频片段对应的注意力度,非关键视频片段的特征信息在一定程度上可以预测关键帧视频片段的特征信息。因此,将二阶注意力信息应用于模型训练,可以训练得到既能对常规视频进行准确分类、又能对关键帧被干扰的视频进行准确分类的目标视频分类模型。
附图说明
图1为一个实施例中视频分类方法的应用环境图;
图2为一个实施例中视频分类方法的流程示意图;
图3为一个实施例中视频标签的示意图;
图4A为一个实施例中三维卷积网络的示意图;
图4B为一个实施例中卷积块进行数据处理的示意图;
图5A为另一个实施例中视频分类方法的流程示意图;
图5B为一个实施例中多层感知机的示意图;
图5C为一个实施例中神经元进行数据处理的示意图;
图6为一个实施例中多种注意力网络的示意图;
图7为又一个实施例中视频分类方法的流程示意图;
图8为一个实施例中初始视频分类模型的示意图;
图9为另一个实施例中视频分类方法的流程示意图;
图10为一个实施例中视频分类装置的结构框图;
图11为另一个实施例中视频分类装置的结构框图;
图12为又一个实施例中视频分类装置的结构框图;
图13为一个实施例中计算机设备的内部结构图;
图14为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的计算机视觉技术、机器学习等技术,具体通过如下实施例进行说明:
本申请提供的视频分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。
终端102和服务器104均可单独用于执行本申请实施例中提供的视频分类方法。
例如,服务器可以获取待分类视频对应的多个待分类视频片段,对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息。服务器可以对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征待分类视频片段对应的注意力度,基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的待分类视频片段对应的注意力度。服务器可以基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征,基于目标待分类视频特征确定待分类视频对应的视频分类结果。
终端102和服务器104也可协同用于执行本申请实施例中提供视频分类方法。
例如,服务器可以从终端获取待分类视频对应的多个待分类视频片段。服务器对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息。服务器可以对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征待分类视频片段对应的注意力度,基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的待分类视频片段对应的注意力度。服务器可以基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征,基于目标待分类视频特征确定待分类视频对应的视频分类结果。服务器可以将视频分类结果发送至终端,在终端进行展示。
在一个实施例中,如图2所示,提供了一种视频分类方法,以该方法应用于图1中的计算机设备为例进行说明,计算机设备可以是上述图1中的终端102或服务器104。参考图2,视频分类方法包括以下步骤:
步骤S202,获取待分类视频对应的多个待分类视频片段。
其中,待分类视频是指用于确定视频分类结果的视频。视频可以是发布在各个内容平台上的视频,例如,发布在社交平台上的视频,发布在视频播放平台上的视频,发布在游戏平台上的视频等。视频片段包括视频中的至少一个视频帧。视频片段中的视频帧可以是连续的视频帧,也可以是间隔的视频帧。不同的视频片段之间可以包括相同的视频帧,也可以包括不同的视频帧,即不同的视频片段可以有重叠,也可以不重叠。待分类视频片段是从待分类视频中提取得到的视频片段。
具体地,计算机设备可以在本地、或从其他终端、服务器获取待分类视频,从待分类视频中提取待分类视频片段,得到多个待分类视频片段。计算机设备也可以直接获取待分类视频对应的多个待分类视频片段。可以理解,内容平台在接收到用户上传的视频后,可以将该视频作为待分类视频,基于待分类视频对应的多个待分类视频片段对待分类视频进行分类,得到待分类视频对应的视频分类结果。视频的视频分类结果可以应用于内容平台上的视频推荐或视频搜索。
步骤S204,对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息。
其中,三维特征提取是指对视频的二维像素空间以及第三维时间维度进行特征提取,也就是,从时间维度和空间维度进行特征提取。从时间维度进行特征提取可以得到运动特征,运动特征可以反映视频中的动作信息、视频的画面变化。从空间维度进行特征提取可以得到图像特征,图像特征可以反映视频中某一时刻的画面信息。初始待分类特征信息包括运动特征和时间特征。
具体地,计算机设备可以分别对待分类视频片段进行三维特征提取,得到待分类视频片段在时间维度上的运动特征和在空间维度上的图像特征,运动特征和图像特征组成待分类视频对应的初始待分特征信息。计算机设备可以分别对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段分别对应的初始待分类特征信息。
步骤S206,对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征待分类视频片段对应的注意力度。
其中,注意力信息可以用于反映视频片段的重要性,视频片段对最终分类结果的影响程度。计算机设备基于注意力信息可以在众多的初始待分类特征信息中聚焦于对视频分类结果更为关键的特征信息,降低对其他特征信息的关注度,甚至过滤掉无关信息。注意力信息包括可量化的注意力度。视频片段对应的注意力度越高,视频片段越重要,在确定视频分类结果时主要聚焦于注意力高的视频片段。初阶注意力信息可以反映视频片段的常规重要性。初阶注意力信息用于表征待分类视频片段对应的注意力度,注意力度可以表征待分类视频片段被关注的程度,也就是,待分类视频片段对最终分类结果的影响程度。注意力度是可以量化的数据。一般来说,视频片段中的特征信息越丰富,视频片段越重要,对应的初阶注意力信息中的注意力度越高。计算机设备基于初阶注意力信息可以对常规视频进行分类,得到准确的视频分类结果。
具体地,计算机设备可以对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息。计算机设备具体可以基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息。分类影响度较高的待分类视频片段对应的初阶注意力信息中的注意力度大于分类影响度较低的待分类视频片段对应的初阶注意力信息中的注意力度。
在一个实施例中,初阶注意力信息包括软注意力信息和硬注意力信息中的至少一种。软注意力信息是基于软注意机制为待分类视频片段对应的初始待分类特征信息分配注意力信息,软注意力信息可以均衡反映各个视频片段的重要性,视频片段的分类影响度越高,对应的软注意力信息中的注意力度越高。硬注意力信息是基于硬注意机制为待分类视频片段对应的初始待分类特征信息分配注意力信息,硬注意力信息可以有针对性地区别反映各个视频片段的重要性,基于分类影响度可以将待分类视频片段分为分类影响度较高的第一类视频片段和分类影响度较低的第二类视频片段,为第一类视频片段统一分配较高的注意力度,为第二类视频片段统一分类较低的注意力度。
步骤S208,基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的待分类视频片段对应的注意力度。
其中,分类影响度是对待分类视频片段对于分类结果的影响程度进行量化得到的数据。分类影响度对应的取值范围大于注意力度对应的取值范围。计算机设备可以基于待分类视频片段对应的初始待分类特征信息确定待分类视频片段对应的分类影响度。二阶注意力信息可以反映视频片段的特殊重要性。在初阶注意力信息中,关键分类影响度的待分类视频片段对应的注意力度高于非关键分类影响度的待分类视频片段对应的注意力度。与初阶注意力信息不同,在二阶注意力信息中,非关键分类影响度的待分类视频片段对应的注意力度可以高于关键分类影响度的待分类视频片段对应的注意力度,也可以等于或低于关键分类影响度的待分类视频片段对应的注意力度。二阶注意力信息是用于提高非关键分类影响度的待分类视频片段对应的注意力度。当待分类视频片段的分类影响度为关键分类影响度,表明该待分类视频片段对于分类结果具有较高的决定作用,当待分类视频片段的分类影响度为非关键分类影响度,表明该待分类视频片段对于分类结果具有一般的决定作用。计算机设备可以基于预设阈值区分关键分类影响度和非关键分类影响度,将大于或等于预设阈值的分类影响度作为关键分类影响度,将小于预设阈值的分类影响度作为非关键影响度。计算机设备也可以对分类影响度从大到小进行排序,将排序靠前的预设数目个分类影响度作为关键分类影响度,将其他分类影响度作为非关键分类影响度。
具体地,计算机设备可以基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息。二阶注意力信息是用于提高非关键分类影响度的待分类视频片段对应的注意力度。计算机设备基于分类影响度可以将待分类视频片段分为分类影响度较高的第三类视频片段和分类影响度较低的第四类视频片段。在一个实施例中,计算机设备可以为第三类视频片段统一分配较低的注意力度。进一步的,在第四类视频片段中,计算机设备重新基于分类影响度对各个待分类视频片段分配注意力度,此时,视频片段的分类影响度越高,对应的二阶注意力信息中的注意力度越高。在一个实施例中,计算机设备可以在保持第三类视频片段的分类影响度不变的情况下,增加第四类视频片段的分类影响度,再对第三类视频片段的分类影响度和修正后的第四类视频片段的分类影响度进行归一化处理得到各个初始待分类特征信息对应的二阶注意力信息。在增加第四类视频片段的分类影响度时,可以将所有第四类视频片段的分类影响度增加统一的预设值,也可以为不同的第四视频片段增加不同的预设值,具体可以是分类影响度越大的第四视频片段对应的预设值越大。这样,基于二阶注意力信息可以提高非关键分类影响度的待分类视频片段对应的注意力度,从而若视频中的关键帧有干扰,进一步借助非关键帧也可以得到准确的视频分类结果。
举例说明,待分类视频为体育类视频,待分类视频对应的待分类视频片段包括射门前的视频帧组成的视频片段A、射门的视频帧组成的视频片段B和射门后的视频帧组成的视频片段C。计算机设备基于各个视频片段对应的初始待分类特征信息可以得到各个视频片段对应的分类影响度。可以理解,由于视频片段B具有更丰富的动作信息,视频片段B的分类影响度大于视频片段A和视频片段C。计算机设备对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,在初阶注意力信息中,视频片段B的注意力度大于视频片段A和视频片段C的注意力度。但是,若视频片段B中有干扰信息,例如,射门动作模糊、射门动作被遮挡,则计算机设备只是聚焦于视频片段B,忽略视频片段A和视频片段C的话,是无法得到比较准确的视频分类结果,无法清晰识别出射门得到射门标签。因此,计算机设备可以进一步对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,通过二阶注意力信息提高视频片段A和视频片段C的注意力度。这样,计算机设备在进行视频分类时,除了重点关注视频片段B,也会进一步关注视频片段A和视频片段C。即使视频片段B被干扰,进一步结合视频片段A和视频片段C,计算机设备也可以得到准确的视频分类结果,识别出射门得到射门标签。计算机设备借助于关键帧的上下文的特征信息可以对关键帧被干扰的视频进行比较准确的分类。
步骤S210,基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征。
其中,目标待分类视频特征是最终用于确定视频分类结果的特征信息。
具体地,在得到各个待分类视频片段对应的初阶注意力信息和二阶注意力信息后,计算机设备可以基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征。可以理解,在基于特征信息确定视频分类结果之前,基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,可以有效提高重要特征信息的比重,减轻不重要特征信息的比重。这样,计算机设备基于目标待分类视频特征可以快速准确得到视频分类结果。
步骤S212,基于目标待分类视频特征确定待分类视频对应的视频分类结果。
具体地,计算机设备基于目标待分类视频特征可以确定待分类视频对应的视频分类结果。计算机设备可以对目标待分类视频特征进行分类,得到视频分类结果。例如,计算机设备将目标待分类视频特征输入多层感知机,通过多层感知机对目标待分类视频特征进行分类,输出视频分类结果。
在一个实施例中,视频分类结果为视频标签集合,视频标签集合包括从粗粒度到细粒度的层次化视频标签。
具体地,计算机设备最终得到的视频分类结果可以是单个标签,也可以是由多个视频标签组合得到的视频标签集合。视频标签集合中的视频标签可以是同一粒度的视频标签,也可以是从粗粒度到细粒度的层次化视频标签。粗粒度的视频标签包括场景标签、整体事件/行为标签等。场景标签是用于描述视频的场景,例如,图3中的“入口”、“看台”、“替补席/场边”、“球场”。整体事件/行为标签是用于描述视频整体、全局的事件/行为信息,例如,图3中的整体分支下的“庆祝”、“沮丧”。细粒度的视频标签包括特写事件/行为标签。特写事件/行为标签是用于描述视频局部、特写的事件/行为信息,例如,图3中的特写分支下的“传球”、“射门”。这样,计算机设备对视频进行数据分析,可以将视频的语义信息解析成多标签分类,输出从粗粒度到细粒度的层次化视频标签,完成对视频的结构化理解。
在一个实施例中,计算机设备基于目标待分类视频特征可以确定待分类视频在多个候选标签上的分类概率。例如,待分类视频在“入口”、“看台”、“替补席/场边”、“球场”标签上分别对应的分类概率,待分类视频在“射门”、“传球”、“拦截”标签上分别对应的分类概率。计算机设备可以获取分类概率大于预设阈值的候选标签作为待分类视频对应的视频标签,得到待分类视频对应的视频分类结果。
在一个实施例中,视频分类结果可以应用于视频搜索。例如,计算机设备接收到携带搜索关键词的视频搜索请求后,可以将搜索关键词和视频的视频标签进行匹配,基于匹配成功的至少一个视频生成视频搜索结果,向视频搜索请求对应的发送方返回该视频搜索结果。视频分类结果也可以应用于视频推荐。例如,计算机设备接收到用户登录通知后,计算机设备可以对用户的历史视频浏览记录进行分析得到用户偏好信息,用户偏好信息包括用户感兴趣的一类视频的视频标签,将用户偏好信息和待推荐视频的视频标签进行匹配,基于匹配成功的至少一个待推荐视频生成视频推荐结果,将视频推荐结果向用户展示。其中,匹配成功可以是字符串完全匹配,也可以是语义匹配等方式。
在一个实施例中,计算机设备可以借助机器学习模型进行视频分类。计算机设备将待分类视频对应的多个待分类视频片段输入已训练的目标视频分类模型,在机器学习模型中进行三维特征提取、分配初阶注意力信息、分配二阶注意力信息、信息融合和信息分类,最终输出视频分类结果。
上述视频分类方法中,通过获取待分类视频对应的多个待分类视频片段,对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息,对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的待分类视频片段对应的注意力度,基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征,基于目标待分类视频特征确定待分类视频对应的视频分类结果。这样,二阶注意力信息可以提高非关键分类影响度的待分类视频片段对应的注意力度,即提高非关键视频片段对应的注意力度,非关键视频片段的特征信息在一定程度上可以预测关键帧视频片段的特征信息。因此,在对关键帧被干扰的视频进行分类时,基于融合有非关键视频片段的特征信息的目标待分类视频特征也可以识别出视频的内容,借助于非关键视频片段可以提高关键帧被干扰视频的视频分类准确性。
在一个实施例中,获取待分类视频对应的多个待分类视频片段,包括:
从待分类视频中过滤头部视频帧和尾部视频帧,得到候选视频;对候选视频中的各个候选视频帧进行等间隔视频帧抽取,得到多个中间视频帧;按照视频帧对应的时间信息,对头部视频帧、尾部视频帧和各个中间视频帧进行排序,得到目标视频帧序列;对目标视频帧序列进行切分,得到多个待分类视频片段。
其中,头部视频帧可以是视频中的首帧,也可以包括视频中的首帧以及首帧的至少一个相邻视频帧。尾部视频帧可以是视频中的尾帧,也可以包括视频中的尾帧以及尾帧的至少一个相邻视频帧。可以理解,视频中的视频帧都携带时间信息。
具体地,计算机设备可以对待分类视频进行等间隔切分得到多个待分类视频片段。但是,考虑到海量的短视频有着长短不一的长度,为了能够兼顾信息的有效性和简洁性,减少计算复杂度,计算机设备可以从待分类视频中等间隔抽帧得到待分类视频片段。由于视频中的头部视频帧和尾部视频帧是比较重要的视频帧,因此,头部视频帧和尾部视频帧需要单独抽取出来。计算机设备可以从待分类视频中过滤头部视频帧和尾部视频帧,得到候选视频,在候选视频中,对候选视频中的各个候选视频帧进行等间隔视频帧抽取,得到多个中间视频帧。等间隔视频帧抽取的规则可以根据实际需要进行设置,例如,每间隔十帧抽取一帧。计算机设备将抽取出来的头部视频帧、尾部视频帧和各个中间视频帧按照时间顺序进行排序,得到目标视频帧序列。最后,计算机设备对目标视频帧序列进行切分,得到多个待分类视频片段。切分规则也可以根据实际需要进行设置,例如,每16个视频帧组成一个待分类视频片段。
本实施例中,对待分类视频进行等间隔抽帧,并保留头部视频帧和尾部视频帧,得到待分类视频片段,基于这样的待分类视频片段进行数据分析,可以减少计算量、降低计算复杂度,提高视频分类的效率。
在一个实施例中,对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息,包括:
基于各个待分类视频片段形成对应的三维视频图像块,三维视频图像块的三个维度分别为视频帧的长、宽和当前待分类视频片段的视频帧个数;通过由三维卷积层和三维池化层组成的三维卷积网络,提取三维视频图像块中时间相邻像素点之间的运动信息,得到运动特征,提取三维视频图像块中空间相邻像素点之间的图像信息,得到图像特征,组成对应的初始待分类特征信息。
其中,三维卷积网络是用于对待分类视频片段进行三维特征提取的神经网络。三维卷积网络包括三维卷积层和三维池化层。三维卷积层用于对输入数据进行卷积处理,提取特征信息。三维池化层用于对输入数据进行降维,从而去除冗余信息、压缩特征、简化网络复杂度。
具体地,计算机设备可以基于各个待分类视频片段形成各个待分类视频片段分别对应的三维视频图像块,三维视频图像块的三个维度分别为视频帧的长、宽和当前待分类视频片段的视频帧个数。计算机设备可以通过由三维卷积层和三维池化层组成的三维卷积网络,提取三维视频图像块中时间相邻像素点之间的运动信息,得到运动特征,提取三维视频图像块中空间相邻像素点之间的图像信息,得到图像特征,由提取到的运动特征和图像特征组成待分类视频片段对应的初始待分类特征信息。
在一个实施例中,三维卷积网络还可以包括全连接层,全连接层用于对特征进行进一步提取和分类。参考图4A,三维卷积网络包括8层卷积层、5层最大池化层,以及两层全连接层。8层卷积层中卷积核的个数依次为64个,128个,256个,256个,512个,512个,512个,512个,每一层卷积层中卷积核的大小均为3×3×3,卷积时步长为1。在5层最大池化层中,除第一个最大池化层的池化核为1×2×2,其他最大池化层的池化核为2×2×2。最大池化层是指按照池化核的大小遍历特征图,保留特征图中对应块最大响应的特征。计算机设备将待分类视频片段输入三维卷积网络,通过三维卷积网络中的卷积层提取三维视频图像块中时间相邻像素点之间的运动信息,得到运动特征,提取三维视频图像块中空间相邻像素点之间的图像信息,得到图像特征,通过三维卷积网络中的最大池化层对提取到的运动特征和图像特征进行降维,通过全连接层最终输出待分类视频片段对应的初始待分类特征信息。
参考图4B,图4B为基于一个卷积核进行三维特征提取的示意图。x和y表示视频帧的长和宽,z表示视频帧的个数。卷积核通过平移遍历三维视频图像块的所有像素点来提取特征信息。
本实施例中,通过三维卷积网络对待分类视频片段进行三维特征提取,可以得到包括运动特征和图像特征的初始待分类特征信息,从而基于初始待分类特征信息可以得到更准确的视频分类结果。
在一个实施例中,初阶注意力信息包括软注意力信息,对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,包括:
计算各个初始待分类特征信息对应的第一分类影响度,对各个第一分类影响度进行归一化处理,得到各个待分类视频片段对应的软注意力信息。
其中,软注意力信息是基于软注意机制为待分类视频片段对应的初始待分类特征信息进行注意力分配得到的注意力信息,软注意力信息可以均衡反映各个视频片段的重要性,视频片段的分类影响度越高,对应的软注意力信息中的注意力度越高。
具体地,计算机设备可以基于各个初始待分类特征信息计算各个初始待分类特征信息对应的第一分类影响度,对各个第一分类影响度进行归一化处理,得到各个初始待分类特征信息对应的注意力度,基于各个初始待分类特征信息对应的注意力度得到各个待分类视频片段对应的软注意力信息。
举例说明,计算机设备对各个待分类视频片段的初始待分类特征信息进行分析,可以将各个初始待分类特征信息编码形成一个T维度的向量,其中T代表待分类视频片段的片段个数,每个向量的初始向量值表示对应的待分类视频片段对最终分类结果的第一分类影响度。计算机设备可以对所有的初始向量值进行归一化处理,得到目标向量值,目标向量值可以作为待分类视频片段对应的软注意力信息中的注意力度。归一化处理具体可以是将所有的初始向量值转化到0-1之间,并且通过归一化处理得到的所有目标向量值的和为1。最终得到表征各个待分类视频片段对应的软注意力信息的T维度向量。可以理解,初始向量值越大,目标向量值越大,也就是,第一分类影响度越大,对应的软注意力信息中的注意力度越大。
本实施例中,通过计算各个初始待分类特征信息对应的第一分类影响度,对各个第一分类影响度进行归一化处理,得到各个待分类视频片段对应的软注意力信息。这样,能够根据各个待分类视频片段的分类影响度均衡地为各个待分类视频片段分配软注意力信息,在视频分类时基于软注意力信息可以聚焦于重要视频片段的特征信息,从而有助于提高视频分类的准确性。
在一个实施例中,初阶注意力信息包括硬注意力信息,对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,包括:
计算各个初始待分类特征信息对应的第二分类影响度;基于第二分类影响度将各个待分类视频片段分为第一类视频片段和第二类视频片段,第一类视频片段对应的第二分类影响度大于第二类视频片段对应的第二分类影响度;将第一类视频片段对应的注意力度确定为第一预设值,将第二类视频片段对应的注意力度确定为第二预设值,第一预设值大于第二预设值;对各个待分类视频片段对应的注意力度进行归一化处理,得到各个待分类视频片段对应的硬注意力信息。
其中,硬注意力信息是基于硬注意机制为待分类视频片段对应的初始待分类特征信息进行注意力分配得到的注意力信息,硬注意力信息可以有针对性地区别反映各个视频片段的重要性。
具体地,计算机设备可以基于各个初始待分类特征信息计算各个初始待分类特征信息对应的第二分类影响度,基于第二分类影响度将各个待分类视频片段分为第一类视频片段和第二类视频片段,其中,第一类视频片段对应的第二分类影响度大于第二类视频片段对应的第二分类影响度。接着,计算机设备可以将第一类视频片段对应的注意力度确定为第一预设值,将第二类视频片段对应的注意力度确定为第二预设值,其中,第一预设值大于第二预设值。这样,基于第一预设值和第二预设值可以明显区分出分类影响度高的待分类视频片段和分类影响度低的待分类视频片段。然后,计算机设备可以对各个待分类视频片段对应的注意力度进行归一化处理,得到各个待分类视频片段对应的硬注意力信息。
举例说明,计算机设备对各个待分类视频片段的初始待分类特征信息进行分析,可以将各个初始待分类特征信息编码形成一个T维度的向量,其中T代表待分类视频片段的片段个数,每个向量的向量值表示对应的待分类视频片段对最终分类结果的第二分类影响度。计算机设备可以从各个待分类视频片段中找出向量值最大的待分类视频片段作为第一类视频片段,将其他待分类视频片段作为第二类视频片段,将第一类视频片段对应的向量值修正为1,将第二类视频片段对应的向量值修正为0。最终得到表征各个待分类视频片段对应的硬注意力信息的T维度向量。
本实施例中,能够根据各个待分类视频片段的分类影响度针对性地为各个待分类视频片段分配硬注意力信息,提高注意力信息在重要视频片段和非重要视频片段之间的区分度,在视频分类时基于硬注意力信息可以着重聚焦于重要视频片段的特征信息,从而有助于提高视频分类的准确性。
在一个实施例中,基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,包括:
计算各个初始待分类特征信息对应的第三分类影响度;基于第三分类影响度将各个待分类视频片段分为第三类视频片段和第四类视频片段,第三类视频片段对应的第三分类影响度大于第四类视频片段对应的第三分类影响度,第三类视频片段对应的第三分类影响度为关键分类影响度,第四类视频片段对应的第三分类影响度为非关键分类影响度;将第三类视频片段对应的注意力度确定为第二预设值,将第四类视频片段对应的第三分类影响度进行归一化处理,得到第四类视频片段对应的注意力度;基于各个待分类视频片段对应的注意力度得到各个待分类视频片段对应的二阶注意力信息。
具体地,计算机设备可以基于各个初始待分类特征信息计算计算各个初始待分类特征信息对应的第三分类影响度,基于第三分类影响度将各个待分类视频片段分为第三类视频片段和第四类视频片段,其中,第三类视频片段对应的第三分类影响度大于第四类视频片段对应的第三分类影响度,第三类视频片段对应的第三分类影响度为关键分类影响度,第四类视频片段对应的第三分类影响度为非关键分类影响度。接着,计算机设备可以将第三类视频片段对应的注意力度确定为第二预设值,将第四类视频片段对应的第三分类影响度进行归一化处理,得到第四类视频片段对应的注意力度。可以理解,相比于对所有的第三分类影响度进行归一化处理得到的第一归一化处理结果,在只是对第四类视频片段对应的第三分类影响度进行归一化处理得到的第二归一化处理结果中,各个第四类视频片段对应的注意力度是有所提高的。然后,计算机设备基于各个待分类视频片段对应的注意力度得到各个待分类视频片段对应的二阶注意力信息。
举例说明,计算机设备对各个待分类视频片段的初始待分类特征信息进行分析,可以将各个初始待分类特征信息编码形成一个T维度的向量,其中T代表待分类视频片段的片段个数,每个向量的向量值表示对应的待分类视频片段对最终分类结果的第三分类影响度。计算机设备可以基于第三分类影响度对各个待分类视频片段按照从大到小进行排序,将排序结果中top-K个待分类视频片段对应的向量值修正为0,对剩余待分类视频片段对应的向量值进行归一化处理,使剩余待分类视频片段对应的向量值之和为1。最终得到表征各个待分类视频片段对应的二阶注意力信息的T维度向量。
可以理解,同一初始待分类特征信息对应的第一分类影响度、第二分类影响度、第三分类影响度可以相同,可以不同。即使不同,同一初始待分类特征信息对应的第一分类影响度、第二分类影响度、第三分类影响度也是相近的。计算机设备可以借助机器学习模型对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息和二阶注意力信息。计算机设备可以通过初阶注意力网络对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,初阶注意力网络包括软注意力网络和硬注意力网络中的至少一种。计算机设备可以通过半软注意力网络基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息。当前注意力网络为初阶注意力网络或二阶注意力网络,计算机设备将各个待分类视频片段对应的初始待分类特征信息输入当前注意力网络后,当前注意力网络对各个初始待分类特征信息进行初阶全连接处理,得到各个待分类视频片段对应的初始分类影响度,对各个初始分类影响度进行非线性处理,得到各个待分类视频片段对应的中间分类影响度,对各个中间分类影响度进行进阶全连接处理,得到各个待分类视频片段对应的当前分类影响度,基于各个待分类视频片段对应的当前分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的当前阶注意力信息。
本实施例中,能够根据各个待分类视频片段的分类影响度提高非关键分类影响度的待分类视频片段对应的注意力度,得到二阶注意力信息。在视频分类时基于二阶注意力信息可以提高对非重要视频片段的关注度,当重要视频片段有干扰时,借助于非重要视频片段也可以预测重要视频片段的内容得到比较准确的分类结果,提高关键帧被干扰的视频的分类准确性。
在一个实施例中,基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征,包括:
将同一初始待分类特征信息对应的初阶注意力信息和二阶注意力信息进行融合,得到各个初始待分类特征信息对应的目标注意力信息;将同一待分类视频片段对应的初始待分类特征信息和目标注意力信息进行加权求和,得到各个待分类视频片段对应的中间待分类特征信息;基于各个中间待分类特征信息得到目标待分类视频特征。
具体地,计算机设备在融合初始待分类特征信息时,可以先将同一初始待分类特征信息对应的初阶注意力信息和二阶注意力信息进行融合,得到各个初始待分类特征信息对应的目标注意力信息。例如,将一个初始待分类特征信息对应的初阶注意力信息和二阶注意力信息的均值作为该初始待分类特征信息对应的目标注意力信息。或者,从一个初始待分类特征信息对应的初阶注意力信息和二阶注意力信息中获取最大值作为该初始待分类特征信息对应的目标注意力信息。或者,将一个初始待分类特征信息对应的初阶注意力信息和二阶注意力信息的和作为该初始待分类特征信息对应的目标注意力信息。接着,计算机设备将同一待分类视频片段对应的初始待分类特征信息和目标注意力信息进行加权求和,得到各个待分类视频片段对应的中间待分类特征信息。最后,计算机设备基于各个中间待分类特征信息得到目标待分类视频特征。例如,将各个中间待分类特征信息进行组合得到目标待分类视频特征。
举例说明,假设有三个视频片段,对应的初始待分类特征信息分别为A、B、C,都是1024维的向量,那么视频对应的初始待分类视频特征为3×1024维的向量。三个视频片段对应的软注意力信息分别为0.1,0.2,0.7,三个视频片段对应的硬注意力信息分别为0,0,1,三个视频片段对应的二阶注意力信息分别为0.5,0.5,0。将同一视频片段对应的软注意力信息、硬注意力信息和二阶注意力信息进行求和,从而得到三个视频片段对应的目标注意力信息,三个视频片段对应的目标注意力信息分别为0.6,0.7,1.7。将由三个视频片段对应的目标注意力信息组成的矩阵和由三个视频片段对应的初始待分类特征信息组成的矩阵进行点乘,得到目标待分类视频特征。
在一个实施例中,视频分类结果包括运动标签,基于目标待分类视频特征确定待分类视频对应的视频分类结果,包括:
基于目标待分类视频特征中的图像特征对待分类视频进行对象识别,得到待分类视频中的多个目标对象;基于目标待分类视频特征中的运动特征对目标对象进行全局轨迹识别,得到各个目标对象对应的全局运动轨迹;基于各个目标对象对应的全局运动轨迹确定各个目标对象之间的互动信息;基于各个目标对象之间的互动信息和目标对象的对象类型得到待分类视频对应的运动标签。
其中,全局运动轨迹是指将目标对象作为整体时目标对象对应的运动轨迹。互动信息是指目标对象之间进行交互、互动所产生的信息。互动信息可以包括发生交互行为时对应的时间信息、在交互前后的运动信息。运动标签是用于描述视频中运动信息的标签。
具体地,计算机设备基于目标待分类视频特征可以识别待分类视频中的动作行为,得到待分类视频对应的运动标签。首先,计算机设备可以基于目标待分类视频特征中的图像特征对待分类视频进行对象识别,得到待分类视频中的多个目标对象。可以理解,图像特征是基于各个时刻的视频帧中的图像信息得到的,不同的目标对象对应的图像信息显然是不同的。例如,运动员和球在颜色、形状、纹理上都是截然不同的,运动员和球在视频帧中显然是对应不同的图像特征。因此,计算机设备可以预先学习各种目标对象对应的图像特征,从而在获取到待分类视频对应的目标待分类视频特征后,就可以将目标待分类视频特征中的图像特征和预先学习到的、已知目标对象对应的图像特征进行匹配,基于匹配结果可以确定待分类视频中出现了哪些目标对象。待分类视频中的各个目标对象可以是相同类型的目标对象,也可以是不同类型的目标对象。例如,视频中的球和人为不同类型的目标对象。
计算机设备可以进一步基于目标待分类视频特征中的运动特征对目标对象进行全局轨迹识别,得到各个目标对象对应的全局运动轨迹。可以理解,运动特征是基于不同时刻的视频帧之间的图像变化信息得到的。因此,在识别出待分类视频中的目标对象后,计算机设备可以基于目标待分类视频特征中的运动特征对目标对象进行运动跟踪、轨迹识别,得到目标对象在视频中的全局运动轨迹。不同的目标对象可以对应不同的全局运动轨迹。
接着,计算机设备可以基于各个目标对象对应的全局运动轨迹确定各个目标对象之间的互动信息。例如,计算机设备对全局运动轨迹的走向进行分析,当不同目标对象之间的全局运动轨迹有交叉点,表明目标对象之间有互动,因此基于存在交叉的全局运动轨迹可以生成对应的目标对象之间的互动信息。当目标对象之间没有交互时,对应的互动信息可以为无。
最后,计算机设备可以基于各个目标对象之间的互动信息和目标对象的对象类型得到待分类视频对应的运动标签。可以理解,计算机设备基于目标对象的对象类型和目标对象之间的互动信息可以确定具体的对象之间发生了什么互动,从而判断视频中发生了哪些具体的运动事件/行为,进而得到对应的运动标签。
举例说明,计算机设备基于目标待分类视频特征中的图像特征对待分类视频进行对象识别,得到待分类视频中存在球和运动员,基于目标待分类视频特征中的运动特征对目标对象进行全局轨迹识别,得到球和运动员对应的全局运动轨迹。进而,计算机设备基于球和运动员对应的全局运动轨迹可以确定球和运动员之间的互动信息,例如,球对应的全局运动轨迹和运动员对应的全局运动轨迹有交叉,且在轨迹交叉后,球和运动员的全局运动轨迹基本重叠,那么计算机设备基于球和运动员之间的互动信息就可以得到运动标签为“带球跑动”。
在一个实施例中,计算机设备可以训练机器学习模型,借助机器学习模型对目标待分类视频特征进行分类。计算机设备可以将目标待分类视频特征输入训练好的机器学习模型,通过机器学习模型内部的数据处理进行对象识别、全局轨迹识别、互动信息确定和分析,输出待分类视频对应的运动标签。
本实施例中,通过对目标待分类视频特征中的图像特征和运动特征进行分析,可以得到待分类视频对应的运动标签。
在一个实施例中,基于各个目标对象对应的全局运动轨迹确定各个目标对象之间的互动信息,包括:
基于存在交叉的全局运动轨迹和全局运动轨迹在交叉前后的运动方向,生成对应的目标对象之间的互动信息。
具体地,计算机设备可以基于存在交叉的全局运动轨迹和全局运动轨迹在交叉前后的运动方向,生成对应的目标对象之间的互动信息。互动信息可以记录全局运动轨迹之间的轨迹交叉点的相关信息,以及目标对象在轨迹交叉前后的运动方向,从而后续基于目标对象之间的互动信息和目标对象的对象类型可以得到待分类视频对应的运动标签。例如,当传球时,球和运动员之间是存在特定的交互行为。因此,若两个目标对象之间的互动信息可以反映两个目标对象的全局运动轨迹是存在轨迹交叉点,且在轨迹交叉后,两个目标对象彼此远离,同时两个目标对象的对象类型分别为球和运动员,那么可以判断视频中有较大的概率存在传球动作,可以将传球标签作为视频的运动标签。当炒菜时,食材和厨具之间也是存在特定的交互行为。当品尝时,食物和人之间也是存在特定的交互行为。
本实施例中,通过基于存在交叉的全局运动轨迹和全局运动轨迹在交叉前后的运动方向,生成对应的目标对象之间的互动信息。后续,基于互动信息可以快速准确确定视频对应的运动标签。
在一个实施例中,视频分类结果包括情感标签,基于目标待分类视频特征确定待分类视频对应的视频分类结果,包括:
基于目标待分类视频特征中的图像特征对待分类视频进行对象识别,得到待分类视频中的多个目标对象;基于目标待分类视频特征中的运动特征对目标对象进行关键点轨迹识别,确定各个目标对象的关键点对应的局部运动轨迹;基于局部运动轨迹确定对应的目标对象的状态变化信息;基于各个目标对象的状态变化信息和目标对象的对象类型得到待分类视频对应的情感标签。
其中,局部运动轨迹是指目标对象作为个体时,目标对象上的关键点对应的运动轨迹。状态变化信息是指目标对象自身状态变化所产生的信息。状态变化信息可以包括各个关键点对应的运动方向、各个关键点之间的位置关系等。
具体地,计算机设备基于目标待分类视频特征可以识别待分类视频中的情感事件,得到待分类视频对应的情感标签。首先,计算机设备可以基于目标待分类视频特征中的图像特征对待分类视频进行对象识别,得到待分类视频中的多个目标对象。计算机设备可以预先学习各种目标对象对应的图像特征,从而在获取到待分类视频对应的目标待分类视频特征后,就可以将目标待分类视频特征中的图像特征和预先学习到的、已知目标对象对应的图像特征进行匹配,基于匹配结果可以确定待分类视频中出现了哪些目标对象。目标对象包括至少一个关键点。例如,当目标对象为人时,目标对象的关键点可以是人的五官、四肢。在识别到目标对象后,计算机设备可以在目标对象上进行关键点定位。
计算机设备可以进一步基于目标待分类视频特征中的运动特征对目标对象上的关键点进行轨迹识别,即对目标对象进行关键点轨迹识别,得到各个目标对象上关键点对应的局部运动轨迹。可以理解,运动特征是基于不同时刻的视频帧之间的图像变化信息得到的。因此,在识别出待分类视频中的目标对象后,计算机设备可以基于目标待分类视频特征中的运动特征对目标对象上的关键点进行运动跟踪、轨迹识别,得到目标对象的关键点对应的局部运动轨迹。不同的关键点可以对应不同的局部运动轨迹。
接着,计算机设备可以基于局部运动轨迹确定对应的目标对象的状态变化信息。计算机设备具体可以对同一目标对象上各个关键点的局部运动轨迹的走向进行分析,得到目标对象的状态变化信息。例如,计算机设备对人的五官的局部运动轨迹进行分析,得到人的状态变化信息为嘴角上扬,对人的四肢的局部运动轨迹进行分析,得到人的状态变化信息为高举双臂、双臂摆动等。
最后,计算机设备可以基于各个目标对象的状态变化信息和目标对象的对象类型得到待分类视频对应的情感标签。可以理解,当目标对象的对象类型为人时,计算机设备基于目标对象的状态变化信息可以确定目标对象的情感变化,进而得到对应的情感标签。进一步的,情感标签也有不同的粒度,粗粒度的情感标签是基于绝大多数目标对象的状态变化信息确定的,细粒度的情感标签是基于单个或局部目标对象的状态变化信息确定的。
举例说明,计算机设备基于目标待分类视频特征中的图像特征对待分类视频进行对象识别,得到待分类视频中存在观众,基于目标待分类视频特征中的运动特征对观众的五官和四肢进行关键点轨迹识别,得到观众的五官和四肢对应的局部运动轨迹。进而,计算机设备基于观众的五官和四肢对应的局部运动轨迹可以确定观众的状态变化信息,例如,观众嘴角上扬、高举双臂、双臂摆动,那么计算机设备基于观众的状态变化信息就可以得到情感标签为“庆祝”。
在一个实施例中,计算机设备可以训练机器学习模型,借助机器学习模型对目标待分类视频特征进行分类。计算机设备可以将目标待分类视频特征输入训练好的机器学习模型,通过机器学习模型内部的数据处理进行对象识别、关键点轨迹识别、状态变化信息确定和分析,输出待分类视频对应的情感标签。
本实施例中,通过对目标待分类视频特征中的图像特征和运动特征进行分析,可以得到待分类视频对应的情感标签。
在一个实施例中,如图5A所示,所述方法还包括:
步骤S502,将各个待分类视频片段输入已训练的目标视频分类模型。
步骤S504,通过目标视频分类模型的三维卷积网络,对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息。
步骤S506,通过目标视频分类模型的初阶注意力网络,对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息;初阶注意力网络包括软注意力网络和硬注意力网络中的至少一种。
步骤S508,通过目标视频分类模型的半软注意力网络,基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息。
步骤S510,基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征。
步骤S512,通过目标视频分类模型的全连接网络,基于目标待分类视频特征确定待分类视频对应的视频分类结果。
其中,三维卷积网络用于对视频片段进行三维特征提取。初阶注意力网络用于对初始待分类特征信息进行初阶注意力信息分配。初阶注意力网络包括软注意力网络和硬注意力网络中的至少一种,软注意力网络用于对初始待分类特征信息进行软注意力信息分配,硬注意力网络用于对初始待分类特征信息进行硬注意力信息分配。半软注意力网络用于对初始待分类特征信息进行二阶注意力信息分配。全连接网络用于进行特征分类。
具体地,计算机设备可以借助机器学习模型对视频进行分类。用于对视频进行分类的目标视频分类模型包括三维卷积网络、初阶注意力网络、半软注意力网络和全连接网络。计算机设备获取到待分类视频对应的多个待分类视频片段后,可以将各个待分类视频片段输入已训练的目标视频分类模型,通过目标视频分类模型的三维卷积网络,对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段对应的初始待分类特征信息。将各个初始待分类特征信息输入初阶注意力网络,对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,将各个初始待分类特征信息输入半软注意力网络,基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息。基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征。最后,将目标待分类视频特征输入全连接网络,对目标待分类视频特征进行分类,得到待分类视频对应的视频分类结果,目标视频分类模型将视频分类结果进行输出。
可以理解,各个网络对数据进行处理的具体过程可以参照前述各个相关实施例所述的方法,此处不再赘述。
全连接网络有多种类型,例如支持向量机(SVM),多层感知机(MLP),全连接层(FC),随机森林以及决策树。在一个实施例中,参考图5B,计算机设备可以选择多层感知机作为全连接网络。计算机设备将目标待分类视频特征输入多层感知机,目标待分类视频特征在多层感知机中先输入到输入层,然后进行多层感知机运算,由输出层输出视频分类结果。图5B中的每一个圆圈表示神经元,其中每一个神经元的运算如图5C所示,其中x1和x2均为目标待分类视频特征中的一维数据,w1和w2为权重,b为偏置,神经元的输出为Y=f(w1×x1+w2×x2+b)。当目标待分类视频特征为4096维的特征向量时,多层感知机中的输入层包括4096个神经元,隐藏层包括201个感知神经元,输出层为1个神经元。
本实施例中,通过目标视频分类模型对待分类视频进行视频分类,得到对应的视频分类结果,能够提高视频分类的效率。
在一个实施例中,当前注意力网络为初阶注意力网络或二阶注意力网络,当前注意力网络对输入数据的数据处理包括以下步骤;
对各个初始待分类特征信息进行初阶全连接处理,得到各个待分类视频片段对应的初始分类影响度;对各个初始分类影响度进行非线性处理,得到各个待分类视频片段对应的中间分类影响度;对各个中间分类影响度进行进阶全连接处理,得到各个待分类视频片段对应的当前分类影响度;基于各个待分类视频片段对应的当前分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的当前阶注意力信息。
具体地,初阶注意力网络和二阶注意力网络的网络结构相似,对输入数据的数据处理过程也相似。因此,以当前注意力网络为例进行说明,当前注意力网络为初阶注意力网络或二阶注意力网络。当前注意力网络接收到各个初始待分类特征信息后,首先对待分类视频片段对应的初始待分类特征信息进行初阶全连接处理,得到各个待分类视频片段对应的初始分类影响度,接着对各个初始分类影响度进行非线性处理,得到各个待分类视频片段对应的中间分类影响度,然后对各个中间分类影响度进行进阶全连接处理,得到各个待分类视频片段对应的当前分类影响度,最后基于各个待分类视频片段对应的当前分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的当前阶注意力信息。其中,初阶全连接处理是指第一次全连接处理,进阶全连接处理是指第二次全连接处理。通过两次全连接处理可以避免网络过拟合和欠拟合,提高网络性能,并且将多维数据压缩到一维数据。非线性处理具体可以是通过激化函数对数据进行非线性处理,例如,ReLU(Rectified Linear Unit,,线性整流)函数。非线性处理也可以避免网络过拟合。例如,当前注意力网络的输入数据为T×1024的向量,通过第一次全连接处理,可以将向量压缩到T×256,通过非线性处理,向量依旧是T×256,通过第二次全连接处理,可以最终将向量压缩到T×1,T表示待分类视频片段的片段个数。
参考图6,软注意力网络包括依次连接的全连接层、ReLU层、全连接层和归一化层(softmax)。计算机设备可以通过软注意力网络中的第一个全连接层对各个初始待分类特征信息进行初阶全连接处理,得到各个待分类视频片段对应的初始分类影响度,通过软注意力网络中的ReLU层对各个初始分类影响度进行非线性处理,得到各个待分类视频片段对应的中间分类影响度,通过软注意力网络中的第二个全连接层对各个中间分类影响度进行进阶全连接处理,得到各个待分类视频片段对应的第一分类影响度,通过软注意力网络中的归一化层基于各个待分类视频片段对应的第一分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的软注意力信息。
硬注意力网络包括依次连接的全连接层、ReLU层、全连接层、第一处理层和归一化层(softmax)。计算机设备可以通过硬注意力网络中的第一个全连接层对各个初始待分类特征信息进行初阶全连接处理,得到各个待分类视频片段对应的初始分类影响度,通过硬注意力网络中的ReLU层对各个初始分类影响度进行非线性处理,得到各个待分类视频片段对应的中间分类影响度,通过硬注意力网络中的第二个全连接层对各个中间分类影响度进行进阶全连接处理,得到各个待分类视频片段对应的第二分类影响度,通过硬注意力网络中的第一处理层基于各个待分类视频片段对应的第二分类影响度,将各个待分类视频片段分为第一类视频片段和第二类视频片段,将第一类视频片段对应的注意力度确定为第一预设值,将第二类视频片段对应的注意力度确定为第二预设值,通过硬注意力网络中的归一化层对各个待分类视频片段对应的初始待分类特征信息分配对应的硬注意力信息。其中,若在第一处理层中,是将第二分类影响度最大的视频片段对应的注意力度设置为1,将其他分类影响度的视频片段对应的注意力度设置为0,那么硬注意力网络可以无需将数据再输入归一化层进行处理,可以直接将设置好的注意力度作为硬注意力信息进行输出。
进阶注意力网络(也可称为半软注意力网络)包括依次连接的全连接层、ReLU层、全连接层、第二处理层和归一化层(softmax)。计算机设备可以通过半软注意力网络中的第一个全连接层对各个初始待分类特征信息进行初阶全连接处理,得到各个待分类视频片段对应的初始分类影响度,通过半软注意力网络中的ReLU层对各个初始分类影响度进行非线性处理,得到各个待分类视频片段对应的中间分类影响度,通过半软注意力网络中的第二个全连接层对各个中间分类影响度进行进阶全连接处理,得到各个待分类视频片段对应的第三分类影响度,通过半软注意力网络中的第二处理层基于各个待分类视频片段对应的第三分类影响度,将各个待分类视频片段分为第三类视频片段和第四类视频片段,将第三类视频片段对应的注意力度设置为第二预设值,通过半软注意力网络中的归一化层对第四类视频片段对应的第三分类影响度进行归一化处理,得到第四类视频片段对应的注意力度,基于各个待分类视频片段对应的注意力度得到二阶注意力信息(也称为半软注意力信息)。
可以理解,软注意力网络、硬注意力网络和半软注意力网络中的全连接层、ReLU层的网络参数可以相同可以不同。
在一个实施例中,如图7所示,提供了一种视频分类方法,以该方法应用于图1中的计算机设备为例进行说明,计算机设备可以是上述图1中的终端102或服务器104。参考图7,视频分类方法包括以下步骤:
步骤S702,获取训练视频对应的多个训练视频片段和训练视频对应的训练标签,将各个训练视频片段输入待训练的目标视频分类模型。
步骤S704,对各个训练视频片段进行三维特征提取,得到各个训练视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始训练特征信息。
步骤S706,对各个训练视频片段对应的初始训练特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征训练视频片段对应的注意力度。
步骤S708,基于各个训练视频片段对应的分类影响度,对各个训练视频片段对应的初始训练特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的训练视频片段对应的注意力度。
步骤S710,基于初阶注意力信息和二阶注意力信息,对各个训练视频片段对应的初始训练特征信息进行融合,得到目标训练视频特征。
步骤S712,基于目标训练视频特征确定训练视频对应的目标预测标签,基于训练标签和目标预测标签之间的差异调整目标视频分类模型的模型参数,直至满足收敛条件,得到训练完成的目标视频分类模型。
具体地,计算机设备可以获取训练样本来训练用于对视频进行分类的目标视频分类模型。计算机设备可以从在本地、或从其他终端、服务器获取训练视频和训练视频对应的训练标签。计算机设备进一步从训练视频中提取训练视频片段,得到多个训练视频片段。计算机设备也可以直接获取训练视频对应的多个训练视频片段和训练视频对应的训练标签。
接着,计算机设备可以将各个训练视频片段输入待训练的目标视频分类模型,通过目标视频分类模型对各个训练视频片段进行三维特征提取,得到各个训练视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始训练特征信息,对各个训练视频片段对应的初始训练特征信息分配对应的初阶注意力信息,基于各个训练视频片段对应的分类影响度,对各个训练视频片段对应的初始训练特征信息分配对应的二阶注意力信息,基于初阶注意力信息和二阶注意力信息,对各个训练视频片段对应的初始训练特征信息进行融合,得到目标训练视频特征,基于目标训练视频特征确定训练视频对应的目标预测标签。计算机设备可以基于训练标签和目标预测标签之间的差异调整目标视频分类模型的模型参数,直至满足收敛条件,得到训练完成的目标视频分类模型。其中,收敛条件可以自定义,例如迭代次数达到迭代阈值,训练标签和目标预测标签的差异达到最小值等。调整模型参数具体可以是计算训练标签和目标预测标签的差异,通过差异反向传播,调整目标视频分类模型的模型参数并继续训练,直至更新后的差异或迭代次数满足收敛条件,则训练完成,得到已训练的目标视频分类模型。
可以理解,目标视频分类模型对输入数据进行数据处理得到目标预测标签的具体过程可以参照前述各个相关实施例所述的方法,此处不再赘述。
在一个实施例中,目标视频分类模型可以输出一个视频对应的至少一个目标预测标签。计算机设备可以设置目标视频分类模型在进行数据处理时得到视频在多个预设的候选标签上的分类概率。进而,可以基于分类概率从多个预设的候选标签中确定视频对应的至少一个目标预测标签。例如,将分类概率大于预设阈值的所有候选标签作为目标预测标签,将分类概率大于预设阈值、且分类概率更大的预设数目个候选标签作为目标预测标签。可以理解,在训练目标视频分类模型时,训练视频对应的训练标签为多个候选标签中的至少一个。例如,训练视频A包括训练标签1和训练标签2,训练视频B包括训练标签1和训练标签3,训练视频C包括训练标签4和训练标签5,计算机设备可以设置目标视频分类模型在进行数据处理时得到视频在训练标签1至训练标签5上的分类概率。
上述视频分类方法,获取训练视频对应的多个训练视频片段和训练视频对应的训练标签,将各个训练视频片段输入待训练的目标视频分类模型,对各个训练视频片段进行三维特征提取,得到各个训练视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始训练特征信息,对各个训练视频片段对应的初始训练特征信息分配对应的初阶注意力信息,基于各个训练视频片段对应的分类影响度,对各个训练视频片段对应的初始训练特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的训练视频片段对应的注意力度,基于初阶注意力信息和二阶注意力信息,对各个训练视频片段对应的初始训练特征信息进行融合,得到目标训练视频特征,基于目标训练视频特征确定训练视频对应的目标预测标签,基于训练标签和目标预测标签之间的差异调整目标视频分类模型的模型参数,直至满足收敛条件,得到训练完成的目标视频分类模型。这样,二阶注意力信息可以提高非关键分类影响度的待分类视频片段对应的注意力度,即提高非关键视频片段对应的注意力度,非关键视频片段的特征信息在一定程度上可以预测关键帧视频片段的特征信息。因此,将二阶注意力信息应用于模型训练,可以训练得到既能对常规视频进行准确分类、又能对关键帧被干扰的视频进行准确分类的目标视频分类模型。
在一个实施例中,对各个训练视频片段进行三维特征提取,得到各个训练视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始训练特征信息,包括:
通过目标视频分类模型中的三维卷积网络,分别对各个训练视频片段进行三维特征提取,得到各个训练视频片段分别对应的初始训练特征信息;三维卷积网络的网络参数是基于训练视频对应的多个训练视频片段和训练视频对应的训练标签进行预训练得到的。
具体地,目标视频分类模型包括三维卷积网络、初阶注意力网络、半软注意力网络和全连接网络。计算机设备可以基于训练标签和目标预测标签之间的差异调整目标视频分类模型中所有网络的网络参数,直至满足收敛条件,得到训练完成的目标视频分类模型。然而,为了降低训练的难度和复杂度,计算机设备可以先基于训练数据训练三维卷积网络的网络参数,得到三维卷积网络较优的网络参数,再在保持三维卷积网络的优质网络参数不变的情况下,基于训练数据进一步训练后续网络的网络参数,最终得到训练完成的目标视频分类模型。可以理解,三维卷积网络是用于对各个训练视频片段进行三维特征提取,得到各个训练视频片段分别对应的初始训练特征信息,也就是,三维卷积网络是用于进行特征提取。而初阶注意力网络、半软注意力网络和全连接网络都是用于进行特征处理。不同功能的网络可以分开进行训练。相比于同时训练得到所有网络的网络参数,先训练得到三维卷积网络的网络参数,再训练得到其他网络的网络参数这样的训练方法对于计算机设备的硬件要求更低,计算量更低,可以应用于各种类型的计算机设备。
在一个实施例中,三维卷积网络的预训练包括以下步骤:
将各个训练视频片段输入待训练的初始视频分类模型,初始视频分类模型包括待训练的三维卷积网络;分别对各个训练视频片段进行三维特征提取,得到各个训练视频片段分别对应的中间训练特征信息;基于各个中间训练特征信息得到训练视频对应的初始预测标签;基于初始预测标签和训练标签之间的标签差异调整初始视频分类模型的模型参数,直至满足收敛条件,得到训练完成的初始视频分类模型;训练完成的初始视频分类模型包括训练完成的三维卷积网络。
具体地,计算机设备可以基于三维卷积网络建立初始视频分类模型,基于训练数据对初始视频分类模型进行训练得到三维卷积网络的优质网络参数。初始视频分类模型可以是由三维卷积网络和分类层组成的机器学习模型。计算机设备可以将各个训练视频片段输入待训练的初始视频分类模型,通过三维卷积网络分别对各个训练视频片段进行三维特征提取,得到各个训练视频片段分别对应的中间训练特征信息,通过分类层基于各个中间训练特征信息得到训练视频对应的初始预测标签,基于初始预测标签和训练标签之间的标签差异调整初始视频分类模型的模型参数,直至满足收敛条件,得到训练完成的初始视频分类模型。其中,收敛条件可以自定义,例如迭代次数达到迭代阈值,训练标签和初始预测标签的差异达到最小值等。调整模型参数具体可以是计算训练标签和初始预测标签的差异,通过差异反向传播,调整初始视频分类模型的模型参数并继续训练,直至更新后的差异或迭代次数满足收敛条件,则训练完成,得到已训练的初始视频分类模型。当初始视频分类模型训练完成后,计算机设备就可以得到具备优质网络参数的三维卷积网络,计算机设备在该三维卷积网络的基础上建立待训练的目标视频分类模型,将训练视频对应的多个训练视频片段输入目标视频分类模型,得到训练视频对应的目标预测标签,基于训练标签和目标预测标签之间的差异调整目标视频分类模型中除三维卷积网络之外的其他模型参数,直至满足收敛条件,得到训练完成的目标视频分类模型。
参考图8,分类层具体可以是softmax层。计算机设备可以将各个训练视频片段输入待训练的初始视频分类模型,通过三维卷积网络和softmax层的数据处理,得到训练视频对应的初始预测标签。
本申请还提供一种应用场景,该应用场景应用上述的视频分类方法。具体地,该视频分类方法在该应用场景的应用如下:
短视频平台发展得十分迅猛,每时每刻都有海量的短视频制作与发布,短视频平台也越发展现其所具有的市场价值。在短视频平台上,对短视频进行分类标记,可以优化平台上的视频推荐、视频搜索等功能。
参考图9,计算机设备根据视频长度对待分类视频进行抽帧处理,得到多个待分类视频片段,再待分类视频片段输入目标视频分类模型,通过模型中的三维卷积网络进行特征提取,得到由各个待分类视频片段对应的初始待分类特征信息组成的初始待分类视频特征,进而将初始待分类视频特征输入混合注意力模块,通过混合注意力模块对初始待分类视频特征进行注意力分配,得到各个待分类视频片段对应的目标注意力信息,再基于目标注意力信息将各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征,最后通过全连接层对目标待分类视频特征进行分类,得到视频分类结果(视频标签)。模型输出视频分类结果。
1、对待分类视频进行抽帧
计算机设备将待分类视频的首尾两帧取出,然后根据视频总帧数对待分类视频进行等间隔的抽帧,基于抽取出的视频帧得到多个待分类视频片段。这样,可以降低计算复杂度。
2、通过三维卷积网络进行三维特征提取
计算机设备通过三维卷积网络对待分类视频片段的二维像素空间以及第三位时空信息同时进行卷积操作,从而得到各个待分类视频片段对应的初始待分类特征信息,组成初始待分类视频特征。
3、通过混合注意力模块进行注意力分配
对于每个视频来说,决定视频内容包含哪些类别信息的,总有一些视频片段会起着比较关键的作用,同时也有很多视频片段是所有类别的视频都包含的,因此,在对初始待分类视频特征进行分类之前,可以加重每一类视频中独特的信息的比重,同时减轻不显著(所有类别共有)的视频片段对最终分类结果的影响。因此,专门设计了混合注意力模块,混合注意力模块包括软注意力网络,硬注意力网络和半软注意力网络。基于各个注意力网络输出的注意力信息,将各个初始待分类特征信息进行融合,得到目标待分类视频特征。
其中,软注意力网络:综合考量各个待分类视频片段的特征信息,得到各个待分类视频片段对应的第一分类影响度,基于第一分类影响度形成一个T维度的向量(其中T代表视频得到的片段的个数),每个向量的值代表对应视频片段对最终分类结果影响概率,并且这些向量值的和为1。基于软注意力网络得到的T维度向量是由各个待分类视频对应的软注意力信息组成的。
硬注意力网络:综合考量各个待分类视频片段的特征信息,得到各个待分类视频片段对应的第二分类影响度,找出所有待分类视频片段中最大第二分类影响度的待分类视频片段,并且把这个待分类视频片段的向量值置为1,其余待分类视频片段的向量值置为0,得到另一个T维度的向量。基于软注意力网络得到的T维度向量是由各个待分类视频对应的硬注意力信息组成的。
半软注意力网络:综合考量各个待分类视频片段的特征信息,寻找被前两个注意力网络忽略的待分类视频片段中是否有比较关键对于最终分类结果有一定程度影响的视频片段,也就是降低前两个注意力网络的影响,保证网络的鲁棒性。综合考量各个待分类视频片段的特征信息,得到各个待分类视频片段对应的第三分类影响度,将第三分类影响度排在前top K的各个待分类视频片段对应的向量值置为0,然后在剩余的待分类视频片段中,基于第三分类影响度计算向量值,使得剩余片段的向量值的和为1,得到另一个T维度的向量。基于半软注意力网络得到的T维度向量是由各个待分类视频对应的半软注意力信息(即二阶注意力信息)组成的。
4、通过全连接网络进行分类
计算机设备可以将多层感知机作为全连接网络,将目标待分类视频特征输入多层感知机中,输出视频分类结果。
本实施例中,通过三维卷积网络可以提取到视频中的图像特征和运动特征,结合图像特征和运动特征对视频进行分类可以提高视频分类的准确性。进一步的,基于初阶注意力信息可以实现对常规视频进行准确的分类,在此基础上结合二阶注意力信息可以进一步实现对关键帧被干扰的异常视频进行准确的分类。二阶注意力信息可以提高非关键分类影响度的待分类视频片段对应的注意力度,即提高非关键视频片段对应的注意力度,非关键视频片段的特征信息在一定程度上可以预测关键帧视频片段的特征信息。因此,在对关键帧被干扰的视频进行分类时,基于融合有非关键视频片段的特征信息的目标待分类视频特征也可以识别出视频的内容,借助于非关键视频片段可以有效提高关键帧被干扰视频的视频分类准确性。
可以理解,本申请的视频分类方法可以应用于针对体育类短视频、美食类短视频等具有丰富内容的短视频的视频分类,可以对视频进行多标签的分类,输出从粗粒度到细粒度的层次化视频标签,从而达到对视频的结构化理解。
应该理解的是,虽然图2、5A、7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、5A、7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种视频分类装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:视频获取模块1002、特征提取模块1004、初阶注意力分配模块1006、二阶注意力分配模块1008、信息融合模块1010和视频分类模块1012,其中:
视频获取模块1002,用于获取待分类视频对应的多个待分类视频片段;
特征提取模块1004,用于对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息;
初阶注意力分配模块1006,用于对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征待分类视频片段对应的注意力度;
二阶注意力分配模块1008,用于基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的待分类视频片段对应的注意力度;
信息融合模块1010,用于基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征;
视频分类模块1012,用于基于目标待分类视频特征确定待分类视频对应的视频分类结果。
在一个实施例中,视频获取模块还用于从待分类视频中过滤头部视频帧和尾部视频帧,得到候选视频,对候选视频中的各个候选视频帧进行等间隔视频帧抽取,得到多个中间视频帧,按照视频帧对应的时间信息,对头部视频帧、尾部视频帧和各个中间视频帧进行排序,得到目标视频帧序列,对目标视频帧序列进行切分,得到多个待分类视频片段。
在一个实施例中,特征提取模块还用于基于各个待分类视频片段形成对应的三维视频图像块,三维视频图像块的三个维度分别为视频帧的长、宽和当前待分类视频片段的视频帧个数,通过由三维卷积层和三维池化层组成的三维卷积网络,提取三维视频图像块中时间相邻像素点之间的运动信息,得到运动特征,提取三维视频图像块中空间相邻像素点之间的图像信息,得到图像特征,组成对应的初始待分类特征信息。
在一个实施例中,初阶注意力信息包括软注意力信息,初阶注意力分配模块还用于计算各个初始待分类特征信息对应的第一分类影响度,对各个第一分类影响度进行归一化处理,得到各个待分类视频片段对应的软注意力信息。
在一个实施例中,初阶注意力信息包括硬注意力信息,初阶注意力分配模块还用于计算各个初始待分类特征信息对应的第二分类影响度,基于第二分类影响度将各个待分类视频片段分为第一类视频片段和第二类视频片段,第一类视频片段对应的第二分类影响度大于第二类视频片段对应的第二分类影响度,将第一类视频片段对应的注意力度确定为第一预设值,将第二类视频片段对应的注意力度确定为第二预设值,第一预设值大于第二预设值,对各个待分类视频片段对应的注意力度进行归一化处理,得到各个待分类视频片段对应的硬注意力信息。
在一个实施例中,二阶注意力分配模块还用于计算各个初始待分类特征信息对应的第三分类影响度,基于第三分类影响度将各个待分类视频片段分为第三类视频片段和第四类视频片段,第三类视频片段对应的第三分类影响度大于第四类视频片段对应的第三分类影响度,第三类视频片段对应的第三分类影响度为关键分类影响度,第四类视频片段对应的第三分类影响度为非关键分类影响度,将第三类视频片段对应的注意力度确定为第二预设值,将第四类视频片段对应的第三分类影响度进行归一化处理,得到第四类视频片段对应的注意力度,基于各个待分类视频片段对应的注意力度得到各个待分类视频片段对应的二阶注意力信息。
在一个实施例中,信息融合模块还用于将同一初始待分类特征信息对应的初阶注意力信息和二阶注意力信息进行融合,得到各个初始待分类特征信息对应的目标注意力信息,将同一待分类视频片段对应的初始待分类特征信息和目标注意力信息进行加权求和,得到各个待分类视频片段对应的中间待分类特征信息,基于各个中间待分类特征信息得到目标待分类视频特征。
在一个实施例中,视频分类结果包括运动标签,视频分类模块还用于基于目标待分类视频特征中的图像特征对待分类视频进行对象识别,得到待分类视频中的多个目标对象,基于目标待分类视频特征中的运动特征对目标对象进行全局轨迹识别,得到各个目标对象对应的全局运动轨迹,基于各个目标对象对应的全局运动轨迹确定各个目标对象之间的互动信息,基于各个目标对象之间的互动信息和目标对象的对象类型得到待分类视频对应的运动标签。
在一个实施例中,视频分类模块还用于基于存在交叉的全局运动轨迹和全局运动轨迹在交叉前后的运动方向,生成对应的目标对象之间的互动信息。
在一个实施例中,视频分类结果包括情感标签,视频分类模块还用于基于目标待分类视频特征中的图像特征对待分类视频进行对象识别,得到待分类视频中的多个目标对象,基于目标待分类视频特征中的运动特征对目标对象进行关键点轨迹识别,确定各个目标对象的关键点对应的局部运动轨迹,基于局部运动轨迹确定对应的目标对象的状态变化信息,基于各个目标对象的状态变化信息和目标对象的对象类型得到待分类视频对应的情感标签。
在一个实施例中,视频分类结果为视频标签集合,视频标签集合包括从粗粒度到细粒度的层次化视频标签。
在一个实施例中,视频获取模块还用于将各个待分类视频片段输入已训练的目标视频分类模型。特征提取模块还用于通过目标视频分类模型的三维卷积网络,对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息。初阶注意力分配模块还用于通过目标视频分类模型的初阶注意力网络,对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,初阶注意力网络包括软注意力网络和硬注意力网络中的至少一种。二阶注意力分配模块还用于通过目标视频分类模型的半软注意力网络,基于各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息。信息融合模块还用于基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征。视频分类模块还用于通过目标视频分类模型的全连接网络,基于目标待分类视频特征确定待分类视频对应的视频分类结果。
在一个实施例中,当前注意力网络为初阶注意力网络或二阶注意力网络。初阶注意力分配模块和二阶注意力分配模块还用于对各个初始待分类特征信息进行初阶全连接处理,得到各个待分类视频片段对应的初始分类影响度,对各个初始分类影响度进行非线性处理,得到各个待分类视频片段对应的中间分类影响度,对各个中间分类影响度进行进阶全连接处理,得到各个待分类视频片段对应的当前分类影响度,基于各个待分类视频片段对应的当前分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的当前阶注意力信息。
上述视频分类装置,二阶注意力信息可以提高非关键分类影响度的待分类视频片段对应的注意力度,即提高非关键视频片段对应的注意力度,非关键视频片段的特征信息在一定程度上可以预测关键帧视频片段的特征信息。因此,在对关键帧被干扰的视频进行分类时,基于融合有非关键视频片段的特征信息的目标待分类视频特征也可以识别出视频的内容,借助于非关键视频片段可以有效提高关键帧被干扰视频的视频分类准确性。
在一个实施例中,如图11所示,提供了一种视频分类装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:视频获取模块1102、特征提取模块1104、初阶注意力分配模块1106、二阶注意力分配模块1108、信息融合模块1110和参数调整模块1112,其中:
视频获取模块1102,用于获取训练视频对应的多个训练视频片段和训练视频对应的训练标签,将各个训练视频片段输入待训练的目标视频分类模型;
特征提取模块1104,用于对各个训练视频片段进行三维特征提取,得到各个训练视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始训练特征信息;
初阶注意力分配模块1106,用于对各个训练视频片段对应的初始训练特征信息分配对应的初阶注意力信息,初阶注意力信息用于表征训练视频片段对应的注意力度;
二阶注意力分配模块1108,用于基于各个训练视频片段对应的分类影响度,对各个训练视频片段对应的初始训练特征信息分配对应的二阶注意力信息,二阶注意力信息用于提高非关键分类影响度的训练视频片段对应的注意力度;
信息融合模块1110,用于基于初阶注意力信息和二阶注意力信息,对各个训练视频片段对应的初始训练特征信息进行融合,得到目标训练视频特征;
参数调整模块1112,用于基于目标训练视频特征确定训练视频对应的目标预测标签,基于训练标签和目标预测标签之间的差异调整目标视频分类模型的模型参数,直至满足收敛条件,得到训练完成的目标视频分类模型。
在一个实施例中,特征提取模块还用于通过目标视频分类模型中的三维卷积网络,分别对各个训练视频片段进行三维特征提取,得到各个训练视频片段分别对应的初始训练特征信息,三维卷积网络的网络参数是基于训练视频对应的多个训练视频片段和训练视频对应的训练标签进行预训练得到的。
在一个实施例中,如图12所示,所述装置还包括:
预训练模块1101,用于将各个训练视频片段输入待训练的初始视频分类模型,初始视频分类模型包括待训练的三维卷积网络,分别对各个训练视频片段进行三维特征提取,得到各个训练视频片段分别对应的中间训练特征信息,基于各个中间训练特征信息得到训练视频对应的初始预测标签,基于初始预测标签和训练标签之间的标签差异调整初始视频分类模型的模型参数,直至满足收敛条件,得到训练完成的初始视频分类模型,训练完成的初始视频分类模型包括训练完成的三维卷积网络。
上述视频分类装置,二阶注意力信息可以提高非关键分类影响度的待分类视频片段对应的注意力度,即提高非关键视频片段对应的注意力度,非关键视频片段的特征信息在一定程度上可以预测关键帧视频片段的特征信息。因此,将二阶注意力信息应用于模型训练,可以训练得到既能对常规视频进行准确分类、又能对关键帧被干扰的视频进行准确分类的目标视频分类模型。
关于视频分类装置的具体限定可以参见上文中对于视频分类方法的限定,在此不再赘述。上述视频分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图13所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标视频分类模型、视频分类结果、训练视频等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频分类方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图14所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图13、14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种视频分类方法,其特征在于,所述方法包括:
获取待分类视频对应的多个待分类视频片段;
对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息;
对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,所述初阶注意力信息用于表征待分类视频片段对应的注意力度;
基于所述各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,所述二阶注意力信息用于提高非关键分类影响度的待分类视频片段对应的注意力度;
基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征;
基于所述目标待分类视频特征确定所述待分类视频对应的视频分类结果。
2.根据权利要求1所述的方法,其特征在于,所述初阶注意力信息包括软注意力信息,所述对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,包括:
计算各个初始待分类特征信息对应的第一分类影响度;
对各个第一分类影响度进行归一化处理,得到各个待分类视频片段对应的软注意力信息。
3.根据权利要求1所述的方法,其特征在于,所述初阶注意力信息包括硬注意力信息,所述对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,包括:
计算各个初始待分类特征信息对应的第二分类影响度;
基于第二分类影响度将各个待分类视频片段分为第一类视频片段和第二类视频片段,所述第一类视频片段对应的第二分类影响度大于所述第二类视频片段对应的第二分类影响度;
将第一类视频片段对应的注意力度确定为第一预设值,将第二类视频片段对应的注意力度确定为第二预设值,所述第一预设值大于所述第二预设值;
对各个待分类视频片段对应的注意力度进行归一化处理,得到所述各个待分类视频片段对应的硬注意力信息。
4.根据权利要求1所述的方法,其特征在于,所述基于所述各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,包括:
计算各个初始待分类特征信息对应的第三分类影响度;
基于第三分类影响度将各个待分类视频片段分为第三类视频片段和第四类视频片段,所述第三类视频片段对应的第三分类影响度大于所述第四类视频片段对应的第三分类影响度,所述第三类视频片段对应的第三分类影响度为关键分类影响度,所述第四类视频片段对应的第三分类影响度为非关键分类影响度;
将第三类视频片段对应的注意力度确定为第二预设值,将第四类视频片段对应的第三分类影响度进行归一化处理,得到第四类视频片段对应的注意力度;
基于各个待分类视频片段对应的注意力度得到所述各个待分类视频片段对应的二阶注意力信息。
5.根据权利要求1所述的方法,其特征在于,所述基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征,包括:
将同一初始待分类特征信息对应的初阶注意力信息和二阶注意力信息进行融合,得到各个初始待分类特征信息对应的目标注意力信息;
将同一待分类视频片段对应的初始待分类特征信息和目标注意力信息进行加权求和,得到各个待分类视频片段对应的中间待分类特征信息;
基于各个中间待分类特征信息得到所述目标待分类视频特征。
6.根据权利要求1所述的方法,其特征在于,所述视频分类结果包括运动标签,所述基于所述目标待分类视频特征确定所述待分类视频对应的视频分类结果,包括:
基于所述目标待分类视频特征中的图像特征对所述待分类视频进行对象识别,得到所述待分类视频中的多个目标对象;
基于所述目标待分类视频特征中的运动特征对目标对象进行全局轨迹识别,得到各个目标对象对应的全局运动轨迹;
基于各个目标对象对应的全局运动轨迹确定各个目标对象之间的互动信息;
基于各个目标对象之间的互动信息和目标对象的对象类型得到所述待分类视频对应的运动标签。
7.根据权利要求1所述的方法,其特征在于,所述视频分类结果包括情感标签,所述基于所述目标待分类视频特征确定所述待分类视频对应的视频分类结果,包括:
基于所述目标待分类视频特征中的图像特征对所述待分类视频进行对象识别,得到所述待分类视频中的多个目标对象;
基于所述目标待分类视频特征中的运动特征对目标对象进行关键点轨迹识别,确定各个目标对象的关键点对应的局部运动轨迹;
基于局部运动轨迹确定对应的目标对象的状态变化信息;
基于各个目标对象的状态变化信息和目标对象的对象类型得到所述待分类视频对应的情感标签。
8.根据权利要求1所述的方法,其特征在于,所述视频分类结果为视频标签集合,所述视频标签集合包括从粗粒度到细粒度的层次化视频标签。
9.根据权利要求1至8中任意一项所述的方法,其特征在于,所述方法还包括:
将各个待分类视频片段输入已训练的目标视频分类模型;
通过所述目标视频分类模型的三维卷积网络,对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息;
通过所述目标视频分类模型的初阶注意力网络,对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,所述初阶注意力网络包括软注意力网络和硬注意力网络中的至少一种;
通过所述目标视频分类模型的半软注意力网络,基于所述各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息;
基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征;
通过所述目标视频分类模型的全连接网络,基于所述目标待分类视频特征确定所述待分类视频对应的视频分类结果。
10.根据权利要求9所述的方法,其特征在于,当前注意力网络为所述初阶注意力网络或所述二阶注意力网络,所述当前注意力网络对输入数据的数据处理包括以下步骤;
对各个初始待分类特征信息进行初阶全连接处理,得到各个待分类视频片段对应的初始分类影响度;
对各个初始分类影响度进行非线性处理,得到所述各个待分类视频片段对应的中间分类影响度;
对各个中间分类影响度进行进阶全连接处理,得到所述各个待分类视频片段对应的当前分类影响度;
基于所述各个待分类视频片段对应的当前分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的当前阶注意力信息。
11.一种视频分类方法,其特征在于,所述方法包括:
获取训练视频对应的多个训练视频片段和训练视频对应的训练标签,将各个训练视频片段输入待训练的目标视频分类模型;
对各个训练视频片段进行三维特征提取,得到各个训练视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始训练特征信息;
对各个训练视频片段对应的初始训练特征信息分配对应的初阶注意力信息,所述初阶注意力信息用于表征训练视频片段对应的注意力度;
基于所述各个训练视频片段对应的分类影响度,对各个训练视频片段对应的初始训练特征信息分配对应的二阶注意力信息,所述二阶注意力信息用于提高非关键分类影响度的训练视频片段对应的注意力度;
基于初阶注意力信息和二阶注意力信息,对各个训练视频片段对应的初始训练特征信息进行融合,得到目标训练视频特征;
基于所述目标训练视频特征确定所述训练视频对应的目标预测标签,基于所述训练标签和所述目标预测标签之间的差异调整所述目标视频分类模型的模型参数,直至满足收敛条件,得到训练完成的目标视频分类模型。
12.一种视频分类装置,其特征在于,所述装置包括:
视频获取模块,用于获取待分类视频对应的多个待分类视频片段;
特征提取模块,用于对各个待分类视频片段进行三维特征提取,得到各个待分类视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始待分类特征信息;
初阶注意力分配模块,用于对各个待分类视频片段对应的初始待分类特征信息分配对应的初阶注意力信息,所述初阶注意力信息用于表征待分类视频片段对应的注意力度;
二阶注意力分配模块,用于基于所述各个待分类视频片段对应的分类影响度,对各个待分类视频片段对应的初始待分类特征信息分配对应的二阶注意力信息,所述二阶注意力信息用于提高非关键分类影响度的待分类视频片段对应的注意力度;
信息融合模块,用于基于初阶注意力信息和二阶注意力信息,对各个待分类视频片段对应的初始待分类特征信息进行融合,得到目标待分类视频特征;
视频分类模块,用于基于所述目标待分类视频特征确定所述待分类视频对应的视频分类结果。
13.一种视频分类装置,其特征在于,所述装置包括:
视频获取模块,用于获取训练视频对应的多个训练视频片段和训练视频对应的训练标签,将各个训练视频片段输入待训练的目标视频分类模型;
特征提取模块,用于对各个训练视频片段进行三维特征提取,得到各个训练视频片段在时间维度的运动特征和在空间维度的图像特征,组成对应的初始训练特征信息;
初阶注意力分配模块,用于对各个训练视频片段对应的初始训练特征信息分配对应的初阶注意力信息,所述初阶注意力信息用于表征训练视频片段对应的注意力度;
二阶注意力分配模块,用于基于所述各个训练视频片段对应的分类影响度,对各个训练视频片段对应的初始训练特征信息分配对应的二阶注意力信息,所述二阶注意力信息用于提高非关键分类影响度的训练视频片段对应的注意力度;
信息融合模块,用于基于初阶注意力信息和二阶注意力信息,对各个训练视频片段对应的初始训练特征信息进行融合,得到目标训练视频特征;
参数调整模块,用于基于所述目标训练视频特征确定所述训练视频对应的目标预测标签,基于所述训练标签和所述目标预测标签之间的差异调整所述目标视频分类模型的模型参数,直至满足收敛条件,得到训练完成的目标视频分类模型。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10或11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10或11中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110479843.4A CN113762041A (zh) | 2021-04-30 | 2021-04-30 | 视频分类方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110479843.4A CN113762041A (zh) | 2021-04-30 | 2021-04-30 | 视频分类方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113762041A true CN113762041A (zh) | 2021-12-07 |
Family
ID=78786977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110479843.4A Pending CN113762041A (zh) | 2021-04-30 | 2021-04-30 | 视频分类方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113762041A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114519401A (zh) * | 2022-02-22 | 2022-05-20 | 平安科技(深圳)有限公司 | 一种图像分类方法及装置、电子设备、存储介质 |
CN117292209A (zh) * | 2023-11-27 | 2023-12-26 | 之江实验室 | 基于时空增强三维注意力重参数化的视频分类方法及装置 |
-
2021
- 2021-04-30 CN CN202110479843.4A patent/CN113762041A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114519401A (zh) * | 2022-02-22 | 2022-05-20 | 平安科技(深圳)有限公司 | 一种图像分类方法及装置、电子设备、存储介质 |
CN117292209A (zh) * | 2023-11-27 | 2023-12-26 | 之江实验室 | 基于时空增强三维注意力重参数化的视频分类方法及装置 |
CN117292209B (zh) * | 2023-11-27 | 2024-04-05 | 之江实验室 | 基于时空增强三维注意力重参数化的视频分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Efficient facial expression recognition algorithm based on hierarchical deep neural network structure | |
Muhammad et al. | Cost-effective video summarization using deep CNN with hierarchical weighted fusion for IoT surveillance networks | |
Wang et al. | Deep appearance and motion learning for egocentric activity recognition | |
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN110837836A (zh) | 基于最大化置信度的半监督语义分割方法 | |
Liu et al. | Learning human pose models from synthesized data for robust RGB-D action recognition | |
Do et al. | Deep neural network-based fusion model for emotion recognition using visual data | |
CN111104930B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
Gammulle et al. | Multi-level sequence GAN for group activity recognition | |
CN113033507B (zh) | 场景识别方法、装置、计算机设备和存储介质 | |
Gunawardena et al. | Real-time automated video highlight generation with dual-stream hierarchical growing self-organizing maps | |
Tliba et al. | Satsal: A multi-level self-attention based architecture for visual saliency prediction | |
Sreenivas et al. | Group based emotion recognition from video sequence with hybrid optimization based recurrent fuzzy neural network | |
CN113762041A (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
Zhao et al. | Multifeature fusion action recognition based on key frames | |
Lin et al. | The design of error-correcting output codes based deep forest for the micro-expression recognition | |
Bellamkonda et al. | Facial expression recognition on partially occluded faces using component based ensemble stacked cnn | |
Abdallah et al. | Facial-expression recognition based on a low-dimensional temporal feature space | |
Sumalakshmi et al. | Fused deep learning based Facial Expression Recognition of students in online learning mode | |
CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
Xia et al. | Media quality assessment by perceptual gaze-shift patterns discovery | |
CN114328904A (zh) | 内容处理方法、装置、计算机设备和存储介质 | |
CN113824989A (zh) | 一种视频处理方法、装置和计算机可读存储介质 | |
CN113822291A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN115439922A (zh) | 对象行为识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |