CN111444878B - 一种视频分类方法、装置及计算机可读存储介质 - Google Patents

一种视频分类方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111444878B
CN111444878B CN202010272792.3A CN202010272792A CN111444878B CN 111444878 B CN111444878 B CN 111444878B CN 202010272792 A CN202010272792 A CN 202010272792A CN 111444878 B CN111444878 B CN 111444878B
Authority
CN
China
Prior art keywords
video
classification
sample set
training sample
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010272792.3A
Other languages
English (en)
Other versions
CN111444878A (zh
Inventor
尹康
吴宇斌
郭烽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202010272792.3A priority Critical patent/CN111444878B/zh
Publication of CN111444878A publication Critical patent/CN111444878A/zh
Application granted granted Critical
Publication of CN111444878B publication Critical patent/CN111444878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种视频分类方法、装置及计算机可读存储介质,该视频分类方法包括:获取包括多个标记有分类标签的视频样本的原始训练样本集;从原始训练样本集内,选取视频样本组合以及对应的分类标签进行加权融合,得到增广训练样本集;将增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型;基于视频分类模型对待分类视频进行分类。通过本申请方案的实施,在模型训练阶段通过加权融合方式融合原始视频样本与分类标签,可以得到增广后的训练样本集,在保证训练样本集的规模和多样性的同时,有效降低了训练样本集构建的操作复杂度,并提升了训练样本集构建的可实现性。

Description

一种视频分类方法、装置及计算机可读存储介质
技术领域
本申请涉及电子技术领域,尤其涉及一种视频分类方法、装置及计算机可读存储介质。
背景技术
作为计算机视觉领域的基础性任务,视频分类一直是业界的研究热点。随着高清视频设备等硬件器材的不断发展,基于视频分类技术的人工智能解决方案广泛应用在视频兴趣推荐、视频安防、智能家居等方面,应用场景极其广阔。
在实际应用中,相较于针对单帧图片分类的图像分类模型,在对视频进行分类时,视频分类模型出于需要捕获多帧输入图片之间的相关性,而要求构建更大的模型结构,进而在模型训练过程中需要使用数量更为庞大的训练数据。然而,目前在构建训练数据集时,通常采用人工标注的方式实现,训练数据集构建的操作复杂度较高以及可实现性较差。
发明内容
本申请实施例提供了一种视频分类方法、装置及计算机可读存储介质,至少能够解决相关技术中采用人工标注的方式对视频分类模型所需要的训练数据进行类别标记,所导致的操作复杂度较高以及可实现性较差的问题。
本申请实施例第一方面提供了一种视频分类方法,包括:
获取包括多个标记有分类标签的视频样本的原始训练样本集;
从所述原始训练样本集内,选取视频样本组合以及对应的所述分类标签进行加权融合,得到增广训练样本集;其中,所述增广训练样本集的样本规模大于所述原始训练样本集;
将所述增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型;
基于所述视频分类模型对待分类视频进行分类。
本申请实施例第二方面提供了一种视频分类装置,包括:
获取模块,用于获取包括多个标记有分类标签的视频样本的原始训练样本集;
增广模块,用于从所述原始训练样本集内,选取视频样本组合以及对应的所述分类标签进行加权融合,得到增广训练样本集;其中,所述增广训练样本集的样本规模大于所述原始训练样本集;
训练模块,用于将所述增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型;
分类模块,用于基于所述视频分类模型对待分类视频进行分类。
本申请实施例第三方面提供了一种电子装置,包括:存储器、处理器及总线;总线用于实现存储器、处理器之间的连接通信;处理器用于执行存储在存储器上的计算机程序;处理器执行计算机程序时,实现上述本申请实施例第一方面提供的视频分类方法中的各步骤。
本申请实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现上述本申请实施例第一方面提供的视频分类方法中的各步骤。
由上可见,根据本申请方案所提供的视频分类方法、装置及计算机可读存储介质,获取包括多个标记有分类标签的视频样本的原始训练样本集;从原始训练样本集内,选取视频样本组合以及对应的分类标签进行加权融合,得到增广训练样本集;将增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型;基于视频分类模型对待分类视频进行分类。通过本申请方案的实施,在模型训练阶段通过加权融合方式融合原始视频样本与分类标签,可以得到增广后的训练样本集,在保证训练样本集的规模和多样性的同时,有效降低了训练样本集构建的操作复杂度,并提升了训练样本集构建的可实现性。
附图说明
图1为本申请第一实施例提供的视频分类方法的基本流程示意图;
图2为本申请第一实施例提供的一种具体的视频分类方法的流程示意图;
图3为本申请第一实施例提供的一种训练样本增广方法的流程示意图;
图4为本申请第一实施例提供的一种样本加权融合示意图;
图5为本申请第一实施例提供的一种模型训练方法的流程示意图;
图6为本申请第一实施例提供的一种模型测试方法的流程示意图;
图7为本申请第二实施例提供的视频分类方法的细化流程示意图;
图8为本申请第三实施例提供的一种视频分类装置的程序模块示意图;
图9为本申请第三实施例提供的另一种视频分类装置的程序模块示意图;
图10为本申请第四实施例提供的电子装置的结构示意图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了解决相关技术中采用人工标注的方式对视频分类模型所需要的训练数据进行类别标记,所导致的操作复杂度较高以及可实现性较差的缺陷,本申请第一实施例提供了一种视频分类方法。如图1为本实施例提供的视频分类方法的基本流程图,该视频分类方法包括以下的步骤:
步骤101、获取包括多个标记有分类标签的视频样本的原始训练样本集。
具体的,在实际应用中,神经网络在监督学习的框架下进行训练,从而本实施例中需要获取训练样本,从而基于不同训练样本来训练神经网络。其中,每个样本集中的每个样本都带有分类标签,用于表征各样本的类别,例如剧情、战争、心理、喜剧等。
应当说明的是,在本实施例中,原始训练样本集是通过用户自己采集、标注或者下载公共数据集方式所获取的一批带有人工标记类别的视频样本,该原始训练样本集为小规模的训练样本集。
在本实施例的一些实施方式中,为了保证后续所训练的模型的精度,在获取到原始训练样本集之后,可以对原始训练样本集中的视频样本进行调整处理。首先,按照预设采样频率fs对视频样本进行均匀采样,fs优选的可以取0.5Hz;然后,对采样所得的图像帧按比例进行缩放,使其长边的长度缩放为预设长度值W,并针对其短边,通过两侧补黑点(RGB值为(0,0,0))的方式将长度扩充为W,本实施例的W优选的可以取512像素。
此外,为了加快后续读取视频样本的速度,本实施例可以将调整处理后的视频样本存储为二进制文件,二进制文件格式优选的可以为tfrecord,从而可以有效提升后续模型训练的效率。
步骤102、从原始训练样本集内,选取视频样本组合以及对应的分类标签进行加权融合,得到增广训练样本集。
具体的,本实施例的增广训练样本集的样本规模大于原始训练样本集,也即增广训练样本集的样本数量大于原始训练样本集。在本实施例中,“增广”可以理解为增加、扩充,而增广训练样本集则是基于原始训练样本集进行样本扩充之后,所得到的大规模训练样本集。
在本实施例中,在选取视频样本组合以及对应的分类标签进行加权融合之前,可以对原始训练样本集中的训练样本进行预处理。设定第一预设值M以及第二预设值H,其中,M优选的可以取12,H优选的可以取448像素,首先,在空间维度上对原始训练样本集中的视频样本进行随机裁剪处理,也即在图像帧W×W的区域中随机选取H×H的子图像区域;然后,再在时间维度上对原始训练样本集中的视频样本进行随机裁剪,也即记原视频样本有N帧,如果M小于N,则在原视频中随机选取连续的M帧,如果M大于N,则在原视频样本后补充M-N帧尺寸为H×H像素的纯黑帧(RGB值为(0,0,0)),如果M等于N,则不进行任何操作。
步骤103、将增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型。
具体的,本实施例基于深度学习算法来实现视频分类,其中,所采用的神经网络可以包括深度神经网络(DNN),卷积神经网络(CNN)以及循环神经网络(RNN)中任意一种。本实施例基于增广训练样本集中的训练样本,在特定的训练环境下采用一定的优化算法进行神经网络训练,其中在训练时的学习率和训练次数可以根据实际需求而定,在此不作唯一限定。应当理解的是,本实施例的神经网络可以根据算法运行场景对应确定,例如在对分类算法运行时长不敏感的场景下,可以采取结构复杂度更高的神经网络,算法性能可以得到保证,从而可以提高最终分类结果的准确性。
步骤104、基于视频分类模型对待分类视频进行分类。
具体的,本实施例将待分类视频作为训练完成的视频分类模型的输入,视频分类模型对待分类视频的类别进行预测,并赋予对应的分类标签,以实现待分类视频的分类。由于本实施例的视频分类模型基于增广后的训练样本集训练得到,所训练得到的视频分类模型具有较强的泛化能力,进而模型分类结果的准确性较高。
如图2所示为本实施例提供的一种具体的视频分类方法的流程示意图,在本实施例的一些实施方式中,基于视频分类模型对待分类视频进行分类具体包括以下步骤:
步骤201、对待分类视频进行预处理,得到多个视频片段;
步骤202、将多个视频片段输入至视频分类模型,得到多个预测分类标签向量;
步骤203、基于多个预测分类标签向量中,分类标签最大值大于预设阈值的预测分类标签向量,确定待分类视频的分类。
进一步地,对待分类视频进行预处理,得到多个视频片段可以包括:按照预设的采样频率对待分类视频进行均匀采样;将采样后的待分类视频按照预设的视频片段长度进行等分,得到多个视频片段。
具体的,本实施例首先可以采用前述对原始训练样本集中视频样本进行调整处理的方式,对待分类方式进行调整处理,也即以fs对待分类视频进行均匀采样,再将其尺寸调整为W×W,最后将其尺寸缩放为H×H;然后,记待分类视频共有T帧,如果T小于M,则按前述实施方式中所记载的预处理方式补黑帧至M帧,如果T大于M,则将待分类视频按每个片段M帧进行等分,如果最后一个片段的长度不足M帧,则补黑帧至M帧;如果T等于M,则不进行任何操作。
另外,本实施例将预处理所得的m个视频片段输入训练所得模型,得到m个预测向量,待分类视频可能属于的类别共有n个,则第i个预测向量记为predi={pi_1,pi_2,…,pi_n}。然后,按位遍历m个预测向量,如果p1_j,p2_j,…,pm_j中的最大值大于预设阈值t,则说明输入视频属于第j类,否则输入视频不属于第j类,本实施例优选的可以将t设定为0.5。
更进一步地,在按照预设的采样频率对待分类视频进行均匀采样之前,包括:获取对应于待分类视频的分类运算允许耗时;根据分类运算允许耗时确定采样频率。
具体的,本实施例在进行均匀采样时,不同场景下所使用的采样频率可以有所不同,例如本实施例根据各分类场景的分类运算允许耗时确定对应的采样频率,也即在对分类算法运行时长不敏感的场景,可以使用一相对较高的采样频率。
如图3如本实施例提供的一种训练样本增广方法的流程示意图,进一步地,在本实施例的一些实施方式中,从原始训练样本集内,选取视频样本组合以及对应的分类标签进行加权融合,得到增广训练样本集具体包括以下步骤:
步骤301、从原始训练样本集内随机选取两个视频样本;
步骤302、按照预设的加权融合公式对两个视频样本以及对应的分类标签进行加权融合,得到对应标记有分类标签的增广视频样本;
步骤303、基于所有增广视频样本,得到增广训练样本集。
具体的,如图4所示为本实施例提供的一种样本加权融合示意图,本实施例的加权融合公式表示为:
其中,x1、x2分别表示两个视频样本,y1、y2分别表示对应于两个视频样本的分类标签,x表示增广视频样本,y表示对应于增广视频样本的分类标签,β~B(a,a),表示服从预设参数的beta分布,a优选的可以取0.4。
如图5为本实施例提供的一种模型训练方法的流程示意图,在本实施例的一些实施方式中,将增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型具体包括以下步骤:
步骤501、将增广训练样本集中的视频样本输入至神经网络进行训练,得到本次迭代训练实际输出的预测分类标签向量;
步骤502、采用预设的损失函数,将对应于增广训练样本集的分类标签向量与预测分类标签向量进行比对;
步骤503、在比对结果满足预设的模型收敛条件时,将本次迭代训练所得到的网络模型确定为训练完成的视频分类模型。
具体的,本实施例中将训练过程重复多次迭代优化,神经网络每次训练预测得到的输出将与样本自带的分类标签做损失函数(Loss Function)计算,若CNN结构为MoblieNet-V3+NeXtVLAD,损失函数则可以为交叉熵损失;然后采用例如BP算法反向梯度更新网络中的可训练参数,调整神经网络的权重等参数缩小下一次迭代的损失函数值,在损失函数值满足预先设定的标准时,判定满足模型收敛条件,即完成了整个神经网络模型的训练过程,反之,则继续进行下一次迭代训练,直至满足模型收敛条件。还应当说明的是,本实施例的模型收敛条件可以是所输出的损失函数值是否停止降低,若停止降低,则确定神经网络达到收敛。
如图6为本实施例提供的一种模型测试方法的流程示意图,在本实施例的一些实施方式中,在将增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型之后,还具体包括以下步骤:
步骤601、获取包括多个标记有分类标签的视频样本的测试样本集;
步骤602、将测试样本集中的视频样本输入至视频分类模型,得到测试分类标签向量;
步骤603、将测试分类标签向量与测试样本集所标记的分类标签向量进行相关度计算;
步骤604、在相关度大于预设相关度阈值时,确定视频分类模型有效。
具体的,本实施例在训练完成视频分类模型之后,还利用测试样本来验证所训练完成的视频分类模型的有效性,也即将测试样本输入至训练完成的模型,然后比较其输出的标签向量与测试样本自带的标签向量的相关性,以对模型有效性进行确定。其中,在相关性大于预设阈值时,确定训练完成的视频分类模型为正确、有效地模型,则允许进一步执行基于视频分类模型对待分类视频进行分类的步骤,反之,则说明模型性能较差,需要重新对其进行训练。
基于上述本申请实施例的技术方案,获取包括多个标记有分类标签的视频样本的原始训练样本集;从原始训练样本集内,选取视频样本组合以及对应的分类标签进行加权融合,得到增广训练样本集;将增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型;基于视频分类模型对待分类视频进行分类。通过本申请方案的实施,在模型训练阶段通过加权融合方式融合原始视频样本与分类标签,可以得到增广后的训练样本集,在保证训练样本集的规模和多样性的同时,有效降低了训练样本集构建的操作复杂度,并提升了训练样本集构建的可实现性。
图7中的方法为本申请第二实施例提供的一种细化的视频分类方法,该视频分类方法包括:
步骤701、获取包括多个标记有分类标签的视频样本的原始训练样本集。
在本实施例中,原始训练样本集是通过用户自己采集、标注或者下载公共数据集方式所获取的一批带有人工标记类别的视频样本,该原始训练样本集为小规模的训练样本集。
步骤702、从原始训练样本集内,选取视频样本组合以及对应的分类标签进行加权融合,得到增广训练样本集。
具体的,本实施例的增广训练样本集是基于原始训练样本集进行样本扩充之后,所得到的大规模训练样本集,增广训练样本集的样本规模大于原始训练样本集。在本实施例中,任取两个样本及其对应的标签向量,按照加权融合方式生成增广样本及其标签向量。
步骤703、将增广训练样本集中的视频样本输入至神经网络进行训练,得到本次迭代训练实际输出的预测分类标签向量。
步骤704、采用预设的损失函数,将对应于增广训练样本集的分类标签向量与预测分类标签向量进行比对。
本实施例中将训练过程重复多次迭代优化,神经网络每次训练预测得到的输出将与样本自带的分类标签做损失函数(Loss Function)计算,然后采用例如BP算法反向梯度更新网络中的可训练参数,调整神经网络的权重等参数缩小下一次迭代的损失函数值。
步骤705、在比对结果满足模型收敛条件时,将本次迭代训练所得到的网络模型确定为训练完成的视频分类模型。
具体的,本实施例在损失函数值满足预先设定的标准时,判定满足模型收敛条件,即完成了整个神经网络模型的训练过程,反之,则继续进行下一次迭代训练,直至满足模型收敛条件。
步骤706、将对待分类视频进行预处理所得到的多个视频片段输入至视频分类模型,得到多个预测分类标签向量。
具体的,本实施例按照预设的采样频率对待分类视频进行均匀采样;将采样后的待分类视频按照预设的视频片段长度进行等分,得到多个视频片段。另外,本实施例将预处理所得的m个视频片段输入训练所得模型,得到m个预测向量,待分类视频可能属于的类别共有n个,则第i个预测向量记为predi={pi_1,pi_2,…,pi_n}。
步骤707、基于多个预测分类标签向量中,分类标签最大值大于预设阈值的预测分类标签向量,确定待分类视频的分类。
具体的,本实施例按位遍历m个预测向量,如果p1_j,p2_j,…,pm_j中的最大值大于预设阈值t,则说明输入视频属于第j类,否则输入视频不属于第j类,本实施例优选的可以将t设定为0.5。
应当理解的是,本实施例中各步骤的序号的大小并不意味着步骤执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成唯一限定。
本申请实施例公开了一种视频分类方法,获取包括多个标记有分类标签的视频样本的原始训练样本集;从原始训练样本集内,选取视频样本组合以及对应的分类标签进行加权融合,得到增广训练样本集;将增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型;基于视频分类模型对待分类视频进行分类。通过本申请方案的实施,在模型训练阶段通过加权融合方式融合原始视频样本与分类标签,可以得到增广后的训练样本集,在保证训练样本集的规模和多样性的同时,有效降低了训练样本集构建的操作复杂度,并提升了训练样本集构建的可实现性。
图8为本申请第三实施例提供的一种视频分类装置。该视频分类装置可用于实现前述实施例中的视频分类方法。如图8所示,该视频分类装置主要包括:
获取模块801,用于获取包括多个标记有分类标签的视频样本的原始训练样本集;
增广模块802,用于从原始训练样本集内,选取视频样本组合以及对应的分类标签进行加权融合,得到增广训练样本集;其中,增广训练样本集的样本规模大于原始训练样本集;
训练模块803,用于将增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型;
分类模块804,用于基于视频分类模型对待分类视频进行分类。
在本实施例一些实施方式中,增广模块802具体用于:从原始训练样本集内随机选取两个视频样本;按照预设的加权融合公式对两个视频样本以及对应的分类标签进行加权融合,得到对应标记有分类标签的增广视频样本;基于所有增广视频样本,得到增广训练样本集。本实施例的加权融合公式可以表示为:
其中,x1、x2分别表示两个视频样本,y1、y2分别表示对应于两个视频样本的分类标签,x表示增广视频样本,y表示对应于增广视频样本的分类标签,β表示服从预设参数的beta分布。
在本实施例一些实施方式中,训练模块803具体用于:将增广训练样本集中的视频样本输入至神经网络进行训练,得到本次迭代训练实际输出的预测分类标签向量;采用预设的损失函数,将对应于增广训练样本集的分类标签向量与预测分类标签向量进行比对;在比对结果满足预设的模型收敛条件时,将本次迭代训练所得到的网络模型确定为训练完成的视频分类模型。
如图9所示为本实施例提供的另一种视频分类装置,在本实施例另一些实施方式中,视频分类装置还包括:测试模块805,用于在将增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型之后,获取包括多个标记有分类标签的视频样本的测试样本集;将测试样本集中的视频样本输入至视频分类模型,得到测试分类标签向量;将测试分类标签向量与测试样本集所标记的分类标签向量进行相关度计算;在相关度大于预设相关度阈值时,确定视频分类模型有效。相对应的,分类模块804在视频分类模型有效时,再执行其功能。
在本实施例另一些实施方式中,分类模块804具体用于:对待分类视频进行预处理,得到多个视频片段;将多个视频片段输入至视频分类模型,得到多个预测分类标签向量;基于多个预测分类标签向量中,分类标签最大值大于预设阈值的预测分类标签向量,确定待分类视频的分类。
进一步地,在本实施例的一些实施方式中,分类模块804在对待分类视频进行预处理,得到多个视频片段时,具体用于:按照预设的采样频率对待分类视频进行均匀采样;将采样后的待分类视频按照预设的视频片段长度进行等分,得到多个视频片段。
请继续参阅图9,在本实施例一些实施方式中,视频分类装置还包括:确定模块806,用于在按照预设的采样频率对待分类视频进行均匀采样之前,获取对应于待分类视频的分类运算允许耗时;根据分类运算允许耗时确定采样频率。
应当说明的是,第一、二实施例中的视频分类方法均可基于本实施例提供的视频分类装置实现,所属领域的普通技术人员可以清楚的了解到,为描述的方便和简洁,本实施例中所描述的视频分类装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
根据本实施例所提供的视频分类装置,获取包括多个标记有分类标签的视频样本的原始训练样本集;从原始训练样本集内,选取视频样本组合以及对应的分类标签进行加权融合,得到增广训练样本集;将增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型;基于视频分类模型对待分类视频进行分类。通过本申请方案的实施,在模型训练阶段通过加权融合方式融合原始视频样本与分类标签,可以得到增广后的训练样本集,在保证训练样本集的规模和多样性的同时,有效降低了训练样本集构建的操作复杂度,并提升了训练样本集构建的可实现性。
请参阅图10,图10为本申请第四实施例提供的一种电子装置。该电子装置可用于实现前述实施例中的视频分类方法。如图10所示,该电子装置主要包括:
存储器1001、处理器1002、总线1003及存储在存储器1001上并可在处理器1002上运行的计算机程序,存储器1001和处理器1002通过总线1003连接。处理器1002执行该计算机程序时,实现前述实施例中的视频分类方法。其中,处理器的数量可以是一个或多个。
存储器1001可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1001用于存储可执行程序代码,处理器1002与存储器1001耦合。
进一步的,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的电子装置中,该计算机可读存储介质可以是前述图10所示实施例中的存储器。
该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述实施例中的视频分类方法。进一步的,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本申请所提供的视频分类方法、装置及计算机可读存储介质的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种视频分类方法,其特征在于,包括:
获取包括多个标记有分类标签的视频样本的原始训练样本集;
在空间维度上对原始训练样本集中的视频样本进行随机裁剪处理,再在时间维度上对原始训练样本集中的视频样本进行随机裁剪处理;
从随机裁剪处理后得到的所述原始训练样本集内,选取视频样本组合以及对应的所述分类标签进行加权融合,得到增广训练样本集;其中,所述增广训练样本集的样本规模大于所述原始训练样本集;
将所述增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型;
基于所述视频分类模型对待分类视频进行分类。
2.根据权利要求1所述的视频分类方法,其特征在于,所述从所述原始训练样本集内,选取视频样本组合以及对应的所述分类标签进行加权融合,得到增广训练样本集包括:
从所述原始训练样本集内随机选取两个视频样本;
按照预设的加权融合公式对所述两个视频样本以及对应的所述分类标签进行加权融合,得到对应标记有分类标签的增广视频样本;所述加权融合公式表示为:
其中,x1、x2分别表示所述两个视频样本,y1、y2分别表示对应于所述两个视频样本的分类标签,x表示所述增广视频样本,y表示对应于所述增广视频样本的分类标签,β表示服从预设参数的beta分布;
基于所有所述增广视频样本,得到增广训练样本集。
3.根据权利要求1所述的视频分类方法,其特征在于,所述将所述增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型包括:
将所述增广训练样本集中的视频样本输入至神经网络进行训练,得到本次迭代训练实际输出的预测分类标签向量;
采用预设的损失函数,将对应于所述增广训练样本集的分类标签向量与所述预测分类标签向量进行比对;
在比对结果满足预设的模型收敛条件时,将所述本次迭代训练所得到的网络模型确定为训练完成的视频分类模型。
4.根据权利要求1所述的视频分类方法,其特征在于,所述将所述增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型之后,还包括:
获取包括多个标记有分类标签的视频样本的测试样本集;
将所述测试样本集中的视频样本输入至所述视频分类模型,得到测试分类标签向量;
将所述测试分类标签向量与所述测试样本集所标记的分类标签向量进行相关度计算;
在所述相关度大于预设相关度阈值时,确定所述视频分类模型有效,然后执行所述基于所述视频分类模型对待分类视频进行分类的步骤。
5.根据权利要求1至4中任意一项所述的视频分类方法,其特征在于,所述基于所述视频分类模型对待分类视频进行分类包括:
对待分类视频进行预处理,得到多个视频片段;
将所述多个视频片段输入至所述视频分类模型,得到多个预测分类标签向量;
基于所述多个预测分类标签向量中,分类标签最大值大于预设阈值的预测分类标签向量,确定所述待分类视频的分类。
6.根据权利要求5所述的视频分类方法,其特征在于,所述对待分类视频进行预处理,得到多个视频片段包括:
按照预设的采样频率对所述待分类视频进行均匀采样;
将采样后的所述待分类视频按照预设的视频片段长度进行等分,得到多个视频片段。
7.根据权利要求6所述的视频分类方法,其特征在于,所述按照预设的采样频率对所述待分类视频进行均匀采样之前,包括:
获取对应于所述待分类视频的分类运算允许耗时;
根据所述分类运算允许耗时确定所述采样频率。
8.一种视频分类装置,其特征在于,包括:
获取模块,用于获取包括多个标记有分类标签的视频样本的原始训练样本集;
增广模块,用于在空间维度上对原始训练样本集中的视频样本进行随机裁剪处理,再在时间维度上对原始训练样本集中的视频样本进行随机裁剪处理;从随机裁剪处理后得到的所述原始训练样本集内,选取视频样本组合以及对应的所述分类标签进行加权融合,得到增广训练样本集;其中,所述增广训练样本集的样本规模大于所述原始训练样本集;
训练模块,用于将所述增广训练样本集中的视频样本输入至神经网络进行训练,得到视频分类模型;
分类模块,用于基于所述视频分类模型对待分类视频进行分类。
9.一种电子装置,其特征在于,包括:存储器、处理器及总线;所述总线用于实现所述存储器、处理器之间的连接通信;
所述处理器用于执行存储在所述存储器上的计算机程序;
所述处理器执行所述计算机程序时,实现权利要求1至7中任意一项所述方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至7中的任意一项所述方法中的步骤。
CN202010272792.3A 2020-04-09 2020-04-09 一种视频分类方法、装置及计算机可读存储介质 Active CN111444878B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010272792.3A CN111444878B (zh) 2020-04-09 2020-04-09 一种视频分类方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010272792.3A CN111444878B (zh) 2020-04-09 2020-04-09 一种视频分类方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111444878A CN111444878A (zh) 2020-07-24
CN111444878B true CN111444878B (zh) 2023-07-18

Family

ID=71650174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010272792.3A Active CN111444878B (zh) 2020-04-09 2020-04-09 一种视频分类方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111444878B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860671A (zh) * 2020-07-28 2020-10-30 中山大学 分类模型训练方法、装置、终端设备和可读存储介质
CN111783902B (zh) * 2020-07-30 2023-11-07 腾讯科技(深圳)有限公司 数据增广、业务处理方法、装置、计算机设备和存储介质
CN112052356B (zh) * 2020-08-14 2023-11-24 腾讯科技(深圳)有限公司 多媒体分类方法、装置和计算机可读存储介质
CN112000842A (zh) * 2020-08-31 2020-11-27 北京字节跳动网络技术有限公司 视频处理方法和装置
CN112131430A (zh) * 2020-09-24 2020-12-25 腾讯科技(深圳)有限公司 视频聚类方法、装置、存储介质和电子设备
CN113392269A (zh) * 2020-10-22 2021-09-14 腾讯科技(深圳)有限公司 一种视频分类方法、装置、服务器及计算机可读存储介质
CN112668586B (zh) 2020-12-18 2024-05-14 北京百度网讯科技有限公司 模型训练、图片处理方法及设备、存储介质、程序产品
CN112489043A (zh) * 2020-12-21 2021-03-12 无锡祥生医疗科技股份有限公司 心脏疾病检测装置、模型训练方法及存储介质
CN112651356B (zh) * 2020-12-30 2024-01-23 杭州菲助科技有限公司 视频难度定级模型获取方法及视频难度定级方法
CN112686193B (zh) * 2021-01-06 2024-02-06 东北大学 基于压缩视频的动作识别方法、装置及计算机设备
CN112883861B (zh) * 2021-02-07 2022-06-14 同济大学 一种基于鱼群摄食状态细粒度分类的反馈式投饵控制方法
CN112784111A (zh) * 2021-03-12 2021-05-11 有半岛(北京)信息科技有限公司 视频分类方法、装置、设备及介质
CN113705315B (zh) * 2021-04-08 2024-05-14 腾讯科技(深圳)有限公司 视频处理方法、装置、设备及存储介质
CN113178189B (zh) * 2021-04-27 2023-10-27 科大讯飞股份有限公司 一种信息分类方法及装置、信息分类模型训练方法及装置
CN113011534B (zh) * 2021-04-30 2024-03-29 平安科技(深圳)有限公司 分类器训练方法、装置、电子设备和存储介质
CN114882333A (zh) * 2021-05-31 2022-08-09 北京百度网讯科技有限公司 数据处理模型的训练方法、装置、电子设备及存储介质
CN114037864A (zh) * 2021-10-31 2022-02-11 际络科技(上海)有限公司 图像分类模型的构建方法、装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10402691B1 (en) * 2018-10-04 2019-09-03 Capital One Services, Llc Adjusting training set combination based on classification accuracy
CN109978071A (zh) * 2019-04-03 2019-07-05 西北工业大学 基于数据增广和分类器融合的高光谱图像分类方法
CN110263217A (zh) * 2019-06-28 2019-09-20 北京奇艺世纪科技有限公司 一种视频片段标签识别方法及装置
CN110633751A (zh) * 2019-09-17 2019-12-31 上海眼控科技股份有限公司 车标分类模型的训练方法、车标识别方法、装置及设备
CN110751224B (zh) * 2019-10-25 2022-08-05 Oppo广东移动通信有限公司 视频分类模型的训练方法、视频分类方法、装置及设备
CN110837579A (zh) * 2019-11-05 2020-02-25 腾讯科技(深圳)有限公司 视频分类方法、装置、计算机以及可读存储介质
CN110807437B (zh) * 2019-11-08 2023-01-03 腾讯科技(深圳)有限公司 视频粒度特征确定方法、装置和计算机可读存储介质
CN110929622B (zh) * 2019-11-15 2024-01-05 腾讯科技(深圳)有限公司 视频分类方法、模型训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111444878A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN111444878B (zh) 一种视频分类方法、装置及计算机可读存储介质
CN111192292B (zh) 基于注意力机制与孪生网络的目标跟踪方法及相关设备
US10535141B2 (en) Differentiable jaccard loss approximation for training an artificial neural network
US11270124B1 (en) Temporal bottleneck attention architecture for video action recognition
CN109117781B (zh) 多属性识别模型的建立方法、装置及多属性识别方法
CN108537119B (zh) 一种小样本视频识别方法
CN112016682B (zh) 视频表征学习、预训练方法及装置、电子设备、存储介质
CN112560827B (zh) 模型训练方法、装置、预测方法、电子设备及介质
CN114494981B (zh) 一种基于多层次运动建模的动作视频分类方法及***
CN113591674B (zh) 一种面向实时视频流的边缘环境行为识别***
CN113469289A (zh) 视频自监督表征学习方法、装置、计算机设备和介质
CN114283350A (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
CN114863092A (zh) 一种基于知识蒸馏的联邦目标检测方法及***
CN112634158A (zh) 人脸图像恢复方法、装置、计算机设备及存储介质
Li et al. A motion blur QR code identification algorithm based on feature extracting and improved adaptive thresholding
CN109871790B (zh) 一种基于混合神经网络模型的视频去色方法
CN109977738B (zh) 一种视频场景分割判断方法、智能终端及存储介质
CN114049483A (zh) 基于事件相机的目标检测网络自监督训练方法及装置
CN112102200B (zh) 图像补全模型初始化方法、训练方法和图像补全方法
CN117095460A (zh) 基于长短时关系预测编码的自监督群体行为识别方法及其识别***
US20220319157A1 (en) Temporal augmentation for training video reasoning system
CN116052168A (zh) 基于单目标域图像的跨域语义分割模型生成方法及装置
CN112084371B (zh) 一种电影多标签分类方法、装置、电子设备以及存储介质
CN111754518B (zh) 图像集合的扩充方法、装置及电子设备
Žižakić et al. Efficient local image descriptors learned with autoencoders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant