CN110929099A - 一种基于多任务学习的短视频帧语义提取方法及*** - Google Patents

一种基于多任务学习的短视频帧语义提取方法及*** Download PDF

Info

Publication number
CN110929099A
CN110929099A CN201911186838.3A CN201911186838A CN110929099A CN 110929099 A CN110929099 A CN 110929099A CN 201911186838 A CN201911186838 A CN 201911186838A CN 110929099 A CN110929099 A CN 110929099A
Authority
CN
China
Prior art keywords
short video
loss
face
channel
semantic extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911186838.3A
Other languages
English (en)
Other versions
CN110929099B (zh
Inventor
范俊
顾湘余
熊永春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU QUWEI SCIENCE & TECHNOLOGY Co Ltd
Original Assignee
HANGZHOU QUWEI SCIENCE & TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU QUWEI SCIENCE & TECHNOLOGY Co Ltd filed Critical HANGZHOU QUWEI SCIENCE & TECHNOLOGY Co Ltd
Priority to CN201911186838.3A priority Critical patent/CN110929099B/zh
Publication of CN110929099A publication Critical patent/CN110929099A/zh
Application granted granted Critical
Publication of CN110929099B publication Critical patent/CN110929099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多任务学习的短视频帧语义提取方法及***,该提取方法包括步骤:S1、构建包括图片分类通道、人脸识别通道的卷积神经网络;S2、通过短视频帧样本数据对卷积神经网络进行训练,得到多任务短视频语义提取模型;S3、基于多任务短视频语义提取模型对视频帧语义进行提取,得到包括粗粒度特征及人脸特征的语义特征。本发明针对短视频的特点,采用多任务学习的方式,同时提取短视频帧的粗粒度特征及人物特征,使短视频语义提取的信息更加全面、快速。

Description

一种基于多任务学习的短视频帧语义提取方法及***
技术领域
本发明涉及语义提取领域,具体涉及一种基于多任务学习的短视频帧语义提取方法及***。
背景技术
随着计算机技术与信息技术的快速发展,视频的制作方法与上传途径变得日益便捷,致使海量的视频资源存在与互联网中,各大视频门户为解决视频信息过载问题,会向用户提供视频搜索和推荐等功能。为了能够有效地管理视频资源并高效地实现上述功能,对视频特征进行精准的提取和规范化的标引尤为重要。
现有的视频帧语义提取主要基于CNN的有监督图片表征学习及自动编码器。基于CNN的表征学习通常是在标注的图片数据集上训练一个完成某个有监督任务(通常是分类)的卷积神经网络,然后利用卷积神经网络中间某一层作为该图片的压缩表示。这个中间层一般选取全连接层之前的卷积层的输出。自编码器是一种无监督学习方法。自编码器包含一个编码器和一个解码器。编码器对输入图片进行一系列处理,得到一个中间表示;解码器从这个中间表示恢复出图片,目标是输入和输出的误差最小。因为这个中间表示可以恢复出原始图片,因此认为它包含了原始输入的几乎所有信息,而且维度通常比较小,因此可以作为图片的压缩表示。
然而,基于CNN的有监督图片表征学习需要大量的标注数据。目前的做法一般是在无标记样本上预训练部分网络,在用标注数据训练整个网络;其次,训练网络基本都是单目标的(大多数是分类),一些重要特征可能学习不到。例如短视频帧中,面积很小,但是信息量很大的人脸。相反,一些模板素材信息占画面的面积很大,但是信息量很小。编码器作为表征学习的一种方法,对数据的要求很低。但是由于缺乏指导,自编码器的目标是学习到更多的信息,而不是相关信息。
短视频内容大多数都是以人物为主体。如:同一个歌星的MV,同一个影星的电影,同一个网红的vlog,可能场景完全不同(山、水、森林、室内),但是,这些视频的受众有个共同点:喜欢短视频里面的某个人物。所以,在对短视频做表征学习的时候,仅仅考虑普通的图像特征是不够的,还需要考虑人物特征。因此,如何实现视短频帧语义的全面提取,是本领域亟待解决的问题。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于多任务学习的短视频帧语义提取方法及***。针对短视频的特点,采用多任务学习的方式,同时提取短视频帧的粗粒度特征及人物特征,使短视频提取的语义信息更加全面、快速。。
为了实现以上目的,本发明采用以下技术方案:
一种基于多任务学习的短视频帧语义提取方法,包括步骤:
S1、构建包括图片分类通道、人脸识别通道的卷积神经网络;
S2、通过短视频帧样本数据对卷积神经网络进行训练,得到多任务短视频语义提取模型;
S3、基于多任务短视频语义提取模型对视频帧语义进行提取,得到包括粗粒度特征及人脸特征的语义特征。
进一步地,所述图片分类通道包括一个图片分类卷积神经网络,所述人脸识别通道包括三个人脸识别卷积神经网络,所述三个人脸识别卷积神经网络共享参数;所述图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层,共享一个输出层。
进一步地,整个所述任务短视频语义提取模型的损失函数为:
Lossoverall=Lossface+λLossclassify
其中,Lossclassify为图片分类通道的损失函数,Lossface为人脸识别通道的损失函数,λ是调节分类损失和人脸识别损失作用的调节参数。
进一步地,图片分类通道的损失函数Lossclassify为:
Figure BDA0002292599320000031
其中,n是类别数,yc是训练样本的标记,pc是模型的预测概率;
人脸识别通道的损失函数Lossface为:
Lossface=max(d(anchor,positive)-d(anchor,negative)+margin,0)
其中,anchor代表基准人脸;positive代表和anchor属于同一个人的正样本;negative代表和anchor不属于同一个人负样本;d(a,b)表示向量a和b之间的距离,margin是一个附加约束,约束负样本和基准人脸的距离大于正样本与基准人脸的距离,且距离的差值不小于margin。
进一步地,所述粗粒度特征包括短视频帧的场景、色彩、物体。
本发明还提出一种基于多任务学习的短视频帧语义提取***,包括:
构建模块,用于构建包括图片分类通道、人脸识别通道的卷积神经网络;
训练模块,用于通过短视频帧样本数据对卷积神经网络进行训练,得到多任务短视频语义提取模型;
语义提取模块,用于基于多任务短视频语义提取模型对视频帧语义进行提取,得到包括粗粒度特征及人脸特征的语义特征。
进一步地,所述图片分类通道包括一个图片分类卷积神经网络,所述人脸识别通道包括三个人脸识别卷积神经网络,所述三个人脸识别卷积神经网络共享参数,所述图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层,共享一个输出层。
进一步地,整个所述任务短视频语义提取模型的损失函数为:
Lossoverall=Lossface+λLossclassify
其中,Lossclassify为图片分类通道的损失函数,Lossface为人脸识别通道的损失函数,λ是调节分类损失和人脸识别损失作用的调节参数。
进一步地,图片分类通道的损失函数Lossclassify为:
Figure BDA0002292599320000032
其中,n是类别数,yc是训练样本的标记,pc是模型的预测概率;
人脸识别通道的损失函数Lossface为:
Lossface=max(d(anchor,positive)-d(anchor,negative)+margin,0)
其中,anchor代表基准人脸;positive代表和anchor属于同一个人的正样本;negative代表和anchor不属于同一个人负样本;d(a,b)表示向量a和b之间的距离,margin是一个附加约束,约束负样本和基准人脸的距离大于正样本与基准人脸的距离,且距离的差值不小于margin。
进一步地,所述粗粒度特征包括短视频帧的场景、色彩、物体。
与现有技术相比,本发明针对短视频中人脸信息占用的面积很小、但人脸信息是人们在关注短视频时重点关注的信息的特点,提出了包括图片分类通道、人脸识别通道的卷积神经网络。通过图片分类通道是学习视频帧的粗粒度特征,包括图片的场景、色彩、物体等;通过人脸识别通道是学习视频中的人物特征。克服了现有的针对短视频帧的语义提取存在遗漏重要特征的问题,能够更全面地获取短视频帧中所包括的语义信息,进一步能够提高基于提取的语义所进行短视频推荐等功能的性能。此外,本发明引入利用多任务学习方式,提高了语义提取的性能。且多任务短视频语义提取模型的性能由两个任务共同决定,相互影响,能够整体提高多个任务的学习效率。
附图说明
图1是实施例一提供的一种基于多任务学习的短视频帧语义提取方法流程图;
图2是实施例二提供的一种基于多任务学习的短视频帧语义提取***结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
实施例一
如图1所示,本实施例提出了一种基于多任务学习的短视频帧语义提取方法,包括:
S1、构建包括图片分类通道、人脸识别通道的卷积神经网络;
现有的短视频内容大多数都是以人物为主体,而现有的视频帧语义提取方法仅考虑普通的图像特征,没考虑人物特征,因此不能全面地提取短视频中的有效语义。因此,本发明构建包括图片分类通道、人脸识别通道的卷积神经网络,能够同时提取普通的图像特征及人物特征的语义,实现针对短视频帧的多任务学习。
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络。主要由输入层、卷积层、池化层、全连接层、输出层组成。输入层是需要处理的短视频帧数据,对于计算机而言可将其理解为若干矩阵。卷积层是卷积神经网络的重要组成部分,通过输入层和卷积层之间的矩阵卷积运算,提取输入短视频帧的特征。池化层通常设置在卷积层之后,对输入的短视频帧的目标区域像素取平均值或最大值,即降采样处理,降低特征图像分辨率的同时避免出现过拟合。全连接层位于最后一个池化层和输出层之间,其中每一个神经元都与前一层的全部神经元相连接,并根据目标检测的需要,有针对性地将特征向量映射到输出层。输出层位于神经网络的最后,其作用是对权连接层映射过来的输入向量进行分类。卷积层与池化层可以根据需要重复多次,其中不同的卷积核负责提取多种特征,池化层提供平移不变性和降维。
本发明构建相互独立的图片分类通道、人脸识别通道,图片分类通道用于提取短视频帧的普通图像特征,对视频帧进行分类,人脸识别通道用于提取短视频帧中的人脸特征。目前主流的图片分类框架,大都是CNN网络,因此,本发明也采用CNN网络进行短视频帧的普通图像特征的提取。人脸识别从直观上来说和分类任务类似,但是也有一些特殊性。分类任务的类别数目通常是固定的,而人脸识别问题则不然,所以人脸识别通常都是学习一个人脸的表征,然后同一个表征空间内寻找是否有相同的人脸。其次,分类任务专注的是粗粒度的识别,而人脸识别需要捕捉细粒度的差别。本发明图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层,共享一个输出层。输入层接收短视频帧图片的R、G、B分量,R对应选取图片的红色通道,G对应选取图片的绿色通道,B对应选取图片的蓝色通道。
S2、通过短视频帧样本数据对卷积神经网络进行训练,得到多任务短视频语义提取模型;
本发明加载标注了类别信息及人脸信息的视频帧数据。为了提高语义提取的精确性,本发明对采集的视频帧数据分别随机进行旋转、平移、错切变换、缩放等图像增强操作以扩充数据样例,其中旋转角度、缩放比例等操作均随机选取对应数值以保证生成图片的随机性。通过数据增强操作,提高样本量。
由于短视频帧图片可能存在大量噪声,影响语义提取效果。因此,本发明在输入短视频帧图片后,对其进行去噪。由于图片中的大多数噪声均属于高斯噪声,因此,本发明采用高斯滤波器进行去噪,得到滤波效果图;高斯滤波公式如下:
Figure BDA0002292599320000061
其中,x表示像素RGB值,μ表示半径Radius范围内的像素值均值,σ表示半径Radius范围内像素值的方差。
对于图片分类通道,本发明采用softmax多类别分类器和交叉熵损失函数(CrossEntropy Error Function),激活函数增强网络的非线性表达能力。具体地,短视频帧图片分类通道的损失为:
Figure BDA0002292599320000062
其中n是类别数,yc是训练样本的标记,pc是模型的预测概率。
对于人脸识别通道,本发明采用triplet loss。triplet loss也是通过训练一个CNN网络来对人脸进行编码,但是它的输入是三张短视频帧图片,即输入是一个三元组<a,p,n>,其中a是anchor,代表基准人脸;p为positive,代表正样本,即和anchor属于同一个人;n是negative,代表负样本,即和anchor不属于同一个人。
因此,本发明多任务短视频语义提取模型包括一个人脸识别通道、一个图片分类通道,图片分类通道包括一个图片分类卷积神经网络,人脸识别通道包括三个人脸识别卷积神经网络,三个人脸识别卷积神经网络共享参数。三张短视频帧图片分别通过三个人脸识别卷积神经网络,分别得到各自对应的向量表征,通过三个向量计算损失,目标是拉近anchor和positive向量之间的距离,拉大anchor和negative向量之间的距离。目标函数可以写成以下形式:
Lossface=max(d(anchor,positive)-d(anchor,negative)+margin,0)
其中d(a,b)表示向量a和b之间的距离,margin是一个附加约束,约束负样本和基准人脸的距离大于正样本与基准人脸的距离,且距离的差值不小于margin。
图片分类通道是用于学习视频帧的粗粒度特征,包括图片的场景、色彩、物体等;人脸识别通道是用于学习视频中的人物特征。由于多任务短视频语义提取模型包括图片分类通道及人脸识别通道,因此,整个多任务短视频语义提取模型的损失函数为:
Figure BDA0002292599320000071
其中λ是调节参数,作用是调节分类损失和人脸识别损失的作用。
本发明将去噪后的短视频帧样本数据输入卷积神经网络,图片分类通道、人脸识别通道分别学习视频帧的粗粒度特征、人物特征。通过计算整个多任务短视频语义提取模型的损失函数对多任务短视频语义提取模型进行优化,训练生成多任务短视频语义提取模型。
S3、基于多任务短视频语义提取模型对视频帧语义进行提取,得到包括粗粒度特征及人脸特征的语义特征。
训练生成多任务短视频语义提取模型后,就可以对需要进行特征提取的视频帧图片进行特征提取,以获取既包括视频帧的粗粒度特征,包括图片的场景、色彩、物体等;也包视频中的人物特征的语义信息。
对于需要进行语义提取的短视频,通过固定帧截取视频帧图片。将截取的视频帧图片输入训练好的多任务短视频语义提取模型。图片分类通道学习视频帧的粗粒度特征;人脸识别通道学习视频中的人物特征。图片分类通道与人脸识别通道共享输出层,输出层将两个通道获取的特征进行整合输出,以得到最终的短视频帧语义信息。
实施例二
如图2所示,本实施例提出了一种基于多任务学习的短视频帧语义提取***,包括:
构建模块,用于构建包括图片分类通道、人脸识别通道的卷积神经网络;
现有的短视频内容大多数都是以人物为主体,而现有的视频帧语义提取方法仅考虑普通的图像特征,没考虑人物特征,因此不能全面地提取短视频中的有效语义。因此,本发明构建包括图片分类通道、人脸识别通道的卷积神经网络,能够同时提取普通的图像特征及人物特征的语义,实现针对短视频帧的多任务学习。
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络。主要由输入层、卷积层、池化层、全连接层、输出层组成。输入层是需要处理的短视频帧数据,对于计算机而言可将其理解为若干矩阵。卷积层是卷积神经网络的重要组成部分,通过输入层和卷积层之间的矩阵卷积运算,提取输入短视频帧的特征。池化层通常设置在卷积层之后,对输入的短视频帧的目标区域像素取平均值或最大值,即降采样处理,降低特征图像分辨率的同时避免出现过拟合。全连接层位于最后一个池化层和输出层之间,其中每一个神经元都与前一层的全部神经元相连接,并根据目标检测的需要,有针对性地将特征向量映射到输出层。输出层位于神经网络的最后,其作用是对权连接层映射过来的输入向量进行分类。卷积层与池化层可以根据需要重复多次,其中不同的卷积核负责提取多种特征,池化层提供平移不变性和降维。
本发明构建相互独立的图片分类通道、人脸识别通道,图片分类通道用于提取短视频帧的普通图像特征,对视频帧进行分类,人脸识别通道用于提取短视频帧中的人脸特征。目前主流的图片分类框架,大都是CNN网络,因此,本发明也采用CNN网络进行短视频帧的普通图像特征的提取。人脸识别从直观上来说和分类任务类似,但是也有一些特殊性。分类任务的类别数目通常是固定的,而人脸识别问题则不然,所以人脸识别通常都是学习一个人脸的表征,然后同一个表征空间内寻找是否有相同的人脸。其次,分类任务专注的是粗粒度的识别,而人脸识别需要捕捉细粒度的差别。本发明图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层,共享一个输出层。输入层接收短视频帧图片的R、G、B分量,R对应选取图片的红色通道,G对应选取图片的绿色通道,B对应选取图片的蓝色通道。
训练模块,用于通过短视频帧样本数据对卷积神经网络进行训练,得到多任务短视频语义提取模型;
本发明加载标注了类别信息及人脸信息的视频帧数据。为了提高语义提取的精确性,本发明对采集的视频帧数据分别随机进行旋转、平移、错切变换、缩放等图像增强操作以扩充数据样例,其中旋转角度、缩放比例等操作均随机选取对应数值以保证生成图片的随机性。通过数据增强操作,提高样本量。
由于短视频帧图片可能存在大量噪声,影响语义提取效果。因此,本发明在输入短视频帧图片后,对其进行去噪。由于图片中的大多数噪声均属于高斯噪声,因此,本发明采用高斯滤波器进行去噪,得到滤波效果图;高斯滤波公式如下:
Figure BDA0002292599320000091
其中,x表示像素RGB值,μ表示半径Radius范围内的像素值均值,σ表示半径Radius范围内像素值的方差。
对于图片分类通道,本发明采用softmax多类别分类器和交叉熵损失函数(CrossEntropy Error Function),激活函数增强网络的非线性表达能力。具体地,短视频帧图片分类通道的损失为:
Figure BDA0002292599320000101
其中n是类别数,yc是训练样本的标记,pc是模型的预测概率。
对于人脸识别通道,本发明采用triplet loss。triplet loss也是通过训练一个CNN网络来对人脸进行编码,但是它的输入是三张短视频帧图片,即输入是一个三元组<a,p,n>,其中a是anchor,代表基准人脸;p为positive,代表正样本,即和anchor属于同一个人;n是negative,代表负样本,即和anchor不属于同一个人。
因此,本发明多任务短视频语义提取模型包括一个人脸识别通道、一个图片分类通道。图片分类通道包括一个图片分类卷积神经网络,人脸识别通道包括三个人脸识别卷积神经网络。三张短视频帧图片分别通过三个人脸识别卷积神经网络,分别得到各自对应的向量表征,通过三个向量计算损失,目标是拉近anchor和positive向量之间的距离,拉大anchor和negative向量之间的距离。目标函数可以写成以下形式:
Lossface=max(d(anchor,positive)-d(anchor,negative)+margin,0)
其中d(a,b)表示向量a和b之间的距离,margin是一个附加约束,约束负样本和基准人脸的距离大于正样本与基准人脸的距离,且距离的差值不小于margin。
图片分类通道是用于学习视频帧的粗粒度特征,包括图片的场景、色彩、物体等;人脸识别通道是用于学习视频中的人物特征。由于多任务短视频语义提取模型包括图片分类通道及人脸识别通道,因此,整个多任务短视频语义提取模型的损失函数为:
Figure BDA0002292599320000102
其中λ是调节参数,作用是调节分类损失和人脸识别损失的作用。
本发明将去噪后的短视频帧样本数据输入卷积神经网络,图片分类通道、人脸识别通道分别学习视频帧的粗粒度特征、人物特征。通过计算整个多任务短视频语义提取模型的损失函数对多任务短视频语义提取模型进行优化,训练生成多任务短视频语义提取模型。
语义提取模块,用于基于多任务短视频语义提取模型对视频帧语义进行提取,得到包括粗粒度特征及人脸特征的语义特征。
训练生成多任务短视频语义提取模型后,就可以对需要进行特征提取的视频帧图片进行特征提取,以获取既包括视频帧的粗粒度特征,包括图片的场景、色彩、物体等;也包视频中的人物特征的语义信息。
对于需要进行语义提取的短视频,通过固定帧截取视频帧图片。将截取的视频帧图片输入训练好的多任务短视频语义提取模型。图片分类通道学习视频帧的粗粒度特征;人脸识别通道学习视频中的人物特征。图片分类通道与人脸识别通道共享输出层,输出层将两个通道获取的特征进行整合输出,以得到最终的短视频帧语义信息。
由此可知,本发明提出的基于多任务学习的短视频帧语义提取方法及***,针对短视频中人脸信息占用的面积很小、但人脸信息是人们在关注短视频时重点关注的信息的特点,提出了包括图片分类通道、人脸识别通道的卷积神经网络。通过图片分类通道是学习视频帧的粗粒度特征,包括图片的场景、色彩、物体等;通过人脸识别通道是学习视频中的人物特征。克服了现有的针对短视频帧的语义提取存在遗漏重要特征的问题,能够更全面地获取短视频帧中所包括的语义信息,进一步能够提高基于提取的语义所进行短视频推荐等功能的性能。此外,本发明引入利用多任务学习方式,提高了语义提取的性能。且多任务短视频语义提取模型的性能由两个任务共同决定,相互影响,能够整体提高多个任务的学习效率。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于多任务学习的短视频帧语义提取方法,其特征在于,包括步骤:
S1、构建包括图片分类通道、人脸识别通道的卷积神经网络;
S2、通过短视频帧样本数据对卷积神经网络进行训练,得到多任务短视频语义提取模型;
S3、基于多任务短视频语义提取模型对视频帧语义进行提取,得到包括粗粒度特征及人脸特征的语义特征。
2.根据权利要求1所述的语义提取方法,其特征在于,所述图片分类通道包括一个图片分类卷积神经网络,所述人脸识别通道包括三个人脸识别卷积神经网络,所述三个人脸识别卷积神经网络共享参数;所述图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层,共享一个输出层。
3.根据权利要求2所述的语义提取方法,其特征在于,整个所述任务短视频语义提取模型的损失函数为:
Lossoverall=Lossface+λLossclassify
其中,Lossclassify为图片分类通道的损失函数,Lossface为人脸识别通道的损失函数,λ是调节分类损失和人脸识别损失作用的调节参数。
4.根据权利要求3所述的语义提取方法,其特征在于,图片分类通道的损失函数Lossclassify为:
Figure FDA0002292599310000011
其中,n是类别数,yc是训练样本的标记,pc是模型的预测概率;
人脸识别通道的损失函数Lossface为:
Lossface=max(d(anchor,positive)-d(anchor,negative)+margin,0)
其中,anchor代表基准人脸;positive代表和anchor属于同一个人的正样本;negative代表和anchor不属于同一个人负样本;d(a,b)表示向量a和b之间的距离,margin是一个附加约束,约束负样本和基准人脸的距离大于正样本与基准人脸的距离,且距离的差值不小于margin。
5.根据权利要求1所述的语义提取方法,其特征在于,所述粗粒度特征包括短视频帧的场景、色彩、物体等。
6.一种基于多任务学习的短视频帧语义提取***,其特征在于,包括:
构建模块,用于构建包括图片分类通道、人脸识别通道的卷积神经网络;
训练模块,用于通过短视频帧样本数据对卷积神经网络进行训练,得到多任务短视频语义提取模型;
语义提取模块,用于基于多任务短视频语义提取模型对视频帧语义进行提取,得到包括粗粒度特征及人脸特征的语义特征。
7.根据权利要求6所述的语义提取***,其特征在于,所所述图片分类通道包括一个图片分类卷积神经网络,所述人脸识别通道包括三个人脸识别卷积神经网络,所述三个人脸识别卷积神经网络共享参数;所述图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层,共享一个输出层。
8.根据权利要求7所述的语义提取***,其特征在于,整个所述任务短视频语义提取模型的损失函数为:
Lossoverall=Lossface+λLossclassify
其中,Lossclassify为图片分类通道的损失函数,Lossface为人脸识别通道的损失函数,λ是调节分类损失和人脸识别损失作用的调节参数。
9.根据权利要求8所述的语义提取***,其特征在于,图片分类通道的损失函数Lossclassify为:
Figure FDA0002292599310000021
其中,n是类别数,yc是训练样本的标记,pc是模型的预测概率;
人脸识别通道的损失函数Lossface为:
Lossface=max(d(anchor,positive)-d(anchor,negative)+margin,0)
其中,anchor代表基准人脸;positive代表和anchor属于同一个人的正样本;negative代表和anchor不属于同一个人负样本;d(a,b)表示向量a和b之间的距离,margin是一个附加约束,约束负样本和基准人脸的距离大于正样本与基准人脸的距离,且距离的差值不小于margin。
10.根据权利要求5所述的语义提取方法,其特征在于,所述粗粒度特征包括短视频帧的场景、色彩、物体。
CN201911186838.3A 2019-11-28 2019-11-28 一种基于多任务学习的短视频帧语义提取方法及*** Active CN110929099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911186838.3A CN110929099B (zh) 2019-11-28 2019-11-28 一种基于多任务学习的短视频帧语义提取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911186838.3A CN110929099B (zh) 2019-11-28 2019-11-28 一种基于多任务学习的短视频帧语义提取方法及***

Publications (2)

Publication Number Publication Date
CN110929099A true CN110929099A (zh) 2020-03-27
CN110929099B CN110929099B (zh) 2023-07-21

Family

ID=69846980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911186838.3A Active CN110929099B (zh) 2019-11-28 2019-11-28 一种基于多任务学习的短视频帧语义提取方法及***

Country Status (1)

Country Link
CN (1) CN110929099B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462555A (zh) * 2020-05-25 2020-07-28 四川信息职业技术学院 一种用于英语口语教学的Vlog视频***及其使用方法
CN111582127A (zh) * 2020-04-30 2020-08-25 南京邮电大学 一种视频社会语义分类方法及***
CN113065533A (zh) * 2021-06-01 2021-07-02 北京达佳互联信息技术有限公司 一种特征提取模型生成方法、装置、电子设备和存储介质
CN113177478A (zh) * 2021-04-29 2021-07-27 西华大学 一种基于迁移学习的短视频语义标注方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815566A (zh) * 2016-12-29 2017-06-09 天津中科智能识别产业技术研究院有限公司 一种基于多任务卷积神经网络的人脸检索方法
CN106980641A (zh) * 2017-02-09 2017-07-25 上海交通大学 基于卷积神经网络的无监督哈希快速图片检索***及方法
CN206907100U (zh) * 2017-07-03 2018-01-19 宫森林 一种人脸识别考勤装置
CN107886062A (zh) * 2017-11-03 2018-04-06 北京达佳互联信息技术有限公司 图像处理方法、***及服务器
CN108009528A (zh) * 2017-12-26 2018-05-08 广州广电运通金融电子股份有限公司 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质
CN108038467A (zh) * 2017-12-26 2018-05-15 南京信息工程大学 一种镜像图与粗细层次结合的稀疏人脸识别方法
CN108073941A (zh) * 2016-11-17 2018-05-25 江南大学 一种基于深度学习的图像语义生成方法
CN108256450A (zh) * 2018-01-04 2018-07-06 天津大学 一种基于深度学习的人脸识别和人脸验证的监督学习方法
CN108764207A (zh) * 2018-06-07 2018-11-06 厦门大学 一种基于多任务卷积神经网络的人脸表情识别方法
CN108921026A (zh) * 2018-06-01 2018-11-30 平安科技(深圳)有限公司 动物身份的识别方法、装置、计算机设备和存储介质
CN109002845A (zh) * 2018-06-29 2018-12-14 西安交通大学 基于深度卷积神经网络的细粒度图像分类方法
CN109033938A (zh) * 2018-06-01 2018-12-18 上海阅面网络科技有限公司 一种基于可区分性特征融合的人脸识别方法
CN109726619A (zh) * 2017-10-31 2019-05-07 深圳市祈飞科技有限公司 一种基于参数共享的卷积神经网络人脸识别方法及***
CN109784366A (zh) * 2018-12-07 2019-05-21 北京飞搜科技有限公司 目标物体的细粒度分类方法、装置与电子设备
CN110059206A (zh) * 2019-03-29 2019-07-26 银江股份有限公司 一种基于深度表征学习的大规模哈希图像检索方法
CN110084215A (zh) * 2019-05-05 2019-08-02 上海海事大学 一种二值化三元组孪生网络模型的行人重识别方法及***
CN110458233A (zh) * 2019-08-13 2019-11-15 腾讯云计算(北京)有限责任公司 混合粒度物体识别模型训练及识别方法、装置及存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073941A (zh) * 2016-11-17 2018-05-25 江南大学 一种基于深度学习的图像语义生成方法
CN106815566A (zh) * 2016-12-29 2017-06-09 天津中科智能识别产业技术研究院有限公司 一种基于多任务卷积神经网络的人脸检索方法
CN106980641A (zh) * 2017-02-09 2017-07-25 上海交通大学 基于卷积神经网络的无监督哈希快速图片检索***及方法
CN206907100U (zh) * 2017-07-03 2018-01-19 宫森林 一种人脸识别考勤装置
CN109726619A (zh) * 2017-10-31 2019-05-07 深圳市祈飞科技有限公司 一种基于参数共享的卷积神经网络人脸识别方法及***
CN107886062A (zh) * 2017-11-03 2018-04-06 北京达佳互联信息技术有限公司 图像处理方法、***及服务器
CN108009528A (zh) * 2017-12-26 2018-05-08 广州广电运通金融电子股份有限公司 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质
CN108038467A (zh) * 2017-12-26 2018-05-15 南京信息工程大学 一种镜像图与粗细层次结合的稀疏人脸识别方法
CN108256450A (zh) * 2018-01-04 2018-07-06 天津大学 一种基于深度学习的人脸识别和人脸验证的监督学习方法
CN108921026A (zh) * 2018-06-01 2018-11-30 平安科技(深圳)有限公司 动物身份的识别方法、装置、计算机设备和存储介质
CN109033938A (zh) * 2018-06-01 2018-12-18 上海阅面网络科技有限公司 一种基于可区分性特征融合的人脸识别方法
CN108764207A (zh) * 2018-06-07 2018-11-06 厦门大学 一种基于多任务卷积神经网络的人脸表情识别方法
CN109002845A (zh) * 2018-06-29 2018-12-14 西安交通大学 基于深度卷积神经网络的细粒度图像分类方法
CN109784366A (zh) * 2018-12-07 2019-05-21 北京飞搜科技有限公司 目标物体的细粒度分类方法、装置与电子设备
CN110059206A (zh) * 2019-03-29 2019-07-26 银江股份有限公司 一种基于深度表征学习的大规模哈希图像检索方法
CN110084215A (zh) * 2019-05-05 2019-08-02 上海海事大学 一种二值化三元组孪生网络模型的行人重识别方法及***
CN110458233A (zh) * 2019-08-13 2019-11-15 腾讯云计算(北京)有限责任公司 混合粒度物体识别模型训练及识别方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨志尧;彭召意;文志强;: "一种基于区域建议网络的图像语义分割方法", 计算机与现代化, no. 02, pages 126 - 130 *
赵其鲁;李宗民;: "基于深度多任务学习的层次分类", 计算机辅助设计与图形学学报, no. 05, pages 142 - 148 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582127A (zh) * 2020-04-30 2020-08-25 南京邮电大学 一种视频社会语义分类方法及***
CN111462555A (zh) * 2020-05-25 2020-07-28 四川信息职业技术学院 一种用于英语口语教学的Vlog视频***及其使用方法
CN113177478A (zh) * 2021-04-29 2021-07-27 西华大学 一种基于迁移学习的短视频语义标注方法
CN113177478B (zh) * 2021-04-29 2022-08-05 西华大学 一种基于迁移学习的短视频语义标注方法
CN113065533A (zh) * 2021-06-01 2021-07-02 北京达佳互联信息技术有限公司 一种特征提取模型生成方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN110929099B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN108830855B (zh) 一种基于多尺度低层特征融合的全卷积网络语义分割方法
Zhao et al. Pixelated semantic colorization
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
US10635927B2 (en) Systems for performing semantic segmentation and methods thereof
WO2020216227A1 (zh) 图像分类方法、数据处理方法和装置
CN110929099B (zh) 一种基于多任务学习的短视频帧语义提取方法及***
Elwirehardja et al. Oil palm fresh fruit bunch ripeness classification on mobile devices using deep learning approaches
Li et al. No-reference image quality assessment with deep convolutional neural networks
Luo et al. Normal graph: Spatial temporal graph convolutional networks based prediction network for skeleton based video anomaly detection
Bhattacharya et al. Towards a comprehensive computational model foraesthetic assessment of videos
US20220230282A1 (en) Image processing method, image processing apparatus, electronic device and computer-readable storage medium
CN111026914B (zh) 视频摘要模型的训练方法、视频摘要生成方法及装置
Bianco et al. Predicting image aesthetics with deep learning
Giraldo et al. The emerging field of graph signal processing for moving object segmentation
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN111368636B (zh) 目标分类方法、装置、计算机设备和存储介质
CN111274987B (zh) 人脸表情识别方法及人脸表情识别装置
WO2023206944A1 (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN111079864A (zh) 一种基于优化视频关键帧提取的短视频分类方法及***
Wang et al. Multiscale deep alternative neural network for large-scale video classification
CN115240024A (zh) 一种联合自监督学习和半监督学习的地外图片分割方法和***
Huang et al. Image saliency detection via multi-scale iterative CNN
CN113255464A (zh) 一种飞机动作识别方法及***
CN116152226A (zh) 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法
Ma et al. Attention-based cross-layer domain alignment for unsupervised domain adaptation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 22nd floor, block a, Huaxing Times Square, 478 Wensan Road, Xihu District, Hangzhou, Zhejiang 310000

Applicant after: Hangzhou Xiaoying Innovation Technology Co.,Ltd.

Address before: 16 / F, HANGGANG Metallurgical Science and technology building, 294 Tianmushan Road, Xihu District, Hangzhou City, Zhejiang Province, 310012

Applicant before: HANGZHOU QUWEI SCIENCE & TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant