CN108537128A - 基于视频的群体属性识别方法和装置 - Google Patents

基于视频的群体属性识别方法和装置 Download PDF

Info

Publication number
CN108537128A
CN108537128A CN201810209595.XA CN201810209595A CN108537128A CN 108537128 A CN108537128 A CN 108537128A CN 201810209595 A CN201810209595 A CN 201810209595A CN 108537128 A CN108537128 A CN 108537128A
Authority
CN
China
Prior art keywords
attention
video
moment
default
group property
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810209595.XA
Other languages
English (en)
Other versions
CN108537128B (zh
Inventor
黄凯奇
赵鑫
李乔哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201810209595.XA priority Critical patent/CN108537128B/zh
Publication of CN108537128A publication Critical patent/CN108537128A/zh
Application granted granted Critical
Publication of CN108537128B publication Critical patent/CN108537128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及视频图像处理技术领域,具体提供了一种基于视频的群体属性识别方法和装置,旨在解决如何提高群体属性识别的准确率的技术问题。为此目的,本发明中的基于视频的群体属性识别方法,包括下述步骤:利用预设深度神经网络获取目标视频的连续单帧图像的图像特征;利用预设卷积递归网络依次对所获取的连续单帧图像的图像特征进行序列化的编码,得到目标视频的视频特征;根据所获取的视频特征,利用预设注意力模型预测不同时刻的注意特征;根据所获取的注意特征,利用预设双向长短时记忆网络预测群体属性。通过本发明可以提高群体属性识别的准确率。

Description

基于视频的群体属性识别方法和装置
技术领域
本发明涉及视频图像处理技术领域,具体涉及一种基于视频 的群体属性识别方法和装置。
背景技术
群体行为和动态属性对群体的研究有着重要的作用。理想情 况下,对群体活动的分析和研究首先需要对群体或者个体进行分割,然 后利用行人检测器对群体进行相应的分类,并进一步根据群体的行为轨 迹建立模型进行分析。但是,这需要大量的标注和复杂的运算,在现有 条件下无法实现。
群体视频属性包括背景、人群身份和人群行为三类,每类属 性通常被用来描述特定的区域。群体属性之间的相关性对于属性识别来 说非常重要。在其他领域,尽管有一系列基于标签相关性的属性识别方 法被提出,但是这类建模方法通常关注于属性自身的语义相关性,忽略 了视频时空特性和属性的相关性,因此该类方法并不适用基于视频的群体属性识别。
发明内容
为了解决现有技术中的上述问题,即为了解决如何提高群体 属性识别的准确率的技术问题,本发明提供了一种基于视频的群体属性 识别方法和装置。
在第一方面,本发明中的基于视频的群体属性识别方法,包 括:
利用预设深度神经网络获取目标视频的连续单帧图像的 图像特征:
Xt=fcnn(Mt;θcnn)
其中,所述Xt为t时刻单帧图像Mt的图像特征,且 所述S1和S2分别为连续单帧图像的卷积特征图的宽度 和长度,所述C为所述预设深度神经网络中卷积特征图的层数;所述 θcnn为所述预设深度神经网络的预设参数;
利用预设卷积递归网络依次对所述连续单帧图像的图像 特征进行序列化的编码,得到所述目标视频的视频特征:
V=[v1,...,vl,...,vL]
其中,所述V为所述目标视频的视频特征,且V∈RL×C, 所述L为卷积特征图空间位置的个数,且L=S1×S2
根据所获取的视频特征,利用预设注意力模型预测不同时 刻的注意特征;
根据所获取的注意特征,利用预设双向长短时记忆网络预 测群体属性:
其中,所述为在k时刻预测的群体属性类别,所述Uk和nk分别为分类器的参数,所述为前向LSTM在k时刻的隐层表 达,所述为反向LSTM在k时刻的隐层表达,所述为所述预 设双向长短时记忆网络在k时刻的特征融合;所述预设双向长短时记 忆网络为:
其中,所述为前向LSTM在k时刻的输入,所述为反 向LSTM在k时刻的输入,所述为前向LSTM在k-1时刻的隐层表达, 所述为反向LSTM在k-1时刻的隐层表达。
优选地,所述方法中“利用预设深度神经网络获取目标视 频的连续单帧图像的图像特征”的步骤具体包括:
将所述目标视频分解成连续单帧图像;
利用所述预设深度神经网络从所获取的连续单帧图像中, 获取连续单帧图像的图像特征。
优选地,所述方法中“根据所获取的视频特征,利用预设 注意力模型预测不同时刻的注意特征”的步骤具体包括:
根据预设双向长短时记忆网络的隐层特征和视频特征获 取注意力系数:
αk=Φatt(V,hk-1)
其中,函数Φatt的计算公式为:
其中,所述αk为注意力系数,所述jk为中间的计算结果, 所述Ev、Es和Ee为相应的线性操作的权重,所述dv和de表示相应 的偏置,所述hk-1为所述双向长短时记忆网络的隐层特征;
根据所获取的注意力系数和视频特征,利用预设注意力模 型预测不同时刻的注意特征:
优选地,所述预设卷积递归网络包括隐藏层和记忆单元, 所述预设卷积递归网络的更新策略为:
It=σ(Wxi*Xt+Whi*Ht-1+bi)
Ft=σ(Wxf*Xt+Whf*Ht-1+bf)
Ot=σ(Wxo*Xt+Who*Ht-1+bo)
Gt=tanh(Wxg*Xt+Whg*Ht-1+bg)
Ct=Ft⊙Ct-1+It⊙Gt
Ht=Ot⊙tanhCt
其中,所述Xt为t时刻单帧图像的图像特征,所述It、Ft、 Ot和Gt分别表示预设卷积递归网络t时刻的门函数,所述Wxi、Wxf、 Wxo、Wxg、Whi、Whf、Who和Whg为二维的卷积核,所述bi、bf、bo和bg为相应的偏置项,所述Ht为t时刻的隐层特征,所述Ct为t时刻 记忆单元,所述σ表示sigmoid激活函数,所述*表示卷积操作,所述 ⊙表示点乘。
在第二方面,本发明中的基于视频的群体属性识别装置包括:
第一获取模块,配置为利用预设深度神经网络获取目标视 频的连续单帧图像的图像特征:
Xt=fcnn(Mt;θcnn)
其中,所述Xt为t时刻单帧图像Mt的图像特征,且 所述S1和S2分别为连续单帧图像的卷积特征图的宽度 和长度,所述C为所述预设深度神经网络中卷积特征图的层数;所述 θcnn为所述预设深度神经网络的预设参数;
第二获取模块,配置为利用预设卷积递归网络依次对所述 第一获取模块所获取的连续单帧图像的图像特征进行序列化的编码, 得到所述目标视频的视频特征:
V=[v1,...,vl,...,vL]
其中,所述V为所述目标视频的视频特征,且V∈RL×C, 所述L为卷积特征图空间位置的个数,且L=S1×S2
注意特征计算模块,配置为根据所述第二获取模块所获取 的视频特征,利用预设注意力模型预测不同时刻的注意特征;
群体属性预测模块,配置为根据所述注意特征计算模块所 获取的注意特征,利用预设双向长短时记忆网络预测群体属性:
其中,所述为在k时刻预测的群体属性类别,所述Uk和nk分别为预设分类器的参数,所述为前向LSTM在k时刻的隐 层表达,所述为反向LSTM在k时刻的隐层表达,所述为所 述预设双向长短时记忆网络在k时刻的特征融合;所述预设双向长短 时记忆网络为:
其中,所述为前向LSTM在k时刻的输入,所述为 反向LSTM在k时刻的输入,所述为前向LSTM在k-1时刻的隐层 表达,所述为反向LSTM在k-1时刻的隐层表达。
优选地,所述第一获取模块包括分解单元和第一获取单元;
所述分解单元,配置为将所述目标视频分解成连续单帧图 像;
所述第一获取单元,配置为利用所述预设深度神经网络从 所述分解单元所获取的连续单帧图像中,获取连续单帧图像的图像特 征。
优选地,所述注意特征计算模块包括注意力系数获取单元 和注意特征计算单元;
所述注意力系数获取单元,配置为根据预设双向长短时记 忆网络的隐层特征和视频特征获取注意力系数:
αk=Φatt(V,hk-1)
其中,函数Φatt的计算公式为:
其中,所述αk为注意力系数,所述jk为中间的计算结果, 所述Ev、Es和Ee为相应的线性操作的权重,所述dv和de表示相应 的偏置,所述hk-1为所述双向长短时记忆网络的隐层特征;
所述注意特征计算单元,配置为根据所述视频特征和所述 注意力系数获取单元所获取的注意力系数,利用预设注意力模型预测 不同时刻的注意特征:
在第三方面,本发明中的存储装置,其中存储有多条程序, 适用于由处理器加载并执行以实现上述技术方案所述的基于视频的群体 属性识别方法。
在第四方面,本发明中的处理装置,包括
处理器,适于执行各条程序;以及
存储设备,适于存储多条程序;
所述程序适于由处理器加载并执行以实现上述技术方案所 述的基于视频的群体属性识别方法。
与最接近的现有技术相比,上述技术方案至少具有以下有益 效果:
本发明的基于视频的群体属性识别方法中,利用预设卷积 递归网络对所获取的连续的单帧图像特征进行序列化的编码可以有效 的提取视频的时空信息,也可以有效的刻画视频局部的空间拓扑关系 和长时间的动态变化,从而可以得到有效的视频表达,提升群体属性 预测的准确率;利用预设双向长短时记忆网络预测群体属性,可以对 群里场景的时空特征和语义属性的上下文关系进行有效的描述,从而 提升属性预测的准确率。
附图说明
图1是本发明实施例的基于视频的群体属性识别方法的主 要步骤示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人 员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非 旨在限制本发明的保护范围。
下面结合附图,对本发明实施例中基于视频的群体属性识别 方法进行说明。
参阅附图1,图1示例性的示出了本发明实施例的基于视频 的群体属性识别方法的主要步骤。如图1所示,本实施例中基于视频的 群体属性识别方法可以包括步骤S1、步骤S2、步骤S3和步骤S4。
步骤S1,利用预设深度神经网络获取目标视频的连续单帧 图像的图像特征,如下式(1)所示:
Xt=fcnn(Mt;θcnn) (1)
其中,Xt为t时刻单帧图像Mt的图像特征,且 S1和S2分别为连续单帧图像的图像特征的宽度和长度, C为预设深度神经网络中卷积层的层数;θcnn为预设深度神经网络的 预设参数,包括预设深度神经网络每一层的卷积核和偏置项。通过该步 骤可以得到连续帧的图像特征卷积图的序列表示Ω={X1,X2,...,XT}。
进一步地,本实施例中步骤S1可以包括步骤S11和步骤S12。
步骤S11,将目标视频分解成连续单帧图像。
步骤S12,利用预设深度神经网络从所获取的连续单帧图像 中,获取连续单帧图像的图像特征。
步骤S2,利用预设卷积递归网络依次对连续单帧图像的图 像特征进行序列化的编码,即按照公式(3)进行编码,得到目标视频 的视频特征,如下式(2)所示:
V=[v1,...,vl,...,vL](2)
其中,V为整段视频的特征表达,且V∈RL×C,L为空间的 位置个数,且L=S1×S2。每一个位置都有经过时空编码的特征表达。
具体地,本实施例中预设卷积递归网络包括隐藏层(hidden state of therecurrent network)和记忆单元,在每一时刻,当给定输入Xt, 预设卷积递归网络的更新策略如下式(3)所示:
Xt为t时刻单帧图像的图像特征,It、Ft、Ot和Gt分别 表示预设卷积递归网络t时刻的门函数,Wxi、Wxf、Wxo、Wxg、Whi、Whf、 Who和Whg为二维的卷积核,bi、bf、bo和bg为相应的偏置项,Ht为 t时刻隐层特征,Ct为t时刻记忆单元,σ表示sigmoid激活函数,* 表示卷积操作,⊙表示点乘。预设卷积递归网络最后时刻的隐层特征用 来表征整段视频。
本实施例中在预测群体属性的每一步,都需要计算相应的注 意特征。通过和产生的注意力系数加权求和,得到当前时刻的注意特征。 在预测不同子类别属性的时候,都需要计算一次注意力系数。
步骤S3,根据所获取的视频特征,利用预设注意力模型预 测不同时刻的注意特征;
进一步地,本实施例中步骤S3可以包括步骤S31和步骤S32。
步骤S31,根据预设双向长短时记忆网络的隐层特征和视频 特征获取注意力系数,如下式(4)所示:
αk=Φatt(V,hk-1) (4)
其中,每一步中注意力系数由前一步预设双向长短期记忆网 络的隐层特征hk-1和视频特征V共同决定。函数Φatt的计算公式如下式 (5)所示:
其中,αk为注意力系数,jk为中间的计算结果,Ev、Es和Ee为相应的线性操作的权重,dv和de表示相应的偏置,hk-1为双向 长短时记忆网络的隐层特征。
通常情况下,如果当前位置和属性有着较强的对应关系时, 预设注意力模型就会为它分配较大的权重。注意力系数是通过softmax函 数归一化的。当计算得出注意力系数αk时,可以通过计算求出当前时刻 的注意特征。
步骤S32,根据所获取的注意力系数和视频特征,利用预设 注意力模型预测不同预设时刻的注意特征,如下式(6)所示:
注意特征可以描述不同时刻属性和时空关系的对应关系。
可以通过预设双向长短时记忆网络来实现群体属性的序列 化预测。通过注意力机制的计算的注意特征用来作为预设双向长短时记 忆网络的输入,并更新该网络的状态。对于单向的长短时记忆网络,当 给出每一步的注意特征时,单向的长短时记忆网络的更新策略如下式(7) 所示:
其中,zk为公式(6)计算得到的注意特征,ik、fk、ok和gk分别表示预设卷积递归网络在k时刻的门函数,qzi、qzf、qzo、qzg、qhi、 qhf、qho和qhg为全连接的权重系数,pi、pf、po和pg为相应的偏置 项,hk为k时刻的隐层特征,ck为k时刻的记忆单元,σ表示sigmoid 激活函数,⊙表示点乘。
为了更好的描述属性和时空特性的对应关系,双向的序列化 预测模型被建立。双向长短时记忆网络的实现方法和单向的长短时记忆 网络的实现方法类似。区别在于双向长短时记忆网络通过相反的顺序来 融合注意特征。
双向网络中的任意一条流中的注意力系数和注意特征的计 算方式都需要用公式(4)-(7)计算。
步骤S4,依据所获取的注意特征,利用预设双向长短时记 忆网络预测群体属性,如下式(8)所示:
其中,为在k时刻预测的群体属性类别,Uk和nk分 别为分类器的参数,为前向LSTM在k时刻的隐层表达,为反向 LSTM在k时刻的隐层表达,为预设双向长短时记忆网络在k时 刻的隐层表达的拼接;预设视频属性预测模型如下式(9)所示:
其中,为前向LSTM在k时刻的输入,为反向LSTM 在k时刻的输入,所述为前向LSTM在k-1时刻的隐层表达,所述 为反向LSTM在k-1时刻的隐层表达。整个网络通过端到端的方式 来训练,整个网络为所有的网络部件组成的一个大网络,包括所有可训练的参数。
基于与基于视频的群体属性识别方法实施例相同的技术构 思,本发明实施例还提供了一种基于视频的群体属性识别装置。下面对 该基于视频的群体属性识别装置进行具体说明。
本实施中基于视频的群体属性识别装置还可以包括第一获 取模块、第二获取模块、注意特征计算模块和群体属性预测模块。
其中,第一获取模块可以配置为利用预设深度神经网络获取 目标视频的连续单帧图像的图像特征,如公式(1)所示。
进一步地,本实施例中第一获取模块可以包括分解单元和第 一获取单元。
其中,分解单元可以配置为将目标视频分解成连续单帧图 像。
第一获取单元可以配置为利用预设深度神经网络从分解 单元所获取的连续单帧图像中,获取连续单帧图像的图像特征,如公 式(1)所示。
第二获取模块可以配置为利用预设卷积递归网络对第一获 取模块所获取的连续单帧图像的图像特征进行序列化的编码,得到目标 视频的视频特征,如公式(2)所示。
注意特征计算模块可以配置为依据第二获取模块所获取的 视频特征,利用预设注意力模型预测不同时刻的注意特征。
进一步地,本实施例中注意特征计算模块包括注意力系数获 取单元和注意特征计算单元。
其中,注意力系数获取单元可以配置为根据预设双向长短 时记忆网络中的任意一向长短时记忆网络的隐层特征和视频特征获取 注意力系数,如公式(4)-(5)所示。
注意特征计算单元可以配置为根据视频特征和注意力系 数获取单元所获取的注意力系数,利用预设注意力模型预测不同时刻 的注意特征,如公式(6)所示。
群体属性预测模块可以配置为根据注意特征计算模块所获 取的注意特征,利用预设双向长短时记忆网络预测群体属性,如公式(8) 所示;其中,预设双向长短时记忆网络如公式(9)所示。
上述基于视频的群体属性识别方法的实施例,其技术原理、 所解决的技术问题及产生的技术效果相似,所属技术领域的技术人员可 以清楚地了解到,为描述的方便和简洁,上述描述的基于视频的群体属 性识别装置的具体工作过程及有关说明,可以参考前述基于视频的群体 属性识别方法,在此不再赘述。
本领域技术人员可以理解,上述基于视频的群体属性识别 方法还包括一些其他公知结构,例如处理器、控制器、存储器等,其中, 存储器包括但不限于随机存储器、闪存、只读存储器、可编程只读存储 器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存 器等,处理器包括但不限于CPLD/FPGA、DSP、ARM处理器、MIPS处 理器等,为了不必要地模糊本公开的实施例,这些公知的结构未示出。
本领域技术人员可以理解,可以对实施例中的装置中的模块 进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装 置中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组 件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样 的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何 组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特 征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非 另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开 的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
基于上述基于视频的群体属性识别方法的实施例,本发明 还提供了一种存储装置。本实施例中存储装置中存储有多条程序,该程 序适用于由处理器加载并执行以实现上述基于视频的群体属性识别方法。
基于上述基于视频的群体属性识别方法的实施例,本发明 还提供了一种处理装置。本实施例中处理装置可以包括处理器和存储设 备。其中,处理器适于执行各条程序,存储设备适于存储多条程序,并 且这些程序适于由处理器加载并执行以实现上述基于视频的群体属性识 别方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便 和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明, 可以参考前述基于视频的群体属性识别方法实施例中的对应过程,在此 不再赘述。
本发明的各个部件实施例可以以硬件实现,或者以在一个或 者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域 的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器 (DSP)来实现根据本发明实施例的服务器、客户端中的一些或者全部部 件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,PC程序和PC程序产 品)。这样的实现本发明的程序可以存储在PC可读介质上,或者可以具 有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到, 或者在载体信号上提供,或者以任何其他形式提供。
此外,本领域的技术人员能够理解,尽管在此所述的一些实 施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实 施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。 例如,在本发明的权利要求书中,所要求保护的实施例的任意之一都可 以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发 明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况 下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参 考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利 要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存 在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及 借助于适当编程的PC来实现。在列举了若干装置的单元权利要求中,这 些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第 二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,已经结合附图所示的优选实施方式描述了本发明的技 术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然 不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域 技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换 之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种基于视频的群体属性识别方法,其特征在于,所述方法包括:
利用预设深度神经网络获取目标视频的连续单帧图像的图像特征:
Xt=fcnn(Mt;θcnn)
其中,所述Xt为t时刻单帧图像Mt的图像特征,且所述S1和S2分别为连续单帧图像的卷积特征图的宽度和长度,所述C为所述预设深度神经网络中卷积特征图的层数;所述θcnn为所述预设深度神经网络的预设参数;
利用预设卷积递归网络依次对所述连续单帧图像的图像特征进行序列化的编码,得到所述目标视频的视频特征:
V=[v1,...,vl,...,vL]
其中,所述V为所述目标视频的视频特征,且V∈RL×C,所述L为卷积特征图空间位置的个数,且L=S1×S2
根据所获取的视频特征,利用预设注意力模型预测不同时刻的注意特征;
根据所获取的注意特征,利用预设双向长短时记忆网络预测群体属性:
其中,所述为在k时刻预测的群体属性类别,所述Uk和nk分别为预设分类器的参数,所述为前向LSTM在k时刻的隐层表达,所述为反向LSTM在k时刻的隐层表达,所述为所述预设双向长短时记忆网络在k时刻的特征融合;所述预设双向长短时记忆网络为:
其中,所述为前向LSTM在k时刻的输入,所述为反向LSTM在k时刻的输入,所述为前向LSTM在k-1时刻的隐层表达,所述为反向LSTM在k-1时刻的隐层表达。
2.根据权利要求1所述的基于视频的群体属性识别方法,其特征在于,所述方法中“利用预设深度神经网络获取目标视频的连续单帧图像的图像特征”的步骤具体包括:
将所述目标视频分解成连续单帧图像;
利用所述预设深度神经网络从所获取的连续单帧图像中,获取连续单帧图像的图像特征。
3.根据权利要求1所述的基于视频的群体属性识别方法,其特征在于,所述方法中“根据所获取的视频特征,利用预设注意力模型预测不同时刻的注意特征”的步骤具体包括:
根据预设双向长短时记忆网络的隐层特征和视频特征获取注意力系数:
αk=Φatt(V,hk-1)
其中,函数Φatt的计算公式为:
其中,所述αk为注意力系数,所述jk为中间的计算结果,所述Ev、Es和Ee为相应的线性操作的权重,所述dv和de表示相应的偏置,所述hk-1为所述双向长短时记忆网络的隐层特征;
根据所获取的注意力系数和视频特征,利用预设注意力模型预测不同时刻的注意特征:
4.根据权利要求1-3任意一项所述的基于视频的群体属性识别方法,其特征在于,所述预设卷积递归网络包括隐藏层和记忆单元,所述预设卷积递归网络的更新策略为:
其中,所述Xt为t时刻单帧图像的图像特征,所述It、Ft、Ot和Gt分别表示预设卷积递归网络t时刻的门函数,所述Wxi、Wxf、Wxo、Wxg、Whi、Whf、Who和Whg为二维的卷积核,所述bi、bf、bo和bg为相应的偏置项,所述Ht为t时刻的隐层特征,所述Ct为t时刻的记忆单元,所述σ表示sigmoid激活函数,所述*表示卷积操作,所述表示点乘。
5.一种基于视频的群体属性识别装置,其特征在于,所述装置包括:
第一获取模块,配置为利用预设深度神经网络获取目标视频的连续单帧图像的图像特征:
Xt=fcnn(Mt;θcnn)
其中,所述Xt为t时刻单帧图像Mt的图像特征,且所述S1和S2分别为连续单帧图像的卷积特征图的宽度和长度,所述C为所述预设深度神经网络中卷积特征图的层数;所述θcnn为所述预设深度神经网络的预设参数;
第二获取模块,配置为利用预设卷积递归网络依次对所述第一获取模块所获取的连续单帧图像的图像特征进行序列化的编码,得到所述目标视频的视频特征:
V=[v1,...,vl,...,vL]
其中,所述V为所述目标视频的视频特征,且V∈RL×C,所述L为卷积特征图空间位置的个数,且L=S1×S2
注意特征计算模块,配置为根据所述第二获取模块所获取的视频特征,利用预设注意力模型预测不同时刻的注意特征;
群体属性预测模块,配置为根据所述注意特征计算模块所获取的注意特征,利用预设双向长短时记忆网络预测群体属性:
其中,所述为在k时刻预测的群体属性类别,所述Uk和nk分别为预设分类器的参数,所述为前向LSTM在k时刻的隐层表达,所述为反向LSTM在k时刻的隐层表达,所述为所述预设双向长短时记忆网络在k时刻的特征融合;所述预设双向长短时记忆网络为:
其中,所述为前向LSTM在k时刻的输入,所述为反向LSTM在k时刻的输入,所述为前向LSTM在k-1时刻的隐层表达,所述为反向LSTM在k-1时刻的隐层表达。
6.根据权利要求5所述的群体属性识别装置,其特征在于,所述第一获取模块包括分解单元和第一获取单元;
所述分解单元,配置为将所述目标视频分解成连续单帧图像;
所述第一获取单元,配置为利用所述预设深度神经网络从所述分解单元所获取的连续单帧图像中,获取连续单帧图像的图像特征。
7.根据权利要求5所述的群体属性识别装置,其特征在于,所述注意特征计算模块包括注意力系数获取单元和注意特征计算单元;
所述注意力系数获取单元,配置为根据预设双向长短时记忆网络中的任意一向长短时记忆网络的隐层特征和视频特征获取注意力系数:
αk=Φatt(V,hk-1)
其中,函数Φatt的计算公式为:
其中,所述αk为注意力系数,所述jk为中间的计算结果,所述Ev、Es和Ee为相应的线性操作的权重,所述dv和de表示相应的偏置,所述hk-1为所述双向长短时记忆网络的隐层特征;
所述注意特征计算单元,配置为根据所述视频特征和所述注意力系数获取单元所获取的注意力系数,利用预设注意力模型预测不同时刻的注意特征:
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-4任一项所述的基于视频的群体属性识别方法。
9.一种处理装置,包括
处理器,适于执行各条程序;以及
存储设备,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:权利要求1-4任一项所述的基于视频的群体属性识别方法。
CN201810209595.XA 2018-03-14 2018-03-14 基于视频的群体属性识别方法和装置 Active CN108537128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810209595.XA CN108537128B (zh) 2018-03-14 2018-03-14 基于视频的群体属性识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810209595.XA CN108537128B (zh) 2018-03-14 2018-03-14 基于视频的群体属性识别方法和装置

Publications (2)

Publication Number Publication Date
CN108537128A true CN108537128A (zh) 2018-09-14
CN108537128B CN108537128B (zh) 2020-09-22

Family

ID=63483957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810209595.XA Active CN108537128B (zh) 2018-03-14 2018-03-14 基于视频的群体属性识别方法和装置

Country Status (1)

Country Link
CN (1) CN108537128B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493166A (zh) * 2018-10-23 2019-03-19 深圳智能思创科技有限公司 一种针对电子商务导购场景任务型对话***的构建方法
CN110175425A (zh) * 2019-05-31 2019-08-27 重庆大学 一种基于mmalstm的齿轮剩余寿命的预测方法
CN113704511A (zh) * 2021-07-30 2021-11-26 北京达佳互联信息技术有限公司 多媒体资源的推荐方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
US20170308754A1 (en) * 2016-04-26 2017-10-26 Disney Enterprises, Inc. Systems and Methods for Determining Actions Depicted in Media Contents Based on Attention Weights of Media Content Frames
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
US20170357720A1 (en) * 2016-06-10 2017-12-14 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308754A1 (en) * 2016-04-26 2017-10-26 Disney Enterprises, Inc. Systems and Methods for Determining Actions Depicted in Media Contents Based on Attention Weights of Media Content Frames
US20170357720A1 (en) * 2016-06-10 2017-12-14 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALEXANDRE ALAHI 等: "Social LSTM: Human Trajectory Prediction in Crowded Spaces", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
LONG CHEN 等: "SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning", 《CVPR 2017》 *
SHIKHAR SHARMA等: "Action recognition using visual attention", 《ICLR 2016》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493166A (zh) * 2018-10-23 2019-03-19 深圳智能思创科技有限公司 一种针对电子商务导购场景任务型对话***的构建方法
CN109493166B (zh) * 2018-10-23 2021-12-28 深圳智能思创科技有限公司 一种针对电子商务导购场景任务型对话***的构建方法
CN110175425A (zh) * 2019-05-31 2019-08-27 重庆大学 一种基于mmalstm的齿轮剩余寿命的预测方法
CN110175425B (zh) * 2019-05-31 2023-02-21 重庆大学 一种基于mmalstm的齿轮剩余寿命的预测方法
CN113704511A (zh) * 2021-07-30 2021-11-26 北京达佳互联信息技术有限公司 多媒体资源的推荐方法、装置、电子设备及存储介质
CN113704511B (zh) * 2021-07-30 2022-11-22 北京达佳互联信息技术有限公司 多媒体资源的推荐方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN108537128B (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
JP6647455B1 (ja) 時間差モデルの教師なし学習法
Chen et al. Variational knowledge graph reasoning
Yao et al. Automated relational meta-learning
JP6608981B2 (ja) 異常セッション感知方法
EP3623964A1 (en) Framework for the automated determination of classes and anomaly detection methods for time series
Lian et al. A multitask point process predictive model
Adwan et al. Predicting customer churn in telecom industry using multilayer preceptron neural networks: Modeling and analysis
CN106897404B (zh) 一种基于多gru层神经网络的推荐方法与***
CN108537128A (zh) 基于视频的群体属性识别方法和装置
Spratling et al. Unsupervised learning of overlapping image components using divisive input modulation
Wang et al. Online reliability prediction via long short term memory for service-oriented systems
CN114270365A (zh) 基于弹性质心的聚类
Roqueiro et al. Counting people using video cameras
Richter et al. Looking into the TESSERACT: Time-drifts in event streams using series of evolving rolling averages of completion times
Lara-Benítez et al. Data streams classification using deep learning under different speeds and drifts
Kushwaha et al. Adaptive real-time motion segmentation technique based on statistical background model
Malhotra et al. An empirical study to redefine the relationship between software design metrics and maintainability in high data intensive applications
Zhang et al. Multimodal fusion for sensor data using stacked autoencoders
Kažič et al. Predicting users’ mobility using Monte Carlo simulations
CN114187077A (zh) 基于边增强型全局解耦图神经网络的序列推荐方法
Ghazvini et al. Biography commercial serial crime analysis using enhanced dynamic neural network
Orojo et al. Sluggish state-based neural networks provide state-of-the-art forecasts of covid-19 cases
Zhong et al. A classification-based approach to monitoring the safety of dynamic systems
Cahyono et al. A review on cyber resilience model in small and medium enterprises
Thakial et al. Neural network based prediction model for job applicants

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant