CN114332670A - 视频行为识别方法、装置、计算机设备和存储介质 - Google Patents

视频行为识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114332670A
CN114332670A CN202111202734.4A CN202111202734A CN114332670A CN 114332670 A CN114332670 A CN 114332670A CN 202111202734 A CN202111202734 A CN 202111202734A CN 114332670 A CN114332670 A CN 114332670A
Authority
CN
China
Prior art keywords
features
time
video
feature
behavior recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111202734.4A
Other languages
English (en)
Inventor
胡益珲
杨伟东
陈宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111202734.4A priority Critical patent/CN114332670A/zh
Publication of CN114332670A publication Critical patent/CN114332670A/zh
Priority to PCT/CN2022/116947 priority patent/WO2023061102A1/zh
Priority to EP22880046.2A priority patent/EP4287144A1/en
Priority to US18/201,635 priority patent/US20230316733A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种视频行为识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:从至少两帧目标视频图像提取视频图像特征;将视频图像特征的空间特征进行贡献调整,得到中间图像特征;基于先验信息对中间图像特征的时间特征和时间特征对应的内聚特征进行融合,得到融合特征;先验信息是根据中间图像特征在时间维度的变化信息得到的;内聚特征是对时间特征进行关注处理得到的;对融合特征进行时间特征贡献调整,得到行为识别特征;基于行为识别特征进行视频行为识别。采用本方法能够提高视频行为识别的准确率。

Description

视频行为识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种视频行为识别方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,计算机视觉技术在工业、安保、医疗、社交、导航和军事等各领域得到了广泛的应用,通过计算机视觉,可以用计算机代替人眼对目标进行识别、跟踪和测量等视觉感知处理,实现对生物视觉的模拟。视频行为识别是计算机视觉领域的重要课题之一,基于视频行为识别可以识别出给定视频出目标对象的动作行为,如吃饭、跑步、说话等各种动作行为。
目前,视频行为识别处理中,多是通过从视频中提取特征以进行行为识别,但传统的视频行为识别处理中提取的特征无法有效反映出视频中的行为信息,导致视频行为识别的准确率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高视频行为识别准确率的视频行为识别方法、装置、计算机设备、存储介质和计算机程序产品。
一种视频行为识别方法,所述方法包括:
从至少两帧目标视频图像提取视频图像特征;
将视频图像特征的空间特征进行贡献调整,得到中间图像特征;
基于先验信息对中间图像特征的时间特征和时间特征对应的内聚特征进行融合,得到融合特征;先验信息是根据中间图像特征在时间维度的变化信息得到的;内聚特征是对时间特征进行关注处理得到的;
对融合特征进行时间特征贡献调整,得到行为识别特征;
基于行为识别特征进行视频行为识别。
一种视频行为识别装置,所述装置包括:
视频图像特征提取模块,用于从至少两帧目标视频图像提取视频图像特征;
空间特征贡献调整模块,用于将视频图像特征的空间特征进行贡献调整,得到中间图像特征;
特征融合模块,用于基于先验信息对中间图像特征的时间特征和时间特征对应的内聚特征进行融合,得到融合特征;先验信息是根据中间图像特征在时间维度的变化信息得到的;内聚特征是对时间特征进行关注处理得到的;
时间特征贡献调整模块,用于对融合特征进行时间特征贡献调整,得到行为识别特征;
视频行为识别模块,用于基于行为识别特征进行视频行为识别。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
从至少两帧目标视频图像提取视频图像特征;
将视频图像特征的空间特征进行贡献调整,得到中间图像特征;
基于先验信息对中间图像特征的时间特征和时间特征对应的内聚特征进行融合,得到融合特征;先验信息是根据中间图像特征在时间维度的变化信息得到的;内聚特征是对时间特征进行关注处理得到的;
对融合特征进行时间特征贡献调整,得到行为识别特征;
基于行为识别特征进行视频行为识别。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
从至少两帧目标视频图像提取视频图像特征;
将视频图像特征的空间特征进行贡献调整,得到中间图像特征;
基于先验信息对中间图像特征的时间特征和时间特征对应的内聚特征进行融合,得到融合特征;先验信息是根据中间图像特征在时间维度的变化信息得到的;内聚特征是对时间特征进行关注处理得到的;
对融合特征进行时间特征贡献调整,得到行为识别特征;
基于行为识别特征进行视频行为识别。
一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现以下步骤:
从至少两帧目标视频图像提取视频图像特征;
将视频图像特征的空间特征进行贡献调整,得到中间图像特征;
基于先验信息对中间图像特征的时间特征和时间特征对应的内聚特征进行融合,得到融合特征;先验信息是根据中间图像特征在时间维度的变化信息得到的;内聚特征是对时间特征进行关注处理得到的;
对融合特征进行时间特征贡献调整,得到行为识别特征;
基于行为识别特征进行视频行为识别。
上述视频行为识别方法、装置、计算机设备、存储介质和计算机程序产品,将从至少两帧目标视频图像提取的视频图像特征的空间特征进行贡献调整,通过根据贡献调整获得的中间图像特征在时间维度的变化信息得到的先验信息,对中间图像特征的时间特征和对时间特征进行关注处理得到的内聚特征进行融合,再对得到的融合特征进行时间特征贡献调整,基于获得的行为识别特征进行视频行为识别。在视频行为识别处理过程中,对视频图像特征的空间特征进行贡献调整,并对融合特征进行时间特征贡献调整,可以调整行为识别特征中时间信息和空间信息的贡献程度,以增强行为识别特征的行为信息表现力;通过根据贡献调整获得的中间图像特征在时间维度的变化信息得到的先验信息,对中间图像特征的时间特征和对时间特征进行关注处理得到的内聚特征进行融合,可以对行为识别特征中时间信息进行有效聚焦,使获得的行为识别特征能够有效反映视频中的行为信息,从而提高了视频行为识别的准确率。
附图说明
图1为一个实施例中视频行为识别方法的应用环境图;
图2为一个实施例中视频行为识别方法的流程示意图;
图3为一个实施例中对时间特征进行内聚处理的流程示意图;
图4为一个实施例中视频行为识别模型的结构示意图;
图5为一个实施例中结构参数加权融合的流程示意图;
图6为一个实施例中确定结构参数处理的示意图;
图7为一个实施例中基于先验信息进行特征融合的流程示意图;
图8为一个实施例中高内聚处理的流程示意图;
图9为一个实施例中视频行为识别装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
本申请涉及人工智能中的计算机视觉技术(Computer Vision,CV)。计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的计算机视觉和机器学习等技术,具体通过如下实施例进行说明。
本申请提供的视频行为识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102可以对目标对象进行拍摄,得到视频,并将获得的视频发送至服务器104,服务器104从视频中提取至少两帧目标视频图像,并将从至少两帧目标视频图像提取的视频图像特征的空间特征进行贡献调整,通过根据贡献调整获得的中间图像特征在时间维度的变化信息得到的先验信息,对中间图像特征的时间特征和对时间特征进行关注处理得到的内聚特征进行融合,再对得到的融合特征进行时间特征贡献调整,基于获得的行为识别特征进行视频行为识别,服务器104可以将得到的视频行为识别结果反馈至终端102。
在一些实施例中,视频行为识别方法也可以单独由服务器104执行,如可以由服务器104从数据库中获取至少两帧目标视频图像,并基于获得的至少两帧目标视频图像进行视频行为识别处理。在一些实施例中,视频行为识别方法也可以由终端102执行,具体可以由终端102拍摄到视频后,继续由终端102从拍摄的视频中提取至少两帧目标视频图像,并基于至少两帧目标视频图像进行视频行为识别处理。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、车载设备和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种视频行为识别方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤202,从至少两帧目标视频图像提取视频图像特征。
其中,目标视频图像为从需要进行行为识别处理的视频中的图像,具体可为从需要进行行为识别处理的视频中抽取的图像。例如,对于需要进行行为识别处理的视频,如为终端102拍摄的篮球运动视频,则目标视频图像可以为从篮球运动视频中抽取的图像。目标视频图像多于一帧,以便可以根据各帧之间的时间信息对视频进行行为识别处理。一般的,视频行为识别中,有些动作可以不需要时间信息,即不需要多帧图像之间的关联关系,只根据空间信息便能够实现行为识别,如喝水、吃饭的动作行为识别;而对于一些更细致的行为识别,则需要多帧图像之间的关联关系,即利用多帧图像之间反映的时间信息实现视频的行为识别,如对打篮球中向下拍球和向上接球的行为,需要多帧视频图像综合进行识别。在具体应用中,目标视频图像可以为从视频中连续抽取的多帧,如可以为连续5帧或10帧等。
视频图像特征为对目标视频图像进行特征提取得到的反映目标视频图像的图像特性的特征,具体可以为通过各种图像特征提取方式提取到的图像特征,如可以为通过人工神经网络对各帧目标视频图像进行特征提取处理提取得到的图像特征。
具体地,服务器104获取至少两帧目标视频图像,目标视频图像从终端102拍摄到的视频中提取得到,目标视频图像可以为从视频中连续抽取的多帧图像。服务器104从至少两帧目标视频图像中提取得到视频图像特征。具体地,服务器104可以对至少两帧目标视频图像分别进行图像特征提取处理,如分别输入人工神经网络中,得到各帧目标视频图像分别对应的视频图像特征。
步骤204,将视频图像特征的空间特征进行贡献调整,得到中间图像特征。
其中,空间特征用于反映目标视频图像的空间信息,空间信息可以包括目标视频图像中各像素点的像素值分布信息,即目标视频图像中图像本身的特性。空间特征可以表征出目标视频图像包括的对象的静态特征。空间特征可以从视频图像特征中进一步提取得到,以从视频图像特征中获得反映目标视频图像中空间信息的特征。在具体实现时,可以对视频图像特征在空间维度进行特征提取,以得到视频图像特征的空间特征。贡献调整用于调整空间特征的贡献程度,空间特征的贡献程度指基于目标视频图像的特征进行视频行为识别时,空间特征对行为识别结果的影响程度。空间特征的贡献程度越大,则空间特征对视频行为识别处理的影响越大,即视频行为识别的结果越接近空间特征所反映的行为。贡献调整具体可以通过权重参数对空间特征进行调整实现,以获得中间图像特征,中间图像特征为对视频图像特征的空间特征在视频行为识别中的贡献程度调整后得到的图像特征。
具体地,得到视频图像特征后,服务器104对各帧目标视频图像分别对应的视频图像特征的空间特征进行贡献调整,具体可以由服务器104对各视频图像特征进行空间特征提取,以提取得到各视频图像特征的空间特征,服务器104基于空间权重参数对视频图像特征的空间特征进行贡献调整,得到中间图像特征。
步骤206,基于先验信息对中间图像特征的时间特征和时间特征对应的内聚特征进行融合,得到融合特征;先验信息是根据中间图像特征在时间维度的变化信息得到的;内聚特征是对时间特征进行关注处理得到的。
其中,先验信息反映了目标视频图像在时间维度的先验知识,先验信息根据中间图像特征在时间维度的变化信息得到,具体可以根据中间图像特征在时间维度的相似度得到。例如,先验信息可以包括在进行特征融合时对各融合特征的权重参数,则可以将各帧目标视频图像对应的中间图像特征计算时间维度的相似度,并根据获得的相似度得到包括权重参数的先验信息。时间特征用于反映目标视频图像在视频中的时间信息,时间信息可以包括在视频中各目标视频图像之间的关联信息,即目标视频图像在视频中时间先后顺序的特性。时间特征可以表征出目标视频图像包括的对象的动态特征,从而实现对对象的动态行为识别。时间特征可以从中间图像特征中进一步提取得到,以从中间图像特征中获得反映目标视频图像中时间信息的特征。在具体实现时,可以对中间图像特征中时间维度进行特征提取,以得到中间图像特征的时间特征。时间特征对应的内聚特征是对时间特征进行关注处理得到的,关注处理指对时间特征中有利于视频行为识别的特征进行关注,以突出该特征,从而获得冗余度低、内聚性强的内聚特征,具体可以基于注意力机制的算法对中间图像特征的时间特征进行关注处理,得到时间特征对应的内聚特征。内聚特征通过对时间特征进行关注处理获得,具有高内聚性,即内聚特征的时间信息的焦点特征突出,特征冗余度低,特征有效性高,可以准确表达目标视频图像在时间维度的信息,有利于提高视频行为识别的准确率。
通过先验信息对中间图像特征的时间特征和时间特征对应的内聚特征进行融合,以按照先验信息中的先验知识将时间特征和内聚特征进行融合,得到融合特征。融合特征通过先验信息中的先验知识将时间特征和内聚特征融合得到,可以确保融合特征中时间信息的内聚性,增强时间维度中重要特征的表达,从而能够提高视频行为识别的准确率。具体实现时,先验信息可以包括在进行特征融合时对各融合特征的权重参数,即先验信息包括时间特征和时间特征对应的内聚特征分别的权重参数,通过权重参数将时间特征和时间特征对应的内聚特征进行加权融合,得到融合特征。
具体地,得到中间图像特征后,服务器104可以获取先验信息,先验信息根据中间图像特征在时间维度的变化信息得到,具体可以根据中间图像特征在时间维度的余弦相似度得到。服务器104基于先验信息对中间图像特征的时间特征和时间特征对应的内聚特征进行融合,具体可以由服务器104对中间图像特征进行时间维度的特征提取,以得到中间图像特征的时间特征,并进一步确定时间特征对应的内聚特征。时间特征对应的内聚特征通过对时间特征进行关注处理得到的,具体也可以由服务器104基于注意力机制算法对时间特征进行关注处理,从而获得时间特征应的内聚特征。服务器104按照先验信息将中间图像特征的时间特征和时间特征对应的内聚特征进行融合,如服务器104可以按照先验信息中的加权参数,对图像特征的时间特征和时间特征对应的内聚特征进行加权融合处理,得到融合特征。
步骤208,对融合特征进行时间特征贡献调整,得到行为识别特征。
其中,时间特征贡献调整用于调整融合特征在时间维度的贡献程度,时间特征的贡献程度指基于目标视频图像的特征进行视频行为识别时,融合特征在时间维度的特征对行为识别结果的影响程度。融合特征在时间维度的特征的贡献程度越大,则融合特征在时间维度的特征对视频行为识别处理的影响越大,即视频行为识别的结果越接近融合特征在时间维度的特征所反映的行为。时间特征贡献调整具体可以通过权重参数对融合特征在时间维度的特征进行调整实现,以获得行为识别特征,行为识别特征可以用于视频行为识别。
具体地,获得融合特征后,服务器104对融合特征进行时间特征贡献调整,具体可以由服务器104按照时间权重参数对融合特征进行时间维度的贡献调整,以调整融合特征在时间维度的贡献程度,得到行为识别特征。
步骤210,基于行为识别特征进行视频行为识别。
其中,行为识别特征为用于视频行为识别的特征,具体可以基于行为识别特征进行行为分类,以确定目标视频图像所对应的视频行为识别结果。具体地,服务器104可以基于获得的行为识别特征进行视频行为识别,如可以将行为识别特征输入分类器中进行分类,根据分类结果得到视频行为识别结果,从而实现视频行为的有效识别。
上述视频行为识别方法中,将从至少两帧目标视频图像提取的视频图像特征的空间特征进行贡献调整,通过根据贡献调整获得的中间图像特征在时间维度的变化信息得到的先验信息,对中间图像特征的时间特征和对时间特征进行关注处理得到的内聚特征进行融合,再对得到的融合特征进行时间特征贡献调整,基于获得的行为识别特征进行视频行为识别。在视频行为识别处理过程中,对视频图像特征的空间特征进行贡献调整,并对融合特征进行时间特征贡献调整,可以调整行为识别特征中时间信息和空间信息的贡献程度,以增强行为识别特征的行为信息表现力;通过根据贡献调整获得的中间图像特征在时间维度的变化信息得到的先验信息,对中间图像特征的时间特征和对时间特征进行关注处理得到的内聚特征进行融合,可以对行为识别特征中时间信息进行有效聚焦,使获得的行为识别特征能够有效反映视频中的行为信息,从而提高了视频行为识别的准确率。
在一个实施例中,将视频图像特征的空间特征进行贡献调整,得到中间图像特征,包括:将视频图像特征进行空间特征提取,得到视频图像特征的空间特征;通过结构参数中的空间结构参数对空间特征进行贡献调整,得到中间图像特征;结构参数是通过携带行为标签的视频图像样本训练得到的。
其中,空间特征提取用于从视频图像特征中提取空间特征,以对空间特征进行贡献调整。空间特征提取可以通过特征提取模块实现,如可以通过卷积神经网络模型中的卷积模块对视频图像特征进行卷积操作,以实现空间特征提取。结构参数可以包括权重参数,以对针对图像特征的各种操作处理进行加权调整。例如,对于卷积神经网络模型,结构参数可以为是卷积神经网络模型的操作空间中定义的各种操作的权重参数,具体如可以为对卷积、采样、池化等操作进行加权调整的权重参数。结构参数可以包括空间结构参数和时间结构参数,分别对空间维度的空间特征以及时间维度的时间特征进行贡献调整,从而调整视频图像特征中的时空信息,以增强行为识别特征的行为信息表现力,有利于提高视频行为识别的准确率。结构参数预先通过携带行为标签的视频图像样本训练得到,视频图像样本可以为携带行为标签的视频图像,基于视频图像样本可以训练得到结构参数,以便对各种操作处理进行有效的加权调整。
具体地,得到视频图像特征后,服务器104对各帧目标视频图像分别对应的视频图像特征进行空间特征提取,具体可以通过预先训练完成的视频行为识别模型对视频图像特征进行空间特征提取,如可以通过视频行为识别模型中的卷积层结构对视频图像特征进行空间特征提取,得到视频图像特征的空间特征。服务器104确定通过携带行为标签的视频图像样本训练得到的结构参数,并通过结构参数中的空间结构参数对空间特征进行贡献调整,如空间结构参数为权重参数时,可以通过空间结构参数所对应的权重参数对空间特征进行加权处理,以通过空间结构参数调整视频图像特征的空间特征在进行视频行为识别时对识别结果的影响程度,从而实现对空间特征的贡献调整,获得中间图像特征,中间图像特征为对视频图像特征的空间特征在视频行为识别中的贡献程度调整后得到的图像特征。
进一步地,对融合特征进行时间特征贡献调整,得到行为识别特征,包括:通过结构参数中的时间结构参数对融合特征进行贡献调整,得到行为识别特征。
其中,结构参数可以为是卷积神经网络模型的操作空间中定义的各种操作的权重参数,结构参数包括对时间维度的特征进行贡献调整的时间结构参数。具体地,获得融合特征后,服务器104通过结构参数中的时间结构参数对融合特征进行时间特征贡献调整,得到用于视频行为处理的行为识别特征。在具体实现时,时间结构参数可以为权重参数,则服务器104可以通过时间结构参数所对应的权重参数对融合特征进行加权处理,以通过时间结构参数调整融合特征进行视频行为识别时,融合特征在时间维度的特征对识别结果的影响程度,从而实现对时间维度特征的贡献调整,以调整融合特征在时间维度的贡献程度,得到行为识别特征,服务器104可以基于获得的行为识别特征进行视频行为识别处理,获得视频行为识别结果。
本实施例中,由通过携带行为标签的视频图像样本训练得到的结构参数中的空间结构参数和时间结构参数分别对视频图像特征的空间特征及融合特征在相应特征维度进行贡献调整,从而根据空间结构参数和时间结构参数调整行为识别特征中时间信息和空间信息的贡献程度,实现了对时空特征的有效纠缠,行为识别特征的时空特征表现力强,即增强了行为识别特征的行为信息表现力,从而提高了视频行为识别的准确率。
在一个实施例中,视频行为识别方法还包括:确定待训练结构参数;通过待训练结构参数中的空间结构参数,对视频图像样本特征的空间样本特征进行贡献调整,得到中间样本特征;视频图像样本特征是从视频图像样本提取得到的;基于先验样本信息对中间样本特征的时间样本特征和时间样本特征对应的内聚样本特征进行融合,得到融合样本特征;内聚样本特征是对时间样本特征进行关注处理得到的;先验样本信息是根据中间样本特征在时间维度的变化信息得到的;通过待训练结构参数中的时间结构参数对融合样本特征进行贡献调整,得到行为识别样本特征;基于行为识别样本特征进行视频行为识别,并根据行为识别结果和视频图像样本对应的行为标签,对待训练结构参数进行更新后继续训练直至训练结束,获得结构参数。
本实施例中,通过携带行为标签的视频图像样本进行训练,在训练结束时获得包括时间结构参数和空间结构参数的结构参数。其中,待训练结构参数可以为每次迭代训练时的初始值,通过待训练结构参数中的空间结构参数对视频图像样本特征的空间样本特征进行贡献调整,得到中间样本特征。中间样本特征为对视频图像样本特征的空间样本特征进行贡献调整后的结果,视频图像样本特征从视频图像样本提取得到,具体可以通过人工神经网络模型对视频图像样本进行特征提取,得到视频图像样本的视频图像样本特征。先验样本信息根据中间样本特征在时间维度的变化信息得到,具体可以为根据中间样本特征在时间维度的相似度得到;内聚样本特征通过对时间样本特征进行关注处理得到,具体可以基于注意力机制对时间样本特征进行关注处理,得到时间样本特征对应的内聚样本特征。
融合样本特征由中间样本特征的时间样本特征和时间样本特征对应的内聚样本特征按照先验样本信息进行融合得到,具体可以基于先验样本信息对中间样本特征的时间样本特征和时间样本特征对应的内聚样本特征进行加权融合,得到融合样本特征。行为识别样本特征用于视频行为识别处理,通过待训练结构参数中的时间结构参数对融合样本特征进行贡献调整得到,具体由时间结构参数对融合样本特征进行权重调整,以调整融合样本特征在时间维度的特征在视频行为识别过程中的贡献程度。行为识别结果通过基于行为识别样本特征进行视频行为识别得到,根据行为识别结果和视频图像样本对应携带的行为标签可以对待训练结构参数进行评价,根据评价结果对待训练结构参数进行更新后继续迭代训练直至训练结束,如训练次数达到预设训练次数阈值、行为识别结果满足识别精度要求、目标函数满足结束条件等,结束训练后获得训练完成的结构参数,基于训练完成的结构参数可以对视频图像特征的空间特征和融合特征分别进行贡献调整,以实现视频行为识别处理。
具体地,结构参数可以由服务器104训练得到,也可以由其他训练设备训练得到后移植至服务器104中。以服务器104训练结构参数为例,在训练结构参数时,服务器104确定待训练结构参数,待训练结构参数为当前迭代训练时的初始值,服务器104通过待训练结构参数中的空间结构参数,对视频图像样本特征的空间样本特征进行贡献调整,得到中间样本特征。进一步地,服务器104基于先验样本信息对中间样本特征的时间样本特征和时间样本特征对应的内聚样本特征进行融合,得到融合样本特征。得到融合样本特征后,服务器104通过待训练结构参数中的时间结构参数对融合样本特征进行贡献调整,得到行为识别样本特征,服务器104基于行为识别样本特征进行视频行为识别,得到行为识别结果。服务器104基于行为识别结果和视频图像样本对应的行为标签,对待训练结构参数进行更新,并通过更新后的待训练结构参数返回继续迭代训练直到满足训练结束条件时结束训练,获得结构参数。结构参数可以用于在进行视频行为识别处理时,对针对目标视频图像在时空维度的特征的各种操作处理进行加权调整,从而实现目标视频图像的时空特征的有效缠绕,以增强行为识别特征的行为信息表现力,从而提高了视频行为识别的准确率。
本实施例中,通过携带行为标签的视频图像样本训练结构参数,通过训练完成的结构参数可以实现目标视频图像的时空特征的有效纠缠,能够增强行为识别特征的行为信息表现力,从而提高了视频行为识别的准确率。
在一个实施例中,视频行为识别方法通过视频行为识别模型实现,待训练结构参数是视频行为识别模型在训练中的参数。根据行为识别结果和视频图像样本对应的行为标签,对待训练结构参数进行更新后继续训练直至训练结束,获得结构参数,包括:获得视频行为识别模型输出的行为识别结果;确定行为识别结果与视频图像样本对应的行为标签之间的差异;根据差异对视频行为识别模型中的模型参数和待训练结构参数进行更新;基于更新后的视频行为识别模型继续训练直至训练结束,并根据训练完成的视频行为识别模型得到结构参数。
本实施例中,视频行为识别方法通过视频行为识别模型实现,即通过预先训练完成的视频行为识别模型实现视频行为识别方法的步骤。视频行为识别模型可以为基于各种神经网络算法构建的人工神经网络模型,如卷积神经网络模型、深度学习网络模型、循环神经网络模型、感知机网络模型、生成对抗网络模型等。待训练结构参数是视频行为识别模型在训练中的参数,即结构参数为视频行为识别模型中对模型操作处理进行贡献调整的参数。
其中,行为识别结果为基于行为识别样本特征进行视频行为识别获得的识别结果,行为识别结果具体由视频行为识别模型输出,即将至少两帧目标视频图像输入视频行为识别模型中,以由视频行为识别模型基于目标视频图像进行视频行为识别,输出行为识别结果。行为识别结果与视频图像样本对应的行为标签之间的差异,可以通过对比行为识别结果与行为标签确定。模型参数指视频行为识别模型中各层网络结构所对应的参数。例如,对于卷积神经网络模型,模型参数可以包括但不限于包括各层卷积的卷积核参数、池化参数、上下采样参数等各种参数。通过根据行为识别结果与行为标签之间的差异对视频行为识别模型中的模型参数和待训练结构参数进行更新,以实现对视频行为识别模型中的模型参数和结构参数进行联合训练。在训练结束获得训练完成的视频行为识别模型时,根据训练完成的视频行为识别模型可以确定结构参数。
服务器104通过视频行为识别模型对模型参数和结构参数进行联合训练,训练完成的结构参数可以从训练完成的视频行为识别模型中确定。具体地,服务器104将视频图像样本输入视频行为识别模型后,由视频行为识别模型进行视频行为识别处理并输出行为识别结果。服务器104确定视频行为识别模型输出的行为识别结果与视频图像样本对应的行为标签之间的差异,并根据差异对视频行为识别模型的参数进行更新,具体包括对视频行为识别模型中的模型参数和待训练结构参数进行更新,得到更新后的视频行为识别模型。服务器104基于更新后的视频行为识别模型继续通过视频图像样本进行训练直至训练结束,如在满足训练条件时结束训练,得到训练完成的视频行为识别模型。服务器104可以根据训练完成的视频行为识别模型确定训练完成的结构参数,训练完成的结构参数可以对视频行为识别模型中各层网络结构的操作进行权重调整,以调整各层网络结构对视频行为识别处理的贡献程度,从而获得表现力强的特征进行视频行为识别,提高了视频行为识别的准确率。
本实施例中,通过视频行为识别模型对模型参数和结构参数进行联合训练,训练完成的结构参数可以从训练完成的视频行为识别模型中确定,通过训练完成的结构参数可以实现目标视频图像的时空特征的有效纠缠,能够增强行为识别特征的行为信息表现力,从而提高了视频行为识别的准确率。
在一个实施例中,根据行为识别结果和视频图像样本对应的行为标签,对待训练结构参数进行更新后继续训练直至训练结束,获得结构参数,包括:确定行为识别结果和视频图像样本对应的行为标签之间的行为识别损失;根据行为识别损失和前一行为识别损失得到奖励值;根据奖励值对待训练结构参数进行更新,通过更新后的待训练结构参数继续训练直至目标函数满足结束条件时,获得结构参数;目标函数基于训练过程中的各奖励值得到。
其中,行为识别损失用于表征行为识别结果和视频图像样本对应的行为标签之间的差异程度,行为识别损失的形式可以根据实际需要进行设置,如可以设置为交叉熵损失。前一行为识别损失为针对前一帧视频图像样本对应确定的行为识别损失。奖励值用于对待训练结构参数进行更新,奖励值根据行为识别损失和前一行为识别损失确定,通过奖励值可以指导待训练结构参数向满足训练要求的方向进行更新。对待训练结构参数进行更新后,通过更新后的待训练结构参数继续训练直至目标函数满足结束条件时结束训练,得到训练完成的结构参数。其中,目标函数基于训练过程中的各奖励值得到,即目标函数根据各帧视频图像样本对应的奖励值得到,具体可以根据各帧视频图像样本对应的奖励值的和构建目标函数,以根据目标函数对结构参数训练的结束进行判定,获得满足贡献调整要求的结构参数。
具体地,服务器104基于行为识别样本特征进行视频行为识别,得到行为识别结果后,服务器104确定行为识别结果和视频图像样本对应的行为标签之间的行为识别损失,具体可以通过行为识别结果与行为标签之间的交叉熵损失得到行为识别损失。服务器104基于获得的行为识别损失与前一帧视频图像样本对应的前一行为识别损失得到奖励值,具体可以根据行为识别损失与前一行为识别损失之间的差异确定奖励值。例如,若行为识别损失大于前一行为识别损失,则可以获得数值为正值的奖励值,以提供正向反馈;若行为识别损失小于前一行为识别损失,则可以获得数值为负值的奖励值,以提供负向反馈,从而实现对待训练结构参数的更新指导。服务器104根据奖励值对待训练结构参数进行更新,如可以根据奖励值的正负或数值大小对待训练结构参数进行更新,得到更新后的待训练结构参数。服务器104通过更新后的待训练结构参数继续训练直至目标函数满足结束条件时结束训练,获得结构参数。其中,目标函数基于训练过程中的各奖励值得到,具体可以根据各帧视频图像样本对应的奖励值的和构建目标函数,通过根据目标函数对结构参数训练的结束进行判定,如在目标函数达到极值时结束训练,获得满足贡献调整要求的结构参数。
本实施例中,根据各帧视频图像样本对应的行为识别损失之间的差异得到奖励值,行为识别损失根据行为识别结果和视频图像样本对应的行为标签确定,并通过奖励值对待训练结构参数进行更新后继续进行训练,直至根据各帧视频图像样本对应的奖励值得到的目标函数满足结束条件时结束训练,得到训练完成的结构参数。通过根据各帧视频图像样本对应的行为识别损失之间的差异得到的奖励值对待训练结构参数进行更新,可以提高待训练结构参数的训练效率。
在一个实施例中,根据奖励值对待训练结构参数进行更新,包括:根据奖励值对策略梯度网络模型的模型参数进行更新;由更新后的策略梯度网络模型对待训练结构参数进行更新。
其中,策略梯度(Policy Gradient)网络模型为基于策略梯度的网络模型,其输入为状态,输出为动作,策略即指在不同的状态下采取不同的动作,通过基于策略进行梯度下降,以训练策略梯度网络模型能够根据当前状态做出对应的动作,获得更高的奖励值。具体地,策略梯度网络模型的模型参数可以作为状态,而该状态下策略梯度网络模型根据输入的结构参数输出的结构参数为动作,从而策略梯度网络模型可以根据输入的结构参数和当前的模型参数预测输出下一个动作,即下一个结构参数,从而实现在训练中对结构参数的更新。
具体地,在根据奖励值对待训练结构参数进行更新时,服务器104根据奖励值对策略梯度网络模型的模型参数进行更新,具体基于奖励值对策略梯度网络模型中的各模型参数进行调整,以由更新后的策略梯度网络模型进行下一次的结构参数预测。对策略梯度网络模型进行更新后,服务器104通过更新后的策略梯度网络模型对待训练结构参数进行更新,具体可以由更新后的策略梯度网络模型基于更新后的网络状态和待训练结构参数进行结构参数预测,获得预测的结构参数,策略梯度网络模型预测的结构参数即为对待训练结构参数进行更新后的结构参数。
本实施例中,根据奖励值对策略梯度网络模型进行更新,并通过更新后的策略梯度网络模型对待训练结构参数进行更新,可以通过策略梯度方式来优化结构参数,能够确保结构参数的训练质量,有利于提高视频行为识别处理的准确率。
在一个实施例中,视频行为识别方法还包括:确定中间图像特征在时间维度的相似度;基于相似度对初始先验信息进行修正,得到先验信息。
其中,时间维度即为各帧目标视频图像在所属视频中的先后顺序的维度,根据时间维度的时间特征,可以辅助对视频行为进行准确识别。相似度可以将表征各特征之间的距离,相似度越高,距离越近,通过中间图像特征在时间维度的相似度可以反映中间图像特征在时间维度的变化程度。初始先验信息可以为预先设定的先验信息,具体可以为预先基于样本数据训练得到的先验信息。根据相似度对初始先验信息进行修正,从而可以根据各帧目标视频图像在时间维度的变化程度,对中间图像特征的时间特征和内聚特征的融合进行加权调整,以增强融合特征的内聚性,即突出融合特征的焦点特征,减少融合特征的冗余信息。
具体地,服务器104在基于先验信息对中间图像特征的时间特征和时间特征对应的内聚特征进行融合前,可以根据各帧目标视频图像在时间维度的变化程度对初始先验信息进行修正,以获得对应的先验信息。服务器104确定中间图像特征在时间维度的相似度,具体可以对各帧目标视频图像分别对应的中间图像特征在时间维度计算余弦相似度,通过余弦相似度衡量各帧目标视频图像在时间维度的变化程度。服务器104根据中间图像特征在时间维度的相似度对初始先验信息进行修正,具体可以基于相似度将初始先验信息划分为正负参数,通过正负参数对初始先验信息进行修正后,将修正后的初始先验信息与初始先验信息以残差连接方式合并后得到先验信息,从而实现对先验信息的确定处理。
本实施例中,根据中间图像特征在时间维度的相似度对初始先验信息进行修正,通过反映了各帧目标视频图像在时间维度的变化程度的相似度对初始先验信息进行修正,可以有效利用各帧目标视频图像在时间维度的变化程度得到相应的先验知识,从而基于该先验知识对时间特征和内聚特征进行融合,可以对行为识别特征中时间信息进行有效聚焦,使获得的行为识别特征能够有效反映视频中的行为信息,从而提高了视频行为识别的准确率。
在一个实施例中,初始先验信息包括第一初始先验参数和第二初始先验参数;基于相似度对初始先验信息进行修正,得到先验信息,包括:根据第一初始先验参数、第二初始先验参数及预设阈值,对相似度进行动态调整;通过动态调整后的相似度分别对第一初始先验参数和第二初始先验参数进行修正,得到第一先验参数和第二先验参数;根据第一先验参数和第二先验参数得到先验信息。
其中,初始先验信息包括第一初始先验参数和第二初始先验参数,第一初始先验参数和第二初始先验参数分别作为中间图像特征的时间特征以及内聚特征的融合权重参数。预设阈值可以根据实际需要进行动态设置,以根据实际需要动态修正先验信息。第一先验参数和第二先验参数分别作为中间图像特征的时间特征以及内聚特征的融合权重参数,先验信息包括第一先验参数和第二先验参数。
具体地,在对初始先验信息进行修正时,服务器104确定预设阈值,并根据第一初始先验参数、第二初始先验参数及预设阈值,对相似度进行动态调整。服务器104通过动态调整后的相似度分别对初始先验信息中的第一初始先验参数和第二初始先验参数进行修正,得到第一先验参数和第二先验参数,并根据第一先验参数和第二先验参数得到先验信息。先验信息可以对时间特征和内聚特征进行加权融合处理,以按照先验信息中的先验知识将时间特征和内聚特征进行融合,得到融合特征。融合特征通过先验信息中的先验知识将时间特征和内聚特征融合得到,可以确保融合特征中时间信息的内聚性,增强时间维度中重要特征的表达,从而能够提高视频行为识别的准确率。
本实施例中,根据初始先验信息和预设阈值对相似度进行动态调整后,基于动态调整后的相似度对分别对第一初始先验参数和第二初始先验参数进行修正,得到第一先验参数和第二先验参数,根据第一先验参数和第二先验参数得到先验信息。获得的先验信息反映了目标视频图像在时间维度的先验知识,基于该先验信息对时间特征和内聚特征进行融合,可以对行为识别特征中时间信息进行有效聚焦,使获得的行为识别特征能够有效反映视频中的行为信息,从而提高了视频行为识别的准确率。
在一个实施例中,如图3所示,视频行为识别方法还包括对时间特征进行内聚处理,得到对应的内聚特征的处理,具体包括:
步骤302,确定当前基向量。
其中,当前基向量为当前对时间特征进行内聚处理的基向量,通过基向量可以实现对时间特征的内聚处理。具体地,在对时间特征进行内聚处理时,服务器104确定当前基向量,如可以为B×C×K,其中,B为批次处理的数据大小,C为中间图像特征的通道数,K为基向量的维度。
步骤304,通过当前基向量对中间图像特征的时间特征进行特征重构,得到重构特征。
其中,由当前基向量对时间特征进行特征重构,具体可以通过当前基向量与中间图像特征的时间特征进行融合,得到重构特征。具体实现时,服务器104可以通过当前基向量与中间图像特征的时间特征进行矩阵相乘后进行归一化映射后,实现对时间特征的重构,得到重构特征。
步骤306,根据重构特征和时间特征生成下一关注处理的基向量。
下一关注处理的基向量为下一次进行关注处理,即下一次对时间特征进行内聚处理时的基向量。具体地,服务器104根据重构特征和时间特征生成下一关注处理的基向量,如可以将重构特征和时间特征进行矩阵相乘后得到下一关注处理的基向量。下一关注处理的基向量将作为下一次进行关注处理时的基向量对相应的时间特征进行特征重构。
步骤308,根据下一关注处理的基向量、基向量和时间特征,得到时间特征对应的内聚特征。
得到下一关注处理的基向量后,服务器104根据下一关注处理的基向量、基向量和时间特征,获得时间特征对应的内聚特征,从而实现对时间特征的内聚处理。具体可以将下一关注处理的基向量、基向量和时间特征进行融合后,生成时间特征对应的内聚特征。
本实施例中,通过基向量对中间图像特征的时间特征进行特征重构,根据重构特征和时间特征生成新的基向量,并根据新的基向量、旧的基向量和时间特征得到时间特征对应的内聚特征,从而对时间特征进行聚焦,以突出在时间维度的重要焦点特征,获得具有高内聚性的内聚特征,可以准确表达目标视频图像在时间维度的信息,有利于提高视频行为识别的准确率。
在一个实施例中,根据重构特征和时间特征生成下一关注处理的基向量,包括:融合重构特征和时间特征,生成注意力特征;对注意力特征进行正则化处理,得到正则化特征;对正则化特征进行滑动平均更新,生成下一关注处理的基向量。
其中,注意力特征通过融合重构特征和时间特征得到,通过对注意力特征依次进行正则化处理和滑动平均更新,可以确保基向量的更新更加稳定。具体地,根据重构特征和时间特征生成下一关注处理的基向量时,服务器104融合重构特征和时间特征得到注意力特征。服务器104进一步对注意力特征进行正则化处理,如可以对注意力特征进行L2正则化处理,得到正则化特征。服务器104对获得的正则化特征进行滑动平均更新,生成下一关注处理的基向量。滑动平均,或者叫做指数加权平均,可以用来估计变量的局部均值,使得变量的更新与一段时间内的历史取值有关。下一关注处理的基向量为下一次进行关注处理,即下一次对时间特征进行内聚处理时的基向量。
本实施例中,通过对融合重构特征和时间特征得到的注意力特征依次进行正则化处理和滑动平均更新,可以确保基向量的更新更加稳定,以确保内聚特征的高内聚性,可以准确表达目标视频图像在时间维度的信息,有利于提高视频行为识别的准确率。
在一个实施例中,基于先验信息对中间图像特征的时间特征和时间特征对应的内聚特征进行融合,得到融合特征,包括:确定先验信息;对中间图像特征进行时间特征提取,得到中间图像特征的时间特征;通过先验信息,对时间特征和时间特征对应的内聚特征进行加权融合,得到融合特征。
其中,先验信息反映了目标视频图像在时间维度的先验知识,先验信息根据中间图像特征在时间维度的变化信息得到,具体可以根据中间图像特征在时间维度的相似度得到。时间特征用于反映目标视频图像在视频中的时间信息,通过对中间图像特征进行时间特征提取,可以提取得到中间图像特征的时间特征。通过先验信息对时间特征和时间特征对应的内聚特征进行加权融合,例如在先验信息包括第一先验参数和第二先验参数时,分别通过第一先验参数和第二先验参数对时间特征和时间特征对应的内聚特征进行加权融合,得到融合特征。
具体地,服务器104确定先验信息,先验信息根据中间图像特征在时间维度的变化信息得到,具体可以根据中间图像特征在时间维度的相似度得到。服务器104对中间图像特征进行时间特征提取,具体可以对中间图像特征中时间维度进行特征提取,以得到中间图像特征的时间特征。进一步地,服务器104基于先验信息对时间特征和时间特征对应的内聚特征进行加权融合,得到融合特征,从而实现对时间特征和时间特征对应的内聚特征的加权融合,融合特征通过先验信息中的先验知识将时间特征和内聚特征融合得到,可以确保融合特征中时间信息的内聚性,增强时间维度中重要特征的表达,从而能够提高视频行为识别的准确率。
本实施例中,融合特征基于先验信息中的先验知识将时间特征和内聚特征融合得到,可以确保融合特征中时间信息的内聚性,增强时间维度中重要特征的表达,从而能够提高视频行为识别的准确率。
在一个实施例中,在基于先验信息对中间图像特征的时间特征和时间特征对应的内聚特征进行融合,得到融合特征之前,还包括:对中间图像特征进行标准化处理,得到标准化特征;根据标准化特征进行非线性映射,获得映射后的中间图像特征。
其中,标准化处理可以对中间图像特征进行规范化,有利于解决梯度消失和梯度***问题,能够确保网络学习速率。标准化处理可以通过批量标准化处理实现。非线性映射可以引入非线性因素,从而对中间图像特征进行去线性,有利于增强中间图像特征的灵活表达。具体地,得到中间图像特征后,服务器104对中间图像特征进行标准化处理,如可以通过BN(Batch Normalization,批量标准化)层结构对中间图像特征进行标准化处理,得到标准化特征。进一步地,服务器104对标准化特征进行非线性映射,如可以通过激活函数对标准化特征进行非线性映射,得到映射后的中间图像特征。
进一步地,基于先验信息对中间图像特征的时间特征和时间特征对应的内聚特征进行融合,得到融合特征,包括:基于先验信息对映射后的中间图像特征的时间特征和时间特征对应的内聚特征进行融合,得到融合特征;先验信息是根据映射后的中间图像特征在时间维度的变化信息得到的。
具体地,得到映射后的中间图像特征后,服务器104基于先验信息对映射后的中间图像特征的时间特征和时间特征对应的内聚特征进行融合,得到融合特征。其中,先验信息是根据映射后的中间图像特征在时间维度的变化信息得到的,内聚特征是对映射后的中间图像特征的时间特征进行关注处理得到的。
本实施例中,在得到中间图像特征后,进一步对中间图像特征进行标准化处理和非线性映射,以增强中间图像特征的特征表达,并基于映射后的中间图像特征进行视频行为识别处理,可以进一步提高行为识别特征的行为信息表现力,从而有利于提高视频行为识别的准确率。
本申请还提供一种应用场景,该应用场景应用上述的视频行为识别方法。
具体地,该视频行为识别方法在该应用场景的应用如下:
对于视频行为识别处理,时空信息建模是视频行为识别的核心问题之一。近年来主流方法主要有基于双流网络的行为识别方法和基于3D(3-Dimensional,三维)卷积网络的行为识别方法。前者通过平行的两个网络分别提取RGB和光流特征,后者通过3D卷积同时建模时间和空间信息。然而,大量的模型参数和算力损耗限制了其效率,基于此,后续的改进方法主要通过将三维卷积分解为二维空间卷积和一维时间卷积的方式来分别对时间和空间信息建模,进而提升模型的效率。
通过设计不同的网络结构来提取更好的时空特征,但忽略了时空线索对不同动作类的差异化影响。例如,有些动作即使没有时间信息的帮助,也很容易仅用一张图片来判别,这是因为它们在不同的场景中,具有显著的空间信息,此时可以作为具有高度可信度的动作类别进行预测。然而,时间信息对细粒度动作识别是必不可少的,例如,“拉小提琴”动作中的推弦弓和拉弦弓动作的判别,需要时间信息才可以针对推弦弓和拉弦弓动作进行准确识别。视频中通常包含丰富的时间相互关联的内容,在这样多维的信息中,仅仅对时空特征进行独立分解建模,而时空信息的相关性在不同的动作类别之间存在很大的差异,在识别过程中对时空信息的贡献不同,导致时空信息无法有效反映出视频中的行为信息。此外,视频中动作的时间边界不明确,即动作的开始时间和结束时间不明确、持续时间不确定,导致视频行为识别的准确率较低。
基于此,本实施例中通过上述的视频行为识别方法,可以采用网络结构搜索策略自适应地调整时间和空间信息的权重,根据行为识别过程中贡献的不同,挖掘时间空间信息之间的深层关联、共同学习时空的相互作用;同时设计了一个节奏调节器,根据动作节律的先验信息和时间卷积的结构参数,得到时间信息的高内聚性表达,以此来调整不同节奏的动作,从而解决相同动作却具有不同节奏造成的特征表达差异的问题,提高了视频行为识别的准确率。
具体地,视频行为识别方法包括:从至少两帧目标视频图像提取视频图像特征,具体可以将至少两帧目标视频图像输入到人工神经网络中,以由人工神经网络提取得到视频图像特征;将视频图像特征的空间特征进行贡献调整,得到中间图像特征,具体通过预先训练的结构参数对视频图像特征的空间特征进行贡献调整;基于先验信息对中间图像特征的时间特征和时间特征对应的内聚特征进行融合,从而使用节奏调节器调整行为的节奏,得到融合特征;再对融合特征进行时间特征贡献调整,得到行为识别特征,具体可以通过结构参数对融合特征进行时间特征贡献调整;最后基于行为识别特征进行视频行为识别,得到行为识别结果。
本实施例的视频行为识别方法基于视频行为识别模型实现,如图4所示,为本实施例中视频行为识别模型的网络结构示意图。其中,X为至少两帧目标视频图像提取到的视频图像特征,通过1×3×3的2D卷积进行空间特征提取,得到空间特征,并通过结构参数中的空间结构参数α1对空间特征进行贡献调整,得到中间图像特征。中间图像特征依次通过批量标准化处理和激活函数的非线性映射处理,具体可以通过BN层结构和ReLU层结构实现对中间图像特征的批量标准化处理和非线性映射处理。获得的映射后的特征A分别通过两个3×1×1的1D卷积进行时间特征提取,其中一个分支为高内聚Cohesive的1D卷积处理,从而可以提取得到中间图像特征的时间特征对应的内聚特征。对于1D卷积进行时间特征提取的结果,通过先验信息中的权重参数β1和β2分别进行加权调整,并对两个分支的加权调整结果进行融合。权重参数β1和β2可以为基于策略梯度Agent网络训练得到的结构参数,通过确定特征A在时间维度的相似度,以对初始的权重参数β1和β2进行残差修正,并基于残差修正后的权重参数β1和β2对1D卷积的提取结果进行加权处理。两个1D卷积分支的结果进行融合后,通过结构参数中的空间结构参数α2对融合特征进行时间特征贡献调整,对贡献调整后的融合特征进行下采样后得到行为识别特征,行为识别特征用于视频行为识别,得到行为识别结果。
其中,结构参数指的是操作空间中定义的诸如卷积等操作的权重参数,是网络结构搜索技术中的概念。本实施例可以通过微分方式和策略梯度方式两种结构参数更新方式来优化更新待融合的时间和空间卷积对应的结构参数,包括α1和α2;而在高内聚时间卷积模块和1D时间卷积模块的融合中,也可以利用预先训练的结构参数β1和β2进行加权融合处理。如图5所示,融合时间和空间卷积的结构参数包括α1和α2,对两个时间卷积分支进行加权融合的结构参数包括β1和β2。具体地,目标视频图像提取到的视频图像特征通过1×d×d的2D卷积进行空间特征提取,提取结果通过α1进行贡献调整,具体通过特征提取结果与结构参数进行相乘以进行融合,实现贡献调整,贡献调整后依次进行批量标准化处理和激活函数的非线性映射。映射后的结果分别通过两个t×1×1的1D卷积进行时间特征提取,提取的结果分别通过结构参数β1和β2进行加权融合,加权融合的结果通过结构参数α2进行时间特征贡献调整,得到进行视频行为识别处理的行为识别特征。
具体地,在训练结构参数时,对基于微分方式更新的处理,预先定义一个多维的结构参数,如可以为多维的结构参数向量,具体为二维向量,在微分方式更新处理中具有梯度。其中,结构参数的维度分别代表空间卷积和时间卷积对应的结构参数。将结构参数作用于空间卷积和时间卷积来融合两者的特征,具体通过α1作用于空间卷积进行贡献调整,通过α2作用于时间卷积进行贡献调整。根据视频行为识别模型的预测结果和真实结果计算误差值,利用梯度下降算法对结构参数进行更新,在训练结束时得到训练完成的结构参数。
进一步地,在根据视频行为识别模型的预测结果和真实结果计算误差值,利用梯度下降算法对结构参数进行更新时,采用微分的方式进行优化。将网络结构搜索技术中操作空间记作O,o则是具体的一个操作,节点指的是网络结构搜索方法中的基本操作单元的集合,设定i和j是两个顺序相邻的节点,它们之间的一组候选操作的权重记作αij,P是对应的概率分布。节点i和j之间的具有最大概率的候选操作通过max函数得到,最终的网络结构通过不同节点间搜索得到的操作堆叠而成,如下式(1)所示,
Figure BDA0003305622830000251
其中,N为节点数量。
横向来看相当于学习选定的具体操作,将操作空间限制在级联的2D卷积和1D卷积之上直接通过梯度进行优化,以搜索得到对应的网络结构,如下式(2),
wLtrain(w,α) (2)
其中,▽w为梯度优化处理,Ltrain(w,α)为网络结构的目标函数,w为网络结构的模型参数。
纵向来看,相当于通过结构参数增强或者减弱2D空间卷积和1D时间卷积的特征在特征学习时的重要度。如图6所示,本实施例的块定义在两个节点之间。例如,对于ResNet结构这些节点代表前一个块的输出和后一个块的输入。顺序连接的1×d×d卷积和t×1×1卷积定义在块内部。结构参数用于这两个卷积之上来调整它们的强度。通过训练以从α11…α1i…α1n中寻找满足2D卷积的贡献调整要求的结构参数α1,从α21…α2j…α2m中寻找满足1D卷积的贡献调整要求的结构参数α2,图6中确定α1n为结构参数α1,α21为结构参数α2。记o(·)为定义在搜索空间O中,且作用于输入x之上的操作,则节点i和节点j之间的权重向量是α(i,j),可以得到下式(3),
y(i,j)=∑o∈OFi,j(wOo (i,j))o(x) (3)
其中,F是权重向量的线性映射,y(i,j)是搜索空间中所有权重向量的线性映射之和,具体可以将F设置为一个全连接层,每一cell单元被定义为一个(2+1)D卷积块,因此αo (i,j)是固定的。因此学习目标可以进一步简化为下式(4),
y=g(wα,wn,x) (4)
其中,wα是网络的结构参数,wn是网络的模型参数,y是(2+1)D卷积块的输出。得益于轻量的搜索空间,具体实现时可以将结构参数和模型参数同时进行端到端的训练,为每一个(2+1)D卷积块都学习一组结构参数,从而得到的优化方式如下式(5),
▽Lval(wα,wn) (5)
即对网络的结构参数wα和模型参数wn进行同步训练,基于目标函数Lval进行梯度下降优化,以得到满足需要的结构参数wα和模型参数wn,实现网络训练。
对于策略梯度方式的更新处理,预先定义一个多维的结构参数,如可以为多维的结构参数向量,具体为二维向量,在策略梯度方式的更新处理中截断梯度信息。其中,结构参数的维度分别代表空间卷积和时间卷积对应的结构参数。预先定义一策略梯度Agent网络来根据当前的结构参数和策略梯度Agent网络的网络状态生成下一个结构参数。将生成的结构参数作用于空间卷积和时间卷积来融合两者的特征。根据策略梯度Agent网络的当前网络状态的奖励值更新Agent的网络参数,进而由新的Agent来预测下一个结构参数,从而实现结构参数的更新。
具体地,策略梯度下降是一种强化学习方法,其中策略(policy)指的是在不同状态(state)下,所采取的动作(action),目标是希望基于策略来做梯度下降,以此训练出策略梯度网络Agent能有较好的根据当前状态做出对应动作,能得到更高的奖励值(reward)。通过策略梯度方式来优化结构参数时,可以使用多层感知机(Multilayer Perceptron)作为策略梯度网络Agent,当前策略梯度网络Agent的参数作为状态state,网络输出的结构参数作为动作action,使用当前主干网络,即使用视频行为识别模块的损失loss和奖励常量作为奖励值reward函数的组成部分。在前向的处理流程中,先输入初始的结构参数给Agent网络,紧接着该网络会根据当前Agent网络参数和输入的结构参数预测出下一个网络参数即action。在反向传播过程中,则是最大化当前能够获得的奖励值reward,通过奖励值对Agent网络的参数进行更新。设当前的状态是s,a代表当前的action,θ代表网络的参数,则交叉熵损失CE如下式(6),
Figure BDA0003305622830000271
其中,
Figure BDA0003305622830000272
为模型预测输出,y为真实标签。为了确保结构参数搜索对网络整体学***滑后的CE值进行reward函数的设计,可以使得搜索到的结构参数跟视频行为识别模型的主干网路的学***滑后的CE如下式(7),
Figure BDA0003305622830000273
其中,i,j和N分别为正确类别,其他类别和总类别数,ε是一个非常小的常数。进一步地,如果后一个时间步n得到的SCEn值大于前一个m得到的SCEm,则给予正向的reward值γ,否则reward为-γ。如下式(8),
f=-γ*sgn(SCEm-SCEn) (8)
其中,f为奖励值,γ为设定的变量。
整体的目标函数如下式(9),f(s,a)为网络预测输出。
L=∑logπ(a|s,θ)f(s,a) (9)
具体地,针对时空信息重要度和缩小类内差异性的先验激励模块两部分的结构参数对应的多层感知机MLP分别是具有6个隐层神经元和4个隐层神经元的3层神经网络,同时在各层之间添加了ReLU激活函数,且最后一层为softplus激活函数。由于policy gradient机制需要完整的状态行为序列,则会使得中间状态缺少反馈进而导致整体训练效果不佳,因此对于状态序列长度,一种方法可以将其设置为1个时期epoch,即每2个时期epoch计算一次最近时期epoch的reward;另一种则可以将其看为一个迭代(iteration)内的优化,这样会更有利于优化。在优化时将网络的参数和Agent的参数进行剥离,分开优化。针对两种参数可以采用不同的优化器,其中Agent优化器采用Adam优化器,网络参数优化采用随机梯度下降(Stochastic Gradient Descent,SGD)进行优化处理,在优化时两者交替更新。
在将结构参数作用于空间卷积和时间卷积来融合两者的特征时,具体根据结构参数,使用Auto(2+1)D卷积结构,即2D卷积+1D卷积的结构将视频图像特征中的时空信息进行融合。其中,Auto(2+1)D是由顺序连接的2D卷积和1D卷积、各自对应的结构参数,以及激活函数组成。通过2D卷积和1D卷积来分别解耦特征中的时间和空间信息,进行独立建模,即通过2D卷积进行空间特征提取,通过1D卷积进行时间特征提取。在训练结构参数时,通过结构参数来自适应地对解耦后的信息进行融合,并通过激活函数增加模型的非线性表达能力。2D卷积和1D卷积组成一个基本的卷积块,可以作为网络中的基础块结构,如可以作为ResNet(Residual Neural Network,残差网络)中的Block结构。
在根据所提特征在时间维度的相似度和先验信息对应的结构参数,具体包括先验参数β1和β2,使用节奏调节器调整行为的节奏的处理过程中,节奏调节器包含先验激励模块和高内聚时间表达模块。先验激励模块可以根据特征的时间维度上的相似度来为当前的结构参数设置界限值Margin,以此促进结构参数的优化。高内聚的时间表达模块可以通过高效的注意力机制来增加时间维度信息的内聚性。具体地,将上一层输出的特征图输入2D卷积,进行空间特征的提取。将2D卷积输出的特征输入先验激励模块,计算其在时间维度上的相似度,并根据相似度值为结构参数设置合适的Margin。另一方面,将2D卷积输出的特征输入高内聚时间模块和1D时间卷积模块并输出特征图,根据先验信息结构参数,自适应地调整高内聚时间模块和1D时间卷积模块输出的特征图的权重并进行融合,获得融合后的特征。
具体地,为了实现通过先验信息激励网络朝着高内聚时间特征的方向优化,将3x1x1这一条时间卷积分支改为3x1x1时间卷积和带有期望最大化注意力的3x1x1时间卷积两个分支。先验激励模块主要是通过对先验参数β1和β2优化的激励作用于特征。如图7所示,目标视频图像提取到的视频图像特征通过1×3×3的2D卷积进行空间特征提取,提取结果通过α1进行贡献调整,贡献调整后依次进行批量标准化处理和激活函数的非线性映射。映射后的结果通过先验激励模块进行处理。在先验激励模块中,计算映射后的结果在时间维度的相似度,基于相似度对初始的先验参数β1和β2进行修正,并通过修改后的先验参数β1和β2,对通过两个t×1×1的1D卷积进行时间特征提取得到的结果进行加权融合,加权融合的结果通过结构参数α2进行时间特征贡献调整,得到进行视频行为识别处理的行为识别特征。
图7中,箭头代表特征图的流向,它们通过把上一个模块输出的特征图输入下一个模块的方式连接,紧接着将先验相似度激励模块后得到的特征图,并行的输入下一个卷积块,最后的输出是将两个分支的特征图进行拼接并降低维度。为了通过先验信息激励网络朝着高内聚时间特征的或者高静态特性的方向优化,首先根据1x3x3卷积得到的特征图在时间维度上计算余弦相似度,以此来衡量该样本在时间维度的变化程度,并基于该变化程度阈值将当前的先验参数划分为正负参数。在具体实现中,对于动作节奏较慢的视频,各帧目标视频图像之间的冗余信息多,则需要增强内聚特征,可以增大内聚特征的权重,以突出焦点特征进行行为识别,从而提高视频行为识别的准确度。具体来说,经过激励修正后的先验参数与原始输入的先验参数以残差连接的方式合并作为最终的先验参数。由于在网络达到一定优化的情况下,张量的元素值往往没有较大的方差,统一偏小,在具体实现时可以通过设置界限值margin,动态地调整阈值来设置当前的相似度先验信息,可以获得如下式(10),
Sim=max(0,Sim-(Thres+abs(β1-β2))) (10)
其中,Sim代表相似度值,Thres是阈值,β1和β2为先验参数。
进一步地,高内聚时间模块基于EM(Expectation-Maximum,称期望最大化)算法优化的注意力机制获得高内聚的时间表达。对于每个样本,都经过固定次数的迭代优化来重构特征。如图8所示,这个过程可以分为E步和M步,特征图经过下采样处理后,通过E步和M步分别进行处理后融合得到高内聚特征。首先,假设有基向量B×C×K,其中B为batch大小,即为批次处理的数据大小,C为原始输入的视频图像特征对应的通道数,K为基向量维度。在E步中,通过使用基向量和B×(H×W)×C的进行空间特征提取后的空间特征向量做矩阵乘法,再接softmax来重构原始特征,得到尺寸为B×(H×W)×K的特征图。在M步中则是将尺寸为B×(H×W)×K的重构特征图和B×(H×W)×C的原始特征图做乘法来得到新的基向量B×C×K。进一步地,为了保证基向量更新的稳定,对其进行L2正则化,同时在训练时增加基向量的滑动平均更新,具体如下式(11),
mu=mu*momentum+mu_mean*(1-momentum) (11)
其中,mu为基向量,mu_mean为其均值,momentum为动量。
最后将E步得到的基向量和M步得到的注意力图做矩阵乘法,得到最终重构的带有全局信息的特征图。
本实施例中提供的视频行为识别方法应用于视频识别领域,而在视频识别领域中三维卷积目前被广泛的使用,但是由于其参数量高的限制难以拓展。一些改进方法在计算成本低、内存需求小、性能高的基础上,将三维卷积分解为二维空间卷积和一维时间卷积。随后很多工作着力于通过设计不同的网络结构来获得更具有表达性的特征。但业内并未关注到视频中的空间和时间线索在不同的动作类别上有着不同的影响。而本实施例中的视频行为识别方法,涉及的自适应时空纠缠网络基于重要性分析自动地融合分解后的时空信息,以获得更强大的时空表示。该视频行为识别方法中,Auto(2+1)D卷积通过网络结构搜索技术自适应重组解耦时空卷积滤波器,以建模时空的不一致贡献信息,挖掘出了时空信息之间的深层相关性,并学习时空交互信息,通过整合不同权重的时空信息,增强了当前模型对时间和空间信息的建模能力。而节律调节器利用EM算法的有效注意机制来提取时间维度的高内聚特征,可以根据动作节奏的先验信息和时间卷积的结构参数,来调整具有不同节奏的动作的时间信息,以此获得时间信息的高内聚性的表达式来处理不同动作类中的不同持续时间问题,可以提高视频行为识别的准确率。
应该理解的是,虽然图2-图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种视频行为识别装置900,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:视频图像特征提取模块902、空间特征贡献调整模块904、特征融合模块906、时间特征贡献调整模块908和视频行为识别模块910,其中:
视频图像特征提取模块902,用于从至少两帧目标视频图像提取视频图像特征;
空间特征贡献调整模块904,用于将视频图像特征的空间特征进行贡献调整,得到中间图像特征;
特征融合模块906,用于基于先验信息对中间图像特征的时间特征和时间特征对应的内聚特征进行融合,得到融合特征;先验信息是根据中间图像特征在时间维度的变化信息得到的;内聚特征是对时间特征进行关注处理得到的;
时间特征贡献调整模块908,用于对融合特征进行时间特征贡献调整,得到行为识别特征;
视频行为识别模块910,用于基于行为识别特征进行视频行为识别。
在一个实施例中,空间特征贡献调整模块904,还用于将视频图像特征进行空间特征提取,得到视频图像特征的空间特征;通过结构参数中的空间结构参数对空间特征进行贡献调整,得到中间图像特征;结构参数是通过携带行为标签的视频图像样本训练得到的;时间特征贡献调整模块908,还用于通过结构参数中的时间结构参数对融合特征进行贡献调整,得到行为识别特征。
在一个实施例中,还包括待训练参数确定模块、中间样本特征获得模块、融合样本特征获得模块、行为识别样本特征获得模块和迭代模块;其中:待训练参数确定模块,用于确定待训练结构参数;中间样本特征获得模块,用于通过待训练结构参数中的空间结构参数,对视频图像样本特征的空间样本特征进行贡献调整,得到中间样本特征;视频图像样本特征是从视频图像样本提取得到的;融合样本特征获得模块,用于基于先验样本信息对中间样本特征的时间样本特征和时间样本特征对应的内聚样本特征进行融合,得到融合样本特征;内聚样本特征是对时间样本特征进行关注处理得到的;先验样本信息是根据中间样本特征在时间维度的变化信息得到的;行为识别样本特征获得模块,用于通过待训练结构参数中的时间结构参数对融合样本特征进行贡献调整,得到行为识别样本特征;迭代模块,用于基于行为识别样本特征进行视频行为识别,并根据行为识别结果和视频图像样本对应的行为标签,对待训练结构参数进行更新后继续训练直至训练结束,获得结构参数。
在一个实施例中,视频行为识别装置通过视频行为识别模型实现,待训练结构参数是视频行为识别模型在训练中的参数;迭代模块还包括识别结果获得模块、差异确定模块、结构参数更新模块和结构参数获得模块;其中:识别结果获得模块,用于获得视频行为识别模型输出的行为识别结果;差异确定模块,用于确定行为识别结果与视频图像样本对应的行为标签之间的差异;结构参数更新模块,用于根据差异对视频行为识别模型中的模型参数和待训练结构参数进行更新;结构参数获得模块,用于基于更新后的视频行为识别模型继续训练直至训练结束,并根据训练完成的视频行为识别模型得到结构参数。
在一个实施例中,迭代模块还包括识别损失确定模块、奖励值获得模块和奖励值处理模块;其中:识别损失确定模块,用于确定行为识别结果和视频图像样本对应的行为标签之间的行为识别损失;奖励值获得模块,用于根据行为识别损失和前一行为识别损失得到奖励值;奖励值处理模块,用于根据奖励值对待训练结构参数进行更新,通过更新后的待训练结构参数继续训练直至目标函数满足结束条件时,获得结构参数;目标函数基于训练过程中的各奖励值得到。
在一个实施例中,奖励值获得模块,还用于根据奖励值对策略梯度网络模型的模型参数进行更新;由更新后的策略梯度网络模型对待训练结构参数进行更新。
在一个实施例中,还包括相似度确定模块和先验信息修正模块;其中:相似度确定模块,用于确定中间图像特征在时间维度的相似度;先验信息修正模块,用于基于相似度对初始先验信息进行修正,得到先验信息。
在一个实施例中,初始先验信息包括第一初始先验参数和第二初始先验参数;先验信息修正模块包括相似度调整模块、先验参数修正模块和先验信息获得模块;其中:相似度调整模块,用于根据第一初始先验参数、第二初始先验参数及预设阈值,对相似度进行动态调整;先验参数修正模块,用于通过动态调整后的相似度分别对第一初始先验参数和第二初始先验参数进行修正,得到第一先验参数和第二先验参数;先验信息获得模块,用于根据第一先验参数和第二先验参数得到先验信息。
在一个实施例中,还包括基向量确定模块、特征重构模块、基向量更新模块和内聚特征获得模块;其中:基向量确定模块,用于确定当前基向量;特征重构模块,用于通过当前基向量对中间图像特征的时间特征进行特征重构,得到重构特征;基向量更新模块,用于根据重构特征和时间特征生成下一关注处理的基向量;内聚特征获得模块,用于根据下一关注处理的基向量、基向量和时间特征,得到时间特征对应的内聚特征。
在一个实施例中,基向量更新模块还包括注意力特征模块、正则化处理模块和滑动平均更新模块;其中:注意力特征模块,用于融合重构特征和时间特征,生成注意力特征;正则化处理模块,用于对注意力特征进行正则化处理,得到正则化特征;滑动平均更新模块,用于对正则化特征进行滑动平均更新,生成下一关注处理的基向量。
在一个实施例中,特征融合模块906,还用于确定先验信息;对中间图像特征进行时间特征提取,得到中间图像特征的时间特征;通过先验信息,对时间特征和时间特征对应的内聚特征进行加权融合,得到融合特征。
在一个实施例中,还包括标准化处理模块和非线性映射模块;其中:标准化处理模块,用于对中间图像特征进行标准化处理,得到标准化特征;非线性映射模块,用于根据标准化特征进行非线性映射,获得映射后的中间图像特征;特征融合模块906,还用于基于先验信息对映射后的中间图像特征的时间特征和时间特征对应的内聚特征进行融合,得到融合特征;先验信息是根据映射后的中间图像特征在时间维度的变化信息得到的。
关于视频行为识别装置的具体限定可以参见上文中对于视频行为识别方法的限定,在此不再赘述。上述视频行为识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储模型数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频行为识别方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(RandomAccess Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (16)

1.一种视频行为识别方法,其特征在于,所述方法包括:
从至少两帧目标视频图像提取视频图像特征;
将所述视频图像特征的空间特征进行贡献调整,得到中间图像特征;
基于先验信息对所述中间图像特征的时间特征和所述时间特征对应的内聚特征进行融合,得到融合特征;所述先验信息是根据所述中间图像特征在时间维度的变化信息得到的;所述内聚特征是对所述时间特征进行关注处理得到的;
对所述融合特征进行时间特征贡献调整,得到行为识别特征;
基于所述行为识别特征进行视频行为识别。
2.根据权利要求1所述的方法,其特征在于,所述将所述视频图像特征的空间特征进行贡献调整,得到中间图像特征,包括:
将所述视频图像特征进行空间特征提取,得到所述视频图像特征的空间特征;
通过结构参数中的空间结构参数对所述空间特征进行贡献调整,得到中间图像特征;所述结构参数是通过携带行为标签的视频图像样本训练得到的;
所述对所述融合特征进行时间特征贡献调整,得到行为识别特征,包括:
通过所述结构参数中的时间结构参数对所述融合特征进行贡献调整,得到行为识别特征。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
确定待训练结构参数;
通过所述待训练结构参数中的空间结构参数,对视频图像样本特征的空间样本特征进行贡献调整,得到中间样本特征;所述视频图像样本特征是从所述视频图像样本提取得到的;
基于先验样本信息对所述中间样本特征的时间样本特征和所述时间样本特征对应的内聚样本特征进行融合,得到融合样本特征;所述内聚样本特征是对所述时间样本特征进行关注处理得到的;所述先验样本信息是根据所述中间样本特征在时间维度的变化信息得到的;
通过所述待训练结构参数中的时间结构参数对所述融合样本特征进行贡献调整,得到行为识别样本特征;
基于所述行为识别样本特征进行视频行为识别,并根据行为识别结果和所述视频图像样本对应的行为标签,对所述待训练结构参数进行更新后继续训练直至训练结束,获得所述结构参数。
4.根据权利要求3所述的方法,其特征在于,所述方法通过视频行为识别模型实现,所述待训练结构参数是所述视频行为识别模型在训练中的参数;所述根据行为识别结果和所述视频图像样本对应的行为标签,对所述待训练结构参数进行更新后继续训练直至训练结束,获得所述结构参数,包括:
获得所述视频行为识别模型输出的行为识别结果;
确定所述行为识别结果与所述视频图像样本对应的行为标签之间的差异;
根据所述差异对所述视频行为识别模型中的模型参数和所述待训练结构参数进行更新;
基于更新后的视频行为识别模型继续训练直至训练结束,并根据训练完成的视频行为识别模型得到所述结构参数。
5.根据权利要求3所述的方法,其特征在于,所述根据行为识别结果和所述视频图像样本对应的行为标签,对所述待训练结构参数进行更新后继续训练直至训练结束,获得所述结构参数,包括:
确定行为识别结果和所述视频图像样本对应的行为标签之间的行为识别损失;
根据所述行为识别损失和前一行为识别损失得到奖励值;
根据所述奖励值对所述待训练结构参数进行更新,通过更新后的待训练结构参数继续训练直至目标函数满足结束条件时,获得所述结构参数;所述目标函数基于训练过程中的各奖励值得到。
6.根据权利要求5所述的方法,其特征在于,所述根据所述奖励值对所述待训练结构参数进行更新,包括:
根据所述奖励值对策略梯度网络模型的模型参数进行更新;
由更新后的策略梯度网络模型对所述待训练结构参数进行更新。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述中间图像特征在时间维度的相似度;
基于所述相似度对初始先验信息进行修正,得到先验信息。
8.根据权利要求7所述的方法,其特征在于,所述初始先验信息包括第一初始先验参数和第二初始先验参数;所述基于所述相似度对初始先验信息进行修正,得到先验信息,包括:
根据所述第一初始先验参数、所述第二初始先验参数及预设阈值,对所述相似度进行动态调整;
通过动态调整后的相似度分别对所述第一初始先验参数和所述第二初始先验参数进行修正,得到第一先验参数和第二先验参数;
根据所述第一先验参数和所述第二先验参数得到先验信息。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定当前基向量;
通过所述当前基向量对所述中间图像特征的时间特征进行特征重构,得到重构特征;
根据所述重构特征和所述时间特征生成下一关注处理的基向量;
根据所述下一关注处理的基向量、所述基向量和所述时间特征,得到所述时间特征对应的内聚特征。
10.根据权利要求9所述的方法,其特征在于,所述根据所述重构特征和所述时间特征生成下一关注处理的基向量,包括:
融合所述重构特征和所述时间特征,生成注意力特征;
对所述注意力特征进行正则化处理,得到正则化特征;
对所述正则化特征进行滑动平均更新,生成下一关注处理的基向量。
11.根据权利要求1至10任意一项所述的方法,其特征在于,所述基于先验信息对所述中间图像特征的时间特征和所述时间特征对应的内聚特征进行融合,得到融合特征,包括:
确定先验信息;
对所述中间图像特征进行时间特征提取,得到所述中间图像特征的时间特征;
通过所述先验信息,对所述时间特征和所述时间特征对应的内聚特征进行加权融合,得到融合特征。
12.根据权利要求1所述的方法,其特征在于,在所述基于先验信息对所述中间图像特征的时间特征和所述时间特征对应的内聚特征进行融合,得到融合特征之前,还包括:
对所述中间图像特征进行标准化处理,得到标准化特征;
根据所述标准化特征进行非线性映射,获得映射后的中间图像特征;
所述基于先验信息对所述中间图像特征的时间特征和所述时间特征对应的内聚特征进行融合,得到融合特征,包括:
基于先验信息对所述映射后的中间图像特征的时间特征和所述时间特征对应的内聚特征进行融合,得到融合特征;所述先验信息是根据所述映射后的中间图像特征在时间维度的变化信息得到的。
13.一种视频行为识别装置,其特征在于,所述装置包括:
视频图像特征提取模块,用于从至少两帧目标视频图像提取视频图像特征;
空间特征贡献调整模块,用于将所述视频图像特征的空间特征进行贡献调整,得到中间图像特征;
特征融合模块,用于基于先验信息对所述中间图像特征的时间特征和所述时间特征对应的内聚特征进行融合,得到融合特征;所述先验信息是根据所述中间图像特征在时间维度的变化信息得到的;所述内聚特征是对所述时间特征进行关注处理得到的;
时间特征贡献调整模块,用于对所述融合特征进行时间特征贡献调整,得到行为识别特征;
视频行为识别模块,用于基于所述行为识别特征进行视频行为识别。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
16.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12任一项所述的方法的步骤。
CN202111202734.4A 2021-10-15 2021-10-15 视频行为识别方法、装置、计算机设备和存储介质 Pending CN114332670A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202111202734.4A CN114332670A (zh) 2021-10-15 2021-10-15 视频行为识别方法、装置、计算机设备和存储介质
PCT/CN2022/116947 WO2023061102A1 (zh) 2021-10-15 2022-09-05 视频行为识别方法、装置、计算机设备和存储介质
EP22880046.2A EP4287144A1 (en) 2021-10-15 2022-09-05 Video behavior recognition method and apparatus, and computer device and storage medium
US18/201,635 US20230316733A1 (en) 2021-10-15 2023-05-24 Video behavior recognition method and apparatus, and computer device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111202734.4A CN114332670A (zh) 2021-10-15 2021-10-15 视频行为识别方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN114332670A true CN114332670A (zh) 2022-04-12

Family

ID=81044868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111202734.4A Pending CN114332670A (zh) 2021-10-15 2021-10-15 视频行为识别方法、装置、计算机设备和存储介质

Country Status (4)

Country Link
US (1) US20230316733A1 (zh)
EP (1) EP4287144A1 (zh)
CN (1) CN114332670A (zh)
WO (1) WO2023061102A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023061102A1 (zh) * 2021-10-15 2023-04-20 腾讯科技(深圳)有限公司 视频行为识别方法、装置、计算机设备和存储介质
CN116189281A (zh) * 2022-12-13 2023-05-30 北京交通大学 基于时空自适应融合的端到端人体行为分类方法及***
CN116189028A (zh) * 2022-11-29 2023-05-30 北京百度网讯科技有限公司 图像识别方法、装置、电子设备以及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524542B (zh) * 2023-05-08 2023-10-31 杭州像素元科技有限公司 一种基于细粒度特征的跨模态行人重识别方法及装置
CN116524419B (zh) * 2023-07-03 2023-11-07 南京信息工程大学 基于时空解耦与自注意力差分lstm的视频预测方法、***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102198912B1 (ko) * 2018-09-21 2021-01-06 네이버웹툰 유한회사 비디오 영상 내의 행동 인식 방법 및 장치
CN110096950B (zh) * 2019-03-20 2023-04-07 西北大学 一种基于关键帧的多特征融合行为识别方法
CN113378600B (zh) * 2020-03-09 2023-12-29 北京灵汐科技有限公司 一种行为识别方法及***
CN111950444A (zh) * 2020-08-10 2020-11-17 北京师范大学珠海分校 一种基于时空特征融合深度学习网络的视频行为识别方法
CN114332670A (zh) * 2021-10-15 2022-04-12 腾讯科技(深圳)有限公司 视频行为识别方法、装置、计算机设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023061102A1 (zh) * 2021-10-15 2023-04-20 腾讯科技(深圳)有限公司 视频行为识别方法、装置、计算机设备和存储介质
CN116189028A (zh) * 2022-11-29 2023-05-30 北京百度网讯科技有限公司 图像识别方法、装置、电子设备以及存储介质
CN116189281A (zh) * 2022-12-13 2023-05-30 北京交通大学 基于时空自适应融合的端到端人体行为分类方法及***
CN116189281B (zh) * 2022-12-13 2024-04-02 北京交通大学 基于时空自适应融合的端到端人体行为分类方法及***

Also Published As

Publication number Publication date
US20230316733A1 (en) 2023-10-05
EP4287144A1 (en) 2023-12-06
WO2023061102A1 (zh) 2023-04-20

Similar Documents

Publication Publication Date Title
Bachman et al. Learning algorithms for active learning
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN114332670A (zh) 视频行为识别方法、装置、计算机设备和存储介质
CN111507378A (zh) 训练图像处理模型的方法和装置
CN112446270A (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN112232355B (zh) 图像分割网络处理、图像分割方法、装置和计算机设备
CN114255361A (zh) 神经网络模型的训练方法、图像处理方法及装置
CN113570029A (zh) 获取神经网络模型的方法、图像处理方法及装置
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN111428771B (zh) 视频场景分类方法、装置和计算机可读存储介质
CN110222718B (zh) 图像处理的方法及装置
Ni et al. Adaptive L2 regularization in person re-identification
CN111695673B (zh) 训练神经网络预测器的方法、图像处理方法及装置
CN113435430B (zh) 基于自适应时空纠缠的视频行为识别方法、***、设备
CN113033507B (zh) 场景识别方法、装置、计算机设备和存储介质
CN113158815A (zh) 一种无监督行人重识别方法、***及计算机可读介质
CN113128285A (zh) 一种处理视频的方法及装置
Negi et al. End-to-end residual learning-based deep neural network model deployment for human activity recognition
Chaturvedi et al. Landmark calibration for facial expressions and fish classification
Li et al. Group-level emotion recognition based on faces, scenes, skeletons features
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质
CN114329065A (zh) 视频标签预测模型的处理方法、视频标签预测方法和装置
Wang et al. Online convolution network tracking via spatio-temporal context
CN114329070A (zh) 视频特征提取方法、装置、计算机设备和存储介质
CN113704528A (zh) 聚类中心确定方法、装置和设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40067616

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination