CN114220175A - 运动模式识别方法及其装置、设备、介质、产品 - Google Patents

运动模式识别方法及其装置、设备、介质、产品 Download PDF

Info

Publication number
CN114220175A
CN114220175A CN202111555402.4A CN202111555402A CN114220175A CN 114220175 A CN114220175 A CN 114220175A CN 202111555402 A CN202111555402 A CN 202111555402A CN 114220175 A CN114220175 A CN 114220175A
Authority
CN
China
Prior art keywords
image
video frame
information
frame
current video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111555402.4A
Other languages
English (en)
Other versions
CN114220175B (zh
Inventor
苏正航
陈增海
贺亮亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jinhong Network Media Co ltd
Guangzhou Cubesili Information Technology Co Ltd
Original Assignee
Guangzhou Jinhong Network Media Co ltd
Guangzhou Cubesili Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jinhong Network Media Co ltd, Guangzhou Cubesili Information Technology Co Ltd filed Critical Guangzhou Jinhong Network Media Co ltd
Priority to CN202111555402.4A priority Critical patent/CN114220175B/zh
Publication of CN114220175A publication Critical patent/CN114220175A/zh
Application granted granted Critical
Publication of CN114220175B publication Critical patent/CN114220175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开一种运动模式识别方法及其装置、设备、介质、产品,所述方法包括:获取直播视频流中的当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于与其非连续的在先视频帧的运动信息;采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;采用预先训练至收敛状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;采用预设分类器将所述综合特征信息映射到分类空间,根据分类结果判定当前视频帧内人物图像的运动模式。本申请能准确识别直播视频流中的人体图像的动作行为相对应的运动模式。

Description

运动模式识别方法及其装置、设备、介质、产品
技术领域
本申请涉及网络直播技术领域,尤其涉及一种运动模式识别方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
行为识别是计算机视觉中极其重要也非常活跃的研究方向,它已经被研究了数十年。因为人们可以用动作来处理事情、表达感情,因此行为识别有非常广泛但又未被充分解决的应用领域,例如智能监控***、人机交互、虚拟现实、机器人等。以往的方法中都使用RGB图像序列,深度图像序列,视频或者这些模态的特定融合(例如RGB+光流)也取得了超出预期的结果。
网络直播领域中也尝试使用相关技术对多种用户动作行为实施识别,但对于部分实时性要求较高的动作行为而言,目前的现有方案均收益甚微。例如,对于直播时用户跳舞、武术等行为的识别,其实时性要求极高(秒级别),以往的技术方案都过于复杂,常需数秒才能获得识别结果,因此,难以落地。
究其原因,网络直播场景的现有行为识别模型,所采用的方法中都使用8帧以上的RGB图像序列、深度图像序列,或者这些多模态的特定融合(例如RGB+光流)。此类现有方法往往部署的时候因为复杂度高而无法满足实时性的要求,比如多帧的RGB图像需要累积多个时刻,深度图或者光流图无法实时获取,这些都导致这些方案无法在实时性极高的直播领域落地。
有鉴于此,本申请人作为本领域的先行者,尝试做出相关探索。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种运动模式识别方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提出的一种运动模式识别方法,包括如下步骤:
获取直播视频流中的当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于与其非连续的在先视频帧的运动信息;
采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;
采用预先训练至收敛状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;
采用预设分类器将所述综合特征信息映射到分类空间,根据分类结果判定当前视频帧内人物图像的运动模式。
具体化的实施例中,获取直播视频流中的当前视频帧相对应的帧差信息图像,包括如下步骤:
从媒体服务器处理的直播视频流中获取非连续的两个视频帧,包括在先视频帧和当前视频帧;
生成当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于所述在先视频帧的运动信息。
扩展的实施例中,获取直播视频流中的当前视频帧相对应的帧差信息图像的步骤之前,包括如下的训练过程:
获取由同一运动模式视频采样获得的两个样本视频帧作为训练样本,所述两个样本视频帧包括当前视频帧及其时序在先的在先视频帧,所述运动模式为舞蹈表演;
生成当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于所述在先视频帧的运动信息;
采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;
采用处于训练状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;
采用处于训练状态的分类器将所述综合特征信息映射到分类空间,获得相应的分类标签;
基于所述训练样本相对应的监督标签计算所述分类标签的损失值,当该损失值达到预设阈值时,终止训练任务,否则调用下一训练样本实施迭代训练。
深化的实施例中,生成当前视频帧相对应的帧差信息图像,包括如下步骤:
计算在先视频帧与当前视频帧的像素级差值,获得当前视频帧相对应的第一帧差信息;
对第一帧差信息进行平滑滤波处理获得第二帧差信息以突出其中的边缘信息;
将当前视频帧与所述第二帧差信息进行点乘运算,获得综合了当前视频帧相对于所述在先视频帧的运动信息的运动模式显著图;
合并所述运动模式显著图与所述在先视频帧的灰度图构成帧差信息图像。
具体化的实施例中,采用预设分类器将所述综合特征信息映射到分类空间,根据分类结果判定当前视频帧内人物图像的运动模式,包括如下步骤:
采用预设分类器将所述综合特征信息映射到分类空间,获得二值化分类结果;
根据所述分类结果,当该分类结果表征真值结果时,判定当前视频帧内人物图像处于特定运动模式;
当处于特定运动模式时,为提供所述直播视频流的直播间添加高光标签,提升该直播间在所述特定运动模式相对应的展示列表中的排序优先级。
扩展的实施例中,获取直播视频流中的当前视频帧相对应的帧差信息图像的步骤之前,包括如下的训练过程:
随机初始化两个所述的图像特征提取模型以待训练,其中一个图像特征提取模型作为训练目标,另一图像特征提取模型作为监督目标;
获取样本图片分为两路分别做随机数据增强处理,获得两个数据增强视图,所述样本图片为帧差信息图像;
将两个数据增强视图分别输入两个所述的图像特征提取模型的表示层进行表示学习,获得两个相应的中间特征信息;
将两个相应的中间特征信息分别经两个图像特征提取模型的多层感知机提取语义信息,获得相应的两个图像特征信息;
根据所述监督目标的图像特征信息计算所述训练目标的图像特征信息的损失值,根据该损失值对所述训练目标实施梯度更新,迭代训练直至所述训练目标达致收敛状态。
适应本申请的目的之一而提供的一种运动模式识别装置,包括:帧差获取模块、表示学习模块、记忆梳理模块,以及分类判定模块,其中,所述帧差获取模块,用于获取直播视频流中的当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于与其非连续的在先视频帧的运动信息;所述表示学习模块,用于采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;所述记忆梳理模块,用于采用预先训练至收敛状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;所述分类判定模块,用于采用预设分类器将所述综合特征信息映射到分类空间,根据分类结果判定当前视频帧内人物图像的运动模式。
具体化的实施例中,所述帧差获取模块,包括:图像采样子模块,用于从媒体服务器处理的直播视频流中获取非连续的两个视频帧,包括在先视频帧和当前视频帧;帧差生成子模块,用于生成当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于所述在先视频帧的运动信息。
扩展的实施例中,本申请的运动模式识别装置,还包括:样本调用训练时模块,用于获取由同一运动模式视频采样获得的两个样本视频帧作为训练样本,所述两个样本视频帧包括当前视频帧及其时序在先的在先视频帧,所述运动模式为舞蹈表演;帧差生成训练时模块,用于生成当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于所述在先视频帧的运动信息;表示学习训练时模块,用于采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;记忆梳理训练时模块,用于采用处于训练状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;分类判定训练时模块,用于采用处于训练状态的分类器将所述综合特征信息映射到分类空间,获得相应的分类标签;梯度更新训练时模块,用于基于所述训练样本相对应的监督标签计算所述分类标签的损失值,当该损失值达到预设阈值时,终止训练任务,否则调用下一训练样本实施迭代训练。
深化的实施例中,所述帧差生成模块、帧差生成训练时模块,包括如下步骤:差值计算子模块,用于计算在先视频帧与当前视频帧的像素级差值,获得当前视频帧相对应的第一帧差信息;平滑滤波子模块,用于对第一帧差信息进行平滑滤波处理获得第二帧差信息以突出其中的边缘信息;信息综合子模块,用于将当前视频帧与所述第二帧差信息进行点乘运算,获得综合了当前视频帧相对于所述在先视频帧的运动信息的运动模式显著图;通道合并子模块,用于合并所述运动模式显著图与所述在先视频帧的灰度图构成帧差信息图像。
具体化的实施例中,所述分类判定模块,包括:分类映射子模块,用于采用预设分类器将所述综合特征信息映射到分类空间,获得二值化分类结果;模式判定子模块,用于根据所述分类结果,当该分类结果表征真值结果时,判定当前视频帧内人物图像处于特定运动模式;高光标注子模块,用于当处于特定运动模式时,为提供所述直播视频流的直播间添加高光标签,提升该直播间在所述特定运动模式相对应的展示列表中的排序优先级。
扩展的实施例中,本申请的运动模式识别装置,还包括:模型初始化模块,用于随机初始化两个所述的图像特征提取模型以待训练,其中一个图像特征提取模型作为训练目标,另一图像特征提取模型作为监督目标;数据增强模块,用于获取样本图片分为两路分别做随机数据增强处理,获得两个数据增强视图,所述样本图片为帧差信息图像;特征提取模块,用于将两个数据增强视图分别输入两个所述的图像特征提取模型的表示层进行表示学习,获得两个相应的中间特征信息;感知提取模块,用于将两个相应的中间特征信息分别经两个图像特征提取模型的多层感知机提取语义信息,获得相应的两个图像特征信息;梯度更新模块,用于根据所述监督目标的图像特征信息计算所述训练目标的图像特征信息的损失值,根据该损失值对所述训练目标实施梯度更新,迭代训练直至所述训练目标达致收敛状态。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的运动模式识别方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的运动模式识别方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
相对于现有技术,本申请的优势如下:
首先,本申请针对直播视频流中的当前视频帧及其时间在先的在先视频帧获得帧差信息图像,使所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于与其非连续的在先视频帧的运动信息,在此基础上,对帧差信息图像进行表示学习获得其深层语义信息,后又利用具有上下文梳理能力的语义记忆模型处理所述的深层语义信息,实现序列整理的功能,由此利用时间上先后的两个视频帧即可实现对运动模式的表示学习效果,从而可以根据相应的深层语义信息对直播视频内的人物图像的运动模式做出判决,相比于现有技术中需要依赖多个视频帧的各种方案而言,无需依赖较大时长的视频帧图像,便可高效快速地做出运动模式的判定,通过合理控制所述两个视频帧的时差,例如控制在1秒以内,便可实现秒级的动作行为识别效果,在识别效率方面表现特别优秀。
其次,对于网络直播的直播间中舞蹈、武术等动作相对迅速的用户动作行为而言,常关联于直播间的推广,针对此一需求,迅速判别出直播间的直播视频流内人物的运动模式,可以实现智能化地识别直播间的直播活动,据此迅速地引导下游任务,例如根据识别出跳舞行为向相关用户推送实施跳舞行为的直播间的广告信息,据此,不难理解,本申请的实施对于改善网络直播服务的用户体验,提升用户流量具有显著的助推作用。
此外,网络直播场景中本身会产生海量的直播视频流,这些直播视频流包含各种运动模式,从这些直播视频流中采样而得的视频帧可为本申请所应用的各个神经网络模型提供训练所需的数据样本,提供这些模型的特征泛化能力,反过来,经训练的模型又能进一步服务于同一网络直播平台中,为海量的直播间识别其直播流视频中的人物图像的运动模式,形成一个闭环,实现持续双向的提升,使网络直播平台取得规模经济效果。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的运动模式识别方法的典型实施例的流程示意图;
图2为用于实现本申请的技术方案的神经网络模型网络架构示意图;
图3为本申请实施例中生成帧差信息图像过程的流程示意图;
图4为本申请生成帧差信息图像过程中的各个中间阶段的效果图示例;
图5为基于图2所示网络架构对本申请的语义记忆模型实施训练的过程的流程示意图;
图6为本申请实施例中进行特定运动模式判以执行直播间排序任务的过程的流程示意图;
图7和图8为本申请示例性的图形用户界面,均显示同一网络直播平台的直播间列表,其中,图8相对于图7产生了排序变化;
图9为本申请训练图像特征提取模型的过程的流程示意图;
图10为本申请用于训练本申请的图像特征提取模型的网络架构示意图;
图11为本申请的运动模式识别装置的原理框图;
图12为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信***),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位***)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种运动模式识别方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1,本申请的运动模式识别方法在其典型实施例中,包括如下步骤:
步骤S1100、获取直播视频流中的当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于与其非连续的在先视频帧的运动信息:
所述直播视频流,是指网络直播平台开放直播间服务,根据直播间实现逻辑,从其媒体服务器中即时输出以传输给直播间用户侧客户端设备解析显示的视频流。直播视频流一般由主播用户侧负责推送,经媒体服务器解编码进行相应的音视频处理后,再发送给直播间中的其他在线观众用户。因此,在变通实施的实例中,也可在主播用户侧的计算机设备中实施本申请的技术方案,形成结果数据通知至直播间服务亦可。
获取所述的直播视频流时,可以在媒体服务器对从主播用户侧接收的直播视频流进行解码后进行提取,当然也可将该媒体服务器编码后输出的直播视频流进行专门解码以获取其中的视频帧再编码输出。本申请中,当开始对直播视频流进行运动模式别时,便可开始从所述的直播视频流中获取本申请识别所需的视频帧。
适应本申请对直播视频流进行识别的具体情况的需要,在整个直播过程中,可以沿时间轴线以其中的任意视频帧作为当前视频帧实施识别,在针对当前视频帧实施识别时,时间在先的一个在先视频帧将被引用,以便在获取当前视频帧相对应的帧差信息图像的过程中,参考在先视频帧获得图像的运动信息。
当前视频帧与其在先视频帧之间,考虑到运动模式需要通过多个时刻的图像才得以表现的需求,可控制在一定的预设时长或预设帧数的范围之内,使在先视频帧与当前视频帧之间在帧序上不连续。例如,结合本申请的实测,可以0.1秒至1.2秒之间,特别是0.2秒至0.8秒之间任意取值,作为在先视频帧与当前视频帧之间的预设时长,例如取0.4秒,即可根据该预设时长从直播视频流中采集第一时间戳的在先视频帧以及由该相对该第一时间戳滞后0.4秒相对应处的当前视频帧。当然,也可根据不同运动模式对时长要求不同适当延长所述的预设时长,例如,对于太极拳表演这种慢动作运动模式,所述预设时长甚至可以在1秒至2秒之间任意取值。
当然,参考所述的预设时长以及直播视频流的帧率,也可将该预设时长换算为预设帧数进行设置,例如对于帧率为24帧/s的直播视频流而言,以等效预设时长取1秒为例,设取第1帧为在先视频帧,则可取当前视频帧为第25帧。由此可见,无论采用预设时长还是预设帧数控制当前视频帧与其在先视频帧的时间距离,均是等效的。
根据此处的示例,本领域技术人员不难理解,不同的运动模式根据其中人物动作行为的快慢,可以灵活设置在先视频帧与当前视频帧之间的预设时长,但是动作行为本身表现在速度上基本是秒级的,因此,在先视频帧与当前视频帧之间过慢的时长设置对于动作识别而言缺乏积极意义,这也就从另一方面论证了现有技术存在的多种动作识别模型无法满足舞蹈、武术等动作行为的必然性,突出了本申请的创造性的发源。
对于每个当前视频帧而言,其帧差信息图像,既包含当前视频帧自身的状态信息,也包含当前视频帧相对于其在先视频帧的运动信息,可以通过对当前视频帧及在先视频帧进行图像处理来表征所述的状态信息及运动信息,使得帧差信息图像具有表示直播视频流中的人物图像的运动过程的能力,从而方便据此对人物图像的运动模式做出判别。
由于直播活动是一个持续的过程,而其中人物图像实施动作行为这一事件对于计算机程序而言,在时间上具有不确定性,因此,根据本申请所实现的应用程序负责可在后台伴随直播全程持续地获取当前视频帧及其在先视频帧,及时对直播间主播用户的动作行为做出运动模式的判别,以便及时掌握直播活动的开展,为下游任务提供直播间的活动状态数据。据此,可以理解,某一时刻的当前视频帧,便是经过预设时长之后下一时刻的在先视频帧;某一时刻的在先视频帧,在预设时长之前的上一时刻即为当前视频帧。对应每一个当前视频帧均能产出一个帧差信息图像,在用户直播过程中源源不断,构成帧差信息图像序列。
步骤S1200、采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息:
请参阅图2所示的网络架构,为了获取每个当前视频帧相对应的帧差信息图像的深层语义信息,本申请采用一个基于卷积神经网络构造的图像特征提取模型对所述帧差信息图像进行表示学习,对应获得图像特征信息。
所述图像特征提取模型可以是预训练模型,也可由本领域技术人员采用与帧信息图像相对应的样本自行训练至收敛状态。该图像特征提取模型可以采用诸如CNN、Resnet、EfficientNet等适于对图像提取特征信息的各种卷积神经网络模型,以其实测表现最佳者充任即可,例如本申请推荐使用Resnet系列,已经实测取得良好表现。
所述的图像特征信息是对帧差信息图像在深层语义上的表示,由于所述帧差信息图像中包含了在先视频帧与当前视频帧之间的相对运动信息以及当前视频帧的状态信息,因此,图像特征提取模型不仅可以关注到其中的人物图像的动作信息,也能关联动作前后状态变化,经特征提取之后,帧差信息图像相对应的图像特征信息相应也表现了其中的动作信息及状态信息。
步骤S1300、采用预先训练至收敛状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息:
本步骤中,请继续参阅图2所示的网络架构,采用一个具有长短时记忆架构的语义记忆模型来实现对所述图像特征信息的上下文梳理。所述的语义记忆模型,可以是LSTM、BiLSTM、Transformer等等适于处理序列数据的神经网络模型,具体可由本领域技术人员灵活选型,例如本申请推荐的LSTM,以便将先后输入的连串帧差信息图像的图像特征信息作为序列数据进行处理,根据图像特征信息之间的运动信息及状态信息实现上下文梳理后获得综合特征信息,使后续的运动模式判别更为准确。同理,所述语义记忆模型本由本领域技术人员根据此处揭示的原理事先训练至收敛状态。
步骤S1400、采用预设分类器将所述综合特征信息映射到分类空间,根据分类结果判定当前视频帧内人物图像的运动模式:
请继续参阅图2所示的网络架构,所述综合特征信息进一步经全连接层进入分类器,映射到分类空间,所述分类器可采用二分类器,所述分类空间为二值空间,以获得当前视频帧中的人物图像是否处于某种预先训练过程中专门针对训练的特定运动模式,例如舞蹈、表演等。据此,容易理解,在对所述的语义记忆模型实施训练时,针对一种特定运动模式,便采用这该特定运动模式相对应的前后两个视频帧分别作为在先视频帧和当前视频帧确定当前视频帧相对应的帧差信息图像,继而经图像特征提取模型获得其图像特征信息,然后输入语义记忆模型中进行中下文梳理,对语义记忆模型实施训练,后续利用相应的人工标注对由分类器输出的二值化结果进行监督,以促使语义记忆模型收敛。也即是说,本申请中,所述分类器做出的运动模式的判定,是针对同一种特定运动模式而输出是或否的结果。以识别舞蹈为例,本申请的语义记忆模型在接入所述的分类器后,利用相应的图像特征信息实施训练输出是否属于舞蹈,然后利用人工标注的是否属于舞蹈的标签监督这一输出结果,由此,利用正负样本不断实施训练,最终即可获得适于判别直播视频流中的人物图像是否匹配舞蹈这一特定运动模式。
经分类器输出并判决后的结果信息,便可提供给下游任务做进一步的处理,例如对所述直播视频流的直播间、主播用户进行相应的标注,或者将其处于特定运动模式中的通知消息推广给其他用户等。
通过本典型实施例,可以理解,本申请的实施具有多方面积极优势,包括但不限于如下多个方面:
首先,本申请针对直播视频流中的当前视频帧及其时间在先的在先视频帧获得帧差信息图像,使所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于与其非连续的在先视频帧的运动信息,在此基础上,对帧差信息图像进行表示学习获得其深层语义信息,后又利用具有上下文梳理能力的语义记忆模型处理所述的深层语义信息,实现序列整理的功能,由此利用时间上先后的两个视频帧即可实现对运动模式的表示学习效果,从而可以根据相应的深层语义信息对直播视频内的人物图像的运动模式做出判决,相比于现有技术中需要依赖多个视频帧的各种方案而言,无需依赖较大时长的视频帧图像,便可高效快速地做出运动模式的判定,通过合理控制所述两个视频帧的时差,例如控制在1秒以内,便可实现秒级的动作行为识别效果,在识别效率方面表现特别优秀。
其次,对于网络直播的直播间中舞蹈、武术等动作相对迅速的用户动作行为而言,常关联于直播间的推广,针对此一需求,迅速判别出直播间的直播视频流内人物的运动模式,可以实现智能化地识别直播间的直播活动,据此迅速地引导下游任务,例如根据识别出跳舞行为向相关用户推送实施跳舞行为的直播间的广告信息,据此,不难理解,本申请的实施对于改善网络直播服务的用户体验,提升用户流量具有显著的助推作用。
此外,网络直播场景中本身会产生海量的直播视频流,这些直播视频流包含各种运动模式,从这些直播视频流中采样而得的视频帧可为本申请所应用的各个神经网络模型提供训练所需的数据样本,提供这些模型的特征泛化能力,反过来,经训练的模型又能进一步服务于同一网络直播平台中,为海量的直播间识别其直播流视频中的人物图像的运动模式,形成一个闭环,实现持续双向的提升,使网络直播平台取得规模经济效果。
具体化的实施例中,所述步骤S1100、获取直播视频流中的当前视频帧相对应的帧差信息图像,包括如下步骤:
步骤S1110、从媒体服务器处理的直播视频流中获取非连续的两个视频帧,包括在先视频帧和当前视频帧:
本实施例以将本申请的技术方案所实现的计算机程序部署于网络直播平台的服务机群为例进行说明,据此更方便从其中的媒体服务器中获取直播视频流进行运动模式的识别。
从直播视频流中提取其中的视频帧时,可将直播视频流解码映射到图像空间,从图像空间中便可获取其中的各个视频帧。如前所述,针对每个直播视频流,本申请中以预设时长为间隔,持续获取其中的多个视频帧,对应每次识别程序相应获取先后两个视频帧,时序在先的为在先视频帧,时序在后者作为当前视频帧。下一次识别程序获取两个视频帧时,其中的在先视频帧可为前一次识别程序的当前视频帧。每两个视频帧之间由于根据预设时长或者预设帧数获取,因此相对于直播视频流的帧序而言,是非连续的。
所述媒体服务器同时并发地服务于大量的直播间而进行推流,因此,同时存在多个所述的直播视频流,本申请的技术方案可以被用于针对其中每个或部分直播视频流均进行动作模式识别,按需调用即可。
步骤S1120、生成当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于所述在先视频帧的运动信息:
针对每次识别程序,获得当前视频帧及其在先视频帧之后,便可用于生成当前视频帧相对应的帧差信息图像。
请参阅图3,在本实施例基础上深化的一个实施例中,本申请中生成当前视频帧相对应的帧差信息图像可以实现为包括如下具体步骤:
步骤S2100、计算在先视频帧与当前视频帧的像素级差值,获得当前视频帧相对应的第一帧差信息:
调用预设的图像滤波器对所述在先视频帧与当前视频帧进行逐像素的做差后取模,便可获得两者之间的各个像素相对应的差值,获得第一帧差信息。本实施例中,推荐使用OpenCV提供的工具应用帧差法来实施所述第一帧差信息的计算。OpenCV用C++语言编写,具有执行高效的特点。
帧差法的基本原理是在图像序列相邻两帧或三帧间采用基于像素的时间差分通过闭值化来提取出图像中的运动区域。具体而言,首先将相邻帧图像对应像素值相减得到差分图像,然后对差分图像二值化,在环境亮度变化不大的情况下,如果对应像素值变化小于事先确定的阈值时,可以认为此处为背景像素;如果图像区域的像素值变化很大,可以认为是由于图像中运动物体引起的,将这些区域标记为前景像素,利用标记的像素区域可以确定运动目标在图像中的位置。由于相邻两帧间的时间间隔非常短,用前一帧图像作为当前帧的背景模型具有较好的实时性,其背景不积累,且更新速度快、算法简单、计算量小,因此,应用这一原理计算在先视频帧与当前视频帧之间帧差,获得第一帧差信息,高效快速。
步骤S2200、对第一帧差信息进行平滑滤波处理获得第二帧差信息以突出其中的边缘信息:
在所述第一帧差信息的基础上,采用一个尺度滤波器对其进行卷积滤波,所述滤波器的尺度推荐设置为3*3大小,经卷积操作后获得第二帧差信息,第二帧差信息由此经过滤波,可突出视频帧中人体图像的边缘信息。
步骤S2300、将当前视频帧与所述第二帧差信息进行点乘运算,获得综合了当前视频帧相对于所述在先视频帧的运动信息的运动模式显著图:
将当前视频帧与第二帧差信息进行点乘运算,实现利用所述第二帧差信息中的边缘信息对当前视频帧中的图像边缘的柔化和放大,得到一个运动模式显著图,该显著图由此表征了当前视频帧相对于所述在先视频帧的运动信息。
步骤S2400、合并所述运动模式显著图与所述在先视频帧的灰度图构成帧差信息图像:
最后,将所述运动模式显著图处理为RGB三个通道,将所述在先视频帧的灰度图作为一个通道,将两者进行通道拼接,获得四通道的帧差信息图像。由于所述在先视频帧相对应的灰度图通道表征了人体图像在前一时刻的状态信息,而所述显著图相对应的三个颜色通道又表征了人体图像在两个视频帧之间的运动信息,因此,所述帧差信息图像综合了先后两个视频帧之间的运动信息以及在先视频帧的状态信息,前者为动态变化信息,后者为静态信息,由此可以在后续指导语义记忆模型既关注人体图像中的动作信息,又能关联直播视频流中前后状态的变化,从而能够根据帧差信息图像做出运动模式的识别。
需要指出的是,本申请生成当前视频帧相对应的帧差信息图像的过程,不仅可在本申请的各种模型用于投入生产时所应用,也可以在本申请的各种模型被训练的过程中因应模型获取帧差图像信息所需而被应用,例如本申请后续的步骤S3200也将引用此一过程。
示例而言,图4中,l1为在先视频帧,l2为当前视频帧,两者采样自同一直播视频流,均为彩色图(因《专利审查指南》的规定而处理为灰度图)。经计算帧差到得到M1所示的第一帧差信息相应的图,其中包含在先视频帧与当前视频帧之间的动作信息,而后进行平滑得到了第二帧差信息相应的图M2,继而将第二帧差信息M2与当前视频帧l2进行点积操作获得运动模式显著图如S2所示,其中第一帧差信息M1与当前视频帧l2的点积结果对应图S1仅供参考。图4形式地给出了计算帧差信息图像过程中的各个中间状态的效果,方便读者理解。其中的图S2将用于与I1的灰度图合并之后,便获得本申请的帧差信息图像。
本实施例在直播视频流的提取出每两个视频帧的基础上,采用图像算法快速计算在先视频帧与当前视频帧之间的帧差,经平滑滤波和综合之后获得显著图,再将显著图与在先视频帧的灰度图进行通道拼接获得帧差信息图像,使该帧差信息图像综合了当前视频帧与在先视频帧之间的运动信息,又加载了在先视频帧的状态信息,实现了动作行为识别所需的丰富全面的语义表示,可以有效指导后续模型做出运动模式识别,并且实现过程高效快速。
请参阅图5,扩展的实施例中,所述步骤S1100、获取直播视频流中的当前视频帧相对应的帧差信息图像的步骤之前,包括如下的训练过程:
步骤S3100、获取由同一运动模式视频采样获得的两个样本视频帧作为训练样本,所述两个样本视频帧包括当前视频帧及其时序在先的在先视频帧,所述运动模式为舞蹈表演:
预先准备同一运动模式相对应的一个或多个视频,从这些视频中,根据预设时长间隔采集视频帧作为训练样本,对所述训练样本预先进行人工标注,其中,对于两个视频帧中包含舞蹈动作行为的训练样本,标记为正样本;对于未包含舞蹈动作行为的训练样本,标记为负样本。完成标注后,构造为训练所需的数据集。对于一次训练而言,至少包含两至三个样本视频帧,一般采用两个即可。
在对一个识别任务所需的模型实施训练时,所采用的训练样本均是对应同一运动模式获取的训练样本,例如对于舞蹈表演这一特定运动模式而言,其采样所得训练样本,即为对应舞蹈表演这一运动模式的图像。需要注意的是,其中的正样本是被人工判定为舞蹈表演的样本,而负样本则是被人工判定为非舞蹈表演但可以是疑似舞蹈表演或者非舞蹈表演的样本。
更为高效的方式,结合网络直播应用场景,可以根据网络平台主播用户的直播活动状态,例如在其启动“热舞表演”活动功能时,从网络直播平台的媒体服务器的相应直播视频流或者参与相应的活动的主播用户的历史视频中进行采样,根据直播活动状态提供的标记信息,可自动生成采样而得的训练样本的监督标签,可实现对网络直播平台中海量的视频数据的价值挖掘,节省人工标注成本。
在从视频中采集所述的训练样本时,训练样本中的两个样本视频帧,是根据预设时长或预设帧数进行间隔采样的,其中预设时长或预设帧参数本申请典型实施例的原理确定即可,因此同理,两个样本视频帧中,时间戳在先的样本视频帧即为在先视频帧,时间戳在后的视频帧即为当前视频帧。
此外,本领域技术人员也可灵活采集舞蹈表演过程中的连拍图片作为所述的训练样本。同理,如果被训练的网络架构是用于实现其他特定运动模式例如武术表演的识别时,则需相应采集包含其相应运动行为的训练样本来构成训练所需的数据集。对此,本领域技术人员应可灵活变通。
步骤S3200、生成当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于所述在先视频帧的运动信息:
本步骤实现的原理与过程与所述步骤S1120完全相同,故请参考该步骤,其具体过程可参考前文的步骤S2100至步骤S2400,此处恕不赘述。
步骤S3300、采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息:
本步骤采用所述图像特征提取模型对所述帧差信息图像进行表示学习,其原理及过程与步骤S1200完全相同,均是依据帧差信息图像获得相应的图像特征信息,故恕不赘述。
步骤S3400、采用处于训练状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息:
本步骤采用所述语义记忆模型对所述帧差信息图像进行表示学习,其原理及过程与步骤S1300完全相同,均是对所述图像特征信息进行上下文梳理而获得相应的综合特征信息,故针对相同部分恕不赘述。可以理解,由于语义记忆模型基于长短时记忆模型而具有对帧差信息图像序列中的前一帧差信息图像的状态的记忆数据,因此,所述图像特征信息经上下文梳理的过程中,也参考了前一帧差信息图像的图像特征信息来进行语义提取,从而获得所述的综合特征信息,使得所述综合特征信息综合了帧差信息图像序列中的整体的运动信息。
步骤S3500、采用处于训练状态的分类器将所述综合特征信息映射到分类空间,获得相应的分类标签:
与所述步骤S1400同理,所述语义记忆模型梳理上下文后获得的综合特征信息被全连接进入分类器进行分类,获得相应的分类标签,所述分类标签为二值化结果,例如以归一化后的值1或0分别表示基于当前视频帧而言,两个样本视频帧之间包含的运动信息属于或不属于特定运动模式。
步骤S3600、基于所述训练样本相对应的监督标签计算所述分类标签的损失值,当该损失值达到预设阈值时,终止训练任务,否则调用下一训练样本实施迭代训练:
如前所述,在构建所述的数据集时,对应各个训练样本经人工标注存在相应的监督标签,包括正样本相对应的监督标签及负样本相对应的监督标签,据此,对于分类器输出的分类标签,可以采用训练样本相对应的监督标签对其计算交叉熵损失,获得相应的损失值。当该损失值达到预设阈值时,表示所述语义记忆模型已被训练至收敛状态,从而可以终止训练任务;当该损失值未达到预设阈值时,则表示所述语义记忆模型的损失函数尚未收敛,据此,利用该损失值对该语义记忆模型进行梯度更新,修正其中间过程的相关权重参数,然后继续从所述数据集中调用下一训练样本对语义记忆模型实施迭代训练,直至语义记忆模型被训练至收敛状态为止。
本实施例通过适当的采样获得训练样本,利用训练样本制备帧差信息图像对所述的语义记忆模型实施训练,使其获得针对特定运动模式的识别能力,由于其中的训练样本方便从网络直播平台的海量直播视频流中采样,因此可节省大量的数据成本,并且可利用直播视频流中的活动状态数据自动为采样而得的训练样本自动打标,可节省大量的人力物力,提升数据集的构建效率,从而进一步提升语义记忆模型的训练速度。此外,在网络直播平台提供的海量训练样本的指导下,可使语义记忆模型增强特征泛化能力,更快速地被训练至收敛状态,更易于准确地对直播视频流做出特定运动模型的识别。
请参阅图6,具体化的实施例中,所述步骤S1400、采用预设分类器将所述综合特征信息映射到分类空间,根据分类结果判定当前视频帧内人物图像的运动模式,包括如下步骤:
步骤S1410、采用预设分类器将所述综合特征信息映射到分类空间,获得二值化分类结果:
如前所述,接入所述语义记忆模型的分类器,将语义记忆模型获得的综合特征信息映射到二值空间,获得相应的二值化分类结果,在逻辑上表示属于特定运动模型和不属于特定运动模型相对应的分类概率,典型地,例如归一化后所得的向量表示形式:[1,0]或[0,1]。
步骤S1420、根据所述分类结果,当该分类结果表征真值结果时,判定当前视频帧内人物图像处于特定运动模式:
对于分类概率被归一化的情况,根据相应的分类结果中各个分类标签的值,便可确定当前视频帧内人物图像是否处于所述的特定运动模式。例如对于[1,0],其中第一元素为真值时表示当前视频帧内人物图像匹配所述的特定运动模式,此时视分类结果为真值结果;当表示为[0,1]时,视分类结果为假值结果。当该特定运动模式为舞蹈表演模式时,便可根据分类结果的真假,在其为真值时判定所述直播视频流中的人物图像正在实施舞蹈表演,在其为假值时则判定未实施舞蹈表演。
步骤S1430、当处于特定运动模式时,为提供所述直播视频流的直播间添加高光标签,提升该直播间在所述特定运动模式相对应的展示列表中的排序优先级:
适应网络直播平台的业务逻辑,此处,对于已被判定为特定运动模式的情况,可为所述直播视频流的直播间添加高光标签,所述高光标签可以供下游任务所用。在网络直播平台的业务逻辑中,作为下游任务,可将该高光标签解析为提升该直播间的曝光度,为此,在一个与该特定运动模式相适配的展示列表中,例如网络直播平台中的“热舞直播间列表”,在其中展示该直播间的访问入口的同时,根据该直播间相应的高光标签提升该访问入口在展示列表中的排序优先级。
如图7所示的第一时刻时“热舞直播间列表”的图形用户界面中,由于主播用户未进入舞蹈表演状态,应用了本申请的技术方案的网络直播平台检测其直播视频流中判定其不存在舞蹈表演活动,因此其在列表中的排序未得以提升,而处于排序较靠后的状态。
如图8所示的第二时刻时“热舞直播间列表”的图形用户界面中,由于主播用户已进入舞蹈表演状态,应用了本申请的技术方案的网络直播平台检测其直播视频流中判定其正在举行舞蹈表演活动,据此为其直播间添加高光标签,使其获得排序优先级的提升,从而,在该列表中切换到排序较前的状态。
本实施例中,结合网络直播平台的前端表现,展示了本申请的技术方案受限于网络直播平台而获得的相关技术效果,其中,经对直播间的直播视频流进行特定运动模式的检测,可以迅速判决出该直播间是否正在举行与所述特定运动模型相匹配的活动,然后据此调整该直播间的曝光度,实现了良好的推荐效果,对于提升直播间的曝光率、活跃直播间流量以及改善观众用户的信息获得效率来说,均具有显著的积极作用。
请参阅图9,扩展的实施例中,所述步骤S1100、获取直播视频流中的当前视频帧相对应的帧差信息图像的步骤之前,包括如下的训练过程:
步骤S4100、随机初始化两个所述的图像特征提取模型以待训练,其中一个图像特征提取模型作为训练目标,另一图像特征提取模型作为监督目标:
由于现有技术中,预训练的图像特征提取模型往往不具有对某种特定运动模式相对应的图像的特征进行泛化的能力,实践中表现不一,因此,本实施例继续给出自行训练所述图像特征提取模型的方案。
所述图像特征提取模型可推荐使用具有良好表现的Resnet作为主干网络,此外,外接一多层感知机做进一步的语义提取。据此,采用如图10所示的架构,即采用所述图像特征提取模型的两个实例,分别进行随机初始化后,投入训练。其中一个图像特征提取模型作为训练目标,输出预测结果标签,另一图像特征提取模型作为监督目标,为前者提供监督训练所用的软标签。
步骤S4200、获取样本图片分为两路分别做随机数据增强处理,获得两个数据增强视图,所述样本图片为帧差信息图像:
为了使图像特征提取模型更适配本申请的运动模式识别所需,可从数据集中获取样本图片,所述样本图片可为包含人体图像的普通图片。本实施例推荐采用根据本申请的生成当前视频帧相对应的帧差信息图像的步骤,也即借助步骤S3100从视频流中采样,再借助步骤S3200生成的帧差信息图像作为所述的样本图片。采用帧差信息图像作为样本图片,能增强图像特征提取模型对特定运动模式下图像特征的泛化能力,使图像特征提取模型的表示学习效果更好,从而使其获得的图像特征信息更能用于准确识别出特定运动模式。
对应所述图像特征提取模型的两个实例,将所述样本图片分为两路分别做随机数据增强处理,相应的数据增强手段可以是裁剪、缩放、翻转、光照亮度变化、高斯模糊等,相应获得两个数据增强视图,使两个数据增强视图基于相同样本图片实现差异化。
步骤S4300、将两个数据增强视图分别输入两个所述的图像特征提取模型的表示层进行表示学习,获得两个相应的中间特征信息:
然后,将两个数据增强视频分别提供给所述图像特征提取模型的两个实例,进入其中的表示层,例如所述的Resnet构造成的主干网络中进行表示学习,提取出数据增强视图中的深层语义信息,获得两个相应的中间特征信息。
步骤S4400、将两个相应的中间特征信息分别经两个图像特征提取模型的多层感知机提取语义信息,获得相应的两个图像特征信息:
每一个图像特征提取模型实例将其相应的中间特征信息进行全连接实现语义信息的综合,实现进一步的语义信息提取,输出其相应的图像特征信息。由此,两个实例便相应获得两个图像特征信息。
步骤S4500、根据所述监督目标的图像特征信息计算所述训练目标的图像特征信息的损失值,根据该损失值对所述训练目标实施梯度更新,迭代训练直至所述训练目标达致收敛状态:
如前所述,图像特征提取模型实例之一被用作监督目标,其输出的图像特征信息被作为软标签用于监督另一实例所获得的图像特征信息,因此,采用L2损失函数计算后者的损失值,当该损失值达到预设阈值时,表示作为训练目标的图像特征提取模型已被训练至收敛状态,从而可以终止训练任务;当该损失值未达到预设阈值时,则表示作为训练目标的图像特征提取模型的损失函数尚未收敛,据此,利用该损失值对作为训练目标的图像特征提取模型进行梯度更新,修正其中间过程的相关权重参数,然后继续从所述数据集中调用下一训练样本对作为训练目标的图像特征提取模型实施迭代训练,直至作为训练目标的图像特征提取模型被训练至收敛状态为止。
本实施例中,借助相同图像特征提取模型的不同实例,针对相同样本图片实施训练,利用其中一个图像特征提取模型输出的软标签监督另一图像特征提取模型所输出的图像特征信息,实现半监督学习,能节省标注成本,简化训练过程,提升训练效率。特别是使用帧差信息图像进行训练时,能使作为训练目标的图像特征提取模型习得精准捕捉动作行为相对应的语义信息的能力,所获得的图像特征信息,可用于提升语义记忆模型识别运动模式的准确度。
请参阅图11,适应本申请的目的之一而提供的一种运动模式识别装置,包括:帧差获取模块1100、表示学习模块1200、记忆梳理模块1300,以及分类判定模块1400,其中,所述帧差获取模块1100,用于获取直播视频流中的当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于与其非连续的在先视频帧的运动信息;所述表示学习模块1200,用于采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;所述记忆梳理模块1300,用于采用预先训练至收敛状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;所述分类判定模块1400,用于采用预设分类器将所述综合特征信息映射到分类空间,根据分类结果判定当前视频帧内人物图像的运动模式。
具体化的实施例中,所述帧差获取模块1100,包括:图像采样子模块,用于从媒体服务器处理的直播视频流中获取非连续的两个视频帧,包括在先视频帧和当前视频帧;帧差生成子模块,用于生成当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于所述在先视频帧的运动信息。
扩展的实施例中,本申请的运动模式识别装置,还包括:样本调用训练时模块,用于获取由同一运动模式视频采样获得的两个样本视频帧作为训练样本,所述两个样本视频帧包括当前视频帧及其时序在先的在先视频帧,所述运动模式为舞蹈表演;帧差生成训练时模块,用于生成当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于所述在先视频帧的运动信息;表示学习训练时模块,用于采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;记忆梳理训练时模块,用于采用处于训练状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;分类判定训练时模块,用于采用处于训练状态的分类器将所述综合特征信息映射到分类空间,获得相应的分类标签;梯度更新训练时模块,用于基于所述训练样本相对应的监督标签计算所述分类标签的损失值,当该损失值达到预设阈值时,终止训练任务,否则调用下一训练样本实施迭代训练。
深化的实施例中,所述帧差生成模块、帧差生成训练时模块,包括如下步骤:差值计算子模块,用于计算在先视频帧与当前视频帧的像素级差值,获得当前视频帧相对应的第一帧差信息;平滑滤波子模块,用于对第一帧差信息进行平滑滤波处理获得第二帧差信息以突出其中的边缘信息;信息综合子模块,用于将当前视频帧与所述第二帧差信息进行点乘运算,获得综合了当前视频帧相对于所述在先视频帧的运动信息的运动模式显著图;通道合并子模块,用于合并所述运动模式显著图与所述在先视频帧的灰度图构成帧差信息图像。
具体化的实施例中,所述分类判定模块1400,包括:分类映射子模块,用于采用预设分类器将所述综合特征信息映射到分类空间,获得二值化分类结果;模式判定子模块,用于根据所述分类结果,当该分类结果表征真值结果时,判定当前视频帧内人物图像处于特定运动模式;高光标注子模块,用于当处于特定运动模式时,为提供所述直播视频流的直播间添加高光标签,提升该直播间在所述特定运动模式相对应的展示列表中的排序优先级。
扩展的实施例中,本申请的运动模式识别装置,还包括:模型初始化模块,用于随机初始化两个所述的图像特征提取模型以待训练,其中一个图像特征提取模型作为训练目标,另一图像特征提取模型作为监督目标;数据增强模块,用于获取样本图片分为两路分别做随机数据增强处理,获得两个数据增强视图,所述样本图片为帧差信息图像;特征提取模块,用于将两个数据增强视图分别输入两个所述的图像特征提取模型的表示层进行表示学习,获得两个相应的中间特征信息;感知提取模块,用于将两个相应的中间特征信息分别经两个图像特征提取模型的多层感知机提取语义信息,获得相应的两个图像特征信息;梯度更新模块,用于根据所述监督目标的图像特征信息计算所述训练目标的图像特征信息的损失值,根据该损失值对所述训练目标实施梯度更新,迭代训练直至所述训练目标达致收敛状态。
为解决上述技术问题,本申请实施例还提供计算机设备。如图12所示,计算机设备的内部结构示意图。该计算机设备包括通过***总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作***、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种运动模式识别方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的运动模式识别方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图11中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的运动模式识别装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的运动模式识别方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请能准确识别直播视频流中的人体图像的动作行为相对应的运动模式,为网络直播平台的下游任务提供基础数据,可改善用户体验。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种运动模式识别方法,其特征在于,包括如下步骤:
获取直播视频流中的当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于与其非连续的在先视频帧的运动信息;
采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;
采用预先训练至收敛状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;
采用预设分类器将所述综合特征信息映射到分类空间,根据分类结果判定当前视频帧内人物图像的运动模式。
2.根据权利要求1所述的运动模式识别方法,其特征在于,获取直播视频流中的当前视频帧相对应的帧差信息图像,包括如下步骤:
从媒体服务器处理的直播视频流中获取非连续的两个视频帧,包括在先视频帧和当前视频帧;
生成当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于所述在先视频帧的运动信息。
3.根据权利要求1所述的运动模式识别方法,其特征在于,获取直播视频流中的当前视频帧相对应的帧差信息图像的步骤之前,包括如下的训练过程:
获取由同一运动模式视频采样获得的两个样本视频帧作为训练样本,所述两个样本视频帧包括当前视频帧及其时序在先的在先视频帧,所述运动模式为舞蹈表演;
生成当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于所述在先视频帧的运动信息;
采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;
采用处于训练状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;
采用处于训练状态的分类器将所述综合特征信息映射到分类空间,获得相应的分类标签;
基于所述训练样本相对应的监督标签计算所述分类标签的损失值,当该损失值达到预设阈值时,终止训练任务,否则调用下一训练样本实施迭代训练。
4.根据权利要求2所述的运动模式识别方法,其特征在于,生成当前视频帧相对应的帧差信息图像,包括如下步骤:
计算在先视频帧与当前视频帧的像素级差值,获得当前视频帧相对应的第一帧差信息;
对第一帧差信息进行平滑滤波处理获得第二帧差信息以突出其中的边缘信息;
将当前视频帧与所述第二帧差信息进行点乘运算,获得综合了当前视频帧相对于所述在先视频帧的运动信息的运动模式显著图;
合并所述运动模式显著图与所述在先视频帧的灰度图构成帧差信息图像。
5.根据权利要求1所述的运动模式识别方法,其特征在于,采用预设分类器将所述综合特征信息映射到分类空间,根据分类结果判定当前视频帧内人物图像的运动模式,包括如下步骤:
采用预设分类器将所述综合特征信息映射到分类空间,获得二值化分类结果;
根据所述分类结果,当该分类结果表征真值结果时,判定当前视频帧内人物图像处于特定运动模式;
当处于特定运动模式时,为提供所述直播视频流的直播间添加高光标签,提升该直播间在所述特定运动模式相对应的展示列表中的排序优先级。
6.根据权利要求1所述的运动模式识别方法,其特征在于,获取直播视频流中的当前视频帧相对应的帧差信息图像的步骤之前,包括如下的训练过程:
随机初始化两个所述的图像特征提取模型以待训练,其中一个图像特征提取模型作为训练目标,另一图像特征提取模型作为监督目标;
获取样本图片分为两路分别做随机数据增强处理,获得两个数据增强视图,所述样本图片为帧差信息图像;
将两个数据增强视图分别输入两个所述的图像特征提取模型的表示层进行表示学习,获得两个相应的中间特征信息;
将两个相应的中间特征信息分别经两个图像特征提取模型的多层感知机提取语义信息,获得相应的两个图像特征信息;
根据所述监督目标的图像特征信息计算所述训练目标的图像特征信息的损失值,根据该损失值对所述训练目标实施梯度更新,迭代训练直至所述训练目标达致收敛状态。
7.一种运动模式识别装置,其特征在于,包括:
帧差获取模块,用于获取直播视频流中的当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于与其非连续的在先视频帧的运动信息;
表示学习模块,用于采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;
记忆梳理模块,用于采用预先训练至收敛状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;
分类判定模块,用于采用预设分类器将所述综合特征信息映射到分类空间,根据分类结果判定当前视频帧内人物图像的运动模式。
8.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至6中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任意一项中所述方法的步骤。
CN202111555402.4A 2021-12-17 2021-12-17 运动模式识别方法及其装置、设备、介质、产品 Active CN114220175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111555402.4A CN114220175B (zh) 2021-12-17 2021-12-17 运动模式识别方法及其装置、设备、介质、产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111555402.4A CN114220175B (zh) 2021-12-17 2021-12-17 运动模式识别方法及其装置、设备、介质、产品

Publications (2)

Publication Number Publication Date
CN114220175A true CN114220175A (zh) 2022-03-22
CN114220175B CN114220175B (zh) 2023-04-25

Family

ID=80703879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111555402.4A Active CN114220175B (zh) 2021-12-17 2021-12-17 运动模式识别方法及其装置、设备、介质、产品

Country Status (1)

Country Link
CN (1) CN114220175B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116233304A (zh) * 2022-11-30 2023-06-06 荣耀终端有限公司 一种基于日程的设备状态同步***、方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110624A (zh) * 2019-04-24 2019-08-09 江南大学 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
CN110135386A (zh) * 2019-05-24 2019-08-16 长沙学院 一种基于深度学习的人体动作识别方法和***
WO2021051545A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 基于行为识别模型的摔倒动作判定方法、装置、计算机设备及存储介质
CN112804561A (zh) * 2020-12-29 2021-05-14 广州华多网络科技有限公司 视频插帧方法、装置、计算机设备及存储介质
US20210374415A1 (en) * 2020-05-27 2021-12-02 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for identifying video

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110624A (zh) * 2019-04-24 2019-08-09 江南大学 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
CN110135386A (zh) * 2019-05-24 2019-08-16 长沙学院 一种基于深度学习的人体动作识别方法和***
WO2021051545A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 基于行为识别模型的摔倒动作判定方法、装置、计算机设备及存储介质
US20210374415A1 (en) * 2020-05-27 2021-12-02 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for identifying video
CN112804561A (zh) * 2020-12-29 2021-05-14 广州华多网络科技有限公司 视频插帧方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116233304A (zh) * 2022-11-30 2023-06-06 荣耀终端有限公司 一种基于日程的设备状态同步***、方法和装置
CN116233304B (zh) * 2022-11-30 2024-04-05 荣耀终端有限公司 一种基于日程的设备状态同步***、方法和装置

Also Published As

Publication number Publication date
CN114220175B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
US10943126B2 (en) Method and apparatus for processing video stream
CN110602527B (zh) 视频处理方法、装置及存储介质
US11163978B2 (en) Method and device for face image processing, storage medium, and electronic device
US20180114071A1 (en) Method for analysing media content
US8792722B2 (en) Hand gesture detection
US9153031B2 (en) Modifying video regions using mobile device input
CN113365147B (zh) 基于音乐卡点的视频剪辑方法、装置、设备及存储介质
JP2022523606A (ja) 動画解析のためのゲーティングモデル
CN113395542B (zh) 基于人工智能的视频生成方法、装置、计算机设备及介质
CN111783620A (zh) 表情识别方法、装置、设备及存储介质
CN109271533A (zh) 一种多媒体文件检索方法
US11641445B2 (en) Personalized automatic video cropping
CN110956059B (zh) 一种动态手势识别方法、装置和电子设备
CN113014857A (zh) 视频会议显示的控制方法、装置、电子设备及存储介质
CN114302157B (zh) 属性标签识别、代播事件检测方法及其装置、设备、介质
CN114220175B (zh) 运动模式识别方法及其装置、设备、介质、产品
CN114581994A (zh) 一种课堂考勤管理方法和***
CN104881647B (zh) 信息处理方法、信息处理***和信息处理装置
CN113515994A (zh) 视频特征提取方法、装置、设备以及存储介质
CN111539390A (zh) 一种基于Yolov3的小目标图像识别方法、设备和***
CN113766130B (zh) 视频拍摄方法、电子设备及装置
KR20200094607A (ko) 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치 및 그 동작 방법
CN111768729A (zh) 一种vr场景自动解说方法、***和存储介质
CN112261321B (zh) 字幕处理方法、装置及电子设备
CN114283422A (zh) 一种手写字体生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant