CN109446872A - 基于矩形框坐标变换的多方向文本行检测方法 - Google Patents

基于矩形框坐标变换的多方向文本行检测方法 Download PDF

Info

Publication number
CN109446872A
CN109446872A CN201810971833.0A CN201810971833A CN109446872A CN 109446872 A CN109446872 A CN 109446872A CN 201810971833 A CN201810971833 A CN 201810971833A CN 109446872 A CN109446872 A CN 109446872A
Authority
CN
China
Prior art keywords
lstm
individual
moment
group
people
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810971833.0A
Other languages
English (en)
Other versions
CN109446872B (zh
Inventor
舒祥波
严锐
唐金辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201810971833.0A priority Critical patent/CN109446872B/zh
Publication of CN109446872A publication Critical patent/CN109446872A/zh
Application granted granted Critical
Publication of CN109446872B publication Critical patent/CN109446872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于矩形框坐标变换的多方向文本行检测方法,包括以下步骤:在每一时刻,提取个体的CNN特征,作为其静态特征表示;利用一个长短期记忆模型从个体的静态表示中对个体动态进行建模;对Long Motion的建模;对个体间交互动态的建模;对Flash Motion的建模。

Description

基于矩形框坐标变换的多方向文本行检测方法
技术领域
本发明提供了一种计算机视觉和多媒体技术,特别是一种基于矩形框坐标变 换的多方向文本行检测方法。
背景技术
动作识别旨在使计算机能够理解出现在视频片段中动作,其在计算机视觉和 多媒体领域受到了越来越多的关注。根据动作参与者的人数,人类活动可大致分 为三类:单人动作,交互动作和群体动作。以前的大量工作更加注重单人动作识 别的研究,并取得了良好的进展。除单人动作之外,真实场景中往往包含更多的 交互动作(例如,“握手”)和群体动作(例如,“排队”,“过马路”)。在交互动作 的场景中,至少有两个人同时在互动。在群体动作的场景中,活动描述了一个更 复杂的场景/事件,涉及到单个人的行为和各种其他的交互作用(例如group-person 和group-group交互)。一般来说,与单人动作识别和交互动作识别相比,群体活 动识别是一项更具挑战性的任务。
发明内容
本发明的目的在于提供一种基于矩形框坐标变换的多方向文本行检测方法, 其特征在于,包括以下步骤:
步骤1,输入待检测的视频片段,取其中间T帧,并检测每帧中所有运动 个体;
步骤2,在每一个时刻,用卷积神经网络提取所有运动个体的空间特征;
步骤3,建立Single-Person LSTM模型,将个体空间特征提供给Single-PersonLSTM模型以捕捉个体时间动态特征;
步骤4,根据个体在整个活动过程中移动时间的顺序,将所有个体的时空特 征输送到Interaction Bi-LSTM中以捕获上下文信息;
步骤5,将Interaction Bi-LSTM中的所有隐藏状态赋以动态权值,最终集成 至一个Aggregation LSTM中,并将多组的聚合状态连接成对应时刻softmax层 的输入;
步骤6,对所有时刻下的softmax分数取平均值作为群体活动识别的最终预 测概率向量。
本发明与现有技术相比,具有以下优点:本发明探索了一个新的“One to Key”的概念,逐步地将每个关键角色的时空特征以不同程度进行整合。本发明 关注的是两种类型的关键角色,一种是在整个过程中稳定地移动(很长的移动时 间),另一种是发生在某个瞬间的剧烈移动(但与团体动作密切相关)。在此基础上, 提出了一种新的参与式时间动态模型(PC-TDM)来识别群体动作,主要由一个 “One”网络和一个“One to Key”网络组成。具体来说,“One”网络的目标是 对个体动态建模。“One to Key”网络将“One”网络的输出按照个体移动时长依 次输入到双向LSTM(Bi-LSTM)中。随后,Bi-LSTM的每个输出状态被赋以权重并进行了聚合。实验结果表明,该方法能显著地提高了群体动作识别性能。
下面结合说明书附图对本发明作进一步描述。
附图说明
图1是本发明的框架图。
图2是Long Motion的捕捉示意图。
图3是Flash Motion的捕捉示意图。
图4是本发明的流程图。
具体实施方式
一种基于递归神经网络的群体动作识别框架,包括“One”Network(个体时 空网络)和“One to Key”Network(关键参与者时间网络)两个子网络。
1、“One”网络:个体时空网络
步骤1,在每一时刻,提取个体的CNN(Convolutional Neural Networks)特 征,作为其静态特征表示。
步骤2,利用一个长短期记忆模型(LSTM)(在本发明中称为Single-Person LSTM)从个体的静态表示中对个体动态进行建模。形式上,用X={x1,x2,...,xT}, 其中xt是在从预先训练的CNN模型中提取的时间步骤t的空间CNN特征。输入 门控it,忘记门控ft,输出门ot,和输入调制门gt,存储单元的ct单人LSTM定 义如下,
it=σ(Wixxt+Wihht-1+bi);
ft=σ(Wfxxt+Wfhht-1+bf);
ot=σ(Woxxt+Wohht-1+bo);
gt=σ(Wgxxt+Wghht-1+bg);
σ(*)是一个sigmoid函数;W*x和W*h是权重矩阵;b*是偏置向量;表 示逐元素相乘;而ht是一个隐藏的状态(包含个体时间动态特征),它包含了个 体在t时刻的动态信息,为激活函数。
2、“One to Key”网络:关键参与者时间网络
步骤3,对Long Motion的建模。Long Motion为参与者在整个过程中有连 续运动的动作。一个人的移动时间越长,她/他扮演的角色就越重要。为了测量 整个视频剪辑中Long Motion的运动时长,通过叠加光流图像来衡量每个人的平 均运动强度,并计算它们的平均值,如图2所示。更正式地,给定一个T帧视频 片段,每一帧的分辨率为w×h,分别用表示点 (u,v)(u=1,2,...,w;v=1,2,...,h)处的水平和垂直位移向量。首先,将连续T 帧的叠加在一起:
其中i=1,2,...,T,接着获得SFk(u,v,c)(c=1,···,2T),表示第k个人在点(u,v)处的T帧连续运动信息。据此,定义了第k个人的longmotion强度:
其中表示第k个人在t时刻的动作强度,MIk表示第k个人全程动作强 度。显然,一个人的MIk越大,这就意味着这个人在整个过程中参与群体活动更 为频繁。
步骤4,对个体间交互动态的建模。之前的许多工作通过粗略地使用所有人 的空间位置来依次建模。这忽略了一个事实,即一些位置相近的人有时并不相关。 很明显,一个不断移动的人(例如,“移动”,“跳跃”)有大量的时间与他人在许 多时刻中进行互动。因此,具有较长移动时间的移动个体应尽早采用参与建模。 形式上,依照每个人的MIk值,对其特征进行降序排序,并作为LSTM的输入 序列。考虑到两个人之间的交互是双向的,使用了一个新的Interaction Bi-LSTM, 而不是传统的单向LSTM来对这种交互序列进行建模。在t时刻,Interaction Bi-LSTM单元计算前向反馈序列和后向反馈序列分别从k=K→1和k=1→K两个方向迭代K个人。 输出序列可表示为:
其中H(*)由步骤2)中LSTM的定义实现, 是权重矩阵;b*是偏置向量;表示采样操作。与传统的Bi-LSTM拼接前后序列不同,通过对在每个特征维度上进行采样而得最终输出序列表示这不仅可以减少冗 余信息,还能够减少计算开销。
步骤5,对Flash Motion的建模。除了长运动外,有些人在整个活动中并没 有稳定的运动,而在某个重要的瞬间,他们有强烈的运动,即Flash Motion。这 些运动也为识别群体活动提供了重要的鉴别信息。以排球比赛的“左侧队伍”活 动为例,如图3(a)所示,在排球运动中,有几个人(黄色框标记)以更密集的闪光 运动参与活动。它们的运动与“左设球”活动密切相关,为理解这一活动提供了 重要的信息。由于Flash Motion随时间而变化,考虑分配不同的权重因子以发掘 关键参与者。一种直接的方法是可以根据两个连续帧之间的光流值来计算每个人 的权重。然而一些发生在重要时刻的flash motion可能与小组活动无关。
在此发明中,构建了一个Aggregation LSTM,通过她/他的个体动作特征来 学习每个人的权重因子,然后逐步聚集InteractionBi-LSTM的输出状态。如果个 体动作与群体活动更加一致,那么学习的权重因子就会更大,反之亦然。将K个 人的整个群体活动分为Ng个组进行识别,其中g=1,2,...,Ng。第g组个体的起始 索引Sg和结束索引Eg可以定义如下,
Sg=(g-1)·K/Ng+1;
Eg=g·K/Ng,
对于视频片段中的第g组群体的第k个体,通过学习一个权重因子来控 制她/他在t时刻的Interaction LSTM的输出状态以捕捉flash motion的强度:
其中k∈{Sg,Sg+1,...,Eg},Whe是权重参数矩阵,be是 偏向量,exp(*)是指数函数。然后获得了第g组中的每个人在t时刻的潜在表示 然后,Aggregation LSTM单元接受前一时刻隐层数据和当前时刻的特 征数据可以简单地表达为如下:
其中Ztg是第g个子组在t时刻的特征表示。接着给出整个活动的表示:
最终,将其填入Softmax分类层中,并对每帧取平均以作为群体活动的最终 预测向量。

Claims (5)

1.一种基于矩形框坐标变换的多方向文本行检测方法,其特征在于,包括以下步骤:
步骤1,输入待检测的视频片段,取其中间T帧,并检测每帧中所有运动个体;
步骤2,在每一个时刻,用卷积神经网络提取所有运动个体的空间特征;
步骤3,建立Single-Person LSTM模型,将个体空间特征提供给Single-Person LSTM模型以捕捉个体时间动态特征;
步骤4,根据个体在整个活动过程中移动时间的顺序,将所有个体的时空特征输送到Interaction Bi-LSTM中以捕获上下文信息;
步骤5,将Interaction Bi-LSTM中的所有隐藏状态赋以动态权值,最终集成至一个Aggregation LSTM中,并将多组的聚合状态连接成对应时刻softmax层的输入;
步骤6,对所有时刻下的softmax分数取平均值作为群体活动识别的最终预测概率向量。
2.根据权利要求1所述的方法,其特征在于,步骤3中的Single-Person LSTM模型为
其中,i为输入门控,f为忘记门控,o为输出门,g为输入调制门,c为存储单元,W*x和W*h为权重矩阵,b*是偏置向量,表示逐元素相乘,为激活函数;ht是一个隐藏的状态,它包含了个体在t时刻的动态特征。
3.根据权利要求2所述的方法,其特征在于,步骤4中个体在整个活动过程中移动时间的长短通过个体全程动作强度来体现,全程动作强度越强时间越长,全程动作强度通过以下过程获得:
步骤S401,将连续T帧的每一像素点的水平、垂直位移向量叠加在一起
其中,i=1,2,...,T,分别表示点(u,v)处的水平和垂直位移向量u=1,2,...,w,v=1,2,...,h,图像的分辨率为w×h;
步骤S402,获得第k个人在点(u,v)处的T帧连续运动信息SFk(u,v,c),c=1,···,2T;
步骤S403,获得第k个人的动作强度和全程动作强度:
其中,表示第k个人在t时刻的动作强度,MIk表示第k个人全程动作强度。
4.根据权利要求3所述的方法,其特征在于,步骤4中将所有个体的时空特征输送到Interaction Bi-LSTM中以捕获上下文信息的具体过程为:
Interaction Bi-LSTM单元计算前向反馈序列和后向反馈序列分别从k=K→1和k=1→K两个方向迭代K个人,输出序列可表示为:
其中,k=1,2,···,K,H(*)由步骤2中LSTM的定义实现,分别是权重矩阵,b*是偏置向量,◇表示采样操作。
5.根据权利要求5所述的方法,其特征在于,步骤5的具体过程为:
步骤S501,构建Aggregation LSTM单元,将K个人的整个群体活动分为Ng个组进行识别,其中g=1,2,...,Ng,第g组个体的起始索引Sg和结束索引Eg定义为
Sg=(g-1)·K/Ng+1
Eg=g·K/Ng
步骤S502,对于视频片段中的第g组群体的第k个体,通过学习一个权重因子来控制个体在t时刻的Interaction LSTM的输出状态以捕捉第g组中的每个人在t时刻的潜在表示
其中k∈{Sg,Sg+1,...,Eg},Whe是权重参数矩阵,be是偏向量,exp(*)是指数函数;
步骤S503,Aggregation LSTM单元接受前一时刻隐层数据和当前时刻的
其中,Ztg是第g个子组在t时刻的特征表示;
步骤S504,获得整个活动的表示:
CN201810971833.0A 2018-08-24 2018-08-24 一种基于递归神经网络的群体动作识别方法 Active CN109446872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810971833.0A CN109446872B (zh) 2018-08-24 2018-08-24 一种基于递归神经网络的群体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810971833.0A CN109446872B (zh) 2018-08-24 2018-08-24 一种基于递归神经网络的群体动作识别方法

Publications (2)

Publication Number Publication Date
CN109446872A true CN109446872A (zh) 2019-03-08
CN109446872B CN109446872B (zh) 2022-04-19

Family

ID=65530486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810971833.0A Active CN109446872B (zh) 2018-08-24 2018-08-24 一种基于递归神经网络的群体动作识别方法

Country Status (1)

Country Link
CN (1) CN109446872B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765956A (zh) * 2019-10-28 2020-02-07 西安电子科技大学 基于部件特征的双人交互行为识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866429A (zh) * 2010-06-01 2010-10-20 中国科学院计算技术研究所 多运动目标动作行为识别的训练方法和识别方法
CN106407889A (zh) * 2016-08-26 2017-02-15 上海交通大学 基于光流图深度学习模型在视频中人体交互动作识别方法
US20170255831A1 (en) * 2016-03-04 2017-09-07 Xerox Corporation System and method for relevance estimation in summarization of videos of multi-step activities
CN107179683A (zh) * 2017-04-01 2017-09-19 浙江工业大学 一种基于神经网络的交互机器人智能运动检测与控制方法
CN108399435A (zh) * 2018-03-21 2018-08-14 南京邮电大学 一种基于动静特征的视频分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866429A (zh) * 2010-06-01 2010-10-20 中国科学院计算技术研究所 多运动目标动作行为识别的训练方法和识别方法
US20170255831A1 (en) * 2016-03-04 2017-09-07 Xerox Corporation System and method for relevance estimation in summarization of videos of multi-step activities
CN106407889A (zh) * 2016-08-26 2017-02-15 上海交通大学 基于光流图深度学习模型在视频中人体交互动作识别方法
CN107179683A (zh) * 2017-04-01 2017-09-19 浙江工业大学 一种基于神经网络的交互机器人智能运动检测与控制方法
CN108399435A (zh) * 2018-03-21 2018-08-14 南京邮电大学 一种基于动静特征的视频分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HUSEYIN COSKUN ET AL: "Human Motion Analysis with Deep Metric Learning", 《ARXIV:1807.11176V1》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765956A (zh) * 2019-10-28 2020-02-07 西安电子科技大学 基于部件特征的双人交互行为识别方法
CN110765956B (zh) * 2019-10-28 2021-10-29 西安电子科技大学 基于部件特征的双人交互行为识别方法

Also Published As

Publication number Publication date
CN109446872B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
Sun et al. Lattice long short-term memory for human action recognition
Perez et al. Video pornography detection through deep learning techniques and motion information
CN108765394B (zh) 基于质量评价的目标识别方法
Song et al. Temporal–spatial mapping for action recognition
Anitha et al. A survey on facial expression databases
CN108363973B (zh) 一种无约束的3d表情迁移方法
Abdul et al. Intelligent real-time Arabic sign language classification using attention-based inception and BiLSTM
CN111881776B (zh) 动态表情获取方法、装置、存储介质和电子设备
Ji et al. Arbitrary-view human action recognition: A varying-view RGB-D action dataset
Tang et al. Selective spatiotemporal features learning for dynamic gesture recognition
Liu et al. Facial expression recognition and generation using sparse autoencoder
Li et al. LBAN-IL: A novel method of high discriminative representation for facial expression recognition
Li et al. Deep dual relation modeling for egocentric interaction recognition
Yang et al. Pose-based body language recognition for emotion and psychiatric symptom interpretation
Jagadeesh et al. Facial expression recognition of online learners from real-time videos using a novel deep learning model
Cai et al. Video based emotion recognition using CNN and BRNN
CN114967937B (zh) 一种虚拟人运动生成方法与***
Tan et al. Bidirectional long short-term memory with temporal dense sampling for human action recognition
Wasim et al. A novel deep learning based automated academic activities recognition in cyber-physical systems
Bah et al. Facial expression recognition using adapted residual based deep neural network
Ramasinghe et al. Combined static and motion features for deep-networks-based activity recognition in videos
Amara et al. Towards emotion recognition in immersive virtual environments: a method for facial emotion recognition
Kwolek et al. Recognition of JSL fingerspelling using deep convolutional neural networks
CN109446872A (zh) 基于矩形框坐标变换的多方向文本行检测方法
Vernikos et al. Fusing handcrafted and contextual features for human activity recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant