CN109446872A

CN109446872A - 基于矩形框坐标变换的多方向文本行检测方法

Info

Publication number: CN109446872A
Application number: CN201810971833.0A
Authority: CN
Inventors: 舒祥波; 严锐; 唐金辉
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2019-03-08
Anticipated expiration: 2038-08-24
Also published as: CN109446872B

Abstract

本发明提供了一种基于矩形框坐标变换的多方向文本行检测方法，包括以下步骤：在每一时刻，提取个体的CNN特征，作为其静态特征表示；利用一个长短期记忆模型从个体的静态表示中对个体动态进行建模；对Long Motion的建模；对个体间交互动态的建模；对Flash Motion的建模。

Description

基于矩形框坐标变换的多方向文本行检测方法

技术领域

本发明提供了一种计算机视觉和多媒体技术，特别是一种基于矩形框坐标变换的多方向文本行检测方法。

背景技术

动作识别旨在使计算机能够理解出现在视频片段中动作，其在计算机视觉和多媒体领域受到了越来越多的关注。根据动作参与者的人数，人类活动可大致分为三类:单人动作，交互动作和群体动作。以前的大量工作更加注重单人动作识别的研究，并取得了良好的进展。除单人动作之外，真实场景中往往包含更多的交互动作(例如，“握手”)和群体动作(例如，“排队”，“过马路”)。在交互动作的场景中，至少有两个人同时在互动。在群体动作的场景中，活动描述了一个更复杂的场景/事件，涉及到单个人的行为和各种其他的交互作用(例如group-person 和group-group交互)。一般来说，与单人动作识别和交互动作识别相比，群体活动识别是一项更具挑战性的任务。

发明内容

本发明的目的在于提供一种基于矩形框坐标变换的多方向文本行检测方法，其特征在于，包括以下步骤：

步骤1，输入待检测的视频片段，取其中间T帧，并检测每帧中所有运动个体；

步骤2，在每一个时刻，用卷积神经网络提取所有运动个体的空间特征；

步骤3，建立Single-Person LSTM模型，将个体空间特征提供给Single-PersonLSTM模型以捕捉个体时间动态特征；

步骤4，根据个体在整个活动过程中移动时间的顺序，将所有个体的时空特征输送到Interaction Bi-LSTM中以捕获上下文信息；

步骤5，将Interaction Bi-LSTM中的所有隐藏状态赋以动态权值，最终集成至一个Aggregation LSTM中，并将多组的聚合状态连接成对应时刻softmax层的输入；

步骤6，对所有时刻下的softmax分数取平均值作为群体活动识别的最终预测概率向量。

本发明与现有技术相比，具有以下优点：本发明探索了一个新的“One to Key”的概念，逐步地将每个关键角色的时空特征以不同程度进行整合。本发明关注的是两种类型的关键角色，一种是在整个过程中稳定地移动(很长的移动时间)，另一种是发生在某个瞬间的剧烈移动(但与团体动作密切相关)。在此基础上，提出了一种新的参与式时间动态模型(PC-TDM)来识别群体动作，主要由一个 “One”网络和一个“One to Key”网络组成。具体来说，“One”网络的目标是对个体动态建模。“One to Key”网络将“One”网络的输出按照个体移动时长依次输入到双向LSTM(Bi-LSTM)中。随后，Bi-LSTM的每个输出状态被赋以权重并进行了聚合。实验结果表明，该方法能显著地提高了群体动作识别性能。

下面结合说明书附图对本发明作进一步描述。

附图说明

图1是本发明的框架图。

图2是Long Motion的捕捉示意图。

图3是Flash Motion的捕捉示意图。

图4是本发明的流程图。

具体实施方式

一种基于递归神经网络的群体动作识别框架，包括“One”Network(个体时空网络)和“One to Key”Network(关键参与者时间网络)两个子网络。

1、“One”网络：个体时空网络

步骤1，在每一时刻，提取个体的CNN(Convolutional Neural Networks)特征，作为其静态特征表示。

步骤2，利用一个长短期记忆模型(LSTM)(在本发明中称为Single-Person LSTM)从个体的静态表示中对个体动态进行建模。形式上，用X＝{x₁,x₂,...,x_T}，其中x_t是在从预先训练的CNN模型中提取的时间步骤t的空间CNN特征。输入门控i_t，忘记门控f_t，输出门o_t，和输入调制门g_t，存储单元的c_t单人LSTM定义如下，

i_t＝σ(W_ixx_t+W_ihh_t-1+b_i)；

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f)；

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o)；

g_t＝σ(W_gxx_t+W_ghh_t-1+b_g)；

σ(*)是一个sigmoid函数；W_*x和W_*h是权重矩阵；b_*是偏置向量；表示逐元素相乘；而h_t是一个隐藏的状态(包含个体时间动态特征)，它包含了个体在t时刻的动态信息，为激活函数。

2、“One to Key”网络：关键参与者时间网络

步骤3，对Long Motion的建模。Long Motion为参与者在整个过程中有连续运动的动作。一个人的移动时间越长，她/他扮演的角色就越重要。为了测量整个视频剪辑中Long Motion的运动时长，通过叠加光流图像来衡量每个人的平均运动强度，并计算它们的平均值，如图2所示。更正式地，给定一个T帧视频片段，每一帧的分辨率为w×h，分别用和表示点 (u,v)(u＝1,2,...,w；v＝1,2,...,h)处的水平和垂直位移向量。首先，将连续T 帧的和叠加在一起：

其中i＝1,2,...,T，接着获得SF^k(u,v,c)(c＝1,···,2T)，表示第k个人在点(u,v)处的T帧连续运动信息。据此，定义了第k个人的longmotion强度：

其中表示第k个人在t时刻的动作强度，MI^k表示第k个人全程动作强度。显然，一个人的MI^k越大，这就意味着这个人在整个过程中参与群体活动更为频繁。

步骤4，对个体间交互动态的建模。之前的许多工作通过粗略地使用所有人的空间位置来依次建模。这忽略了一个事实，即一些位置相近的人有时并不相关。很明显，一个不断移动的人(例如，“移动”，“跳跃”)有大量的时间与他人在许多时刻中进行互动。因此，具有较长移动时间的移动个体应尽早采用参与建模。形式上，依照每个人的MI^k值，对其特征进行降序排序，并作为LSTM的输入序列。考虑到两个人之间的交互是双向的，使用了一个新的Interaction Bi-LSTM，而不是传统的单向LSTM来对这种交互序列进行建模。在t时刻，Interaction Bi-LSTM单元计算前向反馈序列和后向反馈序列分别从k＝K→1和k＝1→K两个方向迭代K个人。输出序列可表示为：

其中H(*)由步骤2)中LSTM的定义实现，和是权重矩阵；b_*是偏置向量；表示采样操作。与传统的Bi-LSTM拼接前后序列不同，通过对和在每个特征维度上进行采样而得最终输出序列表示这不仅可以减少冗余信息，还能够减少计算开销。

步骤5，对Flash Motion的建模。除了长运动外，有些人在整个活动中并没有稳定的运动，而在某个重要的瞬间，他们有强烈的运动，即Flash Motion。这些运动也为识别群体活动提供了重要的鉴别信息。以排球比赛的“左侧队伍”活动为例，如图3(a)所示，在排球运动中，有几个人(黄色框标记)以更密集的闪光运动参与活动。它们的运动与“左设球”活动密切相关，为理解这一活动提供了重要的信息。由于Flash Motion随时间而变化，考虑分配不同的权重因子以发掘关键参与者。一种直接的方法是可以根据两个连续帧之间的光流值来计算每个人的权重。然而一些发生在重要时刻的flash motion可能与小组活动无关。

在此发明中，构建了一个Aggregation LSTM，通过她/他的个体动作特征来学习每个人的权重因子，然后逐步聚集InteractionBi-LSTM的输出状态。如果个体动作与群体活动更加一致，那么学习的权重因子就会更大，反之亦然。将K个人的整个群体活动分为N_g个组进行识别，其中g＝1,2,...,N_g。第g组个体的起始索引S_g和结束索引E_g可以定义如下，

S_g＝(g-1)·K/N_g+1；

E_g＝g·K/N_g,

对于视频片段中的第g组群体的第k个体，通过学习一个权重因子来控制她/他在t时刻的Interaction LSTM的输出状态以捕捉flash motion的强度：

其中k∈{S_g,S_g+1,...,E_g}，W_he是权重参数矩阵，b_e是偏向量，exp(*)是指数函数。然后获得了第g组中的每个人在t时刻的潜在表示然后，Aggregation LSTM单元接受前一时刻隐层数据和当前时刻的特征数据可以简单地表达为如下：

其中Z_tg是第g个子组在t时刻的特征表示。接着给出整个活动的表示：

最终，将其填入Softmax分类层中，并对每帧取平均以作为群体活动的最终预测向量。

Claims

1.一种基于矩形框坐标变换的多方向文本行检测方法，其特征在于，包括以下步骤：

步骤3，建立Single-Person LSTM模型，将个体空间特征提供给Single-Person LSTM模型以捕捉个体时间动态特征；

2.根据权利要求1所述的方法，其特征在于，步骤3中的Single-Person LSTM模型为

其中，i为输入门控，f为忘记门控，o为输出门，g为输入调制门，c为存储单元，W_*x和W_*h为权重矩阵，b_*是偏置向量，表示逐元素相乘，为激活函数；h_t是一个隐藏的状态，它包含了个体在t时刻的动态特征。

3.根据权利要求2所述的方法，其特征在于，步骤4中个体在整个活动过程中移动时间的长短通过个体全程动作强度来体现，全程动作强度越强时间越长，全程动作强度通过以下过程获得：

步骤S401，将连续T帧的每一像素点的水平、垂直位移向量叠加在一起

其中，i＝1,2,...,T，和分别表示点(u,v)处的水平和垂直位移向量u＝1,2,...,w，v＝1,2,...,h，图像的分辨率为w×h；

步骤S402，获得第k个人在点(u,v)处的T帧连续运动信息SF^k(u,v,c)，c＝1,···,2T；

步骤S403，获得第k个人的动作强度和全程动作强度：

其中，表示第k个人在t时刻的动作强度，MI^k表示第k个人全程动作强度。

4.根据权利要求3所述的方法，其特征在于，步骤4中将所有个体的时空特征输送到Interaction Bi-LSTM中以捕获上下文信息的具体过程为：

Interaction Bi-LSTM单元计算前向反馈序列和后向反馈序列分别从k＝K→1和k＝1→K两个方向迭代K个人，输出序列可表示为：

其中，k＝1,2,···,K，H(*)由步骤2中LSTM的定义实现，和分别是权重矩阵，b_*是偏置向量，◇表示采样操作。

5.根据权利要求5所述的方法，其特征在于，步骤5的具体过程为：

步骤S501，构建Aggregation LSTM单元，将K个人的整个群体活动分为N_g个组进行识别，其中g＝1,2,...,N_g，第g组个体的起始索引S_g和结束索引E_g定义为

S_g＝(g-1)·K/N_g+1

E_g＝g·K/N_g

步骤S502，对于视频片段中的第g组群体的第k个体，通过学习一个权重因子来控制个体在t时刻的Interaction LSTM的输出状态以捕捉第g组中的每个人在t时刻的潜在表示

其中k∈{S_g,S_g+1,...,E_g}，W_he是权重参数矩阵，b_e是偏向量，exp(*)是指数函数；

步骤S503，Aggregation LSTM单元接受前一时刻隐层数据和当前时刻的

其中，Z_tg是第g个子组在t时刻的特征表示；

步骤S504，获得整个活动的表示：