CN113936339B

CN113936339B - 基于双通道交叉注意力机制的打架识别方法和装置

Info

Publication number: CN113936339B
Application number: CN202111537924.1A
Authority: CN
Inventors: 李玲; 徐晓刚; 王军; 祝敏航; 曹卫强; 朱亚光
Original assignee: Zhejiang Gongshang University; Zhejiang Lab
Current assignee: Zhejiang Gongshang University; Zhejiang Lab
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-04-22
Anticipated expiration: 2041-12-16
Also published as: CN113936339A

Abstract

本发明公开了基于双通道交叉注意力机制的打架识别方法和装置，该方法首先采集生成视频数据集，设置快慢两种帧率获取不同帧图像序列，进行预处理后分别送入快慢通道，在快慢通道采用基于分开时空自注意力机制的Transformer编码器提取图像序列时空编码特征；然后，经过交叉注意力模块融合一个通道CLS token与另一通道patch token信息，实现双通道时空编码特征融合；最后，将融合后的时空编码特征经过多层感知机头进行打架行为识别。本发明通过双通道Transformer模型与交叉注意力模块能有效提取视频时空特征，提高打架行为识别的准确率，适用于室内外监控***。

Description

基于双通道交叉注意力机制的打架识别方法和装置

技术领域

本发明涉及智能视频监控及深度学习领域，尤其涉及基于双通道交叉注意力机制的Transformer打架识别方法和装置。

背景技术

现如今，监控视频已经广泛应用于社会公共场所，在维护社会公共安全上发挥着极为重要的作用，对监控视频中的异常行为和事件进行有效的识别，能更好的发挥监控视频的作用。打架斗殴行为是视频中常见的一种扰乱公共秩序的行为，严重者更涉嫌聚众斗殴和寻衅滋事，影响社会稳定。在海量视频中通过智能化手段及时发现打架斗殴行为，对维护社会安定至关重要。

现有基于视频的打架行为识别方法大多由卷积神经网络来实现，主要分为两类，一是基于骨骼或姿态流的神经网络方法，该类方法主要对视频中出现的人体进行关键点检测，提取人体的骨架或姿态信息，并对骨架序列构建时空卷积图，送入时空卷积网络进行建模，通过不断的迭代训练得到一个效果最好的权重信息，进而得到行为的类别。

该类方法影响性能的主要原因是，方法仅使用视频中人体的骨架信息，其他关键空间语义特征很难检测到，导致基于骨架的算法鲁棒性较差；且该类方法对视频时间域特征提取较为简单，仅在骨架特征后采用简单的池化层求均值，未能有效融合时间和空间特征。

二是基于双流深度神经网络的方法，该类方法主要是将视频送入双通道网络，通过双通道网络提取视频不同特征，并对双通道提取特征进行融合，来进行人体行为识别。双通道特征输入主要分为两类，一通过RGB图像或光流图像作为输入；二均为RGB图像作为输入。

基于光流图像输入的网络，其缺点在于光流提取耗时长，资源消耗较大，且整个网络无法做到端到端等不足。基于RGB图像作为输入的网络，未根据视频在时间和空间域不同特征，设置不同的图像帧数输入，若送入帧数较多，则资源消耗大，算法训练及测试时间较长，若通过采样稀疏图像帧数，则不能很好提取时间域特征，因行为动作在帧间变化较大，稀疏采样会影响空间特征提取。

基于卷积神经网络通过卷积核捕捉短距离时空信息，不能对超出感受野范围外的依赖关系进行建模。虽然网络的加深可以扩大感受野，可以一定程度解决该问题，但问题依然存在，有方法考虑将局部信息融入注意力机制，但局部信息与全局信息融合方法较为简单，使得特征融合不够全面，表达力不够。Transformer可通过自注意力机制直接比较所有时空位置上的特征，以捕获局部和全局范围内的依赖，适用于视频时空特征提取。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了基于双通道交叉注意力机制的Transformer打架识别方法和装置，设置快慢两种帧率提取不同帧图像序列，分别送入快慢通道，在快慢通道采用基于分开时空注意力机制的Transformer编码器提取时空特征，快通道提取帧与帧间行为动作变化特征，慢通道提取单帧空间语义信息，并通过交叉注意力模块融合双通道时空编码特征，最后经过多层感知机头输出行为类别。其具体技术方案如下：

基于双通道交叉注意力机制的Transformer打架识别方法，包括以下步骤：

步骤一，利用开源打架数据集CCTV-Fights、网络搜集及本地独立采集并标注的监控视频数据共同构造数据集，并分为训练集和测试集，即原始视频；

步骤二，将训练集和测试集设置快慢通道帧率，获取不同帧图像序列，对训练集图像进行预处理后分别送入快慢通道的Transformer编码器；

步骤三，快慢通道Transformer编码器基于分开时空注意力机制获取得到两路图像序列编码特征；

步骤四，通过交叉注意力模块融合所述两路图像序列编码特征，后通过多层感知机头得到网络预测值，并根据该预测值与真值计算损失函数训练整个网络；

步骤五，将测试集输入训练好的网络，输出最终行为类别。

进一步的，所述步骤二，具体包括以下子步骤：

（2.1）设原始视频为

表示T帧高宽为

的RGB图像，对于慢通道设置时间步长

，则慢通道输入图像序列帧数为

，快通道设置时间步长

，

，快通道输入图像序列帧数为

；

将每帧图像分割为相互不重叠的Q块，设每块图像块大小为P×P，则

，将输入图像矩阵尺度变化后得到快慢通道输入向量分别为

，

，其中p=1,…,Q表示图像块空间位置索引，

，

表示图像帧数索引；

（2.2）对

编码，首先通过可学习矩阵

线性映射为

维向量，再加入可学习位置及时间编码矩阵

，得到嵌入矩阵

，

表示慢通道预处理后输出向量维度，同理对快通道输入

做相同预处理，仅输出维度不同，则有

，通过可学习矩阵

将输入线性映射为

维向量，

表示快通道预处理后输出向量维度；

（2.3）在步骤（2.2）输出嵌入向量

及

的首位置添加可学习向量

，并分别输入快慢通道的Transformer编码器。

进一步的，所述步骤三，具体包括以下子步骤：

（3.1）将输入进行层归一化及线性映射后分别计算快慢通道的Query、Key及Value 向量，具体的：将步骤（2.3）输出嵌入矩阵

和

作为输入，设

、

及

分别表示第

个基本模块第

个头Query、Key及Value向量，通过层归一化及线性映射计算得到：

其中

表示层归一化，

为第

个基本模块编码特征输出，当为慢通道时

表示为

，

，当为快通道时

表示为

，

，

表示注意力头索引，A表示多头注意力模块中多头个数，

、

及

分别表示第

个基本模块第

个头Query、Key及Value向量对应的可学习映射矩阵；

（3.2）利用步骤（3.1）输出q、k及v计算时间自注意力权重矩阵，及各注意力头输出，将各注意力头输出向量连接成矩阵，并经过线性映射及残差操作得到中间编码特征图；然后，将中间特征图经过步骤（3.1）得到更新后的q、k及v，计算空间自注意力权重矩阵，及各注意力头输出，将各注意力头输出向量连接成矩阵，经过线性映射及残差操作后，再经过层归一化和多层感知机，得到第

个基本模块编码特征图输出；

（3.3）若编码器个数大于1，则重复上述步骤（3.1）和（3.2）直至最后一个编码器输出，得到快慢通道输出表示为

和

。

进一步的，所述步骤（3.2），具体包括以下子步骤：

（3.2.1）空间自注意力权重及计算：首先利用步骤（3.1）输出q、k通过点积运算计算时间自注意力权重矩阵

，再与v加权求和得到各注意力头输出

，将各注意力头输出向量连接成矩阵，并经过线性映射及残差操作得到中间编码特征图

，表达式为：

其中

表示softmax激活函数，

表示每个注意力头输入的维度，

为步骤二输出嵌入向量的维度，在慢通道时

，

，在快通道时

，

；

表示第

个基本模块输出编码特征图，

表示为可学习线性映射矩阵；

（3.2.2）将步骤（3.2.1）输出中间特征图

经过步骤（3.1）得到更新后的q、k 及v，q、k通过点积运算计算空间自注意力权重矩阵

，再与v加权求和得到各注意力头输出

，将各注意力头输出向量连接成矩阵，经过线性映射及残差操作后得到中间编码特征图

，再经过层归一化和多层感知机层，得到第

个基本模块编码特征图输出

，表达式为：

其中

表示前馈神经网络。

进一步的，所述步骤四，具体包括以下子步骤：

（4.1）步骤（3.3）快通道输出

，

为分类标志CLS token，表示为

，

为图像块标志patch token，表示为

，其中

表示矩阵中除

外的其他部分，同理由慢通道输出

可得到慢通道CLS token和patch token，分别设为

和

；

通过线性映射函数将快通道维度变化为与慢通道维度一致，并与慢通道patch token连接形成新的向量

，其中

为快通道线性映射函数，快慢通道维数一致，

表示矩阵连接操作；

（4.2）将步骤（4.1）输出

按照步骤（3.1）所述方法，求取Query、Key及 Value向量，并经过步骤（3.2）所述方法，获取第

个交叉注意力模块编码特征图输出表示为

，通过线性映射函数将通道维数还原，并与快通道的patch token连接形成输出

，并送入下一个多帧率transformer编码器，

其中

为快通道线性映射函数；

（4.3）将步骤（4.2）输出

经过步骤三及步骤（4.1）和（4.2）计算直至最后一个多帧率Transformer编码器，设最终编码特征图输出为

；

（4.4）将步骤（4.3）输出

，取其CLS token部分表示为

，送入多层感知机，通过

分别得到快慢通道预测输出值，其中

表示打架行为识别预测值，并将两个通道输出取平均，得到最终输出值。

进一步的，所述损失函数使用二分类交叉熵损失函数，利用MLP头预测值与图像真实标签值计算二分类损失值

，表达式为：

其中，

表示样本标签，如果样本时正例，取值为1，否则取值为0，

表示模型预测样本是正例的概率，B表示样本个数。

基于双通道交叉注意力机制的Transformer打架识别装置，包括一个或多个处理器，用于实现所述的基于双通道交叉注意力机制的Transformer打架识别方法。

与选优技术相比，本发明的有益效果在于：

（1）针对卷积神经网络在视频特征提取时，仅能捕捉短距离时空信息的局限，设计了一种基于双通道交叉注意力机制的Transformer打架识别模型，Transformer模型可通过自注意力机制比较所有时空位置上的特征，以捕获局部和全局范围内的依赖，有效提取视频时空特征，从而提高行为识别的准确率。

（2）根据视频时空特征不同，时间域帧间行为动作变化较快，空间域单帧语义特征帧间变化较慢，设计了双通道模型提取视频时空特征。同时为节省内存资源，提高运行效率，方法将不同帧数图像序列送入快慢通道，通道内采用分开的时空自注意力机制提取特征，且快通道内Transoformer编码器个数及输出通道维度较少，在有效提取视频时空特征的同时减少资源消耗。

（3）设计了一种基于交叉注意力机制的时空特征融合模块，将已经学习到本通道特征的CLS token和另一通道的patch token交叉融合，快速且有效的融合双通道时空特征，提高打架行为识别准确率。

（4）本发明方法能有效识别视频中的打架行为，提高识别准确率，在开源打架数据集CCTV-Fights中，准确率达87.25%，且能减少人工筛选成本，预防打架斗殴行为的发生，适用于室内外复杂场景下的视频监控***，有着广泛的应用价值。

附图说明

图1是本发明的所述的一种基于交叉注意力机制的双流Transformer打架识别方法流程图；

图2是本发明所述的一种基于交叉注意力机制的双流Transformer打架识别方法框架图；

图3是本发明所述的双通道分开时空自注意力机制Transformer编码器结构图；

图4是本发明所述的快通道交叉注意力模块示意图；

图5是本发明一种基于双通道交叉注意力机制的Transformer打架识别装置的结构图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1所示，一种基于交叉注意力机制的双流Transformer打架识别方法，通过筛选CCTV-Fights数据集或标注独立采集获得视频数据得到训练集及测试集；将训练集和测试集，设置快慢两种帧率获取不同帧图像序列，训练集图像序列经过预处理后送入快慢通道Transformer编码器和交叉注意力模块，最后经过多层感知机头得到网络预测结果，并根据该预测结果与真值计算损失函数训练整个网络；测试集图像序列输入训练好的网络，输出最终行为类别。

如图2所示，本发明方法采用

个多帧率Transformer编码器，每个多帧率 Transformer编码器有快慢两路输入：

和

，

处理低帧率视频数据，

处理高帧率视频数据。首先，原始视频通过快慢两种帧率，提取不同帧图像序列送入

和

，并分别经过各自通道基于分开时空注意力机制的Transformer编码器获取编码特征，其中

和

路Transformer编码器个数分别为N和M；然后，经过交叉注意力模块融合该两路编码特征；最后，通过多层感知机头输出行为类别。

具体的，本发明的一种基于交叉注意力机制的双流Transformer打架识别方法，包括以下步骤：

步骤一：数据集生成。利用开源打架数据集CCTV-Fights、网络搜集及本地独立采集并标注的监控视频数据共同构造数据集，并按照4:1分为训练集和测试集。首先网络搜集视频，在YouTobe等网站输入打架关键字，并下载视频，为了数据的多样性，更换关键字语言类别重复搜索；其次筛选视频，将重复和无关的视频删除；最后标注网络搜集及本地监控摄像头独立采集的视频，将视频按照30帧每秒的帧率，以5秒切割视频，标记每帧视频行为类别，行为类别分为打架和非打架两个类别。

步骤二：输入原始视频，设置快慢两种帧率提取不同帧数图像序列，将每帧图像分割为相互不重叠的多个图像块，并经过线性映射、位置和时间编码及加入分类标志预处理后，分别送入快慢两个通道，由各自通道的基于分开时空注意力机制的Transformer编码器提取图像序列编码特征。

具体的，所述步骤二通过以下子步骤来实现：

（2.1）快慢通道帧率设置及图像分块。设输入原始视频为

表示T帧高宽为

的RGB图像，对于慢通道设置较大的时间步长

，则慢通道输入图像序列帧数为

，快通道设置较小的时间步长

，快通道输入图像序列帧数为

。本发明实施例设原始视频帧数

，

，

，则快慢通道输入图像帧数

帧和

帧。

将每帧图像分割为相互不重叠的Q块，设每块图像块大小为

，则

，将输入图像矩阵尺度变化后得到快慢通道输入向量分别为

，

，其中p=1,…,Q表示图像块空间位置索引，

，

表示图像帧数索引。

（2.2）线性映射、位置及时间编码预处理。对步骤（2.1）输出

编码，首先通过可学习矩阵

线性映射为

维向量，再加入可学习位置及时间编码矩阵

，得到嵌入矩阵

，本发明中

表示慢通道预处理后输出向量维度。同理对快通道输入

做相同预处理，仅输出维度不同，则有

，通过可学习矩阵

将输入线性映射为

维向量，

表示快通道预处理后输出向量维度。

（2.3）加入分类标志（CLS token），与BERT transformer相同，在步骤（2.2）输出嵌入向量

及

的首位置添加可学习向量

，分别输入快慢通道，用于交叉注意力模块进行特征融合及最后行为类别输出。

如图3所示为快慢通道基于分开时空自注意力机制的Transformer编码器结构图，快通道包含N个Transformer基础模块，快通道主要用于提取帧与帧之间打架动作快速变化的特征，因此输入图像帧数较多，为减少算法运行时间，本发明设置N=1，慢通道包含M个Transformer基本模块，主要用于提取每帧图像空间语义特征，如人体的轮廓、纹理等，这些特征随着帧与帧图像变化，其特征变化较慢，因此输入图像帧数较少，为提取更丰富空间语义特征，本发明设置M=4。

步骤三：将步骤（2.3）输出嵌入矩阵

和

分别输入快慢通道后，由各自通道基于分开时空注意力机制的Transformer编码器提取图像序列编码特征。首先，将输入进行层归一化及线性映射后分别计算快慢通道的Query、Key及Value向量；然后经过多头自注意力模块，利用分开的时空自注意力机制，计算Query、Key向量间的自注意力系数矩阵，该系数矩阵与Value向量加权求和得到第一个基本模块编码特征；最后，若基本模块数量大于1，重复上述步骤至最后一个基本模块，得到最终的编码特征。

更具体的，所述步骤三通过以下子步骤来实现：

（3.1）Query、Key及Value向量计算。将步骤（2.3）输出嵌入矩阵

和

作为输入，设

、

及

分别表示第

个基本模块第

个头Query、 Key及Value向量，可通过层归一化及线性映射计算得到：

其中

表示层归一化，

为第

个基本模块编码特征输出，快慢通道原理相同，仅输入图像帧数及基于分开时空注意力机制的Transformer基本模块数不同，为叙述方便，采用共同的符号表示，当为慢通道时

表示为

，

，当为快通道时

表示为

，

，

表示注意力头索引，A表示多头注意力模块中多头个数，

、

及

分别表示第

个基本模块第

个头 Query、Key及Value向量对应的可学习映射矩阵。

（3.2）第

个基本模块编码特征图计算。首先利用步骤（3.1）输出q、k及v计算时间自注意力权重矩阵，及各注意力头输出，将各注意力头输出向量连接成矩阵，并经过线性映射及残差操作得到中间编码特征图；然后，将中间特征图经过步骤（3.1）得到更新后的q、k 及v，计算空间自注意力权重矩阵，及各注意力头输出，将各注意力头输出向量连接成矩阵，经过线性映射及残差操作后，再经过层归一化和多层感知机，得到第

个基本模块编码特征图输出。

（3.2.1）空间自注意力权重及计算。首先利用步骤（3.1）输出q、k通过点积运算计算时间自注意力权重矩阵

，再与v加权求和得到各注意力头输出

。

其中

表示softmax激活函数，

表示每个注意力头输入的维度，

为步骤二输出嵌入向量的维度，在慢通道时

，

，在快通道时

，

。

表示第

个基本模块输出编码特征图，

表示为可学习线性映射矩阵。

（3.2.2）将步骤（3.2.1）输出中间特征图

，再与v加权求和得到各注意力头输出

，再经过层归一化和多层感知机层，得到第

个基本模块编码特征图输出

。

其中

表示前馈神经网络。

（3.3）快慢通道transformer编码器特征图输出。若编码器个数大于1，则重复上述步骤（3.1）和（3.2）直至最后一个编码器输出，得到快慢通道输出表示为

和

。

如前所述快慢通道关注视频不同特征，为更好进行打架识别，将快慢通道提取特征进行融合。步骤三输出矩阵分为CLS token及patch token两部分，CLS token已经学习到所在通道中其他patch token的特征信息，为快速有效的进行特征融合，本发明首先，将一个通道的CLS token与另一个通道的patch token进行特征融合；然后，在下一个多帧率Transformer编码器中，将融合了另一个通道patch token信息的CLS token与本通道的patch token进行特征融合，以获取更加丰富的视频时空表征特征。快慢通道融合原理相同，为叙述简便，仅对快通道融合原理进行详细描述，慢通道同理。

步骤四：如图4所示为快通道交叉注意力模块示意图，首先，分解步骤（3.3）快慢通道输出

和

获取CLS token和patch token，快通道CLS token经过线性映射将通道维数变换到与慢通道相同，将映射后的快通道CLS token与慢通道patch token连接形成新的矩阵；然后，经过矩阵

、

及

线性映射得到q、k及v向量，利用q、k计算分开的时空注意力权重矩阵，与v加权求和并经过残差操作；最后，通过线性映射将通道维数还原，并与快通道的patch token连接形成输出，送入下一个多帧率Transformer编码器。

更加具体的，所述步骤四通过以下子步骤来实现：

（4.1）CLS token和patch token计算及预处理。步骤（3.3）快通道输出

，

为CLS token表示为

，

为patch token表示为

，其中

表示矩阵中除

外的其他部分，同理由慢通道输出

可得到慢通道CLS token和patch token，分别设为

和

。

，其中

为快通道线性映射函数，用于使快慢通道维数一致，

表示矩阵连接操作。

（4.2）第

个交叉注意力模块编码特征图计算。将步骤（4.1）输出

按照步骤（3.1）所述方法，求取Query、Key及Value向量，并经过步骤（3.2）所述方法，获取第

个交叉注意力模块编码特征图输出表示为

。通过线性映射函数将通道维数还原，并与快通道的patch token连接形成输出

，并送入下一个多帧率transformer编码器。

其中

为快通道线性映射函数，用于将通道维数还原。

（4.3）交叉注意力模块编码特征图输出。将步骤（4.2）输出

。

（4.4）打架识别分类头。将步骤（4.3）输出

，取其CLS token部分表示为

，送入多层感知机，通过

分别得到快慢通道预测输出值，其中

（4.5）损失函数构造、模型训练及微调。本发明使用二分类交叉熵损失函数，利用 MLP头预测值与图像真实标签值计算二分类损失值

。

其中，

表示样本标签，如果样本时正例，取值为1，否则取值为0，

表示模型预测样本是正例的概率，B表示样本个数。

由于Transformer在较大数据集上表现良好，但在小数据集上效果欠佳，为解决这个问题，本发明使用Crossvit在ImageNet上的预训练模型初始化网络，使网络具备先验知识，避免训练初始阶段损失过大，模型难以收敛的情况。并在开源打架数据集CCTV-Fights上进行训练，使用预训练好的模型在自己独立采集的真实监控视频制作的数据集上进行微调，以提高识别精度。上述训练均基于损失函数对网络进行反向传播，并通过批量梯度下降法不断更新网络参数，在150000次批量训练后模型达到收敛。

将本发明所述模型应用于开源打架数据集CCTV-Fights，识别准确率达87.25%，基于三维卷积神经网络方法slowfast【SlowFast Networks for Video Recognition】在该数据集上，识别准确率为80.05%。对于自己独立采集的真实监控视频制作的数据集，本发明使用在CCTV-Fights数据集预训练模型微调后，识别准确率达到91.65%，而slowfast算法识别准确率仅为85.35%。实验结果说明，基于Transformer的模型在小数据集上，可通过在较大数据集上预训练经过微调，得到较好的识别准确率，本发明所述的方法能有效提高打架行为识别的准确率。

与前述基于双通道交叉注意力机制的Transformer打架识别方法的实施例相对应，本发明还提供了基于双通道交叉注意力机制的Transformer打架识别装置的实施例。

参见图5，本发明实施例提供的一种基于双通道交叉注意力机制的Transformer打架识别装置，包括一个或多个处理器，用于实现上述实施例中的基于双通道交叉注意力机制的Transformer打架识别方法。

本发明基于双通道交叉注意力机制的Transformer打架识别装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明基于双通道交叉注意力机制的Transformer打架识别装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于双通道交叉注意力机制的Transformer打架识别方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。