CN108960207B

CN108960207B - 一种图像识别的方法、***及相关组件

Info

Publication number: CN108960207B
Application number: CN201810896237.0A
Authority: CN
Inventors: 程良伦; 陈佳莉; 黄国恒
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2021-05-11
Anticipated expiration: 2038-08-08
Also published as: CN108960207A

Abstract

本申请公开了一种图像识别的方法，所述方法包括当接收到模型训练指令时，根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量；将所有所述样本图片划分为

个样本图片组；利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到

个拼接特征向量，并对所有所述拼接特征向量进行池化操作得到段落融合特征；将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型，以便利用所述图像识别模型进行图像识别操作。本方法能够降低图像识别模型的训练成本，提升图像识别的工作效率。本申请还公开了一种图像识别的***、一种计算机可读存储介质及一种电子设备，具有以上有益效果。

Description

一种图像识别的方法、***及相关组件

技术领域

本发明涉及计算机视觉领域，特别涉及一种图像识别的方法、***、一种计算机可读存储介质及一种图像识别装置。

背景技术

人体动作识别是视频理解和计算机视觉的重要研究方向，并被广泛应用于实际中，例如人体运动分析、人机交互、视频检索、智能视频监控以及异常事件检测等。在研究与研发中，涌现了大量人体动作识别方法及装置。但由于人体动作样式复杂、光照多变、拍摄视角倾斜、背景干扰等原因，目前基于视频的人体动作识别依然计算机视觉领域的难点问题。

采用人为既定的特征模板进行特征提取，需要数量庞大的特征模板来适应人体动作样式的多变性与复杂性。因此现有技术中利用深度学习进行特征提取的新型识别方法具有自适应性，无需事先规定特征模板，但由于深度学习需要从大量样本中提取特征进行学习，训练十分耗时，导致训练成本高、产品迭代慢。

因此，如何降低图像识别模型的训练成本，提升图像识别的工作效率是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种图像识别的方法、***、一种计算机可读存储介质及一种图像识别装置，能够降低图像识别模型的训练成本，提升图像识别的工作效率。

为解决上述技术问题，本申请提供一种图像识别的方法，该方法包括：

当接收到模型训练指令时，根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量；

将所有所述样本图片划分为

个样本图片组；其中，每个所述样本图片组内包括N帧相邻的所述样本图片；

利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到

个拼接特征向量，并对所有所述拼接特征向量进行池化操作得到段落融合特征；

将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型，以便利用所述图像识别模型进行图像识别操作。

可选的，根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量包括：

根据所述模型训练指令将所述训练样本集中的样本图像输入卷积神经网络进行所述图像特征提取操作得到多帧所述样本图片的所述特征向量。

可选的，将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型包括：

将所有所述段落融合特征传输至长短期记忆网络进行训练得到所述图像识别模型；其中，所述长短期记忆网络为所述循环神经网络中的一种人工神经网络。

可选的，在根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量之前，还包括：

获取视频数据并将所述视频数据按照预设周期进行截图操作得到若干张样本图像，根据所有所述样本图像构建所述训练样本集。

根据所述模型训练指令利用三帧差分法提取所述训练样本集中每一帧样本图像的运动目标区域；

对每一帧所述样本图像的运动目标区域进行图像特征提取操作得到多帧样本图片的所述特征向量。

可选的，利用所述图像识别模型进行图像识别操作包括：

当接收到目标视频时，对所述目标视频进行截图操作得到多张待识别图像，对所述待识别图像执行图像特征提取操作得到待识别特征向量；

将所述待识别特征向量输入所述段落融合网络得到待识别拼接特征向量，并对所有所述待识别拼接特征向量进行池化操作得到待识别段落特征；

将所有所述待识别段落特征传输至所述图像识别模型得到图像识别结果。

本申请还提供了一种图像识别的***，该***包括：

特征提取模块，用于当接收到模型训练指令时，根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量；

划分模块，用于将所有所述样本图片划分为

段落融合模块，用于利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到

识别模块，用于将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型，以便利用所述图像识别模型进行图像识别操作。

可选的，所述特征提取模块为根据所述模型训练指令将所述训练样本集中的样本图像输入卷积神经网络进行所述图像特征提取操作得到多帧样本图片的所述特征向量的模块。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序执行时实现上述图像识别的方法执行的步骤。

本申请还提供了一种图像识别装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现上述图像识别的方法执行的步骤。

本发明提供了一种图像识别的方法，包括当接收到模型训练指令时，根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量；将所有所述样本图片划分为

个样本图片组；其中，每个所述样本图片组内包括N帧相邻的所述样本图片；利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到

个拼接特征向量，并对所有所述拼接特征向量进行池化操作得到段落融合特征；将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型，以便利用所述图像识别模型进行图像识别操作。

对一个视频进行逐帧截图的时候，时间上挨得近的图片是很相似的，反映到数字上面，相邻帧的图片的特征向量也必然存在相似性。本发明通过段落融合网络将每N帧相邻的样本图片的特征向量拼接为一个拼接特征向量，把具有相似性的N帧特征向量融合为一帧融合特征向量，明显降低了训练图像识别模型的训练成本。本方案能够降低图像识别模型的训练成本，提升图像识别的工作效率。本申请同时还提供了一种图像识别的***、一种计算机可读存储介质和一种图像识别装置，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种图像识别的方法的流程图；

图2为本申请实施例提供的一种段落融合网络的原理示意图；

图3为本申请实施例所提供的一种优选的图像识别的方法的流程图；

图4为三帧差分提取运动目标区域的方法的原理示意图

图5为AlexNet网络结构示意图；

图6为长短期记忆网络LSTM的结构示意图；

图7为本申请实施例所提供的一种图像识别的***的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面请参见图1，图1为本申请实施例所提供的一种图像识别的方法的流程图。

具体步骤可以包括：

S101：当接收到模型训练指令时，根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量；

其中，当接收到模型训练指令时，默认存在已经构建好对图像识别模型进行训练的训练样本集，训练样本集中存在有连续的多帧视频截图。具体的，本实施例可以作为视频中人体动作识别的方法。需要说明的是，本实施例默认训练样本集是通过对一段连续的视频进行固定周期的截图得到的，相邻的帧的截图之间存在图像相似性。对训练样本集中的所有图片进行特征提取操作可以得到每一帧样本图片的特征向量。需要说明的是，可以使用积神经网络进行特征提取操作。

可以理解的是，当本实施例应用于人体动作识别中时，作为一种优选的实施方式可以采用三帧差分法提取运动目标区域。具体的，可以先根据所述模型训练指令利用三帧差分法提取所述训练样本集中每一帧样本图像的运动目标区域；再对每一帧所述样本图像的运动目标区域进行图像特征提取操作得到多帧样本图片的所述特征向量。

S102：将所有所述样本图片划分为

由于相邻帧的样本图片具有相似性，一个样本图片组内的N帧图片同样具有相似性，举例说明本步骤中的操作：例如有第1帧、第2帧、第3帧……第12帧的样本图片，N为4，可以按第1帧～第4帧、第5帧～第8帧、第9帧～第12帧进行划分得到3个样本图片组。

S103：利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到

其中，本实施例的关键在于使用段落融合网络将多个特征向量进行融合。段落融合网络(SFN，segment fusion net)，段落融合网络能够将多个特征向量拼接为一个拼接特征向量。请参见图2，图2为本申请实施例提供的一种段落融合网络的原理示意图，举例说明该拼接的过程：

例如，一张图进行特征提取操作后的特征向量是图中虚线框内部分，它是n行1列的向量，图中的每个点代表的是一个数字。段落融合网络在进行向量拼接时，将多个这样的n行1列的向量合并到一起，为了方便阐述，可以把m个这样的n行1列的向量合并到一起，拼接后的结果是n行m列的。拼接前特征向量为：

对它们进行拼接，拼接结果为：

可见，段落融合网络的结果是将多个样本图片的特征向量融合为一个段落融合向量，进一步的由于相邻的样本图片的拍摄时间非常接近，反映到数字上面，相邻帧的图片的特征向量也必然存在很相似的。那么，通过特征融合网络将N帧相邻的样本图片(相似的图片)的特征向量进行融合，N张图片特征向量融合成1个段落特征向量，用1个代替原有的N个。由于融合的图片为具有相似性的图片，因此段落融合网络中特征向量的拼接操作不仅不会造成识别准确率的下降，反而加快了训练速度。

值得注意的是，本实施例中的段落融合网络按每N帧相邻的样本图片的特征向量拼接，例如有第1帧、第2帧、第3帧……第12帧的样本图片，N为4，可以按第1帧～第4帧、第5帧～第8帧、第9帧～第12帧进行拼接得到3个段落特征向量。由于本申请是利用相邻真的样本图片间存在相似性进行的图像融合，因此得到的1个段落特征向量与融合之前的3个特征向量具有很高的相似性。通过本步骤中的操作能够将需要输入至循环神经网络的特征的数量减少至N分之一，明显降低了图像识别模型的训练成本。

需要说明的是，在本步骤中段落融合网络不仅将S101中获得的样本图片的特征向量按每N个特征向量拼接成一个段落特征向量，还需要对拼接后的段落特征向量施加池化(pooling)操作，融合N张图像信息，输出融合后的图像特征(即段落融合特征)。

S104：将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型，以便利用所述图像识别模型进行图像识别操作。

本步骤的是建立在S103已经得到段落融合特征的基础上将段落融合特征传输至循环神经网络进行训练得到图像识别模型，以便利用所述图像识别模型进行图像识别操作。具体的可以使用传统的RNN循环神经网络进行模型训练操作，但是传统RNN循环神经网络的一个弊端是存在梯度消失，这导致RNN循环神经网络在实际中只能拥有短时记忆，很难处理长时间的前后依赖，得到的图像识别模型的识别效果不佳。

作为一种优选的实施方式，可以将所有所述段落融合特征传输至长短期记忆网络进行训练得到所述图像识别模型；其中，所述长短期记忆网络为所述循环神经网络中的一种人工神经网络。通过长短期记忆网络可以拥有长时记忆，能够处理长时间的前后依赖，得到的图像识别模型的识别效果相对传统RNN循环神经网络更好。

对一个视频进行逐帧截图的时候，时间上接近的图片是很相似的，反映到数字上面，相邻帧的图片的特征向量也必然存在相似性。本发明通过段落融合网络将每N帧相邻的样本图片的特征向量拼接为一个拼接特征向量，把具有相似性的N帧特征向量融合为一帧融合特征向量，明显降低了训练图像识别模型的训练成本。本实施例能够降低图像识别模型的训练成本，提升图像识别的工作效率。

下面为本申请实施例所提供的一种构建训练样本集的方法的介绍；在本实施例可以在上一实施例的S101之前执行，两个实施例可以相互结合。

具体步骤可以包括：

编写截帧代码，将获取的视频按每N秒截图一次，每张图视为一帧，获得若干帧待处理图像：截帧代码详细包括调用视频接口读入视频，每N秒截图一次，持续输出截取的图像。一段长为t分钟的视频，若按每n秒截一帧，则共可获得

帧图像。将所有帧图像构建得到训练样本集。

由于不同视频中物体的动作变化频率是不同的，例如人体动作变化与车辆等刚性物体动作变化不同，人体动作具有幅度较大，频率较快的特点。举个例子，车辆在行驶过程中，车身动作幅度较小，基于车辆的视频识别中，截帧频率往往可以很低，1秒截一帧与5秒截一帧并不会给识别准确率带来多大的影响。但在人体动作识别中，1秒截一帧与5秒截一帧的差别就很大，5秒的时间内，也许人体一个动作已经做完，截帧频率过低会丢失关键信息。因此，为了保证识别准确率，可以根据具体的视频内容选择适当的截图频率。

下面请参见图3，图3为本申请实施例所提供的一种优选的图像识别的方法的流程图。

S201：根据所述模型训练指令利用三帧差分法提取所述训练样本集中每一帧样本图像的运动目标区域；

通过一个具体的例子说明S201中的操作，请参见图4，图4为三帧差分提取运动目标区域的方法的原理示意图。

步骤1：选取图像序列中连续的三帧图像P_i-1(x,y),P_i(x,y),P_i+1(x,y)，分别计算相邻两帧图像的差值d

d_(i,i-1)(x,y)＝|P_i(x,y)-P_i-1(x,y)|

d_(i+1,i)(x,y)＝|P_i+！(x,y)-P_i(x,y)|

步骤2：对得到的差值图像，通过选择合适的阈值S进行二值化，

步骤3：在每一个像素点(x,y)将得到的二值图逻辑相“与”，得到三帧图像中的中间帧的二值图像B：

S202：根据所述模型训练指令将所述训练样本集中的样本图像输入卷积神经网络，利用所述卷积神经网络对每一帧所述样本图像的运动目标区域进行图像特征提取操作得到多帧样本图片的所述特征向量。

可以理解的是，卷积神经网络CNN的种类有很多种，此处列出其中一个实例AlexNet，网络结构如图5所示，图5为AlexNet网络结构示意图。具体包括以下步骤：

步骤1：我们使用AlexNet对ILSVRC数据集进行预训练。ILSVRC数据集包含1000个类别的120万张训练图片，5万验证图片，15万测试图片，是很好的预训练数据集。

步骤2：从检测出的运动目标和误检区域以及视频背景中选取300个视频序列，每个视频序列等间隔截取6000张图片，其中正样本3000张，负样本3000张。3000张正样本中，2000张作为训练集，1000张作为测试集。3000张负样本中，2000张作为训练集，1000张作为测试集。其中，正样本为包含指定动作的图片，负样本为不包含指定动作的图片。用其中训练集对得到的预训练模型进行微调，得到训练模型。

步骤3：把收集到的图像归一化为同样大小224×224。

步骤4：把归一化后的结果送到卷积神经网络中训练，这里使用AlexNet的网络结构。训练时采用批量梯度下降(mini-batch)的方法。依据样本量选择合适的批尺寸(batch_size)参数，我们这里设置为50，学习率设置为0.0001。

步骤5：将归一化后的图像作为输入层输入到卷积层conv_1中，第一层输入数据为原始的224×224×3的图像，用11×11×3的卷积核进行卷积运算，步长是4。因此，会生成96个55×55的特征图。再经过relu激活单元的处理，输出尺寸仍为55×55×96。

步骤6：将conv_1的输出进入池化层pool_1中，池化运算的尺度为3×3，步长为2，则池化后图像的尺寸为27×27×96。然后经过归一化处理，输出尺寸仍为27×27×96。

步骤7：将pool_1输出的特征图输入到卷积层conv_2中，输入数据为27×27×96的特征图，用256个大小为5×5的卷积核进行运算，对特征图的行和列都填充2像素，得到256个27×27的特征图。再经过relu激活单元的处理，输出尺寸仍为27×27×256。

步骤8：将conv_2的输出进入池化层pool_2中，池化运算的尺度为3×3，步长为2，则池化后图像的尺寸为13×13×256。

步骤9：将pool_2输出的特征图输入到卷积层conv_3中，输入数据为13×13×96的特征图，用384个大小为3×3的卷积核进行运算，对特征图的行和列都填充1像素，得到384个13×13的特征图。再经过relu激活单元的处理，输出尺寸仍为13×13×384。

步骤10：将conv_3输出的特征图输入到卷积层conv_4中，输入数据为13×13×384的特征图，用384个大小为3×3的卷积核进行运算，对特征图的行和列都填充1像素，得到384个13×13的特征图。再经过relu激活单元的处理，输出尺寸仍为13×13×384。

步骤11：将conv_4输出的特征图输入到卷积层conv_5中，输入数据为13×13×384的特征图，用256个大小为3×3的卷积核进行运算，步长为2，对特征图的行和列都填充1像素，得到256个13×13的特征图。再经过relu激活单元的处理，输出尺寸仍为13×13×256。

步骤12：将conv_5的输出进入池化层pool_3中，池化运算的尺度为3×3，步长为2，则池化后图像的尺寸为6×6×256。

步骤13：将pool_3的输出进入全连接层fc_1中，fc_1层使用4096个神经元，对256个大小为6×6的特征图进行全连接。每个6×6×256尺寸的滤波器对本层的输入数据进行卷积运算生成一个运算结果，通过一个神经元输出这个运算结果。共有4096个6×6×256尺寸的滤波器对输入数据进行卷积运算，通过4096个神经元输出运算结果。这4096个运算结果通过relu激活函数生成4096个值，并通过drop运算后输出4096个本层的输出结果值。本层输出为一个4096维向量。

步骤14：将fc_1的输出进入全连接层fc_2中，fc_2使用1000个神经元，类似fc_1层，输出为一个1000维向量。这就是预测的动作类别的可能性。得到的可能性结果会通过标签进行对比误差，然后求解出残差，再通过链式求导法则，将残差通过求解偏导数逐步向上传递，并将权重进行更改，且会逐层调整权重和偏置，此为网络的优化。

S203：将所有所述样本图片划分为

S204：利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到

利用段落融合网络(SFN)将S202中获得的多帧单张图片的特征向量融合成段落特征，具体步骤如下：

将获得的单张图片的特征向量按每N个特征向量拼接成一个特征向量；对拼接后的特征向量施加池化(pooling)操作，融合N张图像信息，输出融合后的图像特征。利用S202中的例子具体说明本步骤中的操作，由于CNN网络结构为AlexNet，AlexNet输出单帧图像特征向量尺寸为1×1000,此处取m＝3，则连续3帧图像组成的特征向量尺寸为3×1000。然后，对这个组合成的特征向量进行池化操作，在此选择平均池化(average pooling)操作。池化运算的尺度为2×2，步长为1，则池化后图像的尺寸为2×1000。

S205：将所有所述段落融合特征传输至长短期记忆网络进行训练得到所述图像识别模型，以便利用所述图像识别模型进行图像识别操作；其中，所述长短期记忆网络为所述循环神经网络中的一种人工神经网络。

将S204中融合后的段落特征输入长短期记忆网络中，请参见图6，图6为长短期记忆网络LSTM的结构示意图。具体步骤如下：

步骤1：Xt-1是通过段落融合网络输出的第t-1个段落特征向量，将其输入到LSTM网络中，输出的分类结果为Ht-1。Xt是通过段落融合网络输出的第t个段落特征向量，将其输入到LSTM网络中，输出的分类结果为Ht。Xt是通过段落融合网络输出的第t个段落特征向量，将其输入到LSTM网络中，输出的分类结果为Ht。以时序t为参考，t-1为上一段落，t+1为下一段落。

步骤2：LSTM中的第一步是决定会从上一段落的人体动作信息状态即t-1段落LSTM的输出ht-1中保留车辆的什么信息。这个决定通过一个称为遗忘门(forget gate)完成。该门会读取上一段落的输出ht-1和这一段路的输入Xt，经过σ(sigmoid)函数输出一个0到1之间的数值。当σ函数输出为0时，不传送信息，当输出为1时，全部传送。

遗忘门的计算公式为：

f_t＝σ(W_f,[H_t-1,x_t]+b_f)

其中，W_f是网络学习参数，b_f是网络偏置，f_t是第t个时序的遗忘程度。

步骤3：第二步是决定什么样的新动作特征信息可以被存放在当前状态。当有新信息传入时，更新包括两个部分：第一，输入门(input gate)决定要更新的程度，正如上文中说到的“当σ函数输出为0时，不传送信息，当输出为1时，全部传送”。第二，tanh函数创建一个新的候选值向量c_t。

i_t＝σ(W_i,[H_t-1,x_t]+b_i)

c_t＝tanh(w_c,[H_t-1,x_t]+b_c)

W_i、w_c为当前网络的学习参数，b_i、b_c为当前网络偏置，i_t是现有信息的遗忘程度，c_t是现有信息的状态。

步骤4：更新旧的动作特征c_t-1，旧的状态乘上f_t，遗忘掉之前计划遗忘的动作特征信息，f_t为遗忘程度。将i_t乘上c_t，得到新的局部变量，用来表示更新动作特征信息的程度。再加上上一段落部分遗忘的动作特征信息，得到新的动作特征c_t'：

c_t'＝f_t*c_t-1+i_t*c_t

步骤5：最后通过一个σ函数来决定动作特征信息的哪些部分是需要输出的，即表示一个遗忘程度。将步骤4中动作特征信息状态通过tanh函数乘上当前遗忘程度o_t，输出表示不同动作的可能性，即最终动作分类结果。

o_t＝σ(w_o[H_t-1,x_t]+b_o)

H_t＝o_t*tanh(c_t)

w_o为当前网络学习参数，b_o为网络偏置。

通过上述操作，由于视频图像是连续的序列，上一段落与下一段落的图像在时序上有联系，基于已经得到的上一段落特征信息预测下一段落特征可以提高识别的准确度。

请参见图7，图7为本申请实施例所提供的一种图像识别的***的结构示意图；

该***可以包括：

特征提取模块100，用于当接收到模型训练指令时，根据所述模型训练指令对训练样本集执行图像特征提取操作得到M帧样本图片的特征向量；

划分模块200，用于将所有所述样本图片划分为

段落融合模块300，用于利用段落融合网络将每个所述样本图片组内的N帧样本图片的特征向量拼接为一个拼接特征向量得到

识别模块400，用于将所有所述段落融合特征传输至循环神经网络进行训练得到图像识别模型，以便利用所述图像识别模型进行图像识别操作。

进一步的，所述特征提取模块100为根据所述模型训练指令将所述训练样本集中的样本图像输入卷积神经网络进行所述图像特征提取操作得到多帧样本图片的所述特征向量的模块。

进一步的，识别模块包括具体为将所有所述段落融合特征传输至长短期记忆网络进行训练得到所述图像识别模型的模块；其中，所述长短期记忆网络为所述循环神经网络中的一种人工神经网络。

进一步的，还包括：

样本集构建模块，用于获取视频数据并将所述视频数据按照预设周期进行截图操作得到若干张样本图像，根据所有所述样本图像构建所述训练样本集。

进一步的，特征提取模块100，包括：

目标区域确定单元，用于根据所述模型训练指令利用三帧差分法提取所述训练样本集中每一帧样本图像的运动目标区域；

提取单元，用于对每一帧所述样本图像的运动目标区域进行图像特征提取操作得到多帧样本图片的所述特征向量。

进一步的，还包括：

特征向量提取模块，用于当接收到目标视频时，对所述目标视频进行截图操作得到多张待识别图像，对所述待识别图像执行图像特征提取操作得到待识别特征向量；

拼接模块将所述待识别特征向量输入所述段落融合网络得到待识别拼接特征向量，并对所有所述待识别拼接特征向量进行池化操作得到待识别段落特征；

识别模块，用于将所有所述待识别段落特征传输至所述图像识别模型得到图像识别结果。

由于***部分的实施例与方法部分的实施例相互对应，因此***部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种图像识别装置，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述图像识别装置还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。