CN108776822B

CN108776822B - 目标区域检测方法、装置、终端及存储介质

Info

Publication number: CN108776822B
Application number: CN201810650498.4A
Authority: CN
Inventors: 姜媚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2020-04-24
Anticipated expiration: 2038-06-22
Also published as: CN108776822A

Abstract

本发明实施例公开了一种目标区域检测方法、装置、终端及存储介质，属于计算机技术领域。该方法包括：确定多个样本区域以及分类结果；获取分类器，分类器包括依次排列的多个分类节点；根据多个样本区域以及多个样本区域的分类结果，对分类器中的第一个分类节点进行训练，第一个分类节点训练完成后继续对下一个分类节点进行训练，直至多个分类节点均训练完成；当确定当前跟踪的图像中不包括目标区域时，应用已训练完成的分类器，对当前跟踪的图像之后的第二图像中的至少一个区域进行分类，根据分类结果确定第二图像中的目标区域，无需对每帧图像均进行检测，减小了不必要的计算量。并且提高了分类器的准确性，进而提高了目标区域的准确性。

Description

目标区域检测方法、装置、终端及存储介质

技术领域

本发明实施例涉及计算机技术领域，特别涉及一种目标区域检测方法、装置、终端及存储介质。

背景技术

随着互联网的快速发展和视频社交的广泛兴起，互联网信息的主要传播类型从文字、图片逐渐演变成了视频，多种视频处理功能也相继出现，如视频滤镜、视频打标(tagging)等，通过这些视频处理功能可以对视频中的某些目标区域进行个性化处理，提升了趣味性。

相关技术中，在终端播放视频的过程中，用户可以在当前图像中手动确定目标区域，终端对当前图像中的目标区域进行编辑处理，如在目标区域添加贴纸或者对目标区域进行美化等。并且，终端还会以目标区域在当前图像中的位置为基准，从当前图像开始分别进行前向跟踪和后向跟踪，确定目标区域在当前图像之前和之后的每帧图像中的位置，从而对每帧图像中的目标区域进行相同的编辑处理，保证图像之间的一致性。

但是，如果终端拍摄视频的过程中的位置或姿态变化较大，会导致视频的某些图像中不包括目标区域，那么当跟踪至不包括目标区域的图像时，目标区域跟踪失败，在之后跟踪的图像中即使存在目标区域，也很难被重新检测出来。

发明内容

本发明实施例提供了一种目标区域检测方法、装置、终端及存储介质，可以解决相关技术存在的问题。所述技术方案如下：

一方面，提供了一种目标区域检测方法，所述方法包括：

根据用户在视频的第一图像中确定的目标区域，确定多个样本区域以及所述多个样本区域的分类结果，所述分类结果用于表示所述样本区域是否属于所述目标区域；

获取待训练的分类器，所述分类器包括按照先后顺序依次排列的多个分类节点；

根据所述多个样本区域以及所述多个样本区域的分类结果，对所述分类器中的第一个分类节点进行训练，所述第一个分类节点训练完成后继续对下一个分类节点进行训练，直至所述多个分类节点均训练完成；

在所述视频中除所述第一图像以外的其他图像中跟踪所述目标区域，当确定当前跟踪的图像中不包括所述目标区域时，应用已训练完成的所述分类器，对当前跟踪的图像之后的第二图像中的至少一个区域进行分类，根据分类结果确定所述第二图像中的所述目标区域。

另一方面，提供了一种目标区域检测装置，所述装置包括：

样本确定模块，用于根据用户在视频的第一图像中确定的目标区域，确定多个样本区域以及所述多个样本区域的分类结果，所述分类结果用于表示所述样本区域是否属于所述目标区域；

获取模块，用于获取待训练的分类器，所述分类器包括按照先后顺序依次排列的多个分类节点；

训练模块，用于根据所述多个样本区域以及所述多个样本区域的分类结果，对所述分类器中的第一个分类节点进行训练，所述第一个分类节点训练完成后继续对下一个分类节点进行训练，直至所述多个分类节点均训练完成；

检测模块，用于在所述视频中除所述第一图像以外的其他图像中跟踪所述目标区域，当确定当前跟踪的图像中不包括所述目标区域时，应用已训练完成的所述分类器，对当前跟踪的图像之后的第二图像中的至少一个区域进行分类，根据分类结果确定所述第二图像中的所述目标区域。

再一方面，提供了一种用于检测目标区域的终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并具有以实现所述的目标区域检测方法中所具有的操作。

再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并具有以实现所述的目标区域检测方法中所具有的操作。

本发明实施例提供的方法、装置、终端及存储介质，根据用户在视频的第一图像中确定的目标区域，确定多个样本区域以及多个样本区域的分类结果，分类结果用于表示样本区域是否属于目标区域，获取待训练的分类器，分类器包括按照先后顺序依次排列的多个分类节点，根据多个样本区域以及多个样本区域的分类结果，对分类器中的第一个分类节点进行训练，第一个分类节点训练完成后继续对下一个分类节点进行训练，直至多个分类节点均训练完成，在视频中除第一图像以外的其他图像中跟踪目标区域，当确定当前跟踪的图像中不包括目标区域时，应用已训练完成的分类器，对当前跟踪的图像之后的第二图像中的至少一个区域进行分类，根据分类结果确定第二图像中的目标区域，无需对每帧图像均进行检测，减小了不必要的计算量。并且先采用动态规划的训练方式，在分类器中上一个分类节点训练完成后才会训练下一个分类节点，提高了分类器的准确性，在训练好分类器后当目标区域跟踪失败时，应用已训练完成的分类器进行分类，重新检测出目标区域，能够提高目标区域的准确性。

并且，在目标区域发生较大形变时，能够根据形变后的目标区域对分类器进行更新，及时学习到新的目标区域，提高了分类器的鲁棒性和可靠性，在终端快速抖动、旋转、目标被遮挡等情况下能够及时准确地检测出目标区域，检测效果理想。

并且，采用线性结构的分类器，可以在保证分类节点数目固定的情况下，最大化地细分分类空间，提高分类准确率。

并且，将图像视觉信息与传感器数据相结合，通过配置的传感器提供的位姿信息，估算目标区域的位置，在估算的目标区域内进行跟踪或检测，而对估算目标区域以外的其他区域无需进行跟踪或检测，能够避免由于传感器误差而导致的跟踪失败，而且还能减小不必要的计算量，提高运算速度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是相关技术提供的一种TLD算法的示意图；

图2是本发明实施例提供的一种目标区域检测方法的示意图；

图3是本发明实施例提供的一种分类器的结构示意图；

图4是本发明实施例提供的一种图像跟踪示意图；

图5是本发明实施例提供的一种特征点示意图；

图6是本发明实施例提供的另一种特征点示意图；

图7是本发明实施例提供的一种坐标系示意图；

图8是本发明实施例提供的一种级联分类器的示意图；

图9是本发明实施例提供的一种操作流程示意图；

图10是本发明实施例提供的一种跟踪速度示意图；

图11是本发明实施例提供的一种目标区域检测装置的结构示意图；

图12是本发明实施例提供的一种终端的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细说明之前，首先对TLD(Tracking-Learning-Detection，跟踪-学习-检测)算法进行如下介绍：

TLD算法用于对视频中的单个物体进行长时间跟踪，参见图1，TLD算法包括三个模块：跟踪模块、检测模块和学习模块。

一、跟踪模块：

跟踪模块用于跟踪任两帧相邻图像之间的运动变化情况，根据目标区域在上一帧图像中的位置以及两帧图像之间的运动变化情况，在下一帧图像中确定目标区域的位置。跟踪模块只有在下一帧图像中存在目标区域时有效。

并且，跟踪模块还会将下一帧图像中跟踪到的目标区域作为正样本区域，提供给学习模块，由学习模块将正样本区域用于训练分类器。

二、检测模块：

检测模块用于对图像进行全面地扫描，并应用分类器对扫描到的区域进行分类，找出与目标区域相似的区域，产生正样本区域和负样本区域，提供给学习模块。

当跟踪模块由于跟踪到的图像中不存在目标区域而导致跟踪失败时，检测模块可以将找出的目标区域提供给跟踪模块，由跟踪模块继续在之后的图像中进行跟踪。

三、学习模块：

学习模块用于根据跟踪模块和检测模块提供的样本区域，对检测模块的分类器进行迭代训练，提高分类器的分类准确率。

相关技术中，在视频的多帧图像中跟踪目标区域时，当跟踪至不包括目标区域的图像时，会跟踪失败，此时如果之后跟踪的图像存在目标区域，需要在图像中检测出目标区域，才能继续跟踪。但是在检测过程中需要应用分类器，该分类器根据之前跟踪到的目标区域进行训练得到，当跟踪失败时分类器还未完全训练完成，准确性较差，导致目标区域很难准确地检测出来。

本发明实施例提供了一种目标区域检测方法，能够在用户在第一图像中确定目标区域后，根据第一图像中的多个样本区域以及多个样本区域的分类结果训练分类器。那么即使跟踪失败，也可以应用已经训练完成的分类器，准确地检测出目标区域。

本发明实施例可以应用于对视频进行编辑处理的场景中，当用户在视频的某一图像中手动确定目标区域时，终端可以对该目标区域进行编辑处理，并且还会在视频的其他图像中检测出目标区域，对其他图像中的目标区域进行相同地编辑处理。

例如，当用户拍摄一段视频并选中头部区域时，终端可以为视频中每帧图像上的头部区域添加贴纸，随着头部区域的位置变化，贴纸的位置也会相应发生变化。

图2是本发明实施例提供的一种目标区域检测方法的示意图。本发明实施例的执行主体为终端，参见图2，该方法包括：

201、终端获取用户在视频的第一图像中确定的目标区域。

其中，该终端可以为手机、智能相机等设备，该终端配置有相机，可以通过相机拍摄图像或视频。该视频中包括多帧图像，第一图像为视频中的任一图像，可以为视频中的第一帧图像，或者也可以为用户触发编辑指令时视频播放到的图像等。

例如，在终端播放视频的过程中，当检测到暂停播放指令时，显示当前播放到的第一图像，用户在第一图像中可以选中目标区域，表示要对目标区域进行编辑处理，终端检测到选中目标区域的操作时，获取该目标区域。其中，选中目标区域的操作可以为滑动操作或者点击操作等，目标区域可以根据滑动操作的起始位置和终止位置确定，或者根据点击操作的点击区域确定。

202、终端根据第一图像中的目标区域，确定多个样本区域以及多个样本区域的分类结果。

其中，每个样本区域具有一个分类结果，该分类结果用于表示样本区域是否属于目标区域，如果样本区域属于目标区域，表示该样本区域为正样本区域，如果样本区域不属于目标区域，表示该样本区域为负样本区域。

在一种可能实现方式中，终端对第一图像进行区域检测，得到多个样本区域，根据每个样本区域和该目标区域在第一图像中的位置，确定每个样本区域与目标区域之间的重叠率，根据多个样本区域与目标区域之间的重叠率，确定多个样本区域的分类结果。

可选地，在对第一图像进行区域检测时，可以采用尺寸固定的窗口对第一图像进行遍历，得到相应尺寸的多个样本区域。其中，该窗口的尺寸可以小于目标区域的尺寸，以便选取到多个属于目标区域的样本区域，且该窗口的尺寸可以根据目标区域的尺寸以及对精确度的需求确定。

可选地，对于每个样本区域，当样本区域与目标区域之间的重叠率大于预设数值时，确定该样本区域属于目标区域，而当样本区域与目标区域之间的重叠率不大于预设数值时，确定该样本区域不属于目标区域。该预设数值可以为0或者50％等，具体根据对精确度的需求确定。

当然，也可以采用其他方式确定每个样本区域的分类结果，例如将样本区域与目标区域进行对比，计算样本区域与目标区域的相似度，根据该相似度确定样本区域的分类结果等。

203、终端获取待训练的分类器，分类器包括按照先后顺序依次排列的多个分类节点。

本发明实施例中，为了保证分类准确率，不会在跟踪目标区域的过程中根据跟踪到的目标区域训练分类器，而是会在跟踪目标区域之前根据第一图像中的样本区域将分类器训练完成，这样可以保证在跟踪目标区域失败时，可以应用更为准确的分类器来检测目标区域。

并且，终端采用的分类器包括按照先后顺序依次排列的多个分类节点，该多个分类节点构成线性结构，每个分类节点均可用于区域分类。该分类器的结构可以如图3所示。

204、终端根据多个样本区域以及多个样本区域的分类结果，对分类器中的第一个分类节点进行训练，第一个分类节点训练完成后继续对下一个分类节点进行训练，直至多个分类节点均训练完成。

本发明实施例提供了一种动态规划的训练方法，从仅包含一个分类节点的分类器开始，对第一个分类节点进行训练，当第一个分类节点训练完成时，固定第一个分类节点，对第二个分类节点进行训练，以此类推，直至分类器中的所有分类节点均训练完成，这样可以保证每次训练时，之前训练完成的分类器均能达到最优，从而能够得到最优的分类器，提高分类器的准确率。

在一种可能实现方式中，终端先初始化多个分类节点的节点参数，根据多个样本区域以及多个样本区域的分类结果，对分类器中的第一个分类节点的节点参数进行训练，得到第一个分类节点训练后的节点参数，继续根据多个样本区域、多个样本区域的分类结果以及上一个分类节点训练后的节点参数，对下一个分类节点的节点参数进行训练，得到下一个分类节点训练后的节点参数，直至多个分类节点均训练完成，此时多个分类节点的节点参数均已训练完成，可以采用多个分类节点进行分类。

可选地，分类器中的任一分类节点输出第一分类数值时，表示本次待分类的区域属于目标区域，任一分类节点输出第二分类数值时，表示本次待分类的区域不属于目标区域。其中，第一分类数值与第二分类数值不同，例如第一分类数值为1时第二分类数值为0，或者第一分类数值为0时第二分类数值为1。

可选地，每个分类节点的节点参数可以包括两个像素位置i和j以及阈值x，i和j为正整数。当某一图像的区域输入到某一分类节点中，可以根据像素位置i上的灰度与像素位置j上的灰度之间的差值是否大于阈值x来对区域进行分类，当该差值不大于阈值x时确定该分类节点的分类结果为第一分类数值，当该差值大于阈值x时确定该分类节点的分类结果为第二分类数值。

参见图3，分类器中包括n个分类节点，可以输出n个分类数值，组合后构成一个二进制数值，转换为十进制数值后的取值范围为0-2^n-1，每个分类节点具有0和1两个分类空间，则分类器具有2ⁿ个分类空间，能够在保证分类节点个数固定的情况下，最大化地细分分类空间，提高分类准确率。其中，n为正整数，如可以为6或者10等。

205、终端从多个样本区域中选取属于目标区域的多个正样本区域，根据分类器对该多个正样本区域进行分类得到的分类结果，确定目标分类结果。

为了从多个分类空间中找出目标区域所在的分类空间，终端可以获取多个正样本区域，对于每个正样本区域，终端应用多个分类节点，分别对正样本区域进行分类，得到多个分类节点分别输出的分类数值，按照多个分类节点的先后顺序，将多个分类节点分别输出的分类数值组合构成二进制数值，将二进制数值对应的十进制数值作为正样本区域的分类结果，将多个正样本区域中出现次数最多的分类结果确定为目标分类结果。那么，只有当某一区域的分类结果等于目标分类结果时，才能确定该区域属于目标区域，而当某一区域的分类结果不等于目标分类结果时，确定该区域不属于目标区域。

例如，某一正样本区域输入至分类器后，分类节点1至分类节点n输出的分类数值组合构成的二进制数值为100110，对应的十进制数值为38。

206、终端在视频中除第一图像以外的其他图像中跟踪目标区域。

参见图4，针对视频中在时间上位于第一图像之前的图像，终端可以进行前向跟踪，确定这些图像中的目标区域，而针对视频中在时间上位于第一图像之后的图像，终端可以进行后向跟踪，确定这些图像中的目标区域。

具体地，终端对第一图像中的目标区域进行检测，得到多个特征点，通过在任两帧相邻图像中跟踪多个特征点，确定多个特征点在其他图像中的位置，根据多个特征点在其他图像中的位置，确定其他图像中的目标区域。

其中提取特征点时，参见图5，终端可以采用均匀网格取点的方式，在第一图像中设置多个均匀相等的网格，在每个网格中选取一个点作为特征点，从而能够快速地选取到固定数量的特征点。

或者，考虑到选取的特征点需要有效地反映图像的特征，可以采用FAST(Featuresfrom Accelerated Segment Test，加速分割测试特征)、Harris(一种角点检测算法)、SURF(Speed Up Robust Feature，加速稳健特征)、BRISK(Binary Robust Invariant ScalableKeypoints，二进制鲁棒不变可扩展的关键点)等算法从第一图像中提取特征点，提取的特征点如6所示，可以反映目标区域的图像特征。

在一种可能实现方式中，终端可以从第一图像开始，在下一帧图像中对该多个特征点进行跟踪，查找到下一帧图像中的匹配特征点，从而得到多个特征点的运动信息，该运动信息即可表示下一帧图像相对于第一图像的位置变化情况，则根据目标区域在第一图像中的位置以及多个特征点的运动信息进行迭代计算，可以确定目标区域在下一帧图像中的位置，从而跟踪到了目标区域。对于之后的图像也会采用类似的跟踪方式，根据目标区域在上一帧图像中的位置以及多个特征点的运动信息进行迭代计算，确定目标区域在下一帧图像中的位置。

其中，终端可以采用光流匹配算法获取特征点的运动信息，或者采用其他算法获取特征点的运动信息。

其中，终端获取到多个特征点的运动信息后，可以根据运动信息确定该多个特征点在上一帧图像中的位置信息以及在下一帧图像中的位置信息，从而确定下一帧图像相对于下一帧图像的旋转平移矩阵，该旋转平移矩阵中的位移参数即为下一帧图像相对于上一帧图像的位置变化信息，根据该位移参数可以确定目标区域在下一帧图像中的位置。

在一种可能实现方式中，对于实时拍摄的视频，终端在拍摄视频的过程中可以通过配置的传感器获取相机在拍摄每帧图像时的位姿信息，该位姿信息可以表示相机当前的位置和姿态，该传感器可以包括加速度传感器和陀螺仪传感器等。根据任两帧相邻图像之间的位姿信息的变化量以及上一帧图像中目标区域的位置，得到在下一帧图像中的估算目标区域。则在估算目标区域内进行特征点跟踪，确定目标区域在下一帧图像中的位置，而无需对估算目标区域以外的区域进行特征点跟踪，能够减小不必要的计算量，提高跟踪速度。

需要说明的是，如果拍摄视频时相机的位置或姿态变化过大，可能会导致某些图像中不包括目标区域，此时可以执行下述步骤207在之后的图像中重新检测目标区域。

或者，如果拍摄视频时相机的位置或姿态等参数变化过大，会导致某些图像中的目标区域发生了较大的形变，此时根据原先提取的特征点很难跟踪到目标区域。为了保证这种情况下也可以检测到目标区域，在一种可能实现方式中，以跟踪至第三图像为例，终端可以在跟踪到第三图像中的目标区域时，获取第三图像的跟踪误差，当跟踪误差大于第一预设阈值时，表示目标区域发生了较大形变，则将第三图像中跟踪到的目标区域作为样本区域收集起来，根据该样本区域可以对分类器进行更新，得到更新后的分类器。

其中，该跟踪误差可以为FB(Forward-Backward Error，前向后向)误差、NCC(Normalized Cross Correlation，归一化互相关)误差或SSD(Sum-of-SquaredDifferences，差值平方和)误差等。

在另一种可能实现方式中，终端可以设置第一预设阈值和第二预设阈值，第二预设阈值大于第一预设阈值，当第三图像的跟踪误差大于第一预设阈值且不大于第二预设阈值时，将第三图像中跟踪到的目标区域作为样本区域收集起来，根据该样本区域可以对分类器进行更新，得到更新后的分类器。而当跟踪误差大于第二预设阈值时，表示跟踪失败，当前跟踪的区域误差太大，不能作为目标区域，因此确定第三图像中不包括目标区域，此时仍需要执行下述步骤207在之后的图像中重新检测目标区域。

除目标区域发生较大形变的情况之外，终端也可以设置预设时长或者预设数量，每隔预设时长或者每隔预设数量的图像后，将当前跟踪到的目标区域作为样本区域，根据该样本区域对分类器进行更新，得到更新后的分类器，这样可以在目标区域未发生形变但周围环境发生变化时及时学习到该变化，保证应用更新后的分类器可以及时准确地检测出目标区域。

207、当确定当前跟踪的图像中不包括目标区域时，终端应用已训练完成的分类器，对当前跟踪的图像之后的第二图像中的至少一个区域进行分类，根据分类结果确定第二图像中的目标区域。

如果从第一图像开始跟踪，当到达当前跟踪的某一图像时无法跟踪到目标区域，则可以确定当前跟踪的图像中不包括目标区域，跟踪失败。此时，需要在当前跟踪的图像之后的图像中重新检测目标区域，才能继续进行跟踪。

其中，在进行前向跟踪时，当前跟踪的图像之后的图像是指时间上位于当前图像之前的图像，在进行后向跟踪时，当前跟踪的图像之后的图像是指时间上位于当前图像之后的图像。

以当前跟踪的图像之后的第二图像为例，终端可以对第二图像进行区域检测，得到第二图像中的至少一个区域，将该至少一个区域输入至已经训练完成的分类器中，应用分类器对至少一个区域进行分类，得到分类结果，也即是确定该至少一个区域中哪些区域属于目标区域，哪些区域不属于目标区域，从而根据分类结果确定目标区域在第二图像中的位置，实现目标区域的重新定位。

在一种可能实现方式中，对于实时拍摄的视频，终端在拍摄视频的过程中可以通过配置的传感器获取相机在拍摄每帧图像时的位姿信息，该位姿信息可以表示相机当前的位置和姿态，该传感器可以包括加速度传感器和陀螺仪传感器等。根据任两帧相邻图像之间的位姿信息的变化量以及上一帧图像中目标区域的位置，得到在下一帧图像中的估算目标区域。则对估算目标区域进行区域检测，得到至少一个区域，应用分类器进行分类后确定目标区域的准确位置，而对估算目标区域以外的其他区域无需进行检测，能够减小不必要的计算量，提高检测速度。

终端的坐标系可以如图7所示，通过传感器可以获取终端在拍摄任两帧相邻图像之间的过程中三个方向上的位移量，可以根据目标区域在上一帧图像的位置X_t，采用下述公式估算出目标区域在下一帧图像的位置X_t+1：

X_t+1＝K*R*K^-1X_t；

其中，

x和y表示像素点的二维坐标，X表示像素点的齐次坐标，K表示相机的参数矩阵，

fx、fy、cx和cy表示相机的参数，R表示两帧图像之间的旋转平移矩阵，可以根据终端在拍摄任两帧相邻图像之间的过程中三个方向上的位移量确定。

基于步骤204中的可能实现方式，对于第二图像中的每个区域，终端可以应用多个分类节点，分别对该区域进行分类，得到多个分类节点分别输出的分类数值，按照多个分类节点的先后顺序，将多个分类节点分别输出的分类数值组合构成二进制数值，将二进制数值对应的十进制数值作为该区域的分类结果，并判断该区域的分类结果是否等于目标分类结果，当分类结果等于目标分类结果时，确定该区域属于目标区域，当分类结果不等于目标分类结果时，确定该区域不属于目标区域。采用上述方式可以确定第二图像中的每个区域是否属于目标区域，进而确定目标区域在第二图像中的位置。

在一种可能实现方式中，采用上述分类器可以对第二图像中的区域进行筛选，得到多个可能属于目标区域的区域，之后还可以应用最近邻分类器对剩余的区域继续进行筛选，也即是，计算每个区域与目标区域之间的相似度，当相似度大于预设相似度时，确定该区域属于目标区域，当相似度不大于预设相似度时，确定该区域不属于目标区域，则将该区域过滤。筛选完成后可以确定属于目标区域的区域，进而确定目标区域在第二图像中的位置。

在另一种可能实现方式中，采用上述分类器可以对第二图像中的区域进行筛选，得到多个可能属于目标区域的区域。此时可以将目标区域中每个特征点的描述子组合构成目标区域的特征，并应用特征匹配分类器，针对剩余的每个区域提取特征点，根据该区域中每个特征点的描述子组合构成该区域的特征，计算该区域的特征与目标区域的特征之间的距离，当该距离小于预设距离时，确定该区域属于目标区域，当该距离不小于预设距离时，确定该区域不属于目标区域，则将该区域过滤。其中，该距离可以为欧式距离或汉明距离等。

在另一种可能实现方式中，可以将步骤207中线性结构的分类器、最近邻分类器和特征匹配分类器组合构成如图8所示的级联分类器，应用级联分类器进行多次筛选后检测出第二图像中的目标区域。参见图8，将区域1、区域2和区域3输入到级联分类器中，线性结构的分类器确定区域1不属于目标区域，区域2和3属于目标区域，则将区域1过滤，将区域2和3输入到最近邻分类器中，最近邻分类器确定区域2不属于目标区域，区域3属于目标区域，则将区域2过滤，将区域3输入到特征点匹配分类器中，特征点匹配分类器确定区域3属于目标区域，则输出的目标区域即为区域3。

对于第二图像之后的图像可以继续进行跟踪，也即是先对第二图像中的目标区域提取多个特征点，采用与上述步骤206类似的方式对该多个特征点进行跟踪，找到目标区域。

在另一实施例中，当第二图像中的每个区域均不属于目标区域时，表示第二图像中也不包括目标区域，此时可以继续对之后的图像进行检测，直至在某一图像中找到目标区域。

本发明实施例中，在视频的任一帧图像中跟踪或者检测到目标区域时，可以对目标区域进行编辑处理，如对目标区域进行缩小或放大，在目标区域中添加贴纸或者发光特效、对目标区域进行马赛克处理等，具体的处理方式可以由终端默认设置或者由用户设置。通过对目标区域进行编辑处理，可以帮助用户生成具有个人特色、更加丰富生动的视频，增强了娱乐性和趣味性。

本发明实施例提供的方法，根据用户在视频的第一图像中确定的目标区域，确定多个样本区域以及多个样本区域的分类结果，分类结果用于表示样本区域是否属于目标区域，获取待训练的分类器，分类器包括按照先后顺序依次排列的多个分类节点，根据多个样本区域以及多个样本区域的分类结果，对分类器中的第一个分类节点进行训练，第一个分类节点训练完成后继续对下一个分类节点进行训练，直至多个分类节点均训练完成，在视频中除第一图像以外的其他图像中跟踪目标区域，当确定当前跟踪的图像中不包括目标区域时，应用已训练完成的分类器，对当前跟踪的图像之后的第二图像中的至少一个区域进行分类，根据分类结果确定第二图像中的目标区域，无需对每帧图像均进行检测，减小了不必要的计算量。并且先采用动态规划的训练方式，在分类器中上一个分类节点训练完成后才会训练下一个分类节点，提高了分类器的准确性，在训练好分类器后当目标区域跟踪失败时，应用已训练完成的分类器进行分类，重新检测出目标区域，能够提高目标区域的准确性。

并且，由于仅依靠传感器数据跟踪目标区域时，一旦终端出现快速剧烈的抖动，会导致传感器数据波动较大，目标区域的位置出现偏差，造成跟踪失败。而本发明实施例将图像视觉信息与传感器数据相结合，通过配置的传感器提供的位姿信息，估算目标区域的位置，在估算的目标区域内进行跟踪或检测，而对估算目标区域以外的其他区域无需进行跟踪或检测，能够避免由于传感器误差而导致的跟踪失败，而且还能减小不必要的计算量，提高运算速度。

本发明实施例的操作流程图可以如图9所示，终端可以包括跟踪模块、检测模块和学习模块，跟踪模块用于执行上述步骤206，并将跟踪到的目标区域作为正样本区域提供给学习模块，检测模块用于执行上述步骤201-205获取训练完成的分类器，并在跟踪模块跟踪失败时，执行步骤207重新检测目标区域，再由跟踪模块继续进行跟踪。并且，当跟踪到的目标区域发生较大形变时，可以通过学习模块学习该目标区域，对分类器进行更新。

传统的TLD算法中，将跟踪模块、检测模块和学习模块相互结合，对于每一帧图像，都会通过跟踪模块和检测模块的结果进行融合，确定目标区域的位置，将确定的目标区域作为正样本区域，通过学习模块对分类器进行训练。提升检测模块的鲁棒性。由于传统的TLD算法为单目标的跟踪设计的，每一帧图像都需要进行三部分的处理，计算量较大，处理速度较慢。

而本发明实施例提供的方法中，无需对每帧图像都进行检测和学习，只有在跟踪失败时才会进行检测，在目标区域发生较大形变时进行学习，从而避免了不必要的计算量。

而且，由于检测模块应用的分类器在跟踪之前已经采用动态规划的方式训练完成，提高了分类器的准确率，在跟踪失败时进行检测也可以保证检测出来的目标区域的准确率。

由于传统的TLD算法中采用二叉树形结构的分类器，假设分类器总共包括15个分类节点，需要进行4层分类，最后确定的分类区间只有8个，划分的分类区间减小，导致分类准确率不够高。而本发明实施例中采用线性结构的分类器，分类器中的n个分类节点进行分类，分类器具有2ⁿ个分类空间，能够在保证分类节点个数固定的情况下，最大化地细分分类空间，提高分类准确率。

针对3个测试视频，本发明实施例采用的方法与传统TLD算法的跟踪误差可以如下表1所示，从表1中可以看出本发明实施例显著减小了跟踪误差，准确率更高。

表1

	测试视频1	测试视频2	测试视频3
				本发明	5.6	10.11	1.24
传统TLD	7.1	15.3	1.33

本发明实施例采用的方法与CT(Compressive Tracking，压缩跟踪)算法、传统TLD算法以及ECO(Efficient Convolution Operators for Tracking，用于跟踪的高效卷积算子)算法的跟踪速度可以如图10所示，从图10中可以看出本发明实施例显著提高了跟踪速度，基本上能够达到实时跟踪。

图11是本发明实施例提供的一种目标区域检测装置的结构示意图。参见图11，该装置包括：

样本确定模块1101，用于执行上述实施例中确定多个样本区域以及多个样本区域的分类结果的步骤；

获取模块1102，用于执行上述实施例中获取待训练的分类器的步骤；

训练模块1103，用于执行上述实施例中根据多个样本区域以及多个样本区域的分类结果，对分类器中的第一个分类节点进行训练，第一个分类节点训练完成后继续对下一个分类节点进行训练，直至多个分类节点均训练完成的步骤；

检测模块1104，用于执行上述实施例中在视频中除第一图像以外的其他图像中跟踪目标区域，当确定当前跟踪的图像中不包括目标区域时，应用已训练完成的分类器，对当前跟踪的图像之后的第二图像中的至少一个区域进行分类，根据分类结果确定第二图像中的目标区域的步骤。

可选地，样本确定模块1101，包括：

区域检测单元，用于执行上述实施例中对第一图像进行区域检测，得到多个样本区域的步骤；

确定单元，用于执行上述实施例中根据多个样本区域与目标区域之间的重叠率，确定多个样本区域的分类结果的步骤。

可选地，训练模块1103，包括：

初始化单元，用于执行上述实施例中初始化多个分类节点的节点参数的步骤；

训练单元，用于执行上述实施例中根据多个样本区域以及多个样本区域的分类结果，对分类器中的第一个分类节点的节点参数进行训练，得到第一个分类节点训练后的节点参数的步骤；

训练单元，还用于执行上述实施例中继续根据多个样本区域、多个样本区域的分类结果以及上一个分类节点训练后的节点参数，对下一个分类节点的节点参数进行训练，得到下一个分类节点训练后的节点参数，直至多个分类节点均训练完成的步骤。

可选地，分类器中的任一分类节点输出第一分类数值时，表示本次待分类的区域属于目标区域，任一分类节点输出第二分类数值时，表示本次待分类的区域不属于目标区域；

装置还包括：

选取模块，用于执行上述实施例中从多个样本区域中选取属于目标区域的多个正样本区域的步骤；

分类模块，用于执行上述实施例中对于每个正样本区域，应用多个分类节点，分别对正样本区域进行分类，得到多个分类节点分别输出的分类数值的步骤；

组合模块，用于执行上述实施例中按照多个分类节点的先后顺序，将多个分类节点分别输出的分类数值组合构成二进制数值，将二进制数值对应的十进制数值作为正样本区域的分类结果的步骤；

目标确定模块，用于执行上述实施例中将多个正样本区域中出现次数最多的分类结果确定为目标分类结果的步骤。

可选地，装置还包括：

误差获取模块，用于执行上述实施例中在视频中除第一图像以外的第三图像中跟踪目标区域时，获取跟踪误差的步骤；

样本获取模块，用于执行上述实施例中当跟踪误差大于第一预设阈值时，将第三图像中跟踪到的目标区域作为样本区域的步骤；

更新模块，用于执行上述实施例中根据样本区域对分类器进行更新，得到更新后的分类器的步骤。

可选地，检测模块1104，用于执行上述实施例中对于第二图像中的每个区域，应用多个分类节点，分别对区域进行分类，得到多个分类节点分别输出的分类数值；按照多个分类节点的先后顺序，将多个分类节点分别输出的分类数值组合构成二进制数值，将二进制数值对应的十进制数值作为区域的分类结果；当分类结果等于目标分类结果时，确定区域属于目标区域的步骤。

可选地，检测模块1104，用于执行上述实施例中对第一图像中的目标区域进行检测，得到多个特征点；通过在任两帧相邻图像中跟踪多个特征点，确定多个特征点在其他图像中的位置；根据多个特征点在其他图像中的位置，确定其他图像中的目标区域的步骤。

可选地，装置还包括：

样本收集模块，用于执行上述实施例中当跟踪误差大于第一预设阈值时，将第三图像中跟踪到的目标区域作为样本区域的步骤；

可选地，样本收集模块，还用于执行上述实施例中当跟踪误差大于第一预设阈值且不大于第二预设阈值时，将第三图像中跟踪到的目标区域作为样本区域的步骤，第二预设阈值大于第一预设阈值；

装置还包括：确定模块，用于执行上述实施例中当跟踪误差大于第二预设阈值时，确定第三图像中不包括目标区域的步骤。

需要说明的是：上述实施例提供的目标区域检测装置在检测目标区域时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的目标区域检测装置与目标区域检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图12示出了本发明一个示例性实施例提供的终端1200的结构框图。该终端1200可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备，或其他任意智能终端。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、5核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1201所具有以实现本申请中方法实施例提供的目标区域检测方法。

在一些实施例中，终端1200还可选包括有：***设备接口1203和至少一个***设备。处理器1201、存储器1202和***设备接口1203之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1203相连。具体地，***设备包括：射频电路1204、触摸显示屏1205、摄像头1206、音频电路1207、定位组件1208和电源1209中的至少一种。

***设备接口1203可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和***设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和***设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及12G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1204还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1205用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有拍摄在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1205可以为一个，设置终端1200的前面板；在另一些实施例中，显示屏1205可以为至少两个，分别设置在终端1200的不同表面或呈折叠设计；在再一些实施例中，显示屏1205可以是柔性显示屏，设置在终端1200的弯曲表面上或折叠面上。甚至，显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。显示屏1205可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1206用于拍摄图像或视频。可选地，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1207可以包括麦克风和扬声器。麦克风用于拍摄用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声拍摄或降噪的目的，麦克风可以为多个，分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向拍摄型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可以包括耳机插孔。

定位组件1208用于定位终端1200的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1208可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源1209用于为终端1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。

加速度传感器1211可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1211可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211拍摄的重力加速度信号，控制触摸显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还可以用于游戏或者用户的运动数据的拍摄。

陀螺仪传感器1212可以检测终端1200的机体方向及转动角度，陀螺仪传感器1212可以与加速度传感器1211协同拍摄用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1212拍摄的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1213可以设置在终端1200的侧边框和/或触摸显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时，可以检测用户对终端1200的握持信号，由处理器1201根据压力传感器1213拍摄的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在触摸显示屏1205的下层时，由处理器1201根据用户对触摸显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1214用于拍摄用户的指纹，由处理器1201根据指纹传感器1214拍摄到的指纹识别用户的身份，或者，由指纹传感器1214根据拍摄到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1201授权该用户具有相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1214可以被设置终端1200的正面、背面或侧面。当终端1200上设置有物理按键或厂商Logo时，指纹传感器1214可以与物理按键或厂商标志集成在一起。

光学传感器1215用于拍摄环境光强度。在一个实施例中，处理器1201可以根据光学传感器1215拍摄的环境光强度，控制触摸显示屏1205的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1205的显示亮度；当环境光强度较低时，调低触摸显示屏1205的显示亮度。在另一个实施例中，处理器1201还可以根据光学传感器1215拍摄的环境光强度，动态调整摄像头组件1206的拍摄参数。

接近传感器1216，也称距离传感器，通常设置在终端1200的前面板。接近传感器1216用于拍摄用户与终端1200的正面之间的距离。在一个实施例中，当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变小时，由处理器1201控制触摸显示屏1205从亮屏状态切换为息屏状态；当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变大时，由处理器1201控制触摸显示屏1205从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本发明实施例还提供了一种用于检测目标区域的终端，该终端包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并具有以实现上述实施例的目标区域检测方法中所具有的操作。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并具有以实现上述实施例的目标区域检测方法中所具有的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明实施例的较佳实施例，并不用以限制本发明实施例，凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标区域检测方法，其特征在于，所述方法包括：

获取待训练的分类器，所述分类器包括按照先后顺序依次排列的多个分类节点，所述多个分类节点构成线性结构，每个分类节点均可用于区域分类；

在所述视频中除所述第一图像以外的其他图像中跟踪所述目标区域，当确定当前跟踪的图像中不包括所述目标区域时，应用已训练完成的所述分类器，对所述当前跟踪的图像之后的第二图像中的至少一个区域进行分类，根据分类结果确定所述第二图像中的所述目标区域；

其中，跟踪所述目标区域的方式为：获取当前跟踪的图像的第一位姿信息和所述当前跟踪的图像的上一帧图像的第二位姿信息，根据所述第一位姿信息和所述第二位姿信息之间的变化量以及所述上一帧图像中所述目标区域的位置，确定在所述当前跟踪的图像中的估算目标区域，根据所述估算目标区域，确定所述当前跟踪的图像中所述目标区域的位置，位姿信息用于表示拍摄图像时拍摄设备的位置和姿态。

2.根据权利要求1所述的方法，其特征在于，所述根据用户在视频的第一图像中确定的目标区域，确定多个样本区域以及所述多个样本区域的分类结果，包括：

对所述第一图像进行区域检测，得到多个样本区域；

根据所述多个样本区域与所述目标区域之间的重叠率，确定所述多个样本区域的分类结果。

3.根据权利要求1所述的方法，其特征在于，所述根据所述多个样本区域以及所述多个样本区域的分类结果，对所述分类器中的第一个分类节点进行训练，所述第一个分类节点训练完成后继续对下一个分类节点进行训练，直至所述多个分类节点均训练完成，包括：

初始化所述多个分类节点的节点参数；

根据所述多个样本区域以及所述多个样本区域的分类结果，对所述分类器中的第一个分类节点的节点参数进行训练，得到所述第一个分类节点训练后的节点参数；

继续根据所述多个样本区域、所述多个样本区域的分类结果以及上一个分类节点训练后的节点参数，对下一个分类节点的节点参数进行训练，得到所述下一个分类节点训练后的节点参数，直至所述多个分类节点均训练完成。

4.根据权利要求3所述的方法，其特征在于，所述分类器中的任一分类节点输出第一分类数值时，表示本次待分类的区域属于所述目标区域，所述任一分类节点输出第二分类数值时，表示本次待分类的区域不属于所述目标区域；

所述多个分类节点均训练完成之后，所述方法还包括：

从所述多个样本区域中选取属于所述目标区域的多个正样本区域；

对于每个正样本区域，应用所述多个分类节点，分别对所述正样本区域进行分类，得到所述多个分类节点分别输出的分类数值；

按照所述多个分类节点的先后顺序，将所述多个分类节点分别输出的分类数值组合构成二进制数值，将所述二进制数值对应的十进制数值作为所述正样本区域的分类结果；

将所述多个正样本区域中出现次数最多的分类结果确定为目标分类结果。

5.根据权利要求4所述的方法，其特征在于，所述应用已训练完成的所述分类器，对所述当前跟踪的图像之后的第二图像中的至少一个区域进行分类，根据分类结果确定所述第二图像中的所述目标区域，包括：

对于所述当前跟踪的图像之后的第二图像中的至少一个区域中的每个区域，应用所述多个分类节点，分别对所述区域进行分类，得到所述多个分类节点分别输出的分类数值；

按照所述多个分类节点的先后顺序，将所述多个分类节点分别输出的分类数值组合构成二进制数值，将所述二进制数值对应的十进制数值作为所述区域的分类结果；

当所述分类结果等于所述目标分类结果时，确定所述区域属于所述目标区域。

6.根据权利要求1所述的方法，其特征在于，所述在所述视频中除所述第一图像以外的其他图像中跟踪所述目标区域，包括：

对所述第一图像中的所述目标区域进行检测，得到多个特征点；

通过在任两帧相邻图像中跟踪所述多个特征点，确定所述多个特征点在所述其他图像中的位置；

根据所述多个特征点在所述其他图像中的位置，确定所述其他图像中的所述目标区域。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述视频中除所述第一图像以外的第三图像中跟踪所述目标区域时，获取跟踪误差；

当所述跟踪误差大于第一预设阈值时，将所述第三图像中跟踪到的所述目标区域作为样本区域；

根据所述样本区域对所述分类器进行更新，得到更新后的所述分类器。

8.根据权利要求7所述的方法，其特征在于，所述当所述跟踪误差大于第一预设阈值时，将所述第三图像中跟踪到的所述目标区域作为样本区域，包括：

当所述跟踪误差大于所述第一预设阈值且不大于第二预设阈值时，将所述第三图像中跟踪到的所述目标区域作为样本区域，所述第二预设阈值大于所述第一预设阈值；

当所述跟踪误差大于所述第二预设阈值时，确定所述第三图像中不包括所述目标区域。

9.一种目标区域检测装置，其特征在于，所述装置包括：

获取模块，用于获取待训练的分类器，所述分类器包括按照先后顺序依次排列的多个分类节点，所述多个分类节点构成线性结构，每个分类节点均可用于区域分类；

检测模块，用于在所述视频中除所述第一图像以外的其他图像中跟踪所述目标区域，当确定当前跟踪的图像中不包括所述目标区域时，应用已训练完成的所述分类器，对所述当前跟踪的图像之后的第二图像中的至少一个区域进行分类，根据分类结果确定所述第二图像中的所述目标区域；

所述检测模块，还用于获取当前跟踪的图像的第一位姿信息和所述当前跟踪的图像的上一帧图像的第二位姿信息，根据所述第一位姿信息和所述第二位姿信息之间的变化量以及所述上一帧图像中所述目标区域的位置，确定在所述当前跟踪的图像中的估算目标区域，根据所述估算目标区域，确定所述当前跟踪的图像中所述目标区域的位置，位姿信息用于表示拍摄图像时拍摄设备的位置和姿态。

10.根据权利要求9所述的装置，其特征在于，所述样本确定模块，包括：

区域检测单元，用于对所述第一图像进行区域检测，得到多个样本区域；

确定单元，用于根据所述多个样本区域与所述目标区域之间的重叠率，确定所述多个样本区域的分类结果。

11.根据权利要求9所述的装置，其特征在于，所述训练模块，包括：

初始化单元，用于初始化所述多个分类节点的节点参数；

训练单元，用于根据所述多个样本区域以及所述多个样本区域的分类结果，对所述分类器中的第一个分类节点的节点参数进行训练，得到所述第一个分类节点训练后的节点参数；

所述训练单元，还用于继续根据所述多个样本区域、所述多个样本区域的分类结果以及上一个分类节点训练后的节点参数，对下一个分类节点的节点参数进行训练，得到所述下一个分类节点训练后的节点参数，直至所述多个分类节点均训练完成。

12.根据权利要求11所述的装置，其特征在于，所述分类器中的任一分类节点输出第一分类数值时，表示本次待分类的区域属于所述目标区域，所述任一分类节点输出第二分类数值时，表示本次待分类的区域不属于所述目标区域；

所述装置还包括：

选取模块，用于从所述多个样本区域中选取属于所述目标区域的多个正样本区域；

分类模块，用于对于每个正样本区域，应用所述多个分类节点，分别对所述正样本区域进行分类，得到所述多个分类节点分别输出的分类数值；

组合模块，用于按照所述多个分类节点的先后顺序，将所述多个分类节点分别输出的分类数值组合构成二进制数值，将所述二进制数值对应的十进制数值作为所述正样本区域的分类结果；

目标确定模块，用于将所述多个正样本区域中出现次数最多的分类结果确定为目标分类结果。

13.根据权利要求9所述的装置，其特征在于，所述装置还包括：

误差获取模块，用于在所述视频中除所述第一图像以外的第三图像中跟踪所述目标区域时，获取跟踪误差；

样本获取模块，用于当所述跟踪误差大于第一预设阈值时，将所述第三图像中跟踪到的所述目标区域作为样本区域；

更新模块，用于根据所述样本区域对所述分类器进行更新，得到更新后的所述分类器。

14.一种用于检测目标区域的终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并具有以实现如权利要求1至8任一权利要求所述的目标区域检测方法中所具有的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并具有以实现如权利要求1至8任一权利要求所述的目标区域检测方法中所具有的操作。