CN111161314A - 目标对象的位置区域确定方法、装置、电子设备及存储介质 - Google Patents
目标对象的位置区域确定方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111161314A CN111161314A CN201911298738.XA CN201911298738A CN111161314A CN 111161314 A CN111161314 A CN 111161314A CN 201911298738 A CN201911298738 A CN 201911298738A CN 111161314 A CN111161314 A CN 111161314A
- Authority
- CN
- China
- Prior art keywords
- determining
- feature information
- area
- target object
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000000605 extraction Methods 0.000 claims description 54
- 238000012549 training Methods 0.000 claims description 27
- 238000010801 machine learning Methods 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及目标对象的位置区域确定方法、装置、电子设备及存储介质,该方法通过获取图像序列;获取目标对象在图像序列的当前帧图像中的当前位置区域,并基于当前位置区域确定搜索区域;从当前位置区域确定第一特征信息;第一特征信息包括当前位置区域的语义信息;从搜索区域确定第二特征信息;第二特征信息包括搜索区域的语义信息;基于第一特征信息和第二特征信息确定相似程度值集合;从相似程度值集合确定目标相似程度值;基于目标相似程度值和当前位置区域的尺寸确定目标对象在下一帧图像中的位置区域。如此,通过学习到更高级的语义信息,可以提高对目标对象位置区域跟踪确定的准确度,可以提高目标对象的跟踪精度和鲁棒性。
Description
技术领域
本申请涉及计算机视觉技术领域,特别涉及一种目标对象的位置区域确定方法、装置、电子设备及存储介质。
背景技术
目标跟踪是计算机领域十分重要的问题之一。特别是随着近些年来视频量的增加,对视频自动分析的要求不断增加,如何准确、鲁棒的跟踪视频中的目标变得更加迫切。
传统算法如基于颜色、纹理等底层特征,通过训练分类器等对目标进行识别跟踪。近年来相关滤波算法在跟踪方面取得了很好的效果。
随着深度学习的发展,人们将深度学习引入目标跟踪领域,其效果在很多方面都超过之前的算法。但很多深度学习算法在训练时直接将跟踪损失值作为目标进行训练,不能保证模型学习到更高级的信息,而这一信息对准确、鲁棒的进行跟踪具有重要的意义。因此,如何进一步改进深度学习算法,达到更好的跟踪效果已经成为这一领域的热点问题。
发明内容
本申请实施例提供了一种目标对象的位置区域确定方法、装置、电子设备及存储介质,可以学习到更高级的语义信息,可以提高对目标对象位置区域跟踪确定的准确度,可以提高目标对象的跟踪精度和鲁棒性。
一方面,本申请实施例提供了一种目标对象的位置区域确定方法,包括:
获取图像序列;图像序列包括连续多帧图像;
获取目标对象在图像序列的当前帧图像中的当前位置区域;
基于当前位置区域确定目标对象在当前帧图像的下一帧图像中的搜索区域;
从当前位置区域确定第一特征信息;第一特征信息包括当前位置区域的语义信息;
从搜索区域确定第二特征信息;第二特征信息包括搜索区域的语义信息;
基于第一特征信息和第二特征信息确定相似程度值集合;
从相似程度值集合确定目标相似程度值;
基于目标相似程度值和当前位置区域的尺寸确定目标对象在下一帧图像中的位置区域。
另一方面,本申请实施例提供了一种目标对象的位置区域确定装置,包括:
第一获取模块,用于获取图像序列;图像序列包括连续多帧图像;
第二获取模块,用于获取目标对象在图像序列的当前帧图像中的当前位置区域;
第一确定模块,用于基于当前位置区域确定目标对象在当前帧图像的下一帧图像中的搜索区域;
第二确定模块,用于从当前位置区域确定第一特征信息;第一特征信息包括当前位置区域的语义信息;还用于从搜索区域确定第二特征信息;第二特征信息包括搜索区域的语义信息;
第三确定模块,用于基于第一特征信息和第二特征信息确定相似程度值集合;
第四确定模块,用于从相似程度值集合确定目标相似程度值;
第五确定模块,用于基于目标相似程度值和当前位置区域的尺寸确定目标对象在下一帧图像中的位置区域。
另一方面,本申请实施例提供了一种电子设备,电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行上述的目标对象的位置区域确定方法。
另一方面,本申请实施例提供了一种计算机存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现上述的目标对象的位置区域确定方法。
本申请实施例提供的目标对象的位置区域确定方法、装置、电子设备及存储介质具有如下有益效果:
通过获取图像序列;图像序列包括连续多帧图像;获取目标对象在图像序列的当前帧图像中的当前位置区域;基于当前位置区域确定目标对象在当前帧图像的下一帧图像中的搜索区域;从当前位置区域确定第一特征信息;第一特征信息包括当前位置区域的语义信息;从搜索区域确定第二特征信息;第二特征信息包括搜索区域的语义信息;基于第一特征信息和第二特征信息确定相似程度值集合;从相似程度值集合确定目标相似程度值;基于目标相似程度值和当前位置区域的尺寸确定目标对象在下一帧图像中的位置区域。如此,通过学习到更高级的语义信息,可以提高对目标对象位置区域跟踪确定的准确度,可以提高目标对象的跟踪精度和鲁棒性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种应用场景的示意图;
图2是本申请实施例提供的一种目标对象的位置区域确定方法的流程示意图;
图3是本申请实施例提供的一种确定目标对象的位置区域的过程示意图;
图4是本申请实施例提供的一种获取已训练的特征提取模型的示意图;
图5是本申请实施例提供的一种特征提取模型的结构示意图;
图6是本申请实施例提供的一种语义生成模型的结构示意图;
图7是本申请实施例提供的一种目标对象的位置区域确定装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本申请实施例提供的一种应用场景的示意图,包括特征提取模型101和位置区域确定模块102,由特征提取模型101和位置区域确定模块102组成的整体获取图像序列,并根据目标对象在图像序列的当前帧图像中的当前位置区域,依次经过征提取模型101和位置区域确定模块102,输出目标对象在当前帧图像的下一帧图像中的位置区域。
图像序列输入特征提取模型101;图像序列包括连续多帧图像;特征提取模型101获取目标对象在图像序列的当前帧图像中的当前位置区域,并基于当前位置区域确定目标对象在当前帧图像的下一帧图像中的搜索区域。特征提取模型101从当前位置区域确定第一特征信息,第一特征信息包括当前位置区域的语义信息。特征提取模型101还从搜索区域确定第二特征信息,第二特征信息包括搜索区域的语义信息。特征提取模型101将第一特征信息和第二特征信息输入至位置区域确定模块102。位置区域确定模块102基于第一特征信息和第二特征信息确定相似程度值集合,从相似程度值集合确定目标相似程度值,基于目标相似程度值和当前位置区域的尺寸确定目标对象在下一帧图像中的位置区域。
本申请实施例中,特征提取模型101和位置区域确定模块102可以被设置在同一个设备中,比如移动终端、计算机终端、服务器或者类似的运算装置;可选的,特征提取模型101和位置区域确定模块102可以被设置在多个设备中,该多个设备处于一个***中;可选的,特征提取模型101和位置区域确定模块102可以被设置在一个平台上。因此,本申请实施例的执行主体可以是移动终端、计算机终端、服务器或者类似的运算装置;可以是某个***,还可以是某个平台。
以下介绍本申请一种目标对象的位置区域确定方法的具体实施例,图2是本申请实施例提供的一种目标对象的位置区域确定方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的***或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法可以包括:
S201:获取图像序列;图像序列包括连续多帧图像。
S203:获取目标对象在图像序列的当前帧图像中的当前位置区域。
S205:基于当前位置区域确定目标对象在当前帧图像的下一帧图像中的搜索区域。
本申请实施例中,计算机获取给定的图像序列,图像序列包括连续多帧图像,图像序列可以是视频。对于任一给定的目标对象,计算机可以在获取该目标对象在图像序列的当前帧图像的当前位置区域后,基于当前位置区域确定该目标对象在当前帧图像的下一帧图像中的搜索区域,从而确定出该目标对象在该搜索区域中的位置区域,即对目标对象进行跟踪。
S207:从当前位置区域确定第一特征信息;第一特征信息包括当前位置区域的语义信息。
S209:从搜索区域确定第二特征信息;第二特征信息包括搜索区域的语义信息。
在目标跟踪技术领域中,鉴别性的特征表示是关键,良好的特征表达,对最终算法的准确性起了非常关键的作用。现有技术中常用的特征被分为两种类型:手工设计的特征和深度特征。常用的手工设计的特征有灰度特征和方向梯度直方图等。与人为设计的特征不同,深度特征是通过大量的训练样本学习出来的特征,它比手工设计的特征更具有鉴别性。相较于浅层网络,深层网络提取的特征包含更多的深层抽象信息,例如语义信息。因此,利用深度特征的跟踪方法更容易获得一个不错的效果。
本申请实施例中,计算机从当前位置区域确定第一特征信息,第一特征信息包括当前位置区域的语义信息;并从搜索区域确定第二特征信息,第二特征信息包括搜索区域的语义信息。
一种可选的从当前位置区域确定第一特征信息的实施方式中,基于已训练的特征提取模型对当前位置区域进行特征提取,得到第一特征信息。
一种可选的从搜索区域确定第二特征信息的实施方式中,基于已训练的特征提取模型对搜索区域进行特征提取,得到第二特征信息。已训练的特征提取模型提高了网络提取高层信息如语义信息的能力,从而使得跟踪结果更加准确、鲁棒。
下面通过一个具体的例子对上文进行说明。请参阅图3,图3是本申请实施例提供的一种确定目标对象的位置区域的过程示意图。这里图像序列是运动员打篮球的连续帧图像。给定的目标对象为运动员,当前位置区域为计算机从该图像序列的第一帧图像中直接获取的,假设当前位置区域的尺寸为10*10。由于一个目标对象在连续的两帧图像中的位移变化不大,因此计算机基于当前位置区域确定足球在第二帧图像中的搜索区域的尺寸为20*20。计算机基于已训练的特征提取模型对当前位置区域进行特征提取,得到第一特征信息,第一特征信息的尺寸为6*6;基于已训练的特征提取模型对搜索区域进行特征提取,得到第二特征信息,第二特征信息的尺寸为12*12。
本申请实施例中,还包括获取已训练的特征提取模型的步骤。
一种可选的获取已训练的特征提取模型的实施方式中,请参阅图4,图4是本申请实施例提供的一种获取已训练的特征提取模型的示意图。该实施方式中,首先获取训练目标对象(例如足球)在第一训练图像中的第一位置区域和足球在第二训练图像中的第二位置区域,该第二位置区域是基于第一位置区域在第二训练图像中确定的,以及第一理想相似程度值,由于训练的视频序列是人工标注好的,所以以足球在第二训练图像中出现的位置是已知的,该第一理想相似程度值是根据已知的位置结果得到的。
其次,构建预设机器学习模型,将预设机器学习模型确定为当前机器学习模型;预设机器学习模型包括特征提取模型和语义生成模型。基于特征提取模型,对第一位置区域进行特征提取,得到第一底层特征信息;并对第二位置区域进行特征提取,得到第二底层特征信息;基于第一底层特征信息和第二底层特征信息确定第一训练相似程度值集合;基于第一训练相似程度值集合和第一理想相似程度值确定第一损失值。
其次,基于语义生成模型,对第一底层特征信息进行语义生成,得到第一语义信息;并对第二底层特征信息进行语义生成,得到第二语义信息。基于第一语义信息和第二语义信息确定第二训练相似程度值集合;基于第二训练相似程度值集合和第二理想相似程度值确定第二损失值。其中,第二训练相似程度值集合由在CamVid数据集和Cityscapes数据集上训练好的Enet网络模型生成。
其次,将第一损失值和第二损失值相加,得到第三损失值。将第三损失值回传,采用梯度下降法更新网络参数,端到端训练网络。具体的,当第三损失值大于预设阈值时,基于第三损失值进行反向传播,对当前机器学习模型进行更新以得到更新后的机器学习模型,将更新后的机器学习模型重新确定为当前机器学习模型;重复上述步骤:基于特征提取模型,对第一位置区域进行特征提取,得到第一底层特征信息;并对第一搜索区域进行特征提取,得到第二底层特征信息……当第三损失值小于预设阈值时,将语义生成模型从当前机器学习模型中删除,得到已训练的特征提取模型,将第三损失值对应的当前参数作为已训练的特征提取模型的参数。如此,实际运用时直接根据已训练的特征提取模型的输出结果进行相关计算,不牺牲跟踪速度。
可选的,特征提取模型可以参考AlexNet网络模型。
下面介绍一种可选的特征提取模型的结构,请参阅图5,图5是本申请实施例提供的一种特征提取模型的结构示意图,依次为第一卷积层(C1)、第一批量归一化(BN)层(B1)、第一激活层(R1)、第一池化层(M1)、第二卷积层(C2)、第二BN层(B2)、第二激活层(R2)、第二池化层(M1)、第三卷积层(C3)、第三BN层(B3)、第三激活层(R3)、第四卷积层(C4)、第四BN层(B4)、第四激活层(R4)和第五卷积层(C5)。
可选的,语义生成模型可以参考ENet网络模型的解码重建部分。其中,ENet网络模型解码端重建得到的结果要小于原图分辨率,因此将原图进行缩小后再进行语义重建损失的计算。
下面介绍一种可选的语义生成模型的结构,请参阅图6,图6是本申请实施例提供的一种语义生成模型的结构示意图,如图6(a)所示,包括2个第一模块(UBlock)、3个第二模块(RBlock)和1个反卷积模块(Transposed_conv)。如图6(b)所示,RBlock包括第一反卷积模块、第一卷积模块和第二激活层(R2),第一反卷积模块和第一卷积模块并联之后与第二激活层串联。其中,第一反卷积模块的结构依次为第一反卷积层(Ct1)、第一BN层(Bt1)和第一上采样层(Ut1);第一卷积模块的结构依次为第一卷积层(C1)、第一BN层(B1)、第一反卷积层(T1)、第二BN层(B2)、第一激活层(R1)、第二卷积层(C2)、第三BN层(B3)和第一防止过拟合层(D1)。如图6(c)所示,UBlock的结构依次为第一卷积层(C1)、第一BN层(B1)、第二卷积层(C2)、第二BN层(B2)、第三卷积层(C3)、第三BN层(B3)和第一防止过拟合(Dropout)层(D1)。反卷积模块包括一个反卷积层(T1)。
可选的,损失函数可以使用包括交叉熵损失函数但不限于该损失函数的其他损失函数。
具体的,特征提取模型的第一损失函数tracking_loss(交叉熵)定义为Cross_entropy(C,G);其中,C表示第一训练相似程度值集合,G表示第一理想相似程度值。语义生成模型的第二损失函数reconstruct_losss(交叉熵)定义为Cross_entropy(src,rec);其中,src表示基于ENet网络模型或其他特征提取器生成的第二理想相似程度值(图像语义),rec表示第二训练相似程度值集合。当前机器学习模型训练时总的total_loss可以根据公式(1)确定:
total_loss=tracking_loss+a1ⅹreconstruct_lossst……(1)
其中,a1表示第二损失值的权重系数。
S211:基于第一特征信息和第二特征信息确定相似程度值集合。
S213:从相似程度值集合确定目标相似程度值。
S215:基于目标相似程度值和当前位置区域的尺寸确定目标对象在下一帧图像中的位置区域。
本申请实施例中,基于上述已训练的特征提取模型得到的第一特征信息和第二特征信息确定相似程度值集合,从相似程度值集合确定目标相似程度值。基于目标相似程度值和当前位置区域的尺寸确定目标对象在下一帧图像中的位置区域。由于已训练的特征提取模型可以提取到更高级的语义信息,因此基于本申请实施例提供的方法跟踪结果更加准确、鲁棒。
一种可选的步骤S211-S215的实施方式中,将第一特征信息和第二特征信息进行点积运算,得到第一相似程度值集合;基于第一相似程度值集合进行插值处理,得到第二相似程度值集合,并得到第二相似程度值集合和第一相似程度值集合的映射关系;其中,第二相似程度值集合的尺寸和搜索区域的尺寸相等。将第一相似程度值集合中数值最大的相似程度值确定为第一目标相似程度值;根据映射关系确定第一目标相似程度值对应的第二目标相似程度值。确定第二目标相似程度值基于第二相似程度值集合的位置;将位置作为目标对象的中心位置;基于中心位置和当前位置区域的尺寸确定目标对象在下一帧图像中的位置区域。
基于上述的例子继续说明,如图3所示,将尺寸为6*6的第一特征信息和尺寸为12*12的第二特征信息进行点积运算,得到第一相似程度值集合,第一相似程度值集合的尺寸为7*7;基于第一相似程度值集合进行插值处理,得到尺寸与搜索区域的尺寸(20*20)相等的第二相似程度值集合,并得到第二相似程度值集合和第一相似程度值集合的映射关系。将第一相似程度值集合中数值最大的相似程度值确定为第一目标相似程度值,假设第一目标相似程度值的位于第一相似程度值集合的第4行、第5列,根据映射关系得到第二目标相似程度值位于第二相似程度值集合的第10行、第11列。将该第10行、第11列的位置作为运动员的中心位置;基于中心位置和当前位置区域的尺寸10*10确定运动员在第二帧图像中的位置区域。
本申请实施例提供的预设机器学习模型在训练过程中,使用Pytorch框架进行实现,提出的方法使用带有Nesterov动量的随机梯度下降(SGD)进行了优化,学习率、动量分别设置为0.01、0.9,损失采用交叉熵损失,权重系数a1设置为0.5,训练数据集为GOT10k,batchsize设置为8,一共迭代30个完整的epoch。
本申请实施例中,表1给出了本申请实施例的方法和现有算法SiamFC(基于全卷积孪生网络的目标跟踪算法)分别在OTB50、OTB100和VOT2013的数据集上进行实验验证的结果。由实验结果可知,本申请提供的方法基于OTB50、OTB100和VOT2013的数据集对目标对象的跟踪准确率均高于现有技术。
表1:目标对象跟踪准确率
OTB50 | OTB100 | VOT2013 | |
SiamFC | 0.781 | 0.765 | 0.647 |
本申请提供的方法 | 0.809 | 0.791 | 0.680 |
本申请实施例还提供了一种目标对象的位置区域确定装置,图7是本申请实施例提供的一种目标对象的位置区域确定装置的结构示意图,如图7所示,该装置包括:
第一获取模块701,用于获取图像序列;图像序列包括连续多帧图像;
第二获取模块702,用于获取目标对象在图像序列的当前帧图像中的当前位置区域;
第一确定模块703,用于基于当前位置区域确定目标对象在当前帧图像的下一帧图像中的搜索区域;
第二确定模块704,用于从当前位置区域确定第一特征信息;第一特征信息包括当前位置区域的语义信息;还用于从搜索区域确定第二特征信息;第二特征信息包括搜索区域的语义信息;
第三确定模块705,用于基于第一特征信息和第二特征信息确定相似程度值集合;
第四确定模块706,用于从相似程度值集合确定目标相似程度值;
第五确定模块707,用于基于目标相似程度值和当前位置区域的尺寸确定目标对象在下一帧图像中的位置区域。
本申请实施例中的装置与方法实施例基于同样地申请构思。
本申请实施例还提供了一种电子设备,电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行上述的目标对象的位置区域确定方法。
本申请实施例还提供了一种计算机存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现上述的目标对象的位置区域确定方法。
可选的,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本申请提供的目标对象的位置区域确定方法、装置、电子设备或存储介质的实施例可见,本申请中通过获取图像序列;图像序列包括连续多帧图像;获取目标对象在图像序列的当前帧图像中的当前位置区域;基于当前位置区域确定目标对象在当前帧图像的下一帧图像中的搜索区域;从当前位置区域确定第一特征信息;第一特征信息包括当前位置区域的语义信息;从搜索区域确定第二特征信息;第二特征信息包括搜索区域的语义信息;基于第一特征信息和第二特征信息确定相似程度值集合;从相似程度值集合确定目标相似程度值;基于目标相似程度值和当前位置区域的尺寸确定目标对象在下一帧图像中的位置区域。如此,通过学习到更高级的语义信息,可以提高对目标对象位置区域跟踪确定的准确度,可以提高目标对象的跟踪精度和鲁棒性。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种目标对象的位置区域确定方法,其特征在于,包括:
获取图像序列;所述图像序列包括连续多帧图像;
获取目标对象在所述图像序列的当前帧图像中的当前位置区域;
基于所述当前位置区域确定所述目标对象在所述当前帧图像的下一帧图像中的搜索区域;
从所述当前位置区域确定第一特征信息;所述第一特征信息包括所述当前位置区域的语义信息;
从所述搜索区域确定第二特征信息;所述第二特征信息包括所述搜索区域的语义信息;
基于所述第一特征信息和所述第二特征信息确定相似程度值集合;
从所述相似程度值集合确定目标相似程度值;
基于所述目标相似程度值和所述当前位置区域的尺寸确定所述目标对象在所述下一帧图像中的位置区域。
2.根据权利要求1所述的方法,其特征在于,所述从所述当前位置区域确定第一特征信息,包括:
基于已训练的特征提取模型对所述当前位置区域进行特征提取,得到所述第一特征信息;
所述从所述搜索区域确定第二特征信息,包括:
基于所述已训练的特征提取模型对所述搜索区域进行特征提取,得到所述第二特征信息。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括获取所述已训练的特征提取模型的步骤;
所述获取所述已训练的特征提取模型,包括:
获取训练目标对象在第一训练图像中的第一位置区域、所述训练目标对象在第二训练图像中的第二位置区域和第一理想相似程度值;所述第二位置区域是基于所述第一位置区域在所述第二训练图像中确定的;
构建预设机器学习模型,将所述预设机器学习模型确定为当前机器学习模型;所述预设机器学习模型包括特征提取模型和语义生成模型;
基于所述特征提取模型,对所述第一位置区域进行特征提取,得到第一底层特征信息;并对所述第一搜索区域进行特征提取,得到第二底层特征信息;
基于所述第一底层特征信息和所述第二底层特征信息确定第一训练相似程度值集合;
基于所述第一训练相似程度值集合和第一理想相似程度值确定第一损失值;
基于所述语义生成模型,对所述第一底层特征信息进行语义生成,得到第一语义信息;并对所述第二底层特征信息进行语义生成,得到第二语义信息;
基于所述第一语义信息和所述第二语义信息确定第二训练相似程度值集合;
基于所述第二训练相似程度值集合和第二理想相似程度值确定第二损失值;
将所述第一损失值和所述第二损失值相加,得到第三损失值;
当所述第三损失值大于预设阈值时,基于所述第三损失值进行反向传播,对所述当前机器学习模型进行更新以得到更新后的机器学习模型,将所述更新后的机器学习模型重新确定为所述当前机器学习模型;重复步骤:基于所述特征提取模型,对所述第一位置区域进行特征提取,得到第一底层特征信息;并对所述第一搜索区域进行特征提取,得到第二底层特征信息;
当所述第三损失值小于预设阈值时,将所述语义生成模型从所述当前机器学习模型中删除,得到已训练的特征提取模型,将所述第三损失值对应的当前参数作为所述已训练的特征提取模型的参数。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征信息和所述第二特征信息确定相似程度值集合,包括:
将所述第一特征信息和所述第二特征信息进行点积运算,得到第一相似程度值集合;
基于所述第一相似程度值集合进行插值处理,得到第二相似程度值集合,并得到所述第二相似程度值集合和所述第一相似程度值集合的映射关系;所述第二相似程度值集合的尺寸和所述搜索区域的尺寸相等。
5.根据权利要求4所述的方法,其特征在于,所述从所述相似程度值集合确定目标相似程度值,包括:
将所述第一相似程度值集合中数值最大的相似程度值确定为第一目标相似程度值;
根据所述映射关系确定所述第一目标相似程度值对应的第二目标相似程度值。
6.根据权利要求5所述的方法,其特征在于,所述基于所述目标相似程度值和所述当前位置区域的尺寸确定所述目标对象在所述下一帧图像中的位置区域,包括:
确定所述第二目标相似程度值基于所述第二相似程度值集合的位置;
将所述位置作为所述目标对象的中心位置;
基于所述中心位置和所述当前位置区域的尺寸确定所述目标对象在所述下一帧图像中的位置区域。
7.一种目标对象的位置区域确定装置,其特征在于,包括:
第一获取模块,用于获取图像序列;所述图像序列包括连续多帧图像;
第二获取模块,用于获取目标对象在所述图像序列的当前帧图像中的当前位置区域;
第一确定模块,用于基于所述当前位置区域确定所述目标对象在所述当前帧图像的下一帧图像中的搜索区域;
第二确定模块,用于从所述当前位置区域确定第一特征信息;所述第一特征信息包括所述当前位置区域的语义信息;还用于从所述搜索区域确定第二特征信息;所述第二特征信息包括所述搜索区域的语义信息;
第三确定模块,用于基于所述第一特征信息和所述第二特征信息确定相似程度值集合;
第四确定模块,用于从所述相似程度值集合确定目标相似程度值;
第五确定模块,用于基于所述目标相似程度值和所述当前位置区域的尺寸确定所述目标对象在所述下一帧图像中的位置区域。
8.根据权利要求7所述的装置,其特征在于,
所述第二确定模块,还用于基于已训练的特征提取模型对所述当前位置区域进行特征提取,得到所述第一特征信息;
所述第二确定模块,还用于基于所述已训练的特征提取模型对所述搜索区域进行特征提取,得到所述第二特征信息。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行如权利要求1-6任一项所述的目标对象的位置区域确定方法。
10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-6任一项所述的目标对象的位置区域确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911298738.XA CN111161314B (zh) | 2019-12-17 | 2019-12-17 | 目标对象的位置区域确定方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911298738.XA CN111161314B (zh) | 2019-12-17 | 2019-12-17 | 目标对象的位置区域确定方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111161314A true CN111161314A (zh) | 2020-05-15 |
CN111161314B CN111161314B (zh) | 2024-03-12 |
Family
ID=70557470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911298738.XA Active CN111161314B (zh) | 2019-12-17 | 2019-12-17 | 目标对象的位置区域确定方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161314B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931782A (zh) * | 2020-08-12 | 2020-11-13 | 中国科学院上海微***与信息技术研究所 | 语义分割方法、***、介质及装置 |
CN111973178A (zh) * | 2020-08-14 | 2020-11-24 | 中国科学院上海微***与信息技术研究所 | 一种脑电信号识别***及方法 |
CN112904719A (zh) * | 2021-01-15 | 2021-06-04 | 哈尔滨工程大学 | 一种适用于水下机器人位置环形区域跟踪控制方法 |
CN115661701A (zh) * | 2022-10-09 | 2023-01-31 | 中国科学院半导体研究所 | 实时图像处理方法、装置、电子设备及可读存储介质 |
CN116958915A (zh) * | 2023-09-21 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103988232A (zh) * | 2011-11-01 | 2014-08-13 | 谷歌公司 | 使用运动流形来改进图像匹配 |
EP3239896A1 (en) * | 2016-04-28 | 2017-11-01 | Joanneum Research Forschungsgesellschaft mbH | Data structure for describing an image sequence image, and methods for extracting and matching these data structures |
CN108256479A (zh) * | 2018-01-17 | 2018-07-06 | 百度在线网络技术(北京)有限公司 | 人脸跟踪方法和装置 |
CN109636829A (zh) * | 2018-11-24 | 2019-04-16 | 华中科技大学 | 一种基于语义信息和场景信息的多目标跟踪方法 |
CN109785385A (zh) * | 2019-01-22 | 2019-05-21 | 中国科学院自动化研究所 | 视觉目标跟踪方法及*** |
CN110569793A (zh) * | 2019-09-09 | 2019-12-13 | 西南交通大学 | 一种无监督相似性判别学习的目标跟踪方法 |
-
2019
- 2019-12-17 CN CN201911298738.XA patent/CN111161314B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103988232A (zh) * | 2011-11-01 | 2014-08-13 | 谷歌公司 | 使用运动流形来改进图像匹配 |
EP3239896A1 (en) * | 2016-04-28 | 2017-11-01 | Joanneum Research Forschungsgesellschaft mbH | Data structure for describing an image sequence image, and methods for extracting and matching these data structures |
CN108256479A (zh) * | 2018-01-17 | 2018-07-06 | 百度在线网络技术(北京)有限公司 | 人脸跟踪方法和装置 |
CN109636829A (zh) * | 2018-11-24 | 2019-04-16 | 华中科技大学 | 一种基于语义信息和场景信息的多目标跟踪方法 |
CN109785385A (zh) * | 2019-01-22 | 2019-05-21 | 中国科学院自动化研究所 | 视觉目标跟踪方法及*** |
CN110569793A (zh) * | 2019-09-09 | 2019-12-13 | 西南交通大学 | 一种无监督相似性判别学习的目标跟踪方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931782A (zh) * | 2020-08-12 | 2020-11-13 | 中国科学院上海微***与信息技术研究所 | 语义分割方法、***、介质及装置 |
CN111931782B (zh) * | 2020-08-12 | 2024-03-01 | 中国科学院上海微***与信息技术研究所 | 语义分割方法、***、介质及装置 |
CN111973178A (zh) * | 2020-08-14 | 2020-11-24 | 中国科学院上海微***与信息技术研究所 | 一种脑电信号识别***及方法 |
CN112904719A (zh) * | 2021-01-15 | 2021-06-04 | 哈尔滨工程大学 | 一种适用于水下机器人位置环形区域跟踪控制方法 |
CN115661701A (zh) * | 2022-10-09 | 2023-01-31 | 中国科学院半导体研究所 | 实时图像处理方法、装置、电子设备及可读存储介质 |
CN116958915A (zh) * | 2023-09-21 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN116958915B (zh) * | 2023-09-21 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111161314B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161314B (zh) | 目标对象的位置区域确定方法、装置、电子设备及存储介质 | |
US10452899B2 (en) | Unsupervised deep representation learning for fine-grained body part recognition | |
CN111160533B (zh) | 一种基于跨分辨率知识蒸馏的神经网络加速方法 | |
JP4640155B2 (ja) | 画像処理装置および方法、並びにプログラム | |
JP2006172437A (ja) | データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置 | |
CN111046904B (zh) | 一种图像描述方法、图像描述装置及计算机存储介质 | |
CN111508480A (zh) | 音频识别模型的训练方法、音频识别方法、装置及设备 | |
CN110910325B (zh) | 一种基于人工蝴蝶优化算法的医疗影像处理方法及装置 | |
CN105844204B (zh) | 人体行为识别方法和装置 | |
CN112434533A (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN111444807A (zh) | 目标检测方法、装置、电子设备和计算机可读介质 | |
JP2010282276A (ja) | 映像認識理解装置、映像認識理解方法、及びプログラム | |
CN111125329B (zh) | 一种文本信息筛选方法、装置及设备 | |
CN116935057A (zh) | 目标评价方法、电子设备和计算机可读存储介质 | |
CN111428803A (zh) | 一种基于Wasserstein距离的深度域适应图像分类方法 | |
JP6151908B2 (ja) | 学習装置、識別装置、およびそのプログラム | |
CN113609330B (zh) | 一种基于文本注意力和细粒度信息的视频问答***、方法、计算机及存储介质 | |
CN115205961A (zh) | 一种羽毛球动作识别方法、装置、电子设备及存储介质 | |
CN112329663B (zh) | 一种基于人脸图像序列的微表情时刻检测方法及装置 | |
CN115063858A (zh) | 视频人脸表情识别模型训练方法、装置、设备及存储介质 | |
CN114299572A (zh) | 人脸年龄估计方法、装置及电子设备 | |
CN114491103A (zh) | 一种基于多标记深度关联分析的物联网跨媒体大数据检索方法 | |
CN113743275A (zh) | 一种微表情类型的确定方法、装置、电子设备及存储介质 | |
CN113782033B (zh) | 一种声纹识别方法、装置、设备及存储介质 | |
CN115222945B (zh) | 基于多尺度自适应课程学习的深度语义分割网络训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |