CN111160248A

CN111160248A - 物品跟踪的方法、装置、计算机设备及存储介质

Info

Publication number: CN111160248A
Application number: CN201911388052.XA
Authority: CN
Inventors: 龙寿伦; 蔡丁丁
Original assignee: Beijing Missfresh Ecommerce Co Ltd
Current assignee: Beijing Missfresh Ecommerce Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-15

Abstract

本申请公开了一种物品跟踪的方法、装置、计算机设备及存储介质，属于计算机视觉技术领域。方法包括：基于实时采集得到的视频中的每两个相邻时刻的第一图像帧和第二图像帧，确定第一图像帧中的第一物品定位框和第二图像帧中的第二物品定位框，根据物品定位框在图像帧中的位置和语义，获取第一物品定位框和第二物品定位框的匹配参数，当第一物品定位框和第二物品定位框的匹配参数满足目标条件时，判定两个物品定位框对应于同一个物品。本申请根据物品定位框在图像帧中的位置和语义，确定每两个物品定位框的匹配参数，进而判定两个物品定位框是否对应于同一个物品，从而实现对同一个物品的跟踪，计算开销较小，耗时短，计算效率高。

Description

物品跟踪的方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，特别涉及一种物品跟踪的方法、装置、计算机设备及存储介质。

背景技术

随着智能零售柜的出现，用户的消费体验有了质的提升，用户在扫码开柜，选择购买的物品后，智能零售柜能够实现自动结算。智能零售柜内设置有摄像头，***需要根据拍摄到的视频，进行目标跟踪，从而实现对智能零售柜内的物品进行跟踪。

相关技术中，目标跟踪的方法主要为光流法，对于视频中的每一帧图像，根据图像中的每一个像素点的运动速度，得到一个图像运动场，图像运动场包括物品及其周围区域的运动速度，能够反映目标运动时在图像上的变化。

相关技术中利用光流法跟踪目标来确定用户所消费的物品，光流计算开销大，计算耗时长，实时跟踪效率低。

发明内容

本申请实施例提供了一种物品跟踪的方法、装置、计算机设备及存储介质，能够解决相关技术中计算开销大，计算耗时长，实时跟踪效率低的问题。所述技术方案如下：

一方面，提供了一种物品跟踪的方法，所述方法包括：

基于实时采集得到的视频中的每两个相邻时刻的第一图像帧和第二图像帧，确定所述第一图像帧中的第一物品定位框和所述第二图像帧中的第二物品定位框；

根据物品定位框在图像帧中的位置和语义，获取所述第一物品定位框和所述第二物品定位框的匹配参数，所述匹配参数基于物品定位框的位置和语义确定；

当所述第一物品定位框和所述第二物品定位框的匹配参数满足目标条件时，判定所述两个物品定位框对应于同一个物品。

在一种可能实现方式中，所述根据物品定位框在图像帧中的位置和语义，获取所述第一物品定位框和所述第二物品定位框的匹配参数，包括：

基于所述物品定位框在图像帧中的位置和语义，进行加权求和处理，得到所述第一物品定位框和所述第二物品定位框的匹配参数。

在一种可能实现方式中，所述匹配参数为矩阵形式，所述基于所述位置和所述语义，进行加权求和处理，得到所述第一物品定位框和所述第二物品定位框的匹配参数，包括：

当所述第一图像帧和所述第二图像帧中存在至少一个包括两个以上物品定位框的图像帧时，基于所述第一图像帧和所述第二图像帧中各个物品定位框之间的位置和所述语义，分别进行加权求和处理，得到匹配参数的多个矩阵元素，一个矩阵元素用于指示第一图像帧中一个物品定位框和所述第二图像帧中一个物品定位框之间的匹配情况。

在一种可能实现方式中，所述根据物品定位框在图像帧中的位置和语义，获取所述第一物品定位框和所述第二物品定位框的匹配参数之前，所述方法还包括：

基于所述第一物品定位框和所述第二物品定位框，确定物品定位框的相交面积与相并面积；

基于所述相交面积与所述相并面积，确定所述第一物品定位框和所述第二物品定位框的交并比。

确定所述第一物品定位框的分类置信度和所述第二物品定位框的分类置信度；

基于所述第一物品定位框的分类置信度和所述第二物品定位框的分类置信度，进行点乘处理，得到点乘结果。

在一种可能实现方式中，所述方法还包括：

每隔目标帧数，获取所述目标帧数对应的多个物品定位框；

基于所述多个物品定位框，确定所述多个物品定位框的分类置信度；

基于所述多个物品定位框的分类置信度的平均值，确定所述多个物品定位框的物品类别。

一方面，提供了一种物品跟踪的装置，所述装置包括：

确定模块，用于基于实时采集得到的视频中的每两个相邻时刻的第一图像帧和第二图像帧，确定所述第一图像帧中的第一物品定位框和所述第二图像帧中的第二物品定位框；

获取模块，用于根据物品定位框在图像帧中的位置和语义，获取所述第一物品定位框和所述第二物品定位框的匹配参数，所述匹配参数基于物品定位框的位置和语义确定；

判定模块，用于当所述第一物品定位框和所述第二物品定位框的匹配参数满足目标条件时，判定所述两个物品定位框对应于同一个物品。

在一种可能实现方式中，所述获取模块，用于：

在一种可能实现方式中，所述匹配参数为矩阵形式，所述获取模块，用于：

在一种可能实现方式中，所述确定模块，还用于：

每隔目标帧数，获取所述目标帧数对应的多个物品定位框；

一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述的物品跟踪的方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述的物品跟踪的方法所执行的操作。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过实时采集得到的视频中的每两个相邻时刻的第一图像帧和第二图像帧，确定第一图像帧中的第一物品定位框和第二图像帧中的第二物品定位框，根据物品定位框在图像帧中的位置和语义，获取第一物品定位框和第二物品定位框的匹配参数，当第一物品定位框和第二物品定位框的匹配参数满足目标条件时，判定两个物品定位框对应于同一个物品。本申请根据物品定位框在图像帧中的位置和语义，确定每两个物品定位框的匹配参数，进而判定两个物品定位框是否对应于同一个物品，从而实现对同一个物品的跟踪，计算开销较小，耗时短，计算效率高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种物品跟踪的方法的实施环境的示意图；

图2是本申请实施例提供的一种物品跟踪的方法的流程图；

图3是本申请实施例提供的一种物品跟踪的方法的流程图；

图4是本申请实施例提供的一种物品定位框的交并比示意图；

图5是本申请实施例提供的一种物品跟踪的装置的结构示意图；

图6是本申请实施例提供的一种终端的结构示意图；

图7是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种物品跟踪的方法的实施环境的示意图。参见图1，该实施环境包括：终端101、采集设备102和服务器103，终端101可以具有通信功能，能够接入互联网，终端101可以为处理设备、台式计算机、智能设备、笔记本电脑等，终端101可以安装在智能零售柜的柜体上。采集设备102可以为摄像头、传感器等部件，采集设备101安装在智能零售柜的内部，采集设备102可以与终端101相互连接。服务器103可以为一个单独的服务器也可以是一个服务器组，服务器103可以与终端101建立通信。

在本申请实施例中，物品跟踪的方法可以只由终端101执行。如采集设备102采集到智能零售柜内的视频后，可以提供终端101所需的视频，终端101可以采用本申请实施例的方法，对视频中每一帧的图像进行物品跟踪，将实时跟踪得到的数据发送给算法***，进行后续运算，进而确定被用户拿起并进行运动的物品。

或者，物品跟踪的方法也可以由终端101和服务器103共同执行。如采集设备102采集到智能零售柜内的视频后，将视频发送给终端101，终端101可以向服务器103发送物品跟踪请求，服务器103可以采用本申请实施例的方法，对视频中每一帧的图像进行物品跟踪，将实时跟踪得到的数据发送给算法***，进行后续运算，进而确定被用户拿起并进行运动的物品。

对于上述任一种执行方式，均可以进行如下操作，当用户操作用户终端扫码开柜后，智能零售柜上的处理设备可以与用户终端连接，在用户挑选想要的物品的过程中，处理设备根据上述物品跟踪的方法，对智能零售柜内的物品进行跟踪，并确定被用户拿起的物品，根据处理设备本地存储的物品信息，确定该物品的价格，进而连接到用户终端，实现智能扣款。

图2是本申请实施例提供的一种物品跟踪的方法的流程图。该实施例仅以计算机设备为执行主体进行说明，参见图2，该实施例包括：

在步骤201中，计算机设备基于实时采集得到的视频中的每两个相邻时刻的第一图像帧和第二图像帧，确定第一图像帧中的第一物品定位框和第二图像帧中的第二物品定位框。

在步骤202中，计算机设备根据物品定位框在图像帧中的位置和语义，获取第一物品定位框和第二物品定位框的匹配参数，匹配参数基于物品定位框的位置和语义确定。

在步骤203中，当第一物品定位框和第二物品定位框的匹配参数满足目标条件时，计算机设备判定两个物品定位框对应于同一个物品。

在一种可能实现方式中，根据物品定位框在图像帧中的位置和语义，获取第一物品定位框和第二物品定位框的匹配参数，包括：

基于物品定位框在图像帧中的位置和语义，进行加权求和处理，得到第一物品定位框和第二物品定位框的匹配参数。

在一种可能实现方式中，匹配参数为矩阵形式，基于位置和语义，进行加权求和处理，得到第一物品定位框和第二物品定位框的匹配参数，包括：

当第一图像帧和第二图像帧中存在至少一个包括两个以上物品定位框的图像帧时，基于第一图像帧和第二图像帧中各个物品定位框之间的位置和语义，分别进行加权求和处理，得到匹配参数的多个矩阵元素，一个矩阵元素用于指示第一图像帧中一个物品定位框和第二图像帧中一个物品定位框之间的匹配情况。

在一种可能实现方式中，根据物品定位框在图像帧中的位置和语义，获取第一物品定位框和第二物品定位框的匹配参数之前，方法还包括：

基于第一物品定位框和第二物品定位框，确定物品定位框的相交面积与相并面积；

基于相交面积与相并面积，确定第一物品定位框和第二物品定位框的交并比。

确定第一物品定位框的分类置信度和第二物品定位框的分类置信度；

基于第一物品定位框的分类置信度和第二物品定位框的分类置信度，进行点乘处理，得到点乘结果。

在一种可能实现方式中，方法还包括：

每隔目标帧数，获取目标帧数对应的多个物品定位框；

基于多个物品定位框，确定多个物品定位框的分类置信度；

基于多个物品定位框的分类置信度的平均值，确定多个物品定位框的物品类别。

图3是本申请实施例提供的一种物品跟踪的方法的流程图。该实施例仅以计算机设备为执行主体进行说明，参见图3，该实施例包括：

在步骤301中，计算机设备基于实时采集得到的视频中的每两个相邻时刻的第一图像帧和第二图像帧，确定第一图像帧中的第一物品定位框和第二图像帧中的第二物品定位框。

在本申请实施例中，第一图像帧可以为相对于第二图像帧的前一时刻图像帧。物品定位框为用于指代图像帧中目标物品位置的框，物品定位框可以为矩形框。

在一种可能实现方式中，计算机设备确定图像帧中的物品定位框的过程包括：计算机设备获取到实时采集的视频后，对视频中的每一个图像帧进行图像目标检测，将每一个图像帧输入目标检测模型，输出每一个图像帧的物品定位框。对于每两个相邻时刻的第一图像帧和第二图像帧，可以基于第一图像帧的第一物品定位框和第二图像帧的第二物品定位框，再进行后续物品跟踪操作。

具体地，以第一图像帧的处理过程为例，计算机设备将视频中第一图像帧，输入目标检测模型，通过目标检测模型的特征提取模块，提取得到第一图像帧的特征向量。根据第一图像帧的特征向量，可以确定第一图像帧中目标的类别概率和目标所在区域的外接框，将该外接框作为第一物品定位框。第二图像帧的处理过程与第一图像帧的处理过程同理，不再赘述。其中，目标是指图像帧中的目标物品，目标物品可以有一个或多个。目标的类别概率可以为条件类别概率，如检测得到目标物品为可乐的概率为20％，雪碧的概率为95％。

在一种可能实现方式中，在上述确定图像帧中的物品定位框的过程之前，计算机设备还可以对原始视频进行去噪处理，也即是，计算机设备可以将原始视频中的图像帧通过滤波器，进行滤波去噪处理，得到去噪后的视频，提升了视频的质量。其中，滤波器可以基于均值滤波、引导滤波等算法确定。

在步骤302中，计算机设备基于物品定位框，确定物品定位框在图像帧中的位置和语义。

在本申请实施例中，位置用于指代每两个相邻时刻的物品定位框的位置相近程度，位置可以通过IoU(intersection over union，交并比)来定义。语义用于指代每两个相邻时刻的物品定位框中目标内容的相似性，语义可以通过分类置信度来定义。

在一种可能实现方式中，上述计算机设备确定物品定位框在图像帧中的位置的过程包括：计算机设备基于第一物品定位框和第二物品定位框，可以确定第一物品定位框和第二物品定位框的相交面积与相并面积，基于相交面积与相并面积，确定第一物品定位框和第二物品定位框的交并比。上述计算机设备确定物品定位框在图像帧中的语义的过程包括：基于第一物品定位框和第二物品定位框，确定第一物品定位框的分类置信度和第二物品定位框的分类置信度，基于第一物品定位框的分类置信度和第二物品定位框的分类置信度，进行点乘处理，得到点乘结果，点乘结果用于指代语义。

具体地，计算机设备确定第一物品定位框和第二物品定位框的交并比时，可以将两个物品定位框的相交面积与相并面积的比值作为第一物品定位框和第二物品定位框的交并比。计算机设备确定物品定位框在图像帧中的语义时，根据第一图像帧中目标的类别概率，将该类别概率与置信度的乘积作为第一物品定位框的分类置信度，根据第二图像帧中目标的类别概率，将该类别概率与置信度的乘积作为第二物品定位框的分类置信度。对第一物品定位框的分类置信度和第二物品定位框的分类置信度进行点乘处理，得到点乘结果。

图4是本申请实施例提供的一种物品定位框的交并比示意图，图4中包括IoU为0.5、IoU为0.7与IoU为0.9的物品定位框，可以得知，当IoU为0.5时，两个物品定位框的重叠较少，相似性较低。当IoU为0.7时，两个物品定位框的重叠较多，相较于IoU为0.5的情况相似性较高。当IoU为0.9时，两个物品定位框的重叠最多，相似性最高。

在步骤303中，计算机设备根据物品定位框在图像帧中的位置和语义，获取第一物品定位框和第二物品定位框的匹配参数，匹配参数基于物品定位框的位置和语义确定。

在本申请实施例中，匹配参数为表征每两个相邻时刻的物品定位框的匹配程度的参数。

在一种可能实现方式中，上述计算机设备获取第一物品定位框和第二物品定位框的过程包括：计算机设备基于物品定位框在图像帧中的位置和语义，进行加权求和处理，可以得到第一物品定位框和第二物品定位框的匹配参数。

在一种可能实现方式中，匹配参数的表现形式可以为矩阵，当第一图像帧和第二图像帧中存在至少一个包括两个以上物品定位框的图像帧时，基于第一图像帧和第二图像帧中各个物品定位框之间的位置和语义，分别进行加权求和处理，得到匹配参数的多个矩阵元素，一个矩阵元素用于指示第一图像帧中一个物品定位框和第二图像帧中一个物品定位框之间的匹配情况。

例如，当前时刻图像帧中包含有m个物品定位框，前一时刻图像帧中包含有n个物品定位框时，对于当前时刻图像帧中的每个物品定位框，根据该物品定位框与前一时刻图像帧中的每个物品定位框，可以确定该物品定位框与前一时刻图像帧中的每个物品定位框的匹配参数。根据多个匹配参数，可以生成一个匹配参数矩阵，该匹配参数矩阵的大小可以为m*n，表示当前时刻图像帧中每个物品定位框与前一时刻图像帧中每个物品定位框之间的匹配参数。

在步骤304中，当第一物品定位框和第二物品定位框的匹配参数满足目标条件时，计算机设备判定两个物品定位框对应于同一个物品。

在一种可能实现方式中，上述计算机设备的判定过程可以包括：计算机设备根据第一物品定位框和第二物品定位框的匹配参数，进行判定，当该匹配参数满足目标条件时，判定两个物品定位框对应于同一个物品，当该匹配参数不满足目标条件时，判定第二图像帧的第二物品定位框对应的物品为新物品。

在一种可能实现方式中，目标条件可以为匹配参数大于目标阈值。根据该目标条件进行判定的过程可以为：当第一物品定位框和第二物品定位框的匹配参数大于目标阈值时，判定两个物品定位框对应于同一个物品，当第一物品定位框和第二物品定位框的匹配参数小于或等于目标阈值时，判定第二物品定位框对应的物品为新物品。

例如，相邻时刻图像帧中可以只包括一个目标物品，如当前时刻图像帧中检测得到物品定位框A，前一时刻图像帧中检测得到物品定位框a，根据上述方式确定物品定位框A与物品定位框a的匹配参数为80％，当目标阈值设置为95％时，判定物品定位框A与物品定位框a对应的物品不是同一个物品。或者，相邻时刻图像帧中也可以包括多个目标物品，如当前时刻图像帧中检测得到A和B两个物品定位框，前一时刻图像帧中检测得到a和b两个物品定位框，根据上述方式确定物品定位框A与物品定位框a的匹配参数为80％，物品定位框A与物品定位框b的匹配参数为97％，物品定位框B与物品定位框a的匹配参数为98％，物品定位框B与物品定位框b的匹配参数为58％。当目标阈值设置为95％时，判定物品定位框A与物品定位框b相对于同一个物品，物品定位框B与物品定位框a相对于同一个物品。

在一种可能实现方式中，上述计算机设备判定两个物品定位框对应于同一个物品之后，计算机设备还可以将两个物品定位框与其他物品定位框的匹配参数设置为无穷大，避免已匹配的物品定位框再次进行运算，节省了计算时间，提高了计算效率。

根据上述步骤301至步骤304，对视频中的每两个相邻时刻的图像帧中的每个物品，进行物品跟踪，将匹配参数满足目标条件的两个物品定位框匹配为同一个物品。对视频中每一个图像帧进行物品跟踪后，可以得到图像帧中的每个物品在该一段时间内的运动状态。根据每个物品的运动状态，将进行了运动的物品作为目标运动物品，并输出目标运动物品的类别概率和物品定位框。其中，目标运动物品可以为用户拿起并进行了运动的物品。

在一种可能实现方式中，上述计算机设备判定两个物品定位框对应于同一个物品之后，每隔目标帧数，获取目标帧数对应的多个物品定位框，基于多个物品定位框，确定多个物品定位框对应的各个类别的分类置信度，基于多个物品定位框对应的各个类别的分类置信度的平均值，确定多个物品定位框的物品类别。

具体地，目标帧数可以为预设帧数，如5帧，10帧。计算机设备确定目标运动物品后，可以获取目标运动物品在目标帧数内的多个物品定位框，根据目标运动物品的多个物品定位框的类别概率，可以计算得到对应的分类置信度。根据目标运动物品的多个物品定位框对应的各个类别的分类置信度的平均值，当分类置信度的平均值满足目标阈值时，将该平均值对应的类别作为目标运动物品的物品类别。本申请实施例中，根据目标帧数内的多个物品定位框的分类置信度的平均值，确定物品类别，把各个类别的分类置信度平均作为新的评分，再次进行物品类别的判定，能够修正运动模糊、特殊姿态等原因引起的目标分类错误。

例如，当目标帧数为5帧，目标运动物品为一个时，第一个图像帧对应的物品定位框的类别概率可以为可乐20％，雪碧98％，第二个图像帧对应的物品定位框的类别概率可以为可乐12％，雪碧97％，第三个图像帧对应的物品定位框的类别概率可以为可乐5％，雪碧99％，第四个图像帧对应的物品定位框的类别概率可以为可乐75％，雪碧65％，第五个图像帧对应的物品定位框的类别概率可以为可乐15％，雪碧95％，根据每个图像帧中各个类别的类别概率，计算得到五个图像帧中可乐的分类置信度的平均值，以及雪碧的分类置信度的平均值，将平均值最大的类别作为目标运动物品的物品类别。可以发现，该示例中，目标运动物体的物品类别为雪碧。

本申请实施例提供的技术方案带来的有益效果是：

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图5是本申请实施例提供的一种物品跟踪的装置的结构示意图，参见图5，该装置包括：

确定模块501，用于基于实时采集得到的视频中的每两个相邻时刻的第一图像帧和第二图像帧，确定第一图像帧中的第一物品定位框和第二图像帧中的第二物品定位框；

获取模块502，用于根据物品定位框在图像帧中的位置和语义，获取第一物品定位框和第二物品定位框的匹配参数，匹配参数基于物品定位框的位置和语义确定；

判定模块503，用于当第一物品定位框和第二物品定位框的匹配参数满足目标条件时，判定两个物品定位框对应于同一个物品。

在一种可能实现方式中，获取模块502，用于：

在一种可能实现方式中，匹配参数为矩阵形式，获取模块502，用于：

在一种可能实现方式中，确定模块501，还用于：

每隔目标帧数，获取目标帧数对应的多个物品定位框；

基于多个物品定位框，确定多个物品定位框的分类置信度；

需要说明的是：上述实施例提供的物品跟踪的装置在进行物品跟踪时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的物品跟踪的装置与物品跟踪的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供的计算机设备，可以提供为一种终端，图6是本申请实施例提供的一种终端的结构示意图。该终端600可以是：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的物品跟踪的方法。

在一些实施例中，终端600还可选包括有：***设备接口603和至少一个***设备。处理器601、存储器602和***设备接口603之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口603相连。具体地，***设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

***设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和***设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和***设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例提供的计算机设备，可以提供为一种服务器，图7是本申请实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processing units，CPU)701和一个或多个的存储器702，其中，所述一个或多个存储器702中存储有至少一条指令，所述至少一条指令由所述一个或多个处理器701加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器700还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端或服务器中的处理器执行以完成上述实施例中车辆未来行驶轨迹的确定方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种物品跟踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据物品定位框在图像帧中的位置和语义，获取所述第一物品定位框和所述第二物品定位框的匹配参数，包括：

3.根据权利要求2所述的方法，其特征在于，所述匹配参数为矩阵形式，所述基于所述位置和所述语义，进行加权求和处理，得到所述第一物品定位框和所述第二物品定位框的匹配参数，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据物品定位框在图像帧中的位置和语义，获取所述第一物品定位框和所述第二物品定位框的匹配参数之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据物品定位框在图像帧中的位置和语义，获取所述第一物品定位框和所述第二物品定位框的匹配参数之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

每隔目标帧数，获取所述目标帧数对应的多个物品定位框；

7.一种物品跟踪的装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述获取模块，用于：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求6任一项所述的物品跟踪的方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的物品跟踪的方法所执行的操作。