CN111047625A

CN111047625A - 一种菜品视频样本半自动标记的方法

Info

Publication number: CN111047625A
Application number: CN201911406896.2A
Authority: CN
Inventors: 王阔阔; 许野平; 方亮; 瞿晨非; 凌桂婷; 王龙春
Original assignee: Synthesis Electronic Technology Co Ltd
Current assignee: Synthesis Electronic Technology Co Ltd
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-04-21
Anticipated expiration: 2040-02-18
Also published as: CN111047625B

Abstract

本发明涉及一种菜品视频样本半自动标记的方法，包括以下步骤：S01）、打开原始视频；S02）、获得当前帧图像；S03)、人工标记，建立背景模型；S04)、根据视频特点设定阈值，大于阈值的，认为是同一区域，将背景建模算法下的标签信息传递给定位网络定位的区域，以定位网络的定位区域为基准，更新背景模型，小于阈值的，则放弃更新，保留原有背景模型；同时更新视频显示画面；S05)、获取当前标记的区域坐标以及标签等标记数据；S06)、保存。本发明的有益效果：结合定位网络以及背景建模算法，能有效的提升样本标记的速度，大幅减少人力成本，为以后深度学习的过程中，提供了坚实的保障。

Description

一种菜品视频样本半自动标记的方法

技术领域

本发明涉及一种菜品视频样本半自动标记的方法，采用背景建模算法结合定位网络完成对视频目标的跟踪，进而获取到标记样本。

背景技术

菜品识别是基于菜品的表面的特征信息进行标名识别的一种物品识别技术，在菜品结算的环节中能有效减少人力成本，在后续的营养分析中也能发挥其重要作用。但在良好的效果背后，是需要菜品样本的大量提供来保证学习的准确度，样本的优劣直接决定了学习后的网络能否有更好的识别率。菜品视频样本的采集，属于图像跟踪的一种，这问题一直都是计算机视觉领域的难题，事先知道第一帧中的目标位置，然后需要在后续帧中找到目标。跟踪过程中的光照变化、目标尺度变化、目标被遮挡、目标的形变、运动模糊、目标的快速运动、目标的旋转、目标逃离视差、背景杂波、低分辨率等现象，都是目标跟踪问题的挑战。

在专利“视频图像中烟雾检测方法”（申请号201610004646.6，公开号CN105654494 A）中，提到一种基于颜色特征来追踪视频中烟雾的办法，能有效减少干扰和噪声的影响。但在菜品视频中，其跟踪样本复杂，菜品之间颜色特征并不明显，方法并不适用；

在专利“基于霍夫森林的视频目标跟踪方法”（申请号201210253267.2，公开号CN102831618 A）中提出一种基于霍夫森林的视频目标跟踪方法，以提高目标跟踪对目标遮挡、非刚性变化的鲁棒性和目标跟踪的实时性。将霍夫变换与随机森林分类器相结合作为检测器对目标进行检测，同时由 Lucas-Kanade ***对目标进行跟踪，将霍夫变换与随机森林分类器结合，提高随机森林分类器的性能，使其对目标遮挡和目标非刚性变化的跟踪更加鲁棒，同时通过引入的 Lucas-Kanade 方法调整目标区域的尺度，进一步确定目标的位置，使跟踪很好的适应目标的尺度变化。由于使用了Lucas- Kanade追踪器，此技术在使用过程中需要三大假设成立，就是亮度恒定，小运动，空间一致，而在菜品视频样本中，为了保证训练不受其姿态阴影的限制，其光照角度都可能随时间变化而变化，故此方法也不适用。

发明内容

本发明要解决的技术问题是解决菜品视频样本标记过程中，对多目标追踪不准确的问题，进而提供一种菜品视频样本的半自动标记办法，在较少的人为干预下，较快的对样本完成标记，有效的提升样本标记的速度。

为了解决所述技术问题，本发明采用的技术思路是：将视频划分为帧图像，提交到定位网络完成视频帧图像中菜品区域定位，辅以背景建模算法追踪到的菜品区域，两者相结合的完成视频中多目标的追踪。由于菜品是需要容器盛放的，所以定位网络只需要训练出区分菜品区域的网络即可，相对于识别，该网络训练快，样本需要少，且对于后续识别过程中也是不可缺少的一步。

本发明公开了一种菜品视频样本半自动标记的方法，其特征在于包括以下步骤：

S01）、打开原始视频；

S02）、获得当前帧图像；

S03)、若是第一帧，则需要人工标记出菜品所在的初始位置并输入对应的标签信息，然后建立背景模型；

S04)、若不是第一帧则人工判断是否需要暂停自动标记，重新人工标记，若需要则重复S03步骤，若不需要则分别计算背景建模算法下的目标区域（下称背景区域）和定位网络下的目标区域（下称定位区域），计算背景区域与定位区域的面积的并集和交集，然后计算交集所占并集的比例，根据视频特点设定阈值，大于阈值的，认为是同一区域，将背景建模算法下的标签信息传递给定位网络定位的区域，以定位网络的定位区域为基准，更新背景模型，小于阈值的，则放弃更新，保留原有背景模型；同时更新视频显示画面；

S05)、获取当前标记的区域坐标以及标签等标记数据；

S06)、将视频按帧保存到磁盘中，将标记数据保存为xml文件，标记工作结束。

进一步的，步骤S01的具体步骤为：S11)、打开视频，如果视频是高清视频，计算背景数据量偏大，对视频处理，把分辨率改小，使用线性邻插值将一帧图像改为适中分辨率大小的图像。

进一步的，S31)、判定是否第一帧，若是第一帧则执行以下步骤：

S32)、手动标出感兴趣的区域，并对标记区域命名，完成一次标记；

S33)、提取标记区域，转换为HSV色彩空间，计算该标记区域的色彩直方图，并归一化到0-255的取值范围内，建立起背景模型；。

进一步的，所述步骤S04的算法采用IOU算法；所述的阈值为0.8。

本发明的有益效果：本发明根据样本视频的特点，结合定位网络以及背景建模算法，能有效的提升样本标记的速度，大幅减少人力成本，为以后深度学习的过程中，提供了坚实的保障。

附图说明

图1为半自动标记的流程图；

图2为手动标记流程图

图3为自动标记流程图。

具体实施方式：

下面结合附图1-3和具体实施例对本发明作进一步的说明。

本实施例公开一种基于视频的样本半自动标记方法，主要包括人为标记感兴趣的区域，接下来使用背景建模算法和定位网络相融合的对标记区域进行自动更新，进而完成整个视频样本的标记工作。

如图1所示，具体流程为：

S1)、打开视频样本；

S2) 、获取当前帧图像；

S31)、判定是否第一帧，若是第一帧则执行以下步骤：(图2)

S33)、然后提取ROI区域（感兴趣区域，也就是标记的区域），转换为HSV色彩空间，计算该ROI区域的色彩直方图，并归一化到0-255的取值范围内，建立起背景模型；

S41)、若不是第一帧则人工判断是否需要暂停自动标记，重新人工标记，若需要，则重复S3步骤，若不需要则进行以下步骤：（图3）

S42）根据其上一帧背景模型z中的位置和大小和颜色直方图作为初始值，计算直方图反向投影得到的颜色概率分布图，在概率分布图上计算窗口内质心，将搜索窗的中心移至质心，经过几次迭代运算，当中心点与质心点小于收敛条件时即表示匹配到了目标，然后集中化收敛的区域并进行标记，这样就得出了背景建模算法下的菜品区域（下称背景区域）；每帧的搜索中心点是上一帧的目标的质心点，由于相邻帧之间时间间隔小，目标变化较小，所以目标部分包含在搜索窗内，计算的迭代次数很少，实时性很高；

S43)、将当前图像提交给已经训练好的定位网络，定位网络根据上传的图像，定位出当前图像中菜品的具***置，这样就获取了定位网络下的菜品区域。（下称定位区域）

S44)、首先计算背景区域和定位区域的并集和交集；

S45)、然后计算交集所占并集的比例，大于阈值的认为匹配成功，对于匹配成功的区域，则将背景区域的信息传递给定位区域；小于阈值的认为匹配失败；这就是IOU算法的具体步骤，IOU算法是计算区域占比，时间复杂度为O(1)，所以IOU匹配两个区域的实时性也能得到保证；

S46)、循环计算所有背景区域找到对应的定位区域，若所有的定位区域和此背景区域都不符合条件，则放弃此背景更新，保留原有信息；同时更新视频显示画面；

S51)、获取上述步骤标记的区域坐标以及标签信息，得到标记数据；并持续进行下一帧，直到视频完毕；

S61)、将视频帧图像保存为jpg文件，将标记数据保存为xml文件。

以上所揭露仅为本发明的一个典型的具体实施案例，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所做的等同变化仍视为本发明所涵盖的范围。

Claims

1.一种菜品视频样本半自动标记的方法，其特征在于包括以下步骤：

S01）、打开原始视频；

S02）、获得当前帧图像；

S05)、获取当前标记的区域坐标以及标签等标记数据；

2.根据权利要求1所述的菜品视频样本半自动标记的方法，其特征在于：步骤S01的具体步骤为：S11)、打开视频，如果视频是高清视频，计算背景数据量偏大，对视频处理，把分辨率改小，使用线性邻插值将一帧图像改为适中分辨率大小的图像。

3.根据权利要求1所述的菜品视频样本半自动标记的方法，其特征在于：S31)、判定是否第一帧，若是第一帧则执行以下步骤：

4.根据权利要求1所述的菜品视频样本半自动标记的方法，其特征在于：所述步骤S04的算法采用IOU算法；所述的阈值为0.8。