CN116091964A - 高位视频场景解析方法以及*** - Google Patents
高位视频场景解析方法以及*** Download PDFInfo
- Publication number
- CN116091964A CN116091964A CN202211664169.8A CN202211664169A CN116091964A CN 116091964 A CN116091964 A CN 116091964A CN 202211664169 A CN202211664169 A CN 202211664169A CN 116091964 A CN116091964 A CN 116091964A
- Authority
- CN
- China
- Prior art keywords
- pixel
- pixel point
- unlabeled
- learning network
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种高位视频场景解析方法以及***。方法包括:根据标注图像数据集对视频解析模型的学生监督学习网络进行训练,输出各个标注像素点的像素类别与预测概率,获得初始学生监督学习网络;将初始学生监督学习网络的模型参数更新至视频解析模型的教师半监督学习网络,获得更新教师半监督学习网络;根据未标注图像数据集对更新教师半监督学习网络进行训练,输出各个未标注像素点的像素类别与预测概率,获得初始教师半监督学习网络;根据各个标注像素点的像素类别与预测概率以及各个未标注像素点的像素类别与预测概率构建网络损失函数对视频解析模型进行模型优化,获得训练完成的视频解析模型,对原始目标图像进行解析。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种高位视频场景解析方法以及***。
背景技术
近年来,高位视频技术发展迅速,通过在路侧安装高位视频摄像头进行数据采集,利用视觉算法对采集的数据可实现车辆分割、车道线分割、泊位线分割、可通行区域分割、路侧绿植分割等多类别的语义分割任务,从而实现对整个高位摄像头所监控的区域进行全方位的交通场景解析功能,有利于对路侧停车实现更加精细且准确的管理,且可以为车路协同技术的部署与发展提供数据,从而对于城市的交通管理、行车安全等各个方面都具有积极地促进作用。
但是,为了降低人工和时间成本,传统方法利用多边形标注工具对高位视频摄像头采集的视频场景图像数据中的少量部分数据进行逐像素的人工标注,用于解析模型的建立。进而,传统方法建立的解析模型无法充分利用采集的所有数据进行模型训练,容易忽略一些复杂场景的数据,使得高位视频场景解析的准确度偏低,无法适用于复杂场景的解析。
发明内容
本发明的目的是解决传统方法高位视频场景解析的准确度偏低的技术问题。为实现上述目的,本发明提供一种高位视频场景解析方法以及***。
本发明提供一种高位视频场景解析方法,包括:
获取标注图像数据集与未标注图像数据集;
根据所述标注图像数据集对视频解析模型的学生监督学习网络进行训练,输出各个标注像素点的像素类别与预测概率,获得初始学生监督学习网络;
将所述初始学生监督学习网络的模型参数更新至所述视频解析模型的教师半监督学习网络,获得更新教师半监督学习网络;
根据所述未标注图像数据集对所述更新教师半监督学习网络进行训练,输出各个未标注像素点的像素类别与预测概率,获得初始教师半监督学习网络;
根据所述各个标注像素点的像素类别与预测概率以及所述各个未标注像素点的像素类别与预测概率构建网络损失函数,并根据所述网络损失函数对所述视频解析模型进行模型优化,获得训练完成的视频解析模型;
根据所述训练完成的视频解析模型对原始目标图像进行解析。
在一个实施例中,所述根据所述各个标注像素点的像素类别与预测概率以及所述各个未标注像素点的像素类别与预测概率构建损失函数,并根据所述损失函数对所述视频解析模型进行模型优化,获得训练完成的视频解析模型之前,所述方法还包括:
根据所述各个未标注像素点的所述预测概率,将所述各个未标注像素点划分为可信伪像素点集与非可信伪像素点集;
将所述标注图像数据集与所述可信伪像素点集作为学习目标,将所述标注图像数据集与所述可信伪像素点集中各个像素点的中心点作为正样本,将所述标注图像数据集中异常像素点与所述非可信伪像素点集中异常像素点作为负样本;
根据所述学习目标、所述正样本以及所述负样本构建对比学习损失函数,并根据所述对比学习损失函数与所述网络损失函数对所述视频解析模型进行模型优化,获得所述训练完成的视频解析模型;
其中,所述对比学习损失函数为:
x表示每个所述学习目标,x+表示每个所述学习目标对应的所述正样本,x-表示每个所述学习目标对应的所述负样本,M表示每个所述学习目标对应的所述负样本的数量,C表示所述像素类别的数目,N表示所述学习目标对应的所有像素数目。
在一个实施例中,所述根据所述各个未标注像素点的所述预测概率,将所述各个未标注像素点划分为可信伪像素点集与非可信伪像素点集,包括:
计算每个所述未标注像素点的概率分布的熵,判断每个所述未标注像素点的概率分布的熵是否低于熵阈值;
若所述未标注像素点的概率分布的熵低于所述熵阈值,则所述未标注像素点为所述可信伪像素点;
若所述未标注像素点的概率分布的熵不低于所述熵阈值,则所述未标注像素点为所述非可信伪像素点;
其中,每个所述未标注像素点的概率分布的熵为:
i表示第i张未标注图像,j表示所述第i张未标注图像的第j个像素,Pij表示每个所述未标注像素点的所述预测概率,C表示所述各个未标注像素点的像素类别数目。
在一个实施例中,所述将所述初始学生监督学习网络的模型参数更新至所述视频解析模型的教师半监督学习网络,获得更新教师半监督学习网络,包括:
根据指数滑动平均方法,将所述初始学生监督学习网络的模型参数更新至所述视频解析模型的教师半监督学习网络,获得所述更新教师半监督学习网络。
在一个实施例中,所述初始学生监督学习网络的网络结构与所述初始教师半监督学习网络的网络结构相同,包括基于卷积神经网络的编码器网络与解码器网络。
在一个实施例中,本发明提供一种高位视频场景解析***,包括:
数据获取模块,用于获取标注图像数据集与未标注图像数据集;
初始学生监督学习网络模块,用于根据所述标注图像数据集对视频解析模型的学生监督学习网络进行训练,输出各个标注像素点的像素类别与预测概率,获得初始学生监督学习网络;
更新教师半监督学习网络模块,用于将所述初始学生监督学习网络的模型参数更新至所述视频解析模型的教师半监督学习网络,获得更新教师半监督学习网络;
初始教师半监督学习网络模块,用于根据所述未标注图像数据集对所述更新教师半监督学习网络进行训练,输出各个未标注像素点的像素类别与预测概率,获得初始教师半监督学习网络;
模型训练模块,用于根据所述各个标注像素点的像素类别与预测概率以及所述各个未标注像素点的像素类别与预测概率构建网络损失函数,并根据所述网络损失函数对所述视频解析模型进行模型优化,获得训练完成的视频解析模型;
场景解析模块,用于根据所述训练完成的视频解析模型对原始目标图像进行解析。
在一个实施例中,所述***还包括:
像素点划分模块,用于根据所述各个未标注像素点的所述预测概率,将所述各个未标注像素点划分为可信伪像素点集与非可信伪像素点集;
样本划分模块,用于将所述标注图像数据集与所述可信伪像素点集作为学习目标,将所述标注图像数据集与所述可信伪像素点集中各个像素点的中心点作为正样本,将所述标注图像数据集中异常像素点与所述非可信伪像素点集中异常像素点作为负样本;
视频解析模型获取模块,用于根据所述学习目标、所述正样本以及所述负样本构建对比学习损失函数,并根据所述对比学习损失函数与所述网络损失函数对所述视频解析模型进行模型优化,获得所述训练完成的视频解析模型;
其中,所述对比学习损失函数为:
x表示每个所述学习目标,x+表示每个所述学习目标对应的所述正样本,x-表示每个所述学习目标对应的所述负样本,M表示每个所述学习目标对应的所述负样本的数量,C表示所述像素类别的数目,N表示所述学习目标对应的所有像素数目。
在一个实施例中,所述像素点划分模块包括:
熵判断模块,用于计算每个所述未标注像素点的概率分布的熵,判断每个所述未标注像素点的概率分布的熵是否低于熵阈值;
可信伪像素点获取模块,用于若所述未标注像素点的概率分布的熵低于所述熵阈值,则所述未标注像素点为所述可信伪像素点;
非可信伪像素点获取模块,用于若所述未标注像素点的概率分布的熵不低于所述熵阈值,则所述未标注像素点为所述非可信伪像素点;
其中,每个所述未标注像素点的概率分布的熵为:
i表示第i张未标注图像,j表示所述第i张未标注图像的第j个像素,Pij表示每个所述未标注像素点的所述预测概率,C表示所述各个未标注像素点的像素类别数目。
在一个实施例中,所述更新教师半监督学习网络模块包括:
指数滑动平均模块,用于根据指数滑动平均方法,将所述初始学生监督学习网络的模型参数更新至所述视频解析模型的教师半监督学习网络,获得所述更新教师半监督学习网络。
在一个实施例中,所述初始学生监督学习网络模块中所述初始学生监督学习网络的网络结构与所述初始教师半监督学习网络模块中所述初始教师半监督学习网络的网络结构相同,包括基于卷积神经网络的编码器网络与解码器网络。
上述高位视频场景解析方法以及***中,通过利用未标注图像数据集,作为已标注图像数据集的补充,对学生监督学习网络与教师半监督学习网络进行模型的训练与优化,从而提升模型的场景解析精度,充分利用了未标注数据的有效信息,全面考虑到了各个不同复杂场景下的数据,提高了视频解析模型的精度,可以应用于各种不同视频场景的解析。对高位监控摄像头采集的视频数据进行部分人工标注就可以实现对整体数据的解析,有助于减少人工成本和时间成本,且基于更全面的数据,可以进一步提高路侧场景的解析准确度,从而有利于对路侧停车实现更加精细且准确的管理。
附图说明
图1是本发明提供的高位视频场景解析方法的步骤流程示意图。
图2是本发明提供的高位视频场景解析***的结构示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
请参见图1,本发明提供一种高位视频场景解析方法,其特征在于,包括:
S10,获取标注图像数据集与未标注图像数据集;
S20,根据标注图像数据集对视频解析模型的学生监督学习网络进行训练,输出各个标注像素点的像素类别与预测概率,获得初始学生监督学习网络;
S30,将初始学生监督学习网络的模型参数更新至视频解析模型的教师半监督学习网络,获得更新教师半监督学习网络;
S40,根据未标注图像数据集对更新教师半监督学习网络进行训练,输出各个未标注像素点的像素类别与预测概率,获得初始教师半监督学习网络;
S50,根据各个标注像素点的像素类别与预测概率以及各个未标注像素点的像素类别与预测概率构建网络损失函数,并根据网络损失函数对视频解析模型进行模型优化,获得训练完成的视频解析模型;
S60,根据训练完成的视频解析模型对原始目标图像进行解析。
本实施例中,标注图像数据集与未标注图像数据集来源于高位监控摄像头采集的视频数据。对视频数据进行视频拆帧得到图像,对部分图像进行逐像素标注,形成标注图像数据集,剩余未标注部分形成未标注图像数据集。标注类别也可以理解为像素类别,包括车辆、行人、非机动车、绿植、斑马线、车位线、车道线、路侧栏杆等。
视频解析模型包括两个相同网络架构的网络模型,学生监督学习网络与教师半监督学习网络。学生监督学习网络通过利用标注数据进行语义分割任务的学习。教师半监督学习网络用来预测未标注数据的伪标签。学生监督学习网络与教师半监督学习网络的网络结构相同,均由基于卷积神经网络的编码器网络和解码器网络组成。基于卷积神经网络的编码器网络用于进行图像的特征提取,包括但不限于采用ResNet、MobileNet等常用的特征提取网络。基于卷积神经网络的解码器网络用于进行逐像素的图像分割,包括但不限于采用DeepLab、Unet等常用的图像分割网络。将图像数据输入至学习网络进行图像的编解码过程,进一步进行归一化层,得到每个像素的像素类别与预测概率。
在模型训练过程中,每次训练迭代采样相同数量的标注数据和未标注数据。标注图像数据集输入至学生监督学习网络中,通过与标注的标签进行损失函数计算与迭代,进行学生监督学习网络的训练参数的更新,获得初始学生监督学习网络。将初始学生监督学习网络的训练参数,更新给教师半监督学习网络,作为教师模型的训练参数,获得更新教师半监督学习网络。
对于未标注图像数据集,输入至更新教师半监督学习网络中进行训练,获得初始教师半监督学习网络。构造学生监督学习网络对应的损失函数与教师半监督学习网络对应的损失函数,进行模型优化和参数更新。学生监督学习网络对应的损失函数与教师半监督学习网络对应的损失函数形成网络损失函数,对视频解析模型进行模型优化。在一个实施例中,学生监督学习网络对应的损失函数与教师半监督学习网络对应的损失函数使用交叉熵损失函数进行计算。原始目标图像可以理解为待检测的目标图像,输入至训练完成的视频解析模型中,输出获得各个像素点的类别与概率,实现对视频场景的解析。
本发明提供的高位视频场景解析方法,通过利用未标注图像数据集,作为已标注图像数据集的补充,对学生监督学习网络与教师半监督学习网络进行模型的训练与优化,从而提升模型的场景解析精度,充分利用了未标注数据的有效信息,全面考虑到了各个不同复杂场景下的数据,提高了视频解析模型的精度,可以应用于各种不同视频场景的解析。对高位监控摄像头采集的视频数据进行部分人工标注就可以实现对整体数据的解析,有助于减少人工成本和时间成本,且基于更全面的数据,可以进一步提高路侧场景的解析准确度,从而有利于对路侧停车实现更加精细且准确的管理。
在一个实施例中,学生监督学习网络的网络结构与教师半监督学习网络的网络结构相同,包括基于卷积神经网络的编码器网络与解码器网络。
本实施例中,基于卷积神经网络的编码器网络用于进行图像的特征提取。基于卷积神经网络的解码器网络用于进行逐像素的图像分割。
在一个实施例中,S50,根据各个标注像素点的像素类别与预测概率以及各个未标注像素点的像素类别与预测概率构建损失函数,并根据损失函数对视频解析模型进行模型优化,获得训练完成的视频解析模型之前,方法还包括:
S410,根据各个未标注像素点的预测概率,将各个未标注像素点划分为可信伪像素点集与非可信伪像素点集;
S420,将标注图像数据集与可信伪像素点集作为学习目标,将标注图像数据集与可信伪像素点集中各个像素点的中心点作为正样本,将标注图像数据集中异常像素点与非可信伪像素点集中异常像素点作为负样本;
S430,根据学习目标、正样本以及负样本构建对比学习损失函数,并根据对比学习损失函数与网络损失函数对视频解析模型进行模型优化,获得训练完成的视频解析模型;
其中,对比学习损失函数为:
x表示每个学习目标,x+表示每个学习目标对应的正样本,x-表示每个学习目标对应的负样本,M表示每个学习目标对应的负样本的数量,C表示像素类别的数目,N表示学习目标对应的所有像素数目。
本实施例中,各个未标注像素点对应的预测概率会有不同,根据预测概率的大小,可将各个未标注像素点进行划分,形成可信伪像素点与非可信伪像素点两中类别。
标注图像数据集中异常像素点,可以理解为对于有标注的数据中异常像素点为明确不属于某一类别并且难以区分为哪一类别的像素点,可以通过各个标注像素点的预测概率进行区分。非可信伪像素点集中异常像素点,可以理解为对于无标注的数据中异常像素点为不属于某一类别,且不属于置信度最低对应的类别的像素点。
对比学习损失函数与网络损失函数构成视频解析模型的整体损失函数,可以表示为L=α1Ll+α2Lu+α3Lc。其中,α1、α2、α3表示权重系数,Ll表示学生监督学习网络对应的损失函数、Lu表示教师半监督学习网络对应的损失函数、Lc表示对比学习损失函数。Ll与Lu构成上述实施例中S50步骤中的网络损失函数,两者均采用交叉熵损失函数进行计算。
对于每个学习目标,对应着一个正样本和M个负样本,M的数值可以设置为100至300范围内。视频解析模型的整体损失函数的目标为减少学习目标与对应的正样本之间的距离,增加学习目标与对应的负样本之间的距离,从而可以更好地区分正样本与负样本,提高视频解析模型的场景分析的准确度。
在一个实施例中,教师半监督学习网络对应的损失函数Lu的交叉熵损失函数中,对于未标注图像数据集,将可信伪像素点集作为交叉熵损失函数中真实的标签类别分布。教师半监督学习网络对应的损失函数Lu为:
其中,C表示未标注图像数据集的类别数目,Pc表示未标注像素点的像素类别属于c类的预测概率,yc表示可信伪像素点集对应的真实标签类别分布。
本实施例中,对于未标注数据,基于计算每个未标注像素点的概率分布的熵,并与熵阈值进行对比划分的可信伪像素点,作为真实标签类别分布。
在一个实施例中,S410,根据各个未标注像素点的预测概率,将各个未标注像素点划分为可信伪像素点集与非可信伪像素点集,包括:
S411,计算每个未标注像素点的概率分布的熵,判断每个未标注像素点的概率分布的熵是否低于熵阈值;
S412,若未标注像素点的概率分布的熵低于熵阈值,则未标注像素点为可信伪像素点;
S413,若未标注像素点的概率分布的熵不低于熵阈值,则未标注像素点为非可信伪像素点;
其中,每个未标注像素点的概率分布的熵为:
i表示第i张未标注图像,j表示第i张未标注图像的第j个像素,Pij表示每个未标注像素点的预测概率,C表示各个未标注像素点的像素类别数目。
本实施例中,通过教师半监督学习网络预测得到各个未标注像素点的预测概率,根据每个未标注像素点的概率分布的熵来划分为可信伪标签与不可信伪标签,形成可信伪像素点集与非可信伪像素点集。
每个未标注像素点的概率分布的熵,表示内在的混乱程度。熵值越高的未标注像素点,表明了对应的未标注像素点的像素类别越不明确。熵值越低的未标注像素点,表明了对应的未标注像素点的像素类别越明确,是某一类别的概率越高。通过设置熵阈值,并与未标注像素点的概率分布的熵进行对比判断,实现对可信伪像素点与非可信伪像素点的划分。熵阈值可以根据不同的训练数据、不同的训练模型、不同的训练参数进行设置。熵阈值也可以随着模型训练的进展在进行动态调整。
可信伪像素点可以直接作为学生监督学习网络的输入数据进行迭代与优化。非可信伪像素点被判定为不可信,但是仍然存在可挖掘与应用的价值。非可信伪像素点被判定为不可信,是相对于某几个类别的分类置信度较低,可以作为置信度低类别的负样本进行对比学习。
在一个实施例中,S30,将初始学生监督学习网络的模型参数更新至视频解析模型的教师半监督学习网络,获得更新教师半监督学习网络,包括:
S310,根据指数滑动平均方法,将初始学生监督学习网络的模型参数更新至视频解析模型的教师半监督学习网络,获得更新教师半监督学习网络。
本实施例中,初始学生监督学***均方式更新给教师半监督学***均方法可以实现估计变量的局部均值,使得变量的更新与一段时间内的历史取值有关。滑动平均计算得到的值在图像上会更加平缓光滑,抖动性更小,不会因为某次的异常取值而使得滑动平均值波动很大。通过指数滑动平均方法,将初始学生监督学习网络的模型参数赋予教师半监督学习网络的参数,可以提高视频解析模型的准确度,避免了异常取值带来的波动问题。
请参见图2,在一个实施例中,本发明提供一种高位视频场景解析***100。高位视频场景解析***100包括数据获取模块10、初始学生监督学习网络模块20、更新教师半监督学习网络模块30、初始教师半监督学习网络模块40、模型训练模块50以及场景解析模块60。数据获取模块10用于获取标注图像数据集与未标注图像数据集。初始学生监督学习网络模块20用于根据标注图像数据集对视频解析模型的学生监督学习网络进行训练,输出各个标注像素点的像素类别与预测概率,获得初始学生监督学习网络。更新教师半监督学习网络模块30用于将初始学生监督学习网络的模型参数更新至视频解析模型的教师半监督学习网络,获得更新教师半监督学习网络。
初始教师半监督学习网络模块40用于根据未标注图像数据集对更新教师半监督学习网络进行训练,输出各个未标注像素点的像素类别与预测概率,获得初始教师半监督学习网络。模型训练模块50用于根据各个标注像素点的像素类别与预测概率以及各个未标注像素点的像素类别与预测概率构建网络损失函数,并根据网络损失函数对视频解析模型进行模型优化,获得训练完成的视频解析模型。场景解析模块60用于根据训练完成的视频解析模型对原始目标图像进行解析。
本实施例中,数据获取模块10的相关描述可参考上述实施例中S10的相关描述。初始学生监督学习网络模块20的相关描述可参考上述实施例中S20的相关描述。更新教师半监督学习网络模块30的相关描述可参考上述实施例中S30的相关描述。初始教师半监督学习网络模块40的相关描述可参考上述实施例中S40的相关描述。模型训练模块50的相关描述可参考上述实施例中S50的相关描述。场景解析模块60的相关描述可参考上述实施例中S60的相关描述。
在一个实施例中,高位视频场景解析***100还包括像素点划分模块、样本划分模块以及视频解析模型获取模块。像素点划分模块用于根据各个未标注像素点的预测概率,将各个未标注像素点划分为可信伪像素点集与非可信伪像素点集。样本划分模块用于将标注图像数据集与可信伪像素点集作为学习目标,将标注图像数据集与可信伪像素点集中各个像素点的中心点作为正样本,将标注图像数据集中异常像素点与非可信伪像素点集中异常像素点作为负样本。视频解析模型获取模块,用于根据学习目标、正样本以及负样本构建对比学习损失函数,并根据对比学习损失函数与网络损失函数对视频解析模型进行模型优化,获得训练完成的视频解析模型。
其中,对比学习损失函数为:
x表示每个学习目标,x+表示每个学习目标对应的正样本,x-表示每个学习目标对应的负样本,M表示每个学习目标对应的负样本的数量,C表示像素类别的数目,N表示学习目标对应的所有像素数目。
本实施例中,像素点划分模块的相关描述可参考上述实施例中S410的相关描述。样本划分模块的相关描述可参考上述实施例中S420的相关描述。视频解析模型获取模块的相关描述可参考上述实施例中S430的相关描述。
在一个实施例中,像素点划分模块包括熵判断模块、可信伪像素点获取模块以及非可信伪像素点获取模块。熵判断模块用于计算每个未标注像素点的概率分布的熵,判断每个未标注像素点的概率分布的熵是否低于熵阈值。可信伪像素点获取模块用于若未标注像素点的概率分布的熵低于熵阈值,则未标注像素点为可信伪像素点。非可信伪像素点获取模块用于若未标注像素点的概率分布的熵不低于熵阈值,则未标注像素点为非可信伪像素点。
其中,每个未标注像素点的概率分布的熵为:
i表示第i张未标注图像,j表示第i张未标注图像的第j个像素,Pij表示每个未标注像素点的预测概率,C表示各个未标注像素点的像素类别数目。
本实施例中,熵判断模块的相关描述可参考上述实施例中S411的相关描述。可信伪像素点获取模块的相关描述可参考上述实施例中S412的相关描述。非可信伪像素点获取模块的相关描述可参考上述实施例中S413的相关描述。
在一个实施例中,更新教师半监督学***均模块。指数滑动平均模块用于根据指数滑动平均方法,将初始学生监督学习网络的模型参数更新至视频解析模型的教师半监督学习网络,获得更新教师半监督学习网络。
本实施例中,指数滑动平均模块的相关描述可参考上述实施例中S310的相关描述。
在一个实施例中,初始学生监督学习网络模块中初始学生监督学习网络的网络结构与初始教师半监督学习网络模块中初始教师半监督学习网络的网络结构相同,包括基于卷积神经网络的编码器网络与解码器网络。
本实施例中,基于卷积神经网络的编码器网络与解码器网络的相关描述可参考上述实施例中相关描述。
上述各个实施例中,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于的特定顺序或层次。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),模块和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),模块和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个***的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或模块都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种高位视频场景解析方法,其特征在于,包括:
获取标注图像数据集与未标注图像数据集;
根据所述标注图像数据集对视频解析模型的学生监督学习网络进行训练,输出各个标注像素点的像素类别与预测概率,获得初始学生监督学习网络;
将所述初始学生监督学习网络的模型参数更新至所述视频解析模型的教师半监督学习网络,获得更新教师半监督学习网络;
根据所述未标注图像数据集对所述更新教师半监督学习网络进行训练,输出各个未标注像素点的像素类别与预测概率,获得初始教师半监督学习网络;
根据所述各个标注像素点的像素类别与预测概率以及所述各个未标注像素点的像素类别与预测概率构建网络损失函数,并根据所述网络损失函数对所述视频解析模型进行模型优化,获得训练完成的视频解析模型;
根据所述训练完成的视频解析模型对原始目标图像进行解析。
2.根据权利要求1所述的高位视频场景解析方法,其特征在于,所述根据所述各个标注像素点的像素类别与预测概率以及所述各个未标注像素点的像素类别与预测概率构建损失函数,并根据所述损失函数对所述视频解析模型进行模型优化,获得训练完成的视频解析模型之前,所述方法还包括:
根据所述各个未标注像素点的所述预测概率,将所述各个未标注像素点划分为可信伪像素点集与非可信伪像素点集;
将所述标注图像数据集与所述可信伪像素点集作为学习目标,将所述标注图像数据集与所述可信伪像素点集中各个像素点的中心点作为正样本,将所述标注图像数据集中异常像素点与所述非可信伪像素点集中异常像素点作为负样本;
根据所述学习目标、所述正样本以及所述负样本构建对比学习损失函数,并根据所述对比学习损失函数与所述网络损失函数对所述视频解析模型进行模型优化,获得所述训练完成的视频解析模型;
其中,所述对比学习损失函数为:
x表示每个所述学习目标,x+表示每个所述学习目标对应的所述正样本,x-表示每个所述学习目标对应的所述负样本,M表示每个所述学习目标对应的所述负样本的数量,C表示所述像素类别的数目,N表示所述学习目标对应的所有像素数目。
3.根据权利要求2所述的高位视频场景解析方法,其特征在于,所述根据所述各个未标注像素点的所述预测概率,将所述各个未标注像素点划分为可信伪像素点集与非可信伪像素点集,包括:
计算每个所述未标注像素点的概率分布的熵,判断每个所述未标注像素点的概率分布的熵是否低于熵阈值;
若所述未标注像素点的概率分布的熵低于所述熵阈值,则所述未标注像素点为所述可信伪像素点;
若所述未标注像素点的概率分布的熵不低于所述熵阈值,则所述未标注像素点为所述非可信伪像素点;
其中,每个所述未标注像素点的概率分布的熵为:
i表示第i张未标注图像,j表示所述第i张未标注图像的第j个像素,Pij表示每个所述未标注像素点的所述预测概率,C表示所述各个未标注像素点的像素类别数目。
4.根据权利要求1所述的高位视频场景解析方法,其特征在于,所述将所述初始学生监督学习网络的模型参数更新至所述视频解析模型的教师半监督学习网络,获得更新教师半监督学习网络,包括:
根据指数滑动平均方法,将所述初始学生监督学习网络的模型参数更新至所述视频解析模型的教师半监督学习网络,获得所述更新教师半监督学习网络。
5.根据权利要求1所述的高位视频场景解析方法,其特征在于,所述初始学生监督学习网络的网络结构与所述初始教师半监督学习网络的网络结构相同,包括基于卷积神经网络的编码器网络与解码器网络。
6.一种高位视频场景解析***,其特征在于,包括:
数据获取模块,用于获取标注图像数据集与未标注图像数据集;
初始学生监督学习网络模块,用于根据所述标注图像数据集对视频解析模型的学生监督学习网络进行训练,输出各个标注像素点的像素类别与预测概率,获得初始学生监督学习网络;
更新教师半监督学习网络模块,用于将所述初始学生监督学习网络的模型参数更新至所述视频解析模型的教师半监督学习网络,获得更新教师半监督学习网络;
初始教师半监督学习网络模块,用于根据所述未标注图像数据集对所述更新教师半监督学习网络进行训练,输出各个未标注像素点的像素类别与预测概率,获得初始教师半监督学习网络;
模型训练模块,用于根据所述各个标注像素点的像素类别与预测概率以及所述各个未标注像素点的像素类别与预测概率构建网络损失函数,并根据所述网络损失函数对所述视频解析模型进行模型优化,获得训练完成的视频解析模型;
场景解析模块,用于根据所述训练完成的视频解析模型对原始目标图像进行解析。
7.根据权利要求6所述的高位视频场景解析***,其特征在于,所述***还包括:
像素点划分模块,用于根据所述各个未标注像素点的所述预测概率,将所述各个未标注像素点划分为可信伪像素点集与非可信伪像素点集;
样本划分模块,用于将所述标注图像数据集与所述可信伪像素点集作为学习目标,将所述标注图像数据集与所述可信伪像素点集中各个像素点的中心点作为正样本,将所述标注图像数据集中异常像素点与所述非可信伪像素点集中异常像素点作为负样本;
视频解析模型获取模块,用于根据所述学习目标、所述正样本以及所述负样本构建对比学习损失函数,并根据所述对比学习损失函数与所述网络损失函数对所述视频解析模型进行模型优化,获得所述训练完成的视频解析模型;
其中,所述对比学习损失函数为:
x表示每个所述学习目标,x+表示每个所述学习目标对应的所述正样本,x-表示每个所述学习目标对应的所述负样本,M表示每个所述学习目标对应的所述负样本的数量,C表示所述像素类别的数目,N表示所述学习目标对应的所有像素数目。
8.根据权利要求7所述的高位视频场景解析***,其特征在于,所述像素点划分模块包括:
熵判断模块,用于计算每个所述未标注像素点的概率分布的熵,判断每个所述未标注像素点的概率分布的熵是否低于熵阈值;
可信伪像素点获取模块,用于若所述未标注像素点的概率分布的熵低于所述熵阈值,则所述未标注像素点为所述可信伪像素点;
非可信伪像素点获取模块,用于若所述未标注像素点的概率分布的熵不低于所述熵阈值,则所述未标注像素点为所述非可信伪像素点;
其中,每个所述未标注像素点的概率分布的熵为:
i表示第i张未标注图像,j表示所述第i张未标注图像的第j个像素,Pij表示每个所述未标注像素点的所述预测概率,C表示所述各个未标注像素点的像素类别数目。
9.根据权利要求6所述的高位视频场景解析***,其特征在于,所述更新教师半监督学习网络模块包括:
指数滑动平均模块,用于根据指数滑动平均方法,将所述初始学生监督学习网络的模型参数更新至所述视频解析模型的教师半监督学习网络,获得所述更新教师半监督学习网络。
10.根据权利要求6所述的高位视频场景解析***,其特征在于,所述初始学生监督学习网络模块中所述初始学生监督学习网络的网络结构与所述初始教师半监督学习网络模块中所述初始教师半监督学习网络的网络结构相同,包括基于卷积神经网络的编码器网络与解码器网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211664169.8A CN116091964A (zh) | 2022-12-23 | 2022-12-23 | 高位视频场景解析方法以及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211664169.8A CN116091964A (zh) | 2022-12-23 | 2022-12-23 | 高位视频场景解析方法以及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116091964A true CN116091964A (zh) | 2023-05-09 |
Family
ID=86187771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211664169.8A Pending CN116091964A (zh) | 2022-12-23 | 2022-12-23 | 高位视频场景解析方法以及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116091964A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116594838A (zh) * | 2023-05-18 | 2023-08-15 | 上海麓霏信息技术服务有限公司 | 多模态数据预训练方法及*** |
-
2022
- 2022-12-23 CN CN202211664169.8A patent/CN116091964A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116594838A (zh) * | 2023-05-18 | 2023-08-15 | 上海麓霏信息技术服务有限公司 | 多模态数据预训练方法及*** |
CN116594838B (zh) * | 2023-05-18 | 2023-12-22 | 上海好芯好翼智能科技有限公司 | 多模态数据预训练方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558823B (zh) | 一种以图搜图的车辆识别方法及*** | |
CN109101888B (zh) | 一种游客人流量监控预警方法 | |
CN110929577A (zh) | 一种基于YOLOv3的轻量级框架改进的目标识别方法 | |
CN111368886A (zh) | 一种基于样本筛选的无标注车辆图片分类方法 | |
CN109325502B (zh) | 基于视频渐进区域提取的共享单车停放检测方法和*** | |
CN111241343A (zh) | 一种道路信息监控与分析检测方法、智慧交通控制*** | |
CN114973207B (zh) | 一种基于目标检测的路标识别方法 | |
CN113160575A (zh) | 一种非机动车辆及驾驶人的交通违法行为检测方法及*** | |
CN114170580A (zh) | 一种面向高速公路的异常事件检测方法 | |
CN112232371A (zh) | 一种基于YOLOv3与文本识别的美式车牌识别方法 | |
CN110674887A (zh) | 一种基于视频分类的端到端道路拥堵检测算法 | |
CN116091964A (zh) | 高位视频场景解析方法以及*** | |
CN117152513A (zh) | 一种面向夜间场景的车辆边界定位方法 | |
CN114898243A (zh) | 基于视频流的交通场景解析方法以及装置 | |
CN113408550B (zh) | 基于图像处理的智能称重管理*** | |
CN114842285A (zh) | 路侧泊位号码识别方法以及装置 | |
CN112784494A (zh) | 假阳性识别模型的训练方法、目标识别方法及装置 | |
CN116386018A (zh) | 车牌字符分类方法以及*** | |
CN114663731B (zh) | 车牌检测模型的训练方法及***、车牌检测方法及*** | |
CN110909645A (zh) | 一种基于半监督流形嵌入的人群计数方法 | |
CN115909140A (zh) | 基于高位视频监控的视频目标分割方法以及*** | |
CN115909241A (zh) | 一种车道线检测方法、***、电子设备和存储介质 | |
CN114255450A (zh) | 一种基于前向全景图像的近场车辆加塞行为预测方法 | |
CN114937248A (zh) | 用于跨相机的车辆跟踪方法、装置、电子设备、存储介质 | |
CN114519842A (zh) | 基于高位视频监控的车辆匹配关系判断方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |