CN113553954A - 行为识别模型的训练方法及装置、设备、介质和程序产品 - Google Patents
行为识别模型的训练方法及装置、设备、介质和程序产品 Download PDFInfo
- Publication number
- CN113553954A CN113553954A CN202110837775.4A CN202110837775A CN113553954A CN 113553954 A CN113553954 A CN 113553954A CN 202110837775 A CN202110837775 A CN 202110837775A CN 113553954 A CN113553954 A CN 113553954A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- recognition model
- behavior recognition
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 296
- 238000000034 method Methods 0.000 title claims abstract description 159
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000006399 behavior Effects 0.000 claims description 177
- 239000013598 vector Substances 0.000 claims description 82
- 238000007781 pre-processing Methods 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 54
- 238000005457 optimization Methods 0.000 claims description 28
- 230000009466 transformation Effects 0.000 claims description 26
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 24
- 230000001965 increasing effect Effects 0.000 claims description 22
- 238000002372 labelling Methods 0.000 claims description 22
- 238000001914 filtration Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000011068 loading method Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 description 17
- 230000002159 abnormal effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 238000005065 mining Methods 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 10
- 230000000717 retained effect Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- VQLYBLABXAHUDN-UHFFFAOYSA-N bis(4-fluorophenyl)-methyl-(1,2,4-triazol-1-ylmethyl)silane;methyl n-(1h-benzimidazol-2-yl)carbamate Chemical compound C1=CC=C2NC(NC(=O)OC)=NC2=C1.C=1C=C(F)C=CC=1[Si](C=1C=CC(F)=CC=1)(C)CN1C=NC=N1 VQLYBLABXAHUDN-UHFFFAOYSA-N 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- RLLPVAHGXHCWKJ-IEBWSBKVSA-N (3-phenoxyphenyl)methyl (1s,3s)-3-(2,2-dichloroethenyl)-2,2-dimethylcyclopropane-1-carboxylate Chemical compound CC1(C)[C@H](C=C(Cl)Cl)[C@@H]1C(=O)OCC1=CC=CC(OC=2C=CC=CC=2)=C1 RLLPVAHGXHCWKJ-IEBWSBKVSA-N 0.000 description 1
- 241001444201 Falco tinnunculus Species 0.000 description 1
- 241001415846 Procellariidae Species 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种行为识别模型的训练方法,包括:获取训练样本集合;所述训练样本集合是对至少一个样本图像通过混合解码和/或数据增强处理得到的;利用所述训练样本集合,训练基于生成对抗网络而搭建的行为识别模型。本申请实施例还同时提供了一种行为识别模型的训练装置、设备、存储介质和程序产品。
Description
技术领域
本申请涉及计算机视觉领域,涉及但不限定于行为识别模型的训练方法及装置、设备、介质和程序产品。
背景技术
对于视频理解任务来说,不同的数据读取格式和低效的前处理极大制约了海量数据驱动下的模型高效训练。此外,不同于去噪、超分等低级别的视觉任务,高层级的识别分类任务对于不同解码和预处理方案十分敏感,当训练与部署采用不同的前处理逻辑时,将极大影响部署精度。然而,因为不同的硬件平台往往提供了不同的解码和预处理实现方案,导致了离线测试和线上部署不可避免地存在不对齐的现象。
发明内容
本申请实施例提供一种行为识别模型的训练方法及装置、设备、介质和程序产品。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种行为识别模型的训练方法,所述方法包括:
获取训练样本集合;所述训练样本集合是对至少一个样本图像通过混合解码和/或数据增强处理得到的;
利用所述训练样本集合,训练基于生成对抗网络而搭建的行为识别模型。
在一些可能的实施方式中,所述获取训练样本集合,包括:从预处理库中随机选取至少一种解码方式和/或至少一种数据增强方案对每一所述样本图像进行预处理,得到所述训练样本集合;所述预处理库中还用于包括至少两种所述解码方式和至少两种所述数据增强方案。
这样,通过设定预处理库,在训练过程中对不同样本图像采用多种方式进行混合解码和数据增强处理,提升对不同硬件平台解码/预处理差异的兼容性和鲁棒性。
在一些可能的实施方式中,所述从预处理库中随机选取至少一种解码方式和至少一种数据增强方案对每一所述样本图像进行预处理,得到所述训练样本集合,包括:从所述预处理库中随机选取一种所述解码方式对所述至少一个样本图像进行数据解码;随机选取一种所述数据增强方案对解码后的每一所述样本图像进行数据增强处理,得到所述训练样本集合。
这样,针对不同硬件平台解码和预处理实现方案的不同,通过在训练过程中采用多种方式混合解码/数据增强处理的手段,提升了模型在线上部署的时候对不同硬件平台解码/预处理差异的兼容性和鲁棒性,对齐了线上线下的测试流程和精度。
在一些可能的实施方式中,所述数据增强方案包括几何变换操作和颜色变换操作,所述随机选取一种所述数据增强方案对解码后的每一所述样本图像进行数据增强处理,得到所述训练样本集合,包括:对解码后的每一所述样本图像进行随机的几何变换操作和/或颜色变换操作,得到所述训练样本集合。
这样,在获得的样本图像有限的情况下,可以通过几何变换操作或颜色变换操作来增加训练样本的多样性,在提升模型高效训练的同时,增强了模型对于部署前处理的鲁棒性,避免过拟合。
在一些可能的实施方式中,所述方法还包括:利用统一的数据载入接口,对不同存储格式的图像进行格式转换,得到统一格式的所述至少一个样本图像。
这样,对不同存储格式的图像进行格式统一,得到相同格式的图像数据,从而便于后续对图像数据进行解码和数据增强处理。
在一些可能的实施方式中,所述训练样本集合包括真实标注数据和生成的虚拟样本数据;所述搭建的行为识别模型包括骨干网络、与所述骨干网络的输出分别连接的分类器、生成器和判别器;所述利用所述训练样本集合,训练基于生成对抗网络而搭建的行为识别模型,包括:按照特定频率交替固定所述行为识别模型的第一部分和第二部分的网络参数;其中,所述第一部分包括所述骨干网络、所述分类器和所述生成器,所述第二部分包括所述判别器;在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分;其中,所述其中一部分为所述第一部分或所述第二部分。
这样,通过利用大量生成的虚拟样本数据进行业务真实场景行为识别模型的辅助训练,有效地缓解了数据稀缺的问题。同时结合虚拟样本数据来辅助特定类别的少量真实标注数据进行特定频率的对抗训练,实现在特征空间进行跨域的学习,提升了模型对于异常事件检测的整体性能。
在一些可能的实施方式中,所述在固定所述行为识别模型中其中一部分的网络参数的情况下,利用真实标注数据和生成的虚拟样本数据,迭代训练所述行为识别模型的剩余部分,包括:在固定所述第一部分的网络参数的情况下,通过所述骨干网络对所述真实标注数据和所述虚拟样本数据进行特征提取,得到所述真实标注数据的第一特征向量和所述虚拟样本数据的第二特征向量;利用所述第一特征向量和所述第二特征向量,迭代训练所述判别器。
这样,通过训练好的骨干网络对输入的真实标注数据和虚拟样本数据进行特征提取,得到真实标注数据和虚拟样本数据各自的特征向量,然后利用特征向量迭代训练判别器分辨真假样本数据的能力。这样迭代训练多个周期后,判别器能准确判别骨干网络输出的特征向量属于真实标注数据还是虚拟样本数据。
在一些可能的实施方式中,所述在固定所述行为识别模型中其中一部分的网络参数的情况下,利用真实标注数据和生成的虚拟样本数据,迭代训练所述行为识别模型的剩余部分,包括:在固定所述第二部分的网络参数的情况下,通过所述判别器为所述骨干网络输出的特征向量标注真或假标签;利用所述携带真标签的特征向量对应的数据和所述携带假标签的特征向量对应的数据,迭代训练所述分类器;利用所述携带假标签的特征向量对应的数据,迭代训练所述生成器。
这样,通过训练好的判别器对骨干网络输出的特征向量标注真或假标签,然后利用标注的真实数据和虚拟数据反向训练分类器,以对骨干网络输出的特征向量预测得到异常行为的预测分数;并利用标注的虚拟数据反向训练生成器,为虚拟样本数据确定真标签的能力。这样迭代训练若干周期后得到的分类器能准确预测视频数据中的异常行为,生成器能生成尽可能真的虚拟数据。
在一些可能的实施方式中,所述在固定所述行为识别模型中其中一部分的网络参数的情况下,利用真实标注数据和生成的虚拟样本数据,迭代训练所述行为识别模型的剩余部分,包括:确定所述分类器的分类损失和所述判别器的对抗损失;对所述分类损失和所述对抗损失进行加权求和,确定所述行为识别模型的优化目标函数;按照所述优化目标函数,在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分。
这样,通过对分类损失和对抗损失两个损失函数的加权求和,确定行为识别模型的优化目标函数。从而通过优化目标函数实现最大化判别器损失并最小化分类损失,提升模型训练的稳定性和精度。
在一些可能的实施方式中,所述方法还包括:通过调整所述对抗损失的权重,得到更新的优化目标函数;所述按照所述优化目标函数,在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分,包括:按照所述更新的优化目标函数,在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分。
这样,通过这种设计调整对抗损失的权重,以达到最大化判别器损失并最小化分类损失的优化目标,就能获得比直接混合训练更好的性能。
在一些可能的实施方式中,所述在固定所述行为识别模型中其中一部分的网络参数的情况下,利用真实标注数据和生成的虚拟样本数据,迭代训练所述行为识别模型的剩余部分,包括:确定所述虚拟样本数据通过所述分类器的分类损失;将所述分类损失大于等于第一阈值的第一样本数据迭代过滤;其中,所述第一阈值在每一次过滤过程中的取值依次增大到固定值;在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和过滤后的所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分。
这样,在训练到一定阶段时,根据分类器的预测分数对分类损失大即低质量的虚拟样本数据进行逐渐过滤,然后保留高质量的虚拟样本数据和少量的真实采集数据进行对抗训练,从而剔除样本中的噪声数据,减少不必要的模型拟合。随着模型训练的进行,只有高度相似的有效虚拟样本数据被保留下来进行辅助对抗训练,提升了模型对于异常事件检测的整体性能,缓解了异常数据稀缺和生成数据噪声大等两难局面。
在一些可能的实施方式中,所述在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和过滤后的所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分,包括:将所述过滤后的所述虚拟样本数据作为第二样本数据;在所述第二样本数据的分类损失大于等于第二阈值的情况下,增加所述第二样本数据的权重;其中,所述第二阈值小于所述第一阈值;在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述第二样本数据,迭代训练所述行为识别模型的剩余部分。
这样,针对相对其他样本更难识别而导致分类损失较大的第二样本数据,通过增加训练过程中第二样本数据的权重,增强了模型对困难样本的学习能力。在避免误拟合噪声样本数据的前提下,实现在线动态的困难样本挖掘。
在一些可能的实施方式中,所述在所述第二样本数据的分类损失大于等于第二阈值的情况下,增加所述第二样本数据的权重,包括:根据所述第二样本数据的分类损失,从所述第二样本数据中确定中间难度等级的难分样本数据作为新的第二样本数据;在所述新的第二样本数据的分类损失大于第二阈值的情况下,增加所述新的第二样本数据的权重。
这样,为避免由于一味地根据分类损失值大小来决定第二样本数据的权重而导致噪声数据增大的影响,可以只进行中等难度的难分样本的在线挖掘,防止噪声数据误拟合的同时提升对真正难样本的召回。
在一些可能的实施方式中,所述方法还包括:获取原始视频流数据;对所述原始视频流数据进行预处理,得到待识别视频序列;利用所述已训练的行为识别模型对所述待识别视频序列进行识别,确定所述待识别视频序列中的异常行为。
这样,由于已训练的行为识别模型对不同硬件平台的部署鲁棒性较强,在使用该行为识别模型对线下的待识别视频序列进行识别时,可以得到与线上部署时对齐的精度。
第二方面,本申请实施例提供一种行为识别模型的训练装置,包括样本获取模块和模型训练模块,其中:
所述样本获取模块,用于获取训练样本集合;所述训练样本集合是对至少一个样本图像通过混合解码和/或数据增强处理得到的;
所述模型训练模块,用于利用所述训练样本集合,训练基于生成对抗网络而搭建的行为识别模型。
第三方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述行为识别模型的训练方法中的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述行为识别模型的训练方法中的步骤。
第五方面,本申请实施例提供一种计算机程序,包括计算机可读代码,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行配置为实现上述行为识别模型的训练方法中的步骤。
第六方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括一条或多条指令,所述一条或多条指令适于由处理器加载并执行上述行为识别模型的训练方法中的步骤。
本申请实施例提供的技术方案带来的有益效果至少包括:
在本申请实施例中,首先,获取至少一个由经过任一数据预处理方案进行数据解码和数据增强处理后得到的样本图像,并形成训练样本集合;然后,利用训练样本集合,训练基于生成对抗网络而搭建的行为识别模型,能够针对不同硬件平台解码和预处理实现方案的不同,通过在训练过程中采用多种方式混合解码/预处理的手段,在提升模型高效训练的同时,增强了行为识别模型对于不同硬件平台部署前处理的鲁棒性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本申请实施例提供的行为识别模型的训练方法的流程示意图;
图2为本申请实施例提供的行为识别模型的训练方法的流程示意图;
图3A为本申请实施例提供的行为识别模型的训练方法的流程示意图;
图3B为本申请实施例提供的行为识别模型的训练方法的流程示意图;
图3C为本申请实施例提供的行为识别模型的训练方法的流程示意图;
图4A为本申请实施例提供的行为识别模型的训练方法的流程示意图;
图4B为本申请实施例提供的行为识别模型的训练方法的流程示意图;
图4C为本申请实施例提供的行为识别模型的训练方法的流程示意图;
图5A为本申请实施例提供的行为识别模型的训练方法的逻辑流程图;
图5B为本申请实施例提供的行为识别模型的训练方法的***框图;
图5C为本申请实施例提供的统一数据载入接口的示意图;
图5D为本申请实施例提供的鲁棒性预处理方案的示意图;
图5E为本申请实施例提供的自动数据增强处理的示意图;
图6为本申请实施例提供的一种行为识别模型的训练装置的组成结构示意图;
图7为本申请实施例提供的一种电子设备的硬件实体示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。以下实施例用于说明本申请,但不用来限制本申请的范围。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
需要指出,本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请实施例所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本申请实施例提供的方案涉及人工智能技术,具体通过如下实施例进行说明:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例所涉及机器学习技术。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
骨干网络(backbone):指的是提取特征的网络,其作用就是提取图片中的信息,供后面的网络使用。
全连接层(Fully Connected Layer,FC):在整个卷积神经网络中起到“分类器”的作用,即对上一层提取的特征实现分类。
二分类:表示分类任务中有两个类别,比如对数据来源进行分类,可能得到数据来源是真实数据或虚拟数据两类不同的结果。二分类是假设每个样本都被设置了一个且仅有一个标签,一个数据可以是真实数据或者虚拟数据,但是同时不可能是两者。
损失函数(loss function):用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好。不同的模型用的损失函数一般也不一样。
交叉熵损失函数(Cross-entropy loss function):本质上也是一种对数似然函数,可用于二分类和多分类任务中。
生成对抗网络(Generative Adversarial Networks,GAN)是进行样本生成的一种强大的深度学习算法。生成对抗网络包括生成网络和判别网络。传统的生成对抗网络首先根据随机噪声生成样本和真实样本训练生成器,利用真实样本和生成器生成的样本训练判别器,使其尽可能多地分辨真实样本和生成的伪样本。然后训练生成网络,使其尽可能减小训练样本和生成样本之间的差距。两者循环迭代更新,最后使生成样本和真实样本分布一致,从而生成高质量的困难样本。生成对抗网络生成的样本多样性比较高,但是由于随机性比较大,生成的样本的质量不是很稳定。
在生成对抗网络的实际训练过程中,分为两个训练过程:一个是判别器使用真实数据和假数据同时来进行训练;另一个是输入假数据(但标签为真的)到组合生成的生成对抗网络中,利用这部分误差来更新生成器。也就是说,判别器将尽可能提高识别真数据和假数据的能力,而生成器将尽可能生成真的数据;判别器使用真实数据和假数据一起来进行训练来更新权值,而生成器只能使用完整模型通过判别器的误差来反馈到前面实现权值更新。
本申请实施例提供一种行为识别模型的训练方法,应用于电子设备。所述电子设备包括但不限于手机、笔记本电脑、平板电脑和掌上上网设备、多媒体设备、流媒体设备、移动互联网设备、可穿戴设备或其他类型的设备。该方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该电子设备至少包括处理器和存储介质。处理器可以用于进行行为识别模型的训练过程的处理,存储器可以用于存储进行行为识别模型的训练过程中需要的数据以及产生的数据。
图1为本申请实施例提供的行为识别模型的训练方法的流程示意图,如图1所示,所述方法至少包括以下步骤:
步骤S110,获取训练样本集合。
这里,所述训练样本集合是对至少一个样本图像通过混合解码和/或数据增强处理得到的。其中,样本图像是对待识别的视频或图像序列中图像内容的形状、纹理、灰度等详细信息的表述。对于行为识别模型,样本图像可以为通过对采集的视频源数据进行异常行为检测得到的真实标注数据,也可以为利用游戏引擎生成的虚拟样本数据。
数据预处理在构建网络模型时是很重要的,往往能够决定训练结果。当然对于不同的数据集,预处理的方法都会有或多或少的特殊性和局限性。不同于去噪、超分等低级别的视觉任务,高层级的识别分类任务对于不同解码方式和数据增强处理方案十分敏感,当训练与部署采用不同的前处理逻辑时,将极大影响部署精度。本申请实施例在训练过程中对不同样本图像采用多种方式进行混合解码和数据增强处理,使得在不同硬件平台下模型对数据解码和数据增强处理的差异不敏感,使得模型对部署前处理鲁棒性显著提高,对齐了线上线下的测试流程和精度。
在实施中,可以预先设置包括所有硬件平台的预处理方法的预处理库,然后在训练过程中随机从预处理库中选取一种解码方式对样本图像进行处理,使得模型对于不同编码器的差异不敏感,或者随机选取一种数据增强方案对样本进行数据增强,使得模型对于兼容混合数据增强实现方案,还可以同时采用多种编码方式和数据增强处理方案混合的手段,从而能够在提升模型高效训练的同时,增强了模型对于部署前处理的鲁棒性。
步骤S120,利用所述训练样本集合,训练基于生成对抗网络而搭建的行为识别模型。
这里,所述基于生成对抗网络而搭建的行为识别模型可以通过在骨干网络的输出之后分别连接分类器、生成器和判别器而得到。
利用骨干网络对真实标注数据和虚拟样本数据进行特征提取,利用分类器对骨干网络输出的特征向量确定异常行为的预测分数,利用判别器对骨干网络输出的特征向量生成判别分数,利用生成器对虚拟样本数据生成评价分数。判别器尽可能的区分特征向量属于真实标注数据还是虚拟样本数据,而生成器生成的评价分数尽可能的为虚拟样本数据标注真的标签,从而实现真实样本数据和虚拟样本数据的对抗训练。
在本申请实施例中,首先,获取至少一个由经过任一数据预处理方案进行数据解码和数据增强处理后得到的样本图像,并形成训练样本集合;然后,利用训练样本集合,训练基于生成对抗网络而搭建的行为识别模型,能够针对不同硬件平台解码和预处理实现方案的不同,通过在训练过程中采用多种方式混合解码/预处理的手段,在提升模型高效训练的同时,增强了行为识别模型对于不同硬件平台部署前处理的鲁棒性。
在一些可能的实施例中,可以通过以下方式获取训练样本集合:从预处理库中随机选取至少一种解码方式和/或至少一种数据增强方案对每一所述样本图像进行预处理,得到所述训练样本集合;所述预处理库中包括至少两种所述解码方式和至少两种所述数据增强方案。这样,通过设定包括多种解码方式和多种数据增加方案的预处理库,在训练过程中对不同样本图像采用多种方式进行混合解码和数据增强处理,提升对不同硬件平台解码/预处理差异的兼容性和鲁棒性。
图2为本申请实施例提供的行为识别模型的训练方法的流程示意图,如图2所示,上述步骤S110“获取训练样本集合”可以通过以下步骤实现:
步骤S210,利用统一的数据载入接口,对不同存储格式的图像进行格式转换,得到统一格式的至少一个样本图像;
这里,所述统一的数据载入接口可以为介于应用***和***软件之间的中间件所实现的数据转换功能,能够将不同格式的数据统一到相同的接口模式。
可以理解的是,不同硬件平台如平行分布式文件***(lustre)、分布式文件***(ceph)、对象***(Object Systems Group,OSG)存储的原始图像具有不同的数据读取格式。如果从这些不同中间件中分别获取的原始图像,直接作为样本图像会极大制约海量数据驱动下的模型高效训练。因此,本申请实施例对不同存储格式的图像进行统一的格式转换,例如对原始图像添加自描述和标注信息,形成可检索的AI数据格式,让训练数据处理更高效。
步骤S220,从预处理库中随机选取一种解码方式对至少一个样本图像进行数据解码;
这里,通过在线上部署多种自编码器,随机选取一种自编码器对需要识别的样本图像进行解码,可以使得行为识别模型对于不同数据解码方式的差异不敏感,提升预处理部署的鲁棒性。
需要说明的是,自编码器是一种无监督的神经网络模型,它可以学习到输入数据的隐含特征,这称为编码(coding),用自编码器(Auto encoder)给数据“压缩”和降维不仅能够给机器“减压”,也有利于数据的可视化。同时用学习到的新特征可以重构出原始输入数据,称之为解码。通过在训练过程中采用多种方式混合解码的手段,在提升模型高效训练的同时,增强了行为识别模型对于部署前处理的鲁棒性。
步骤S230,从预处理库中随机选取一种数据增强方案对解码后的至少一个样本图像进行数据增强处理,得到训练样本集合。
这里,数据增强也叫数据扩增,意思是在不实质性的增加数据的情况下,让有限的数据产生等价于更多数据的价值。数据增强的本质是为了增强模型的泛化能力。数据增强可以分为有监督的数据增强和无监督的数据增强方法。常用的数据增强实现方案包括裁剪、翻转、旋转、缩放、扭曲等几何变换,还有像素扰动、添加噪声、光照调节、对比度调节、样本加和或插值、分割补丁等,另外还有一些用强化学习做数据增强。
在一种可能的实现方式中,所述数据增强处理包括几何变换操作和颜色变换操作,对解码后的每一所述样本图像进行随机的几何变换操作和/或颜色变换操作,得到所述训练样本集合。
这里,几何变换类即对图像进行几何变换,包括翻转、旋转、裁剪、变形、缩放等各类操作,没有改变图像本身的内容,这种方式可能是选择了图像的一部分或者对像素进行了重分布。如果要改变图像本身的内容,就属于颜色变换类的数据增强了,常见的包括噪声、模糊、颜色变换、擦除、填充等等。因此,在获得的样本图像有限的情况下,可以通过几何变换操作或颜色变换操作来增加训练样本的多样性,在提升模型高效训练的同时避免过拟合。
在本申请实施例中,首先对不同存储格式的图像进行格式统一,得到相同格式的图像数据,然后在模型训练阶段提供一个统一的数据载入接口,并对视频数据选取随机的解码和预处理等数据增强方案。这样,提升了模型在线上部署的时候对不同硬件平台解码/预处理差异的兼容性和鲁棒性,解决了线上线下平台部署不一致/鲁棒性不足的问题。
在一些可能的实施例中,所述训练样本集合包括真实标注数据和生成的虚拟样本数据;所述搭建的行为识别模型包括骨干网络、与所述骨干网络的输出分别连接的分类器、生成器和判别器。图3A为本申请实施例提供的行为识别模型的训练方法的流程示意图,如图3A所示,上述步骤S120“利用所述训练样本集合,训练基于生成对抗网络而搭建的行为识别模型”可以通过以下步骤实现:
步骤S310,按照特定频率交替固定行为识别模型的第一部分和第二部分的网络参数;
这里,所述特定频率可以为预先设定的切换频率,例如切换频率f=2,5,10...次/秒。在一些实施方式中,可以基于迭代固定次数确定交替训练的频率;在另一些实施方式中,还可以基于损失的变化确定交替训练的频率。
所述第一部分包括所述骨干网络、所述分类器和所述生成器,所述第二部分包括所述判别器。交替固定行为识别模型的第一部分和第二部分的网络参数,也就是对第一部分和第二部分分别进行训练。
步骤S320,在固定行为识别模型中其中一部分的网络参数的情况下,利用真实标注数据和虚拟样本数据,迭代训练行为识别模型的剩余部分。
这里,所述真实标注数据是待识别视频或图像序列中特定类别的真实数据进行标注得到的。对于道路交通场景下的异常行为检测,该真实标注数据即为躺卧行为标注数据、跌倒行为标注数据等,通常这些类别的异常行为为小概率事件,使得这部分真实标注数据比较稀缺,从而需要生成大量的虚拟样本数据来辅助真实标注数据进行模型的冷启动。
这里,所述虚拟样本数据为游戏引擎生成,在实施中可以通过设置不同的参数(包括视角、天气、光照、场景等)来生成任意的数据。
本申请实施例通过游戏引擎生成的数据作为虚拟样本数据来进行业务真实场景行为识别模型的辅助训练,有效地缓解了数据稀缺的问题,提升了模型对于异常事件检测的整体性能。
这里,所述其中一部分为所述第一部分或所述第二部分。上述固定行为识别模型的其中一部分的网络参数迭代训练剩余部分,也就是先固定骨干网络、分类器和生成器的网络参数以训练判别器,得到训练后的判别器;然后固定训练后的判断器的网络参数,对分类器和生成器进行反向传播训练。
示例地,设定所述特定频率如迭代训练的切换频率为每秒两次,在0到0.5秒内,固定行为识别模型中骨干网络、分类器、生成器的网络参数,利用真实标注数据和虚拟样本数据训练判别器,完成第一轮训练过程;在0.5到1秒内,固定上一轮训练的判别器的网络参数,利用真实标注数据和虚拟样本数据训练骨干网络、分类器和生成器,完成第二轮训练过程;在1秒到1.5秒内,则固定第二轮训练的骨干网络等网络参数,继续训练判别器,完成第三轮训练过程;如此,每经过0.5秒固定行为识别模型的一部分迭代训练剩余部分,直至各部分的网络参数都达到要求,得到训练好的行为识别模型。
在一些可能的实施方式中,训练判别器的过程可以通过以下步骤实现:在固定所述第一部分的网络参数的情况下,通过所述骨干网络对所述真实标注数据和所述虚拟样本数据进行特征提取,得到所述真实标注数据的第一特征向量和所述虚拟样本数据的第二特征向量;利用所述第一特征向量和所述第二特征向量,迭代训练所述判别器。
上述过程通过训练好的骨干网络对输入的真实标注数据和虚拟样本数据进行特征提取,得到真实标注数据和虚拟样本数据各自的特征向量,然后利用特征向量迭代训练判别器分辨真假样本数据的能力。这样迭代训练多个周期后,最终训练好的判别器能让真实标注数据的特征向量输出的分数尽可能接近1,让虚拟样本数据的特征向量输出的分数尽可能接近0,也就是说判别器能准确判别骨干网络输出的特征向量属于真实标注数据还是虚拟样本数据。
在一些可能的实施方式中,训练分类器和生成器的过程可以通过以下步骤实现:在固定所述第二部分的网络参数的情况下,通过所述判别器为所述骨干网络输出的特征向量标注真或假标签;利用所述携带真标签的特征向量对应的数据和所述携带假标签的特征向量对应的数据,迭代训练所述分类器;利用所述携带假标签的特征向量对应的数据,迭代训练所述生成器。
上述过程通过训练好的判别器对骨干网络输出的特征向量标注真或假标签,然后利用标注的真实数据和虚拟数据反向训练分类器,以对骨干网络输出的特征向量预测得到异常行为的预测分数;并利用标注的虚拟数据反向训练生成器,为虚拟样本数据确定真标签的能力。这样迭代训练若干周期后得到的分类器能准确预测视频数据中的异常行为,得到的生成器能让虚拟样本数据的特征向量输出的分数尽可能接近1,也就是尽可能地为虚拟样本数据标注真的标签,从而与判别器形成相互对抗,最终达到理想的均衡状态和近似与真实标注数据的生成效果。
在一些可能的实施方式中,可以通过以下过程确定优化目标以完成上述迭代训练:确定所述分类器的分类损失和所述判别器的对抗损失;对所述分类损失和所述对抗损失进行加权求和,确定所述行为识别模型的优化目标函数;按照所述优化目标函数,在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分。
上述过程通过对分类损失和对抗损失两个损失函数的加权求和,确定行为识别模型的优化目标函数。利用优化目标函数不断更新优化网络参数,实现最大化判别器损失并最小化分类损失,从而提升模型训练的稳定性和精度。
在一些可能的实施方式中,还可以通过调整所述对抗损失的权重,得到更新的优化目标函数;按照所述更新的优化目标函数,在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分。通过这种设计调整对抗损失的权重,以达到最大化判别器损失并最小化分类损失的优化目标,就能获得比直接混合训练更好的性能。
在本申请实施例中,结合虚拟样本数据来辅助特定类别的少量真实标注数据进行特定频率的对抗训练,实现在特征空间进行跨域的学习,提升了模型对于异常事件检测的整体性能。在训练过程中,通过先固定骨干网络、分类器和生成器的网络参数以训练判别器,得到训练后的判别器;然后固定训练后的判断器的网络参数,对分类器和生成器进行反向传播训练。如此迭代循环训练,使得生成器为判别器提供虚拟样本数据进行训练,判别器则为生成器和分类器提供优化目标,最后得到最优的行为识别模型。
图3B为本申请实施例提供的行为识别模型的训练方法的流程示意图,如图3B所示,上述步骤S320“在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分”可以通过以下过程实现:
步骤S3201,确定分类器的分类损失和判别器的对抗损失;
这里,将骨干网络提取的真实标注数据的特征向量和虚拟样本数据的特征向量,作为分类器的输入,使分类器输出异常行为的预测分数,该过程中产生分类损失;同时将生成器标注的虚拟样本数据经由骨干网络提取的特征向量作为判别器的输入,使判别器区分该特征向量对应的数据的真假,产生对抗损失。
步骤S3202,对分类损失和对抗损失进行加权求和,确定行为识别模型的优化目标函数;
这里,通过对分类损失和对抗损失两个损失函数的加权求和,确定行为识别模型的优化目标函数。利用优化目标函数不断更新优化网络参数,实现最大化判别器损失并最小化分类损失,从而提升模型训练的稳定性和精度。
步骤S3203,在固定所述第一部分的网络参数的情况下,通过所述骨干网络对真实标注数据和虚拟样本数据进行特征提取,得到真实标注数据的第一特征向量和虚拟样本数据的第二特征向量;
步骤S3204,按照优化目标函数,利用第一特征向量和第二特征向量,迭代训练判别器。
这里,训练好的判别器能让真实标注数据的特征向量输出的分数尽可能接近1,让虚拟样本数据的特征向量输出的分数尽可能接近0,也就是说判别器能准确判别骨干网络输出的特征向量属于真实标注数据还是虚拟样本数据。
在本申请实施例中,通过对分类损失和对抗损失两个损失函数的加权求和,确定行为识别模型的优化目标函数。从而通过优化目标函数实现最大化判别器损失并最小化分类损失,提升模型训练的稳定性和精度。这样迭代训练多个周期后,判别器能准确判别骨干网络输出的特征向量属于真实标注数据还是虚拟样本数据。
图3C为本申请实施例提供的行为识别模型的训练方法的流程示意图,如图3C所示,上述步骤S320“在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分”可以通过以下过程实现:
步骤S3211,确定所述分类器的分类损失和所述判别器的对抗损失;
步骤S3212,对所述分类损失和所述对抗损失进行加权求和,确定所述行为识别模型的优化目标函数;
步骤S3213,在固定所述第二部分的网络参数的情况下,通过判别器为骨干网络输出的特征向量标注真或假标签;
这里,训练好的判别器能准确判别骨干网络输出的特征向量属于真实标注数据还是虚拟样本数据,从而为骨干网络输出的特征向量标注真或假标签。
步骤S3214,按照优化目标函数,利用携带真标签的特征向量对应的数据和携带假标签的特征向量对应的数据,迭代训练分类器;
这里,利用标注的真实数据和虚拟数据反向训练分类器,以对骨干网络输出的特征向量预测得到异常行为的预测分数。
步骤S3215,按照优化目标函数,利用携带假标签的特征向量对应的数据,迭代训练生成器。
这里,利用标注的虚拟数据反向训练生成器,为虚拟样本数据确定真标签的能力。这样迭代训练若干周期后得到的分类器能准确预测视频数据中的异常行为,得到的生成器能让虚拟样本数据的特征向量输出的分数尽可能接近1。
在本申请实施例中,通过对分类损失和对抗损失两个损失函数的加权求和,确定行为识别模型的优化目标函数。从而通过优化目标函数实现最大化判别器损失并最小化分类损失,提升模型训练的稳定性和精度。这样迭代训练若干周期后得到的分类器能准确预测视频数据中的异常行为,生成器能尽可能地为虚拟样本数据标注真的标签,从而与判别器形成相互对抗,最终达到理想的均衡状态和近似与真实标注数据的生成效果。
图4A为本申请实施例提供的行为识别模型的训练方法的流程示意图,如图4A所示,上述步骤S320“在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分”可以通过以下过程实现:
步骤S410a,确定虚拟样本数据通过分类器的分类损失;
这里,分类器会对经过骨干网络提取的虚拟样本数据的特征进行预测得到异常行为的预测分数,该预测分数高于一定阈值则判断该虚拟样本数据中存在异常行为。在损失函数为交叉熵损失的情况下,可以进一步对预测分数和标签计算交叉熵确定分类损失。至于实际实施中采用哪种损失函数,本申请实施例对此不作限定。
步骤S420a,将分类损失大于等于第一阈值的第一样本数据迭代过滤;
这里,所述第一阈值表征模型训练中允许的样本数据的最大损失值,在每一次过滤过程中该第一阈值的取值依次增大到固定值。也就是说,根据预测分数对第一样本数据即分类损失大的低质量样本数据进行逐渐过滤。从而,随着模型训练的进行,只有高度相似的有效虚拟样本数据被保留下来进行辅助对抗训练,提升了模型对于异常事件检测的整体性能,缓解了异常数据稀缺和生成数据噪声大等两难局面。
步骤S430a,将过滤后的虚拟样本数据作为第二样本数据;
步骤S440a,在第二样本数据的分类损失大于等于第二阈值的情况下,增加第二样本数据的权重;
这里,所述第二阈值小于所述第一阈值;通过第一阈值已经将分类损失过大的第一样本数据过滤,对于剩下的第二样本数据再判断其分类损失是否大于第二阈值。
针对相对其他样本更难识别而导致分类损失较大的第二样本数据,通过增加训练过程中第二样本数据的权重,增强了模型对困难样本的学习能力。在避免误拟合噪声样本数据的前提下,实现在线动态的困难样本挖掘。
在一些可能的实施例中,在进行困难样本挖掘之前,还可以对第二样本数据进行样本难度的划分,例如根据所述第二样本数据的分类损失,从所述第二样本数据中确定中间难度等级的难分样本数据作为新的第二样本数据;在所述新的第二样本数据的分类损失大于第二阈值的情况下,增加所述新的第二样本数据的权重。
上述过程为避免由于一味地根据分类损失值大小来决定第二样本数据的权重而导致噪声数据增大的影响,可以只进行中等难度的难分样本的在线挖掘,防止噪声数据误拟合的同时提升对真正难样本的召回。
步骤S450a,在固定行为识别模型中其中一部分的网络参数的情况下,利用真实标注数据和第二样本数据,迭代训练行为识别模型的剩余部分。
这里,利用保留下来的第二样本数据来辅助真实标注数据进行对抗训练.
在本申请实施例中,在训练到一定阶段时,根据分类器的预测分数对分类损失大即低质量的虚拟样本数据进行逐渐过滤,然后保留高质量的虚拟样本数据和少量的真实采集数据进行对抗训练,从而剔除样本中的噪声数据,减少不必要的模型拟合。同时在避免误拟合噪声样本数据的前提下,实现在线动态的困难样本挖掘。
图4B为本申请实施例提供的行为识别模型的训练方法的流程示意图,如图4B所示,上述步骤S320“在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分”可以通过以下过程实现:
步骤S410b,确定虚拟样本数据通过分类器的分类损失;
步骤S420b,将分类损失大于等于第一阈值的第一样本数据迭代过滤;
这里,所述第一阈值在每一次过滤过程中的取值依次增大到固定值,从而逐步剔除了虚拟样本数据中的噪声样本数据,只有高度相似的有效虚拟样本数据被保留下来进行辅助对抗训练。
步骤S430b,在固定所述第二部分的网络参数的情况下,通过判别器为骨干网络输出的特征向量标注真或假标签;
步骤S440b,利用携带真标签的特征向量对应的数据和携带假标签的特征向量对应的数据,迭代训练分类器;
步骤S450b,利用携带假标签的特征向量对应的数据,迭代训练生成器。
在本申请实施例中,为减少数据噪声的干扰,在训练过程中利用模型进行动态的低质量生成样本过滤和高质量视频样本保留,然后对不断保留的虚拟样本数据和少量的真实标注数据进行对抗训练。通过训练好的判别器对骨干网络输出的特征向量标注真或假标签,然后利用标注的真实数据和虚拟数据反向训练分类器和生成器。这样迭代训练若干周期后得到的分类器能准确预测视频数据中的异常行为,生成器能生成尽可能真的虚拟数据。
图4C为本申请实施例提供的行为识别模型的训练方法的流程示意图,如图4C所示,上述步骤S320“在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分”可以通过以下过程实现:
步骤S410c,确定虚拟样本数据通过分类器的分类损失;
步骤S420c,将分类损失大于等于第一阈值的第一样本数据迭代过滤;
这里,所述第一阈值在每一次过滤过程中的取值依次增大到固定值,从而逐步剔除了虚拟样本数据中的噪声样本数据,只有高度相似的有效虚拟样本数据被保留下来进行辅助对抗训练。
步骤S430c,在固定所述第一部分的网络参数的情况下,通过所述骨干网络对真实标注数据和虚拟样本数据进行特征提取,得到真实标注数据的第一特征向量和虚拟样本数据的第二特征向量;
这里,骨干网络输出的特征向量只是真实标注数据的和保留的虚拟样本数据的,从而可以减少不必要的模型拟合。
步骤S440c,利用第一特征向量和第二特征向量,迭代训练判别器。
在本申请实施例中,为减少数据噪声的干扰,在训练过程中利用模型进行动态的低质量生成样本过滤和高质量视频样本保留,然后对不断保留的虚拟样本数据和少量的真实标注数据进行对抗训练。利用训练好的骨干网络对输入的真实标注数据和保留的虚拟样本数据进行特征提取,得到真实标注数据和虚拟样本数据各自的特征向量,然后利用特征向量迭代训练判别器分辨真假样本数据的能力。
下面结合一个具体实施例对上述行为识别模型的训练方法进行说明,然而值得注意的是,该具体实施例仅是为了更好地说明本申请,并不构成对本申请的不当限定。
视频中的异常检测是计算机视觉领域的一个重要问题,在智慧城市领域有着广泛的应用,例如检测危害人身安全行为、交通事故和一些不常见的事件等等。然而,大多数的采集视频源的设备仅仅只是记录每刻的动态,而没有起到自动化决策的能力(往往需要特殊人员来负责人工察看)。由于巨大的视频数量,仅靠人力去过滤视频中的内容显然是不太现实的。需要利用计算机视觉和深度学习的技术来自动检测发生在视频中的异常事件。
识别在线视频源中的异常事件是极其困难的。可能的挑战包括由于小概率事件导致标注数据的稀缺、类间/类内方差大、异常事件的主观定义差别、视频源的低分辨率等等。而作为人类,通过常识来进行异常的识别。例如,如果人群聚集在一条通常没有交通的街道,可能会是一个异常发生,例如发生躺卧、跌倒事件即判断为异常发生。对于机器来说,它们没有常识,只有视觉的特征。通常来说,视觉特征越强,则期望的异常检测性能就越好。
对于在线视频源中的异常行为检测,如何筛选出高质量且廉价的生成数据来辅助稀缺的真实数据进行模型的冷启动,以及进一步进行困难样本的挖掘训练,来提升模型的拟合能力显得尤为重要。
同时,对于视频理解任务来说,不同的数据读取格式和低效的前处理极大制约了海量数据驱动下的模型高效训练。此外,不同于去噪、超分等低级别的视觉任务,高层级的识别分类任务对于不同解码和预处理方案十分敏感,当训练与部署采用不同的前处理逻辑时,将极大影响部署精度。然而,因为不同的硬件平台往往提供了不同的解码和预处理实现方案,导致了离线测试和线上部署不可避免地存在不对齐的现象,而且对于视频序列连续帧的采样间隔也不尽相同。因此,如何提升视频识别模型的线上部署鲁棒性是一个必不可少的环节。
对于深度学***台的部署鲁棒性。
本申请实施例期望提供一种用于异常行为检测的动态训练优化和线上鲁棒性部署算法。通过大量由虚幻引擎(Unreal Engine 4,UE4)生成的数据来辅助特定类别的少量异常标注数据(相当于真实标注数据)进行对抗训练。同时利用在线动态质量评估手段过滤掉低质量生成样本,将剩余的高质量生成样本,结合对抗学***台解码和预处理实现方案的不同,通过在训练过程中采用多种方式混合解码/预处理的手段,在提升模型高效训练的同时,增强了模型对于部署前处理的鲁棒性。
对于如何在减少数据噪声的干扰下,充分利用通过游戏引擎生成的廉价数据,来辅助提升模型的性能这一问题,本申请实施例采用一种动态质量过滤的手段进行真假数据的对抗训练,图5A为本申请实施例提供的训练方法的逻辑流程图,如图5A所示,该过程包括以下步骤:
步骤S501,获取少量的真实标注数据和大量虚拟样本数据。
其中,真实标注数据可以为真实的异常行为数据,虚拟样本数据可以为游戏引擎生成的数据。针对现有可收集到的真实异常行为数据稀缺的现实情况,本申请实施例利用游戏引擎生成了大量的行为模拟数据作为虚拟样本数据,旨在丰富不同场景、不同拍摄视角以及不同光照条件下的行为数据多样性,从而间接提升行为识别模型的泛化性能。
步骤S502,利用骨干网络对真实标注数据和虚拟样本数据进行特征提取。
步骤S503,利用判别器对骨干网络输出的特征进行真假样本的二分类判断。
其中,将视频分类的骨干网络的最后一层输出的特征提取出来,送入判别器分支,由判别器判断骨干网络提取的特征是基于输入的真实标注数据还是输入的虚拟样本数据。
步骤S504,在分类器损失和生成器损失的监督下与判别器进行交替训练。
其中,交替训练的过程可以是:设定一个切换频率(例如切换频率f=2,5,10...次/秒),当训练分类器和生成器(Generator)的时候,固定住判别器分支的参数;同理,当训练判别器的时候,固定住骨干网络、分类器和生成器的参数。从而实现对抗训练的目的。其中,优化目标如公式(1)和(2)所示:
其中,Lcls表示分类损失,Ladv表示对抗损失,λadv为对抗损失的权重,公式(1)表示对分类损失和对抗损失进行加权得到的优化目标函数,优化的目的是最大化Ladv,最小化Lcls。
其中,Ladv的取值依赖于骨干网络的网络参数fT、判别器的网络参数D、真实标注数据XT和虚拟样本数据XS;D(fT(xt))为判别器针对特征向量fT(xt)输出的判别分数,D(fT(xs))为判别器针对特征向量fT(xs)输出的判别分数,表示数据xt采样于真实标注数据XT的分布函数的期望值,表示数据xs采样于虚拟样本数据XS的分布函数的期望值。
步骤S505,利用分类器输出的预测分数动态过滤损失大的虚拟样本数据。
除了不同源数据之间的域差异问题之外,虚拟样本数据的大量噪声也会直接影响模型的有效训练。为了剔除生成样本中的噪声样本数据,尽可能保留高质量/特征与真实数据近似的生成样本,减少不必要的模型拟合,本申请实施例提出在训练到一定阶段时,根据预测分数对低质量/损失大的生成样本进行逐渐过滤(例如依次设定损失阈值为由低到高到某个固定的值)。在上述步骤S504执行若干周期后,利用分类器输出的预测分数对损失大的虚拟样本数据进行动态过滤,不再参与训练。从而,随着网络训练的进行,只有高度相似的有效生成样本被保留下来进行辅助对抗训练。
图5B为本申请实施例提供的行为识别模型的训练方法的***框图;如图5B所示,将真实标注数据51b和虚拟样本数据52b一起输入到骨干网络53b中;通过骨干网络53b对输入数据进行特征提取,得到时空特征54b;将时空特征54b分别输入到分类器55b、生成器56b和判别器57b中进行对抗训练。其中分类器55b的组成为全连接层,用于对时空特征54预测类别并输出预测分数58b;生成器56b用于对虚拟样本数据52b的特征产生一个二分类的生成分数59b,给虚拟样本数据52b标注真实标签,也就是让虚拟样本数据52b尽可能为真;判别器57b用于对判断由骨干网络53b输出的特征是基于真实标注数据的还是虚拟样本数据的并输出判别分数60b,判别器57b的结构根据实际的模型而定,本申请实施例使用的是全连接层+批归一化层(Batch Normalization,BN)两层结构,损失函数为二分类的标准交叉熵。在源数据集中,通过这种设计调整对抗损失的权重以及交替训练的频率,就能获得比将真实标注数据和虚拟样本数据直接混合训练更好的性能。
在训练过程中,难免遇到由于事件发生的角度、幅度、光照等影响导致部分虚拟样本数据相对其他样本更难识别,这部分虚拟样本数据成为困难样本。此时,为了增强模型对这部分困难样本的学习能力,本申请实施例在训练过程中进行了在线动态的困难样本挖掘。也就是说,对损失较大的虚拟样本数据施加更大的权重,常见手段有焦点损失(focalloss)、在线难例挖掘(Online Hard Example Mining,OHEM)等。
然而,由于噪声数据的客观存在,如果只是一味地根据分类损失值大小来决定虚拟样本数据的权重,不可避免地会增大噪声数据的影响。因此,本申请实施例在进行困难样本挖掘之前,根据损失值大小对虚拟样本数据进行了样本难度的划分,对于中等难度的困难样本才会进入挖掘流程,提升了模型对于困难样本的拟合能力。
针对不同硬件平台解码和预处理实现方案的不同,本申请实施例通过在训练过程中采用多种方式混合解码/预处理的手段,在提升模型高效训练的同时,增强了模型对于部署前处理的鲁棒性。图5C为本申请实施例提供的几种常见数据格式以及解码和数据增强处理示意图;如图5C所示,对不同的硬件平台例如线上平行分布式文件***51c(lustre)、分布式文件***52c(ceph)、文件***(petrel)54c和对象***53c(OSG)上存储的不同格式的图像数据,通过中间件55c(summer)进行统一的格式转换,再将统一格式后的图像数据输入到开源平台56c(spring.data)上进行模型训练,最后由数据工具57c(pod)、数据工具58c(pttp)、数据工具59c(par)和数据工具60c(pma)等分别获取统一格式的数据,以实现各种识别任务。本申请实施例通过管理数据的中间件55c提供一个统一的数据载入接口(unified interface),将不同格式的数据通过中间件55c统一到相同的接口模式。一种可能的实现方式是中间件55c将所有的模型、样本数据、配置信息等都封装成统一标识(Identity Document,ID)模式,由开源平台56c以调用各种ID的方式调用中间件55c输出的数据,并用于通用物体检测、行人属性识别等任务。
对于预处理部署的鲁棒性,本申请实施例对统一格式后的视频数据选取随机的解码和预处理等数据增强方案,使得模型对于数据解码和预处理方案的差异不敏感,从而提升线上部署的鲁棒性。如图5D所示,本申请实施例在上述开源平台56c部署鲁棒性预处理(robust preprocess)方案,包括:多种编码器51d(decoder)、尺寸改变52d(resize)以及色彩变换53d(color sp),其中:多种编码器51d通过图像处理工具包(Python ImageLibrary,PIL)、开源的计算机视觉库(Open CV)、平台服务器(Kestrel)实现,尺寸改变52d的方式包括线性(linear)、三次方(cubic)、最近邻方法(nn)、加权平均(hamming)等,色彩变换53d的方式包括不同存储格式的影像色彩及饱和度(YUV420P、YUV422)、红绿蓝格式(Red Green Blue,RGB)、视频格式(NV21)等。同时,如图5E所示,针对每一样本图像50e,可以部署包括色彩化51e(color)、剪裁52e(crop)、使均等53e(equalize)、旋转54e(Rotate)、校正55e(gamaaj)等操作的多种自动数据增强处理对样本图像进行数据增强。通过在训练过程中随机采用上述多种方式混合解码/预处理中的任一种进行模型的训练,大大提升模型高效训练的同时,增强了模型对于部署前处理的鲁棒性。
本申请实施例一方面采用多种硬件平台解码和预处理实现方案混合的手段进行模型训练,使得模型对部署前处理鲁棒性显著提高,对齐了线上线下的测试流程和精度。另一方面有效利用了游戏引擎生成的异常模拟数据:首先在训练过程中利用模型进行动态的低质量生成样本过滤和高质量视频样本保留,然后对不断保留的虚拟样本数据和少量的真实标注数据进行对抗训练,提升了模型对于异常事件检测的整体性能,缓解了异常数据稀缺和生成数据噪声大等两难局面。最后,还根据样本的损失值进行中等难度的虚拟样本数据的在线挖掘,防止噪声数据误拟合的同时提升对真正难样本的召回。
本申请实施例更加廉价且充分地利用游戏引擎生成的数据进行业务真实场景行为识别模型的辅助训练,有效地缓解了数据稀缺的问题。同时提升了模型在线上部署的时候对不同硬件平台解码/预处理差异的兼容性和鲁棒性。
本申请实施例可以应用于智能视频分析以及其他场景的异常行为检测,例如在室外的城市街道场景以及室内的轨道交通等场景的视频源采集设备下发生异常行为事件后,部署好的行为检测***自动运行线上的鲁棒性视频流测试,并报警,给相关需求的人员提供了一个高效而便捷的检测能力。
基于前述的实施例,本申请实施例再提供一种行为识别模型的训练装置,所述装置包括所包括的各模块、以及各模块所包括的各子模块以及各单元,可以通过电子设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(Central Processing Unit,CPU)、微处理器(Micro Processing Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field ProgrammableGate Array,FPGA)等。
图6为本申请实施例提供的一种行为识别模型的训练装置的组成结构示意图,如图6所示,所述装置600包括样本获取模块610和模型训练模块620,其中:
所述样本获取模块610,用于获取训练样本集合;所述训练样本集合是对至少一个样本图像通过混合解码和/或数据增强处理得到的;
所述模型训练模块620,用于利用所述训练样本集合,训练基于生成对抗网络而搭建的行为识别模型。
在一些可能的实施例中,所述样本获取模块610还用于从预处理库中随机选取至少一种解码方式和/或至少一种数据增强方案对每一所述样本图像进行预处理,得到所述训练样本集合;所述预处理库中还用于包括至少两种所述解码方式和至少两种所述数据增强方案。
在一些可能的实施例中,所述样本获取模块610包括解码子模块和数据增强子模块,其中:所述解码子模块,用于从所述预处理库中随机选取一种所述解码方式对所述至少一个样本图像进行数据解码;所述数据增强子模块,用于随机选取一种所述数据增强方案对解码后的每一所述样本图像进行数据增强处理,得到所述训练样本集合。
在一些可能的实施例中,所述数据增强方案包括几何变换操作和颜色变换操作,所述数据增强子模块还用于对解码后的每一所述样本图像进行随机的几何变换操作和/或颜色变换操作,得到所述训练样本集合。
在一些可能的实施例中,所述装置600还包括格式转换模块,用于利用统一的数据载入接口,对不同存储格式的图像进行格式转换,得到统一格式的所述至少一个样本图像。
在一些可能的实施例中,所述训练样本集合包括真实标注数据和生成的虚拟样本数据;所述搭建的行为识别模型包括骨干网络、与所述骨干网络的输出分别连接的分类器、生成器和判别器;所述模型训练模块620包括参数固定子模块和迭代训练子模块,其中:所述参数固定子模块,用于按照特定频率交替固定所述行为识别模型的第一部分和第二部分的网络参数;其中,所述第一部分包括所述骨干网络、所述分类器和所述生成器,所述第二部分包括所述判别器;所述迭代训练子模块,用于在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分;其中,所述其中一部分为所述第一部分或所述第二部分。
在一些可能的实施例中,所述迭代训练子模块,包括特征提取单元和训练单元,其中:所述特征提取单元,用于在固定所述第一部分的网络参数的情况下,通过所述骨干网络对所述真实标注数据和所述虚拟样本数据进行特征提取,得到所述真实标注数据的第一特征向量和所述虚拟样本数据的第二特征向量;所述训练单元,用于利用所述第一特征向量和所述第二特征向量,迭代训练所述判别器。
在一些可能的实施例中,所述迭代训练子模块,包括判别单元、分类单元和生成单元,其中:所述判别单元,用于在固定所述第二部分的网络参数的情况下,通过所述判别器为所述骨干网络输出的特征向量标注真或假标签;所述分类单元,用于利用所述携带真标签的特征向量对应的数据和所述携带假标签的特征向量对应的数据,迭代训所述分类器;所述生成单元,用于利用所述携带假标签的特征向量对应的数据,迭代训练所述生成器。
在一些可能的实施例中,所述迭代训练子模块包括损失确定单元、优化目标确定单元和第一迭代训练单元,其中:所述损失确定单元,用于确定所述分类器的分类损失和所述判别器的对抗损失;所述优化目标确定单元,用于对所述分类损失和所述对抗损失进行加权求和,确定所述行为识别模型的优化目标函数;所述第一迭代训练单元,用于按照所述优化目标函数,在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分。
在一些可能的实施例中,所述迭代训练子模块还包括权值调整单元,用于通过调整所述对抗损失的权重,得到更新的优化目标函数;所述第一迭代训练单元还用于按照所述更新的优化目标函数,在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分。
在一些可能的实施例中,所述迭代训练子模块包括样本损失单元、样本过滤单元和第二迭代训练单元,其中:所述样本损失单元,用于确定所述虚拟样本数据通过所述分类器的分类损失;所述样本过滤单元,用于将所述分类损失大于等于第一阈值的第一样本数据迭代过滤;其中,所述第一阈值在每一次过滤过程中的取值依次增大到固定值;所述第二迭代训练单元,用于在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和过滤后的所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分。
在一些可能的实施例中,所述第二迭代训练单元包括确定子单元、调整子单元和训练子单元,其中:所述确定子单元,用于将所述过滤后的所述虚拟样本数据作为第二样本数据;所述调整子单元,用于在所述第二样本数据的分类损失大于等于第二阈值的情况下,增加所述第二样本数据的权重;其中,所述第二阈值小于所述第一阈值;所述训练子单元,用于在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述第二样本数据,迭代训练所述行为识别模型的剩余部分。
在一些可能的实施例中,所述调整子单元,还用于根据所述第二样本数据的分类损失,从所述第二样本数据中确定中间难度等级的难分样本数据作为新的第二样本数据;在所述新的第二样本数据的分类损失大于第二阈值的情况下,增加所述新的第二样本数据的权重。
在一些可能的实施例中,所述装置还包括数据获取模块、预处理模块和行为识别模块,其中:所述数据获取模块,用于获取原始视频流数据;所述预处理模块,用于对所述原始视频流数据进行预处理,得到待识别视频序列;所述行为识别模块,用于利用所述已训练的行为识别模型对所述待识别视频序列进行识别,确定所述待识别视频序列中的异常行为。
这里需要指出的是:以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述行为识别模型的训练方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得电子设备(可以是具有摄像头的智能手机、平板电脑等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ReadOnly Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
对应地,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中任一所述行为识别模型的训练方法中的步骤。
对应地,本申请实施例中,还提供了一种芯片,所述芯片包括可编程逻辑电路和/或程序指令,当所述芯片运行时,用于实现上述实施例中任一所述行为识别模型的训练方法中的步骤。
对应地,本申请实施例中,还提供了一种计算机程序产品,当该计算机程序产品被电子设备的处理器执行时,其用于实现上述实施例中任一所述行为识别模型的训练方法中的步骤。
基于同一技术构思,本申请实施例提供一种电子设备,用于实施上述方法实施例记载的行为识别模型的训练方法。图7为本申请实施例提供的一种电子设备的硬件实体示意图,如图7所示,所述电子设备700包括存储器710和处理器720,所述存储器710存储有可在处理器720上运行的计算机程序,所述处理器720执行所述程序时实现本申请实施例任一所述行为识别模型的训练方法中的步骤。
存储器710配置为存储由处理器720可执行的指令和应用,还可以缓存待处理器720以及电子设备中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random Access Memory,RAM)实现。
处理器720执行程序时实现上述任一项的行为识别模型的训练方法的步骤。处理器720通常控制电子设备700的总体操作。
上述处理器可以为特定用途集成电路(Application Specific IntegratedCircuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(Programmable LogicDevice,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。
上述计算机存储介质/存储器可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种电子设备,如移动电话、计算机、平板设备、个人数字助理等。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本申请实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得设备自动测试线执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (19)
1.一种行为识别模型的训练方法,其特征在于,所述方法包括:
获取训练样本集合;所述训练样本集合是对至少一个样本图像通过混合解码和/或数据增强处理得到的;
利用所述训练样本集合,训练基于生成对抗网络而搭建的行为识别模型。
2.如权利要求1所述的方法,其特征在于,所述获取训练样本集合,包括:
从预处理库中随机选取至少一种解码方式和/或至少一种数据增强方案对每一所述样本图像进行预处理,得到所述训练样本集合;所述预处理库中包括至少两种所述解码方式和至少两种所述数据增强方案。
3.如权利要求2所述的方法,其特征在于,所述从预处理库中随机选取至少一种解码方式和至少一种数据增强方案对每一所述样本图像进行预处理,得到所述训练样本集合,包括:
从所述预处理库中随机选取一种所述解码方式对每一所述样本图像进行数据解码;
随机选取一种所述数据增强方案对解码后的每一所述样本图像进行数据增强处理,得到所述训练样本集合。
4.如权利要求3所述的方法,其特征在于,所述数据增强方案包括几何变换操作和颜色变换操作,所述随机选取一种所述数据增强方案对解码后的每一所述样本图像进行数据增强处理,得到所述训练样本集合,包括:
对解码后的每一所述样本图像进行随机的几何变换操作和/或颜色变换操作,得到所述训练样本集合。
5.如权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
利用统一的数据载入接口,对不同存储格式的图像进行格式转换,得到统一格式的所述至少一个样本图像。
6.如权利要求1至5任一项所述的方法,其特征在于,所述训练样本集合包括真实标注数据和生成的虚拟样本数据;所述搭建的行为识别模型包括骨干网络、与所述骨干网络的输出分别连接的分类器、生成器和判别器;
所述利用所述训练样本集合,训练基于生成对抗网络而搭建的行为识别模型,包括:
交替固定所述行为识别模型的第一部分和第二部分的网络参数;其中,所述第一部分包括所述骨干网络、所述分类器和所述生成器,所述第二部分包括所述判别器;
在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分;其中,所述其中一部分为所述第一部分或所述第二部分。
7.如权利要求6所述的方法,其特征在于,所述在固定所述行为识别模型中其中一部分的网络参数的情况下,利用真实标注数据和生成的虚拟样本数据,迭代训练所述行为识别模型的剩余部分,包括:
在固定所述第一部分的网络参数的情况下,通过所述骨干网络对所述真实标注数据和所述虚拟样本数据进行特征提取,得到所述真实标注数据的第一特征向量和所述虚拟样本数据的第二特征向量;
利用所述第一特征向量和所述第二特征向量,迭代训练所述判别器。
8.如权利要求6或7所述的方法,其特征在于,所述在固定所述行为识别模型中其中一部分的网络参数的情况下,利用真实标注数据和生成的虚拟样本数据,迭代训练所述行为识别模型的剩余部分,包括:
在固定所述第二部分的网络参数的情况下,通过所述判别器为所述骨干网络输出的特征向量标注真或假标签;
利用所述携带真标签的特征向量对应的数据和所述携带假标签的特征向量对应的数据,迭代训练所述分类器;
利用所述携带假标签的特征向量对应的数据,迭代训练所述生成器。
9.如权利要求6至8任一项所述的方法,其特征在于,所述在固定所述行为识别模型中其中一部分的网络参数的情况下,利用真实标注数据和生成的虚拟样本数据,迭代训练所述行为识别模型的剩余部分,包括:
确定所述分类器的分类损失和所述判别器的对抗损失;
对所述分类损失和所述对抗损失进行加权求和,确定所述行为识别模型的优化目标函数;
按照所述优化目标函数,在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分。
10.如权利要求9所述的方法,其特征在于,所述方法还包括:
通过调整所述对抗损失的权重,得到更新的优化目标函数;
所述按照所述优化目标函数,在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分,包括:
按照所述更新的优化目标函数,在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分。
11.如权利要求6至10任一项所述的方法,其特征在于,所述在固定所述行为识别模型中其中一部分的网络参数的情况下,利用真实标注数据和生成的虚拟样本数据,迭代训练所述行为识别模型的剩余部分,包括:
确定所述虚拟样本数据通过所述分类器的分类损失;
将所述分类损失大于等于第一阈值的第一样本数据迭代过滤;其中,所述第一阈值在每一次过滤过程中的取值依次增大到固定值;
在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和过滤后的所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分。
12.如权利要求11所述的方法,其特征在于,所述在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和过滤后的所述虚拟样本数据,迭代训练所述行为识别模型的剩余部分,包括:
将所述过滤后的所述虚拟样本数据作为第二样本数据;
在所述第二样本数据的分类损失大于等于第二阈值的情况下,增加所述第二样本数据的权重;其中,所述第二阈值小于所述第一阈值;
在固定所述行为识别模型中其中一部分的网络参数的情况下,利用所述真实标注数据和所述第二样本数据,迭代训练所述行为识别模型的剩余部分。
13.如权利要求12所述的方法,其特征在于,所述在所述第二样本数据的分类损失大于等于第二阈值的情况下,增加所述第二样本数据的权重,包括:
根据所述第二样本数据的分类损失,从所述第二样本数据中确定中间难度等级的难分样本数据作为新的第二样本数据;
在所述新的第二样本数据的分类损失大于第二阈值的情况下,增加所述新的第二样本数据的权重。
14.如权利要求1至13任一项所述的方法,其特征在于,所述方法还包括:
获取原始视频流数据;
对所述原始视频流数据进行预处理,得到待识别视频序列;
利用所述已训练的行为识别模型对所述待识别视频序列进行识别,确定所述待识别视频序列中的异常行为。
15.一种行为识别模型的训练装置,其特征在于,所述装置包括样本获取模块和模型训练模块,其中:
所述样本获取模块,用于获取训练样本集合;所述训练样本集合是对至少一个样本图像通过混合解码和/或数据增强处理得到的;
所述模型训练模块,用于利用所述训练样本集合,训练基于生成对抗网络而搭建的行为识别模型。
16.一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至14任一项所述方法中的步骤。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至14中任一项所述方法中的步骤。
18.一种计算机程序,包括计算机可读代码,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行配置为实现权利要求1至14中任意一项所述的方法。
19.一种计算机程序产品,所述计算机程序产品包括一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1至14任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110837775.4A CN113553954A (zh) | 2021-07-23 | 2021-07-23 | 行为识别模型的训练方法及装置、设备、介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110837775.4A CN113553954A (zh) | 2021-07-23 | 2021-07-23 | 行为识别模型的训练方法及装置、设备、介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113553954A true CN113553954A (zh) | 2021-10-26 |
Family
ID=78104284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110837775.4A Pending CN113553954A (zh) | 2021-07-23 | 2021-07-23 | 行为识别模型的训练方法及装置、设备、介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553954A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989782A (zh) * | 2021-11-08 | 2022-01-28 | 北京理工大学 | 一种多交通参与者交互行为识别方法、***、设备及介质 |
CN114596637A (zh) * | 2022-03-23 | 2022-06-07 | 北京百度网讯科技有限公司 | 图像样本数据增强训练方法、装置及电子设备 |
CN114863225A (zh) * | 2022-07-06 | 2022-08-05 | 腾讯科技(深圳)有限公司 | 图像处理模型训练方法、生成方法、装置、设备及介质 |
CN116842238A (zh) * | 2023-07-24 | 2023-10-03 | 武汉赛思云科技有限公司 | 基于大数据分析的企业数据可视化实现方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3754549A1 (en) * | 2019-06-17 | 2020-12-23 | Sap Se | A computer vision method for recognizing an object category in a digital image |
WO2021017372A1 (zh) * | 2019-08-01 | 2021-02-04 | 中国科学院深圳先进技术研究院 | 一种基于生成对抗网络的医学图像分割方法、***及电子设备 |
CN112329785A (zh) * | 2020-11-25 | 2021-02-05 | Oppo广东移动通信有限公司 | 图像管理方法、装置、终端及存储介质 |
CN112581462A (zh) * | 2020-12-25 | 2021-03-30 | 北京邮电大学 | 工业产品的外观缺陷检测方法、装置及存储介质 |
CN112597864A (zh) * | 2020-12-16 | 2021-04-02 | 佳都新太科技股份有限公司 | 一种监控视频异常检测方法及装置 |
-
2021
- 2021-07-23 CN CN202110837775.4A patent/CN113553954A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3754549A1 (en) * | 2019-06-17 | 2020-12-23 | Sap Se | A computer vision method for recognizing an object category in a digital image |
WO2021017372A1 (zh) * | 2019-08-01 | 2021-02-04 | 中国科学院深圳先进技术研究院 | 一种基于生成对抗网络的医学图像分割方法、***及电子设备 |
CN112329785A (zh) * | 2020-11-25 | 2021-02-05 | Oppo广东移动通信有限公司 | 图像管理方法、装置、终端及存储介质 |
CN112597864A (zh) * | 2020-12-16 | 2021-04-02 | 佳都新太科技股份有限公司 | 一种监控视频异常检测方法及装置 |
CN112581462A (zh) * | 2020-12-25 | 2021-03-30 | 北京邮电大学 | 工业产品的外观缺陷检测方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
曹志义;牛少彰;张继威;: "基于半监督学习生成对抗网络的人脸还原算法研究", 电子与信息学报, no. 02, 15 February 2018 (2018-02-15) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989782A (zh) * | 2021-11-08 | 2022-01-28 | 北京理工大学 | 一种多交通参与者交互行为识别方法、***、设备及介质 |
CN114596637A (zh) * | 2022-03-23 | 2022-06-07 | 北京百度网讯科技有限公司 | 图像样本数据增强训练方法、装置及电子设备 |
CN114596637B (zh) * | 2022-03-23 | 2024-02-06 | 北京百度网讯科技有限公司 | 图像样本数据增强训练方法、装置及电子设备 |
CN114863225A (zh) * | 2022-07-06 | 2022-08-05 | 腾讯科技(深圳)有限公司 | 图像处理模型训练方法、生成方法、装置、设备及介质 |
CN116842238A (zh) * | 2023-07-24 | 2023-10-03 | 武汉赛思云科技有限公司 | 基于大数据分析的企业数据可视化实现方法及*** |
CN116842238B (zh) * | 2023-07-24 | 2024-03-22 | 右来了(北京)科技有限公司 | 基于大数据分析的企业数据可视化实现方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111311563B (zh) | 一种基于多域特征融合的图像篡改检测方法 | |
Afchar et al. | Mesonet: a compact facial video forgery detection network | |
CN111709408B (zh) | 图像真伪检测方法和装置 | |
CN113553954A (zh) | 行为识别模型的训练方法及装置、设备、介质和程序产品 | |
US20190362171A1 (en) | Living body detection method, electronic device and computer readable medium | |
CN108230291B (zh) | 物体识别***训练方法、物体识别方法、装置和电子设备 | |
CN109348211B (zh) | 一种视频帧内帧间编码的通用信息隐藏检测方法 | |
CN112150450B (zh) | 一种基于双通道U-Net模型的图像篡改检测方法及装置 | |
CN111738054B (zh) | 一种基于时空自编码器网络和时空cnn的行为异常检测方法 | |
AU2006252252A1 (en) | Image processing method and apparatus | |
CN110929593A (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
Yang et al. | Spatiotemporal trident networks: detection and localization of object removal tampering in video passive forensics | |
CN111160313A (zh) | 一种基于lbp-vae异常检测模型的人脸表示攻击检测方法 | |
CN111696021B (zh) | 一种基于显著性检测的图像自适应隐写分析***及方法 | |
Fang et al. | Surveillance face anti-spoofing | |
CN111696136A (zh) | 一种基于编解码结构的目标跟踪方法 | |
CN113936235A (zh) | 一种基于质量评估的视频显著性目标检测方法 | |
Zhao et al. | Detecting deepfake video by learning two-level features with two-stream convolutional neural network | |
CN115527276A (zh) | 基于面部光流场与纹理特性融合的深伪视频检测方法 | |
CN111539483A (zh) | 基于gan网络的虚假图像鉴别***及构建方法 | |
Li et al. | Distinguishing computer graphics from photographic images using a multiresolution approach based on local binary patterns | |
CN116563957B (zh) | 一种基于傅里叶域适应的人脸伪造视频检测方法 | |
CN112532999B (zh) | 基于深度神经网络的数字视频删帧篡改检测方法 | |
CN114863249A (zh) | 基于运动特征和外观特征的视频目标检测及域适应方法 | |
CN114841340A (zh) | 深度伪造算法的识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |