CN113297934A

CN113297934A - 检测互联网暴力有害场景的多模态视频行为分析方法

Info

Publication number: CN113297934A
Application number: CN202110512224.0A
Authority: CN
Inventors: 郭承禹; 鲍泽民; 潘进; 王磊
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-08-24
Anticipated expiration: 2041-05-11
Also published as: CN113297934B

Abstract

本发明公开了检测互联网暴力有害场景的多模态视频行为分析方法，主要包括视频场景人物快速定位检测、视频场景行为判别、视频场景有害程度定性三个阶段，该方法在行为识别的基础上，将目标人物情绪、网络评论弹幕情绪作为判定维度，实现对特定有害场景的精准发现。

Description

检测互联网暴力有害场景的多模态视频行为分析方法

技术领域

本发明属于信息安全技术领域，具体涉及一种检测互联网暴力有害场景的多模态视频行为分析方法。

背景技术

随着多媒体技术的发展，各种新兴快捷多元化的媒体表现形式出现在人们日常社交活动中。新兴媒体在给人们生活带来便利的同时，借助飞速发展的网络技术和广泛普及的移动智能终端，大量的负面信息能够人群中快速传播。如何及时发现负面信息，将负面信息的传播扼杀在萌芽阶段，是新型媒体、网络监管部门共同关注的问题，可使社会群众免受负面信息毒害，有效净化网络生态。

海量的用户生成视频中，有害暴力类视频占比极低，样本类别的分布不平衡增加了有害暴力视频的识别难度。当前的有害视频主动发现方法主要针对具有一定限制条件的音视频场景、主题、台标、字幕等信息进行爬取，返回数据量大且冗余内容居多，对进一步的人工判断增加了工作难度。且有害视频的研究多针对色情等场景，对暴力内容的有害判定的研究相对起步较晚。

传统的暴力视频检测方法主要针对视频的音频、图像特征，利用视觉词袋模型、池化技术优化构造视频内容表示特征，仍局限在视频的场景模式特征。对于高层语义层的信息仍难以捕获，导致无法区分对公众有害的内容与影视类、教育类节目内容。此外，作为新媒体中用户间交互的新特点、核心功能，视频的评论信息可以有效辅佐对视频内容的甄别判断。因而引入人物情绪特征和视频评论信息，建立多模态特征融合的多任务学习模型，利用整合各特征，使各子任务和整体任务效益最大化。

发明内容

有鉴于此，本发明提供了一种检测互联网暴力有害场景的多模态视频行为分析方法，能够从海量的用户生成视频中快速精准地发现存在有害场景的视频。

实现本发明的技术方案如下：

检测互联网暴力有害场景的多模态视频行为分析方法，包括以下步骤：

步骤一、将表观特征及该表观特征的旋转不变特征同时作为特征描述符进行人物目标检测；

步骤二、将整个人体进行区域划分为n个区域，对相邻区域依次重组，生成不同尺度的人体区域检测模版，对不同尺度的人体区域检测模版分别利用CNN进行神经网络训练，训练过程的输入为不同遮挡程度的人物视频；

步骤三、进行人体目标检测，检测过程抽象地表示为：

通过特征映射函数k将原始视频x映射到特征矩阵M，再通过部件检测器g，计算评分参数s，s记录了根据表观特征获得的每个部件在检测区域存在的概率，通过步骤二训练得到的分层CNN模型f计算场景中的人体各部件可见性参数v并修正评分参数s，最后通过CNN网络中的判别函数

判别是否有人体目标存在于检测区域计算检测结果y；

步骤四、以动作特征、场景特征和情绪特征作为LSTM(Long Short Term Memory)循环神经网络的输入，目标行为词语作为输出，训练LSTM模型，实现对视频中目标行为的初判断，剔除无有害场景的视频，针对存在有害场景的视频执行步骤五的操作；

步骤五、对基础情感词库中的词进行基础分值标注，形成基础情感词词典，提取视频输入弹幕中的基础情感词，并从基础情感词词典中查询其基础分值进行赋值；

步骤六、将基础情感词词典中的情感类别划分为“乐好怒哀惧恶悲”7个维度，每条维度单独计算情感分值；利用以下公式计算每条弹幕的情感数值；

S＝∑a_jQ(b_j×c_j,b)+∑α_i+∑β_m+∑ε_l

其中，j取值1～J，J为情感词总数；b_j为第j个情感词的基础情感分值，由基础情感词词典直接匹配查询，取值范围[0,1]；c_j＝{1，-1}为判断情感词j是否为被动化动词，用于判定情感词的反向情绪；b为弹幕全部情感词、颜文字、谐音词、连续符号的情感分值矩阵；Q函数为互相关函数，用于计算弹幕中的其他情感词b情感倾向的相关程度，a_j为第j个情感词前后的程度副词加权分数，取值范围[0,N]，N可根据实际需求指定，一般不超过10；α_i、β_m、ε_l分别为颜文字、谐音词、连续标点或数字符号三类特殊弹幕的情绪参数，i取值1～I，m取值1～M，l取值1～L，I、M、L分别为所述三种特殊弹幕的出现个数；

步骤七、在计算每条弹幕的情感数值后，采用Isolation Forest方法进行异常点检测，对同一时间段内的所有弹幕情感数值进行聚类，剔除情感数值异常弹幕，对其他正常弹幕的情感数值进行求和，得到整个视频的情绪参数，所述情绪参数为7维情感类别参数向量，其中，分数最高维度即为视频的整体情感倾向，其数值即为最终情感分值；当整个视频出现“怒惧恶”情绪超过视频时长的1/4时，则将该视频进行推荐。

进一步地，步骤一中，构建表观特征时，选择YUV特征及HOG特征；在构建旋转不变特征时，采用极坐标表示法将图像特征从笛卡尔坐标系变换到极坐标系下，保持特征的空间不变性。

进一步地，n＝10。

进一步地，步骤四中，动作特征选取光流特征，场景特征选择DeCAF特征，情绪特征中，人物面部表情识别整体特征采用PCA(Principal Component Analysis)特征，局部特征采用脸部运动编码分析特征。

进一步地，步骤五中，对于未记录在基础情感词词典中的词语，进行人工标注后加入基础情感词词典中。

有益效果：

1、当前对互联网负面信息检测并不能单纯以传统的场景内容检测或识别方法解决，因为判断互联网信息是否对社会造成负面影响的评断维度较为复杂，大多数信息无法通过浅层的语义特征进行判定，而且传达者、被传达者的情绪高度相关。本发明方法一方面利用视频的场景信息，另一方面建立高层语义信息，如视频内容传达的情绪、受众表现的真实情绪判断视频是否为有害暴力视频，准确性相较于传统方法具有优势。

2、传统的场景人物检测方法针对复杂场景适用性较差，难以应用于互联网海量视频中的有害信息发现，大量缺失信息会造成传统方法的漏检，本发明方法针对视频中人物遮挡问题研提相关方法，能够满足海量视频中的人物快速检测需求，相较于传统人物检测方法具有优势。

3、面对于互联网高速发现，网络词汇、反语反讽、表情符号等内容的出现对传统的弹幕情绪分析方法造成了一定困难，而传统文本反语分析方法大多采用上下文的方式判断是否为反语，不适用于弹幕评论等短文本类反语判断，本发明方法针对上述问题，将目标场景精确到暴力场景提出了一种弹幕情绪分析方法，相较于传统方法，能够更好地应用于有害场景发现应用中。

附图说明

图1为本发明方法流程图。

图2为人体区域拆分模版示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种提出了面向互联网暴力有害场景发现的多模态视频行为分析方法，如图1所示，本发明方法步骤主要分为三个阶段：视频场景人物快速定位检测、视频场景行为判别、视频场景有害程度定性。

在视频场景人物快速检测中，本发明针对互联网中视频人物行为的复杂性，提出一种基于分层深度学***移、旋转等变换鲁棒性强的图像特征，进而构建低层次的卷积神经网络层和高层次的马尔科夫随机场层分别进行人体目标检测与部件分布估计，最终根据求解得到部件位置的概率分布进行目标函数最大化，得到各个二维部件所在的区域。

在选取特征描述符时，本发明方法将表观特征(YUV特征及HOG特征)，及该表观特征的旋转不变特征同时作为特征描述符进行人物目标检测，在构建不变性特征时，采用极坐标表示法将图像特征从笛卡尔坐标系变换到极坐标系下，保持特征的空间不变性。

基于上述特征，选择卷积神经网络器对整个区域的图像特征进行类别标定，为避免复杂场景中的人体部件遮挡导致的误检、漏检，本方法基于人体结构将整个人体进行区域划分为10个区域，如图2所示，对相邻区域依次重组，生成不同尺度的人体区域检测模版，通过对这些具有包含关系的不同尺度下的人体区域模版进行分层，对每层中的每个模版所包含的人体区域分别进行检测与分析，最后通过层与层模版之间的相互包含关系传递上下文信息，修正部件检测器带来的错误判定，增加对局部遮挡人体的检测率，判断人体各个部件在场景中是否处于可见状态，并根据可见状态对表观模型中得到的表观特征进行修正。

一般人体检测方法过程可以抽象地表示为：

其中，x为待检测的输入图像，k为特征映射函数，M为进行特征提取与学习后得到的特征图，g为部件检测器，s为评分参数，记录了根据表观特征获得的每个部件在该检测区域存在的概率，

为判别函数，根据每个人体部件的评分参数判别整个人体目标是否存在于检测区域，最终得到检测的结果y。

在该过程中，由部件检测器获取的评分参数si∈S表示了经过特征映射f得到的表观特征M中的某个区域检测为部件i的概率。然而直接采用该评分参数进行目标判定会因为复杂背景、遮挡等原因产生误差，因此，本方法在此过程中增加另一个参数v以衡量原始图像中的人体各个区域被遮挡的可能性，该参数定义为可见性参数，整个检测过程也可以修正为：

因此，采用概率分布函数表示该模型的目标函数

即为：

其中，p(y|v,s)对应了判别函数

p(v|s)对应了可见性系数估计函数f。判别函数

直接根据可见性参数v及评分参数s判别目标区域被检测到的概率科修正为

因此，求解人体目标检测结果y的主要问题定位在计算MLMM中每层人体区域模版对应的可见性参数v并依此计算期望值

本方法采用受限玻尔兹曼机描述s与v之间的映射关系，相关内容在此不做赘述。根据不同模板的评分参数，本方法可以检测出当场景中的人物发生遮挡或不全时，该判别模板的判别评分会相较于其他模板高，从而能够正确检测出复杂场景中的目标人物。

在视频场景行为判别中，本发明方法引入了视频人物情绪特征，采用LSTM(LongShort Term Memory)循环神经网络分别对底层动作特征、场景特征及视频人物情绪特征三种特征进行场景识别。其中，动作特征选取光流特征，以前后帧的轨迹作为动作特征；场景特征选择DeCAF特征，通过预先定义的暴力场景相关的特定场景实物，检测目标视频中是否包含待检测目标物体；情绪特征选择人物面部表情识别整体特征PCA(PrincipalComponent Analysis)特征与局部特征脸部运动编码分析特征。以上述三组特征作为输入，目标行为词语作为输出，训练LSTM模型，实现对目标行为的初判断，剔除无有害场景的视频，针对存在有害场景的视频进行视频场景有害程度判定。

在有害性判定方面，本发明方法提出一种针对暴力场景的弹幕评论情绪评估方法，该方法首先利用知网提供的基础情感词库，对词库中所有词进行基础分值标注，形成基础情感词词典。对于输入弹幕，通过词过滤方法去除文本中标点，并利用语气词词库提取评论中的语气词，而后利用基于背景去除的隐含狄利克雷分布模型去除视频中高频出现且与观点无关的背景词，最后剩余的词语即为基础情感词，从基础情感词词典中查询其初始分值进行赋值。对于未记录在词典中的词语，进行人工标注后再次加入进词典中。

在情感词的选择上，本方法依据知网情感词库将情感类别划分为“乐好怒哀惧恶悲”7个维度，每条维度单独计算情感分值。在计算每个弹幕的情感数值时，本方法针对网络弹幕特点，设计多维特征评判词语的真实情感：S＝∑a_jQ(b_j×c_j,b)+∑α_i+∑β_m+∑ε_l，j取值1～J，J为情感词总数；b_j为第j个情感词的基础情感分值，由基础情感词词典直接匹配查询，取值范围[0,1]；c_j＝{1，-1}为判断情感词j是否为被动化动词，用于判定情感词的反向情绪；b为弹幕全部情感词、颜文字、谐音词、连续符号的情感分值矩阵；Q函数为互相关函数，用于计算当情感词该弹幕中的其他情感词b情感倾向的相关程度，本方法选取卡方检验和T检验方法对数据相关性进行计算，若相关性较小，则此类弹幕为反语类弹幕的概率较高，以检验参数作为权重减少该情感词情感分值；a_j为第j个情感词前后的程度副词加权分数，取值范围[0,N]，N可根据实际需求指定，一般不超过10；α_i、β_m、ε_l分别为颜文字、谐音词、连续标点或数字符号三类特殊弹幕的情绪参数，i取值1～I，m取值1～M，l取值1～L，I、M、L分别为所述三种特殊弹幕的出现个数。

为降低个性观点对整体视频节目弹幕情绪的影响，本方法在计算单条弹幕的情绪参数后，采用Isolation Forest方法进行异常点检测，对同一时间段内的所有弹幕情绪参数进行聚类，对情绪聚类中异常弹幕进行剔除，以降低其对整体视频情绪参数的影响，在此基础上，对其他正常情绪值的弹幕进行求和计算，得到关于整个节目的情绪参数，该参数为7维情感类别参数向量，其中，分数最高维度即为视频的整体情感倾向，其数值即为最终情感分值。当整个视频出现“怒惧恶”情绪超过视频时长的1/4时，则将该视频进行推荐。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.检测互联网暴力有害场景的多模态视频行为分析方法，其特征在于，包括以下步骤：

步骤三、进行人体目标检测，检测过程抽象地表示为：

判别是否有人体目标存在于检测区域计算检测结果y；

步骤四、以动作特征、场景特征和情绪特征作为LSTM循环神经网络的输入，目标行为词语作为输出，训练LSTM模型，实现对视频中目标行为的初判断，剔除无有害场景的视频，针对存在有害场景的视频执行步骤五的操作；

S＝∑a_jQ(b_j×c_j,b)+∑α_i+∑β_m+∑ε_l

2.如权利要求1所述的检测互联网暴力有害场景的多模态视频行为分析方法，其特征在于，步骤一中，构建表观特征时，选择YUV特征及HOG特征；在构建旋转不变特征时，采用极坐标表示法将图像特征从笛卡尔坐标系变换到极坐标系下，保持特征的空间不变性。

3.如权利要求1所述的检测互联网暴力有害场景的多模态视频行为分析方法，其特征在于，n＝10。

4.如权利要求1所述的检测互联网暴力有害场景的多模态视频行为分析方法，其特征在于，步骤四中，动作特征选取光流特征，场景特征选择DeCAF特征，情绪特征中，人物面部表情识别整体特征采用PCA特征，局部特征采用脸部运动编码分析特征。

5.如权利要求1所述的检测互联网暴力有害场景的多模态视频行为分析方法，其特征在于，步骤五中，对于未记录在基础情感词词典中的词语，进行人工标注后加入基础情感词词典中。