CN113297934A - 检测互联网暴力有害场景的多模态视频行为分析方法 - Google Patents

检测互联网暴力有害场景的多模态视频行为分析方法 Download PDF

Info

Publication number
CN113297934A
CN113297934A CN202110512224.0A CN202110512224A CN113297934A CN 113297934 A CN113297934 A CN 113297934A CN 202110512224 A CN202110512224 A CN 202110512224A CN 113297934 A CN113297934 A CN 113297934A
Authority
CN
China
Prior art keywords
emotion
video
features
words
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110512224.0A
Other languages
English (en)
Other versions
CN113297934B (zh
Inventor
郭承禹
鲍泽民
潘进
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN202110512224.0A priority Critical patent/CN113297934B/zh
Publication of CN113297934A publication Critical patent/CN113297934A/zh
Application granted granted Critical
Publication of CN113297934B publication Critical patent/CN113297934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了检测互联网暴力有害场景的多模态视频行为分析方法,主要包括视频场景人物快速定位检测、视频场景行为判别、视频场景有害程度定性三个阶段,该方法在行为识别的基础上,将目标人物情绪、网络评论弹幕情绪作为判定维度,实现对特定有害场景的精准发现。

Description

检测互联网暴力有害场景的多模态视频行为分析方法
技术领域
本发明属于信息安全技术领域,具体涉及一种检测互联网暴力有害场景的多模态视频行为分析方法。
背景技术
随着多媒体技术的发展,各种新兴快捷多元化的媒体表现形式出现在人们日常社交活动中。新兴媒体在给人们生活带来便利的同时,借助飞速发展的网络技术和广泛普及的移动智能终端,大量的负面信息能够人群中快速传播。如何及时发现负面信息,将负面信息的传播扼杀在萌芽阶段,是新型媒体、网络监管部门共同关注的问题,可使社会群众免受负面信息毒害,有效净化网络生态。
海量的用户生成视频中,有害暴力类视频占比极低,样本类别的分布不平衡增加了有害暴力视频的识别难度。当前的有害视频主动发现方法主要针对具有一定限制条件的音视频场景、主题、台标、字幕等信息进行爬取,返回数据量大且冗余内容居多,对进一步的人工判断增加了工作难度。且有害视频的研究多针对色情等场景,对暴力内容的有害判定的研究相对起步较晚。
传统的暴力视频检测方法主要针对视频的音频、图像特征,利用视觉词袋模型、池化技术优化构造视频内容表示特征,仍局限在视频的场景模式特征。对于高层语义层的信息仍难以捕获,导致无法区分对公众有害的内容与影视类、教育类节目内容。此外,作为新媒体中用户间交互的新特点、核心功能,视频的评论信息可以有效辅佐对视频内容的甄别判断。因而引入人物情绪特征和视频评论信息,建立多模态特征融合的多任务学习模型,利用整合各特征,使各子任务和整体任务效益最大化。
发明内容
有鉴于此,本发明提供了一种检测互联网暴力有害场景的多模态视频行为分析方法,能够从海量的用户生成视频中快速精准地发现存在有害场景的视频。
实现本发明的技术方案如下:
检测互联网暴力有害场景的多模态视频行为分析方法,包括以下步骤:
步骤一、将表观特征及该表观特征的旋转不变特征同时作为特征描述符进行人物目标检测;
步骤二、将整个人体进行区域划分为n个区域,对相邻区域依次重组,生成不同尺度的人体区域检测模版,对不同尺度的人体区域检测模版分别利用CNN进行神经网络训练,训练过程的输入为不同遮挡程度的人物视频;
步骤三、进行人体目标检测,检测过程抽象地表示为:
Figure BDA0003060733140000021
通过特征映射函数k将原始视频x映射到特征矩阵M,再通过部件检测器g,计算评分参数s,s记录了根据表观特征获得的每个部件在检测区域存在的概率,通过步骤二训练得到的分层CNN模型f计算场景中的人体各部件可见性参数v并修正评分参数s,最后通过CNN网络中的判别函数
Figure BDA0003060733140000022
判别是否有人体目标存在于检测区域计算检测结果y;
步骤四、以动作特征、场景特征和情绪特征作为LSTM(Long Short Term Memory)循环神经网络的输入,目标行为词语作为输出,训练LSTM模型,实现对视频中目标行为的初判断,剔除无有害场景的视频,针对存在有害场景的视频执行步骤五的操作;
步骤五、对基础情感词库中的词进行基础分值标注,形成基础情感词词典,提取视频输入弹幕中的基础情感词,并从基础情感词词典中查询其基础分值进行赋值;
步骤六、将基础情感词词典中的情感类别划分为“乐好怒哀惧恶悲”7个维度,每条维度单独计算情感分值;利用以下公式计算每条弹幕的情感数值;
S=∑ajQ(bj×cj,b)+∑αi+∑βm+∑εl
其中,j取值1~J,J为情感词总数;bj为第j个情感词的基础情感分值,由基础情感词词典直接匹配查询,取值范围[0,1];cj={1,-1}为判断情感词j是否为被动化动词,用于判定情感词的反向情绪;b为弹幕全部情感词、颜文字、谐音词、连续符号的情感分值矩阵;Q函数为互相关函数,用于计算弹幕中的其他情感词b情感倾向的相关程度,aj为第j个情感词前后的程度副词加权分数,取值范围[0,N],N可根据实际需求指定,一般不超过10;αi、βm、εl分别为颜文字、谐音词、连续标点或数字符号三类特殊弹幕的情绪参数,i取值1~I,m取值1~M,l取值1~L,I、M、L分别为所述三种特殊弹幕的出现个数;
步骤七、在计算每条弹幕的情感数值后,采用Isolation Forest方法进行异常点检测,对同一时间段内的所有弹幕情感数值进行聚类,剔除情感数值异常弹幕,对其他正常弹幕的情感数值进行求和,得到整个视频的情绪参数,所述情绪参数为7维情感类别参数向量,其中,分数最高维度即为视频的整体情感倾向,其数值即为最终情感分值;当整个视频出现“怒惧恶”情绪超过视频时长的1/4时,则将该视频进行推荐。
进一步地,步骤一中,构建表观特征时,选择YUV特征及HOG特征;在构建旋转不变特征时,采用极坐标表示法将图像特征从笛卡尔坐标系变换到极坐标系下,保持特征的空间不变性。
进一步地,n=10。
进一步地,步骤四中,动作特征选取光流特征,场景特征选择DeCAF特征,情绪特征中,人物面部表情识别整体特征采用PCA(Principal Component Analysis)特征,局部特征采用脸部运动编码分析特征。
进一步地,步骤五中,对于未记录在基础情感词词典中的词语,进行人工标注后加入基础情感词词典中。
有益效果:
1、当前对互联网负面信息检测并不能单纯以传统的场景内容检测或识别方法解决,因为判断互联网信息是否对社会造成负面影响的评断维度较为复杂,大多数信息无法通过浅层的语义特征进行判定,而且传达者、被传达者的情绪高度相关。本发明方法一方面利用视频的场景信息,另一方面建立高层语义信息,如视频内容传达的情绪、受众表现的真实情绪判断视频是否为有害暴力视频,准确性相较于传统方法具有优势。
2、传统的场景人物检测方法针对复杂场景适用性较差,难以应用于互联网海量视频中的有害信息发现,大量缺失信息会造成传统方法的漏检,本发明方法针对视频中人物遮挡问题研提相关方法,能够满足海量视频中的人物快速检测需求,相较于传统人物检测方法具有优势。
3、面对于互联网高速发现,网络词汇、反语反讽、表情符号等内容的出现对传统的弹幕情绪分析方法造成了一定困难,而传统文本反语分析方法大多采用上下文的方式判断是否为反语,不适用于弹幕评论等短文本类反语判断,本发明方法针对上述问题,将目标场景精确到暴力场景提出了一种弹幕情绪分析方法,相较于传统方法,能够更好地应用于有害场景发现应用中。
附图说明
图1为本发明方法流程图。
图2为人体区域拆分模版示意图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提供了一种提出了面向互联网暴力有害场景发现的多模态视频行为分析方法,如图1所示,本发明方法步骤主要分为三个阶段:视频场景人物快速定位检测、视频场景行为判别、视频场景有害程度定性。
在视频场景人物快速检测中,本发明针对互联网中视频人物行为的复杂性,提出一种基于分层深度学***移、旋转等变换鲁棒性强的图像特征,进而构建低层次的卷积神经网络层和高层次的马尔科夫随机场层分别进行人体目标检测与部件分布估计,最终根据求解得到部件位置的概率分布进行目标函数最大化,得到各个二维部件所在的区域。
在选取特征描述符时,本发明方法将表观特征(YUV特征及HOG特征),及该表观特征的旋转不变特征同时作为特征描述符进行人物目标检测,在构建不变性特征时,采用极坐标表示法将图像特征从笛卡尔坐标系变换到极坐标系下,保持特征的空间不变性。
基于上述特征,选择卷积神经网络器对整个区域的图像特征进行类别标定,为避免复杂场景中的人体部件遮挡导致的误检、漏检,本方法基于人体结构将整个人体进行区域划分为10个区域,如图2所示,对相邻区域依次重组,生成不同尺度的人体区域检测模版,通过对这些具有包含关系的不同尺度下的人体区域模版进行分层,对每层中的每个模版所包含的人体区域分别进行检测与分析,最后通过层与层模版之间的相互包含关系传递上下文信息,修正部件检测器带来的错误判定,增加对局部遮挡人体的检测率,判断人体各个部件在场景中是否处于可见状态,并根据可见状态对表观模型中得到的表观特征进行修正。
一般人体检测方法过程可以抽象地表示为:
Figure BDA0003060733140000061
其中,x为待检测的输入图像,k为特征映射函数,M为进行特征提取与学习后得到的特征图,g为部件检测器,s为评分参数,记录了根据表观特征获得的每个部件在该检测区域存在的概率,
Figure BDA0003060733140000068
为判别函数,根据每个人体部件的评分参数判别整个人体目标是否存在于检测区域,最终得到检测的结果y。
在该过程中,由部件检测器获取的评分参数si∈S表示了经过特征映射f得到的表观特征M中的某个区域检测为部件i的概率。然而直接采用该评分参数进行目标判定会因为复杂背景、遮挡等原因产生误差,因此,本方法在此过程中增加另一个参数v以衡量原始图像中的人体各个区域被遮挡的可能性,该参数定义为可见性参数,整个检测过程也可以修正为:
Figure BDA0003060733140000062
因此,采用概率分布函数表示该模型的目标函数
Figure BDA0003060733140000069
即为:
Figure BDA0003060733140000063
其中,p(y|v,s)对应了判别函数
Figure BDA0003060733140000064
p(v|s)对应了可见性系数估计函数f。判别函数
Figure BDA0003060733140000065
直接根据可见性参数v及评分参数s判别目标区域被检测到的概率科修正为
Figure BDA0003060733140000066
因此,求解人体目标检测结果y的主要问题定位在计算MLMM中每层人体区域模版对应的可见性参数v并依此计算期望值
Figure BDA0003060733140000067
本方法采用受限玻尔兹曼机描述s与v之间的映射关系,相关内容在此不做赘述。根据不同模板的评分参数,本方法可以检测出当场景中的人物发生遮挡或不全时,该判别模板的判别评分会相较于其他模板高,从而能够正确检测出复杂场景中的目标人物。
在视频场景行为判别中,本发明方法引入了视频人物情绪特征,采用LSTM(LongShort Term Memory)循环神经网络分别对底层动作特征、场景特征及视频人物情绪特征三种特征进行场景识别。其中,动作特征选取光流特征,以前后帧的轨迹作为动作特征;场景特征选择DeCAF特征,通过预先定义的暴力场景相关的特定场景实物,检测目标视频中是否包含待检测目标物体;情绪特征选择人物面部表情识别整体特征PCA(PrincipalComponent Analysis)特征与局部特征脸部运动编码分析特征。以上述三组特征作为输入,目标行为词语作为输出,训练LSTM模型,实现对目标行为的初判断,剔除无有害场景的视频,针对存在有害场景的视频进行视频场景有害程度判定。
在有害性判定方面,本发明方法提出一种针对暴力场景的弹幕评论情绪评估方法,该方法首先利用知网提供的基础情感词库,对词库中所有词进行基础分值标注,形成基础情感词词典。对于输入弹幕,通过词过滤方法去除文本中标点,并利用语气词词库提取评论中的语气词,而后利用基于背景去除的隐含狄利克雷分布模型去除视频中高频出现且与观点无关的背景词,最后剩余的词语即为基础情感词,从基础情感词词典中查询其初始分值进行赋值。对于未记录在词典中的词语,进行人工标注后再次加入进词典中。
在情感词的选择上,本方法依据知网情感词库将情感类别划分为“乐好怒哀惧恶悲”7个维度,每条维度单独计算情感分值。在计算每个弹幕的情感数值时,本方法针对网络弹幕特点,设计多维特征评判词语的真实情感:S=∑ajQ(bj×cj,b)+∑αi+∑βm+∑εl,j取值1~J,J为情感词总数;bj为第j个情感词的基础情感分值,由基础情感词词典直接匹配查询,取值范围[0,1];cj={1,-1}为判断情感词j是否为被动化动词,用于判定情感词的反向情绪;b为弹幕全部情感词、颜文字、谐音词、连续符号的情感分值矩阵;Q函数为互相关函数,用于计算当情感词该弹幕中的其他情感词b情感倾向的相关程度,本方法选取卡方检验和T检验方法对数据相关性进行计算,若相关性较小,则此类弹幕为反语类弹幕的概率较高,以检验参数作为权重减少该情感词情感分值;aj为第j个情感词前后的程度副词加权分数,取值范围[0,N],N可根据实际需求指定,一般不超过10;αi、βm、εl分别为颜文字、谐音词、连续标点或数字符号三类特殊弹幕的情绪参数,i取值1~I,m取值1~M,l取值1~L,I、M、L分别为所述三种特殊弹幕的出现个数。
为降低个性观点对整体视频节目弹幕情绪的影响,本方法在计算单条弹幕的情绪参数后,采用Isolation Forest方法进行异常点检测,对同一时间段内的所有弹幕情绪参数进行聚类,对情绪聚类中异常弹幕进行剔除,以降低其对整体视频情绪参数的影响,在此基础上,对其他正常情绪值的弹幕进行求和计算,得到关于整个节目的情绪参数,该参数为7维情感类别参数向量,其中,分数最高维度即为视频的整体情感倾向,其数值即为最终情感分值。当整个视频出现“怒惧恶”情绪超过视频时长的1/4时,则将该视频进行推荐。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.检测互联网暴力有害场景的多模态视频行为分析方法,其特征在于,包括以下步骤:
步骤一、将表观特征及该表观特征的旋转不变特征同时作为特征描述符进行人物目标检测;
步骤二、将整个人体进行区域划分为n个区域,对相邻区域依次重组,生成不同尺度的人体区域检测模版,对不同尺度的人体区域检测模版分别利用CNN进行神经网络训练,训练过程的输入为不同遮挡程度的人物视频;
步骤三、进行人体目标检测,检测过程抽象地表示为:
Figure FDA0003060733130000011
通过特征映射函数k将原始视频x映射到特征矩阵M,再通过部件检测器g,计算评分参数s,s记录了根据表观特征获得的每个部件在检测区域存在的概率,通过步骤二训练得到的分层CNN模型f计算场景中的人体各部件可见性参数v并修正评分参数s,最后通过CNN网络中的判别函数
Figure FDA0003060733130000012
判别是否有人体目标存在于检测区域计算检测结果y;
步骤四、以动作特征、场景特征和情绪特征作为LSTM循环神经网络的输入,目标行为词语作为输出,训练LSTM模型,实现对视频中目标行为的初判断,剔除无有害场景的视频,针对存在有害场景的视频执行步骤五的操作;
步骤五、对基础情感词库中的词进行基础分值标注,形成基础情感词词典,提取视频输入弹幕中的基础情感词,并从基础情感词词典中查询其基础分值进行赋值;
步骤六、将基础情感词词典中的情感类别划分为“乐好怒哀惧恶悲”7个维度,每条维度单独计算情感分值;利用以下公式计算每条弹幕的情感数值;
S=∑ajQ(bj×cj,b)+∑αi+∑βm+∑εl
其中,j取值1~J,J为情感词总数;bj为第j个情感词的基础情感分值,由基础情感词词典直接匹配查询,取值范围[0,1];cj={1,-1}为判断情感词j是否为被动化动词,用于判定情感词的反向情绪;b为弹幕全部情感词、颜文字、谐音词、连续符号的情感分值矩阵;Q函数为互相关函数,用于计算弹幕中的其他情感词b情感倾向的相关程度,aj为第j个情感词前后的程度副词加权分数,取值范围[0,N],N可根据实际需求指定,一般不超过10;αi、βm、εl分别为颜文字、谐音词、连续标点或数字符号三类特殊弹幕的情绪参数,i取值1~I,m取值1~M,l取值1~L,I、M、L分别为所述三种特殊弹幕的出现个数;
步骤七、在计算每条弹幕的情感数值后,采用Isolation Forest方法进行异常点检测,对同一时间段内的所有弹幕情感数值进行聚类,剔除情感数值异常弹幕,对其他正常弹幕的情感数值进行求和,得到整个视频的情绪参数,所述情绪参数为7维情感类别参数向量,其中,分数最高维度即为视频的整体情感倾向,其数值即为最终情感分值;当整个视频出现“怒惧恶”情绪超过视频时长的1/4时,则将该视频进行推荐。
2.如权利要求1所述的检测互联网暴力有害场景的多模态视频行为分析方法,其特征在于,步骤一中,构建表观特征时,选择YUV特征及HOG特征;在构建旋转不变特征时,采用极坐标表示法将图像特征从笛卡尔坐标系变换到极坐标系下,保持特征的空间不变性。
3.如权利要求1所述的检测互联网暴力有害场景的多模态视频行为分析方法,其特征在于,n=10。
4.如权利要求1所述的检测互联网暴力有害场景的多模态视频行为分析方法,其特征在于,步骤四中,动作特征选取光流特征,场景特征选择DeCAF特征,情绪特征中,人物面部表情识别整体特征采用PCA特征,局部特征采用脸部运动编码分析特征。
5.如权利要求1所述的检测互联网暴力有害场景的多模态视频行为分析方法,其特征在于,步骤五中,对于未记录在基础情感词词典中的词语,进行人工标注后加入基础情感词词典中。
CN202110512224.0A 2021-05-11 2021-05-11 检测互联网暴力有害场景的多模态视频行为分析方法 Active CN113297934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110512224.0A CN113297934B (zh) 2021-05-11 2021-05-11 检测互联网暴力有害场景的多模态视频行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110512224.0A CN113297934B (zh) 2021-05-11 2021-05-11 检测互联网暴力有害场景的多模态视频行为分析方法

Publications (2)

Publication Number Publication Date
CN113297934A true CN113297934A (zh) 2021-08-24
CN113297934B CN113297934B (zh) 2024-03-29

Family

ID=77321405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110512224.0A Active CN113297934B (zh) 2021-05-11 2021-05-11 检测互联网暴力有害场景的多模态视频行为分析方法

Country Status (1)

Country Link
CN (1) CN113297934B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056560A (zh) * 2023-10-12 2023-11-14 深圳市发掘科技有限公司 一种云菜谱的自动生成方法、装置以及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015043075A1 (zh) * 2013-09-29 2015-04-02 广东工业大学 面向微博的情感实体搜索***
CN105068988A (zh) * 2015-07-21 2015-11-18 中国科学院自动化研究所 多维度和多粒度情感分析方法
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN110020437A (zh) * 2019-04-11 2019-07-16 江南大学 一种视频和弹幕相结合的情感分析及可视化方法
WO2019184054A1 (zh) * 2018-03-29 2019-10-03 网宿科技股份有限公司 一种弹幕信息的处理方法及***
CN110851621A (zh) * 2019-10-31 2020-02-28 中国科学院自动化研究所 基于知识图谱预测视频精彩级别的方法、装置及存储介质
CN111078944A (zh) * 2018-10-18 2020-04-28 中国电信股份有限公司 视频内容热度预测方法和装置
WO2021004481A1 (zh) * 2019-07-08 2021-01-14 华为技术有限公司 一种媒体文件推荐方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015043075A1 (zh) * 2013-09-29 2015-04-02 广东工业大学 面向微博的情感实体搜索***
CN105068988A (zh) * 2015-07-21 2015-11-18 中国科学院自动化研究所 多维度和多粒度情感分析方法
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
WO2019184054A1 (zh) * 2018-03-29 2019-10-03 网宿科技股份有限公司 一种弹幕信息的处理方法及***
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN111078944A (zh) * 2018-10-18 2020-04-28 中国电信股份有限公司 视频内容热度预测方法和装置
CN110020437A (zh) * 2019-04-11 2019-07-16 江南大学 一种视频和弹幕相结合的情感分析及可视化方法
WO2021004481A1 (zh) * 2019-07-08 2021-01-14 华为技术有限公司 一种媒体文件推荐方法及装置
CN110851621A (zh) * 2019-10-31 2020-02-28 中国科学院自动化研究所 基于知识图谱预测视频精彩级别的方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MUJTABA ASAD 等: "Multi-frame feature-fusion-based model for violence detection", 《THE VISUAL COMPUTER》, vol. 37, 24 June 2020 (2020-06-24), pages 1415, XP037474617, DOI: 10.1007/s00371-020-01878-6 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056560A (zh) * 2023-10-12 2023-11-14 深圳市发掘科技有限公司 一种云菜谱的自动生成方法、装置以及存储介质
CN117056560B (zh) * 2023-10-12 2024-02-06 深圳市发掘科技有限公司 一种云菜谱的自动生成方法、装置以及存储介质

Also Published As

Publication number Publication date
CN113297934B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
Hu et al. Modeling relationships in referential expressions with compositional modular networks
CN107515877B (zh) 敏感主题词集的生成方法和装置
Zhang et al. Learning social relation traits from face images
Yuan et al. Sentribute: image sentiment analysis from a mid-level perspective
US7853582B2 (en) Method and system for providing information services related to multimodal inputs
CN106803098A (zh) 一种基于语音、表情与姿态的三模态情感识别方法
US9639633B2 (en) Providing information services related to multimodal inputs
CN110263822A (zh) 一种基于多任务学习方式的图像情感分析方法
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
Plummer et al. Revisiting image-language networks for open-ended phrase detection
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及***
Che et al. Visual relationship embedding network for image paragraph generation
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN112347339A (zh) 一种搜索结果处理方法及装置
CN113095072B (zh) 文本处理方法及装置
Gu et al. Toward facial expression recognition in the wild via noise-tolerant network
CN114662586A (zh) 一种基于共注意的多模态融合机制检测虚假信息的方法
CN113297934B (zh) 检测互联网暴力有害场景的多模态视频行为分析方法
CN113537206B (zh) 推送数据检测方法、装置、计算机设备和存储介质
Liu et al. A multimodal approach for multiple-relation extraction in videos
CN117521012A (zh) 基于多模态上下文分层分步对齐的虚假信息检测方法
CN111986259A (zh) 颜文字检测模型的训练、视频数据的审核方法及相关装置
Vijayaraju Image retrieval using image captioning
CN115953832A (zh) 一种基于语义解耦的自注意力模型的组合动作识别方法
Khekare et al. Real time object detection with speech recognition using tensorflow lite

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant