CN111860237B - 一种视频情感片段的识别方法及装置 - Google Patents

一种视频情感片段的识别方法及装置 Download PDF

Info

Publication number
CN111860237B
CN111860237B CN202010645824.XA CN202010645824A CN111860237B CN 111860237 B CN111860237 B CN 111860237B CN 202010645824 A CN202010645824 A CN 202010645824A CN 111860237 B CN111860237 B CN 111860237B
Authority
CN
China
Prior art keywords
emotion
video
analyzed
bullet screen
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010645824.XA
Other languages
English (en)
Other versions
CN111860237A (zh
Inventor
陈恩红
徐童
曹卫
张琨
吕广弈
何明
武晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010645824.XA priority Critical patent/CN111860237B/zh
Publication of CN111860237A publication Critical patent/CN111860237A/zh
Application granted granted Critical
Publication of CN111860237B publication Critical patent/CN111860237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种视频情感片段的识别方法,包括:确定待分析视频中各个情感弹幕的弹幕情感标签;对所述待分析视频进行分割,得到各个待分析视频片段;依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。上述的识别方法中,将待分析视频分割成多个待分析视频片段,计算各个待分析视频片段的片段情感向量和情感熵;依据弹幕得到的所述片段的片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段,缩短了情感片段的识别周期,避免了由于人工标识情感标签标注时间长,导致情感片段识别周期长的问题。

Description

一种视频情感片段的识别方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种视频情感片段的识别方法及装置。
背景技术
随着多媒体技术的发展,多媒体视频的数据量爆发增长,吸引了大量用户,人们倾向于看视频来缓解压力和无聊,看视频已成为满足人们情感需求的一种新方式,而视频巨大的规模和用户有限的时间之间存在矛盾,观众有时只想看视频的部分情感片段,而非整个视频。因此有必要对视频进行与时间同步的情感标签(五类情感:喜、惊、不喜、悲、惧),识别视频中的情感片段,更好地满足观众的个性化情感需求。
该工作的首要挑战是视频缺乏时序情感标签,目前主要通过人工对视频中的每一帧标注情感标签,基于标注的情感标签对情感片段进行识别,由于人工标注情感标签标注时间长,导致情感片段识别周期长。
发明内容
有鉴于此,本发明提供了一种视频情感片段的识别方法及装置,用以解决现有技术中目前主要通过人工对视频中的每一帧标注情感标签,基于标注的情感标签对情感片段进行识别,由于人工标注情感标签标注时间长,导致情感片段识别周期长的问题,具体方案如下:
一种视频情感片段的识别方法,包括:
确定待分析视频中各个情感弹幕的弹幕情感标签;
对所述待分析视频进行分割,得到各个待分析视频片段;
依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;
依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。
上述的方法,可选的,确定待分析视频中各个情感弹幕的弹幕情感标签,包括:
获取所述待分析视频的各个弹幕;
对所述各个弹幕进行筛选,得到各个情感弹幕;
依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。
上述的方法,可选的,依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签,包括:
确定每个情感弹幕的目标语义表示,其中,所述目标语义表示由对应情感弹幕的细粒度语义表示和粗粒度语义表示进行拼接得到;
确定每个情感弹幕产生时刻的场景图像数据的视觉向量表征;
将所述目标语义表示和所述视觉向量表征传递给所述预设的神经网络模型,得到对应情感弹幕的弹幕情感标签。
上述的方法,可选的,对所述待分析视频进行分割,得到各个待分析视频片段,包括:
确定所述待分析视频中各个帧的视觉语义;
依次比较相邻帧的视觉语义,判断所述相邻帧的视觉语义的差异度是否大于预设的差异度阈值;
若是,将所述相邻帧作为切分点进行切分,得到各个待分析视频片段。
上述的方法,可选的,还包括:
获取所述相邻帧弹幕语义;
依据所述弹幕语义,对所述切分点进行修正。
上述的方法,可选的,依据所述片段情感向量和所述情感熵,识别所述各个待分析视频片段中的情感片段,包括:
判断所述情感熵是否小于预设的情感熵阈值;
若是,判定当前待分析视频片段包含一种情感,或;
若否,判断当前片段情感向量中的最大分量与次大分量的比值是否大于预设的比例阈值;
若是,判定所述当前待分析视频片段包含一种情感,或,若否,判定所述当前待分析视频判断包含两种情感。
7、一种视频情感片段的识别装置,其特征在于,包括:
确定模块,用于确定待分析视频中各个情感弹幕的弹幕情感标签;
分割模块,用于对所述待分析视频进行分割,得到各个待分析视频片段;
计算模块,用于依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;
识别模块,用于依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。
上述的装置,可选的,所述确定模块包括:
获取单元,用于获取所述待分析视频的各个弹幕;
筛选单元,用于对所述各个弹幕进行筛选,得到各个情感弹幕;
标签确定单元,用于依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。
上述的装置,可选的,所述分割模块包括:
语义确定单元,用于确定所述待分析视频中各个帧的视觉语义;
第一判断单元,用于依次比较相邻帧的视觉语义,判断所述相邻帧的视觉语义的差异度是否大于预设的差异度阈值;
切分单元,用于若是,将所述相邻帧作为切分点进行切分,得到各个待分析视频片段。
上述的装置,可选的,所述识别模块包括:
第二判断单元,用于判断所述情感熵是否小于预设的情感熵阈值;
第一判定单元,用于若是,判定当前待分析视频片段包含一种情感,或;
第三判断单元,用于若否,判断当前片段情感向量中的最大分量与次大分量的比值是否大于预设的比例阈值;
第二判定单元,用于若是,判定所述当前待分析视频片段包含一种情感,或,若否,判定所述当前待分析视频判断包含两种情感。
与现有技术相比,本发明包括以下优点:
本发明公开了一种视频情感片段的识别方法,包括:确定待分析视频中各个情感弹幕的弹幕情感标签;对所述待分析视频进行分割,得到各个待分析视频片段;依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。上述的识别方法中,将待分析视频分割成多个待分析视频片段,计算各个待分析视频片段的片段情感向量和情感熵;依据弹幕得到的所述片段的片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段,缩短了情感片段的识别周期,避免了由于人工标识情感标签标注时间长,导致情感片段识别周期长的问题。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种视频情感片段的识别方法流程图;
图2为本申请实施例公开的一种视频情感片段的识别装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本发明公开了一种视频情感片段的识别方法及装置,应用于对视频中的情感片段进行识别的过程,其中,所述情感片段包括:喜、惊、不喜、悲、惧五类情感,现有技术中,采用人工标注情感标签,基于情感标签对视频中的情感片段进行识别,但是由于人工标注情感标签的标注时间长、导致识别的周期长,本发明实施例中提供了一种视频情感片段的识别方法用于解决上述问题,许多视频分享平台广泛存在名为“弹幕”的时间同步评论,它是观众观影的即时感受,蕴含丰富的情感表达,与视频情感发展一致,可用于视频情感分析,因此,所述识别方法基于弹幕对待分析视频进行识别,所述识别方法的执行流程如图1所示,包括步骤:
S101、确定待分析视频中各个情感弹幕的弹幕情感标签;
本发明实施例中,获取所述待分析视频各个弹幕,由于弹幕是视频用户的即时感受,并非所有的观众均参与了整个视频的弹幕互动,与视频语义和视频情感无关的打卡弹幕或签到弹幕经常出现,因此,所述各个弹幕的主题比较松散,语义噪音较多,优选的,先进行去噪处理,本发明根据各个观众的发文数目甄别并删除无关的打卡弹幕或签到弹幕,得到各个情感弹幕。
进一步的,依据预设的神经网络模型确定每个情感弹幕的情感标签,其中,所述预设的神经网络模型为弹幕情感模型,所述弹幕情感模型需要预先进行训练,所述弹幕情感模型的训练过程如下:
首先构建训练数据集,从不包含情感标签的弹幕数据集C中构造一个带情感标签的弹幕情感数据集Ce,基于Ce训练所述弹幕情感模型。考虑到人工标注的高成本,弹幕情感数据集Ce的情感标签通过二阶段词匹配方法进行获取,其基本思想建立在弹幕的情感表达十分常见这一事实基础之上。弹幕蕴含丰富的情感表达,具有显式情感表达的弹幕可通过两阶段情感词典匹配方法进行自动情感识别。第一阶段是通过一个融合了通用情感词典和弹幕情感词典的综合情感极性词典,对所有的视频弹幕进行情感极性识别,挑选出蕴含显式情感表达的、能识别出正负情感极性的弹幕;第二阶段是对阶段一获得的具有正负情感极性的弹幕,利用细粒度情感词典,进行细粒度情感识别(五类情感:喜、惊、不喜、悲、惧),通过两个阶段的情感词典匹配方法,最终获得一个含有情感标签的情感弹幕。弹幕数据集C和情感弹幕数据集Ce的数学表示如下所示:
C={(C1,T1,I1),K(Ci,Ti,Ii),K(CN,TN,IN)} (1)
Figure BDA0002572985120000061
其中,弹幕数据集C中的任意元素(Ci,Ti,Ii)分别表示Ti时刻对应的弹幕Ci和视频关键帧的场景图像数据Ii。情感弹幕数据集Ce中的任意元素
Figure BDA0002572985120000062
分别表示
Figure BDA0002572985120000063
时刻对应的弹幕
Figure BDA0002572985120000064
和视频关键帧的场景图像数据
Figure BDA0002572985120000065
以及弹幕
Figure BDA0002572985120000066
对应的五分类情感标签
Figure BDA0002572985120000067
N和M分别表示弹幕文本的句子数目和情感弹幕文本的句子数目。
本发明实施例中,基于所述情感弹幕数据集Ce训练所述弹幕情感模型,其中,所述弹幕情感模型的输入为情感弹幕数据集Ce中的原始数据,任意一个元素为
Figure BDA0002572985120000068
即:
Figure BDA0002572985120000069
时刻对应的弹幕文本
Figure BDA00025729851200000610
和情感标签文本
Figure BDA00025729851200000611
以及此时的视频关键帧的视觉数据信息
Figure BDA00025729851200000612
输入数据的表征过程如下:利用预训练语言模型Bert得到弹幕文本
Figure BDA00025729851200000613
的句向量表征
Figure BDA00025729851200000614
和词向量表征
Figure BDA00025729851200000615
利用预训练语言模型Bert得到弹幕情感标签
Figure BDA00025729851200000616
的句向量表征
Figure BDA00025729851200000617
利用现有的深度网络模型VGG处理视频关键帧的视觉图像信息
Figure BDA00025729851200000618
抽取VGG模型的最后一个卷积层的结果作为
Figure BDA00025729851200000619
的向量表征
Figure BDA00025729851200000620
相关公式如下:
Figure BDA00025729851200000621
Figure BDA0002572985120000071
Figure BDA0002572985120000072
鉴于弹幕文本语义与对应时刻的视频场景语义相关,本发明实施例中,将弹幕的场景视觉信息
Figure BDA0002572985120000073
以注意力形式融入弹幕文本的词向量
Figure BDA0002572985120000074
中,帮助模型关注与弹幕视觉场景相关的词,得到带视觉注意力的弹幕词向量
Figure BDA0002572985120000075
注意力机制的相关公式如下。
Figure BDA0002572985120000076
α=soft max(W3M) (7)
Figure BDA0002572985120000077
其中,W1、W2及W3为注意力单元的训练参数,该训练参数可以基于经验或者具体情况进行设定,tanh表示深度神经网络的激活函数,M为中间量,
Figure BDA00025729851200000719
表示归一化操作,α表示视觉信息在弹幕文本的每个词
Figure BDA0002572985120000078
上的注意力权重分布,视觉注意力权重α作用于弹幕文本的词向量
Figure BDA0002572985120000079
得到带视觉注意力的弹幕词向量
Figure BDA00025729851200000710
考虑到句子文本蕴含词的序列信息,本发明利用循环神经网络BiLSTM和自注意力机制,对融合了视觉信息的弹幕词向量
Figure BDA00025729851200000711
建模,得到弹幕的细粒度语义表示
Figure BDA00025729851200000712
Figure BDA00025729851200000713
由公式(3)可知由Bert模型得到了弹幕句子向量表征
Figure BDA00025729851200000714
即为弹幕的整体句子的粗粒度语义表征,将其与弹幕细粒度句子语义表示
Figure BDA00025729851200000715
进行带权重的拼接操作,得到弹目标语义表示
Figure BDA00025729851200000716
见下式。
Figure BDA00025729851200000717
其中,γ为权重调节参数,符号‘+’为张量的拼接操作。
随后,所述目标语义表示
Figure BDA00025729851200000718
通过全连接层FC进行训练和输出,得到该弹幕的情感概率P:
Figure BDA0002572985120000081
其中,y表示弹幕所属的情感类别,
Figure BDA00025729851200000815
表示通过输入
Figure BDA0002572985120000082
计算得到弹幕
Figure BDA0002572985120000083
的情感类别概率。FC是一个单层的全连接网络结构,通过全连接层进行输出,得到每一条情感弹幕的情感概率P,通过最小化以下目标函数来训练情感模型:
Figure BDA0002572985120000084
其中,
Figure BDA0002572985120000085
为情感弹幕
Figure BDA0002572985120000086
的原情感标签,
Figure BDA0002572985120000087
为情感弹幕
Figure BDA0002572985120000088
经过模型训练、输出的情感概率,softmax_cross_entropy为交叉熵损失函数,它计算每条弹幕的原情感标签
Figure BDA0002572985120000089
和情感预测结果
Figure BDA00025729851200000810
的交叉熵损失。为了最小化上述目标函数,采用Adam优化器迭代更新模型中的各个参数(Tensorflow自动求导实现),从而训练得到弹幕的情感识别模型。
最后,利用训练好的弹幕情感识别模型对弹幕数据集C中的任意一条弹幕Ck:(Ck,Tk,Ik)进行情感预测,输出P(y|Ck,Ik),并进一步得到情感概率向量
Figure BDA00025729851200000811
Figure BDA00025729851200000812
其中,P(y|Ck,Ik)为弹幕Ck的模型预测结果,
Figure BDA00025729851200000816
旨在求出多分类中每一类所占的比例,并保证所有的比例之和为1。本发明通过
Figure BDA00025729851200000817
对弹幕Ck的预测结果作进一步处理,得到弹幕Ck的情感概率向量
Figure BDA00025729851200000813
Figure BDA00025729851200000814
它是一个五维情感向量,其在各维度上的值可看作是弹幕Ck在各维度上的情感语义分布,衡量弹幕Ck在各情感维度上的情感语义值,也代表了弹幕Ck的情感标签。
S102、对所述待分析视频进行分割,得到各个待分析视频片段;
本发明实施例中,由于弹幕评论是观众的即时回应,所蕴含的情绪往往是瞬时的。因此,基于一个连续时间段的视频情绪分析最为合适。事实上,一个视频中包含许多相对独立的场景片段,这些片段的内容通常具有相对独立和话题,会随着视频情节的发展而演变,即:视频情节的变化通常与视频场景的切换相一致,视频场景的变化可作为视频片段的切分依据。相对于常规的等长切分视频片段,本应用从场景切换角度来考虑视频片段切分更为合适。
先使用一种基于自底向上和自顶向下注意力的对象识别方法对每个视频关键帧的视觉数据信息
Figure BDA0002572985120000091
进行对象识别,得到的每帧的视觉单词
Figure BDA0002572985120000092
可视为帧
Figure BDA0002572985120000093
的视觉语义,它描述了帧
Figure BDA0002572985120000094
的视觉场景。相邻两帧的视觉单词文本显著改变,意味着描述的场景发生了变化,该时刻可作为视频切分点,具体来说,若相邻帧之间的视觉单词交集为空,则视作场景将进行切换,该时刻为切分点。
进一步的,为提高切分准确率,本发明还从视频语义的角度进行切分点修正。该操作借助可以反映视频语义的弹幕来实现:段切分点作为视频的情节转换点,该时刻的弹幕语义相对松散,若该时刻的弹幕语义集中一致,则应修正此切分点,即:对上阶段得到的任意视频片段Si,对其内部的所有弹幕,两两求余弦相似度,构造片段Si的语义相似度矩阵
Figure BDA00025729851200000912
进而得到视频片段Si的弹幕平均语义相似度
Figure BDA00025729851200000910
判断每一个视频片段Si的弹幕平均语义相似度
Figure BDA00025729851200000911
丢弃平均语义相似度非常高的视频段(通过实际实验采用经验阈值来确定),最终得到情节相对独立、自然的待分析视频片段集合{sp}。
S103、依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;
本发明实施例中,所述待分析视频包含复杂的多模态内容,情感较为复杂,而视频观众的情感弹幕可视做视频情感的间接反映,适用于视频情感分析。对待分析视频片段集合{sp}的任意片段si,片段si的情感弹幕集合为
Figure BDA0002572985120000095
片段si的情感弹幕所对应的情感向量的集合为
Figure BDA0002572985120000096
每条弹幕的
Figure BDA00025729851200000913
的情感向量
Figure BDA0002572985120000097
Figure BDA0002572985120000098
对片段的所有弹幕的情感向量按每个维度求和,得到片段si的情感和向量
Figure BDA0002572985120000099
如下式所示:
Figure BDA0002572985120000101
其中,u为片段si中情感弹幕的数量,和向量
Figure BDA0002572985120000102
即为片段si的五维情感向量,代表了片段si在各情感维度上的情感标签。
在信息论中:熵是描述***混乱的量,熵越大说明***越混乱,携带的信息就越少,熵越小说明***越有序,携带的信息越多。在片段si的情感向量
Figure BDA00025729851200001014
中,各情感维度的情感语义信息的分布集中程度,也可用片段si的熵来度量,进而判断待分析情感片段si的情感倾向,待分析情感片段si的熵在本发明中也称为片段si的情感熵,根据信息伦中的熵值公式,可得片段si的情感熵如下式所示:
Figure BDA0002572985120000103
S104、依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。
本发明实施例中,由于视频情感复杂,情感视频片段的情感倾向并非均是单一情感类别,具有复杂情感的视频片段也较常见。本应用旨在找到包含不超过两种明显情感倾向的视频片段:一种是只有一种明显情感倾向的视频情感片段;另一种是有两种明显情感倾向的视频情感片段。
其中,针对情感倾向单一的视频情感片段的处理过程如下:当待分析视频片段si的情感熵
Figure BDA0002572985120000104
非常小,小于其情感熵阈值H(e)threshold时,该片段si的情感弹幕的各维度情绪语义趋于一致,意味着待分析视频片段si仅包含一种明显的情感倾向。
Figure BDA0002572985120000105
在此基础上,当片段si的情感熵
Figure BDA0002572985120000106
仅仅略高于阈值H(e)threshold时,片段si的情感倾向不一定只有一种,还需进一步判断:在片段si的情绪向量
Figure BDA0002572985120000107
中,当
Figure BDA0002572985120000108
的最大分量
Figure BDA0002572985120000109
远大于
Figure BDA00025729851200001010
的次大分量
Figure BDA00025729851200001011
则片段si的情感倾向只有一种,即
Figure BDA00025729851200001012
的最大分量
Figure BDA00025729851200001013
的所在维度的所属情感类别,公式如下。
Figure BDA0002572985120000111
针对含两种情感倾向的待分析视频情感片段的处理过程如下:由公式(18)可知,当待分析视频情感片段si的情感熵
Figure BDA0002572985120000112
仅仅略高于阈值H(e)threshold时,待分析视频情感片段si的情感倾向不一定只有一种:当待分析视频情感片段si的情感向量
Figure BDA0002572985120000113
中,
Figure BDA0002572985120000114
的最大分量
Figure BDA0002572985120000115
Figure BDA0002572985120000116
的次大分量
Figure BDA0002572985120000117
差异较小时,这两个成分所在维度的所属情感类别均可视为待分析视频情感片段si的主要情绪倾向,即,待分析视频情感片段si有两种主要的情感倾向。
Figure BDA0002572985120000118
考虑到弹幕的主题较松散,语义噪音较多,本发明还从语义角度进行降噪利用每个待分析视频片段si的情绪弹幕的文本向量,对片段si求情感语义相似度矩阵
Figure BDA0002572985120000119
为对称矩阵,其每个值代表其每个情感弹幕的两两语义相关性,对
Figure BDA00025729851200001110
上三角部分进行分析,若两情感弹幕语义相似度低于片段内弹幕的语义相似度阈值(语义相似度阈值根据实际实验进行确定),就视为语义畸点,删除对应的情感弹幕。通过此操作,本发明实施例可以拥有更好的鲁棒性。
本发明公开了一种视频情感片段的识别方法,包括:确定待分析视频中各个情感弹幕的弹幕情感标签;对所述待分析视频进行分割,得到各个待分析视频片段;依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。上述的识别方法中,将待分析视频分割成多个待分析视频片段,计算各个待分析视频片段的片段情感向量和情感熵;依据弹幕得到的所述片段的片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段,缩短了情感片段的识别周期,避免了由于人工标识情感标签标注时间长,导致情感片段识别周期长的问题。
基于上述的识别方法,针对视频中的蕴含丰富情感的弹幕,运用注意力机制和多模态融合思想,将弹幕情感语义与视频场景的视觉信息进行时序上的融合,从而实现对弹幕情感语义的增强表征,并利用这种融入了文本和视觉信息的表征,对基于视觉语义和场景切换的视频切分片段进行情感判断,准确识别视频中的情感片段,弥补了现有视频情感理解中没有对视频情感片段进行识别的不足。
基于上述的一种视频情感片段的识别方法,本发明实施例中还提供了一种视频情感片段的识别装置,所述识别装置的结构框图如图2所示,包括:
确定模块201、分割模块202、计算模块203和识别模块204。
其中,
所述确定模块201,用于确定待分析视频中各个情感弹幕的弹幕情感标签;
所述分割模块202,用于对所述待分析视频进行分割,得到各个待分析视频片段;
所述计算模块203,用于依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;
所述识别模块204,用于依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。
本发明公开了一种视频情感片段的识别装置,包括:确定待分析视频中各个情感弹幕的弹幕情感标签;对所述待分析视频进行分割,得到各个待分析视频片段;依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。上述的识别装置中,将待分析视频分割成多个待分析视频片段,计算各个待分析视频片段的片段情感向量和情感熵;依据弹幕得到的所述片段的片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段,缩短了情感片段的识别周期,避免了由于人工标识情感标签标注时间长,导致情感片段识别周期长的问题。
本发明实施例中,所述确定模块201包括:
获取单元205、筛选单元206和标签确定单元207。
其中,
所述获取单元205,用于获取所述待分析视频的各个弹幕;
所述筛选单元206,用于对所述各个弹幕进行筛选,得到各个情感弹幕;
所述标签确定单元207,用于依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。
本发明实施例中,所述分割模块202包括:
语义确定单元208、第一判断单元209和切分单元210。
其中,
所述语义确定单元208,用于确定所述待分析视频中各个帧的视觉语义;
所述第一判断单元209,用于依次比较相邻帧的视觉语义,判断所述相邻帧的视觉语义的差异度是否大于预设的差异度阈值;
所述切分单元210,用于若是,将所述相邻帧作为切分点进行切分,得到各个待分析视频片段。
本发明实施例中,所述识别模块204包括:
第二判断单元211、第一判定单元212、第三判断单元213和第二判定单元214。
其中,
所述第二判断单元211,用于判断所述情感熵是否小于预设的情感熵阈值;
所述第一判定单元212,用于若是,判定当前待分析视频片段包含一种情感,或;
所述第三判断单元213,用于若否,判断当前片段情感向量中的最大分量与次大分量的比值是否大于预设的比例阈值;
所述第二判定单元214,用于若是,判定所述当前待分析视频片段包含一种情感,或,若否,判定所述当前待分析视频判断包含两种情感。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种视频情感片段的识别方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种视频情感片段的识别方法,其特征在于,包括:
确定待分析视频中各个情感弹幕的弹幕情感标签;
对所述待分析视频进行分割,得到各个待分析视频片段;
依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;
依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段;
其中,依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段,包括:
判断所述情感熵是否小于预设的情感熵阈值;
若是,判定当前待分析视频片段包含一种情感,或;
若否,判断当前片段情感向量中的最大分量与次大分量的比值是否大于预设的比例阈值;
若是,判定所述当前待分析视频片段包含一种情感,或,若否,判定所述当前待分析视频判断包含两种情感。
2.根据权利要求1所述的方法,其特征在于,确定待分析视频中各个情感弹幕的弹幕情感标签,包括:
获取所述待分析视频的各个弹幕;
对所述各个弹幕进行筛选,得到各个情感弹幕;
依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。
3.根据权利要求2所述的方法,其特征在于,依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签,包括:
确定每个情感弹幕的目标语义表示,其中,所述目标语义表示由对应情感弹幕的细粒度语义表示和粗粒度语义表示进行拼接得到;
确定每个情感弹幕产生时刻的场景图像数据的视觉向量表征;
将所述目标语义表示和所述视觉向量表征传递给所述预设的弹幕情感识别神经网络模型,得到对应情感弹幕的情感标签。
4.根据权利要求1所述的方法,其特征在于,对所述待分析视频进行分割,得到各个待分析视频片段,包括:
确定所述待分析视频中各个帧的视觉语义;
依次比较相邻帧的视觉语义,判断所述相邻帧的视觉语义的差异度是否大于预设的差异度阈值;
若是,将所述相邻帧作为切分点进行切分,得到各个待分析视频片段。
5.根据权利要求4所述的方法,其特征在于,还包括:
获取所述相邻帧弹幕语义;
依据所述弹幕语义对所述切分点进行修正。
6.一种视频情感片段的识别装置,其特征在于,包括:
确定模块,用于确定待分析视频中各个情感弹幕的弹幕情感标签;
分割模块,用于对所述待分析视频进行分割,得到各个待分析视频片段;
计算模块,用于依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;
识别模块,用于依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段;
其中,所述识别模块包括:
第二判断单元,用于判断所述情感熵是否小于预设的情感熵阈值;
第一判定单元,用于若是,判定当前待分析视频片段包含一种情感,或;
第三判断单元,用于若否,判断当前片段情感向量中的最大分量与次大分量的比值是否大于预设的比例阈值;
第二判定单元,用于若是,判定所述当前待分析视频片段包含一种情感,或,若否,判定所述当前待分析视频判断包含两种情感。
7.根据权利要求6所述的装置,其特征在于,所述确定模块包括:
获取单元,用于获取所述待分析视频的各个弹幕;
筛选单元,用于对所述各个弹幕进行筛选,得到各个情感弹幕;
标签确定单元,用于依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。
8.根据权利要求6所述的装置,其特征在于,所述分割模块包括:
语义确定单元,用于确定所述待分析视频中各个帧的视觉语义;
第一判断单元,用于依次比较相邻帧的视觉语义,判断所述相邻帧的视觉语义的差异度是否大于预设的差异度阈值;
切分单元,用于若是,将所述相邻帧作为切分点进行切分,得到各个待分析视频片段。
CN202010645824.XA 2020-07-07 2020-07-07 一种视频情感片段的识别方法及装置 Active CN111860237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010645824.XA CN111860237B (zh) 2020-07-07 2020-07-07 一种视频情感片段的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010645824.XA CN111860237B (zh) 2020-07-07 2020-07-07 一种视频情感片段的识别方法及装置

Publications (2)

Publication Number Publication Date
CN111860237A CN111860237A (zh) 2020-10-30
CN111860237B true CN111860237B (zh) 2022-09-06

Family

ID=73153438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010645824.XA Active CN111860237B (zh) 2020-07-07 2020-07-07 一种视频情感片段的识别方法及装置

Country Status (1)

Country Link
CN (1) CN111860237B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364743A (zh) * 2020-11-02 2021-02-12 北京工商大学 一种基于半监督学习和弹幕分析的视频分类方法
CN112699831B (zh) * 2021-01-07 2022-04-01 重庆邮电大学 基于弹幕情感的视频热点片段检测方法、装置及存储介质
CN113221689B (zh) * 2021-04-27 2022-07-29 苏州工业职业技术学院 视频多目标情感度预测方法
CN114339375B (zh) * 2021-08-17 2024-04-02 腾讯科技(深圳)有限公司 视频播放方法、生成视频目录的方法及相关产品
CN113656643B (zh) * 2021-08-20 2024-05-03 珠海九松科技有限公司 一种使用ai分析观影心情的方法
CN117710777B (zh) * 2024-02-06 2024-06-04 腾讯科技(深圳)有限公司 模型训练方法、关键帧抽取方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108513176A (zh) * 2017-12-06 2018-09-07 北京邮电大学 一种基于话题模型的社会化视频主题提取***及方法
CN108537139A (zh) * 2018-03-20 2018-09-14 校宝在线(杭州)科技股份有限公司 一种基于弹幕信息的在线视频精彩片段分析方法
CN108737859A (zh) * 2018-05-07 2018-11-02 华东师范大学 基于弹幕的视频推荐方法和装置
CN109862397A (zh) * 2019-02-02 2019-06-07 广州虎牙信息科技有限公司 一种视频分析方法、装置、设备和存储介质
CN110020437A (zh) * 2019-04-11 2019-07-16 江南大学 一种视频和弹幕相结合的情感分析及可视化方法
CN110113659A (zh) * 2019-04-19 2019-08-09 北京大米科技有限公司 生成视频的方法、装置、电子设备及介质
CN110198482A (zh) * 2019-04-11 2019-09-03 华东理工大学 一种视频重点桥段标注方法、终端及存储介质
CN110263215A (zh) * 2019-05-09 2019-09-20 众安信息技术服务有限公司 一种视频情感定位方法及***
CN110569354A (zh) * 2019-07-22 2019-12-13 中国农业大学 弹幕情感分析方法及装置
CN110852360A (zh) * 2019-10-30 2020-02-28 腾讯科技(深圳)有限公司 图像情感识别方法、装置、设备及存储介质
CN111163366A (zh) * 2019-12-30 2020-05-15 厦门市美亚柏科信息股份有限公司 一种视频处理方法及终端

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108513176A (zh) * 2017-12-06 2018-09-07 北京邮电大学 一种基于话题模型的社会化视频主题提取***及方法
CN108537139A (zh) * 2018-03-20 2018-09-14 校宝在线(杭州)科技股份有限公司 一种基于弹幕信息的在线视频精彩片段分析方法
CN108737859A (zh) * 2018-05-07 2018-11-02 华东师范大学 基于弹幕的视频推荐方法和装置
CN109862397A (zh) * 2019-02-02 2019-06-07 广州虎牙信息科技有限公司 一种视频分析方法、装置、设备和存储介质
CN110020437A (zh) * 2019-04-11 2019-07-16 江南大学 一种视频和弹幕相结合的情感分析及可视化方法
CN110198482A (zh) * 2019-04-11 2019-09-03 华东理工大学 一种视频重点桥段标注方法、终端及存储介质
CN110113659A (zh) * 2019-04-19 2019-08-09 北京大米科技有限公司 生成视频的方法、装置、电子设备及介质
CN110263215A (zh) * 2019-05-09 2019-09-20 众安信息技术服务有限公司 一种视频情感定位方法及***
CN110569354A (zh) * 2019-07-22 2019-12-13 中国农业大学 弹幕情感分析方法及装置
CN110852360A (zh) * 2019-10-30 2020-02-28 腾讯科技(深圳)有限公司 图像情感识别方法、装置、设备及存储介质
CN111163366A (zh) * 2019-12-30 2020-05-15 厦门市美亚柏科信息股份有限公司 一种视频处理方法及终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Visual-Texual Emotion Analysis With Deep Coupled Video and Danmu Neural Networks》;Chenchen Li等;《IEEE Transactions on Multimedia》;20200630;第22卷(第6期);第1634-1646页 *
《基于弹幕情感分析的视频片段推荐模型》;邓扬等;《计算机应用》;20170410;第37卷(第4期);第1065-1070,1134页 *

Also Published As

Publication number Publication date
CN111860237A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111860237B (zh) 一种视频情感片段的识别方法及装置
Yang et al. Video captioning by adversarial LSTM
Cheng et al. Fully convolutional networks for continuous sign language recognition
Poria et al. Context-dependent sentiment analysis in user-generated videos
CN106878632B (zh) 一种视频数据的处理方法和装置
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
CN112199956B (zh) 一种基于深度表示学习的实体情感分析方法
CN110825867B (zh) 相似文本推荐方法、装置、电子设备和存储介质
US11727915B1 (en) Method and terminal for generating simulated voice of virtual teacher
WO2023124647A1 (zh) 一种纪要确定方法及其相关设备
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113761377A (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN115580758A (zh) 视频内容生成方法及装置、电子设备、存储介质
CN115408488A (zh) 用于小说场景文本的分割方法及***
CN115830610A (zh) 一种多模态广告识别方法、***、电子设备及存储介质
CN114880496A (zh) 多媒体信息话题分析方法、装置、设备及存储介质
Zaoad et al. An attention-based hybrid deep learning approach for bengali video captioning
CN113268592B (zh) 基于多层次交互注意力机制的短文本对象情感分类方法
US20240037941A1 (en) Search results within segmented communication session content
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
Gomes Jr et al. Framework for knowledge discovery in educational video repositories
Wang et al. RSRNeT: a novel multi-modal network framework for named entity recognition and relation extraction
Wang et al. Multimodal Cross-Attention Bayesian Network for Social News Emotion Recognition
Nakka et al. LAMBDA: Lexicon and Aspect-Based Multimodal Data Analysis of Tweet.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant