CN111860237B - 一种视频情感片段的识别方法及装置 - Google Patents
一种视频情感片段的识别方法及装置 Download PDFInfo
- Publication number
- CN111860237B CN111860237B CN202010645824.XA CN202010645824A CN111860237B CN 111860237 B CN111860237 B CN 111860237B CN 202010645824 A CN202010645824 A CN 202010645824A CN 111860237 B CN111860237 B CN 111860237B
- Authority
- CN
- China
- Prior art keywords
- emotion
- video
- analyzed
- bullet screen
- fragments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种视频情感片段的识别方法,包括:确定待分析视频中各个情感弹幕的弹幕情感标签;对所述待分析视频进行分割,得到各个待分析视频片段;依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。上述的识别方法中,将待分析视频分割成多个待分析视频片段,计算各个待分析视频片段的片段情感向量和情感熵;依据弹幕得到的所述片段的片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段,缩短了情感片段的识别周期,避免了由于人工标识情感标签标注时间长,导致情感片段识别周期长的问题。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种视频情感片段的识别方法及装置。
背景技术
随着多媒体技术的发展,多媒体视频的数据量爆发增长,吸引了大量用户,人们倾向于看视频来缓解压力和无聊,看视频已成为满足人们情感需求的一种新方式,而视频巨大的规模和用户有限的时间之间存在矛盾,观众有时只想看视频的部分情感片段,而非整个视频。因此有必要对视频进行与时间同步的情感标签(五类情感:喜、惊、不喜、悲、惧),识别视频中的情感片段,更好地满足观众的个性化情感需求。
该工作的首要挑战是视频缺乏时序情感标签,目前主要通过人工对视频中的每一帧标注情感标签,基于标注的情感标签对情感片段进行识别,由于人工标注情感标签标注时间长,导致情感片段识别周期长。
发明内容
有鉴于此,本发明提供了一种视频情感片段的识别方法及装置,用以解决现有技术中目前主要通过人工对视频中的每一帧标注情感标签,基于标注的情感标签对情感片段进行识别,由于人工标注情感标签标注时间长,导致情感片段识别周期长的问题,具体方案如下:
一种视频情感片段的识别方法,包括:
确定待分析视频中各个情感弹幕的弹幕情感标签;
对所述待分析视频进行分割,得到各个待分析视频片段;
依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;
依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。
上述的方法,可选的,确定待分析视频中各个情感弹幕的弹幕情感标签,包括:
获取所述待分析视频的各个弹幕;
对所述各个弹幕进行筛选,得到各个情感弹幕;
依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。
上述的方法,可选的,依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签,包括:
确定每个情感弹幕的目标语义表示,其中,所述目标语义表示由对应情感弹幕的细粒度语义表示和粗粒度语义表示进行拼接得到;
确定每个情感弹幕产生时刻的场景图像数据的视觉向量表征;
将所述目标语义表示和所述视觉向量表征传递给所述预设的神经网络模型,得到对应情感弹幕的弹幕情感标签。
上述的方法,可选的,对所述待分析视频进行分割,得到各个待分析视频片段,包括:
确定所述待分析视频中各个帧的视觉语义;
依次比较相邻帧的视觉语义,判断所述相邻帧的视觉语义的差异度是否大于预设的差异度阈值;
若是,将所述相邻帧作为切分点进行切分,得到各个待分析视频片段。
上述的方法,可选的,还包括:
获取所述相邻帧弹幕语义;
依据所述弹幕语义,对所述切分点进行修正。
上述的方法,可选的,依据所述片段情感向量和所述情感熵,识别所述各个待分析视频片段中的情感片段,包括:
判断所述情感熵是否小于预设的情感熵阈值;
若是,判定当前待分析视频片段包含一种情感,或;
若否,判断当前片段情感向量中的最大分量与次大分量的比值是否大于预设的比例阈值;
若是,判定所述当前待分析视频片段包含一种情感,或,若否,判定所述当前待分析视频判断包含两种情感。
7、一种视频情感片段的识别装置,其特征在于,包括:
确定模块,用于确定待分析视频中各个情感弹幕的弹幕情感标签;
分割模块,用于对所述待分析视频进行分割,得到各个待分析视频片段;
计算模块,用于依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;
识别模块,用于依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。
上述的装置,可选的,所述确定模块包括:
获取单元,用于获取所述待分析视频的各个弹幕;
筛选单元,用于对所述各个弹幕进行筛选,得到各个情感弹幕;
标签确定单元,用于依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。
上述的装置,可选的,所述分割模块包括:
语义确定单元,用于确定所述待分析视频中各个帧的视觉语义;
第一判断单元,用于依次比较相邻帧的视觉语义,判断所述相邻帧的视觉语义的差异度是否大于预设的差异度阈值;
切分单元,用于若是,将所述相邻帧作为切分点进行切分,得到各个待分析视频片段。
上述的装置,可选的,所述识别模块包括:
第二判断单元,用于判断所述情感熵是否小于预设的情感熵阈值;
第一判定单元,用于若是,判定当前待分析视频片段包含一种情感,或;
第三判断单元,用于若否,判断当前片段情感向量中的最大分量与次大分量的比值是否大于预设的比例阈值;
第二判定单元,用于若是,判定所述当前待分析视频片段包含一种情感,或,若否,判定所述当前待分析视频判断包含两种情感。
与现有技术相比,本发明包括以下优点:
本发明公开了一种视频情感片段的识别方法,包括:确定待分析视频中各个情感弹幕的弹幕情感标签;对所述待分析视频进行分割,得到各个待分析视频片段;依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。上述的识别方法中,将待分析视频分割成多个待分析视频片段,计算各个待分析视频片段的片段情感向量和情感熵;依据弹幕得到的所述片段的片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段,缩短了情感片段的识别周期,避免了由于人工标识情感标签标注时间长,导致情感片段识别周期长的问题。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种视频情感片段的识别方法流程图;
图2为本申请实施例公开的一种视频情感片段的识别装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本发明公开了一种视频情感片段的识别方法及装置,应用于对视频中的情感片段进行识别的过程,其中,所述情感片段包括:喜、惊、不喜、悲、惧五类情感,现有技术中,采用人工标注情感标签,基于情感标签对视频中的情感片段进行识别,但是由于人工标注情感标签的标注时间长、导致识别的周期长,本发明实施例中提供了一种视频情感片段的识别方法用于解决上述问题,许多视频分享平台广泛存在名为“弹幕”的时间同步评论,它是观众观影的即时感受,蕴含丰富的情感表达,与视频情感发展一致,可用于视频情感分析,因此,所述识别方法基于弹幕对待分析视频进行识别,所述识别方法的执行流程如图1所示,包括步骤:
S101、确定待分析视频中各个情感弹幕的弹幕情感标签;
本发明实施例中,获取所述待分析视频各个弹幕,由于弹幕是视频用户的即时感受,并非所有的观众均参与了整个视频的弹幕互动,与视频语义和视频情感无关的打卡弹幕或签到弹幕经常出现,因此,所述各个弹幕的主题比较松散,语义噪音较多,优选的,先进行去噪处理,本发明根据各个观众的发文数目甄别并删除无关的打卡弹幕或签到弹幕,得到各个情感弹幕。
进一步的,依据预设的神经网络模型确定每个情感弹幕的情感标签,其中,所述预设的神经网络模型为弹幕情感模型,所述弹幕情感模型需要预先进行训练,所述弹幕情感模型的训练过程如下:
首先构建训练数据集,从不包含情感标签的弹幕数据集C中构造一个带情感标签的弹幕情感数据集Ce,基于Ce训练所述弹幕情感模型。考虑到人工标注的高成本,弹幕情感数据集Ce的情感标签通过二阶段词匹配方法进行获取,其基本思想建立在弹幕的情感表达十分常见这一事实基础之上。弹幕蕴含丰富的情感表达,具有显式情感表达的弹幕可通过两阶段情感词典匹配方法进行自动情感识别。第一阶段是通过一个融合了通用情感词典和弹幕情感词典的综合情感极性词典,对所有的视频弹幕进行情感极性识别,挑选出蕴含显式情感表达的、能识别出正负情感极性的弹幕;第二阶段是对阶段一获得的具有正负情感极性的弹幕,利用细粒度情感词典,进行细粒度情感识别(五类情感:喜、惊、不喜、悲、惧),通过两个阶段的情感词典匹配方法,最终获得一个含有情感标签的情感弹幕。弹幕数据集C和情感弹幕数据集Ce的数学表示如下所示:
C={(C1,T1,I1),K(Ci,Ti,Ii),K(CN,TN,IN)} (1)
其中,弹幕数据集C中的任意元素(Ci,Ti,Ii)分别表示Ti时刻对应的弹幕Ci和视频关键帧的场景图像数据Ii。情感弹幕数据集Ce中的任意元素分别表示时刻对应的弹幕和视频关键帧的场景图像数据以及弹幕对应的五分类情感标签N和M分别表示弹幕文本的句子数目和情感弹幕文本的句子数目。
本发明实施例中,基于所述情感弹幕数据集Ce训练所述弹幕情感模型,其中,所述弹幕情感模型的输入为情感弹幕数据集Ce中的原始数据,任意一个元素为即:时刻对应的弹幕文本和情感标签文本以及此时的视频关键帧的视觉数据信息输入数据的表征过程如下:利用预训练语言模型Bert得到弹幕文本的句向量表征和词向量表征利用预训练语言模型Bert得到弹幕情感标签的句向量表征利用现有的深度网络模型VGG处理视频关键帧的视觉图像信息抽取VGG模型的最后一个卷积层的结果作为的向量表征相关公式如下:
鉴于弹幕文本语义与对应时刻的视频场景语义相关,本发明实施例中,将弹幕的场景视觉信息以注意力形式融入弹幕文本的词向量中,帮助模型关注与弹幕视觉场景相关的词,得到带视觉注意力的弹幕词向量注意力机制的相关公式如下。
α=soft max(W3M) (7)
其中,W1、W2及W3为注意力单元的训练参数,该训练参数可以基于经验或者具体情况进行设定,tanh表示深度神经网络的激活函数,M为中间量,表示归一化操作,α表示视觉信息在弹幕文本的每个词上的注意力权重分布,视觉注意力权重α作用于弹幕文本的词向量得到带视觉注意力的弹幕词向量
其中,γ为权重调节参数,符号‘+’为张量的拼接操作。
其中,为情感弹幕的原情感标签,为情感弹幕经过模型训练、输出的情感概率,softmax_cross_entropy为交叉熵损失函数,它计算每条弹幕的原情感标签和情感预测结果的交叉熵损失。为了最小化上述目标函数,采用Adam优化器迭代更新模型中的各个参数(Tensorflow自动求导实现),从而训练得到弹幕的情感识别模型。
其中,P(y|Ck,Ik)为弹幕Ck的模型预测结果,旨在求出多分类中每一类所占的比例,并保证所有的比例之和为1。本发明通过对弹幕Ck的预测结果作进一步处理,得到弹幕Ck的情感概率向量 它是一个五维情感向量,其在各维度上的值可看作是弹幕Ck在各维度上的情感语义分布,衡量弹幕Ck在各情感维度上的情感语义值,也代表了弹幕Ck的情感标签。
S102、对所述待分析视频进行分割,得到各个待分析视频片段;
本发明实施例中,由于弹幕评论是观众的即时回应,所蕴含的情绪往往是瞬时的。因此,基于一个连续时间段的视频情绪分析最为合适。事实上,一个视频中包含许多相对独立的场景片段,这些片段的内容通常具有相对独立和话题,会随着视频情节的发展而演变,即:视频情节的变化通常与视频场景的切换相一致,视频场景的变化可作为视频片段的切分依据。相对于常规的等长切分视频片段,本应用从场景切换角度来考虑视频片段切分更为合适。
先使用一种基于自底向上和自顶向下注意力的对象识别方法对每个视频关键帧的视觉数据信息进行对象识别,得到的每帧的视觉单词可视为帧的视觉语义,它描述了帧的视觉场景。相邻两帧的视觉单词文本显著改变,意味着描述的场景发生了变化,该时刻可作为视频切分点,具体来说,若相邻帧之间的视觉单词交集为空,则视作场景将进行切换,该时刻为切分点。
进一步的,为提高切分准确率,本发明还从视频语义的角度进行切分点修正。该操作借助可以反映视频语义的弹幕来实现:段切分点作为视频的情节转换点,该时刻的弹幕语义相对松散,若该时刻的弹幕语义集中一致,则应修正此切分点,即:对上阶段得到的任意视频片段Si,对其内部的所有弹幕,两两求余弦相似度,构造片段Si的语义相似度矩阵进而得到视频片段Si的弹幕平均语义相似度判断每一个视频片段Si的弹幕平均语义相似度丢弃平均语义相似度非常高的视频段(通过实际实验采用经验阈值来确定),最终得到情节相对独立、自然的待分析视频片段集合{sp}。
S103、依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;
本发明实施例中,所述待分析视频包含复杂的多模态内容,情感较为复杂,而视频观众的情感弹幕可视做视频情感的间接反映,适用于视频情感分析。对待分析视频片段集合{sp}的任意片段si,片段si的情感弹幕集合为片段si的情感弹幕所对应的情感向量的集合为每条弹幕的的情感向量为对片段的所有弹幕的情感向量按每个维度求和,得到片段si的情感和向量如下式所示:
在信息论中:熵是描述***混乱的量,熵越大说明***越混乱,携带的信息就越少,熵越小说明***越有序,携带的信息越多。在片段si的情感向量中,各情感维度的情感语义信息的分布集中程度,也可用片段si的熵来度量,进而判断待分析情感片段si的情感倾向,待分析情感片段si的熵在本发明中也称为片段si的情感熵,根据信息伦中的熵值公式,可得片段si的情感熵如下式所示:
S104、依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。
本发明实施例中,由于视频情感复杂,情感视频片段的情感倾向并非均是单一情感类别,具有复杂情感的视频片段也较常见。本应用旨在找到包含不超过两种明显情感倾向的视频片段:一种是只有一种明显情感倾向的视频情感片段;另一种是有两种明显情感倾向的视频情感片段。
其中,针对情感倾向单一的视频情感片段的处理过程如下:当待分析视频片段si的情感熵非常小,小于其情感熵阈值H(e)threshold时,该片段si的情感弹幕的各维度情绪语义趋于一致,意味着待分析视频片段si仅包含一种明显的情感倾向。
在此基础上,当片段si的情感熵仅仅略高于阈值H(e)threshold时,片段si的情感倾向不一定只有一种,还需进一步判断:在片段si的情绪向量中,当的最大分量远大于的次大分量则片段si的情感倾向只有一种,即的最大分量的所在维度的所属情感类别,公式如下。
针对含两种情感倾向的待分析视频情感片段的处理过程如下:由公式(18)可知,当待分析视频情感片段si的情感熵仅仅略高于阈值H(e)threshold时,待分析视频情感片段si的情感倾向不一定只有一种:当待分析视频情感片段si的情感向量中,的最大分量和的次大分量差异较小时,这两个成分所在维度的所属情感类别均可视为待分析视频情感片段si的主要情绪倾向,即,待分析视频情感片段si有两种主要的情感倾向。
考虑到弹幕的主题较松散,语义噪音较多,本发明还从语义角度进行降噪利用每个待分析视频片段si的情绪弹幕的文本向量,对片段si求情感语义相似度矩阵为对称矩阵,其每个值代表其每个情感弹幕的两两语义相关性,对上三角部分进行分析,若两情感弹幕语义相似度低于片段内弹幕的语义相似度阈值(语义相似度阈值根据实际实验进行确定),就视为语义畸点,删除对应的情感弹幕。通过此操作,本发明实施例可以拥有更好的鲁棒性。
本发明公开了一种视频情感片段的识别方法,包括:确定待分析视频中各个情感弹幕的弹幕情感标签;对所述待分析视频进行分割,得到各个待分析视频片段;依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。上述的识别方法中,将待分析视频分割成多个待分析视频片段,计算各个待分析视频片段的片段情感向量和情感熵;依据弹幕得到的所述片段的片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段,缩短了情感片段的识别周期,避免了由于人工标识情感标签标注时间长,导致情感片段识别周期长的问题。
基于上述的识别方法,针对视频中的蕴含丰富情感的弹幕,运用注意力机制和多模态融合思想,将弹幕情感语义与视频场景的视觉信息进行时序上的融合,从而实现对弹幕情感语义的增强表征,并利用这种融入了文本和视觉信息的表征,对基于视觉语义和场景切换的视频切分片段进行情感判断,准确识别视频中的情感片段,弥补了现有视频情感理解中没有对视频情感片段进行识别的不足。
基于上述的一种视频情感片段的识别方法,本发明实施例中还提供了一种视频情感片段的识别装置,所述识别装置的结构框图如图2所示,包括:
确定模块201、分割模块202、计算模块203和识别模块204。
其中,
所述确定模块201,用于确定待分析视频中各个情感弹幕的弹幕情感标签;
所述分割模块202,用于对所述待分析视频进行分割,得到各个待分析视频片段;
所述计算模块203,用于依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;
所述识别模块204,用于依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。
本发明公开了一种视频情感片段的识别装置,包括:确定待分析视频中各个情感弹幕的弹幕情感标签;对所述待分析视频进行分割,得到各个待分析视频片段;依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。上述的识别装置中,将待分析视频分割成多个待分析视频片段,计算各个待分析视频片段的片段情感向量和情感熵;依据弹幕得到的所述片段的片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段,缩短了情感片段的识别周期,避免了由于人工标识情感标签标注时间长,导致情感片段识别周期长的问题。
本发明实施例中,所述确定模块201包括:
获取单元205、筛选单元206和标签确定单元207。
其中,
所述获取单元205,用于获取所述待分析视频的各个弹幕;
所述筛选单元206,用于对所述各个弹幕进行筛选,得到各个情感弹幕;
所述标签确定单元207,用于依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。
本发明实施例中,所述分割模块202包括:
语义确定单元208、第一判断单元209和切分单元210。
其中,
所述语义确定单元208,用于确定所述待分析视频中各个帧的视觉语义;
所述第一判断单元209,用于依次比较相邻帧的视觉语义,判断所述相邻帧的视觉语义的差异度是否大于预设的差异度阈值;
所述切分单元210,用于若是,将所述相邻帧作为切分点进行切分,得到各个待分析视频片段。
本发明实施例中,所述识别模块204包括:
第二判断单元211、第一判定单元212、第三判断单元213和第二判定单元214。
其中,
所述第二判断单元211,用于判断所述情感熵是否小于预设的情感熵阈值;
所述第一判定单元212,用于若是,判定当前待分析视频片段包含一种情感,或;
所述第三判断单元213,用于若否,判断当前片段情感向量中的最大分量与次大分量的比值是否大于预设的比例阈值;
所述第二判定单元214,用于若是,判定所述当前待分析视频片段包含一种情感,或,若否,判定所述当前待分析视频判断包含两种情感。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种视频情感片段的识别方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种视频情感片段的识别方法,其特征在于,包括:
确定待分析视频中各个情感弹幕的弹幕情感标签;
对所述待分析视频进行分割,得到各个待分析视频片段;
依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;
依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段;
其中,依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段,包括:
判断所述情感熵是否小于预设的情感熵阈值;
若是,判定当前待分析视频片段包含一种情感,或;
若否,判断当前片段情感向量中的最大分量与次大分量的比值是否大于预设的比例阈值;
若是,判定所述当前待分析视频片段包含一种情感,或,若否,判定所述当前待分析视频判断包含两种情感。
2.根据权利要求1所述的方法,其特征在于,确定待分析视频中各个情感弹幕的弹幕情感标签,包括:
获取所述待分析视频的各个弹幕;
对所述各个弹幕进行筛选,得到各个情感弹幕;
依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。
3.根据权利要求2所述的方法,其特征在于,依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签,包括:
确定每个情感弹幕的目标语义表示,其中,所述目标语义表示由对应情感弹幕的细粒度语义表示和粗粒度语义表示进行拼接得到;
确定每个情感弹幕产生时刻的场景图像数据的视觉向量表征;
将所述目标语义表示和所述视觉向量表征传递给所述预设的弹幕情感识别神经网络模型,得到对应情感弹幕的情感标签。
4.根据权利要求1所述的方法,其特征在于,对所述待分析视频进行分割,得到各个待分析视频片段,包括:
确定所述待分析视频中各个帧的视觉语义;
依次比较相邻帧的视觉语义,判断所述相邻帧的视觉语义的差异度是否大于预设的差异度阈值;
若是,将所述相邻帧作为切分点进行切分,得到各个待分析视频片段。
5.根据权利要求4所述的方法,其特征在于,还包括:
获取所述相邻帧弹幕语义;
依据所述弹幕语义对所述切分点进行修正。
6.一种视频情感片段的识别装置,其特征在于,包括:
确定模块,用于确定待分析视频中各个情感弹幕的弹幕情感标签;
分割模块,用于对所述待分析视频进行分割,得到各个待分析视频片段;
计算模块,用于依据每一个待分析视频片段中的各个弹幕情感标签,计算各个待分析视频片段的片段情感向量和情感熵;
识别模块,用于依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段;
其中,所述识别模块包括:
第二判断单元,用于判断所述情感熵是否小于预设的情感熵阈值;
第一判定单元,用于若是,判定当前待分析视频片段包含一种情感,或;
第三判断单元,用于若否,判断当前片段情感向量中的最大分量与次大分量的比值是否大于预设的比例阈值;
第二判定单元,用于若是,判定所述当前待分析视频片段包含一种情感,或,若否,判定所述当前待分析视频判断包含两种情感。
7.根据权利要求6所述的装置,其特征在于,所述确定模块包括:
获取单元,用于获取所述待分析视频的各个弹幕;
筛选单元,用于对所述各个弹幕进行筛选,得到各个情感弹幕;
标签确定单元,用于依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。
8.根据权利要求6所述的装置,其特征在于,所述分割模块包括:
语义确定单元,用于确定所述待分析视频中各个帧的视觉语义;
第一判断单元,用于依次比较相邻帧的视觉语义,判断所述相邻帧的视觉语义的差异度是否大于预设的差异度阈值;
切分单元,用于若是,将所述相邻帧作为切分点进行切分,得到各个待分析视频片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010645824.XA CN111860237B (zh) | 2020-07-07 | 2020-07-07 | 一种视频情感片段的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010645824.XA CN111860237B (zh) | 2020-07-07 | 2020-07-07 | 一种视频情感片段的识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860237A CN111860237A (zh) | 2020-10-30 |
CN111860237B true CN111860237B (zh) | 2022-09-06 |
Family
ID=73153438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010645824.XA Active CN111860237B (zh) | 2020-07-07 | 2020-07-07 | 一种视频情感片段的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860237B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364743A (zh) * | 2020-11-02 | 2021-02-12 | 北京工商大学 | 一种基于半监督学习和弹幕分析的视频分类方法 |
CN112699831B (zh) * | 2021-01-07 | 2022-04-01 | 重庆邮电大学 | 基于弹幕情感的视频热点片段检测方法、装置及存储介质 |
CN113221689B (zh) * | 2021-04-27 | 2022-07-29 | 苏州工业职业技术学院 | 视频多目标情感度预测方法 |
CN114339375B (zh) * | 2021-08-17 | 2024-04-02 | 腾讯科技(深圳)有限公司 | 视频播放方法、生成视频目录的方法及相关产品 |
CN113656643B (zh) * | 2021-08-20 | 2024-05-03 | 珠海九松科技有限公司 | 一种使用ai分析观影心情的方法 |
CN117710777B (zh) * | 2024-02-06 | 2024-06-04 | 腾讯科技(深圳)有限公司 | 模型训练方法、关键帧抽取方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108513176A (zh) * | 2017-12-06 | 2018-09-07 | 北京邮电大学 | 一种基于话题模型的社会化视频主题提取***及方法 |
CN108537139A (zh) * | 2018-03-20 | 2018-09-14 | 校宝在线(杭州)科技股份有限公司 | 一种基于弹幕信息的在线视频精彩片段分析方法 |
CN108737859A (zh) * | 2018-05-07 | 2018-11-02 | 华东师范大学 | 基于弹幕的视频推荐方法和装置 |
CN109862397A (zh) * | 2019-02-02 | 2019-06-07 | 广州虎牙信息科技有限公司 | 一种视频分析方法、装置、设备和存储介质 |
CN110020437A (zh) * | 2019-04-11 | 2019-07-16 | 江南大学 | 一种视频和弹幕相结合的情感分析及可视化方法 |
CN110113659A (zh) * | 2019-04-19 | 2019-08-09 | 北京大米科技有限公司 | 生成视频的方法、装置、电子设备及介质 |
CN110198482A (zh) * | 2019-04-11 | 2019-09-03 | 华东理工大学 | 一种视频重点桥段标注方法、终端及存储介质 |
CN110263215A (zh) * | 2019-05-09 | 2019-09-20 | 众安信息技术服务有限公司 | 一种视频情感定位方法及*** |
CN110569354A (zh) * | 2019-07-22 | 2019-12-13 | 中国农业大学 | 弹幕情感分析方法及装置 |
CN110852360A (zh) * | 2019-10-30 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 图像情感识别方法、装置、设备及存储介质 |
CN111163366A (zh) * | 2019-12-30 | 2020-05-15 | 厦门市美亚柏科信息股份有限公司 | 一种视频处理方法及终端 |
-
2020
- 2020-07-07 CN CN202010645824.XA patent/CN111860237B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108513176A (zh) * | 2017-12-06 | 2018-09-07 | 北京邮电大学 | 一种基于话题模型的社会化视频主题提取***及方法 |
CN108537139A (zh) * | 2018-03-20 | 2018-09-14 | 校宝在线(杭州)科技股份有限公司 | 一种基于弹幕信息的在线视频精彩片段分析方法 |
CN108737859A (zh) * | 2018-05-07 | 2018-11-02 | 华东师范大学 | 基于弹幕的视频推荐方法和装置 |
CN109862397A (zh) * | 2019-02-02 | 2019-06-07 | 广州虎牙信息科技有限公司 | 一种视频分析方法、装置、设备和存储介质 |
CN110020437A (zh) * | 2019-04-11 | 2019-07-16 | 江南大学 | 一种视频和弹幕相结合的情感分析及可视化方法 |
CN110198482A (zh) * | 2019-04-11 | 2019-09-03 | 华东理工大学 | 一种视频重点桥段标注方法、终端及存储介质 |
CN110113659A (zh) * | 2019-04-19 | 2019-08-09 | 北京大米科技有限公司 | 生成视频的方法、装置、电子设备及介质 |
CN110263215A (zh) * | 2019-05-09 | 2019-09-20 | 众安信息技术服务有限公司 | 一种视频情感定位方法及*** |
CN110569354A (zh) * | 2019-07-22 | 2019-12-13 | 中国农业大学 | 弹幕情感分析方法及装置 |
CN110852360A (zh) * | 2019-10-30 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 图像情感识别方法、装置、设备及存储介质 |
CN111163366A (zh) * | 2019-12-30 | 2020-05-15 | 厦门市美亚柏科信息股份有限公司 | 一种视频处理方法及终端 |
Non-Patent Citations (2)
Title |
---|
《Visual-Texual Emotion Analysis With Deep Coupled Video and Danmu Neural Networks》;Chenchen Li等;《IEEE Transactions on Multimedia》;20200630;第22卷(第6期);第1634-1646页 * |
《基于弹幕情感分析的视频片段推荐模型》;邓扬等;《计算机应用》;20170410;第37卷(第4期);第1065-1070,1134页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111860237A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860237B (zh) | 一种视频情感片段的识别方法及装置 | |
Yang et al. | Video captioning by adversarial LSTM | |
Cheng et al. | Fully convolutional networks for continuous sign language recognition | |
Poria et al. | Context-dependent sentiment analysis in user-generated videos | |
CN106878632B (zh) | 一种视频数据的处理方法和装置 | |
CN113255755B (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN112199956B (zh) | 一种基于深度表示学习的实体情感分析方法 | |
CN110825867B (zh) | 相似文本推荐方法、装置、电子设备和存储介质 | |
US11727915B1 (en) | Method and terminal for generating simulated voice of virtual teacher | |
WO2023124647A1 (zh) | 一种纪要确定方法及其相关设备 | |
CN113657115A (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN113761377A (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
CN115580758A (zh) | 视频内容生成方法及装置、电子设备、存储介质 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及*** | |
CN115830610A (zh) | 一种多模态广告识别方法、***、电子设备及存储介质 | |
CN114880496A (zh) | 多媒体信息话题分析方法、装置、设备及存储介质 | |
Zaoad et al. | An attention-based hybrid deep learning approach for bengali video captioning | |
CN113268592B (zh) | 基于多层次交互注意力机制的短文本对象情感分类方法 | |
US20240037941A1 (en) | Search results within segmented communication session content | |
CN115169472A (zh) | 针对多媒体数据的音乐匹配方法、装置和计算机设备 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
Gomes Jr et al. | Framework for knowledge discovery in educational video repositories | |
Wang et al. | RSRNeT: a novel multi-modal network framework for named entity recognition and relation extraction | |
Wang et al. | Multimodal Cross-Attention Bayesian Network for Social News Emotion Recognition | |
Nakka et al. | LAMBDA: Lexicon and Aspect-Based Multimodal Data Analysis of Tweet. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |