CN111860237B

CN111860237B - 一种视频情感片段的识别方法及装置

Info

Publication number: CN111860237B
Application number: CN202010645824.XA
Authority: CN
Inventors: 陈恩红; 徐童; 曹卫; 张琨; 吕广弈; 何明; 武晗
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2022-09-06
Anticipated expiration: 2040-07-07
Also published as: CN111860237A

Abstract

本发明公开了一种视频情感片段的识别方法，包括：确定待分析视频中各个情感弹幕的弹幕情感标签；对所述待分析视频进行分割，得到各个待分析视频片段；依据每一个待分析视频片段中的各个弹幕情感标签，计算各个待分析视频片段的片段情感向量和情感熵；依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。上述的识别方法中，将待分析视频分割成多个待分析视频片段，计算各个待分析视频片段的片段情感向量和情感熵；依据弹幕得到的所述片段的片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段，缩短了情感片段的识别周期，避免了由于人工标识情感标签标注时间长，导致情感片段识别周期长的问题。

Description

一种视频情感片段的识别方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种视频情感片段的识别方法及装置。

背景技术

随着多媒体技术的发展，多媒体视频的数据量爆发增长，吸引了大量用户，人们倾向于看视频来缓解压力和无聊，看视频已成为满足人们情感需求的一种新方式，而视频巨大的规模和用户有限的时间之间存在矛盾，观众有时只想看视频的部分情感片段，而非整个视频。因此有必要对视频进行与时间同步的情感标签(五类情感：喜、惊、不喜、悲、惧)，识别视频中的情感片段，更好地满足观众的个性化情感需求。

该工作的首要挑战是视频缺乏时序情感标签，目前主要通过人工对视频中的每一帧标注情感标签，基于标注的情感标签对情感片段进行识别，由于人工标注情感标签标注时间长，导致情感片段识别周期长。

发明内容

有鉴于此，本发明提供了一种视频情感片段的识别方法及装置，用以解决现有技术中目前主要通过人工对视频中的每一帧标注情感标签，基于标注的情感标签对情感片段进行识别，由于人工标注情感标签标注时间长，导致情感片段识别周期长的问题，具体方案如下：

一种视频情感片段的识别方法，包括：

确定待分析视频中各个情感弹幕的弹幕情感标签；

对所述待分析视频进行分割，得到各个待分析视频片段；

依据每一个待分析视频片段中的各个弹幕情感标签，计算各个待分析视频片段的片段情感向量和情感熵；

依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。

上述的方法，可选的，确定待分析视频中各个情感弹幕的弹幕情感标签，包括：

获取所述待分析视频的各个弹幕；

对所述各个弹幕进行筛选，得到各个情感弹幕；

依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。

上述的方法，可选的，依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签，包括：

确定每个情感弹幕的目标语义表示，其中，所述目标语义表示由对应情感弹幕的细粒度语义表示和粗粒度语义表示进行拼接得到；

确定每个情感弹幕产生时刻的场景图像数据的视觉向量表征；

将所述目标语义表示和所述视觉向量表征传递给所述预设的神经网络模型，得到对应情感弹幕的弹幕情感标签。

上述的方法，可选的，对所述待分析视频进行分割，得到各个待分析视频片段，包括：

确定所述待分析视频中各个帧的视觉语义；

依次比较相邻帧的视觉语义，判断所述相邻帧的视觉语义的差异度是否大于预设的差异度阈值；

若是，将所述相邻帧作为切分点进行切分，得到各个待分析视频片段。

上述的方法，可选的，还包括：

获取所述相邻帧弹幕语义；

依据所述弹幕语义，对所述切分点进行修正。

上述的方法，可选的，依据所述片段情感向量和所述情感熵，识别所述各个待分析视频片段中的情感片段，包括：

判断所述情感熵是否小于预设的情感熵阈值；

若是，判定当前待分析视频片段包含一种情感，或；

若否，判断当前片段情感向量中的最大分量与次大分量的比值是否大于预设的比例阈值；

若是，判定所述当前待分析视频片段包含一种情感，或，若否，判定所述当前待分析视频判断包含两种情感。

7、一种视频情感片段的识别装置，其特征在于，包括：

确定模块，用于确定待分析视频中各个情感弹幕的弹幕情感标签；

分割模块，用于对所述待分析视频进行分割，得到各个待分析视频片段；

计算模块，用于依据每一个待分析视频片段中的各个弹幕情感标签，计算各个待分析视频片段的片段情感向量和情感熵；

识别模块，用于依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。

上述的装置，可选的，所述确定模块包括：

获取单元，用于获取所述待分析视频的各个弹幕；

筛选单元，用于对所述各个弹幕进行筛选，得到各个情感弹幕；

标签确定单元，用于依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。

上述的装置，可选的，所述分割模块包括：

语义确定单元，用于确定所述待分析视频中各个帧的视觉语义；

第一判断单元，用于依次比较相邻帧的视觉语义，判断所述相邻帧的视觉语义的差异度是否大于预设的差异度阈值；

切分单元，用于若是，将所述相邻帧作为切分点进行切分，得到各个待分析视频片段。

上述的装置，可选的，所述识别模块包括：

第二判断单元，用于判断所述情感熵是否小于预设的情感熵阈值；

第一判定单元，用于若是，判定当前待分析视频片段包含一种情感，或；

第三判断单元，用于若否，判断当前片段情感向量中的最大分量与次大分量的比值是否大于预设的比例阈值；

第二判定单元，用于若是，判定所述当前待分析视频片段包含一种情感，或，若否，判定所述当前待分析视频判断包含两种情感。

与现有技术相比，本发明包括以下优点：

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种视频情感片段的识别方法流程图；

图2为本申请实施例公开的一种视频情感片段的识别装置结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本发明公开了一种视频情感片段的识别方法及装置，应用于对视频中的情感片段进行识别的过程，其中，所述情感片段包括：喜、惊、不喜、悲、惧五类情感，现有技术中，采用人工标注情感标签，基于情感标签对视频中的情感片段进行识别，但是由于人工标注情感标签的标注时间长、导致识别的周期长，本发明实施例中提供了一种视频情感片段的识别方法用于解决上述问题，许多视频分享平台广泛存在名为“弹幕”的时间同步评论，它是观众观影的即时感受，蕴含丰富的情感表达，与视频情感发展一致，可用于视频情感分析，因此，所述识别方法基于弹幕对待分析视频进行识别，所述识别方法的执行流程如图1所示，包括步骤：

S101、确定待分析视频中各个情感弹幕的弹幕情感标签；

本发明实施例中，获取所述待分析视频各个弹幕，由于弹幕是视频用户的即时感受，并非所有的观众均参与了整个视频的弹幕互动，与视频语义和视频情感无关的打卡弹幕或签到弹幕经常出现，因此，所述各个弹幕的主题比较松散，语义噪音较多，优选的，先进行去噪处理，本发明根据各个观众的发文数目甄别并删除无关的打卡弹幕或签到弹幕，得到各个情感弹幕。

进一步的，依据预设的神经网络模型确定每个情感弹幕的情感标签，其中，所述预设的神经网络模型为弹幕情感模型，所述弹幕情感模型需要预先进行训练，所述弹幕情感模型的训练过程如下：

首先构建训练数据集，从不包含情感标签的弹幕数据集C中构造一个带情感标签的弹幕情感数据集C_e，基于C_e训练所述弹幕情感模型。考虑到人工标注的高成本，弹幕情感数据集C_e的情感标签通过二阶段词匹配方法进行获取，其基本思想建立在弹幕的情感表达十分常见这一事实基础之上。弹幕蕴含丰富的情感表达，具有显式情感表达的弹幕可通过两阶段情感词典匹配方法进行自动情感识别。第一阶段是通过一个融合了通用情感词典和弹幕情感词典的综合情感极性词典，对所有的视频弹幕进行情感极性识别，挑选出蕴含显式情感表达的、能识别出正负情感极性的弹幕；第二阶段是对阶段一获得的具有正负情感极性的弹幕，利用细粒度情感词典，进行细粒度情感识别(五类情感：喜、惊、不喜、悲、惧)，通过两个阶段的情感词典匹配方法，最终获得一个含有情感标签的情感弹幕。弹幕数据集C和情感弹幕数据集C_e的数学表示如下所示：

C＝{(C¹,T¹,I¹),K(Cⁱ,Tⁱ,Iⁱ),K(C^N,T^N,I^N)} (1)

其中，弹幕数据集C中的任意元素(Cⁱ,Tⁱ,Iⁱ)分别表示Tⁱ时刻对应的弹幕Cⁱ和视频关键帧的场景图像数据Iⁱ。情感弹幕数据集C_e中的任意元素

分别表示

时刻对应的弹幕

和视频关键帧的场景图像数据

以及弹幕

对应的五分类情感标签

N和M分别表示弹幕文本的句子数目和情感弹幕文本的句子数目。

本发明实施例中，基于所述情感弹幕数据集C_e训练所述弹幕情感模型，其中，所述弹幕情感模型的输入为情感弹幕数据集C_e中的原始数据，任意一个元素为

即：

时刻对应的弹幕文本

和情感标签文本

以及此时的视频关键帧的视觉数据信息

输入数据的表征过程如下：利用预训练语言模型Bert得到弹幕文本

的句向量表征

和词向量表征

利用预训练语言模型Bert得到弹幕情感标签

的句向量表征

利用现有的深度网络模型VGG处理视频关键帧的视觉图像信息

抽取VGG模型的最后一个卷积层的结果作为

的向量表征

相关公式如下：

鉴于弹幕文本语义与对应时刻的视频场景语义相关，本发明实施例中，将弹幕的场景视觉信息

以注意力形式融入弹幕文本的词向量

中，帮助模型关注与弹幕视觉场景相关的词，得到带视觉注意力的弹幕词向量

注意力机制的相关公式如下。

α＝soft max(W₃M) (7)

其中，W₁、W₂及W₃为注意力单元的训练参数，该训练参数可以基于经验或者具体情况进行设定，tanh表示深度神经网络的激活函数，M为中间量，

表示归一化操作，α表示视觉信息在弹幕文本的每个词

上的注意力权重分布，视觉注意力权重α作用于弹幕文本的词向量

得到带视觉注意力的弹幕词向量

考虑到句子文本蕴含词的序列信息，本发明利用循环神经网络BiLSTM和自注意力机制，对融合了视觉信息的弹幕词向量

建模，得到弹幕的细粒度语义表示

由公式(3)可知由Bert模型得到了弹幕句子向量表征

即为弹幕的整体句子的粗粒度语义表征，将其与弹幕细粒度句子语义表示

进行带权重的拼接操作，得到弹目标语义表示

见下式。

其中，γ为权重调节参数，符号‘+’为张量的拼接操作。

随后，所述目标语义表示

通过全连接层FC进行训练和输出，得到该弹幕的情感概率P：

其中，y表示弹幕所属的情感类别，

表示通过输入

计算得到弹幕

的情感类别概率。FC是一个单层的全连接网络结构，通过全连接层进行输出，得到每一条情感弹幕的情感概率P，通过最小化以下目标函数来训练情感模型：

其中，

为情感弹幕

的原情感标签，

为情感弹幕

经过模型训练、输出的情感概率，softmax_cross_entropy为交叉熵损失函数，它计算每条弹幕的原情感标签

和情感预测结果

的交叉熵损失。为了最小化上述目标函数，采用Adam优化器迭代更新模型中的各个参数(Tensorflow自动求导实现)，从而训练得到弹幕的情感识别模型。

最后，利用训练好的弹幕情感识别模型对弹幕数据集C中的任意一条弹幕C^k:(C^k,T^k,I^k)进行情感预测，输出P(y|C^k,I^k)，并进一步得到情感概率向量

其中，P(y|C^k,I^k)为弹幕C^k的模型预测结果,

旨在求出多分类中每一类所占的比例，并保证所有的比例之和为1。本发明通过

对弹幕C^k的预测结果作进一步处理，得到弹幕C^k的情感概率向量

它是一个五维情感向量，其在各维度上的值可看作是弹幕C^k在各维度上的情感语义分布，衡量弹幕C^k在各情感维度上的情感语义值，也代表了弹幕C^k的情感标签。

S102、对所述待分析视频进行分割，得到各个待分析视频片段；

本发明实施例中，由于弹幕评论是观众的即时回应，所蕴含的情绪往往是瞬时的。因此，基于一个连续时间段的视频情绪分析最为合适。事实上，一个视频中包含许多相对独立的场景片段，这些片段的内容通常具有相对独立和话题，会随着视频情节的发展而演变，即：视频情节的变化通常与视频场景的切换相一致，视频场景的变化可作为视频片段的切分依据。相对于常规的等长切分视频片段，本应用从场景切换角度来考虑视频片段切分更为合适。

先使用一种基于自底向上和自顶向下注意力的对象识别方法对每个视频关键帧的视觉数据信息

进行对象识别，得到的每帧的视觉单词

可视为帧

的视觉语义，它描述了帧

的视觉场景。相邻两帧的视觉单词文本显著改变，意味着描述的场景发生了变化，该时刻可作为视频切分点，具体来说，若相邻帧之间的视觉单词交集为空，则视作场景将进行切换，该时刻为切分点。

进一步的，为提高切分准确率，本发明还从视频语义的角度进行切分点修正。该操作借助可以反映视频语义的弹幕来实现：段切分点作为视频的情节转换点，该时刻的弹幕语义相对松散，若该时刻的弹幕语义集中一致，则应修正此切分点，即：对上阶段得到的任意视频片段S_i，对其内部的所有弹幕，两两求余弦相似度，构造片段S_i的语义相似度矩阵

进而得到视频片段S_i的弹幕平均语义相似度

判断每一个视频片段S_i的弹幕平均语义相似度

丢弃平均语义相似度非常高的视频段(通过实际实验采用经验阈值来确定)，最终得到情节相对独立、自然的待分析视频片段集合{s_p}。

S103、依据每一个待分析视频片段中的各个弹幕情感标签，计算各个待分析视频片段的片段情感向量和情感熵；

本发明实施例中，所述待分析视频包含复杂的多模态内容，情感较为复杂，而视频观众的情感弹幕可视做视频情感的间接反映，适用于视频情感分析。对待分析视频片段集合{s_p}的任意片段s_i，片段s_i的情感弹幕集合为

片段s_i的情感弹幕所对应的情感向量的集合为

每条弹幕的

的情感向量

为

对片段的所有弹幕的情感向量按每个维度求和，得到片段s_i的情感和向量

如下式所示：

其中，u为片段s_i中情感弹幕的数量，和向量

即为片段s_i的五维情感向量，代表了片段s_i在各情感维度上的情感标签。

在信息论中：熵是描述***混乱的量，熵越大说明***越混乱，携带的信息就越少，熵越小说明***越有序,携带的信息越多。在片段s_i的情感向量

中，各情感维度的情感语义信息的分布集中程度，也可用片段s_i的熵来度量，进而判断待分析情感片段s_i的情感倾向，待分析情感片段s_i的熵在本发明中也称为片段s_i的情感熵，根据信息伦中的熵值公式，可得片段s_i的情感熵如下式所示：

S104、依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。

本发明实施例中，由于视频情感复杂，情感视频片段的情感倾向并非均是单一情感类别，具有复杂情感的视频片段也较常见。本应用旨在找到包含不超过两种明显情感倾向的视频片段：一种是只有一种明显情感倾向的视频情感片段；另一种是有两种明显情感倾向的视频情感片段。

其中，针对情感倾向单一的视频情感片段的处理过程如下：当待分析视频片段s_i的情感熵

非常小，小于其情感熵阈值H(e)_threshold时，该片段s_i的情感弹幕的各维度情绪语义趋于一致，意味着待分析视频片段s_i仅包含一种明显的情感倾向。

在此基础上，当片段s_i的情感熵

仅仅略高于阈值H(e)_threshold时，片段s_i的情感倾向不一定只有一种，还需进一步判断：在片段s_i的情绪向量

中，当

的最大分量

远大于

的次大分量

则片段s_i的情感倾向只有一种，即

的最大分量

的所在维度的所属情感类别，公式如下。

针对含两种情感倾向的待分析视频情感片段的处理过程如下：由公式(18)可知，当待分析视频情感片段s_i的情感熵

仅仅略高于阈值H(e)_threshold时，待分析视频情感片段s_i的情感倾向不一定只有一种：当待分析视频情感片段s_i的情感向量

中，

的最大分量

和

的次大分量

差异较小时，这两个成分所在维度的所属情感类别均可视为待分析视频情感片段s_i的主要情绪倾向，即，待分析视频情感片段s_i有两种主要的情感倾向。

考虑到弹幕的主题较松散，语义噪音较多，本发明还从语义角度进行降噪利用每个待分析视频片段s_i的情绪弹幕的文本向量，对片段s_i求情感语义相似度矩阵

为对称矩阵，其每个值代表其每个情感弹幕的两两语义相关性，对

上三角部分进行分析，若两情感弹幕语义相似度低于片段内弹幕的语义相似度阈值(语义相似度阈值根据实际实验进行确定)，就视为语义畸点，删除对应的情感弹幕。通过此操作，本发明实施例可以拥有更好的鲁棒性。

基于上述的识别方法，针对视频中的蕴含丰富情感的弹幕，运用注意力机制和多模态融合思想，将弹幕情感语义与视频场景的视觉信息进行时序上的融合，从而实现对弹幕情感语义的增强表征，并利用这种融入了文本和视觉信息的表征，对基于视觉语义和场景切换的视频切分片段进行情感判断，准确识别视频中的情感片段，弥补了现有视频情感理解中没有对视频情感片段进行识别的不足。

基于上述的一种视频情感片段的识别方法，本发明实施例中还提供了一种视频情感片段的识别装置，所述识别装置的结构框图如图2所示，包括：

确定模块201、分割模块202、计算模块203和识别模块204。

其中，

所述确定模块201，用于确定待分析视频中各个情感弹幕的弹幕情感标签；

所述分割模块202，用于对所述待分析视频进行分割，得到各个待分析视频片段；

所述计算模块203，用于依据每一个待分析视频片段中的各个弹幕情感标签，计算各个待分析视频片段的片段情感向量和情感熵；

所述识别模块204，用于依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。

本发明公开了一种视频情感片段的识别装置，包括：确定待分析视频中各个情感弹幕的弹幕情感标签；对所述待分析视频进行分割，得到各个待分析视频片段；依据每一个待分析视频片段中的各个弹幕情感标签，计算各个待分析视频片段的片段情感向量和情感熵；依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。上述的识别装置中，将待分析视频分割成多个待分析视频片段，计算各个待分析视频片段的片段情感向量和情感熵；依据弹幕得到的所述片段的片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段，缩短了情感片段的识别周期，避免了由于人工标识情感标签标注时间长，导致情感片段识别周期长的问题。

本发明实施例中，所述确定模块201包括：

获取单元205、筛选单元206和标签确定单元207。

其中，

所述获取单元205，用于获取所述待分析视频的各个弹幕；

所述筛选单元206，用于对所述各个弹幕进行筛选，得到各个情感弹幕；

所述标签确定单元207，用于依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。

本发明实施例中，所述分割模块202包括：

语义确定单元208、第一判断单元209和切分单元210。

其中，

所述语义确定单元208，用于确定所述待分析视频中各个帧的视觉语义；

所述第一判断单元209，用于依次比较相邻帧的视觉语义，判断所述相邻帧的视觉语义的差异度是否大于预设的差异度阈值；

所述切分单元210，用于若是，将所述相邻帧作为切分点进行切分，得到各个待分析视频片段。

本发明实施例中，所述识别模块204包括：

第二判断单元211、第一判定单元212、第三判断单元213和第二判定单元214。

其中，

所述第二判断单元211，用于判断所述情感熵是否小于预设的情感熵阈值；

所述第一判定单元212，用于若是，判定当前待分析视频片段包含一种情感，或；

所述第三判断单元213，用于若否，判断当前片段情感向量中的最大分量与次大分量的比值是否大于预设的比例阈值；

所述第二判定单元214，用于若是，判定所述当前待分析视频片段包含一种情感，或，若否，判定所述当前待分析视频判断包含两种情感。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种视频情感片段的识别方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频情感片段的识别方法，其特征在于，包括：

确定待分析视频中各个情感弹幕的弹幕情感标签；

对所述待分析视频进行分割，得到各个待分析视频片段；

依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段；

其中，依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段，包括：

判断所述情感熵是否小于预设的情感熵阈值；

若是，判定当前待分析视频片段包含一种情感，或；

2.根据权利要求1所述的方法，其特征在于，确定待分析视频中各个情感弹幕的弹幕情感标签，包括：

获取所述待分析视频的各个弹幕；

对所述各个弹幕进行筛选，得到各个情感弹幕；

3.根据权利要求2所述的方法，其特征在于，依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签，包括：

将所述目标语义表示和所述视觉向量表征传递给所述预设的弹幕情感识别神经网络模型，得到对应情感弹幕的情感标签。

4.根据权利要求1所述的方法，其特征在于，对所述待分析视频进行分割，得到各个待分析视频片段，包括：

确定所述待分析视频中各个帧的视觉语义；

5.根据权利要求4所述的方法，其特征在于，还包括：

获取所述相邻帧弹幕语义；

依据所述弹幕语义对所述切分点进行修正。

6.一种视频情感片段的识别装置，其特征在于，包括：

识别模块，用于依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段；

其中，所述识别模块包括：

7.根据权利要求6所述的装置，其特征在于，所述确定模块包括：

获取单元，用于获取所述待分析视频的各个弹幕；

8.根据权利要求6所述的装置，其特征在于，所述分割模块包括：