CN111723784B

CN111723784B - 一种风险视频识别方法、装置和电子设备

Info

Publication number: CN111723784B
Application number: CN202010748167.1A
Authority: CN
Inventors: 陈小帅; 刘羽佳
Original assignee: Shenzhen Yayue Technology Co ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2024-06-14
Anticipated expiration: 2040-07-30
Also published as: CN111723784A

Abstract

本申请公开了一种风险视频识别方法、装置和电子设备；本申请实施例基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型；获取所述目标视频在至少一个模态下的视频内容信息；对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息；基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息；基于所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率；根据所述风险视频概率，确定所述目标视频是否为所述风险类型上的风险视频。本申请实施例可以提高风险视频识别的精确度，同时提升风险视频的识别效率。

Description

一种风险视频识别方法、装置和电子设备

技术领域

本申请涉及计算机技术领域，具体涉及一种风险视频识别方法、装置和电子设备。

背景技术

随着计算机技术的发展，多媒体的应用也越来越广泛，各种各样的视频在网络上不断涌现。为了建立一个良好的网络环境，需要对视频进行风险识别。

在目前的相关技术中，通过人工的方式来判定视频是否为风险视频，需要耗费较大的人力物力，而且识别效率相对较低。

发明内容

本申请实施例提供一种风险视频识别方法、装置和电子设备，可以提高风险视频识别的精确度，同时提升风险视频的识别效率。

本申请实施例提供一种风险视频识别方法，包括：

基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型；

获取所述目标视频在至少一个模态下的视频内容信息；

对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息；

基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息；

基于所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率；

根据所述风险视频概率，确定所述目标视频是否为所述风险类型上的风险视频。

相应的，本申请实施例提供一种风险视频识别装置，包括：

第一确定单元，用于基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型；

获取单元，用于获取所述目标视频在至少一个模态下的视频内容信息；

提取单元，用于对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息；

第二确定单元，用于基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息；

预测单元，用于基于所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率；

第三确定单元，用于根据所述风险视频概率，确定所述目标视频是否为所述风险类型上的风险视频。

可选的，在本申请的一些实施例中，所述第一确定单元可以包括提取子单元、预测子单元和第一确定子单元，如下：

所述提取子单元，用于通过评论风险识别模型，对目标视频的用户互动信息进行特征提取，得到所述目标视频的用户互动信息的特征信息；

预测子单元，用于基于所述特征信息，预测所述目标视频的用户互动信息在至少一个预设风险类型上的风险概率；

第一确定子单元，用于基于所述风险概率，确定所述目标视频的风险类型。

可选的，在本申请的一些实施例中，所述第一确定单元还可以包括匹配子单元和第二确定子单元，如下：

所述匹配子单元，用于将目标视频的用户互动信息与预设的风险关键词进行匹配；

第二确定子单元，用于若匹配成功，继续执行所述基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型的步骤；否则，确定所述目标视频为非风险视频。

可选的，在本申请的一些实施例中，所述第一确定单元还可以包括第一获取子单元、计算子单元和第三确定子单元，如下：

所述第一获取子单元，用于获取预设的风险语句和非风险语句，以及目标视频的用户互动信息；

计算子单元，用于计算所述用户互动信息与所述风险语句的第一相似度，以及与所述非风险语句的第二相似度；

第三确定子单元，用于基于所述第一相似度和所述第二相似度，确定所述目标视频是否存在潜在风险；若是，继续执行所述基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型的步骤；若否，确定所述目标视频为非风险视频。

可选的，在本申请的一些实施例中，所述第一确定单元还可以包括训练子单元，所述训练子单元用于对评论风险识别模型进行训练，所述训练子单元具体可以用于获取第一训练数据，所述第一训练数据包括样本互动信息以及所述样本互动信息在至少一个预设风险类型上的实际风险概率；通过评论风险识别模型，对样本互动信息进行特征提取，得到所述样本互动信息的特征信息；基于所述特征信息，确定所述样本互动信息在各预设风险类型上的预测风险概率；基于各预设风险类型上的所述预测风险概率和所述实际风险概率，调整所述评论风险识别模型的参数。

可选的，在本申请的一些实施例中，所述获取单元可以包括文本获取子单元、音频获取子单元和图像获取子单元，如下：

所述文本获取子单元，用于获取所述目标视频的文本数据，将所述文本数据作为所述目标视频在文本模态下的视频内容信息；

音频获取子单元，用于获取所述目标视频的音频数据，将所述音频数据作为所述目标视频在音频模态下的视频内容信息；

图像获取子单元，用于获取所述目标视频的图像序列，将所述图像序列作为所述目标视频在图像模态下的视频内容信息。

可选的，在本申请的一些实施例中，所述提取单元可以包括文本提取子单元、音频提取子单元和图像提取子单元，如下：

所述文本提取子单元，用于对所述文本数据进行特征提取，得到所述目标视频在文本模态下的文本内容特征信息；

音频提取子单元，用于对所述音频数据中的各个音频帧进行特征提取，得到所述音频数据中的各个音频帧的音频内容特征信息，并将各个音频帧的音频内容特征信息进行融合，得到所述目标视频在音频模态下的音频内容特征信息；

图像提取子单元，用于对所述图像序列中的各个图像进行特征提取，得到所述图像序列中的各个图像的图像内容特征信息，并将各个图像的图像内容特征信息进行融合，得到所述目标视频在图像模态下的图像内容特征信息。

可选的，在本申请的一些实施例中，所述第二确定单元具体可以用于将所述文本内容特征信息、所述音频内容特征信息以及所述图像内容特征信息进行融合，得到所述目标视频的视频特征信息。

可选的，在一些实施例中，所述获取单元具体可以用于通过风险识别模型，获取所述目标视频在至少一个模态下的视频内容信息。

可选的，在一些实施例中，所述提取单元具体可以用于通过所述风险识别模型，对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息。

可选的，在一些实施例中，所述第二确定单元具体可以用于通过所述风险识别模型，基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息。

可选的，在一些实施例中，所述预测单元具体可以用于通过所述风险识别模型，基于所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率。

可选的，在本申请的一些实施例中，所述风险视频识别装置还可以包括训练单元，所述训练单元用于对风险识别模型进行训练。所述训练单元可以包括第二获取子单元、第三获取子单元、第四确定子单元和调整子单元，如下：

所述第二获取子单元，用于获取第二训练数据，所述第二训练数据包括样本视频以及所述样本视频在至少一个预设风险类型上的实际风险视频概率；

第三获取子单元，用于通过风险识别模型，获取所述样本视频在至少一个模态下的视频内容信息，对各模态下的视频内容信息进行特征提取，得到所述样本视频在各所述模态下的内容特征信息，基于各所述模态下的内容特征信息，确定所述样本视频的视频特征信息；

第四确定子单元，用于基于所述视频特征信息，确定所述样本视频在各预设风险类型上的预测风险视频概率；

调整子单元，用于基于各预设风险类型上所述预测风险视频概率和所述实际风险视频概率，调整风险识别模型的参数。

可选的，在本申请的一些实施例中，所述风险识别模型包括共享特征获取模块和至少一个分类任务模块，各分类任务模块分别对应一个预设风险类型；

所述第三获取子单元具体可以用于通过共享特征获取模块，获取所述样本视频在至少一个模态下的视频内容信息，对各模态下的视频内容信息进行特征提取，得到所述样本视频在各所述模态下的内容特征信息，基于各所述模态下的内容特征信息，确定所述样本视频的视频特征信息；

所述第四确定子单元具体可以用于通过各个分类任务模块，基于所述共享特征获取模块获取的视频特征信息，分别确定所述样本视频在对应的预设风险类型上的预测风险视频概率。

可选的，在本申请的一些实施例中，所述风险视频识别装置还可以包括处理单元，所述处理单元用于对风险视频进行处理。所述处理单元可以包括第五确定子单元和处理子单元，如下：

所述第五确定子单元，用于若所述目标视频为风险视频，基于风险类型和风险等级的预设对应关系，以及所述目标视频实际的风险类型，确定所述目标视频的目标风险等级；

处理子单元，用于基于所述目标风险等级的视频处理规则，对所述目标视频进行处理。

可选的，在本申请的一些实施例中，所述处理子单元具体可以用于当所述目标风险等级属于第一预设风险等级时，在目标播放平台删除所述目标视频；当所述目标风险等级属于第二预设风险等级时，针对所述目标视频设置风险提示信息，所述风险提示信息用于在所述目标视频播放时，对用户进行提示；当所述目标风险等级属于第三预设风险等级时，确定所述目标视频对应的观看年龄段，对目标播放平台上不属于所述观看年龄段的用户，设置所述目标视频为不可见状态。

本申请实施例提供的一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器加载所述指令，以执行本申请实施例提供的风险视频识别方法中的步骤。

此外，本申请实施例还提供一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本申请实施例提供的风险视频识别方法中的步骤。

本申请实施例提供了一种风险视频识别方法、装置和电子设备，可以基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型；获取所述目标视频在至少一个模态下的视频内容信息；对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息；基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息；基于所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率；根据所述风险视频概率，确定所述目标视频是否为所述风险类型上的风险视频。本申请实施例可以提高风险视频识别的精确度，同时提升风险视频的识别效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的风险视频识别方法的场景示意图；

图1b是本申请实施例提供的风险视频识别方法的流程图；

图1c是本申请实施例提供的风险视频识别方法的示意图；

图1d是本申请实施例提供的风险视频识别方法的另一流程图；

图2a是本申请实施例提供的风险视频识别方法的另一流程图；

图2b是本申请实施例提供的风险视频识别方法的另一流程图；

图2c是本申请实施例提供的风险视频识别方法的另一流程图；

图3a是本申请实施例提供的风险视频识别装置的结构示意图；

图3b是本申请实施例提供的风险视频识别装置的另一结构示意图；

图3c是本申请实施例提供的风险视频识别装置的另一结构示意图；

图3d是本申请实施例提供的风险视频识别装置的另一结构示意图；

图3e是本申请实施例提供的风险视频识别装置的另一结构示意图；

图3f是本申请实施例提供的风险视频识别装置的另一结构示意图；

图3g是本申请实施例提供的风险视频识别装置的另一结构示意图；

图3h是本申请实施例提供的风险视频识别装置的另一结构示意图；

图3i是本申请实施例提供的风险视频识别装置的另一结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种风险视频识别方法、装置和电子设备。该风险视频识别装置具体可以集成在电子设备中，该电子设备可以是终端或服务器等设备。

可以理解的是，本实施例的风险视频识别方法可以是在终端上执行的，也可以是在服务器上执行，还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。

如图1a所示，以终端和服务器共同执行风险视频识别方法为例。本申请实施例提供的风险视频识别***包括终端10和服务器11等；终端10与服务器11之间通过网络连接，比如，通过有线或无线网络连接等，其中，风险视频识别装置可以集成在服务器中。

其中，服务器11，可以用于：基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型；获取所述目标视频在至少一个模态下的视频内容信息；对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息；基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息；基于所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率；根据所述风险视频概率，确定所述目标视频是否为所述风险类型上的风险视频。若该目标视频为风险视频，可以基于该目标视频的实际风险类型，确定其对应的视频处理方式，根据该视频处理方式，生成处理指令，将处理指令发送给终端10。其中，服务器11可以是单台服务器，也可以是由多个服务器组成的服务器集群或云服务器。

其中，终端10可以接收服务器11发送的处理指令，并基于该处理指令，对目标视频进行处理。可选的，在一实施例中，处理指令包括目标视频对应的目标风险等级。具体地，当所述目标风险等级属于第一预设风险等级时，在目标播放平台删除所述目标视频；当所述目标风险等级属于第二预设风险等级时，针对所述目标视频设置风险提示信息，所述风险提示信息用于在所述目标视频播放时，对用户进行提示；当所述目标风险等级属于第三预设风险等级时，确定所述目标视频对应的观看年龄段，对目标播放平台上不属于所述观看年龄段的用户，设置所述目标视频为不可见状态。其中，终端10可以包括手机、智能电视、平板电脑、笔记本电脑、或个人计算机(PC，Personal Computer)等。终端10上还可以设置客户端，该客户端可以是应用程序客户端或者浏览器客户端等等。

上述服务器11识别风险视频的步骤，也可以由终端10执行。

本申请实施例提供的风险视频识别方法涉及人工智能领域中的计算机视觉技术和自然语言处理。本申请实施例可以提高风险视频识别的精确度，同时提升风险视频的识别效率。

其中，人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。

其中，计算机视觉技术(CV，Computer Vision)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

其中，自然语言处理(NLP，Nature Language processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从风险视频识别装置的角度进行描述，该风险视频识别装置具体可以集成在电子设备中，该电子设备可以是服务器或终端等设备。

本申请实施例的风险视频识别方法可以应用于各种需要识别风险视频的场景中，其中，视频的种类不限。例如，某视频平台需要对上百万个视频进行风险检测，可以通过本实施例提供的风险视频识别方法，可快速地对海量视频进行风险检测，且本实施例提供的风险视频识别方法在识别风险视频上的准确率较高。

如图1b所示，该风险视频识别方法的具体流程可以如下：

101、基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型。

其中，目标视频可以为待风险识别的视频，也可以是具有潜在风险的视频，本实施例对此不作限制。目标视频的视频类型不限，视频时长不限。它可以是各种类型的点播视频，也可以是直播类的视频。

其中，视频的风险识别，具体是识别视频是否存在敏感信息、低俗、无实质内容或质量较差等问题。可选的，如果视频存在风险，则不会将视频展现出来，降低风险视频对视频播放平台整体质量的影响。

其中，用户互动信息可以包括用户评论和弹幕等。视频的风险类型可以包括内容尺度问题、存在错误、风险人物、内容恶心和质量问题等多种类型。

本实施例中，在对目标视频的用户互动信息进行风险识别前，需要获取目标视频的用户互动信息。在播放平台上有海量的视频，每个视频有多条评论，对所有视频的所有评论进行识别在算力上不太可行，而且一般来说，视频的评论是动态增长的，对所有评论进行计算存在大量的重复计算。可选的，一些实施例中，可以通过基于时间窗口动态获取新增的评论数据，其中，时间窗口的时间时长可以根据实际情况进行设置。具体地，可以基于flink来获取当前时间D天内或者H小时内的视频评论，构建出动态的视频评论数据，如图1c所示。其中，flink是一种开源流处理框架，flink以数据并行和流水线方式执行任意流数据程序，flink的流水线运行时***可以执行批处理和流处理程序。

可选的，在一些实施例中，步骤“基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型”，可以包括：

通过评论风险识别模型，对目标视频的用户互动信息进行特征提取，得到所述目标视频的用户互动信息的特征信息；

基于所述特征信息，预测所述目标视频的用户互动信息在至少一个预设风险类型上的风险概率；

基于所述风险概率，确定所述目标视频的风险类型。

其中，该评论风险识别模型可以确定目标视频的风险类型，它可以是文本卷积神经网络(TextCNN，Text Convolutional Neural Networks)、基于变压器的双向编码器表示(Bert，Bidirectional Encoder Representations from Transformers)和变压器的精简双向编码器表示(AlBert，A Lite Bert)等等。但是应当理解的是，本实施例的评论风险识别模型并不仅限于上述列举的几种类型。

其中，可以通过评论风险识别模型的全连接层对用户互动信息的特征信息进行预测，来得到用户互动信息在至少一个预设风险类型上的风险概率。

在一些实施例中，可以将风险概率最大的预设风险类型作为目标视频的风险类型。在另一些实施例中，可以将概率大于预设阈值的预设风险类型作为目标视频的候选风险类型，再基于对视频内容的风险识别，来确定目标视频的风险类型；若预测到目标视频的用户互动信息在各预设风险类型上的风险概率都小于预设阈值，则可以认为该目标视频为非风险视频。其中，预设阈值的大小可以根据实际情况进行设置，本实施例对此不作限制。

可选的，在一些实施例中，步骤“基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型”之前，还可以包括：

将目标视频的用户互动信息与预设的风险关键词进行匹配；

若匹配成功，继续执行所述基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型的步骤；

否则，确定所述目标视频为非风险视频。

其中，在使用评论风险识别模型对目标视频的用户互动信息进行风险识别前，可以先使用风险词表与用户互动信息进行匹配，以降低计算量。其中，风险词表包含多个预设的风险关键词。具体地，可以将用户互动信息与风险词表进行匹配，如果命中风险词表，则可以认为该用户互动信息具备风险，进而通过评论风险识别模型对该目标视频的用户互动信息进一步进行风险识别，从而识别出有评论风险的视频，其过程参见图1d，为视频评论风险识别流程。其中，命中风险词表，具体可以是用户互动信息中包含多个风险关键词，也可以是用户互动信息中包含多个与风险关键词相似度较高的词。

其中，步骤“将目标视频的用户互动信息与预设的风险关键词进行匹配”，可以包括：

对目标视频的用户互动信息进行分词处理，得到所述目标视频的用户互动信息的各个分词；

获取各个分词对应的词向量，以及预设的风险关键词对应的词向量；

计算各个分词对应的词向量与预设的风险关键词对应的词向量之间的向量距离。

其中，若用户互动信息中，与风险关键词的词向量的向量距离小于预设距离的分词的数量大于预设数量，则可以认为该目标视频的用户互动信息存在潜在风险，即匹配成功。预设距离和预设数量可以根据实际情况设置。

其中，该向量距离可以是余弦距离，也可以是欧式距离等。向量距离越小，说明分词与风险关键词的相似度越高，当用户互动信息中与风险关键词相似度较高的分词超过一定数量，或者超过一定百分比，则可认为该用户互动信息具有风险。

其中，匹配成功的条件具体可以是用户互动信息中包含多个风险关键词，也可以是用户互动信息中包含多个与风险关键词相似度较高的词，本实施例对此不作限制。

获取预设的风险语句和非风险语句，以及目标视频的用户互动信息；

计算所述用户互动信息与所述风险语句的第一相似度，以及与所述非风险语句的第二相似度；

基于所述第一相似度和所述第二相似度，确定所述目标视频是否存在潜在风险；

若是，继续执行所述基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型的步骤；

若否，确定所述目标视频为非风险视频。

其中，可以对用户互动信息、风险语句以及非风险语句进行分词处理，并获取分词对应的词向量；对相应的词向量进行融合，得到用户互动信息、风险语句以及非风险语句分别对应的句向量。其中，用户互动信息与风险语句的第一相似度具体可以是用户互动信息对应的句向量与风险语句对应的句向量的向量距离；用户互动信息与非风险语句的第二相似度具体可以是用户互动信息对应的句向量与非风险语句对应的句向量的向量距离；向量距离越小，相似度越高。该向量距离可以是余弦距离等。

在一具体实施例中，可以统计与风险语句的第一相似度高于第一预设相似度的用户互动信息的条数M，统计与非风险语句的第二相似度高于第二预设相似度的用户互动信息的条数N，基于M和N的大小，来确定目标视频是否存在潜在风险。比如，若M大于N，认为目标视频存在潜在风险。其中，第一预设相似度和第二预设相似度可以根据实际情况进行设置。

训练语料	风险类型
		吃相真恶心，看了真想吐	内容恶心
这人不是早就被封杀了？	风险人物
		担心小孩子看了影响成长	内容尺度问题
小编能认真点不，标题错的也太离谱了吧	存在错误
		…	…
配音糟糕，完全听不清楚	质量问题

表1

需要说明的是，评论风险识别模型可以由多个标注的样本互动信息(训练语料)进行训练得到。其中，该标注信息可以是样本互动信息对应的风险类型，也可以是样本互动信息在预设风险类型上的实际风险概率，本实施例对此不作限制。如表1所示，为训练语料与其相应的风险类型的示例。

该评论风险识别模型可以由其他设备进行训练后，提供给该风险视频识别装置，或者，也可以由该风险视频识别装置自行进行训练。

若由该风险视频识别装置自行进行训练，则在步骤“通过评论风险识别模型，对目标视频的用户互动信息进行特征提取，得到所述目标视频的用户互动信息的特征信息”之前，还可以包括：

获取第一训练数据，所述第一训练数据包括样本互动信息以及所述样本互动信息在至少一个预设风险类型上的实际风险概率；

通过评论风险识别模型，对样本互动信息进行特征提取，得到所述样本互动信息的特征信息；

基于所述特征信息，确定所述样本互动信息在各预设风险类型上的预测风险概率；

基于各预设风险类型上的所述预测风险概率和所述实际风险概率，调整所述评论风险识别模型的参数。

其中，该训练过程可以基于反向传播算法对评论风险识别模型的参数进行调整，使各预设风险类型上的预测风险概率趋近于实际风险概率，得到训练好的评论风险识别模型。

需要说明的是，本实施例中，可以针对所有风险类型，构建多分类识别的评论风险识别模型，也可以针对每个单独的风险类型，来构建评论风险识别模型。

其中，对于针对单独风险类型的评论风险识别模型，可以将用户互动信息分别输入各个风险类型对应的评论风险识别模型，以识别该用户互动信息的风险类型，进而确定目标视频的风险类型。

可选的，为了提高识别精度，可以基于多条用户互动信息的风险识别结果，来确定目标视频是否存在潜在风险，如风险评论超过一定比例才判定视频存在潜在风险，如果存在潜在风险，继续对目标视频的视频内容进行风险检测。

本实施例中，可以对上述基于用户互动信息识别出的存在潜在风险的视频，进一步对视频自身内容进行风险识别，提高识别准确度。

102、获取所述目标视频在至少一个模态下的视频内容信息。

其中，视频内容信息是视频所包含的内容信息，因为视频蕴含有丰富的视觉、听觉和字幕信息，所以它有多种模态的信息，这些模态可以是图像模态、音频模态和文本模态等等，基于对各模态下的信息的分析处理，可以提取出该视频多模态的视频内容信息。

可选的，在一些实施例中，步骤“获取所述目标视频在至少一个模态下的视频内容信息”，可以包括：

获取所述目标视频的文本数据，将所述文本数据作为所述目标视频在文本模态下的视频内容信息；

获取所述目标视频的音频数据，将所述音频数据作为所述目标视频在音频模态下的视频内容信息；

获取所述目标视频的图像序列，将所述图像序列作为所述目标视频在图像模态下的视频内容信息。

其中，目标视频的文本数据可以包括视频标题、视频简介以及字幕等。字幕可以分为软字幕和硬字幕。软字幕是单独保存的字幕文件，它可以从视频数据流中直接提取出来；硬字幕为内嵌在视频中的字幕。对于硬字幕，可以通过对目标视频处理后得到的图像序列进行文字识别，提取图像序列中的字幕；或者，也可以对目标视频处理后的语音片段进行语音识别，将语音翻译为字幕。

103、对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息。

可选的，在一些实施例中，步骤“对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息”，可以包括：

对所述文本数据进行特征提取，得到所述目标视频在文本模态下的文本内容特征信息；

对所述音频数据中的各个音频帧进行特征提取，得到所述音频数据中的各个音频帧的音频内容特征信息，并将各个音频帧的音频内容特征信息进行融合，得到所述目标视频在音频模态下的音频内容特征信息；

对所述图像序列中的各个图像进行特征提取，得到所述图像序列中的各个图像的图像内容特征信息，并将各个图像的图像内容特征信息进行融合，得到所述目标视频在图像模态下的图像内容特征信息。

其中，可以通过文本卷积神经网络(TextCNN，Text Convolutional NeuralNetworks)、基于变压器的双向编码器表示(Bert，Bidirectional EncoderRepresentations from Transformers)或自注意模型(Self-Attention)等对文本数据进行特征提取，得到文本内容特征信息。可以理解的是，对文本数据进行特征提取的模型并不限于上述几种类型。

具体地，可以通过视觉几何组网络(VGGish，Visual Geometry Group)对各个音频帧进行特征提取，得到各个音频帧的音频内容特征信息，再通过局部聚合向量网络(NetVLAD，Net Vector of locally aggregated descriptors)对各个音频帧的音频内容特征信息进行融合，得到目标视频在音频模态下的音频内容特征信息。可以理解的是，对音频数据进行特征提取的模型并不限于上述几种类型。

具体地，可以通过开端模型(Inception)或效率网络(EfficientNet)对图像序列中的各个图像进行卷积运算以及池化运算，得到各个图像的图像内容特征信息，再通过局部聚合向量网络(NetVLAD，Net Vector of locally aggregated descriptors)对各个图像的图像内容特征信息进行融合，得到目标视频在图像模态下的图像内容特征信息。可以理解的是，对图像序列进行特征提取的模型并不限于上述几种类型。

其中，对各个图像的图像内容特征信息进行融合的方式，具体可以是对各个图像的图像内容特征信息进行加权运算，各个图像的图像内容特征信息可以对应不同的权重。

104、基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息。

其中，一些实施例中，可以选择其中一个模态的内容特征信息，作为目标视频的视频特征信息；也可以将两个或两个以上模态的内容特征信息进行融合，来得到目标视频的视频特征信息。

可选的，在一些实施例中，步骤“基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息”，可以包括：

将所述文本内容特征信息、所述音频内容特征信息以及所述图像内容特征信息进行融合，得到所述目标视频的视频特征信息。

其中，融合的方式可以是对文本内容特征信息、音频内容特征信息以及图像内容特征信息进行加权运算等。

105、基于所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率。

其中，可以通过分类器来预测目标视频在所述风险类型上的风险视频概率，该分类器具体可以是支持向量机，也可以是全连接深度神经网络等等，本实施例对此不做限制。

具体地，可以基于视频特征信息，预测目标视频在各预设风险类型上的风险视频概率。

106、根据所述风险视频概率，确定所述目标视频是否为所述风险类型上的风险视频。

本实施例中，步骤101中“基于目标视频的用户互动信息，对目标视频进行风险类型分析，确定目标视频的风险类型”，若基于视频特征信息，预测到目标视频在该风险类型对应的风险视频概率最大，则可以确定该目标视频为该风险类型上的风险视频；否则，需要对该目标视频进行进一步的风险类型识别，如可以通过人工检测等方式。

例如，基于目标视频的用户互动信息，对目标视频进行风险类别分析，确定目标视频的风险类型为“内容尺度问题”；基于目标视频的视频特征信息，预测到目标视频在“内容尺度问题”的风险类型上的风险视频概率为0.7，在“风险人物”的风险类型上的风险视频概率为0.2，在“内容恶心”的风险类型上的风险视频概率为0.1；由上可知，“内容尺度问题”的风险类型对应的风险视频概率最大，且基于目标视频的互动信息，确定的风险类型也是“内容尺度问题”，两种分析方法的分析结果相同，则可以确定该目标视频为风险类型为“内容尺度问题”的风险视频。

通过风险识别模型，获取所述目标视频在至少一个模态下的视频内容信息。

通过所述风险识别模型，对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息。

通过所述风险识别模型，基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息。

可选的，在一些实施例中，步骤“基于所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率”，可以包括：

通过所述风险识别模型，基于所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率。

其中，可以将基于评论风险识别模型与风险识别模型同时判定风险的视频认为是风险视频，并对这些视频进行相应处理。

其中，风险识别模型用于对目标视频自身的视频内容进行风险识别，它可以对视频多维度的内容构建多模态深度表示，再基于该多模态深度表示(视频特征信息)，预测目标视频在各风险类型上的风险视频概率。风险识别模型可以是卷积神经网络，也可以是残差网络等等，本实施例对此不作限制。

需要说明的是，该风险识别模型可以由多个标注的样本视频进行训练得到。其中，该标注信息可以是样本视频对应的风险类型，也可以是样本视频在预设风险类型上的实际风险视频概率，本实施例对此不作限制。

该风险识别模型可以由其他设备进行训练后，提供给该风险视频识别装置，或者，也可以由该风险视频识别装置自行进行训练。

若由该风险视频识别装置自行进行训练，则在步骤“通过风险识别模型，获取所述目标视频在至少一个模态下的视频内容信息”之前，还可以包括：

获取第二训练数据，所述第二训练数据包括样本视频以及所述样本视频在至少一个预设风险类型上的实际风险视频概率；

通过风险识别模型，获取所述样本视频在至少一个模态下的视频内容信息，对各模态下的视频内容信息进行特征提取，得到所述样本视频在各所述模态下的内容特征信息，基于各所述模态下的内容特征信息，确定所述样本视频的视频特征信息；

基于所述视频特征信息，确定所述样本视频在各预设风险类型上的预测风险视频概率；

基于各预设风险类型上所述预测风险视频概率和所述实际风险视频概率，调整风险识别模型的参数。

其中，该训练过程可以基于反向传播算法对风险识别模型的参数进行调整，以使各预设风险类型上的预测风险视频概率趋近于实际风险视频概率，具体地，可以使各预设风险类型上的预测风险视频概率与实际风险视频概率的差值小于预设值，该预设值可以根据实际情况进行设置。

需要说明的是，本实施例中，可以针对所有的风险类型，构建多风险类型识别的风险识别模型，也可以针对每个单独的风险类型，来构建风险识别模型。

其中，对于针对单独风险类型的风险识别模型，可以将目标视频的视频内容信息分别输入各个风险类型对应的风险识别模型，以确定该目标视频是否为某个风险类型上的风险视频。

可选的，在一些实施例中，所述风险识别模型包括共享特征获取模块和至少一个分类任务模块，各分类任务模块分别对应一个预设风险类型；步骤“通过风险识别模型，获取所述样本视频在至少一个模态下的视频内容信息，对各模态下的视频内容信息进行特征提取，得到所述样本视频在各所述模态下的内容特征信息，基于各所述模态下的内容特征信息，确定所述样本视频的视频特征信息”，可以包括：

通过共享特征获取模块，获取所述样本视频在至少一个模态下的视频内容信息，对各模态下的视频内容信息进行特征提取，得到所述样本视频在各所述模态下的内容特征信息，基于各所述模态下的内容特征信息，确定所述样本视频的视频特征信息；

所述基于所述视频特征信息，确定所述样本视频在各预设风险类型上的预测风险视频概率，包括：

通过各个分类任务模块，基于所述共享特征获取模块获取的视频特征信息，分别确定所述样本视频在对应的预设风险类型上的预测风险视频概率。

其中，共享特征获取模块的输出可以视为各个分类任务模块的输入。共享特征获取模块可以作为各个预设风险类型的共享模块，通过共享特征获取模块获取视频的视频特征信息。

其中，每个分类任务模块对应一个预设风险类型，基于共享特征获取模块获取到的视频特征信息，各个分类任务模块会确定样本视频在其对应的预设风险类型上的预测风险视频概率，基于各个分类任务模块的预测风险视频概率和实际风险视频概率，计算各个分类任务模块对应的损失值，对各个分类任务模块的损失值进行融合，得到风险识别模型的总损失值，基于所述总损失值，对风险识别模型的参数进行调整。

本实施例中，在确定目标视频为风险视频后，可以记录其对应的风险类型标记，并基于该风险类型，对目标视频做相应的处理。

其中，在判定目标视频存在某类风险，可以为目标视频打上风险标记，避免展示此类视频为平台带来负向影响。可选的，如果判定目标视频存在风险，可以将目标视频存入风险库，不在平台进行展示。

可选的，在一些实施例中，步骤“根据所述风险视频概率，确定所述目标视频是否为所述风险类型上的风险视频”之后，还可以包括：

若所述目标视频为风险视频，基于风险类型和风险等级的预设对应关系，以及所述目标视频实际的风险类型，确定所述目标视频的目标风险等级；

基于所述目标风险等级的视频处理规则，对所述目标视频进行处理。

其中，不同的风险类型对应不同的风险等级，具体可以基于风险类型对应的内容定义，来确定其风险等级，比如，对于包含诈骗信息的风险类型，可以将其确定为高风险等级。针对不同的风险等级，可以采取不同的措施。

可选的，在一些实施例中，步骤“基于所述目标风险等级的视频处理规则，对所述目标视频进行处理”，可以包括：

当所述目标风险等级属于第一预设风险等级时，在目标播放平台删除所述目标视频；

当所述目标风险等级属于第二预设风险等级时，针对所述目标视频设置风险提示信息，所述风险提示信息用于在所述目标视频播放时，对用户进行提示；

当所述目标风险等级属于第三预设风险等级时，确定所述目标视频对应的观看年龄段，对目标播放平台上不属于所述观看年龄段的用户，设置所述目标视频为不可见状态。

其中，第一预设风险等级、第二预设风险等级以及第三预设风险等级可以根据实际情况进行设置，本实施例对此不作限制。

其中，目标播放平台即目标视频所上传的平台，它可以是浏览器客户端或者应用程序客户端。目标播放平台具体为各类播放器。在目标播放平台删除目标视频，即对该目标视频从该目标播放平台下架。

其中，针对一些风险等级不是较高的视频，但可能会对用户的观看体验造成影响，可以在视频播放前，在播放页面显示风险提示信息，让用户自行选择是否观看该视频，如第二预设风险等级。

其中，设置目标视频为不可见状态后，也包括不向对应的用户推送该目标视频。

由上可知，本实施例电子设备可以基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型；获取所述目标视频在至少一个模态下的视频内容信息；对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息；基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息；基于所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率；根据所述风险视频概率，确定所述目标视频是否为所述风险类型上的风险视频。本申请实施例可以提高风险视频识别的精确度，同时提升风险视频的识别效率。

根据前面实施例所描述的方法，以下将以该风险视频识别装置具体集成在服务器举例作进一步详细说明。

本申请实施例提供一种风险视频识别方法，如图2a所示，该风险视频识别方法的具体流程可以如下：

201、服务器从目标播放平台上未风险检测的视频中确定目标视频。

其中，目标视频为待风险检测的视频。

一些场景中，在视频上传到播放平台前，会对视频的内容信息进行初步审核，审核通过后再将视频在播放平台展示，初步审核能够过滤掉大部分存在风险的视频，但是还有些潜在风险的视频会在播放平台进行展示。因此，针对播放平台上的视频，需要对其进行风险检测。

其中，目标播放平台上存在已风险检测的视频和未风险检测的视频，已风险检测的视频可以标记有对应的安全标识，服务器可以对目标播放平台上的视频进行安全标识识别，将没有安全标识的视频视为未风险检测的视频。可选的，在一具体实施例中，针对未风险检测的视频，可以先对其中播放量变化较快的视频进行风险检测，即将其中播放量变化较快的视频作为目标视频。

202、服务器基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型。

其中，可以通过网络爬虫等来获取目标视频的用户互动信息，用户互动信息可以包括弹幕、评论等。用户互动信息作为一种视频质量的后验数据，可以用来提升视频风险识别的质量。

可选的，在一些实施例中，步骤“服务器基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型”，可以包括：

基于所述风险概率，确定所述目标视频的风险类型。

可选的，在一些实施例中，步骤“服务器基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型”之前，还可以包括：

将目标视频的用户互动信息与预设的风险关键词进行匹配；

否则，确定所述目标视频为非风险视频。

203、服务器获取所述目标视频在至少一个模态下的视频内容信息。

204、服务器对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息；基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息；并根据所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率。

205、服务器根据所述风险视频概率，确定所述目标视频是否为所述风险类型上的风险视频。

可选的，一些实施例中，识别风险视频的具体过程可以如图2b所示：

2001、获取目标视频的用户评论；

2002、对用户评论进行相应的风险识别；

2003、若该目标视频存在评论风险，可以通过风险识别模型对其视频内容进行内容风险识别，从而进一步确定目标视频是否是该风险类型上的风险视频；

2004、对识别出的风险视频进行处理。

其中，对用户评论进行风险识别的过程具体可以是：通过评论风险识别模型对用户评论进行特征提取，得到目标视频的用户评论的特征信息，基于该特征信息，预测目标视频的用户评论在预设风险类型上的风险概率；基于该风险概率，确定目标视频的风险类型。

视频内容信息是视频所包含的内容信息，因为视频蕴含有丰富的视觉、听觉和字幕信息，所以它有多种模态的信息，这些模态可以是图像模态、音频模态和文本模态等等。

在一具体实施例中，如图2c所示，为通过风险识别模型确定目标视频在各预设风险类型的风险视频概率的流程图，其过程描述如下：

20001、对目标视频抽取视频帧序列，对各个视频帧提取特征信息，构建图像表示，再对各个视频帧的图像表示进行融合，得到目标视频的图像侧表示(即目标视频在图像模态下的图像内容特征信息)；

20002、对目标视频抽取音频帧序列，对各个音频帧提取特征信息，构建音频表示，再对各个音频帧的音频表示进行融合，得到目标视频的音频侧表示(即目标视频在音频模态下的音频内容特征信息)；

20003、获取目标视频的标题、视频描述和字幕等文本信息，对其构建文本表示，得到文本侧表示(即目标视频在文本模态下的文本内容特征信息)；

20004、对目标视频的图像侧表示、音频侧表示以及文本侧表示进行融合，即可得到目标视频的多模态特征融合表示(即目标视频的视频特征信息)；

20005、将多模态特征融合表示输入全连接层网络，得到目标视频的风险分类概率输出。

206、若所述目标视频为所述风险类型上的风险视频，服务器基于所述风险类型，生成针对所述目标视频的风险处理指令，并将所述风险处理指令发送给终端。

其中，不同的风险类型的视频处理方式不一样，可以根据目标视频的风险类型，确定所述目标视频的目标风险等级；基于所述目标风险等级的视频处理规则，生成相应的风险处理指令。

其中，若该目标风险等级属于第一预设风险等级，可以生成下架视频的风险处理指令；若该目标风险等级属于第二预设风险等级，可以生成设置风险提示信息的风险处理指令；若目标风险等级属于第三预设风险等级，可以生成限制低龄用户的风险处理指令。

207、终端基于所述风险处理指令，对所述目标视频进行处理。

其中，针对下架视频的风险处理指令，终端可以在目标播放平台删除目标视频；针对设置风险提示信息的风险处理指令，终端可以针对目标视频设置风险提示信息，该风险提示信息用于在所述目标视频播放时，对用户进行提示；针对限制低龄用户的风险处理指令，终端可以确定目标视频对应的观看年龄段，对目标播放平台上不属于所述观看年龄段的用户，设置目标视频为不可见状态。

目前，通过人工识别风险视频，容易存在漏识别情况，造成这些风险视频在视频平台展示出来，引起用户的反感，对视频平台造成负向影响。而且，目前的风险识别方法没有考虑用户观看视频后的评论，用户评论作为一种视频质量的后验数据，可以用来提升视频风险识别的质量。

本申请可以通过对用户评论中反应视频质量的负面评论挖掘识别，进而发现线上存在风险可能的视频，增强了风险识别的能力，降低风险视频对平台的造成的不良影响，提升平台视频质量，可以提升用户对线上视频的整体满意度。

由上可知，服务器可以从目标播放平台上未风险检测的视频中确定目标视频；基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型；获取所述目标视频在至少一个模态下的视频内容信息；对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息；基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息；并根据所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率；根据所述风险视频概率，确定所述目标视频是否为所述风险类型上的风险视频；若所述目标视频为所述风险类型上的风险视频，服务器基于所述风险类型，生成针对所述目标视频的风险处理指令，并将所述风险处理指令发送给终端；终端基于所述风险处理指令，对所述目标视频进行处理。本申请实施例可以提高风险视频识别的精确度，同时提升风险视频的识别效率。

为了更好地实施以上方法，本申请实施例还提供一种风险视频识别装置，如图3a所示，该风险视频识别装置可以包括第一确定单元301、获取单元302、提取单元303、第二确定单元304、预测单元305和第三确定单元306，如下：

(1)第一确定单元301；

第一确定单元301，用于基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型。

可选的，在本申请的一些实施例中，所述第一确定单元301可以包括提取子单元3011、预测子单元3012和第一确定子单元3013，参见图3b，如下：

所述提取子单元3011，用于通过评论风险识别模型，对目标视频的用户互动信息进行特征提取，得到所述目标视频的用户互动信息的特征信息；

预测子单元3012，用于基于所述特征信息，预测所述目标视频的用户互动信息在至少一个预设风险类型上的风险概率；

第一确定子单元3013，用于基于所述风险概率，确定所述目标视频的风险类型。

可选的，在本申请的一些实施例中，所述第一确定单元301还可以包括匹配子单元3014和第二确定子单元3015，参见图3c，如下：

所述匹配子单元3014，用于将目标视频的用户互动信息与预设的风险关键词进行匹配；

第二确定子单元3015，用于若匹配成功，继续执行所述基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型的步骤；否则，确定所述目标视频为非风险视频。

可选的，在本申请的一些实施例中，所述第一确定单元301还可以包括第一获取子单元3016、计算子单元3017和第三确定子单元3018，参见图3d，如下：

所述第一获取子单元3016，用于获取预设的风险语句和非风险语句，以及目标视频的用户互动信息；

计算子单元3017，用于计算所述用户互动信息与所述风险语句的第一相似度，以及与所述非风险语句的第二相似度；

第三确定子单元3018，用于基于所述第一相似度和所述第二相似度，确定所述目标视频是否存在潜在风险；若是，继续执行所述基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型的步骤；若否，确定所述目标视频为非风险视频。

可选的，在本申请的一些实施例中，所述第一确定单元301还可以包括训练子单元3019，参见图3e，所述训练子单元3019用于对评论风险识别模型进行训练，所述训练子单元3019具体可以用于获取第一训练数据，所述第一训练数据包括样本互动信息以及所述样本互动信息在至少一个预设风险类型上的实际风险概率；通过评论风险识别模型，对样本互动信息进行特征提取，得到所述样本互动信息的特征信息；基于所述特征信息，确定所述样本互动信息在各预设风险类型上的预测风险概率；基于各预设风险类型上的所述预测风险概率和所述实际风险概率，调整所述评论风险识别模型的参数。

(2)获取单元302；

获取单元302，用于获取所述目标视频在至少一个模态下的视频内容信息。

可选的，在本申请的一些实施例中，所述获取单元302可以包括文本获取子单元3021、音频获取子单元3022和图像获取子单元3023，参见图3f，如下：

所述文本获取子单元3021，用于获取所述目标视频的文本数据，将所述文本数据作为所述目标视频在文本模态下的视频内容信息；

音频获取子单元3022，用于获取所述目标视频的音频数据，将所述音频数据作为所述目标视频在音频模态下的视频内容信息；

图像获取子单元3023，用于获取所述目标视频的图像序列，将所述图像序列作为所述目标视频在图像模态下的视频内容信息。

可选的，在一些实施例中，所述获取单元302具体可以用于通过风险识别模型，获取所述目标视频在至少一个模态下的视频内容信息。

(3)提取单元303；

提取单元303，用于对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息。

可选的，在本申请的一些实施例中，所述提取单元303可以包括文本提取子单元3031、音频提取子单元3032和图像提取子单元3033，参见图3g，如下：

所述文本提取子单元3031，用于对所述文本数据进行特征提取，得到所述目标视频在文本模态下的文本内容特征信息；

音频提取子单元3032，用于对所述音频数据中的各个音频帧进行特征提取，得到所述音频数据中的各个音频帧的音频内容特征信息，并将各个音频帧的音频内容特征信息进行融合，得到所述目标视频在音频模态下的音频内容特征信息；

图像提取子单元3033，用于对所述图像序列中的各个图像进行特征提取，得到所述图像序列中的各个图像的图像内容特征信息，并将各个图像的图像内容特征信息进行融合，得到所述目标视频在图像模态下的图像内容特征信息。

可选的，在一些实施例中，所述提取单元303具体可以用于通过所述风险识别模型，对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息。

(4)第二确定单元304；

第二确定单元304，用于基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息。

可选的，在本申请的一些实施例中，所述第二确定单元304具体可以用于将所述文本内容特征信息、所述音频内容特征信息以及所述图像内容特征信息进行融合，得到所述目标视频的视频特征信息。

可选的，在一些实施例中，所述第二确定单元304具体可以用于通过所述风险识别模型，基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息。

(5)预测单元305；

预测单元305，用于基于所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率。

可选的，在一些实施例中，所述预测单元305具体可以用于通过所述风险识别模型，基于所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率。

(6)第三确定单元306；

第三确定单元306，用于根据所述风险视频概率，确定所述目标视频是否为所述风险类型上的风险视频。

可选的，在本申请的一些实施例中，所述风险视频识别装置还可以包括训练单元307，所述训练单元307用于对风险识别模型进行训练。所述训练单元307可以包括第二获取子单元3071、第三获取子单元3072、第四确定子单元3073和调整子单元3074，参见图3h，如下：

所述第二获取子单元3071，用于获取第二训练数据，所述第二训练数据包括样本视频以及所述样本视频在至少一个预设风险类型上的实际风险视频概率；

第三获取子单元3072，用于通过风险识别模型，获取所述样本视频在至少一个模态下的视频内容信息，对各模态下的视频内容信息进行特征提取，得到所述样本视频在各所述模态下的内容特征信息，基于各所述模态下的内容特征信息，确定所述样本视频的视频特征信息；

第四确定子单元3073，用于基于所述视频特征信息，确定所述样本视频在各预设风险类型上的预测风险视频概率；

调整子单元3074，用于基于各预设风险类型上所述预测风险视频概率和所述实际风险视频概率，调整风险识别模型的参数。

所述第三获取子单元3072具体可以用于通过共享特征获取模块，获取所述样本视频在至少一个模态下的视频内容信息，对各模态下的视频内容信息进行特征提取，得到所述样本视频在各所述模态下的内容特征信息，基于各所述模态下的内容特征信息，确定所述样本视频的视频特征信息；

所述第四确定子单元3073具体可以用于通过各个分类任务模块，基于所述共享特征获取模块获取的视频特征信息，分别确定所述样本视频在对应的预设风险类型上的预测风险视频概率。

可选的，在本申请的一些实施例中，所述风险视频识别装置还可以包括处理单元308，所述处理单元308用于对风险视频进行处理。所述处理单元308可以包括第五确定子单元3081和处理子单元3082，参见图3i，如下：

所述第五确定子单元3081，用于若所述目标视频为风险视频，基于风险类型和风险等级的预设对应关系，以及所述目标视频实际的风险类型，确定所述目标视频的目标风险等级；

处理子单元3082，用于基于所述目标风险等级的视频处理规则，对所述目标视频进行处理。

可选的，在本申请的一些实施例中，所述处理子单元3082具体可以用于当所述目标风险等级属于第一预设风险等级时，在目标播放平台删除所述目标视频；当所述目标风险等级属于第二预设风险等级时，针对所述目标视频设置风险提示信息，所述风险提示信息用于在所述目标视频播放时，对用户进行提示；当所述目标风险等级属于第三预设风险等级时，确定所述目标视频对应的观看年龄段，对目标播放平台上不属于所述观看年龄段的用户，设置所述目标视频为不可见状态。

由上可知，本实施例由第一确定单元301基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型；通过获取单元302获取所述目标视频在至少一个模态下的视频内容信息；通过提取单元303对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息；由第二确定单元304基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息；由预测单元305基于所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率；通过第三确定单元306，根据所述风险视频概率，确定所述目标视频是否为所述风险类型上的风险视频。本申请实施例可以提高风险视频识别的精确度，同时提升风险视频的识别效率。

本申请实施例还提供一种电子设备，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，该电子设备可以是终端或者服务器等，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，若该电子设备为终端，其还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型；获取所述目标视频在至少一个模态下的视频内容信息；对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息；基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息；基于所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率；根据所述风险视频概率，确定所述目标视频是否为所述风险类型上的风险视频。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例可以基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型；获取所述目标视频在至少一个模态下的视频内容信息；对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息；基于各所述模态下的内容特征信息，确定所述目标视频的视频特征信息；基于所述视频特征信息，预测所述目标视频在所述风险类型上的风险视频概率；根据所述风险视频概率，确定所述目标视频是否为所述风险类型上的风险视频。本申请实施例可以提高风险视频识别的精确度，同时提升风险视频的识别效率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种风险视频识别方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种风险视频识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种风险视频识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述风险视频识别方面的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种风险视频识别方法、装置和电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种风险视频识别方法，其特征在于，包括：

获取所述目标视频在至少一个模态下的视频内容信息；

对各所述模态下的内容特征信息进行融合，确定所述目标视频的视频特征信息；

基于所述视频特征信息，预测所述目标视频在每一风险类型上的风险视频概率；

若风险视频概率最大的风险类型与基于所述用户互动信息进行风险类型分析所确定出的风险类型一致，确定所述目标视频为所述风险视频概率最大的风险类型所对应的风险视频。

2.根据权利要求1所述的方法，其特征在于，所述基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型，包括：

基于所述风险概率，确定所述目标视频的风险类型。

3.根据权利要求1所述的方法，其特征在于，所述基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型之前，还包括：

将目标视频的用户互动信息与预设的风险关键词进行匹配；

否则，确定所述目标视频为非风险视频。

4.根据权利要求1所述的方法，其特征在于，所述基于目标视频的用户互动信息，对所述目标视频进行风险类型分析，确定所述目标视频的风险类型之前，还包括：

若否，确定所述目标视频为非风险视频。

5.根据权利要求2所述的方法，其特征在于，所述通过评论风险识别模型，对目标视频的用户互动信息进行特征提取，得到所述目标视频的用户互动信息的特征信息之前，还包括：

6.根据权利要求1所述的方法，其特征在于，所述获取所述目标视频在至少一个模态下的视频内容信息，包括：

7.根据权利要求6所述的方法，其特征在于，所述对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息，包括：

8.根据权利要求7所述的方法，其特征在于，所述对各所述模态下的内容特征信息进行融合，确定所述目标视频的视频特征信息，包括：

9.根据权利要求1所述的方法，其特征在于，所述获取所述目标视频在至少一个模态下的视频内容信息，包括：

通过风险识别模型，获取所述目标视频在至少一个模态下的视频内容信息；

所述对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息，包括：

通过所述风险识别模型，对各模态下的视频内容信息进行特征提取，得到所述目标视频在各所述模态下的内容特征信息；

所述对各所述模态下的内容特征信息进行融合，确定所述目标视频的视频特征信息，包括：

通过所述风险识别模型，对各所述模态下的内容特征信息进行融合，确定所述目标视频的视频特征信息；

所述基于所述视频特征信息，预测所述目标视频在每一风险类型上的风险视频概率，包括：

通过所述风险识别模型，基于所述视频特征信息，预测所述目标视频在每一风险类型上的风险视频概率。

10.根据权利要求9所述的方法，其特征在于，所述通过风险识别模型，获取所述目标视频在至少一个模态下的视频内容信息之前，还包括：

通过风险识别模型，获取所述样本视频在至少一个模态下的视频内容信息，对各模态下的视频内容信息进行特征提取，得到所述样本视频在各所述模态下的内容特征信息，对各所述模态下的内容特征信息进行融合，确定所述样本视频的视频特征信息；

11.根据权利要求10所述的方法，其特征在于，所述风险识别模型包括共享特征获取模块和至少一个分类任务模块，各分类任务模块分别对应一个预设风险类型；

所述通过风险识别模型，获取所述样本视频在至少一个模态下的视频内容信息，对各模态下的视频内容信息进行特征提取，得到所述样本视频在各所述模态下的内容特征信息，对各所述模态下的内容特征信息进行融合，确定所述样本视频的视频特征信息，包括：

通过共享特征获取模块，获取所述样本视频在至少一个模态下的视频内容信息，对各模态下的视频内容信息进行特征提取，得到所述样本视频在各所述模态下的内容特征信息，对各所述模态下的内容特征信息进行融合，确定所述样本视频的视频特征信息；

12.根据权利要求1所述的方法，其特征在于，所述方法还包括：

13.根据权利要求12所述的方法，其特征在于，所述基于所述目标风险等级的视频处理规则，对所述目标视频进行处理，包括：

14.一种风险视频识别装置，其特征在于，包括：

第二确定单元，用于对各所述模态下的内容特征信息进行融合，确定所述目标视频的视频特征信息；

预测单元，用于基于所述视频特征信息，预测所述目标视频在每一风险类型上的风险视频概率；

第三确定单元，用于若风险视频概率最大的风险类型与基于所述用户互动信息进行风险类型分析所确定出的风险类型一致，确定所述目标视频为所述风险视频概率最大的风险类型所对应的风险视频。

15.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至13任一项所述的风险视频识别方法中的操作。