CN114661951A

CN114661951A - 一种视频处理方法、装置、计算机设备以及存储介质

Info

Publication number: CN114661951A
Application number: CN202210286475.6A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-06-24

Abstract

本申请实施例公开了一种视频处理方法、装置、计算机设备以及存储介质。其中方法包括：获取待识别视频，并确定所述待识别视频的图像模态特征、文本模态特征以及音频模态特征；获取所述待识别视频的实体信息，并利用所述实体信息和知识图谱确定所述待识别视频的图谱模态特征；根据所述图像模态特征和所述图谱模态特征确定所述待识别视频的视频模态特征；基于所述视频模态特征、所述文本模态特征以及所述音频模态特征，确定所述待识别视频的类别识别结果。实施本申请实施例，可以有效提高视频识别的准确性。

Description

一种视频处理方法、装置、计算机设备以及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频处理方法、装置、计算机设备以及存储介质。

背景技术

随着电子技术和互联网技术的快速发展，多媒体数据也得到了快速发展，用户可以通过各种多媒体平台浏览各种各样的视频，为了使用户可以从海量的视频中获取自己感兴趣的视频，通常会对视频进行分类。因此，如何保障视频分类(或识别)的准确性，成为了当前计算机视觉技术的研究热点问题。

发明内容

本申请实施例提供了一种视频处理方法、装置、计算机设备以及存储介质，可以有效提高视频识别的准确性。

第一方面，本申请提供一种视频处理方法，包括：

获取待识别视频，并确定所述待识别视频的图像模态特征、文本模态特征以及音频模态特征；

获取所述待识别视频的实体信息，并利用所述实体信息和知识图谱确定所述待识别视频的图谱模态特征；

根据所述图像模态特征和所述图谱模态特征确定所述待识别视频的视频模态特征；

基于所述视频模态特征、所述文本模态特征以及所述音频模态特征，确定所述待识别视频的类别识别结果。

第二方面，本申请提供一种视频处理装置，包括：

获取单元，用于获取待处理图像，并提取所述待处理图像的多个图像特征；

第一确定单元，用于根据所述多个图像特征确定所述待处理图像中的多个候选镜头区域以及每个候选镜头区域的位置信息；

融合单元，用于从所述多个图像特征中获取多个目标图像特征，并对所述多个目标图像特征进行融合，得到融合图像特征，其中，所述目标图像特征包括背景图像特征；

第二确定单元，用于根据所述每个候选镜头区域的位置信息和所述融合图像特征，从所述多个候选镜头区域中确定目标镜头区域。

第三方面，本申请提供了一种计算机设备，包括：处理器、存储器、网络接口；

上述处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以使包含该处理器的计算机设备执行上述数据处理方法。

第四方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行上述视频处理方法。

第五方面，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请第一方面中的各种可选方式中提供的视频处理方法。

本申请实施例中，计算机设备可以获取待识别视频，并确定待识别视频的图像模态特征、文本模态特征以及音频模态特征；还可以获取待识别视频的实体信息，并利用实体信息和知识图谱确定待识别视频的图谱模态特征；然后，可以根据图像模态特征和图谱模态特征确定待识别视频的视频模态特征。以基于视频模态特征、文本模态特征以及音频模态特征，确定待识别视频的类别识别结果。上述方法，可以基于视频内容本身理解得到多种模态特征(图像模态特征、文本模态特征以及音频模态特征)，以便于后续实现利用多模态特征进行视频识别。还可以引入视频外部知识来对视频进行联合表征，以实现对视频的识别，该外部知识即是此处的知识图谱信息，以充分利用知识图谱信息进行有效的扩展，得到视频对应的图谱模态特征。进一步可以利用图像模态特征和图谱模态特征进行融合处理，得到可用于表征图像和知识图谱两种之间关联关系的视频级特征，使得后续利用该视频级特征时使视频识别具有一定的推理能力，以提高视频识别效果，进而有效提升识别准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种视频处理***的架构示意图；

图1b是本申请实施例提供的另一种视频处理***的架构示意图；

图2是本申请实施例提供的一种视频处理方法的流程示意图；

图3a是本申请实施例提供的一种知识图谱的结构示意图；

图3b是本申请实施例提供的另一种知识图谱的结构示意图；

图3c是本申请实施例提供的一种视频识别模型中特征融合模块的结构示意图；

图3d是本申请实施例提供的一种确定视频模态特征的结构示意图；

图4是本申请实施例提供的另一种视频处理方法的流程示意图；

图5a是本申请实施例提供的一种视频识别模型中层次分类模块的结构示意图；

图5b是本申请实施例提供的一种视频识别模型的结构示意图；

图5c是本申请实施例提供的又一种视频处理方法的流程示意图；

图6是本申请实施例提供的一种视频处理装置的组成结构示意图；

图7是本申请实施例提供的一种计算机设备的组成结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例涉及人工智能和知识图谱，下面对人工智能和知识图谱的相关术语及概念进行简要介绍：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

知识图谱(Knowledge Graph，KG)是为了描述文本语义，而建立的具有实体关系的知识数据库，一般情况下，可以使用关系图来表示知识图谱，知识图谱可以准确地阐述人、事、物之间的关系，其本质是由节点和边组成的语义网络。知识图谱通常可以称为知识域可视化或知识领域映射地图，可以用可视化技术描述知识资源及其载体，包含显示知识发展进程与结构关系的一系列各种不同的图形。知识图谱的构建技术主要有自顶向下和自底向上两种。其中，自顶向下构建是指借助百科类网站等结构化数据源，从高质量数据中提取本体和模式信息，加入到知识数据库里。而自底向上构建，则是借助一定的技术手段，从公开采集的数据中提取出资源模式，选择其中置信度较高的信息，加入到知识数据库中。

其中，知识图谱表示(或知识表示或向量表示)是对知识数据的一种描述和约定，目的是让机器(如计算机)可以像人一样去理解知识，从而可以让机器进一步的推理、计算。大多数知识图谱是以符号化的方法表示，其中，资源描述框架(Resource DescriptionFramework，RDF)是较常用的符号语义表示模型，其一条边对于一个三元组<主语Subject，谓语Predicate，宾语Object>，总体可以表达一个客观事实，这种方法直观易懂，具备可解释性，支持推理等特点。

基于知识图谱表示的嵌入(Embedding)算法逐渐兴起，其可为知识图谱中的每个实体与关系训练一个可表征的向量，该方法易于进行算法学习，可表征隐形知识并进一步发掘隐形知识。通常，可以使用图嵌入(Graph Embedding，也可称为Network Embedding)的方式来融入知识图谱。图嵌入可以理解为一种将图数据(通常为高维稠密的矩阵)映射为低微稠密向量的处理过程，可以很好地解决图数据难以高效输入机器学习算法的问题。

其中，图嵌入的中心思想就是找到一种映射函数，该映射函数可将由实体以及对应的属性所构成的图结构网络中的每个节点转换为低维度的潜在表示。以利于计算存储，不用再手动提取特征，提高自适应性。例如，图嵌入的几种常见方式可以为如下所介绍的，如考虑网络结构方面来看，可以包括：DeepWalk、GraRep、struc2vec、LINE、node2vec、GraphSAGE等；考虑结构和其他信息来方面看，可以包括：CENE、CANE、Trans-Net等；从深度学习(Deep Learning，DL)方面来看，可以包括：GCN、SDNE等；从生成式对抗网络(Generative Adversarial Networks，GAN)方面来看，可以包括：AraphGAN、ANE等。

知识图谱表示学习，即为知识图谱中的实体和关系学习出一个低维度的向量表示，同时包含一些语义信息，从而得以在下游任务(如视频识别、视频推荐等)中更加方便地提取和利用知识图谱中的信息。

基于上述所提及人工智能和知识图谱等技术，本申请实施例提出了一种视频处理方案；具体的，该方案大致原理如下：可以获取待识别视频，以对该待识别视频进行类别识别，得到对应的类别识别结果。具体地，可以在获取待识别视频之后，确定该待识别视频下多种模态下的特征，以根据多模态特征进行类别识别。例如，该多模态下的特征可以包括基于视频内容理解下所确定的特征，如可以包括图像模态特征、文本模态特征以及音频模态特征。可选的，在基于视频内容理解下进行类别识别之外，还可以结合外部知识进行类别识别，例如，该外部知识可以是指知识图谱对应的信息，如可以获取待识别视频的实体信息，并利用实体信息和知识图谱确定待识别视频的图谱模态特征，以便于可以基于图像模态特征、文本模态特征、音频模态特征以及图谱模态特征来进行类别识别。可选的，在进行类别识别时，可以根据图像模态特征和图谱模态特征确定待识别视频的视频模态特征，以根据视频模态特征、文本模态特征以及音频模态特征来进行类别识别，从而得到待识别视频的类别识别结果。通过上述实施方式，可以在充分利用视频的图像、文本以及音频的基础上，通过引入外部优质知识(比如利用知识图谱来获取实体以及实体对应的属性)对视频进行联合表征，以结合多模态的特征进行视频的识别，提升视频识别的准确性；通过引入知识图谱信息，将视频特征联合知识图谱信息对视频进行进一步表征，以充分利用知识图谱信息进行有效的扩展，使得视频在类别识别时具有推理能力，从而提升视频识别能力，进而提高视频识别的准确性。

在具体实现中，上述所提及的视频处理方案的执行主体可以是计算机设备，该计算机设备可以是终端或者服务器。此处所提及的终端可以是智能手机、平板电脑、笔记本电脑、台式电脑等设备，还可以是例如手柄、触摸屏等外设设备；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。示例的，当计算机设备为服务器时，本申请实施例提供了一种视频处理***，如图1a所示，该视频处理***可包括至少一个终端和至少一个服务器；终端可以获取待识别视频，并将获取到的待识别视频上传至服务器(即计算机设备)，以使服务器可以获取到该待识别视频，并对该待识别视频进行类别识别处理，以得到对应的类别识别结果。

或者，上述所提及的视频处理方案也可由终端和服务器共同执行。例如，终端在获取到待识别视频之后，也可以由终端确定该待识别视频的图像模态特征、文本模态特征以及音频模态特征；然后，由终端将获取到的待识别视频以及确定的图像模态特征、文本模态特征和音频模态特征上传至服务器，以使服务器可以基于待识别视频确定对应的图谱模态特征，并进一步基于图谱模态特征、图像模态特征、文本模态特征以及音频模态特征对待识别视频进行类别识别，得到对应的类别识别结果。又如，终端在获取到待识别视频之后，可以确定该待识别视频的图谱模态特征、图像模态特征、文本模态特征以及音频模态特征；然后，由终端将确定的图谱模态特征、图像模态特征、文本模态特征以及音频模态特征上传至服务器，以使该服务器可基于图谱模态特征、图像模态特征、文本模态特征以及音频模态特征对待识别视频进行类别识别，得到对应的类别识别结果。需要说明的是，当该视频处理方案由终端和服务器共同执行时，该终端和服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

在一种实现场景中，本申请还提供了另一种应用该视频处理方案的视频处理***，如图1b是本申请实施例提供的一种视频处理***的架构示意图，该示意图可以理解为一种基于知识图谱辅助的信息流视频内容多级分类方法和***流程，或者一种基于多模态机器学习的信息流视频内容分发方法和***的框架。其中，视频处理的方法具体可以由视频处理模块进行执行。例如，如图1b所示，该视频处理模块可以包括如图1b所示的下载文件模块、视频内容抽帧和音频分离服务模块、图谱辅助内容分类模型模块以及图谱辅助内容分类服务模块。

在一种实现方式中，可以通过下载文件模块下载并获取所需要的待识别视频，然后利用视频内容抽帧和音频分离服务模块对待识别视频进行相关处理，例如进行图像抽帧和音频分离等操作，得到待识别视频下在各模态下的模态信息，以作为后续待识别视频多级分类的各模态输入。接着，可以调用图谱辅助内容分类模型模块利用各模态输入进行待识别视频的识别处理，并得到对应的类别识别结果。而图谱辅助内容分类服务模块，可将上面描述的图谱辅助内容分类模型服务化，并和调度中心模块进行通信，以完成视频流程主链路上图谱辅助内容分类的类别识别和标记。

在一种实现方式中，该视频处理***还可以包括内容生产端、内容消费端、上下行内容接口服务模块、内容分发出口模块、内容数据库、调度中心模块、人工审核模块、内容排重服务模块以及内容存储服务模块。下述对所提及的各模块的作用进行相关阐述，其中：

内容生产端，可用于提供多媒体平台所需的多媒体数据，该多媒体数据例如可以是图文或视频等，其中，多媒体数据的内容生产者可以包括专业生产内容(ProfessionalGenerated Content，PGC)或者用户生成内容(User Generated Content，UGC)或者多渠道网络(Multi-Channel Network，MCN)或者专业用户生产内容(Professional UserGenerated Content，PUGC)的内容生产者，内容生产者可通过移动端或者后端接口API***，提供本地或者拍摄的图文内容、视频或图集内容等，这些都是分发内容的主要内容来源。内容生产端还可以通过和上下行内容接口服务模块之间的通信，先获取上传服务器的接口地址，然后再通过接口地址上传本地文件(如视频)，其中，视频拍摄过程中本地视频内容可以选择搭配的音乐、滤镜模板和图文的美化功能等等。

内容消费端，可用于和上下行内容接口服务模块进行通信连接，以获取访问视频文件的索引信息，如视频文件的下载地址；然后根据索引信息下载对应的视频文件并且通过本地播放器来播放观看。还可以同时将上传和下载过程中用户播放的行为数据(如卡顿，加载时间，播放点击等)上报给服务器。

上下行内容接口服务模块，可和内容生产端直接通信，由前端提交的内容(如视频文件)可以通过该服务模块直接进入服务端，并把相关文件存在内容数据库。例如，由前端提交的内容通常可以是视频的标题，发布者，摘要，封面图，发布时间，或者是拍摄的视频内容等等。还可以将上传的视频文件提交给调度中心模块，以使得调度中心模块可以进行后续的内容(如视频)处理和流转。其中，下述所描述的内容具体可指视频。

内容数据库，可用于数据存储，内容数据库是内容的核心数据库，所有生产者发布内容的元信息均可以保存在这个内容数据库中，例如，元信息可以包括内容本身的文件大小、封面图链接、码率、文件格式、标题、发布时间、作者、是否原创或者首发等等。可选的，可以将人工审核过程对内容进行分类的分类结果进行存储，如可以存储视频文件的级别分类和对应的标签信息，比如一个讲解手表的视频，该视频的一级分类可以是科技，二级分类可以是智能手表，三级分类可以是国内手表，标签信息具体可以是该手表的品牌以及型号。可选的，在人工审核过程中，可以读取内容数据库中的数据，同时，人工审核的结果和状态也可回传进入内容数据库中，以更新内容数据库中内容的元信息。可选的，可以存储上下行内容接口服务模块对视频文件进行相关处理后所得到的结果，如上下行内容接口服务模块在接收到视频文件后，可对内容进行标准的转码操作，转码完成后异步返回元信息，例如可以将文件大小，码率，规格，截取的封面图等这些信息保存在内容数据库中。可选的，调度中心模块对内容处理的结果也可以写入内容数据库中，如调度中心模块对内容处理可以包括机器处理和人工审核处理，其中，机器处理核心可以是调用内容排重服务模块对完全重复和相似的内容进行处理，而排重的结果可写入内容数据库；完全重复的内容也不会给人工进行重复的二次处理。

调度中心模块，可用于负责内容流转的整个调度过程，可通过上下行内容接口服务模块接对入库的内容进行接收，然后从内容数据库中获取的元信息。还可用于调度人工审核模块和机器处理***，并可控制调度的顺序和优先级。还可用于和内容排重服务模块进行通信，以过滤掉不必要的重复或相似的新入库内容。还可对没有达到重复过滤的内容，输出内容相似度和相似关系链，以供推荐***使用。还可将通过人工审核模块的内容启用内容出口分发服务模块，以通过推荐引擎或者搜索引擎或者运营直接的展示页面将内容提供给终端的内容消费者。还可负责与图谱辅助内容分类服务模块进行通信，以完成视频内容多级分类和调度处理。

内容分发出口模块，可用于与调度中心模块进行通信，获取调度中心模块提供的视频，以将视频下发至内容消费端，并将视频展示在用户终端的消息来源列表中。

人工审核模块，可用于对内容数据库中的数据进行审核，人工审核模块通常是一个业务复杂的基于Web数据库开发的***。人工审核模块可读取内容数据库中图文内容本身的原始信息，以通过人工来对内容进行规范，并对不符合规范的内容进行一轮初步过滤；并可在初步审核的基础之上，对内容进行二次审核，主要可以是对内容进行分类和标签的标注或确认。由于视频内容本身完全通过机器学习(比如深度学习)进行审核还不完全成熟，所以可通过在机器处理的基础上进行二次的人工审核处理，从而实现通过人机协作，提升视频本身标注的准确性和效率。

内容排重服务模块，可提供视频排重服务，主要可以对视频进行向量化，然后建立向量的索引，以通过向量之间的距离来确定视频的相似程度，从而利用相似程度进行内容排重。在同时发布的内容较多的情况下，利用可实现海量去重服务的工程进行并行化处理，以避免重复的内容启用。

内容存储服务模块，可通过上下行内容接口服务模块将内容生产者上传的视频和图片内容进行保存。内容存储服务模块通常是一组分布范围很广，离用户侧较近，以便就近接入的存储服务器，通常***还有CDN加速服务器进行分布式缓存加速。通常，终端消费者在获取内容索引信息后，可以直接访问内容存储服务模块以下载对应的内容。内容存储服务模块除了作为对外服务的数据源以外，还可作为对内服务的数据源，供下载文件模块获取原始的视频数据进行相关的处理。其中，内外数据源的通路通常是分开部署的，避免相互影响。

下载文件模块，可用于从内容存储服务模块下载和获取原始的视频内容，并可控制下载的速度和进度，下载文件模块通常是一组并行的服务器，由相关的任务调度和分发集群构成。而下载完成的文件可调用抽帧服务从视频源文件中获取必要的视频文件内容帧，作为后续视频内容图像模态输入数据的预处理服务。

视频内容抽帧和音频分离服务模块，可对下载的视频内容进行抽帧处理和进行音频特征提取等操作，以作为后续视频内容多级分类的模态输入。

图谱辅助内容分类模型模块，可按照上面描述的视频处理方案引入外部知识比如人脸识别、命名实体识别、知识图谱等来获取实体对应的属性和抽取关系，用多模态视频分类+知识图谱所对应的关系网络结构进行内容表征，然后和层次分类器相结合，实现视频内容多级分类。

图谱辅助内容分类服务模块，可将上面描述的图谱辅助内容分类模型服务化，并和调度中心模块通信，完成内容流程主链路上指示图谱辅助内容分类的识别和标记。对于识别内容多级分类服务，可以增加一个人工复核环节，人工复核通过的内容可直接使用。当模型识别的准确率达到一定阀值之后，可以去掉人工复核环节，以实现直接进行自动多分类的识别和标记。

基于上述所提供的视频处理方案，本申请实施例提供了一种视频处理方法，该视频处理方法可由上述所提及的计算机设备执行。请参阅图2，该视频处理方法包括但不限于以下步骤：

S201，获取待识别视频，并确定待识别视频的图像模态特征、文本模态特征以及音频模态特征。

在一种实现方式中，计算机设备可以获取待识别视频，以实现对该待识别视频的类别识别，例如，可以在待识别视频的视频内容理解上进行类别识别。可选的，一个视频对应有标题、视频对白、音频、图像(视频中包括的多帧图像，如视频封面图像)等等，可以将这些信息称之为各个模态下的信息，例如，针对一个视频而言，该视频的信息可以包括图像模态、文本模态以及音频模态下的信息。本申请可以基于文本模态、图像模态以及音频模态下的信息进行视频的类别识别。

可选的，可以在获取待识别视频之后，从该待识别视频中获取多个模态信息，例如，该模态信息可以包括图像模态信息、文本模态信息以及音频模态信息；在确定多个模态信息之后，可基于多个模态信息中各个模态信息确定对应的模态特征，以实现利用多个模态特征进行视频的类别识别。其中，该多个模态特征可以包括图像模态信息对应的图像模态特征、文本模态信息对应的文本模态特征以及音频模态信息对应的音频模态特征。

下述对各个模态特征的确定进行相关阐述：

在一种实现方式中，确定图像模态特征的具体实施方式可以为如下描述。

针对一个视频而言，动态视觉图像通常是视频较重要的信息。为了捕获待识别视频中鲁棒且具有分辨性的信息，可以利用神经网络模型来抽取图像级特征，即上述提及的图像模态特征。在具体实现中，可以从待识别视频中抽取一帧或多帧图像，该一帧或多帧图像即可以理解为上述提及的图像模态信息；在得到一帧或多帧图像之后，可再提取各帧图像中的图像模态特征，例如，可利用神经网络模型来提取图像模态特征，如该神经网络模型可以是BigTransfer模型、ResNet模型、或其他可用于提取图像级特征的神经网络模型，在本申请不做限定。其中，BigTransfer模型是性能较好的预训练图像分类模型，BigTransfer模型的性能要优于ResNet模型，本申请可优先考虑采用BigTransfer模型进行图像模态特征的提取，以提高视频识别的准确性。

在一种实现方式中，确定文本模态特征的具体实施方式可以为如下描述。

首先，可以从待识别视频中获取文本模态信息，例如，该文本模态信息可以包括待识别视频的标题、OCR数据和视频对白中的一种或多种。其中，待识别视频的标题通常是发布者对视频表达内容的主观描述，通常可以涵盖视频想表达的高级语义。但是在实践中，可能发现很多视频没有标题或标题传达的信息不足，则可以利用OCR数据补充标题中缺乏的信息，以丰富文本模态信息。可选的，OCR数据也可能存在着一些问题，比如：画面切换过程中OCR数据识别不准、固定位置OCR数据需要去重、口述类OCR数据需保留以及新闻滚屏类OCR数据需删除等等。则可以考虑对OCR数据进行去噪处理，以保证OCR数据的准确性，进而提高类别识别的准确性。其中，去噪处理可以包括过滤单字类/纯数字/纯字母OCR数据、过滤相邻两帧bbox(图像框)位置偏移小且文字重复率高的OCR数据、过滤bbox在屏幕底端且高较小的OCR数据等。在得到去噪后的OCR数据之后，即可将去噪后的OCR数据作为文本模态信息。可选的，如果待识别视频不存在OCR数据，但考虑到待识别视频通常有视频对白，则可以把自动语音识别(Automatic Speech Recognition，ASR)数据作为文本模态信息。可选的，在文本模态信息包括标题、OCR数据和视频对白中的多种时，可以将该多种文本模态信息进行拼接，以将拼接后的多种文本模态信息作为待识别视频最终所需要的文本模态信息，例如，可以将去噪后的OCR数据与标题进行拼接，以将拼接后的数据作为文本模态信息。

在得到文本模态信息之后，可以利用该文本模态信息进行文本特征提取，以得到对应的文本模态特征。例如，可以使用神经网络模型对文本进行建模，以得到对应的文本模态特征。如神经网络模型可以是TextRCNN模型，或其他可进行文本模态特征提取的神经网络模型。其中，TextRCNN模型具有模型参数少、训练和预测耗时短的特点，则本申请利用TextRCNN模型进行文本模态特征的提取，也可以减少文本模态特征提取的时间，进而可以减少类别识别的时间，以提高类别识别的速度。

在一种实现方式中，确定音频模态特征的具体实施方式可以为如下描述。

首先，可以对待识别视频对应的音频文件进行预处理得到频谱图，比如可以先从待识别视频选取目标音频，例如，该目标音频可以是待识别视频中进行截取的视频，如该目标视频可以是待识别视频中前10分钟的16千赫兹(kHz)的音频；在得到目标视频之后，则可以对目标音频进行短时傅里叶变换，以得到频谱图，例如，可以采用汉明时窗以及帧移并对目标音频进行短时傅里叶变换，得到频谱图，如可以使用25毫秒(ms)的汉明时窗，10ms的帧移对目标音频进行短时傅里叶变换，以得到频谱图。然后，可以基于该频谱图得到梅尔(mel)声谱，该梅尔声谱可以作为音频模态特征。如可以将频谱图映射到64阶梅尔滤波器组中计算得到梅尔声谱，梅尔声谱以960ms的时长组帧，帧间没有重叠，每一帧时长10ms，包含64个梅尔频带。可选的，可以采用神经网络模型作为特征提取器，即上述音频模态特征的提取可以利用神经网络模型来实现，该神经网络模型可以是Vggish模型，或其他可进行音频模态特征提取的神经网络模型。其中，Vggish模型对场景类的声音事件有较强的特别表达能力。在本申请中，通过增加音频模态，可以对视频内容比如情感、搞笑等分类的准确率有较明显的提升。

S202，获取待识别视频的实体信息，并利用实体信息和知识图谱确定待识别视频的图谱模态特征。

在一种实现方式中，除了利用基于视频内容的理解上获取对应的特征(如上述描述的图像模态特征、文本模态特征以及音频模态特征)进行后续的类别识别处理之外，还可以引入外部知识，以结合视频内容理解和外部知识来进行视频的类别识别，从而实现利用多个维度的特征进行类别识别，提高类别识别准确性。例如，该外部知识可以是指知识图谱的信息，即可以利用外部知识对应的特征以及上述各模态下的模态特征共同来实现对待识别视频的类别识别。

在一种实现方式中，可以获取待识别视频的实体信息，以利用该实体信息和知识图谱确定待识别视频的图谱模态特征，该图谱模态特征可以理解为上述提及的外部知识对应的特征。

其中，实体信息可以是指待识别视频中描述实体的词汇，比如人名、地名、组织机构名、产品名等，实体信息可以理解为用户比较关注的词汇。该实体信息可以从待识别视频的相关内容中获取，例如，该相关内容可以是指待识别视频的标题、待识别视频的图像帧、待识别视频的音频转化的文本等等。可选的，可以通过人脸识别、命名实体识别(NamedEntity Recognition，NER)、文本挖掘等方式从待识别视频的相关内容中获取实体信息。其中，命名实体识别是在自然语言处理中的一个经典问题，其应用也较为广泛，比如从一句话中识别出人名、地名，从电商的搜索中识别出产品的名字(如识别出药物名称)等等。本申请可以采用条件随机场(Conditional Random Field，CRF)来实现命名实体识别，也可以采用其他处理算法，在本申请不做限定。NER领域中比较好的处理算法是条件随机场，它是一种判别式概率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或生物序列等。

通过上述描述，可知，获取待识别视频的实体信息的具体实施方式可以是：获取该待识别视频的视频内容，该视频内容可以包括标题、音频文本(待识别视频的音频转化的文本)、图像中的一种或多种，此处的视频内容还可以包括其他与视频相关的内容，如上述提及的OCR数据、视频对白等，在此处不一一举例说明。在获取到视频内容之后，即可以利用实体信息确定方式从该视频内容中确定待识别视频的实体信息。其中，该实体信息确定方式可以是指上述描述的人脸识别、命名实体识别、文本挖掘等方式。

可选的，当视频内容为一种的情况下，可以根据该视频内容适配的实体信息确定方式从该视频内容中确定实体信息；在视频内容为多种的情况下，可以根据各种视频内容分别适配的实体信息确定方式从各个视频内容中确定实体信息，以根据各个视频内容对应的实体信息确定待识别视频的实体信息，例如，可以将各个视频内容对应的实体信息进行并集，从而得到待识别视频的实体信息。

举例来说，假设视频内容包括标题，则可以对该标题进行命名实体识别，以得到该待识别视频的实体信息。例如，如图3a所示，视频内容(即标题)为“在三亚，各种高档酒店沿着海岸线、选择不少#三亚旅游#”，则通过命名实体识别之后，可以确定该标题中的实体信息为“三亚”，即待识别视频的实体信息为“三亚”。

举例再说，假设视频内容包括图像，此处的图像可以包括一帧或帧，在本申请不做限定，下述主要以一帧图像(如视频封面图像)为例进行说明，则可以对该图像进行人脸识别，以得到该待识别视频的实体信息。例如，如图3b所示，该帧图像可以是一张包含张三的人脸图像，则通过人脸识别之后，可以确定该帧图像对应的实体信息为“张三”，即待识别视频的实体信息为“三亚”；又如，如果该帧图像可以是一张猫图像，则通过人脸识别之后，可以确定该帧图像对应的实体信息为“猫”，即待识别视频的实体信息为“猫”。

举例又说，假设视频内容包括标题和图像，则可以对该标题进行命名实体识别，并对该帧图像进行人脸识别，以得到通过命名实体识别得到的实体信息以及通过人脸识别得到的实体信息，再根据这两个实体信息确定待识别视频的实体信息。例如，如图3b所示，视频内容包括一张包含张三的人脸图像以及标题“今天长这样，明天长啥样我再想想办法#张三#”，则可以对帧图像进行人脸识别，得到该帧图像对应的实体信息为“张三”，并对标题进行命名实体识别得到对应的实体信息为“张三”，即待识别视频的实体信息为“三亚”。

可以理解的是，知识图谱中可以存储有大量的实体以及与实体具有关联关系的属性信息，则在获取到实体信息之后，可以从知识图谱中获取与实体信息相关联的属性信息。例如，如图3a所示中实体信息“三亚”对应的属性信息可以包括“旅游胜地”、“海南”、“X国”；又如，3b所示中实体信息“张三”对应的可以属性信息包括“歌手”、“女”、“25岁”、“X国”。而在得到实体信息以及属性信息之后，可以根据该实体信息以及对应的属性信息确定与待识别视频的图谱模态特征。该图谱模态特征可以是指针对某一信息的知识图谱表示(或称之为向量表示、知识表示等)。

可选的，可利用DeepWalk(深度游走)来实现KG Representation(知识图谱表示)。其中，DeepWalk可以理解为利用随机游走生成Embedding(嵌入)，DeepWalk的主要思想可以是：在由实体和属性节点组成的图结构上进行随机游走，产生大量序列，然后将这些序列作为训练样本输入向量化模型(如word2vec模型)进行训练，以得到训练后的向量化模型。而该训练后的向量化模型即可以进行信息的Embedding(嵌入)，Embedding在数学上可以理解为利用一个函数，将一个空间的点映射到另一个空间，通常可以是指从高维抽象的空间映射到低维的具象空间。Embeding的意义在于将高维数据转换到低维，以利于算法的处理，同时解决One-Hot(独热码)向量长度随样本的变化而变化，以及无法表示两个实体之间的相关性这一问题。总的来说，该训练后的向量化模型可用于进行知识图谱表示，即可得到图谱模态特征。

在一种实现方式中，确定待识别视频的图谱模态特征的具体实施方式可如下所述：可以在实体信息和属性信息所构成的图结构上进行随机游走，以得到随机游走序列，其中，该图结构由实体信息和属性信息各自对应的节点构成，一个节点对应一个实体信息或一个属性信息；然后，将随机游走序列输入训练后的向量化模型，从而得到图结构上各节点的知识图谱表示，或者说是各节点的图谱模态特征。

可选的，图结构上各节点的图谱模态特征并不是本申请均需要的，则可以对这些图谱模态特征进行筛选，以得到待识别视频的图谱模态特征。在一种可能的实施方式中，可预先设置待识别视频的图谱模态特征对应的关键词，如该关键词可以包括人名(简称为PER)，机构(简称为ORG)，地点(简称为LOC)，内容IP名称(简称为IP)，关联描述(简称为PRD)等中的一种或多种，即可以从各节点的图谱模态特征中筛选出与这些关键词对应的图谱模态特征，而筛选出的图谱模态特征即是待识别视频的图谱模态特征。

S203，根据图像模态特征和图谱模态特征确定待识别视频的视频模态特征。

在一种实现方式中，可以根据图像模态特征和图谱模态特征确定待识别视频的视频模态特征，以便于后续可以利用该视频模态特征和前述得到的文本模态特征和音频模态特征来共同进行视频的类别识别。可选的，该视频模态特征可以基于视频识别模型中的特征融合模块进行融合处理得到，其中，该特征融合模块的具体处理过程可以如下：可以先基于图像模态特征和图谱模态特征进行特征拼接，得到拼接特征，从而可以利用该拼接特征得到待识别视频的视频模态特征。可选的，可以直接根据该拼接特征确定待识别视频的视频模态特征，该视频模态特征可以用于表征图像模态特征和图谱模态特征之间的特征关联信息；可选的，在得到上述用于表征特征关联信息的视频模态特征之后，还可以进一步对该视频模态特征进行特征增强处理，以将视频模态特征中重要的特征进行强化，从而提高视频识别准确性。例如，可以先根据该拼接特征确定待识别视频的初始视频模态特征，该初始视频模态特征可以用于表征图像模态特征和图谱模态特征之间的特征关联信息；然后，可以对初始视频模态特征进行特征增强处理，以得到特征增强后的特征关系特征，该特征增强后的特征关系特征即是待识别视频的视频模态特征。

可选的，通过上述描述可知，特征融合模块可以包括拼接模块和特征关系模块，或者如图3c所示，该特征融合模块可以包括拼接模块、特征关系模块以及特征增强模块。下述主要以特征融合模块可以包括拼接模块、特征关系模块以及特征增强模块为例进行说明。其中，可以通过特征融合模块中的拼接模块对图像模态特征和图谱模态特征进行特征拼接，得到拼接特征；然后，该拼接特征可以输入特征关系模块，以利用该特征关系模块学习拼接特征中图像模态特征和图谱模态特征之间的特征关联，得到初始视频模态特征，例如，该特征关系模块可以是Transformer模型，Transformer模型可以学习图像与知识图谱的关系；接着，初始视频模态特征可以输入特征增强模块，以对初始视频模态特征进行特征增强处理，得到待识别视频的视频模态特征，例如，该特征增强模块可以是SE Context Gating模型，以实现对初始视频模态特征的特征增强处理。

为更好的理解本申请实施例所提供的视频模态特征的确定方法，下面结合图3d所示的结构示意图进行进一步说明，如图3d所示，该图中所示的流程可以是本申请所提出的确定视频模态特征的处理过程。从图3d中可以看出，确定视频模态特征的处理过程主要包括特征提取的处理过程和关系网络(Relation Network，RN)的处理过程，其中，特征提取的处理过程可以包括图像模态的特征提取以及图谱模态的特征提取，以得到图像模态特征和图谱模态特征。

图像模态特征可以利用BigTransfer模型对待识别视频中的图像进行处理而得到。

图谱模态特征的确定可以为如下描述：可以先从待识别视频中获取图谱模态信息，该图谱模态信息可以包括上述提及的从待识别视频获取的实体信息(如图3d中的XX兄弟和李四)以及根据实体信息和知识图谱得到的属性信息(如图3d中的XX兄弟的属性信息：视频类-综艺和X国，李四的属性信息：音乐类-歌手、演员和X国)；在得到图谱模态信息之后，可以进行知识图谱表示，以得到待识别视频的图谱模态特征，如图谱模态特征可以是图3d所示的关于PER、ORG、LOC、IP、PRD的图谱模态特征。其中，图谱模态特征的确定方式可以参考上述描述，在此处不在赘述。

在得到图像模态特征以及图谱模态特征之后，即可以采用关系网络对图像模态特征以及图谱模态特征进行处理，以得到视频模态特征。其中，关系网络的处理可以对应于上述特征融合模块的处理，简单来说，关系网络可以理解为特征融合模块。如图3d所示，关系网络主要可以包括两个部分的处理：一是利用特征关系模块(如Transformer模型)学习图像与知识图谱的关系；二是利用特征增强模块(如SE Context Gating模型)学习关系的加权权重，使得模型可学习关系之间的权重关系。具体实现中，可以先将图像模态特征和图谱模态特征进行特征拼接，以得到拼接特征；然后，再通过特征关系模块学习图像与知识图谱的关系，通过特征关系模块得到的即是初始视频模态特征。最后，可以利用特征增强模块得到特征加权(或特征增强)后的初始视频模态特征，即视频模态特征。

上述可知，在对图像模态特征和图谱模态特征进行融合，得到融合的特征表达的过程中，具体采用了SE Context Gating方法，以实现能够以不同权重融合模态特征，进一步再利用融合的特征表达结果再进行下游的如视频识别(分类)等具体任务的处理中。可选的，SE Context Gating模块的处理可以利用公式Y＝f(WX+b)*X来进行理解。其中，X为输入到特征增强模块的初始视频模态特征，Y为特征增强模块的输出结果(即视频模态特征)，f是激活函数，W是模型训练需要得到的模型参数。f(WX+b)可以为0到1中的任意值，如当f(WX+b)＝0时，可表示对输入到特征增强模块的初始视频模态特征进行抑制，又如当f(WX+b)＝1时，可表示对输入到特征增强模块的初始视频模态特征进行激活。可以看出，将初始视频模态特征通过特征增强模块可以获取各初始视频模态特征之间的特征关联信息，为初始视频模态特征引入强度区分，根据初始视频模态特征在视频识别中的重要程度的不同，对应的f(WX+b)值大小也有所不同。若某个初始视频模态特征在视频识别中的重要程度较高，则对应的f(WX+b)值也就较大，若某个初始视频模态特征在视频识别中的重要程度较低，则对应的f(WX+b)值也就较小。

为更加理解关系网络在本申请中对视频识别的处理作用，下述对关系网络作进一步的简单介绍。关系网络(RN)具有适合关系推理的结构，可以直接加载到已有的神经网络架构中。例如，如图3a所示的显示实体信息以及属性信息，可以基于这些信息采用关系网络推理出“旅游-X国-海南”；又如，如图3b所示的显示实体信息以及属性信息，可以基于这些信息采用关系网络推理出“娱乐-X国明星-饭制”。其背后的逻辑就是关系网络中的函数结构使得关系网络可以抓住关系推理的关键，就类似于卷积神经网络(ConvolutionalNeural Network，CNN)的结构可以蕴含推导空间属性、平移不变性的性质，循环神经网络(Recurrent Neural Network，RNN)能够处理序列数据。一个简单的关系网络的处理可以利用下述公式1来进行说明。

其中，模型的输入是一个对象的集合O＝o₁,o₂,…o_n，o_i是第i个对象，o_j是第j个对象；f_φ和g_θ是多层感知器(Muti-Layer Perception，MLP)的作用函数；g_θ可以用来量化两个对象的关系，或者说用来计算两个对象是否相关，f_φ用来对关系加权，以将重要的关系凸显出来。应用在本申请中，对象可以是指视频画面中的实体对象，比如图像中人物的人脸，帽子，画面节目名称等；特征关系模块(如Transformer模型)的作用可以等同于g_θ的作用，特征增强模块(如SE Context Gating模型)可以等同于f_φ的作用。简单来说，RN有以下三个特点：

1、可以学习推理。RN可以计算所有两个对象之间的关系，也可以只计算部分两个对象之间的关系。

2、RN的数据处理效率较高。RN使用一个g_θ函数来计算所有的关系，泛化能力较强。此外，RN可把两个对象作为输入，而不是同时把所有的n个对象作为输入，从而可避免学习n^2个函数，因此数据处理更加高效。

3、RN可作用在一个对象集合上，可确保RN对输入和输出均是与顺序无关的。

在一种实现方式中，在提取到图像模态特征后，除了上述基于图像模态特征和图谱模态特征得到视频模态特征之外，还可以直接基于图像模态特征得到视频模态特征。例如，可对多帧图像模态特征进行特征融合，以产生视频模态特征，该视频模态特征可以采用NextVlad模型和SE Context Gating模型来进行多帧特征融合以产生视频模态特征。其中，NeXtVLAD模型是第二届Youtube-8M视频理解竞赛中效果优异的特征降维模型，NeXtVLAD模型可以通过特征聚类的方式将多帧图像级特征聚合为视频级特征；SE Context Gating模型是视觉领域主流的特征加权选择模型，通常用于特征增强。

S204，基于视频模态特征、文本模态特征以及音频模态特征，确定待识别视频的类别识别结果。

在一种实现方式中，可以将视频模态特征、文本模态特征以及音频模态特征进行融合，得到目标融合特征，以根据该目标融合特征确定待识别视频的类别识别结果。

可选的，可以直接根据该目标融合特征确定待识别视频的类别识别结果，如可以将该目标融合特征输入视频识别模块中的分类模块，以得到待识别视频的类别识别结果。

可选的，可以直接根据视频模态特征、文本模态特征、音频模态特征以及该目标融合特征来共同确定待识别视频的类别识别结果，如可以将视频模态特征、文本模态特征、音频模态特征以及该目标融合特征均输入视频识别模块中的分类模块，以得到待识别视频的类别识别结果。

可选的，上述视频识别模型中的分类模块可以是单级分类模块，也可以是多级分类模块。单级分类模块可以理解为只存在一个分类模块，对应的，多级分类模块可以理解为存在多个分类子模块，其中，每一个分类子模块对应一次分类处理，则多级分类模块可以进行多次分类处理。多级分类模块的处理可以是指在预测二级类时会纳入一级类的隐层特征以及一级类预测类别的嵌入(Embedding)，在预测三级类时会纳入一级类和二级类的隐层特征以及二级类预测类别的嵌入，依次类推，得到最后一级类的预测类别。从而在利用多级分类模块进行类别识别时，可充分利用类别层次依赖关系，以提高视频识别模型的预测准确率。针对多级分类模块而言，待识别模型的类别识别结果可以包括最后一级类的预测类别，也可以是每一级类的预测类别。

在本申请实施例中，可以获取待识别视频，并确定待识别视频的图像模态特征、文本模态特征以及音频模态特征；还可以获取待识别视频的实体信息，并利用实体信息和知识图谱确定待识别视频的图谱模态特征；然后，可以根据图像模态特征和图谱模态特征确定待识别视频的视频模态特征。以基于视频模态特征、文本模态特征以及音频模态特征，确定待识别视频的类别识别结果。通过上述实施方式，可以在充分利用视频的图像、文本以及音频的基础上，通过引入外部优质知识(比如人脸识别、命名实体识别、知识图谱等来获取实体以及实体对应的属性)构建关系网络，即可利用多模态视频分类+知识图谱关系网络的结构对视频进行表征；也可以加强对不同垂类视频的理解，使模型具有很好的知识扩展性；将关系网络引入到视频识别(或视频分类)中，可以使视频识别模型可以学习图像与知识图谱之间的关系，使视频识别模型具有推理的能力，有效提升视频识别模型的模型效果，也可以有效提升视频识别的准确性。

基于上述描述，本申请实施例进一步提出了另一种视频处理方法；在本申请实施例中，主要以计算机设备执行该视频处理方法为例进行说明。如图4所示，该视频处理方法包括但不限于以下步骤：

S401，获取待识别视频，并确定待识别视频的图像模态特征、文本模态特征以及音频模态特征。

S402，获取待识别视频的实体信息，并利用实体信息和知识图谱确定待识别视频的图谱模态特征。

S403，根据图像模态特征和图谱模态特征确定待识别视频的视频模态特征。

其中，步骤S401-S403的具体实施方式可以参见上述实施例步骤S201-S203的具体描述，此处不再赘述。

S404，基于视频模态特征、文本模态特征以及音频模态特征，生成目标融合特征。

S405，根据视频模态特征、文本模态特征、音频模态特征以及目标融合特征进行类别识别，确定待识别视频的类别识别结果。

在步骤S404和步骤S405中，可以先根据视频模态特征、文本模态特征以及音频模态特征，生成目标融合特征，例如，可以利用以根据模型进行特征融合，以得到目标融合特征。在得到目标融合特征之后，即可以利用视频模态特征、文本模态特征、音频模态特征以及该目标融合特征，确定待识别视频的类别识别结果。如可以利用视频模态特征、文本模态特征、音频模态特征以及该目标融合特征进行类别识别处理，以得到待识别视频的类别识别结果。

在一种实现方式中，在基于特征进行类别识别处理时，可以进行多级分类，以识别出待识别视频对应的类别。例如，该多级分类可以是指层次化分类。层次化分类可以是指在预测二级类时会纳入一级类的隐层特征以及一级类预测类别的嵌入(Embedding)，在预测三级类时会纳入一级类和二级类的隐层特征以及二级类预测类别的嵌入，依次类推，得到最后一级类的预测类别。

具体实现中，可以根据视频模态特征、文本模态特征、音频模态特征以及目标融合特征进行第i次分类处理，得到第i次分类处理对应的第i级类别识别结果，其中，i为正整数，且小于等于N，N为大于或等于2的正整数。然后，再根据第1次分类处理与第i次分类处理之间每次分类处理对应的隐层特征和第i级类别识别结果进行第i+1次分类处理，得到第i+1次分类处理对应第i+1级类别识别结果。直到完成第N次分类处理，得到第N次分类处理对应的类别识别结果，并根据N次分类处理中每次分类处理对应的类别识别结果，确定待识别视频的类别识别结果。例如，该待识别视频的类别识别结果可以是第N次分类处理对应的类别识别结果；又如，该待识别视频的类别识别结果可以包括每一次分类处理对应的类别识别结果。

举例来说，假设待识别视频为一个讲解手表的视频，在对该视频进行类别识别处理时，利用的三级分类，则可以对该视频进行三次分类处理。其中，第一次分类处理对应的是类别识别结果是科技，即一级分类是科技；第二次分类处理对应的是类别识别结果是智能手表，即二级分类是智能手表；第三次分类处理对应的是类别识别结果是国内手表，即三级分类是国内手表。那么，该视频的类别识别结果可以是三级分类(即国内手表)，也可以包括一级分类、二级分类以及三级分类(即科技、智能手表以及国内手表)。

可选的，上述类别识别处理可以利用视频识别模型中的分类模块来实现，该分类模块可以是层次分类模块(或称之为多级分类模块)，该层次分类模块可以包括N级分类子模块，N级分类子模块中一级分类子模块对应一次分类处理。

举例来说，结合图5a所示的层次化分类模块为例对层次化分类进行说明，其中，以层次化分类模块包括3级分类子模块为例进行说明。如图5a所示，可以将视频模态特征、文本模态特征、音频模态特征以及目标融合特征输入层次化分类模块的第1级分类子模块进行第1次分类处理，以得到针对第1级分类子模块(或者说第1次分类处理)对应的类别识别结果，为方便后续描述，将此处的类别识别结果简称为第一结果；在得到第一结果之后，将第1次分类处理对应的隐层特征和第一结果对应的嵌入向量输入层次化分类模块的第2级分类子模块进行第2次分类处理，以得到针对第2级分类子模块(或者说第2次分类处理)对应的类别识别结果，可以将该类别识别结果称之为第二结果；在得到第二结果之后，将将第1次分类处理对应的隐层特征、第2次分类处理对应的隐层特征以及第二结果对应的嵌入向量，输入层次化分类模块的第3级分类子模块进行第3次分类处理，以得到针对第3级分类子模块(或者说第3次分类处理)对应的类别识别结果，可以将该类别识别结果称之为第三结果。而待识别视频的类别识别结果则可以基于上述第一结果、第二结果以及第三结果来确定，例如，该待识别视频的类别识别结果可以是第三结果，或第一结果、第二结果以及第三结果。

为更好的理解本申请实施例所提供的视频处理方法，下面结合图5b所示视频识别模型的结构示意图和图5c所示的视频处理流程进行进一步说明。如图5b所示，该视频识别模型可以包括多模态特征提取模块、多模态特征融合模块以及层次分类模块。其中，多模态特征提取模块可以包括视频模态特征提取模块、文本模态特征提取模块以及音频模态特征提取模块；视频模态特征提取模块可以包括图像模态特征提取模块、图谱模态特征提取模块以及特征融合模块；特征融合模块可以包括拼接模块、特征关系模块以及特征增强模块。

在一种实现方式中，如图5b和图5c所示，多模态特征提取模块可以包括用于进行视频模态特征提取的视频模态特征提取模块、用于进行文本模态特征提取的文本模态特征提取模块以及用于进行音频模态特征提取的音频模态特征提取模块。

其中，视频模态特征提取模块的处理过程可以包括：利用图像模态特征提取模块进行图像模态特征的提取，例如，可以先从待识别视频中获取图像模态信息，然后，再利用BigTransfer模型对图像模态信息进行处理得到图像模态特征；并利用图谱模态特征提取模块进行图谱模态特征的提取，例如，可以先从待识别视频中获取图谱模态信息，然后，再利用DeepWalk对图谱模态信息进行处理得到图谱模态特征；最后，利用特征融合模块对图像模态特征和图谱模态特征进行融合处理，以得到视频模态特征。其中，特征融合模块的处理过程可以参考如3c或图3d所示的示意图对应的描述。

文本模态特征提取模块的处理过程可以包括：从待识别视频中获取文本模态信息，然后在利用TextRCNN模型对文本模态信息处理得到文本模态特征。

音频模态特征提取模块的处理过程可以包括：从待识别视频中获取音频模态信息，然后在利用Vggish模型对音频模态信息处理得到音频模态特征。

在通过多模态特征提取模块得到视频模态特征、文本模态特征以及音频模态特征之后，可以利用多模态特征融合模块对该多个模态特征进行融合处理，以得到目标融合特征。例如，可以利用Teacher-Student模型来进行多个模态特征的融合。进一步的，可以利用层次分类模块对视频模态特征、文本模态特征、音频模态特征以及目标融合特征进行多级分类处理，从而得到待识别视频的类别识别结果。

其中，上述视频识别模型中各模块的具体处理过程可以参考前述相关描述，在此处不再赘述。

在一种实现方式中，为了避免视频识别模型过拟合到容易学习的模态，可在所有模态都添加层次化分类器(即上述的层次分类模块)，即可以将各个模态下的特征输入到层次分类模块中进行处理。从而实现利用多损失函数联合约束层次化分类器，实现端到端的训练视频识别模型。在训练过程中，每个层次化分类器都可以产生多级分类(如三级分类)的交叉熵损失，以约束每个模态的分类训练，这种设计可以有效提高模型准确率，还可以加快收敛速度。

然而，在某些情况下，采用模型单独利用上述所提及的同一个视频的不同模态信息进行分类(识别)，也可能出现存在分类(识别)效果较差的现象，例如，通过困难样本(预测的分类结果与实际的分类结果之间误差较大的样本)分析发现，单独利用同一个视频的不同模态信息做分类判断时，可能会出现相反的结果，则在模型的训练过程中也可能会遭遇相似问题，模型也有可能拟合到容易收敛的模态，从而影响模型参数的学习。为了避免这种情况，可以在将各个模态特征输入到层次分类模块处理时，将目标融合特征也输入到层次分类模块中进行处理，并通过加入KLD(Kullback-Leibler Divergence，KL散度)损失来加强视频识别模型在训练过程中多个模态的协同作用。可选的，KL散度(或称为Kullback-Leibler散度(Kullback-Leibler Divergence)或信息散度(Information Divergence)，KL散度是两个概率分布(Probability Distribution)间差异的非对称性度量。在信息理论中，相对熵等价于两个概率分布的信息熵(Shannon Entropy)的差值)可以用来度量每个层次化分类器的类别分布与融合后层次化分类器的类别分布之间的差异，以通过最小化KL散度得到损失。

可选的，在视频识别模型的模型训练中，可以利用上述交叉熵损失和KLD损失来对视频识别模型进行训练，以得到训练后的视频识别模型。例如，可以利用交叉熵损失和KLD损失进行模型损失值的计算，并可以按照减小该模型损失值的方向(或者说最小化模型损失值)，来训练视频识别模型的模型参数。

举例来说，视频模态特征通过层次分类模块处理，可以产生一个交叉熵损失L1，文本模态特征通过层次分类模块处理，可以产生一个交叉熵损失L2，音频模态特征通过层次分类模块处理，可以产生一个交叉熵损失函数L3，目标融合特征通过层次分类模块处理，可以产生一个KLD损失L4；而视频识别模型在训练过程中的总损失函数可以为L＝L1+L2+L3+L4。则在待识别模型的模型训练中，可以基于L进行模型损失值的计算，并可以按照减小该模型损失值的方向，对视频识别模型进行训练。

在本申请实施例中，可以在多模态机器学习抽取视频内容不同模态的信息合成一个稳定的多模态表征的基础上，通过引入外部优质知识，构建关系网络，从而使得视频识别模型具有推理的能力，也使得视频在多级分类时具有推理能力，有效增强视频多级分类的能力，提升视频识别性能，同时模型具有很好的知识扩展性；在进行类别识别处理时，充分利用类别层次依赖关系，以提高视频识别模型的预测准确率，也可以实现细粒度的多级分类。同时，能够在对视频内容的理解上并充分利用视频内容的图像(如视频封面图)文本(如标题文本)，音频和外部知识数据的基础上，将视频的多模态特征联合知识图谱信息对视频识别模型进一步训练，使得最终得到的视频识别模型比常规的视频多模态模型，准确度和性能可以有进一步提升，刻画更加全面和准确，从而可以提升后续推荐***针对视频的分发效率。

上面介绍了本申请实施例的方法，下面介绍本申请实施例的装置。

参见图6，图6是本申请实施例提供的一种视频处理装置的组成结构示意图，上述视频处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)；该视频处理装置可以用于执行本申请实施例提供的视频处理方法中的相应步骤。例如，该视频处理装置60包括：

获取单元601，用于获取待识别视频，并确定该待识别视频的图像模态特征、文本模态特征以及音频模态特征；

第一确定单元602，用于获取该待识别视频的实体信息，并利用该实体信息和知识图谱确定该待识别视频的图谱模态特征；

第二确定单元603，用于根据该图像模态特征和该图谱模态特征确定该待识别视频的视频模态特征；

识别单元604，用于基于该视频模态特征、该文本模态特征以及该音频模态特征，确定该待识别视频的类别识别结果。

在一种实现方式中，该第二确定单元603，具体用于：

基于该图像模态特征和该图谱模态特征进行特征拼接，得到拼接特征；

根据该拼接特征确定该待识别视频的初始视频模态特征，该初始视频模态特征用于表征该图像模态特征和该图谱模态特征之间的特征关联信息；

对该初始视频模态特征进行特征增强处理，得到该待识别视频的视频模态特征。

在一种实现方式中，该初始视频模态特征是通过视频识别模型中的特征关系模块对该拼接特征进行处理所得到的；该视频模态特征是通过该视频识别模型中的特征增强模块对该初始视频模态特征进行特征增强处理得到的。

在一种实现方式中，该识别单元604，具体用于：

基于该视频模态特征、该文本模态特征以及该音频模态特征，生成目标融合特征；

根据该视频模态特征、该文本模态特征、该音频模态特征以及该目标融合特征进行类别识别，确定该待识别视频的类别识别结果。

在一种实现方式中，该识别单元604，具体用于：

根据该视频模态特征、该文本模态特征、该音频模态特征以及该目标融合特征进行第i次分类处理，得到该第i次分类处理对应的第i级类别识别结果，i为正整数，且小于等于N，N为大于或等于2的正整数；

根据第1次分类处理与该第i次分类处理之间每次分类处理对应的隐层特征和第i级类别识别结果进行第i+1次分类处理，得到该第i+1次分类处理对应第i+1级类别识别结果；

直到完成第N次分类处理，得到第N次分类处理对应的类别识别结果，并根据N次分类处理中每次分类处理对应的类别识别结果，确定该待识别视频的类别识别结果。

在一种实现方式中，该待识别视频的类别识别结果是调用视频识别模型中的层次分类模块得到的，该层次分类模块包括N级分类子模块，该N级分类子模块中一级分类子网络对应一次分类处理。

在一种实现方式中，该第一确定单元602，具体用于：

从知识图谱中获取该实体信息相关联的属性信息；

基于该实体信息和该属性信息确定与该待识别视频的图谱模态特征。

需要说明的是，图6对应的实施例中未提及的内容可参见方法实施例的描述，这里不再赘述。

在本申请实施例中，可以获取待识别视频，并确定待识别视频的图像模态特征、文本模态特征以及音频模态特征；还可以获取待识别视频的实体信息，并利用实体信息和知识图谱确定待识别视频的图谱模态特征；然后，可以根据图像模态特征和图谱模态特征确定待识别视频的视频模态特征。以基于视频模态特征、文本模态特征以及音频模态特征，确定待识别视频的类别识别结果。可以在充分利用视频的图像、文本以及音频的基础上，通过引入外部优质知识(比如利用知识图谱来获取实体以及实体对应的属性)对视频进行联合表征，以结合多模态的特征进行视频的识别，提升视频识别的准确性；通过引入知识图谱信息，将视频特征联合知识图谱信息对视频进行进一步表征，以充分利用知识图谱信息进行有效的扩展，使得视频在类别识别时具有推理能力，从而提升视频识别能力，进而提高视频识别的准确性。

参见图7，图7是本申请实施例提供的一种计算机设备的组成结构示意图。如图7所示，上述计算机设备70可以包括：处理器701、存储器702以及网络接口703。处理器701连接到存储器702和网络接口703，例如处理器701可以通过总线连接到存储器702和网络接口703。

处理器701被配置为支持视频处理装置执行上述的视频处理方法中相应的功能。该处理器701可以是中央处理器(Central Processing Unit，CPU)，网络处理器(NetworkProcessor，NP)，硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit，ASIC)，可编程逻辑器件(ProgrammableLogic Device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device，CPLD)，现场可编程逻辑门阵列(Field-Programmable GateArray，FPGA)，通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。

存储器702存储器用于存储程序代码等。存储器702可以包括易失性存储器(Volatile Memory，VM)，例如随机存取存储器(Random Access Memory，RAM)；存储器702也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如只读存储器(Read-OnlyMemory，ROM)，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；存储器702还可以包括上述种类的存储器的组合。本申请实施例中，存储器702用于存储网站安全检测的程序、交互流量数据等。

网络接口703用于提供网络通讯功能。

处理器701可以调用该程序代码以执行以下操作：

获取待识别视频，并确定该待识别视频的图像模态特征、文本模态特征以及音频模态特征；

获取该待识别视频的实体信息，并利用该实体信息和知识图谱确定该待识别视频的图谱模态特征；

根据该图像模态特征和该图谱模态特征确定该待识别视频的视频模态特征；

基于该视频模态特征、该文本模态特征以及该音频模态特征，确定该待识别视频的类别识别结果。

应当理解，本申请实施例中所描述的计算机设备70可执行前文图2和图4所对应实施例中对上述视频处理方法的描述，也可执行前文图6所对应实施例中对上述视频处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被计算机执行时使该计算机执行如前述实施例的方法，该计算机可以为上述提到的计算机设备的一部分。例如为上述的处理器701。作为示例，程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可从计算机可读存储介质读取该计算机指令，处理器可执行该计算机指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。

本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述图像模态特征和所述图谱模态特征确定所述待识别视频的视频模态特征，包括：

基于所述图像模态特征和所述图谱模态特征进行特征拼接，得到拼接特征；

根据所述拼接特征确定所述待识别视频的初始视频模态特征，所述初始视频模态特征用于表征所述图像模态特征和所述图谱模态特征之间的特征关联信息；

对所述初始视频模态特征进行特征增强处理，得到所述待识别视频的视频模态特征。

3.根据权利要求2所述的方法，其特征在于，所述初始视频模态特征是通过视频识别模型中的特征关系模块对所述拼接特征进行处理所得到的；所述视频模态特征是通过所述视频识别模型中的特征增强模块对所述初始视频模态特征进行特征增强处理得到的。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述基于所述视频模态特征、所述文本模态特征以及所述音频模态特征，确定所述待识别视频的类别识别结果，包括：

基于所述视频模态特征、所述文本模态特征以及所述音频模态特征，生成目标融合特征；

根据所述视频模态特征、所述文本模态特征、所述音频模态特征以及所述目标融合特征进行类别识别，确定所述待识别视频的类别识别结果。

5.根据权利要求4所述的方法，其特征在于，所述根据所述视频模态特征、所述文本模态特征、所述音频模态特征以及所述目标融合特征进行类别识别，确定所述待识别视频的类别识别结果，包括：

根据所述视频模态特征、所述文本模态特征、所述音频模态特征以及所述目标融合特征进行第i次分类处理，得到所述第i次分类处理对应的第i级类别识别结果，i为正整数，且小于等于N，N为大于或等于2的正整数；

根据第1次分类处理与所述第i次分类处理之间每次分类处理对应的隐层特征和第i级类别识别结果进行第i+1次分类处理，得到所述第i+1次分类处理对应第i+1级类别识别结果；

直到完成第N次分类处理，得到第N次分类处理对应的类别识别结果，并根据N次分类处理中每次分类处理对应的类别识别结果，确定所述待识别视频的类别识别结果。

6.根据权利要求5所述的方法，其特征在于，所述待识别视频的类别识别结果是调用视频识别模型中的层次分类模块得到的，所述层次分类模块包括N级分类子模块，所述N级分类子模块中一级分类子网络对应一次分类处理。

7.根据权利要求1所述的方法，其特征在于，所述利用所述实体信息和知识图谱确定所述待识别视频的图谱模态特征，包括：

从知识图谱中获取所述实体信息相关联的属性信息；

基于所述实体信息和所述属性信息确定与所述待识别视频的图谱模态特征。

8.一种视频处理装置，其特征在于，包括：

获取单元，用于获取待识别视频，并确定所述待识别视频的图像模态特征、文本模态特征以及音频模态特征；

第一确定单元，用于获取所述待识别视频的实体信息，并利用所述实体信息和知识图谱确定所述待识别视频的图谱模态特征；

第二确定单元，用于根据所述图像模态特征和所述图谱模态特征确定所述待识别视频的视频模态特征；

识别单元，用于基于所述视频模态特征、所述文本模态特征以及所述音频模态特征，确定所述待识别视频的类别识别结果。

9.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供数据通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以使得所述计算机设备执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-7任一项所述的方法。