CN113821675B

CN113821675B - 视频识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113821675B
Application number: CN202110735688.8A
Authority: CN
Inventors: 陈小帅
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2024-06-07
Anticipated expiration: 2041-06-30
Also published as: CN113821675A

Abstract

本申请实施例提供了一种视频识别方法、装置、电子设备及计算机可读存储介质，涉及视频处理技术领域。该方法包括：获取待识别的视频数据；对视频数据进行拼接特征识别，获取视频数据的拼接识别结果；视频数据的拼接识别结果包括视频数据的文本分类结果、视频数据的文本检索结果以及视频数据的图像特征检索结果中的至少一项；基于视频数据的拼接识别结果，确定视频数据属于目标类型视频的目标概率；其中，目标类型视频为由至少两个不相邻的视频片段拼接而成的视频；基于目标概率确定视频数据的类型。本申请实施例实现了高效、准确地视频类型识别。

Description

视频识别方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及视频处理技术领域，具体而言，本申请涉及一种视频识别方法、装置、电子设备及计算机可读存储介质。

背景技术

随着移动终端普及和网络的提速，短平快的大流量传播内容逐渐获得各大平台、粉丝和资本的青睐。短视频作为一种互联网内容传播方式得到迅猛发展，随着视频剪辑软件的使用越来越普遍，多种播放短视频的新媒体平台也不断崛起。

当前新媒体平台有不断向垂直化、细分化的领域深化发展的趋势，将多个视频精彩片段剪切拼接而成的短视频即混剪类视频具有精彩度强、看点高的特点，当需要构建混剪频道视频资源或构建垂类推荐池时，需要快速识别出混剪类视频，现有技术中往往通过人工识别的方式对视频库中的混剪类视频进行识别，此方法存在识别效率和准确率低下的问题。

发明内容

本申请提供了一种视频识别方法、装置、电子设备及计算机可读存储介质，可以解决视频类型识别的效率低下的问题。所述技术方案如下：

根据本申请的一个方面，提供了一种视频识别方法，该方法包括：

获取待识别的视频数据；

对视频数据进行拼接特征识别，获取视频数据的拼接识别结果；视频数据的拼接识别结果包括视频数据的文本分类结果、视频数据的文本检索结果以及视频数据的图像特征检索结果中的至少一项；

基于视频数据的拼接识别结果，确定视频数据属于目标类型视频的目标概率；其中，目标类型视频为由至少两个不相邻的视频片段拼接而成的视频；

基于目标概率确定视频数据的类型。

在一个可能的实现方式中，视频数据的拼接识别结果包括视频数据的文本分类结果，对视频数据进行拼接特征识别，获取视频数据的拼接识别结果，包括：

提取视频数据中的关键文本信息；关键文本信息包括视频数据的关键字、视频数据预设时间范围内的图像内容以及视频数据预设时间范围内的语音内容中的至少一种；

对关键文本信息进行分类，得到文本分类结果。

在一个可能的实现方式中，视频数据的拼接识别结果包括视频数据的文本分类结果和视频数据的文本检索结果，基于视频数据的拼接识别结果，确定视频数据属于目标类型视频的目标概率，包括：

基于文本分类结果确定视频数据属于目标类型视频的第一概率；

基于预设视频库构建文本检索索引；

根据文本检索索引确定文本检索结果；

基于文本检索结果，生成视频数据为目标类型视频的第二概率；

基于第一概率和第二概率确定目标概率。

在另一个可能的实现方式中，根据文本检索索引确定文本检索结果，包括：

对视频数据进行切片，得到第一切片视频数据集合；

对每一第一切片视频数据进行识别，得到每一第一切片视频数据所对应的切片文本；

通过切片文本匹配文本检索索引中的文本索引值，确定文本检索结果。

在另一个可能的实现方式中，通过切片文本匹配文本检索索引中的文本索引值，确定文本检索结果，包括：

基于文本检索索引，确定切片文本与每一文本索引值的第一相似度，并将第一相似度的最大值所对应的文本索引值作为切片文本的候选文本索引值；

获取每一切片文本与所对应的候选文本索引值的第一相似度，作为候选相似度；

将候选相似度和候选文本索引值，作为文本检索结果。

在又一个可能的实现方式中，基于文本检索结果，生成视频数据为目标类型视频的第二概率，包括：

当候选文本索引值所对应的地址信息包括至少两个不相邻的视频片段，则获取第一切片视频数据集合中所有候选文本索引值所对应的候选相似度的乘积；

将乘积设为第二概率。

在又一个可能的实现方式中，基于第一概率和第二概率确定目标概率，包括：

基于视频库构建向量检索索引；

对视频数据进行切片，得到第二切片视频数据集合，并提取每一第二切片视频数据的切片图像特征；

基于向量检索索引对每一切片图像特征进行向量检索，得到每一切片图像特征与向量检索索引中的查询向量的第二相似度；

基于第二相似度确定视频数据为目标类型视频的第三概率；

基于第一概率、第二概率和第三概率确定目标概率。

根据本申请的另一个方面，提供了一种视频识别装置，该装置包括：

获取模块，用于获取待识别的视频数据；

识别模块，用于对视频数据进行拼接特征识别，获取视频数据的拼接识别结果；视频数据的拼接识别结果包括视频数据的文本分类结果、视频数据的文本检索结果以及视频数据的图像特征检索结果中的至少一项；

第一确定模块，用于基于视频数据的拼接识别结果，确定视频数据属于目标类型视频的目标概率；其中，目标类型视频为由至少两个不相邻的视频片段拼接而成的视频；

第二确定模块，用于基于目标概率确定视频数据的类型。

在一个可能的实现方式中，视频数据的拼接识别结果包括视频数据的文本分类结果，上述识别模块具体用于：

对关键文本信息进行分类，得到文本分类结果。

在一个可能的实现方式中，视频数据的拼接识别结果包括视频数据的文本分类结果和视频数据的文本检索结果，上述第一确定模块具体包括：

第一确定单元，用于基于文本分类结果确定视频数据属于目标类型视频的第一概率；

构建单元，用于基于预设视频库构建文本检索索引；

检索单元，用于根据文本检索索引确定文本检索结果；

生成单元，用于基于文本检索结果，生成视频数据为目标类型视频的第二概率；

第二确定单元，用于基于第一概率和第二概率确定目标概率。

在另一个可能的实现方式中，上述检索单元，具体用于：

对视频数据进行切片，得到第一切片视频数据集合；

在另一个可能的实现方式中，上述检索单元，还用于：

将候选相似度和候选文本索引值，作为文本检索结果。

在又一个可能的实现方式中，上述生成单元，具体用于：

将乘积设为第二概率。

在又一个可能的实现方式中，上述第二确定单元，具体用于：

基于视频库构建向量检索索引；

基于第二相似度确定视频数据为目标类型视频的第三概率；

基于第一概率、第二概率和第三概率确定目标概率。

第三方面，提供了一种电子设备，该电子设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序；

处理器执行上述计算机程序时执行如本申请的第一方面所示的视频识别方法对应的操作。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请第一方面所示视频识别方法。

第五方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行时实现第一方面实施例或第二方面实施例中所提供的方法。

本申请提供的技术方案带来的有益效果是：

本申请实施例通过对待识别视频数据进行拼接特征识别，并基于识别得到的拼接识别结果来确定视频数据属于目标类型视频的目标概率，进而确定视频数据的类型，所确定的视频数据的类型可以包括目标类型或非目标类型；相比于现有技术中对视频数据进行人工识别的方式，有效提升了视频识别的效率和准确性。由于视频数据的拼接识别结果包括视频数据的文本分类结果、视频数据的文本检索结果以及视频数据的图像特征检索结果中的至少一种，故拼接识别结果可以从不同维度有效表征视频数据的类别信息，进一步提高了对目标类型视频识别的准确性，达到了对目标类型视频的快速查找和识别的目的，能够为视频数据推荐提供基础，满足了用户对目标类型视频的观看需求，提升了用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种视频识别方法的应用场景示意图；

图2为本申请实施例提供的一种视频识别法的流程示意图；

图3为本申请实施例提供的一种视频识别方法的中的Transformer模型文本分类的流程示意图；

图4为本申请实施例提供的一种视频识别方法中的获取文本分类结果的流程示意图；

图5为本申请实施例提供的一种视频识别方法中的OCR识别的流程示意图；

图6为本申请实施例提供的一种视频识别方法中的语音识别的流程示意图；

图7-1为本申请实施例提供的一种视频识别方法中的倒排索引的构建示意图；

图7-2为本申请实施例提供的一种视频识别方法中的倒排索引的检索流程示意图；

图8-1为本申请实施例提供的一种视频识别方法中的近似最近邻检索索引的构建示意图；

图8-2为本申请实施例提供的一种视频识别方法中的近似最近邻检索的流程示意图；

图9为本申请实施例提供的另一种视频识别方法的流程示意图；

图10为本申请实施例提供的一种视频识别装置的结构示意图；

图11为本申请实施例提供的一种视频识别的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3-dimension，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR，AutomaticSpeech Recognition)和语音合成技术(TTS，TextToSpeech)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

本申请提供的视频识别方法，运用了图像识别和语音识别技术对视频数据进行处理，有效提高了视频识别的效率。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能机器学习技术，具体通过如下实施例进行说明。

随之而来的网红经济的出现，视频行业逐渐崛起一批优质UGC(User GeneratedContent，用户原创内容)内容制作者，内容制作者也逐步偏向于PGC(Professionally-produced Content，专业生产内容)化专业运作。当前的新媒体平台中，短视频内容融合了技能分享、幽默搞怪、时尚潮流、社会热点、街头采访、公益教育、广告创意、商业定制等主题。由于内容较短，可以单独成片，也可以成为系列栏目。

如今，当前新媒体平台不断向垂直化、细分化的领域深化发展的趋势。将多个视频精彩片段剪切拼接而成的短视频即混剪类视频具有精彩度强、看点高的特点。多个视频精彩片段一般来自多个不同的长视频，比如从类似情节的多部电影中剪切出某演员的打斗片段，或者从电视剧的不同集中剪切出多个高能看点片段，然后拼接成一个混剪类视频。

当需要构建混剪频道视频资源或构建垂类推荐池时，需要快速识别出混剪类视频，现有技术中往往通过人工识别的方式对视频库中的混剪类视频进行识别，此方法人力成本较高，存在识别效率和准确率低下的问题，难以快速、全面对视频库中的视频进行处理。

本申请提供的视频识别方法、装置、电子设备和计算机可读存储介质，旨在解决现有技术的如上技术问题，采用基于关键文本信息分类的方式对视频数据的类别进行确认，提高了对混剪类视频识别的准确性，达到了对混剪类视频的快速查找和识别的目的，可以为视频数据推荐提供基础，满足了用户对混剪类视频的观看需求。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

如图1所示，本申请的视频识别方法，可以应用于图1所示的场景中，具体的，服务器102获取待处理的视频数据101之后，对视频数据101进行拼接特征识别得到拼接识别结果，接着基于拼接识别结果确定视频数据101属于目标类型视频的目标概率，并基于目标概率确定视频数据的类型103；其中，视频数据的类型103包括目标类型或非目标类型。

图1所示的场景中，上述视频识别方法可以在服务器中进行，在其他的场景中，也可以在终端中进行。

本技术领域技术人员可以理解，这里所使用的“终端”可以是手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、MID(Mobile Internet Device，移动互联网设备)等；“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请实施例中提供了一种视频识别的方法，如图2所示，该方法可以包括如下步骤：

S201，获取待识别的视频数据。

其中，用于进行视频识别的服务器或终端可以将新媒体平台预设视频库中的视频数据作为待处理的视频数据；还可以将已有的初始视频数据进行处理得到视频数据，如利用视频剪辑软件从初始视频数据中截取一段视频数据；还可以实时采集视频记录或播放设备的视频数据，如将LD(laser disc，镭射影碟)视盘机、电视机输出的视频信号，通过专用的模拟、数字转换设备，转换为二进制数字信息从而得到视频数据的过程。

S202，对视频数据进行拼接特征识别，获取视频数据的拼接识别结果；视频数据的拼接识别结果包括视频数据的文本分类结果、视频数据的文本检索结果以及视频数据的图像特征检索结果中的至少一项。

其中，拼接特征识别可以包括对视频数据的文本特征识别和视频数据的图像特征识别中的至少一项。

具体的，用于进行视频识别的服务器或终端可以先从视频数据中提取文本信息和图像信息，然后基于文本信息和图像信息中的至少一项进行拼接特征识别，从而获取视频数据的拼接识别结果。

在一些实施方式中，当拼接识别结果包括文本分类结果，可以对获取得到的文本信息进行文本分类，得到文本分类结果。

在又一些实施方式中，当拼接识别结果包括文本检索结果，可以对获取得到的文本信息进行文本检索，得到文本检索结果。

在另一些实施方式中，当拼接识别结果包括图像特征检索结果，可以先获取图像信息的图像特征，然后基于图像特征进行向量检索，得到图像特征检索结果。

S203，基于视频数据的拼接识别结果，确定视频数据属于目标类型视频的目标概率；其中，目标类型视频为由至少两个不相邻的视频片段拼接而成的视频。

其中，目标视频可以为混剪类视频，至少两个用于拼接目标类型视频的视频片段，可以来源于同一个长视频也可以来源于多个不同的长视频。

具体的，视频数据的拼接识别结果可以从图像维度和文本维度中的至少一种维度表征视频数据的类型数据，故可以根据拼接识别结果得到目标概率。

S204，基于目标概率确定视频数据的类型。

其中，视频数据的类型包括目标类型和非目标类型。

其中，目标类型视频可以为混剪类视频，非目标类型视频可以为非混剪类视频，也就是除混剪类视频之外的其他视频。

在一些实施方式中，当目标概率大于预设的概率阈值时，可以确定该视频数据为目标类型视频；该概率阈值可以从服务器或终端中获取，还可以基于工程实际应用的数据统计计算得到。具体的目标概率的计算过程将在下文进行详细阐述。

本申请实施例中提供了一种可能的实现方式，当视频数据的拼接识别结果包括视频数据的文本分类结果，步骤S202中对视频数据进行拼接特征识别，获取视频数据的拼接识别结果，包括：

(1)提取视频数据中的关键文本信息；关键文本信息包括视频数据的关键字、视频数据预设时间范围内的图像内容以及视频数据预设时间范围内的语音内容中的至少一种。

其中，关键文本信息可以表征视频数据的关键内容，视频数据的关键字可以从视频数据的标题或标签中提取，也可以从视频数据的附加信息如用户评论中提取。视频数据预设时间范围可以是视频的开头部分，例如视频数据的前15S内容。

具体的，当关键文本信息包括视频数据的关键字时，用于进行视频识别的服务器或终端可以获取视频数据的标题、标签和附件信息中的至少一种信息，然后基于预训练的文字识别模型从上述至少一种信息中提取关键字，作为视频数据的关键文本信息。

当关键文本信息包括视频数据预设时间范围内的图像内容或视频数据预设时间范围内的语音内容时，用于进行视频识别的服务器或终端可以从预设时间范围的视频数据中抽取视频帧图像和语音帧，然后对视频帧图像或语音帧进行文本或语音识别得到关键文本信息。

(2)对关键文本信息进行分类，得到文本分类结果。

具体的，用于进行视频识别的服务器或终端可以采用文本分类模型对关键文本信息进行分类，得到文本分类结果。其中，文本分类模型可以是Transformer(转换器，一种自然语言处理的模型架构)模型或TextCNN(TextConvolutional Neural Network，文本分类卷积神经网络)模型，还可以是其他自然语言处理模型，在本申请实施例中不做限制。

在一些实施方式中，当所得到的关键文本信息包括的关键字为“某明星的古装高效瞬间合辑”这一标题，或者“来我们一起欣赏下刘德华不同演唱会《冰雨》的帅气表演”这一视频开头的语音内容时，则得到的文本分类结果可以包括该视频数据属于混剪类视频的概率大于该视频数据属于非混剪类视频的概率。

下面以Transformer模型为例来进行具体说明，Transformer模型结构包括编码器(Encoder)和解码器(Decoder)，在文本分类中只使用到了编码器，如图3所示，嵌入层(embedding layer)主要将输入关键文本信息转化为向量的表示，位置编码(positionalencoding)为词向量加入位置的信息，多头注意力机制(Multi-head attention)能够提取文本的长距离依赖特征，可以计算输入文本中任意位置的单词间的相似性，提升文本分类的准确率。前馈神经网络(Feed-Forward network)对经过多头注意力机制处理后的向量进行线性变换，并通过Softmax(归一化指数函数)函数计算出每个单词的分数，该分数表征了输入关键文本信息属于目标类型视频或非目标类型视频的概率，进而得到视频数据的文本分类结果，可以从中获取视频数据属于目标类型视频的第一概率。

在本申请实施例中，在基于Transformer模型对关键文本信息进行分类之前，还需要利用预设的训练集对初始模型进行训练，训练集中包括从目标类型视频数据和非目标类型视频数据中分别提取的样本关键文本和每一样本关键文本对应的样本类型，将样本关键文本输入到初始模型，基于Softmax构建损失函数计算初始模型输出的标签类型与样本类型的差值，并不断调整初始模型的参数，当差值小于预设的收敛阈值，则认为初始模型收敛即得到Transformer模型。

如图4所示，当关键文本信息包括视频数据的关键字、视频数据预设时间范围内的图像内容和视频数据预设时间范围内的语音内容时，可以采用OCR(Optical CharacterRecognition,光学字符识别)识别图像内容、采用ASR(Automatic Speech Recognition，自动语音识别技术)识别语音内容，进而获取关键文本信息，根据Transformer模型对关键文本信息进行分类，得到视频数据的文本分类结果，进而可以从中获取视频数据属于目标类型视频的第一概率。

本申请实施例中提供了一种可能的实现方式，如图5所示，当关键文本信息包括视频数据的图像内容时，可以采用OCR识别提取图像内容中的关键文本信息，则上述提取视频数据中的关键文本信息，可以包括：

(1)从视频数据中提取至少一个视频帧图像；

具体的，用于进行视频识别的服务器或终端可以从视频数据的预设时间范围中如视频数据的开头部分，以采样的方式获取视频帧，然后从视频帧中获取至少一个视频帧图像。

在一些实施方式中，可以将视频数据平均分为K个片段，然后从每个片段中随机抽取M张视频帧图像。例如，可以设置K＝10，M＝3，对视频数据进行采样和抽取操作。

在另一些实施方式中，可以直接抽取视频数据的N秒时长的连续视频帧图像，该连续视频帧图像可以来源于视频数据的开头部分；根据实际应用情况，N的取值可以设为固定值如15s，也可以设为视频数据总时长的预设占比，如N可以取值为视频数据总时长的3％。由于视频开头部分往往有较高频次出现视频内容和视频类型的介绍信息，从视频数据的预设时间范围即视频数据的开头部分的图像内容，可以有效提升关键文本信息提取的效率和准确率。

(2)确定视频帧图像的文本区域。

其中，文本区域可以是矩形的也可以是其他的特定形状。

具体的，可以对视频帧图像进行包括灰度化、二值化、降噪、倾斜矫正、文字切分等步骤的图像预处理，得到文本区域。具体过程如下：

首先，将彩色的视频帧图像经过灰度化后变为灰度图像；然后采用二值化处理去除灰度图像中的灰色，得到只有纯黑和纯白的黑白图像；接着对黑白图像进行降噪处理，去除图像中的噪声，并采用霍夫变换对降噪后的黑白图像进行倾斜校正，使得图像中的文本内容处于水平位置；最后对图像中的文本进行行切分和字符切分，以确定每行文本的位置，得到视频帧图像对应的文本区域。

(3)对文本区域进行识别，得到关键文本信息。

具体的，可以先提取文本区域中文本的特征向量，然后采用预训练的文本分类器对特征向量进行分类，进而确定得到该特征向量对应的文本作为关键文本信息。

其中，在采用预训练的文本分类器对特征向量进行分类之前，可以先对特征向量进行降维。

具体的，以关键文本信息是汉字为例，因为汉字拥有大字符集、数量较大，且汉字结构复杂，特征维度多，故得到的特征向量的维度偏高，如果特征向量的维度太高会影响文本分类器的效率，故对特征向量进行降维后还需要保留足够的信息量以区分不同的文字，从而达到有效提高文本分类器的识别效率的目的。

在采用预训练的文本分类器对特征向量进行分类之后，由于文本分类器的分类有时候会有误差，还需要通过语言模型对特征向量所对应的文本进行校正和格式化，以识别得到准确的文本且能够格式统一、语序正确。

本申请实施例中提供了一种可能的实现方式，如图6所示，当关键文本信息包括视频数据的语音内容，可以通过ASR对语音内容进行处理，则上述提取视频数据中的关键文本信息，可以包括：

(1)从视频数据中抽取至少一段语音数据。

具体的，用于进行视频识别的服务器或终端可以从视频数据的预定时间范围中如视频数据的开头部分，以采样的方式抽取至少一段语音帧。

在一些实施方式中，可以直接抽取视频数据的前N秒时长的连续语音帧，该连续语音帧可以来源于视频数据的开头部分；根据实际应用情况，N的取值可以设为固定值如15s，也可以设为视频数据总时长的预设占比，如N可以取值为视频数据总时长的3％。由于视频的开头部分往往有较高频次出现视频内容和视频类型的介绍信息，从视频数据的预设时间范围即视频数据的开头部分提取语音内容，可以有效提升关键文本信息提取的效率和准确率。

(2)对至少一段语音数据分别进行语音活动检测，从至少一段语音数据中确定出信号能量大于预设阈值的目标语音数据。

具体的，可以采用VAD(语音活动检测，Voice Activity Detection)算法从至少一段语音数据中确定出目标语音数据。其中，VAD算法基于GMM(Gaussian Mixture Model，高斯混合模型)，依据语音数据的时域信号的波动情况，计算语音数据在时域上能量的迁移变化，实现对语音数据的处理。

首先根据实际需要设定能量阈值范围和单位帧长(10ms或20ms或30ms)，然后逐帧进行判断，当该帧的能量为0或者超出正常能量阈值范围的帧即为异常帧，然后基于异常帧对语音数据进行切割，将异常帧从语音数据中剔除，得到目标语音数据。其中，能量阈值范围可以基于一般人的说话习惯来确认，当某一帧的能量过低，可能为噪音；当某一帧的能量较高，可能为背景音，故可以基于适当的能量阈值范围识别出说话的人声即目标语音数据。

(3)对目标语音数据进行识别，得到关键文本信息。

具体的，可以提取目标语音数据的音频特征，然后基于语音识别网络对该MFCC特征进行识别，得到关键文本信息。其中，目标语音数据的音频特征可以是LPC(LinearPredictive Coding，线性预测系数)、MFCC(MeI-FreguencyCeptraI Coefficients，梅尔倒谱系数)或CEP(Cepstrum，倒谱系数)等声学特征。

具体的，以MFCC特征提取为例，特征提取的基本流程如下：将VAD预处理后的音频数据通过一个高通滤波器进行预加重；接着对预加重后的音频按照20ms的时间长度来分帧，并对每一帧信号加窗以减少音频信号的频谱泄漏；然后对音频信号进行离散傅里叶变化得到频域信号，并通过梅尔刻度滤波器组过滤得到梅尔频谱，最后对梅尔频谱进行倒谱分析得到MFCC系数。

具体的，语音识别网络可以包括声学模型和语言模型，声学模型可以计算每一帧音频特征由预设训练集中每一音素产生的概率，进而确定得到概率最大的音素序列；语言模型接着计算音素序列组成每一完整的文本的概率，并确定关键文本信息，使得音素序列转化为该确定的关键文本信息的概率最大。声学模型可以是GMM(Gaussian MixtureModel，高斯混合模型)或HMM(Hidden Markov model，隐马尔可夫模型)等。语言模型可以是基于统计的N-Gram(N元语言模型)，也可以是神经网络语言模型或者基于Transformer架构的模型。

本申请实施例中，基于对目标语音数据的识别来确定关键文本信息，使得关键文本信息进一步有效表征视频数据的关键内容，提升了视频识别的准确率。

本申请实施例中提供了又一种可能的实现方式，当视频数据的拼接识别结果包括视频数据的文本分类结果和视频数据的文本检索结果，步骤S203中基于视频数据的拼接识别结果，确定视频数据属于目标类型视频的目标概率，包括：

(1)基于文本分类结果确定视频数据属于目标类型视频的第一概率。

其中，文本分类结果中包括该视频数据属于目标类型视频和非目标类型视频的概率，从中可以提取该视频数据属于目标类型视频的第一概率。

(2)基于预设视频库构建文本检索索引。

其中，预设视频库包含初始视频集合，视频库可以是新媒体平台现有的数据库，也可以是通过网络下载服务器上存储的视频所构建的数据库。

具体的，可以基于视频库中的文本内容构建第一切片数据库，进而根据第一切片数据库构建文本检索索引，其中，文本检索索引可以为倒排索引。

倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引。下面以倒排索引为例，具体说明第一切片数据库和倒排索引的构建过程：

按照时长T1(例如10s)对视频库中的每一初始视频进行切片，得到视频切片集合；然后通过OCR识别出每一视频切片的字幕文本信息，通过ASR(Automatic SpeechRecognition，自动语音识别技术)识别出每一视频切片的语音文本信息，基于字幕文本信息和语音文本信息中的至少一种信息确定针对对应视频切片的切片文本；进而基于视频切片的标识、视频切片所对应的初始视频的标识、视频切片的起始时间和切片文本来构建第一切片数据库。

如图7-1所示，得到第一切片数据库后，可以将第一切片数据库中的切片文本作为倒排索引中的文本索引值，将视频切片的标识、视频切片所对应的初始视频的标识和视频切片的起始时间作为倒排索引中的地址信息，以此来构建倒排索引。

其中，在得到字幕文本信息或语音文本信息之后，可以对上述两类文本信息进行分词和去除停用词的操作，从而获取文本索引值。例如，当获取得到的字幕文本信息或语音文本信息为“万里长城是中国古代劳动人民血汗的结晶和中国古代文化的象征”，分词后得到的文本信息是“万里长城/是/中国/古代/劳动/人民/血汗/的/结晶/和/中国/古代/文化/的/象征”，对该文本信息再进行去除停用词的操作，得到“万里长城，中国，古代，劳动，人民，血汗，结晶，中国，古代，文化，象征”这一字符串作为倒排索引中的文本索引值。

(3)根据文本检索索引确定文本检索结果。

具体的，可以提取视频数据中的文本信息，进而基于文本检索索引对文本信息进行检索，确定文本检索结果。

其中，可以先对视频数据进行切片处理，然后基于视频数据的切片信息得到文本信息，具体的文本信息的提取过程将在下文详细说明。

在一些实施方案中，以文本检索索引为倒排索引为例，倒排索引中每个文本索引值对应至少一个具有该文本索引值的地址信息，进而实现了基于文本索引值查找该视频切片的标识、所对应的初始视频标识和视频切片的起始时间等文本索引值对应的地址信息的目的。

本申请实施例中提供了又一种可能的实现方式，上述根据文本检索索引确定文本检索结果，可以包括：

a、对视频数据进行切片，得到第一切片视频数据集合。

具体的，可以基于至少一个时间粒度来对视频数据进行切片，该至少一个时间粒度均小于等于上述第一切片数据库中的视频切片的时长T1。例如，当第一切片数据库中的切片时长T1为10s，那么可以基于10s、8s和5s三种时间粒度来对上述视频数据进行切片，当视频数据的总时长为1min时，可以切分为六个10s的切片数据，也可以切分为一个10s、五个8s和2个5s的切片数据。

b、对每一第一切片视频数据进行识别，得到每一第一切片视频数据所对应的切片文本。

具体的，可以基于OCR识别出每一第一切片视频数据的字幕中的第一文本信息，通过ASR识别出每一第一切片视频数据的语音内容的第二文本信息，可以基于第一文本信息和第二文本信息中的至少一种进行分词和去除停用词的操作，得到每一第一切片视频数据所对应的切片文本。

c、通过切片文本匹配文本检索索引中的文本索引值，确定文本检索结果。

具体的，以文本检索索引为倒排索引为例，可以采用Elasticsearch(一个基于Lucene的搜索服务器，其中Lucene是一个开放源代码的全文检索引擎工具包)通过切片文本对倒排索引中的文本索引值进行检索，并基于该切片文本与文本索引值的相似度来查询得到第一切片视频数据是否由第一切片数据库中的多个视频切片拼接而成，从而确定文本检索结果。

本申请实施例中提供了又一种可能的实现方式，上述通过切片文本匹配文本检索索引中的文本索引值，确定文本检索结果，具体可以包括：

c1，基于文本检索索引，确定切片文本与每一文本索引值的第一相似度，并将第一相似度的最大值所对应的文本索引值作为切片文本的候选文本索引值；

c2，获取每一切片文本与所对应的候选文本索引值的第一相似度，作为候选相似度；

c3，将候选相似度和候选文本索引值，作为文本检索结果。

在本申请实施例中，如图7-2所示，可以计算切片文本与倒排索引中的每一文本索引值的第一相似度，确定第一相似度最高的文本索引值所对应的文本索引值，作为该切片文本所对应的第一切片视频数据的候选文本索引值；然后，确定每一切片文本与所对应的第一切片视频数据的候选文本索引值的第一相似度作为第一候选相似度，最终得到文本检索结果。

(4)基于文本检索结果，生成视频数据为目标类型视频的第二概率。

具体的，以文本检索索引为倒排索引为例，可以通过计算视频数据与倒排索引中文本索引值的匹配程度，确定视频数据为目标类型数据的第二概率。

本申请实施例中提供了又一种可能的实现方式，以文本检索索引为倒排索引为例，可以通过Elasticsearch来构建倒排索引并进行检索，进而确定第二概率。上述基于文本检索结果，生成视频数据为目标类型视频的第二概率，包括：

当候选文本索引值所对应的地址信息包括至少两个不相邻的视频片段，则获取第一切片视频数据集合中所有候选文本索引值所对应的第一候选相似度的乘积；将乘积设为第二概率。

其中，视频片段可以来源于同一个初始视频也可以来源于不同的初始视频。

具体的，在得到包括第一候选相似度和候选文本索引值的文本检索结果之后，先获取候选文本索引值所对应的倒排索引中的地址信息即视频切片的标识、所对应的初始视频标识、视频切片的起始时间；进而基于初始视频标识、视频切片的起始时间来判断视频切片即视频片段是否相邻：

当至少两个视频切片来源于不同的初始视频时，则该视频切片并不相邻；当至少两个视频切片来源于同一个初始视频，但视频切片的起始时间不相连时，则该视频切片也不相邻。

当判断视频片段不相邻时，则表示该视频数据为目标类型视频即混剪类视频，从而可以根据第一候选相似度计算视频数据为目标类型视频的第二概率。

(5)基于第一概率和第二概率确定目标概率。

在一些实施方式中，可以分别确定第一概率和第二概率所对应的权重，然后将第一概率和第二概率加权求和，得到目标概率。

在另一些实施方式中，还可以预先确定第一概率、第二概率和目标概率的函数关系，然后基于该函数关系计算得到目标概率。

本申请实施例中，通过基于关键文本信息的文本分类结果和基于文本检索索引的文本检索结果相结合的方式，确定视频数据属于目标类型视频的概率，进一步提升了视频识别的准确率，提升了用户体验。

本申请实施例中提供了又一种可能的实现方式，上述基于第一概率和第二概率确定目标概率，包括：

(1)基于视频库构建向量检索索引。

具体的，可以从视频库中抽取至少一张视频帧图像，然后基于视频帧图像的图像特征构建第二切片数据库，进而根据第二切片数据库构向量检索排索引。

具体的，构建第二切片数据库的过程包括：

按照时间片段T2对视频库中的每一初始视频进行切片，得到视频切片集合；然后从每一视频切片中随机抽取K张视频帧图像，然后通过图像特征提取器对每一视频帧图像进行特征提取，进而得到每一视频帧图像的特征；最后，将每一视频切片中的K张视频帧图像所对应的K个帧特征拼接成切片向量，从而基于该视频切片的标识、视频切片所对应的初始视频的标识、视频切片在初始视频中的起始时间和切片向量来构建第二切片数据库。在实际应用中，每一视频切片的时长T2可以为10s，可以从每一视频切片中抽取32张视频帧图像，每一张视频帧图像的特征表示可以为一256维浮点数。

其中，图像特征提取器可以为卷积神经网络(Convolutional Neural Network，CNN)，基础的CNN由卷积层(convolution)，激活层(activation)，and池化层(pooling)三种结构组成。视频帧图像输入CNN后先经过二维卷积和非线性激活函数进行特征映射得到初始的特征图，然后经过池化层进行降采样操作以降低特征图的特征空间，输出每幅视频帧图像的特定特征空间即切片向量。目前主流的卷积神经网络，比如VGG(Visual GeometryGroup Network，视觉几何组网络)、ResNet(Deep Residual Network，深度残差网络)都是由基础的CNN调整、组合而来。

向量检索索引可以为近似最近邻检索(Approximate Nearest Neighbor，ANN)，近似最近邻检索利用了数据量增大后数据之间会形成簇状聚集分布的特性，通过对数据分析聚类的方法对数据库中的数据进行分类或编码，对于目标数据根据其数据特征预测其所属的数据类别，返回类别中的部分或全部作为检索结果。近似最近邻检索的核心思想是搜索可能是近邻的数据项而不再只局限于返回最可能的项目，在牺牲可接受范围内的精度的情况下提高检索效率。

ANN索引库存放的是查询向量和与查询向量对应的检索结果的数据标识，可以将语义向量输入至近似最近邻检索索引库，检索出与语义向量的空间距离最近的预设个查询向量及其对应的检索结果的数据标识。

在本申请实施例中，可以通过Faiss(一种为稠密向量提供高效相似度搜索和聚类的框架)或其他向量检索工具构建ANN索引库；如图8-1所示，可以将第二切片数据库中的切片向量作为查询向量，该查询向量对应的检索结果包括该切片向量对应的视频切片的标识、视频切片所对应的初始视频的标识、视频切片在初始视频中的起始时间。

(2)对视频数据进行切片，得到第二切片视频数据集合，并提取每一第二切片视频数据的切片图像特征。

具体的，可以基于至少一个时间粒度来对视频数据进行切片，该至少一个时间粒度均小于等于上述第二切片数据库中的视频切片的时长T2。例如，当第二切片数据库中的切片时长为10s，那么可以基于10s、8s和5s三种时间粒度来对上述视频数据进行切片，当视频数据的总时长为1min时，可以切分为六个10s的切片数据，也可以切分为一个10s、五个8s和2个5s的切片数据。

在本申请中实施例中，可以从每一第二切片视频数据中采样抽取至少一张切片帧图像，然后通过卷积神经网络对每一切片帧图像进行特征提取，得到该第二切片视频数据所对应的切片图像特征。

(3)基于向量检索索引对每一切片图像特征进行向量检索，得到每一切片图像特征与向量检索索引中的查询向量的第二相似度。

具体的，以向量检索索引为ANN索引为例，可以采用Faiss基于上述切片图像特征对ANN索引库中的查询向量进行检索，并确定该切片图像特征与每一查询向量的第二相似度。

在得到第二相似度之后，基于第二相似度确定向量检索结果。在本申请实施例中，如图8-2所示，通过对切片图像特征的ANN检索，实现基于切片图像特征，从ANN索引库中检索出与该切片图像特征第二相似度最高的查询向量，将该查询向量作为该切片图像特征对应的第二切片视频数据的候选查询向量；并确定每一候选向量与所对应的第二切片视频数据的切片图像特征的第二候选相似度。基于候选查询向量和第二候选相似度生成向量检索结果。

(4)基于第二相似度确定视频数据为目标类型视频的第三概率。

具体的，可以基于第二相似度确定向量检索结果，并基于向量检索结果确定第三概率。

本申请实施例中，以向量检索索引为ANN索引为例，当候选查询向量所对应的检索结果包括至少两个不相邻的视频片段，则获取第二切片视频数据集合中所有候选查询向量所对应的第二候选相似度的乘积；将乘积设为第三概率。

具体的，在得到包括第二候选相似度和候选查询向量的向量检索结果之后，先获取候选查询向量所对应的ANN索引中的检索结果信息即视频切片的标识、所对应的初始视频标识、视频切片的起始时间；进而基于初始视频标识、视频切片的起始时间来判断视频切片即视频片段是否相邻：

当判断视频片段不相邻时，则表示该视频数据为目标类型视频即混剪类视频，从而可以根据第二候选相似度计算视频数据为目标类型视频的第二概率。

(5)基于第一概率、第二概率和第三概率确定目标概率。

具体的，可以将第一概率、第二概率和第三概率进行加权处理，确定该视频数据为目标类型数据的目标概率，基于该目标概率确定视频数据为目标类型视频或者非目标类型视频。

具体的，可以先确定第一概率的第一权重，确定第二概率的第二权重，确定第三概率的第三权重；进而基于第一权重、第二权重和第三权重，确定第一概率、第二概率和第三概率的加权和，得到视频数据为目标类型视频的目标概率；当概率大于预设阈值，确定视频数据的类型为目标类型。

其中，可以从终端或服务器中获取预设的第一权重、第二权重和第三权重，也可以根据实际工程的应用基于数据统计计算生成第一权重、第二权重和第三权重。

本申请实施例中，通过基于视频数据中的关键文本信息分类得到的第一概率、基于文本检索结果得到的第二概率和基于向量检索结果得到的第三概率相结合的方式确定视频数据的类型，从多个维度对视频数据进行分析和判断，进一步提升了目标类型视频的识别精度。

本申请提供的视频识别方法，结合了不同的识别策略，通过视频数据中的文本分类结果、视频数据的文本检索结果和图像特征检索结果三个维度的结合，能够有效提升视频识别的效率和准确率。同时，在确定第一概率、第二概率和第三概率之后，只需要简单的加权计算即可得到最终的识别结果，对***的内存占用小，进一步保证了视频数据识别的高效性。

为了更好的理解上述视频识别方法，如图9所示，以下详细阐释一个本申请的视频识别方法的示例：

S901，获取待识别的视频数据；

S902，提取视频数据中的关键文本信息；关键文本信息包括视频数据的关键字、视频数据预设时间范围内的图像内容以及视频数据预设时间范围内的语音内容中的至少一种；

S903，对关键文本信息进行分类，得到文本分类结果；

S904，基于文本分类结果确定视频数据属于目标类型视频的第一概率；其中，目标类型视频为由至少两个不相邻的视频片段拼接而成的视频；

S905，基于预设视频库构建文本检索索引，根据文本检索索引确定文本检索结果；

S906，基于文本检索结果，生成视频数据为目标类型视频的第二概率；

S907，基于视频库构建向量检索索引，基于向量检索索引确定视频数据为目标类型视频的第三概率；

S908，基于第一概率、第二概率和第三概率确定视频数据属于目标类型视频的目标概率；

S909，基于目标概率确定视频数据的类型。

本申请实施例提供了一种视频识别装置，如图10所示，该视频识别装置100可以包括：获取模块1001、识别模块1002、第一确定模块1003以及第二确定模块1004，其中，

获取模块1001，用于获取待识别的视频数据；

识别模块1002，用于对视频数据进行拼接特征识别，获取视频数据的拼接识别结果；视频数据的拼接识别结果包括视频数据的文本分类结果、视频数据的文本检索结果以及视频数据的图像特征检索结果中的至少一项；

第一确定模块1003，用于基于视频数据的拼接识别结果，确定视频数据属于目标类型视频的目标概率；其中，目标类型视频为由至少两个不相邻的视频片段拼接而成的视频；

第二确定模块1004，用于基于目标概率确定视频数据的类型。

本申请实施例中提供了一种可能的实现方式，上述视频数据的拼接识别结果包括视频数据的文本分类结果，上述识别模块1002具体可以用于：

对关键文本信息进行分类，得到文本分类结果。

本申请实施例中提供了一种可能的实现方式，上述视频数据的拼接识别结果包括视频数据的文本分类结果和视频数据的文本检索结果，上述第一确定模块1003具体可以包括：

构建单元，用于基于预设视频库构建文本检索索引；

检索单元，用于根据文本检索索引确定文本检索结果；

本申请实施例中提供了又一种可能的实现方式，上述检索单元，具体可以用于：

对视频数据进行切片，得到第一切片视频数据集合；

本申请实施例中提供了又一种可能的实现方式，上述检索单元，还可以用于：

将候选相似度和候选文本索引值，作为文本检索结果。

本申请实施例中提供了另一种可能的实现方式，上述生成单元，具体可以用于：

将乘积设为第二概率。

本申请实施例中提供了另一种可能的实现方式，上述第二确定单元，具体用于：

基于视频库构建向量检索索引；

基于第二相似度确定视频数据为目标类型视频的第三概率；

基于第一概率、第二概率和第三概率确定目标概率。

本申请实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：本申请实施例通过对待识别视频数据进行拼接特征识别，并基于识别得到的拼接识别结果来确定视频数据属于目标类型视频的目标概率，进而确定视频数据的类型，所确定的视频数据的类型可以包括目标类型或非目标类型；相比于现有技术中对视频数据进行人工识别的方式，有效提升了视频识别的效率和准确性。由于视频数据的拼接识别结果包括视频数据的文本分类结果、视频数据的文本检索结果以及视频数据的图像特征检索结果中的至少一种，故拼接识别结果可以从不同维度有效表征视频数据的类别信息，进一步提高了对目标类型视频识别的准确性，达到了对目标类型视频的快速查找和识别的目的，能够为视频数据推荐提供基础，满足了用户对目标类型视频的观看需求，提升了用户体验。

在一个可选实施例中提供了一种电子设备，如图11所示，图11所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscReadOnly Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码(计算机程序)，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图11示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行时实现如下情况：

获取待识别的视频数据；对视频数据进行拼接特征识别，获取视频数据的拼接识别结果；视频数据的拼接识别结果包括视频数据的文本分类结果、视频数据的文本检索结果以及视频数据的图像特征检索结果中的至少一项；基于视频数据的拼接识别结果，确定视频数据属于目标类型视频的目标概率；其中，目标类型视频为由至少两个不相邻的视频片段拼接而成的视频；基于目标概率确定视频数据的类型。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频识别方法，其特征在于，包括：

获取待识别的视频数据；

对所述视频数据进行拼接特征识别，获取所述视频数据的拼接识别结果；所述视频数据的拼接识别结果包括所述视频数据的文本分类结果和所述视频数据的文本检索结果；

基于所述文本分类结果确定所述视频数据属于目标类型视频的第一概率；对视频库中的每一初始视频进行切片，得到视频切片；基于视频库中的文本内容生成针对对应视频切片的切片文本；基于所述视频切片和对应视频切片的切片文本构建文本检索索引；根据所述文本检索索引确定所述文本检索结果；基于所述文本检索结果，生成所述视频数据为目标类型视频的第二概率；基于所述第一概率和所述第二概率确定所述视频数据属于目标类型视频的目标概率；其中，所述目标类型视频为由至少两个不相邻的视频片段拼接而成的视频；

基于所述目标概率确定所述视频数据的类型；

其中，根据所述文本检索索引确定所述文本检索结果，包括：

对所述视频数据进行切片，得到第一切片视频数据集合；

对每一所述第一切片视频数据进行识别，得到每一所述第一切片视频数据所对应的切片文本；

通过每一所述第一切片视频数据所对应的切片文本匹配所述文本检索索引中的文本索引值，确定所述文本检索结果。

2.根据权利要求1所述的视频识别方法，其特征在于，所述文本分类结果是基于如下方式确定的：

提取所述视频数据中的关键文本信息；所述关键文本信息包括所述视频数据的关键字、所述视频数据预设时间范围内的图像内容以及所述视频数据预设时间范围内的语音内容中的至少一种；

对所述关键文本信息进行分类，得到所述文本分类结果。

3.根据权利要求1所述的视频识别方法，其特征在于，所述通过所述切片文本匹配所述文本检索索引中的文本索引值，确定所述文本检索结果，包括：

基于所述文本检索索引，确定所述切片文本与每一所述文本索引值的第一相似度，并将第一相似度的最大值所对应的文本索引值作为所述切片文本的候选文本索引值；

获取每一所述切片文本与所对应的所述候选文本索引值的第一相似度，作为候选相似度；

将所述候选相似度和候选文本索引值，作为所述文本检索结果。

4.根据权利要求3所述的视频识别方法，其特征在于，所述基于所述文本检索结果，生成所述视频数据为目标类型视频的第二概率，包括：

当所述候选文本索引值所对应的地址信息包括至少两个不相邻的视频片段，则获取所述第一切片视频数据集合中所有所述候选文本索引值所对应的所述候选相似度的乘积；

将所述乘积设为所述第二概率。

5.根据权利要求1所述的视频识别方法，其特征在于，所述基于所述第一概率和所述第二概率确定所述目标概率，包括：

基于所述视频库构建向量检索索引；

对所述视频数据进行切片，得到第二切片视频数据集合，并提取每一所述第二切片视频数据的切片图像特征；

基于所述向量检索索引对每一所述切片图像特征进行向量检索，得到所述每一所述切片图像特征与所述向量检索索引中的查询向量的第二相似度；

基于所述第二相似度确定所述视频数据为目标类型视频的第三概率；

基于所述第一概率、所述第二概率和所述第三概率确定所述目标概率。

6.一种视频识别装置，其特征在于，包括：

获取模块，用于获取待识别的视频数据；

识别模块，用于对所述视频数据进行拼接特征识别，获取所述视频数据的拼接识别结果；所述视频数据的拼接识别结果包括所述视频数据的文本分类结果和所述视频数据的文本检索结果；

第一确定模块，用于基于所述文本分类结果确定所述视频数据属于目标类型视频的第一概率；对视频库中的每一初始视频进行切片，得到视频切片；基于视频库中的文本内容生成针对对应视频切片的切片文本；基于所述视频切片和对应视频切片的切片文本构建文本检索索引；根据所述文本检索索引确定所述文本检索结果；基于所述文本检索结果，生成所述视频数据为目标类型视频的第二概率；基于所述第一概率和所述第二概率确定所述视频数据属于目标类型视频的目标概率；其中，所述目标类型视频为由至少两个不相邻的视频片段拼接而成的视频；

第二确定模块，用于基于所述目标概率确定所述视频数据的类型；

其中，第一确定模块在根据所述文本检索索引确定所述文本检索结果时，具体用于：

对所述视频数据进行切片，得到第一切片视频数据集合；

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-5任一项所述的视频识别方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-5任一项所述的视频识别方法。