CN113395578B

CN113395578B - 一种提取视频主题文本的方法、装置、设备及存储介质

Info

Publication number: CN113395578B
Application number: CN202011363335.1A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2023-06-30
Anticipated expiration: 2040-11-27
Also published as: CN113395578A

Abstract

本申请涉及计算机技术，涉及人工智能、计算机视觉技术和语音技术。本申请提供一种提取视频主题文本的方法、装置、设备及存储介质，用于提高提取视频主题文本的准确性。该方法包括：获取待提取视频的视频帧序列；根据每两个相邻视频帧之间的差异度，将所述视频帧序列划分为至少一个视频帧子序列；分别针对每个视频帧子序列进行视频帧文本识别，基于视频帧文本识别的结果，获取各个视频帧子序列的文本信息；对各个视频帧子序列的文本信息进行融合处理，获得所述待提取视频的主题文本。

Description

一种提取视频主题文本的方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种提取视频主题文本的方法、装置、设备及存储介质。

背景技术

随着互联网的快速发展，越来越多的用户不仅从网络中获取内容，还在网络中分享一些内容，例如自媒体、专业生产内容(professional generated content，PGC)或用户生产内容(user generated content，UGC)等。由于视频的来源越来越丰富，播放平台的视频上传量也飞速增长，包括长视频和短视频。因此，播放平台中需要处理的视频量也越来越多，例如播放平台需要提取视频的主题文本之后，才可以进一步审核视频，并根据用户的喜好向用户推荐的视频等。

目前，各个播放平台中，提取视频主题文本的方法包括两种，一种是通过人工观看视频，并提取视频的关键信息作为视频的标签或对视频进行分类等。然而，随着视频量的飞速增长，这种人工观看视频的方法需要较高的人工成本，且人工处理的过程中，难免出现对视频的理解不同或没有认真观看视频，而造成的提取关键信息错误的情况，从而导致视频的标签错误或视频的分类错误等。另一种是播放平台根据用户上传视频时提供的视频标题、视频分类或视频关键词等，获得视频的主题文本。然而，这种方式完全依赖于用户，例如，如果用户未提供视频标题、视频分类或视频关键词等，或者，用户提供的视频标题、视频分类或视频关键词等不准确，那么播放平台无法获得视频准确的主题文本。可见，目前提取视频主题文本的准确性较低。

发明内容

本申请实施例提供一种提取视频主题文本的方法、装置、设备及存储介质，用于提高提取视频主题文本的准确性。

第一方面，提供一种提取视频主题文本的方法，包括：

获取待提取视频的视频帧序列；

根据每两个相邻视频帧之间的差异度，将所述视频帧序列划分为至少一个视频帧子序列；其中，每个视频帧子序列中的相邻视频帧之间的差异度在设定第一阈值内，所述差异度与相邻视频帧之间的差异像素点的数量成正比，所述差异像素点包括相邻视频帧之间的对应位置上满足预设像素差异条件的像素点；

分别针对每个视频帧子序列进行视频帧文本识别，基于视频帧文本识别的结果，获取各个视频帧子序列的文本信息；

对各个视频帧子序列的文本信息进行融合处理，获得所述待提取视频的主题文本。

第二方面，提供一种提取视频主题文本的装置，包括：

获取模块：用于获取待提取视频的视频帧序列；

分割模块：用于根据每两个相邻视频帧之间的差异度，将所述视频帧序列划分为至少一个视频帧子序列；其中，每个视频帧子序列中的相邻视频帧之间的差异度在设定第一阈值内，所述差异度与相邻视频帧之间的差异像素点的数量成正比，所述差异像素点包括相邻视频帧之间的对应位置上满足预设像素差异条件的像素点；

处理模块：用于分别针对每个视频帧子序列进行视频帧文本识别，基于视频帧文本识别的结果，获取各个视频帧子序列的文本信息；以及，对各个视频帧子序列的文本信息进行融合处理，获得所述待提取视频的主题文本。

可选的，预设像素差异条件包括：

相邻视频帧之间的对应位置的两个像素点的像素值差值的绝对值与像素值之和的比值大于第二阈值。

可选的，所述差异度为相邻视频帧之间的差异像素点的数量与视频帧的像素点总数量的比值。

可选的，所述处理模块还用于：在获取各个视频帧子序列的文本信息之前，分别针对每个视频帧子序列对应的音频文件进行音频识别，获得音频识别的结果；以及，

所述处理模块具体用于：将所述音频识别的结果和所述视频帧文本识别的结果进行合并处理，获取各个视频帧子序列的文本信息。

可选的，所述处理模块具体用于：

确定每个视频帧子序列分别对应的音频识别的结果，与文本识别的结果之间的相似度；

在视频帧子序列对应的音频识别的结果和文本识别的结果之间的相似度大于预设相似度时，合并音频识别的结果和文本识别的结果，获得视频帧子序列的文本信息。

可选的，针对每个视频帧子序列，所述处理模块具体用于：

对视频帧子序列中的各个视频帧进行采样，获得至少一个目标视频帧；

对每个目标视频帧进行视频帧文本识别，获得每个目标视频帧对应的子文本；

根据预设过滤条件，针对各个子文本进行过滤处理；

基于过滤处理后的各个子文本，获得视频帧文本识别的结果；

基于视频帧文本识别的结果，获取各个视频帧子序列的文本信息。

可选的，所述处理模块具体用于，包括如下一种或任意组合：

过滤各个子文本中的预设关键词，所述预设关键词包括与视频主题无关的关键词；

以各个子文本之间的相似度，去重相似子文本；

以子文本关联的各个目标视频帧的时长，过滤低频子文本。

可选的，针对两个子文本，所述处理模块具体用于：

将第一子文本和第二子文本分别转换为第一字符串和第二字符串；

对所述第一字符串进行增加字符、替换字符或删除字符操作，以使所述第一字符串转换为所述第二字符串；

根据将所述第一字符串转换为所述第二字符串所需要的最少操作次数，确定所述第一子文本和所述第二子文本之间的相似度，其中，操作次数与相似度成反比；

若所述第一子文本和所述第二子文本之间的相似度大于相似度阈值，则过滤所述第一子文本或所述第二子文本。

可选的，所述处理模块具体用于：

将每个视频帧子序列的文本信息输入已训练的文本概率模型，获得每个视频帧子序列的摘要信息；其中，所述摘要信息用于以预设文本量表征文本信息的语义；所述已训练的文本概率模型是基于各个视频帧子序列的文本信息训练得到的；

将每个视频帧子序列的摘要信息输入已训练的主题概率模型，获得所述待提取视频的主题文本；所述已训练的主题概率模型是基于各个视频帧子序列的摘要信息训练得到的。

第三方面，一种计算机设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如第一方面所述的方法。

第四方面，一种存储介质，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的方法。

本申请实施例中，将视频帧序列划分为至少一个视频帧子序列，例如，可以根据视频的拍摄场景将视频划分为多个片段，从而有针对性地获取每个视频帧子序列的文本信息，例如，针对同一拍摄场景中的视频帧进行文本识别，可以更加准确地获得该拍摄场景下文本的语义信息，提高了文本信息的准确性。且，仅根据两个视频帧之间的差异像素点的数量，确定的两个视频帧之间的差异度，不需要再分析两个视频帧之间的差异图像，简化了确定两个视频帧之间的差异度的过程，提高了分割视频帧序列的效率。最后将所有视频帧子序列的文本信息进行融合，获得视频的主题文本。充分利用视频中包含的语义信息来提取视频的主题文本，丰富了提取主题文本的来源，避免了发布视频的用户所提供的视频标题或视频分类过于有限，而造成的提取视频的主题文本不准确的问题。

附图说明

图1为本申请实施例提供的提取视频主题文本的方法的一种原理示意图一；

图2a为本申请实施例提供的提取视频主题文本的方法的一种应用场景一；

图2b为本申请实施例提供的提取视频主题文本的方法的一种应用场景二；

图3为本申请实施例提供的提取视频主题文本的方法的一种流程示意图；

图4为本申请实施例提供的提取视频主题文本的方法的一种原理示意图二；

图5为本申请实施例提供的提取视频主题文本的方法的一种原理示意图三；

图6为本申请实施例提供的提取视频主题文本的方法的一种原理示意图四；

图7为本申请实施例提供的提取视频主题文本的装置的结构示意图一；

图8为本申请实施例提供的提取视频主题文本的装置的结构示意图二。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

下面对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)长短期记忆网络(Long Short-Term Memory，LSTM)：

LSTM是一种时间循环神经网络(Recurrent Neural Network，RNN)，是为了解决RNN中存在的长期依赖问题而专门设计出来的，LSTM应用于处理和预测时间序列中间隔和延迟非常长的重要事件。

(2)RNN：

循环神经网络是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)，且所有节点(循环单元)按链式连接的递归神经网络(recursive neuralnetwork)。

本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术，基于人工智能中的计算机视觉技术(Computer Vision,CV)、语音技术(Speech Technology)、自然语言处理(natural language processing，NLP)技术和机器学习(Machine Learning,ML)而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

自然语言处理技术，是计算机科学领域与人工智能领域中的一个重要方向。其研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

文本处理是自然语言处理技术中的主要过程，可以广泛应用于多种应用场景。识别文本中的排比句是文本处理的一个重要部分。例如，在作文批改过程中，如果可以识别出作文中的排比句，有利于在文采维度对作文做出更准确的评价。

随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能推荐***、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。

下面对本申请实施例提供的技术方案的应用领域进行简单介绍。

随着互联网技术的快速发展，越来越多的用户可以在互联网中获取内容，或在互联网中分享内容，例如，用户可以在视频播放平台上观看视频或发布视频等。当发布视频的用户在视频播放平台上上传视频之后，视频播放平台首先需要对视频进行转码，以规范视频文件，并保存视频的元信息，提高视频的兼容性。视频播放平台在对视频进行转码之后，需要对视频内容进行审核，以确保视频内容的合法性，还需要对视频内容进行分类，以确保可以根据观看视频的用户的喜好向观看视频的用户推荐相关的视频，或便于管理视频等。在视频播放平台完成对视频的审核之后，才可以完成视频在播放平台的发布。

对视频的审核，往往可以转化为对视频主题文本的审核，那么就需要准确地提取出视频的主题文本。提取视频主题文本的方法一般包括两种，一种提取视频主题文本的方法是通过人工观看视频的方式提取视频主题文本。人工审核的方式需要审核人员完整观看视频，并对视频内容做出正确的理解。然而，随着视频上传量的增加，视频播放平台每天的视频上传量可以达到数百万，人工审核的方式不仅效率较低，且人工成本较高。另外，上传到视频播放平台上的视频，视频内容丰富多样，审核人员对视频内容的理解能力无法保证，且，审核人员是否认真观看视频也无法保证，人工审核的方式对审核人员的业务素质要求较高。

另一种提取视频主题文本的方法是通过机器提取视频主题文本。视频播放平台在接收到发布视频的用户上传的视频之后，获取发布视频的用户设置的视频标题，以及发布视频的用户选择的视频分类等。视频播放平台对视频标题进行语义识别，基于发布视频的用户设置的视频标题，以及发布视频的用所选择的视频分类提取视频主题文本。然而，发布视频的用户所设置的视频标题往往是用于吸引观看视频的用户点击视频进行观看，并不能准确的表达视频内容，例如，为非法视频设置合法的视频标题时，无法准确地提取视频主题文本。发布视频的用户选择的视频分类也存在同样的问题。这种提取视频主题文本的方法的准确性完全依赖于发布视频的用户。可见，相关技术中的提取视频主题文本的方法准确性较低。

为了解决相关技术中提取视频主题文本的准确性较低等问题，本申请提供一种提取视频主题文本的方法。该方法根据视频帧序列中相邻视频帧之间的差异度，对视频帧序列进行划分，获得至少一个视频帧子序列，从而可以根据视频中的不同拍摄场景、不同拍摄目标或不同环境因素等依据，将视频划分为多个片段，有针对性地对每个视频片段进行文本信息的提取。拍摄场景例如包括卧室、客厅、室内、室外、球场或商场等。拍摄目标例如包括用户A、用户B、动物、植物或静物等。环境因素例如包括环境亮度或天气等。最后将所有视频帧子序列的文本信息进行融合，获得视频的主题文本。充分利用视频中包含的语义信息来提取视频的主题文本，避免了发布视频的用户所提供的视频标题或视频分类过于有限，而造成的提取视频的主题文本不准确的问题。

请参考图1，为一种提取视频主题文本的方法的原理示意图。获取待提取视频的视频帧序列，根据视频帧视频中每两个相邻视频帧之间的差异度，将视频帧序列划分为至少一个视频帧子序列。分别对每个视频帧子序列进行视频帧文本识别，获得各个视频帧子序列的文本信息。对各个视频帧子序列的文本信息进行融合处理，获得待提取视频的主题文本。

本申请实施例中，将视频帧序列划分为至少一个视频帧子序列，例如，可以根据视频的拍摄场景将视频划分为多个片段，从而有针对性地获取每个视频帧子序列的文本信息，例如，针对同一拍摄场景中的视频帧进行文本识别，可以更加准确地获得该拍摄场景下文本的语义信息，提高了文本信息的准确性。最后将所有视频帧子序列的文本信息进行融合，获得视频的主题文本。充分利用视频中包含的语义信息来提取视频的主题文本，避免了发布视频的用户所提供的视频标题或视频分类过于有限，而造成的提取视频的主题文本不准确的问题。

下面对本申请提供的提取视频主题文本的方法的应用场景进行说明。

请参考图2a，为提取视频主题文本的方法的一种应用场景。该应用场景中包括视频提供设备101、主题文本提取设备102和视频处理设备103。视频提供设备101和主题文本提取设备102之间可以通信，主题文本提取设备102和视频处理设备103之间可以通信。通信方式可以是有线通信，例如通过连接网线或串口线进行通信；也可以是无线通信，例如蓝牙等通信方式，具体不做限制。

视频提供设备101泛指可以向主题文本提取设备102发送视频的设备，例如，终端设备、服务器或客户端等。终端设备可以是手机、台式计算机或平板电脑等。服务器可以主题文本提取设备102的本地服务器，或主题文本提取设备102关联的第三方服务器，或云服务器等。客户端可以是安装在主题文本提取设备102中的第三方应用程序或主题文本提取设备102可以访问的网页等。

主题文本提取设备102泛指可以提取视频的主题文本的设备，例如，终端设备、服务器或客户端等。视频处理设备103泛指可以对视频进行处理的设备，例如对视频进行分类，向用户推荐视频等。视频处理设备103可以是终端设备、服务器或客户端等。

作为一种实施例，视频提供设备101和主题文本提取设备102可以是同一个设备，或者，主题文本提取设备102和视频处理设备103可以是同一个设备，或者，视频提供设备101和视频处理设备103可以是同一个设备，或者，视频提供设备101、主题文本提取设备102和视频处理设备103可以是同一个设备，具体不做限制。本申请实施例中，以视频提供设备101、主题文本提取设备102和视频处理设备103为不同的设备为例进行介绍。

下面基于图2a，对各设备之间的交互进行示例说明：

视频提供设备101可以向主题文本提取设备102发送待提取视频，主题文本提取设备102接收视频提供设备101发送的待提取视频。

主题文本提取设备102获取待提取视频的视频帧序列，根据每两个相邻视频帧之间的差异度，将视频帧序列划分为至少一个视频帧子序列。主题文本提取设备102分别针对每个视频帧子序列进行视频帧文本识别，获得各个视频帧子序列的文本信息。主题文本提取设备102对各个视频帧子序列的文本信息进行融合处理，获得待提取视频的主题文本。

主题文本提取设备102向视频处理设备103发送待提取视频，以及待提取视频的主题文本，视频处理设备103接收主题文本提取设备102发送的待提取视频，以及待提取视频的主题文本。视频处理设备103根据待提取视频的主题文本，对待提取视频进行分类，并根据各个用户的兴趣画像，向相关用户推荐待提取视频。

请参考图2b，为提取视频主题文本的方法的一种应用场景。该应用场景中包括视频产生装置201、第一存储装置202、第二存储装置203、调度装置204、主题文本提取装置205和视频处理装置206，各装置之间可以通信。

发布视频的用户可以视频产生装置201的前端界面或后端接口，上传待提取视频。与待提取视频一同上传的信息还可以包括视频标题、发布者、视频摘要、封面图、发布时间等。调度装置204将待提取视频或与待提取视频一同上传的信息，存入第一存储装置202。第一存储装置202例如是视频内容存储服务器，即关系型数据库。调度装置204将待提取视频的元信息，例如，视频文件大小、封面图链接、码率、视频文件格式、视频标题、发布者、视频摘要和发布时间等，存入第二存储装置203。第二存储装置203例如是内容数据库，即非关系性数据库。观看视频的用户在获取视频时，调度装置204可以通过根据各个视频的主题文本，确定向用户显示的视频在第一存储装置202中的索引信息，并从第一存储装置202中下载该视频的流媒体文件，并通过观看视频的用户的本地播放器播放视频。各个视频的主题文本是通过主题文本提取装置205获得的。

作为一种实施例，第二存储装置203还存储待提取视频的视频分类或视频标签。例如，关于品牌A的手机的视频，一级分类为科技，二级分类为手机，三级分类为国产手机，标签为品牌A的手机和型号。

作为一种实施例，调度装置204可以获取第一存储装置202或第二存储装置203中存储的内容，以及根据主题文本提取装置205提取的主题文本，对视频进行排重，删除重复上传的视频或存在抄袭嫌疑的视频等。

作为一种实施例，视频处理装置206可以根据视频的主题文本，依据用户的兴趣画像，向观看视频的用户推荐相关视频；或依据用户搜索的关键词，向观看视频的用户展示相关视频。

本申请实施例中，针对上述两个应用场景中的主题文本提取设备102或主题文本提取装置205，提取视频主题文本的方法进行具体介绍。

请参考图3，为提取视频主题文本的方法的一种流程示意图，下面对提取视频主题文本的方法的流程进行具体介绍。

S301，获取待提取视频的视频帧序列。

视频帧序列包括按照时间顺序排列的各个视频帧，按照时间顺序依次切换视频帧序列中的每个视频帧，形成视频。

S302，根据每两个相邻视频帧之间的差异度，将视频帧序列划分为至少一个视频帧子序列。

在获得待提取视频的视频帧序列之后，确定视频帧序列中，每两个相邻视频帧之间的差异度。两个相邻视频帧之间的差异度与两个相邻视频帧之间的差异像素点的数量成正比。两个相邻视频帧之间的差异像素点是两个相邻视频帧之间的对应位置上满足预设像素差异条件的像素点。差异像素点可以是针对两个相邻的完整的视频帧之间，对应位置上满足预设像素差异条件的像素点；或者，可以是针对两个相邻视频帧中指定区域之间，对应位置上满足预设像素差异条件的像素点等。例如，依次确定两个相邻视频帧中，每个对应位置上的像素点是否满足预设像素差异条件，或者，当指定区域为人脸区域时，依次确定两个相邻视频帧的人脸区域中，每个对应位置上的像素点是否满足预设像素差异条件等。

下面对将视频帧序列划分为至少一个视频帧子序列的过程进行具体介绍。

S1.1，确定两个相邻视频帧之间的差异像素点。

预设像素差异条件包括多种，下面以其中的两种为例进行介绍。

预设像素差异条件一：

相邻视频帧之间的对应位置上两个像素点的像素值差值的绝对值大于第三阈值。

如果相邻视频帧之间的对应位置上两个像素点的像素值差值较大，那么表示相邻视频帧之间的对应位置上两个像素点的像素值变化较大，当差值的绝对值大于第三阈值时，确定该对应位置上的两个像素点为差异像素点。

根据如下公式(1)，确定相邻视频帧之间的差异像素点。

|T_m(i，j)-T_n(i，j)|>ε₁ (1)

其中，i表示视频帧中像素点所在行数，j表示视频帧中像素点所在列数。m，n表示两个相邻的视频帧，T_m(i，j)表示第m帧(i，j)位置像素点的像素值，T_n(i，j)表示第n帧(i，j)位置像素点的像素值。i为大于0，且小于视频帧中像素点的总行数的整数，j为大于0，且小于视频帧中像素点的总列数的整数。ε₁表示第三阈值。

预设像素差异条件二：

相邻视频帧之间的对应位置上两个像素点的像素值差值的绝对值，与像素值之和的比值大于第二阈值。

如果相邻视频帧之间的对应位置上两个像素点的像素值差值较大，可能是由于该位置上的像素点的像素值本身较大，那么对两个像素点的像素值差值进行归一化处理，根据两个像素点的像素值差值，除以两个像素点的像素值之和，确定相邻视频帧之间的差异像素点。如果相邻视频帧之间的对应位置上两个像素点的像素值差值的绝对值，与像素值之和的比值较大，那么表示相邻视频帧之间的对应位置上两个像素点的像素值变化较大。

根据如下公式(2)，确定相邻视频帧之间的差异像素点。

其中，i表示视频帧中像素点所在行数，j表示视频帧中像素点所在列数。m，n表示两个相邻的视频帧，T_m(i，j)表示第m帧(i，j)位置像素点的像素值，T_n(i，j)表示第n帧(i，j)位置像素点的像素值。i为大于0，且小于视频帧中像素点的总行数的整数，j为大于0，且小于视频帧中像素点的总列数的整数。ε₂表示第二阈值。

作为一种实施例，两个像素点的像素值之和还可以替换为两个像素点的像素值之和的平均值，即

作为一种实施例，根据视频帧序列的颜色空间不同，视频帧中的像素点的像素值也不同。颜色空间例如是RGB颜色空间和YUV颜色空间等。

对于RGB颜色空间，像素点的像素值包括红绿蓝三个颜色通道，因此像素点的像素值可以是三个颜色通道的值之和，那么两个像素点的像素值差值可以是像素值的差值之和；或者，像素点的像素值可以包括每个通道的值，那么两个像素点的像素值差值可以是两个像素点的对应通道的值的差值之和等。对于YUV颜色空间，像素点的像素值包括一个明亮度和两个色度，因此像素点的像素值可以是明亮度和色度之和，或者，可以包括明亮度和色度等。

S1.2，确定两个相邻视频帧之间的差异度。

在根据预设像素差异条件，确定了两个相邻视频帧之间的差异像素点之后，根据两个相邻视频帧之间的差异像素点，确定两个相邻视频帧之间的差异度。两个相邻视频帧之间的差异度与两个相邻视频帧之间的差异像素点的数量成正比。

根据如下公式(3)，确定两个相邻视频帧之间的差异度；

d_m，n＝∑h_m，n(i，j) (3)

其中，h_m，n(i，j)表示两个视频帧之间的差异像素点，∑h_m，n(i，j)表示第m帧与第n帧之间差异像素点的数量，i为大于0，且小于视频帧中像素点的总行数的整数，j为大于0，且小于视频帧中像素点的总列数的整数。

作为一种实施例，如果两个相邻视频帧之间的差异像素点的数量较多，可能是因为视频帧中本身包括较多的像素点，因此为了提高确定两个相邻视频帧之间的差异度方法的适用性，可以根据视频帧中像素点的总数量对差异像素点的数量进行归一化处理，即根据两个相邻视频帧之间的差异像素点的数量，除以视频帧中像素点的总数量，确定两个相邻视频帧之间的差异度。从而两个相邻视频帧之间的差异度不会受到视频帧中像素点的总数量的影响，对任何大小的视频帧都适用。

根据如下公式(4)，确定两个视频帧之间的差异度；

其中，A视频帧中像素点的总行数，B视频帧中像素点的总列数。

S1.3，将视频帧序列划分为至少一个视频帧子序列。

在确定了视频帧序列中每两个视频帧之间的差异度之后，根据每两个视频帧之间的差异度，将视频帧序列划分为至少一个视频帧子序列。

根据如下公式(5)，划分视频帧序列。

d_n+1，n-d_n，n-1>ε₃ (5)

将视频帧序列的第一个视频帧作为第一个视频帧子序列的第一个视频帧，从视频帧序列的第二个视频帧开始，依次针对每个视频帧，如果确定当前视频帧与当前视频帧的前一个视频帧之间的差异度，与当前视频帧与当前视频帧的后一个视频帧之间的差异度之差大于第四阈值，则对视频帧序列进行划分，将当前视频帧作为当前视频帧子序列的最后一个视频帧，当前视频帧的后一个视频帧作为当前视频帧子序列的下一个视频帧子序列的第一个视频帧。直到确定视频帧序列的倒数第二个视频帧之后，将视频帧序列的最后一个视频帧作为最后一个视频帧子序列的最后一个视频帧，获得各个视频帧子序列。

S303，分别针对每个视频帧子序列进行视频帧文本识别，基于视频帧文本识别的结果，获取各个视频帧子序列的文本信息。

在获得各个视频帧子序列之后，可以基于人工智能领域中计算机视觉技术，分别针对每个视频帧子序列中的各个视频帧进行视频帧文本识别，基于视频帧子序列中的各个视频帧的文本识别的结果，获取各个视频帧子序列的文本信息；或者，可以分别针对每个视频帧子序列进行采样，对采样后的各个目标视频帧进行视频帧文本识别，基于采样后的各个目标视频帧的文本识别的结果，获取各个视频帧子序列的文本信息。

下面以分别针对每个视频帧子序列进行采样，对采样后的各个目标视频帧进行视频帧文本识别为例进行介绍，分别针对每个视频帧子序列中的各个视频帧进行视频帧文本识别的原理相同，不再赘述。

S2.1，对视频帧子序列中的各个视频帧进行采样。

对视频帧子序列中，体现人物运动或物体变化的视频帧，或I帧(Intra Picture)进行采样，获得至少一个目标视频帧。

作为一种实施例，至少一个目标视频帧可以按照时间顺序，组成目标视频帧序列。目标视频帧序列中每两个相邻的目标视频帧可以是视频帧子序列中的相邻的两个视频帧，或者，可以是视频帧子序列中不相邻的两个视频帧。

作为一种实施例，可以根据目标视频帧序列中每两个相邻的目标视频帧，在视频帧子序列中所间隔的视频帧的数量，确定每两个相邻的目标视频帧中按照时间顺序，排在前面的目标视频帧的时长。目标视频帧序列中每两个相邻的目标视频帧，在视频帧子序列中所间隔的视频帧，可以认为是每两个相邻的目标视频帧中按照时间顺序，排在前面的目标视频帧关联的过渡视频帧或中间视频帧等，过渡视频帧或中间视频帧可以提升由一个目标视频帧变换到另一个目标视频帧的连续性，因此可以仅对目标视频帧进行文本识别，减少需要处理的数据量，提高文本识别的效率。

S2.2，对每个目标视频帧进行视频帧文本识别，获得每个目标视频帧对应的子文本。

在获得至少一个目标视频帧之后，基于人工智能领域中的机器学习技术，对每个目标视频帧进行文本检测，确定目标视频帧中是否包括文本。如果目标视频帧中不包括文本，那么不对该目标视频帧进行文本识别，如果目标视频帧中包括文本，那么继续对该目标视频帧进行文本识别。

作为一种实施例，请参考图4，为文本检测的一种原理示意图。首先，对目标视频帧进行特征提取，根据特征提取结果，获得至少一个文本区域，如第一文本区域、第二文本区域和第三文本区域。至少一个文本区域的数量可以由用户预先设置，或者可以根据特征提取结果，由设备自动确定出来，具体不做限制。文本区域可以是一个像素点或包括多个像素点的区域，文本区域表示文本区域内的像素点是与目标视频帧对应的子文本相关的像素点。其次，针对每一个文本区域，根据像素点之间的相似度，不断合并文本区域周围的像素点，扩大每一个文本区域，最终融合所有文本区域，获得包括完整目标视频帧对应的子文本的文本区域。相较于通过矩形框检测文本的方式，本申请实施例不需要局限目标视频帧对应的子文本出现的形式，对于任何字体或手写文本等存在较强的适用性。

作为一种实施例，在对目标视频帧中是否包括文本进行检测时，还可以采用已训练的PSENet模型等进行文本检测。

在对目标视频帧进行文本检测之后，如果目标视频帧中包括文本，那么基于人工智能领域中的自然语言处理技术，继续对该目标视频帧进行文本识别。请参考图5，为视频帧文本识别的一种原理示意图。首先，利用特征提取网络，对通过文本检测获得的文本区域进行特征提取，获得文本区域的文本序列。其次，利用向量压缩网络，对文本区域的文本序列进行向量压缩，根据生成的正向隐状态和反向隐状态，获得向量压缩后的语义向量。然后，利用映射网络，基于向量压缩后的语义向量，以及至少一个映射参数，将语义向量还原成文本序列。通过引入至少一个映射参数，匹配语义向量的不同位置，与文本序列不同位置之间的关联程度，提高确定文本序列的准确性。

以特征提取网络为EfficientNet模型，向量压缩网络为由两层LSTM构成的BiRNN模型，映射网络为Multi-head Attention模型为例，对文本识别模型进行介绍。

将文本区域输入EfficientNet模型，获得文本序列{x₁，x₂，…，x_n}。将文本序列输入BiRNN模型，计算每个隐状态。BiRNN模型的第一层LSTM，从左向右处理文本序列，生成正向隐状态

BiRNN模型的第二层LSTM，从右向左处理文本序列，生成反向隐状态/>

根据正向隐状态和反向隐状态，获得语义向量

将语义向量输入Multi-head Attention模型，根据映射参数，将语义向量还原成文本序列，获得目标视频帧的子文本。

请参考图6，为映射网络的一种原理示意图。将语义向量输入映射网络，通过至少一个映射参数，还原出各个文本序列。将各个文本序列融合为最终的子文本。

作为一种实施例，目标视频帧的子文本关联的视频帧的时长为该目标视频帧的时长。如果多个目标视频帧的子文本相同，那么该子文本关联的视频帧的时长为多个目标视频帧的时长之和。

作为一种实施例，对每个目标视频帧进行文本检测，确定目标视频帧中是否包括文本之后，如果确定目标视频帧中不包括文本，那么可以结合计算机视觉、自然语言处理和机器学习技术，对不包括任何文本的目标视频帧进行文本描述，将图像翻译成文本，实现了建立图像和文本两个不同模态空间的连接，可以模拟人为看图说话的行为，也可以通过文本描述图像中人物的情感等，提高了获得目标视频帧的文本的灵活性及智能性。

将目标视频帧输入已训练的文本描述模型，文本描述模型中的特征提取网络对目标视频帧进行特征提取，获得表征目标视频帧的空间信息的特征向量。在获得目标视频帧的特征向量之后，文本描述模型中的生成序列网络基于目标视频帧的特征向量，确定目标视频帧关联的关键词，获得各个关键词序列，从而可以获得目标视频帧的子文本。

其中，文本描述模型中的特征提取网络可以通过卷进神经网络和全连接网络进行搭建，文本描述模型中的生成序列网络可以通过循环神经网络进行搭建，从而生成序列网络可以长时间记忆和保持信息。

文本描述模型可以是根据大量不包括文本的样本图像，以及每个样本图像对应的文本标签进行训练得到的。不包括文本的样本图像可以是从网络资源中获取的视频中不包括文本的视频帧，文本标签可以是根据人工标注或设备标注获得的，或者，可以根据样本图像的来源中，样本图像关联的文本获得的，具体不做限制。

S2.3，根据预设过滤条件，针对各个子文本进行过滤处理。

获取的各个子文本中，可能包括一些与视频主题不相关的或较为重复的文本，因此可以通过设置过滤条件，对各个子文本进行过滤处理，从而保证获得的视频主题文本的准确性和简洁性。下面以三种过滤条件为例进行介绍。

过滤条件一：

过滤各个子文本中的预设关键词。

视频中可能带有与视频主题无关的文本，例如水印文本或商标文本等，因此，可以设置预设关键词，过滤各个子文本中的预设关键词。

例如，用户通过软件A拍摄了一段视频，通过软件B发布。视频中包括了软件A的名称水印，软件A的名称实际上与视频内容没有关系，因此，可以将获得的各个目标视频帧的子文本中，软件A的名称文本删除，提高提取主题文本的准确性和简洁性。

过滤条件二：

以各个子文本之间的相似度，去重相似子文本。

可能由于文本识别误差或近义词等原因，各个目标视频帧的子文本中可能存在相似的文本，如相似的词语或语句，因此，可以过滤各个子文本中的相似子文本。

在获得各个子文本之后，针对每个视频帧子序列，确定视频帧子序列中，每两个子文本之间的相似度。如果两个子文本之间的相似度大于相似度阈值，那么确定两个子文本互为相似子文本。对相似子文本进行去重，例如，针对多个个相似子文本，仅保留关联的视频帧的时长最长的相似子文本，删除其余关联的视频帧的时长较短的相似子文本；或者，仅保留按照时间顺序排在最前面的目标视频帧中的相似子文本，删除其余排在后面目标视频帧中的相似子文本等。

作为一种实施例，确定两个子文本之间的相似度的方法有多种，例如欧式距离、余弦相似度或莱文斯坦距离等。下面以莱文斯坦距离为例，介绍确定两个子文本之间的相似度的方法。

将两个子文本转换为两个字符串，针对第一字符串进行增加字符、删除字符或替换字符等操作，统计第一字符串转换为第二字符串所需要的最少操作次数。根据操作次数，可以确定两个子文本之间的相似度，操作次数与相似度成反比。如果第一字符串转换为第二字符串的操作次数在预设范围内容，那么确定两个子文本之间的相似度较高，两个子文本为互为相似子文本。

过滤条件三：

以子文本关联的各个目标视频帧的时长，过滤低频子文本。

如果视频中一些子文本出现的时长较短，例如，仅在3个视频帧中出现了该子文本，那么可以认为这些子文本为低频子文本，与视频主题文本无关，因此，可以将关联的时长较短的子文本删除。

在获得视频帧子序列中各个子文本关联的视频帧时长之后，可以根据关联的视频帧时长，由大到小对各个子文本进行排序，删除排在预设序号后面的所有子文本。或者，可以删除关联的视频帧时长小于预设时长的所有子文本。或者，在根据关联的视频帧时长，由大到小对各个子文本进行排序之后，可以计算每两个相邻的子文本的视频帧时长的差值，如果差值大于预设差值，那么删除排在该子文本后面的所有子文本等。

在对每个视频帧子序列中，各个目标视频帧的子文本进行过滤之后，获得各个视频帧子序列的文本信息。

作为一种实施例，在获得各个视频帧子序列的文本信息之前，还可以基于人工智能领域中的语音技术，分别针对每个视频帧子序列对应的音频文件进行音频识别，或者，分别针对每个目标视频帧对应的音频文件进行音频识别，获得音频识别的结果。在获得文本识别的结果之后，如获得各个目标视频帧的子文本之后，可以将文本识别的结果和音频识别的结果进行合并处理，对合并后的文本进行过滤处理后，获得各个视频帧子序列的文本信息。

音频文件例如是视频帧序列对应的配音文件等，例如将当前目标视频帧在待提取视频中的播放时刻作为起始时刻，将当前目标视频帧的下一个目标视频帧在待提取视频中的播放时刻作为结束时刻，确定待提取视频的音频文件中的音频信息，并获取根据音频信息识别出的文本，获得当前目标视频帧的子文本。

又例如，根据每个视频帧子序列对应的播放时间，在待提取视频的音频文件中，确定每个视频帧子序列对应的音频信息，并对音频信息进行音频识别，获得每个视频帧子序列对应的音频识别的结果。

作为一种实施例，在将音频识别的结果和文本识别的结果进行合并处理的过程中，为了避免在内容层面上，音频识别的结果与对应的文本识别的结果错位的情况，或者，音频识别的结果与文本识别的结果不相关，造成内容混淆等情况，可以先确定每个视频帧子序列分别对应的音频识别的结果，与文本识别的结果之间的相似度。在视频帧子序列对应的音频识别的结果和文本识别的结果之间的相似度大于预设相似度时，合并音频识别的结果和文本识别的结果，获得视频帧子序列的文本信息。或者，可以先确定每个目标视频帧分别对应的音频识别的结果，与文本识别的结果之间的相似度。在目标视频帧对应的音频识别的结果和文本识别的结果之间的相似度大于预设相似度时，合并音频识别的结果和文本识别的结果，获得视频帧子序列的文本信息。

S304，对各个视频帧子序列的文本信息进行融合处理，获得待提取视频的主题文本。

针对每个视频帧子序列，根据视频帧子序列中各个视频帧的顺序，对视频帧子序列的文本信息进行拼接，获得拼接后的视频帧子序列的文本信息。根据视频帧序列中各个视频帧子序列的顺序，对各个拼接后的视频帧子序列的文本信息进行拼接，获得所述待提取视频的主题文本。

作为一种实施例，如果视频帧子序列包括的视频帧较多，那么获得的视频帧子序列的文本信息可能包括较多的文本。为了避免融合处理后待提取视频的主题文本不简要的问题，可以对视频帧子序列包括的视频帧的视频帧数量大于预设视频帧数量的视频帧子序列的文本信息进行摘要提取，如提取关键词等。将视频帧子序列的文本信息更新为提取出的摘要信息，再对各个视频帧子序列的文本信息进行融合处理，获得待提取视频的主题文本。

或者，如果视频帧子序列的文本信息包括较多的文本，那么为了避免获得的待提取视频的主题文本不简要的问题，可以基于文本概率模型和主题概率模型来融合各个视频帧子序列的文本信息，确定待提取视频的主题文本。

将每个视频帧子序列的文本信息分别输入已训练的文本概率模型，文本概率模型可以先将文本信息划分为多个词语，并获得每个词语的词向量。文本概率模型在获得文本信息中的各个词语，以及每个词语的词向量之后，可以确定至少一个词语的各种词语组合方式的每种词语组合方式，能够表达视频帧子序列的文本信息的语义的概率分布，按照其中概率最大的词语组合方式，组合至少一个词语，输出视频帧子序列的摘要信息。摘要信息可以以预设文本量表征文本信息的语义。预设文本量可以是指文本信息中字符的数量，或者，可以是文本信息所占内存的大小等，具体不做限制。

在获得每个视频帧子序列的摘要信息之后，可以将视频帧子序列的摘要信息输入已训练的主题概率模型。主题概率模型确定每个摘要信息对应的信息向量，确定各个摘要信息的各种摘要组合方式中每种摘要组合方式，能够表达视频帧子序列摘要信息的语义的概率分布，按照其中概率最大的摘要组合方式，组合各个摘要信息，输出视频帧序列的主题文本。

作为一种实施例，文本概率模型可以通过各个视频帧子序列的文本信息，进行无监督训练，如果获得的概率分布的马尔科夫链收敛，那么获得已训练的文本概率模型，否则调整文本概率模型的模型参数继续进行训练。主题概率模型可以通过各个视频帧子序列的摘要信息，进行无监督训练，训练过程与文本概率模型的训练过程类似，在此不再赘述。

作为一种实施例，文本概率模型和主题概率模型可以通过隐含狄利克雷分布(Latent Dirichlet allocation，LDA)模型进行搭建。

基于同一发明构思，本申请实施例提供一种提取视频主题文本的装置，该装置相当于前文论述的主题文本提取设备102或主题文本提取装置205，能够实现前述提取视频主题文本的方法对应的功能。请参考图7，该装置包括获取模块701、分割模块702和处理模块703，其中：

获取模块701：用于获取待提取视频的视频帧序列；

分割模块702：用于根据每两个相邻视频帧之间的差异度，将视频帧序列划分为至少一个视频帧子序列；其中，每个视频帧子序列中的相邻视频帧之间的差异度在设定第一阈值内，差异度与相邻视频帧之间的差异像素点的数量成正比，差异像素点包括相邻视频帧之间的对应位置上满足预设像素差异条件的像素点；

处理模块703：用于分别针对每个视频帧子序列进行视频帧文本识别，基于视频帧文本识别的结果，获取各个视频帧子序列的文本信息；以及，对各个视频帧子序列的文本信息进行融合处理，获得待提取视频的主题文本。

在一种可能的实施例中，预设像素差异条件包括：

在一种可能的实施例中，差异度为相邻视频帧之间的差异像素点的数量与视频帧的像素点总数量的比值。

在一种可能的实施例中，处理模块703还用于：在获取各个视频帧子序列的文本信息之前，分别针对每个视频帧子序列对应的音频文件进行音频识别，获得音频识别的结果；以及，

处理模块703具体用于：将音频识别的结果和视频帧文本识别的结果进行合并处理，获取各个视频帧子序列的文本信息。

在一种可能的实施例中，处理模块703具体用于：

在一种可能的实施例中，针对每个视频帧子序列，处理模块703具体用于：

根据预设过滤条件，针对各个子文本进行过滤处理；

在一种可能的实施例中，处理模块703具体用于，包括如下一种或任意组合：

过滤各个子文本中的预设关键词，预设关键词包括与视频主题无关的关键词；

以各个子文本之间的相似度，去重相似子文本；

以子文本关联的各个目标视频帧的时长，过滤低频子文本。

在一种可能的实施例中，针对两个子文本，处理模块703具体用于：

对第一字符串进行增加字符、替换字符或删除字符操作，以使第一字符串转换为第二字符串；

根据将第一字符串转换为第二字符串所需要的最少操作次数，确定第一子文本和第二子文本之间的相似度，其中，操作次数与相似度成反比；

若第一子文本和第二子文本之间的相似度大于相似度阈值，则过滤第一子文本或第二子文本。

在一种可能的实施例中，处理模块703具体用于：

将每个视频帧子序列的文本信息输入已训练的文本概率模型，获得每个视频帧子序列的摘要信息；其中，摘要信息用于以预设文本量表征文本信息的语义；已训练的文本概率模型是基于各个视频帧子序列的文本信息训练得到的；

将每个视频帧子序列的摘要信息输入已训练的主题概率模型，获得待提取视频的主题文本；已训练的主题概率模型是基于各个视频帧子序列的摘要信息训练得到的。

基于同一发明构思，本申请实施例提供一种计算机设备，下面对该计算机设备800进行介绍。

请参照图8，上述提取视频主题文本的装置可以运行在计算机设备800上，提取视频主题文本的程序的当前版本和历史版本以及提取视频主题文本的程序对应的应用软件可以安装在计算机设备800上，该计算机设备800包括显示单元840、处理器880以及存储器820，其中，显示单元840包括显示面板841，用于显示由用户交互操作界面等。

在一种可能的实施例中，可以采用液晶显示器(Liquid Crystal Display，LCD)或有机发光二极管OLED(Organic Light-Emitting Diode)等形式来配置显示面板841。

处理器880用于读取计算机程序，然后执行计算机程序定义的方法，例如处理器880读取提取视频主题文本的程序或文件等，从而在该计算机设备800上运行提取视频主题文本的程序，在显示单元840上显示对应的界面。处理器880可以包括一个或多个通用处理器，还可包括一个或多个DSP(Digital Signal Processor，数字信号处理器)，用于执行相关操作，以实现本申请实施例所提供的技术方案。

存储器820一般包括内存和外存，内存可以为随机存储器(RAM)，只读存储器(ROM)，以及高速缓存(CACHE)等。外存可以为硬盘、光盘、USB盘、软盘或磁带机等。存储器820用于存储计算机程序和其他数据，该计算机程序包括各客户端对应的应用程序等，其他数据可包括操作***或应用程序被运行后产生的数据，该数据包括***数据(例如操作***的配置参数)和用户数据。本申请实施例中程序指令存储在存储器820中，处理器880执行存储其中820中的程序指令，实现前文图论述的任意的一种提取视频主题文本的方法。

上述显示单元840用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势，以及产生与计算机设备800的用户设置以及功能控制有关的信号输入等。具体地，本申请实施例中，该显示单元840可以包括显示面板841。显示面板841例如触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在显示面板841上或在显示面板841的操作)，并根据预先设定的程式驱动相应的连接装置。

在一种可能的实施例中，显示面板841可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测玩家的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。

其中，显示面板841可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元840，计算机设备800还可以包括输入单元830，输入单元830可以包括图形输入设备831和其他输入设备832，其中其他输入设备可以但不限于包括物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

除以上之外，计算机设备800还可以包括用于给其他模块供电的电源890、音频电路860、近场通信模块870和RF电路810。计算机设备800还可以包括一个或多个传感器850，例如加速度传感器、光传感器、压力传感器等。音频电路860具体包括扬声器861和麦克风862等，例如计算机设备800可以通过麦克风862采集用户的声音，进行相应的操作等。

作为一种实施例，处理器880的数量可以是一个或多个，处理器880和存储器820可以是耦合设置，也可以是相对独立设置。

作为一种实施例，图8中的处理器880可以用于实现如图7中的获取模块、分割模块和处理模块的功能。

作为一种实施例，图8中的处理器880可以用于实现前文论述的提取视频主题文本的装置对应的功能。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种提取视频主题文本的方法，其特征在于，包括：

获取待提取视频的视频帧序列；

将所述视频帧序列的第一个视频帧作为第一个视频帧子序列的第一个视频帧，从所述视频帧序列的第二个视频帧开始，依次针对每个视频帧执行如下操作，直至所述视频帧序列的倒数第二个视频帧：

确定当前视频帧与其前一个视频帧之间的第一差异度，以及当前视频帧与其后一个视频帧之间的第二差异度；

若所述第一差异度与所述第二差异度之差大于第四阈值，则对所述视频帧序列进行一次划分，并将当前视频帧作为当前视频帧子序列的最后一个视频帧，当前视频帧的后一个视频帧作为当前视频帧子序列的下一个视频帧子序列的第一个视频帧；

将所述视频帧序列的最后一个视频帧作为最后一个视频帧子序列的最后一个视频帧，获得各个视频帧子序列；其中，每个视频帧子序列中的相邻视频帧之间的差异度在设定第一阈值内，所述差异度与相邻视频帧之间的差异像素点的数量成正比，所述差异像素点包括相邻视频帧之间的对应位置上满足预设像素差异条件的像素点，所述预设像素差异条件包括相邻视频帧之间的对应位置的两个像素点的像素值差值的绝对值与像素值之和的比值大于第二阈值；

2.根据权利要求1所述的方法，其特征在于，在获取各个视频帧子序列的文本信息之前，还包括：

分别针对每个视频帧子序列对应的音频文件进行音频识别，获得音频识别的结果，以及，

所述基于视频帧文本识别的结果，获取各个视频帧子序列的文本信息，包括：

将所述音频识别的结果和所述视频帧文本识别的结果进行合并处理，获取各个视频帧子序列的文本信息。

3.根据权利要求2所述的方法，其特征在于，将所述音频识别的结果和所述视频帧文本识别的结果进行合并处理，包括：

4.根据权利要求1~3任一项所述的方法，其特征在于，所述分别针对每个视频帧子序列进行视频帧文本识别，基于视频帧文本识别的结果，获取各个视频帧子序列的文本信息时，针对每个视频帧子序列，包括：

根据预设过滤条件，针对各个子文本进行过滤处理；

5.根据权利要求4所述的方法，其特征在于，所述根据预设过滤条件，针对各个子文本进行过滤处理，包括如下一种或任意组合：

以各个子文本之间的相似度，去重相似子文本；

以子文本关联的各个目标视频帧的时长，过滤低频子文本。

6.根据权利要求5所述的方法，其特征在于，以各个子文本之间的相似度，去重相似子文本，针对两个子文本，包括：

7.根据权利要求1所述的方法，其特征在于，对各个视频帧子序列的文本信息进行融合处理，获得所述待提取视频的主题文本，包括：

8.一种提取视频主题文本的装置，其特征在于，包括：

获取模块：用于获取待提取视频的视频帧序列；

分割模块：用于将所述视频帧序列的第一个视频帧作为第一个视频帧子序列的第一个视频帧，从所述视频帧序列的第二个视频帧开始，依次针对每个视频帧执行如下操作，直至所述视频帧序列的倒数第二个视频帧：确定当前视频帧与其前一个视频帧之间的第一差异度，以及当前视频帧与其后一个视频帧之间的第二差异度；若所述第一差异度与所述第二差异度之差大于第四阈值，则对所述视频帧序列进行一次划分，并将当前视频帧作为当前视频帧子序列的最后一个视频帧，当前视频帧的后一个视频帧作为当前视频帧子序列的下一个视频帧子序列的第一个视频帧；以及，将所述视频帧序列的最后一个视频帧作为最后一个视频帧子序列的最后一个视频帧，获得各个视频帧子序列；其中，每个视频帧子序列中的相邻视频帧之间的差异度在设定第一阈值内，所述差异度与相邻视频帧之间的差异像素点的数量成正比，所述差异像素点包括相邻视频帧之间的对应位置上满足预设像素差异条件的像素点，所述预设像素差异条件包括相邻视频帧之间的对应位置的两个像素点的像素值差值的绝对值与像素值之和的比值大于第二阈值；

9.根据权利要求8所述的装置，其特征在于，所述处理模块还用于：

在获取各个视频帧子序列的文本信息之前，分别针对每个视频帧子序列对应的音频文件进行音频识别，获得音频识别的结果，以及，

所述处理模块具体用于：

10.根据权利要求8或9所述的装置，其特征在于，所述处理模块具体用于：

根据预设过滤条件，针对各个子文本进行过滤处理；

11.根据权利要求10所述的装置，其特征在于，所述处理模块具体用于，包括如下一种或任意组合：

以各个子文本之间的相似度，去重相似子文本；

以子文本关联的各个目标视频帧的时长，过滤低频子文本。

12.一种计算机设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如权利要求1~7中任一项所述的方法。

13.一种存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1~7中任一项所述的方法。