CN112101329A

CN112101329A - 一种基于视频的文本识别方法、模型训练的方法及装置

Info

Publication number: CN112101329A
Application number: CN202011305590.0A
Authority: CN
Inventors: 宋浩; 黄珊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2020-12-18
Anticipated expiration: 2040-11-19
Also published as: CN112101329B

Abstract

本申请公开了一种采用人工智能技术实现的文本识别方法，包括：获取第一视频帧以及第二视频帧；基于第一视频帧获取第一文本概率值以及第一特征向量；基于第二视频帧获取第二文本概率值以及第二特征向量；基于第一特征向量以及第二特征向量获取相似度分值；若第一文本概率值以及第二文本概率值均大于或等于文本概率阈值，且相似度分值小于或等于相似度阈值，则根据第一视频帧以及第二视频帧确定目标视频帧；对目标视频帧进行文本识别。本申请还提供了模型训练方法及装置。本申请使用孪生网络对视频帧之间的文本相似度进行计算，这样能够判断出相似度较高的视频帧，由此从这些相似度较高的视频帧进行文本识别，提升了针对于视频的文本检测效率。

Description

一种基于视频的文本识别方法、模型训练的方法及装置

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种基于视频的文本识别方法、模型训练的方法及装置。

背景技术

伴随信息技术和通讯技术的不断发展，大量视频不断涌现，而视频播放过程中可能会出现字幕、路牌或者其他文本等，这类文本能够给人以直观的形式展现视频节目内容，从而有效地辅助人们在视频中把握节目的主题思想，进而理解视频的内容。

目前，可使用光学字符识别（Optical Character Recognition，OCR）技术，对视频帧中的文本进行检测和识别，即首先检测文本区域，找到包含文本的区域，然后识别区域中的文本，再根据识别结果对文本的区间进行合并与区分。

然而，在现有的方案中，需要采用OCR技术对视频中的每个视频帧不断地进行文本检测和识别，由此导致文本检测的效率较低。

发明内容

本申请实施例提供了一种基于视频的文本识别方法、模型训练的方法及装置，使用孪生网络对视频帧之间的文本相似度进行计算，这样能够判断出相似度较高的视频帧，由此从这些相似度较高的视频帧中提取任意一帧进行文本识别即可，从而提升了针对于视频的文本检测效率。

有鉴于此，本申请一方面提供一种基于视频的文本识别方法，包括：

从待识别视频中获取第一视频帧以及第二视频帧，其中，待识别视频包括至少两个视频帧，第一视频帧与第二视频帧为相邻的两个视频帧；

基于第一视频帧，通过文本识别网络所包括的第一识别网络获取第一文本概率值以及第一特征向量，其中，第一文本概率值表示第一视频帧中出现文本的概率；

基于第二视频帧，通过文本识别网络所包括的第二识别网络获取第二文本概率值以及第二特征向量，其中，第二文本概率值表示第二视频帧中出现文本的概率，第二识别网络与第一识别网络之间共享权重；

基于第一特征向量以及第二特征向量，通过文本识别网络所包括的全连接层获取相似度分值；

若第一文本概率值以及第二文本概率值均大于或等于文本概率阈值，且相似度分值小于或等于相似度阈值，则根据第一视频帧以及第二视频帧，确定目标视频帧；

对目标视频帧进行文本识别。

本申请另一方面提供一种模型训练的方法，包括：

获取待训练样本对，其中，待训练样本对包括第一视频帧样本以及第二视频帧样本，第一视频帧样本对应于第一文本标注值，第二视频帧样本对应于第二文本标注值，待训练样本对对应于相似度标注值；

基于第一视频帧样本，通过待训练文本识别网络所包括的第一识别网络获取第一文本概率值以及第一特征向量，其中，第一文本概率值表示第一视频帧中出现文本的概率；

基于第二视频帧样本，通过待训练文本识别网络所包括的第二识别网络获取第二文本概率值以及第二特征向量，其中，第二文本概率值表示第二视频帧中出现文本的概率，第二识别网络与第一识别网络之间共享权重；

基于第一特征向量以及第二特征向量，通过待训练文本识别网络所包括的全连接层获取相似度分值；

根据第一文本标注值、第一文本概率值、第二文本标注值、第二文本概率值、第二文本概率值、相似度标注值以及相似度分值，对待训练文本识别网络进行训练，当满足模型训练条件时，输出文本识别网络，其中，文本识别网络为上述方面所涉及的文本识别网络。

本申请另一方面提供一种文本识别装置，包括：

获取模块，用于从待识别视频中获取第一视频帧以及第二视频帧，其中，待识别视频包括至少两个视频帧，第一视频帧与第二视频帧为相邻的两个视频帧；

获取模块，还用于基于第一视频帧，通过文本识别网络所包括的第一识别网络获取第一文本概率值以及第一特征向量，其中，第一文本概率值表示第一视频帧中出现文本的概率；

获取模块，还用于基于第二视频帧，通过文本识别网络所包括的第二识别网络获取第二文本概率值以及第二特征向量，其中，第二文本概率值表示第二视频帧中出现文本的概率，第二识别网络与第一识别网络之间共享权重；

获取模块，还用于基于第一特征向量以及第二特征向量，通过文本识别网络所包括的全连接层获取相似度分值；

确定模块，用于若第一文本概率值以及第二文本概率值均大于或等于文本概率阈值，且相似度分值小于或等于相似度阈值，则根据第一视频帧以及第二视频帧，确定目标视频帧；

识别模块，用于对目标视频帧进行文本识别。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，

获取模块，具体用于基于第一视频帧，通过第一识别网络所包括的卷积网络获取第一特征图，其中，第一识别网络属于文本识别网络；

基于第一特征图，通过第一识别网络所包括的注意力网络，获取第一文本概率值；

基于第一特征图，通过第一识别网络所包括的图像特征提取网络，获取第一特征向量；

获取模块，具体用于基于第二视频帧，通过第二识别网络所包括的卷积网络获取第二特征图，其中，第二识别网络属于文本识别网络；

基于第二特征图，通过第二识别网络所包括的注意力网络，获取第二文本概率值；

基于第二特征图，通过第二识别网络所包括的图像特征提取网络，获取第二特征向量。

获取模块，具体用于根据第一特征图生成第一待处理特征向量集合，其中，第一待处理特征向量集合包括M个第一待处理特征向量，每个第一待处理特征向量包括N个元素，N和M的均为大于1的整数；

根据第一待处理特征向量集合生成第二待处理特征向量集合，其中，第二待处理特征向量集合包括N个第二待处理特征向量，每个第二待处理特征向量包括M个元素；

基于第二待处理特征向量集合，通过第一识别网络所包括的注意力网络，获取第一注意力特征向量；

基于第一注意力特征向量，通过第一识别网络所包括的全连接层，获取第一文本概率值；

获取模块，具体用于根据第二特征图生成第三待处理特征向量集合，其中，第三待处理特征向量集合包括M个第三待处理特征向量，每个第三待处理特征向量包括N个元素；

根据第三待处理特征向量集合生成第四待处理特征向量集合，其中，第四待处理特征向量集合包括N个第四待处理特征向量，每个第四待处理特征向量包括M个元素；

基于第四待处理特征向量集合，通过第二识别网络所包括的注意力网络，获取第二注意力特征向量；

基于第二注意力特征向量，通过第二识别网络所包括的全连接层，获取第二文本概率值。

获取模块，具体用于基于第一特征图，通过第一识别网络所包括的图像特征提取网络，获取K个第一待拼接特征向量，其中，K个第一待拼接特征向量包括通过平均池化层得到的第一待拼接特征向量，K为大于1的整数；

根据K个第一待拼接特征向量，通过第一识别网络所包括的图像特征提取网络，获取第一特征向量；

基于第二特征图，通过第二识别网络所包括的图像特征提取网络，获取第二特征向量，包括：

基于第二特征图，通过第二识别网络所包括的图像特征提取网络，获取K个第二待拼接特征向量，其中，K个第二待拼接特征向量包括通过平均池化层得到的第二待拼接特征向量；

根据K个第二待拼接特征向量，通过第二识别网络所包括的图像特征提取网络，获取第二特征向量。

获取模块，具体用于对第一特征向量以及第二特征向量中相同位置上的元素进行相减，得到中间特征向量；

对中间特征向量进行取绝对值处理，得到目标特征向量；

基于目标特征向量，通过全连接层获取相似度分值。

获取模块，还用于若第一文本概率值以及第二文本概率值均大于或等于文本概率阈值，且相似度分值小于或等于相似度阈值，获取第一视频帧所对应的第一帧标识以及第二视频帧所对应的第二帧标识；

确定模块，还用于根据第一帧标识、第二帧标识以及待识别视频的帧率，确定第一视频帧在待识别视频中的出现时间，以及第二视频帧在待识别视频中的出现时间。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，文本识别装置还包括处理模块；

处理模块，用于若第一文本概率值小于文本概率阈值，且第二文本概率值大于或等于文本概率阈值，则剔除第一视频帧；

处理模块，还用于若第一文本概率值大于或等于文本概率阈值，且第二文本概率值小于文本概率阈值，则剔除第二视频帧；

确定模块，还用于若第一文本概率值以及第二文本概率值均大于或等于文本概率阈值，且相似度分值小于或等于相似度阈值，则确定第一视频帧和第二视频帧属于同一个文本视频帧区间。

确定模块，具体用于确定第一视频帧与第二视频帧属于同一个文本视频帧区间，其中，文本视频帧区间内包括至少两个视频帧；

从文本视频帧区间中选择任意一个视频帧作为目标视频帧。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，文本识别装置还包括显示模块；

获取模块，还用于在识别模块对目标视频帧进行文本识别之后，获取文本视频帧区间所对应的时间区间，以及目标视频帧所对应的文本识别结果；

显示模块，用于显示文本视频帧区间所对应的时间区间以及文本识别结果，其中，时间区间表示文本视频帧区间中第一个视频帧至最后一个视频帧的出现时间；

或者，

显示模块，还用于向终端设备发送文本识别结果以及文本视频帧区间所对应的时间区间，以使终端设备显示文本视频帧区间所对应的时间区间以及文本识别结果。

本申请另一方面提供一种模型训练装置，包括：

获取模块，用于获取待训练样本对，其中，待训练样本对包括第一视频帧样本以及第二视频帧样本，第一视频帧样本对应于第一文本标注值，第二视频帧样本对应于第二文本标注值，待训练样本对对应于相似度标注值；

获取模块，还用于基于第一视频帧样本，通过待训练文本识别网络所包括的第一识别网络获取第一文本概率值以及第一特征向量，其中，第一文本概率值表示第一视频帧中出现文本的概率；

获取模块，还用于基于第二视频帧样本，通过待训练文本识别网络所包括的第二识别网络获取第二文本概率值以及第二特征向量，其中，第二文本概率值表示第二视频帧中出现文本的概率，第二识别网络与第一识别网络之间共享权重；

获取模块，还用于基于第一特征向量以及第二特征向量，通过待训练文本识别网络所包括的全连接层获取相似度分值；

训练模块，用于根据第一文本标注值、第一文本概率值、第二文本标注值、第二文本概率值、第二文本概率值、相似度标注值以及相似度分值，对待训练文本识别网络进行训练，当满足模型训练条件时，输出文本识别网络，其中，文本识别网络为采用上述方面所提供的文本识别网络。

训练模块，具体用于根据第一文本标注值以及第一文本概率值，采用第一损失函数确定第一损失值；

根据第二文本标注值以及第二文本概率值，采用第二损失函数确定第二损失值；

根据相似度标注值以及相似度分值，采用第三损失函数确定第三损失值；

根据第一损失值、第二损失值和第三损失值，更新待训练文本识别网络的模型参数。

本申请另一方面提供一种计算机设备，包括：存储器、收发器、处理器以及总线***；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括执行如上述各方面所提供的方法；

总线***用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种文本识别的方法，首先从待识别视频中获取第一视频帧以及第二视频帧，第一视频帧与第二视频帧为相邻的两个视频帧，然后基于第一视频帧，通过文本识别网络所包括的第一识别网络获取第一文本概率值以及第一特征向量，并且基于第二视频帧，通过文本识别网络所包括的第二识别网络获取第二文本概率值以及第二特征向量，再基于第一特征向量以及第二特征向量，通过文本识别网络所包括的全连接层获取相似度分值，如果第一文本概率值以及第二文本概率值均大于或等于文本概率阈值，且相似度分值小于或等于相似度阈值，则根据第一视频帧以及第二视频帧，确定目标视频帧，最后对目标视频帧进行文本识别。通过上述方式，使用孪生网络判断视频帧中是否包含文本，这样可以仅对具有文本的视频帧进行文本检测，与此同时，使用孪生网络对视频帧之间的文本相似度进行计算，这样能够判断出相似度较高的视频帧，由此从这些相似度较高的视频帧中提取任意一帧进行文本识别即可，从而提升了针对于视频的文本检测效率。

附图说明

图1为本申请实施例中文本识别方法的一个应用场景示意图；

图2为本申请实施例中基于传统学习进行文本识别的一个流程示意图；

图3为本申请实施例中基于深度学习进行文本识别的一个流程示意图；

图4为本申请实施例中基于视频的文本识别方法一个实施例示意图；

图5为本申请实施例中文本识别网络的一个结构示意图；

图6为本申请实施例中提取目标视频帧的一个实施例示意图；

图7为本申请实施例中识别网络的一个结构示意图；

图8为本申请实施例中卷积网络的一个结构示意图；

图9为本申请实施例中对特征图进行处理的一个示意图；

图10为本申请实施例中图像特征提取网络的一个结构示意图；

图11为本申请实施例中显示文本识别结果的一个界面示意图；

图12为本申请实施例中模型训练的方法一个实施例示意图；

图13为本申请实施例中文本识别装置的一个实施例示意图；

图14为本申请实施例中模型训练装置的一个实施例示意图；

图15为本申请实施例中终端设备的一个结构示意图；

图16为本申请实施例中服务器的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

视频字幕提取已经成为现实视频研究领域一个重要的研究热点问题。随着互联网中视频的数量以及关注度不断地增加，视频字幕提取技术也得到了广泛地关注。它的主要任务是获得视频中字幕出现的起始和终止时间，并提供该段字幕的具体文字内容。这些识别到的文字内容可用于模型训练，也可以用于编辑文字内容或者格式等，具体用途不在本申请中进行限定。

视频中往往包括大量的视频帧，如果对每个视频帧均进行识别，那么需要消耗大量的处理资源以及处理时间。基于此，本申请提供一种基于人工智能（ArtificialIntelligence, AI）技术实现的文本识别方法，具体涉及到计算机视觉（Computer Vision，CV）技术。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别（Optical Character Recognition，OCR）、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为了便于理解，请参阅图1，图1为本申请实施例中文本识别方法的一个应用场景示意图，如图所示，首先将待识别视频上传至计算机设备，然后由计算机设备从待识别视频获取相邻两个视频帧进行检测，如果检测到这两个视频帧中均包括文本，而且两个视频帧之间的文本相似度较大，那么可以从中选择任意一个视频帧作为目标视频帧。于是需要对目标视频帧进行字幕定位，字幕定位即找出字幕在视频帧中所处的位置，通常字幕呈水平或竖直排列，如图1所示，定位的结果可以采用最小外接框来表示。最后，计算机设备需要对字幕进行文本识别，即通过提取字幕区域的图像特征，识别其中的文字，最终输出文本串，例如，图1所示的“这是他们俩第一次在海边对抗”。

需要说明的是，本申请所描述的计算机设备可以是终端设备，也可以是服务器，还可以是由服务器和终端设备共同构成的一个***。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表等，但并不局限于此。

基于此，下面将结合图2和图3介绍采用OCR技术进行文本识别的方式。示例性地，请参阅图2，图2为本申请实施例中基于传统学习进行文本识别的一个流程示意图，如图所示，将目标视频帧作为输入，在步骤A1中先进行文字区域的定位，主要基于连通域分析的方法来实现，具体可采用最大极值稳定区域（Maximally Stable Extremal Regions，MSER）算法及笔画宽度变换（Stroke Width Transform，SWT）算法。在步骤A2中，对文字区域图像的矫正，主要基于旋转变换和仿射变换。在步骤A3中，行列分割提取出单字，利用文字在行列间存在间隙的特征，通过二值化并在投影后找出行列分割点。在步骤A4中，使用人工特征方向梯度直方图（Histogram of Oriented Gradient，HOG）或者卷积神经网络（Convolutional Neural Networks，CNN）特征，结合分类模型对单字进行识别。在步骤A5中，基于统计语言模或者规则进行语义纠错，最后输出对应的文本识别结果。

示例性地，请参阅图3，图3为本申请实施例中基于深度学习进行文本识别的一个流程示意图，如图所示，将目标视频帧作为输入，在步骤A1中，可以采用CNN或者循环神经网络（Recurrent Neural Network，RNN）进行文字区域的定位。在步骤A2中，采用CNN、RNN或者连接时序分类（Connectionist temporal classification，CTC）实现文字行识别，最后输出对应的文本识别结果。

结合上述介绍，本申请实施例提供的方案涉及人工智能的计算机视觉以及机器学习等技术，下面将对本申请中基于视频的文本识别方法进行介绍，请参阅图4，本申请实施例中对基于视频的文本识别方法一个实施例包括：

101、从待识别视频中获取第一视频帧以及第二视频帧，其中，待识别视频包括至少两个视频帧，第一视频帧与第二视频帧为相邻的两个视频帧；

本实施例中，文本识别装置获取待识别视频，待识别视频的类型包含但不仅限于运动图像专家组（Moving Picture Experts Group，MPEG）格式、高级流格式（AdvancedStreaming Format，ASF）、音频视频交错（Audio Video Interleaved，AVI）格式、RealMedia可变比特率（RealMedia Variable Bitrate，RMVB）格式以及视频流媒体（FlashVideo，FLV）格式等，此处不做限定。

具体地，在获取到待识别视频之后，可使用快进MPEG（Fast Forward MPEG，FFmpeg）将待识别视频解码为连续的视频帧，其中，FFmpeg是一套可以用来记录和转换数字视音频频，并能将其转化为流的开源计算机程序。然后，从待识别视频中获取两个连续的视频帧作为视频帧对，一个视频帧对由第一视频帧和第二视频帧构成。在实际应用中，假设待识别视频包括5个视频帧，分别为视频帧1、视频帧2、视频帧3、视频帧4和视频帧5，那么可以得到4个视频帧对，例如，视频帧1和视频帧2构成一个视频帧对，视频帧2和视频帧3构成另一个视频帧对，视频帧3和视频帧4构成另一个视频帧对，视频帧4和视频帧5构成另一个视频帧对。每个视频帧对均作为文本识别网络的输入。

需要说明的是，文本识别装置部署于计算机设备，具体可部署于终端设备或者服务器，还可以部署于由服务器和终端设备共同构成的一个***，此处不做限定。

102、基于第一视频帧，通过文本识别网络所包括的第一识别网络获取第一文本概率值以及第一特征向量，其中，第一文本概率值表示第一视频帧中出现文本的概率；

本实施例中，以第一视频帧和第二视频帧构成的视频帧对为例，文本识别装置将第一视频帧输入至文本识别网络所包括的第一识别网络，由第一识别网络输出第一文本概率值以及第一特征向量。其中，文本识别网络采用孪生网络的网络结构，孪生网络包含两个子网络，即第一识别网络和第二识别网络，每个子网络各自接受不同输入，将其映射至高维特征空间，并输出对应的表征。通过计算两个表征的距离（例如，欧式距离），可以比较两个输入的相似程度，两个子网络的权重可以由能量函数或分类损失优化。

具体地，在文本识别网络的顶层使用一个能量函数，该能量函数是一个绝对值相减的函数，在该能量函数后面连接全连接层，用于进行文本相似度计算。

103、基于第二视频帧，通过文本识别网络所包括的第二识别网络获取第二文本概率值以及第二特征向量，其中，第二文本概率值表示第二视频帧中出现文本的概率，第二识别网络与第一识别网络之间共享权重；

本实施例中，由步骤102所描述的内容可知，文本识别装置还需要将第二视频帧输入至文本识别网络所包括的第二识别网络，由第二识别网络输出第二文本概率值以及第二特征向量。由此可见，将第一视频帧和第二视频帧作为文本识别网络的输入，可计算视频帧之间的文本相似程度以及含有文本的可能性。由于文本识别网络为孪生网络的结构，因此，两个“双胞胎”网络（即第一识别网络和第二识别网络）之间的网络参数是共享的，共享的网络参数能够保证两个极其相似的图像可能无法通过各自的网络映射到特征空间中非常不同的位置，因为每个网络都计算相同的功能，即两个极其相似的图像不可能被映射到特征空间中的不同位置。孪生网络（即文本识别网络）是对称的，这样能够保证两个不同的视频帧在输入到不同的“双胞胎”网络（即第一识别网络和第二识别网络）中时，顶层的能量函数能够获取相同的相似度。

104、基于第一特征向量以及第二特征向量，通过文本识别网络所包括的全连接层获取相似度分值；

本实施例中，文本识别装置将第一特征向量以及第二特征向量，输入至文本识别网络所包括的全连接（Full Connection，FC）层，通过FC层输出第一视频帧与第二视频帧之间文本的相似度分值。

具体地，为了便于理解，请参阅图5，图5为本申请实施例中文本识别网络的一个结构示意图，如图所示，首先获取待识别视频，然后从中提取第一视频帧和第二视频帧，再将第一视频帧和第二视频帧输入至文本识别网络。其中，文本识别网络包括第一识别网络以及第二识别网络，因此，需要将第一视频帧输入至第一识别网络，并将第二视频帧输入至第二识别网络。第一识别网络与第二识别网络具有相似的网络结构，第一识别网络包括卷积网络、注意力网络和图像特征提取网络，且第二识别网络也包括卷积网络、注意力网络和图像特征提取网络。由第一识别网络所包括的注意力网络以及FC层输出第一文本概率值，并且由第二识别网络所包括的注意力网络以及FC层输出第二文本概率值。由第一识别网络所包括的图像特征提取网络输出第一特征向量，并且由第二识别网络所包括的图像特征提取网络输出第二特征向量。将第一特征向量和第二特征向量共同输入至FC层，由此得到相似度分值。

105、若第一文本概率值以及第二文本概率值均大于或等于文本概率阈值，且相似度分值小于或等于相似度阈值，则根据第一视频帧以及第二视频帧，确定目标视频帧；

本实施例中，文本识别装置需要判断第一文本概率值是否大于或等于文本概率阈值，以及判断第二文本概率值是否大于或等于文本概率阈值，如果第一文本概率值以及第二文本概率值均大于或等于文本概率阈值，则表示第一视频帧和第二视频帧均包含文本内容，反之，则表示视频帧内不包含文本内容。与此同时，文本识别装置还需要判断相似度分值是否小于或等于相似度阈值，如果小于或等于相似度阈值，则表示第一视频帧的文本和第二视频帧的文本非常相似，反之，则表示这两者之间差异较大。

基于此，如果确定第一视频帧和第二视频帧均包括文本，且第一视频帧的文本和第二视频帧的文本非常相似，那么第一视频帧和第二视频帧均为候选的视频帧，最后，从候选的视频帧中取出任意一个视频帧作为目标视频帧。

可以理解的是，文本概率阈值可以设置为0.5或者0.8，也可以设置为其他值，相似度阈值可以设置为0.5或者0.3，也可以设置为其他值，此处不做限定。

106、对目标视频帧进行文本识别。

本实施例中，文本识别装置可采用OCR技术对目标视频帧中的文本内容进行识别，得到对应的文本识别结果。

为了便于理解，下面将结合图6对本申请提供的文本识别方法进行介绍，图6为本申请实施例中提取目标视频帧的一个实施例示意图，如图所示，以待识别视频中连续的六个视频帧为例，视频帧1和视频帧2的文本概率值均大于文本概率阈值，且相似度分值大于相似度阈值，则视频帧1和视频帧2均为候选的视频帧。视频帧2和视频帧3的文本概率值均大于文本概率阈值，且相似度分值大于相似度阈值，则视频帧3也为候选的视频帧。视频帧4的文本概率值小于文本概率阈值，即视频帧4不是候选的视频帧。视频帧5的文本概率值小于文本概率阈值，即视频帧5也不是候选的视频帧。视频帧6的文本概率值大于文本概率阈值，但是视频帧6和视频帧5之间的相似度分值小于相似度阈值，因此，还需要判断视频帧6与下一个视频帧之间的相似度分值，以及判断下一个视频帧的文本概率值是否大于或等于文本概率阈值。

由此可见，视频帧1、视频帧2和视频帧3是候选的视频帧，于是，从这三个视频帧中选择任意一个视频帧作为目标视频帧即可，最后，对目标视频帧进行OCR识别，得到文本识别结果，例如，文本识别结果包括“新款小轿车”。

本申请实施例中，提供了一种文本识别的方法，通过上述方式，使用孪生网络判断视频帧中是否包含文本，这样可以仅对具有文本的视频帧进行文本检测，与此同时，使用孪生网络对视频帧之间的文本相似度进行计算，这样能够判断出相似度较高的视频帧，由此从这些相似度较高的视频帧中提取任意一帧进行文本识别即可，从而提升了针对于视频的文本检测效率。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供另一个可选实施例中，基于第一视频帧，通过文本识别网络所包括的第一识别网络获取第一文本概率值以及第一特征向量，具体包括如下步骤：

基于第一视频帧，通过第一识别网络所包括的卷积网络获取第一特征图，其中，第一识别网络属于文本识别网络；

基于第二视频帧，通过文本识别网络所包括的第二识别网络获取第二文本概率值以及第二特征向量，具体包括如下步骤：

基于第二视频帧，通过第二识别网络所包括的卷积网络获取第二特征图，其中，第二识别网络属于文本识别网络；

本实施例中，介绍了一种基于孪生网络结构提取文本概率值以及特征向量的方式。如前述实施例所描述的内容可知，由于文本识别网络属于孪生网络的结构，因此，文本识别网络所包括的第一识别网络与第二识别网络具有相似的结构，每个识别网络包括两个分支，一个分支为文本分支，该文本分支包括卷积网络、注意力网络以及FC层，另一个分值为图像相似度分支，该图像相似度分支包括卷积网络、图像特征提取网络以及FC层。

具体地，请参阅图7，图7为本申请实施例中识别网络的一个结构示意图，如图所示，将视频帧（例如，第一视频帧）输入至识别网络（例如，第一识别网络）所包括的卷积网络，通过卷积网络输出特征图（例如，第一特征图）。接下来，分别将特征图（例如，第一特征图）作为注意力网络和图像特征提取网络的输入，将注意力网络的输出结果输入至识别网络（例如，第一识别网络）中FC层，由此得到输出文本概率值（例如，第一文本概率值），由图像特征提取网络输出特征向量（例如，第一特征向量）。

类似地，基于图7可知，将视频帧（例如，第二视频帧）输入至识别网络（例如，第二识别网络）所包括的卷积网络，通过卷积网络输出特征图（例如，第二特征图）。接下来，分别将特征图（例如，第二特征图）作为注意力网络和图像特征提取网络的输入，将注意力网络的输出结果输入至识别网络（例如，第二识别网络）中FC层，由此得到输出文本概率值（例如，第二文本概率值），由图像特征提取网络输出特征向量（例如，第二特征向量）。

更具体地，文本分支和相似度分支均包括相同的卷积网络，为了便于说明，请参阅图8，图8为本申请实施例中卷积网络的一个结构示意图，如图所示，将视频帧缩放为尺寸为224×224的图像，然后将其输入至卷积网络，该卷积网络具有残差网络18（ResidualNetwork 18，ResNet18）中的第5_2卷积层之前的所有网络层。请参阅表1，表1为ResNet18中第5_2卷积层之前的网络层示意。

表1

由表1可知，第5_2卷积层之前的网络层共有17层，因此，224×224的图像经过该网络之后的特征图（即第一特征图以及第二特征图）尺寸为512×7×7。需要说明的是，在实际应用中，还可以卷积网络还可以采用数量的和类型的网络层，且第一特征图以及第二特征图的尺寸还可以是其他取值，此处仅为一个示意，不应理解为本申请的限定。

其次，本申请实施例中，提供了一种基于孪生网络结构提取文本概率值以及特征向量的方式，通过上述方式，利用孪生网络结构可以分别对两个视频帧进行并行处理，从而达到更高的处理效率，与此同时，使用卷积网络能够提取到视频帧中的文本信息，便于进行后续处理。此外，每个识别网络包括图像特征提取网络以及注意力网络，由此可以输出相应的文本概率值以及第二特征向量。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供另一个可选实施例中，基于第一特征图，通过第一识别网络所包括的注意力网络，获取第一文本概率值，具体包括如下步骤：

根据第一特征图生成第一待处理特征向量集合，其中，第一待处理特征向量集合包括M个第一待处理特征向量，每个第一待处理特征向量包括N个元素，N和M的均为大于1的整数；

基于第二特征图，通过第二识别网络所包括的注意力网络，获取第二文本概率值，具体包括如下步骤：

根据第二特征图生成第三待处理特征向量集合，其中，第三待处理特征向量集合包括M个第三待处理特征向量，每个第三待处理特征向量包括N个元素；

本实施例中，介绍了一种基于注意力网络获取文本概率值的方式。如前述实施例所描述的内容可知，由于文本识别网络属于孪生网络的结构，因此，文本识别网络所包括的第一识别网络与第二识别网络具有相似的结构。下面将介绍每个识别网络中基于文本分支的特征处理方式。

具体地，为了便于介绍，以特征图（例如，第一特征图以及第二特征图）尺寸为512×7×7作为示例进行说明，请参阅图9，图9为本申请实施例中对特征图进行处理的一个示意图，如图所示，将7×7的特征图拉成49维度的特征向量，即得到第一待处理特征向量集合，即第一待处理特征向量集合表示为512×49个特征向量，其中，第一待处理特征向量集合包括M个第一待处理特征向量，每个第一待处理特征向量包括N个元素，此时，M为512，N为49。接下来，针对于第一待处理特征向量集合（例如，512个49维度的第一待处理特征向量）中的每个元素，分别取出每个维度所对应的元素，并组成第二待处理特征向量集合，即第二待处理特征向量集合表示为49×512个特征向量，其中，第二待处理特征向量集合包括N个第二待处理特征向量，每个第二待处理特征向量包括M个元素，此时，N为49，M为512。

基于此，将第二待处理特征向量集合输入至第一识别网络所包括的注意力网络，得到第二注意力特征向量，最后将第二注意力特征向量输入至第一识别网络所包括的FC层，由此得到第一文本概率值，该第一文本概率值为大于或等于0，且小于或等于1的整数。

类似地，基于图9可知，将7×7的特征图拉成49维度的特征向量，即得到第三待处理特征向量集合，即第三待处理特征向量集合表示为512×49个特征向量，其中，第三待处理特征向量集合包括M个第三待处理特征向量，每个第三待处理特征向量包括N个元素，此时，M等于512，N等于49。接下来，针对于第三待处理特征向量集合（例如，512个49维度的第三待处理特征向量）中的每个元素，分别取出每个维度所对应的元素，并组成第四待处理特征向量集合，即第四待处理特征向量集合表示为49×512个特征向量，其中，第四待处理特征向量集合包括N个第四待处理特征向量，每个第四待处理特征向量包括M个元素，此时，N等于49，M等于512。

基于此，将第四待处理特征向量集合输入至第二识别网络所包括的注意力网络，得到第二注意力特征向量，最后将第二注意力特征向量输入至第二识别网络所包括的FC层，由此得到第二文本概率值，该第二文本概率值为大于或等于0，且小于或等于1的整数。

可以理解的是，基于注意力网络的处理方式如下：

；

；

；

其中，

表示注意力特征向量（例如，第一注意力特征向量或者第二注意力特征向量），即利用注意力机制，计算49个待处理特征向量（例如，第二待处理特征向量或者第四待处理特征向量）的权重，并进行加权求和生成最终的512维注意力特征向量（例如，第一注意力特征向量或者第二注意力特征向量）。

表示待处理特征向量（例如，第一注意力特征向量或者第二注意力特征向量）的总数，

表示第

个待处理特征向量（例如，第一注意力特征向量或者第二注意力特征向量）的注意力编码结果，

表示第

个待处理特征向量（例如，第一注意力特征向量或者第二注意力特征向量），

表示第

个待处理特征向量（例如，第一注意力特征向量或者第二注意力特征向量）的中间编码向量，

和

表示注意力网络的网络参数。

再次，本申请实施例中，提供了一种基于注意力网络获取文本概率值的方式，通过上述方式，为了更准确地利用图像中的文本信息进行文本识别，引入了注意力网络对第一特征图和第二特征图进行计算，即先对卷积网络输出的第一特征图和第二特征图进行处理，再将处理后的结果输入至注意力网络，由注意力网络输出相应的注意力特征向量。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供另一个可选实施例中，基于第一特征图，通过第一识别网络所包括的图像特征提取网络，获取第一特征向量，具体包括如下步骤：

基于第一特征图，通过第一识别网络所包括的图像特征提取网络，获取K个第一待拼接特征向量，其中，K个第一待拼接特征向量包括通过平均池化层得到的第一待拼接特征向量，K为大于1的整数；

本实施例中，介绍了一种基于图像特征提取网络提取特征向量的方式。如前述实施例所描述的内容可知，由于文本识别网络属于孪生网络的结构，因此，文本识别网络所包括的第一识别网络与第二识别网络具有相似的结构。下面将介绍每个识别网络中基于图像相似度分支的特征处理方式。在图像相似度分支中，为了能够生成更具有信息量的高维图像特征，图像特征提取网络采用了开端-A（Inception-A）模块以及平均池化操作。

具体地，以特征图（即第一特征图以及第二特征图）尺寸为512×7×7作为示例进行说明，且为了更有效地与卷积网络的网络结构结合，将Inception-A模块的输入通道数由384修改为512，因此，第一识别网络以及第二识别网络输出的特征向量维度为512维。为了便于介绍，请参阅图10，图10为本申请实施例中图像特征提取网络的一个结构示意图，如图所示，将512×7×7的特征图（例如，第一特征图）输入至图像特征提取网络，通过图像特征提取网络中的平均池化层以及卷积核为1×1的卷积层，得到一个128维的第一待拼接特征向量。通过图像特征提取网络中的另一个卷积核为1×1的卷积层，得到一个128维的第一待拼接特征向量。通过图像特征提取网络中的一个卷积核为1×1的卷积层以及一个卷积核为3×3的卷积层，得到一个128维的第一待拼接特征向量。通过图像特征提取网络中的一个卷积核为1×1的卷积层以及两个卷积核为3×3的卷积层，得到一个128维的第一待拼接特征向量。基于此，即得到4个第一待拼接特征向量，此时，K等于4。将4个第一待拼接特征向量输入至图像特征提取网络所包括的滤波器串联（filter concatenation），得到特征向量（即512维的第一特征向量）。

类似地，基于图10可知，将512×7×7的特征图（例如，第二特征图）输入至图像特征提取网络，通过图像特征提取网络中的平均池化层以及卷积核为1×1的卷积层，得到一个128维的第二待拼接特征向量。通过图像特征提取网络中的另一个卷积核为1×1的卷积层，得到一个128维的第二待拼接特征向量。通过图像特征提取网络中的一个卷积核为1×1的卷积层以及一个卷积核为3×3的卷积层，得到一个128维的第二待拼接特征向量。通过图像特征提取网络中的一个卷积核为1×1的卷积层以及两个卷积核为3×3的卷积层，得到一个128维的第二待拼接特征向量。基于此，即得到4个第二待拼接特征向量，此时，K等于4。将4个第二待拼接特征向量输入至图像特征提取网络所包括的filter concatenation，得到特征向量（即512维的第二特征向量）。

再次，本申请实施例中，提供了一种基于图像特征提取网络提取特征向量的方式，通过上述方式，在图像相似度分支中，为了生成更具有信息量的高维图像特征，加入了Inception模块以及平均池化操作，这是因为Inception模块的设计较为合理，提取的图像特征更具有意义。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供另一个可选实施例中，基于第一特征向量以及第二特征向量，通过文本识别网络所包括的全连接层获取相似度分值，具体包括如下步骤：

对第一特征向量以及第二特征向量中相同位置上的元素进行相减，得到中间特征向量；

对中间特征向量进行取绝对值处理，得到目标特征向量；

基于目标特征向量，通过全连接层获取相似度分值。

本实施例中，介绍了一种基于FC层出相似度分值的方式。在基于第一识别网络获取到的第一特征向量，以及基于第二识别网络获取到的第二特征向量之后，可以对第一特征向量以及第二特征向量中相同位置上的元素进行相减，从而得到中间特征向量。为了便于理解，以第一特征向量为4个维度，第二特征向量也为4个维度作为示例进行介绍，需要说明的是，在实际应用中，第一特征向量以及第二特征向量可以是512维度，或者为其他设计的维度，此处仅为一个示意，不应理解为对本申请的限定。

具体地，假设第一特征向量为（3,1,8,5），第二特征向量为（5,1,10,6），对第一特征向量以及第二特征向量中相同位置上的元素进行相减，即，3-5=-2，1-1=0，8-10=-2，5-6=-1，由此得到中间特征向量（-2,0,-2,-1）。然后取中间特征向量的绝对值，即得到目标特征向量，例如，中间特征向量（-2,0,-2,-1）所对应的目标特征向量为（2,0,2,1）。将目标特征向量输入至FC层，FC层采用sigmoid激活函数将表示两个视频帧之间相似程度的特征向量（即第一特征向量和第二特征向量），从将高维特征映射到[0,1]，该[0,1]的值即为相似度分值。

可以理解的是，如果相似度分值越接近0，则表示第一视频帧内的文本与第二视频帧内的文本越相似，反之，如果相似度分值越接近1，则表示第一视频帧内的文本与第二视频帧内的文本越不同。

其次，本申请实施例中，提供了一种基于FC层出相似度分值的方式，通过上述方式，在得到第一特征向量以及第二特征向量之后，对两个特征向量进行绝对值相减操作，从而得到两个视频帧之间的差异，有利于输出更准确地判定结果。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供另一个可选实施例中，若第一文本概率值以及第二文本概率值均大于或等于文本概率阈值，且相似度分值小于或等于相似度阈值，还包括如下步骤：

获取第一视频帧所对应的第一帧标识以及第二视频帧所对应的第二帧标识；

根据第一帧标识、第二帧标识以及待识别视频的帧率，确定第一视频帧在待识别视频中的出现时间，以及第二视频帧在待识别视频中的出现时间。

本实施例中，介绍了一种确定视频帧在待识别视频中出现时间的方式。对于视频帧而言，每个视频帧会对应于一个帧标识，例如，第一视频帧所对应的第一帧标识为“010”，第二视频帧所对应的第二帧标识为“011”，以此类推。在确定第一文本概率值以及第二文本概率值均大于或等于文本概率阈值，且相似度分值小于或等于相似度阈值的情况下，即确定第一视频帧和第二视频帧均具有文本内容，且文本内容的相似度较高，基于此，还需要获取待识别视频的帧率，假设待识别视频的帧率为每秒10帧，且待识别视频的首个帧标识为“001”，由此可知，第一帧标识为待识别视频的第10个帧标识，第一视频帧在待识别视频中的出现时间为第1秒，第二帧标识为待识别视频的第11个帧标识，第二视频帧在待识别视频中的出现时间为第1.1秒。

进一步地，还可以根据帧标识以及待识别视频的帧率，从待识别视频中获取文本的起始时间以及终止时间，即得到文本视频帧区间，从文本视频帧区间内提取任意一个视频帧作为目标视频帧，并结合OCR技术检测目标视频帧中文本的内容以及所在位置等。

其次，本申请实施例中，提供了一种确定视频帧在待识别视频中出现时间的方式，通过上述方式，能够根据待识别视频的帧率以及帧标识，对对相同字幕的起始位置和终止位置进行预测，精确到每一个视频帧，从而提升视频识别的准确度。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供另一个可选实施例中，还包括如下步骤：

若第一文本概率值小于文本概率阈值，且第二文本概率值大于或等于文本概率阈值，则剔除第一视频帧；

若第一文本概率值大于或等于文本概率阈值，且第二文本概率值小于文本概率阈值，则剔除第二视频帧；

若第一文本概率值以及第二文本概率值均大于或等于文本概率阈值，且相似度分值小于或等于相似度阈值，则确定第一视频帧和第二视频帧属于同一个文本视频帧区间。

本实施例中，介绍了一种基于文本概率值对视频帧进行筛选的方式。在得到第一视频帧所对应的第一文本概率，以及第二视频帧所对应的第二文本概率之后，可优先判断视频帧中是否包含文本内容，如果不包含文本内容，则无需考虑相似度分值的影响。

具体地，如果第一文本概率小于文本概率阈值，则表示第一视频帧中不包含文本内容，于是直接剔除该第一视频帧，类似地，如果第二文本概率小于文本概率阈值，则表示第二视频帧中不包含文本内容，于是直接剔除该第二视频帧。如果第一文本概率值和第二文本概率值均大于或等于文本概率阈值，那么需要进一步判断相似度分值是否小于或等于文本概率阈值，若小于或等于相似度阈值，则表示第一视频帧和第二视频帧相似程度较高，因此，可确定第一视频帧和第二视频帧属于同一个文本视频帧区间。反之，如果相似度分值大于相似度阈值，则表示第一视频帧和第二视频帧相似程度较低，于是，第一视频帧和第二视频帧属于不同的文本视频帧区间。

需要说明的是，文本视频帧区间包含具有文本内容的视频帧，不同文本视频帧区间内所包括的视频帧往往具有不同的文字内容，例如，文本视频帧区间A中包括的文本内容是“新款小轿车”，文本视频帧区间B中包括的文本内容是“超市开业”。

其次，本申请实施例中，提供了一种基于文本概率值对视频帧进行筛选的方式，通过上述方式，可优先判定视频帧中是否包含文本内容，如果视频帧中不包含文本内容，则直接剔除该视频帧，并且不再考虑视频帧之间的相似度分值，从而提升处理效率。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供另一个可选实施例中，根据第一视频帧以及第二视频帧，确定目标视频帧，具体包括如下步骤：

确定第一视频帧与第二视频帧属于同一个文本视频帧区间，其中，文本视频帧区间内包括至少两个视频帧；

从文本视频帧区间中选择任意一个视频帧作为目标视频帧。

本实施例中，介绍了一种从文本视频帧区间中进行随机取样检测的方式。由前述实施例可知，在对两两相邻的视频帧进行检测后，可以确定文本视频帧区间，该文本视频帧区间内包括候选的视频帧。

具体地，以待识别视频的帧率为每秒10帧为例，假设文本视频帧区间为第3秒至第10秒，则共有7秒，即具有70个候选的视频帧。由此可知，这70个候选视频帧中的每个视频帧均包含文本内容，且每相邻两个视频帧之间的文本相似度较高，因此，可以从这70个候选的视频帧中取出任意一个视频帧作为这70个候选视频帧的“代表”，即选择出目标视频帧。

需要说明的是，可以从文本视频帧区间内随机选择一个视频帧作为目标视频帧，也可以将文本视频帧区间内的第一个视频帧作为目标视频帧，或者将文本视频帧区间中的最后一个视频帧作为目标视频帧，还可以采用其他的方式选择目标视频帧，此处不做限定。

其次，本申请实施例中，提供了一种从文本视频帧区间中进行随机取样检测的方式，通过上述方式，还可以从文本视频帧区间中选择任意一帧作为目标视频帧，从而仅对该目标视频帧进行OCR识别即可得到文本视频帧区间内每一帧的识别结果，由此提升了文本识别的效率，降低了识别所消耗的资源。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供另一个可选实施例中，对目标视频帧进行文本识别之后，还包括如下步骤：

获取文本视频帧区间所对应的时间区间，以及目标视频帧所对应的文本识别结果；

显示文本视频帧区间所对应的时间区间以及文本识别结果，其中，时间区间表示文本视频帧区间中第一个视频帧至最后一个视频帧的出现时间；

或者，

对目标视频帧进行文本识别之后，还包括如下步骤：

向终端设备发送文本识别结果以及文本视频帧区间所对应的时间区间，以使终端设备显示文本视频帧区间所对应的时间区间以及文本识别结果。

本实施例中，介绍了一种展示时间区间以及文本识别结果的方式。文本识别结果包括文本内容，还可以包括文本位置，其中，文本内容可以是对话字幕或者路牌上的文本等，此处不做限定。

具体地，在获取到目标视频帧之后，采用OCR技术对目标视频帧进行识别，从而得到文本识别结果。为了便于理解，请参阅图11，图11为本申请实施例中显示文本识别结果的一个界面示意图，如图所示，文本识别结果包括文本内容，例如，“新款小轿车”，文本识别结果还包括文本位置，例如，“宽度：1500，高度：400，左间距：500，上间距：10”。此外，还可以显示目标视频帧对应文本视频帧区间的时间区间，例如，“2分52秒至2分55秒”。

需要说明的是，如果文本识别装置部署于服务器，则服务器可以将文本视频帧区间所对应的时间区间，以及目标视频帧所对应的文本识别结果反馈至终端设备，由终端设备进行显示。如果文本识别装置部署于终端设备，则终端设备可以直接显示文本视频帧区间所对应的时间区间，以及目标视频帧所对应的文本识别结果。

再次，本申请实施例中，提供了一种展示时间区间以及文本识别结果的方式，通过上述方式，可以将本方案应用于视频字幕提取***以及文字视频理解***中，还可以应用于视频自动语音识别技术（Automatic Speech Recognition）智能标注任务中，从而能够快速且准确地提取视频中的文本信息，通过对视频的文本提取，并根据文本提取的时间信息，获取视频中的语音，从而完成语音与文字对应的过程。此外，为字幕翻译和字幕处理工作提供了一种便捷的字幕文本提取方法，减轻了字幕工作的负担。

结合上述介绍，下面将对本申请中模型训练的方法进行介绍，请参阅图12，本申请实施例中对模型训练方法的一个实施例包括：

201、获取待训练样本对，其中，待训练样本对包括第一视频帧样本以及第二视频帧样本，第一视频帧样本对应于第一文本标注值，第二视频帧样本对应于第二文本标注值，待训练样本对对应于相似度标注值；

本实施例中，模型训练装置获取待训练样本对，待训练样本对来源于一个或多个视频，视频的类型包含但不仅限于MPEG格式、ASF、AVI格式、RMVB格式以及FLV格式等，此处不做限定。

具体地，在获取到视频之后可使用FFmpeg将视频解码为连续的视频帧，然后从视频中选择用于训练的待训练样本对，每个待训练样本对包括相邻的两个视频帧，即第一视频帧样本以及第二视频帧样本。基于此，再对第一视频帧样本和第二视频帧样本分别进行标注，标注的方式可以是人工标注，也可以是机器自动标注，此处不做限定。标注的内容包括每个视频帧样本的文本标注值，例如，文本标注值为“0”，表示该视频帧样本中没有文本内容，而文本标注值为“1”，表示该视频帧样本中具有文本内容。此外，标注的内容还包括两个相邻视频帧样本的相似度标注值，例如，相似度标注值为“0”，表示两个相邻视频帧样本具有相似的文本，而相似度标注值为“1”，表示两个相邻视频帧样本具有不同的文本。

需要说明的是，模型训练装置部署于计算机设备，具体可部署于终端设备或者服务器，还可以部署于由服务器和终端设备共同构成的一个***，此处不做限定。

202、基于第一视频帧样本，通过待训练文本识别网络所包括的第一识别网络获取第一文本概率值以及第一特征向量，其中，第一文本概率值表示第一视频帧中出现文本的概率；

本实施例中，以第一视频帧样本和第二视频帧样本构成的视频帧对为例，模型训练装置将第一视频帧样本输入至待训练文本识别网络所包括的第一识别网络，由第一识别网络输出第一文本概率值以及第一特征向量。其中，待训练文本识别网络采用孪生网络的网络结构，孪生网络包含两个子网络，即第一识别网络和第二识别网络，每个子网络各自接受不同输入，将其映射至高维特征空间，并输出对应的表征。通过计算两个表征的距离（例如，欧式距离），可以比较两个输入的相似程度，两个子网络的权重可以由能量函数或分类损失优化。

具体地，在待训练文本识别网络的顶层使用一个能量函数，该能量函数是一个绝对值相减的函数，在该能量函数后面连接全连接层，用于进行相似度计算。

203、基于第二视频帧样本，通过待训练文本识别网络所包括的第二识别网络获取第二文本概率值以及第二特征向量，其中，第二文本概率值表示第二视频帧中出现文本的概率，第二识别网络与第一识别网络之间共享权重；

本实施例中，由步骤202所描述的内容可知，模型训练装置还需要将第二视频帧样本输入至待训练文本识别网络所包括的第二识别网络，由第二识别网络输出第二文本概率值以及第二特征向量。由此可见，将第一视频帧样本和第二视频帧样本作为待训练文本识别网络的输入，可计算视频帧之间文本的相似程度以及含有文本的可能性。由于待训练文本识别网络为孪生网络的结构，因此，两个“双胞胎”网络（即第一识别网络和第二识别网络）之间的网络参数是共享的，共享的网络参数能够保证两个极其相似的图像可能无法通过各自的网络映射到特征空间中非常不同的位置，因为每个网络都计算相同的功能，即两个极其相似的图像不可能被映射到特征空间中的不同位置。孪生网络（即待训练文本识别网络）是对称的，这样能够保证两个不同的视频帧在输入到不同的“双胞胎”网络（即第一识别网络和第二识别网络）中时，顶层的能量函数能够获取相同的相似度。

204、基于第一特征向量以及第二特征向量，通过待训练文本识别网络所包括的全连接层获取相似度分值；

本实施例中，模型训练装置将第一特征向量以及第二特征向量，输入至待训练文本识别网络所包括的FC层，通过FC层输出第一视频帧样本与第二视频帧样本之间的相似度分值。可以理解的是，待训练文本识别网络的整体结构与图5所示的文本识别网络相似，故此处不做赘述。

205、根据第一文本标注值、第一文本概率值、第二文本标注值、第二文本概率值、第二文本概率值、相似度标注值以及相似度分值，对待训练文本识别网络进行训练，当满足模型训练条件时，输出文本识别网络，其中，文本识别网络为上述实施例所涉及的文本识别网络。

本实施例中，将第一文本标注值作为第一视频帧样本的文本概率真实值，将第一文本概率值作为第一视频帧样本的文本概率预测值，并且，将第二文本标注值作为第二视频帧样本的文本概率真实值，将第二文本概率值作为第二视频帧样本的文本概率预测值，并且，将相似度标注值作为真实值，将相似度分值作为预测值。

具体地，基于真实值与预测值之间的损失值，对待训练文本识别网络进行训练。如果达到预先设定的迭代次数（例如，十万次），或者损失值已经达到收敛，则表示已满足模型训练条件，因此，将最近一次更新得到的模型参数作为文本识别网络的模型参数，即完成对待训练文本识别网络的训练，得到文本识别网络。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供另一个可选实施例中，根据第一文本标注值、第一文本概率值、第二文本标注值、第二文本概率值、第二文本概率值、相似度标注值以及相似度分值，对待训练文本识别网络进行训练，包括：

根据第一文本标注值以及第一文本概率值，采用第一损失函数确定第一损失值；

本实施例中，介绍了一种使用损失函数对文本识别网络进行训练的方式。如前述实施例所描述的内容可知，由于文本识别网络属于孪生网络的结构，因此，文本识别网络所包括的第一识别网络与第二识别网络具有相似的结构，每个识别网络包括两个分支，一个分支为文本分支，另一个分值为图像相似度分支，因此，需要对文本分支和图像相似度分支均进行训练。

具体地，待训练文本识别网络的输出包括两个任务，分别为基于文本分支的任务（即判断视频帧中是否含有文本），以及基于图像相似度分支的任务（即判断第一视频帧中的文本与第二视频帧中的文本是否足够相似）。为了准确地识别视频帧中是否包含文本，可引入交叉熵函数对文本分支的任务进行训练，下面将通过多任务损失函数实现三种不同任务的联合训练。多任务损失函数的计算方式如下：

；

其中，

表示第一视频帧样本，

表示第二视频帧样本，

表示第一权重值，

表示第二权重值，

表示第一文本标注值，

表示第一文本概率值，

表示第一损失值，

表示第二文本标注值，

表示第二文本概率值，

表示第二损失值，

表示相似度标注值，

表示相似度分值，

表示第三损失值。

最后，根据第一损失值、第二损失值和第三损失值，确定总的损失值，基于总的损失值，采用反向梯度更新的方式更新待训练文本识别网络的模型参数。

其次，本申请实施例中，提供了一种使用损失函数对文本识别网络进行训练的方式，通过上述方式，可采用多任务损失函数对文本识别网络中的多个任务进行训练，由此，同时兼顾特征共享部分和任务特定部分，既需要学习任务间的泛化表示，避免过拟合，也需要学习每个任务独有的特征，避免欠拟合。多任务学习的损失函数，对每个任务的损失进行权重分配，在这个过程中，自动学习这些权重或者设计一个对所有权重具有鲁棒性的网络是十分必要和重要的。

下面对本申请中的文本识别装置进行详细描述，请参阅图13，图13为本申请实施例中文本识别装置的一个实施例示意图，文本识别装置30包括：

获取模块301，用于从待识别视频中获取第一视频帧以及第二视频帧，其中，待识别视频包括至少两个视频帧，第一视频帧与第二视频帧为相邻的两个视频帧；

获取模块301，还用于基于第一视频帧，通过文本识别网络所包括的第一识别网络获取第一文本概率值以及第一特征向量，其中，第一文本概率值表示第一视频帧中出现文本的概率；

获取模块301，还用于基于第二视频帧，通过文本识别网络所包括的第二识别网络获取第二文本概率值以及第二特征向量，其中，第二文本概率值表示第二视频帧中出现文本的概率，第二识别网络与第一识别网络之间共享权重；

获取模块301，还用于基于第一特征向量以及第二特征向量，通过文本识别网络所包括的全连接层获取相似度分值；

确定模块302，用于若第一文本概率值以及第二文本概率值均大于或等于文本概率阈值，且相似度分值小于或等于相似度阈值，则根据第一视频帧以及第二视频帧，确定目标视频帧；

识别模块303，用于对目标视频帧进行文本识别。

可选地，在上述图13所对应的实施例的基础上，本申请实施例提供的文本识别装置30的另一实施例中，

获取模块301，具体用于基于第一视频帧，通过第一识别网络所包括的卷积网络获取第一特征图，其中，第一识别网络属于文本识别网络；

获取模块301，具体用于基于第二视频帧，通过第二识别网络所包括的卷积网络获取第二特征图，其中，第二识别网络属于文本识别网络；

获取模块301，具体用于根据第一特征图生成第一待处理特征向量集合，其中，第一待处理特征向量集合包括M个第一待处理特征向量，每个第一待处理特征向量包括N个元素，N和M的均为大于1的整数；

获取模块301，具体用于根据第二特征图生成第三待处理特征向量集合，其中，第三待处理特征向量集合包括M个第三待处理特征向量，每个第三待处理特征向量包括N个元素；

获取模块301，具体用于基于第一特征图，通过第一识别网络所包括的图像特征提取网络，获取K个第一待拼接特征向量，其中，K个第一待拼接特征向量包括通过平均池化层得到的第一待拼接特征向量，K为大于1的整数；

获取模块301，具体用于对第一特征向量以及第二特征向量中相同位置上的元素进行相减，得到中间特征向量；

对中间特征向量进行取绝对值处理，得到目标特征向量；

基于目标特征向量，通过全连接层获取相似度分值。

获取模块301，还用于若第一文本概率值以及第二文本概率值均大于或等于文本概率阈值，且相似度分值小于或等于相似度阈值，获取第一视频帧所对应的第一帧标识以及第二视频帧所对应的第二帧标识；

确定模块302，还用于根据第一帧标识、第二帧标识以及待识别视频的帧率，确定第一视频帧在待识别视频中的出现时间，以及第二视频帧在待识别视频中的出现时间。

可选地，在上述图13所对应的实施例的基础上，本申请实施例提供的文本识别装置30的另一实施例中，文本识别装置30还包括处理模块304；

处理模块304，用于若第一文本概率值小于文本概率阈值，且第二文本概率值大于或等于文本概率阈值，则剔除第一视频帧；

处理模块304，还用于若第一文本概率值大于或等于文本概率阈值，且第二文本概率值小于文本概率阈值，则剔除第二视频帧；

确定模块302，还用于若第一文本概率值以及第二文本概率值均大于或等于文本概率阈值，且相似度分值小于或等于相似度阈值，则确定第一视频帧和第二视频帧属于同一个文本视频帧区间。

确定模块302，具体用于确定第一视频帧与第二视频帧属于同一个文本视频帧区间，其中，文本视频帧区间内包括至少两个视频帧；

从文本视频帧区间中选择任意一个视频帧作为目标视频帧。

可选地，在上述图13所对应的实施例的基础上，本申请实施例提供的文本识别装置30的另一实施例中，文本识别装置30还包括显示模块305；

获取模块301，还用于在识别模块303对目标视频帧进行文本识别之后，获取文本视频帧区间所对应的时间区间，以及目标视频帧所对应的文本识别结果；

显示模块305，用于显示文本视频帧区间所对应的时间区间以及文本识别结果，其中，时间区间表示文本视频帧区间中第一个视频帧至最后一个视频帧的出现时间；

或者，

显示模块305，还用于向终端设备发送文本识别结果以及文本视频帧区间所对应的时间区间，以使终端设备显示文本视频帧区间所对应的时间区间以及文本识别结果。

下面对本申请中的模型训练装置进行详细描述，请参阅图13，图13为本申请实施例中模型训练装置的一个实施例示意图，模型训练装置40包括：

获取模块401，用于获取待训练样本对，其中，待训练样本对包括第一视频帧样本以及第二视频帧样本，第一视频帧样本对应于第一文本标注值，第二视频帧样本对应于第二文本标注值，待训练样本对对应于相似度标注值；

获取模块401，还用于基于第一视频帧样本，通过待训练文本识别网络所包括的第一识别网络获取第一文本概率值以及第一特征向量，其中，第一文本概率值表示第一视频帧中出现文本的概率；

获取模块401，还用于基于第二视频帧样本，通过待训练文本识别网络所包括的第二识别网络获取第二文本概率值以及第二特征向量，其中，第二文本概率值表示第二视频帧中出现文本的概率，第二识别网络与第一识别网络之间共享权重；

获取模块401，还用于基于第一特征向量以及第二特征向量，通过待训练文本识别网络所包括的全连接层获取相似度分值；

训练模块402，用于根据第一文本标注值、第一文本概率值、第二文本标注值、第二文本概率值、第二文本概率值、相似度标注值以及相似度分值，对待训练文本识别网络进行训练，当满足模型训练条件时，输出文本识别网络，其中，文本识别网络为采用上述方面所提供的文本识别网络。

可选地，在上述图14所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，

训练模块402，具体用于根据第一文本标注值以及第一文本概率值，采用第一损失函数确定第一损失值；

本申请实施例还提供了另一种文本识别装置以及模型训练装置，文本识别装置以及模型训练装置中的任意一个装置可部署于终端设备。如图15所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理（Personal Digital Assistant，PDA）、销售终端设备（Point of Sales，POS）、车载电脑等任意终端设备，以终端设备为手机为例：

图15示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图15，手机包括：射频（Radio Frequency，RF）电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真（wireless fidelity，WiFi）模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图15中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图15对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（Low Noise Amplifier，LNA）、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯*** （Global System ofMobile communication，GSM）、通用分组无线服务（General Packet Radio Service，GPRS）、码分多址（Code Division Multiple Access，CDMA）、宽带码分多址（Wideband CodeDivision Multiple Access, WCDMA）、长期演进（Long Term Evolution，LTE）、电子邮件、短消息服务（Short Messaging Service，SMS）等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器（Liquid CrystalDisplay，LCD）、有机发光二极管（Organic Light-Emitting Diode，OLED）等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图15中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等; 至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图15示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；可选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590（比如电池），可选的，电源可以通过电源管理***与处理器580逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

上述实施例中由终端设备所执行的步骤可以基于该图15所示的终端设备结构。

本申请实施例还提供了另一种文本识别装置以及模型训练装置，文本识别装置以及模型训练装置中的任意一个装置可部署于终端设备。图16是本申请实施例提供的一种服务器结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器（central processing units，CPU）622（例如，一个或一个以上处理器）和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630（例如一个或一个以上海量存储设备）。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作***641，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图16所示的服务器结构。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于视频的文本识别方法，其特征在于，包括：

从待识别视频中获取第一视频帧以及第二视频帧，其中，所述待识别视频包括至少两个视频帧，所述第一视频帧与所述第二视频帧为相邻的两个视频帧；

基于所述第一视频帧，通过文本识别网络所包括的第一识别网络获取第一文本概率值以及第一特征向量，其中，所述第一文本概率值表示所述第一视频帧中出现文本的概率；

基于所述第二视频帧，通过所述文本识别网络所包括的第二识别网络获取第二文本概率值以及第二特征向量，其中，所述第二文本概率值表示所述第二视频帧中出现文本的概率，所述第二识别网络与所述第一识别网络之间共享权重；

基于所述第一特征向量以及所述第二特征向量，通过所述文本识别网络所包括的全连接层获取相似度分值；

若所述第一文本概率值以及所述第二文本概率值均大于或等于文本概率阈值，且所述相似度分值小于或等于相似度阈值，则根据所述第一视频帧以及所述第二视频帧，确定目标视频帧；

对所述目标视频帧进行文本识别。

2.根据权利要求1所述的文本识别方法，其特征在于，所述基于所述第一视频帧，通过文本识别网络所包括的第一识别网络获取第一文本概率值以及第一特征向量，包括：

基于所述第一视频帧，通过所述第一识别网络所包括的卷积网络获取第一特征图，其中，所述第一识别网络属于所述文本识别网络；

基于所述第一特征图，通过所述第一识别网络所包括的注意力网络，获取所述第一文本概率值；

基于所述第一特征图，通过所述第一识别网络所包括的图像特征提取网络，获取所述第一特征向量；

所述基于所述第二视频帧，通过所述文本识别网络所包括的第二识别网络获取第二文本概率值以及第二特征向量，包括：

基于所述第二视频帧，通过所述第二识别网络所包括的卷积网络获取第二特征图，其中，所述第二识别网络属于所述文本识别网络；

基于所述第二特征图，通过所述第二识别网络所包括的注意力网络，获取所述第二文本概率值；

基于所述第二特征图，通过所述第二识别网络所包括的图像特征提取网络，获取所述第二特征向量。

3.根据权利要求2所述的文本识别方法，其特征在于，所述基于所述第一特征图，通过所述第一识别网络所包括的注意力网络，获取所述第一文本概率值，包括：

根据所述第一特征图生成第一待处理特征向量集合，其中，所述第一待处理特征向量集合包括M个第一待处理特征向量，每个第一待处理特征向量包括N个元素，所述N和所述M的均为大于1的整数；

根据所述第一待处理特征向量集合生成第二待处理特征向量集合，其中，所述第二待处理特征向量集合包括N个第二待处理特征向量，每个第二待处理特征向量包括M个元素；

基于所述第二待处理特征向量集合，通过所述第一识别网络所包括的注意力网络，获取第一注意力特征向量；

基于所述第一注意力特征向量，通过所述第一识别网络所包括的全连接层，获取所述第一文本概率值；

所述基于所述第二特征图，通过所述第二识别网络所包括的注意力网络，获取所述第二文本概率值，包括：

根据所述第二特征图生成第三待处理特征向量集合，其中，所述第三待处理特征向量集合包括M个第三待处理特征向量，每个第三待处理特征向量包括N个元素；

根据所述第三待处理特征向量集合生成第四待处理特征向量集合，其中，所述第四待处理特征向量集合包括N个第四待处理特征向量，每个第四待处理特征向量包括M个元素；

基于所述第四待处理特征向量集合，通过所述第二识别网络所包括的注意力网络，获取第二注意力特征向量；

基于所述第二注意力特征向量，通过所述第二识别网络所包括的全连接层，获取所述第二文本概率值。

4.根据权利要求2所述的文本识别方法，其特征在于，所述基于所述第一特征图，通过所述第一识别网络所包括的图像特征提取网络，获取所述第一特征向量，包括：

基于所述第一特征图，通过所述第一识别网络所包括的图像特征提取网络，获取K个第一待拼接特征向量，其中，所述K个第一待拼接特征向量包括通过平均池化层得到的第一待拼接特征向量，所述K为大于1的整数；

根据所述K个第一待拼接特征向量，通过所述第一识别网络所包括的图像特征提取网络，获取所述第一特征向量；

所述基于所述第二特征图，通过所述第二识别网络所包括的图像特征提取网络，获取所述第二特征向量，包括：

基于所述第二特征图，通过所述第二识别网络所包括的图像特征提取网络，获取K个第二待拼接特征向量，其中，所述K个第二待拼接特征向量包括通过平均池化层得到的第二待拼接特征向量；

根据所述K个第二待拼接特征向量，通过所述第二识别网络所包括的图像特征提取网络，获取所述第二特征向量。

5.根据权利要求1所述的文本识别方法，其特征在于，所述基于所述第一特征向量以及所述第二特征向量，通过所述文本识别网络所包括的全连接层获取相似度分值，包括：

对所述第一特征向量以及所述第二特征向量中相同位置上的元素进行相减，得到中间特征向量；

对所述中间特征向量进行取绝对值处理，得到目标特征向量；

基于所述目标特征向量，通过所述全连接层获取所述相似度分值。

6.根据权利要求1所述的文本识别方法，其特征在于，所述若所述第一文本概率值以及所述第二文本概率值均大于或等于文本概率阈值，且所述相似度分值小于或等于相似度阈值，所述方法还包括：

获取所述第一视频帧所对应的第一帧标识以及所述第二视频帧所对应的第二帧标识；

根据所述第一帧标识、所述第二帧标识以及所述待识别视频的帧率，确定所述第一视频帧在所述待识别视频中的出现时间，以及所述第二视频帧在所述待识别视频中的出现时间。

7.根据权利要求1所述的文本识别方法，其特征在于，所述方法还包括：

若所述第一文本概率值小于所述文本概率阈值，且所述第二文本概率值大于或等于所述文本概率阈值，则剔除所述第一视频帧；

若所述第一文本概率值大于或等于所述文本概率阈值，且所述第二文本概率值小于所述文本概率阈值，则剔除所述第二视频帧；

若所述第一文本概率值以及所述第二文本概率值均大于或等于文本概率阈值，且所述相似度分值小于或等于所述相似度阈值，则确定所述第一视频帧和所述第二视频帧属于同一个文本视频帧区间。

8.根据权利要求1所述的文本识别方法，其特征在于，所述根据所述第一视频帧以及所述第二视频帧，确定目标视频帧，包括：

确定所述第一视频帧与所述第二视频帧属于同一个文本视频帧区间，其中，所述文本视频帧区间内包括至少两个视频帧；

从所述文本视频帧区间中选择任意一个视频帧作为所述目标视频帧。

9.根据权利要求8所述的文本识别方法，其特征在于，所述对所述目标视频帧进行文本识别之后，所述方法还包括：

获取所述文本视频帧区间所对应的时间区间，以及所述目标视频帧所对应的文本识别结果；

显示所述文本视频帧区间所对应的时间区间以及所述文本识别结果，其中，所述时间区间表示所述文本视频帧区间中第一个视频帧至最后一个视频帧的出现时间；

或者，

所述对所述目标视频帧进行文本识别之后，所述方法还包括：

向终端设备发送所述文本识别结果以及所述文本视频帧区间所对应的时间区间，以使所述终端设备显示所述文本视频帧区间所对应的时间区间以及所述文本识别结果。

10.一种模型训练的方法，其特征在于，包括：

获取待训练样本对，其中，所述待训练样本对包括第一视频帧样本以及第二视频帧样本，所述第一视频帧样本对应于第一文本标注值，所述第二视频帧样本对应于第二文本标注值，所述待训练样本对对应于相似度标注值；

基于所述第一视频帧样本，通过待训练文本识别网络所包括的第一识别网络获取第一文本概率值以及第一特征向量，其中，所述第一文本概率值表示所述第一视频帧中出现文本的概率；

基于所述第二视频帧样本，通过所述待训练文本识别网络所包括的第二识别网络获取第二文本概率值以及第二特征向量，其中，所述第二文本概率值表示所述第二视频帧中出现文本的概率，所述第二识别网络与所述第一识别网络之间共享权重；

基于所述第一特征向量以及所述第二特征向量，通过所述待训练文本识别网络所包括的全连接层获取相似度分值；

根据所述第一文本标注值、所述第一文本概率值、所述第二文本标注值、所述第二文本概率值、所述第二文本概率值、所述相似度标注值以及所述相似度分值，对所述待训练文本识别网络进行训练，当满足模型训练条件时，输出文本识别网络，其中，所述文本识别网络为上述权利要求1至9中任一项所述的文本识别网络。

11.根据权利要求10所述的方法，其特征在于，所述根据所述第一文本标注值、所述第一文本概率值、所述第二文本标注值、所述第二文本概率值、所述第二文本概率值、所述相似度标注值以及所述相似度分值，对所述待训练文本识别网络进行训练，包括：

根据所述第一文本标注值以及所述第一文本概率值，采用第一损失函数确定第一损失值；

根据所述第二文本标注值以及所述第二文本概率值，采用第二损失函数确定第二损失值；

根据所述相似度标注值以及所述相似度分值，采用第三损失函数确定第三损失值；

根据所述第一损失值、所述第二损失值和第三损失值，更新所述待训练文本识别网络的模型参数。

12.一种文本识别装置，其特征在于，包括：

获取模块，用于从待识别视频中获取第一视频帧以及第二视频帧，其中，所述待识别视频包括至少两个视频帧，所述第一视频帧与所述第二视频帧为相邻的两个视频帧；

所述获取模块，还用于基于所述第一视频帧，通过文本识别网络所包括的第一识别网络获取第一文本概率值以及第一特征向量，其中，所述第一文本概率值表示所述第一视频帧中出现文本的概率；

所述获取模块，还用于基于所述第二视频帧，通过所述文本识别网络所包括的第二识别网络获取第二文本概率值以及第二特征向量，其中，所述第二文本概率值表示所述第二视频帧中出现文本的概率，所述第二识别网络与所述第一识别网络之间共享权重；

所述获取模块，还用于基于所述第一特征向量以及所述第二特征向量，通过所述文本识别网络所包括的全连接层获取相似度分值；

确定模块，用于若所述第一文本概率值以及所述第二文本概率值均大于或等于文本概率阈值，且所述相似度分值小于或等于相似度阈值，则根据所述第一视频帧以及所述第二视频帧，确定目标视频帧；

识别模块，用于对所述目标视频帧进行文本识别。

13.一种模型训练装置，其特征在于，包括：

获取模块，用于获取待训练样本对，其中，所述待训练样本对包括第一视频帧样本以及第二视频帧样本，所述第一视频帧样本对应于第一文本标注值，所述第二视频帧样本对应于第二文本标注值，所述待训练样本对对应于相似度标注值；

所述获取模块，还用于基于所述第一视频帧样本，通过待训练文本识别网络所包括的第一识别网络获取第一文本概率值以及第一特征向量，其中，所述第一文本概率值表示所述第一视频帧中出现文本的概率；

所述获取模块，还用于基于所述第二视频帧样本，通过所述待训练文本识别网络所包括的第二识别网络获取第二文本概率值以及第二特征向量，其中，所述第二文本概率值表示所述第二视频帧中出现文本的概率，所述第二识别网络与所述第一识别网络之间共享权重；

所述获取模块，还用于基于所述第一特征向量以及所述第二特征向量，通过所述待训练文本识别网络所包括的全连接层获取相似度分值；

训练模块，用于根据所述第一文本标注值、所述第一文本概率值、所述第二文本标注值、所述第二文本概率值、所述第二文本概率值、所述相似度标注值以及所述相似度分值，对所述待训练文本识别网络进行训练，当满足模型训练条件时，输出文本识别网络，其中，所述文本识别网络为上述权利要求1至9中任一项所述的文本识别网络。

14.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如上述权利要求1至9中任意一项所述的文本识别方法，或者，执行如上述权利要求10至11中任意一项所述的方法；

所述总线***用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9中任一项所述的文本识别方法，或者，执行如上述权利要求10至11中任意一项所述的方法。