CN111753821A

CN111753821A - 一种文本检测方法和装置

Info

Publication number: CN111753821A
Application number: CN201910236435.9A
Authority: CN
Inventors: 卢晶
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2020-10-09

Abstract

本申请实施例提供了一种文本检测方法和装置，可以获取待检测图像帧和关联图像帧各自的特征信息，根据关联图像帧和待检测图像帧之间的光流信息，对关联图像帧的特征信息进行变换处理，并对变换处理后的特征信息和待检测图像帧的特征信息进行叠加处理，得到目标特征信息，基于目标特征信息，确定待检测图像帧中的目标图像区域。关联图像帧与待检测图像帧存在时序上的关联性，目标特征信息则结合了关联图像帧和待检测图像帧的图像特征，相对于提取得到的待检测图像帧的特征信息，目标特征信息能够更准确地体现待检测图像帧的图像特征，因此，基于目标特征信息，确定待检测图像帧中的目标图像区域，能够提高文本检测结果的准确度。

Description

一种文本检测方法和装置

技术领域

本申请涉及图像识别技术领域，特别是涉及一种文本检测方法和装置。

背景技术

在交通监控等应用场景中，通常需要对视频图像进行文本检测，以确定出该视频图像中的每一图像帧中包含文本信息的图像区域(可以称为目标图像区域)。

相关技术中，在对该视频图像进行文本检测时，针对该视频图像中的每一图像帧，可以对该图像帧进行特征提取，得到该图像帧对应的特征信息，特征信息可以包括该图像帧中每一像素点的位置属于目标图像区域的概率，进而，可以根据该图像帧对应的特征信息，确定出该图像帧中的目标图像区域。

然而，在该视频图像的采集过程中，光照、相机失焦等因素都可能导致图像帧中出现图像模糊或其他图像质量问题，因此，相关技术中，针对某一图像帧，仅根据该图像帧进行文本检测，检测结果的准确度较低。

发明内容

本申请实施例的目的在于提供一种文本检测方法和装置，可以提高文本检测结果的准确度。具体技术方案如下：

第一方面，为了达到上述目的，本申请实施例公开了一种文本检测方法，所述方法包括：

获取视频图像中的待检测图像帧和关联图像帧，其中，所述关联图像帧包括所述视频图像中与所述待检测图像帧之间相隔的图像帧的数目小于预设数目的至少一个图像帧；

对所述待检测图像帧和所述关联图像帧进行特征提取，得到所述待检测图像帧和所述关联图像帧各自的特征信息；

获取所述关联图像帧和所述待检测图像帧之间的光流信息，并根据所述光流信息对所述关联图像帧的特征信息进行变换处理，其中，所述光流信息表示所述关联图像帧和所述待检测图像帧中表示同一对象的像素点的位置的相对偏移量；

对变换处理后的特征信息和所述待检测图像帧的特征信息进行叠加处理，得到目标特征信息；

基于所述目标特征信息，确定所述待检测图像帧中包含文本信息的目标图像区域。

可选的，所述根据所述光流信息对所述关联图像帧的特征信息进行变换处理，包括：

针对所述关联图像帧和所述待检测图像帧中表示同一对象的像素点，获取所述像素点在所述关联图像帧和所述待检测图像帧中位置的相对偏移量；

根据所述像素点在所述关联图像帧中的坐标和所述像素点的位置的相对偏移量，确定变换处理后与所述像素点在所述关联图像帧中的位置具有相同特征信息的目标位置；

将所述目标位置的特征信息，设置为所述像素点在所述关联图像帧中的位置的特征信息。

可选的，所述对变换处理后的特征信息和所述待检测图像帧的特征信息进行叠加处理，得到目标特征信息，包括：

获取变换处理后的特征信息和所述待检测图像帧的特征信息各自的权重；

按照所述权重，计算变换处理后的特征信息和所述待检测图像帧的特征信息的加权和，得到目标特征信息。

可选的，所述关联图像帧满足以下条件：

如果所述待检测图像帧为所述视频图像中的第一个图像帧，则所述关联图像帧包括所述视频图像中位于所述待检测图像帧之后，且与所述待检测图像帧之间相隔的图像帧的数目小于预设数目的图像帧；

如果所述待检测图像帧为所述视频图像中的最后一个图像帧，则所述关联图像帧包括所述视频图像中位于所述待检测图像帧之前，且与所述待检测图像帧之间相隔的图像帧的数目小于预设数目的图像帧；

如果所述待检测图像帧不是所述视频图像中的第一个图像帧，且不是所述视频图像中的最后一个图像帧，则所述关联图像帧包括所述视频图像中位于所述待检测图像帧之前且与所述待检测图像帧之间相隔的图像帧的数目小于预设数目的图像帧，以及位于所述待检测图像帧之后且与所述待检测图像帧之间相隔的图像帧的数目小于预设数目的图像帧。

可选的，在所述确定所述待检测图像帧中包含文本信息的目标图像区域之后，所述方法还包括：

按照预设标记方式，在所述待检测图像帧中标记所述目标图像区域。

第二方面，为了达到上述目的，本申请实施例公开了一种文本检测装置，所述装置包括：

获取模块，用于获取视频图像中的待检测图像帧和关联图像帧，其中，所述关联图像帧包括所述视频图像中与所述待检测图像帧之间相隔的图像帧的数目小于预设数目的至少一个图像帧；

提取模块，用于对所述待检测图像帧和所述关联图像帧进行特征提取，得到所述待检测图像帧和所述关联图像帧各自的特征信息；

变换模块，用于获取所述关联图像帧和所述待检测图像帧之间的光流信息，并根据所述光流信息对所述关联图像帧的特征信息进行变换处理，其中，所述光流信息表示所述关联图像帧和所述待检测图像帧中表示同一对象的像素点的位置的相对偏移量；

叠加模块，用于对变换处理后的特征信息和所述待检测图像帧的特征信息进行叠加处理，得到目标特征信息；

确定模块，用于基于所述目标特征信息，确定所述待检测图像帧中包含文本信息的目标图像区域。

可选的，所述变换模块，具体用于针对所述关联图像帧和所述待检测图像帧中表示同一对象的像素点，获取所述像素点在所述关联图像帧和所述待检测图像帧中位置的相对偏移量；

可选的，所述叠加模块，具体用于获取变换处理后的特征信息和所述待检测图像帧的特征信息各自的权重；

可选的，所述关联图像帧满足以下条件：

可选的，所述装置还包括：

标记模块，用于按照预设标记方式，在所述待检测图像帧中标记所述目标图像区域。

在本申请实施的另一方面，为了达到上述目的，本申请实施例还公开了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现如上述第一方面所述的文本检测方法。

在本申请实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，实现如上述第一方面所述的文本检测方法。

在本申请实施的又一方面，本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的文本检测方法。

本申请实施例提供了一种文本检测方法，可以获取待检测图像帧和关联图像帧各自的特征信息，根据关联图像帧和待检测图像帧之间的光流信息，对关联图像帧的特征信息进行变换处理，并对变换处理后的特征信息和待检测图像帧的特征信息进行叠加处理，得到目标特征信息，基于目标特征信息，确定待检测图像帧中的目标图像区域。关联图像帧与待检测图像帧存在时序上的关联性，目标特征信息则结合了关联图像帧和待检测图像帧的图像特征，相对于提取得到的待检测图像帧的特征信息，目标特征信息能够更准确地体现待检测图像帧的图像特征，因此，基于目标特征信息，确定待检测图像帧中的目标图像区域，能够提高文本检测结果的准确度。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本检测方法的流程图；

图2为本申请实施例提供的一种包含文本信息的图像帧的示意图；

图3为本申请实施例提供的一种包含文本信息的图像帧的特征图像的示意图；

图4为本申请实施例提供的一种包含文本信息的图像帧的示意图；

图5为本申请实施例提供的一种包含文本信息的图像帧的特征图像的示意图；

图6为本申请实施例提供的一种文本检测方法示例的流程图；

图7为本申请实施例提供的一种文本检测处理过程的示意图；

图8为本申请实施例提供的一种文本检测装置的结构图；

图9为本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在视频图像的采集过程中，光照、相机失焦等因素都可能导致采集到的图像帧中出现图像模糊或其他图像质量问题，而相关技术中，针对某一图像帧，仅根据该图像帧进行文本检测，检测结果的准确度较低。

为了解决上述问题，本申请实施例提供了一种文本检测方法，该方法可以应用于电子设备，该电子设备可以为用于文本检测的终端，或者，该电子设备也可以为用于文本检测的服务器。

电子设备可以获取待检测图像帧和关联图像帧，关联图像帧可以包括视频图像中与待检测图像帧之间相隔的图像帧的数目小于预设数目的至少一个图像帧。电子设备可以提取待检测图像帧和关联图像帧各自的特征信息，根据关联图像帧和待检测图像帧之间的光流信息，对关联图像帧的特征信息进行变换处理，并对变换处理后的特征信息和待检测图像帧的特征信息进行叠加处理，得到目标特征信息，进而基于目标特征信息，确定待检测图像帧中的目标图像区域。

由于关联图像帧与待检测图像帧存在时序上的关联性，目标特征信息则结合了关联图像帧和待检测图像帧的图像特征，因此，相对于提取得到的待检测图像帧的特征信息，目标特征信息能够更准确地体现待检测图像帧的图像特征，进而，基于目标特征信息，确定待检测图像帧中的目标图像区域，能够提高文本检测结果的准确度。

参见图1，图1为本申请实施例提供的一种文本检测方法的流程图，该方法可以包括以下步骤：

S101：获取视频图像中的待检测图像帧和关联图像帧。

其中，待检测图像帧可以是该视频图像中的任一图像帧。关联图像帧(可以称为待检测图像帧的关联图像帧)可以包括视频图像中与待检测图像帧之间相隔的图像帧的数目小于预设数目的至少一个图像帧，预设数目可以由技术人员根据经验进行设置。

在视频图像中，各图像帧按照顺序排列，例如，如果预设数目为3，待检测图像帧为视频图像中的第10个图像帧，则关联图像帧可以为视频图像中的第11个图像帧和第12个图像帧；或者，关联图像帧也可以仅为视频图像中的第11个图像帧，本申请实施例对此并不进行限定。

在申请实施例中，当电子设备需要对视频图像中的某一图像帧(即待检测图像帧)进行文本检测时，电子设备可以获取该待检测图像帧，以及该待检测图像帧的关联图像帧。

S102：对待检测图像帧和关联图像帧进行特征提取，得到待检测图像帧和关联图像帧各自的特征信息。

在申请实施例中，在获取到待检测图像帧和该待检测图像帧的关联图像帧后，电子设备可以分别对该待检测图像帧和该待检测图像帧的关联图像帧进行特征提取，进而可以得到该待检测图像帧的特征信息，以及该待检测图像帧的关联图像帧的特征信息。

本步骤中，电子设备可以将该待检测图像帧和该待检测图像帧的关联图像帧，分别输入至预设神经网络，以得到各图像帧的特征信息。其中，预设神经网络可以为预先训练好的CNN(Convolutional Neural Networks，卷积神经网络)。针对某一图像帧，该卷积神经网络可以通过卷积、池化、激活等操作，获取该图像帧的特征信息，特征信息可以包括该图像帧中每一像素点的位置属于目标图像区域的概率。另外，该卷积神经网络还可以根据该图像帧的特征信息，生成特征图像。

例如，参见图2所示的图像帧，该图像帧的右上角存在文本信息“卷积”，左下角存在文本信息“神经网络”。针对图2所示的图像帧，在该卷积神经网络对该图像帧进行特征提取时，该卷积神经网络还可以得到图3所示的特征图像。可见，图3中，白色图像区域表示包含文本信息的图像区域，其他图像区域则为黑色，可以理解的是，由于图2的图像帧自身的图像质量和特征提取的准确度的影响，图3中的白色图像区域与图2中包含文本信息的区域可能会存在一定的偏差。

S103：获取关联图像帧和待检测图像帧之间的光流信息，并根据光流信息对关联图像帧的特征信息进行变换处理。

其中，光流信息表示关联图像帧和待检测图像帧中表示同一对象的像素点的位置的相对偏移量，像素点的位置的相对偏移量可以为二维矢量。

在申请实施例中，在得到关联图像帧的特征信息后，电子设备可以获取关联图像帧和待检测图像帧之间的光流信息，进而，电子设备可以根据获取的光流信息对关联图像帧的特征信息进行变换处理。

一种实现方式中，电子设备可以根据光流算法，计算关联图像帧和待检测图像帧之间的光流信息。例如，针对关联图像帧中的某一像素点，如果该像素点在关联图像帧中的坐标为(I，J)，在待检测图像帧中该像素点移动至坐标(I+P，J+Q)对应的位置，则该像素点的位置的相对偏移量可以为(P，Q)。其中，0≤I≤M，0≤J≤N，0≤I+P≤M，0≤J+Q≤N，M可以表示关联图像帧的宽度，N可以表示关联图像帧的高度。

基于此，针对关联图像帧和待检测图像帧中表示同一对象的像素点，电子设备可以根据该像素点的位置的相对偏移量，对该像素点在关联图像帧中的位置的特征信息进行变换处理，进而实现对关联图像帧的特征信息的变换处理，可选的，S103可以包括以下处理步骤：

步骤一，针对关联图像帧和待检测图像帧中表示同一对象的像素点，获取该像素点在关联图像帧和待检测图像帧中位置的相对偏移量。

在申请实施例中，在电子设备对关联图像帧的特征信息进行变换处理时，针对关联图像帧和待检测图像帧中表示同一对象的像素点，电子设备可以根据光流算法，获取该像素点在关联图像帧和待检测图像帧中位置的相对偏移量。

步骤二，根据该像素点在关联图像帧中的坐标和该像素点的位置的相对偏移量，确定变换处理后与该像素点在关联图像帧中的位置具有相同特征信息的目标位置。

在申请实施例中，在获取该像素点在关联图像帧和待检测图像帧中位置的相对偏移量后，电子设备可以结合该像素点在关联图像帧中的坐标，确定变换处理后与该像素点在关联图像帧中的位置具有相同特征信息的位置(即目标位置)。

例如，针对关联图像帧中坐标为(I，J)的像素点，该像素点在关联图像帧和待检测图像帧中位置的相对偏移量为(P，Q)，则变换处理后与该像素点在关联图像帧中的位置具有相同特征信息的位置的坐标为(I+P，J+Q)。

步骤三，将目标位置的特征信息，设置为该像素点在关联图像帧中的位置的特征信息。

在申请实施例中，在确定出目标位置后，电子设备可以将目标位置的特征信息，设置为该像素点在关联图像帧中的位置的特征信息。

针对上述示例，电子设备可以将坐标为(I+P，J+Q)的位置的特征信息，设置为关联图像帧中坐标为(I，J)的位置的特征信息。

基于上述处理，电子设备可以根据关联图像帧的特征信息，得到待检测图像帧的特征信息(即变换处理后的特征信息)。

同理，电子设备也可以得到变换处理后的特征图像。

例如，如果图2所示的图像帧为待检测图像帧，图4所示的图像帧为关联图像帧，图5为图4的关联图像帧的特征图像，图5所示的特征图像下方的中部存在白色图像区域，为文本信息“神经网络”对应的图像区域。相对于图4，图2中的文本信息“神经网络”从图像帧下方的中部移动至左下角，因此，电子设备可以对图5的特征图像进行变换处理，得到图3所示变换处理后的特征图像。

由于关联图像帧与待检测图像帧之间相隔的图像帧的数目较少，关联图像帧与待检测图像帧存在时序上的关联性，因此，变换处理后的特征图像能够表示待检测图像帧的特征信息。也即，电子设备可以根据关联图像帧的特征图像，对待检测图像帧的特征图像进行预测。

另外，图像帧中的物体发生移动，可能会导致待检测图像帧中的某些像素点并不存在于关联图像帧中，或者，也有可能会导致关联图像帧中的某些像素点并不存在于待检测图像帧中。因此，在变换处理后的特征图像中，如果某一位置不存在特征信息，则电子设备可以确定该位置的特征信息为0。另外，针对目标位置的坐标(I+P，J+Q)，如果I+P＞M，和/或，J+Q＞N，则电子设备也可以确定目标位置的特征信息为0。

S104：对变换处理后的特征信息和待检测图像帧的特征信息进行叠加处理，得到目标特征信息。

在申请实施例中，在得到变换处理后的特征信息后，电子设备可以对变换处理后的特征信息和待检测图像帧的特征信息进行叠加处理，将叠加处理的结果，作为目标特征信息。

可选的，电子设备可以根据各特征信息的权重，对各特征信息进行叠加处理，则S104可以包括以下处理步骤：

步骤一，获取变换处理后的特征信息和待检测图像帧的特征信息各自的权重。

其中，各权重可以由技术人员根据经验进行设置。例如，如果关联图像帧的数目为X，则变换处理后的特征信息和待检测图像帧的特征信息的权重可以均为

在申请实施例中，在得到变换处理后的特征信息后，电子设备可以获取变换处理后的特征信息和待检测图像帧的特征信息各自的权重，以便进行后续处理。

步骤二，按照权重，计算变换处理后的特征信息和待检测图像帧的特征信息的加权和，得到目标特征信息。

在申请实施例中，电子设备可以根据各权重，计算变换处理后的特征信息和待检测图像帧的特征信息的加权和，将加权和的计算结果作为目标特征信息。

例如，关联图像帧的数目为X，变换处理后的特征信息包括F₁、F₂…F_X，待检测图像帧的特征信息为F_Y，电子设备得到的目标特征信息可以为

F_S表示目标特征信息。

S105：基于目标特征信息，确定待检测图像帧中包含文本信息的目标图像区域。

其中，目标图像区域可以为一个，也可以为多个。

在申请实施例中，在电子设备得到目标特征信息后，电子设备可以基于目标特征信息，确定待检测图像帧中包含文本信息的图像区域(即目标图像区域)。本步骤与相关技术中根据某一图像帧的特征信息确定该图像帧中的目标图像区域的方法一致。

一种实现方式中，电子设备可以根据预先训练好的卷积神经网络，对目标特征信息进行处理，进而确定待检测图像帧中的目标图像区域。

另外，电子设备还可以对目标图像区域进行标记，可选的，在S105之后，该方法还可以包括以下步骤：

按照预设标记方式，在待检测图像帧中标记目标图像区域。

其中，预设标记方式可以由技术人员根据经验进行设置，例如，在目标图像区域的边界处生成预设颜色的实线框，或者，在目标图像区域的边界处生成预设颜色的虚线框，但并不限于此。

在申请实施例中，在电子设备确定出目标图像区域后，电子设备可以在待检测图像帧中，按照预设标记方式标记出目标图像区域，使得用户能够快速准确地确定出待检测图像帧中的目标图像区域，进而提高用户体验。

可选的，关联图像帧可以满足以下条件：

一，如果待检测图像帧为视频图像中的第一个图像帧，则关联图像帧包括视频图像中位于待检测图像帧之后，且与待检测图像帧之间相隔的图像帧的数目小于预设数目的图像帧。

在申请实施例中，如果待检测图像帧为视频图像中的第一个图像帧，电子设备可以获取视频图像中位于待检测图像帧之后，且与待检测图像帧的距离小于预设数目的图像帧，作为关联图像帧。

例如，待检测图像帧为视频图像中的第1个图像帧，预设数目为3，则电子设备可以获取视频图像中的第2个图像帧和第3个图像帧，作为关联图像帧；如果预设数目为4，则电子设备可以获取视频图像中的第2个图像帧、第3个图像帧和第4个图像帧，作为关联图像帧。

二，如果待检测图像帧为视频图像中的最后一个图像帧，则关联图像帧包括视频图像中位于待检测图像帧之前，且与待检测图像帧之间相隔的图像帧的数目小于预设数目的图像帧。

在申请实施例中，如果待检测图像帧为视频图像中的最后一个图像帧，电子设备可以获取视频图像中位于待检测图像帧之前，且与待检测图像帧的距离小于预设数目的图像帧，作为关联图像帧。

例如，视频图像包括1000个图像帧，待检测图像帧为视频图像中的第1000个图像帧，预设数目为3，则电子设备可以获取视频图像中的第998图像帧和第999个图像帧，作为关联图像帧；如果预设数目为4，则电子设备可以获取视频图像中的第997个图像帧、第998个图像帧和第999个图像帧，作为关联图像帧。

三，如果待检测图像帧不是视频图像中的第一个图像帧，且不是视频图像中的最后一个图像帧，则关联图像帧包括视频图像中位于待检测图像帧之前且与待检测图像帧之间相隔的图像帧的数目小于预设数目的图像帧，以及位于待检测图像帧之后且与待检测图像帧之间相隔的图像帧的数目小于预设数目的图像帧。

在申请实施例中，如果待检测图像帧既不是视频图像中的第一个图像帧，又不是最后一个图像帧，则电子设备可以获取视频图像中位于待检测图像帧之后，且与待检测图像帧的距离小于预设数目的图像帧，以及位于待检测图像帧之前，且与待检测图像帧的距离小于预设数目的图像帧，作为关联图像帧。

例如，视频图像包括1000个图像帧，待检测图像帧为视频图像中的第100个图像帧，预设数目为3，则电子设备可以获取视频图像中的第98图像帧、第99个图像帧、第101个图像帧和第102个图像帧，作为关联图像帧；如果预设数目为4，则电子设备可以获取视频图像中的第97个图像帧、第98个图像帧、第99个图像帧、第101个图像帧、第102个图像帧和第103个图像帧，作为关联图像帧。

由以上可见，基于本申请实施例的文本检测方法，关联图像帧可以包括与待检测图像帧相邻的多个图像帧，关联图像帧与待检测图像帧相邻，根据关联图像帧能够更准确地预测待检测图像帧的特征信息，进一步地提高文本检测结果的准确度。

参见图6，图6为本申请实施例提供的一种文本检测方法示例的流程图，该方法可以包括以下步骤：

S601：获取视频图像中的待检测图像帧和关联图像帧。

其中，待检测图像帧为视频图像中的第t个图像帧，关联图像帧包括第t-n个图像帧、第t-n+1个图像帧…第t-1个图像帧、第t+1个图像帧、第t+n-1个图像帧和第t+n个图像帧，n＜t，t+n≤Q，Q为视频图像中所有图像帧的总个数。

S602：对待检测图像帧和关联图像帧进行特征提取，得到待检测图像帧和关联图像帧各自的特征信息。

S603：针对关联图像帧和待检测图像帧中表示同一对象的像素点，获取该像素点在关联图像帧和待检测图像帧中位置的相对偏移量。

S604：根据该像素点在关联图像帧中的坐标和该像素点的位置的相对偏移量，确定变换处理后与该像素点在关联图像帧中的位置具有相同特征信息的目标位置。

S605：将目标位置的特征信息，设置为该像素点在关联图像帧中的位置的特征信息。

S606：获取变换处理后的特征信息和待检测图像帧的特征信息各自的权重。

S607：按照各权重，计算变换处理后的特征信息和待检测图像帧的特征信息的加权和，得到目标特征信息。

S608：基于目标特征信息，确定待检测图像帧中包含文本信息的目标图像区域。

S609：在目标图像区域的边界处生成实线框，以标记目标图像区域。

与图6的流程图相对应，参见图7，图7为申请实施例提供的一种文本检测处理过程的示意图。

图7中，最上方的图像帧分别表示待检测图像帧和关联图像帧，其中，中间的图像帧表示待检测图像帧，即，视频图像中的第t个图像帧，待检测图像帧的左侧为视频图像中的第t-n个图像帧、第t-n+1个图像帧…第t-1个图像帧，待检测图像帧的右侧为视频图像中的第t+1个图像帧、第t+n-1个图像帧和第t+n个图像帧。

由图7可见，可以对各图像帧(包括待检测图像帧和关联图像帧)进行特征提取，得到各自的特征图像。其中，由于对单个图像帧的文本检测的准确度较低，待检测图像帧的特征图像中并不存在文本信息“神经网络”对应的白色图像区域，即并未直接检测出待检测图像帧中包含文本信息“神经网络”的图像区域。

然后，可以对关联图像帧的特征图像进行变换处理，并对变换处理后的特征图像和待检测图像帧的特征图像进行叠加处理，得到包含目标特征信息的目标特征图像，图7中可见，目标特征图像中存在文本信息“神经网络”对应的白色图像区域，且该白色区域与文本信息“神经网络”在待检测图像帧中的位置一致。

进而，可以根据卷积神经网络对目标特征图像进行处理，在待检测图像帧中以实线框标记出包含文本信息“神经网络”和文本信息“卷积”的图像区域。

由以上可见，基于本申请实施例提供的文本检测方法，可以获取待检测图像帧和关联图像帧各自的特征信息，根据关联图像帧和待检测图像帧之间的光流信息，对关联图像帧的特征信息进行变换处理，并对变换处理后的特征信息和待检测图像帧的特征信息进行叠加处理，得到目标特征信息，基于目标特征信息，确定待检测图像帧中的目标图像区域。关联图像帧与待检测图像帧存在时序上的关联性，目标特征信息则结合了关联图像帧和待检测图像帧的图像特征，相对于提取得到的待检测图像帧的特征信息，目标特征信息能够更准确地体现待检测图像帧的图像特征，因此，基于目标特征信息，确定待检测图像帧中的目标图像区域，能够提高文本检测结果的准确度。

与图1的方法实施例相对应，参见图8，图8为本申请实施例提供的一种文本检测装置的结构图，该装置可以包括：

获取模块801，用于获取视频图像中的待检测图像帧和关联图像帧，其中，所述关联图像帧包括所述视频图像中与所述待检测图像帧之间相隔的图像帧的数目小于预设数目的至少一个图像帧；

提取模块802，用于对所述待检测图像帧和所述关联图像帧进行特征提取，得到所述待检测图像帧和所述关联图像帧各自的特征信息；

变换模块803，用于获取所述关联图像帧和所述待检测图像帧之间的光流信息，并根据所述光流信息对所述关联图像帧的特征信息进行变换处理，其中，所述光流信息表示所述关联图像帧和所述待检测图像帧中表示同一对象的像素点的位置的相对偏移量；

叠加模块804，用于对变换处理后的特征信息和所述待检测图像帧的特征信息进行叠加处理，得到目标特征信息；

确定模块805，用于基于所述目标特征信息，确定所述待检测图像帧中包含文本信息的目标图像区域。

可选的，所述变换模块803，具体用于针对所述关联图像帧和所述待检测图像帧中表示同一对象的像素点，获取所述像素点在所述关联图像帧和所述待检测图像帧中位置的相对偏移量；

可选的，所述叠加模块804，具体用于获取变换处理后的特征信息和所述待检测图像帧的特征信息各自的权重；

可选的，所述关联图像帧满足以下条件：

可选的，所述装置还包括：

由以上可见，基于本申请实施例提供的文本检测装置，可以获取待检测图像帧和关联图像帧各自的特征信息，根据关联图像帧和待检测图像帧之间的光流信息，对关联图像帧的特征信息进行变换处理，并对变换处理后的特征信息和待检测图像帧的特征信息进行叠加处理，得到目标特征信息，基于目标特征信息，确定待检测图像帧中的目标图像区域。关联图像帧与待检测图像帧存在时序上的关联性，目标特征信息则结合了关联图像帧和待检测图像帧的图像特征，相对于提取得到的待检测图像帧的特征信息，目标特征信息能够更准确地体现待检测图像帧的图像特征，因此，基于目标特征信息，确定待检测图像帧中的目标图像区域，能够提高文本检测结果的准确度。

本申请实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现如下步骤：

上述电子设备提到的通信总线904可以是外设部件互连标准(PeripheralComponent Interconnect，简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture，简称EISA)总线等。该通信总线904可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口902用于上述电子设备与其他设备之间的通信。

存储器903可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器903还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器901可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例提供的电子设备，在进行文本检测时，可以根据关联图像帧和待检测图像帧，获取目标特征信息，相对于提取得到的待检测图像帧的特征信息，目标特征信息能够更准确地体现待检测图像帧的图像特征，因此，根据目标特征信息，确定待检测图像帧中的目标图像区域，能够提高文本检测结果的准确度。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行本申请实施例提供的文本检测方法。

具体的，上述文本检测方法，包括：

需要说明的是，上述文本检测方法的其他实现方式与前述方法实施例部分相同，这里不再赘述。

通过运行本申请实施例提供的计算机可读存储介质中存储的指令，在进行文本检测时，可以根据关联图像帧和待检测图像帧，获取目标特征信息，相对于提取得到的待检测图像帧的特征信息，目标特征信息能够更准确地体现待检测图像帧的图像特征，因此，根据目标特征信息，确定待检测图像帧中的目标图像区域，能够提高文本检测结果的准确度。

本申请实施例还提供了另一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本申请实施例提供的文本检测方法。

具体的，上述文本检测方法，包括：

通过运行本申请实施例提供的计算机程序产品，在进行文本检测时，可以根据关联图像帧和待检测图像帧，获取目标特征信息，相对于提取得到的待检测图像帧的特征信息，目标特征信息能够更准确地体现待检测图像帧的图像特征，因此，根据目标特征信息，确定待检测图像帧中的目标图像区域，能够提高文本检测结果的准确度。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种文本检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述光流信息对所述关联图像帧的特征信息进行变换处理，包括：

3.根据权利要求1所述的方法，其特征在于，所述对变换处理后的特征信息和所述待检测图像帧的特征信息进行叠加处理，得到目标特征信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述关联图像帧满足以下条件：

5.根据权利要求1所述的方法，其特征在于，在所述确定所述待检测图像帧中包含文本信息的目标图像区域之后，所述方法还包括：

6.一种文本检测装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述变换模块，具体用于针对所述关联图像帧和所述待检测图像帧中表示同一对象的像素点，获取所述像素点在所述关联图像帧和所述待检测图像帧中位置的相对偏移量；

8.根据权利要求6所述的装置，其特征在于，所述关联图像帧满足以下条件：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。