CN113298079A

CN113298079A - 一种图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN113298079A
Application number: CN202110720175.XA
Authority: CN
Inventors: 尹天舒
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-08-24
Anticipated expiration: 2041-06-28
Also published as: CN113298079B

Abstract

本发明实施例提供了一种图像处理方法、装置、电子设备及存储介质，通过确定待处理图像中各文本内容各自对应的文本框，文本框为文本内容的最小外接矩形。基于各文本框各自对应的正外接矩形，从各文本框中确定目标文本框组，目标文本框组中包括至少两个待处理文本框，目标文本框中的任意相邻的两个文本框的正外接矩形之间的重叠度大于预设阈值，对目标文本框组中的待处理文本框进行截断处理，得到待处理图像中的文本识别区域。基于上述处理，可以在一定程度上提高提取到的文本框的图像特征信息的准确度。后续，基于各文本框的图像特征信息对文本检测模型进行训练，可以提高文本检测模型的检测精确度。

Description

一种图像处理方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

文本检测模型(例如，Mask R-CNN(Mask Regions with Convolutional NeuralNetwork，区域检测卷积神经网络)模型)可以用于检测待处理图像中的文本内容所占的图像区域。在基于文本检测模型对待处理图像进行检测之前，需要基于预设的样本图像对文本检测模型进行训练。样本图像中的各文本内容所占的图像区域已进行文本框标注，一个文本内容的文本框为该文本内容的最小外接矩形，该文本框所占的图像区域为该文本内容在待处理图像中所占的图像区域。在对文本检测模型进行训练时，针对样本图像中的每一文本框，可以确定出该文本框的正外接矩形，正外接矩形的边与样本图像的边界平行。进而，通过文本检测模型按照该文本框的正外接矩形进行特征提取，得到该文本框的图像特征信息，进而，基于提取到的各文本框各自的图像特征信息对文本检测模型进行训练。

然而，样本图像中可能存在两个文本框，且该两个文本框的正外接矩形之间的重叠区域较大。例如，参见图1，图1所示的样本图像中的文本框1和文本框2。可见，图1中文本框1的正外接矩形与文本框2的正外接矩形之间的重叠区域较多。因此，通过文本检测模型进行特征提取时，提取到的文本框1的图像特征信息包含了文本框2中部分区域的图像特征信息，且提取到的文本框2的图像特征信息也包含了文本框1中部分区域的图像特征信息，导致提取到的文本框1的图像特征信息和文本框2的图像特征信息的准确度较低，相应的，基于上述处理得到的图像特征信息对文本检测模型进行训练，也就会导致训练得到的文本检测模型的检测精确度不高。

发明内容

本发明实施例的目的在于提供一种图像处理方法、装置、电子设备及存储介质，以提高文本检测模型的检测精确度。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种图像处理方法，所述方法包括：

确定待处理图像中各文本内容各自对应的文本框；其中，所述文本框为所述文本内容的最小外接矩形；

基于各文本框各自对应的正外接矩形，从各文本框中确定目标文本框组；其中，所述目标文本框组中包括至少两个待处理文本框；所述目标文本框组中任意相邻的两个待处理文本框的正外接矩形之间的重叠度大于预设阈值；

对所述目标文本框组中的待处理文本框进行截断处理，得到所述待处理图像中的文本识别区域。

在本发明实施的第二方面，还提供了一种图像处理装置，所述装置包括：

第一确定模块，用于确定待处理图像中各文本内容各自对应的文本框；其中，所述文本框为所述文本内容的最小外接矩形；

第二确定模块，用于基于各文本框各自对应的正外接矩形，从各文本框中确定目标文本框组；其中，所述目标文本框组中包括至少两个待处理文本框，所述目标文本框组中任意相邻的两个待处理文本框的正外接矩形之间的重叠度大于预设阈值；

截断模块，用于对所述目标文本框组中的待处理文本框进行截断处理，得到所述待处理图像中的文本识别区域。

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的图像处理方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的图像处理方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的图像处理方法。

本发明实施例提供的一种图像处理方法、装置、电子设备及存储介质，通过确定待处理图像中各文本内容各自对应的文本框；其中，文本框为文本内容的最小外接矩形；基于各文本框各自对应的正外接矩形，从各文本框中确定目标文本框组；其中，目标文本框组中包括至少两个待处理文本框，目标文本框中的任意相邻的两个文本框的正外接矩形之间的重叠度大于预设阈值；对目标文本框组中的待处理文本框进行截断处理，得到待处理图像中的文本识别区域。

基于上述处理，对待处理文本框进行截断处理，可以使得截断得到的文本框的正外接矩形与其他文本框的正外接矩形之间的重叠区域较小，甚至不重叠；相应的，基于截断得到的文本框的正外接矩形提取到的图像特征信息中，包含的其他文本框的图像特征信息也较少，甚至不再包含其他文本框的图像特征信息，即可以在一定程度上提高提取到的文本框的图像特征信息的准确度。后续，基于各文本框的图像特征信息对文本检测模型进行训练，可以提高文本检测模型的检测精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中提供的一种样本图像的示意图；

图2为本发明实施例中提供的一种图像处理方法的流程图；

图3为本发明实施例中提供的一种待处理图像的示意图；

图4为本发明实施例中提供的另一种待处理图像的示意图；

图5为本发明实施例中提供的另一种待处理图像的示意图；

图6为本发明实施例中提供的另一种待处理图像的示意图；

图7为本发明实施例中提供的另一种待处理图像的示意图；

图8为本发明实施例中提供的另一种图像处理方法的流程图；

图9为本发明实施例中提供的一种待处理图像的示意图；

图10为本发明实施例中提供的另一种图像处理方法的流程图；

图11a为本发明实施例中提供的另一种待处理图像的示意图；

图11b为本发明实施例中提供的另一种待处理图像的示意图；

图11c为本发明实施例中提供的另一种待处理图像的示意图；

图12为本发明实施例中提供的另一种图像处理方法的流程图；

图13为本发明实施例中提供的一种图像处理装置的结构图；

图14为本发明实施例中提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

参见图2，图2为本发明实施例中提供的一种图像处理方法的流程图，该方法应用于电子设备，该方法可以包括以下步骤：

S201：确定待处理图像中各文本内容各自对应的文本框。

其中，文本框为文本内容的最小外接矩形。

S202：基于各文本框各自的正外接矩形，从各文本框中确定目标文本框组。

其中，目标文本框组中包括至少两个待处理文本框；目标文本框组中任意相邻的两个待处理文本框的正外接矩形之间的重叠度大于预设阈值。

S203：对目标文本框组中的待处理文本框进行截断处理，得到待处理图像中的文本识别区域。

基于本发明实施例提供的图像处理方法，对待处理文本框进行截断处理，可以使得截断得到的文本框的正外接矩形与其他文本框的正外接矩形之间的重叠区域较小，甚至不重叠；相应的，基于截断得到的文本框的正外接矩形提取到的图像特征信息中，包含的其他文本框的图像特征信息也较少，甚至不再包含其他文本框的图像特征信息，即可以在一定程度上提高提取到的文本框的图像特征信息的准确度。后续，基于各文本框的图像特征信息对文本检测模型进行训练，可以提高文本检测模型的检测精确度。

在步骤S201中，待处理图像为包含文本内容的图像。一个文本内容的文本框可以为该文本内容的最小外接矩形。

示例性的，参见图3，图3为本发明实施例提供的一种待处理图像的示意图，图3所示的待处理图像中包含文本内容1和文本内容2。其中，301所示矩形为文本内容1的最小外接矩形，即文本内容1的文本框。302所示的矩形为文本内容2的最小外接矩形，即文本内容2的文本框。

一种实现方式中，待处理图像可以包含其中各文本内容各自的文本框的信息。相应的，在获取待处理图像之后，电子设备则可以直接提取各文本内容各自的文本框的信息，确定待处理图像中各文内容各自的文本框，也就是说，确定待处理图像中各文本框的位置。一个文本框的位置可以用该文本框的4个顶点的坐标表示。

另一种实现方式中，待处理图像可以包含其中各文本内容各自的位置信息，则在获取待处理图像之后，电子设备可以基于Opencv(开源计算机视觉库)中的BoundingRect(边界矩形)函数和各文本内容各自的位置信息，确定待处理图像中各文本内容各自的最小外接矩形，作为各文本内容各自的文本框。

在步骤S202中，一个文本框的正外接矩形的边与待处理图像的边界平行。相邻的待处理文本框包括：正外接矩形存在重叠区域的文本框。

示例性的，参见图4，图4为本发明实施例提供的一种待处理图像的示意图，图4所示的待处理图像中包含文本框1、文本框2、文本框3和文本框4。其中，与文本框1的4个顶点相切的虚线的矩形为文本框1的正外接矩形。与文本框2的4个顶点相切的虚线的矩形为文本框2的正外接矩形。与文本框3的4个顶点相切的虚线的矩形为文本框3的正外接矩形。与文本框4的4个顶点相切的虚线的矩形为文本框4的正外接矩形。

图4中，文本框1相邻的文本框包括：文本框2。文本框2相邻的文本框包括：文本框1、文本框3和文本框4。文本框3相邻的文本框包括：文本框2和文本框4。文本框4相邻的文本框包括：文本框2和文本框3。

在确定出待处理图像中各文本内容各自的文本框之后，电子设备可以计算各文本框各自的正外接矩形。例如，电子设备可以基于Opencv中的BoundingRect函数，计算各文本框各自的正外接矩形。

如果两个文本框的正外接矩形之间的重叠区域较大，则提取到的该两个文本框的图像特征信息的准确度较低。因此，为了提高提取到的文本框的图像特征信息的准确度，电子设备可以基于各文本框各自的正外接矩形之间的重叠度，从各文本框中确定出目标文本框组。

一种实现方式中，电子设备可以从待处理图像中选取一个文本框，作为第一文本框。例如，电子设备可以选取待处理图像中面积最大的文本框，作为第一文本框。或者，又例如，电子设备也可以按照预设顺序，从待处理图像中的各文本框中选取预设顺序中的第一个文本框，作为第一文本框。预设顺序可以基于各文本框在待处理图像中的位置确定。例如，可以按照各文本框在待处理图像中的位置先从左至右，再从上至下的顺序，确定上述预设顺序。

然后，电子设备可以判断除第一文本框外的其他文本框中，是否存在与第一文本框的正外接矩形之间的重叠度大于预设阈值的文本框(可以称为关联文本框)。如果除第一文本框外的各文本框中，仅存在一个正外接矩形与第一文本框的正外接矩形之间的重叠度大于预设度阈值的关联文本框，电子设备可以直接将第一文本框和该关联文本框，作为目标文本框组。也是就说，目标文本框组中的待处理文本框包括：第一文本框和该关联文本框。

如果除第一文本框外的各文本框中，存在多个与第一文本框的正外接矩形之间的重叠度，大于预设度阈值的关联文本框，电子设备可以选取一个关联文本框，并将第一文本框和该关联文本框，作为目标文本框组。或者，电子设备可以将第一文本框和所有关联文本框，作为目标文本框组。

示例性的，待处理图像为图5所示的电影海报，“电影名称”的文本框为第一文本框。图5中，“角色A：演员1”的文本框、“角色B：演员2”的文本框、“角色C：演员3”的文本框，以及“角色D：演员4”的文本框与第一文本框的正外接矩形之间的重叠度均大于预设阈值。“角色A：演员1”的文本框与“角色B：演员2”的文本框的正外接矩形之间的重叠度大于预设阈值。

在确定目标文本框组时，可以将“电影名称”的文本框、“角色A：演员1”的文本框、“角色B：演员2”的文本框、“角色C：演员3”的文本框，以及“角色D：演员4”的文本框，作为一个目标文本框组。此时，目标文本框组内的其他待处理文本框与第一文本框的正外接矩形之间的重叠度均大于预设阈值，但其他文本框之间的重叠度可能是不大于预设阈值。

或者，在确定目标文本框组时，也可以将“电影名称”的文本框、“角色C：演员3”的文本框，作为一个目标文本框组，将“电影名称”的文本框、“角色D：演员4”的文本框，作为另一个目标文本框组，不作穷举。此外，还可以将“角色A：演员1”的文本框、“角色B：演员2”的文本框，作为一个目标文本框组。

如果除第一文本框外的各文本框中，不存在第一文本框的关联文本框，则电子设备可以从当前未选取的文本框中重新选取一个第一文本框。未选取的文本框可以包括：未确定关联文本框的各文本框。例如，电子设备可以从未选取的文本框中选取面积最大的文本框，作为第一文本框。或者电子设备也可以按照预设顺序，从待处理图像中的各文本框中选取预设顺序中的第二个文本框，作为第一文本框。

然后，电子设备可以继续判断除第一文本框外的其他文本框中，是否存在第一文本框的关联文本框，直至遍历待处理图像中各文本内容各自的文本框是否存在与之关联的关联文本框，如此，电子设备可以确定待处理图像中的目标文本框组。可以理解，待处理图像中的目标文本框组的数目无特别限制，基于实际的待处理图像而有所不同，实际场景中，处理图像中的目标文本框组可以为一组或多组。

另外，如果待处理图像中的文本内容按照行(或列)规律性排布时，待处理图像中相邻行(或列)的文本内容的文本框的正外接矩形之间的重叠度，可能大于预设阈值。电子设备可以将相邻行(或列)的文本内容的文本框作为目标文本框组。可以理解，此处的相邻行(或列)为存在一定倾斜角度的行(或列)。

示例性的，参见图6，图6所示的待处理图像中相邻行的文本内容的文本框的正外接矩形之间的重叠度大于预设阈值。在确定目标文本框组时，可以将文本框1与文本框2确定为一个目标文本框组，将文本框3与文本框4确定为一个目标文本框组。或者，也可以将文本框1、文本框2、文本框3和文本框4确定为一个目标文本框组。此处不再穷举。

其中，预设阈值可以由技术人员根据经验设置，例如，预设阈值可以为0.4，或者，预设阈值也可以为0.3，但并不限于此。

在本发明的一个实施例中，两个文本框的正外接矩形之间的重叠度，包括：该两个文本框的正外接矩形的重叠区域与该两个文本框的正外接矩形的合并区域。

两个文本框的正外接矩形之间的重叠度可以表示为如下公式：

IOU表示两个文本框的正外接矩形之间的重叠度，S₁表示该两个文本框的正外接矩形的重叠区域，S₂表示该两个文本框的正外接矩形的合并区域。

示例性的，参见图7，图7所示的待处理图像中包括文本框1和文本框2。图7中横线填充的区域为文本框1与文本框2的正外接矩形的重叠区域(即S₁)。网格线填充的区域为文本框1与文本框2的正外接矩形的合并区域(即S₂)。

电子设备可以在确定出待处理图像中所有的目标文本框组之后，再对各目标文本框中的待处理文本框进行截断处理。或者，电子设备也可以在确定出待处理图像中的部分目标文本框组之后，再对各目标文本框中的待处理文本框进行截断处理。例如，在确定出待处理图像中的每一个目标文本框组之后，电子设备可以对该目标文本框中的待处理文本框进行截断处理。或者在确定出待处理图像中的每两个目标文本框组之后，电子设备可以对该两个目标文本框中的待处理文本框进行截断处理，但并不限于此。

在步骤S203中，电子设备可以按照以下多种方式的组合，对目标文本框组中的待处理文本框进行截断处理，以下每种方式重点说明对目标文本框组中的待处理文本框进行截断处理的不同的侧重点。对目标文本框组中的待处理文本框进行截断处理，得到的多个文本框所占的图像区域为待处理图像中的文本识别区域。

在对目标文本框组中的待处理文本框进行截断处理时，可以从目标文本框组中确定出需要进行截断处理的目标文本框。

在目标文本框组中确定出进行截断处理的目标文本框时，可以直接将目标文本框组中的所有待处理文本框确定为目标文本框。此时，无需进行额外处理，直接对目标文本框组中的每个文本框都进行截断处理即可。具体处理方式后文详述。

或者，也可以在目标文本框组中，结合实际情况，将其中的部分文本框确定为目标文本框。这种方式能够在一定程度上降低截断处理的处理量，以较小的处理成本达成截断处理效果。具体而言，该实现方式基于实际场景的不同，也可以有多种实现方式。以下具体说明。

在本发明的一个实施例中，参见图8，在图2的基础上，步骤S203可以包括以下步骤：

S2031：基于目标文本框组中的待处理文本框各自的面积，和/或，目标文本框组中的待处理文本框与各自的正外接矩形之间的角度，从目标文本框组中确定目标文本框。

S2032：对目标文本框进行截断处理，得到目标文本框中的文本内容对应的文本识别区域。

针对目标文本框组中的每一待处理文本框，电子设备可以计算该待处理文本框的面积，并据此进行截断处理；和/或，针对目标文本框组中的每一待处理文本框，电子设备可以获取该待处理文本框与该待处理的正外接矩形之间的角度(可以称为目标倾斜角度)，并据此进行截断处理。

一种实现方式中，电子设备可以按照面积从大到小的顺序，从目标文本框组中确定前预设数目个待处理文本框，作为目标文本框。或者，电子设备可以按照目标倾斜角度从大到小的顺序，从目标文本框组中确定前预设数目个文本框，作为目标文本框。

另一种实现方式中，除按照待处理文本框的面积，或待处理文本框目标倾斜角度确定目标文本框之外，针对目标文本框组中的每一待处理文本框，电子设备还可以综合考虑该待处理文本框的面积和对应的目标倾斜角度，以确定该待处理文本框是否为目标文本框。例如，电子设备可以先按照面积从大到小的顺序，从目标文本框组中确定前第一数目个待处理文本框。然后，电子设备可以按照目标倾斜角度从大到小的顺序，从已选择的待处理文本框中确定前预设数目个文本框，作为目标文本框。第一数目不小于预设数目。

基于上述处理，一个待处理文本框的面积越大，则该待处理文本框的正外接矩形的面积越大，正外接矩形与该文本框的正外接矩形重叠的其他文本框也就越多，因此，可以优先对面积大的文本框进行截断处理，可以提高对文本框进行截断处理的效率。

一个待处理文本框的目标倾斜角度越大，则正外接矩形与该待处理文本框的正外接矩形重叠的其他文本框也就越多，因此，可以优先对目标倾斜角度大的文本框进行截断处理，可以提高对文本框进行截断处理的效率。

在对目标文本框组中的待处理文本框进行截断处理时，可以确定对待处理文本框进行截断处理的截断方向。待处理文本框可以为前述实施例中的目标文本框，也就是说，在确定出目标文本框之后，电子设备还可以确定目标文本框的截断方向，并按照确定出的截断方向对目标文本框进行截断处理。

在确定待处理文本框的截断方向时，可以直接将任意一个方向作为待处理文本框的截断方向，也就是直接按照任意一个方向对待处理文本框进行截断处理。具体截断处理的方式可以参见后续实施例的介绍。

或者，也可以结合待处理文本框的实际情况，确定待处理文本框进行截断处理的截断方向。这种方式能够在一定程度上避免截断得到的文本框中的文本内容存在不完整的字符的问题。具体而言，该实现方式基于实际场景的不同，也可以有多种实现方式。以下具体说明。

在本发明的一个实施例中，步骤S203可以包括以下步骤：

按照目标文本框组中文本内容的阅读方向的垂直方向，对目标文本框组中的待处理文本框进行截断处理，得到待处理图像中的文本识别区域。

示例性的，参见图9，图9中“文本内容1”、“文本内容2”、“文本内容3”表示各文本框中的文本内容。图9中，与文本框的长边界平行的直线的箭头的指向方向表示文本内容的阅读方向。与文本框的长边界垂直的直线的箭头的指向方向表示文本内容的阅读方向的垂直方向，本发明实施例中并不限定表示垂直方向的箭头的指向方向。例如，表示方向1的直线的箭头可以为从上至下，或者表示方向1的直线的箭头也可以为从下至上。

待处理文本框为“文本内容1”的文本框(可以称为文本框1)时，文本框1中的“文本内容1”的阅读方向为方向1’，方向1’的垂直方向为方向1。待处理文本框为“文本内容2”的文本框(可以称为文本框2)时，文本框2中的“文本内容2”的阅读方向为方向2’，方向2’的垂直方向为方向2。待处理文本框为“文本内容3”的文本框(可以称为文本框3)时，文本框3中的“文本内容3”的阅读方向为方向3’，方向3’的垂直方向为方向3。

电子设备可以确定待处理文本框中文本内容的阅读方向。然后，电子设备可以确定待处理文本框中文本内容的阅读方向的垂直方向。进而，电子设备可以按照待处理文本框中文本内容的阅读方向的垂直方向，对待处理文本框进行截断处理。例如，针对图9中的文本框1，电子设备可以沿着方向1对文本框1进行截断处理，得到文本框1中的文本内容对应的文本识别区域。

基于上述处理，按照待处理文本框中的文本内容的阅读方向的垂直方向，对待处理文本框进行截断处理，可以在一定程度上避免得到的文本框中的文本内容存在不完整的字符的问题，进而，可以提高训练好的文本检测模型的检测精确度。

在对目标文本框组中的待处理文本框进行截断处理时，可以确定对待处理文本框进行截断处理的截断位置。待处理文本框可以为按照前述实施例介绍的方式确定出的目标文本框。也就是说，在确定出目标文本框之后，电子设备可以确定目标文本框的截断位置。电子设备还可以按照前述实施例介绍的方式，确定目标文本框的截断方向。进而，在对目标文本框进行截断处理时，可以在目标文本框的截断位置处，按照目标文本框的截断方向，对目标文本框进行截断处理。

在确定待处理文本框的截断位置时，可以直接将待处理文本框中的任意一个位置作为待处理文本框的截断位置，也就是直接从待处理文本框中的任意一个位置对待处理文本框进行截断处理。

或者，也可以结合待处理文本框的实际情况，确定待处理文本框进行截断处理的截断位置。这种方式能够在一定程度上减少截断处理的次数，以较小的处理成本达成截断处理效果。具体而言，该实现方式基于实际场景的不同，也可以有多种实现方式。以下具体说明。

在本发明的一个实施例中，参见图10，在图2的基础上，步骤S203可以包括以下步骤：

S2033：针对目标文本框组中的任意一个待处理文本框，确定该待处理文本框的目标等分线。

S2034：按照目标等分线，对该待处理文本框进行截断处理，得到该待处理文本框中的文本内容对应的文本识别区域。

其中，目标等分线可以为待处理文本框的2等分线，或者，目标等分线也可以为待处理文本框的3等分线，但并不限于此。

一种实现方式中，目标等分线可以为待处理文本框的2等分线。针对目标文本框组中的任意一个待处理文本框，电子设备可以确定该待处理文本框的4个顶点的坐标。然后，电子设备可以计算该待处理文本框的4个顶点的横坐标的平均值，作为该待处理文本框的中心点的横坐标，以及计算该待处理文本框的4个顶点的纵坐标的平均值，作为该待处理文本框的中心点的纵坐标。然后，电子设备可以确定经过该待处理文本框的中心点，且与该待处理文本框中文本内容的阅读方向一致的直线，为该待处理文本框的2等分线。该待处理文本框的2等分线与该待处理文本框的边的交点为：截断得到2个文本框的公共顶点。

进而，电子设备可以按照目标等分线，对待处理文本框进行截断处理，得到待处理该待处理文本框中的文本内容对应的文本识别区域。

另外，为了避免得到的文本识别区域中的文本内容存在不完整的字符，电子设备可以确定出待处理文本框中的每一字符所占的图像区域。然后，电子设备可以按照待处理文本框中指定字符之间的间隔，对待处理文本框进行截断处理。

或者，在确定出待处理文本框的目标等分线之后，电子设备可以确定目标等分线所包含的像素点。如果目标等分线包含一种像素点，表示目标等分线不经过待处理文本框中的文本内容，即目标等分线经过待处理文本框中的背景部分，则电子设备可以按照目标等分线对待处理文本框进行截断处理。

如果目标等分线包含两种像素点，表示目标等分线经过待处理文本框中的文本内容，如果按照目标等分线对待处理文本框进行截断处理，会使得文本识别区域中的文本内容中存在不完整的字符。因此，电子设备可以确定与目标等分线平行，且与目标等分线之间的距离为预设距离的直线(可以称为目标直线)，并再次确定目标直线包含的像素点的数目，直至确定出的目标直线仅包含一种像素点，则电子设备可以按照目标直线对待处理文本框进行截断处理。

在对目标文本框组中的待处理文本框进行截断处理时，可以对待处理文本框进行一次截断处理，也就是在第一次对待处理文本框进行截断处理之后，不对截断得到的文本框继续进行截断处理。

或者，也可以对待处理文本框进行多次截断处理，结合截断得到的文本框的实际情况，确定是否对截断得到的文本框继续进行截断处理。这种方式能够减少文本框的正外接矩形之间的重叠度。具体而言，该实现方式基于实际场景的不同，也可以有多种实现方式。以下具体说明。

在本发明的一个实施例中，步骤S203可以包括以下步骤：

对目标文本框组中的待处理文本框进行截断处理，直至待处理图像中任意两个文本框的正外接矩形之间的重叠度均不大于预设阈值，得到待处理图像中的文本识别区域。

一种实现方式中，对目标文本框组中的待处理文本框进行截断处理，可以得到多个文本框。针对得到的每一文本框，电子设备可以计算该文本框的正外接矩形。然后，电子设备可以再次基于各文本框各自的正外接矩形，从各文本框中确定目标文本框组，各文本框包括截断得到的多个文本框，以及未截断的文本框。进而，电子设备可以对目标文本框组中的待处理文本框进行截断处理，以此类推，直至待处理图像中任意两个文本框各自的正外接矩形之间的重叠度均不大于预设阈值，得到待处理图像中的文本识别区域。

为了方便本领域技术人员清楚的理解本发明的技术方案，对具体对待处理文本框进行截断处理的方式进行说明。

电子设备可以先基于目标文本框组中的待处理文本框各自的面积，和/或，目标文本框组中的待处理文本框与各自的正外接矩形之间的角度，从目标文本框组中确定目标文本框。然后，针对每一目标文本框，电子设备可以确定该目标文本框中的文本内容的阅读方向的垂直方向，并确定沿该垂直方向的目标文本框中的目标等分线。进而，电子设备可以对目标文本框进行截断处理，直至待处理图像中任意两个文本框的正外接矩形之间的重叠度均不大于预设阈值，得到待处理图像中的文本识别区域。

参见图11a，图11a为本发明实施例中提供的另一种待处理图像的示意图。图11a所示的待处理图像中各文本框的预设顺序为：文本框1，文本框2，文本框3。

电子设备可以按照预设顺序，从待处理图像中各文本框中，选取文本框1，作为第一文本框，并判断文本框2和文本框3中是否存在文本框1的关联文本框，图11a中不存在文本框1的关联文本框。

然后，电子设备可以选取文本框2作为第一文本框，并判断文本框1和文本框3中是否存在文本框1的关联文本框，若文本框2与文本框3的正外接矩形之间的重叠度大于预设阈值，则文本框2的关联文本框为文本框3。电子设备可以确定文本框2和文本框3为目标文本框组。

进而，电子设备可以对目标文本框组中的待处理文本框进行截断处理，以使得待处理图像中的任意两个文本框的正外接矩形之间的重叠度，均不大于预设阈值。

示例性的，在一个实施例中，电子设备可以对目标文本框组中的所有待处理文本框进行截断处理，即电子设备可以按照文本框2的2等份线对文本框2进行截断处理，得到文本框21和文本框22，以及按照文本框3的2等份线对文本框3进行截断处理，得到文本框31和文本框32。

参见图11b，图11b中所示的待处理图像中各文本框的预设顺序为：文本框1，文本框21，文本框22，文本框31，文本框32。电子设备可以按照预设顺序，从待处理图像中各文本框中未选取的文本框中，选取文本框21，作为第一文本框，并继续判断除文本框21外的其他文本框中是否存在文本框21的关联文本框。

如果图11b中存在文本框21的关联文本框，则电子设备可以继续确定文本框21和文本框21的关联文本框为目标文本框组，并对目标文本框组中的待处理文本框进行截断处理，以此类推，直至待处理图像中的任意两个文本框的正外接矩形之间的重叠度均不大于预设阈值，可以得到待处理图像中的文本识别区域。

如果图11b不存在文本框21的关联文本框，电子设备可以选取文本框22作为当前待比较的文本框，并继续判断除文本框22外的其他文本框中是否存在文本框22的关联文本框，以此类推，直至待处理图像中的任意两个文本框的正外接矩形之间的重叠度均不大于预设阈值，可以得到待处理图像中的文本识别区域。

示例性的，在另一个实施例中，电子设备可以确定目标文本框组中，面积最大的文本框(图11a中为文本框3)。然后，电子设备可以按照文本框3的2等份线对文本框3进行截断处理，得到文本框31和文本框32。

参见图11c，图11c中所示的待处理图像中各文本框的预设顺序为：文本框1，文本框2，文本框31，文本框32。电子设备可以从各文本框中确定文本框31为第一文本框，并继续判断除文本框31外的其他文本框中是否存在文本框31的关联文本框。

如果图11c中存在文本框31的关联文本框，则电子设备可以确定文本框31和文本框31对应的关联文本框，作为目标文本框组，并对目标文本框组中的待处理文本框进行截断处理，以此类推，直至待处理图像中的任意两个文本框的正外接矩形之间的重叠度均不大于预设阈值，则可以得到待处理图像中的文本识别区域。

如果图11c不存在文本框31的关联文本框，电子设备可以选取文本框32作为第一文本框，并继续判断除文本框32外的其他文本框中是否存在文本框32的关联文本框，以此类推，直至待处理图像中的任意两个文本框的正外接矩形之间的重叠度均不大于预设阈值，则可以得到待处理图像中的文本识别区域。

基于上述处理，可以根据重叠度确定各文本框的重合程度，准确地确定出需要进行截断处理的目标文本框组，并对目标文本框组中的待处理文本框进行截断处理。如果待处理文本框为倾斜长文本的文本框，对该文本框进行截断处理，可以得到相对较小的文本框，从而可以大大降低各文本框的正外接矩形之间重合的情况。后续，可以基于各文本框的图像特征信息，对文本检测模型进行有效的训练，使得文本检测模型对于倾斜长文本的检测效果得到提升。

在本发明的一个实施例中，该方法还可以包括以下步骤：

将待处理图像与文本识别区域的位置信息作为样本数据，并利用样本数据训练文本检测模型，直至达到预设的收敛条件。其中，文件检测模型用于确定待处理图像中各文本内容的文本识别区域。

文本识别区域的位置信息可以为文本识别区域的4个顶点的坐标，或者也可以为文本识别区域包含的像素点的位置，但并不限于此。

一种实现方式中，电子设备可以将待处图像作为文本检测模型的输入数据，将待处理图像中的文本识别区域的位置信息作为文本检测模型的输出数据，对文本检测模型的模型参数进行调整，直至达到预设的收敛条件，得到训练好的文本检测模型。

基于上述处理，待处理图像中的各文本框(即各文本识别区域)的正外接矩形与其他文本框的正外接矩形之间的重叠区域较小，甚至不重叠。相应的，基于文本识别区域的正外接矩形提取到的图像特征信息中，包含的其他文本识别区域的图像特征信息也较少，甚至不再包含其他文本识别区域的图像特征信息，即可以在一定程度上提高提取到的文本识别区域的图像特征信息的准确度。进而，基于文本识别区域的图像特征信息对文本检测模型进行训练，可以提高文本检测模型的检测精确度。

在本发明的一个实施例中，该方法还可以包括以下步骤：

对待处理图像中的文本识别区域进行文本识别，得到各文本识别区域对应的文本内容。

一种实现方式中，在得到待处理图像中的文本识别区域之后，电子设备可以基于预设的文本识别算法，对各文本识别区域进行文本识别，可以得到待处理图像中的文本内容。

文本识别算法可以为OCR(Optical Character Recognition，光学字符识别)算法，或者，也可以为CRAFTS(Character Region Attention For Text Spotting，字符识别与文本定位)算法，但并不限于此。

示例性的，文本识别算法为OCR算法时，针对每一文本识别区域，电子设备可以对该文本识别区域进行方向矫正，例如可以将该文本识别区域的长边作为水平方向，得到矫正后的文本识别区域。

然后，电子设备可以基于该文本识别区域包含的像素点，对该文本识别区域进行字切分，得到文本识别区域对应的多个子区域，每一子区域为文本内容中的一个字符所占的图像区域。

进而，电子设备可以对切分得到的每一子区域进行特征提取，提取该子区域的特征信息，并计算该子区域的特征信息与预设特征库中的每一特征信息的相似度。电子设备可以确定相似度最大的特征信息对应的字符，为该子区域中的字符，进而，可以得到该文本识别区域中的文本内容。

参见图12，图12为本发明实施例中提供的另一种图像处理方法的流程图。

电子设备可以先确定待处理图像中各文本内容各自对应的文本框，并计算各文本框各自的正外接矩形。然后，针对每一文本框，电子设备可以判断该文本框与其他文本框的正外接矩形之间的重叠度，是否大于预设阈值。如果该文本框与其他文本框(即该文本框的关联文本框)的正外接矩形之间的重叠度大于预设阈值，电子设备可以确定该文本框与对应的关联文本框为目标文本框组。

进而，电子设备可以对目标文本框组中的待处理文本框进行截断处理，并计算得到的多个文本框各自的正外接矩形，并再次从各文本框中确定出目标文本框组，直至待处理图像中的任意两个文本框各自的正外接矩形之间的重叠度均不大于预设阈值，得到待处理图像中的文本识别区域。

与图2的方法实施例相对应，参见图13，图13为本发明实施例中提供的一种文本框确定装置的结构图，所述装置包括：

第一确定模块1301，用于确定待处理图像中各文本内容各自对应的文本框；其中，所述文本框为所述文本内容的最小外接矩形；

第二确定模块1302，用于基于各文本框各自对应的正外接矩形，从各文本框中确定目标文本框组；其中，所述目标文本框组中包括至少两个待处理文本框，所述目标文本框组中任意相邻的两个待处理文本框的正外接矩形之间的重叠度大于预设阈值；

截断模块1303，用于对所述目标文本框组中的待处理文本框进行截断处理，得到所述待处理图像中的文本识别区域。

可选的，所述截断模块1303，具体用于按照所述目标文本框组中文本内容的阅读方向的垂直方向，对所述目标文本框组中的待处理文本框进行截断处理，得到所述待处理图像中的所述文本识别区域。

可选的，所述截断模块1303，具体用于针对所述目标文本框组中的任意一个待处理文本框，确定该待处理文本框的目标等分线；

按照所述目标等分线，对该待处理文本框进行截断处理，得到该待处理文本框中的文本内容对应的文本识别区域。

可选的，所述截断模块1303，具体用于基于所述目标文本框组中的待处理文本框各自的面积，和/或，所述目标文本框组中的待处理文本框与各自的正外接矩形之间的角度，从所述目标文本框组中确定目标文本框；

对所述目标文本框进行截断处理，得到所述目标文本框中的文本内容对应的文本识别区域。

可选的，所述截断模块1303，具体用于对所述目标文本框组中的待处理文本框进行截断处理，直至所述待处理图像中任意两个文本框的正外接矩形之间的重叠度均不大于所述预设阈值，得到所述待处理图像中的文本识别区域。

可选的，两个文本框的正外接矩形之间的重叠度，包括：该两个文本框的正外接矩形之间的重叠区域与该两个文本框的正外接矩形的合并区域的比值。

可选的，所述装置还包括：

训练模块，用于将所述待处理图像与所述文本识别区域的位置信息作为样本数据，并利用所述样本数据训练文本检测模型，直至达到预设的收敛条件；

其中，所述文件检测模型用于确定待处理图像中各文本内容的文本识别区域。

可选的，所述装置还包括：

识别模块，用于对所述待处理图像中的文本识别区域进行文本识别，得到各所述文本识别区域对应的文本内容。

基于本发明实施例提供的图像处理装置，对待处理文本框进行截断处理，可以使得截断得到的文本框的正外接矩形与其他文本框的正外接矩形之间的重叠区域较小，甚至不重叠；相应的，基于截断得到的文本框的正外接矩形提取到的图像特征信息中，包含的其他文本框的图像特征信息也较少，甚至不再包含其他文本框的图像特征信息，即可以在一定程度上提高提取到的文本框的图像特征信息的准确度。后续，基于各文本框的图像特征信息对文本检测模型进行训练，可以提高文本检测模型的检测精确度。

本发明实施例还提供了一种电子设备，如图14所示，包括处理器1401、通信接口1402、存储器1403和通信总线1404，其中，处理器1401，通信接口1402，存储器1403通过通信总线1404完成相互间的通信；

存储器1403，用于存放计算机程序；

处理器1401，用于执行存储器1403上所存放的程序时，实现前述实施例任一所述的图像处理方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的图像处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述图像处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，对所述目标文本框组中的待处理文本框进行截断处理，得到所述待处理图像中的文本识别区域，包括：

按照所述目标文本框组中文本内容的阅读方向的垂直方向，对所述目标文本框组中的待处理文本框进行截断处理，得到所述待处理图像中的所述文本识别区域。

3.根据权利要求1所述的方法，其特征在于，对所述目标文本框组中的待处理文本框进行截断处理，得到所述待处理图像中的文本识别区域，包括：

针对所述目标文本框组中的任意一个待处理文本框，确定该待处理文本框的目标等分线；

4.根据权利要求1所述的方法，其特征在于，对所述目标文本框组中的待处理文本框进行截断处理，得到所述待处理图像中的文本识别区域，包括：

基于所述目标文本框组中的待处理文本框各自的面积，和/或，所述目标文本框组中的待处理文本框与各自的正外接矩形之间的角度，从所述目标文本框组中确定目标文本框；

5.根据权利要求1所述的方法，其特征在于，对所述目标文本框组中的待处理文本框进行截断处理，得到所述待处理图像中的文本识别区域，包括：

对所述目标文本框组中的待处理文本框进行截断处理，直至所述待处理图像中任意两个文本框的正外接矩形之间的重叠度均不大于所述预设阈值，得到所述待处理图像中的文本识别区域。

6.根据权利要求1所述的方法，其特征在于，两个文本框的正外接矩形之间的重叠度，包括：该两个文本框的正外接矩形的重叠区域与该两个文本框的正外接矩形的合并区域的比值。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述待处理图像与所述文本识别区域的位置信息作为样本数据，并利用所述样本数据训练文本检测模型，直至达到预设的收敛条件；

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述待处理图像中的文本识别区域进行文本识别，得到各所述文本识别区域对应的文本内容。

9.一种图像处理装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。