CN112560847A

CN112560847A - 图像文本区域定位方法及装置、存储介质及电子设备

Info

Publication number: CN112560847A
Application number: CN202011561668.5A
Authority: CN
Inventors: 何龚敏; 杨俊�
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-03-26

Abstract

本申请提供了一种图像文本区域定位方法及装置、存储介质及电子设备，对于纯文本类型的文本图像，对文本图像进行膨胀处理使相邻文字连成一个文本行连通区域，通过文本行连通区域的外切矩形，确定图像文本区域；对于文本直线交错类型的文本图像，通过检测文本图像中的直线框架，确定图像文本区域；对于复杂背景版面类型的文本图像，识别出文本图像中的单字框，将单字框合并成文本行连通区域，通过文本行连通区域和检测得到的直线框架，确定图像文本区域。可见，通过识别文本图像中的直线框架和/或连通区域的外切矩形，实现对文本图像中文本行上下左右边沿位置进行准确定位，且对各个类型的文本图像的图像文本区域定位具有通用性。

Description

图像文本区域定位方法及装置、存储介质及电子设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像文本区域定位方法及装置、存储介质及电子设备。

背景技术

图像文本识别在许多领域有着广泛的需求，相关应用涉及身份证识别、车牌号识别、快递单识别、银行***识别等等。图像文本识别是指对文本图像中存在的文本进行识别，文本图像通常分为纯文本类型的图像、文本直线交错类型的图像(例如表格图像)和复杂背景版面类型的图像(例如票据图像)，而图像文本区域定位是图像文本识别的前提。

目前，图像文本区域定位的方案主要为图像像素投影分析法，具体包括：对图像进行二值化处理，使图像中的文字为黑色、背景为白色，将图像的中的像素点水平投影，计算每一文本行上的黑色像素点的个数、从而得到像素分布图，通过设定阈值，根据阈值，将像素分布图上每个高峰的起点和结束点确定为文本行的上下边界。

现有的图像文本区域定位方案，只能定位到纯文本图像中每一行文本的上下边沿位置，难以定位左右边沿位置，另外，对于只有少量字符的文本行，水平投影后的峰值会比较小，对后续阈值设置造成困难，阈值设置太小会将噪声识别为文本行，而阈值设置太大会忽略有少量单字的文本行，且该方案无法对存在直线的文本图像进行图像文本区域定位。

发明内容

本申请提供了一种图像文本区域定位方法及装置、存储介质及电子设备，目的在于提高图像文本区域定位的准确性和通用性。

为了实现上述目的，本申请提供了以下技术方案：

一种图像文本区域定位方法，包括：

获取待定位文本图像，确定所述待定位文本图像的图像类型；所述图像类别包括纯文本类型、文本直线交错类型或复杂背景版面类型；

若所述待定位文本图像的图像类型为纯文本类型，则对所述待定位文本图像进行图像预处理，并对图像预处理后的待定位文本图像进行膨胀处理，得到目标文本图像，识别所述目标文本图像中的各个文本行连通区域，确定每个所述文本行连通区域的外切矩形的坐标值，基于各个所述文本行连通区域的外切矩形的坐标值，确定所述待定位文本图像中的文本行区域；其中，每一个所述文本行连通区域中相邻像素点的像素值相同；

若所述待定位文本图像的图像类型为文本直线交错类型，则对所述待定位文本图像进行图像预处理，并对图像预处理后的待定位文本图像进行水平线检测和竖直线检测，基于检测得到的每一条水平线和每一条竖直线，确定多个矩形，依据所述矩形的坐标值，确定所述待定位文本图像中的文本行区域；

若所述述待定位文本图像的图像类型为复杂背景版面类型，则将所述待定位文本图像输入至预先构建的单字识别模型中，得到所述待定位文本图像中每个单字各自对应单字框的坐标预测值和置信度，基于每个所述单字框的置信度，从各个所述单字框中确定多个目标单字框，将水平方向相邻的目标单字框进行合并，得到多个文本行连通区域，对所述待定位文本图像进行水平线检测和竖直线检测，依据各个所述文本行连通区域、以及检测得到的水平线和竖直线，确定所述待定位文本图像中的文本行区域。

上述的方法，可选的，所述对所述待定位文本图像进行图像预处理，包括：

对所述待定位文本图像进行灰度化处理，得到灰度化图像；

对所述灰度化图像进行滤波处理，得到滤波图像；

对所述滤波图像进行自适应二值化处理，得到二值化图像；

将所述二值化图像中的每一个像素点的像素值进行反转处理。

上述的方法，可选的，所述对所述灰度化图像进行滤波处理，得到滤波图像，包括：

以预设的滤波滑动窗口的中心滑过所述灰度图像中的每一个像素点；

在所述滤波滑动窗口的中心每滑动至所述灰度图像中一个像素点时，基于所述待定位文本图像的噪声类型，选取预设的与所述噪声类型对应的滤波计算公式，并基于所选取的滤波计算方式，计算当前滤波滑动窗口内的滤波灰度值，并以计算得到的滤波灰度值，作为所述像素点的像素值。

上述的方法，可选的，所述对图像预处理后的待定位文本图像进行膨胀处理，得到目标文本图像，包括：

基于第一滑动窗口，对图像预处理后的待定位文本图像进行膨胀处理；其中，所述第一滑动窗口的宽，依据所述待定位文本图像中相邻文字之间的间距确定，所述第一滑动窗口的高，依据所述待定位图像中文本行的行间距确定。

上述的方法，可选的，所述对图像预处理后的待定位文本图像进行水平线检测，包括：

基于预设的第二滑动窗口，对图像预处理后的待定位文本图像进行腐蚀处理，得到第一腐蚀图像；

基于预设的第三滑动窗口，对所述第一腐蚀图像进行膨胀处理，得到第一膨胀图像；

识别所述第一膨胀图像中的各个水平连通区域，并确定每个所述水平连通区域的外切矩形；

针对每个所述水平连通区域，依据所述水平连通区域的外切矩形的坐标，计算所述外切矩形对应的水平线的两个端点的坐标。

上述的方法，可选的，所述对图像预处理后的待定位文本图像进行竖直线检测，包括：

基于预设的第四滑动窗口，对图像预处理后的待定位文本图像进行腐蚀处理，得到第二腐蚀图像；

基于预设的第五滑动窗口，对所述第二腐蚀图像进行膨胀处理，得到第二膨胀图像；

识别所述第二膨胀图像中各个竖直连通区域，并确定每个所述竖直连通区域的外切矩形；

针对每个所述竖直连通区域，依据所述竖直连通区域的外切矩形的坐标，计算所述外切矩形对应的竖直线的两个端点的坐标。

上述的方法，可选的，所述基于每个所述单字框的置信度，从各个所述单字框中确定多个目标单字框，包括：

针对每一个所述单字框，若所述单字框的置信度不小于预设置信度阈值，则将所述单字框确定为初始单字框；

将各个所述初始单字框组成单字框集合；

从当前的单字框集合中选取出第一单字框；所述第一单字框为当前的单字框集合中包含的各个初始单字框中置信度最大的初始单字框；

针对所述单字框集合中剩余的每个初始单字框，计算所述初始单字框与所述第一单字框的面积重叠率，若所述面积重叠率大于预设重叠阈值，则将所述初始单字框从所述单字框集合中删除；

将所述第一单字框确定目标单字框，并判断当前的单字框集合是否为空集；

若当前的单字框集合不为空集，则返回执行所述从当前的单字框集合中选取出第一单字框的步骤，直至当前的单字框集合为空集。

一种图像文本区域定位装置，包括：

获取单元，用于获取待定位文本图像，确定所述待定位文本图像的图像类型；所述图像类别包括纯文本类型、文本直线交错类型或复杂背景版面类型；

第一定位单元，用于若所述待定位文本图像的图像类型为纯文本类型，则对所述待定位文本图像进行图像预处理，并对图像预处理后的待定位文本图像进行膨胀处理，得到目标文本图像，识别所述目标文本图像中的各个文本行连通区域，确定每个所述文本行连通区域的外切矩形的坐标值，基于各个所述文本行连通区域的外切矩形的坐标值，确定所述待定位文本图像中的文本行区域；其中，每一个所述文本行连通区域中相邻像素点的像素值相同；

第二定位单元，用于若所述待定位文本图像的图像类型为文本直线交错类型，则对所述待定位文本图像进行图像预处理，并对图像预处理后的待定位文本图像进行水平线检测和竖直线检测，基于检测得到的每一条水平线和每一条竖直线，确定多个矩形，依据所述矩形的坐标值，确定所述待定位文本图像中的文本行区域；

第三定位单元，用于若所述述待定位文本图像的图像类型为复杂背景版面类型，则将所述待定位文本图像输入至预先构建的单字识别模型中，得到所述待定位文本图像中每个单字各自对应单字框的坐标预测值和置信度，基于每个所述单字框的置信度，从各个所述单字框中确定多个目标单字框，将水平方向相邻的目标单字框进行合并，得到多个文本行连通区域，对所述待定位文本图像进行水平线检测和竖直线检测，依据各个所述文本行连通区域、以及检测得到的水平线和竖直线，确定所述待定位文本图像中的文本行区域。

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述的图像文本区域定位方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行上述的图像文本区域定位方法。

与现有技术相比，本申请包括以下优点：

本申请提供了一种图像文本区域定位方法及装置，该方法包括：针对不同类型的文本图像，采用不同的图像文本区域定位策略，对纯文本类型的文本图像，通过对文本图像进行膨胀处理，从而使相邻文字连成一个文本行连通区域，进而确定出文本行连通区域的外切矩形，实现对文本图像中存在文本的区域进行定位；对文本直线交错类型的文本图像，通过检测文本图像中的直线框架，实现对文本图像中存在文本的区域进行定位，对复杂背景版面类型的文本图像，基于单字识别模型识别出文本图像中的每个单字对应的单字框，将单字框合并成文本行连通区域，并通过检测文本图像中的直线框架，通过直线框架和文本行连通区域，实现对文本图像中存在文本的区域进行定位。可见，本申请提供的技术方案，通过识别文本图像中的直线框架和/或连通区域的外切矩形，实现对文本图像中每个文本行上下左右边沿位置进行准确定位，且对不同类型的文本图像，采用不同的图像文本区域定位策略，实现对各个类型的文本图像的图像文本区域定位具有通用性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种图像文本区域定位方法的方法流程图；

图2为本申请提供的一种图像文本区域定位方法的又一方法流程图；

图3为本申请提供的一种图像文本区域定位方法的又一方法流程图；

图4为本申请提供的一种图像文本区域定位方法的又一方法流程图；

图5为本申请提供的一种图像文本区域定位方法的又一方法流程图；

图6为本申请提供的一种图像文本区域定位装置的结构示意图；

图7为本申请提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本申请实施例提供了一种图像文本区域定位方法，该方法可以应用在多种***平台，其执行主体可以运行在计算机终端或各种移动设备的处理器，所述方法的方法流程图如图1所示，具体包括：

S101、获取待定位文本图像，确定待定位文本图像的图像类型。

获取待定位文本图像，并确定待定位文本图像的图像类型，其中，图像类型包括纯文本图像类型、文本直线交错类型或复杂背景版面类型。

可选的，确定待定位文本图像的图像类型的具体过程，包括：接收用户上传的该待定位文本图像的图像类型，或将待定位文本图像输入至预先构建的图像识别模型中，得到所述图像识别模型输出的该待定位文本图像的图像类型。可选的，图像识别模型可以为分类模型，具体的构建过程参见现有的卷积神经网络分类模型的构建过程。

S102、若待定位文本图像的图像类型为纯文本类型，则对待定位文本图像进行图像预处理。

若待定位文本图像的图像类型为纯文本类型，则对待定位文本图像进行图像预处理，可选的，图像预处理包括对待处理文本图像进行灰度化处理、滤波处理、自适应二值化处理和像素取反处理，以增强待处理文本图像的图像质量。

参阅图2，对待定位文本图像进行图像预处理的过程，具体包括：

S201、对待定位文本图像进行灰度化处理，得到灰度化图像。

对待定位文本图像进行灰度化处理，得到待定位文本图像的灰度化图像，具体的灰度化处理的过程包括：按预设灰度化公式，对待定位文本图像中的每一个像素点进行灰度化转化，得到待定位文本图像的灰度化图像，灰度图像中的是每一个像素点以0-255之间的一个数值表示灰度的深浅。

可选的，预设灰度化公式如下所示：

GYAY＝R×0.299+G×0.587+B×0.114

其中，R、G和B分别代表红绿蓝的取值，GRAY为最终得到的灰度值。

S202、对灰度化图像进行滤波处理，得到滤波图像。

对灰度化处理后的待定位文本图像进行滤波处理，也就是对灰度化图像进行滤波处理，得到待定位文本图像的滤波图像，具体的滤波处理过程可以包括：

以预设的滤波滑动窗口的中心滑过灰度图像中的每一个像素点；

在滤波滑动窗口的中心每滑动至灰度图像中一个像素点时，基于待定位文本图像的噪声类型，选取预设的与噪声类型对应的滤波计算公式，并基于所选取的滤波计算方式，计算当前滤波滑动窗口内的滤波灰度值，并以计算得到的滤波灰度值，作为所述像素点的像素值。

本申请实施例提供的方法中，以预设的滤波滑动窗口的中心划过灰度图像中的每一个像素点，即基于预设的滑动方式，以预设的滤波滑动窗口，在灰度图像中滑动，使滤波滑动窗口的中心划过灰度图像中的每一个像素点。其中，预设的滑动方式为人为设定的滑动方式，此处不做限定。

本申请实施例提供的方法中，在每次滑动至一个像素点时，基于待定位文本图像的噪声类型，选取预设的与该噪声类型对应的滤波计算方式，并基于所选取的滤波计算方式，计算当前滤波滑动窗口内的灰度值，并以计算得到的滤波灰度值作为该像素点的像素值。其中，若待定位文本图像的噪声类型为白噪声类型，则以高斯滤波计算公式，计算每一滤波滑动窗口内的灰度值，若待定位文本图像的噪声类型为椒盐噪声类型，则以中值滤波计算公式，计算每一滤波滑动窗口内的灰度值。

S203、对滤波图像进行自适应二值化处理，得到二值化图像。

对滤波图像中的每一个像素点进行自适应二值化处理，滤波图像中的每一个像素点的灰度值为0或255，得到待定位文本图像中二值化图像。其中，0代表黑色，255代表白色。

可选的，对滤波图像进行自适应二值化处理的具体过程包括：

以预设的二值化滑动窗口的中心划过滤波图像中的每一个像素点，并每滑动至一个像素点时，以当前二值化滑动窗口内的所有像素点的像素值，计算当前的二值化阈值，将当前二值化滑动窗口内的中心像素点的像素值与当前的二值化阈值进行比对，若中心像素点的像素值大于该二值化阈值，则将预设的第一数值作为当前二值化滑动窗口内的中心像素点的像素值，若中心像素点的像素值不大于该二值化阈值，则将预设的第二数值作为当前二值化滑动窗口内的中心像素点的像素值；其中，第一数值为255，第二数值为0。

本申请实施例提供的方法中，对滤波图像进行自适应二值化处理，使整个图像只呈现黑白两种像素灰度值，从而凸显出目标轮廓，即凸显出各个文本行的轮廓。本申请提供的自适应二值化处理方式对滤波图像进行自适应二值化处理，使滤波图像中每一个像素点对应二值化阈值是不固定的，由二值化滑动窗口中的所有像素点的像素值所确定，亮度较高的图像区域二值化阈值通常较高，而亮度较低的图像区域的二值化阈值则会相适应较低，可以适应不同亮度、不同对比度、以及不同纹理的图像。

S204、将二值化图像中的每一个像素点的像素值进行反转处理。

将二值化图像中的每一个像素点的像素值进行反转处理，若像素点的像素值为第一数值，则反转为第二数值，若像素点的像素值为第二数值，则反转为第一数值，也就是若像素点的像素值为255，则反转为0，若像素点的像素值为0，则反转为255，从而实现将二值化图像中的黑白像素点颜色反转。

S103、对图像预处理后的待定位文本图像进行膨胀处理，得到目标文本图像。

对图像预处理后的待定位文本图像进行膨胀处理，使每一行的相邻的文字连为一体，得到目标文本图像，具体的膨胀处理过程，如下所示：

基于第一滑动窗口，对图像预处理后的待定位文本图像进行膨胀处理；其中，第一滑动窗口的宽，依据待定位文本图像中相邻文字之间的间距确定，所述第一滑动窗口的高，依据待定位图像中文本行的行间距确定。

本申请实施例提供的方法中，基于第一滑动窗口，以预设的滑动方式，使第一滑动窗口的中心滑过图像预处理后的待定位文本图像的每一个像素点，并在第一滑动窗口的中心每滑动至图像预处理后的待定位文本图像的一个像素点时，以当前的第一滑动窗口覆盖范围内的最大像素值，作为第一滑动窗口的中心对应的像素点的像素值，以实现膨胀处理。

本申请实施例提供的方法中，第一滑动窗口的宽，依据待定位文本图像中相邻文字之间的间距确定，第一滑动窗口的高，依据待定位文本图像中文本行的行间距确定。

S104、识别目标文本图像中的各个文本行连通区域，并确定每个文本行连通区域的外切矩形的坐标值。

识别目标文本图像中的各个文本行连通区域，其中，每一个文本行连通区域中相邻像素点的像素值相同。

基于所识别的各个文本行连通区域，确定每个文本行连通区域的外切矩形的坐标值，即针对每一个文本行连通区域，将文本行连通区域的外切轮廓确定为该文本行连通区域的外切矩形，外切矩形确定之后，外切矩形的坐标值即可确定，需要说明的时，外切矩形的坐标值为外切矩形四个角的坐标值。

可选的，在确定出每个文本连通区域的外切矩形后，还可以进一步将宽度明显过度或过小的外切矩形进行删除，也就是将高不在预设高度范围内和/或宽不在预设宽度范围内的外切矩形进行删除，而保留高在预设高度范围内且宽在预设宽度范围内的外切矩形。

S105、基于各个文本行连通区域的外切矩形的坐标值，确定待定位文本图像中的文本行区域。

基于各个文本行连通区域的外切矩形的坐标值，确定待定位文本图像中的文本行区域，也就是说，每一个外切矩形的坐标值即可确定一个矩形，该矩形对应为待定位文本图像中的一个文本行区域，所有的外切矩形的坐标值可确定出待定位文本图像中所有文本行区域。

S106、若待定位文本图像的图像类型为文本直线交错类型，则对待定位文本图像进行图像预处理。

若待定位文本图像的图像类型为文本直线交错类型，则同纯文本类型的文本图像类似，均需对待定位文本图像进行图像预处理，图像预处理的具体过程请参见实施例图2，此处不再赘述。

S107、对图像预处理后的待定位文本图像进行水平线检测和竖直线检测，并基于检测得到的每一条水平线和每一条竖直线，确定多个矩形。

本申请实施例提供的方法中，对图像预处理后的待定位文本图像进行水平线检测、以及竖直线检测，也就是检测图像预处理后的待定位文本图像中的直线框架。

本申请实施例提供的方法中，通过对图像预处理的待定位文本图像进行水平腐蚀处理，并在水平腐蚀处理后进行水平膨胀处理，从而实现检测出图像预处理后的待定位文本图像中的水平线。

参见图3，对图像预处理后的待定位文本图像进行水平线检测的过程，具体包括：

S301、基于预设的第二滑动窗口，对图像预处理后的待定位文本图像进行腐蚀处理，得到第一腐蚀图像。

本申请实施例提供的方法中，基于预设的第二滑动窗口对图像预处理后的待定位文本图像进行腐蚀处理，即对图像预处理后的待定位文本图像进行水平腐蚀，得到第一腐蚀图像，需要说明的是，腐蚀处理的具体过程请参见现有的图像腐蚀过程，此处不再赘述。

需要说明的是，第二滑动窗口的宽高比大于第一阈值，可选的，第一阈值可以为30，即第二滑动窗口的宽高比大于30，可选的，第二滑动窗口的高满足预设的第一高度范围，第一高度范围为1-2个像素点。

本申请实施例提供的方法中，以第二滑动窗口，对图像预处理后的待定位文本图像进行腐蚀处理，能够抑制竖直线和其他非水平线的图像元素。

S302、基于预设的第三滑动窗口，对第一腐蚀图像进行膨胀处理，得到第一膨胀图像。

本申请实施例提供的方法中，基于预设的第三滑动窗口对第一腐蚀图像进行膨胀处理，即对第一腐蚀图像进行水平膨胀，得到第一膨胀图像，需要说明的是，膨胀处理的具体过程请参见现有的图像膨胀过程，此处不再赘述。

需要说明的是，第三滑动窗口的宽高比大于第二阈值，可选的，第二阈值可以为20，即第三滑动窗口的宽高比大于20，可选的，第二滑动窗口的高满足预设的第二高度范围，第二高度范围为1-5个像素点。

S303、识别第一膨胀图像中的各个水平连通区域，并确定每个水平连通区域的外切矩形。

识别第一膨胀图像中的各个水平连通区域，水平连通区域即水平膨胀区域，确定水平连通区域的外切轮廓，进而确定出每个水平连通区域的外切矩形。

S304、针对每个水平连通区域，依据水平连通区域的外切矩形的坐标，计算外切矩形对应的水平线的两个端点的坐标。

针对每个水平连通区域，依据水平连通区域的外切矩形的坐标，计算外切矩形对应的水平线的两个端点的坐标。

其中，针对每个水平连通区域，依据水平连通区域的外切矩形的坐标，计算外切矩形对应的水平线的两个端点的坐标的具体过程，包括：

计算水平连通区域的外切矩形的上边沿的纵坐标和下边沿的纵坐标之间的均值，将均值作为外切矩形对应的水平线两个端点的纵坐标；将外切矩形的左边沿的横坐标作为外切矩形对应的水平线的左端点的横坐标，将外切矩形的右边沿的横坐标作为外切矩形对应的水平线的右端点的横坐标。例如，外切矩形的上边沿纵坐标为y_up，下边沿纵坐标为y_down，左边沿横坐标为x_left，右边沿的横坐标为x_right，则外切矩形对应的水平线的左端点为

右端点为

本申请实施例提供的方法中，通过对图像预处理的待定位文本图像进行竖向腐蚀处理，并在竖向腐蚀处理后进行竖向膨胀处理，从而实现检测出图像预处理后的待定位文本图像中的竖直线。

参见图4，对图像预处理后的待定位文本图像进行竖直线检测的过程，具体包括：

S401、基于预设的第四滑动窗口，对图像预处理后的待定位文本图像进行腐蚀处理，得到第二腐蚀图像。

本申请实施例提供的方法中，基于预设的第四滑动窗口对图像预处理后的待定位文本图像进行腐蚀处理，即对图像预处理后的待定位文本图像进行竖向腐蚀，得到第二腐蚀图像，需要说明的是，腐蚀处理的具体过程请参见现有的图像腐蚀过程，此处不再赘述。

需要说明的是，第四滑动窗口的宽高比小于第三阈值，可选的，第三阈值可以为1/30，即第四滑动窗口的宽高比小于1/30，可选的，第四滑动窗口的宽可以为1个像素点。

本申请实施例提供的方法中，以第四滑动窗口，对图像预处理后的待定位文本图像进行腐蚀处理，能够抑制水平线和其他非竖直线的图像元素。

S402、基于预设的第五滑动窗口，对所述第二腐蚀图像进行膨胀处理，得到第二膨胀图像。

本申请实施例提供的方法中，基于预设的第五滑动窗口对第二腐蚀图像进行膨胀处理，即对第一腐蚀图像进行竖向膨胀，得到第二膨胀图像，需要说明的是，膨胀处理的具体过程请参见现有的图像膨胀过程，此处不再赘述。

需要说明的是，第五滑动窗口的宽高比小于第四阈值，可选的，第四阈值可以为1/20，即第五滑动窗口的宽高比大于1/20，可选的，第五滑动窗口的宽可以小于第五阈值，第五阈值可以是5个像素点，即第五滑动窗口的宽可以小于5个像素点。

S403、识别所述第二膨胀图像中各个竖直连通区域，并确定每个所述竖直连通区域的外切矩形。

识别第二膨胀图像中的各个竖直连通区域，竖直连通区域即竖向膨胀区域，确定竖直连通区域的外切轮廓，进而确定出每个竖直连通区域的外切矩形。

S404、针对每个所述竖直连通区域，依据所述竖直连通区域的外切矩形的坐标，计算所述外切矩形对应的竖直线的两个端点的坐标。

针对每个竖直连通区域，依据竖直连通区域的外切矩形的坐标，计算外切矩形对应的竖直线的两个端点的坐标。

其中，针对每个竖直连通区域，依据竖直连通区域的外切矩形的坐标，计算外切矩形对应的竖直线的两个端点的坐标的具体过程，包括：

计算竖直连通区域的外切矩形的左边沿的横坐标和右边沿的横坐标之间的均值，将均值作为外切矩形对应的竖直线两个端点的横坐标；将外切矩形的上边沿的纵坐标作为外切矩形对应的竖直线的上端点的纵坐标，将外切矩形的下边沿的纵坐标作为外切矩形对应的竖直线的下端点的纵坐标。例如，外切矩形的上边沿纵坐标为y_up，下边沿纵坐标为y_down，左边沿横坐标为x_left，右边沿的横坐标为x_right，则外切矩形对应的竖直线的上端点为

下端点为

本申请实施例提供的方法中，检测出图像预处理后的待定位文本图像的水平线和竖直线之后，需要留出一定的空白间隙进行文本区域切分，因此，基于各个文本区域，复制该文本区域上方和/或下方的水平线，以及复制文本区域左方和/或右方的竖直线，并将所复制的水平线上移或下移，以及将所复制的竖直线左移或右移。

本申请实施例提供的方法中，将各条水平线和各条竖直线组成待定位文本图像的直线框架，所组成的直线框架将待定位文本图像划分出多个矩形。

S108、依据矩形的坐标值，确定待定位文本图像中的文本行区域。

基于各个矩形的坐标值，确定待定位文本图像中的文本行区域，也就是说，每一个矩形的坐标值可以确定出一个矩形，所确定的矩形对应为待定位文本图像中的一个文本行区域，所有的矩形的坐标值可确定出待定位文本图像中所有文本行区域。

S109、若待定位文本图像的图像类型为复杂背景版面类型，则将待定位文本图像输入至预先构建的单字识别模型中，得到待定位文本图像中每个单字各自对应单字框的坐标预测值和置信度。

本申请实施例提供的方法中，预先构建单字识别模型，单字识别模型的构建过程请参见现有技术，此处不再赘述。

若待定位文本图像的图像类型为复杂背景版面类型，则将待定位文本图像输入至预先构建的单字识别模型中，得到单字识别模型输出的待定位文本图像的中每个单字各自对应单字框的坐标预测值和置信度，可选的，置信度的范围在0至1之间，数值越大，置信度越高。

S110、基于每个单字框的置信度，从各个单字框中确定多个目标单字框。

依据每个单字框的置信度，从单字框中确定多个目标单字框，具体的，参见图5，基于每个单字框的置信度，从各个单字框中确定多个目标单字框的过程，包括：

S501、针对每一个单字框，若单字框的置信度不小于预设置信度阈值，则将单字框确定为初始单字框。

将各个单字框中置信度不小于预设置信度阈值的单字框确定为初始单字框。

S502、将各个初始单字框组成单字框集合。

S503、从当前的单字框集合中选取出第一单字框；第一单字框为当前的单字框集合中包含的各个初始单字框中置信度最大的初始单字框。

S504、针对单字框集合中剩余的每个初始单字框，计算初始单字框与第一单字框的面积重叠率。

针对单字框集合中剩余的每个初始单字框，通过计算初始单字框与第一单字框相交的面积、以及相并的面积，依据相交的面积和相并的面积，计算初始单字框与第一单字框的面积重叠率，也就是将相交的面积除以相并的面积，得到面积重叠率。

S505、针对单字框集合中剩余的每个初始单字框，判断该初始单字框与第一单字框的面积重叠率是否大于预设重叠阈值。

针对单字框集合中剩余的每个初始单字框，基于计算得到的该初始单字框的与第一单字框的面积重叠率，判断该面积重叠率是否大于预设重叠阈值，若面积重叠率大于预设重叠阈值，则执行步骤S506，若面积重叠率不大于预设重叠阈值，则执行步骤S507。

S506、将该初始单字框从单字框集合中删除。

针对单字框集合中剩余的每个初始单字框，若面积重叠率大于预设重叠阈值，则将该初始单字框从单字框集合中删除，并执行步骤S507。

S507、判断单字框集合中是否存在未与第一单字框计算面积重叠率的初始单字框。

判断单字框集合中是否存在未与第一单字框计算面积重叠率的初始单字框，若存在，则返回执行步骤S505，若不存在，则执行步骤S508。

S508、将第一单字框确定为目标单字框。

S509、判断当前的单字框集合是否为空集。

判断当前的单字框集合是否为空集，若是，则直接结束，则不为空集，则返回执行步骤S503。

可选的，本申请实施例提供的方法中，将高度不大于预设阈值的目标单字框进行删除。

S111、将水平方向相邻的目标单字框进行合并，得到多个文本行连通区域。

将水平方向相邻的目标单字框进行合并，得到多个文本行连通区域，具体的过程包括：

依据每个目标单字框的左上角的横坐标，将各个目标单字框按预设顺序进行排序，得到单字框序列；

判断单字框序列相邻两个目标单字框的左上角横坐标之间的距离是否大于预设第一阈值，将左上角横坐标之间的距离是否大于预设第一阈值对应的两个目标单字框的中间进行切分，得到多个单字框序列；

将每个单字框序列中的第一个目标单字框的左边界作为该单字框序列对应的文本行连通区域的左边界，将每个单字框序列中的最后一个目标单字框的右边界作为该单字框序列对应的文本行连通区域的右边界，将每个单字框序列上边界最小值作为该单字框序列对应的文本行连通区域的上边界，将每个单字框序列下边界最大值作为该单字框序列对应的文本行连通区域的下边界。

本申请实施例提供的方法中，依据每个目标单字框的左上角的横坐标，将各个目标单字框按预设顺序进行排列，得到单字框序列，可选的，预设顺序可以是按横坐标从小到大的顺序，判断单字框序列中相邻的两个目标单字框的左上角横坐标之间的距离是否大于预设第一阈值，若大于，则从两个目标单字框中切分，得到多个单字框序列，也就是说若单字框序列中存多组相邻两个单字框的左上角横坐标左键的距离大于预设第一阈值，则将单字框序列分为多个单字框序列，例如，存在5组相邻两个单字框的左上角横坐标左键的距离大于预设第一阈值，则最终分为6组单字框序列，每一组单字框序列对应一个文本行连通区域，文本行连通区域的上边界依据其对应的单字框序列上边界最小值确定，下边界依据其对应的单字框序列下边界最大值确定，左边界依据其对应的单字框序列中的第一个目标单字框的左边界确定，右边界依据其对应的单字框序列中的最后一个目标单字框的右边界确定。

S112、对待定位文本图像进行水平线检测和竖直线检测。

步骤S112的具体实现过程如步骤S107所述，此处不再赘述。

S113、依据各个文本行连通区域、以及检测得到的水平线和竖直线，确定待定位文本图像中的文本行区域。

在确定出待定位文本图像中直线框架和各个文本行连通区域后，以直线框架对文本行连通区进行划分，也就是说，所检测得到的水平线和竖直线，组成待定位文本图像的直线框架，将待定位文本图像划分为多个区域，从而将文本连通区域中属于不同区域的文字进行划分，从而得到多个最终文本行连通区域，每一个最终文本行连通区域可以确定出一个矩形，所确定的矩形对应为待定位文本图像中的一个文本行区域，所有的矩形的坐标值可确定出待定位文本图像中所有文本行区域。

本申请实施例提供的图像文本区域定位方法，针对不同类型的文本图像，采用不同的图像文本区域定位策略，对纯文本类型的文本图像，通过对文本图像进行膨胀处理，从而使相邻文字连成一个文本行连通区域，进而确定出文本行连通区域的外切矩形，实现对文本图像中存在文本的区域进行定位；对文本直线交错类型的文本图像，通过检测文本图像中的直线框架，实现对文本图像中存在文本的区域进行定位，对复杂背景版面类型的文本图像，基于单字识别模型识别出文本图像中的每个单字对应的单字框，将单字框合并成文本行连通区域，并通过检测文本图像中的直线框架，通过直线框架和文本行连通区域，实现对文本图像中存在文本的区域进行定位。采用本申请实施例提供的图像文本区域定位方法，通过识别文本图像中的直线框架和/或连通区域的外切矩形，实现对文本图像中每个文本行上下左右边沿位置进行准确定位，且对不同类型的文本图像，采用不同的图像文本区域定位策略，实现对各个类型的文本图像的图像文本区域定位具有通用性。

与图1所述的方法相对应，本申请实施例还提供了一种图像文本区域定位装置，用于对图1中方法的具体实现，其结构示意图如图6所示，具体包括：

获取单元601，用于获取待定位文本图像，确定所述待定位文本图像的图像类型；所述图像类别包括纯文本类型、文本直线交错类型或复杂背景版面类型；

第一定位单元602，用于若所述待定位文本图像的图像类型为纯文本类型，则对所述待定位文本图像进行图像预处理，并对图像预处理后的待定位文本图像进行膨胀处理，得到目标文本图像，识别所述目标文本图像中的各个文本行连通区域，确定每个所述文本行连通区域的外切矩形的坐标值，基于各个所述文本行连通区域的外切矩形的坐标值，确定所述待定位文本图像中的文本行区域；其中，每一个所述文本行连通区域中相邻像素点的像素值相同；

第二定位单元603，用于若所述待定位文本图像的图像类型为文本直线交错类型，则对所述待定位文本图像进行图像预处理，并对图像预处理后的待定位文本图像进行水平线检测和竖直线检测，基于检测得到的每一条水平线和每一条竖直线，确定多个矩形，依据所述矩形的坐标值，确定所述待定位文本图像中的文本行区域；

第三定位单元604，用于若所述述待定位文本图像的图像类型为复杂背景版面类型，则将所述待定位文本图像输入至预先构建的单字识别模型中，得到所述待定位文本图像中每个单字各自对应单字框的坐标预测值和置信度，基于每个所述单字框的置信度，从各个所述单字框中确定多个目标单字框，将水平方向相邻的目标单字框进行合并，得到多个文本行连通区域，对所述待定位文本图像进行水平线检测和竖直线检测，依据各个所述文本行连通区域、以及检测得到的水平线和竖直线，确定所述待定位文本图像中的文本行区域。

本申请实施例提供的图像文本区域定位装置，针对不同类型的文本图像，采用不同的图像文本区域定位策略，对纯文本类型的文本图像，通过对文本图像进行膨胀处理，从而使相邻文字连成一个文本行连通区域，进而确定出文本行连通区域的外切矩形，实现对文本图像中存在文本的区域进行定位；对文本直线交错类型的文本图像，通过检测文本图像中的直线框架，实现对文本图像中存在文本的区域进行定位，对复杂背景版面类型的文本图像，基于单字识别模型识别出文本图像中的每个单字对应的单字框，将单字框合并成文本行连通区域，并通过检测文本图像中的直线框架，通过直线框架和文本行连通区域，实现对文本图像中存在文本的区域进行定位。采用本申请实施例提供的图像文本区域定位装置，通过识别文本图像中的直线框架和/或连通区域的外切矩形，实现对文本图像中每个文本行上下左右边沿位置进行准确定位，且对不同类型的文本图像，采用不同的图像文本区域定位策略，实现对各个类型的文本图像的图像文本区域定位具有通用性。

在本申请的一个实施例中，基于前述方案，第一定位单元602和第二定位单元603配置为：

灰度化子单元，用于对所述待定位文本图像进行灰度化处理，得到灰度化图像；

滤波子单元，用于对所述灰度化图像进行滤波处理，得到滤波图像；

二值化子单元，用于对所述滤波图像进行自适应二值化处理，得到二值化图像；

反转子单元，用于将所述二值化图像中的每一个像素点的像素值进行反转处理。

在本申请的一个实施例中，基于前述方案，滤波子单元执行对所述灰度化图像进行滤波处理，得到滤波图像，用于：

在本申请的一个实施例中，基于前述方案，第一定位单元602执行对图像预处理后的待定位文本图像进行膨胀处理，得到目标文本图像，用于：

在本申请的一个实施例中，基于前述方案，第二定位单元603执行对图像预处理后的待定位文本图像进行水平线检测，用于：

在本申请的一个实施例中，基于前述方案，第二定位单元603执行对图像预处理后的待定位文本图像进行竖直线检测，用于：

在本申请的一个实施例中，基于前述方案，第三定位单元604执行基于每个所述单字框的置信度，从各个所述单字框中确定多个目标单字框，用于：

将各个所述初始单字框组成单字框集合；

本申请实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述图像文本区域定位方法。

本申请实施例还提供了一种电子设备，其结构示意图如图7所示，具体包括存储器701，以及一个或者一个以上的指令702，其中一个或者一个以上指令702存储于存储器701中，且经配置以由一个或者一个以上处理器703执行所述一个或者一个以上指令702进行以下操作：

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的一种图像文本区域定位方法及装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像文本区域定位方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待定位文本图像进行图像预处理，包括：

对所述待定位文本图像进行灰度化处理，得到灰度化图像；

对所述灰度化图像进行滤波处理，得到滤波图像；

对所述滤波图像进行自适应二值化处理，得到二值化图像；

3.根据权利要求2所述的方法，其特征在于，所述对所述灰度化图像进行滤波处理，得到滤波图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述对图像预处理后的待定位文本图像进行膨胀处理，得到目标文本图像，包括：

5.根据权利要求3所述的方法，其特征在于，所述对图像预处理后的待定位文本图像进行水平线检测，包括：

6.根据要求3所述的方法，其特征在于，所述对图像预处理后的待定位文本图像进行竖直线检测，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于每个所述单字框的置信度，从各个所述单字框中确定多个目标单字框，包括：

将各个所述初始单字框组成单字框集合；

8.一种图像文本区域定位装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1～7任意一项所述的图像文本区域定位方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1～7任意一项所述的图像文本区域定位方法。