CN110991440B

CN110991440B - 一种像素驱动的手机操作界面文本检测方法

Info

Publication number: CN110991440B
Application number: CN201911266203.4A
Authority: CN
Inventors: 廖志梁; 王道宁; 陶亮; 马壮
Original assignee: Yicheng Gaoke Dalian Technology Co ltd
Current assignee: Yicheng Gaoke Dalian Technology Co ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2023-10-13
Anticipated expiration: 2039-12-11
Also published as: CN110991440A

Abstract

一种像素驱动的手机操作界面文本检测方法，包括以下步骤：1)手机操作界面图像生成；2)文本检测模型改进：3)基于投影法的检测框误差修正。本发明的像素驱动的手机操作界面文本检测方法，解决了目前手机操作界面文本标记数据匮乏的问题；生成的数据的位置，字体大小在一定范围内随机，用于训练可以提升模型的泛化性；针对ResNet50的输出重新设计了上采样层，提高了深层特征占比；针对手机操作界面场景几乎不存在角度偏移的情况，移除检测框回归部分的角度回归分支并对应地修改损失函数，提升网络收敛速度；基于投影法的检测框误差修正方法能够辅助校正纯色背景下的检测框偏差，尽可能地减少文字检测不全或空白区域较大等问题。

Description

一种像素驱动的手机操作界面文本检测方法

技术领域

本发明涉及图像处理技术领域。

背景技术

手机操作界面包含文本，图标，图片三种元素，为了让计算机能够自下而上地理解界面中所有元素的语义，需要先将界面分割成具有独立语义的若干小块。因为文本区域纹理复杂而且长宽比不定，使用通用的目标检测方法通常会无法完整地识别出文字区域，所以针对文本的分割需要使用特定的文本检测方法。

目前，文本检测方法分为基于图像底层特征方法和基于深度学习的方法。基于图像自身特征的方法(例如MSER，ECCV2008和SWT，CVPR2010)通过分析图像中的斑点区域和笔划的分布检测文字。基于深度学习的方法使用卷积神经网络提取图像深度特征，再通过回归的方式得到预测的检测框。这类方法分为锚点驱动和像素驱动两种，前者需要生成大量不同尺度的锚点，然后基于锚点回归检测框，代表方法为CTPN(ECCV2016)。后者直接在每个像素点回归检测框四条边距离该点的绝对距离，以EAST(CVPR2017)为代表。最近研究者提出的方法(例如PSENet，CVPR2019)主要集中在自然场景中文字的扭曲和投射变换问题上，使用注意力机制，实例分割，和多尺度等方法尽可能保证对变形文本的检测。

基于图像底层特征的方法在简单背景的场景下能够实现文本检测，但当背景复杂时鲁棒性较差。而且算法本身包含大量手工设置的参数，需要随着测试环境的变化不断调整参数，实用性较差。基于深度学习方法具有较强的鲁棒性，但对长文本的检测仍存在一定问题，而手机界面出现贯穿整个界面的长文本的概率较高。最近研究者提出的方法主要集中在自然场景中文字的扭曲和投射变换问题上，但手机操作界面中的文本几乎不存在这种问题，也不适用本方案的应用场景。

发明内容

为了获得既能在简单背景下准确检测不同长度的文本区域，又能对复杂背景具有较强鲁棒性的模型，实现手机操作界面的文本分割，本发明提出了一种像素驱动的手机操作界面文本检测方法。

本发明为实现上述目的所采用的技术方案是：一种像素驱动的手机操作界面文本检测方法，包括以下步骤：

1)手机操作界面图像生成，基于手机操作界面模板的随机文本生成方法使用手工标注的手机操作界面图像数据获取语料库，然后在预设模板上生成新的图片：

1.1)文本库建立：

1.1.1)使用截屏的方式获得手机操作界面图像；

1.1.2)人工标注文本区域并使用文字识别方法获得该区域的文字；

1.1.3)使用中文文本分词方法获得手机操作界面语料库；

1.2)操作界面模板预设：截取具有代表性的手机操作界面，将界面中的文字抹去后作为模板，并记录原文字所在区域和字体大小；

1.3)随机文本生成：在语料库中选取合适长度的文本，经过随机的字体大小改变和位置移动后粘贴在模板上，生成用于训练的手机操作界面图像；

2)文本检测模型改进：基于改良EAST架构的文本检测网络改进：

2.1)使用ResNet50作为特征提取网络部分的骨架网络；

2.2)在上采样之前对最深层特征进行通道维度的特征整合；

3)基于投影法的检测框误差修正，方法如下：

3.1)检测框合并：

3.1.1)对于已知的检测框[x₁,y₁,x₂,y₂]和[x₃,y₃,x₄,y₄]，计算二者交并比IoU：

S_intersect＝(min(x₂,x₄)-max(x₁,x₃))*(min(y₂,y₄)-max(y₁,y₃))

S_intersect代表两个检测框相交部分的面积；

3.1.2)若交并比大于标准值，则视为二者框选区域为相同的文本区域，进行合并，新的检测框为二者的最小外接矩形，即[min(x₁,x₃),min(y₁,y₃),max(x₂,x₄),max(y₂,y₄)]；

3.2)使用投影法对检测框进行收缩。

所述步骤1.1.2)中，文字识别方法为CRNN。

所述步骤1.1.3)中，中文文本分词方法为基于HMM的分词方法。

所述步骤2.2)中通道维度特征降为倒数第二层通道数的一半。

所述步骤2)中，还包括步骤2.3)，移除EAST网络中的旋转角度预测分支。

所述步骤3.1.2中，若交并比大于0.9，则视为二者框选区域为相同的文本区域，进行合并。

所述步骤3.2)中检测框收缩方法为：

3.2.1)裁剪出检测框框选的文字区域并灰度化；

3.2.2)分别计算行方向和列方向的方差；

3.2.3)统计方差超过阈值的行标号，选取连续的最长序列视作文字存在的区域，并将序列长度作为字体大小；

3.2.4)统计方差超过阈值的列标号，从左到右计算列标号的距离，若距离小于字体大小则视为连续的标号，得出最长的序列的范围视为文字所在的区域。

本发明的像素驱动的手机操作界面文本检测方法，基于手机操作界面模板的随机文本生成方法解决了目前手机操作界面文本标记数据匮乏的问题；生成的数据的位置，字体大小在一定范围内随机，用于训练可以提升模型的泛化性；同时，该方法也可用于图像文字识别(OCR)等其它任务。网络以EAST架构为基础，使用ResNet50作为骨架网络，增大了感受野，提升了对长文本的识别能力；针对ResNet50的输出重新设计了上采样层，提高了深层特征占比；针对手机操作界面场景几乎不存在角度偏移的情况，移除检测框回归部分的角度回归分支并对应地修改损失函数，提升网络收敛速度；基于投影法的检测框误差修正方法能够辅助校正纯色背景下的检测框偏差，尽可能地减少文字检测不全或空白区域较大等问题。

附图说明

图1是手机操作界面模板示意图。

图2是本发明改进的文本检测网络结构图。

具体实施方式

本方案提出了一种像素驱动的手机操作界面文本检测方法，该方法对现有的EAST文本检测模型进行改进，并以随机生成的手机操作界面图像辅助真实图像用于训练，最后通过后处理的方式针对应用场景优化检测结果。其中手机操作界面图像生成部分见步骤1，模型改进部分见步骤2，后处理方案见步骤3。

1.基于手机操作界面模板的随机文本生成方法使用手工标注的少量手机操作界面图像数据获取语料库，然后在预设模板上生成新的图片，具体步骤如下：

1.1文本库建立：

1.1.1使用截屏的方式获得手机操作界面图像；

1.1.2人工标注文本区域并使用文字识别方法(例如，CRNN，PAMI2017)获得该区域的文字，标注的数据也可用于网络训练；

1.1.3使用中文文本分词方法(例如基于HMM的分词方法)获得手机操作界面语料库；

1.2操作界面模板预设：截取具有代表性的手机操作界面，将界面中的文字抹去后作为模板，并记录原文字所在区域和字体大小，样例如图1所示，左图为原始界面，右图为对应的模板，绿色框为文本生成区域；

1.3随机文本生成：在语料库中选取合适长度的文本，经过随机的字体大小改变和位置移动后粘贴在模板上，生成用于训练的手机操作界面图像；

2.基于改良EAST架构的文本检测网络在原有模型的基础上进行了如下改进，改进后的网络结构图见图2，其中CONV表示卷积层：

2.1受VGG16的感受野限制，初始版本的EAST网络对长文本的检测效果较差。在本方案中任务中，经常会将与图像几乎等长的文本区域划分为若干个互不相交的子区域，导致长文本检测失效。本方案使用ResNet50取代VGG16作为特征提取网络部分的骨架网络，解决了手机操作界面的长文本检测问题；

2.2原EAST网络的上采样部分直接将最深层特征上采样，之后与倒数第二层进行特征融合。本方案中最深层特征通道数过高，直接进行上采样和特征融合会导致网络参数过多，而且过多地引入深层特征导致网络对单字的检测效果变差。因此本方案在上采样之前对最深层特征进行了通道维度的特征整合，降为倒数第二层通道数的一半；

2.3由于手机操作界面中的文本几乎没有旋转，扭曲和投射变换，因此本方案移除了EAST网络中的旋转角度预测分支。移除后的网络收敛更快而且异常检测框数量明显减少；

3.于投影法的检测框误差修正方法：

3.1检测框合并

3.1.1对于已知的检测框[x₁,y₁,x₂,y₂]和[x₃,y₃,x₄,y₄]，计算二者交并比IoU：

S_intersect＝(min(x₂,x₄)-max(x₁,x₃))*(min(y₂,y₄)-max(y₁,y₃))

S_intersect代表两个检测框相交部分的面积；

3.1.2若交并比大于0.9，则视为二者框选区域为相同的文本区域，可以进行合并。新的检测框为二者的最小外接矩形，即[min(x₁,x₃),min(y₁,y₃),max(x₂,x₄),max(y₂,y₄)]；

3.2合并后的检测框能够保证框选完整文字区域，但是不可避免地框选其它区域，因此需要对检测框进行收缩，此处可以使用投影法：

3.2.1裁剪出检测框框选的文字区域并灰度化；

3.2.2分别计算行方向和列方向的方差，手机操作界面为了保证文字的可读性，文字区域附近的背景多为纯色，因此没有文字的区域行/列方向的方差会小于一定阈值；

3.2.3统计方差超过阈值的行标号，选取连续的最长序列视作文字存在的区域，并将序列长度作为字体大小；

3.2.4统计方差超过阈值的列标号，从左到右计算列标号的距离，若距离小于字体大小则视为连续的标号。由此得出最长的序列的范围视为文字所在的区域。

本发明是通过实施例进行描述的，本领域技术人员知悉，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。

Claims

1.一种像素驱动的手机操作界面文本检测方法，其特征在于：包括以下步骤：

1.1)文本库建立：

1.1.1)使用截屏的方式获得手机操作界面图像；

1.1.3)使用中文文本分词方法获得手机操作界面语料库；

2)文本检测模型改进：基于改良EAST架构的文本检测网络：

2.1)使用ResNet50作为特征提取网络部分的骨架网络；

2.2)在上采样之前对最深层特征进行通道维度的特征整合,通道维度特征降为倒数第二层通道数的一半；

2.3)移除EAST网络中的旋转角度预测分支；

3)基于投影法的检测框误差修正，方法如下：

3.1)检测框合并：

S_intersect＝(min(x₂,x₄)-max(x₁,x₃))*(min(y₂,y₄)-max(y₁,y₃))

S_intersect代表两个检测框相交部分的面积；

3.2)使用投影法对检测框进行收缩，检测框收缩方法为：

3.2.1)裁剪出检测框框选的文字区域并灰度化；

3.2.2)分别计算行方向和列方向的方差；

2.根据权利要求1所述的一种像素驱动的手机操作界面文本检测方法，其特征在于：所述步骤1.1.2)中，文字识别方法为CRNN。

3.根据权利要求1所述的一种像素驱动的手机操作界面文本检测方法，其特征在于：所述步骤1.1.3)中，中文文本分词方法为基于HMM的分词方法。

4.根据权利要求1所述的一种像素驱动的手机操作界面文本检测方法，其特征在于：步骤3.1.2)中，若交并比大于0.9，则视为二者框选区域为相同的文本区域，进行合并。