CN110991440B - 一种像素驱动的手机操作界面文本检测方法 - Google Patents

一种像素驱动的手机操作界面文本检测方法 Download PDF

Info

Publication number
CN110991440B
CN110991440B CN201911266203.4A CN201911266203A CN110991440B CN 110991440 B CN110991440 B CN 110991440B CN 201911266203 A CN201911266203 A CN 201911266203A CN 110991440 B CN110991440 B CN 110991440B
Authority
CN
China
Prior art keywords
text
mobile phone
operation interface
phone operation
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911266203.4A
Other languages
English (en)
Other versions
CN110991440A (zh
Inventor
廖志梁
王道宁
陶亮
马壮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yicheng Gaoke Dalian Technology Co ltd
Original Assignee
Yicheng Gaoke Dalian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yicheng Gaoke Dalian Technology Co ltd filed Critical Yicheng Gaoke Dalian Technology Co ltd
Priority to CN201911266203.4A priority Critical patent/CN110991440B/zh
Publication of CN110991440A publication Critical patent/CN110991440A/zh
Application granted granted Critical
Publication of CN110991440B publication Critical patent/CN110991440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

一种像素驱动的手机操作界面文本检测方法,包括以下步骤:1)手机操作界面图像生成;2)文本检测模型改进:3)基于投影法的检测框误差修正。本发明的像素驱动的手机操作界面文本检测方法,解决了目前手机操作界面文本标记数据匮乏的问题;生成的数据的位置,字体大小在一定范围内随机,用于训练可以提升模型的泛化性;针对ResNet50的输出重新设计了上采样层,提高了深层特征占比;针对手机操作界面场景几乎不存在角度偏移的情况,移除检测框回归部分的角度回归分支并对应地修改损失函数,提升网络收敛速度;基于投影法的检测框误差修正方法能够辅助校正纯色背景下的检测框偏差,尽可能地减少文字检测不全或空白区域较大等问题。

Description

一种像素驱动的手机操作界面文本检测方法
技术领域
本发明涉及图像处理技术领域。
背景技术
手机操作界面包含文本,图标,图片三种元素,为了让计算机能够自下而上地理解界面中所有元素的语义,需要先将界面分割成具有独立语义的若干小块。因为文本区域纹理复杂而且长宽比不定,使用通用的目标检测方法通常会无法完整地识别出文字区域,所以针对文本的分割需要使用特定的文本检测方法。
目前,文本检测方法分为基于图像底层特征方法和基于深度学习的方法。基于图像自身特征的方法(例如MSER,ECCV2008和SWT,CVPR2010)通过分析图像中的斑点区域和笔划的分布检测文字。基于深度学习的方法使用卷积神经网络提取图像深度特征,再通过回归的方式得到预测的检测框。这类方法分为锚点驱动和像素驱动两种,前者需要生成大量不同尺度的锚点,然后基于锚点回归检测框,代表方法为CTPN(ECCV2016)。后者直接在每个像素点回归检测框四条边距离该点的绝对距离,以EAST(CVPR2017)为代表。最近研究者提出的方法(例如PSENet,CVPR2019)主要集中在自然场景中文字的扭曲和投射变换问题上,使用注意力机制,实例分割,和多尺度等方法尽可能保证对变形文本的检测。
基于图像底层特征的方法在简单背景的场景下能够实现文本检测,但当背景复杂时鲁棒性较差。而且算法本身包含大量手工设置的参数,需要随着测试环境的变化不断调整参数,实用性较差。基于深度学习方法具有较强的鲁棒性,但对长文本的检测仍存在一定问题,而手机界面出现贯穿整个界面的长文本的概率较高。最近研究者提出的方法主要集中在自然场景中文字的扭曲和投射变换问题上,但手机操作界面中的文本几乎不存在这种问题,也不适用本方案的应用场景。
发明内容
为了获得既能在简单背景下准确检测不同长度的文本区域,又能对复杂背景具有较强鲁棒性的模型,实现手机操作界面的文本分割,本发明提出了一种像素驱动的手机操作界面文本检测方法。
本发明为实现上述目的所采用的技术方案是:一种像素驱动的手机操作界面文本检测方法,包括以下步骤:
1)手机操作界面图像生成,基于手机操作界面模板的随机文本生成方法使用手工标注的手机操作界面图像数据获取语料库,然后在预设模板上生成新的图片:
1.1)文本库建立:
1.1.1)使用截屏的方式获得手机操作界面图像;
1.1.2)人工标注文本区域并使用文字识别方法获得该区域的文字;
1.1.3)使用中文文本分词方法获得手机操作界面语料库;
1.2)操作界面模板预设:截取具有代表性的手机操作界面,将界面中的文字抹去后作为模板,并记录原文字所在区域和字体大小;
1.3)随机文本生成:在语料库中选取合适长度的文本,经过随机的字体大小改变和位置移动后粘贴在模板上,生成用于训练的手机操作界面图像;
2)文本检测模型改进:基于改良EAST架构的文本检测网络改进:
2.1)使用ResNet50作为特征提取网络部分的骨架网络;
2.2)在上采样之前对最深层特征进行通道维度的特征整合;
3)基于投影法的检测框误差修正,方法如下:
3.1)检测框合并:
3.1.1)对于已知的检测框[x1,y1,x2,y2]和[x3,y3,x4,y4],计算二者交并比IoU:
Sintersect=(min(x2,x4)-max(x1,x3))*(min(y2,y4)-max(y1,y3))
Sintersect代表两个检测框相交部分的面积;
3.1.2)若交并比大于标准值,则视为二者框选区域为相同的文本区域,进行合并,新的检测框为二者的最小外接矩形,即[min(x1,x3),min(y1,y3),max(x2,x4),max(y2,y4)];
3.2)使用投影法对检测框进行收缩。
所述步骤1.1.2)中,文字识别方法为CRNN。
所述步骤1.1.3)中,中文文本分词方法为基于HMM的分词方法。
所述步骤2.2)中通道维度特征降为倒数第二层通道数的一半。
所述步骤2)中,还包括步骤2.3),移除EAST网络中的旋转角度预测分支。
所述步骤3.1.2中,若交并比大于0.9,则视为二者框选区域为相同的文本区域,进行合并。
所述步骤3.2)中检测框收缩方法为:
3.2.1)裁剪出检测框框选的文字区域并灰度化;
3.2.2)分别计算行方向和列方向的方差;
3.2.3)统计方差超过阈值的行标号,选取连续的最长序列视作文字存在的区域,并将序列长度作为字体大小;
3.2.4)统计方差超过阈值的列标号,从左到右计算列标号的距离,若距离小于字体大小则视为连续的标号,得出最长的序列的范围视为文字所在的区域。
本发明的像素驱动的手机操作界面文本检测方法,基于手机操作界面模板的随机文本生成方法解决了目前手机操作界面文本标记数据匮乏的问题;生成的数据的位置,字体大小在一定范围内随机,用于训练可以提升模型的泛化性;同时,该方法也可用于图像文字识别(OCR)等其它任务。网络以EAST架构为基础,使用ResNet50作为骨架网络,增大了感受野,提升了对长文本的识别能力;针对ResNet50的输出重新设计了上采样层,提高了深层特征占比;针对手机操作界面场景几乎不存在角度偏移的情况,移除检测框回归部分的角度回归分支并对应地修改损失函数,提升网络收敛速度;基于投影法的检测框误差修正方法能够辅助校正纯色背景下的检测框偏差,尽可能地减少文字检测不全或空白区域较大等问题。
附图说明
图1是手机操作界面模板示意图。
图2是本发明改进的文本检测网络结构图。
具体实施方式
本方案提出了一种像素驱动的手机操作界面文本检测方法,该方法对现有的EAST文本检测模型进行改进,并以随机生成的手机操作界面图像辅助真实图像用于训练,最后通过后处理的方式针对应用场景优化检测结果。其中手机操作界面图像生成部分见步骤1,模型改进部分见步骤2,后处理方案见步骤3。
1.基于手机操作界面模板的随机文本生成方法使用手工标注的少量手机操作界面图像数据获取语料库,然后在预设模板上生成新的图片,具体步骤如下:
1.1文本库建立:
1.1.1使用截屏的方式获得手机操作界面图像;
1.1.2人工标注文本区域并使用文字识别方法(例如,CRNN,PAMI2017)获得该区域的文字,标注的数据也可用于网络训练;
1.1.3使用中文文本分词方法(例如基于HMM的分词方法)获得手机操作界面语料库;
1.2操作界面模板预设:截取具有代表性的手机操作界面,将界面中的文字抹去后作为模板,并记录原文字所在区域和字体大小,样例如图1所示,左图为原始界面,右图为对应的模板,绿色框为文本生成区域;
1.3随机文本生成:在语料库中选取合适长度的文本,经过随机的字体大小改变和位置移动后粘贴在模板上,生成用于训练的手机操作界面图像;
2.基于改良EAST架构的文本检测网络在原有模型的基础上进行了如下改进,改进后的网络结构图见图2,其中CONV表示卷积层:
2.1受VGG16的感受野限制,初始版本的EAST网络对长文本的检测效果较差。在本方案中任务中,经常会将与图像几乎等长的文本区域划分为若干个互不相交的子区域,导致长文本检测失效。本方案使用ResNet50取代VGG16作为特征提取网络部分的骨架网络,解决了手机操作界面的长文本检测问题;
2.2原EAST网络的上采样部分直接将最深层特征上采样,之后与倒数第二层进行特征融合。本方案中最深层特征通道数过高,直接进行上采样和特征融合会导致网络参数过多,而且过多地引入深层特征导致网络对单字的检测效果变差。因此本方案在上采样之前对最深层特征进行了通道维度的特征整合,降为倒数第二层通道数的一半;
2.3由于手机操作界面中的文本几乎没有旋转,扭曲和投射变换,因此本方案移除了EAST网络中的旋转角度预测分支。移除后的网络收敛更快而且异常检测框数量明显减少;
3.于投影法的检测框误差修正方法:
3.1检测框合并
3.1.1对于已知的检测框[x1,y1,x2,y2]和[x3,y3,x4,y4],计算二者交并比IoU:
Sintersect=(min(x2,x4)-max(x1,x3))*(min(y2,y4)-max(y1,y3))
Sintersect代表两个检测框相交部分的面积;
3.1.2若交并比大于0.9,则视为二者框选区域为相同的文本区域,可以进行合并。新的检测框为二者的最小外接矩形,即[min(x1,x3),min(y1,y3),max(x2,x4),max(y2,y4)];
3.2合并后的检测框能够保证框选完整文字区域,但是不可避免地框选其它区域,因此需要对检测框进行收缩,此处可以使用投影法:
3.2.1裁剪出检测框框选的文字区域并灰度化;
3.2.2分别计算行方向和列方向的方差,手机操作界面为了保证文字的可读性,文字区域附近的背景多为纯色,因此没有文字的区域行/列方向的方差会小于一定阈值;
3.2.3统计方差超过阈值的行标号,选取连续的最长序列视作文字存在的区域,并将序列长度作为字体大小;
3.2.4统计方差超过阈值的列标号,从左到右计算列标号的距离,若距离小于字体大小则视为连续的标号。由此得出最长的序列的范围视为文字所在的区域。
本发明是通过实施例进行描述的,本领域技术人员知悉,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。

Claims (4)

1.一种像素驱动的手机操作界面文本检测方法,其特征在于:包括以下步骤:
1)手机操作界面图像生成,基于手机操作界面模板的随机文本生成方法使用手工标注的手机操作界面图像数据获取语料库,然后在预设模板上生成新的图片:
1.1)文本库建立:
1.1.1)使用截屏的方式获得手机操作界面图像;
1.1.2)人工标注文本区域并使用文字识别方法获得该区域的文字;
1.1.3)使用中文文本分词方法获得手机操作界面语料库;
1.2)操作界面模板预设:截取具有代表性的手机操作界面,将界面中的文字抹去后作为模板,并记录原文字所在区域和字体大小;
1.3)随机文本生成:在语料库中选取合适长度的文本,经过随机的字体大小改变和位置移动后粘贴在模板上,生成用于训练的手机操作界面图像;
2)文本检测模型改进:基于改良EAST架构的文本检测网络:
2.1)使用ResNet50作为特征提取网络部分的骨架网络;
2.2)在上采样之前对最深层特征进行通道维度的特征整合,通道维度特征降为倒数第二层通道数的一半;
2.3)移除EAST网络中的旋转角度预测分支;
3)基于投影法的检测框误差修正,方法如下:
3.1)检测框合并:
3.1.1)对于已知的检测框[x1,y1,x2,y2]和[x3,y3,x4,y4],计算二者交并比IoU:
Sintersect=(min(x2,x4)-max(x1,x3))*(min(y2,y4)-max(y1,y3))
Sintersect代表两个检测框相交部分的面积;
3.1.2)若交并比大于标准值,则视为二者框选区域为相同的文本区域,进行合并,新的检测框为二者的最小外接矩形,即[min(x1,x3),min(y1,y3),max(x2,x4),max(y2,y4)];
3.2)使用投影法对检测框进行收缩,检测框收缩方法为:
3.2.1)裁剪出检测框框选的文字区域并灰度化;
3.2.2)分别计算行方向和列方向的方差;
3.2.3)统计方差超过阈值的行标号,选取连续的最长序列视作文字存在的区域,并将序列长度作为字体大小;
3.2.4)统计方差超过阈值的列标号,从左到右计算列标号的距离,若距离小于字体大小则视为连续的标号,得出最长的序列的范围视为文字所在的区域。
2.根据权利要求1所述的一种像素驱动的手机操作界面文本检测方法,其特征在于:所述步骤1.1.2)中,文字识别方法为CRNN。
3.根据权利要求1所述的一种像素驱动的手机操作界面文本检测方法,其特征在于:所述步骤1.1.3)中,中文文本分词方法为基于HMM的分词方法。
4.根据权利要求1所述的一种像素驱动的手机操作界面文本检测方法,其特征在于:步骤3.1.2)中,若交并比大于0.9,则视为二者框选区域为相同的文本区域,进行合并。
CN201911266203.4A 2019-12-11 2019-12-11 一种像素驱动的手机操作界面文本检测方法 Active CN110991440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911266203.4A CN110991440B (zh) 2019-12-11 2019-12-11 一种像素驱动的手机操作界面文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911266203.4A CN110991440B (zh) 2019-12-11 2019-12-11 一种像素驱动的手机操作界面文本检测方法

Publications (2)

Publication Number Publication Date
CN110991440A CN110991440A (zh) 2020-04-10
CN110991440B true CN110991440B (zh) 2023-10-13

Family

ID=70092359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911266203.4A Active CN110991440B (zh) 2019-12-11 2019-12-11 一种像素驱动的手机操作界面文本检测方法

Country Status (1)

Country Link
CN (1) CN110991440B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522951A (zh) * 2020-04-26 2020-08-11 成都思维世纪科技有限责任公司 一种基于图像识别的敏感数据识别与分类的技术方法
CN112990204B (zh) * 2021-05-11 2021-08-24 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN114067237A (zh) * 2021-10-28 2022-02-18 清华大学 视频数据处理方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107067002A (zh) * 2017-03-09 2017-08-18 华东师范大学 一种动态视频中道路车牌识别方法
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN109117836A (zh) * 2018-07-05 2019-01-01 中国科学院信息工程研究所 一种基于焦点损失函数的自然场景下文字检测定位方法和装置
CN109919060A (zh) * 2019-02-26 2019-06-21 上海七牛信息技术有限公司 一种基于特征匹配的身份证内容识别***及方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110532537A (zh) * 2019-08-19 2019-12-03 温州大学 一种基于二分阈值法和投影法多阶段切割文字的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN107067002A (zh) * 2017-03-09 2017-08-18 华东师范大学 一种动态视频中道路车牌识别方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109117836A (zh) * 2018-07-05 2019-01-01 中国科学院信息工程研究所 一种基于焦点损失函数的自然场景下文字检测定位方法和装置
CN109919060A (zh) * 2019-02-26 2019-06-21 上海七牛信息技术有限公司 一种基于特征匹配的身份证内容识别***及方法
CN110532537A (zh) * 2019-08-19 2019-12-03 温州大学 一种基于二分阈值法和投影法多阶段切割文字的方法

Also Published As

Publication number Publication date
CN110991440A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN107609549B (zh) 一种自然场景下证件图像的文本检测方法
CN110991440B (zh) 一种像素驱动的手机操作界面文本检测方法
CN113435240B (zh) 一种端到端的表格检测和结构识别方法及***
CN113158977B (zh) 改进FANnet生成网络的图像字符编辑方法
CN110969129A (zh) 一种端到端税务票据文本检测与识别方法
CN110866529A (zh) 字符识别方法、装置、电子设备及存储介质
CN111914698A (zh) 图像中人体的分割方法、分割***、电子设备及存储介质
CN112381057A (zh) 手写文字识别方法及装置、存储介质、终端
CN113673338A (zh) 自然场景文本图像字符像素弱监督自动标注方法、***及介质
CN110443235B (zh) 一种智能纸质试卷总分识别方法及***
CN112364862B (zh) 一种基于直方图相似度的扰动变形汉字图片匹配的方法
Kölsch et al. Recognizing challenging handwritten annotations with fully convolutional networks
CN108256518B (zh) 文字区域检测方法及装置
CN113591831A (zh) 一种基于深度学习的字体识别方法、***及存储介质
JP5906788B2 (ja) 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
CN113657225B (zh) 一种目标检测方法
US20230005108A1 (en) Method and system for replacing scene text in a video sequence
JP4565396B2 (ja) 画像処理装置および画像処理プログラム
CN112364863A (zh) 证照文档的文字定位方法及***
Zhang et al. A novel approach for binarization of overlay text
CN111274863A (zh) 一种基于文本山峰概率密度的文本预测方法
CN116416624A (zh) 一种基于版面校正的文档电子化方法、装置以及存储介质
Valiente et al. A process for text recognition of generic identification documents over cloud computing
Ma et al. Mobile camera based text detection and translation
JP2004094644A (ja) 画像処理装置、画像処理方法、記憶媒体及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant