CN112733822A - 一种端到端文本检测和识别方法 - Google Patents

一种端到端文本检测和识别方法 Download PDF

Info

Publication number
CN112733822A
CN112733822A CN202110344324.7A CN202110344324A CN112733822A CN 112733822 A CN112733822 A CN 112733822A CN 202110344324 A CN202110344324 A CN 202110344324A CN 112733822 A CN112733822 A CN 112733822A
Authority
CN
China
Prior art keywords
text
text box
image
feature
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110344324.7A
Other languages
English (en)
Other versions
CN112733822B (zh
Inventor
姜华
王晴晴
杜沁益
李蔡元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minpu Technology Co ltd
Original Assignee
Shanghai Minpu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minpu Technology Co ltd filed Critical Shanghai Minpu Technology Co ltd
Priority to CN202110344324.7A priority Critical patent/CN112733822B/zh
Publication of CN112733822A publication Critical patent/CN112733822A/zh
Application granted granted Critical
Publication of CN112733822B publication Critical patent/CN112733822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于视觉识别的技术领域,公开了一种端到端文本检测和识别方法,利用对输入文本图像的语义分割结果过滤掉背景像素,生成预置文本框集,再对其中的预置文本框边缘上的多个基准点进行分类和回归预测,检测出目标文本框,然后利用尺度变换和空间变换对输入文本图像进行特征提取,并使用特征相似性约束策略对识别器进行训练,最后利用训练好的识别器对目标文本框中的字符序列进行识别。本发明对自然场景图像中的文本进行端到端的检测和识别,在考虑到模型效率的同时,提升了模型对弯曲文本和低分辨率文本的鲁棒性,具有创新和实际应用价值。

Description

一种端到端文本检测和识别方法
技术领域
本发明涉及视觉识别的技术领域,尤其涉及一种端到端文本检测和识别方法。
背景技术
文字在人们日常生活中扮演着举足轻重的角色,它们以交通指示牌、海报广告语和包装袋上产品描述等形式为人们传递信息和知识。随着手机、车载相机等带有摄像功能的设备的普及,越来越多的文字以图像形式采集、传播和存储,从图像中自动检测和识别文字在智能交通、图像检测以及场景理解等领域具有广阔的应用前景,因此,相关研究在计算机视觉领域一直备受关注。
近年来,基于深度学习的网络模型在声(语音识别)、图(计算机视觉)、文(自然语言处理)三大领域独占鳌头,成为各相关任务的主要解决方案,与此同时,文本检测和识别也进入了深度学习时代。现有的基于深度学习的文本检测算法主要有三种:基于语义分割的网络模型、基于目标检测的网络模型和混合模型。基于语义分割的网络模型对文本图像进行像素级预测,并根据预测结果推断出各像素所属文本框的位置、形状和角度。基于目标检测的网络模型把文本当作一种特定目标,通过对大量预置文本框进行分类和回归预测直接输出目标文本框信息。虽然上述两种模型在文本检测上取得了优异性能,但它们各有缺点,譬如,基于语义分割的网络模型不是端到端的文本检测模型,为了从预测结果推断出目标文本框的信息,这类模型往往需要大量复杂的后处理操作,而基于目标检测的文本检测模型容易漏检宽高比较大的文本区域。混合型文本检测模型取两者之长,避两者之短,同时对像素和预置文本框进行预测,故能有效提高检测率,然而,因为这类模型需要多个并行或串行分支进行多种类型目标值的预测,它们具有网络结构复杂、计算效率低的问题。
现有基于深度学***或池化操作映射到一维空间,这样会导致图像的空间和结构信息被破坏,进而影响识别性能;二是对低分辨文本图像鲁棒性差,由于自然场景文本图像分辨率差异较大,前处理阶段的尺度归一化操作会导致低分辨率图像放大后变模糊,进而影响识别性能。
发明内容
为了解决上述问题,本发明提出一种端到端文本检测和识别方法,该方法先基于语义分割思想过滤掉大部分的背景像素,然后,针对保留的文本像素进行预置文本框的分类和回归预测,直接输出目标文本框的位置和形状等信息,最后,算法设计一种数据自增强的带有特征相似性约束的识别器进行文本识别。
本发明可通过以下技术方案实现:
一种端到端文本检测和识别方法,利用对输入文本图像的语义分割结果过滤掉背景像素,生成预置文本框集,再对其中的预置文本框边缘上的多个基准点进行分类和回归预测,检测出目标文本框,然后利用尺度变换和空间变换对输入文本图像进行特征提取,并使用特征相似性约束策略对识别器进行训练,最后利用训练好的识别器对目标文本框中的字符序列进行识别。
进一步,生成预置文本框集的方法包括:建立包括字符序列的图像库,对其中的各个文本图像进行归一化处理,再先后使用全卷积网络和上采样网络对输入文本图像进行不同缩放比例的多尺度特征图提取,以此作为输入,利用多个卷积层结合sigmoid函数生成语义分割图,同时,利用RPN网络对多尺度特征图上的所有像素位置进行区域提议生成,然后,根据语义分割图设置概率阈值,过滤掉小于所述概率阈值的像素点对应的区域提议,剩下的区域提议集合记为预置文本框集。
进一步,生成预置文本框集的方法包括以下步骤:
步骤1:收集并扩展自然场景的文本图像数据集作为训练样本集,对其中的文本图像I中的一个文本区域R进行标注,表示为GTR=[(x 1 , y 1 ), (x 2 , y 2 ), …, (x N , y N ), txt],其中(x n , y n )为文本区域R边缘上的第n个基准点的坐标,N为预定义的基准点总数,txt为文本区域R中的字符串内容;
步骤2:基于全卷积网络和上采样网络的多尺度特征提取:对样本进行归一化处理后,先使用全卷积网络对输入文本图片进行特征提取,生成缩放比例为1/2T,1/2(T+1),1/2(T +2)…1/2(T+U)的U组特征图F 1 , F 2 ,… F U ,再使用上采样网络进行特征提取,生成相同缩放比例的另外U组特征图F 1 , F 2 ,…, F U
步骤3:以特征图F 1 , F 2 ,…, F U 作为输入,使用多个卷积层计算语义分割所需特征图,然后使用sigmoid函数计算各尺度上像素点为文本的概率,即生成语义分割图S 1 , S 2 , …, S U
步骤4:使用RPN网络针对多尺度特征图上所有像素位置进行区域提议生成,根据语义分割图S 1 , S 2 , …,S U 中的值设置概率阈值,过滤掉小于所述概率阈值的像素点对应的区域提议,剩下的区域提议集合为预置文本框集B
进一步,检测出目标文本框的方法包括:先使用RoIAlign方法对每个预置文本框进行特征提取,生成指定长度的特征向量,然后使用全连接层对每个预置文本框进行分类预测,对其上等距离采样得到的基准点[(x’1, y’1), (x’2, y’2), …, (x’N, y’N)]进行回归预测,生成针对每个预置文本框的文本得分Sc和基准点偏移量(Δx1, Δy1, Δx2, Δy2,…, ΔxN, ΔyN),保留文本得分Sc大于设定得分阈值的预置文本框,并根据公式xti=x’i+ Δxi和yti=y’i+ Δyi计算出预置文本框回归后得到的基准点的位置,将其连接在一起,生成目标文本区域即为目标文本框。
进一步,生成目标文本框的方法包括以下步骤:
步骤(1):对于预置文本框集B中的不同大小的预置文本框,先使用RoIAlign方法生成指定长度的特征向量,然后使用全连接层对每个预置文本框进行分类预测,对其上等距离采样得到的基准点[(x’1, y’1), (x’2, y’2), …, (x’N, y’N)]进行回归预测,生成针对每个预置文本框的文本得分Sc和基准点偏移量(Δx 1 , Δy 1 , Δx 2 , Δy 2 ,…, Δx N , Δ y N )
步骤(2):保留文本得分Sc大于设定得分阈值的文本区域,并根据公式xti=x’i+ Δxi和yti=y’i+ Δyi计算出回归后得到的基准点的位置,将其连接在一起,生成目标文本区域即为目标文本框,最后,采用非最大值抑制算法消除冗余的目标文本框。
进一步,对识别器进行训练的方法包括:先对由GTR=[(x1, y1), (x2, y2), …,(xN, yN), txt]标注的高度为h的输入文本图像T进行三次尺度变换,得到变换图像T1, T2,T3,并根据标注的基准点使用薄板样条变换进行扭曲矫正,得到高度为h1的变换图像T4;再使用全卷积网络对变换图像T1, T2, T3, T4进行二维特征提取,并根据特征图大小,对不同尺度的特征图进行多倍下采样以将它们映射到同一尺度空间,然后通过展平操作将二维特征转换到一维空间,利用全连接层组进行一维特征向量提取,其对应的特征向量为v1, v2,v3, v4,以此作为输入,计算特征相似性约束损失,并使用带有自注意力机制的全连接层进行字符串序列预测,根据预测结果计算字符串预测损失。最后,整个网络结构使用总损失函数即语义分割损失、预置文本框分类和回归损失、特征相似性约束损失以及字符串预测损失的线性组合进行端到端训练,得到最优的网络模型参数。
进一步,对所述目标文本框进行一次尺寸变换得到变换图像T’,再使用全卷积网络对变换图像T’进行二维特征提取,并根据特征图大小,对特征图进行采样映射到特定尺度空间,然后通过展平操作将二维特征转换到一维空间,并利用训练好的全连接层组进行一维特征向量提取,其对应特征向量为v’,以此作为输入,利用训练好的带有注意力机制的全连接层对目标文本框中的字符序列进行识别。
进一步,利用如下方程式表示所述变化图像T1, T2, T3
Figure 100002_DEST_PATH_IMAGE001
其中,f(T, hi)表示在保持宽高比的情况下将输入文本图像T尺寸归一化到高度为hi,d(.)表示2倍下采样,u(.)表示2倍上采样,h1, h2, h3, thred1, thred2, thred3为预定义值且h1=2*h2=3*h3
当目标文本框的高度hp>thred 1 时,T’=f(TP,h 1 );当thred 1
Figure 100002_DEST_PATH_IMAGE002
hp>thred 2 时,T’=f (TP,h 2 );当hp
Figure 100002_DEST_PATH_IMAGE003
thred 2 时,T’=f(TP,h 3 )
注意力计算如下:
Figure 100002_DEST_PATH_IMAGE004
Figure 100002_DEST_PATH_IMAGE005
Figure 100002_DEST_PATH_IMAGE006
Figure 100002_DEST_PATH_IMAGE007
其中,
Figure 100002_DEST_PATH_IMAGE008
Figure 100002_DEST_PATH_IMAGE009
分别表示注意力大小和经注意力加权后的特征向量;
所述总损失函数的方程式如下:
Figure 100002_DEST_PATH_IMAGE010
其中,
Figure 100002_DEST_PATH_IMAGE012
表示各种损失的权重,
Figure 100002_DEST_PATH_IMAGE013
表示语义分割损失、
Figure 100002_DEST_PATH_IMAGE014
表示预置文本 框分类损失和
Figure 100002_DEST_PATH_IMAGE015
表示预置文本框回归损失、
Figure 100002_DEST_PATH_IMAGE016
表示特征相似性约束损失以及
Figure 100002_DEST_PATH_IMAGE017
表示四个字符串预测损失。
本发明有益的技术效果在于:
(1)利用图像分割模块的预测结果过滤掉大部分背景像素极大地减少了待预测预置文本框数量,有利于提升模型效率。
(2)对预置文本框边缘上的基准点进行回归预测,有利于检测任意方向和形状的文本区域。
(3)利用尺度变换和空间变换进行数据增强,并使用特征相似性约束策略从文本图像中提取表达能力强的特征,有利于提升模型对弯曲文本和低分辨率文本图像识别的鲁棒性。
附图说明
图1是本发明的检测和识别方法的实施框图;
图2是本发明的检测和识别方法的流程示意图。
具体实施方式
下面结合附图及较佳实施例详细说明本发明的具体实施方式。
如图1和2所示,本发明提供了一种端到端文本检测和识别方法,利用对输入文本图像的语义分割结果过滤掉背景像素,生成预置文本框集,再对其中的预置文本框边缘上的多个基准点进行分类和回归预测,检测出目标文本框,然后利用尺度变换和空间变换对输入文本图像进行特征提取,并使用特征相似性约束策略对识别器进行训练,最后利用训练好的识别器对目标文本框中的字符序列进行识别。具体包括如下步骤:
步骤1:收集并扩展自然场景文本图像数据集作为训练样本集;
收集公开数据库如ICDAR2015、ICDAR 2017 MLT、SynthText及TotalText等中的图像及其标注作为训练样本。然后,根据模型训练需求,对样本区域的标注进行扩展,即对文本区域边界进行基准点采样,作为文本区域新的标注方式。对于训练图像I中的一个文本区域R进行标注,可表示为GTR=[(x 1 , y 1 ), (x 2 , y 2 ), …, (x N , y N ), txt],其中(x n , y n )为第n个基准点坐标,N为预定义的基准点总数,txt为文本区域的字符串内容。
步骤2:基于全卷积网络和上采样网络的多尺度特征提取;
训练阶段:对训练样本进行翻转、缩放、像素归一化等预处理,然后每批次随机裁剪8张大小为512*512的矩形区域作为网络输入进行模型训练;
测试阶段:在保持宽高比的前提下,将图片最长边归一化为1600或者2400,然后对图片进行像素归一化处理并以每批次1张作为网络输入。
为保证模型对文字大小的鲁棒性,网络首先使用全卷积网络如ResNet-50对输入图片进行特征提取,生成缩放比例为1/2,1/4,1/8和1/16的四组特征图F 1 , F 2 , F 3 , F 4 。然后,为了融合高层特征和低层特征,网络使用上采样网络如FPN通过上采样的方式进行特征,生成相同缩放比例的另外四组特征图F 1 , F 2 , F 3 , F 4
步骤3:计算多尺度语义分割图;
F 1 , F 2 , F 3 , F 4 作为输入,使用多个卷积层如2个3x3卷积层和1个1x1卷积层计算语义分割所需特征图,然后使用sigmoid函数计算各尺度上像素点为文本的概率,即生成语义分割图S 1 , S 2 , S 3 , S 4 ,训练阶段,该步可计算得到语义分割损失L seg
步骤4:使用RPN网络进行区域提议生成;
针对不同尺度特征图上各像素位置,RPN网络根据预定义的基尺寸、宽高比等超参,生成大量区域提议,即预置文本框。这些文本框的数量在百万级别,为减少待预测预置文本框数量,提升模型效率,本发明中的模型根据语义分割图S 1 , S 2 , S 3 ,S 4 设置概率阈值,如0.3,先过滤掉一些背景像素点,如文本概率低于0.3的点,然后RPN网络只针对文本概率较高的像素点进行区域提议生成,得到预置文本框集B。或者利用RPN网络所有文本概率的像素点进行区域提议生成,设置概率阈值,过滤掉小于该概率阈值的像素点对应的区域提议,剩下的区域提议集合记为预置文本框集B
步骤5:预置文本框分类和回归预测;
对于预置文本框集B中的不同大小的预置文本框,模型首先使用RoIAlign生成特定长度的特征向量,然后使用全连接层进行分类和回归预测,生成针对每个预置文本框的文本得分Sc和基准点偏移量(Δx 1 , Δy 1 , Δx 2 , Δy 2 ,…, Δx N , Δy N )。现有算法一般只针对阈值文本框的中心点、宽、高或角点进行回归预测,因此回归后得到的目标文本框依然是矩形,对文本区域,特别是弯曲文本的形状不具有鲁棒性。本发明对阈值文本框上等距离采样得到的基准点[(x’ 1 , y’ 1 ), (x’ 2 , y’ 2 ), …, (x’ N , y’ N )]进行回归,可适用于任何文本形状。在训练阶段,根据训练图像上各文本框的基准点标注GTR=[(x 1 , y 1 ), (x 2 , y 2 ), …, (x N , y N ), txt]和预测结果Sc以及(Δx 1 , Δy 1 , Δx 2 , Δy 2 ,…, Δx N , Δy N )可计算得到分类和回归损失L cls L reg
步骤6:目标文本框生成;
模型保留文本得分Sc大于0.5的文本区域为目标文本区域,并根据公式x ti =x i + Δx i y ti =y’ i + Δy i 计算出该区域回归后得到的基准点的位置。然后,按顺序连接目标文本框上各基准点即可得到任意形状和方向的目标文本区域的位置。最后,非最大值抑制算法被用于消除冗余的目标文本框。
步骤7:识别器构建;
为了得到一个对文本扭曲、模糊和低分辨率鲁棒性较高的文本识别器,在训练阶段,我们对由GTR=[(x 1 , y 1 ), (x 2 , y 2 ), …, (x N , y N ), txt]标注的高度为h的文本图像T进行三次尺度变换得到变换图像T 1 , T 2 , T 3
Figure DEST_PATH_IMAGE018
其中f(T, h i )表示在保持宽高比的情况下将图像T尺寸归一化到高度为h i d(.)表 示2倍下采样,u(.)表示2倍上采样,h 1 , h 2 , h3, thred 1 , thred 2 , thred 3 为预定义值且h 1 = 2*h 2 =3*h 3 。此外,根据训练样本边缘上的基准点,使用薄板样条变换进行扭曲矫正,得到高 度为h 1 的变换图像T 4 。训练阶段,T 1 , T 2 , T 3 T 4 一起作为训练阶段识别器的输入,在测试阶 段,由步骤6预测得到的本文图像TP只进行一次尺度变化得到T’,并将T’作为网络输入,其 中当TP的高度hp>thred 1 T’=f(TP,h 1 );当thred 1
Figure 167294DEST_PATH_IMAGE002
hp>thred 2 T’=f(TP,h 2 );当hp
Figure 615593DEST_PATH_IMAGE003
thred 2 T’=f(TP,h 3 )
步骤8:文本图像的二维特征提取;
模型使用全卷积网络如ResNet-32对T 1 , T 2 , T 3 ,T 4 或者T’进行二维特征提取,并根据特征图大小,对不同大小的特征图进行4倍下采样或2倍下采样以将它们映射到同一尺度空间。
步骤9:利用全连接层组进行文本图像一维特征向量提取;
先通过展平操作将二维特征转换到一维空间,然后利用全连接层组进行文本图像一维特征向量提取。训练阶段T 1 , T 2 , T 3 ,T 4 对应特征向量为v 1 , v 2 , v 3 , v 4 ,测试阶段T’对应特征向量为v’
步骤10:特征相似性约束计算;
该识别器旨在通过特征相似性约束,从扭曲、低分辨率和模糊图像T 1 , T 2 , T 3 中提取出与高分辨率、扭曲矫正后图像T 4 相似的特征。与现有识别器相比,该约束使本发明中提取到的一维特征更利于步骤11中的序列预测。因此,在得到对应特征向量v 1 , v 2 , v 3 , v 4 后,模型用如下公式计算特征相似性损失:
Figure DEST_PATH_IMAGE019
步骤11:字符序列输出预测;
该识别器使用带有注意力机制的全连接层从特征向量vi中推断出图片中的文本内容。该注意力用于强调与文本相关的特征,同时抑制背景对应特征,以提高识别器对文本图像中背景噪声的鲁棒性。注意力计算方式如下:
Figure 192067DEST_PATH_IMAGE004
Figure 115505DEST_PATH_IMAGE005
Figure 461036DEST_PATH_IMAGE006
Figure 814657DEST_PATH_IMAGE007
其中,
Figure 612849DEST_PATH_IMAGE008
Figure 342907DEST_PATH_IMAGE009
分别表示注意力大小和经注意力加权后的特征向量,该加 权特征向量作为后续全连接层的输入,输出长度为T的字符串序列概率,T为预定义最大字 符串长度。目前识别器广泛应用嵌入注意力机制的LSTM, 计算复杂且无法充分利用全局信 息进行预测。本发明直接利用带有自注意力机制的全连接层进行字符串序列预测,可有效 利用文本图像的全局特征,同时降低模型的复杂度。测试阶段,该层以v’为输入时得到的字 符串预测结果即为最终输出。训练阶段,该层以v 1 , v 2 , v 3 , v 4 为输入得到的预测结果将结 合输入图像标签中的字符串真值txt计算得到字符串预测损失L recg1 , L recg2 , L recg3 , L recg4 。 总损失函数由语义分割损失、预置文本框分类和回归损失、特征相似性约束损失以及字符 串预测损失组成,可表示如下,其中
Figure 542945DEST_PATH_IMAGE012
为各损失的权重:
Figure DEST_PATH_IMAGE020
该总损失函数可以对文本检测模型和文本识别器进行端到端训练,得到最优模型参数。
技术人员应当理解,这些仅是举例说明,在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,因此,本发明的保护范围由所附权利要求书限定。

Claims (8)

1.一种端到端文本检测和识别方法,其特征在于:利用对输入文本图像的语义分割结果过滤掉背景像素,生成预置文本框集,再对其中的预置文本框边缘上的多个基准点进行分类和回归预测,检测出目标文本框,然后利用尺度变换和空间变换对输入文本图像进行特征提取,并使用特征相似性约束策略对识别器进行训练,最后利用训练好的识别器对目标文本框中的字符序列进行识别。
2.根据权利要求1所述的端到端文本检测和识别方法,其特征在于生成预置文本框集的方法包括:建立包含字符序列的图像库,对其中的各个文本图像进行归一化处理,再先后使用全卷积网络和上采样网络对输入文本图像进行不同缩放比例的多尺度特征图提取,以此作为输入,利用多个卷积层结合sigmoid函数生成语义分割图,同时,利用RPN网络对多尺度特征图上的所有像素位置进行区域提议生成,然后,根据语义分割图设置概率阈值,过滤掉小于所述概率阈值的像素点对应的区域提议,剩下的区域提议集合记为预置文本框集。
3.根据权利要求2所述的端到端文本检测和识别方法,其特征在于生成预置文本框集的方法包括以下步骤:
步骤1:收集并扩展自然场景的文本图像数据集作为训练样本集,对其中的文本图像I中的文本区域R进行标注,表示为GTR=[(x 1 , y 1 ), (x 2 , y 2 ), …, (x N , y N ), txt],其中(x n , y n )为文本区域R边缘的第n个基准点坐标,N为预定义的基准点总数,txt为文本区域R中的字符串内容;
步骤2:基于全卷积网络和上采样网络的多尺度特征提取:对样本进行归一化处理后,先使用全卷积网络对输入文本图像进行特征提取,生成缩放比例为1/2T,1/2(T+1),1/2(T+2)…1/2(T+U)的U组特征图F 1 , F 2 ,… F U ,再使用上采样网络进行特征提取,生成相同缩放比例的另外U组特征图F 1 , F 2 ,…, F U
步骤3:以特征图F 1 , F 2 ,…, F U 作为输入,使用多个卷积层计算语义分割所需特征图,然后使用sigmoid函数计算各尺度上像素点为文本的概率,即生成语义分割图S 1 , S 2 , …, S U
步骤4:使用RPN网络针对多尺度特征图上所有像素位置进行区域提议生成,根据语义分割图S 1 , S 2 , …,S U 中的值设置概率阈值,过滤掉小于所述概率阈值的像素点对应的区域提议,剩下的区域提议集合为预置文本框集B
4.根据权利要求1所述的端到端文本检测和识别方法,其特征在于检测出目标文本框的方法包括:先使用RoIAlign方法对每个预置文本框进行特征提取,生成指定长度的特征向量,然后使用全连接层对每个预置文本框进行分类预测,对其上等距离采样得到的基准点[(x’1, y’1), (x’2, y’2), …, (x’N, y’N)]进行回归预测,生成针对每个预置文本框的文本得分Sc和基准点偏移量(Δx1, Δy1, Δx2, Δy2,…, ΔxN, ΔyN),保留文本得分Sc大于设定得分阈值的预置文本框,并根据公式xti=x’i+ Δxi和yti=y’i+ Δyi计算出预置文本框回归后得到的基准点的位置,将其连接在一起,生成目标文本区域即为目标文本框。
5.根据权利要求4所述的端到端文本检测和识别方法,其特征在于生成目标文本框的方法包括以下步骤:
步骤(1):对于预置文本框集B中的不同大小的预置文本框,先使用RoIAlign方法生成指定长度的特征向量,然后使用全连接层对每个预置文本框进行分类预测,对其上等距离采样得到的基准点[(x’1, y’1), (x’2, y’2), …, (x’N, y’N)]进行回归预测,生成针对每个预置文本框的文本得分Sc和基准点偏移量(Δx 1 , Δy 1 , Δx 2 , Δy 2 ,…, Δx N , Δy N )
步骤(2):保留文本得分Sc大于设定得分阈值的文本区域,并根据公式xti=x’i+ Δxi和yti=y’i+ Δyi计算出回归后得到的基准点的位置,将其连接在一起,生成目标文本区域即为目标文本框,最后采用非最大值抑制算法消除冗余的目标文本框。
6.根据权利要求1所述的端到端文本检测和识别方法,其特征在于对识别器进行训练的方法包括:先对由GTR=[(x1, y1), (x2, y2), …, (xN, yN), txt]标注的高度为h的输入文本图像T进行三次尺度变换,得到变换图像T1, T2, T3,并根据标注的基准点使用薄板样条变换进行扭曲矫正,得到高度为h1的变换图像T4;再使用全卷积网络对变换图像T1, T2,T3, T4进行二维特征提取,并根据特征图大小,对不同尺度的特征图进行多倍下采样以将它们映射到同一尺度空间,然后通过展平操作将二维特征转换到一维空间,利用全连接层组进行一维特征向量提取,其对应的特征向量为v1, v2, v3, v4,以此作为输入,计算特征相似性约束损失,并使用带有自注意力机制的全连接层进行字符串序列预测,根据预测结果计算字符串预测损失,最后,整个网络结构使用总损失函数即语义分割损失、预置文本框分类和回归损失、特征相似性约束损失以及字符串预测损失的线性组合进行端到端训练,得到最优的网络模型参数。
7.根据权利要求6所述的端到端文本检测和识别方法,其特征在于利用识别器进行预测包括:对所述权利要求5中检测到的目标文本框进行一次尺寸变换得到变换图像T’,再使用全卷积网络对变换图像T’进行二维特征提取,并根据特征图大小,对特征图进行下采样以将它映射到特定尺度空间,然后通过展平操作将二维特征转换到一维空间,并利用训练好的全连接层组进行一维特征向量提取,其对应的特征向量为v’,以此作为输入,利用训练好的带有注意力机制的全连接层对目标文本框中的字符序列进行识别。
8.根据权利要求7所述的端到端文本检测和识别方法,其特征在于:利用如下方程式表示所述变换图像T1, T2, T3
Figure DEST_PATH_IMAGE001
其中,f(T, hi)表示在保持宽高比的情况下将输入文本图像T尺寸归一化到高度为hi,d(.)表示2倍下采样,u(.)表示2倍上采样,h1, h2, h3, thred1, thred2, thred3为预定义值且h1=2*h2=3*h3
当目标文本框的高度hp>thred 1 时,T’=f(TP,h 1 );当thred 1
Figure DEST_PATH_IMAGE002
hp>thred 2 时,T’=f(TP,h 2 ); 当hp
Figure DEST_PATH_IMAGE003
thred 2 时,T’=f(TP,h 3 )
注意力计算如下:
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
其中,
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
分别表示注意力大小和经注意力加权后的特征向量;
所述总损失函数的方程式如下:
Figure DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE012
表示各种损失的权重,
Figure DEST_PATH_IMAGE013
表示语义分割损失、
Figure DEST_PATH_IMAGE014
表示预置文本框分类 损失和
Figure DEST_PATH_IMAGE015
表示预置文本框回归损失、
Figure DEST_PATH_IMAGE016
表示特征相似性约束损失以及
Figure DEST_PATH_IMAGE017
表示四个字符串预测损失。
CN202110344324.7A 2021-03-31 2021-03-31 一种端到端文本检测和识别方法 Active CN112733822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110344324.7A CN112733822B (zh) 2021-03-31 2021-03-31 一种端到端文本检测和识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110344324.7A CN112733822B (zh) 2021-03-31 2021-03-31 一种端到端文本检测和识别方法

Publications (2)

Publication Number Publication Date
CN112733822A true CN112733822A (zh) 2021-04-30
CN112733822B CN112733822B (zh) 2021-07-27

Family

ID=75596175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110344324.7A Active CN112733822B (zh) 2021-03-31 2021-03-31 一种端到端文本检测和识别方法

Country Status (1)

Country Link
CN (1) CN112733822B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801092A (zh) * 2021-01-29 2021-05-14 重庆邮电大学 一种自然场景图像中字符元素检测方法
CN113205049A (zh) * 2021-05-07 2021-08-03 开放智能机器(上海)有限公司 一种单据识别方法以及识别***
CN113282718A (zh) * 2021-07-26 2021-08-20 北京快鱼电子股份公司 一种基于自适应中心锚的语种识别方法及***
CN113343958A (zh) * 2021-08-06 2021-09-03 北京世纪好未来教育科技有限公司 一种文本识别方法、装置、设备及介质
CN113486716A (zh) * 2021-06-04 2021-10-08 电子科技大学长三角研究院(衢州) 机场场面目标分割方法及其***
CN113591719A (zh) * 2021-08-02 2021-11-02 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN113780276A (zh) * 2021-09-06 2021-12-10 成都人人互娱科技有限公司 一种结合文本分类的文本检测和识别方法及***
CN114067321A (zh) * 2022-01-14 2022-02-18 腾讯科技(深圳)有限公司 一种文本检测模型训练方法、装置、设备及存储介质
CN114359932A (zh) * 2022-01-11 2022-04-15 北京百度网讯科技有限公司 文本检测方法、文本识别方法及装置
CN114882485A (zh) * 2022-04-25 2022-08-09 华南理工大学 一种面向细长文本的自然场景文字检测方法、***及介质
CN117312928A (zh) * 2023-11-28 2023-12-29 南京网眼信息技术有限公司 一种基于aigc识别用户设备信息的方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180005082A1 (en) * 2016-04-11 2018-01-04 A2Ia S.A.S. Systems and methods for recognizing characters in digitized documents
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108734169A (zh) * 2018-05-21 2018-11-02 南京邮电大学 一种基于全卷积网络改进的场景文本提取方法
US20180322339A1 (en) * 2017-05-08 2018-11-08 Adobe Systems Incorporated Page segmentation of vector graphics documents
CN110837835A (zh) * 2019-10-29 2020-02-25 华中科技大学 一种基于边界点检测的场景文本端到端识别方法
CN111062854A (zh) * 2019-12-26 2020-04-24 Oppo广东移动通信有限公司 检测水印的方法、装置、终端及存储介质
CN111553347A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种面向任意角度的场景文本检测方法
CN112364873A (zh) * 2020-11-20 2021-02-12 深圳壹账通智能科技有限公司 弯曲文本图像的文字识别方法、装置及计算机设备
CN112580656A (zh) * 2021-02-23 2021-03-30 上海旻浦科技有限公司 一种端到端的文本检测方法、***、终端及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180005082A1 (en) * 2016-04-11 2018-01-04 A2Ia S.A.S. Systems and methods for recognizing characters in digitized documents
US20180322339A1 (en) * 2017-05-08 2018-11-08 Adobe Systems Incorporated Page segmentation of vector graphics documents
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108734169A (zh) * 2018-05-21 2018-11-02 南京邮电大学 一种基于全卷积网络改进的场景文本提取方法
CN110837835A (zh) * 2019-10-29 2020-02-25 华中科技大学 一种基于边界点检测的场景文本端到端识别方法
CN111062854A (zh) * 2019-12-26 2020-04-24 Oppo广东移动通信有限公司 检测水印的方法、装置、终端及存储介质
CN111553347A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种面向任意角度的场景文本检测方法
CN112364873A (zh) * 2020-11-20 2021-02-12 深圳壹账通智能科技有限公司 弯曲文本图像的文字识别方法、装置及计算机设备
CN112580656A (zh) * 2021-02-23 2021-03-30 上海旻浦科技有限公司 一种端到端的文本检测方法、***、终端及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ASGHAR ALI CHANDIO 等: "Cursive-Text: A Comprehensive Dataset for End-to-End Urdu Text Recognition in Natural Scene Images", 《DATA IN BRIEF》 *
KAI WANG 等: "End-to-End Scene Text Recognition", 《IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 *
王建新 等: "基于深度学习的自然场景文本检测与识别综述", 《软件学报》 *
王涛 等: "基于语义分割技术的任意方向文字识别", 《应用科技》 *
陶志勇 等: "基于Mask-RCNN无分割手写数字字符串的识别", 《激光与光电子学进展》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801092B (zh) * 2021-01-29 2022-07-15 重庆邮电大学 一种自然场景图像中字符元素检测方法
CN112801092A (zh) * 2021-01-29 2021-05-14 重庆邮电大学 一种自然场景图像中字符元素检测方法
CN113205049A (zh) * 2021-05-07 2021-08-03 开放智能机器(上海)有限公司 一种单据识别方法以及识别***
CN113486716A (zh) * 2021-06-04 2021-10-08 电子科技大学长三角研究院(衢州) 机场场面目标分割方法及其***
CN113282718A (zh) * 2021-07-26 2021-08-20 北京快鱼电子股份公司 一种基于自适应中心锚的语种识别方法及***
CN113591719A (zh) * 2021-08-02 2021-11-02 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN113591719B (zh) * 2021-08-02 2024-05-28 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN113343958A (zh) * 2021-08-06 2021-09-03 北京世纪好未来教育科技有限公司 一种文本识别方法、装置、设备及介质
CN113780276B (zh) * 2021-09-06 2023-12-05 成都人人互娱科技有限公司 一种结合文本分类的文本识别方法及***
CN113780276A (zh) * 2021-09-06 2021-12-10 成都人人互娱科技有限公司 一种结合文本分类的文本检测和识别方法及***
CN114359932A (zh) * 2022-01-11 2022-04-15 北京百度网讯科技有限公司 文本检测方法、文本识别方法及装置
CN114359932B (zh) * 2022-01-11 2023-05-23 北京百度网讯科技有限公司 文本检测方法、文本识别方法及装置
CN114067321A (zh) * 2022-01-14 2022-02-18 腾讯科技(深圳)有限公司 一种文本检测模型训练方法、装置、设备及存储介质
CN114882485A (zh) * 2022-04-25 2022-08-09 华南理工大学 一种面向细长文本的自然场景文字检测方法、***及介质
CN114882485B (zh) * 2022-04-25 2024-05-24 华南理工大学 一种面向细长文本的自然场景文字检测方法、***及介质
CN117312928A (zh) * 2023-11-28 2023-12-29 南京网眼信息技术有限公司 一种基于aigc识别用户设备信息的方法及***
CN117312928B (zh) * 2023-11-28 2024-02-13 南京网眼信息技术有限公司 一种基于aigc识别用户设备信息的方法及***

Also Published As

Publication number Publication date
CN112733822B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN112733822B (zh) 一种端到端文本检测和识别方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN108665481B (zh) 多层深度特征融合的自适应抗遮挡红外目标跟踪方法
CN112418117B (zh) 一种基于无人机图像的小目标检测方法
CN112004111B (zh) 一种全域深度学习的新闻视频信息抽提方法
WO2023083280A1 (zh) 一种场景文本识别方法和装置
CN111414906A (zh) 纸质票据图片的数据合成与文本识别方法
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN106997597A (zh) 一种基于有监督显著性检测的目标跟踪方法
CN113408584B (zh) Rgb-d多模态特征融合3d目标检测方法
CN110659550A (zh) 交通标志牌识别方法、装置、计算机设备和存储介质
CN112288772B (zh) 基于在线多特征选择的通道注意力目标跟踪方法
CN112149664A (zh) 一种优化分类与定位任务的目标检测方法
CN113688821A (zh) 一种基于深度学习的ocr文字识别方法
CN116363535A (zh) 基于卷积神经网络的无人机航拍影像中的船舶检测方法
Liu et al. Cloud detection using super pixel classification and semantic segmentation
CN113537173B (zh) 一种基于面部补丁映射的人脸图像真伪识别方法
CN111507353A (zh) 一种基于文字识别的中文字段检测方法及***
Liu et al. SLPR: A deep learning based Chinese ship license plate recognition framework
CN111626298B (zh) 一种实时图像语义分割装置及分割方法
CN110555406B (zh) 一种基于Haar-like特征及CNN匹配的视频运动目标识别方法
CN116612450A (zh) 一种面向点云场景的差异化知识蒸馏3d目标检测方法
CN115953744A (zh) 一种基于深度学习的车辆识别追踪方法
CN115861595A (zh) 一种基于深度学习的多尺度域自适应异源图像匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant