CN113435436A - 一种基于线性约束矫正网络的场景文字识别方法 - Google Patents

一种基于线性约束矫正网络的场景文字识别方法 Download PDF

Info

Publication number
CN113435436A
CN113435436A CN202110619690.9A CN202110619690A CN113435436A CN 113435436 A CN113435436 A CN 113435436A CN 202110619690 A CN202110619690 A CN 202110619690A CN 113435436 A CN113435436 A CN 113435436A
Authority
CN
China
Prior art keywords
network
text
character recognition
parameters
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110619690.9A
Other languages
English (en)
Inventor
王刚
张华平
商建云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110619690.9A priority Critical patent/CN113435436A/zh
Publication of CN113435436A publication Critical patent/CN113435436A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于线性约束矫正网络的场景文字识别方法,属于图像文本识别检测技术领域。本方法通过卷积网络对文本图像提取几何特征,得到空间变换参数,基于空间变换网络得到的参数,对倾斜文本图像进行分割,得到水平文本图像;利用校正后水平文本图像进行文字识别,提取图像特征。利用序列编解码网络和注意力机制进行文字识别,得到识别后的文本序列。将预测输出与目标进行损失计算,并更新网络参数。本方法矫正所需空间变换参数更灵活,可实现更复杂变换。空间变化网络输出的控制点被约束在一系列间距相同的边上,矫正后的图片更平滑,减少对后续任务的干扰。空间变换网络与特征提取层共享参数信息,在减少参数量的同时,提高了模型表现。

Description

一种基于线性约束矫正网络的场景文字识别方法
技术领域
本发明涉及一种基于线性约束矫正网络的场景文字识别方法,属于图像文本识别检测技术领域。
背景技术
OCR(Optical Character Recognition,光学字符识别)传统上指对输入扫描文档图像进行分析处理,识别出图像中的文字信息。场景文字识别(Scene Text Recognition,STR)指识别自然场景图片中的文字信息。传统的光学字符识别技术在印刷字体识别方面已经很成熟,随着神经网络的发展,场景文字识别逐渐成为热门研究。
自然场景图像中的文字识别,其难度远大于扫描文档图像中的文字识别,因为它的文字展现形式极其丰富:
·允许多种语言文本混合,字符可以有不同的大小、字体、颜色、亮度、对比度等。
·文本行可能有横向、竖向、弯曲、旋转、扭曲等式样。
·图像中的文字区域还可能会产生变形(透视、仿射变换)、残缺、模糊等现象。
·自然场景图像的背景极其多样。如文字可以出现在平面、曲面或折皱面上;文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理,比如沙地、草丛、栅栏、砖墙等。
当前,文本检测和识别技术处于一个学科交叉点,其技术演进不断受益于计算机视觉处理和自然语言处理两个领域的技术进步。它既需要使用视觉处理技术来提取图像中文字区域的图像特征向量,又需要借助自然语言处理技术来解码图像特征向量为文字结果。
目前,主流的技术方案是基于卷积循环神经网络和带注意力机制的序列识别网络。但是,现有的空间变换网络在提取图像变换特征后矫正输入图像,没有有效利用提取到的初级特征。矫正所需的空间变换参数通常限定为两排固定的控制点,限制了处理更复杂文字的可能性。空间变换网络每个点的输出相互独立,容易造成矫正后的图片边缘不平滑,给后续的识别任务造成额外的干扰。
发明内容
本发明的目的是为了克服现有技术存在缺陷,针对现有场景文字识别技术空间变换网络存在的不足,提出一种基于线性约束矫正网络的场景文字识别方法。
本发明的创新点在于:为空间变换网络的矫正信息增加线性约束,使其将输出的形状符合多项式曲线,同时,共享空间变换网络提取的初级特征,从而实现场景文字识别。
本发明是通过以下技术方案实现。
一种基于线性约束矫正网络的场景文字识别方法,包括以下步骤:
步骤1:将变形的文本图像经过矫正网络(即空间变换网络),得到水平文本图像。
具体地,步骤1包括以下步骤:
步骤1.1:利用卷积神经网络提取原始文本图像特征,获得网格参数。
具体地,设网格大小为M行N列,利用参数构建控制点Ci={(xj,yj)},i∈{1,2,…M},j∈{1,2,…,N},xj表示第j个控制点的横坐标,yj表示第j个控制点的纵坐标。
Figure BDA0003099293740000021
其中,每个Ci都有相同的a,a表示决定曲线多项式的系数,ak表示第k个系数,W个a决定了曲线多项式;bi表示预测偏移。
xj和bi由网络直接确定,yj根据参数合成输出。
步骤1.2:初始化目标控制点C′={C′i},1≤i≤M,其中:
Figure BDA0003099293740000022
其中,C′i表示目标控制点C′集合中的第i个点。
步骤1.3:计算变换映射矩阵
Figure BDA0003099293740000023
Figure BDA0003099293740000024
其中,S为一个矩阵符号,S={sij},sij=φ(Δc),其中,φ(x)=x2 logx,Δc是控制点C中两个元素的差值,C的形状为(M×N)×2。
步骤1.4:使用薄板样条插值函数,利用步骤1.3得到的矩阵T,对变形图片进行矫正。
步骤2:使用特征提取网络对矫正后的水平文本图像进行特征提取,得到图像特征。
具体地,可以使用54层的残差网络作为特征提取网络,进行特征提取。该网络与步骤1中的卷积神经网络共享参数。
其中,该步骤使用的残差网络,可以根据需要更换为其他卷积神经网络。
步骤3:利用序列编解码网络和注意力机制进行文字识别,得到识别后的文本序列,作为预测输出。
具体地,序列编码网络为一个两层双向长短时记忆网络,将提取的特征编码成中间状态,该状态包含上下文信息。
序列解码器由一个基于注意力机制的门控循环单元组成,包含词嵌入和注意力机制。在解码的每一个时间步,用序列编码网络得到的含有上下文信息的中间表征,与门控循环单元的前一步隐状态计算注意力权重,并将权重与门控循环单元的当前输出加权求和,预测当前解码时间步的字符类别。解码过程使用束搜索,每一步保留前K个最有可能的结果,最终的预测输出为整体概率最大的那一个。
步骤4:将步骤3获得的文本序列(即预测输出)与目标进行损失计算,并更新网络参数。
其中,解码器为双向,每个方向的解码器产生的损失值,通过加权形成最终的损失值。网络参数的学习可以采用端到端的方式。
有益效果
本发明方法,与现有技术相比,具有如下有益效果:
1.矫正所需的空间变换参数可以更灵活,可以实现更复杂的变换;
2.空间变化网络输出的控制点被约束在一系列间距相同的边上,矫正后的图片可以更平滑减少了对后续任务的干扰;
3.空间变换网络与特征提取层共享参数信息,减少参数量的同时提高了模型的表现;
4.双向解码器从不同方向获取最终的目标文本序列,可有效减少解码器对长序列。
附图说明
图1是本发明方法的实施流程图;
图2是本发明方法的模型整体架构;
图3是现有的方法与本发明识别结果可视化的对比图。
具体实施方式
下面结合附图和实施例,对本发明方法做进一步详细说明。应当理解,此处所描述的具体实施例,仅仅用以解释本发明,并不用于限定本发明。
实施例
一种基于线性约束矫正网络的场景文字识别方法,包括以下实施步骤:
为了更好地识别不规则场景文字,本方法将严重变形的文本图像矫正为水平文本图像。矫正时,通过卷积网络提取特征,预测出位置信息,即变换网格的参数。经过转换,得到一个矫正控制点网格,形状为M×N,预测输出的位置点都分布在由多项式确定的曲线上,这一转换过程保证了网格的格点之间过渡地更加平滑。
矫正后的图像由卷积网络提取出特征,此处的卷积可以和矫正中的卷积相同,使用的是同一个残差网络。
序列编码器由两层双向LSTM组成,将特征提取获取的特征编码成中间状态,该状态包含了上下文信息。序列解码器则包含词嵌入和注意力机制。在解码的每一个时间步,用该序列编码网络得到的含有上下文信息的中间表征,与门控循环单元前一步隐状态计算注意力权重,并将权重与门控循环单元的当前输出加权求和,预测当前解码时间步的字符类别。解码过程使用束搜索,每一步保留前K个最有可能的结果。
最终的预测输出为整体概率最大的一个。
本发明提出的场景文字识别端到端模型结构图,如图2所示,包括空间变换网络、特征提取网络和序列编解码网络。
以下通过实验来评估本发明的效果。
本实施例在两个生成的数据Syn90K与SynthText上进行训练,在主流的几个场景文本数据集上进行测试。其中,IIIT5K有3000张图像,由网络场景文字图片剪裁而成;SVT有647张图像,大部分为水平文本图像;ICDAR 2003(IC03)有860张图片,大部分是剪裁成的水平文本图像;SVT-Perspective(SVTP)有645张图像,其中,大部分文本有比较强的形变;ICDAR 2013(IC13)有1015张图像,大部分为高质量的水平文本图像;ICDAR2015(IC15)有1811张图像,多数为严重变形且低质量的文本图像;CUTE有288张图像,其中大部分为高质量的弯曲文本图像。
表1展现了本发明方法与其他方法实验对比。本方法对弯曲严重的IC15、SVTP和CUTE上有明显提升,本发明的有效性如图3所示,展示了部分可视化结果。
表1实验结果对比表
Figure BDA0003099293740000051

Claims (3)

1.一种基于线性约束矫正网络的场景文字识别方法,其特征在于,包括以下步骤:
步骤1:将变形的文本图像经过矫正网络,得到水平文本图像,包括以下步骤:
步骤1.1:利用卷积神经网络提取原始文本图像特征,获得网格参数;
设网格大小为M行N列,利用参数构建控制点Ci={(xj,yj)},i∈{1,2,…M},j∈{1,2,…,N},xj表示第j个控制点的横坐标,yj表示第j个控制点的纵坐标;
Figure FDA0003099293730000011
其中,每个Ci都有相同的a,a表示决定曲线多项式的系数,ak表示第k个系数,W个a决定了曲线多项式;bi表示预测偏移;
xj和bi由网络直接确定,yj根据参数合成输出;
步骤1.2:初始化目标控制点C′={C′i},1≤i≤M,其中:
Figure FDA0003099293730000012
其中,C′i表示目标控制点C′集合中的第i个点;
步骤1.3:计算变换映射矩阵
Figure FDA0003099293730000013
Figure FDA0003099293730000014
其中,S为一个矩阵符号,S={sij},sij=φ(Δc),其中,φ(x)=x2log x,Δc是控制点C中两个元素的差值,C的形状为(M×N)×2。
步骤1.4:使用薄板样条插值函数,利用步骤1.3得到的矩阵T,对变形图片进行矫正;
步骤2:使用特征提取网络对矫正后的水平文本图像进行特征提取,得到图像特征;
步骤3:利用序列编解码网络和注意力机制进行文字识别,得到识别后的文本序列,作为预测输出;
步骤4:将步骤3获得的文本序列与目标进行损失计算,并更新网络参数。
2.如权利要求1所述的一种基于线性约束矫正网络的场景文字识别方法,其特征在于,步骤3中,序列编码网络采用一个两层双向长短时记忆网络,将提取的特征编码成中间状态,该状态包含上下文信息;
序列解码器由一个基于注意力机制的门控循环单元组成,包含词嵌入和注意力机制;在解码的每一个时间步,用序列编码网络得到的含有上下文信息的中间表征,与门控循环单元的前一步隐状态计算注意力权重,并将权重与门控循环单元的当前输出加权求和,预测当前解码时间步的字符类别;解码过程使用束搜索,每一步保留前K个最有可能的结果,最终的预测输出为整体概率最大的那一个。
3.如权利要求1所述的一种基于线性约束矫正网络的场景文字识别方法,其特征在于,步骤4中,采用双向解码器进行损失计算,每个方向的解码器产生的损失值通过加权形成最终的损失值。
CN202110619690.9A 2021-06-03 2021-06-03 一种基于线性约束矫正网络的场景文字识别方法 Pending CN113435436A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110619690.9A CN113435436A (zh) 2021-06-03 2021-06-03 一种基于线性约束矫正网络的场景文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110619690.9A CN113435436A (zh) 2021-06-03 2021-06-03 一种基于线性约束矫正网络的场景文字识别方法

Publications (1)

Publication Number Publication Date
CN113435436A true CN113435436A (zh) 2021-09-24

Family

ID=77803542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110619690.9A Pending CN113435436A (zh) 2021-06-03 2021-06-03 一种基于线性约束矫正网络的场景文字识别方法

Country Status (1)

Country Link
CN (1) CN113435436A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114202648A (zh) * 2021-12-08 2022-03-18 北京百度网讯科技有限公司 文本图像矫正方法、训练方法、装置、电子设备以及介质
CN114937271A (zh) * 2022-05-11 2022-08-23 中维建通信技术服务有限公司 一种通信数据智能录入校对方法
CN115100659A (zh) * 2022-06-13 2022-09-23 深圳市星桐科技有限公司 文本识别方法、装置、电子设备和存储介质
CN117351475A (zh) * 2023-09-21 2024-01-05 山东睿芯半导体科技有限公司 一种场景文本识别方法、装置、芯片及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919174A (zh) * 2019-01-16 2019-06-21 北京大学 一种基于门控级联注意力机制的文字识别方法
CN110287960A (zh) * 2019-07-02 2019-09-27 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN111914838A (zh) * 2020-07-28 2020-11-10 同济大学 一种基于文本行识别的车牌识别方法
CN112287105A (zh) * 2020-09-30 2021-01-29 昆明理工大学 融合标题和正文双向互注意力的涉法新闻相关性分析方法
CN112612871A (zh) * 2020-12-17 2021-04-06 浙江大学 一种基于序列生成模型的多事件检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919174A (zh) * 2019-01-16 2019-06-21 北京大学 一种基于门控级联注意力机制的文字识别方法
CN110287960A (zh) * 2019-07-02 2019-09-27 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN111914838A (zh) * 2020-07-28 2020-11-10 同济大学 一种基于文本行识别的车牌识别方法
CN112287105A (zh) * 2020-09-30 2021-01-29 昆明理工大学 融合标题和正文双向互注意力的涉法新闻相关性分析方法
CN112612871A (zh) * 2020-12-17 2021-04-06 浙江大学 一种基于序列生成模型的多事件检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114202648A (zh) * 2021-12-08 2022-03-18 北京百度网讯科技有限公司 文本图像矫正方法、训练方法、装置、电子设备以及介质
CN114202648B (zh) * 2021-12-08 2024-04-16 北京百度网讯科技有限公司 文本图像矫正方法、训练方法、装置、电子设备以及介质
CN114937271A (zh) * 2022-05-11 2022-08-23 中维建通信技术服务有限公司 一种通信数据智能录入校对方法
CN114937271B (zh) * 2022-05-11 2023-04-18 中维建通信技术服务有限公司 一种通信数据智能录入校对方法
CN115100659A (zh) * 2022-06-13 2022-09-23 深圳市星桐科技有限公司 文本识别方法、装置、电子设备和存储介质
CN117351475A (zh) * 2023-09-21 2024-01-05 山东睿芯半导体科技有限公司 一种场景文本识别方法、装置、芯片及终端

Similar Documents

Publication Publication Date Title
CN111723585B (zh) 一种风格可控的图像文本实时翻译与转换方法
CN112215223B (zh) 基于多元注意力机制的多方向场景文字识别方法及***
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及***
CN113435436A (zh) 一种基于线性约束矫正网络的场景文字识别方法
CN112149619B (zh) 一种基于Transformer模型自然场景文字识别方法
CN113343707B (zh) 一种基于鲁棒性表征学习的场景文本识别方法
CN110647795B (zh) 一种表格识别方法
CN110427938A (zh) 一种基于深度学习的不规则文字识别装置和方法
CN111428727B (zh) 基于序列变换纠正及注意力机制的自然场景文本识别方法
CN112381057A (zh) 手写文字识别方法及装置、存储介质、终端
CN113221874A (zh) 基于Gabor卷积和线性稀疏注意力的文字识别***
CN114170608A (zh) 超分辨文本图像识别方法、装置、设备及存储介质
CN115116074A (zh) 一种手写体文字识别、及模型训练方法和装置
CN114581905A (zh) 一种基于语义增强机制的场景文本识别方法及***
CN116258874A (zh) 基于深度条件扩散网络的sar识别数据库样本姿态扩充方法
CN116434252A (zh) 图像识别模型的训练及图像识别方法、装置、介质、设备
CN115035531A (zh) 一种零售终端文字识别方法及***
CN114913424A (zh) 一种基于改进的U-net模型的崩岗提取方法及***
CN114332479A (zh) 一种目标检测模型的训练方法及相关装置
CN112036290B (zh) 一种基于类标编码表示的复杂场景文字识别方法及***
CN111079749B (zh) 一种带姿态校正的端到端商品价签文字识别方法和***
Wang et al. Scene uyghur recognition with embedded coordinate attention
CN115909378A (zh) 单据文本检测模型的训练方法及单据文本检测方法
CN111814508A (zh) 一种文字识别方法、***及设备
CN112926684B (zh) 一种基于半监督学习的文字识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210924

WD01 Invention patent application deemed withdrawn after publication