CN110689012A - 一种端到端的自然场景文本识别方法及*** - Google Patents

一种端到端的自然场景文本识别方法及*** Download PDF

Info

Publication number
CN110689012A
CN110689012A CN201910947834.6A CN201910947834A CN110689012A CN 110689012 A CN110689012 A CN 110689012A CN 201910947834 A CN201910947834 A CN 201910947834A CN 110689012 A CN110689012 A CN 110689012A
Authority
CN
China
Prior art keywords
text
network
information
text recognition
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910947834.6A
Other languages
English (en)
Inventor
张雨柔
李锐
于治楼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Original Assignee
Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Artificial Intelligence Research Institute Co Ltd filed Critical Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority to CN201910947834.6A priority Critical patent/CN110689012A/zh
Publication of CN110689012A publication Critical patent/CN110689012A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种端到端的自然场景文本识别方法及***,属于计算机视觉中的目标检测和识别领域,本发明要解决的技术问题为如何能够同时完成文本检测和文本识别的任务,避免中间过程的特征重计算和图片裁剪,提高整体的计算效率及文本识别的准确性,技术方案为:该方法是同时完成文本检测和文本识别任务,将文本检测和文本识别任务融合到一个统一的框架中,通过前向计算完成整个任务;同时在文本识别中结合注意力机制,为文本识别提高空间位置信息,对文本的外观具备较强的鲁棒性;步骤如下:S1、选择数据集;S2、搭建网络框架;S3、设计损失函数;S4、训练网络。该***包括数据集选择单元、网络框架搭建单元、损失函数设计单元及网络训练单元。

Description

一种端到端的自然场景文本识别方法及***
技术领域
本发明涉及计算机视觉中的目标检测和识别领域,具体地说是一种端到端的自然场景文本识别方法及***。
背景技术
自然场景中的文本识别对于许多图像理解任务具有重要的意义,该技术能够自动地获取自然场景中的文本信息,可以被应用很多领域,比如帮助视力障碍的人士获取所处环境中信息,自动驾驶汽车获取路上的指示信息等。一般的自然场景中的文本识别主要是分为两个阶段,一是文本检测,首先利用检测技术定位图片中文本所在的位置,然后框出文本,裁剪出文本区域;二是文本识别,对通过文本检测方法所裁剪好的文本区域进行识别,即识别中文本框中的所包含的文本。现在很多的关注点主要在两个子任务上,文本检测和文本识别任务也分别取得了很好的效果,很少方法设计一个端到端的方法同时完成这两个任务,但这两个实际上是高度相关并且相互补充的,一方面图像的特征可以被检测和识别两个任务共享,这样可以减少计算消耗,另一方面,采用多任务优化方法可以提升特征表示的能力并且有利于两个子任务。
现有的技术存在如下劣势:
(1)、现有的方法一般是将文本检测和识别任务分开,导致整体的效果不是很理想;
(2)、一些方法只能识别规则的文本,对于不规则的文本识别效果较差;
(3)、一些方一定是将ROI重采用为同样大小的特征,这对于不同尺寸的ROI来说是不合理的,造成一定程度上信息的损失。
综上所述,如何能够同时完成文本检测和文本识别的任务,避免中间过程的特征重计算和图片裁剪,提高整体的计算效率及文本识别的准确性是目前现有技术中存在的技术问题。
专利号号为CN110135419A的专利文献公开了一种自然场景下端到端文本识别方法,包括用自然场景图片及真实标记训练框架以及对自然场景图片上文本区域及内容进行预测:训练阶段中,收集包含文本的自然场景下的图片、构建包含文本位置与内容的数据集、定义标准的端到端文本识别框架、使用真实检测标记训练检测部分、使用近邻相关边界优化算法优化检测区域、使用优化后的检测区域输入进识别部分中以训练识别部分参数、保存训练好的框架参数至数据平台;测试阶段中,读取训练好的框架参数、输入测试图像、检测阶段检测文本区域、采用基于近邻相关性边界优化算法优化检测区域、将优化后的检测区域送入识别部分进行文本识别。但是该技术方案不能同时完成文本检测和文本识别的任务,避免中间过程的特征重计算和图片裁剪,提高整体的计算效率及文本识别的准确性。
专利号为CN109543681A的专利文献公开了一种基于注意力机制的自然场景下文字识别方法,包括如下步骤:制作数据集;使用由卷积神经网络,注意力机制,循环神经网络构建的网络对图片进行端到端的训练;采用反向传播和梯度下降算法对模型进行优化;利用得到的模型实现对图片文字进行端到端的识别。但是该技术方案不能同时完成文本检测和文本识别的任务,避免中间过程的特征重计算和图片裁剪,提高整体的计算效率及文本识别的准确性。
发明内容
本发明的技术任务是提供一种端到端的自然场景文本识别方法及***,来解决如何能够同时完成文本检测和文本识别的任务,避免中间过程的特征重计算和图片裁剪,提高整体的计算效率及文本识别的准确性的问题。
本发明的技术任务是按以下方式实现的,一种端到端的自然场景文本识别方法,该方法是同时完成文本检测和文本识别任务,将文本检测和文本识别任务融合到一个统一的框架中,通过前向计算完成整个任务,避免中间过程中的特征重计算及图片裁剪流程,提高整体的计算效率;同时在文本识别中结合注意力机制,为文本识别提高空间位置信息,对文本的外观具备较强的鲁棒性,确保能够识别任意形状的文本;具体步骤如下:
S1、选择数据集:采用ICDAR2013、ICDAR2015及COCO-Text的文本检测和文本识别数据集进行网络的训练和测试;
S2、搭建网络框架:将文本检测和文本识别并行处理;
S3、设计损失函数:包括检测网络的分类和回归损失及识别网络的交叉熵损失函数;
S4、训练网络:在网络训练时采用经典的梯度下降和反向传播算法,对检测网络和识别网络进行网络参数的更新。
作为优选,所述步骤S2中搭建网络框架的步骤如下:
S201、提取图像特征;
S202、生成候选区域;
S203、提取候选区域特征;
S204、文本检测;
S205、文本识别。
更优地,所述步骤S201中提取图像特征具体如下:
对原始图像进行卷积计算提取高层次的图像特征信息,具体采用VGGNet及ResNet特征提取能力较强的深度卷积网络,去除全连接层,采用最后一层的卷积特征图作为该图像的特征表示。
更优地,所述步骤S202中生成候选区域的具体步骤如下:
S20201、利用的图像特征图丰富的语义信息和位置信息生成候选区域;
S20202、同时考虑到文本实例宽高比的多样性且一般宽度大于高度,设置anchor的面积大小取值为{16x16,32x32,64X64,128x128,256x256},比例大小设置为{0.2,0.3,0.5,1.0},一共两种不同的anchor足以覆盖各种尺度的文本实例;
S20203、对于候选区域采用与Faster RCNN相似的结构,在3X3的卷积层后采用两个1X1的子卷积层分别用于进行文本/非文本的分类和bounding box的回归。
更优地,所述步骤S203中提取候选区域特征的具体步骤如下:
S20301、对步骤S202中生成的候选区域进行ROI Align操作得到ROI proposal,为后续的检测和识别提供特征信息,一般的方法是将不同尺寸的ROI重采样为固定大小,这必然会造成一定程度的信息损失;
S20302、根据候选区域原始的宽高比进行重采样,避免对不用尺寸的候选区域一概而论;
S20303、最终输出HxWxD的特征图V;其中,H表示高度,H的取值采用固定值;W表示宽度,W的取值采用可变;D表示特征图的通道数。
更优地,所述步骤S204中文本检测是分类步骤S20301中ROI proposal是文本还是非文本,并对是文本的proposal进行文本框位置信息进行回归计算;具体步骤如下:
S20401、将不定长的区域特征V按照列进行划分,将列信息分别输入到一个LSTM网络(长短期记忆网络)中进行编码操作,最终输出h作为整体信息;
S20402、获取整体信息h,通过LSTM网络编码和多层连接网络进行分类和回归;多层连接网络包括两层全连接网络和两个softmax层;
S20403、最终获取关于该ROI文本/非文本和边框位置信息。
更优地,所述步骤S205中文本识别是识别步骤S203中提出的ROI中的文本信息,采用基于注意力机制的encoder-decoder主体框架;具体步骤如下:
S20501、采用一个双层LSTM网络对ROI的特征图V进行信息的编码,获取关于ROI的固定长度的整体信息h;
S20502、将整体信息h输入到另一个双层LSTM网络中进行信息的解码操作,该LSTM结合注意力机制在每一步输出一个文本字符,直到遇到结束符,最终获取该ROI中所包含的全部文本信息;具体如下:
S2050201、注意力机制是结合特征V和decoder LSTM隐藏层的状态信息计算特征V中每一个位置信息的权重;
S2050202、获取特征V的加权和,再结合隐藏层的状态获取当前时间的字符输出,通过注意力机制对文本进行准确的定位,提高对文本外形的鲁棒性。
作为优选,所述步骤S3中设计损失函数的具体步骤如下:
S301、检测网络的损失函数包括两个部分:
①、proposal的分类损失,即预测该proposal是文本还是非文本区域,分类损失利用预测的分类值和真实的预测值计算交叉熵损失;
②、proposal的边框回归损失,即计算预测的边框的四个点的坐标值和真实的四个点的坐标值的差值作为损失函数,具体采用平方差;
S302、识别网络的损失函数则是对每一步生成的文本信息计算其与真实文本信息之间的交叉熵值。
一种端到端的自然场景文本识别***,该***包括,
数据集选择单元,用于采用ICDAR2013、ICDAR2015及COCO-Text的文本检测和文本识别数据集进行网络的训练和测试;
网络框架搭建单元,用于搭建将文本检测和文本识别任务融合在一起的框架;
损失函数设计单元,用于建立包括检测网络的分类和回归损失及识别网络的交叉熵损失函数;
网络训练单元,用于训练网络,并在在网络训练时采用经典的梯度下降和反向传播算法,对检测网络和识别网络进行网络参数的更新。
作为优选,所述网络框架搭建单元包括,
图像特征提取模块,用于采用VGGNet、ResNet101的网络进行特征的提取;
候选区域生成模块,用于利用的图像特征图丰富的语义信息和位置信息生成候选区域,
候选区域特征提取模块,用于对生成的候选区域进行ROI Align操作,为后续的检测和识别提供特征信息;
文本检测模块,用于分类ROI proposal是文本还是非文本,并对是文本的proposal进行文本框位置信息进行回归计算;文本检测模块包括用于编码的LSTM网络编码器和多层连接网络,多层连接网络包括两层全连接网络和两个softmax层,两层全连接网络用于编码,两个softmax层用于再次的分类和回归;
文本识别模块,用于识别ROI中的文本信息,通过识别网络每一个时间步输出一个文本字符;文本识别模块包括一个用于编码的双层LSTM网络编码器和用于解码一个双层LSTM网络解码器和注意力机制的encoder-decoder主体框架。
本发明的端到端的自然场景文本识别方法及***具有以下优点:
(一)、本发明可以同时完成文本检测和文本识别任务,将这两个子任务融合到一个统一的框架中,通过一个简单的前向计算完成整个任务,避免了中间过程中的特征重计算、图片裁剪等流程,提高了整体的计算效率;同时在识别中结合了注意力机制,为文本识别提高空间位置信息,对文本的外观具备较强的鲁棒性,使该方法可以识别任意形状的文本;
(二)、将文本检测和识别融合在一个整体的框架中,提高了效率和整个模型的性能;
(三)、本发明应用了注意力机制,能够准确地定位文本的位置,对文本的外观具有较强的鲁棒性,可以识别任意形状的文本,提高了识别的准确率;
(四)、本发明根据ROI原始的宽高比进行ROI Align,避免了信息的损失;
(五)、本发明采用多任务优化策略,有利于整体性能的提升,使用目前通用的开源框架和语言,灵活使用现有技术,扬长避短,采用本发买那个获取的结果较为稳定可靠;
(六)、现有技术中一般的非端到端的方法是将文本区域的识别和检测分为两个步骤,对于一张输入图片,首先利用检测网络标出文本区域的边框,基于文本框提取出文本区域,然后利用识别网络对文本进行识别,在训练时,检测网络和识别网络是分开进行;而本发明中的检测网络和识别网络是以端到端的方式进行训练和预测的,即将一张图片输入模型可以同时获取文本框和文本识别结果,采用本发明中的端到端的方式,检测网络和识别网络共享上一步提取的文本候选区域的特征,减少了计算,提高了效率。
附图说明
下面结合附图对本发明进一步说明。
附图1为端到端的自然场景文本识别方法的流程框图;
附图2为搭建网络框架的流程框图;
附图3为端到端的自然场景文本识别的结构框图;
附图4为网络框架搭建单元的结构框图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种端到端的自然场景文本识别方法及***作以下详细地说明。
实施例1:
本发明的端到端的自然场景文本识别方法,该方法是同时完成文本检测和文本识别任务,将文本检测和文本识别任务融合到一个统一的框架中,通过前向计算完成整个任务,避免中间过程中的特征重计算及图片裁剪流程,提高整体的计算效率;同时在文本识别中结合注意力机制,为文本识别提高空间位置信息,对文本的外观具备较强的鲁棒性,确保能够识别任意形状的文本;如附图1所示,具体步骤如下:
S1、选择数据集:采用ICDAR2013、ICDAR2015及COCO-Text的文本检测和文本识别数据集进行网络的训练和测试;
S2、搭建网络框架:将文本检测和文本识别并行处理;如附图2所示,具体步骤如下:
S201、提取图像特征;具体如下:
对原始图像进行卷积计算提取高层次的图像特征信息,具体采用VGGNet及ResNet特征提取能力较强的深度卷积网络,去除全连接层,采用最后一层的卷积特征图作为该图像的特征表示。
S202、生成候选区域;具体步骤如下:
S20201、利用的图像特征图丰富的语义信息和位置信息生成候选区域;
S20202、同时考虑到文本实例宽高比的多样性且一般宽度大于高度,设置anchor的面积大小取值为{16x16,32x32,64X64,128x128,256x256},比例大小设置为{0.2,0.3,0.5,1.0},一共两种不同的anchor足以覆盖各种尺度的文本实例;
S20203、对于候选区域采用与Faster RCNN相似的结构,在3X3的卷积层后采用两个1X1的子卷积层分别用于进行文本/非文本的分类和bounding box的回归。
S203、提取候选区域特征;具体步骤如下:
S20301、对步骤S202中生成的候选区域进行ROI Align操作得到ROI proposal,为后续的检测和识别提供特征信息,一般的方法是将不同尺寸的ROI重采样为固定大小,这必然会造成一定程度的信息损失;
S20302、根据候选区域原始的宽高比进行重采样,避免对不用尺寸的候选区域一概而论;
S20303、最终输出HxWxD的特征图V;其中,H表示高度,H的取值采用固定值;W表示宽度,W的取值采用可变;D表示特征图的通道数。
S204、文本检测;文本检测是分类步骤S20301中ROI proposal是文本还是非文本,并对是文本的proposal进行文本框位置信息进行回归计算;具体步骤如下:
S20401、将不定长的区域特征V按照列进行划分,将列信息分别输入到一个LSTM网络(长短期记忆网络)中进行编码操作,最终输出h作为整体信息;
S20402、获取整体信息h,通过LSTM网络编码和多层连接网络进行分类和回归;多层连接网络包括两层全连接网络和两个softmax层;
S20403、最终获取关于该ROI文本/非文本和边框位置信息。
S205、文本识别;文本识别是识别步骤S203中提出的ROI中的文本信息,采用基于注意力机制的encoder-decoder主体框架;具体步骤如下:
S20501、采用一个双层LSTM网络对ROI的特征图V进行信息的编码,获取关于ROI的固定长度的整体信息h;
S20502、将整体信息h输入到另一个双层LSTM网络中进行信息的解码操作,该LSTM结合注意力机制在每一步输出一个文本字符,直到遇到结束符,最终获取该ROI中所包含的全部文本信息;具体如下:
S2050201、注意力机制是结合特征V和decoder LSTM隐藏层的状态信息计算特征V中每一个位置信息的权重;
S2050202、获取特征V的加权和,再结合隐藏层的状态获取当前时间的字符输出,通过注意力机制对文本进行准确的定位,提高对文本外形的鲁棒性。
S3、设计损失函数:包括检测网络的分类和回归损失及识别网络的交叉熵损失函数;具体步骤如下:
S301、检测网络的损失函数包括两个部分:
①、proposal的分类损失,即预测该proposal是文本还是非文本区域,分类损失利用预测的分类值和真实的预测值计算交叉熵损失;
②、proposal的边框回归损失,即计算预测的边框的四个点的坐标值和真实的四个点的坐标值的差值作为损失函数,具体采用平方差;
S302、识别网络的损失函数则是对每一步生成的文本信息计算其与真实文本信息之间的交叉熵值。
S4、训练网络:在网络训练时采用经典的梯度下降和反向传播算法,对检测网络和识别网络进行网络参数的更新。
实施例2:
如附图3所示,本发明的端到端的自然场景文本识别***,该***包括,
数据集选择单元,用于采用ICDAR2013、ICDAR2015及COCO-Text的文本检测和文本识别数据集进行网络的训练和测试;
网络框架搭建单元,用于搭建将文本检测和文本识别任务融合在一起的框架;如附图4所示,网络框架搭建单元包括,
图像特征提取模块,用于采用VGGNet、ResNet101的网络进行特征的提取;
候选区域生成模块,用于利用的图像特征图丰富的语义信息和位置信息生成候选区域,
候选区域特征提取模块,用于对生成的候选区域进行ROI Align操作,为后续的检测和识别提供特征信息;
文本检测模块,用于分类ROI proposal是文本还是非文本,并对是文本的proposal进行文本框位置信息进行回归计算;文本检测模块包括用于编码的LSTM网络编码器和多层连接网络,多层连接网络包括两层全连接网络和两个softmax层,两层全连接网络用于编码,两个softmax层用于再次的分类和回归;
文本识别模块,用于识别ROI中的文本信息,通过识别网络每一个时间步输出一个文本字符;文本识别模块包括一个用于编码的双层LSTM网络编码器和用于解码一个双层LSTM网络解码器和注意力机制的encoder-decoder主体框架。
网络框架具体工作过程如下:图像特征提取模块可以采用VGGNet、ResNet101等网络进行特征的提取,后接Text Proposal Network,设置不同尺寸的anchor,之间连接3x3的卷积层和两个1x1的子卷积模块进行文本区域的分类和边框的回归,在Text ProposalNetwork后设置不定长的ROI Align操作,获取关于ROI的特征V用于后序的文本检测和文本识别。文本检测模块和文本识别模块是两个并行的模块,共享上一步的特征V,对于文本检测模块主要包括一个用于编码的LSTM网络编码器、两层全连接网络,后连接两个softmax层用于再次的分类和回归;对于文本识别模块主要包括一个双层LSTM网络编码器用于编码,一个双层LSTM网络解码器和attention用于解码,每一个时间步输出一个文本字符。
损失函数设计单元,用于建立包括检测网络的分类和回归损失及识别网络的交叉熵损失函数;文本检测模块的损失函数主要包括两个部分,一是proposal的分类损失,即预测该proposal是文本还是非文本区域,分类损失利用预测的分类值和真实的预测值计算交叉熵损失;二是proposal的边框回归损失,即计算预测的边框的四个点的坐标值和真实的四个点的坐标值的差值作为损失函数,具体可以采用平方差。文本识别模块的损失函数则是对每一步生成的文本信息计算其与真实文本信息之间的交叉熵值。
网络训练单元,用于训练网络,并在在网络训练时采用经典的梯度下降和反向传播算法,对检测网络和识别网络进行网络参数的更新。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种端到端的自然场景文本识别方法,其特征在于,该方法是同时完成文本检测和文本识别任务,将文本检测和文本识别任务融合到一个统一的框架中,通过前向计算完成整个任务;同时在文本识别中结合注意力机制,为文本识别提高空间位置信息,对文本的外观具备较强的鲁棒性,确保能够识别任意形状的文本;具体步骤如下:
S1、选择数据集:采用ICDAR2013、ICDAR2015及COCO-Text的文本检测和文本识别数据集进行网络的训练和测试;
S2、搭建网络框架:将文本检测和文本识别并行处理;
S3、设计损失函数:包括检测网络的分类和回归损失及识别网络的交叉熵损失函数;
S4、训练网络:在网络训练时采用经典的梯度下降和反向传播算法,对检测网络和识别网络进行网络参数的更新。
2.根据权利要求1所述的端到端的自然场景文本识别方法,其特征在于,所述步骤S2中搭建网络框架的步骤如下:
S201、提取图像特征;
S202、生成候选区域;
S203、提取候选区域特征;
S204、文本检测;
S205、文本识别。
3.根据权利要求2所述的端到端的自然场景文本识别方法,其特征在于,所述步骤S201中提取图像特征具体如下:
对原始图像进行卷积计算提取高层次的图像特征信息,具体采用VGGNet及ResNet特征提取能力较强的深度卷积网络,去除全连接层,采用最后一层的卷积特征图作为该图像的特征表示。
4.根据权利要求2或3所述的端到端的自然场景文本识别方法,其特征在于,所述步骤S202中生成候选区域的具体步骤如下:
S20201、利用的图像特征图丰富的语义信息和位置信息生成候选区域;
S20202、设置anchor的面积大小取值为{16x16,32x32,64X64,128x128,256x256},比例大小设置为{0.2,0.3,0.5,1.0},一共两种不同的anchor足以覆盖各种尺度的文本实例;
S20203、对于候选区域,在3X3的卷积层后采用两个1X1的子卷积层分别用于进行文本/非文本的分类和bounding box的回归。
5.根据权利要求2或3所述的端到端的自然场景文本识别方法,其特征在于,所述步骤S203中提取候选区域特征的具体步骤如下:
S20301、对步骤S202中生成的候选区域进行ROI Align操作得到ROI proposal,为后续的检测和识别提供特征信息;
S20302、根据候选区域原始的宽高比进行重采样;
S20303、最终输出HxWxD的特征图V;其中,H表示高度,H的取值采用固定值;W表示宽度,W的取值采用可变;D表示特征图的通道数。
6.根据权利要求2或3所述的端到端的自然场景文本识别方法,其特征在于,所述步骤S204中文本检测是分类步骤S20301中ROIproposal是文本还是非文本,并对是文本的proposal进行文本框位置信息进行回归计算;具体步骤如下:
S20401、将不定长的区域特征V按照列进行划分,将列信息分别输入到一个LSTM网络中进行编码操作,最终输出h作为整体信息;
S20402、获取整体信息h,通过LSTM网络编码和多层连接网络进行分类和回归;多层连接网络包括两层全连接网络和两个softmax层;
S20403、最终获取关于该ROI文本/非文本和边框位置信息。
7.根据权利要求6所述的端到端的自然场景文本识别方法,其特征在于,所述步骤S205中文本识别是识别步骤S203中提出的ROI中的文本信息,采用基于注意力机制的encoder-decoder主体框架;具体步骤如下:
S20501、采用一个双层LSTM网络对ROI的特征图V进行信息的编码,获取关于ROI的固定长度的整体信息h;
S20502、将整体信息h输入到另一个双层LSTM网络中进行信息的解码操作,该LSTM结合注意力机制在每一步输出一个文本字符,直到遇到结束符,最终获取该ROI中所包含的全部文本信息;具体如下:
S2050201、注意力机制是结合特征V和decoder LSTM隐藏层的状态信息计算特征V中每一个位置信息的权重;
S2050202、获取特征V的加权和,再结合隐藏层的状态获取当前时间的字符输出,通过注意力机制对文本进行准确的定位,提高对文本外形的鲁棒性。
8.根据权利要求1所述的端到端的自然场景文本识别方法,其特征在于,所述步骤S3中设计损失函数的具体步骤如下:
S301、检测网络的损失函数包括两个部分:
①、proposal的分类损失,即预测该proposal是文本还是非文本区域,分类损失利用预测的分类值和真实的预测值计算交叉熵损失;
②、proposal的边框回归损失,即计算预测的边框的四个点的坐标值和真实的四个点的坐标值的差值作为损失函数,具体采用平方差;
S302、识别网络的损失函数则是对每一步生成的文本信息计算其与真实文本信息之间的交叉熵值。
9.一种端到端的自然场景文本识别***,其特征在于,该***包括,
数据集选择单元,用于采用ICDAR2013、ICDAR2015及COCO-Text的文本检测和文本识别数据集进行网络的训练和测试;
网络框架搭建单元,用于搭建将文本检测和文本识别任务融合在一起的框架;
损失函数设计单元,用于建立包括检测网络的分类和回归损失及识别网络的交叉熵损失函数;
网络训练单元,用于训练网络,并在在网络训练时采用经典的梯度下降和反向传播算法,对检测网络和识别网络进行网络参数的更新。
10.根据权利要求9所述的端到端的自然场景文本识别***,其特征在于,所述网络框架搭建单元包括,
图像特征提取模块,用于采用VGGNet、ResNet101的网络进行特征的提取;
候选区域生成模块,用于利用的图像特征图丰富的语义信息和位置信息生成候选区域,
候选区域特征提取模块,用于对生成的候选区域进行ROI Align操作,为后续的检测和识别提供特征信息;
文本检测模块,用于分类ROI proposal是文本还是非文本,并对是文本的proposal进行文本框位置信息进行回归计算;文本检测模块包括用于编码的LSTM网络编码器和多层连接网络,多层连接网络包括两层全连接网络和两个softmax层,两层全连接网络用于编码,两个softmax层用于再次的分类和回归;
文本识别模块,用于识别ROI中的文本信息,通过识别网络每一个时间步输出一个文本字符;文本识别模块包括一个用于编码的双层LSTM网络编码器和用于解码一个双层LSTM网络解码器和注意力机制的encoder-decoder主体框架。
CN201910947834.6A 2019-10-08 2019-10-08 一种端到端的自然场景文本识别方法及*** Pending CN110689012A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910947834.6A CN110689012A (zh) 2019-10-08 2019-10-08 一种端到端的自然场景文本识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910947834.6A CN110689012A (zh) 2019-10-08 2019-10-08 一种端到端的自然场景文本识别方法及***

Publications (1)

Publication Number Publication Date
CN110689012A true CN110689012A (zh) 2020-01-14

Family

ID=69111495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910947834.6A Pending CN110689012A (zh) 2019-10-08 2019-10-08 一种端到端的自然场景文本识别方法及***

Country Status (1)

Country Link
CN (1) CN110689012A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291661A (zh) * 2020-01-21 2020-06-16 上海悦易网络信息技术有限公司 一种屏幕中图标的文本内容的识别方法及设备
CN112149644A (zh) * 2020-11-09 2020-12-29 西北工业大学 基于全局特征指导的二维注意力机制文本识别方法
CN112508108A (zh) * 2020-12-10 2021-03-16 西北工业大学 一种基于字根的零样本汉字识别方法
CN112541501A (zh) * 2020-12-18 2021-03-23 北京中科研究院 一种基于视觉语言建模网络的场景文字识别方法
CN112541491A (zh) * 2020-12-07 2021-03-23 沈阳雅译网络技术有限公司 基于图像字符区域感知的端到端文本检测及识别方法
CN112990182A (zh) * 2021-05-10 2021-06-18 北京轻松筹信息技术有限公司 筹款信息审核方法、***及电子设备
CN113065561A (zh) * 2021-03-15 2021-07-02 国网河北省电力有限公司 基于精细字符分割的场景文本识别方法
CN113269045A (zh) * 2021-04-28 2021-08-17 南京大学 自然场景下中文艺术字检测识别方法
CN113343981A (zh) * 2021-06-16 2021-09-03 北京百度网讯科技有限公司 一种视觉特征增强的字符识别方法、装置和设备
CN113887282A (zh) * 2021-08-30 2022-01-04 中国科学院信息工程研究所 一种面向场景图像中任意形状邻近文本的检测***及方法
CN113903023A (zh) * 2021-09-28 2022-01-07 南京信息工程大学 基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法
CN115438214A (zh) * 2022-11-07 2022-12-06 北京百度网讯科技有限公司 处理文本图像的方法、神经网络及其训练方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563379A (zh) * 2017-09-02 2018-01-09 西安电子科技大学 用于对自然场景图像中文本的定位方法
US20180101726A1 (en) * 2016-10-10 2018-04-12 Insurance Services Office Inc. Systems and Methods for Optical Character Recognition for Low-Resolution Documents
CN108399419A (zh) * 2018-01-25 2018-08-14 华南理工大学 基于二维递归网络的自然场景图像中中文文本识别方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180101726A1 (en) * 2016-10-10 2018-04-12 Insurance Services Office Inc. Systems and Methods for Optical Character Recognition for Low-Resolution Documents
CN107563379A (zh) * 2017-09-02 2018-01-09 西安电子科技大学 用于对自然场景图像中文本的定位方法
CN108399419A (zh) * 2018-01-25 2018-08-14 华南理工大学 基于二维递归网络的自然场景图像中中文文本识别方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HUI LI 等: "Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks", 《ARXIV》 *
SHAOQING REN 等: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", 《ARXIV》 *
SUMAN K. GHOSH 等: "Visual attention models for scene text recognition", 《ARXIV》 *
ZHANZHAN CHENG 等: "Focusing Attention: Towards Accurate Text Recognition in Natural Images", 《ICCV 2017》 *
张秀杰 等: "一种用于文本检测和文本识别的单一神经网络", 《工业控制计算机》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291661A (zh) * 2020-01-21 2020-06-16 上海悦易网络信息技术有限公司 一种屏幕中图标的文本内容的识别方法及设备
CN111291661B (zh) * 2020-01-21 2023-10-27 上海万物新生环保科技集团有限公司 一种屏幕中图标的文本内容的识别方法及设备
CN112149644A (zh) * 2020-11-09 2020-12-29 西北工业大学 基于全局特征指导的二维注意力机制文本识别方法
CN112541491A (zh) * 2020-12-07 2021-03-23 沈阳雅译网络技术有限公司 基于图像字符区域感知的端到端文本检测及识别方法
CN112541491B (zh) * 2020-12-07 2024-02-02 沈阳雅译网络技术有限公司 基于图像字符区域感知的端到端文本检测及识别方法
CN112508108A (zh) * 2020-12-10 2021-03-16 西北工业大学 一种基于字根的零样本汉字识别方法
CN112508108B (zh) * 2020-12-10 2024-01-26 西北工业大学 一种基于字根的零样本汉字识别方法
CN112541501B (zh) * 2020-12-18 2021-09-07 北京中科研究院 一种基于视觉语言建模网络的场景文字识别方法
CN112541501A (zh) * 2020-12-18 2021-03-23 北京中科研究院 一种基于视觉语言建模网络的场景文字识别方法
CN113065561A (zh) * 2021-03-15 2021-07-02 国网河北省电力有限公司 基于精细字符分割的场景文本识别方法
CN113269045A (zh) * 2021-04-28 2021-08-17 南京大学 自然场景下中文艺术字检测识别方法
CN112990182B (zh) * 2021-05-10 2021-09-21 北京轻松筹信息技术有限公司 筹款信息审核方法、***及电子设备
CN112990182A (zh) * 2021-05-10 2021-06-18 北京轻松筹信息技术有限公司 筹款信息审核方法、***及电子设备
CN113343981A (zh) * 2021-06-16 2021-09-03 北京百度网讯科技有限公司 一种视觉特征增强的字符识别方法、装置和设备
CN113887282A (zh) * 2021-08-30 2022-01-04 中国科学院信息工程研究所 一种面向场景图像中任意形状邻近文本的检测***及方法
CN113903023A (zh) * 2021-09-28 2022-01-07 南京信息工程大学 基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法
CN115438214A (zh) * 2022-11-07 2022-12-06 北京百度网讯科技有限公司 处理文本图像的方法、神经网络及其训练方法

Similar Documents

Publication Publication Date Title
CN110689012A (zh) 一种端到端的自然场景文本识别方法及***
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
CN110363252B (zh) 趋向于端到端的场景文字检测与识别方法以及***
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN114155527A (zh) 一种场景文本识别方法和装置
CN112818951A (zh) 一种票证识别的方法
CN110502655B (zh) 一种嵌入场景文字信息的图像自然描述语句生成方法
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
CN113239818B (zh) 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN111507353B (zh) 一种基于文字识别的中文字段检测方法及***
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
CN116311310A (zh) 一种结合语义分割和序列预测的通用表格识别方法和装置
CN117079163A (zh) 一种基于改进yolox-s的航拍图像小目标检测方法
CN113903022A (zh) 基于特征金字塔与注意力融合的文本检测方法及***
WO2021237227A1 (en) Method and system for multi-language text recognition model with autonomous language classification
CN113205047A (zh) 药名识别方法、装置、计算机设备和存储介质
CN113505640A (zh) 一种基于多尺度特征融合的小尺度行人检测方法
CN113537187A (zh) 文本识别方法、装置、电子设备及可读存储介质
CN111709338A (zh) 一种用于表格检测的方法、装置及检测模型的训练方法
CN113516114B (zh) 一种自然场景文本检测方法、设备和介质
CN114943877A (zh) 模型的训练方法、装置、电子设备以及存储介质
CN110135419B (zh) 一种自然场景下端到端文本识别方法
CN116090463A (zh) 一种名片信息抽取***训练方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200114

RJ01 Rejection of invention patent application after publication