CN110097049A - 一种自然场景文本检测方法及*** - Google Patents
一种自然场景文本检测方法及*** Download PDFInfo
- Publication number
- CN110097049A CN110097049A CN201910267048.1A CN201910267048A CN110097049A CN 110097049 A CN110097049 A CN 110097049A CN 201910267048 A CN201910267048 A CN 201910267048A CN 110097049 A CN110097049 A CN 110097049A
- Authority
- CN
- China
- Prior art keywords
- text
- network
- layer
- training
- natural scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种自然场景文本检测方法及***,包含两个神经网络模型:基于多层次语义特征融合的文本检测网络和基于注意力机制的检测筛选网络。文本检测网络是一个基于FCN的图像特征提取融合网络,该网络用于提取输入数据的多语义层次信息,并进行多尺度特征的充分融合,最后通过对融合的多尺度信息进行卷积操作,预测自然场景中的文本信息的位置和置信度。检测筛选网络是利用训练好的卷积循环神经网络对第一部分的卷积神经网络输出的初始检测结果进行判别评分从而过滤掉易与前景文字混淆的背景,从而进一步提升自然场景文本识别的准确率。
Description
技术领域
本发明涉及计算机视觉、文档分析与识别和自然场景文本检测领域,并特别涉及一种自然场景文本检测方法及***。
背景技术
自然场景文本检测是一项既重要又极其富有挑战的任务。由于自然场景文本检测通常是在开放场景下对场景中的文本进行识别,因此光照、角度和畸变等因素对文本检测造成很大的干扰,严重影响文本检测的准确性。传统的文本检测普遍使用基于ConnectedComponents(连通部件)的技术,但是该技术只能提取较为明显的文本区域,难以将图像中全局信息考虑在内,因此该技术性能较为有限。目前基于深度学习的自然场景文本检测由于大多采用了基于Proposal(候选框)的技术,其性能相比传统方法有较大提升,但目前也遇到瓶颈,即难以应对复杂自然场景中光照、背景、角度以及文本表观和角度的多样性,特别是复杂背景易与文本前景混淆。究其原因是现有的特征表示方法在上述条件下缺乏对复杂背景和前景文字的判别力。如果能够在考虑全局特征的情况下,使用文本识别技术加以矫正和精调,自然场景文本检测的精确度和鲁棒性可以获得有效提升。因此,为提升自然场景下文本检测的准确性和鲁棒性,我们提出了一种将基于多层次语义特征的文本检测网络和基于注意力机制的识别后处理网络相结合的自然场景文本检测技术。
发明内容
本发明的目的是解决基于深度卷积神经网络的自然场景文本检测方法中,复杂背景易与前景文本混淆的问题。所提出的方法在保证文本检测召回率的前提下,有效提升了检测准确率。
针对现有技术的不足,本发明提出一种自然场景文本检测方法,其中包括:
步骤1、获取包括多张训练图片的训练集,该训练图片均为自然场景且已被标记文字位置,构建包括特征提取网络和特征融合网络的深度特征融合网络;
步骤2、通过该特征提取网络提取该训练图片的多尺度图像特征,将该多尺度图像特征输入该特征融合网络得到融合特征,并由该特征融合网络中最后一个卷积层确定该训练图像的文本区域,根据该文字位置、该文本区域和该文本区域内包括文本的置信度构建损失函数;
步骤3、重新选取该训练图片,多次执行该步骤2以训练该深度特征融合网络,直到该损失函数收敛,保存该深度特征融合网络作为文本检测模型;
步骤4、以该训练集训练卷积循环神经网络,训练完成后,通过修改该卷积循环神经网络的翻译层为二分类层,并将修改后的该卷积循环神经网络作为文本识别网络;
步骤5、将待文字检测的自然场景图像送入该文本检测模型,得到初步文本区域,并通过该文本识别网络筛选该初步文本区域,将筛选结果作为文本检测结果。
所述的自然场景文本检测方法,其中该卷积循环神经网络包括:卷积层、编码层、注意力层、解码层和翻译层;
通过该卷积层提取该训练图片的卷积特征图;
通过该编码层将该卷积特征图整合为序列特征并进行编码;
该注意力层根据序列信息和编码结果重新加权整合送入该解码层进行解码,将解码后的信息送入该翻译层翻译为目标文本。
所述的自然场景文本检测方法,其中使用联结时间的分类损失函数训练该卷积循环神经网络,直到该联结时间的分类损失函数收敛,训练完成;
lossctc=CTCLoss(predict,labels)
其中,CTCLoss为联结时间的分类损失函数,predict为该卷积循环神经网络最后一层的预测概率输出,labels为输入训练图片的文本内容标签。
所述的自然场景文本检测方法,其中步骤2中该损失函数包括Dice Loss损失函数和IoU Loss损失函数
其中,Dice Loss损失函数用于监督文本区域分类概率的预测:
其中P和G分别对应图像的文本预测置信度的真实的置信度,⊙代表哈达玛积;
IoU Loss损失函数用于监督文本区域位置的预测:
其中Rp和Rg分别代表预测的文本区域坐标和实际的文本区域坐标,θp和θg分别代表预测的文本区域的角度和实际的文本区域的角度。
所述的自然场景文本检测方法,其中步骤5中该文本识别网络筛选该初步文本区域的过程为:
该文本识别网络的卷积层部分从该初步文本区域中提取卷积特征图作为有效信息,将该有效信息按照预设顺序整合为序列特征送入该初步文本区域中编码层进行编码,得到编码信息,该初步文本区域中注意力层根据该预设顺序加权整合该编码信息后送入解码层,将解码后的信息送入该二分类层,判断该初步文本区域内是否具有文本。
本发明还公开了一种自然场景文本检测***,其中包括:
模块1、获取包括多张训练图片的训练集,该训练图片均为自然场景且已被标记文字位置,构建包括特征提取网络和特征融合网络的深度特征融合网络;
模块2、通过该特征提取网络提取该训练图片的多尺度图像特征,将该多尺度图像特征输入该特征融合网络得到融合特征,并由该特征融合网络中最后一个卷积层确定该训练图像的文本区域,根据该文字位置、该文本区域和该文本区域内包括文本的置信度构建损失函数;
模块3、重新选取该训练图片,多次执行该模块2以训练该深度特征融合网络,直到该损失函数收敛,保存该深度特征融合网络作为文本检测模型;
模块4、以该训练集训练卷积循环神经网络,训练完成后,通过修改该卷积循环神经网络的翻译层为二分类层,并将修改后的该卷积循环神经网络作为文本识别网络;
模块5、将待文字检测的自然场景图像送入该文本检测模型,得到初步文本区域,并通过该文本识别网络筛选该初步文本区域,将筛选结果作为文本检测结果。
所述的自然场景文本检测***,其中该卷积循环神经网络包括:卷积层、编码层、注意力层、解码层和翻译层;
通过该卷积层提取该训练图片的卷积特征图;
通过该编码层将该卷积特征图整合为序列特征并进行编码;
该注意力层根据序列信息和编码结果重新加权整合送入该解码层进行解码,将解码后的信息送入该翻译层翻译为目标文本。
所述的自然场景文本检测***,其中使用联结时间的分类损失函数训练该卷积循环神经网络,直到该联结时间的分类损失函数收敛,训练完成;
lossctc=CTCLoss(predict,labels)
其中,CTCLoss为联结时间的分类损失函数,predict为该卷积循环神经网络最后一层的预测概率输出,labels为输入训练图片的文本内容标签。
所述的自然场景文本检测***,其中模块2中该损失函数包括Dice Loss损失函数和IoU Loss损失函数
其中,Dice Loss损失函数用于监督文本区域分类概率的预测:
其中P和G分别对应图像的文本预测置信度的真实的置信度,⊙代表哈达玛积;IoULoss损失函数用于监督文本区域位置的预测:
其中Rp和Rg分别代表预测的文本区域坐标和实际的文本区域坐标,θp和θg分别代表预测的文本区域的角度和实际的文本区域的角度。
所述的自然场景文本检测***,其中模块5中该文本识别网络筛选该初步文本区域的过程为:
该文本识别网络的卷积层部分从该初步文本区域中提取卷积特征图作为有效信息,将该有效信息按照预设顺序整合为序列特征送入该初步文本区域中编码层进行编码,得到编码信息,该初步文本区域中注意力层根据该预设顺序加权整合该编码信息后送入解码层,将解码后的信息送入该二分类层,判断该初步文本区域内是否具有文本。
本发明关键点及对应的技术效果:
1,设计了融合多层次语义特征的卷积神经网络结构用于自然场景文本检测,网络结构如附图2所示。该模型与之前的主流文本检测方法的不同之处主要是以下几个方面:①与传统的基于Connected Components(连通部件)的方法相比,本方法是基于深度学习的方法,能够自动学习并提取到自然场景图像的多种抽象尺度的信息,无需人工设计特征,方法更简洁,更鲁棒;②与深度学习中的基于Proposal(候选框)的方法相比,本方法采用了基于FCN的物体分割模型,能够对自然场景图像产生像素级的预测,方法对自然场景中的多尺度、多角度文本检测更加准确;③与其他基于FCN的分割模型相比,本方法还引入了多尺度特征信息密集融合机制,将网络不同阶段提取的特征在网络的最后阶段进行密集的融合(每个特征融合层,都包含了网络前段的不同阶段特征,并继续传递给下一个融合层以实现网络特征的密集融合)来进行最后的预测,因而能够更加有效的利用不同尺度的信息(网络的不同阶段提取的信息对应于实际图像的不同尺度信息),模型预测准确率和召回率更高。网络的监督信号包含两部分,一个是通过对预测文本区域的分类概率和该区域的真实分类计算Dice Loss作为分类Loss,另一个是通过对预测得到的文本位置和真实的文本位置计算IoU(交并比)作为回归Loss。该部分技术的效果是在保证文本检测召回率的前提下,准确率比传统方法方法有明显提升。
2,设计了一个Attention-based(基于注意力机制)的卷积循环神经网络结构来识别文字,其结构如附图2所示。基于CRNN网络引入Attention机制,根据编码层的编码结果和原始序列特征进行加权求得新的序列特征,送入解码层进行解码;根据解码结果,翻译层将其翻译为人可读的文本信息。该部分的技术效果是提升CRNN对字符的敏感度(区分能力),为建立有效的文本检测筛选建立基础(预训练)。
3,基于上步的Attention-based(基于注意力机制)的卷积循环神经网络结构,改进为一个基于注意力机制的检测筛选网络。方法为将拥有注意力机制的CRNN最后的翻译层改为了一个二分类层,以此判别输入图片是否含有文字。该结构在训练时采用由细到粗的训练(Fine-to-Coarse)策略,即先进行前述的字符识别预训练;然后在针对文本和非文本分类问题对网络参数进行精调;该部分的技术效果是通过去除检测结果中被误检为文本的复杂背景区域,提高自然场景文本识别准确率。
附图说明
图1为本发明基于文本检测模型和Attention-based模型精调结果的级联网络模型;
图2为本发明深度特征融合文本检测模型;
图3为本发明基于注意机制的卷积循环神经网络结构图。
具体实施方式
由于自然场景的复杂性,改进自然场景文本检测技术主要需要有两个关键点:1、提升自然场景文本的召回率;2、提升召回文本的准确率。本发明技术创造性的改进了用于物体分割的FCN(全卷积神经网络)结构,实现了保证召回率的前提下,提升了自然场景文本的准确率;同时,通过改进文本识别卷积循环神经网络为Attention-based(基于注意力机制)的文本识别网络提升网络的文字识别能力,再将其修改为文本分类网络来Refine(精调)检测结果来筛选由于具有迷惑性的外观而被误检为正例的文本区域,从而实现更高的准确率。因此,本发明技术主要包含两个神经网络模型:基于多层次语义特征融合的文本检测网络和基于注意力机制的检测筛选网络。第一部分,基于多层次语义特征的文本检测网络是一个基于FCN的图像特征提取融合网络,该网络用于提取输入数据的多语义层次信息,并进行多尺度特征的充分融合,最后通过对融合的多尺度信息进行卷积操作,预测自然场景中的文本信息的位置和置信度。该卷积神经网络结构分为两个阶段,第一个阶段利用卷积神经网络结构提取多个尺度的数据特征信息,第二个阶段利用第一个阶段各个尺度的信息,使用卷积操作对多尺度信息进行深度密集融合,从而有效利用数据的各个尺度的信息来进行预测,提升文本检测的召回率和准确率。第二部分,基于注意力机制的检测筛选网络是利用训练好的卷积循环神经网络对第一部分的卷积神经网络输出的初始检测结果进行判别评分从而过滤掉易与前景文字混淆的背景(误检),从而进一步提升自然场景文本识别的准确率。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。本发明的实施过程具体包括以下步骤:
1、数据预处理。
文本检测数据集的预处理。对公开的自然场景文本检测数据集SynthText,ICDAR2013,ICDAR2015进行预处理,使其中每个图像对应一个单独的Ground truth(真实的标签)文件,其中每个文件中包含该图片中的所有的文本位置,其格式为(x1,y1,x2,y2,x3,y3,x4,y4),分别对应文本区域四边形的四个角坐标,顺序为逆时针顺序:(左上角,右上角,右下角,左下角)。
文本识别数据集预处理。本部分主要用到的数据集有Synthetic,SynthText,ICDAR2003,ICDAR2013,SVT,IIIT5K.其中前两个主要用于预训练和训练,后四个主要用于识别任务的评估。其中Synthetic数据集无需特别处理,全部用于预训练文本识别任务的Attention-based(基于注意力机制)的卷积循环神经网络;SynthText数据集是文本场景文本检测的数据集,本发明从其中裁剪出了占文本标注总数约60%的包含文本区域的图片,用于精细化训练识别网络。ICDAR2003数据集同样是由检测数据集裁剪出来的,为了评估网络的识别效果,将其中包含非字母、非数字字符的以及图片中字符长度小于3的全部剔除,剩余860张用于评测,且统计其所有的标注单词构造了全部字典以及对应每张图额外随机挑选了其他50个单词构造了对应每张图的50字典用于字典解码。ICDAR2013数据集在此处使用的是其文字识别任务测试集,去掉了包含非字母和非数字字符的,剩余1015个用于评测。SVT数据集取自Google街景,在此我们使用的是其测试集,裁剪出来后共得到647张用于评测,数据集提供了50字典可直接使用。IIIT5K数据集共包含3,000张测试图片,数据集提供了50字典和1K字典。
Attention-based(基于注意力机制)的卷积循环分类神经网络数据集预处理。本部分用到的数据集主要有上步处理完成的SynthText、ICDAR2015以及来源于网络的自定义数据集。为了完成判别图片内是否含有文字任务,我们从ICDAR2015的检测任务训练集随机裁剪了16,000张只包含背景不含文字图片和SynthText组成训练集;从互联网上获取了一些图片经过裁剪处理后其只包含背景不含文字的部分共26,740张图和在ICDAR2015的识别任务测试集组成此次判别任务测试集。
2、深度特征融合文本检测模型(深度特征融合网络)介绍及模型的预训练、训练。
深度特征Dense融合的网络模型结构如附图2所示。该网络的输入为包含了文本的自然场景图像。其中特征提取网络采用ResNet-50提出的网络结构中的卷积部分,负责提取多个尺度层次的图像特征,包含了49个卷积层,从第二组卷积层开始,每三个卷积层分为一组,每一组之后输出一种尺度的特征,合并第一层卷积的输出,共输出4个尺度的特征,记为M0。多尺度特征融合网络负责将提取的多尺度特征进行三个子阶段的融合,其融合方式为:第一个子阶段将M0按照特征的channel(通道)方向进行连接并进行卷积操作,送入第二个子阶段,记为M1;第二个子阶段将M0和M1按照channel方向连接后进行卷积操作,送入第三个子阶段,记为M2;第三个子阶段将M0和M2按照channel方向连接后进行卷积操作,送入最后一个卷积层,记为M3。最后一个卷积层对M3进行卷积后,由最后的卷积层预测图像中文本区域和其对应的分类概率。
此处的尺度数量是有ResNet-50网络性质决定,按照其每层网络输出的featuremap的尺度分组,可分为5组,从第一组到第五组的feature map的尺度分别为输入图片大小的1/2,1/4,1/8,1/16,1/32。本实施例融合的特征为后四个尺度(原因:1、第一组只包含一个卷积层,特征太浅;2、尺度太大对于较大的文本行会检测不精准或检测不到,1/4尺度能够兼顾到大小尺度的问本行),最终将四个尺度的feature map融合为一个1/4尺度的feature map用于检测/回归参数。
第一组到第五组的特征图(feature map)通道数分别为64,256,512,1024,2048。每个特征图的尺寸(size)构成为[B×C×H×W],其中B为输入图片的批数(Batch Size),C为通道数,H和W为特征图的尺寸(高和宽),通道方向是指C所在的一个维度上。
这里的连接指的是特征在通道(C)维度上的连接(或拼接)。若将特征图(featuremap)表示为[尺度,通道数],则文中M0为为了得到M1(其对应尺度为1/16),首先对M0内的各特征图进行上/下采样至1/16尺度,然后将其在通道方向连接/拼接在一起为的特征图,进行两次卷积得到的特征图M1.将M0以及M1进行上/下采样至1/8尺度,然后在通道方向连接,然后进行类似卷积操作得到M2,M3同理得到。
该网络模型的对输入的自然场景图像预测包含文本的区域和对应的分类概率。其中文本区域是指自然场景图像中包含文本的像素区域及该区域相对于图像坐标的角度,分类概率是指预测的某个区域包含文本的置信度(由0~1的数值代表)。然后根据预测的文本区域生成包含文本区域的四边形坐标值。该网络的监督信号为改进的Dice Loss和IoULoss。
其中,Dice Loss用于监督文本区域分类概率的预测:
其中P和G分别对应图像的文本预测置信度的真实的置信度,⊙代表Hadamardproduct(哈达玛积),真实的置信度为0或1,即分别代表区域中没有文字和有文字;
IoU Loss用于监督文本区域位置的预测:
其中Rp和Rg分别代表预测的文本区域坐标和实际的文本区域坐标,θp和θg分别代表预测的文本区域的角度和实际的文本区域的角度。
使用SnythText数据集进行预训练。为提高网络对难度较大、较为复杂的自然场景的处理能力,我们采用Curriculum Learning(递进学习)的策略,先使用相对简单的SynthText数据集进行预训练,将预处理好的SynthText数据集送入网络中进行特征融合网络的预训练,预训练直至loss收敛,即Dice Loss和IoU Loss二者之和整体收敛。
再使用场景复杂、难度较大的ICDAR2015和ICDAR2013数据集的训练集部分训练网络,训练直至loss再次收敛。
模型的测试。目前通用的测试方法是计算模型的F-measure(F值),是通过对模型检测结果的准确率(P)和召回率(R)进行计算得到的,其公式如下:
F-measure作为兼顾召回率和准确率的一个标准,只有当准确率和召回率均提高时,F-measure值才能提高。针对我们的模型,使用公开的数据集ICDAR2015的测试集单独测试训练好的深度特征融合文本检测模型时,在网络对送入的图像预测得到文本区域位置和其对应的置信度后,通过Non-Maximum Suppression(NMS,非极大值抑制)处理,筛选掉预测结果中置信度值低于0.8以及重合的区域大于0.2的文本区域,此单网络模型在目前公开的数据集ICDAR2015上可以达到0.82的F-measure值。
3、Attention-based卷积循环神经网络(文本识别模型)介绍及其预训练和训练。
Attention-based卷积循环神经网络结构详细结构如表1所示。
表1:Attention-based卷积循环神经网络配置表
网络在训练和测试时均将输入图片变换到高宽比为32×100的灰度图,前面的卷积层部分(附图3中的卷积部分)主要负责从原始输入图片中提取卷积特征图作为有效信息,将有效信息按照输入图片从左到右的顺序看作序列整合为序列特征送入编码层进行编码,Attention层结合序列信息以及编码信息重新加权整合送入解码层进行解码,将解码后的信息送入翻译层翻译为目标文本。该文本识别模型将图片中的文本看作从左到右的一组序列信息。解编码层对原始序列信息的编码为第一次整合,Attention部分为第二次整合。
其中的Attention部分的公式化描述为:
其中,T是序列长度,H和F分别是编码层输出以及原序列特征信息,是将F投影到H所在空间的线性变换,是将向量gij投影到实数空间的线性变换,ci是原序列特征信息的加权和。
对于网络的训练,我们设计的识别网络以及其对应的分类网络在训练时采用由精到粗Fine-to-Coarse的策略:首先使用Synthetic的全部数据训练识别网络,完成后,修改网络的字母表为英文字母、数字以及常用标点符号,使用处理好的SynthText数据集进行再次精细化训练;训练完成后,基于以上训练好的权重,修改识别网络的翻译层为2分类层,构造我们的Refinement分类网络,在我们构造好的T.nonT数据集上进行最终训练。
首先使用Synthetic的全部数据训练识别网络的具体过程为:
此处识别网络的损失函数为CTC损失(Connectionist TemporalClassification,联结时间的分类损失),其公式和形式化表达为
lossctc=CTCLoss(predict,labels,predictLength,labelsLength)
其中,predict为网络的预测概率输出(即最后一层的输出),labels为输入图片对应的文本内容标签。predictLength为网络预测概率时长向量(向量长度为输入的图片数,labelsLength为每张图片对应的文本长度向量(向量长度为输入的图片数)。
或者更简洁的
lossctc=CTCLoss(predict,labels)
其中,predict为网络的预测概率输出(即最后一层的输出),labels为输入图片对应的文本内容标签。
同样训练的标准是使得损失函数收敛。
对于识别网络(Synthetic上训练完成后),自由解码时在数据集IIIT5K,SVT,ICDAR2003,ICDAR2013上分别能达到81.2%,80.7%,89.7%,85.7%的准确率。50字典解码时,在IIIT5K,SVT,ICDAR2003上分别能达到98.0%,97.4%,98.5的准确率。对于我们最终的Refinement分类网络,在我们构造的T.nonT测试集上能达到91.77%的判别准确率。
4、当将两个模型级联(模型如附图1所示)后进行测试时,将图像送入文本检测模型中,得到初步的文本区域和其对应的置信度,经过NMS筛选之后再将结果送入训练好的卷积循环神经网络过滤掉由于迷惑性的外观特征被误检为正例的文本区域。经过筛选后的最终结果,准确率进一步提升,同时在目前公开的数据集ICDAR2015上F-measure可以达到83%。
以下为与上述方法实施例对应的***实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还公开了一种自然场景文本检测***,其中包括:
模块1、获取包括多张训练图片的训练集,该训练图片均为自然场景且已被标记文字位置,构建包括特征提取网络和特征融合网络的深度特征融合网络;
模块2、通过该特征提取网络提取该训练图片的多尺度图像特征,将该多尺度图像特征输入该特征融合网络得到融合特征,并由该特征融合网络中最后一个卷积层确定该训练图像的文本区域,根据该文字位置、该文本区域和该文本区域内包括文本的置信度构建损失函数;
模块3、重新选取该训练图片,多次执行该模块2以训练该深度特征融合网络,直到该损失函数收敛,保存该深度特征融合网络作为文本检测模型;
模块4、以该训练集训练卷积循环神经网络,训练完成后,通过修改该卷积循环神经网络的翻译层为二分类层,并将修改后的该卷积循环神经网络作为文本识别网络;
模块5、将待文字检测的自然场景图像送入该文本检测模型,得到初步文本区域,并通过该文本识别网络筛选该初步文本区域,将筛选结果作为文本检测结果。
所述的自然场景文本检测***,其中该卷积循环神经网络包括:卷积层、编码层、注意力层、解码层和翻译层;
通过该卷积层提取该训练图片的卷积特征图;
通过该编码层将该卷积特征图整合为序列特征并进行编码;
该注意力层根据序列信息和编码结果重新加权整合送入该解码层进行解码,将解码后的信息送入该翻译层翻译为目标文本。
所述的自然场景文本检测***,其中使用联结时间的分类损失函数训练该卷积循环神经网络,直到该联结时间的分类损失函数收敛,训练完成;
lossctc=CTCLoss(predict,labels)
其中,CTCLoss为联结时间的分类损失函数,predict为该卷积循环神经网络最后一层的预测概率输出,labels为输入训练图片的文本内容标签。
所述的自然场景文本检测***,其中模块2中该损失函数包括Dice Loss损失函数和IoU Loss损失函数
其中,Dice Loss损失函数用于监督文本区域分类概率的预测:
其中P和G分别对应图像的文本预测置信度的真实的置信度,⊙代表哈达玛积;IoULoss损失函数用于监督文本区域位置的预测:
其中Rp和Rg分别代表预测的文本区域坐标和实际的文本区域坐标,θp和θg分别代表预测的文本区域的角度和实际的文本区域的角度。
所述的自然场景文本检测***,其中模块5中该文本识别网络筛选该初步文本区域的过程为:
该文本识别网络的卷积层部分从该初步文本区域中提取卷积特征图作为有效信息,将该有效信息按照预设顺序整合为序列特征送入该初步文本区域中编码层进行编码,得到编码信息,该初步文本区域中注意力层根据该预设顺序加权整合该编码信息后送入解码层,将解码后的信息送入该二分类层,判断该初步文本区域内是否具有文本。
由以上方案可知,本发明的进步在于:
本发明提出了一种将基于多层次语义特征的文本检测网络和基于注意力机制的识别后处理网络相结合的自然场景文本检测技术,其流程图如附图1所示。该技术不仅改进了当下文本检测方法,不再使用基于Proposal的方法,而是改用基于分割的FCN网络模型和深度特征密集融合策略来进行文本检测,同时提升了自然场景文本检测的召回率和准确率;还通过由文字识别卷积循环神经网络改进的Attention-based分类网络来Refine检测结果,降低了文字识别的误检率,在保证召回率的前提下进一步提升了文本检测的准确率,进而提升了F-measure(目前通用的评价指标)。
Claims (10)
1.一种自然场景文本检测方法,其特征在于,包括:
步骤1、获取包括多张训练图片的训练集,该训练图片均为自然场景且已被标记文字位置,构建包括特征提取网络和特征融合网络的深度特征融合网络;
步骤2、通过该特征提取网络提取该训练图片的多尺度图像特征,将该多尺度图像特征输入该特征融合网络得到融合特征,并由该特征融合网络中最后一个卷积层确定该训练图像的文本区域,根据该文字位置、该文本区域和该文本区域内包括文本的置信度构建损失函数;
步骤3、重新选取该训练图片,多次执行该步骤2以训练该深度特征融合网络,直到该损失函数收敛,保存该深度特征融合网络作为文本检测模型;
步骤4、以该训练集训练卷积循环神经网络,训练完成后,通过修改该卷积循环神经网络的翻译层为二分类层,并将修改后的该卷积循环神经网络作为文本识别网络;
步骤5、将待文字检测的自然场景图像送入该文本检测模型,得到初步文本区域,并通过该文本识别网络筛选该初步文本区域,将筛选结果作为文本检测结果。
2.如权利要求1所述的自然场景文本检测方法,其特征在于,该卷积循环神经网络包括:卷积层、编码层、注意力层、解码层和翻译层;
通过该卷积层提取该训练图片的卷积特征图;
通过该编码层将该卷积特征图整合为序列特征并进行编码;
该注意力层根据序列信息和编码结果重新加权整合送入该解码层进行解码,将解码后的信息送入该翻译层翻译为目标文本。
3.如权利要求2所述的自然场景文本检测方法,其特征在于,使用联结时间的分类损失函数训练该卷积循环神经网络,直到该联结时间的分类损失函数收敛,训练完成;
lossctc=CTCLoss(predict,labels)
其中,CTCLoss为联结时间的分类损失函数,predict为该卷积循环神经网络最后一层的预测概率输出,labels为输入训练图片的文本内容标签。
4.如权利要求1所述的自然场景文本检测方法,其特征在于,步骤2中该损失函数包括Dice Loss损失函数和IoU Loss损失函数
其中,Dice Loss损失函数用于监督文本区域分类概率的预测:
其中P和G分别对应图像的文本预测置信度的真实的置信度,⊙代表哈达玛积;
IoU Loss损失函数用于监督文本区域位置的预测:
其中Rp和Rg分别代表预测的文本区域坐标和实际的文本区域坐标,θp和θg分别代表预测的文本区域的角度和实际的文本区域的角度。
5.如权利要求1所述的自然场景文本检测方法,其特征在于,步骤5中该文本识别网络筛选该初步文本区域的过程为:
该文本识别网络的卷积层部分从该初步文本区域中提取卷积特征图作为有效信息,将该有效信息按照预设顺序整合为序列特征送入该初步文本区域中编码层进行编码,得到编码信息,该初步文本区域中注意力层根据该预设顺序加权整合该编码信息后送入解码层,将解码后的信息送入该二分类层,判断该初步文本区域内是否具有文本。
6.一种自然场景文本检测***,其特征在于,包括:
模块1、获取包括多张训练图片的训练集,该训练图片均为自然场景且已被标记文字位置,构建包括特征提取网络和特征融合网络的深度特征融合网络;
模块2、通过该特征提取网络提取该训练图片的多尺度图像特征,将该多尺度图像特征输入该特征融合网络得到融合特征,并由该特征融合网络中最后一个卷积层确定该训练图像的文本区域,根据该文字位置、该文本区域和该文本区域内包括文本的置信度构建损失函数;
模块3、重新选取该训练图片,多次执行该模块2以训练该深度特征融合网络,直到该损失函数收敛,保存该深度特征融合网络作为文本检测模型;
模块4、以该训练集训练卷积循环神经网络,训练完成后,通过修改该卷积循环神经网络的翻译层为二分类层,并将修改后的该卷积循环神经网络作为文本识别网络;
模块5、将待文字检测的自然场景图像送入该文本检测模型,得到初步文本区域,并通过该文本识别网络筛选该初步文本区域,将筛选结果作为文本检测结果。
7.如权利要求6所述的自然场景文本检测***,其特征在于,该卷积循环神经网络包括:卷积层、编码层、注意力层、解码层和翻译层;
通过该卷积层提取该训练图片的卷积特征图;
通过该编码层将该卷积特征图整合为序列特征并进行编码;
该注意力层根据序列信息和编码结果重新加权整合送入该解码层进行解码,将解码后的信息送入该翻译层翻译为目标文本。
8.如权利要求7所述的自然场景文本检测***,其特征在于,使用联结时间的分类损失函数训练该卷积循环神经网络,直到该联结时间的分类损失函数收敛,训练完成;
lossctc=CTCLoss(predict,labels)
其中,CTCLoss为联结时间的分类损失函数,predict为该卷积循环神经网络最后一层的预测概率输出,labels为输入训练图片的文本内容标签。
9.如权利要求6所述的自然场景文本检测***,其特征在于,模块2中该损失函数包括Dice Loss损失函数和IoU Loss损失函数
其中,Dice Loss损失函数用于监督文本区域分类概率的预测:
其中P和G分别对应图像的文本预测置信度的真实的置信度,⊙代表哈达玛积;IoULoss损失函数用于监督文本区域位置的预测:
其中Rp和Rg分别代表预测的文本区域坐标和实际的文本区域坐标,θp和θg分别代表预测的文本区域的角度和实际的文本区域的角度。
10.如权利要求6所述的自然场景文本检测***,其特征在于,模块5中该文本识别网络筛选该初步文本区域的过程为:
该文本识别网络的卷积层部分从该初步文本区域中提取卷积特征图作为有效信息,将该有效信息按照预设顺序整合为序列特征送入该初步文本区域中编码层进行编码,得到编码信息,该初步文本区域中注意力层根据该预设顺序加权整合该编码信息后送入解码层,将解码后的信息送入该二分类层,判断该初步文本区域内是否具有文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910267048.1A CN110097049A (zh) | 2019-04-03 | 2019-04-03 | 一种自然场景文本检测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910267048.1A CN110097049A (zh) | 2019-04-03 | 2019-04-03 | 一种自然场景文本检测方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110097049A true CN110097049A (zh) | 2019-08-06 |
Family
ID=67444345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910267048.1A Pending CN110097049A (zh) | 2019-04-03 | 2019-04-03 | 一种自然场景文本检测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110097049A (zh) |
Cited By (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516669A (zh) * | 2019-08-23 | 2019-11-29 | 西北工业大学 | 一种复杂环境下多层级多尺度融合的文字检测方法 |
CN110580462A (zh) * | 2019-08-29 | 2019-12-17 | 华中科技大学 | 一种基于非局部网络的自然场景文本检测方法和*** |
CN110598698A (zh) * | 2019-08-29 | 2019-12-20 | 华中科技大学 | 基于自适应区域建议网络的自然场景文本检测方法和*** |
CN110717336A (zh) * | 2019-09-23 | 2020-01-21 | 华南理工大学 | 基于语义相关度预测和注意力解码的场景文本识别方法 |
CN110765966A (zh) * | 2019-10-30 | 2020-02-07 | 哈尔滨工业大学 | 一种面向手写文字的一阶段自动识别与翻译方法 |
CN110969163A (zh) * | 2019-12-20 | 2020-04-07 | 山东华尚电气有限公司 | 一种检测图像中文本信息的方法 |
CN111046915A (zh) * | 2019-11-20 | 2020-04-21 | 武汉理工大学 | 一种风格字符生成的方法 |
CN111062386A (zh) * | 2019-11-28 | 2020-04-24 | 大连交通大学 | 基于深度金字塔注意力和特征融合的自然场景文本检测方法 |
CN111061904A (zh) * | 2019-12-06 | 2020-04-24 | 武汉理工大学 | 一种基于图像内容识别的本地图片快速检测方法 |
CN111104898A (zh) * | 2019-12-18 | 2020-05-05 | 武汉大学 | 基于目标语义和注意力机制的图像场景分类方法及装置 |
CN111126386A (zh) * | 2019-12-20 | 2020-05-08 | 复旦大学 | 场景文本识别中基于对抗学习的序列领域适应方法 |
CN111274985A (zh) * | 2020-02-06 | 2020-06-12 | 咪咕文化科技有限公司 | 视频文本识别网络模型、视频文本识别装置与电子设备 |
CN111310758A (zh) * | 2020-02-13 | 2020-06-19 | 上海眼控科技股份有限公司 | 文本检测方法、装置、计算机设备和存储介质 |
CN111310509A (zh) * | 2020-03-12 | 2020-06-19 | 北京大学 | 基于物流运单的实时条码检测***及方法 |
CN111340034A (zh) * | 2020-03-23 | 2020-06-26 | 深圳智能思创科技有限公司 | 一种针对自然场景的文本检测与识别方法及*** |
CN111401436A (zh) * | 2020-03-13 | 2020-07-10 | 北京工商大学 | 一种融合网络和双通道注意力机制的街景图像分割方法 |
CN111401375A (zh) * | 2020-03-09 | 2020-07-10 | 苏宁云计算有限公司 | 文本识别模型训练方法、文本识别方法、装置及设备 |
CN111428716A (zh) * | 2020-03-26 | 2020-07-17 | 广州市南方人力资源评价中心有限公司 | 一种基于神经网络的文字检测方法 |
CN111461114A (zh) * | 2020-03-03 | 2020-07-28 | 华南理工大学 | 一种基于分割的多尺度特征金字塔文本检测方法 |
CN111709406A (zh) * | 2020-08-18 | 2020-09-25 | 成都数联铭品科技有限公司 | 文本行识别方法及装置、可读存储介质、电子设备 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN111898456A (zh) * | 2020-07-06 | 2020-11-06 | 贵州大学 | 基于多层次注意力机制的文本修改图片网络模型训练方法 |
CN111931763A (zh) * | 2020-06-09 | 2020-11-13 | 浙江大学 | 一种基于随机形态边缘几何建模的深度场景文本检测方法 |
CN112085022A (zh) * | 2020-09-09 | 2020-12-15 | 上海蜜度信息技术有限公司 | 一种用于识别文字的方法、***及设备 |
CN112101359A (zh) * | 2020-11-11 | 2020-12-18 | 广州华多网络科技有限公司 | 文本公式的定位方法、模型训练方法及相关装置 |
CN112200184A (zh) * | 2020-10-10 | 2021-01-08 | 福州大学 | 一种自然场景下的书法区域检测及作者识别方法 |
CN112259120A (zh) * | 2020-10-19 | 2021-01-22 | 成都明杰科技有限公司 | 基于卷积循环神经网络的单通道人声与背景声分离方法 |
CN112257716A (zh) * | 2020-12-08 | 2021-01-22 | 之江实验室 | 一种基于尺度自适应及方向注意力网络的场景文字识别方法 |
CN112464798A (zh) * | 2020-11-24 | 2021-03-09 | 创新奇智(合肥)科技有限公司 | 文本识别方法及装置、电子设备、存储介质 |
CN112580408A (zh) * | 2019-09-30 | 2021-03-30 | 杭州海康威视数字技术股份有限公司 | 深度学习模型训练方法、装置及电子设备 |
CN112598004A (zh) * | 2020-12-21 | 2021-04-02 | 安徽七天教育科技有限公司 | 一种基于扫描的英语作文试卷版面分析方法 |
CN112614483A (zh) * | 2019-09-18 | 2021-04-06 | 珠海格力电器股份有限公司 | 基于残差卷积网络的建模方法、语音识别方法及电子设备 |
CN112614094A (zh) * | 2020-12-15 | 2021-04-06 | 郑州金惠计算机***工程有限公司 | 基于序列状态编码的绝缘子串异常定位识别方法 |
CN112633431A (zh) * | 2020-12-31 | 2021-04-09 | 西北民族大学 | 一种基于crnn和ctc的藏汉双语场景文字识别方法 |
CN112784831A (zh) * | 2021-02-02 | 2021-05-11 | 电子科技大学 | 融合多层特征增强注意力机制的文字识别方法 |
CN112818951A (zh) * | 2021-03-11 | 2021-05-18 | 南京大学 | 一种票证识别的方法 |
CN112825129A (zh) * | 2019-11-20 | 2021-05-21 | Sap欧洲公司 | 用于文档处理的位置嵌入 |
CN112949755A (zh) * | 2021-03-29 | 2021-06-11 | 中国科学院合肥物质科学研究院 | 一种基于图像结构信息的ocr数据合成方法 |
WO2021115159A1 (zh) * | 2019-12-09 | 2021-06-17 | 中兴通讯股份有限公司 | 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质 |
CN113221885A (zh) * | 2021-05-13 | 2021-08-06 | 中国科学技术大学 | 一种基于整字和偏旁部首的层次化建模方法及*** |
CN113221884A (zh) * | 2021-05-13 | 2021-08-06 | 中国科学技术大学 | 一种基于低频字存储记忆的文本识别方法及*** |
CN113516114A (zh) * | 2021-05-19 | 2021-10-19 | 西安建筑科技大学 | 一种高效精确的自然场景文本检测方法、设备和介质 |
CN113569871A (zh) * | 2021-08-03 | 2021-10-29 | 内蒙古工业大学 | 一种基于深度学习的图书馆自动盘书方法及*** |
CN113591719A (zh) * | 2021-08-02 | 2021-11-02 | 南京大学 | 一种自然场景任意形状文本检测方法、装置和训练方法 |
CN113674387A (zh) * | 2021-08-26 | 2021-11-19 | 广东中星电子有限公司 | 非自然场景视频的视频处理方法、装置 |
CN113705673A (zh) * | 2021-08-27 | 2021-11-26 | 四川医枢科技有限责任公司 | 一种文字检测方法、装置、设备及存储介质 |
CN113888505A (zh) * | 2021-09-30 | 2022-01-04 | 大连理工大学 | 一种基于语义分割的自然场景文本检测方法 |
CN113903022A (zh) * | 2021-09-23 | 2022-01-07 | 山东师范大学 | 基于特征金字塔与注意力融合的文本检测方法及*** |
CN113963358A (zh) * | 2021-12-20 | 2022-01-21 | 北京易真学思教育科技有限公司 | 文本识别模型训练方法、文本识别方法、装置及电子设备 |
CN114092930A (zh) * | 2022-01-07 | 2022-02-25 | 中科视语(北京)科技有限公司 | 一种文字识别方法及*** |
WO2022100452A1 (zh) * | 2020-11-16 | 2022-05-19 | 深圳壹账通智能科技有限公司 | Ocr***的评估方法、装置、设备及可读存储介质 |
CN114550158A (zh) * | 2022-02-23 | 2022-05-27 | 厦门大学 | 一种场景文字识别方法及*** |
CN114743206A (zh) * | 2022-05-17 | 2022-07-12 | 北京百度网讯科技有限公司 | 文本检测方法、模型训练方法、装置、电子设备 |
CN115035351A (zh) * | 2022-07-18 | 2022-09-09 | 北京百度网讯科技有限公司 | 基于图像的信息提取模型、方法、装置、设备及存储介质 |
CN117573810A (zh) * | 2024-01-15 | 2024-02-20 | 腾讯烟台新工科研究院 | 一种多语言产品包装说明书文字识别查询方法及*** |
CN112614483B (zh) * | 2019-09-18 | 2024-07-16 | 珠海格力电器股份有限公司 | 基于残差卷积网络的建模方法、语音识别方法及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
CN109492679A (zh) * | 2018-10-24 | 2019-03-19 | 杭州电子科技大学 | 基于注意力机制与联结时间分类损失的文字识别方法 |
-
2019
- 2019-04-03 CN CN201910267048.1A patent/CN110097049A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
CN109492679A (zh) * | 2018-10-24 | 2019-03-19 | 杭州电子科技大学 | 基于注意力机制与联结时间分类损失的文字识别方法 |
Non-Patent Citations (2)
Title |
---|
BAOGUANG SHI 等: "An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition", 《 IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
YU SONG 等: "Scene Text Detection via Deep Semantic Feature Fusion and Attention-based Refinement", 《2018 24TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION(ICPR)》 * |
Cited By (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN110516669A (zh) * | 2019-08-23 | 2019-11-29 | 西北工业大学 | 一种复杂环境下多层级多尺度融合的文字检测方法 |
CN110516669B (zh) * | 2019-08-23 | 2022-04-29 | 西北工业大学 | 一种复杂环境下多层级多尺度融合的文字检测方法 |
CN110580462A (zh) * | 2019-08-29 | 2019-12-17 | 华中科技大学 | 一种基于非局部网络的自然场景文本检测方法和*** |
CN110598698A (zh) * | 2019-08-29 | 2019-12-20 | 华中科技大学 | 基于自适应区域建议网络的自然场景文本检测方法和*** |
CN110580462B (zh) * | 2019-08-29 | 2022-02-15 | 华中科技大学 | 一种基于非局部网络的自然场景文本检测方法和*** |
CN110598698B (zh) * | 2019-08-29 | 2022-02-15 | 华中科技大学 | 基于自适应区域建议网络的自然场景文本检测方法和*** |
CN112614483A (zh) * | 2019-09-18 | 2021-04-06 | 珠海格力电器股份有限公司 | 基于残差卷积网络的建模方法、语音识别方法及电子设备 |
CN112614483B (zh) * | 2019-09-18 | 2024-07-16 | 珠海格力电器股份有限公司 | 基于残差卷积网络的建模方法、语音识别方法及电子设备 |
CN110717336A (zh) * | 2019-09-23 | 2020-01-21 | 华南理工大学 | 基于语义相关度预测和注意力解码的场景文本识别方法 |
CN112580408B (zh) * | 2019-09-30 | 2024-03-12 | 杭州海康威视数字技术股份有限公司 | 深度学习模型训练方法、装置及电子设备 |
CN112580408A (zh) * | 2019-09-30 | 2021-03-30 | 杭州海康威视数字技术股份有限公司 | 深度学习模型训练方法、装置及电子设备 |
CN110765966A (zh) * | 2019-10-30 | 2020-02-07 | 哈尔滨工业大学 | 一种面向手写文字的一阶段自动识别与翻译方法 |
CN110765966B (zh) * | 2019-10-30 | 2022-03-25 | 哈尔滨工业大学 | 一种面向手写文字的一阶段自动识别与翻译方法 |
CN112825129A (zh) * | 2019-11-20 | 2021-05-21 | Sap欧洲公司 | 用于文档处理的位置嵌入 |
CN111046915B (zh) * | 2019-11-20 | 2022-04-15 | 武汉理工大学 | 一种风格字符生成的方法 |
CN111046915A (zh) * | 2019-11-20 | 2020-04-21 | 武汉理工大学 | 一种风格字符生成的方法 |
CN111062386B (zh) * | 2019-11-28 | 2023-12-29 | 大连交通大学 | 基于深度金字塔注意力和特征融合的自然场景文本检测方法 |
CN111062386A (zh) * | 2019-11-28 | 2020-04-24 | 大连交通大学 | 基于深度金字塔注意力和特征融合的自然场景文本检测方法 |
CN111061904B (zh) * | 2019-12-06 | 2023-04-18 | 武汉理工大学 | 一种基于图像内容识别的本地图片快速检测方法 |
CN111061904A (zh) * | 2019-12-06 | 2020-04-24 | 武汉理工大学 | 一种基于图像内容识别的本地图片快速检测方法 |
WO2021115159A1 (zh) * | 2019-12-09 | 2021-06-17 | 中兴通讯股份有限公司 | 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质 |
CN111104898A (zh) * | 2019-12-18 | 2020-05-05 | 武汉大学 | 基于目标语义和注意力机制的图像场景分类方法及装置 |
CN110969163A (zh) * | 2019-12-20 | 2020-04-07 | 山东华尚电气有限公司 | 一种检测图像中文本信息的方法 |
CN111126386B (zh) * | 2019-12-20 | 2023-06-30 | 复旦大学 | 场景文本识别中基于对抗学习的序列领域适应方法 |
CN111126386A (zh) * | 2019-12-20 | 2020-05-08 | 复旦大学 | 场景文本识别中基于对抗学习的序列领域适应方法 |
CN111274985B (zh) * | 2020-02-06 | 2024-03-26 | 咪咕文化科技有限公司 | 视频文本识别***、视频文本识别装置与电子设备 |
CN111274985A (zh) * | 2020-02-06 | 2020-06-12 | 咪咕文化科技有限公司 | 视频文本识别网络模型、视频文本识别装置与电子设备 |
CN111310758A (zh) * | 2020-02-13 | 2020-06-19 | 上海眼控科技股份有限公司 | 文本检测方法、装置、计算机设备和存储介质 |
CN111461114A (zh) * | 2020-03-03 | 2020-07-28 | 华南理工大学 | 一种基于分割的多尺度特征金字塔文本检测方法 |
CN111461114B (zh) * | 2020-03-03 | 2023-05-02 | 华南理工大学 | 一种基于分割的多尺度特征金字塔文本检测方法 |
CN111401375A (zh) * | 2020-03-09 | 2020-07-10 | 苏宁云计算有限公司 | 文本识别模型训练方法、文本识别方法、装置及设备 |
CN111401375B (zh) * | 2020-03-09 | 2022-12-30 | 苏宁云计算有限公司 | 文本识别模型训练方法、文本识别方法、装置及设备 |
CN111310509A (zh) * | 2020-03-12 | 2020-06-19 | 北京大学 | 基于物流运单的实时条码检测***及方法 |
CN111401436B (zh) * | 2020-03-13 | 2023-04-18 | 中国科学院地理科学与资源研究所 | 一种融合网络和双通道注意力机制的街景图像分割方法 |
CN111401436A (zh) * | 2020-03-13 | 2020-07-10 | 北京工商大学 | 一种融合网络和双通道注意力机制的街景图像分割方法 |
CN111340034B (zh) * | 2020-03-23 | 2023-04-07 | 深圳智能思创科技有限公司 | 一种针对自然场景的文本检测与识别方法及*** |
CN111340034A (zh) * | 2020-03-23 | 2020-06-26 | 深圳智能思创科技有限公司 | 一种针对自然场景的文本检测与识别方法及*** |
CN111428716A (zh) * | 2020-03-26 | 2020-07-17 | 广州市南方人力资源评价中心有限公司 | 一种基于神经网络的文字检测方法 |
CN111931763B (zh) * | 2020-06-09 | 2024-03-12 | 浙江大学 | 一种基于随机形态边缘几何建模的深度场景文本检测方法 |
CN111931763A (zh) * | 2020-06-09 | 2020-11-13 | 浙江大学 | 一种基于随机形态边缘几何建模的深度场景文本检测方法 |
CN111898456A (zh) * | 2020-07-06 | 2020-11-06 | 贵州大学 | 基于多层次注意力机制的文本修改图片网络模型训练方法 |
CN111898456B (zh) * | 2020-07-06 | 2022-08-09 | 贵州大学 | 基于多层次注意力机制的文本修改图片网络模型训练方法 |
CN111709406A (zh) * | 2020-08-18 | 2020-09-25 | 成都数联铭品科技有限公司 | 文本行识别方法及装置、可读存储介质、电子设备 |
CN112085022A (zh) * | 2020-09-09 | 2020-12-15 | 上海蜜度信息技术有限公司 | 一种用于识别文字的方法、***及设备 |
CN112085022B (zh) * | 2020-09-09 | 2024-02-13 | 上海蜜度科技股份有限公司 | 一种用于识别文字的方法、***及设备 |
CN112200184A (zh) * | 2020-10-10 | 2021-01-08 | 福州大学 | 一种自然场景下的书法区域检测及作者识别方法 |
CN112259120B (zh) * | 2020-10-19 | 2021-06-29 | 南京硅基智能科技有限公司 | 基于卷积循环神经网络的单通道人声与背景声分离方法 |
CN112259120A (zh) * | 2020-10-19 | 2021-01-22 | 成都明杰科技有限公司 | 基于卷积循环神经网络的单通道人声与背景声分离方法 |
CN112101359A (zh) * | 2020-11-11 | 2020-12-18 | 广州华多网络科技有限公司 | 文本公式的定位方法、模型训练方法及相关装置 |
WO2022100452A1 (zh) * | 2020-11-16 | 2022-05-19 | 深圳壹账通智能科技有限公司 | Ocr***的评估方法、装置、设备及可读存储介质 |
CN112464798A (zh) * | 2020-11-24 | 2021-03-09 | 创新奇智(合肥)科技有限公司 | 文本识别方法及装置、电子设备、存储介质 |
CN112257716A (zh) * | 2020-12-08 | 2021-01-22 | 之江实验室 | 一种基于尺度自适应及方向注意力网络的场景文字识别方法 |
CN112614094A (zh) * | 2020-12-15 | 2021-04-06 | 郑州金惠计算机***工程有限公司 | 基于序列状态编码的绝缘子串异常定位识别方法 |
CN112598004A (zh) * | 2020-12-21 | 2021-04-02 | 安徽七天教育科技有限公司 | 一种基于扫描的英语作文试卷版面分析方法 |
CN112633431A (zh) * | 2020-12-31 | 2021-04-09 | 西北民族大学 | 一种基于crnn和ctc的藏汉双语场景文字识别方法 |
CN112784831A (zh) * | 2021-02-02 | 2021-05-11 | 电子科技大学 | 融合多层特征增强注意力机制的文字识别方法 |
CN112784831B (zh) * | 2021-02-02 | 2022-06-28 | 电子科技大学 | 融合多层特征增强注意力机制的文字识别方法 |
CN112818951A (zh) * | 2021-03-11 | 2021-05-18 | 南京大学 | 一种票证识别的方法 |
CN112818951B (zh) * | 2021-03-11 | 2023-11-21 | 南京大学 | 一种票证识别的方法 |
CN112949755A (zh) * | 2021-03-29 | 2021-06-11 | 中国科学院合肥物质科学研究院 | 一种基于图像结构信息的ocr数据合成方法 |
CN113221885A (zh) * | 2021-05-13 | 2021-08-06 | 中国科学技术大学 | 一种基于整字和偏旁部首的层次化建模方法及*** |
CN113221885B (zh) * | 2021-05-13 | 2022-09-06 | 中国科学技术大学 | 一种基于整字和偏旁部首的层次化建模方法及*** |
CN113221884B (zh) * | 2021-05-13 | 2022-09-06 | 中国科学技术大学 | 一种基于低频字存储记忆的文本识别方法及*** |
CN113221884A (zh) * | 2021-05-13 | 2021-08-06 | 中国科学技术大学 | 一种基于低频字存储记忆的文本识别方法及*** |
CN113516114B (zh) * | 2021-05-19 | 2023-09-29 | 西安建筑科技大学 | 一种自然场景文本检测方法、设备和介质 |
CN113516114A (zh) * | 2021-05-19 | 2021-10-19 | 西安建筑科技大学 | 一种高效精确的自然场景文本检测方法、设备和介质 |
CN113591719B (zh) * | 2021-08-02 | 2024-05-28 | 南京大学 | 一种自然场景任意形状文本检测方法、装置和训练方法 |
CN113591719A (zh) * | 2021-08-02 | 2021-11-02 | 南京大学 | 一种自然场景任意形状文本检测方法、装置和训练方法 |
CN113569871A (zh) * | 2021-08-03 | 2021-10-29 | 内蒙古工业大学 | 一种基于深度学习的图书馆自动盘书方法及*** |
CN113674387B (zh) * | 2021-08-26 | 2024-04-16 | 广东中星电子有限公司 | 非自然场景视频的视频处理方法、装置 |
CN113674387A (zh) * | 2021-08-26 | 2021-11-19 | 广东中星电子有限公司 | 非自然场景视频的视频处理方法、装置 |
CN113705673B (zh) * | 2021-08-27 | 2023-12-12 | 四川医枢科技有限责任公司 | 一种文字检测方法、装置、设备及存储介质 |
CN113705673A (zh) * | 2021-08-27 | 2021-11-26 | 四川医枢科技有限责任公司 | 一种文字检测方法、装置、设备及存储介质 |
CN113903022A (zh) * | 2021-09-23 | 2022-01-07 | 山东师范大学 | 基于特征金字塔与注意力融合的文本检测方法及*** |
CN113903022B (zh) * | 2021-09-23 | 2024-07-09 | 山东师范大学 | 基于特征金字塔与注意力融合的文本检测方法及*** |
CN113888505A (zh) * | 2021-09-30 | 2022-01-04 | 大连理工大学 | 一种基于语义分割的自然场景文本检测方法 |
CN113888505B (zh) * | 2021-09-30 | 2024-05-07 | 大连理工大学 | 一种基于语义分割的自然场景文本检测方法 |
CN113963358B (zh) * | 2021-12-20 | 2022-03-04 | 北京易真学思教育科技有限公司 | 文本识别模型训练方法、文本识别方法、装置及电子设备 |
CN113963358A (zh) * | 2021-12-20 | 2022-01-21 | 北京易真学思教育科技有限公司 | 文本识别模型训练方法、文本识别方法、装置及电子设备 |
CN114092930B (zh) * | 2022-01-07 | 2022-05-03 | 中科视语(北京)科技有限公司 | 一种文字识别方法及*** |
CN114092930A (zh) * | 2022-01-07 | 2022-02-25 | 中科视语(北京)科技有限公司 | 一种文字识别方法及*** |
CN114550158A (zh) * | 2022-02-23 | 2022-05-27 | 厦门大学 | 一种场景文字识别方法及*** |
CN114743206B (zh) * | 2022-05-17 | 2023-10-27 | 北京百度网讯科技有限公司 | 文本检测方法、模型训练方法、装置、电子设备 |
CN114743206A (zh) * | 2022-05-17 | 2022-07-12 | 北京百度网讯科技有限公司 | 文本检测方法、模型训练方法、装置、电子设备 |
CN115035351A (zh) * | 2022-07-18 | 2022-09-09 | 北京百度网讯科技有限公司 | 基于图像的信息提取模型、方法、装置、设备及存储介质 |
CN117573810B (zh) * | 2024-01-15 | 2024-04-09 | 腾讯烟台新工科研究院 | 一种多语言产品包装说明书文字识别查询方法及*** |
CN117573810A (zh) * | 2024-01-15 | 2024-02-20 | 腾讯烟台新工科研究院 | 一种多语言产品包装说明书文字识别查询方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110097049A (zh) | 一种自然场景文本检测方法及*** | |
CN104268603B (zh) | 用于文字性客观题的智能阅卷方法及*** | |
CN106778757B (zh) | 基于文本显著性的场景文本检测方法 | |
CN105046277B (zh) | 特征显著性在图像质量评价中的鲁棒机理研究方法 | |
CN107451607B (zh) | 一种基于深度学习的典型人物的身份识别方法 | |
CN110211097A (zh) | 一种基于Faster R-CNN参数迁移的裂缝图像检测方法 | |
CN109583425A (zh) | 一种基于深度学习的遥感图像船只集成识别方法 | |
CN109299274A (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN106023220A (zh) | 一种基于深度学习的车辆外观部件图像分割方法 | |
CN106096602A (zh) | 一种基于卷积神经网络的中文车牌识别方法 | |
CN111738105B (zh) | 公式识别方法、装置、电子设备和存储介质 | |
CN107403130A (zh) | 一种字符识别方法及字符识别装置 | |
CN106934386B (zh) | 一种基于自启发式策略的自然场景文字检测方法及*** | |
CN106446896A (zh) | 一种字符分割方法、装置及电子设备 | |
CN107808132A (zh) | 一种融合主题模型的场景图像分类方法 | |
CN109886357A (zh) | 一种基于特征融合的自适应权重深度学习目标分类方法 | |
CN104268134B (zh) | 一种主客观分类器构建方法和*** | |
CN107203606A (zh) | 基于卷积神经网络的自然场景下文本检测与识别方法 | |
CN106228166B (zh) | 字符图像的识别方法 | |
CN108960499A (zh) | 一种融合视觉和非视觉特征的服装流行趋势预测*** | |
CN110598693A (zh) | 一种基于Faster-RCNN的船牌识别方法 | |
CN109522900A (zh) | 自然场景文字识别方法及装置 | |
CN109886147A (zh) | 一种基于单网络多任务学习的车辆多属性检测方法 | |
CN103455823B (zh) | 一种基于分类模糊及图像分割的英文字符识别方法 | |
CN109086772A (zh) | 一种扭曲粘连字符图片验证码的识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190806 |