CN111666937A - 一种图像中的文本识别方法及*** - Google Patents

一种图像中的文本识别方法及*** Download PDF

Info

Publication number
CN111666937A
CN111666937A CN202010309711.2A CN202010309711A CN111666937A CN 111666937 A CN111666937 A CN 111666937A CN 202010309711 A CN202010309711 A CN 202010309711A CN 111666937 A CN111666937 A CN 111666937A
Authority
CN
China
Prior art keywords
text
image
merged
positioning
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010309711.2A
Other languages
English (en)
Inventor
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Duoyi Network Co ltd
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Guangzhou Duoyi Network Co ltd
Original Assignee
Duoyi Network Co ltd
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Guangzhou Duoyi Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Duoyi Network Co ltd, GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD, Guangzhou Duoyi Network Co ltd filed Critical Duoyi Network Co ltd
Priority to CN202010309711.2A priority Critical patent/CN111666937A/zh
Publication of CN111666937A publication Critical patent/CN111666937A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像中的文本识别方法及***,该方法先通过文本检测模型,提取待识别图像中的N个文本定位区域,对应获得N个待合并文本定位框;其中,每个待合并文本定位框为待识别图像中对应的文本定位区域的区域轮廓;根据每个待合并文本定位框的顶点坐标,对所有待合并文本定位框进行合并,获得K个待检测文本定位框;其中,N≥K≥1;基于文本识别模型,识别所有待检测文本定位框中的文本,获得待检测文本;将待检测文本与预设的违规关键字字典中的关键字进行比对,获得待识别图像对应的识别结果;本发明技术方案能够提高复杂图像中的文本识别的准确度和识别效率。

Description

一种图像中的文本识别方法及***
技术领域
本发明涉及文本检测与识别技术领域,尤其涉及一种图像中的文本识别方法及***。
背景技术
文本作为人类之间传递信息的桥梁,特别是在互联网迅速发展的今天,将文本信息通过图像的形式进行传播随处可见。然而用户上传的图像的内容信息参差不齐,若单单靠人眼从海量的图像中筛选出违规图像,工作量大且效率低。
现有技术中,通过光学字符识别方法进行图像的文本识别,然而现有的光学字符识别方法适用于识别规整文档扫描件中的文本,不适用于在图像这种具有复杂背景的下的文本识别,从而导致图像的文本识别的准确率低,不仅如此,现有的光学字符识别方法的检测时间长,效率低。
发明内容
本发明实施例提供了一种图像中的文本识别方法及***,以解决现有的对图像中的文本识别的准确度低和识别效率低的技术问题,本发明实施例能够提高复杂图像中的文本识别的准确度和识别效率。
为了解决上述技术问题,本发明实施例提供了一种图像中的文本识别方法,包括:
基于预设的文本检测模型,提取待识别图像中的N个文本定位区域,对应获得N个待合并文本定位框;其中,每个所述待合并文本定位框为所述待识别图像中对应的文本定位区域的区域轮廓;
根据每个所述待合并文本定位框的顶点坐标,对所有所述待合并文本定位框进行合并,获得K个待检测文本定位框;其中,N≥K≥1;
基于预设的文本识别模型,识别所有所述待检测文本定位框中的文本,获得待检测文本;
将所述待检测文本与预设的违规关键字字典中的关键字进行比对,获得所述待识别图像对应的识别结果。
作为优选方案,所述文本检测模型包括残差网络和分割网络;则,所述基于预设的文本检测模型,提取待识别图像中的N个文本定位区域,对应获得N 个待合并文本定位框,具体为:
通过所述残差网络对所述待识别图像进行层级特征提取,获得若干种尺寸的特征图;
通过所述分割网络将所有所述特征图进行融合,获得待分割图像;
对所述待分割图像进行非极大值抑制处理,获得N个所述文本定位区域,对应获得N个所述待合并文本定位框。
作为优选方案,所述残差网络包括若干层卷积层;其中,第i层卷积层的尺寸是第i+1层卷积层的尺寸的两倍,第i层卷积层的卷积核是第i+1层卷积层的卷积核的二分之一;i为≥0的整数;则,所述通过所述残差网络对所述待识别图像进行层级特征提取,获得若干种尺寸的特征图,具体为:
将所述待识别图像分别输入到每层所述卷积层中进行特征提取,获得若干种尺寸的特征图。
作为优选方案,所述方法通过以下步骤预先构建所述文本检测模型:
通过标记工具对待训练图像中的文本框进行标记,获得文本框的顶点坐标;
将所述待训练图像与所述待训练图像对应的文本框的顶点坐标输入到第一深度学习网络模型中,以构建待优化的文本检测模型;其中,所述第一深度学习网络模型包括残差网络和分割网络;
利用第一损失函数反向训练所述待优化的文本检测模型,获得所述文本检测模型;其中,所述第一损失函数包括分图在文本内的损失、文本边界与起始点的损失和文本回归坐标点损失。
作为优选方案,所述根据每个所述待合并文本定位框的顶点坐标,对所有所述待合并文本定位框进行合并,获得K个待检测文本定位框,具体为:
对于第j个待合并文本定位框,计算第j个待合并文本定位框与相邻的第j+1 个待合并文本定位框的横轴坐标值之差和纵轴坐标值之差;其中,j=1,2,..., N;
判断所述纵轴坐标值之差是否小于第一预设阈值;
若所述纵轴坐标值之差小于第一预设阈值,则判断所述横轴坐标值之差是否小于第二预设阈值;
若所述横轴坐标值之差小于第二阈值,则将所述第j个待合并文本定位框和所述第j+1个待合并文本定位框进行合并,获得所述待检测文本定位框;
若所述纵轴坐标值之差大于第一预设阈值或所述横轴坐标值之差大于第二预设阈值,则将所述第j个待合并文本定位框和所述第j+1个待合并文本定位框分别标记为所述待检测文本定位框。
作为优选方案,在获得所述N个待合并文本定位框之后,还包括:
判断每个所述待合并文本定位框的内角是否等于90°;
若任一所述待合并文本定位框的内角不等于90°,则通过仿射变换技术将该待合并文本定位框的内角矫正为90°;
若任一所述待合并文本定位框的内角等于90°,则不对该待合并文本定位框进行矫正。
作为优选方案,所述方法通过以下步骤预先构建所述文本识别模型:
对待处理文本进行预处理,获得待训练文本;
将所述待训练文本与所述待训练文本对应的识别结果输入到第二深度学习网络模型中,以构建待优化的文本识别模型;其中,所述第二深度学习网络模型包括卷积层、第一稠密块、第一过度层、第二稠密块、第二过度层、第三稠密块和转换层;
利用第二损失函数反向训练所述待优化的文本识别模型,获得所述文本识别模型;其中,所述第二损失函数由CTC算法组成。
作为优选方案,所述预处理包括以下至少任一:字体变换处理、字体大小缩放处理、字体灰度处理、字体模糊处理、字体透视处理和字体拉伸处理。
作为优选方案,所述将所述待检测文本与预设的违规关键字字典中的关键字进行比对,获得所述待识别图像对应的识别结果,具体为:
将所述待检测文本与预设违规关键字字典中的关键字进行比对;
若所述预设违规关键字字典中存在所述待检测文本,则将所述待识别图像标记为不合格图像;
若所述预设违规关键字字典中不存在所述待检测文本,则将所述待识别图像标记为合格图像,并将所述待检测文本作为所述待识别图像的最终识别结果。
相应地,本发明还提供一种图像中的文本识别***,包括:
文本定位模块,用于基于预设的文本检测模型,提取待识别图像中的N个文本定位区域,对应获得N个待合并文本定位框;其中,每个所述待合并文本定位框为所述待识别图像中对应的文本定位区域的区域轮廓;
文本定位框处理模块,用于根据每个所述待合并文本定位框的顶点坐标,对所有所述待合并文本定位框进行合并,获得K个待检测文本定位框;其中, N≥K≥1;
文本识别模块,用于基于预设的文本识别模型,识别所有所述待检测文本定位框中的文本,获得待检测文本;
图片识别模块,用于将所述待检测文本与预设的违规关键字字典中的关键字进行比对,获得所述待识别图像对应的识别结果。
实施本发明实施例,具有如下有益效果:
本发明实施例提供的图像中的文本识别方法,该方法先通过文本检测模型,提取待识别图像中的N个文本定位区域,对应获得N个待合并文本定位框;其中,每个待合并文本定位框为待识别图像中对应的文本定位区域的区域轮廓;根据每个待合并文本定位框的顶点坐标,对所有待合并文本定位框进行合并,获得K个待检测文本定位框;其中,N≥K≥1;基于文本识别模型,识别所有待检测文本定位框中的文本,获得待检测文本;将待检测文本与预设的违规关键字字典中的关键字进行比对,获得待识别图像对应的识别结果;相比于现有的光学字符识别方法,本发明技术方案主要针对图像中的文本检测,文本识别的准确率高,且本发明技术方案不仅通过文本检测模型提取待识别图像中的定位框,缩小识别范围,减少文本识别时间,提高文本识别的效率,还将待合并文本定位框进行合并,减少识别次数,进一步降低文本识别时间,提高文本识别效率。
附图说明
图1是本发明提供的图像中的文本识别方法的一个优选实施例的流程示意图;
图2是本发明提供的待合并文本定位框获取方法的流程示意图;
图3是本发明提供的预设的文本识别模型的结构示意图;
图4是本发明提供的待识别图像以及待识别图像对应的识别结果的示意图;
图5是本发明提供的图像中的文本识别***的一个优选实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种图像中的文本识别方法,参见图1所示,是本发明提供的一种图像中的文本识别方法的一个优选实施例的流程示意图,该方法包括步骤101至步骤104,各步骤具体如下:
步骤101:基于预设的文本检测模型,提取待识别图像中的N个文本定位区域,对应获得N个待合并文本定位框;其中,每个待合并文本定位框为待识别图像中的每个文本定位区域的区域轮廓。
在其中一种优选实施例中,文本检测模型包括残差网络和分割网络;则,基于预设的文本检测模型,提取待识别图像中的N个文本定位区域,对应获得 N个待合并文本定位框,具体为:通过残差网络对待识别图像进行层级特征提取,获得若干种尺寸的特征图;通过分割网络将所有特征图进行融合,获得待分割图像;对待分割图像进行非极大值抑制处理,获得N个文本定位区域,对应获得N个待合并文本定位框。
在本实施例中,残差网络用于图像的特征提取;其中,残差网络包括若干层卷积层,其中,第i层卷积层的尺寸是第i+1层卷积层的尺寸的两倍,第i层卷积层的卷积核是第i+1层卷积层的卷积核的二分之一;i为≥0的整数;则,通过残差网络对待识别图像进行层级特征提取,获得若干种尺寸的特征图,具体为:将待识别图像分别输入到每层卷积层中进行特征提取,获得若干种尺寸的特征图。
譬如,残差网络包括五层卷积层,分别为第一卷积层Conv_1、第二卷积层 Conv_2、第三卷积层Conv_3、第四卷积层Conv_4、第五卷积层Conv_5,可参见图2,卷积层的尺寸依次减半,卷积核的数量依次增倍,通过这种方式可以抽取5种尺寸的特征图,以实现不同尺度文本行的检测;第i层卷积层相对于第i+1 层卷积层感受野小,特征图大,与第i+1层卷积层相比第i层卷积层擅长检测小物体。
在本实施例中,分割网络将前面抽取的特征图按照一定的规则进行合并,其主要作用是实现图像特征的融合,特征提取层中抽取的最后一层(例如图2 中的第五卷积层)的特征图被最先送入上采样层(Up sampling),将图像放大1 倍,接着与前一层(第四卷积层)的特征图串起来(concat),然后依次作卷积核大小为1x1,3x3的卷积对第三卷积层、第二卷积层重复以上过程,而卷积核的个数逐层递减,依次为128,64,32最后经过32核,3x3卷积后将结果输出,获得待分割图像。
在本实施例中,通过残差网络实现多尺度的文本检测,提升文本定位框的定位精度,从而提高文本识别的准确率;通过分割网络将其特征图的融合,使得获取的待分割图像的准确度更高,从而提高文本识别的准确率。
在其中一种优选实施例中,通过以下步骤预先构建文本检测模型:通过标记工具对待训练图像中的文本框进行标记,获得文本框的顶点坐标;将待训练图像与待训练图像对应的文本框的顶点坐标输入到第一深度学习网络模型中,以构建待优化的文本检测模型;其中,第一深度学习网络模型包括残差网络和分割网络,残差网络由ResNet50构成,分割网络由Unet构成;利用第一损失函数反向训练待优化的文本检测模型,获得预设的文本检测模型;其中,第一损失函数包括分图在文本内的损失、文本边界与起始点的损失和文本回归坐标点损失。
在本实施例中,利用标记工具使用roLabelImg对待训练图像进行标记,标记后的每张待训练图像会生成对应的xml文件,将其文本定位框的坐标点转换为以左上角点为起始点,顺时针排列的四个点集,获得文本框的顶点坐标,其中,文本定位框为矩形框。
在本实施例中,第一损失函数用于度量神经网络的输出的预测值,与实际值之间的差距的一种方式,最后用于反向求导更新模型参数,其中,分图在文本内的损失(inside_score)的计算公式如下:
Figure RE-GDA0002607899600000071
Figure RE-GDA0002607899600000072
其中,
Figure RE-GDA0002607899600000073
是模型输出的得分图,Y*是真实标签。
文本边界与起始点的损失(side_vertex_code)的计算公式如下:
Figure RE-GDA0002607899600000074
Figure RE-GDA0002607899600000075
Figure RE-GDA0002607899600000076
其中,
Figure RE-GDA0002607899600000077
是模型输出的文本边界信息值,V*是真实标记边界信息值,pos_weights为0,1矩阵,1代表像素在文本内,0代表在文本外。
文本回归坐标点损失(smoothl1)的计算公式如下:
Figure RE-GDA0002607899600000081
其中,x为预测值与真实值的差。
在其中一种优选实施例中,在获得N个待合并文本定位框之后,还包括:判断每个待合并文本定位框的内角是否等于90°;若任一待合并文本定位框的内角不等于90°,则通过仿射变换技术将该待合并文本定位框的内角矫正为 90°;若任一待合并文本定位框的内角等于90°,则不对该待合并文本定位框进行矫正。
在本实施例中,通过对待合并文本框进行矫正,能够更好的文本框中的文字进行识别,提高文字识别结果的准确率。
步骤102:根据每个待合并文本定位框的顶点坐标,对所有待合并文本定位框进行合并,获得K个待检测文本定位框;其中,N≥K≥1。
对于第j个待合并文本定位框,计算第j个待合并文本定位框与相邻的第j+1 个待合并文本定位框的横轴坐标值之差和纵轴坐标值之差;其中,j=1,2,..., N;判断纵轴坐标值之差是否小于5;若纵轴坐标值之差小于5,则判断横轴坐标值之差是否小于20;若横轴坐标值之差小于20,则将第j个待合并文本定位框和第j+1个待合并文本定位框进行合并,获得待检测文本定位框;若纵轴坐标值之差大于5或横轴坐标值之差大于20,则将第j个待合并文本定位框和第j+1 个待合并文本定位框分别标记为待检测文本定位框。
在本实施例中,将待合并文本定位框进行合并,减少识别次数,降低文本识别时间,从而提高文本识别效率。
步骤103:基于预设的文本识别模型,识别所有待检测文本定位框中的文本,获得待检测文本。
在其中一种优选实施例中,预设的文本识别模型的构建方法如下:对待处理文本进行预处理,获得待训练文本;将待训练文本与待训练文本对应的识别结果输入到第二深度学习网络模型中,以构建待优化的文本识别模型;其中,第二深度学习网络模型包括卷积层、第一稠密块、第一过度层、第二稠密块、第二过度层、第三稠密块和转换层;利用第二损失函数反向训练待优化的文本识别模型,获得预设的文本识别模型;其中,第二损失函数由CTC算法组成。
在本实施例中,待训练文本集的制作的步骤如下:收集待处理文本,其中待处理文本的获取来源包括新闻、文言文,对待处理文本进行预处理,其中预处理包括以下至少任一:字体变换处理、字体大小缩放处理、字体灰度处理、字体模糊处理、字体透视处理和字体拉伸处理;最后生成包含汉字、英文字母、数字和标点工5990个字符,每个样本固定十个字符,字符随机截取语料库中的句子,共约364万张图片,图片分辨率统一为280*32,按照99:1划分成训练集和验证集。需说明的是,通过对待处理文本进行预处理,能够对艺术字体进行提取,从而提高文字识别结果的准确度。
在本实施例中,第二深度学***均池化层。为了缓解网络模型过拟合,在卷积层后添加了dropout层。
在本实施例中,Dense Block中每个卷积层的输出feature map(特征图)的数量都比较小,而不是像其他网络一样动不动就几百上千的宽度。同时这种连接方式使得特征和梯度的传递更加有效,网络也就更加容易训练有效的减轻了梯度消失的问题,加强了特征的传递。transitionLayer的作用在于将传给下一个 Dense Block的时候channel数量就会减少压缩在一定的范围,从而减少计算量。 Relu是一种激活函数,线性模型的表达能力不够,激活函数增加神经网络模型的非线性,提升神经网络模型表达能力。Liear是这种线性变换操作,在本实施例中是为了转换成CTC算法的接口输入格式。需说明的是,通过transitionLayer 减少计算量,能够有效减少文本的识别时间,提高文本识别效率。
在本实施例中,利用CTC算法进行处理序列标注问题中的输入与输出标签的对齐问题,以此为损失函数,通过反向求导对神经网络模型进行训练。需说明的是,利用CTC算法使得相同字符只需输出序列相同即可,不要求每个字符一一对齐,例如检测state这个单词,网络最后输出的是ss_t_aa__te,或者 __s_tt_ate(_代表空格),其实他们都是state,CTC loss不管对齐样式是什么样的,宽的或窄的,相同字符只需输出序列相同即可,不要求每个字符一一对齐,从而快速输出结果,进而提高模型的识别效率。
步骤104:将待检测文本与预设的违规关键字字典中的关键字进行比对,获得待识别图像对应的识别结果。
在其中一种优选实施例中,将待检测文本与预设违规关键字字典中的关键字进行比对,若预设违规关键字字典中存在待检测文本,则将待识别图像标记为不合格图像;若预设违规关键字字典中不存在待检测文本,则将待识别图像标记为合格图像,并将待检测文本作为待识别图像的最终识别结果。
在本实施例中,将待检测文本与预设违规字典的关键词进行比对,能够对海量的社交图片进行初步的筛选,过滤违规图片,能够极大的降低人工成本提升鉴别图片的效率。
由上可见,本发明实施例提供的图像中的文本识别方法,该方法先通过文本检测模型,提取待识别图像中的N个文本定位区域,对应获得N个待合并文本定位框;其中,每个待合并文本定位框为待识别图像中对应的文本定位区域的区域轮廓;根据每个待合并文本定位框的顶点坐标,对所有待合并文本定位框进行合并,获得K个待检测文本定位框;其中,N≥K≥1;基于文本识别模型,识别所有待检测文本定位框中的文本,获得待检测文本;将待检测文本与预设的违规关键字字典中的关键字进行比对,获得待识别图像对应的识别结果;相比于现有的光学字符识别方法,本发明技术方案主要针对图像中的文本检测,文本识别的准确率高,且本发明技术方案不仅通过文本检测模型提取待识别图像中的定位框,缩小识别范围,减少文本识别时间,提高文本识别的效率,还将待合并文本定位框进行合并,减少识别次数,进一步降低文本识别时间,提高文本识别效率。
参见图4所示,是本发明提供的一种图像中的文本识别***的一个优选实施例的结构示意图,该***包括文本定位模块201、文本定位框处理模块202、文本识别模块203、图片识别模块204;
文本定位模块201,用于基于预设的文本检测模型,提取待识别图像中的N 个文本定位区域,对应获得N个待合并文本定位框;其中,每个待合并文本定位框为待识别图像中对应的文本定位区域的区域轮廓;
文本定位框处理模块202,用于根据每个待合并文本定位框的顶点坐标,对所有待合并文本定位框进行合并,获得K个待检测文本定位框;其中,N≥K≥ 1;
文本识别模块203,用于基于预设的文本识别模型,识别所有待检测文本定位框中的文本,获得待检测文本;
图片识别模块204,用于将待检测文本与预设的违规关键字字典中的关键字进行比对,获得待识别图像对应的识别结果。
优选地,所述文本检测模型包括残差网络和分割网络;则,所述文本定位模块201具体包括:
图像特征提取与融合单元,用于通过残差网络对待识别图像进行层级特征提取,获得若干种尺寸的特征图;通过分割网络将所有特征图进行融合,获得待分割图像;
文本定位单元,用于对待分割图像进行非极大值抑制处理,获得N个文本定位区域,对应获得N个待合并文本定位框。
优选地,所述残差网络包括若干层卷积层;其中,第i层卷积层的尺寸是第 i+1层卷积层的尺寸的两倍,第i层卷积层的卷积核是第i+1层卷积层的卷积核的二分之一;i为≥0的整数;则,所述图像特征提取与融合单元具体用于:
将待识别图像分别输入到每层卷积层中进行特征提取,获得若干种尺寸的特征图。
优选地,所述***还包括文本检测模型构建模块;所述文本检测模型构建模块具体包括:
文本标记单元,用于通过标记工具对待训练图像中的文本框进行标记,获得文本框的顶点坐标;
文本检测模型训练单元,用于将待训练图像与待训练图像对应的文本框的顶点坐标输入到第一深度学习网络模型中,以构建待优化的文本检测模型;其中,第一深度学习网络模型包括残差网络和分割网络;
文本检测模型优化单元,用于利用第一损失函数反向训练待优化的文本检测模型,获得文本检测模型;其中,第一损失函数包括分图在文本内的损失、文本边界与起始点的损失和文本回归坐标点损失。
优选地,所述文本定位框处理模块202具体包括:
计算单元,用于对于第j个待合并文本定位框,计算第j个待合并文本定位框与相邻的第j+1个待合并文本定位框的横轴坐标值之差和纵轴坐标值之差;其中,j=1,2,...,N;
第一判断单元,用于判断纵轴坐标值之差是否小于第一预设阈值;
第二判断单元,用于若纵轴坐标值之差小于第一预设阈值,则判断横轴坐标值之差是否小于第二预设阈值;
第一执行单元,用于若横轴坐标值之差小于第二阈值,则将第j个待合并文本定位框和第j+1个待合并文本定位框进行合并,获得待检测文本定位框;
第二执行单元,用于若纵轴坐标值之差大于第一预设阈值或横轴坐标值之差大于第二预设阈值,则将第j个待合并文本定位框和第j+1个待合并文本定位框分别标记为待检测文本定位框。
优选地,所述***还包括文本定位框矫正模块;所述文本定位框矫正模块具体用于:
判断每个待合并文本定位框的内角是否等于90°;
若任一待合并文本定位框的内角不等于90°,则通过仿射变换技术将该待合并文本定位框的内角矫正为90°;
若任一待合并文本定位框的内角等于90°,则不对该待合并文本定位框进行矫正。
优选地,所述***还包括文本识别模型构建模块;所述文本识别模型构建模块具体包括:
文本预处理单元,用于对待处理文本进行预处理,获得待训练文本;
文本识别模型训练单元,用于将待训练文本与待训练文本对应的识别结果输入到第二深度学习网络模型中,以构建待优化的文本识别模型;其中,第二深度学习网络模型包括卷积层、第一稠密块、第一过度层、第二稠密块、第二过度层、第三稠密块和转换层;
文本识别模型优化单元,用于利用第二损失函数反向训练待优化的文本识别模型,获得文本识别模型;其中,第二损失函数由CTC算法组成。
优选地,所述预处理包括以下至少任一:字体变换处理、字体大小缩放处理、字体灰度处理、字体模糊处理、字体透视处理和字体拉伸处理。
优选地,所述图片识别模块204具体包括:
比对单元,用于将待检测文本与预设违规关键字字典中的关键字进行比对;
第一标记单元,用于若预设违规关键字字典中存在待检测文本,则将待识别图像标记为不合格图像;
第二标记单元,用于若预设违规关键字字典中不存在待检测文本,则将待识别图像标记为合格图像,并将待检测文本作为待识别图像的最终识别结果。
本实施例更详细的工作原理和流程可以但不限于第一实施例的图像中的文本识别方法。
由上可见,本发明技术方案主要针对图像中的文本检测,文本识别的准确率高,且本发明技术方案不仅通过文本检测模型提取待识别图像中的定位框,缩小识别范围,减少文本识别时间,提高文本识别的效率,还将待合并文本定位框进行合并,减少识别次数,进一步降低文本识别时间,提高文本识别效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种图像中的文本识别方法,其特征在于,包括:
基于预设的文本检测模型,提取待识别图像中的N个文本定位区域,对应获得N个待合并文本定位框;其中,每个所述待合并文本定位框为所述待识别图像中对应的文本定位区域的区域轮廓;
根据每个所述待合并文本定位框的顶点坐标,对所有所述待合并文本定位框进行合并,获得K个待检测文本定位框;其中,N≥K≥1;
基于预设的文本识别模型,识别所有所述待检测文本定位框中的文本,获得待检测文本;
将所述待检测文本与预设的违规关键字字典中的关键字进行比对,获得所述待识别图像对应的识别结果。
2.如权利要求1所述的图像中的文本识别方法,其特征在于,所述文本检测模型包括残差网络和分割网络;则,所述基于预设的文本检测模型,提取待识别图像中的N个文本定位区域,对应获得N个待合并文本定位框,具体为:
通过所述残差网络对所述待识别图像进行层级特征提取,获得若干种尺寸的特征图;
通过所述分割网络将所有所述特征图进行融合,获得待分割图像;
对所述待分割图像进行非极大值抑制处理,获得N个所述文本定位区域,对应获得N个所述待合并文本定位框。
3.如权利要求2所述的图像中的文本识别方法,其特征在于,所述残差网络包括若干层卷积层;其中,第i层卷积层的尺寸是第i+1层卷积层的尺寸的两倍,第i层卷积层的卷积核是第i+1层卷积层的卷积核的二分之一;i为≥0的整数;则,所述通过所述残差网络对所述待识别图像进行层级特征提取,获得若干种尺寸的特征图,具体为:
将所述待识别图像分别输入到每层所述卷积层中进行特征提取,获得若干种尺寸的特征图。
4.如权利要求1所述的图像中的文本识别方法,其特征在于,所述方法通过以下步骤预先构建所述文本检测模型:
通过标记工具对待训练图像中的文本框进行标记,获得文本框的顶点坐标;
将所述待训练图像与所述待训练图像对应的文本框的顶点坐标输入到第一深度学习网络模型中,以构建待优化的文本检测模型;其中,所述第一深度学习网络模型包括残差网络和分割网络;
利用第一损失函数反向训练所述待优化的文本检测模型,获得所述文本检测模型;其中,所述第一损失函数包括分图在文本内的损失、文本边界与起始点的损失和文本回归坐标点损失。
5.如权利要求1所述的图像中的文本识别方法,其特征在于,所述根据每个所述待合并文本定位框的顶点坐标,对所有所述待合并文本定位框进行合并,获得K个待检测文本定位框,具体为:
对于第j个待合并文本定位框,计算第j个待合并文本定位框与相邻的第j+1个待合并文本定位框的横轴坐标值之差和纵轴坐标值之差;其中,j=1,2,...,N;
判断所述纵轴坐标值之差是否小于第一预设阈值;
若所述纵轴坐标值之差小于第一预设阈值,则判断所述横轴坐标值之差是否小于第二预设阈值;
若所述横轴坐标值之差小于第二阈值,则将所述第j个待合并文本定位框和所述第j+1个待合并文本定位框进行合并,获得所述待检测文本定位框;
若所述纵轴坐标值之差大于第一预设阈值或所述横轴坐标值之差大于第二预设阈值,则将所述第j个待合并文本定位框和所述第j+1个待合并文本定位框分别标记为所述待检测文本定位框。
6.如权利要求1所述的图像中的文本识别方法,其特征在于,在获得所述N个待合并文本定位框之后,还包括:
判断每个所述待合并文本定位框的内角是否等于90°;
若任一所述待合并文本定位框的内角不等于90°,则通过仿射变换技术将该待合并文本定位框的内角矫正为90°;
若任一所述待合并文本定位框的内角等于90°,则不对该待合并文本定位框进行矫正。
7.如权利要求1所述的图像中的文本识别方法,其特征在于,所述方法通过以下步骤预先构建所述文本识别模型:
对待处理文本进行预处理,获得待训练文本;
将所述待训练文本与所述待训练文本对应的识别结果输入到第二深度学习网络模型中,以构建待优化的文本识别模型;其中,所述第二深度学习网络模型包括卷积层、第一稠密块、第一过度层、第二稠密块、第二过度层、第三稠密块和转换层;
利用第二损失函数反向训练所述待优化的文本识别模型,获得所述文本识别模型;其中,所述第二损失函数由CTC算法组成。
8.如权利要求7所述的图像中的文本识别方法,其特征在于,所述预处理包括以下至少任一:字体变换处理、字体大小缩放处理、字体灰度处理、字体模糊处理、字体透视处理和字体拉伸处理。
9.如权利要求1所述的图像中的文本识别方法,其特征在于,所述将所述待检测文本与预设的违规关键字字典中的关键字进行比对,获得所述待识别图像对应的识别结果,具体为:
将所述待检测文本与预设违规关键字字典中的关键字进行比对;
若所述预设违规关键字字典中存在所述待检测文本,则将所述待识别图像标记为不合格图像;
若所述预设违规关键字字典中不存在所述待检测文本,则将所述待识别图像标记为合格图像,并将所述待检测文本作为所述待识别图像的最终识别结果。
10.一种图像中的文本识别***,其特征在于,包括:
文本定位模块,用于基于预设的文本检测模型,提取待识别图像中的N个文本定位区域,对应获得N个待合并文本定位框;其中,每个所述待合并文本定位框为所述待识别图像中对应的文本定位区域的区域轮廓;
文本定位框处理模块,用于根据每个所述待合并文本定位框的顶点坐标,对所有所述待合并文本定位框进行合并,获得K个待检测文本定位框;其中,N≥K≥1;
文本识别模块,用于基于预设的文本识别模型,识别所有所述待检测文本定位框中的文本,获得待检测文本;
图片识别模块,用于将所述待检测文本与预设的违规关键字字典中的关键字进行比对,获得所述待识别图像对应的识别结果。
CN202010309711.2A 2020-04-17 2020-04-17 一种图像中的文本识别方法及*** Pending CN111666937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010309711.2A CN111666937A (zh) 2020-04-17 2020-04-17 一种图像中的文本识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010309711.2A CN111666937A (zh) 2020-04-17 2020-04-17 一种图像中的文本识别方法及***

Publications (1)

Publication Number Publication Date
CN111666937A true CN111666937A (zh) 2020-09-15

Family

ID=72382756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010309711.2A Pending CN111666937A (zh) 2020-04-17 2020-04-17 一种图像中的文本识别方法及***

Country Status (1)

Country Link
CN (1) CN111666937A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257708A (zh) * 2020-10-22 2021-01-22 润联软件***(深圳)有限公司 一种字符级文本检测方法、装置、计算机设备及存储介质
CN112329777A (zh) * 2021-01-06 2021-02-05 平安科技(深圳)有限公司 基于方向检测的文字识别方法、装置、设备及介质
CN112633283A (zh) * 2021-03-08 2021-04-09 广州市玄武无线科技股份有限公司 一种英文邮件地址的识别与翻译方法及***
CN112990220A (zh) * 2021-04-19 2021-06-18 烟台中科网络技术研究所 一种图像中目标文本智能识别方法及***
CN113723401A (zh) * 2021-08-23 2021-11-30 上海千映智能科技有限公司 一种基于形态学方法的歌单提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635627A (zh) * 2018-10-23 2019-04-16 中国平安财产保险股份有限公司 图片信息提取方法、装置、计算机设备及存储介质
CN110245545A (zh) * 2018-09-26 2019-09-17 浙江大华技术股份有限公司 一种文字识别方法及装置
CN110853648A (zh) * 2019-10-30 2020-02-28 广州多益网络股份有限公司 一种不良语音检测方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245545A (zh) * 2018-09-26 2019-09-17 浙江大华技术股份有限公司 一种文字识别方法及装置
CN109635627A (zh) * 2018-10-23 2019-04-16 中国平安财产保险股份有限公司 图片信息提取方法、装置、计算机设备及存储介质
CN110853648A (zh) * 2019-10-30 2020-02-28 广州多益网络股份有限公司 一种不良语音检测方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257708A (zh) * 2020-10-22 2021-01-22 润联软件***(深圳)有限公司 一种字符级文本检测方法、装置、计算机设备及存储介质
CN112329777A (zh) * 2021-01-06 2021-02-05 平安科技(深圳)有限公司 基于方向检测的文字识别方法、装置、设备及介质
CN112329777B (zh) * 2021-01-06 2021-05-04 平安科技(深圳)有限公司 基于方向检测的文字识别方法、装置、设备及介质
CN112633283A (zh) * 2021-03-08 2021-04-09 广州市玄武无线科技股份有限公司 一种英文邮件地址的识别与翻译方法及***
CN112990220A (zh) * 2021-04-19 2021-06-18 烟台中科网络技术研究所 一种图像中目标文本智能识别方法及***
CN113723401A (zh) * 2021-08-23 2021-11-30 上海千映智能科技有限公司 一种基于形态学方法的歌单提取方法

Similar Documents

Publication Publication Date Title
CN111723585B (zh) 一种风格可控的图像文本实时翻译与转换方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN111666937A (zh) 一种图像中的文本识别方法及***
Robby et al. Implementation of optical character recognition using tesseract with the javanese script target in android application
CN110490081B (zh) 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法
CN110647829A (zh) 一种票据的文本识别方法及***
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN112613502A (zh) 文字识别方法及装置、存储介质、计算机设备
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及***
CN110674777A (zh) 一种专利文本场景下的光学字符识别方法
CN113537227B (zh) 一种结构化文本识别方法及***
Naseer et al. Meta features-based scale invariant OCR decision making using LSTM-RNN
CN112926565B (zh) 图片文本的识别方法、***、设备和存储介质
CN111985525A (zh) 基于多模态信息融合处理的文本识别方法
CN111523622A (zh) 基于特征图像自学习的机械臂模拟手写笔迹方法
Tang et al. HRCenterNet: An anchorless approach to Chinese character segmentation in historical documents
Sharma et al. Primitive feature-based optical character recognition of the Devanagari script
Hemanth et al. CNN-RNN BASED HANDWRITTEN TEXT RECOGNITION.
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
Singh et al. A comprehensive survey on Bangla handwritten numeral recognition
Pornpanomchai et al. Printed Thai character recognition by genetic algorithm
CN108334884B (zh) 一种基于机器学习的手写文档检索方法
Cui et al. Chinese calligraphy recognition system based on convolutional neural network
Li et al. Webpage saliency prediction with two-stage generative adversarial networks
Iskandar et al. The Application of Image Processing for Conversion of Handwritten Mathematical Expression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination