CN114155541A - 一种文字识别方法、装置、终端设备及存储介质 - Google Patents

一种文字识别方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN114155541A
CN114155541A CN202111354701.1A CN202111354701A CN114155541A CN 114155541 A CN114155541 A CN 114155541A CN 202111354701 A CN202111354701 A CN 202111354701A CN 114155541 A CN114155541 A CN 114155541A
Authority
CN
China
Prior art keywords
character
area
image
text
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111354701.1A
Other languages
English (en)
Inventor
黄迪臻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Lianzhou International Technology Co Ltd
Original Assignee
Shenzhen Lianzhou International Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Lianzhou International Technology Co Ltd filed Critical Shenzhen Lianzhou International Technology Co Ltd
Priority to CN202111354701.1A priority Critical patent/CN114155541A/zh
Publication of CN114155541A publication Critical patent/CN114155541A/zh
Priority to US17/987,862 priority patent/US20230154217A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1452Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on positionally close symbols, e.g. amount sign or URL-specific characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1916Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种文字识别方法、装置、终端设备及存储介质,所述文字识别方法包括:获取样本文字数据集,对样本文字数据集进行预处理,生成标签图像;将标签图像输入文字识别模型进行训练,使用卷积层提取图像特征,使用池化层进行降采样,使用上采样层或反卷积层还原图像分辨率,最后一层使用sigmoid层将输出概率归一化以输出多个尺度的预测图,并对所述文字识别模型的损失函数进行优化,得到训练好的文字识别模型;将待识别文字图像进行预处理后输入到训练好的文字识别模型,输出清晰尺度的预测图;对清晰尺度的预测图进行解析,得到待识别文字图像的文字序列。本发明通过一个全卷积神经网络实现端到端的文字识别,过程简单、运算量小、准确度高。

Description

一种文字识别方法、装置、终端设备及存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种文字识别方法、装置、终端设 备及存储介质。
背景技术
文字识别是以数字图像处理、模式识别、计算机视觉等技术为基础,利用光 学技术和计算机技术把图像中存在的文字序列读取出来,并转换成一种计算机能 够接受、人又可以理解的格式。文字识别广泛应用在生活中,其应用场景包括了 识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识 别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试 卷、识别单据等等。
传统的文字识别方法,其过程一般包括:图像预处理、文本区域定位、文本 字符分割、文字识别、文本后处理等步骤,过程繁琐,且每一步的效果都会对后 面步骤的效果造成影响;同时,传统方法在光照不均匀、图片模糊等情况下,需 要一些复杂的预处理手段以保证文字识别效果,运算量较大。深度学习方法的文 字识别过程仍然包括文本区域定位和文字识别的步骤,过程繁琐,且需要训练两 个神经网络才能实现最终的识别效果,运算量较大。
发明内容
本发明实施例所要解决的技术问题在于,提供一种文字识别方法、装置、终 端设备及存储介质,通过一个全卷积神经网络实现端到端的文字识别,过程简单、 运算量小、准确度高。
为了实现上述目的,本发明实施例提供了一种文字识别方法,包括:
获取样本文字数据集,并对所述样本文字数据集中的每一个文字图像进行预 处理;其中,所述样本文字数据集包括文字位置、文字中各字符的位置以及字符 类别;
根据预处理后的文字图像生成标签图像,所述标签图像包括文字区域、文字 边界区域、字符区域、字符边界区域和字符类别,对所述文字边界区域和所述字 符边界区域进行扩散标注;
将所述标签图像输入文字识别模型进行训练,使用卷积层提取图像特征,使 用池化层进行降采样,使用上采样层或反卷积层还原图像分辨率,最后一层使用 sigmoid层将输出概率归一化以输出多个尺度的预测图,并使用优化器对所述文 字识别模型的损失函数进行优化,得到训练好的文字识别模型;
将待识别文字图像进行预处理后输入到训练好的文字识别模型,由所述训练 好的文字识别模型输出清晰尺度的预测图;
对所述清晰尺度的预测图进行解析,得到所述待识别文字图像的文字序列。
作为上述方案的改进,所述对所述文字边界区域和所述字符边界区域进行扩 散标注具体为:
设m(x,y)为边界点,对任一点p(x,y),存在距离点p最近的边界点为:
Figure BDA0003356971010000021
则标注公式为:
Figure BDA0003356971010000022
其中,T为距离阈值,Vmax和Vmin表示设定的经验值,位于边界正中心 的像素点标签值为Vmax,位于边界周围的像素点标签值在Vmin~Vmax之间。
作为上述方案的改进,所述多个尺度的预测图包括清晰尺度预测图和模糊尺 度预测图,其中,所述清晰尺度预测图包括文字区域、文字边界区域、字符区域、 字符边界区域和字符类别,所述模糊尺度预测图包括文字区域、文字字符区域和 字符类别。
作为上述方案的改进,所述文字识别模型的损失函数包括文字区域的损失、 字符区域的损失和字符类别的损失,其中:
文字区域的损失包括文字区域的损失和文字边界区域的损失,即:
La=λpLppbLpb
其中,La为文字区域总的损失,Lp为文字区域的交叉熵损失,Lpb为文字边 界区域的交叉熵损失,λp和λpb分别为文字区域、文字边界区域损失的权重;
字符区域的损失包括字符区域的损失和字符边界区域的损失,即:
Lb=λchLchchbLchb
其中,Lb为字符区域总的损失,Lch为字符区域的交叉熵损失,Lchb为字符边 界区域的交叉熵损失,λch和λchb分别为字符区域和字符边界区域损失的权重;
字符类别的损失为:Lc=Lcls
则所述文字识别模型的损失函数为L=λaLabLbcLc
作为上述方案的改进,所述对所述清晰尺度的预测图进行解析,得到所述待 识别文字图像的文字序列,具体包括:
根据文字区域预测图和文字边界区域预测图对文字框进行解析,得到文字区 域;
根据字符区域预测图和字符边界预测图对所述文字区域中的字符框进行解 析,得到字符区域;
将所述字符区域中概率最大的字符类别作为该像素点的类别,统计像素数目 最多的字符类别,作为该字符框的最终字符类别;
根据字符位置连接字符得到所述待识别文字图像的文字序列。
作为上述方案的改进,所述根据文字区域预测图和文字边界区域预测图对文 字框进行解析,得到文字区域,具体包括:
根据文字区域预测图和文字边界区域预测图对文字框进行解析,将满足 ω1p12p2>T的像素点置为1,得到第一二值图;其中,ω1、ω2均为设定的权重, p1∈[0,1]为文字区域预测概率,p2∈[0,1]为文字边界区域预测概率,T∈[0,1]为设定 的阈值;
对所述第一二值图中像素值为1的像素点进行领域连接,得到多个连接单元, 选取面积最大的连接单元的最小包围矩形框作为文字区域。
作为上述方案的改进,所述根据字符区域预测图和字符边界预测图对所述文 字区域中的字符框进行解析,得到字符区域,具体包括:
根据字符区域预测图和字符边界区域预测图对所述文字区域中的字符框进 行解析,将满足ω3p34p4>T的像素点置为1,得到第二二值图;其中,ω3、ω4均 为设定的权重,p3∈[0,1]为字符区域预测概率,p4∈[0,1]为字符边界区域预测概率, T∈[0,1]为设定的阈值;
对所述第二二值图中像素值为1的像素点进行领域连接,得到多个连接单元, 选取多个满足字符区域要求的连接体的最小包围矩形框作为字符区域。
本发明实施例还提供了一种文字识别装置,包括:
样本文字数据集获取模块,用于获取样本文字数据集,并对所述样本文字数 据集中的每一个文字图像进行预处理;其中,所述样本文字数据集包括文字位置、 文字中各字符的位置以及字符类别;
标签图像生成模块,用于根据预处理后的文字图像生成标签图像,所述标签 图像包括文字区域、文字边界区域、字符区域、字符边界区域和字符类别,对所 述文字边界区域和所述字符边界区域进行扩散标注;
文字识别模型训练模块,用于将所述标签图像输入文字识别模型进行训练, 使用卷积层提取图像特征,使用池化层进行降采样,使用上采样层或反卷积层还 原图像分辨率,最后一层使用sigmoid层将输出概率归一化以输出多个尺度的预 测图,并使用优化器对所述文字识别模型的损失函数进行优化,得到训练好的文 字识别模型;
预测图输出模块,用于将待识别文字图像进行预处理后输入到训练好的文字 识别模型,由所述训练好的文字识别模型输出清晰尺度的预测图;
文字序列输出模块,用于对所述清晰尺度的预测图进行解析,得到所述待识 别文字图像的文字序列。
本发明实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述 存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算 机程序时实现上述任一项所述的文字识别方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质 包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存 储介质所在设备执行上述任一项所述的文字识别方法。
相对于现有技术,本发明实施例提供的一种文字识别方法、装置、终端设备 及存储介质的有益效果在于:通过一个全卷积神经网络实现端到端的文字识别, 过程简单、运算量小、准确度高。训练阶段联合文字区域、字符区域、字符类别、 文字边界、字符边界进行训练,能够结合更多的上下文信息,从而获得更好的识 别效果。预测阶段只需要将待识别图像输入网络,网络输出预测概率图后,进行 解析即可得出文字序列。
附图说明
图1是本发明提供的一种文字识别方法的一个优选实施例的流程示意图;
图2是本发明提供的一种文字识别方法的一个优选实施例中网络结构的示意 图;
图3是本发明提供的一种文字识别装置的一个优选实施例的结构示意图;
图4是本发明提供的一种终端设备的一个优选实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、 完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的 实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前 提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1是本发明提供的一种文字识别的一个优选实施例的流程示 意图。所述文字识别方法,包括:
S1,获取样本文字数据集,并对所述样本文字数据集中的每一个文字图像进 行预处理;其中,所述样本文字数据集包括文字位置、文字中各字符的位置以及 字符类别;
S2,根据预处理后的文字图像生成标签图像,所述标签图像包括文字区域、 文字边界区域、字符区域、字符边界区域和字符类别,对所述文字边界区域和所 述字符边界区域进行扩散标注;
S3,将所述标签图像输入文字识别模型进行训练,使用卷积层提取图像特征, 使用池化层进行降采样,使用上采样层或反卷积层还原图像分辨率,最后一层使 用sigmoid层将输出概率归一化以输出多个尺度的预测图,并使用优化器对所述 文字识别模型的损失函数进行优化,得到训练好的文字识别模型;
S4,将待识别文字图像进行预处理后输入到训练好的文字识别模型,由所述 训练好的文字识别模型输出清晰尺度的预测图;
S5,对所述清晰尺度的预测图进行解析,得到所述待识别文字图像的文字序 列。
具体的,本实施例获取样本文字数据集,该样本文字数据集包括文字位置 (x0,y0,w0,h0)、文字中各字符的位置(xi,yi,wi,hi)以及字符类别,(x,y)为文字矩形框 的左上点,w为矩形框的宽,h为矩形框的高,i∈{1,2,...,N},N为文字序列的字 符数目。对样本文字数据集中的每一个文字图像进行预处理,预处理包括尺寸归 一化和像素值标准化。
尺寸归一化具体包括:将样本文字数据集中的所有文字图像缩放到统一的尺 寸;对缩放后的所述文字图像的文字位置和文字中各字符的位置进行缩放处理, 如下:
x=xSw
y=ySh
w=wSw
h=hSh
其中,Sw、Sh分别为水平方向和竖直方向的缩放因子。
缩放图像过程中的图像插值方法包括:最近邻方法、双线性插值、双三次插 值等。
像素值标准化:彩色图像有RGB三个通道,设像素值为v=[vr,vg,vb],vr∈[0,1],vb∈[0,1],vg∈[0,1],各通道均值为μ=[μrgb],标准差为σ=[σrgb],则标准 化公式为:
Figure BDA0003356971010000071
Figure BDA0003356971010000072
Figure BDA0003356971010000073
其中,各通道的均值和标准差可使用ImageNet数据库的常用值,各通道均 值为[0.485,0.456,0.406],各通道标准差为[0.229,0.224,0.225]。另外,也可使用 其他数据集计算统计的均值和标准差。
根据预处理后的文字图像生成标签图像,标签图像包括文字区域、文字边界 区域、字符区域、字符边界区域和字符类别。文字区域为标注的的包围框内部区 域,标记为1,外部区域(非文字区域)标记为0;字符区域为标注的的包围框 内部区域,标记为1,其余非字符区域标记为0;字符类别标签根据字符的类别 数进行标记,一张标签图代表一种字符类别的标记结果。文字和字符的边界区域 由标注的位置获得,为了加速训练收敛,对边界区域进行扩散标注。将所述标签 图像输入文字识别模型进行训练,以FPN作为网络结构,使用卷积层提取图像 特征,使用池化层进行降采样,使用上采样层或反卷积层还原图像分辨率,最后 一层使用sigmoid层将输出概率归一化以输出多个尺度的预测图,并使用优化器对文字识别模型的损失函数进行优化,得到训练好的文字识别模型。将待识别文 字图像进行预处理,即尺寸归一化和像素值标准化后,输入到训练好的文字识别 模型,由训练好的文字识别模型输出清晰尺度的预测图。对该清晰尺度的预测图 进行解析,得到待识别文字图像的文字序列。
本实施例通过一个全卷积神经网络实现端到端的文字识别,过程简单、运算 量小、准确度高。训练阶段联合文字区域、字符区域、字符类别、文字边界、字 符边界进行训练,能够结合更多的上下文信息,从而获得更好的识别效果。预测 阶段只需要将待识别图像输入网络,网络输出预测概率图后,进行解析即可得出 文字序列。
在另一个优选实施例中,所述对所述文字边界区域和所述字符边界区域进行 扩散标注具体为:
设m(x,y)为边界点,对任一点p(x,y),存在距离点p最近的边界点为:
Figure BDA0003356971010000081
则标注公式为:
Figure BDA0003356971010000082
其中,T为距离阈值,Vmax和Vmin表示设定的经验值,位于边界正中心 的像素点标签值为Vmax,位于边界周围的像素点标签值在Vmin~Vmax之间。
在又一个优选实施例中,所述多个尺度的预测图包括清晰尺度预测图和模糊 尺度预测图,其中,所述清晰尺度预测图包括文字区域、文字边界区域、字符区 域、字符边界区域和字符类别,所述模糊尺度预测图包括文字区域、文字字符区 域和字符类别。
具体的,请参阅图2,图2是本发明提供的一种文字识别方法的一个优选实 施例中网络结构的示意图。Input为输入图片,C1、C2、C3为经过卷积和下采样 后获得的特征图,H3、H2、H1为经过卷积和上采样后获得的特征图,P3、P2、 P1为不同尺度的输出预测概率图。清晰尺度预测图(P1)包括文字区域、文字 边界区域、字符区域、字符的边界区域和字符类别;模糊尺度预测图(P2、P3) 只预测文字区域、字符区域和字符类别。P3到P1的尺度由大到小,图像清晰程 度由模糊到清晰,图像分辨率由小到大。尺度越大则图像越模糊,尺度越小则图 像越清晰。
在又一个优选实施例中,所述文字识别模型的损失函数包括文字区域的损失、 字符区域的损失和字符类别的损失,其中:
文字区域的损失包括文字区域的损失和文字边界区域的损失,即:
La=λpLppbLpb
其中,La为文字区域总的损失,Lp为文字区域的交叉熵损失,Lpb为文字边 界区域的交叉熵损失,λp和λpb分别为文字区域、文字边界区域损失的权重;
字符区域的损失包括字符区域的损失和字符边界区域的损失,即:
Lb=λchLchchbLchb
其中,Lb为字符区域总的损失,Lch为字符区域的交叉熵损失,Lchb为字符边 界区域的交叉熵损失,λch和λchb分别为字符区域和字符边界区域损失的权重;
字符类别的损失为:Lc=Lcls
则所述文字识别模型的损失函数为L=λaLabLbcLc
具体的,本实施例使用Adam优化器对文字识别模型的损失函数进行优化。 文字识别模型的损失函数包括文字区域的损失、字符区域的损失和字符类别的损 失。采用交叉熵损失函数:
Figure BDA0003356971010000101
其中,N为体素点数目,K为类别数目,yi,k表示体素点i为第k类的真实标 签,pi,k表示体素点i为第k类的预测值,wk表示第k类的损失权重。
文字区域的损失包括文字区域的损失和文字边界区域的损失,即:
La=λpLppbLpb
其中,La为文字区域总的损失,Lp为文字区域的交叉熵损失,Lpb为文字边 界区域的交叉熵损失,λp和λpb分别为文字区域、文字边界区域损失的权重;
字符区域的损失包括字符区域的损失和字符边界区域的损失,即:
Lb=λchLchchbLchb
其中,Lb为字符区域总的损失,Lch为字符区域的交叉熵损失,Lchb为字符边 界区域的交叉熵损失,λch和λchb分别为字符区域和字符边界区域损失的权重;
字符类别的损失为:Lc=Lcls
则所述文字识别模型的损失函数为L=λaLabLbcLc
在又一个优选实施例中,所述S5,对所述清晰尺度的预测图进行解析,得到 所述待识别文字图像的文字序列,具体包括:
S501,根据文字区域预测图和文字边界区域预测图对文字框进行解析,得到 文字区域;
S502,根据字符区域预测图和字符边界预测图对所述文字区域中的字符框进 行解析,得到字符区域;
S503,将所述字符区域中概率最大的字符类别作为该像素点的类别,统计像 素数目最多的字符类别,作为该字符框的最终字符类别;
S504,根据字符位置连接字符得到所述待识别文字图像的文字序列。
作为优选方案,所述S501,根据文字区域预测图和文字边界区域预测图对文 字框进行解析,得到文字区域,具体包括:
根据文字区域预测图和文字边界区域预测图对文字框进行解析,将满足 ω1p12p2>T的像素点置为1,得到第一二值图;其中,ω1、ω2均为设定的权重, p1∈[0,1]为文字区域预测概率,p2∈[0,1]为文字边界区域预测概率,T∈[0,1]为设定 的阈值;
对所述第一二值图中像素值为1的像素点进行领域连接,得到多个连接单元, 选取面积最大的连接单元的最小包围矩形框作为文字区域。
作为优选方案,所述S502,根据字符区域预测图和字符边界预测图对所述文 字区域中的字符框进行解析,得到字符区域,具体包括:
根据字符区域预测图和字符边界区域预测图对所述文字区域中的字符框进 行解析,将满足ω3p34p4>T的像素点置为1,得到第二二值图;其中,ω3、ω4均 为设定的权重,p3∈[0,1]为字符区域预测概率,p4∈[0,1]为字符边界区域预测概率, T∈[0,1]为设定的阈值;
对所述第二二值图中像素值为1的像素点进行领域连接,得到多个连接单元, 选取多个满足字符区域要求的连接体的最小包围矩形框作为字符区域。
具体的,根据文字区域预测图和文字边界区域预测图对文字框进行解析,将 满足ω1p12p2>T的像素点置为1,得到第一二值图;其中,ω1、ω2均设定的权重, 可为任意值。通常可设ω1为[0,1]范围的数,设ω2为[-1,0]范围内的数。p1∈[0,1]为 文字区域预测概率,p2∈[0,1]为文字边界区域预测概率,T∈[0,1]为设定的阈值; 对第一二值图中像素值为1的像素点进行4-邻域或8-邻域连接,得到多个连接单 元,其中,面积最大的连接单元即最大连接体。由于最大连接体是不规则形状的, 因此选取能够包围最大连接体的最小包围矩形框作为文字矩形区域。
根据字符区域预测图和字符边界区域预测图对文字区域中的字符框进行解 析,将满足ω3p34p4>T的像素点置为1,得到第二二值图;其中,ω3、ω4均为设 定的权重,可为任意值。通常可设ω1为[0,1]范围的数,设ω2为[-1,0]范围内的数。 p3∈[0,1]为字符区域预测概率,p4∈[0,1]为字符边界区域预测概率,T∈[0,1]为设定 的阈值;对第二二值图中像素值为1的像素点进行领域连接,得到多个连接单元, 选取多个满足字符区域要求的连接体的最小包围矩形框作为字符区域。判断是否 满足字符区域要求的规则:根据长宽比、面积是否在一定范围内来判断该矩形包 围框是否为字符区域。对于一个矩形包围框,须同时满足下式才认为是字符区域:
Figure BDA0003356971010000121
areamin<wh<areamax
将字符区域中概率最大的字符类别作为该像素点的类别,统计像素数目最多 的字符类别,作为该字符框的最终字符类别。对于清晰尺度的预测图上的像素点, 这些点可以预测为多个类别,比如宽W,高H,类别数C,则预测图的维度是W x H x C,选取概率最大的字符类别则会输出大小W x H的图,图上像素点的值为 1~C。
根据字符位置连接字符得到所述待识别文字图像的文字序列。例如,对于单 行车牌,根据字符框的水平位置从左到右输出字符并连接起来,即可得到车牌号 码的文字序列。对于双行车牌,首先根据字符框的中心是位于上半部分还是下半 部分来确定该字符所属的行,然后对每一行都根据水平位置从左到右连接字符, 即可得到两行字符串作为车牌号码的文字序列。
本实施例中网络骨架结构可为ResNet、DenseNet、MobileNet等,损失函数 可使用Dice损失、Focal Loss等,优化器可使用Adam、SGD、Adadelta等。生 成区域标签时的区域标签可使用高斯热图,可使用缩小的区域标签。生成边界标 签时的扩散特征可使用图像膨胀方法等。在对图像进行预处理之前可以使用数据 增强来提高泛化能力,包括裁剪、旋转、平移、缩放、添加噪声、模糊、更改亮 度、更改对比度等方法。
本实施例在预测阶段时,可结合车牌先验信息提高精度。例如,获取车牌字 符框后,根据字符框数量及位置可判断是普通车牌、新能源车牌、双行车牌等, 接着在固定位置的字符框的可能类别减少,则只需要在相应的类别中寻找最合适 的预测类别,比如普通车牌第一个字符为省份,第二个字符为字母,后面的字符 为数字或字母。预测阶段中,可先提取车牌区域,再预测字符类别。在车牌区域 提取出来后,计算字符类别概率只对车牌区域进行推理,可使用已训练的网络参 数,或使用另外的网络对车牌进行识别,如CRNN等。预测阶段中,可先提取字 符区域,再预测字符类别。在字符区域提取出来后,使用预测单字符的神经网络 或传统机器学习分类器的方法。
相应地,本发明还提供一种文字识别装置,能够实现上述实施例中的文字识 别方法的所有流程。
请参阅图3,图3是本发明提供的一种文字识别装置的一个优选实施例的结 构示意图。所述文字识别装置,包括:
样本文字数据集获取模块301,用于获取样本文字数据集,并对所述样本文 字数据集中的每一个文字图像进行预处理;其中,所述样本文字数据集包括文字 位置、文字中各字符的位置以及字符类别;
标签图像生成模块302,用于根据预处理后的文字图像生成标签图像,所述 标签图像包括文字区域、文字边界区域、字符区域、字符边界区域和字符类别, 对所述文字边界区域和所述字符边界区域进行扩散标注;
文字识别模型训练模块303,用于将所述标签图像输入文字识别模型进行训 练,使用卷积层提取图像特征,使用池化层进行降采样,使用上采样层或反卷积 层还原图像分辨率,最后一层使用sigmoid层将输出概率归一化以输出多个尺度 的预测图,并使用优化器对所述文字识别模型的损失函数进行优化,得到训练好 的文字识别模型;
预测图输出模块304,用于将待识别文字图像进行预处理后输入到训练好的 文字识别模型,由所述训练好的文字识别模型输出清晰尺度的预测图;
文字序列输出模块305,用于对所述清晰尺度的预测图进行解析,得到所述 待识别文字图像的文字序列。
优选地,所述对所述文字边界区域和所述字符边界区域进行扩散标注具体为:
设m(x,y)为边界点,对任一点p(x,y),存在距离点p最近的边界点为:
Figure BDA0003356971010000141
则标注公式为:
Figure BDA0003356971010000142
其中,T为距离阈值,Vmax和Vmin表示设定的经验值,位于边界正中心 的像素点标签值为Vmax,位于边界周围的像素点标签值在Vmin~Vmax之间。
优选地,所述多个尺度的预测图包括清晰尺度预测图和模糊尺度预测图,其 中,所述清晰尺度预测图包括文字区域、文字边界区域、字符区域、字符边界区 域和字符类别,所述模糊尺度预测图包括文字区域、文字字符区域和字符类别。
优选地,所述文字识别模型的损失函数包括文字区域的损失、字符区域的损 失和字符类别的损失,其中:
文字区域的损失包括文字区域的损失和文字边界区域的损失,即:
La=λpLppbLpb
其中,La为文字区域总的损失,Lp为文字区域的交叉熵损失,Lpb为文字边 界区域的交叉熵损失,λp和λpb分别为文字区域、文字边界区域损失的权重;
字符区域的损失包括字符区域的损失和字符边界区域的损失,即:
Lb=λchLchchbLchb
其中,Lb为字符区域总的损失,Lch为字符区域的交叉熵损失,Lchb为字符边 界区域的交叉熵损失,λch和λchb分别为字符区域和字符边界区域损失的权重;
字符类别的损失为:Lc=Lcls
则所述文字识别模型的损失函数为L=λaLabLbcLc
优选地,所述文字序列输出模块305,具体用于:
根据文字区域预测图和文字边界区域预测图对文字框进行解析,得到文字区 域;
根据字符区域预测图和字符边界预测图对所述文字区域中的字符框进行解 析,得到字符区域;
将所述字符区域中概率最大的字符类别作为该像素点的类别,统计像素数目 最多的字符类别,作为该字符框的最终字符类别;
根据字符位置连接字符得到所述待识别文字图像的文字序列。
优选地,所述根据文字区域预测图和文字边界区域预测图对文字框进行解析, 得到文字区域,具体包括:
根据文字区域预测图和文字边界区域预测图对文字框进行解析,将满足 ω1p12p2>T的像素点置为1,得到第一二值图;其中,ω1、ω2均为设定的权重, p1∈[0,1]为文字区域预测概率,p2∈[0,1]为文字边界区域预测概率,T∈[0,1]为设定 的阈值;
对所述第一二值图中像素值为1的像素点进行领域连接,得到多个连接单元, 选取面积最大的连接单元的最小包围矩形框作为文字区域。
优选地,所述根据字符区域预测图和字符边界预测图对所述文字区域中的字 符框进行解析,得到字符区域,具体包括:
根据字符区域预测图和字符边界区域预测图对所述文字区域中的字符框进 行解析,将满足ω3p34p4>T的像素点置为1,得到第二二值图;其中,ω3、ω4均 为设定的权重,p3∈[0,1]为字符区域预测概率,p4∈[0,1]为字符边界区域预测概率,T∈[0,1]为设定的阈值;
对所述第二二值图中像素值为1的像素点进行领域连接,得到多个连接单元, 选取多个满足字符区域要求的连接体的最小包围矩形框作为字符区域。
在具体实施当中,本发明实施例提供的文字识别装置的工作原理、控制流程 及实现的技术效果,与上述实施例中的文字识别方法对应相同,在此不再赘述。
请参阅图4,图4是本发明提供的一种终端设备的一个优选实施例的结构示 意图。所述终端设备包括处理器401、存储器402以及存储在所述存储器402中 且被配置为由所述处理器401执行的计算机程序,所述处理器401执行所述计算 机程序时实现上述任一实施例所述的文字识别方法。
优选地,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序 1、计算机程序2、……),所述一个或者多个模块/单元被存储在所述存储器402 中,并由所述处理器401执行,以完成本发明。所述一个或多个模块/单元可以是 能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程 序在所述终端设备中的执行过程。
所述处理器401可以是中央处理单元(Central Processing Unit,CPU),还可 以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集 成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或 者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处 理器401也可以是任何常规的处理器,所述处理器401是所述终端设备的控制中 心,利用各种接口和线路连接所述终端设备的各个部分。
所述存储器402主要包括程序存储区和数据存储区,其中,程序存储区可存 储操作***、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。 此外,所述存储器402可以是高速随机存取存储器,还可以是非易失性存储器, 例如插接式硬盘,智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡和闪存卡(Flash Card)等,或所述存储器402也可以是其他易失性固态 存储器件。
需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领 域技术人员可以理解,图4的结构示意图仅仅是上述终端设备的示例,并不构成 对上述终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件, 或者不同的部件。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质 包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存 储介质所在设备执行上述任一实施例所述的文字识别方法。
本发明实施例提供了一种文字识别方法、装置、终端设备及存储介质,通过 一个全卷积神经网络实现端到端的文字识别,过程简单、运算量小、准确度高。 训练阶段联合文字区域、字符区域、字符类别、文字边界、字符边界进行训练, 能够结合更多的上下文信息,从而获得更好的识别效果。预测阶段只需要将待识 别图像输入网络,网络输出预测概率图后,进行解析即可得出文字序列。
需说明的是,以上所描述的***实施例仅仅是示意性的,其中所述作为分离 部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以 是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络 单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案 的目的。另外,本发明提供的***实施例附图中,模块之间的连接关系表示它们 之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通 技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术 人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改 进和润饰也视为本发明的保护范围。

Claims (10)

1.一种文字识别方法,其特征在于,包括:
获取样本文字数据集,并对所述样本文字数据集中的每一个文字图像进行预处理;其中,所述样本文字数据集包括文字位置、文字中各字符的位置以及字符类别;
根据预处理后的文字图像生成标签图像,所述标签图像包括文字区域、文字边界区域、字符区域、字符边界区域和字符类别,对所述文字边界区域和所述字符边界区域进行扩散标注;
将所述标签图像输入文字识别模型进行训练,使用卷积层提取图像特征,使用池化层进行降采样,使用上采样层或反卷积层还原图像分辨率,最后一层使用sigmoid层将输出概率归一化以输出多个尺度的预测图,并使用优化器对所述文字识别模型的损失函数进行优化,得到训练好的文字识别模型;
将待识别文字图像进行预处理后输入到训练好的文字识别模型,由所述训练好的文字识别模型输出清晰尺度的预测图;
对所述清晰尺度的预测图进行解析,得到所述待识别文字图像的文字序列。
2.如权利要求1所述的文字识别方法,其特征在于,所述对所述文字边界区域和所述字符边界区域进行扩散标注具体为:
设m(x,y)为边界点,对任一点p(x,y),存在距离点p最近的边界点为:
Figure FDA0003356971000000011
则标注公式为:
Figure FDA0003356971000000012
其中,T为距离阈值,Vmax和Vmin表示设定的经验值,位于边界正中心的像素点标签值为Vmax,位于边界周围的像素点标签值在Vmin~Vmax之间。
3.如权利要求1所述的文字识别方法,其特征在于,所述多个尺度的预测图包括清晰尺度预测图和模糊尺度预测图,其中,所述清晰尺度预测图包括文字区域、文字边界区域、字符区域、字符边界区域和字符类别,所述模糊尺度预测图包括文字区域、文字字符区域和字符类别。
4.如权利要求1所述的文字识别方法,其特征在于,所述文字识别模型的损失函数包括文字区域的损失、字符区域的损失和字符类别的损失,其中:
文字区域的损失包括文字区域的损失和文字边界区域的损失,即:
La=λpLppbLpb
其中,La为文字区域总的损失,Lp为文字区域的交叉熵损失,Lpb为文字边界区域的交叉熵损失,λp和λpb分别为文字区域、文字边界区域损失的权重;
字符区域的损失包括字符区域的损失和字符边界区域的损失,即:
Lb=λchLchchbLchb
其中,Lb为字符区域总的损失,Lch为字符区域的交叉熵损失,Lchb为字符边界区域的交叉熵损失,λch和λchb分别为字符区域和字符边界区域损失的权重;
字符类别的损失为:Lc=Lcls
则所述文字识别模型的损失函数为L=λaLabLbcLc
5.如权利要求3所述的文字识别方法,其特征在于,所述对所述清晰尺度的预测图进行解析,得到所述待识别文字图像的文字序列,具体包括:
根据文字区域预测图和文字边界区域预测图对文字框进行解析,得到文字区域;
根据字符区域预测图和字符边界预测图对所述文字区域中的字符框进行解析,得到字符区域;
将所述字符区域中概率最大的字符类别作为该像素点的类别,统计像素数目最多的字符类别,作为该字符框的最终字符类别;
根据字符位置连接字符得到所述待识别文字图像的文字序列。
6.如权利要求5所述的文字识别方法,其特征在于,所述根据文字区域预测图和文字边界区域预测图对文字框进行解析,得到文字区域,具体包括:
根据文字区域预测图和文字边界区域预测图对文字框进行解析,将满足ω1p12p2>T的像素点置为1,得到第一二值图;其中,ω1、ω2均为设定的权重,p1∈[0,1]为文字区域预测概率,p2∈[0,1]为文字边界区域预测概率,T∈[0,1]为设定的阈值;
对所述第一二值图中像素值为1的像素点进行领域连接,得到多个连接单元,选取面积最大的连接单元的最小包围矩形框作为文字区域。
7.如权利要求5所述的文字识别方法,其特征在于,所述根据字符区域预测图和字符边界预测图对所述文字区域中的字符框进行解析,得到字符区域,具体包括:
根据字符区域预测图和字符边界区域预测图对所述文字区域中的字符框进行解析,将满足ω3p34p4>T的像素点置为1,得到第二二值图;其中,ω3、ω4均为设定的权重,p3∈[0,1]为字符区域预测概率,p4∈[0,1]为字符边界区域预测概率,T∈[0,1]为设定的阈值;
对所述第二二值图中像素值为1的像素点进行领域连接,得到多个连接单元,选取多个满足字符区域要求的连接体的最小包围矩形框作为字符区域。
8.一种文字识别装置,其特征在于,包括:
样本文字数据集获取模块,用于获取样本文字数据集,并对所述样本文字数据集中的每一个文字图像进行预处理;其中,所述样本文字数据集包括文字位置、文字中各字符的位置以及字符类别;
标签图像生成模块,用于根据预处理后的文字图像生成标签图像,所述标签图像包括文字区域、文字边界区域、字符区域、字符边界区域和字符类别,对所述文字边界区域和所述字符边界区域进行扩散标注;
文字识别模型训练模块,用于将所述标签图像输入文字识别模型进行训练,使用卷积层提取图像特征,使用池化层进行降采样,使用上采样层或反卷积层还原图像分辨率,最后一层使用sigmoid层将输出概率归一化以输出多个尺度的预测图,并使用优化器对所述文字识别模型的损失函数进行优化,得到训练好的文字识别模型;
预测图输出模块,用于将待识别文字图像进行预处理后输入到训练好的文字识别模型,由所述训练好的文字识别模型输出清晰尺度的预测图;
文字序列输出模块,用于对所述清晰尺度的预测图进行解析,得到所述待识别车牌图像的文字序列。
9.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的文字识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的文字识别方法。
CN202111354701.1A 2021-11-16 2021-11-16 一种文字识别方法、装置、终端设备及存储介质 Pending CN114155541A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111354701.1A CN114155541A (zh) 2021-11-16 2021-11-16 一种文字识别方法、装置、终端设备及存储介质
US17/987,862 US20230154217A1 (en) 2021-11-16 2022-11-16 Method for Recognizing Text, Apparatus and Terminal Device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111354701.1A CN114155541A (zh) 2021-11-16 2021-11-16 一种文字识别方法、装置、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN114155541A true CN114155541A (zh) 2022-03-08

Family

ID=80456443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111354701.1A Pending CN114155541A (zh) 2021-11-16 2021-11-16 一种文字识别方法、装置、终端设备及存储介质

Country Status (2)

Country Link
US (1) US20230154217A1 (zh)
CN (1) CN114155541A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503880B (zh) * 2023-06-29 2023-10-31 武汉纺织大学 一种倾斜字体的英文字符识别方法和***

Also Published As

Publication number Publication date
US20230154217A1 (en) 2023-05-18

Similar Documents

Publication Publication Date Title
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN109886121B (zh) 一种遮挡鲁棒的人脸关键点定位方法
CN107133622B (zh) 一种单词的分割方法和装置
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的***及方法
CN110929665B (zh) 一种自然场景曲线文本检测方法
CN112116599B (zh) 基于弱监督学习的痰涂片结核杆菌语义分割方法及***
US20220180624A1 (en) Method and device for automatic identification of labels of an image
CN112699937A (zh) 基于特征引导网络的图像分类与分割的装置、方法、设备及介质
CN112613502A (zh) 文字识别方法及装置、存储介质、计算机设备
CN110738203A (zh) 字段结构化输出方法、装置及计算机可读存储介质
CN113096140B (zh) 实例分割方法及装置、电子设备及存储介质
Kölsch et al. Recognizing challenging handwritten annotations with fully convolutional networks
CN111680690A (zh) 一种文字识别方法及装置
CN109657538B (zh) 基于上下文信息指导的场景分割方法和***
CN113052775B (zh) 一种图像去阴影方法及装置
CN111401380A (zh) 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法
US20230154217A1 (en) Method for Recognizing Text, Apparatus and Terminal Device
CN114529750A (zh) 图像分类方法、装置、设备及存储介质
Xiang et al. Recognition of characters on curved metal workpiece surfaces based on multi-exposure image fusion and deep neural networks
CN114155540B (zh) 基于深度学习的文字识别方法、装置、设备及存储介质
CN111476226B (zh) 一种文本定位方法、装置及模型训练方法
CN112257708A (zh) 一种字符级文本检测方法、装置、计算机设备及存储介质
Panchal et al. An investigation on feature and text extraction from images using image recognition in Android
CN112365451A (zh) 图像质量等级的确定方法、装置、设备及计算机可读介质
CN108460772B (zh) 基于卷积神经网络的广告骚扰传真图像检测***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination