CN115797939A - 一种基于深度学习的两阶段斜体字符识别方法及装置 - Google Patents

一种基于深度学习的两阶段斜体字符识别方法及装置 Download PDF

Info

Publication number
CN115797939A
CN115797939A CN202211357444.1A CN202211357444A CN115797939A CN 115797939 A CN115797939 A CN 115797939A CN 202211357444 A CN202211357444 A CN 202211357444A CN 115797939 A CN115797939 A CN 115797939A
Authority
CN
China
Prior art keywords
text
feature map
horizontal
text box
vertical coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211357444.1A
Other languages
English (en)
Inventor
王博帝
彭斌
杨艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Lingyun Shixun Technology Co ltd
Original Assignee
Shenzhen Lingyun Shixun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Lingyun Shixun Technology Co ltd filed Critical Shenzhen Lingyun Shixun Technology Co ltd
Priority to CN202211357444.1A priority Critical patent/CN115797939A/zh
Publication of CN115797939A publication Critical patent/CN115797939A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本申请实施例提供的一种基于深度学习的两阶段斜体字符识别方法及装置,方法采用根据设定置信度范围,获取第一特征图中第一个通道的文本区域、及剩余八个通道的坐标区域的方式,对斜体字符所在的位置进行了第一次定位,即斜体字符位于文本区域;采用根据文本区域和坐标区域中每个像素的横、纵坐标,获取文本框顶点的横、纵坐标的方式,对斜体字符所在的位置进行了第二次定位,即斜体字符位于文本框内。根据文本框顶点的横、纵坐标、设定的矫正后文本框高度,获取矫正后的文本区域的图像,实现了将文本区域的图像包含的斜体字符矫正为正体字符,进而实现了对矫正为正体字符的斜体字符的识别。

Description

一种基于深度学习的两阶段斜体字符识别方法及装置
技术领域
本申请涉及斜体字识别领域,尤其涉及一种基于深度学习的两阶段斜体字符识别方法及装置。
背景技术
深度学习是机器学习的一种,是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。字符识别,是指对已分割出的文字区域进行识别文字内容。斜体字符是在正常字体样式基础上,通过倾斜字体实现的一种字体样式。
然而,在文本中包含字符为斜体字符的场景下,现有模型无法直接识别斜体字符,导致了斜体字符识别失败。
发明内容
为了解决由于字符识别时无法直接识别斜体字符,而导致斜体字符识别失败的问题,本申请提供了一种基于深度学习的两阶段斜体字符识别方法及装置。
为了解决上述技术问题,本申请实施例公开了如下技术方案:
第一方面,本申请实施例公开了一种基于深度学习的两阶段斜体字符识别方法,包括:
对待检测文本进行特征提取,获取第一特征图,第一特征图为第一预设通道的预设尺度的特征图;
根据设定置信度范围,获取第一特征图中第一个通道的文本区域、及剩余通道的坐标区域;
基于密集预测,根据文本区域和坐标区域中每个像素的横、纵坐标,获取文本框顶点的横、纵坐标,文本框为文本区域的最小面积外接四边形;
根据文本框顶点的横、纵坐标、设定的矫正后文本框高度,对文本区域进行透视变换裁剪,获取矫正后的文本区域的图像;
对矫正后的文本区域的图像进行特征提取,获取第二特征图,对第二特征图宽度上的序列信息建模,以识别矫正后的文本区域的图像中正体字符,矫正后的文本区域的图像为包含正体字符的图像。
可选的,在对待检测文本进行特征提取,获取第一特征图,第一特征图为第一预设通道的预设尺度的特征图的步骤中,方法包括:
对待检测文本进行多尺度的特征提取,获得多尺度的特征图,根据多尺度的特征图,获得上采样、逐元素相加、卷积平滑处理后的多尺度的特征图,多尺度的特征图包括预设尺度的特征图;
根据上采样、逐元素相加、卷积平滑处理后的预设尺度的特征图,获得第一特征图,第一特征图为第一预设通道的预设尺度的特征图。
可选的,第一预设通道的预设尺度的特征图为9通道的1/4尺度特征图。
可选的,置信度范围为像素值范围。
可选的,在基于密集预测,根据文本区域和坐标区域中每个像素的横、纵坐标,获取文本框顶点的横、纵坐标,文本框为文本区域的最小面积外接四边形的步骤中,方法包括:
基于密集预测,根据文本区域中每个像素的横、纵坐标,分别获取坐标区域相应像素的横、纵坐标,作为文本框的一组顶点横、纵坐标,对文本框的多组顶点横、纵坐标进行NMS过滤,获取文本框顶点的横、纵坐标,文本框为文本区域的最小面积外接四边形。
可选的,在根据文本框顶点的横、纵坐标、设定的矫正后文本框高度,对文本区域进行透视变换裁剪,获取矫正后的文本区域的图像的步骤中,方法包括:
根据文本框顶点的横、纵坐标、及设定的文本框矫正后的高度,获得矫正后的文本框顶点的横、纵坐标,根据文本框顶点的横、纵坐标和矫正后的文本框顶点的横、纵坐标,对文本区域进行透视变换裁剪,获取矫正后的文本区域的图像。
可选的,在对第二特征图宽度上的序列信息建模,以识别矫正后的文本区域的图像中正体字符的步骤中,方法包括:
将第二特征图作为特征向量,将特征向量进行长短时记忆和全连接分类,获得后验概率矩阵,对后验概率矩阵,执行贪婪搜索和去重操作,以识别矫正后的文本区域的图像中正体字符。
第二方面,本申请实施例公开了一种基于深度学习的两阶段斜体字符识别装置,包括:
文本框检测模块,用于执行:对待检测文本进行特征提取,获取第一特征图,第一特征图为第一预设通道的预设尺度的特征图,根据设定置信度范围,获取第一特征图中第一个通道的文本区域、及剩余通道的坐标区域,基于密集预测,根据文本区域和坐标区域中每个像素的横、纵坐标,获取文本框顶点的横、纵坐标,文本框为文本区域的最小面积外接四边形;
图像采样模块,用于执行:根据文本框顶点的横、纵坐标、设定的矫正后文本框高度,对文本区域进行透视变换裁剪,获取矫正后的文本区域的图像;
文本行识别模块,用于执行:对矫正后的文本区域的图像进行特征提取,获取第二特征图,对第二特征图宽度上的序列信息建模,以识别矫正后的文本区域的图像中正体字符,矫正后的文本区域的图像为包含正体字符的图像。
可选的,文本框检测模块,具体用于执行:
对待检测文本进行多尺度的特征提取,获得多尺度的特征图,根据多尺度的特征图,获得上采样、逐元素相加、卷积平滑处理后的多尺度的特征图,多尺度的特征图包括预设尺度的特征图;
根据上采样、逐元素相加、卷积平滑处理后的预设尺度的特征图,获得第一特征图,第一特征图为第一预设通道的预设尺度的特征图;
根据设定置信度范围,获取第一特征图中第一个通道的文本区域、及剩余通道的坐标区域;
基于密集预测,根据文本区域中每个像素的横、纵坐标,分别获取坐标区域相应像素的横、纵坐标,作为文本框的一组顶点横、纵坐标,对文本框的多组顶点横、纵坐标进行NMS过滤,获取文本框顶点的横、纵坐标,文本框为文本区域的最小面积外接四边形。
可选的,图像采样模块,具体用于执行:
根据文本框顶点的横、纵坐标、及设定的文本框矫正后的高度,获得矫正后的文本框顶点的横、纵坐标,根据文本框顶点的横、纵坐标和矫正后的文本框顶点的横、纵坐标,对文本区域进行透视变换裁剪,获取矫正后的文本区域的图像。
本申请的有益效果为:采用根据设定置信度范围,获取所述第一特征图中第一个通道的文本区域、及剩余八个通道的坐标区域的方式,对斜体字符所在的位置进行了第一次定位,即所述斜体字符位于文本区域;采用根据所述文本区域和所述坐标区域中每个像素的横、纵坐标,获取文本框顶点的横、纵坐标的方式,对所述斜体字符所在的位置进行了第二次定位,即所述斜体字符位于所述文本框内。根据所述文本框顶点的横、纵坐标、设定的矫正后所述文本框高度,获取矫正后的所述文本区域的图像,实现了将所述文本区域的图像包含的所述斜体字符矫正为正体字符,进而实现了对矫正为所述正体字符的所述斜体字符的识别。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于深度学习的两阶段斜体字符识别方法的流程示意图;
图2为本申请实施例提供的一种基于深度学习的两阶段斜体字符识别装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
为便于对申请的技术方案进行,以下首先在对本申请所涉及到的一些概念进行说明。
置信度为总体参数值落在样本统计值某一区内的概率,本申请中置信度为待检测文本落在第一特征图中第一个通道的概率,或待检测文本的坐标落在第一特征图中剩余通道的概率。
密集预测是指为图像中的每个像素做出预测,本申请中密集预测表现为根据所述文本区域和所述坐标区域中每个像素的横、纵坐标,获取文本框顶点的横、纵坐标。
参见图1,本申请实施例提供了一种基于深度学习的两阶段斜体字符识别方法,包括如下步骤:
步骤S110:对待检测文本进行特征提取,获取第一特征图,第一特征图为第一预设通道的预设尺度的特征图。
在一些实施例中,对待检测文本进行多尺度的特征提取,获得多尺度的特征图,根据多尺度的特征图,获得上采样、逐元素相加、卷积平滑处理后的多尺度的特征图,多尺度的特征图包括预设尺度的特征图;根据上采样、逐元素相加、卷积平滑处理后的预设尺度的特征图,获得第一特征图,第一特征图为第一预设通道的预设尺度的特征图。由于进行多尺度的特征提取,因此提高了待检测图像中不同尺度的文本的检测精度。
在一些实施例中,通过主流骨干网络,对待检测文本进行多尺度的特征提取,所述主流骨干网络包括ResNet(Residual Neural Network,残差神经网络)系列网络和MobileNet系列网络,ResNet系列网络和MobileNet系列网络均为用于提取特征的网络结构,所述多尺度可选为1/4尺度、1/8尺度、1/16尺度和1/32尺度。
在一些实施例中,获得上采样、逐元素相加、卷积平滑处理后的多尺度的特征图包括:
将特征提取的1/32尺度的特征图上采样为1/16尺度的特征图,将上采样得到的1/16尺度的特征图与特征提取的1/16尺度的特征图逐像素相加,再对逐像素相加后的1/16尺度的特征图进行卷积平滑处理,获得上采样、逐元素相加、卷积平滑处理后的1/16尺度的特征图;
将上采样、逐元素相加、卷积平滑处理后的1/16尺度的特征图上采样为1/8尺度的特征图,将上采样得到的1/8尺度的特征图与特征提取的1/8尺度的特征图逐像素相加,再对逐像素相加后的1/8尺度的特征图进行卷积平滑处理,获得上采样、逐元素相加、卷积平滑处理后的1/8尺度的特征图;
将上采样、逐元素相加、卷积平滑处理后的1/8尺度的特征图上采样为1/4尺度的特征图,将上采样得到的1/4尺度的特征图与特征提取的1/4尺度的特征图逐像素相加,再对逐像素相加后的1/4尺度的特征图进行卷积平滑处理,获得上采样、逐元素相加、卷积平滑处理后的1/4尺度的特征图。
在一些实施例中,上采样、逐元素相加、卷积平滑处理后的|/4尺度的特征图经过卷积层,获得第一特征图,所述第一特征图为第一预设通道的预设尺度的特征图。
在一些实施例中,第一预设通道的预设尺度的特征图为7通道的1/4尺度特征图,基于密集预测,根据所述文本区域和所述坐标区域,获取文本框顶点的横、纵坐标,所述文本框为所述文本区域的最小面积外接四边形,其中,所述7通道的1/4尺度特征图中除第一个通道外剩余通道分别表征所述文本框顺时针第一个顶点的横坐标值、所述文本框顺时针第一个顶点的纵坐标值、所述文本框的宽度、所述文本框的高度、所述文本框的旋转角以及所述文本框的倾斜角。
在一些实施例中,第一预设通道的预设尺度的特征图为9通道的1/4尺度特征图,本申请直接得到所述文本框四个顶点坐标,而后透视变换则根据顶点坐标校正斜体字符,与第一预设通道的预设尺度的特征图为7通道的1/4尺度特征图时相比对,第一预设通道的预设尺度的特征图为9通道的1/4尺度特征图时,对不规则四边形的斜体字符适应性更好。
在一些实施例中,上采样、逐元素相加、卷积平滑处理后的1/4尺度的特征图为多通道的1/4尺度的特征图,若上采样、逐元素相加、卷积平滑处理后的1/4尺度的特征图为256通道的1/4尺度的特征图,则通过尺寸为256,9的3x3卷积核,生成9通道的1/4尺度的特征图。
步骤S120:根据设定置信度范围,获取第一特征图中第一个通道的文本区域、及剩余通道的坐标区域。
在一些实施例中,置信度范围为像素值范围,在所述第一特征图中像素的像素值均为0-1时,获取第一特征图的第一个通道中像素值在0.5-1范围内的像素,并获取所述像素的所在区域,作为文本区域;获取第一特征图的剩余通道中像素值在0.5-1范围内的像素,并获取所述像素的所在区域,作为坐标区域。
在一些实施例中,所述第一特征图的第一个通道以及剩余通道,类似于掩膜,用于区分设定置信度范围的区域与非设定置信度范围的区域。
步骤S130:基于密集预测,根据文本区域和坐标区域中每个像素的横、纵坐标,获取文本框顶点的横、纵坐标,文本框为文本区域的最小面积外接四边形。
在一些实施例中,将待检测文本中斜体字符文本行用平行四边形紧致地标注,基于密集预测,根据所述平行四边形和所述坐标区域中每个像素的横、纵坐标,获取所述平行四边形顶点的横、纵坐标;根据所述平行四边形顶点的横、纵坐标、设定的矫正后所述平行四边形高度,对所述平行四边形进行透视变换裁剪,获取矫正后的所述平行四边形图像;对矫正后的所述平行四边形图像进行特征提取,获取第二特征图,对所述第二特征图宽度上的序列信息建模,以识别矫正后的所述平行四边形图像中正体字符,矫正后的所述平行四边形图像为包含正体字符的图像。
在一些实施例中,基于密集预测,根据文本区域中每个像素的横、纵坐标,分别获取坐标区域相应像素的横、纵坐标,作为文本框的一组顶点横、纵坐标,对文本框的多组顶点横、纵坐标进行NMS过滤,获取文本框顶点的横、纵坐标,文本框为文本区域的最小面积外接四边形。
在一些实施例中,在第一预设通道的预设尺度的特征图为9通道的1/4尺度特征图时,存在一个文本区域和八个坐标区域。
根据所述文本区域中一个像素的横、纵坐标,获取每个所述坐标区域中对应的像素的横、纵坐标。
将第一个坐标区域中对应的像素的横坐标作为所述文本区域左上顶点的横坐标;将第二个坐标区域中对应的像素的纵坐标作为所述文本区域左上顶点的纵坐标;将第三个坐标区域中对应的像素的横坐标作为所述文本区域右上顶点的横坐标;将第四个坐标区域中对应的像素的纵坐标作为所述文本区域右上顶点的纵坐标;将第五个坐标区域中对应的像素的横坐标作为所述文本区域右下顶点的横坐标;将第六个坐标区域中对应的像素的纵坐标作为所述文本区域右下顶点的纵坐标;将第七个坐标区域中对应的像素的横坐标作为所述文本区域左下顶点的横坐标;将第八个坐标区域中对应的像素的纵坐标作为所述文本区域左下顶点的纵坐标。
步骤S140:根据文本框顶点的横、纵坐标、设定的矫正后文本框高度,对文本区域进行透视变换裁剪,获取矫正后的文本区域的图像。
在一些实施例中,根据文本框顶点的横、纵坐标、及设定的文本框矫正后的高度,获得矫正后的文本框顶点的横、纵坐标,根据文本框顶点的横、纵坐标和矫正后的文本框顶点的横、纵坐标,对文本区域进行透视变换裁剪,获取矫正后的文本区域的图像。
在一些实施例中,将所述文本框的左上顶点的纵坐标与所述文本框左下顶点的纵坐标之差,作为第一高度,将所述设定的文本框矫正后的高度,作为第二高度,所述第二高度可选为32,根据所述第一高度与所述第二高度的比值关系,获得矫正后的文本框顶点的横、纵坐标。
步骤S150:对矫正后的文本区域的图像进行特征提取,获取第二特征图,对第二特征图宽度上的序列信息建模,以识别矫正后的文本区域的图像中正体字符,矫正后的文本区域的图像为包含正体字符的图像。
在一些实施例中,将第二特征图作为特征向量,将特征向量进行长短时记忆和全连接分类,获得后验概率矩阵,对后验概率矩阵,执行贪婪搜索和去重操作,以识别矫正后的文本区域的图像中正体字符。
在一些实施例中,对矫正后的文本区域的图像进行特征提取,获取第二特征图包括:
通过主流骨干网络,对矫正后的文本区域的图像进行特征提取。所述主流骨干网络包括ResNet(Residual Neural Network,残差神经网络)系列网络和MobileNet系列网络,ResNet系列网络和MobileNet系列网络均为用于提取特征的网络结构。所述特征提取包括基于所述矫正后的文本区域的图像高度的特征提取和基于所述矫正后的文本区域的图像宽度的特征提取。基于所述矫正后的文本区域的图像高度的特征提取为多尺度特征提取,所述多尺度可选为1/4尺度、1/8尺度、1/16尺度和1/32尺度。基于所述矫正后的文本区域的图像宽度的特征提取可选为1/4尺度的特征提取。
在一些实施例中,所述第二特征图可选为宽、高维度为1/4尺度、1/32尺度的特征图。
如图2所示,与前述一种基于深度学习的两阶段斜体字符识别方法的实施例相对应,本申请还提供了一种基于深度学习的两阶段斜体字符识别装置的实施例。该装置包括:
文本框检测模块1,用于执行:对待检测文本进行特征提取,获取第一特征图,第一特征图为第一预设通道的预设尺度的特征图,根据设定置信度范围,获取第一特征图中第一个通道的文本区域、及剩余通道的坐标区域,基于密集预测,根据文本区域和坐标区域中每个像素的横、纵坐标,获取文本框顶点的横、纵坐标,文本框为文本区域的最小面积外接四边形。
在一些实施例中,文本框检测模块1,具体用于执行:
对待检测文本进行多尺度的特征提取,获得多尺度的特征图,根据多尺度的特征图,获得上采样、逐元素相加、卷积平滑处理后的多尺度的特征图,多尺度的特征图包括预设尺度的特征图;
根据上采样、逐元素相加、卷积平滑处理后的预设尺度的特征图,获得第一特征图,第一特征图为第一预设通道的预设尺度的特征图;
根据设定置信度范围,获取第一特征图中第一个通道的文本区域、及剩余通道的坐标区域;
基于密集预测,根据文本区域中每个像素的横、纵坐标,分别获取坐标区域相应像素的横、纵坐标,作为文本框的一组顶点横、纵坐标,对文本框的多组顶点横、纵坐标进行NMS过滤,获取文本框顶点的横、纵坐标,文本框为文本区域的最小面积外接四边形。
图像采样模块2,用于执行:根据文本框顶点的横、纵坐标、设定的矫正后文本框高度,对文本区域进行透视变换裁剪,获取矫正后的文本区域的图像。
在一些实施例中,图像采样模块2,具体用于执行:
根据文本框顶点的横、纵坐标、及设定的文本框矫正后的高度,获得矫正后的文本框顶点的横、纵坐标,根据文本框顶点的横、纵坐标和矫正后的文本框顶点的横、纵坐标,对文本区域进行透视变换裁剪,获取矫正后的文本区域的图像。
文本行识别模块3,用于执行:对矫正后的文本区域的图像进行特征提取,获取第二特征图,对第二特征图宽度上的序列信息建模,以识别矫正后的文本区域的图像中正体字符,矫正后的文本区域的图像为包含正体字符的图像。
本申请中文本框检测模块1、文本行识别模块3互相独立,文本框检测模块1输入图像输出文本框坐标;文本行识别模块3输入文本区域的图像输出识别得到的字符结果,所述文本框检测模块1与所述文本行识别模块3可以串联使用,也单独使用。可视需求进行相应的扩展,如:仅需确定文本位置时,则只用文本框检测模块1;存在其他方式能够定位到文本区域时,则只用文本行识别模块3。
本申请文本框检测模块1、文本行识别模块3是在图像空间串联的,仅作适量的修改便可耦合文本框检测与文本行识别,可以适应其他定制的场景,方法应用面较广,如:将文本框检测模块1、文本行识别模块3修改为在特征空间串联,即两者共享特征提取,此时在网络结构层面两者就是耦合在一起的,这样共享特征提取效率会更快,可以适应其他定制的场景,方法应用面较广。
由于以上实施方式均是在其他方式之上引用结合进行说明,不同实施例之间均具有相同的部分,本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。
需要说明的是,在本说明书中,诸如″第一″和″第二″等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且,术语″包括″、″包含″或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下,有语句″包括一个......″限定的要素,并不排除在包括所述要素的电路结构、物品或者设备中还存在另外的相同要素。
本领域技术人员在考虑说明书及实践这里发明的公开后,将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求的内容指出。
以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims (10)

1.一种基于深度学习的两阶段斜体字符识别方法,其特征在于,包括:
对待检测文本进行特征提取,获取第一特征图,所述第一特征图为第一预设通道的预设尺度的特征图;
根据设定置信度范围,获取所述第一特征图中第一个通道的文本区域、及剩余通道的坐标区域;
基于密集预测,根据所述文本区域和所述坐标区域中每个像素的横、纵坐标,获取文本框顶点的横、纵坐标,所述文本框为所述文本区域的最小面积外接四边形;
根据所述文本框顶点的横、纵坐标、设定的矫正后所述文本框高度,对所述文本区域进行透视变换裁剪,获取矫正后的所述文本区域的图像;
对矫正后的所述文本区域的图像进行特征提取,获取第二特征图,对所述第二特征图宽度上的序列信息建模,以识别矫正后的所述文本区域的图像中正体字符,矫正后的所述文本区域的图像为包含正体字符的图像。
2.根据权利要求1所述的基于深度学习的两阶段斜体字符识别方法,其特征在于,在所述对待检测文本进行特征提取,获取第一特征图,所述第一特征图为第一预设通道的预设尺度的特征图的步骤中,所述方法包括:
对待检测文本进行多尺度的特征提取,获得多尺度的特征图,根据所述多尺度的特征图,获得上采样、逐元素相加、卷积平滑处理后的多尺度的特征图,所述多尺度的特征图包括预设尺度的特征图;
根据上采样、逐元素相加、卷积平滑处理后的预设尺度的特征图,获得第一特征图,所述第一特征图为第一预设通道的预设尺度的特征图。
3.根据权利要求1所述的基于深度学习的两阶段斜体字符识别方法,其特征在于,所述第一预设通道的预设尺度的特征图为9通道的1/4尺度特征图。
4.根据权利要求1所述的基于深度学习的两阶段斜体字符识别方法,其特征在于,所述置信度范围为像素值范围。
5.根据权利要求1所述的基于深度学习的两阶段斜体字符识别方法,其特征在于,在所述基于密集预测,根据所述文本区域和所述坐标区域中每个像素的横、纵坐标,获取文本框顶点的横、纵坐标,所述文本框为所述文本区域的最小面积外接四边形的步骤中,所述方法包括:
基于密集预测,根据文本区域中每个像素的横、纵坐标,分别获取坐标区域相应像素的横、纵坐标,作为文本框的一组顶点横、纵坐标,对所述文本框的多组顶点横、纵坐标进行NMS过滤,获取文本框顶点的横、纵坐标,所述文本框为所述文本区域的最小面积外接四边形。
6.根据权利要求1所述的基于深度学习的两阶段斜体字符识别方法,其特征在于,在根据所述文本框顶点的横、纵坐标、设定的矫正后所述文本框高度,对所述文本区域进行透视变换裁剪,获取矫正后的所述文本区域的图像的步骤中,所述方法包括:
根据文本框顶点的横、纵坐标、及设定的所述文本框矫正后的高度,获得矫正后的所述文本框顶点的横、纵坐标,根据所述文本框顶点的横、纵坐标和矫正后的所述文本框顶点的横、纵坐标,对所述文本区域进行透视变换裁剪,获取矫正后的所述文本区域的图像。
7.根据权利要求1所述的基于深度学习的两阶段斜体字符识别方法,其特征在于,在对所述第二特征图宽度上的序列信息建模,以识别矫正后的所述文本区域的图像中正体字符的步骤中,所述方法包括:
将第二特征图作为特征向量,将所述特征向量进行长短时记忆和全连接分类,获得后验概率矩阵,对所述后验概率矩阵,执行贪婪搜索和去重操作,以识别矫正后的所述文本区域的图像中正体字符。
8.一种基于深度学习的两阶段斜体字符识别装置,其特征在于,包括:
文本框检测模块,用于执行:对待检测文本进行特征提取,获取第一特征图,所述第一特征图为第一预设通道的预设尺度的特征图,根据设定置信度范围,获取所述第一特征图中第一个通道的文本区域、及剩余通道的坐标区域,基于密集预测,根据所述文本区域和所述坐标区域中每个像素的横、纵坐标,获取文本框顶点的横、纵坐标,所述文本框为所述文本区域的最小面积外接四边形;
图像采样模块,用于执行:根据所述文本框顶点的横、纵坐标、设定的矫正后所述文本框高度,对所述文本区域进行透视变换裁剪,获取矫正后的所述文本区域的图像;
文本行识别模块,用于执行:对矫正后的所述文本区域的图像进行特征提取,获取第二特征图,对所述第二特征图宽度上的序列信息建模,以识别矫正后的所述文本区域的图像中正体字符,矫正后的所述文本区域的图像为包含正体字符的图像。
9.根据权利要求8所述的基于深度学习的两阶段斜体字符识别装置,其特征在于,所述文本框检测模块,具体用于执行:
对待检测文本进行多尺度的特征提取,获得多尺度的特征图,根据所述多尺度的特征图,获得上采样、逐元素相加、卷积平滑处理后的多尺度的特征图,所述多尺度的特征图包括预设尺度的特征图;
根据上采样、逐元素相加、卷积平滑处理后的预设尺度的特征图,获得第一特征图,所述第一特征图为第一预设通道的预设尺度的特征图;
根据设定置信度范围,获取所述第一特征图中第一个通道的文本区域、及剩余通道的坐标区域;
基于密集预测,根据文本区域中每个像素的横、纵坐标,分别获取坐标区域相应像素的横、纵坐标,作为文本框的一组顶点横、纵坐标,对所述文本框的多组顶点横、纵坐标进行NMS过滤,获取文本框顶点的横、纵坐标,所述文本框为所述文本区域的最小面积外接四边形。
10.根据权利要求8所述的基于深度学习的两阶段斜体字符识别装置,其特征在于,所述图像采样模块,具体用于执行:
根据文本框顶点的横、纵坐标、及设定的所述文本框矫正后的高度,获得矫正后的所述文本框顶点的横、纵坐标,根据所述文本框顶点的横、纵坐标和矫正后的所述文本框顶点的横、纵坐标,对所述文本区域进行透视变换裁剪,获取矫正后的所述文本区域的图像。
CN202211357444.1A 2022-11-01 2022-11-01 一种基于深度学习的两阶段斜体字符识别方法及装置 Pending CN115797939A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211357444.1A CN115797939A (zh) 2022-11-01 2022-11-01 一种基于深度学习的两阶段斜体字符识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211357444.1A CN115797939A (zh) 2022-11-01 2022-11-01 一种基于深度学习的两阶段斜体字符识别方法及装置

Publications (1)

Publication Number Publication Date
CN115797939A true CN115797939A (zh) 2023-03-14

Family

ID=85434819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211357444.1A Pending CN115797939A (zh) 2022-11-01 2022-11-01 一种基于深度学习的两阶段斜体字符识别方法及装置

Country Status (1)

Country Link
CN (1) CN115797939A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434234A (zh) * 2023-05-25 2023-07-14 珠海亿智电子科技有限公司 一种铸坯字符的检测与识别方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434234A (zh) * 2023-05-25 2023-07-14 珠海亿智电子科技有限公司 一种铸坯字符的检测与识别方法、装置、设备及存储介质
CN116434234B (zh) * 2023-05-25 2023-10-17 珠海亿智电子科技有限公司 一种铸坯字符的检测与识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US20190019055A1 (en) Word segmentation system, method and device
CN111626190A (zh) 基于聚类分区进行刻度识别的水位监测方法
CN111259878A (zh) 一种检测文本的方法和设备
CN113486828B (zh) 图像处理方法、装置、设备和存储介质
CN111680690A (zh) 一种文字识别方法及装置
CN109886978B (zh) 一种基于深度学习的端到端告警信息识别方法
CN111737478B (zh) 文本检测方法、电子设备及计算机可读介质
CN110443235B (zh) 一种智能纸质试卷总分识别方法及***
CN111368632A (zh) 一种签名识别方法及设备
CN113205095A (zh) 一种训练模型以及字符检测的方法及装置
CN113591831A (zh) 一种基于深度学习的字体识别方法、***及存储介质
CN115797939A (zh) 一种基于深度学习的两阶段斜体字符识别方法及装置
CN116597466A (zh) 一种基于改进YOLOv5s的工程图纸文字检测识别方法及***
CN115035539A (zh) 文档异常检测网络模型构建方法、装置、电子设备及介质
CN110991440A (zh) 一种像素驱动的手机操作界面文本检测方法
CN113743318A (zh) 基于行列分割的表格结构识别方法、存储介质和电子装置
CN114067339A (zh) 图像识别方法及其装置、电子设备、计算机可读存储介质
CN113537184A (zh) Ocr模型训练方法、装置、计算机设备、存储介质
CN113159035A (zh) 图像处理方法、装置、设备及存储介质
CN116030472A (zh) 文字坐标确定方法及装置
CN107330470B (zh) 识别图片的方法和装置
CN115880708A (zh) App适老模式下文字段落间距合规性检测方法
CN115223173A (zh) 对象识别方法、装置、电子设备及存储介质
JP2004094427A (ja) 帳票画像処理装置及び該装置を実現するためのプログラム
CN112419208A (zh) 一种基于施工图审查矢量图纸编译方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination