CN111079749B

CN111079749B - 一种带姿态校正的端到端商品价签文字识别方法和***

Info

Publication number: CN111079749B
Application number: CN201911273581.5A
Authority: CN
Inventors: 秦永强; 张发恩; 高达辉
Original assignee: Ainnovation Chongqing Technology Co ltd
Current assignee: Ainnovation Chongqing Technology Co ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2023-12-22
Anticipated expiration: 2039-12-12
Also published as: CN111079749A

Abstract

本发明提供一种带姿态校正的端到端商品价签文字识别方法和***，属于计算机视觉技术领域，包括：获取商品价签图像并进行特征提取得到相应的特征图；对特征图进行区域选取处理得到文字建议区域；对文字建议区域进行分割处理得到处理后的文字建议区域，并将处理后的文字建议区域进行图形外扩处理得到文字特征图；对文字特征图进行关键点检测处理得到多个包围文字特征图的关键点；根据多个关键点并利用薄板样条插值，对文字特征图进行姿态矫正处理得到固定大小且水平的待处理特征图；对待处理特征图进行文字化处理得到相应的文字。本发明的有益效果：能够提升复杂场景文字识别的鲁棒性和效率。

Description

一种带姿态校正的端到端商品价签文字识别方法和***

技术领域

本发明涉及计算机视觉领域，具体涉及一种带姿态校正的端到端商品价签文字识别方法和***。

背景技术

通过计算机视觉技术来识别渠道陈列图像中的商品价格标签，从而获知商品价格信息已经成为各快销品牌商管控分销终端价格的重要解决方案。在该方案中，要实现商品价格的快速准确识别，价签上文字的准确识别是关键。

由于图像拍摄角度原因，图像中的商品价签具有姿态任意的特点，价签上的文字方向和姿态并不确定，这对文字的精确识别带来较大难度。此外，基于计算机视觉技术的商品价格识别通常具有较高的实效性需求，需要能接近实时的识别速度。然而，单张渠道陈列图像中的价签数量通常较多(通常多达十几个)，单张价签上的文字段也通常多达数十个，这就为识别速度带来巨大挑战。

现有的大多数文字识别方案都采用“文字检测+姿态矫正+文字识别”的算法方案，首先利用文字检测算法定位出文字的位置，然后切取文字图像区域，通过图像处理技术对文字图像进行姿态矫正(仿射变换、透视变换等)，然后用文字识别算法进行识别。这种方法通过多个阶段逐步实现文字识别，主要存在两方面的不足：

1)识别效率低下

文字检测阶段和文字识别阶段都会对同样的图像区域进行特征提取，导致重复计算。而特征提取阶段的计算量往往占了总计算量的大部分，这就导致单张渠道陈列图像的商品价格识别时间特别长，通常可达到几十秒到数分钟的识别时间，难以满足实时性需求。

2)算法鲁棒性不够

文字识别通常是在姿态矫正后进行。现有的姿态矫正算法基本都是在确定了文字的严格区域之后(比如任意四边形或旋转矩形框区域)进行的，输入的文字图像的所有区域(包括干扰信息)都在姿态矫正后参与到文字识别中，无法修正由于文字区域不准确导致的文字信息丢失(少框住部分文字区域)和干扰信息增加(多框住部分文字区域)的问题，也就是对于文字框的定位准确性比较敏感，鲁棒性不足。

为了提升文字识别算法对姿态的鲁棒性，现有技术提出了一种带姿态矫正的文字识别算法，通过在算法模型中增加空间转换模块，基于模型预测的多个关键点，选择输入图像中的有效文字区域进行姿态矫正，来实现不同姿态的文字识别，对输入的文字图像的多余干扰信息不敏感，取得了较好的效果。但是其仍需要切取后的文字段图像作为输入，会重复提取文字特征，无法与文字检测一起实现端到端训练。

在端到端文字识别方面，也有较多文献开展了大量工作，其中大部分仍是采用多阶段联合训练的方案，现有技术进一步的提出的端到端文字识别算法直接在特征图上切取感兴趣的文字区域进行文字识别，避免了特征重复提取，同时可利用多任务训练相互促进，但其并没有考虑文字姿态矫正。现有技术进一步的则通过对切取的感兴趣文字特征区域进行放射变换修正来进行姿态纠正，其无法对透视状态等更加复杂的姿态进行纠正，并且也无法解决文字区域信息丢失(少框住部分有效文字区域)的问题。

发明内容

本发明的目的在于提供一种具有带姿态纠正的端到端商品价签文字识别方法，应用于渠道陈列、场景文字识别及类似场景，能够提升复杂场景文字识别的鲁棒性和效率。

为达此目的，本发明采用以下技术方案：

提供一种算法模型训练方法，包括：

具有带姿态纠正的端到端商品价签文字识别方法，包括：

步骤S1、获取商品价签图像并进行特征提取得到相应的特征图；

步骤S2、对所述特征图进行区域选取处理得到文字建议区域；

步骤S3、对所述文字建议区域进行分割处理得到处理后的文字建议区域，并将所述处理后的文字建议区域进行图形外扩处理得到文字特征图；

步骤S4、对所述文字特征图进行关键点检测处理得到多个包围所述文字特征图的关键点；

步骤S5、根据所述多个关键点并利用薄板样条插值，对所述文字特征图进行姿态矫正处理得到固定大小且水平的待处理特征图；

步骤S6、对所述待处理特征图进行文字化处理得到相应的文字。

作为具有带姿态纠正的端到端商品价签文字识别方法的一种优选方案，所述步骤S1中，利用深度学习网络对所述商品价签图像进行特征提取，以提取文字特征得到多维的所述特征图。

作为具有带姿态纠正的端到端商品价签文字识别方法的一种优选方案，.所述步骤S2中，利用RPN网络对所述特征图进行所述区域选取处理得到所述文字建议区域及其外接矩形框位置。

作为具有带姿态纠正的端到端商品价签文字识别方法的一种优选方案，所述步骤S3中，所述分割处理的具体步骤包括：

步骤S31、对所述文字建议区域进行去重处理和上采样处理得到至少一个高分辨率区域，所述高分辨率区域的分辨率高于所述文字建议区域的分辨率；

步骤S32、分别对每个所述高分辨率区域进行逐像素分割处理得到分割概率图像和所述分割概率图像中每个像素点的属性概率信息，所述属性概率信息用于表示所述像素点是否为文字以及为文字的概率值；

步骤S33、分别对每个所述分割概率图像进行区域得分计算处理得到所述分割概率图像中所有属性为文字的像素点的所述概率值的平均值，分别判断每个所述分割概率图像对应的所述平均值是否大于预设阈值：

若判断结果为是，则保留所述分割概率图像；

若判断结果为否，则删除所述分割概率图像。

作为具有带姿态纠正的端到端商品价签文字识别方法的一种优选方案，所述步骤S3中，所述图形外扩处理的具体步骤包括：

步骤S34、根据所述分割概率图像的长宽尺寸，并按照预设比例对所述分割概率图像进行外扩，得到外扩后的所述分割概率图像及包围外扩后的所述分割概率图像的***部分图像作为所述文字特征图。

作为具有带姿态纠正的端到端商品价签文字识别方法的一种优选方案，所述步骤S4中，利用带注意力机制的关键点检测对所述文字特征图进行所述关键点检测处理得到多个包围关注的所述文字特征图的所述关键点。

作为具有带姿态纠正的端到端商品价签文字识别方法的一种优选方案，所述步骤S5中，根据所述多个关键点并利用薄板样条插值，约束所述文字特征图中实际需要使用的特征区域，并滤除无关的干扰特征信息得到所述待处理特征图，实际需要使用的特征区域为注意力机制关心的有效文字段，无关的干扰特征信息为环绕有效文字段的无效文字段，所述待处理特征图为固定大小的水平特征区域。

作为具有带姿态纠正的端到端商品价签文字识别方法的一种优选方案，所述步骤S6中，所述文字化处理的具体步骤包括：

步骤S61、对所述待处理特征图进行编码转换处理得到一固定长度的特征序列；

步骤S62、利用注意力机制和BLSTM计算固定长度的特征序列的输出特征；

步骤S63、对输出特征进行解码处理得到可理解的文字。

本发明还提供了一种具有带姿态纠正的端到端商品价签文字识别***，可实现上述的端到端商品价签文字识别方法，包括：

特征提取模块，用于获取商品价签图像并进行特征提取得到相应的特征图；

文字区域切取模块，用于对所述特征图进行区域选取处理得到文字建议区域，对所述文字建议区域进行分割处理得到处理后的文字建议区域，并将所述处理后的文字建议区域进行图形外扩处理得到文字特征图；

关键点检测模块，用于对所述文字特征图进行关键点检测处理得到多个包围所述文字特征图的关键点；

姿态校正模块，用于根据所述多个关键点并利用薄板样条插值，对所述文字特征图进行姿态矫正处理得到待处理特征图；

文字化模块，用于对所述待处理特征图进行文字化处理得到相应的文字。

作为具有带姿态纠正的端到端商品价签文字识别***的一种优选方案，所述***基于预设的处理模型进行商品价签文字识别，并根据识别过程和识别结果更新优化所述处理模型。

本发明的有益效果：从商品价签图像中提取特征图后，直接对特征图进行处理得到处理后的文字建议区域以进行后续的文字化处理，只需进行一次特征提取，有效提高文字识别的效率；

得到文字建议区域后，进行文字分割处理得到包含有效文字段的处理后的文字建议区域，并进行图形外扩处理得到文字特征图，改善因文字部分特征丢失而影响识别结果的问题，提升复杂场景文字识别的鲁棒性和效率；

对文字特惠总能图进行关键点检测获取包围文字特征图的多个关键点，基于这些关键点并利用薄板样条插值将文字特征图对应的文字姿态调整到水平方向，得到固定大小且水平的待处理特征图，能够识别不同方向和曲线形文字，提升复杂场景文字识别的鲁棒性和效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例所述的具有带姿态纠正的端到端商品价签文字识别方法的流程图。

图2是本发明另一实施例所述的步骤S3的流程图；

图3是本发明一实施例所述的步骤S6的流程图；

图4是本发明一实施例所述的具有带姿态纠正的端到端商品价签文字识别***的功能模块示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

如图1所示，本发明实施例提供的一种具有带姿态纠正的端到端商品价签文字识别方法，包括：

步骤S2、对上述特征图进行区域选取处理得到文字建议区域；

步骤S3、对上述文字建议区域进行分割处理得到处理后的文字建议区域，并将上述处理后的文字建议区域进行图形外扩处理得到文字特征图；

步骤S4、对上述文字特征图进行关键点检测处理得到多个包围上述文字特征图的关键点；

步骤S5、根据上述多个关键点并利用薄板样条插值，对上述文字特征图进行姿态矫正处理得到固定大小且水平的待处理特征图；

步骤S6、对上述待处理特征图进行文字化处理得到相应的文字。

在本实施例中，从商品价签图像中提取特征图后，直接对特征图进行处理得到处理后的文字建议区域以进行后续的文字化处理，只需进行一次特征提取，有效提高文字识别的效率；

对文字特征图进行关键点检测获取包围文字特征图的多个关键点，基于这些关键点并利用薄板样条插值将文字特征图对应的文字姿态调整到水平方向，得到固定大小且水平的待处理特征图，能够识别不同方向和曲线形文字，提升复杂场景文字识别的鲁棒性和效率。

进一步的，上述步骤S1中，利用深度学习网络对上述商品价签图像进行特征提取，以提取文字特征得到多维的上述特征图。

进一步的，上述步骤S2中，利用RPN网络对上述特征图进行上述区域选取处理得到上述文字建议区域及其外接矩形框位置。

具体的，利用一个回归分支得到文字建议区域的外接矩形框位置，

如图2所示，进一步的，上述步骤S3中，上述分割处理的具体步骤包括：

步骤S31、对上述文字建议区域进行去重处理和上采样处理得到至少一个高分辨率区域，上述高分辨率区域的分辨率高于上述文字建议区域的分辨率；

步骤S32、分别对每个上述高分辨率区域进行逐像素分割处理得到分割概率图像和上述分割概率图像中每个像素点的属性概率信息，上述属性概率信息用于表示上述像素点是否为文字以及为文字的概率值；

步骤S33、分别对每个上述分割概率图像进行区域得分计算处理得到上述分割概率图像中所有属性为文字的像素点的上述概率值的平均值，分别判断每个上述分割概率图像对应的上述平均值是否大于预设阈值：

若判断结果为是，则保留上述分割概率图像；

若判断结果为否，则删除上述分割概率图像。

具体的，利用另外一个分割分支得到每个像素点是否是文字的分割图及其对应的概率图(分割图和概率图统称为分割概率图像)；

然后根据每个文字建议区域内属于文字的像素点的概率值得分，计算该文字建议区域的平均得分，保留得分高于某个阈值的文字建议区域。

进一步的，上述步骤S3中，上述图形外扩处理的具体步骤包括：

如图2所示，步骤S34、根据上述分割概率图像的长宽尺寸，并按照预设比例对上述分割概率图像进行外扩，得到外扩后的上述分割概率图像及包围外扩后的上述分割概率图像的***部分图像作为上述文字特征图。

具体的，根据文字建议区域的长宽尺寸，进行一定比例扩张，然后切取扩张后的文字建议区域(即文字特征图)输入到下一个阶段。

进一步的，上述步骤S4中，利用带注意力机制的关键点检测对上述文字特征图进行上述关键点检测处理得到多个包围关注的上述文字特征图的上述关键点。

具体的，根据切取的文字建议区域特征(即文字特征图)，利用一个带注意力机制的关键点检测网络，检测k个包围关注的文字特征图的关键点。

进一步的，上述步骤S5中，根据上述多个关键点并利用薄板样条插值，约束上述文字特征图中实际需要使用的特征区域，并滤除无关的干扰特征信息得到上述待处理特征图，实际需要使用的特征区域为注意力机制关心的有效文字段，无关的干扰特征信息为环绕有效文字段的无效文字段，上述待处理特征图为固定大小的水平特征区域。

具体的，根据k个关键点，利用薄板样条插值将感兴趣的特征图区域(即文字特征图)变换到一个固定大小的水平特征区域；

如图3所示，进一步的，上述步骤S6中，上述文字化处理的具体步骤包括：

步骤S61、对上述待处理特征图进行编码转换处理得到一固定长度的特征序列；

步骤S63、对输出特征进行解码处理得到可理解的文字。

具体的，然后利用一个编码器+LSTM+attention识别对应的文字。

如图4所示，一种具有带姿态纠正的端到端商品价签文字识别***，包括：

特征提取模块1，用于获取商品价签图像并进行特征提取得到相应的特征图，主要是基于输入的商品价签图像，利用一个卷积神经网络提取文字特征，其输出是一张多维特征图；

文字区域切取模块2，用于对上述特征图进行区域选取处理得到文字建议区域，对上述文字建议区域进行分割处理得到处理后的文字建议区域，并将上述处理后的文字建议区域进行图形外扩处理得到文字特征图；

关键点检测模块3，用于对上述文字特征图进行关键点检测处理得到多个包围上述文字特征图的关键点；

姿态校正模块4，用于根据上述多个关键点并利用薄板样条插值，对上述文字特征图进行姿态矫正处理得到待处理特征图；

文字化模块5，用于对上述待处理特征图进行文字化处理得到相应的文字。

进一步的，文字区域切取模块2包括：

文字区域建议单元21，根据提取到的特征图，利用一个RPN网络得到文字建议区域的外接矩形框位置；

nms单元22，对得到的文字建议区域进行去重处理；

上采样单元23，主要是为了将低分辨率的特征变换到高分辨率的特征，以便之后对文字区域进行分割处理；

分割单元24，根据上菜样单元得到的特征图进行逐像素分割，确定每个像素是否属于文字区域及其概率；

得分计算单元25，针对每个文字建议区域，计算其内部包含的所有属于文字的像素点的平均概率，作为该文字建议区域的得分；

文字区域切取单元26，针对前述过程得到的每个得分高于某个阈值的文字建议区域，根据其长宽尺寸按照一定比例进行外扩，切取包含文字建议区域及其***部分区域的特征图作为输入到下一阶段的文字特征图；其中扩展比例因子与文字建议区域的尺寸成反比。

进一步的，关键点检测模块3检测输入的文字特征图中关注的文字区域的***关键点，以约束实际需要使用的特征区域，主要是为了滤除无关的干扰特征信息。因为，输入的文字特征图可能包含了所关心文字段周边其它文字段的部分特征信息。关键点检测模块3包括：

第一注意力单元31，计算注意力参数，用于控制关键点预测时关注的区域；

关键点检测单元32，根据得到的关键点，利用薄板样条插值将输入特征图变换到一个固定大小的输出特征图；

进一步的，文字化模块5包括：

编码单元51，将固定大小的特征图编码转换成一个固定长度的特征序列；

第二注意力单元52和BLSTM单元53，利用注意力单元和BLSTM单元计算得到输出特征；

解码单元54，将输出特征转录成可理解的文字。

进一步的，上述***基于预设的处理模型进行商品价签文字识别，并根据识别过程和识别结果更新优化上述处理模型。在模型训练过程中，文字矩形框检测、文字分割检测和文字识别都参与loss计算，通过多任务训练提升性能。

文字检测和文字识别复用特征提取器，可有效提升识别效率；

利用一个带自适应扩张功能的文字区域切取模块，可改善因文字部分特征丢失而影响识别结果的问题；

利用一个带注意力机制的文字关键点检测模块，可缓解切取的感兴趣文字特征区域中多余文字区域的影响；

基于检测到的文字关键点，利用薄板样条插值纠正文字姿态到水平方向，提升识别效果。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种具有带姿态纠正的端到端商品价签文字识别方法，其特征在于，包括：

步骤S6、对所述待处理特征图进行文字化处理得到相应的文字；

所述步骤S4中，利用带注意力机制的关键点检测对所述文字特征图进行所述关键点检测处理得到多个包围关注的所述文字特征图的所述关键点；

所述步骤S5中，根据所述多个关键点并利用薄板样条插值，约束所述文字特征图中实际需要使用的特征区域，并滤除无关的干扰特征信息得到所述待处理特征图，实际需要使用的特征区域为注意力机制关心的有效文字段，无关的干扰特征信息为环绕有效文字段的无效文字段，所述待处理特征图为固定大小的水平特征区域。

2.根据权利要求1的具有带姿态纠正的端到端商品价签文字识别方法，其特征在于，所述步骤S1中，利用深度学习网络对所述商品价签图像进行特征提取，以提取文字特征得到多维的所述特征图。

3.根据权利要求1的具有带姿态纠正的端到端商品价签文字识别方法，其特征在于，所述步骤S2中，利用RPN网络对所述特征图进行所述区域选取处理得到所述文字建议区域及其外接矩形框位置。

4.根据权利要求1的具有带姿态纠正的端到端商品价签文字识别方法，其特征在于，所述步骤S3中，所述分割处理的具体步骤包括：

步骤S31、对所述文字建议区域进行去重处理和上采样处理得到至少一个高分辨率区域，所述高分辨区域的分辨率高于所述文字建议区域的分辨率；

步骤S32、分别对每个所述高分辨率区域进行逐像素分割处理得到分割概率图像和所述分割改图图像中每个像素点的属性概率信息，所述属性概率信息用于表示所述像素点是否为文字以及为文字的概率值；

若判断结果为是，则保留所述分割概率图像；

若判断结果为否，则删除所述分割概率图像。

5.根据权利要求4的具有带姿态纠正的端到端商品价签文字识别方法，其特征在于，所述步骤S3中，所述图形外扩处理的具体步骤包括：

6.根据权利要求1的具有带姿态纠正的端到端商品价签文字识别方法，其特征在于，所述步骤S6中，所述文字化处理的具体步骤包括：

步骤S63、对输出特征进行解码处理得到可理解的文字。

7.一种具有带姿态纠正的端到端商品价签文字识别***，可实现如权利要求1-6任意一项的所述端到端商品价签文字识别方法，其特征在于，包括：

8.根据权利要求7的具有带姿态纠正的端到端商品价签文字识别***，其特征在于，所述***基于预设的处理模型进行商品价签文字识别，并根据识别过程和识别结果更新优化所述处理模型。