CN109886105B

CN109886105B - 基于多任务学习的价格牌识别方法、***及存储介质

Info

Publication number: CN109886105B
Application number: CN201910033930.XA
Authority: CN
Inventors: 牟永强; 严蕤; 韩冉; 孙超; 刘荣杰; 黄耀鸿; 郭怡适
Original assignee: Imagedt Co ltd
Current assignee: Imagedt Co ltd
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2021-12-14
Anticipated expiration: 2039-01-15
Also published as: CN109886105A

Abstract

本发明公开了基于多任务学习的价格牌识别方法、***及存储介质，方法包括识别模型训练步骤和价格牌识别步骤。本发明将价格牌中的整数部分和小数部分分别进行训练以及识别，不但降低了神经网络训练的难度，而且可以将小数点的位置区分出来，提高了识别精度，可广泛应用于深度学习技术领域。

Description

基于多任务学习的价格牌识别方法、***及存储介质

技术领域

本发明涉及深度学习技术领域，尤其是基于多任务学习的价格牌识别方法、***及存储介质。

背景技术

近年来随着深度学习技术的迅速发展，其应用也是越来越广泛，从传统的安防领域，到近年来兴起的智慧零售领域都有其身影。渠道核查是快消新零售中的一个重要环节，传统的作业方式主要包括业务代表现场核查和第三方核查，这两种方式都有着其各自的缺点，例如人工误差大、核查周期长、数据误差无法追溯等。基于深度学习的图像识别技术有着精度高、场景可还原等特点，非常适合渠道核查的业务场景。基于图像的渠道核查主要包含两大识别内容，SKU识别和价格牌识别。价格作为销售数据的重要组成部分，基于图像的价格牌识别的精度要求很高，价格牌识别容易受价格牌外观设计样式、拍照质量等影响，如模糊、挺斜等因素的影响。

现有价格牌识别技术大部分都是将价格牌的各个部分，如整数部分、小数部分以及小数点作为一个整体，然后统一进行无差别的识别，但是由于价格牌的种类繁多，以及容易受光照、拍照角度的影响，其在图像中的特征不是非常明显，识别难度高，即使是使用了带上下文关系的序列识别算法，也很难定位小数点的位置，因此精确度不高。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种难度低且精确度高的，基于多任务学习的价格牌识别方法、***及存储介质。

本发明一方面所采取的技术方案为：

基于多任务学习的价格牌识别方法，包括识别模型训练步骤和价格牌识别步骤，其中，

所述识别模型训练步骤包括以下步骤：

根据价格牌的图像数据，检测价格牌上的价格信息；

根据价格牌上的价格信息，基于预设的数据格式对价格信息的整数部分和小数部分进行标注，得到价格数据；

对标注好的价格数据进行增强处理；

将增强处理后的价格数据输入预设的神经网络模型进行训练，得到识别模型；

所述价格牌识别步骤包括以下步骤：

通过目标检测模型对待识别图像中的价格牌位置进行检测，得到价格牌图像数据；

对价格牌图像数据进行预处理；

通过识别模型，对预处理后的价格牌图像数据进行识别，得到价格信息的整数部分识别结果和小数部分识别结果。

进一步，所述识别模型训练步骤，还包括以下步骤：

采集货架图像；

对采集到的货架图像进行检测，确认货架图像中价格牌区域的位置；

根据价格牌区域的位置，截取价格牌的图像数据。

进一步，所述对标注好的价格数据进行增强处理这一步骤中，所述增强处理包括亮度处理、对比度处理、旋转处理、缩放处理、平移处理、增加噪声处理、模拟运动模糊处理和模拟空间模糊处理。

进一步，所述将增强处理后的价格数据输入预设的神经网络模型进行训练，得到识别模型这一步骤，包括以下步骤：

通过卷积神经网络和LSTM网络对增强处理后的价格数据进行计算，得到价格的整数部分和小数部分；

通过LSTM网络分别计算整数部分和小数部分的特征向量；

通过Attention机制对LSTM网络计算得到的特征向量进行优化处理；

根据优化处理后的特征向量，分别计算整数部分和小数部分的损失函数；

根据计算得到的损失函数，得到识别模型。

进一步，所述通过卷积神经网络和LSTM网络对增强处理后的价格数据进行计算，得到价格的整数部分和小数部分这一步骤，包括以下步骤：

对增强处理后的价格数据进行规格化处理，得到待训练图片；

通过卷积神经网络提取待训练图片的特征图；

对特征图进行重构处理；

通过LSTM网络对重构处理后的特征图进行计算，得到价格的整数部分和小数部分。

进一步，所述通过LSTM网络分别计算整数部分和小数部分的特征向量这一步骤，包括以下步骤：

分别将整数部分的特征图和小数部分的特征图输入若干个LSTM网络；

通过LSTM网络计算特征之间的时序信息；

根据计算得到的时序信息，生成能够表达时序信息的特征图。

进一步，所述通过Attention机制对LSTM网络计算得到的特征向量进行优化处理这一步骤，包括以下步骤：

通过softmax对Attention机制的上下文注意力参数进行归一化处理，得到权重参数；

通过权重参数对LSTM网络计算得到的特征向量进行加权处理，得到新的特征向量。

本发明另一方面所采取的技术方案是：

基于多任务学习的价格牌识别***，包括：训练模块和识别模块，其中，

所述训练模块包括：

第一检测单元，用于根据价格牌的图像数据，检测价格牌上的价格信息；

标注单元，用于根据价格牌上的价格信息，基于预设的数据格式对价格信息的整数部分和小数部分进行标注，得到价格数据；

增强单元，用于对标注好的价格数据进行增强处理；

训练单元，用于将增强处理后的价格数据输入预设的神经网络模型进行训练，得到识别模型；

所述识别模块包括：

第二检测单元，用于通过目标检测模型对待识别图像中的价格牌位置进行检测，得到价格牌图像数据；

预处理单元，用于对价格牌图像数据进行预处理；

识别单元，用于通过识别模型，对预处理后的价格牌图像数据进行识别，得到价格信息的整数部分识别结果和小数部分识别结果。

本发明另一方面所采取的技术方案是：

基于多任务学习的价格牌识别***，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述的基于多任务学习的价格牌识别方法。

本发明另一方面所采取的技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述的基于多任务学习的价格牌识别方法。

本发明的有益效果是：本发明将价格牌中的整数部分和小数部分分别进行训练以及识别，不但降低了神经网络训练的难度，而且可以将小数点的位置区分出来，提高了识别精度。

附图说明

图1为本发明实施例的步骤流程图；

图2为本发明实施例的网络结构示意图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

本发明实施例提供了一种基于多任务学习的价格牌识别方法，包括识别模型训练步骤和价格牌识别步骤，其中，

所述识别模型训练步骤包括以下步骤：

根据价格牌的图像数据，检测价格牌上的价格信息；

对标注好的价格数据进行增强处理；

所述价格牌识别步骤包括以下步骤：

对价格牌图像数据进行预处理；

进一步作为优选的实施方式，所述识别模型训练步骤，还包括以下步骤：

采集货架图像；

根据价格牌区域的位置，截取价格牌的图像数据。

进一步作为优选的实施方式，所述对标注好的价格数据进行增强处理这一步骤中，所述增强处理包括亮度处理、对比度处理、旋转处理、缩放处理、平移处理、增加噪声处理、模拟运动模糊处理和模拟空间模糊处理。

进一步作为优选的实施方式，所述将增强处理后的价格数据输入预设的神经网络模型进行训练，得到识别模型这一步骤，包括以下步骤：

通过LSTM网络分别计算整数部分和小数部分的特征向量；

根据计算得到的损失函数，得到识别模型。

进一步作为优选的实施方式，所述通过卷积神经网络和LSTM网络对增强处理后的价格数据进行计算，得到价格的整数部分和小数部分这一步骤，包括以下步骤：

通过卷积神经网络提取待训练图片的特征图；

对特征图进行重构处理；

进一步作为优选的实施方式，所述通过LSTM网络分别计算整数部分和小数部分的特征向量这一步骤，包括以下步骤：

通过LSTM网络计算特征之间的时序信息；

进一步作为优选的实施方式，所述通过Attention机制对LSTM网络计算得到的特征向量进行优化处理这一步骤，包括以下步骤：

与方法相对应，本发明实施例还提供了一种基于多任务学习的价格牌识别***，包括：训练模块和识别模块，其中，

所述训练模块包括：

增强单元，用于对标注好的价格数据进行增强处理；

所述识别模块包括：

预处理单元，用于对价格牌图像数据进行预处理；

与方法相对应，本发明实施例还提供了一种基于多任务学习的价格牌识别***，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

与方法相对应，本发明实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述的基于多任务学习的价格牌识别方法。

下面结合说明书附图1，详细描述本发明基于多任务学习的价格牌识别方法的具体实施步骤：

(1)、采集价格牌数据，本发明中的价格牌数据主要来源于真实的货架图像，数据丰富多样，涵盖各种设计样式、角度变化、光照变化；

(2)、对所采集的货架图像进行检测，以便找出价格牌区域的位置；

(3)、训练数据标注，根据检测到的价格牌上的价格信息，人工标注价格牌的整数以及小数部分，在标注时，按照9位数补足数字，例如价格100.05，在标注时，整数和小数部分分别标记为100AAAAAA、05AAAAAAA；

(4)、本实施例经过以上步骤的处理，所生成的价格牌数据数量大约有4w张，为了进一步增加数据的多样性，本发明对上述真实数据进行了增强处理，主要包括，亮度、对比度、旋转、缩放、平移、增加噪声、模拟运动模糊、模拟空间模糊等几个方面；

(5)、将数据送入预先设计好的神经网络模型进行训练，训练模型直至模型收敛；

(6)、在实际使用阶段，首先通过目标检测模型，检测价格牌的位置并截取图片，预处理后输入步骤(5)中已经训练好的模型，输出价格牌的整数和小数部分，再分别去除填充字符，最后组合输出价格牌上的价格信息。

参照图2所示的网络结构，具体地，所述步骤(5)包括以下步骤：

S1、首先将训练数据规格化为96×200的图片，利用卷积神经网络提取图片的特征，得到图片的特征图，特征图的规格为12×25×64，再将特征图reshape到25×768，并以此为特征输入LSTM网络，计算价格牌图片中的整数和小数部分；

S2、对于图片中的整数部分，将上一级网络的提取的特征图，依次输入25个LSTM网络，每个网络的输入为1×768维度的特征向量；将25个特征向量通过LSTM网络分别从左到右连接和从右到左连接，计算特征之间的时序信息，最后得到能后表达序列信息的25×768特征图；

S3、通过LSTM网络计算得到的特征向量，存在的问题是：不论输入序列长短都会被编码成一个固定长度的向量表示，而解码则受限于该固定长度的向量表示，限制了模型的性能；为了更加准确的表达特征向量，本发明引入了Attention机制，其基本设计思想是是通过保留LSTM编码器对输入序列的中间输出结果，然后训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联，本发明提出的Attention机制的具体实现如下：

首先，输入特征向量c：c＝{c₁,c₂,......,c_L},L＝25，其中的c_i表示通过LSTM网络计算得到的某个空间位置特征；L表示输入特征序列的长度。

接着，设置Attention机制的上下文注意力参数e：

e_i＝f_ATT(h,c_i)

其中，f_ATT()代表权重映射函数；本实施例的函数f_ATT采用多层网络实现。c_i代表第i个通道的特征向量；h代表多层网络的隐藏状态参数。

然后，使用softmax进行归一化处理，得到权重参数a：

本实施例使用Attention机制后得到的特征c^t可以表示为：

最后输出经过Attention机制后得到的特征向量c^t。

S4、通过Attention机制学习后得到了1×768的特征向量c^t，对每一个LSTM网络单元的输出进行加权，分别计算整数部分9位数字的特征向量，再根据softmax loss计算分类损失；

其中，整数部分的网络损失函数L_int为：

z_i,j＝ω_i,jx+b_i,j

其中，M＝9表示整数部分输出的9位数字分别的损失；N表示参与训练的样本个数；y_i,j表示目标类别；s_i,j表示整数部分第j个训练样本第i个位置的softmax输出；

表示z_i，j的指数映射；

表示z_i,k的指数映射；z_i,j表示神经元的响应大小；K＝11表示分类的类别数；ω_i,j和b_i,j表示网络参数；x为网络的特征向量。

S5、小数部分的算法过程与整数部分相同，损失函数L_dec的计算方法也与整数部分相同，即：

本发明在网络训练时，同时计算整数部分和小数部分的损失函数，然后计算得到总的损失函数L为：

L＝L_int+L_dec；

最后，本发明通过反向传播误差，对网络参数进行动态更新，直至网络收敛时完成训练，得到最终的识别模型。

综上所述，本发明就现有价格牌识别技术中小数点位置难以区分的问题，提出将价格牌中的整数部分和小数部分分开识别来解决此问题，主要过程分为以下几个阶段，第一阶段是对输入的图像进行CNN特征提取；第二个阶段是使用LSTM对上一个阶段的特征进行序列表达；第三个阶段是使用注意力机制消除背景的干扰；最后一个阶段是将整数部分和小数部分进行多任务学习建模。本发明提出将价格牌中的数据分成两部分别识别，即整数和小数分开识别，并且使用端到端的多任务训练策略进行学习，这样不但降低了识别的难度，还可以对小数点的位置进行区分。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于多任务学习的价格牌识别方法，其特征在于：包括识别模型训练步骤和价格牌识别步骤，其中，

所述识别模型训练步骤包括以下步骤：

根据价格牌的图像数据，检测价格牌上的价格信息；

对标注好的价格数据进行增强处理；

所述将增强处理后的价格数据输入预设的神经网络模型进行训练，得到识别模型这一步骤，包括以下步骤：

通过LSTM网络分别计算整数部分和小数部分的特征向量；

根据计算得到的损失函数，得到识别模型；

所述价格牌识别步骤包括以下步骤：

对价格牌图像数据进行预处理；

2.根据权利要求1所述的基于多任务学习的价格牌识别方法，其特征在于：所述识别模型训练步骤，还包括以下步骤：

采集货架图像；

根据价格牌区域的位置，截取价格牌的图像数据。

3.根据权利要求1所述的基于多任务学***移处理、增加噪声处理、模拟运动模糊处理和模拟空间模糊处理。

4.根据权利要求1所述的基于多任务学习的价格牌识别方法，其特征在于：所述通过卷积神经网络和LSTM网络对增强处理后的价格数据进行计算，得到价格的整数部分和小数部分这一步骤，包括以下步骤：

通过卷积神经网络提取待训练图片的特征图；

对特征图进行重构处理；

5.根据权利要求1所述的基于多任务学习的价格牌识别方法，其特征在于：所述通过LSTM网络分别计算整数部分和小数部分的特征向量这一步骤，包括以下步骤：

通过LSTM网络计算特征之间的时序信息；

6.根据权利要求1所述的基于多任务学习的价格牌识别方法，其特征在于：所述通过Attention机制对LSTM网络计算得到的特征向量进行优化处理这一步骤，包括以下步骤：

7.基于多任务学习的价格牌识别***，其特征在于：包括：训练模块和识别模块，其中，

所述训练模块包括：

增强单元，用于对标注好的价格数据进行增强处理；

通过LSTM网络分别计算整数部分和小数部分的特征向量；

根据计算得到的损失函数，得到识别模型；

所述识别模块包括：

预处理单元，用于对价格牌图像数据进行预处理；

8.基于多任务学习的价格牌识别***，其特征在于：包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-6中任一项所述的基于多任务学习的价格牌识别方法。

9.一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-6中任一项所述的基于多任务学习的价格牌识别方法。