CN110689005A

CN110689005A - 一种基于深度学习融合位置和形状信息的商品识别方法

Info

Publication number: CN110689005A
Application number: CN201910839082.1A
Authority: CN
Inventors: 孔海洋
Original assignee: Shanghai Zero-Eye Intelligent Technology Co Ltd
Current assignee: Shanghai Zero-Eye Intelligent Technology Co Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2020-01-14

Abstract

本发明公开了一种基于深度学习融合位置和形状信息的商品识别方法，涉及计算机视觉和智能识别技术领域，所述方法包括以下步骤：首先采用目标检测算法检测检出商品图中的所有目标商品；然后根据检出的bounding box计算所述检出商品图中目标商品的形状信息和位置信息；接着建立基于深度学习融合商品位置和形状的算法模型；最后利用所述目标商品的图像特征、形状信息和位置信息训练所述算法模型，并不断验证得到最终的商品识别算法模型。本发明通过在算法模型中加入商品的形状信息和位置信息，保留了商品的原始形状信息和商品间的协同关系，从而显著提高商品分类识别的效果。

Description

一种基于深度学习融合位置和形状信息的商品识别方法

技术领域

本发明涉及计算机视觉和智能识别技术领域，尤其涉及一种基于深度学习融合位置和形状信息的商品识别方法。

背景技术

计算机视觉技术已经逐渐渗透我们的日常生活，通过人工智能识别技术使得机器能够准确识别各种物体，而其中一类重要的计算机视觉应用是进行商品识别。商品识别与深度学习理论密切相关，随着深度学习的兴起，包括人脸识别、图像分类与物体检测在内的方向都取得了很多重要的进展。

商品识别主要是针对超市的货架和冰柜上的商品进行识别，具有以下的典型特点：一是商品识别的对象数量庞大，通常一张图上可能有上百个商品；二是商品识别的对象种类繁多，相比于通用物品的识别，商品识别中仅一个饮料类别已达上万个种类。针对上述问题，目前业界的通用做法是将整个商品识别分成两个阶段，第一阶段先将商品归为一个类别，该阶段只进行商品的检出；第二阶段再对检出的商品进一步分类，本发明即是对第二阶段检出商品的分类进行针对性的改进。

现有的针对检出商品的分类算法通常仅将商品本身的图像信息拉伸成固定形状，以此作为卷积神经网络的输入来提取特征，再将提取到的特征作为全连接网络的输入来进行分类。但在这个过程中，一方面商品的形状和大小信息在建模中被粗暴地拉伸成固定比例，破坏了商品的原始形状，影响分类效果；另一方面对于商品的位置信息，在建模过程中通常仅使用了图像本身的特征而割裂了货架或冰柜上商品之间的协同关系，从而导致分类结果不尽人意。

因此，本领域的技术人员致力于开发一种基于深度学习融合位置和形状信息的商品识别方法，通过在算法模型中加入商品的形状信息和位置信息，重新将商品的关键特征信息和各商品间的协同关系考虑在内，对提高商品识别的效果有显著作用。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是克服现有技术中破坏待识别商品的原始形状、丢失的商品宽高比信息、割裂的商品间协同关系而导致识别准确性较低的问题。

为实现上述目的，本发明提供了一种基于深度学习融合位置和形状信息的商品识别方法，其特征在于，所述方法包括以下步骤：

步骤1、采用目标检测算法检测检出商品图中的所有目标商品；

步骤2、根据检出的bounding box计算所述检出商品图中目标商品的形状信息和位置信息；

步骤3、建立基于深度学习融合商品位置和形状信息的算法模型；

步骤4、利用所述目标商品的图像特征、形状信息和位置信息训练所述算法模型，并不断验证得到最终的商品识别算法模型。

进一步地，所述步骤2中的目标商品的形状信息包括高度、宽度、宽高比。

进一步地，所述步骤2中的目标商品的位置信息包括四角坐标、中心点坐标。

进一步地，所述目标商品的位置信息被配置为所述检出商品图中目标商品的位置。

进一步地，所述步骤3中的融合商品位置和形状的算法模型被配置为根据所述目标商品的bounding box将其逐个从所述检出商品图中切出，得到所述目标商品的切出图。

进一步地，所述目标商品的切出图resize后的图像块大小为224×224。

进一步地，所述步骤3中的融合商品位置和形状的算法模型被配置为卷积神经网络结构，包括ResNet、VGG、GoogLeNet、DenseNet等网络结构。

进一步地，所述步骤3中的融合商品位置和形状的算法模型被配置为将所述目标商品的图像特征、形状信息、位置信息并联拼接作为所述目标商品的全部特征。

进一步地，所述目标商品的形状信息和位置信息还需进行归一化处理。

进一步地，所述步骤3中的融合商品位置和形状的算法模型被配置为将所述目标商品的全部特征输入至全连接网络中。

与现有技术相比，通过本发明的实施，至少具有以下有益的技术效果：

(1)本发明提供的一种基于深度学习融合位置和形状信息的商品识别方法，通过在算法模型中加入商品本身的宽度、高度及宽高比信息，保留了商品的原始形状和关键特征信息；

(2)本发明提供的一种基于深度学习融合位置和形状信息的商品识别方法，通过在算法模型中加入商品检出图中目标商品的位置信息，在自身特征之外，重新将各商品间的协同关系考虑在内，显著地提高了商品识别的效果。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例提供的一种基于深度学习融合位置和形状信息的商品识别方法的流程图；

图2是本发明的一个较佳实施例提供的一个货架上商品识别的示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

如图1所示，为本发明的一个较佳实施例提供的一种基于深度学习融合位置和形状信息的商品识别方法的流程图，所述方法包括以下步骤：

通过检出商品图中目标商品的bounding box对所述目标商品进行定位，包括目标商品在检出商品图中的四角坐标、中心点坐标，将目标商品逐个从检出商品图中切出，得到目标商品的切出图，即若干个待分类的商品，目标商品所有切出图resize后的图像块大小均为224×224；通过目标商品的bounding box得到其高度和宽度信息，并据此得到目标商品的宽高比，将其进行归一化处理至0-1之间，作为一个输入特征，同时，通过目标商品的bounding box还能得到其在检出商品图中的位置坐标，并将所述位置坐标相应的对原始图像的宽、高进行归一化处理，作为另一个输入特征。

步骤3、建立基于深度学习融合商品位置和形状的算法模型；

本发明提供的基于深度学习融合商品位置和形状的算法模型被配置为卷积神经网络结构，为ResNet、VGG、GoogLeNet、DenseNet等网络结构中的一种；所述算法模型分别对目标商品的切出图、归一化处理后的目标商品的宽高比和目标商品在检出商品图中的位置坐标进行并联拼接，作为目标商品的全部特征，输入至全连接网络，最终实现对物品的分类识别功能。

步骤4、利用所述目标商品的图像特征、形状信息和位置信息训练所述算法模型，并不断验证得到最终的商品识别算法模型；

通过提取大量不同的目标商品的形状信息和位置信息训练所述算法模型，并利用已知类别的商品作为验证集数据对所述算法模型的效果进行评价，以实时跟踪模型效果，若得到所述算法模型的满意效果，即可投入到实际商品分类应用中，若得到所述算法模型的效果不够满意，则运用不同的目标商品的形状信息和位置信息重复训练所述算法模型，以获得最终的商品识别算法模型。

实施例

如图2所示，本实施例以一个货架上商品的检出识别为具体说明对象。

步骤1、运用目标检测算法检测货架商品图中的所有商品；

步骤2、通过货架商品图中所有商品的bounding box对各商品进行定位，本实施例中，以瓶装可乐作为目标商品之一，包括瓶装可乐商品在货架商品图中的四角坐标、中心点坐标，将瓶装可乐商品逐个从货架商品图中切出，得到瓶装可乐的切出图，即若干个待分类的瓶装可乐商品，瓶装可乐商品所有切出图resize后的图像块大小均为224×224；通过瓶装可乐的bounding box得到其高度和宽度信息，并据此得到瓶装可乐的宽高比，并将其进行归一化处理至0-1之间，作为一个输入特征，同时，通过瓶装可乐的bounding box还能得到其在检出商品图中的位置坐标，并将所述位置坐标进行归一化处理，作为另一个输入特征；

步骤3、本实施例中，所述算法模型被配置为ResNet101卷积神经网络结构，所述算法模型分别对根据瓶装可乐的切出图提取到的图像特征、归一化处理后的瓶装可乐的宽高比和瓶装可乐在检出商品图中的位置坐标归一化后的数据特征进行并联拼接，作为瓶装可乐商品的全部特征，输入至全连接网络，对其进行分类，最终输出瓶装可乐商品的类别为可乐；

步骤4、重复步骤1至步骤3，通过提取不同的瓶装可乐的图像特征、形状信息和位置信息训练所述算法模型，并利用已知类别的瓶装可乐作为验证集数据对所述算法模型的效果进行评价，以实时跟踪模型效果，若得到所述算法模型的满意效果，即可投入到实际商品分类应用中；若得到所述算法模型的效果不够满意，则继续运用不同的瓶装可乐的形状信息和位置信息重复训练所述算法模型，以获得最终的商品识别算法模型。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于深度学习融合位置和形状信息的商品识别方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的基于深度学习融合位置和形状信息的商品识别方法，其特征在于，所述步骤2中的目标商品的形状信息包括高度、宽度、宽高比。

3.如权利要求1所述的基于深度学习融合位置和形状信息的商品识别方法，其特征在于，所述步骤2中的目标商品的位置信息包括四角坐标、中心点坐标。

4.如权利要求3所述的基于深度学习融合位置和形状信息的商品识别方法，其特征在于，所述目标商品的位置信息被配置为所述检出商品图中目标商品的位置。

5.如权利要求1所述的基于深度学习融合位置和形状信息的商品识别方法，其特征在于，所述步骤3中的融合商品位置和形状的算法模型被配置为根据所述目标商品的bounding box将其逐个从所述检出商品图中切出，得到所述目标商品的切出图。

6.如权利要求5所述的基于深度学习的多摄像头采集图像的物品识别方法，其特征在于，所述目标商品的切出图resize后的图像块大小为224×224。

7.如权利要求1所述的基于深度学习融合位置和形状信息的商品识别方法，其特征在于，所述步骤3中的融合商品位置和形状的算法模型被配置为卷积神经网络结构，包括ResNet、VGG、GoogLeNet、DenseNet等网络结构。

8.如权利要求1所述的基于深度学习融合位置和形状信息的商品识别方法，其特征在于，所述步骤3中的融合商品位置和形状的算法模型被配置为将所述目标商品的图像特征、形状信息、位置信息并联拼接作为所述目标商品的全部特征。

9.如权利要求8所述的基于深度学习融合位置和形状信息的商品识别方法，其特征在于，所述目标商品的形状信息和位置信息还需进行归一化处理。

10.如权利要求8所述的基于深度学习融合位置和形状信息的商品识别方法，其特征在于，所述步骤3中的融合商品位置和形状的算法模型被配置为将所述目标商品的全部特征输入至全连接网络中。