CN110689005A - 一种基于深度学习融合位置和形状信息的商品识别方法 - Google Patents
一种基于深度学习融合位置和形状信息的商品识别方法 Download PDFInfo
- Publication number
- CN110689005A CN110689005A CN201910839082.1A CN201910839082A CN110689005A CN 110689005 A CN110689005 A CN 110689005A CN 201910839082 A CN201910839082 A CN 201910839082A CN 110689005 A CN110689005 A CN 110689005A
- Authority
- CN
- China
- Prior art keywords
- commodity
- shape information
- target
- deep learning
- algorithm model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习融合位置和形状信息的商品识别方法,涉及计算机视觉和智能识别技术领域,所述方法包括以下步骤:首先采用目标检测算法检测检出商品图中的所有目标商品;然后根据检出的bounding box计算所述检出商品图中目标商品的形状信息和位置信息;接着建立基于深度学习融合商品位置和形状的算法模型;最后利用所述目标商品的图像特征、形状信息和位置信息训练所述算法模型,并不断验证得到最终的商品识别算法模型。本发明通过在算法模型中加入商品的形状信息和位置信息,保留了商品的原始形状信息和商品间的协同关系,从而显著提高商品分类识别的效果。
Description
技术领域
本发明涉及计算机视觉和智能识别技术领域,尤其涉及一种基于深度学习融合位置和形状信息的商品识别方法。
背景技术
计算机视觉技术已经逐渐渗透我们的日常生活,通过人工智能识别技术使得机器能够准确识别各种物体,而其中一类重要的计算机视觉应用是进行商品识别。商品识别与深度学习理论密切相关,随着深度学习的兴起,包括人脸识别、图像分类与物体检测在内的方向都取得了很多重要的进展。
商品识别主要是针对超市的货架和冰柜上的商品进行识别,具有以下的典型特点:一是商品识别的对象数量庞大,通常一张图上可能有上百个商品;二是商品识别的对象种类繁多,相比于通用物品的识别,商品识别中仅一个饮料类别已达上万个种类。针对上述问题,目前业界的通用做法是将整个商品识别分成两个阶段,第一阶段先将商品归为一个类别,该阶段只进行商品的检出;第二阶段再对检出的商品进一步分类,本发明即是对第二阶段检出商品的分类进行针对性的改进。
现有的针对检出商品的分类算法通常仅将商品本身的图像信息拉伸成固定形状,以此作为卷积神经网络的输入来提取特征,再将提取到的特征作为全连接网络的输入来进行分类。但在这个过程中,一方面商品的形状和大小信息在建模中被粗暴地拉伸成固定比例,破坏了商品的原始形状,影响分类效果;另一方面对于商品的位置信息,在建模过程中通常仅使用了图像本身的特征而割裂了货架或冰柜上商品之间的协同关系,从而导致分类结果不尽人意。
因此,本领域的技术人员致力于开发一种基于深度学习融合位置和形状信息的商品识别方法,通过在算法模型中加入商品的形状信息和位置信息,重新将商品的关键特征信息和各商品间的协同关系考虑在内,对提高商品识别的效果有显著作用。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是克服现有技术中破坏待识别商品的原始形状、丢失的商品宽高比信息、割裂的商品间协同关系而导致识别准确性较低的问题。
为实现上述目的,本发明提供了一种基于深度学习融合位置和形状信息的商品识别方法,其特征在于,所述方法包括以下步骤:
步骤1、采用目标检测算法检测检出商品图中的所有目标商品;
步骤2、根据检出的bounding box计算所述检出商品图中目标商品的形状信息和位置信息;
步骤3、建立基于深度学习融合商品位置和形状信息的算法模型;
步骤4、利用所述目标商品的图像特征、形状信息和位置信息训练所述算法模型,并不断验证得到最终的商品识别算法模型。
进一步地,所述步骤2中的目标商品的形状信息包括高度、宽度、宽高比。
进一步地,所述步骤2中的目标商品的位置信息包括四角坐标、中心点坐标。
进一步地,所述目标商品的位置信息被配置为所述检出商品图中目标商品的位置。
进一步地,所述步骤3中的融合商品位置和形状的算法模型被配置为根据所述目标商品的bounding box将其逐个从所述检出商品图中切出,得到所述目标商品的切出图。
进一步地,所述目标商品的切出图resize后的图像块大小为224×224。
进一步地,所述步骤3中的融合商品位置和形状的算法模型被配置为卷积神经网络结构,包括ResNet、VGG、GoogLeNet、DenseNet等网络结构。
进一步地,所述步骤3中的融合商品位置和形状的算法模型被配置为将所述目标商品的图像特征、形状信息、位置信息并联拼接作为所述目标商品的全部特征。
进一步地,所述目标商品的形状信息和位置信息还需进行归一化处理。
进一步地,所述步骤3中的融合商品位置和形状的算法模型被配置为将所述目标商品的全部特征输入至全连接网络中。
与现有技术相比,通过本发明的实施,至少具有以下有益的技术效果:
(1)本发明提供的一种基于深度学习融合位置和形状信息的商品识别方法,通过在算法模型中加入商品本身的宽度、高度及宽高比信息,保留了商品的原始形状和关键特征信息;
(2)本发明提供的一种基于深度学习融合位置和形状信息的商品识别方法,通过在算法模型中加入商品检出图中目标商品的位置信息,在自身特征之外,重新将各商品间的协同关系考虑在内,显著地提高了商品识别的效果。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例提供的一种基于深度学习融合位置和形状信息的商品识别方法的流程图;
图2是本发明的一个较佳实施例提供的一个货架上商品识别的示意图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。
如图1所示,为本发明的一个较佳实施例提供的一种基于深度学习融合位置和形状信息的商品识别方法的流程图,所述方法包括以下步骤:
步骤1、采用目标检测算法检测检出商品图中的所有目标商品;
步骤2、根据检出的bounding box计算所述检出商品图中目标商品的形状信息和位置信息;
通过检出商品图中目标商品的bounding box对所述目标商品进行定位,包括目标商品在检出商品图中的四角坐标、中心点坐标,将目标商品逐个从检出商品图中切出,得到目标商品的切出图,即若干个待分类的商品,目标商品所有切出图resize后的图像块大小均为224×224;通过目标商品的bounding box得到其高度和宽度信息,并据此得到目标商品的宽高比,将其进行归一化处理至0-1之间,作为一个输入特征,同时,通过目标商品的bounding box还能得到其在检出商品图中的位置坐标,并将所述位置坐标相应的对原始图像的宽、高进行归一化处理,作为另一个输入特征。
步骤3、建立基于深度学习融合商品位置和形状的算法模型;
本发明提供的基于深度学习融合商品位置和形状的算法模型被配置为卷积神经网络结构,为ResNet、VGG、GoogLeNet、DenseNet等网络结构中的一种;所述算法模型分别对目标商品的切出图、归一化处理后的目标商品的宽高比和目标商品在检出商品图中的位置坐标进行并联拼接,作为目标商品的全部特征,输入至全连接网络,最终实现对物品的分类识别功能。
步骤4、利用所述目标商品的图像特征、形状信息和位置信息训练所述算法模型,并不断验证得到最终的商品识别算法模型;
通过提取大量不同的目标商品的形状信息和位置信息训练所述算法模型,并利用已知类别的商品作为验证集数据对所述算法模型的效果进行评价,以实时跟踪模型效果,若得到所述算法模型的满意效果,即可投入到实际商品分类应用中,若得到所述算法模型的效果不够满意,则运用不同的目标商品的形状信息和位置信息重复训练所述算法模型,以获得最终的商品识别算法模型。
实施例
如图2所示,本实施例以一个货架上商品的检出识别为具体说明对象。
步骤1、运用目标检测算法检测货架商品图中的所有商品;
步骤2、通过货架商品图中所有商品的bounding box对各商品进行定位,本实施例中,以瓶装可乐作为目标商品之一,包括瓶装可乐商品在货架商品图中的四角坐标、中心点坐标,将瓶装可乐商品逐个从货架商品图中切出,得到瓶装可乐的切出图,即若干个待分类的瓶装可乐商品,瓶装可乐商品所有切出图resize后的图像块大小均为224×224;通过瓶装可乐的bounding box得到其高度和宽度信息,并据此得到瓶装可乐的宽高比,并将其进行归一化处理至0-1之间,作为一个输入特征,同时,通过瓶装可乐的bounding box还能得到其在检出商品图中的位置坐标,并将所述位置坐标进行归一化处理,作为另一个输入特征;
步骤3、本实施例中,所述算法模型被配置为ResNet101卷积神经网络结构,所述算法模型分别对根据瓶装可乐的切出图提取到的图像特征、归一化处理后的瓶装可乐的宽高比和瓶装可乐在检出商品图中的位置坐标归一化后的数据特征进行并联拼接,作为瓶装可乐商品的全部特征,输入至全连接网络,对其进行分类,最终输出瓶装可乐商品的类别为可乐;
步骤4、重复步骤1至步骤3,通过提取不同的瓶装可乐的图像特征、形状信息和位置信息训练所述算法模型,并利用已知类别的瓶装可乐作为验证集数据对所述算法模型的效果进行评价,以实时跟踪模型效果,若得到所述算法模型的满意效果,即可投入到实际商品分类应用中;若得到所述算法模型的效果不够满意,则继续运用不同的瓶装可乐的形状信息和位置信息重复训练所述算法模型,以获得最终的商品识别算法模型。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于深度学习融合位置和形状信息的商品识别方法,其特征在于,所述方法包括以下步骤:
步骤1、采用目标检测算法检测检出商品图中的所有目标商品;
步骤2、根据检出的bounding box计算所述检出商品图中目标商品的形状信息和位置信息;
步骤3、建立基于深度学习融合商品位置和形状信息的算法模型;
步骤4、利用所述目标商品的图像特征、形状信息和位置信息训练所述算法模型,并不断验证得到最终的商品识别算法模型。
2.如权利要求1所述的基于深度学习融合位置和形状信息的商品识别方法,其特征在于,所述步骤2中的目标商品的形状信息包括高度、宽度、宽高比。
3.如权利要求1所述的基于深度学习融合位置和形状信息的商品识别方法,其特征在于,所述步骤2中的目标商品的位置信息包括四角坐标、中心点坐标。
4.如权利要求3所述的基于深度学习融合位置和形状信息的商品识别方法,其特征在于,所述目标商品的位置信息被配置为所述检出商品图中目标商品的位置。
5.如权利要求1所述的基于深度学习融合位置和形状信息的商品识别方法,其特征在于,所述步骤3中的融合商品位置和形状的算法模型被配置为根据所述目标商品的bounding box将其逐个从所述检出商品图中切出,得到所述目标商品的切出图。
6.如权利要求5所述的基于深度学习的多摄像头采集图像的物品识别方法,其特征在于,所述目标商品的切出图resize后的图像块大小为224×224。
7.如权利要求1所述的基于深度学习融合位置和形状信息的商品识别方法,其特征在于,所述步骤3中的融合商品位置和形状的算法模型被配置为卷积神经网络结构,包括ResNet、VGG、GoogLeNet、DenseNet等网络结构。
8.如权利要求1所述的基于深度学习融合位置和形状信息的商品识别方法,其特征在于,所述步骤3中的融合商品位置和形状的算法模型被配置为将所述目标商品的图像特征、形状信息、位置信息并联拼接作为所述目标商品的全部特征。
9.如权利要求8所述的基于深度学习融合位置和形状信息的商品识别方法,其特征在于,所述目标商品的形状信息和位置信息还需进行归一化处理。
10.如权利要求8所述的基于深度学习融合位置和形状信息的商品识别方法,其特征在于,所述步骤3中的融合商品位置和形状的算法模型被配置为将所述目标商品的全部特征输入至全连接网络中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910839082.1A CN110689005A (zh) | 2019-09-05 | 2019-09-05 | 一种基于深度学习融合位置和形状信息的商品识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910839082.1A CN110689005A (zh) | 2019-09-05 | 2019-09-05 | 一种基于深度学习融合位置和形状信息的商品识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110689005A true CN110689005A (zh) | 2020-01-14 |
Family
ID=69107852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910839082.1A Pending CN110689005A (zh) | 2019-09-05 | 2019-09-05 | 一种基于深度学习融合位置和形状信息的商品识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110689005A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111223343A (zh) * | 2020-03-07 | 2020-06-02 | 上海中科教育装备集团有限公司 | 一种杠杆平衡实验人工智能评分实验器材及评分方法 |
CN111310729A (zh) * | 2020-03-16 | 2020-06-19 | 南京掌控网络科技有限公司 | 基于图像识别技术获取冰箱纯净度的方法及资产管理*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015210651A (ja) * | 2014-04-25 | 2015-11-24 | サントリーシステムテクノロジー株式会社 | 商品識別システム |
CN108447061A (zh) * | 2018-01-31 | 2018-08-24 | 深圳市阿西莫夫科技有限公司 | 商品信息处理方法、装置、计算机设备和存储介质 |
CN108764313A (zh) * | 2018-05-17 | 2018-11-06 | 西安电子科技大学 | 基于深度学习的超市商品识别方法 |
CN109961049A (zh) * | 2019-03-27 | 2019-07-02 | 东南大学 | 一种复杂场景下香烟品牌识别方法 |
CN110175590A (zh) * | 2019-05-31 | 2019-08-27 | 北京华捷艾米科技有限公司 | 一种商品识别方法及装置 |
-
2019
- 2019-09-05 CN CN201910839082.1A patent/CN110689005A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015210651A (ja) * | 2014-04-25 | 2015-11-24 | サントリーシステムテクノロジー株式会社 | 商品識別システム |
CN108447061A (zh) * | 2018-01-31 | 2018-08-24 | 深圳市阿西莫夫科技有限公司 | 商品信息处理方法、装置、计算机设备和存储介质 |
CN108764313A (zh) * | 2018-05-17 | 2018-11-06 | 西安电子科技大学 | 基于深度学习的超市商品识别方法 |
CN109961049A (zh) * | 2019-03-27 | 2019-07-02 | 东南大学 | 一种复杂场景下香烟品牌识别方法 |
CN110175590A (zh) * | 2019-05-31 | 2019-08-27 | 北京华捷艾米科技有限公司 | 一种商品识别方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111223343A (zh) * | 2020-03-07 | 2020-06-02 | 上海中科教育装备集团有限公司 | 一种杠杆平衡实验人工智能评分实验器材及评分方法 |
CN111223343B (zh) * | 2020-03-07 | 2022-01-28 | 上海中科教育装备集团有限公司 | 一种杠杆平衡实验人工智能评分实验器材及评分方法 |
CN111310729A (zh) * | 2020-03-16 | 2020-06-19 | 南京掌控网络科技有限公司 | 基于图像识别技术获取冰箱纯净度的方法及资产管理*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108549893B (zh) | 一种任意形状的场景文本端到端识别方法 | |
US20160155011A1 (en) | System and method for product identification | |
Marder et al. | Using image analytics to monitor retail store shelves | |
Cho et al. | 2D barcode detection using images for drone-assisted inventory management | |
CN113962274B (zh) | 一种异常识别方法、装置、电子设备及存储介质 | |
US11694440B2 (en) | Image processing techniques to quickly find a desired object among other objects from a captured video scene | |
CN116188475B (zh) | 一种外观缺陷自动光学检测的智慧控制方法、***及介质 | |
US11354549B2 (en) | Method and system for region proposal based object recognition for estimating planogram compliance | |
Reina et al. | Adaptive traffic road sign panels text extraction | |
CN114863464B (zh) | 一种pid图纸图件信息的二阶识别方法 | |
Liu et al. | Occlusion‐robust traffic sign detection via cascaded colour cubic feature | |
CN110689005A (zh) | 一种基于深度学习融合位置和形状信息的商品识别方法 | |
CN110619336A (zh) | 基于图像处理的货品识别算法 | |
CA3162655A1 (en) | Image processing based methods and apparatus for planogram compliance | |
CN117275011B (zh) | 一种商品识别与商品价签匹配方法、***、终端及介质 | |
CN110991201A (zh) | 条码检测方法及相关装置 | |
Zhang et al. | Fine detection and classification of multi-class barcode in complex environments | |
CN113591850A (zh) | 基于计算机视觉鲁棒性目标检测的两阶段商标检测法 | |
Sarker et al. | A fast and robust license plate detection algorithm based on two-stage cascade adaboost | |
Li et al. | Finely Crafted Features for Traffic Sign Recognition | |
Alaei et al. | Logo detection using painting based representation and probability features | |
CN111126384A (zh) | 基于特征融合的商品分类***及分类方法 | |
Achakir et al. | An automated AI-based solution for out-of-stock detection in retail environments | |
US20230088925A1 (en) | Visual Attribute Expansion via Multiple Machine Learning Models | |
Wang et al. | Recognition and distance estimation of an irregular object in package sorting line based on monocular vision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |