CN110674845A - 一种结合多感受野注意与特征再校准的菜品识别方法 - Google Patents

一种结合多感受野注意与特征再校准的菜品识别方法 Download PDF

Info

Publication number
CN110674845A
CN110674845A CN201910802205.4A CN201910802205A CN110674845A CN 110674845 A CN110674845 A CN 110674845A CN 201910802205 A CN201910802205 A CN 201910802205A CN 110674845 A CN110674845 A CN 110674845A
Authority
CN
China
Prior art keywords
spectrum
characteristic
feature
receptive
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910802205.4A
Other languages
English (en)
Other versions
CN110674845B (zh
Inventor
李宏亮
王晓朋
罗鹏飞
陶聚
王强
杨健榜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910802205.4A priority Critical patent/CN110674845B/zh
Publication of CN110674845A publication Critical patent/CN110674845A/zh
Application granted granted Critical
Publication of CN110674845B publication Critical patent/CN110674845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种结合多感受野注意与特征再校准的菜品识别方法,包括:提取出特征金字塔的特征谱;对特征谱进行两种不同尺度的卷积,得到两个不同感受野的特征谱;对两个不同感受野的特征谱进行相加再卷积得到融合感受野的特征谱;对融合感受野的特征谱进行softmax操作获得融合感受野的权重谱;将获得的融合感受野的权重谱与两个不同感受野特征谱相乘,得到两个不同的注意力谱;对融合感受野的特征谱通过可变形卷积进行特征校准,得到融合感受野的特征校准谱;特征金字塔的特征谱、不同注意力谱、特征校准谱都对相应的元素相加起来就得到的特征谱来进行菜品识别。处理后的特征谱能增加菜品的细节信息并让有效特征都分布在菜品位置上,能提升识别准确率。

Description

一种结合多感受野注意与特征再校准的菜品识别方法
技术领域
本发明涉及菜品图像识别技术。
背景技术
随着国家经济的发展,人们对饮食产生越来越多的关注,现在的人们不仅要求饮食健康美味,还要求辨认出餐厅中菜品的优劣,一些现代智能餐厅也要求结算时直接用机器识别菜品并结算,这样就能极大的提高餐厅效率。还有一些诸如重度视障患者等特殊人群需要一个能够指引自己就餐的智能眼镜,而这些需求的背后都需要以菜品识别技术为核心进行支撑。
具体到菜品图像识别领域,尤其是在种类和样式都十分丰富的中餐菜品识别领域,由于不同菜品之间的原材料、烹饪方式、以及厨师水平不同等因素,导致一些菜品外形相似度较高,而传统的基于图像特征手工提取方法由于表达能力的不足,训练中无法全面学习到不同菜品之间的特征,导致传统的图像识别技术难以识别相似菜品。而以卷积神经网络为核心的深度学习算法的蓬勃发展,为解决菜品图像识别问题提供一种新思路。
目前,基于深度学习的图像识别网络模型已经应用到了菜品图像识别领域,这类神经网络模型应用于菜品识别的方法主要有两类:一类是先利用目标检测算法检测出图像中是否有菜品,若有菜品则将菜品区域裁剪出来送入图像分类模型识别出菜品;另一类是利用目标检测算法如faster-rcnn、SSD、yolo等直接将菜品图像进行检测识别。这两种方法中第一种需要检测和分类两个模型分成两步进行串行计算,因而对设备的运行内存和运行时间要求较高,在实际应用中往往达不到人们的实时性要求。而第二种方法虽然运行速度比第一种方法快,但是网络模型是应用于通用目标的检测方面,通用目标之间的差异性较大,因而识别准确度较高。而不同菜品之间相似度较高,同种菜品之间由于颜色、烧制火候等不同导致类内差异大,故通用目标检测应用于菜品识别准确度不高。这就要求通用目标检测网络需要根据菜品图像的实际情况进行改进才能提高菜品的识别准确率,才能成功应用于菜品识别领域。
发明内容
本发明所要解决的技术问题是,针对现有的基于通用目标检测器应用于菜品识别时没有考虑到不同菜品的类间相似性以及类内差异性,提出了一种在通用目标检测网络的基础上增加多感受野注意以及特征再校准网络,从而提高菜品的识别准确率的方法。
本发明为解决上述技术问题所采用的技术方案是,一种结合多感受野注意与特征再校准的菜品识别方法,包括下列步骤:
第1步、提取出菜品特征金字塔的每个特征谱;
第2步、分别对每个特征谱进行两种不同尺度的卷积,得到两个不同感受野的特征谱;
第3步、对两个不同感受野的特征谱进行相加,对相加后的特征进行卷积得到融合感受野的特征谱;
第4步、对融合感受野的特征谱进行softmax操作,获得融合感受野的权重谱;
第5步、将获得的融合感受野的权重谱与第2步产生的两个不同感受野特征谱相乘,得到两个不同的注意力谱;
第6步、对第3步中得到的融合感受野的特征谱通过可变形卷积进行特征校准,得到融合感受野的特征校准谱;
第7步、将第1步中的特征谱、第5步中的两个不同注意力谱、第6步中的特征校准谱都对相应的元素相加起来就得到最终将要进行检测和分类的特征谱;
第8步,将第7步最终得到的特征谱进行检测和分类以完成菜品识别。
本发明的有益效果是,不同感受野的注意力谱以及融合特征校准过后的特征谱既能够增加菜品的细节信息也可以让有效特征都分布在菜品位置上。相比于通用目标检测方法,本方法能够有效提升菜品识别准确率,在实际应用中更具可行性。
附图说明
图1:本发明结合多感受野注意与特征再校准的流程图。
图2:本发明的菜品识别方法网络模型示意图。
具体实施方式
实施例主要在TX2嵌入式平台上进行实现,主要包括以下几个步骤:
步骤S1、构建菜品图像数据集
针对菜品识别问题,目前并没有公开的一张图像中包含多个中餐菜品的数据集,只有一些分类的菜品数据集,因此首先要从网络上收集符合要求的多菜品图像构建数据集,并对其中的图像进行归一化。在训练的时候训练集与验证集保持4:1的比例。
步骤S2、构建菜品识别算法网络模型
菜品识别网络结构如图2所示,实施例的整个网络是基于RefineDet通用目标检测网络进行改进来实现菜品识别,其中RefineDet网络模型具体可参考文献《S.Zhang,L.Wen,X.Bian,Z.Lei,S.Z.Li.Single-Shot Refinement Neural Network for ObjectDetection.In CVPR,2018》,菜品识别网络主要包括:特征提取部分、锚框改进部分ARM、特征转换连接部分TCB、结合多感受野注意与特征再校准的特征生成部分CMFR、目标检测部分ODM。其中特征提取部分、锚框改进部分ARM、特征转换连接部分TCB和目标检测部分ODM均可为现有目标目标检测网络的结构。结合多感受野注意与特征再校准的特征生成部分CMFR为本发明新增。
特征提取部分主要应用基础网络VGG16,将VGG16的fc6层由全连接层转变成3*3的卷积,将fc7层转变成1*1的卷积层,删除dropout层和fc8层,这样就可以利用VGG16在ImageNet数据集训练出的模型作为菜品识别的预训练模型。
锚框改进部分ARM主要是由3个不同尺寸的特征谱构成的特征金字塔,其中第一个特征谱是VGG16的conv5_3层,其尺寸大小为20*20,第二个特征谱是VGG16转变成卷积层的fc7,尺寸为10*10,第三个特征谱是在fc7基础上继续用3*3卷积两次之后得到的特征谱,其尺寸大小为5*5。将得到的特征进行变换之后通过MultiboxLoss层进行训练,其中ARM部分的损失函数是:
Figure BDA0002182644930000031
其中i表示一个mini-batch中的第i个anchor框,
Figure BDA0002182644930000032
表示第i个anchor框的真实标注类别,表示第i个真实框的位置和大小,pi表示置信度,xi表示ARM中anchor框的坐标,Narm表示ARM中正样本框的数量,Lb表示二值分类(有目标\没目标),Lr表示回归损失。当条件是真时,
Figure BDA0002182644930000034
返回1否则为0,如果Narm=0,则
Figure BDA0002182644930000035
Figure BDA0002182644930000036
ARM部分主要是对特征做一个有无菜品的二分类,它的作用是把识别并删除负样本框,以减少分类器的搜索空间,并且粗略调整锚框的位置和大小,为后续梯控更好的初始化和回归。
特征转换连接部分TCB主要是将ARM中的特征对应的前一个特征进行尺度为3*3,步长为2的卷积,本身对应特征进行尺度为3*3,步长为1的卷积和后向特征进行尺度为2*2,步长为2的反卷积,再将上述三个特征融合起来即为TCB。TCB的主要作用是将ARM中的特征传输到ODM中用以进一步预测位置、大小和类别,这部分是做特征转换操作。
目标检测部分ODM主要是将上述TCB部分的特征进行一个3*3卷积得到的相应的三个特征金字塔,然后对特征金字塔通过MultiboxLoss层进行检测和分类训练。
步骤S3、应用结合多感受野注意与特征再校准的特征生成部分CMFR执行的步骤,如图1所示:
由于输入至ODM菜品特征是粗略的没有包含过多的细粒度信息,因此,需要对菜品特征作进一步的操作以使它包含丰富的细节信息。而应用本发明提出的结合多感受野注意与特征再校准的方法就可以有效提高菜品特征谱的细粒度信息。具体步骤为:
步骤S301:对待输入CMFR的特征谱分别进行3*3和5*5的卷积,得到两个不同感受野的特征谱X1和X2,其中X1=W1*X,X2=W2*X,X为输入CMFR的特征谱,需要说明的是这里不同尺度感受野考虑到模型的参数和大小,可以只进行两个卷积,也可以进行更多卷积;
步骤S302:对两个不同感受野的特征谱按每个元素逐个相加即X1+X2,然后对相加的特征谱进行一个3*3的卷积,得到一个融合了两个不同尺度感受野的融合特征谱X3=W3*(X1+X2);
步骤S303:对融合的特征谱X3进行softmax操作,获得融合感受野的权重谱Z=F(X3),F为softmax函数;
步骤S304:将获得的融合感受野权重谱Z与步骤S301产生的两个不同感受野特征谱X1和X2按相应的元素进行逐个相乘,得到两个不同的注意力谱A1=X1*Z,A2=X2*Z,A1、A2主要是增加菜品特征谱的细节信息;
步骤S305:对步骤S302中得到的融合感受野的特征谱X3运用尺度为3*3的可变形卷积进行特征的校准,得到融合感受野的特征校准谱X4=Wdeform*X3,可变形卷积操作主要是让融合特征谱的有效信息重新分布在菜品位置上,即特征的再校准;Wdeform为3*3尺度可形变卷积学习的权重;
步骤S306:将输入CMFR的特征谱X、步骤S304中的两个不同注意力谱A1和A2、步骤S305中的特征校准谱X4都将对相应的元素逐个相加起来就得到最终将要输入至ODM中进行检测和分类的特征谱S,其中S=X+A1+A2+X4;
步骤S4、将特征谱S输入至ODM进行最终的检测和分类。其中ODM的训练损失函数是:
Figure BDA0002182644930000041
其中i表示一个mini-batch中的第几个anchor框,
Figure BDA0002182644930000042
表示第i个anchor框的真实标注类别,
Figure BDA0002182644930000043
表示第i个真实框的位置和大小,ci表示预测类别,ti表示ODM中预测框的坐标信息,Nodm表示ODM中正样本框的数量,Lm表示多类别分类(即预测每个类别概率),Lr表示回归损失。当条件是真时,
Figure BDA0002182644930000044
返回1否则为0,如果Nodm=0,则
Figure BDA0002182644930000045
因此菜品识别模型的最终训练损失函数是Larm与Lodm的和,即:
L({pi},{xi},{ci},{ti})=Larm({pi},{xi})+Lodm({ci},{ti}) (3)
其中Larm是步骤S2中ARM部分进行训练的损失函数,Lodm是应用ODM部分应用步骤S3后进行训练的损失函数。

Claims (1)

1.一种结合多感受野注意与特征再校准的菜品识别方法,其特征在于,包括下列步骤:
第1步、菜品识别网络提取出菜品特征金字塔的每个特征谱;
第2步、分别对每个特征谱进行两种不同尺度的卷积,得到两个不同感受野的特征谱;
第3步、对两个不同感受野的特征谱进行相加,对相加后的特征进行卷积得到融合感受野的特征谱;
第4步、对融合感受野的特征谱进行softmax操作,获得融合感受野的权重谱;
第5步、将获得的融合感受野的权重谱与第2步产生的两个不同感受野特征谱相乘,得到两个不同的注意力谱;
第6步、对第3步中得到的融合感受野的特征谱通过可变形卷积进行特征校准,得到融合感受野的特征校准谱;
第7步、将第1步中的特征谱、第5步中的两个不同注意力谱、第6步中的特征校准谱都对相应的元素相加起来就得到最终将要进行检测和分类的特征谱;
第8步,将第7步最终得到的特征谱进行检测和分类以完成菜品识别。
CN201910802205.4A 2019-08-28 2019-08-28 一种结合多感受野注意与特征再校准的菜品识别方法 Active CN110674845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910802205.4A CN110674845B (zh) 2019-08-28 2019-08-28 一种结合多感受野注意与特征再校准的菜品识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910802205.4A CN110674845B (zh) 2019-08-28 2019-08-28 一种结合多感受野注意与特征再校准的菜品识别方法

Publications (2)

Publication Number Publication Date
CN110674845A true CN110674845A (zh) 2020-01-10
CN110674845B CN110674845B (zh) 2022-05-31

Family

ID=69075650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910802205.4A Active CN110674845B (zh) 2019-08-28 2019-08-28 一种结合多感受野注意与特征再校准的菜品识别方法

Country Status (1)

Country Link
CN (1) CN110674845B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274972A (zh) * 2020-01-21 2020-06-12 北京妙医佳健康科技集团有限公司 基于度量学习的菜品识别方法及装置
CN113781439A (zh) * 2020-11-25 2021-12-10 北京医准智能科技有限公司 超声视频病灶分割方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080071710A1 (en) * 2006-09-01 2008-03-20 Massachusetts Institute Of Technology High-performance vision system exploiting key features of visual cortex
CN102999909A (zh) * 2012-11-19 2013-03-27 西安电子科技大学 基于改进视觉注意模型的sar目标检测方法
CN102999908A (zh) * 2012-11-19 2013-03-27 西安电子科技大学 基于改进视觉注意模型的sar机场分割方法
CN107578060A (zh) * 2017-08-14 2018-01-12 电子科技大学 一种基于可判别区域的深度神经网络用于菜品图像分类的方法
CN109284670A (zh) * 2018-08-01 2019-01-29 清华大学 一种基于多尺度注意力机制的行人检测方法及装置
CN109886404A (zh) * 2019-02-01 2019-06-14 东南大学 一种交错菱形感知的卷积神经网络池化方法
CN109886358A (zh) * 2019-03-21 2019-06-14 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法
CN110705457A (zh) * 2019-09-29 2020-01-17 核工业北京地质研究院 一种遥感影像建筑物变化检测方法
CN110852383A (zh) * 2019-11-12 2020-02-28 复旦大学 基于注意力机制深度学习网络的目标检测方法及装置
CN113344045A (zh) * 2021-05-21 2021-09-03 电子科技大学 一种结合hog特征提高sar船只分类精度的方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080071710A1 (en) * 2006-09-01 2008-03-20 Massachusetts Institute Of Technology High-performance vision system exploiting key features of visual cortex
CN102999909A (zh) * 2012-11-19 2013-03-27 西安电子科技大学 基于改进视觉注意模型的sar目标检测方法
CN102999908A (zh) * 2012-11-19 2013-03-27 西安电子科技大学 基于改进视觉注意模型的sar机场分割方法
CN107578060A (zh) * 2017-08-14 2018-01-12 电子科技大学 一种基于可判别区域的深度神经网络用于菜品图像分类的方法
CN109284670A (zh) * 2018-08-01 2019-01-29 清华大学 一种基于多尺度注意力机制的行人检测方法及装置
CN109886404A (zh) * 2019-02-01 2019-06-14 东南大学 一种交错菱形感知的卷积神经网络池化方法
CN109886358A (zh) * 2019-03-21 2019-06-14 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法
CN110705457A (zh) * 2019-09-29 2020-01-17 核工业北京地质研究院 一种遥感影像建筑物变化检测方法
CN110852383A (zh) * 2019-11-12 2020-02-28 复旦大学 基于注意力机制深度学习网络的目标检测方法及装置
CN113344045A (zh) * 2021-05-21 2021-09-03 电子科技大学 一种结合hog特征提高sar船只分类精度的方法

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
AI科技评论: "干货 | 基于深度学习的目标检测算法综述(二)", 《HTTPS://CLOUD.TENCENT.COM/DEVELOPER/ARTICLE/1346181》 *
DI LIU等: "Attention Scale-Aware Deformable Network for Inshore Ship Detection in Surveillance Videos", 《CAAI INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
XINGYU CHEN: "Dual Refinement Network for Single-Shot Object Detection", 《2019 INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA)》 *
YKAGGV3: "细粒度图像识别算法研究", 《HTTPS://WWW.DOCIN.COM/P-1648096639.HTML》 *
刘龙等: "面向目标检测的多尺度运动注意力融合算法研究", 《电子与信息学报》 *
***: "融合多源信息的空间机械臂目标检测定位及路径规划", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王晓朋: "精细粒度的菜品识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
管文杰: "基于注意力机制与知识蒸馏的目标细分类与检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
荣亮等: "RefineDet网络与注意力机制结合的目标检测算法", 《传感器与微***》 *
赵文清等: "双向特征融合与注意力机制结合的目标检测", 《智能***学报》 *
郭正华等: "基于自适应感受野的DC-SSD目标检测算法", 《工业控制计算机》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274972A (zh) * 2020-01-21 2020-06-12 北京妙医佳健康科技集团有限公司 基于度量学习的菜品识别方法及装置
CN111274972B (zh) * 2020-01-21 2023-08-29 北京妙医佳健康科技集团有限公司 基于度量学习的菜品识别方法及装置
CN113781439A (zh) * 2020-11-25 2021-12-10 北京医准智能科技有限公司 超声视频病灶分割方法及装置

Also Published As

Publication number Publication date
CN110674845B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN104599275B (zh) 基于概率图模型的非参数化的rgb-d场景理解方法
CN108985268B (zh) 基于深度迁移学习的归纳式雷达高分辨距离像识别方法
Qiu et al. Mining discriminative food regions for accurate food recognition
CN109117793B (zh) 基于深度迁移学习的直推式雷达高分辨距离像识别方法
CN107239759B (zh) 一种基于深度特征的高空间分辨率遥感图像迁移学习方法
CN107944410B (zh) 一种基于卷积神经网络的跨领域面部特征解析方法
JP2018514852A (ja) 逐次画像サンプリングおよび微調整された特徴の記憶
CN104182772A (zh) 一种基于深度学习的手势识别方法
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
CN106709528A (zh) 基于多目标函数深度学习的车辆重识别方法及装置
CN105654505B (zh) 一种基于超像素的协同跟踪算法和***
CN110991257B (zh) 基于特征融合与svm的极化sar溢油检测方法
Xu et al. Robust self-ensembling network for hyperspectral image classification
CN111414875B (zh) 基于深度回归森林的三维点云头部姿态估计***
CN106599864A (zh) 一种基于极值理论的深度人脸识别方法
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN110674845B (zh) 一种结合多感受野注意与特征再校准的菜品识别方法
CN103336971A (zh) 基于多特征融合与增量学习的多摄像机间的目标匹配方法
Sanida et al. Tomato leaf disease identification via two–stage transfer learning approach
CN116798070A (zh) 一种基于光谱感知和注意力机制的跨模态行人重识别方法
CN114492634B (zh) 一种细粒度装备图片分类识别方法及***
Azawi Handwritten digits recognition using transfer learning
CN112132207A (zh) 基于多分支特征映射目标检测神经网络构建方法
CN114022516A (zh) 一种基于高秩特征和位置注意力的双模态视觉跟踪方法
Abhilasa et al. Classification of agricultural leaf images using hybrid combination of activation functions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant