CN110991459A - 基于arm-lbp和卷积神经网络的行李图像分类算法 - Google Patents
基于arm-lbp和卷积神经网络的行李图像分类算法 Download PDFInfo
- Publication number
- CN110991459A CN110991459A CN201910846314.6A CN201910846314A CN110991459A CN 110991459 A CN110991459 A CN 110991459A CN 201910846314 A CN201910846314 A CN 201910846314A CN 110991459 A CN110991459 A CN 110991459A
- Authority
- CN
- China
- Prior art keywords
- lbp
- image
- arm
- neural network
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明设计一种基于ARM‑LBP和卷积神经网络的行李图像分类算法,属于计算机视觉中的图像分类领域。其包括以下步骤:首先建立VGG‑16卷积神经网络,将预分类图像输入VGG‑16网络进行训练,选取最后一层全连接层的值作为图像的网络特征,然后提取图像的ARM‑LBP纹理特征,对图像的两种特征进行归一化处理后进行特征串联,最后用SVM分类器进行分类,输出图像的类别。本发明中ARM‑LBP算法能够提取更加丰富的图像纹理信息,对图像有更好的区分,与经典卷积神经网络结合,可以提高图像分类准确率,在实际应用中,使用ARM‑LBP和卷积神经网络的行李图像分类算法预测行李图像类别的运行时间在可接受范围内,分类效果最好。
Description
技术领域
本发明设计一种基于ARM-LBP和卷积神经网络的行李图像分类算法,属于计算机视觉中的图像分类领域。
背景技术
在传统的图像分类方法中,主要采用图像底层特征(如颜色直方图、LBP特征、HOG特征等)来进行分类,其中LBP是Local Binary Pattern(局部二值模式)的缩写,具有灰度不变性和旋转不变性等显著优点,传统的LBP算子计算简单但维度较高且受光照、旋转等因素影响较大,Heikkiala M提出的基于局部中心对称的二值模式,通过比较邻域内像素对的关系对图像进行编码,这种方式忽略了中心像素的值,存在表达信息不够全面的问题。Tan提出的局部三值模式,它通过实验设置阈值对图像进行编码,具有很强的抗干扰能力,但随之而来的是维数的增加且阈值的设定会随着数据及的变化而改变。此外,由于忽略中心像素,纹理特征不完全被表达。Y.El merabet提出的ACS-LBP、RCS-LBP分类效果较好,但维度较高。虽然LBP方法简单,但由于图像特征的多样性,在图像检索时,单一的颜色、纹理等特征通常无法准确描述图像特征,导致分类识别不准确。随着神经网络的出现,它不依赖于手动设计选择的图像特征,使得图像分类识别的准确率有了很大的提升。除使用卷积神经网络进行分类之外,有学者关注CNN模型中的特征,发现在CNN中全连接层之前的特征一般为泛化性能较好的底层特征,全连接层之后的特征更倾向于某一具体任务的特征,目前已有较多工作将CNN特征与传统特征结合进行图像分类并且取得了良好的效果。Jiang等人提出了传统LBP和CNN相结合的模型,将感兴趣区域经过LBP处理后的图像输入CNN模型中进行训练,在人脸微表情识别上的识别效果较优。Li等人提出了一种将图像纹理特征、颜色特征、空间结构特征按照特定顺序展开组成融合特征训练CNN模型的方法,在遥感图像分类中取得较好的效果。Zhang提出了一种将训练过的LBP特征和CNN特征进行融合进行图像分类的方法,对比仅使用CNN训练图像识别率有一定的提升。在进行图像分类时,LBP特征可以丰富图像信息的表达,因此有必要对LBP特征和卷积神经网络的结合进行深入的研究。
发明内容
针对上述问题,本发明在综合各类图像分类算法基础上,提出了一种基于ARM-LBP和卷积神经网络的行李图像分类算法:首先建立VGG-16卷积神经网络,将预分类图像输入VGG-16网络进行训练,选取最后一层全连接层的值作为图像的网络特征,然后提取图像的ARM-LBP纹理特征,对图像的两种特征进行归一化处理后进行特征串联,最后用SVM分类器进行分类,输出图像的类别。为达到上述目的,本发明的技术方案为:一种基于ARM-LBP和卷积神经网络的行李图像分类算法,包括下述步骤:
步骤一、建立VGG-16卷积神经网络模型;
步骤二、调整图像格式,将训练图像分辨率统一调整为224*224,利用训练图像训练VGG神经网络模型,迭代更新权值,不断调整网络参数,达到最优CNN模型;
步骤三、将训练图像输入训练好的VGG-16神经网络,选取最后一层全连接层的输出值作为图像的CNN特征并保存;
步骤四、建立ARM-LBP模型;
步骤五、将训练图像转化为灰度图像,然后将训练图像输入ARM-LBP模型提取图像的纹理特征并保存;
步骤六、对训练图像的CNN特征和AEM-LBP特征分别进行归一化处理然后串联两种特征;
步骤七、将融合后的特征输入SVM分类器,调整SVM分类器的参数,选择合适的核函数,最后保存最优效果的SVM分类器;
有益效果:
本发明提出的基于ARM-LBP和卷积神经网络的行李图像分类算法相较于其他改进LBP的算法分类效果更好,因为多个特征的融合减少了图片信息的遗漏,再将融合特征来训练泛化能力强的SVM,使分类性能提高,而本发明的ARM-LBP算法对图像的纹理特征考虑更全面,提取的纹理特征包含更多的图片信息。从运行时间效率来看,对比只用卷积神经网络或LBP算法而言,虽然本发明提出的方法预测一张图像类别所需的时间稍多,但分类的准确率更高。在实际应用中,使用ARM-LBP和卷积神经网络的行李图像分类算法预测行李图像类别的运行时间在可接受范围内,分类效果最好。
附图说明
图1是本发明中ARM-LBP算法示意图;
图2是本发明中ARM-LBP算法与其它LBP改进算法效果对比图;
图3是本发明中图像分类算法流程图;
图4是本发明中VGG-16神经网络结构图;
具体实施方式
步骤一、构建VGG卷积神经网络模型。为达到较好的分类效果,通过网络和手机拍摄两种方式构建图像数据集,本发明中图像数据集共十类,分别是背包、编织袋、宠物箱、轮椅、软拉杆箱、收纳箱、手提包、婴儿车、硬拉杆箱、纸箱子,其中每类有400张训练图片。然后搭建caffe深度学习框架开发环境,使用caffe搭建如图4所示的VGG-16卷积神经网络,VGG网络模型是一种经典的卷积神经网络结构,它在迁移学习任务中的表现较好,从图像中提取CNN特征时,VGG模型是首选算法。
步骤二、将训练图像分辨率统一调整为224*224*3,将训练图像集输入到VGG网络中,迭代更新权值,不断调整网络参数,训练神经网络中用到的参数如下:初始学习速率为0.001,批次训练样本数量为128,动量为0.9,dropout为0.5,模型最大迭代次数为8000次。本发明的实验中发现通过训练8000次模型可以确定最大的准确率。
步骤三、提取CNN特征并保存。VGG网络模型训练完成后保存模型参数,然后将训练图像输入到模型中提取最后一层全连接层的输出值作为图像的CNN特征并保存;
步骤四、构建ARM-LBP模型。本发明针对传统纹理特征存在的不足,提出了一种新的LBP的特征提取算法—ARM-LBP(attractive and repulsive-monotonic local binarypatterns),即吸引-排斥-单调局部二值模式,通过建立中心像素与邻域像素对的关系,提高纹理特征的分类能力。ARM-LBP算法采用四个中心对称的像素对,由中心像素和在垂直方向和水平方向以及对角线方向两个像素组成,形成四个三元组。通过引入该算法,得到一个旋转不变的编码方案。为了方便的描述ARM-LBP算法,用数学公式来定义。定义为穿过中心像素上水平(垂直、对角线)方向上的三个像素为中心像素。如果且则这个像素被定义为吸引像素。如果且则这个像素被定义为排斥像素。如果且或且则这个像素被定义为单调像素。排斥-吸引-单调二值函数示意图如图1所示,分别用数学公式(1)至(3)表示。
吸引二值函数定义如下:
排斥二值函数定义如下:
单调二值函数定义如下:
ARM-LBP算法包括三个LBP描述符,分别为ACS-LBP(吸引)、RCS-LBP(排斥)、MCS-LBP(单调),每个描述符算子采用5位二进制数编码。定义一个在编码中用到的值μ,μ为邻域内均值。
本发明中ACS-LBP描述符(吸引-LBP描述符)的定义如公式(5)所示。
5位数编码的ACS-LBP算子用数学公式表达如下:
其中,代表中心像素的值。本发明提出的ARM-LBP算子作为LBP算子的变体,与LBP及其变体CS-LTP、LTP相比,在计算复杂度和旋转方面具有优势,能够更好的描述图像的局部纹理特征。如图2所示,在相同的领域内,对于灰度值相差较大的两个中心像素本发明的ARM-LBP算法具有最好的区分效果。RCS-LBP、MCS-LBP采用和ACS-LBP一样的编码方式。ARM-LBP表示将三个方法求得的特征进行串联。依照上述算法公式,使用Python搭建ARM-LBP模型,ARM-LBP算子大小设置为3*3像素,采用滑动方式对图像进行特征提取,滑动步长设置为1。
步骤五、将训练图像转化为灰度图像,然后将训练图像输入ARM-LBP模型,分别提取图像的ACS-LBP、RCS-LBP和MCS-LBP特征并构建相应的64位特征分布直方图,然后按顺序将三个直方图进行串联,将串联后的特征向量作为图像的ARM-LBP特征,保存训练图像的ARM-LBP特征;
步骤六、对训练图像的VGG特征和ARM-LBP特征分别进行归一化处理。将特征数据进行0均值归一化,转换为均值为0,方差为1的数据,然后将对应的两种归一化特征进行串联,构建训练图像的融合特征集;
步骤七、将融合后的特征集输入SVM分类器,调整SVM分类器的参数,设置最佳的迭代次数、选用RBF核函数作为映射函数,惩罚系数设置为0.9。最后保存最优效果的SVM分类器。
Claims (4)
1.一种基于ARM-LBP和卷积神经网络的行李图像分类算法,包括下述步骤:
步骤一、建立VGG-16卷积神经网络模型;
步骤二、调整图像格式,将训练图像分辨率统一调整为224*224,利用训练图像训练VGG神经网络模型,迭代更新权值,不断调整网络参数,达到最优CNN模型;
步骤三、将训练图像输入训练好的VGG-16神经网络,选取最后一层全连接层的输出值作为图像的CNN特征并保存;
步骤四、建立ARM-LBP模型,ARM-LBP模型包括三个LBP描述符,分别为ACS-LBP(吸引)、RCS-LBP(排斥)、MCS-LBP(单调),每个描述符算子采用5位二进制数编码,其中5位二进制表示为四个中心对称的像素对以及中心像素和邻域均值的二进制模式值;
步骤五、将训练图像转化为灰度图像,然后将训练图像输入ARM-LBP模型,提取图像的每个像素点的ACS-LBP特征值,将二进制特征值转为十进制,并构建图像的64位吸引特征分布直方图,然后依次提取图像的RCS-LBP和MCS-LBP的64位特征分布直方图,然后按顺序将三个直方图进行串联,将串联后的特征向量作为图像的ARM-LBP特征,保存训练图像的ARM-LBP特征;
步骤六、对训练图像的CNN特征和AEM-LBP特征分别进行归一化处理然后串联两种特征;
步骤七、将融合后的特征输入SVM分类器,调整SVM分类器的参数,选择合适的核函数,最后保存最优效果的SVM分类器。
2.如权利要求1所述的基于ARM-LBP和卷积神经网络的行李图像分类算法,其特征在于,选取VGG-16卷积神经网络的最后一层全连接层的输出值作为训练图像的CNN特征。
3.如权利要求1所述的基于ARM-LBP和卷积神经网络的行李图像分类算法,其特征在于,ARM-LBP模型包括三个LBP描述符,提取图像的每个像素点的ACS-LBP特征值,将二进制特征值转为十进制,并构建图像的64位吸引特征分布直方图,然后依次提取图像的RCS-LBP和MCS-LBP的64位特征分布直方图,然后按顺序将三个直方图进行串联,将串联后的特征向量作为图像的ARM-LBP特征,保存训练图像的ARM-LBP特征。
4.如权利要求1所述的基于ARM-LBP和卷积神经网络的行李图像分类算法,其特征在于,对训练图像的CNN特征和ARM-LBP特征分别进行归一化处理,然后按顺序将两种特征向量进行串联,将串联后的特征向量作为训练图像的最终特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910846314.6A CN110991459A (zh) | 2019-09-09 | 2019-09-09 | 基于arm-lbp和卷积神经网络的行李图像分类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910846314.6A CN110991459A (zh) | 2019-09-09 | 2019-09-09 | 基于arm-lbp和卷积神经网络的行李图像分类算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110991459A true CN110991459A (zh) | 2020-04-10 |
Family
ID=70081748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910846314.6A Pending CN110991459A (zh) | 2019-09-09 | 2019-09-09 | 基于arm-lbp和卷积神经网络的行李图像分类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991459A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899258A (zh) * | 2020-08-20 | 2020-11-06 | 广东机场白云信息科技有限公司 | 自助托运行李规格检测方法 |
CN117037127A (zh) * | 2023-10-07 | 2023-11-10 | 四川省机场集团有限公司成都天府国际机场分公司 | 一种基于行李类型的托盘分配方法 |
-
2019
- 2019-09-09 CN CN201910846314.6A patent/CN110991459A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899258A (zh) * | 2020-08-20 | 2020-11-06 | 广东机场白云信息科技有限公司 | 自助托运行李规格检测方法 |
CN117037127A (zh) * | 2023-10-07 | 2023-11-10 | 四川省机场集团有限公司成都天府国际机场分公司 | 一种基于行李类型的托盘分配方法 |
CN117037127B (zh) * | 2023-10-07 | 2023-12-12 | 四川省机场集团有限公司成都天府国际机场分公司 | 一种基于行李类型的托盘分配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Depth pooling based large-scale 3-d action recognition with convolutional neural networks | |
CN108520535B (zh) | 基于深度恢复信息的物体分类方法 | |
CN108460356B (zh) | 一种基于监控***的人脸图像自动处理*** | |
Wang et al. | Mmss: Multi-modal sharable and specific feature learning for rgb-d object recognition | |
US9558268B2 (en) | Method for semantically labeling an image of a scene using recursive context propagation | |
CN103514456B (zh) | 基于压缩感知多核学习的图像分类方法及其装置 | |
Luo et al. | Vector-valued multi-view semi-supervsed learning for multi-label image classification | |
CN109829449B (zh) | 一种基于超像素时空上下文的rgb-d室内场景标注方法 | |
CN111639544A (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
Bhandari et al. | A local contrast fusion based 3D Otsu algorithm for multilevel image segmentation. | |
Zhu et al. | A classification supervised auto-encoder based on predefined evenly-distributed class centroids | |
CN110163239A (zh) | 一种基于超像素和条件随机场的弱监督图像语义分割方法 | |
CN113221641A (zh) | 基于生成对抗网络和注意力机制的视频行人重识别方法 | |
CN109886281A (zh) | 一种基于四元数超限学习机彩色图像识别方法 | |
CN109635647B (zh) | 一种基于约束条件下的多图片多人脸的聚类方法 | |
CN113343974A (zh) | 考虑模态间语义距离度量的多模态融合分类优化方法 | |
Sun et al. | Scene categorization using deeply learned gaze shifting kernel | |
CN110992217A (zh) | 一种外观设计专利多视图特征表示、检索的方法及装置 | |
CN113255602A (zh) | 基于多模态数据的动态手势识别方法 | |
CN111160119B (zh) | 一种用于化妆人脸验证的多任务深度判别度量学习模型构建方法 | |
CN110991459A (zh) | 基于arm-lbp和卷积神经网络的行李图像分类算法 | |
Cai et al. | Rgb-d scene classification via multi-modal feature learning | |
CN113052017A (zh) | 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
De Nijs et al. | On-line semantic perception using uncertainty |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200410 |
|
WD01 | Invention patent application deemed withdrawn after publication |