CN107229952A - 图像的识别方法及装置 - Google Patents

图像的识别方法及装置 Download PDF

Info

Publication number
CN107229952A
CN107229952A CN201710406044.8A CN201710406044A CN107229952A CN 107229952 A CN107229952 A CN 107229952A CN 201710406044 A CN201710406044 A CN 201710406044A CN 107229952 A CN107229952 A CN 107229952A
Authority
CN
China
Prior art keywords
recognized
images
image
default
residual error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710406044.8A
Other languages
English (en)
Inventor
雷柏英
余镇
汪天富
倪东
陈思平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710406044.8A priority Critical patent/CN107229952A/zh
Publication of CN107229952A publication Critical patent/CN107229952A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种图像的识别方法及装置,涉及图像处理技术领域。所述方法包括对获取到的待识别图像进行图像增强,获得图像增强后的待识别图像;再根据预设的深度残差神经网络对所述图像增强后的待识别图像进行特征提取,获得特征信息;对所述特征信息进行Fisher向量编码,获得Fisher特征向量;然后根据预设的分类器及所述特征向量对所述待识别图像进行识别,获得识别结果,以此实现利用深度残差神经网络和Fisher向量编码,对待识别的图像提取更多的判别特征,再进行分类处理,根据分类结果快速识别出所述待识别的图像,操作简单,更高效、更准确,适用性强。

Description

图像的识别方法及装置
技术领域
本发明涉及图像处理技术领域,具体而言,涉及一种图像的识别方法及装置。
背景技术
黑色素瘤皮肤癌是世界上最快速增长和最致命的癌症之一,占皮肤癌死亡的75%。早期诊断对于治疗这种疾病非常重要,因为它可以在早期阶段很容易治愈。为了改善这种疾病的诊断,引入皮肤镜检查以协助皮肤科医生进行临床检查,因为它是一种无创性皮肤成像技术,可为临床医生提供高质量的皮肤损伤视觉感受。与传统的宏观(临床)图像相比,更少的表面反射,更深层次的细节和更低的筛选误差使得皮肤镜检查图像获得更好的可见度和识别精度。由于黑色素瘤比非黑色素瘤皮肤癌更致命,癌症与非癌性黑色素瘤皮肤镜检查图像之间的区别已经引起了极大关注。临床上,已经开发了几种启发式方法,例如“ABCD”规则,Menzies方法和“CASH”,以增强临床医生辨别黑色素瘤与良性的能力。然而,即使对于经验丰富的专业人士,皮肤病变的正确诊断也是非常重要的。此外,通过人眼目视检查进行的皮肤镜诊断通常是费力、耗时和主观的。因此,准确性不佳,再现性差,仍然是诊断这种疾病的问题。
为了解决这些问题,目前提出了许多用于自动皮肤镜像分析的算法,大多数主要集中在特征提取,无论是隐含的还是明确的,都假设输入图像包含完整的病变对象。然而皮肤镜检图像可能并不总是包含整个病变区域,或者病变区域仅占据图像的一小部分。针对恶性皮肤病变和良性皮肤病变图像之间的类内和类间差异较大,现有方法中通过人工标注的特征所提供的诊断性能仍不能令人满意,尤其现有方法不仅包含复杂而繁琐的程序,而且费力、耗时和主观,导致临床实践中的普遍性和适用性差。
发明内容
有鉴于此,本发明实施例的目的在于提供一种图像的识别方法及装置,以改善上述问题。为了实现上述目的,本发明采取的技术方案如下:
第一方面,本发明实施例提供了一种图像的识别方法,所述方法包括:对获取到的待识别图像进行图像增强,获得图像增强后的待识别图像;根据预设的深度残差神经网络对所述图像增强后的待识别图像进行特征提取,获得特征信息;对所述特征信息进行Fisher向量编码,获得Fisher特征向量;根据预设的分类器及所述特征向量对所述待识别图像进行识别,获得识别结果。
第二方面,本发明实施例提供了一种图像的识别装置,所述装置包括:图像增强单元、特征提取单元、编码单元和识别单元。图像增强单元,用于对获取到的待识别图像进行图像增强,获得图像增强后的待识别图像。特征提取单元,根据预设的深度残差神经网络对所述图像增强后的待识别图像进行特征提取,获得特征信息。编码单元,用于对所述特征信息进行Fisher向量编码,获得Fisher特征向量。识别单元,用于根据预设的分类器及所述特征向量对所述待识别图像进行识别,获得识别结果。
本发明实施例提供了一种图像的识别方法及装置,对获取到的待识别图像进行图像增强,获得图像增强后的待识别图像;再根据预设的深度残差神经网络对所述图像增强后的待识别图像进行特征提取,获得特征信息;对所述特征信息进行Fisher向量编码,获得Fisher特征向量;然后根据预设的分类器及所述特征向量对所述待识别图像进行识别,获得识别结果,以此实现利用深度残差神经网络和Fisher向量编码,对待识别的图像提取更多的判别特征,再进行分类处理,根据分类结果快速识别出所述待识别的图像,操作简单,更高效、更准确,适用性强。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为一种可应用于本申请实施例中的电子设备的结构框图;
图2为本发明第一实施例提供的图像的识别方法的流程图;
图3为本发明第一实施例提供的图像的识别方法中的步骤S200的详细流程图;
图4为本发明第二实施例提供的图像的识别装置的结构框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参阅图1,图1示出了一种可应用于本申请实施例中的电子设备100的结构框图。该电子设备100可以作为用户终端,也可以作为服务器。所述用户终端可以个人电脑(personal computer,PC)、平板电脑、智能手机、个人数字助理(personal digitalassistant,PDA)等终端设备。如图1所示,电子设备100可以包括存储器110、存储控制器111、处理器112和图像的识别装置。
存储器110、存储控制器111、处理器112各元件之间直接或间接地电连接,以实现数据的传输或交互。例如,这些元件之间可以通过一条或多条通讯总线或信号总线实现电连接。图像的识别方法分别包括至少一个可以以软件或固件(firmware)的形式存储于存储器110中的软件功能模块,例如所述图像的识别装置包括的软件功能模块或计算机程序。
存储器110可以存储各种软件程序以及模块,如本申请实施例提供的图像的识别方法及装置对应的程序指令/模块。处理器112通过运行存储在存储器110中的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现本申请实施例中的图像的识别方法。存储器110可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器112可以是一种集成电路芯片,具有信号处理能力。上述处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
第一实施例
请参阅图2,本发明实施例提供了一种图像的识别方法,所述方法包括:
步骤S200:对获取到的待识别图像进行图像增强,获得图像增强后的待识别图像。
为了保证对待识别的图像提取的特征的准确性,作为一种实施方式,请参阅图3,所述步骤S200可以包括子步骤S201、子步骤S202和子步骤S203。
子步骤S201:基于预设的尺度调整规则及获取到的待识别图像,获得调整后的待识别图像。
由于利用深度残差神经网络(Deep Residual Neural Network,ResNet)来提取特征,通常使用固定和平方大小的图像作为输入图像,例如227×227或224×224大小的图像。因此,可以将图像裁剪大小并且裁剪成所需的尺寸以进行训练或者特征提取。然而,获取到的图像分辨率可能存在巨大变化,范围为从最小尺存(722×542)到最大尺寸(4288×2848)。将这些图像直接调整大小并将其裁剪成所需尺寸会导致对象失真和实质性信息的丢失。此外,在迁移任务中,预设的深度残差神经网络可能并不完全适应未知数据的分布。在这种情况下,将皮肤图像调整到所需的相同尺寸会导致重要的信息丢失。另外保持图像的长宽比是有益的,因为空间信息被更好地保存。因此,采取相对较大的(与224×224相比)和非正方形的图像作为输入。可以将图像沿着最短边调整到一个统一的尺度(以下简称为“S”),同时保持纵横比。
进一步地,基于子步骤S201,具体地,所述预设的尺度调整规则包括将图像的短边调整到第一预设值,并将调整所述图像的长边调整到第二预设值,使得调整后的图像的短边和长边的比与所述图像的短边和长边的比不变。图像的短边和长边的比是有益的,图像的短边和长边的比不变,可以保存图像的重要信息,如图像的空间信息。在本实施例中,将获取到的待识别图像的短边调整到第一预设值,并将调整所述获取到的待识别图像的长边调整到第二预设值,使得调整后的待识别图像的短边和长边的比与所述获取到的待识别图像的短边和长边的比不变,以获得调整后的待识别图像。
例如,所述第一预设值S可以为448,所述获取到的待识别图像的大小为722×542,即所述待识别图像的短边为542,长边为722,可以将图像的短边542调整到第一预设值448;为了保持图像的短边和长边的比,则第二预设值为722÷(542÷448)=597,并将调整所述获取到的待识别图像的长边722调整到第二预设值597,使得调整后的待识别图像的短边和长边的比与所述获取到的待识别图像的短边和长边的比不变,以获得调整后的待识别图像,大小为597×448。
子步骤S202:对所述调整后的待识别图像进行归一化,获得归一化后的待识别图像。
为了标准化图像的光照,基于子步骤S202,通过减去在单个图像上计算出的通道平均强度值(表示为per-img-mean)来对每个皮肤图像进行归一化。具体地,给定一张图像t,计算归一化后的图像tnorm
公式(1)中,u(tR)为红色通道的平均像素值,u(tG)为绿色通道的平均像素值,u(tG)为蓝色通道的平均像素值。在本实施例中,根据公式(1)对所述调整后的待识别图像进行归一化,获得归一化后的待识别图像。
子步骤S203:基于预设的图像增强规则及所述归一化后的待识别图像,获得多个增强后的待识别图像。
进一步地,为了更进一步地提高本发明实施例提供的图像的识别方法的高效性,可以进行图像增强。所述预设的图像增强规则包括将所述归一化后的图像旋转预设角度后,根据预设的像素偏移范围,在旋转后的图像上添加像素平移操作,获得增强后的图像;根据不同的预设角度,重复上述步骤,获得多个增强后的图像。所述预设角度可以0-360度内的任意值,例如可以为0度、90度、180度或270度,所述预设的像素偏移范围为-10和10像素之间。
例如,将所述归一化后的待识别图像旋转0度后,根据预设的像素偏移范围,在旋转后的待识别图像上添加像素平移-9像素操作,获得第一个增强后的待识别图像;根据不同的预设角度,重复上述步骤,将所述归一化后的待识别图像旋转90度后,根据预设的像素偏移范围,在旋转后的待识别图像上添加像素平移-5像素操作,获得第二个增强后的待识别图像;将所述归一化后的待识别图像旋转180度后,根据预设的像素偏移范围,在旋转后的待识别图像上添加像素平移9像素操作,获得第三个增强后的待识别图像;将所述归一化后的待识别图像旋转270度后,根据预设的像素偏移范围,在旋转后的待识别图像上添加像素平移5像素操作,获得第四个增强后的待识别图像,以此获得四个增强后的待识别图像。
步骤S210:根据预设的深度残差神经网络对所述图像增强后的待识别图像进行特征提取,获得特征信息。
基于步骤S210,具体地,将所述多个增强后的待识别图像以前向传播的方式通过所述预设的深度残差神经网络后,分别提取在所述预设的深度残差神经网络中各自第l卷积层的深层特征信息,再将所述各自第l卷积层的深层特征信息进行整合,以获得所述多个增强后的待识别图像对应的深层特征信息。
在本实施例中,基于步骤S200,根据获取到的待识别图像,记为t,获得了四个增强后的待识别图像,分别记为t1,t2,t3,t4,每个增强后的待识别图像的大小可以为448×597或597×448;再将四个增强后的待识别图像即为t1,t2,t3,t4以前向传播的方式通过所述预设的深度残差神经网络后,在所述深度残差神经网络的第l卷积层中,获得空间特征图其中分别表示宽度和高度,dl为当前特征图的深度或颜色通道。若深度残差神经网络为50层,则l可以为31。为了描述简洁,对于具有不同尺寸的输入图像,所得到的特征图的大小可以不同。在特征图中每个位置的激活处,得到dl维度向量即特征信息。因此,得到每个增强后的待识别图像t1,t2,t3,t4局部深度特征信息,表示为:
分别提取在所述预设的深度残差神经网络中各自第l卷积层的深层特征信息,再将所述各自第l卷积层的深层特征信息进行整合,根据表达式(2),得到一组深层特征信息Fl
表达式(3),获得所述多个增强后的待识别图像对应的深层特征信息Fl
步骤S220:对所述特征信息进行Fisher向量编码,获得Fisher特征向量。
进一步地,从层中提取的每个局部深层卷积特征是指输入图像中的一个小区域,并反映该区域的局部不同。这类似于传统的局部描述符(SIFT)。由于每个图像包含一组深层特征信息,使用Fisher向量(Fisher Vector,FV)编码方法将这些局部深层表示聚合为单个图像表达(FV表达),这可以被认为是BoF模型的变体。从Fisher核导出的FV编码对于编码局部特征是有效的,并且在图像识别中表现出优异的性能。
进行Fisher向量编码,需要指定深层特征信息Fl的概率分布f(如P(f│λ))(生成模型)。为了实现这一点,采用流行的高斯混合模型(GMM),它可以很好地近似任意连续分布函数,可对深度特征的概率分布进行建模(生成过程)。GMM是概率密度函数的参数估计模型,被视为“概率视觉单词词汇表”。
基于预先建立的GMM模型,对于所述多个增强后的待识别图像对深层特征信息Fl,GMM聚类的第一和第二差分为:
其中,表示一张待识别图像对应的多个增强后的待识别图像的深度特征信息的数量。根据公式(4)和(5),连接所有K个分量的uk和vk,对所述特征信息进行Fisher向量编码,获得Fisher特征向量,即得到Φ:
作为一种实施方式,在进行Fisher向量编码之前,需要后的更多的高斯向量来获得高维深度特征信息的分布,通过主成分分析(PCA)来降低深度特征信息的维度,进而降低Fisher特征向量的维度。
作为另一种实施方式,对于所述Fisher特征向量通过L2范数和功率归一化处理,获得改进的Fisher特征向量,进行下一步的计算。
步骤S230:根据预设的分类器及所述特征向量对所述待识别图像进行识别,获得识别结果。
所述预设的分类器为预设的基于卡方核的SVM分类器。将所述Fisher特征向量通过所述预设的基于卡方核的SVM分类器,获得分类结果,根据分类结果获得识别结果。在本实施例中,所述待识别的图像可以为但不限于皮肤图像。所述待识别的图像还可以为风景图像、人物图像、动物图像等任意类型的图像。
例如,黑色素瘤与非黑色素瘤(良性)之间的类内和类间差异较大,由于黑色素瘤比非黑色素瘤皮肤癌更致命,癌症与非癌性黑色素瘤皮肤镜检查图像之间的区别已经引起了极大关注。优选地,所述皮肤图像可以为黑色素瘤皮肤图像,根据分类结果,识别出该皮肤图像为黑色素瘤或非黑色素瘤(良性)。根据识别结果选择诊断,早期诊断对于治疗这种疾病非常重要,因为它可以在早期阶段很容易治愈。
此外,在步骤S210之前,所述方法还可以包括:建立预设的深度残差神经网络。
一方面,深度残差神经网络的主要特点在于引入残差连接,能够在训练非常深的网络时解决降级问题。已经证明,残差连接可以加速深度网络的收敛,提高网络深度,来保持准确率的增加。一般来说,深度残差网络由一组残差块组成,每个块由几个堆叠的卷积层组成(将修正线性单元(Relu)层和批量归一化层作为卷积层附属)。具有恒等映射的残差块可以表示为:
hl+1=Relu(hl+F(hl,wl)) (7)
公式(7)中,hl、hl+1分别为第l个残差块的输入和输出;Relu为修正线性单元函数,Relu(x)=max(0,x),Relu是一个简单的激活函数,大于0就输出原始值否则输出0;F为残差映射函数,残差单元每个层都是一个转换函数,卷积层Conv就是矩阵相乘,批处理层Batchnorm是对输入进行均值方差的转换,wl为块的参数。具体地,当F(hl,wl)的通道(尺寸)和hl不相等时,输出是3维张量,尺寸表示第一、第二维度,通道数表示第三维度,通常应用线性投影Φ来匹配尺寸,因此,公式(7)可以进一步转换为:
hl+1=Relu(Φ(hl)+F(hl,wl)) (8)
在本实施例中,利用了两个具有不同深度的ResNet模型(ResNet-50和ResNet-101),并且残差网络都在ImageNet上进行了预先训练。结构的详细信息如表1所示,为了简单起见,残差块表示为ResBlock,卷积层被表示为Conv。可以以2016年国际烧伤协会大会挑战赛皮肤病变的皮肤图像数据集的图像为训练数据,建立深度残差神经网络模型,得到训练之后的模型即预设的深度残差神经网络。
表1为ResNet模型(ResNet-50和ResNet-101)的详细信息
再一方面,在步骤S220之前,所述方法还包括建立GMM模型、建立基于卡方核的SVM分类器。
建立GMM模型,获取到2016年国际烧伤协会大会挑战赛皮肤病变的大量皮肤图像数据集,设总共有A张皮肤图像,对每一张皮肤图像,执行步骤S200-步骤S210,类似内容,这里不再赘述,获得所述A张皮肤图像各自对应的一组深层特征信息Fi l
表达式(9)中,Fi l为第i张皮肤图像在第l卷积层对应的一组深层特征信息。
从卷积层中提取的每个深层特征信息是指输入图像中的一个小区域,并反映该区域的局部不同。这类似于传统的局部描述符(SIFT)。由于每个图像包含一组深度特征,使用FV编码方法将这些局部深层表示聚合为单个图像表达(FV表达),这可以被认为是BoF模型的变体。从Fisher核导出的FV编码对于编码局部特征是有效的,并且在图像识别中表现出优异的性能。
进行Fisher向量编码,需要指定深层特征信息Fl的概率分布f(如P(f│λ))(生成模型)。为了实现这一点,采用流行的高斯混合模型(GMM),它可以很好地近似任意连续分布函数,可对深度特征的概率分布进行建模(生成过程)。GMM是概率密度函数的参数估计模型,被视为“概率视觉单词词汇表”。假设GMM在上具有K个高斯分量,则可以制定GMM模型为:
公式(10)中,λ={πkkk,k=1,2…K}表示GMM模型的参数。GMM模型中,每个高斯分量表示一个视觉单词(聚类),包括先验概率均值向量且Σk为对角线值。为了构建GMM,从A张皮肤图像中取样一组皮肤图像X={Xm,m=1,2…M}的集合,提取这些图像的特征信息为并且利用期望最大化算法来学习参数πkkk,在该算法中,计算点到簇分配(软分配)。通过公式(12)来计算某个特征向量到聚类k的软分配:
获取GMM模型,将公式(10)、(11)、(12)带入相应地公式(4)和公式(5),对所述特征信息进行Fisher向量编码,获得Fisher特征向量,即得到Φi
进一步地,建立基于卡方核的SVM分类器即支持向量机(Support VectorMachine,SVM)分类器。虽然线性核对于分类是有效的,但非线性核倾向于产生更好的性能,卡方核应用于图像分类有着优越性。基于训练集中获取的Fisher特征向量,卡方核的SVM分类器的决策函数为:
公式(13)中,κ<xi,x>表示第i个训练特征向量xi和测试特征向量x的卡方核函数,D(xi,x)为相应地卡方平均聚类;yi∈{-1,+1}表示类别标签;αi和b是学习参数;T表示训练样本的数量;γ为内核的均匀度,可以设置为1。训练集中获取的Fisher特征向量可以经过L2归一化。在目标函数中采用了标准hinge损失,并且优化问题可以最大化为公式(14):
公式(14)中,参数C用于减少损失,为常数。在SVM训练过程中,由于随机双坐标上升算法(SDCA求解器)效率高,收敛速度快,因而采用它来最小化正则化损失。以此获得训练后的卡方核的SVM分类器,以便作为预设的分类器供分类。
本发明实施例提供了一种图像的识别方法,对获取到的待识别图像进行图像增强,获得图像增强后的待识别图像;再根据预设的深度残差神经网络对所述图像增强后的待识别图像进行特征提取,获得特征信息;对所述特征信息进行Fisher向量编码,获得Fisher特征向量;然后根据预设的分类器及所述特征向量对所述待识别图像进行识别,获得识别结果,以此实现利用深度残差神经网络和Fisher向量编码,对待识别的图像提取更多的判别特征,再进行分类处理,根据分类结果快速识别出所述待识别的图像,操作简单,更高效、更准确,适用性强。
第二实施例
请参阅图4,本发明实施例提供了一种图像的识别装置300,所述装置300包括:图像增强单元310、特征提取单元320、编码单元330和识别单元340。
图像增强单元310,用于对获取到的待识别图像进行图像增强,获得图像增强后的待识别图像。
作为一种实施方式,所述图像增强单元310可以包括调整子单元311、归一化子单元313和图像增强子单元314。
调整子单元311,用于基于预设的尺度调整规则及获取到的待识别图像,获得调整后的待识别图像。
作为一种实施方式,调整子单元311可以包括边调整子单元312。
边调整子单元312,用于将获取到的待识别图像的短边调整到第一预设值,并将调整所述获取到的待识别图像的长边调整到第二预设值,使得调整后的待识别图像的短边和长边的比与所述获取到的待识别图像的短边和长边的比不变,以获得调整后的待识别图像。
归一化子单元313,用于对所述调整后的待识别图像进行归一化,获得归一化后的待识别图像。
图像增强子单元314,用于基于预设的图像增强规则及所述归一化后的待识别图像,获得多个增强后的待识别图像。
作为一种实施方式,图像增强子单元314可以包括旋转子单元315。
旋转子单元315,用于将所述归一化后的待识别图像旋转预设角度后,根据预设的像素偏移范围,在旋转后的待识别图像上添加像素平移操作,获得增强后的待识别图像;根据不同的预设角度,重复上述步骤,获得多个增强后的待识别图像。
特征提取单元320,用于根据预设的深度残差神经网络对所述图像增强后的待识别图像进行特征提取,获得特征信息。
作为一种方式,特征提取单元320可以包括特征提取子单元321。
特征提取子单元321,用于将所述多个增强后的待识别图像以前向传播的方式通过所述预设的深度残差神经网络后,分别提取在所述预设的深度残差神经网络中各自第l卷积层的深层特征信息,再将所述各自第l卷积层的深层特征信息进行整合,以获得所述多个增强后的待识别图像对应的深层特征信息。
编码单元330,用于对所述特征信息进行Fisher向量编码,获得Fisher特征向量。
识别单元340,用于根据预设的分类器及所述特征向量对所述待识别图像进行识别,获得识别结果。
需要说明的是,本实施例中的各单元可以是由软件代码实现,此时,上述的各单元可存储于存储器110内。以上各单元同样可以由硬件例如集成电路芯片实现。
本发明实施例提供的图像的识别装置300,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种图像的识别方法,其特征在于,所述方法包括:
对获取到的待识别图像进行图像增强,获得图像增强后的待识别图像;
根据预设的深度残差神经网络对所述图像增强后的待识别图像进行特征提取,获得特征信息;
对所述特征信息进行Fisher向量编码,获得Fisher特征向量;
根据预设的分类器及所述特征向量对所述待识别图像进行识别,获得识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对获取到的待识别图像进行图像增强,获得图像增强后的待识别图像,包括:
基于预设的尺度调整规则及获取到的待识别图像,获得调整后的待识别图像;
对所述调整后的待识别图像进行归一化,获得归一化后的待识别图像;
基于预设的图像增强规则及所述归一化后的待识别图像,获得多个增强后的待识别图像。
3.根据权利要求2所述的方法,其特征在于,所述基于预设的尺度调整规则及获取到的待识别图像,获得调整后的待识别图像,包括:
将获取到的待识别图像的短边调整到第一预设值,并将调整所述获取到的待识别图像的长边调整到第二预设值,使得调整后的待识别图像的短边和长边的比与所述获取到的待识别图像的短边和长边的比不变,以获得调整后的待识别图像。
4.根据权利要求2所述的方法,其特征在于,所述基于预设的图像增强规则及所述归一化后的待识别图像,获得多个增强后的待识别图像,包括:
将所述归一化后的待识别图像旋转预设角度后,根据预设的像素偏移范围,在旋转后的待识别图像上添加像素平移操作,获得增强后的待识别图像;
根据不同的预设角度,重复上述步骤,获得多个增强后的待识别图像。
5.根据权利要求4所述的方法,其特征在于,所述预设角度为0度、90度、180度或270度,所述预设的像素偏移范围为-10和10像素之间。
6.根据权利要求2所述的方法,其特征在于,所述图像增强后的待识别图像为所述多个增强后的待识别图像,所述根据预设的深度残差神经网络对所述图像增强后的待识别图像进行特征提取,获得特征信息,包括:
将所述多个增强后的待识别图像以前向传播的方式通过所述预设的深度残差神经网络后,分别提取在所述预设的深度残差神经网络中各自第l卷积层的深层特征信息,再将所述各自第l卷积层的深层特征信息进行整合,以获得所述多个增强后的待识别图像对应的深层特征信息。
7.根据权利要求1所述的方法,其特征在于,所述预设的分类器为预设的基于卡方核的SVM分类器。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述待识别图像为皮肤图像。
9.一种图像的识别装置,其特征在于,所述装置包括:
图像增强单元,用于对获取到的待识别图像进行图像增强,获得图像增强后的待识别图像;
特征提取单元,根据预设的深度残差神经网络对所述图像增强后的待识别图像进行特征提取,获得特征信息;
编码单元,用于对所述特征信息进行Fisher向量编码,获得Fisher特征向量;
识别单元,用于根据预设的分类器及所述特征向量对所述待识别图像进行识别,获得识别结果。
10.根据权利要求9所述的装置,其特征在于,所述图像增强后的待识别图像为多个增强后的待识别图像,所述特征提取单元包括:
特征提取子单元,用于将所述多个增强后的待识别图像以前向传播的方式通过所述预设的深度残差神经网络后,分别提取在所述预设的深度残差神经网络中各自第l卷积层的深层特征信息,再将所述各自第l卷积层的深层特征信息进行整合,以获得所述多个增强后的待识别图像对应的深层特征信息。
CN201710406044.8A 2017-06-01 2017-06-01 图像的识别方法及装置 Pending CN107229952A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710406044.8A CN107229952A (zh) 2017-06-01 2017-06-01 图像的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710406044.8A CN107229952A (zh) 2017-06-01 2017-06-01 图像的识别方法及装置

Publications (1)

Publication Number Publication Date
CN107229952A true CN107229952A (zh) 2017-10-03

Family

ID=59933494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710406044.8A Pending CN107229952A (zh) 2017-06-01 2017-06-01 图像的识别方法及装置

Country Status (1)

Country Link
CN (1) CN107229952A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609646A (zh) * 2017-10-12 2018-01-19 郑州云海信息技术有限公司 一种残差网络实现方法、***、设备及计算机存储介质
CN107844970A (zh) * 2017-11-15 2018-03-27 上海中信信息发展股份有限公司 图像识别方法及追溯秤终端
CN108108751A (zh) * 2017-12-08 2018-06-01 浙江师范大学 一种基于卷积多特征和深度随机森林的场景识别方法
CN108399370A (zh) * 2018-02-02 2018-08-14 达闼科技(北京)有限公司 表情识别的方法及云***
CN109086796A (zh) * 2018-06-27 2018-12-25 Oppo(重庆)智能科技有限公司 图像识别方法、装置、移动终端以及存储介质
CN109145765A (zh) * 2018-07-27 2019-01-04 华南理工大学 人脸检测方法、装置、计算机设备和存储介质
CN109524111A (zh) * 2018-12-06 2019-03-26 杭州电子科技大学 一种应用于手机的七类皮肤肿瘤检测方法
CN109816695A (zh) * 2019-01-31 2019-05-28 中国人民解放军国防科技大学 一种复杂背景下的红外小型无人机目标检测与跟踪方法
WO2020098257A1 (zh) * 2018-11-14 2020-05-22 平安科技(深圳)有限公司 一种图像分类方法、装置及计算机可读存储介质
CN111860211A (zh) * 2020-06-29 2020-10-30 李利明 餐具和参照物识别方法、装置及存储介质
CN111914668A (zh) * 2020-07-08 2020-11-10 浙江大华技术股份有限公司 一种基于图像增强技术的行人重识别方法、装置及***
WO2021056975A1 (zh) * 2019-09-26 2021-04-01 五邑大学 自动进行垃圾分类的方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065158A (zh) * 2012-12-28 2013-04-24 电子科技大学 基于相对梯度的isa模型的行为识别方法
CN104866810A (zh) * 2015-04-10 2015-08-26 北京工业大学 一种深度卷积神经网络的人脸识别方法
CN106326288A (zh) * 2015-06-30 2017-01-11 阿里巴巴集团控股有限公司 图像搜索方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065158A (zh) * 2012-12-28 2013-04-24 电子科技大学 基于相对梯度的isa模型的行为识别方法
CN104866810A (zh) * 2015-04-10 2015-08-26 北京工业大学 一种深度卷积神经网络的人脸识别方法
CN106326288A (zh) * 2015-06-30 2017-01-11 阿里巴巴集团控股有限公司 图像搜索方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HANG ZHANG等: "Deep TEN: Texture Encoding Network", 《ARXIV》 *
JEREMY KAWAHARA 等: "Deep features to classify skin lesions", 《2016 IEEE 13TH INTERNATIONAL SYMPOSIUM ON BIOMEDICAL IMAGING (ISBI)》 *
YAN SONG 等: "Image classification with CNN-based Fisher vector coding", 《2016 VISUAL COMMUNICATIONS AND IMAGE PROCESSING (VCIP)》 *
ZHEN YU 等: "HYBRID DERMOSCOPY IMAGE CLASSIFICATION FRAMEWORK BASED ON DEEP CONVOLUTIONAL NEURAL NETWORK AND FISHER VECTOR", 《2017 IEEE 14TH INTERNATIONAL SYMPOSIUM ON BIOMEDICAL IMAGING (ISBI 2017)》 *
黄磊 等: "LCD微小瑕疵自动分类", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609646B (zh) * 2017-10-12 2021-01-29 苏州浪潮智能科技有限公司 一种残差网络实现方法、***、设备及计算机存储介质
CN107609646A (zh) * 2017-10-12 2018-01-19 郑州云海信息技术有限公司 一种残差网络实现方法、***、设备及计算机存储介质
CN107844970A (zh) * 2017-11-15 2018-03-27 上海中信信息发展股份有限公司 图像识别方法及追溯秤终端
CN108108751A (zh) * 2017-12-08 2018-06-01 浙江师范大学 一种基于卷积多特征和深度随机森林的场景识别方法
CN108108751B (zh) * 2017-12-08 2021-11-12 浙江师范大学 一种基于卷积多特征和深度随机森林的场景识别方法
CN108399370A (zh) * 2018-02-02 2018-08-14 达闼科技(北京)有限公司 表情识别的方法及云***
CN109086796B (zh) * 2018-06-27 2020-12-15 Oppo(重庆)智能科技有限公司 图像识别方法、装置、移动终端以及存储介质
CN109086796A (zh) * 2018-06-27 2018-12-25 Oppo(重庆)智能科技有限公司 图像识别方法、装置、移动终端以及存储介质
CN109145765B (zh) * 2018-07-27 2021-01-15 华南理工大学 人脸检测方法、装置、计算机设备和存储介质
CN109145765A (zh) * 2018-07-27 2019-01-04 华南理工大学 人脸检测方法、装置、计算机设备和存储介质
WO2020098257A1 (zh) * 2018-11-14 2020-05-22 平安科技(深圳)有限公司 一种图像分类方法、装置及计算机可读存储介质
CN109524111A (zh) * 2018-12-06 2019-03-26 杭州电子科技大学 一种应用于手机的七类皮肤肿瘤检测方法
CN109816695A (zh) * 2019-01-31 2019-05-28 中国人民解放军国防科技大学 一种复杂背景下的红外小型无人机目标检测与跟踪方法
WO2021056975A1 (zh) * 2019-09-26 2021-04-01 五邑大学 自动进行垃圾分类的方法、装置及存储介质
CN111860211A (zh) * 2020-06-29 2020-10-30 李利明 餐具和参照物识别方法、装置及存储介质
CN111860211B (zh) * 2020-06-29 2024-04-12 李利明 餐具和参照物识别方法、装置及存储介质
CN111914668A (zh) * 2020-07-08 2020-11-10 浙江大华技术股份有限公司 一种基于图像增强技术的行人重识别方法、装置及***

Similar Documents

Publication Publication Date Title
CN107229952A (zh) 图像的识别方法及装置
CN108510482B (zh) 一种基于***镜图像的***检测装置
Joseph et al. Improved multi-classification of breast cancer histopathological images using handcrafted features and deep neural network (dense layer)
Ramlakhan et al. A mobile automated skin lesion classification system
Joshi et al. Classification of brain cancer using artificial neural network
Deng et al. Classification of breast density categories based on SE-Attention neural networks
CN108229296A (zh) 人脸皮肤属性识别方法和装置、电子设备、存储介质
CN109389129A (zh) 一种图像处理方法、电子设备及存储介质
Jiao et al. Burn image segmentation based on Mask Regions with Convolutional Neural Network deep learning framework: more accurate and more convenient
CN109902717A (zh) 病灶自动识别方法、装置及计算机可读存储介质
Alqahtani et al. Breast cancer pathological image classification based on the multiscale CNN squeeze model
US11348238B2 (en) Method and system for training a separation of overlapping chromosome recognition model based on simulation
CN106295591A (zh) 基于人脸图像的性别识别方法及装置
WO2021073279A1 (zh) 数字病理图像染色归一化方法、***、电子装置及存储介质
CN112263217B (zh) 一种基于改进卷积神经网络的非黑素瘤皮肤癌病理图像病变区域检测方法
WO2023065503A1 (zh) 一种面部表情的分类方法和电子设备
CN109978004B (zh) 图像识别方法及相关设备
CN110378203A (zh) 图像处理方法、装置、终端及存储介质
Dogar et al. Attention augmented distance regression and classification network for nuclei instance segmentation and type classification in histology images
Zhong et al. When machine vision meets histology: A comparative evaluation of model architecture for classification of histology sections
Ahmed et al. Detection of eye melanoma using artificial neural network
Dabass et al. A hybrid U-Net model with attention and advanced convolutional learning modules for simultaneous gland segmentation and cancer grade prediction in colorectal histopathological images
CN106557771A (zh) 基于朴素贝叶斯分类器的皮肤病图像颜色特征提取方法
CN111598144B (zh) 图像识别模型的训练方法和装置
CN110910409B (zh) 一种灰度图像处理方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20171030

Address after: 518000 Nanhai Road, Guangdong, Shenzhen, No. 3688, No.

Applicant after: Shenzhen University

Address before: 518000 Guangdong city of Shenzhen province Nanshan District Taoyuan Road No. 5 neighboring apartment building A 2926

Applicant before: Lei Baiying

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20171003

RJ01 Rejection of invention patent application after publication