CN111651626B

CN111651626B - 图像分类方法、装置及可读存储介质

Info

Publication number: CN111651626B
Application number: CN202010450188.5A
Authority: CN
Inventors: 边成; 初春燕; 余双; 马锴; 郑冶枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2023-08-22
Anticipated expiration: 2040-05-25
Also published as: CN111651626A

Abstract

本申请公开了一种图像分类方法、装置及可读存储介质，涉及人工智能领域。该方法包括：获取目标图像；对目标图像进行转化，得到至少两种通道图像，至少两种通道图像对应不同的通道表达方式；通过对应的图像分类模型对至少两种通道图像进行分类识别，得到至少两种通道识别结果；通过融合模型对至少两种通道识别结果进行融合，得到目标图像对应的分类结果。将目标图像转化为至少两种通道图像，并通过分别对应的图像分类模型进行分类识别，从而从不同的维度对图像进行分类，也即从不同的角度提取目标图像的细节进行分类识别，提高了图像分类的准确率。

Description

图像分类方法、装置及可读存储介质

技术领域

本申请实施例涉及人工智能领域，特别涉及一种图像分类方法、装置及可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

相关技术中，在通过机器学习方式对图像进行分类时，通常对图像进行特征提取后，将提取得到的特征输入分类器中，由分类器根据特征进行分类识别，输出图像对应的类别。

而上述方式进行图像分类的过程中，在特征提取过程中通常提取的是一些关键视觉特征，而针对一些复杂度高，且精细度也较高的图像，无法通过提取的特征进行准确的分类，从而导致分类结果准确率较低。

发明内容

本申请实施例提供了一种图像分类方法、装置及可读存储介质，可以提高图像分类模型的分类结果准确率。所述技术方案如下：

一方面，提供了一种图像分类方法，所述方法包括：

获取目标图像，所述目标图像为图像内容待分类的图像；

对所述目标图像进行转化，得到至少两种通道图像，所述至少两种通道图像对应不同的通道表达方式；

通过与所述至少两种通道图像分别对应的图像分类模型对所述至少两种通道图像进行分类识别，得到至少两种通道识别结果，其中，每种通道图像对应一种通道识别结果；

通过融合模型对所述至少两种通道识别结果进行融合，得到所述目标图像对应的分类结果。

另一方面，提供了一种图像分类装置，所述装置包括：

获取模块，用于获取目标图像，所述目标图像为图像内容待分类的图像；

转化模块，用于对所述目标图像进行转化，得到至少两种通道图像，所述至少两种通道图像对应不同的通道表达方式；

识别模块，用于通过与所述至少两种通道图像分别对应的图像分类模型对所述至少两种通道图像进行分类识别，得到至少两种通道识别结果，其中，每种通道图像对应一种通道识别结果；

融合模块，用于通过融合模型对所述至少两种通道识别结果进行融合，得到所述目标图像对应的分类结果。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的图像分类方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的图像分类方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述本申请实施例中任一所述的图像分类方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

通过将目标图像转化为至少两种通道图像，并通过分别对应的图像分类模型进行分类识别，从而从不同的维度对图像进行分类，也即从不同的角度提取目标图像的细节进行分类识别，提高了图像分类的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性的实施例提供的通过三种通道图像对眼底图像进行分类的示意图；

图2是本申请一个示例性实施例提供的图像分类方法的流程图；

图3是基于图2示出的实施例提供的将通道识别结果进行融合的过程示意图；

图4是本申请另一个示例性实施例提供的图像分类方法的流程图；

图5是本申请另一个示例性实施例提供的图像分类方法的流程图；

图6是本申请一个示例性实施例提供的图像分类装置的结构框图；

图7是本申请另一个示例性实施例提供的图像分类装置的结构框图；

图8是本申请一个示例性的实施例提供的终端的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行简单介绍：

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)：是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

图像通道：是指组成图像的不同通道组成部分，可选地，针对同一张图像，可以以不同的图像通道进行表达，如：可以将图像表达为单通道形式，也即通常表述的灰度图；可以将图像表达为三通道形式，如：红绿蓝(Red-Green-Blue，RGB)通道、色调饱和度值(Hue-Saturation-Value，HSV)通道、照明度色彩(Luminosity-A-B，LAB)通道等；还可以将图像表达为四通道形式，也即在三通道图像的基础上增加透明度。本申请实施例中，以将图像表达为三通道形式为例进行说明。示意性的，以将图像表达至RGB色彩空间为例进行说明，即一幅图像由红色、绿色和蓝色三个通道组成，共同作用产生了完整的图像，可选地，三个通道的取值都在0-255之间，取值越大，表示该通道表达的色彩越强烈，如：某个像素点红色通道取值为250，则表示该像素点红色表达较强，红色通道取值为20，则表示红色表达较弱。

结合上述名词简介，对本申请实施例的应用场景进行举例说明：

第一，随着中国人口的不断增长和人口老龄化加剧，眼健康形势日趋严重，而随着医疗图像深度学习技术的发展，全自动眼底图像AI筛查***需求日益显著，而通常，眼底图像AI筛查***在落地式，由于采用手动眼底相机拍摄，因此产生大量曝光不准、污损等废片，在没有进行质控处理就直接上传，会导致眼底图像AI筛查***准确率较低，故设置眼底图像质控***对有效图像进行自动化筛选，从而减小医生在图像质控上的精力。

在眼部医疗领域中，通过图像识别模型将眼底图像进行分类识别，判断眼底图像的可用性，如：将眼底图像输入图像分类模型，确定眼底图像可用于诊断或不可用于诊断，而本申请实施例中，将眼底图像转化为至少两种通道图像后，将至少两种通道图像分别输入对应的图像分类模型进行分类识别，并得到通道识别结果，将至少两种通道识别结果融合后，得到眼底图像对应的分类结果；

示意性的，如图1所示，将眼底图像110转化为RGB通道图像120、HSV通道图像130和LAB通道图像140后，将RGB通道图像120输入第一分类模型121，输出得到第一分类结果122；将HSV通道图像130输入第二分类模型131，输出得到第二分类结果132；将LAB通道图像140输入第三分类模型141，输出得到第三分类结果142，融合第一分类结果122、第二分类结果132和第三分类结果142后，得到眼底图像110的分类结果150。

第二，在百科识别领域中，通过物种识别模型对图像中的物体进行分类识别，判断图像中的物体所属的物种类别，如：将图像输入物种识别模型，确定图像中的植物所属的类目，而本申请实施例中，将图像转化为至少两种通道图像后，将至少两种通道图像分别输入对应的图像分类模型进行分类识别，并得到通道识别结果，将至少两种通道识别结果融合后，得到图像对应的物种分类结果。

上述两种应用场景仅为本申请示意性的举例，本申请实施例提供的内容分类方法还可以应用于其他图像分类的方案中，本申请实施例对此不加以限定。

值得注意的是，本申请实施例提供的图像分类方法，可以由终端实现，也可以由服务器实现，还可以由终端和服务器协同实现。其中，终端包括智能手机、平板电脑、便携式膝上笔记本电脑、台式计算机、智能音箱、智能可穿戴设备等终端中的至少一种，服务器可以是物理服务器，也可以是提供云计算服务的云服务器，且服务器可以实现为一台服务器，也可以是多个服务器构成的服务器集群或分布式***。其中，当终端和服务器协同实现本申请实施例提供的方案时，终端和服务器可以通过有线或无线通信方式进行直接或间接连接，本申请实施例对此不加以限定。

结合上述名词简介以及应用场景，对本申请实施例提供的图像分类方法进行说明，以该方法应用于服务器中为例进行说明，如图2所示，该方法包括：

步骤201，获取目标图像，目标图像为图像内容待分类的图像。

本实施例中，以目标图像为眼底图像为例，也即，对眼底图像进行分类，可选地，该眼底图像可以是用于对图像分类模型进行训练的样本图像，也可以是实际识别过程中的待识别图像。

本实施例中，在获取眼底图像后，对眼底图像进行分类，其中，分类结果包括：可用于诊断、可接受、不可用于诊断至少三种，其中，可用于诊断用于指示眼底图像可以用于传送至医生处进行眼部医疗诊断，也即眼底图像的清晰度符合医疗诊断的要求；可接受用于指示眼底图像在清晰度上稍有欠缺，但能够传送至医生处进行眼部医疗诊断，诊断结果可能会产生一定的偏差；不可用于诊断用于指示眼底图像不可用于传送至医生处进行眼部医疗诊断，也即眼底图像的清晰度不符合医疗诊断的要求。可选地，上述分类结果仅为示意性的举例，分类的类别数量可以更多也可以更少，本申请实施例对分类方式不加以限定。

可选地，本申请实施例中，以目标图像为眼底图像为例，且目标图像为标注有标签的样本图像，该眼底图像的数据来源包括：1、公开数据集EyePACS中的质控子集EyeQ数据集；2、来源于三个不同等级的医疗机构或图像采集中心的私有数据集。可选地，数据集中的数据统一缩放为224×224像素大小。

可选地，统一对图像进行标准化处理，并做随机水平翻折操作。

步骤202，对目标图像进行转化，得到至少两种通道图像。

可选地，至少两种通道图像对应不同的通道表达方式，如：对目标图像进行转化，得到两种通道图像；或，对目标图像进行转化，得到三种通道图像；或，对目标图像进行转化，得到四种通道图像等，通道图像的数量可以更多，本申请实施例对此不加以限定。

本实施例中，以对目标图像进行转化，得到三种通道图像为例进行说明，示意性的，对目标图像进行转化，得到RGB通道图像、HSV通道图像和LAB通道图像。

步骤203，通过与至少两种通道图像分别对应的图像分类模型对至少两种通道图像进行分类识别，得到至少两种通道识别结果。

可选地，图像分类模型可以是当前待训练的模型，也可以是已通过标注有分类标签的样本图像进行训练后得到的模型。

可选地，每种通道图像对应一种通道识别结果，且每种通道图像对应一个图像分类模型，也即，将通道图像通过对应的图像分类模型进行分类识别后，得到一种通道识别结果。

可选地，图像分类模型为深度学习模型，且图像分类模型为神经网络模型。

可选地，图像分类模型在对目标图像进行分类识别时，首先提取目标图像的特征数据，并对特征数据进行分类识别，得到目标图像对应的分类结果。

可选地，本申请实施例中，针对目标图像，首先将其转化为至少两种通道图像，而每种通道图像对应有独立的图像分类模型，通过对应的图像分类模型对通道图像进行分类识别，得到至少两种通道识别结果。示意性的，至少两种通道图像中包括第一通道图像、第二通道图像和第三通道图像，其中，图像分类模型中包括与第一通道图像对应的第一分类模型，与第二通道图像对应的第二分类模型以及与第三通道图像对应的第三分类模型，则通过第一分类模型对第一通道图像进行分类识别，得到第一通道识别结果，通过第二分类模型对第二通道图像进行分类识别，得到第二通道识别结果，以及通过第三分类模型对第三通道图像进行分类识别，得到第三通道识别结果。

可选地，第一分类模型对第一通道图像进行特征提取后，得到第一图像特征，并对第一图像特征进行分类识别，得到第一通道识别结果；第二分类模型对第二通道图像进行特征提取后，得到第二图像特征，并对第二图像特征进行分类识别，得到第二通道识别结果；第三分类模型对第三通道图像进行特征提取后，得到第三图像特征，并对第三图像特征进行分类识别后，得到第三通道识别结果。

可选地，上述第一通道图像为RGB通道图像，第二通道图像为HSV通道图像，第三通道图像为LAB通道图像。

可选地，图像分类模型在对目标图像进行分类识别后，输出内容为目标图像对应每种类别的比例，示意性的，目标图像为眼底图像，内容分类模型对眼底图像进行分类识别后，输出得到眼底图像分别对应类别可用于诊断、可接受以及不可用于诊断的概率，如：眼底图像A转换为RGB通道图像后，分类识别结果对应可用于诊断的指数为0.7，对应可接受的指数为0.2，对应不可用于诊断的指数为0.1；转换为HSV通道图像后，分类识别结果对应可用于诊断的指数为0.6，对应可接受的指数为0.3，对应不可用于诊断的指数为0.1；转换为LAB通道图像后，分类识别结果对应可用于诊断的指数为0.7，对应可接受的指数为0.3，对应不可用于诊断的指数为0。

步骤204，通过融合模型对至少两种通道识别结果进行融合，得到目标图像对应的分类结果。

可选地，对至少两种通道识别结果进行融合的方式包括如下方式中的至少一种：

第一，取至少两种通道识别结果的加权平均结果作为目标图像对应的分类结果；

示意性的，眼底图像A转换为RGB通道图像后，分类识别结果对应可用于诊断的指数为0.7，对应可接受的指数为0.2，对应不可用于诊断的指数为0.1；转换为HSV通道图像后，分类识别结果对应可用于诊断的指数为0.6，对应可接受的指数为0.3，对应不可用于诊断的指数为0.1；转换为LAB通道图像后，分类识别结果对应可用于诊断的指数为0.7，对应可接受的指数为0.3，对应不可用于诊断的指数为0，则取加权(如：权重值皆取1)平均结果后，眼底图像A对应可用于诊断的指数为0.67，对应可接受的指数为0.27，对应不可用于诊断的指数为0.06。

第二，通过融合模型对至少两种通道识别结果进行融合，得到目标图像对应的融合识别结果，将至少两种通道识别结果和融合识别结果的加权平均结果作为目标图像对应的分类结果。

可选地，融合模型为深度学习模型，且融合模型为神经网络模型。

可选地，在通过融合模型对至少两种通道识别结果进行融合时，包括如下过程：通过第一融合模型对至少两个图像分类模型提取的图像特征进行融合分类识别，得到第一融合识别结果；通过第二融合模型对至少两种通道识别结果和第一融合识别结果进行融合，得到目标图像对应的第二融合识别结果，将至少两种通道识别结果、第一融合识别结果和第二融合识别结果的加权平均结果作为目标图像对应的分类结果。

可选地，上述加权平均结果的计算过程中，权重值为预先设置的；或，权重值为随机生成的。

示意性的，请参考图3，以将目标图像转化为三种通道图像为例进行说明，如图3所示，将目标图像300转化为通道图像310、通道图像320以及通道图像330；将通道图像310输入第一分类模型311，通过提取第一特征312输出得到第一通道识别结果313；将通道图像320输入第二分类模型321，通过提取第二特征322输出得到第二通道识别结果323；将通道图像330输入第三分类模型331，通过提取第三特征332输出得到第三通道识别结果333；将第一特征312、第二特征322和第三特征332输入第一融合模型340，输出得到第一融合识别结果341，将第一识别结果313、第二识别结果323和第三识别结果333以及第一融合识别结果341输入第二融合模型350，输出得到第二融合识别结果351，将第一识别结果313、第二识别结果323、第三识别结果333、第一融合识别结果341以及第二融合识别结果351的加权平均结果作为目标图像300的分类结果360。

可选地，在确定目标图像对应的分类结果后，还能通过不确定度分析对分类结果的可信度进行确定，其中，不确定度分析包括类间不确定度分析和类内不确定度分析中的至少一种，其中，类间不确定度分析用于确定目标内容对应不同分类之间的差异度，类内不确定度分析用于确定目标内容对应统一分类之间其他内容的差异度。

可选地，通过第一损失函数对目标内容和分类结果进行类间不确定度分析，得到分类结果的类间不确定度，第一损失函数用于根据目标内容对应类别的分布情况进行类间不确定度分析，其中通过高斯分布式确定目标内容对应类别的第一分布情况，以及通过狄拉克分布式确定目标内容对应类别的第二分布情况，通过第一分布情况和第二分布情况，结合分类结果进行分析，得到分类结果的类间不确定度。

可选地，通过第二损失函数对目标内容和分类结果进行类内不确定度分析，得到分类结果的类内不确定度，第二损失函数用于根据目标聂荣对应分类中的其他内容进行类内不确定度分析。

可选地，结合上述类间不确定度和类内不确定度，对上述图像分类模型进行监督训练，其中，通过类间不确定度和类内不确定度交替对图像分类模型进行监督训练。

可选地，将类间不确定度代入第三损失函数，第三损失函数用于结合分类结果的不确定度对图像分类模型的分类准确率进行分析，以减小第三损失函数的损失值为目标，对图像分类模型进行监督训练。

综上所述，本实施例提供的图像分类方法，通过将目标图像转化为至少两种通道图像，并通过分别对应的图像分类模型进行分类识别，从而从不同的维度对图像进行分类，也即从不同的角度提取目标图像的细节进行分类识别，提高了图像分类的准确率。

在一个可选的实施例中，在进行识别结果融合时，需要对通道识别结果、融合识别结果进行再融合，图4是本申请另一个示例性实施例提供的图像分类方法的流程图，以该方法应用于服务器中为例进行说明，如图4所示，该方法包括：

步骤401，获取目标图像，目标图像为图像内容待分类的图像。

步骤402，对目标图像进行转化，得到至少两种通道图像。

步骤403，通过与至少两种通道图像分别对应的图像分类模型对至少两种通道图像进行分类识别，得到至少两种通道识别结果。

步骤404，通过第一融合模型对至少两个图像分类模型提取的图像特征进行融合分类识别，得到第一融合识别结果。

示意性的，至少两种通道图像中包括第一通道图像、第二通道图像和第三通道图像，图像分类模型中包括第一通道图像对应的第一分类模型、第二通道图像对应的第二分类模型、第三通道图像对应的第三分类模型，通过第一融合模型对第一图像特征、第二图像特征以及第三图像特征进行融合分类识别，得到第一融合识别结果，其中，第一图像特征为第一分类模型对第一通道图像提取的特征，第二图像特征为第二分类模型对第二通道图像提取的特征，第三图像特征为第三分类模型对第三通道图像提取的特征。

步骤405，通过第二融合模型对至少两种通道识别结果和第一融合识别结果进行融合，得到所述目标图像对应的第二融合识别结果。

可选地，第二融合模型为深度学习模型，且第二融合模型为神经网络模型。

可选地，将至少两种通道识别二级果和第一融合识别结果输入至第二融合模型，输出得到目标图像对应的第二融合识别结果。

步骤406，将所述至少两种通道识别结果、所述第一融合识别结果和所述第二融合识别结果的加权平均结果作为所述目标图像对应的所述分类结果。

示意性的，眼底图像A转换为RGB通道图像后，分类识别结果对应可用于诊断的指数为0.7，对应可接受的指数为0.2，对应不可用于诊断的指数为0.1；转换为HSV通道图像后，分类识别结果对应可用于诊断的指数为0.6，对应可接受的指数为0.3，对应不可用于诊断的指数为0.1；转换为LAB通道图像后，分类识别结果对应可用于诊断的指数为0.7，对应可接受的指数为0.3，对应不可用于诊断的指数为0，将上述三种通道识别结果输入第一融合模型，得到第一融合识别结果为：可用于诊断的指数为0.8，对应可接受的指数为0.1，对应不可用于诊断的指数为0.1，将三种通道识别结果和第一融合识别结果输入第二融合模型，输出得到第二融合识别结果为：可用于诊断的指数为0.7，对应可接受的指数为0.1，对应不可用于诊断的指数为0.2，则取加权平均结果后，眼底图像A对应可用于诊断的指数为0.7，对应可接受的指数为0.2，对应不可用于诊断的指数为0.1。

本实施例提供的方法，通过对至少两种通道图像分别进行分类识别，得到通道识别结果，并对至少两个图像分类模型中提取的特征进行融合得到第一融合识别结果，以及对通道识别结果和第一融合识别结果进行再融合，得到第二融合识别结果，从而根据通道识别结果、第一融合识别结果和第二融合识别结果进行取加权平均值，作为目标图像的分类结果，从而进一步提高图像分类的准确率。

在一个可选的实施例中，上述通道识别结果和融合识别结果还用于对图像分类模型和融合模型进行训练。图5为本申请另一个示例性实施例提供的图像分类方法的流程图，以该方法应用于服务器中为例进行说明，如图5所示，该方法包括：

步骤501，获取目标图像，目标图像为图像内容待分类的图像。

步骤502，对目标图像进行转化，得到至少两种通道图像。

步骤503，通过与至少两种通道图像分别对应的图像分类模型对至少两种通道图像进行分类识别，得到至少两种通道识别结果。

可选地，图像分类模型可以是当前待训练的模型。可选地，图像分类模型为深度学习模型，且图像分类模型为神经网络模型。

步骤504，通过融合模型对至少两种通道识别结果进行融合，得到目标图像对应的融合识别结果。

步骤505，将至少两种通道识别结果和融合识别结果的加权平均结果作为目标图像对应的分类结果。

步骤506，将至少两种通道识别结果分别输入第一损失函数，得到至少两个第一损失值。

可选地，第一损失函数用于根据交叉熵损失对图像分类模型进行监督训练。

步骤507，将融合识别结果输入第二损失函数，得到第二损失值。

可选地，第二损失函数用于根据对融合识别结果的不确定度预测，结合交叉熵损失对融合模型进行监督训练。

可选地，由于在对通道识别结果进行融合以及再融合的过程中，会引入同方差不确定度，故，在对第一损失函数和第二损失函数进行确定的过程中，需要通过公式转换减少同方差不确定度的影响。

可选地，在将至少两种通道识别结果输入第一损失函数之前，通过融合模型对至少两种通道识别结果进行融合时，输出得到不确定度预测结果，通过不确定度预测结果对交叉熵损失函数进行调整，得到第一损失函数和第二损失函数，其中，交叉熵损失函数为受不确定度影响的损失函数。可选地，在对交叉熵损失函数进行调整时，获取目标图像对应的非线性激活函数输出结果，并以不确定度预测结果作为加权值，对非线性激活函数输出结果进行加权，得到加权参数，通过加权参数对交叉熵损失函数进行调整。

示意性的，交叉熵损失函数的形式如下公式一所示：

公式一：

其中，x_σ表示同方差不确定度，表示金标准，X为输出的图像，ω为网络参数，C为类别总数，L_FU为交叉熵损失函数计算得到的损失值，p为图像分类模型或融合模型的预测结果。

值得注意的是，上述公式一所表达的交叉熵损失函数还不能用于对图像分类模型或融合模型进行训练，预测结果p受到同方差不确定度x_σ的影响，故，采用退火算法模拟不确定度x_σ的影响，请参考如下公式二：

公式二：

其中，f^ω(X)为非线性激活函数的输出结果，将预测结果p转化为如上公式二的softmax函数形式后，其中的不确定度x_σ即作为一个加权值对非线性激活函数的输出进行加权，而非线性激活函数对应的确定度越大，加权值则越小，进一步调整上述函数形式，请参考如下公式三：

公式三：

从而对公式一进行化简，得到如下公式四：

公式四：

其中，代入以简化公式形式，便于计算优化，其中，在公式四中，括号内部分，即/>部分为第一损失函数，整个公式四实现为第二损失函数。在计算第一损失值时，将通道识别结果输入第一损失函数，得到至少两个第一损失值，将融合识别结果输入第二损失函数，得到第二损失值，其中，融合识别结果中包括上述第一融合识别结果和第二融合识别结果，也即将第一融合识别结果输入第二损失函数，得到第一个第二损失值，将第二融合识别结果输入第二损失函数，得到第二个第二损失值，将两个第二损失值相加，得到第二损失值。

步骤508，通过第一损失值和第二损失值之和对图像分类模型以及融合模型进行监督训练。

可选地，以减小第一损失值和第二损失值之和为目标，对图像分类模型以及融合模型进行监督训练。

可选地，本申请中采用基于Adam的梯度下降法求解神经网络模型的卷积层参数w和偏置参数b，采用热身(warm up)策略和余弦(cosine)学习率衰减的训练策略，通过损失函数监督网络的训练过程，当模型的损失值大于或者等于阈值时，调整模型的参数并继续进行训练，直至损失值小于阈值，当模型的损失值小于阈值或损失值得到收敛时，停止训练，并获取训练好的模型。

本实施例提供的方法，通过不确定度以及分类结果对模型进行训练，从而避免不确定度对分类识别过程的影响，提高图像分类的准确率。

本实施例提供的方法，当应用于眼底质控筛查***中时，提高为医生筛选可用于诊断的图像的效率，以及筛选可用于诊断的图像的准确率，从而提高检出率，提高眼底图像应用于医疗诊断的效率。

图6是本申请一个示例性实施例提供的图像分类装置的结构框图，如图6所示，该装置包括：

获取模块610，用于获取目标图像，所述目标图像为图像内容待分类的图像；

转化模块620，用于对所述目标图像进行转化，得到至少两种通道图像，所述至少两种通道图像对应不同的通道表达方式；

识别模块630，用于通过与所述至少两种通道图像分别对应的图像分类模型对所述至少两种通道图像进行分类识别，得到至少两种通道识别结果，其中，每种通道图像对应一种通道识别结果；

融合模块640，用于通过融合模型对所述至少两种通道识别结果进行融合，得到所述目标图像对应的分类结果。

在一个可选的实施例中，所述融合模块640，还用于通过所述融合模型对所述至少两种通道识别结果进行融合，得到所述目标图像对应的融合识别结果；将所述至少两种通道识别结果和所述融合识别结果的加权平均结果作为所述目标图像对应的所述分类结果。

在一个可选的实施例中，所述融合模块640，还用于通过第一融合模型对至少两个所述图像分类模型提取的图像特征进行融合分类识别，得到第一融合识别结果；通过第二融合模型对所述至少两种通道识别结果和所述第一融合识别结果进行融合，得到所述目标图像对应的第二融合识别结果。

在一个可选的实施例中，所述融合模块640，还用于将所述至少两种通道识别结果、所述第一融合识别结果和所述第二融合识别结果的加权平均结果作为所述目标图像对应的所述分类结果。

在一个可选的实施例中，所述至少两种通道图像中包括第一通道图像、第二通道图像和第三通道图像，所述图像分类模型中包括与所述第一通道图像对应的第一分类模型、与所述第二通道图像对应的第二分类模型，以及与所述第三通道图像对应的第三分类模型；

所述融合模块640，还用于通过第一融合模型对第一图像特征、第二图像特征以及第三图像特征进行融合分类识别，得到所述第一融合识别结果，其中，所述第一图像特征为所述第一分类模型对所述第一通道图像提取的特征，所述第二图像特征为所述第二分类模型对所述第二通道图像提取的特征，所述第三图像特征为所述第三分类模型对所述第三通道图像提取的特征。

在一个可选的实施例中，如图7所示，所述装置还包括：

输入模块650，用于将所述至少两种通道识别结果分别输入第一损失函数，得到至少两个第一损失值，其中，所述第一损失函数用于根据交叉熵损失对所述图像分类模型进行监督训练；

所述输入模块650，还用于将所述融合识别结果输入第二损失函数，得到第二损失值，其中，所述第二损失函数用于根据对所述融合识别结果的不确定度预测结合所述交叉熵损失对所述融合模型进行监督训练；

训练模块660，用于通过所述第一损失值和所述第二损失值之和对所述图像分类模型和所述融合模型进行监督训练。

在一个可选的实施例中，所述融合模块640，还用于通过所述融合模型对所述至少两种通道识别结果进行融合，得到不确定度预测结果；

所述训练模块660，还用于通过所述不确定度预测结果对交叉熵损失函数进行调整，得到所述第一损失函数和所述第二损失函数，其中，所述交叉熵损失函数为受不确定度影响的损失函数。

在一个可选的实施例中，所述获取模块610，还用于获取所述目标图像对应的非线性激活函数输出结果；

所述训练模块660，还用于以所述不确定度预测结果作为加权值，对所述非线性激活函数输出结果进行加权，得到加权参数；以所述加权参数对所述交叉熵损失函数进行调整。

综上所述，本实施例提供的图像分类装置，通过将目标图像转化为至少两种通道图像，并通过分别对应的图像分类模型进行分类识别，从而从不同的维度对图像进行分类，也即从不同的角度提取目标图像的细节进行分类识别，提高了图像分类的准确率。

需要说明的是：上述实施例提供的图像分类装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像分类装置与图像分类方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本申请一个示例性实施例提供的服务器的结构示意图。该具体来讲：

服务器800包括中央处理单元(Central Processing Unit，CPU)801、包括随机存取存储器(Random Access Memory，RAM)802和只读存储器(Read Only Memory，ROM)803的***存储器804，以及连接***存储器804和中央处理单元801的***总线805。服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(Input OutputSystem，I/O***)806，和用于存储操作***813、应用程序814和其他程序模块815的大容量存储设备807。

基本输入/输出***806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到***总线805的输入输出控制器810连接到中央处理单元801。基本输入/输出***806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备807通过连接到***总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说，大容量存储设备807可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器804和大容量存储设备807可以统称为存储器。

根据本申请的各种实施例，服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在***总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机***(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算手机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的图像分类方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的图像分类方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像分类方法，其特征在于，所述方法包括：

获取目标图像，所述目标图像为图像内容待分类的图像；

通过融合模型对所述至少两种通道识别结果进行融合，得到所述目标图像对应的分类结果，其中，所述融合模型中包括第一融合模型和第二融合模型，通过所述第一融合模型对至少两个所述图像分类模型提取的图像特征进行融合分类识别，得到第一融合识别结果；通过所述第二融合模型对所述至少两种通道识别结果和所述第一融合识别结果进行融合，得到所述目标图像对应的第二融合识别结果；将所述至少两种通道识别结果、所述第一融合识别结果和所述第二融合识别结果的加权平均结果作为所述目标图像对应的分类结果；

通过第一损失函数对所述目标图像和所述分类结果进行类间不确定度分析，得到所述分类结果的类间不确定度，所述第一损失函数用于根据所述目标图像对应类别的分布情况进行类间不确定度分析，其中通过高斯分布式确定目标图像对应类别的第一分布情况，以及通过狄拉克分布式确定所述目标图像对应类别的第二分布情况，通过第一分布情况和第二分布情况，结合分类结果进行分析，得到所述分类结果的类间不确定度；

通过第二损失函数对所述目标图像和所述分类结果进行类内不确定度分析，得到所述分类结果的类内不确定度，所述第二损失函数用于根据所述目标图像对应分类中的其他内容进行类内不确定度分析；

所述融合模型和所述图像分类模型的训练过程包括：

通过所述融合模型对所述至少两种通道识别结果进行融合，得到不确定度预测结果；

通过所述不确定度预测结果对交叉熵损失函数进行调整，得到第一损失函数和第二损失函数，其中，所述交叉熵损失函数为受不确定度影响的损失函数；

将所述至少两种通道识别结果分别输入所述第一损失函数，得到至少两个第一损失值，其中，所述第一损失函数用于根据交叉熵损失对所述图像分类模型进行监督训练；

将所述融合识别结果输入所述第二损失函数，得到第二损失值，其中，所述第二损失函数用于根据对所述融合识别结果的不确定度预测结合所述交叉熵损失对所述融合模型进行监督训练；

通过所述第一损失值和所述第二损失值之和对所述图像分类模型和所述融合模型进行监督训练。

2.根据权利要求1所述的方法，其特征在于，所述至少两种通道图像中包括第一通道图像、第二通道图像和第三通道图像，所述图像分类模型中包括与所述第一通道图像对应的第一分类模型、与所述第二通道图像对应的第二分类模型，以及与所述第三通道图像对应的第三分类模型；

所述通过第一融合模型对至少两个所述图像分类模型提取的图像特征进行融合分类识别，得到第一融合识别结果，包括：

通过第一融合模型对第一图像特征、第二图像特征以及第三图像特征进行融合分类识别，得到所述第一融合识别结果，其中，所述第一图像特征为所述第一分类模型对所述第一通道图像提取的特征，所述第二图像特征为所述第二分类模型对所述第二通道图像提取的特征，所述第三图像特征为所述第三分类模型对所述第三通道图像提取的特征。

3.根据权利要求1所述的方法，其特征在于，所述通过所述不确定度预测结果对交叉熵损失函数进行调整，包括：

获取所述目标图像对应的非线性激活函数输出结果；

通过服务器以所述不确定度预测结果作为加权值，对所述非线性激活函数输出结果进行加权，得到加权参数；

以所述加权参数对所述交叉熵损失函数进行调整。

4.一种图像分类装置，其特征在于，所述装置包括：

融合模块，用于通过融合模型对所述至少两种通道识别结果进行融合，得到所述目标图像对应的分类结果，其中，所述融合模型中包括第一融合模型和第二融合模型，通过所述第一融合模型对至少两个所述图像分类模型提取的图像特征进行融合分类识别，得到第一融合识别结果；通过所述第二融合模型对所述至少两种通道识别结果和所述第一融合识别结果进行融合，得到所述目标图像对应的第二融合识别结果；将所述至少两种通道识别结果、所述第一融合识别结果和所述第二融合识别结果的加权平均结果作为所述目标图像对应的分类结果；

所述装置还包括：

用于通过第一损失函数对所述目标图像和所述分类结果进行类间不确定度分析，得到所述分类结果的类间不确定度，所述第一损失函数用于根据所述目标图像对应类别的分布情况进行类间不确定度分析，其中通过高斯分布式确定目标图像对应类别的第一分布情况，以及通过狄拉克分布式确定所述目标图像对应类别的第二分布情况，通过第一分布情况和第二分布情况，结合分类结果进行分析，得到所述分类结果的类间不确定度的模块；用于通过第二损失函数对所述目标图像和所述分类结果进行类内不确定度分析，得到所述分类结果的类内不确定度，所述第二损失函数用于根据所述目标图像对应分类中的其他内容进行类内不确定度分析的模块；

所述融合模型和所述图像分类模型的训练过程包括：

通过所述融合模型对所述至少两种通道识别结果进行融合，得到不确定度预测结果；通过所述不确定度预测结果对交叉熵损失函数进行调整，得到第一损失函数和第二损失函数，其中，所述交叉熵损失函数为受不确定度影响的损失函数；将所述至少两种通道识别结果分别输入所述第一损失函数，得到至少两个第一损失值，其中，所述第一损失函数用于根据交叉熵损失对所述图像分类模型进行监督训练；将所述融合识别结果输入所述第二损失函数，得到第二损失值，其中，所述第二损失函数用于根据对所述融合识别结果的不确定度预测结合所述交叉熵损失对所述融合模型进行监督训练；通过所述第一损失值和所述第二损失值之和对所述图像分类模型和所述融合模型进行监督训练。

5.根据权利要求4所述的装置，其特征在于，所述至少两种通道图像中包括第一通道图像、第二通道图像和第三通道图像，所述图像分类模型中包括与所述第一通道图像对应的第一分类模型、与所述第二通道图像对应的第二分类模型，以及与所述第三通道图像对应的第三分类模型；

所述融合模块，还用于通过第一融合模型对第一图像特征、第二图像特征以及第三图像特征进行融合分类识别，得到所述第一融合识别结果，其中，所述第一图像特征为所述第一分类模型对所述第一通道图像提取的特征，所述第二图像特征为所述第二分类模型对所述第二通道图像提取的特征，所述第三图像特征为所述第三分类模型对所述第三通道图像提取的特征。

6.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至3任一所述的图像分类方法。

7.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至3任一所述的图像分类方法。