CN112257728B - 图像处理方法、装置、计算机设备以及存储介质 - Google Patents
图像处理方法、装置、计算机设备以及存储介质 Download PDFInfo
- Publication number
- CN112257728B CN112257728B CN202011264341.1A CN202011264341A CN112257728B CN 112257728 B CN112257728 B CN 112257728B CN 202011264341 A CN202011264341 A CN 202011264341A CN 112257728 B CN112257728 B CN 112257728B
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- instance
- features
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/12—Fingerprints or palmprints
- G06V40/1347—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Ophthalmology & Optometry (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种图像处理方法、装置、计算机设备以及存储介质,本申请属于人工智能领域下的计算机视觉技术。图像处理方法包括:获取待识别图像,提取待识别图像的图像实例特征,图像实例特征包括N个原始特征图,任一原始特征图的任一特征图像素对应待识别图像的一个实例;从N个原始特征图中提取K个尺度下的K个局部关键实例特征,将K个局部关键实例特征叠加为待识别图像的多尺度实例特征;从N个原始特征图中提取待识别图像的全局实例权重特征;对多尺度实例特征和全局实例权重特征进行识别处理,得到待识别图像的图像识别结果。采用本申请,可以提高图像识别的效率以及准确率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像处理方法、装置、计算机设备以及存储介质。
背景技术
图像识别是指对图像进行处理、分析和理解,以识别出图像内容。图像识别广泛应用于安全领域中的人脸识别,表情识别等,以及应用于交通领域中的交通标志识别,车牌号码识,还应用于医疗领域的兴趣区域识别等。
目前,图像识别的主要方式为人工识别方式,由人工基于以往经验以及知识对图像内容进行判别,但人工识别不仅效率低下,且受主观影响较大会造成识别结果不准确。
发明内容
本申请实施例提供一种图像处理方法、装置、计算机设备以及存储介质,可以提高图像识别的效率以及准确率。
本申请实施例一方面提供了一种图像处理方法,包括:
获取待识别图像,提取所述待识别图像的图像实例特征,所述图像实例特征包括N个原始特征图,任一原始特征图的任一特征图像素对应所述待识别图像的一个实例,所述N是正整数;
从所述N个原始特征图中提取K个尺度下的K个局部关键实例特征,将K个局部关键实例特征叠加为所述待识别图像的多尺度实例特征,K是正整数;
从所述N个原始特征图中提取所述待识别图像的全局实例权重特征;
对所述多尺度实例特征和所述全局实例权重特征进行识别处理,得到所述待识别图像的图像识别结果。
本申请实施例一方面提供了一种图像处理装置,包括:
获取模块,用于获取待识别图像,提取所述待识别图像的图像实例特征,所述图像实例特征包括N个原始特征图,任一原始特征图的任一特征图像素对应所述待识别图像的一个实例,所述N是正整数;
第一提取模块,用于从所述N个原始特征图中提取K个尺度下的K个局部关键实例特征;
叠加模块,用于将K个局部关键实例特征叠加为所述待识别图像的多尺度实例特征,K是正整数;
第二提取模块,用于从所述N个原始特征图中提取所述待识别图像的全局实例权重特征;
识别模块,用于对所述多尺度实例特征和所述全局实例权重特征进行识别处理,得到所述待识别图像的图像识别结果。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述各实施例中的方法。
本申请实施例一方面提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行上述各实施例中的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机指令被计算机设备的处理器执行时,执行上述各实施例中的方法。
本申请由终端自动识别图像,以确定图像的图像识别结果,不需要人工参与,可以提高图像识别的效率,且可以避免由人工识别所带来的主观因素干扰,提高图像识别准确率,丰富图像识别的方式;再有,通过提取待识别图像的局部特征以及全局特征,进而识别出图像识别结果,局部特征和全局特征相互辅助,可以提升图像识别的准确率;通过引入多实例学习,在全局和局部视角下考察各实例的权重分布,可以捕获背景对比度较小的图像区域的特征响应,提高特征表达能力,进一步提升图像识别的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图像处理的***架构图;
图2a-图2b是本申请实施例提供的一种图像处理的场景示意图;
图3是本申请实施例提供的一种图像处理方法的流程示意图;
图4是本申请实施例提供的一种实例示意图;
图5是本申请实施例提供的一种深度多实例学习模型的示意图;
图6是本申请实施例提供的一种确定图像识别结果的流程示意图;
图7是本申请实施例提供的一种确定目标融合特征的网络架构图;
图8a-图8l是本申请实施例提供的多组实例响应示意图;
图9是本申请实施例提供的一种图像处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大图像处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请涉及人工智能下属的计算机视觉技术(Computer Vision,CV),具体属于计算机视觉技术中的图像内容识别,具体可以是识别出图像标签,也可以是识别出图像的目标区域等。
计算机视觉技术是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本申请可以应用于如下场景:当需要识别图像的图像标签(或者识别图像的目标区域)时,获取待识别的图像,采用本申请的深度多实例学习方案识别出该图像的图像标签(或者识别出图像的目标区域),后续可以基于图像标签对图像进行分类或者基于目标区域对图像进行分割。
请参见图1,图1是本申请实施例提供的一种图像处理的***架构图。本申请的***架构涉及服务器10d以及终端设备集群,终端设备集群可以包括:终端设备10a、终端设备10b、...、终端设备10c等。
以终端设备10a为例,终端设备10a获取待识别的图像,并将该图像发送至服务器10d。服务器10d提取该图像的图像实例特征,该图像实例特征包括N个原始特征图。从N个原始特征图中提取K个尺度下的K个局部关键实例特征,将K个局部关键实例特征叠加为待识别图像的多尺度实例特征。从N个原始特征图中提取待识别图像的全局实例权重特征,对上述多尺度实例特征和全局实例权重特征进行识别处理,得到待识别图像的图像识别结果。
若图像识别结果是图像标签,服务器10d可以基于图像识别结果进行图像分类;若图像识别结果是图像像素标签,服务器10d可以基于图像识别结果进行图像分割;或者服务器10d可以直接将图像识别结果下发至终端设备10a,由终端设备10a在屏幕上联合展示待识别图像以及图像识别结果。
图1所示的终端设备10a、终端设备10b、终端设备10c等可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobile internet device)、可穿戴设备等具有图像处理功能的智能设备。终端设备集群与服务器10d可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
下述以服务器10d如何识别一张图像的图像标签为例进行详细说明:请参见图2a-图2b,其是本申请实施例提供的一种图像处理的场景示意图。如图2a所示,服务器10d获取待识别的图像20a,服务器将图像20a输入图像特征提取模型,以提取图像20a的实例特征20b。其中图像特征提取模型中可以包含多个卷积层,实例特征20b可以包括多个特征图,且特征图的数量和最后待分类类别数量相同(假设最后待分类类别数量为3,那么特征图的数量就为3),每个特征图的每个像素可以对应图像20a的一个实例(通俗来说,图像20a的一个实例就是一个图像区域,整个图像20a可以看作是一个包),且像素值表示该实例在对应类别上的得分。例如,第一个特征图的第一个像素的像素值等于0.3,那么可以认为上述第一个像素对应的实例在第一个类别上的得分为0.3。
服务器10d获取到实例特征20b后,分别从全局以及局部两方面考察每个实例对每个待分类类别的贡献。首先通过局部考察以确定多个实例中的关键实例,具体过程如下:设置滑动窗口,并设置多个尺度。对尺度i来说,在实例特征20b中的任一特征图上滑动窗口,在每个窗口中,保留像素值排名前i的像素的像素值,将剩余的像素的像素值设置为0,服务器10d将像素值调整后的3个特征图再组合为尺度i下的单位局部实例特征。
对每个尺度来说,都采用上述方式确定与之对应的单位局部实例特征,将多个尺度下的多个单位局部实例特征叠加为局部实例特征20c。服务器10d在将多个尺度下的多个单位局部实例特征进行叠加时,采用对位叠加的方式,即尺度i的单位局部实例特征的第一特征图、尺度i+1的单位局部实例特征的第一个特征图、和尺度i+2的单位局部实例特征的第一个特征图对位叠加。可以知道,由于只改变了像素值,因此叠加后的局部实例特征20c和实例特征20b无论是特征图尺寸还是通道数都完全相同,即局部实例特征20c也包含3个特征图。
通过全局考察以确定多个实例的权重,具体过程如下:
服务器10d通过调用单通道的1×1卷积核,将实例特征20b降维为一个权重矩阵20d,且该矩阵的尺寸和实例特征20b中的特征图的尺寸相同。权重特征20d中的每个特征值可以认为是图像20a的每个实例的权重。
至此,服务器10d就获取到了局部实例特征20c和权重矩阵20d,将局部实例特征20c和权重矩阵20d进行加权,即将局部实例特征20c中的3个特征图分别与权重矩阵20d进行矩阵点乘运算,得到加权后的3个特征图(可以将加权后的特征图称为融合特征图),服务器10d将这3个融合特征图组合为融合实例特征20e。分析上述过程可以知道,融合实例特征既能表征图像20a的局部实例特征,还能表征全局实例权重特征,从局部-全局两方面都提取了图像20a的图像特征。
如图2b所示,对每一个融合特征图来说,将融合特征图中的像素的像素值进行叠加,就会得到一个特征值,该特征值可以表示图像20a在一个类别上的初始概率。服务器分别确定每个融合特征图的特征值,即可确定图像20a在3个类别上的初始概率,服务器可以将这3个初始概率组合为初始概率集合20f。通过调用激活函数对初始概率集合20f进行激活处理,即可得到目标概率集合,目标概率集合中的每一个目标概率就表示图像20a与一种类别的匹配概率。服务器10d可以将目标概率集合和3种类别进行组合,得到图像20a的图像识别结果20f。从图2b可以知道,图像20a与图像类别“健身”的匹配概率为0.8,图像20a与图像类别“跑步”的匹配概率为0.7,图像20a与图像类别“运动”的匹配概率为0.6。服务器10d可以将最大匹配概率对应的图像类别作为图像20a的图像标签,即图像20a的图像标签就是:健身。
其中,获取待识别图像(如上述实施例中的图像20a),提取图像实例特征(如上述实施例中的实例特征20b),提取多尺度实例特征(如上述实施例中的局部实例特征20c),以及确定图像识别结果(如上述实施例中的图像识别结果20f)的具体过程可以参见下述图3-图8l对应的实施例。
请参见图3,图3是本申请实施例提供的一种图像处理方法的流程示意图,下述实施例以性能更好的服务器(如上述图2a-图2b对应实施例中的服务器10d)为执行主体进行描述,本实施例主要描述如何确定待识别图像的多尺度实例特征和全局实例权重特征,图像处理方法包括如下步骤:
步骤S101,获取待识别图像,提取所述待识别图像的图像实例特征,所述图像实例特征包括N个原始特征图,任一原始特征图的任一特征图像素对应所述待识别图像的一个实例,所述N是正整数。
具体的,服务器获取待识别图像(如上述图2a-图2b对应实施例中的图像20a),待识别图像可以是医疗领域的医学图像,具体可以是视网膜图像,通过本申请的方案可以识别出视网膜图像中病灶的病灶属性和/或病灶区域,例如,识别出视网膜医学图像是属于糖网病灶属性,或者是属于青光眼病灶属性,或者是属于老年病病灶属性。除了识别出病灶属性和/或病灶区域以外,还可以识别视网膜图像中的视觉器官以及视觉器官区域,例如,识别出视网膜图像中的眼球区域,晶状体区域,视觉神经区域等。
待识别图像也可以是非医疗领域的自然图像,通过本申请可以识别出自然图像的图像类别,例如,当待识别图像是人脸表情图像时,识别出图像类别是紧张还是惊恐等;当待识别图像是交通标志图像时,识别出图像类别是警告标志还是指路标志等。
调用卷积特征提取网络提取待识别图像的卷积特征,其中,卷积特征提取网络中可以包括多个卷积层,通过每个卷积层中的卷积核可以提取出待识别图像的隐藏图像特征。卷积特征可以看作是多个卷积特征图构成,例如卷积特征的尺寸为50×50×10,可以将卷积特征看作是10个尺寸为50×50的卷积特征图构成。一般来说,随着卷积层的增多,提取的特征图的尺寸会不断变小,但特征图的数量会增多(也可以说特征的通道数增多)。
服务器通过转换层中的1×1卷积核将上述卷积特征转换为待识别图像的图像实例特征(如上述图2a-图2b对应实施例中的实例特征20b),通过1×1的卷积核对卷积特征进行卷积处理并不会改变特征图的尺寸,只会改变特征图的数量,以实现数据降维或者数据升维的目的。图像实例特征包括N个原始特征图(即原始特征图的尺寸和前述卷积特征图的尺寸相同),任一原始特征图(或者卷积特征图)的任一特征图像素都对应待识别图像的一个实例,任一原始特征图的任一特征图像素的像素值可以认为是一个实例在一个类别上的得分。整个待识别图像可以看作是一个包,待识别图像的一个实例可以认为是待识别图像的一个图像区域,N等于最后分类的类别数量,或者说是包的类别数量。
从卷积特征转换为图像实例特征的具体过程可以由下述公式(1)进行表示:
其中,X2表示图像实例特征,X1表示卷积特征,W1和b1分别表示转换层的权重和偏置项,1×1表示卷积核的尺寸,N表示通道数,也表示最后类别数量。
例如,卷积特征的尺寸为50×50×10,通过转换层中的卷积核1×1×10×N将该卷积特征转换为图像实例特征,且图像实例特征的尺寸为50×50×N,每个原始特征图的尺寸为50×50,第一个原始特征图的某一个特征图像素表示该特征图像素对应的一个实例在第一个类别上的得分。
请参见图4,图4是本申请实施例提供的一种实例示意图,如图4所示,卷积层的卷积核尺寸为2×2,即在待识别图像上的卷积滑动窗口的尺寸就是2×2,以卷积滑动窗口当前滑动到待识别图像的左上角区域4个像素为例进行说明。将待识别图像的左上角4个像素与卷积核进行点乘运算,得到卷积特征的左上角第一个特征图像素的像素值,当前左上角第一个特征图像素的像素值为0。从图4所示的映射关系可以看出,卷积特征的左上角第一个特征图像素就对应待识别图像的左上角区域,待识别图像的左上角区域也可以被称为待识别图像的一个实例,因此卷积特征的左上角第一个特征图像素就对应待识别图像的一个实例(或者说一个图像区域)。后续,可以对该卷积特征采用1×1的卷积核再进行卷积,以改变卷积特征图的通道数。虽然通道数改变了,但特征图的尺寸并未发生变化,因此采用1×1的卷积核再进行卷积后的特征的每一个像素仍然对应待识别图像的一个实例。
步骤S102,从所述N个原始特征图中提取K个尺度下的K个局部关键实例特征,将K个局部关键实例特征叠加为所述待识别图像的多尺度实例特征,K是正整数。
具体的,预设K个尺度,从N个原始特征图中提取每个尺度下的局部关键实例特征(如上述图2a-图2b对应实施例中的单位局部实例特征)。针对第i个尺度,1≤i≤K,从N个原始特征图中提取第i个尺度下的局部关键实例特征的流程如下:
为每个原始特征图设置轮询优先级,按照该轮询优先级从N个原始特征图中选择具有最高轮询优先级的原始特征图,将选择的原始特征图作为目标原始特征图。根据目标原始特征图以及尺度i,确定单位局部实例关键特征。继续按照轮询优先级从剩余的原始特征图中选择具有最高轮询优先级的目标原始特征图,继续确定下一个目标原始特征图的单位局部关键实例特征。不断地循环,当所有原始特征图都被确定的目标原始特征图时,停止轮询,并将前面确定的N个单位局部关键实例特征组合为第i个尺度下的局部关键实例特征。每个单位局部关键实例特征的尺寸都与原始特征图的尺寸相同。
通俗来说,确定第i个尺度下的局部关键实例特征的流程是:从每个原始特征图中分别确定一个单位局部关键实例特征,将N个单位局部关键实例特征组合为第i个尺度下的局部关键实例特征。
根据目标原始特征图以及尺寸i,确定一个单位局部实例关键特征的流程如下:服务器获取滑动窗口尺寸,根据滑动窗口尺寸将目标原始特征图划分为多个单位原始特征图。这多个单位原始特征图之间可以存在重叠的特征图像素,也可以不存在重叠的特征图像素。根据尺度i,分别调整每一个单位原始特征图的特征图像素的像素值,将像素值调整后的单位原始特征图作为单位目标特征图。将所有的单位目标特征图拼接为单位局部关键实例特征。
举例来说,若目标原始特征图的尺寸为100×100,且滑动窗口尺寸为10×10,若多个单位原始特征图之间不存在重叠的特征图像素,那么可以将目标原始特征图划分为100个单位原始特征图,分别调整每一个单位原始特征图中的特征图像素的像素值,将像素值调整后的单位原始特征图作为单位目标特征图。将100个单位目标特征图再拼接起来,可以得到尺寸为100×100的单位局部关键实例特征。
针对多个单位原始特征图中的任一单位原始特征图,根据尺度i,调整任一单位原始特征图的特征图像素的像素值,得到该任一单位原始特征图对应的单位目标特征图的流程如下:根据任一单位原始特征图中的特征图像素的像素值,将这所有特征图像素进行降序排序,将降序排序中前i个特征图像素均作为保留特征图像素,剩余的特征图像素均作为待调整特征图像素。将所有待调整特征图像素的像素值调整为预设的像素阈值(像素阈值可以等于0),保留特征图像素的像素值保持不变。服务器将像素值调整后的任一单位原始特征图作为任一单位原始特征图对应的单位目标特征图。
通俗来说,对一个单位原始特图来说,像素值最大的i个像素的像素值不变,其余像素的像素值都调整为0。这样可以保留特征响应值排名前i的i个实例的特征响应,同时抑制所有其余实例的特征响应,以筛选出关键实例。
举例来说,现有2×2的单位原始特图,假设i=2,即需要确定第2个尺度下的单位原始特征图对应的单位目标特征图:
由于像素3的像素值>像素2的像素值>像素1的像素值>像素4的像素值,因此,像素值最大的2个像素是像素3和像素2,即像素3和像素2的像素值不变,像素1和像素4的像素值被调整为0,可以得到单位目标特征图:
0 | 0.4 |
0.5 | 0 |
确定目标单位特征图的具体过程可以用下述公式(2)表示:
其中,表示第i个尺度下的单位目标特征图中(m,n)位置上的特征图像素的像素值,表示第i个尺度下的单位原始特征图中(m,n)位置上的特征图像素的像素值,表示单位原始特征图中像素值排名前i的特征图像素的像素值。
公式(2)的物理含义即是:若单位原始特征图的像素k是像素值排名前i的像素,那么像素k的像素值不变,否则像素k的像素值被调整为0。
可选的,在确定单位目标特征图时,除了采用上述排序的方式以外,还可以基于高斯滤波等其他滤波核对单位原始特征图进行处理,以得到与之对应的单位目标特征图。
服务器可以按照上述流程分别确定每个尺度下的局部关键实例特征,就可以得到K个尺度下的K个局部关键实例特征。
服务器可以将这K个局部关键实例特征进行叠加以及激活处理,得到待识别图像的多尺度实例特征,多尺度实例特征的特征图(称为尺度特征图)的尺寸=任一局部关键实例特征的特征图的尺寸=任一原始特征图的尺寸,且多尺度实例特征包含的尺度特征图的数量=任一局部关键实例特征的特征图的数量=原始特征图的数量=N。将K个局部关键实例特征叠加为多尺度实例特征是采用对位相加,即是将每个局部关键实例特征中的第一特征图相加,得到多尺度实例特征的第一个尺度特征图,将每个局部关键实例特征中的第二特征图相加,得到多尺度实例特征的第二个尺度特征图...最后将相加后的N个尺度特征图分别进行激活处理,激活处理是以一个尺度特征图为处理单位,将激活处理后的N个尺度特征图组合为多尺度实例特征(如上述图2a-图2b对应实施例中的局部实例特征20c)。
分析上述过程可以知道,采样窗口中的特征响应排名第p的实例(即是特征图像素)被会叠加K-p+1次,这样使得重要的实例不断地被加强,进一步区分不同关键实例的作用。例如,在原始特征图1中的左上角一个特征图像素1在单位原始特征图中是像素值排名第一的特征图像素,在确定第一个尺度的局部关键实例特征时,该特征图像素1的像素值会被保留,在确定第二个尺度的局部关键实例特征时,该特征图像素1的像素值也会被保留,...,在确定第K个尺度的局部关键实例特征时,该特征图像素1的像素值也会被保留。最后将K个局部关键实例特征叠加时,该特征图像素1的像素值就会被叠加K次,进而得到多尺度实例特征的一个尺度特征图的一个特征图像素。
将K个局部关键实例特征叠加为多尺度实例特征的过程可以用下述公式(3)进行描述:
X3=softmax(∑iX3,i) (3)
其中,X3表示多尺度实例特征,X3,i表示局部关键实例特征,softmax()表示激活函数,激活函数的作用是将特征分布标准化至[0,1]。
至此,服务器就获取到了多尺度实例特征,且多尺度实例特征也包括N个尺度特征图,且多尺度实例特征包含的尺度特征图的尺寸=原始特征图的尺度,且多个实例特征中只有关键的实例被保留下来了(关键实例的像素值保留下来),那么非关键实例直接被忽略了(非关键实例的像素值被置为0)。
步骤S103,从所述N个原始特征图中提取所述待识别图像的全局实例权重特征。
具体的,服务器对N个原始特征图进行卷积处理,得到卷积矩阵,其中卷积处理的卷积核为单通道的1×1的卷积核,这样得到的卷积矩阵的尺寸就与任一原始特征图的尺寸相同。
例如,图像实例特征的尺寸为50×50×10,即该图像实例特征包括10个尺寸为50×50的原始特征图,基于尺寸为1×1×10×1的卷积核,对这10个原始特征图进行卷积处理,可以得到尺寸为50×50的卷积矩阵。
对卷积矩阵进行激活处理,得到待识别图像的全局实例权重特征(如上述图2a-图2b对应实施例中的权重矩阵20d),激活处理的作用是使得全局实例权重特征的分布在[0,1]。全局实例权重特征的尺寸=任一原始特征图的尺寸=多尺度实例特征的任一尺度特征图的尺寸,且全局实例权重特征中的每一个特征值都表示一个实例的权重,权重越大,说明该实例的重要性就越高。
从N个原始特征图中提取全局实例权重特征的过程可以用下述公式(4)来表示:
M=softmax(relu(W2X2+b2)) (4)
其中,M表示全局实例权重特征,X2表示图像实例特征,W2和b2分别表示权重和偏置项,softmax()和relu()均表示激活函数。
需要说明的是,步骤S102确定多尺度实例特征和步骤S103确定全局实例权重特征的前后顺序没有限定。
步骤S104,对所述多尺度实例特征和所述全局实例权重特征进行识别处理,得到所述待识别图像的图像识别结果。
具体的,服务器将多尺度实例特征和全局实例权重特征融合为待识别图像的目标融合特征(如上述图2a-图2b对应实施例中的融合实例特征20e)。
对目标融合特征进行识别处理,得到待识别图像的图像识别结果(如上述图2a-图2b对应实施例中的图像识别结果20f)。
请参见图5,图5是本申请实施例提供的一种深度多实例学习模型的示意图,深度多实例学习模型的重要组成部分为:局部金字塔感知模块以及全局感知模块。待识别图像输入特征提取网络后,可以提取出待识别图像的卷积特征。通过转换层中1×1的卷积核将卷积特征转换为图像实例特征,图像实例特征包括N个原始特征图,N个数量等于类别数量,且原始特征图的每个特征图像素对应待识别图像的一个图像区域,原始特征图的一个特征图像素的像素值表示该实例在一个类别上的得分。分别将转换后的图像实例特征输入局部金字塔感知模块以及提取出多尺度实例特征,以及输入全局感知模块以提取出全局实例权重特征。提取多尺度实例特征的具体过程是:首先预设K个尺度,确定图像实例特征在每个尺度下的局部关键实例特征,再将K个局部关键实例特征叠加为多尺度实例特征。确定第i个尺度下的局部关键实例特征的具体过程为:在N个原始特征图的每个原始特征图的滑动窗口中,若滑动窗口中特征图像素的像素值排名在前i位,则保持该像素值不变,否则将该特征图像素的像素值设置为0。将像素值调整后的N个原始特征图作为第i尺度下的局部关键实例特征。
提取全局实例权重特征的具体过程为:采用单通道的1×1的卷积核对图像实例特征进行卷积运算以及激活运算,即可得到全局实例权重特征。
将提取出来的全局实例权重特征和多尺度实例特征进行加权聚合,即可得到包级别特征向量(包级别特征向量可以对应本申请中的待激活特征),该特征向量中的每一个分量都表示待识别图像与一种类别之间的概率,此时概率还并未在[0,1]区间内,通过激活函数对包级别特征向量进行激活处理,激活处理后的特征向量中的每一个分量就表示待识别图像与一种类别之间的匹配概率,此时匹配概率就处于[0,1]区间内。
确定待识别图像与图像类别的匹配概率的过程可以用下述公式(5)表示:
p=g(M,X3)=∑i,jMi,jX3,(i,j) (5)
其中,X3表示多尺度实例特征,M表示全局实例权重特征,首先将全局实例权重特征与多尺度实例特征中的每个尺度特征图分别进行乘积运算,然后再将乘积运算后的特征图的像素值叠加为一个N维的特征向量p,该特征向量中的每一个值都表示待识别图像在一个图像类别上的初始得分。服务器10d将该特征向量p进行激活处理后,即可得到待识别图像在N个图像类别上的匹配概率,即
需要说明的是,从图5可以看出,通过深度多实例学习模型中的特征提取网络,局部-全局网络以及分类器可以识别出图像的类别。因此,在训练深度多实例学习模型时,特征提取网络、局部-全局网络以及分类器也是作为一个模型整体共同训练。
其中,训练深度多实例学习模型时,可以采用如下损失函数确定损失值:
上述可知,本申请考虑到细微的病灶区域与眼底背景之间的对比度较低,通过一种局部金字塔感知模块(Local Pyramid Perception Module,LPPM)来选择不同局部尺度下的关键实例,以提高局部突出实例的重要性。同时,考虑到眼底疾病的病灶常分散分布这一特点,通过一种全局感知模块(Global Perception Module,GPM),从整个图像的角度来衡量每个实例的重要性。最后,在实例空间方法的范式下,将基于局部的实例表示形式和来自全局的实例空间权重分布以加权的方式进行特征融合,并使用softmax分类器生成包的概率分布,从局部和全局两方面考察实例特征的表达以及权重,可以丰富图像的特征表达方式以及提高图像识别的准确率。
本申请的“局部-全局”双向感知深度多实例学***均池化和全连接层,将常规的卷积神经网络方法方便地转换为深度多实例学习方案。同时,由CNN(卷积神经网络,Convolutional Neural Networks)主干和提出的MIL(多示例学习,Multiple Instance Learning)模块组成的深度多实例学习框架能够以端到端、端到端的方式整体进行训练和优化。
请参见图6,图6是本申请实施例提供的一种确定图像识别结果的流程示意图,本实施例主要描述如何根据多尺度实例特征和全局实例权重特征确定图像识别结果,确定图像识别结果包括如下步骤S201-步骤S202,且步骤S201-步骤S202是上述图3中步骤S104的一个具体实施例:
步骤S201,将所述多尺度实例特征和所述全局实例权重特征融合为所述待识别图像的目标融合特征。
具体的,从前述可知,多尺度实例特征包括N个尺度特征图,且每一个尺度特征图的的尺寸与每一个原始特征图的尺寸相同,且全局实例权重特征是一个矩阵,该矩阵的尺寸与每一个尺度特征图的尺寸相同。
服务器将全局实例权重特征分别与每个尺度特征图进行点乘运算,得到N个融合特征图,将N个融合特征图组合为融合后的目标融合特征。
步骤S202,对所述目标融合特征进行识别处理,得到所述待识别图像的图像识别结果。
具体的,基于不同的业务需求进行识别处理时存在一点差别,此处确定的图像识别结果可以是图像类别,或者图像语义分割结果。下面首先说明如何基于目标融合特征确定待识别图像的图像类别:
从前述可知,目标融合特征包括N个融合特征图,将每个融合特征图的所有特征图像素的像素值叠加为待激活特征值,将N个待激活特征值组合为待激活特征。例如,目标融合特征包括3个融合特征图,分别为融合特征图1,融合特征图2以及融合特征图3,将融合特征图1中所有特征图像素的像素值叠加为待激活特征值1,将融合特征图2中所有特征图像素的像素值叠加为待激活特征值2,将融合特征图3中所有特征图像素的像素值叠加为待激活特征值3,将上述待激活特征值1,待激活特征值2,待激活特征值3组合为待激活特征。
或者,将每个融合特征图的所有特征图像素的像素平均值作为待激活特征值,将N个待激活特征值组合为待激活特征。例如,目标融合特征包括3个融合特征图,分别为融合特征图1,融合特征图2以及融合特征图3,将融合特征图1中所有特征图像素的像素平均值作为待激活特征值1,将融合特征图2中所有特征图像素的像素平均值作为待激活特征值2,将融合特征图3中所有特征图像素的像素平均值作为待激活特征值3,将上述待激活特征值1,待激活特征值2,待激活特征值3组合为待激活特征。
服务器对该待激活特征进行激活处理,得到待识别图像与N个图像类别之间的匹配概率集合,服务器可以从匹配概率集合中选择匹配概率最大的图像类别作为待识别图像的图像类别,将识别到的图像类别作为图像识别结果。
下面再说明如何基于目标融合特征确定待识别图像的语义分割结果:
从前述可知,目标融合特征包括N个融合特征图,一般来说融合特征图的尺寸比待识别图像的尺寸小。
服务器将每个融合特征图都进行插值处理,得到与待识别图像尺寸相同的N个掩模矩阵,掩模矩阵中的每个值都表示待识别图像的一个像素在一个类别上的得分。N个掩模矩阵可以确定待识别图像的每个像素与N个像素类别之间的匹配概率集合。例如,掩模矩阵的数量是3个,分别为掩模矩阵1,掩模矩阵2和掩模矩阵3,掩模矩阵1对应像素类别1,掩模矩阵2对应像素类别2,掩模矩阵3对应像素类别3,掩模矩阵1的左上角第一个位置的取值就表示待识别图像的左上角第一个像素在像素类别1上的得分,掩模矩阵2的左上角第一个位置的取值就表示待识别图像的左上角第一个像素在像素类别2上的得分,掩模矩阵3的左上角第一个位置的取值就表示待识别图像的左上角第一个像素在像素类别3上的得分。
服务器确定了待识别图像的每个像素的匹配概率集合后,对一个像素来说,将该像素的匹配概率集合中的最大匹配概率对应的像素类别作为该像素的像素类别,服务器将识别到的每个像素的像素类别作为待识别图像的语义分割结果(也即是图像识别结果)。后续,可以基于待识别图像的语义分割结果对待识别图像进行语义分割。
除了确定图像语义分割结果以外,在医疗领域,若待识别图像是视网膜图像,基于目标融合特征可以识别出视网膜图像中兴趣对象(兴趣对象可以具体指病灶对象)的对象属性(对象属性可以具体指病灶属性)以及兴趣对象的兴趣区域(兴趣区域可以具体指病灶区域),前述中待识别图像的图像类别即可对应此处的对象属性,只需要增加一个识别兴趣区域的分支,该分支确定兴趣区域的具体过程可以是:将确定的待识别图像的图像类别对应的融合特征图作为目标融合特征图,将目标融合特征图中具有最大像素值的特征图像素对应的实例作为目标实例,在待识图像中将该目标实例对应的图像区域作为兴趣对象的兴趣区域即可。
将上述对象属性以及兴趣区域组合为视网膜图像的图像识别结果,后续,将识别到的对象属性以及兴趣区域作为辅助诊断的数据支撑,用于生成辅助诊断报告。例如,根据对象属性以及兴趣区域生成风险评估报告。
进一步地,若待识别图像是视网膜图像,兴趣对象也可以指视觉器官,对象属性是指视觉器官的器官类别,兴趣区域是指视觉器官所在的区域,前述中视网膜图像的对象属性即可对应此处的视觉器官的器官类别(例如,视觉器官是眼球,或者晶状体或者是视觉神经等),视网膜图像的兴趣区域可以对应此处的视觉器官所在的区域。后续,可以将识别到的对象属性以及兴趣区域在视网膜图像中标识出来,用于医疗教学等领域。
若待识别图像是非医疗领域的人脸图像,图像识别结果可以是该人脸图像的身份信息;若待识别图像是非医疗领域的人脸表情图像,图像识别结果可以是表情类别;若待识别图像是非医疗领域的交通标志图像,图像识别结果可以是交通标志类别;若待识别图像是非医疗领域的车牌号码图像,图像识别结果可以是车牌号码。
请参见图7,图7是本申请实施例提供的一种确定目标融合特征的网络架构图,提取出待识别图像的图像实例特征后,分别在K个尺度下提取出局部关键实例特征以及将K个尺度下的K个局部关键实例特征叠加为多尺度实例特征。与此同时,通过转换层的单通道1×1卷积核,对图像实例特征进行卷积运算,得到全局实例权重特征。将上述多尺度实例特征和全局实例权重特征进行特征融合,即可得到待识别图像的目标融合特征。
为了说明本申请方案的有效性,申请人将本申请的方案与多种其余方案进行对比,并在3个数据集上进行了实验,下述表1是本专利方案与其它方案在视网膜疾病识别任务上的精度对比:
表1
其中,P表示Precision精确率,R表示Recall召回率,F1表示F1-measure精确率和召回率的调和均值,Acc表示Accuracy。表1中的MP表示最大值深度多实例学***均值深度多实例学习模型,GA MIL表示基于门控注意力的深度多实例学习模型,CSA MIL表示基于“通道-空间”注意力模型的深度多实例学习模型,MS MIL表示多实例多尺度模型。
从表1可以看出,在3个数据集上,本申请的方案相比其余方案具有更好的识别精度,可以充分说明本申请方案对图像的识别准确率优于其余对比方案。
表2和表3分别列出了本申请方案(本申请方案可以简称LGDP Local-Global DualPerception,局部-全局双重感知)在植入不同卷积神经网络骨架和应用于遥感图像、自然图像识别任务的表现。VGG,RN(ResNet)以及Inception表示3种卷积神经网络骨架。表2表示本申请方案在植入不同卷积神经网络骨架后应用于遥感图像任务的表现,表3表示本申请方案在植入不同卷积神经网络骨架后应用于自然图像任务的表现。
从表2和表3可以看出,不论是在视网膜疾病识别任务,还是在其它图像识别任务中,本申请的方案在不同的卷积神经网络骨架上均具有明显的精度提升效果。
表2
P | R | F1 | Acc | |
VGG | 98.77 | 76.61 | 86.29 | 87.83 |
VGG+LGDP | 94.26 | 91.52 | 92.87 | 92.97 |
RN | 98.69 | 87.92 | 92.99 | 93.38 |
RN+LGDP | 98.39 | 97.08 | 97.73 | 97.74 |
Inception | 96.47 | 87.13 | 91.57 | 91.97 |
Inception+LGDP | 97.25 | 95.91 | 96.58 | 96.60 |
表3
NWPU | Scene-15 | |
VGG | 97.79±0.15 | 82.48±0.12 |
VGG+LGDP | 92.72±0.17 | 86.61±0.11 |
RN | 80.37±0.27 | 81.45±0.21 |
RN+LGDP | 92.99±0.10 | 87.17±0.18 |
Inception | 80.30±0.38 | 82.45±0.25 |
Inception+LGDP | 92.70±0.21 | 87.65±0.22 |
请参见图8a-图8l,其是本申请实施例提供的多组实例响应示意图,图8a和图8b是一组,图8c是图8d是一组,且上述4幅图像都属于糖网病灶类别图像;8e和图8f是一组,图8g是图8h是一组,且上述4幅图像都属于青光眼病灶类别图像;8i和图8j是一组,图8k是图8l是一组,且上述4幅图像都属于老年病病灶类别图像。以8a和8b一组为例进行分析:图8a为待识别图像,图8b是属于糖网病灶类别的融合特征图中特征图像素的像素值较大的特征图像素所对应的实例响应,融合特征图是采用本申请的方案所确定的图8a对应的目标融合特征中的特征图。从图8b可以知道,本申请方案可有效捕捉病灶区域,进一步提升本申请方案的可解释性。
上述可知,将目标融合特征叠加为待激活特征时,本申请提出了求和方式,平均值方式以及最大值方式等,多种计算方式可以丰富确定待激活特征的确定方式;再有,本申请的图像处理方法可以应用于图像标签识别以及图像语义分割等多种图像处理领域,具有一定的泛化能力和可迁移能力。
进一步的,请参见图9,其是本申请实施例提供的一种图像处理装置的结构示意图。如图9所示,图像处理装置1可以应用于上述图3-图8l对应实施例中的服务器。具体的,图像处理装置1可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图像处理装置1为一个应用软件;该图像处理装置1可以用于执行本申请实施例提供的方法中的相应步骤。
图像处理装置1可以包括:获取模块11、第一提取模块12、叠加模块13、第二提取模块14和识别模块15。
获取模块11,用于获取待识别图像,提取所述待识别图像的图像实例特征,所述图像实例特征包括N个原始特征图,任一原始特征图的任一特征图像素对应所述待识别图像的一个实例,所述N是正整数;
第一提取模块12,用于从所述N个原始特征图中提取K个尺度下的K个局部关键实例特征;
叠加模块13,用于将K个局部关键实例特征叠加为所述待识别图像的多尺度实例特征,K是正整数;
第二提取模块14,用于从所述N个原始特征图中提取所述待识别图像的全局实例权重特征;
识别模块15,用于对所述多尺度实例特征和所述全局实例权重特征进行识别处理,得到所述待识别图像的图像识别结果。
在一种可能的实施方式中,针对K个尺度下的第i个尺度,1≤i≤K,第一提取模块12在用于从所述N个原始特征图中提取第i个尺度下的局部关键实例特征时,具体用于:
为每个原始特征图设置轮询优先级,按照所述轮询优先级从N个原始特征图中确定用于当前轮询的目标原始特征图;
根据所述目标原始特征图以及尺度i,确定单位局部关键实例特征;
当所有原始特征图都被确定为目标原始特征图时,停止轮询,并将N个单位局部关键实例特征组合为所述第i个尺度下的局部关键实例特征。
在一种可能的实施方式中,第一提取模块12在用于根据所述目标原始特征图以及尺度i,确定单位局部关键实例特征时,具体用于:
获取滑动窗口尺寸,根据所述滑动窗口尺寸将所述目标原始特征图划分为多个单位原始特征图;
根据尺度i,分别调整每个单位原始特征图的特征图像素的像素值,得到多个单位目标特征图;
将多个单位目标特征图拼接为所述单位局部关键实例特征。
在一种可能的实施方式中,针对多个单位原始特征图中的任一单位原始特征图,第一提取模块12在用于根据尺度i,调整所述任一单位原始特征图的特征图像素的像素值,得到所述任一单位原始特征图对应的单位目标特征图时,具体用于:
根据所述任一单位原始特征图的特征图像素的像素值,将所述任一单位原始特征图的特征图像素进行降序排序;
将降序排序中前i个特征图像素作为保留特征图像素,在所述任一单位原始特征图的所有特征图像素中,将除所述保留特征图像素以外的特征图像素作为待调整特征图像素;
将所述待调整特征图像素的像素值调整为像素阈值;
将像素值调整后的任一单位原始特征图作为所述任一单位原始特征图对应的单位目标特征图。
在一种可能的实施方式中,第二提取模块14,具体用于:
对所述N原始特征图进行卷积处理,得到卷积矩阵,所述卷积矩阵的尺寸与任一原始特征图的尺寸相同;
对所述卷积矩阵进行激活处理,得到所述待识别图像的全局实例权重特征。
在一种可能的实施方式中,所述识别模块15在用于对所述多尺度实例特征和所述全局实例权重特征进行识别处理,得到所述待识别图像的图像识别结果时,具体用于:
将所述多尺度实例特征和所述全局实例权重特征融合为所述待识别图像的目标融合特征;
对所述目标融合特征进行识别处理,得到所述待识别图像的图像识别结果。
在一种可能的实施方式中,所述多尺度实例特征包括N个尺度特征图,任一尺度特征图与任一原始特征图的尺寸相同,所述全局实例权重特征的特征尺寸与任一尺度特征图的尺寸相同;
所述识别模块15在用于将所述多尺度实例特征和所述全局实例权重特征融合为所述待识别图像的目标融合特征时,具体用于:
将所述全局实例权重特征分别与每个尺度特征图进行乘积运算,得到N个融合特征图,将N个融合特征图组合为所述待识别图像的目标融合特征。
在一种可能的实施方式中,所述识别模块15在用于对所述目标融合特征进行识别处理,得到所述待识别图像的图像识别结果时,具体用于:
将所述目标融合特征叠加为待激活特征,对所述待激活特征进行激活处理,得到所述待识别图像与N个图像类别之间的匹配概率集合;
根据所述匹配概率集合确定所述待识别图像的图像类别,将所述待识别图像的图像类别作为所述待识别图像的图像识别结果。
在一种可能的实施方式中,所述目标融合特征包括N个融合特征图;
所述识别模块15在用于将所述目标融合特征叠加为待激活特征时,具体用于:
分别将每个融合特征图的所有特征图像素的像素值叠加为待激活特征值,将N个待激活特征值组合为所述待激活特征;或,
分别将每个融合特征图的所有特征图像素的像素平均值作为待激活特征值,将N个待激活特征值组合为所述待激活特征。
在一种可能的实施方式中,所述目标融合特征包括N个融合特征图;
所述识别模块15在用于对所述目标融合特征进行识别处理,得到所述待识别图像的图像识别结果时,具体用于:
将每个融合特征图分别进行插值处理,得到与待识别图像尺寸相同的N个掩模矩阵,根据N个掩模矩阵确定所述待识别图像的每个像素与N个像素类别之间的匹配概率集合;
根据待识别图像的每个像素的匹配概率集合,确定待识别图像的每个像素的像素类别,将待识别图像的每个像素的像素类别作为所述待识别图像的图像识别结果。
在一种可能的实施方式中,所述待识别图像是视网膜图像,所述图像识别结果包括所述视网膜图像中的兴趣对象所在的兴趣区域以及所述兴趣对象的对象属性。
在一种可能的实施方式中,所述待识别图像是非医疗领域的自然图像,所述图像识别结果包括所述自然图像的图像类别。
根据本发明的一个实施例,图3-图8l所示的方法所涉及的各个步骤均可以是由图10所示的图像处理装置中的各个模块来执行的。例如,图3中所示的步骤S101-S104可以分别由图9中所示的获取模块11、第一提取模块12、叠加模块13、第二提取模块14和识别模块15来执行;又如,图6中所示的步骤S201-S202可以由图9中所示的识别模块15来执行。
进一步地,请参见图10,是本申请实施例提供的一种计算机设备的结构示意图。上述图3-图8l对应实施例中的服务器可以为计算机设备1000。如图10所示,计算机设备1000可以包括:用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序,处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器(例如,动态随机存取存储器DRAM),还可以包括非易失性存储器(例如,一次性可编程只读存储器OTPROM)。在一些实例中,存储器1008可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备1000。用户接口1002可以包括:键盘1018和显示器1020。
在图10所示的计算机设备1000中,处理器1004可以用于调用存储器1008中存储计算机程序,以实现:
获取待识别图像,提取所述待识别图像的图像实例特征,所述图像实例特征包括N个原始特征图,任一原始特征图的任一特征图像素对应所述待识别图像的一个实例,所述N是正整数;
从所述N个原始特征图中提取K个尺度下的K个局部关键实例特征,将K个局部关键实例特征叠加为所述待识别图像的多尺度实例特征,K是正整数;
从所述N个原始特征图中提取所述待识别图像的全局实例权重特征;
对所述多尺度实例特征和所述全局实例权重特征进行识别处理,得到所述待识别图像的图像识别结果。
在一个实施例中,针对K个尺度下的第i个尺度,1≤i≤K,处理器1004在执行从所述N个原始特征图中提取第i个尺度下的局部关键实例特征时,具体执行以下步骤:
为每个原始特征图设置轮询优先级,按照所述轮询优先级从N个原始特征图中确定用于当前轮询的目标原始特征图;
根据所述目标原始特征图以及尺度i,确定单位局部关键实例特征;
当所有原始特征图都被确定为目标原始特征图时,停止轮询,并将N个单位局部关键实例特征组合为所述第i个尺度下的局部关键实例特征。
在一个实施例中,处理器1004在执行根据所述目标原始特征图以及尺度i,确定单位局部关键实例特征时,具体执行以下步骤:
获取滑动窗口尺寸,根据所述滑动窗口尺寸将所述目标原始特征图划分为多个单位原始特征图;
根据尺度i,分别调整每个单位原始特征图的特征图像素的像素值,得到多个单位目标特征图;
将多个单位目标特征图拼接为所述单位局部关键实例特征。
在一个实施例中,针对多个单位原始特征图中的任一单位原始特征图,处理器1004在执行根据尺度i,调整所述任一单位原始特征图的特征图像素的像素值,得到所述任一单位原始特征图对应的单位目标特征图时,具体执行以下步骤:
根据所述任一单位原始特征图的特征图像素的像素值,将所述任一单位原始特征图的特征图像素进行降序排序;
将降序排序中前i个特征图像素作为保留特征图像素,在所述任一单位原始特征图的所有特征图像素中,将除所述保留特征图像素以外的特征图像素作为待调整特征图像素;
将所述待调整特征图像素的像素值调整为像素阈值;
将像素值调整后的任一单位原始特征图作为所述任一单位原始特征图对应的单位目标特征图。
在一个实施例中,处理器1004在执行从所述N个原始特征图中提取所述待识别图像的全局实例权重特征时,具体执行以下步骤:
对所述N原始特征图进行卷积处理,得到卷积矩阵,所述卷积矩阵的尺寸与任一原始特征图的尺寸相同;
对所述卷积矩阵进行激活处理,得到所述待识别图像的全局实例权重特征。
在一个实施例中,处理器1004在执行对所述多尺度实例特征和所述全局实例权重特征进行识别处理,得到所述待识别图像的图像识别结果时,具体执行以下步骤:
将所述多尺度实例特征和所述全局实例权重特征融合为所述待识别图像的目标融合特征;
对所述目标融合特征进行识别处理,得到所述待识别图像的图像识别结果。
在一个实施例中,多尺度实例特征包括N个尺度特征图,任一尺度特征图与任一原始特征图的尺寸相同,所述全局实例权重特征的特征尺寸与任一尺度特征图的尺寸相同;
处理器1004在执行将所述多尺度实例特征和所述全局实例权重特征融合为所述待识别图像的目标融合特征时,具体执行以下步骤:
将所述全局实例权重特征分别与每个尺度特征图进行乘积运算,得到N个融合特征图,将N个融合特征图组合为所述待识别图像的目标融合特征。
在一个实施例中,处理器1004在执行对所述目标融合特征进行识别处理,得到所述待识别图像的图像识别结果时,具体执行以下步骤:
将所述目标融合特征叠加为待激活特征,对所述待激活特征进行激活处理,得到所述待识别图像与N个图像类别之间的匹配概率集合;
根据所述匹配概率集合确定所述待识别图像的图像类别,将所述待识别图像的图像类别作为所述待识别图像的图像识别结果。
在一个实施例中,所述目标融合特征包括N个融合特征图;
处理器1004在执行将所述目标融合特征叠加为待激活特征时,具体执行以下步骤:
分别将每个融合特征图的所有特征图像素的像素值叠加为待激活特征值,将N个待激活特征值组合为所述待激活特征;或,
分别将每个融合特征图的所有特征图像素的像素平均值作为待激活特征值,将N个待激活特征值组合为所述待激活特征。
在一个实施例中,所述目标融合特征包括N个融合特征图;
处理器1004在执行对所述目标融合特征进行识别处理,得到所述待识别图像的图像识别结果时,具体执行以下步骤:
将每个融合特征图分别进行插值处理,得到与待识别图像尺寸相同的N个掩模矩阵,根据N个掩模矩阵确定所述待识别图像的每个像素与N个像素类别之间的匹配概率集合;
根据待识别图像的每个像素的匹配概率集合,确定待识别图像的每个像素的像素类别,将待识别图像的每个像素的像素类别作为所述待识别图像的图像识别结果。
在一个实施例中,所述待识别图像是视网膜图像,所述图像识别结果包括所述视网膜图像中的兴趣对象所在的兴趣区域以及所述兴趣对象的对象属性。
在一个实施例中,所述待识别图像是非医疗领域的自然图像,所述图像识别结果包括所述自然图像的图像类别。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3-图8l所对应实施例中对图像处理方法的描述,也可执行前文图9所对应实施例中对图像处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机存储介质,且计算机存储介质中存储有前文提及的图像处理装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3-图8l所对应实施例中对图像处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,分布在多个地点且通过通信网络互联的多个计算机设备上执行,分布在多个地点且通过通信网络互联的多个计算机设备可以组合为区块链网络。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行前文图3到图8l所对应实施例中的方法,因此,这里将不再进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (14)
1.一种图像处理方法,其特征在于,包括:
获取待识别图像,提取所述待识别图像的图像实例特征,所述图像实例特征包括N个原始特征图,任一原始特征图的任一特征图像素对应所述待识别图像的一个实例,所述N是正整数,所述N等于最后分类的类别数量;
从所述N个原始特征图中提取K个尺度下的K个局部关键实例特征,将K个局部关键实例特征叠加为所述待识别图像的多尺度实例特征,K是正整数;针对K个尺度下的第i个尺度,1≤i≤K,从所述N个原始特征图中提取第i个尺度下的局部关键实例特征的流程包括:为每个原始特征图设置轮询优先级,按照所述轮询优先级从N个原始特征图中确定用于当前轮询的目标原始特征图;根据所述目标原始特征图以及尺度i,确定单位局部关键实例特征;当所有原始特征图都被确定为目标原始特征图时,停止轮询,并将N个单位局部关键实例特征组合为所述第i个尺度下的局部关键实例特征;所述单位局部关键实例特征是由多个单位目标特征图拼接得到的与所述目标原始特征图的尺寸相同实例特征,所述单位目标特征图为对所述目标原始特征图中根据滑动窗口尺寸划分的不存在重叠的特征图像素的像素值进行调整得到的;
从所述N个原始特征图中提取所述待识别图像的全局实例权重特征;
对所述多尺度实例特征和所述全局实例权重特征进行识别处理,得到所述待识别图像的图像识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标原始特征图以及尺度i,确定单位局部关键实例特征,包括:
获取滑动窗口尺寸,根据所述滑动窗口尺寸将所述目标原始特征图划分为多个单位原始特征图;
根据尺度i,分别调整每个单位原始特征图的特征图像素的像素值,得到多个单位目标特征图;
将多个单位目标特征图拼接为所述单位局部关键实例特征。
3.根据权利要求2所述的方法,其特征在于,针对多个单位原始特征图中的任一单位原始特征图,根据尺度i,调整所述任一单位原始特征图的特征图像素的像素值,得到所述任一单位原始特征图对应的单位目标特征图的流程包括:
根据所述任一单位原始特征图的特征图像素的像素值,将所述任一单位原始特征图的特征图像素进行降序排序;
将降序排序中前i个特征图像素作为保留特征图像素,在所述任一单位原始特征图的所有特征图像素中,将除所述保留特征图像素以外的特征图像素作为待调整特征图像素;
将所述待调整特征图像素的像素值调整为像素阈值;
将像素值调整后的任一单位原始特征图作为所述任一单位原始特征图对应的单位目标特征图。
4.根据权利要求1所述的方法,其特征在于,所述从所述N个原始特征图中提取所述待识别图像的全局实例权重特征,包括:
对所述N原始特征图进行卷积处理,得到卷积矩阵,所述卷积矩阵的尺寸与任一原始特征图的尺寸相同;
对所述卷积矩阵进行激活处理,得到所述待识别图像的全局实例权重特征。
5.根据权利要求1所述的方法,其特征在于,所述对所述多尺度实例特征和所述全局实例权重特征进行识别处理,得到所述待识别图像的图像识别结果,包括:
将所述多尺度实例特征和所述全局实例权重特征融合为所述待识别图像的目标融合特征;
对所述目标融合特征进行识别处理,得到所述待识别图像的图像识别结果。
6.根据权利要求5所述的方法,其特征在于,所述多尺度实例特征包括N个尺度特征图,任一尺度特征图与任一原始特征图的尺寸相同,所述全局实例权重特征的特征尺寸与任一尺度特征图的尺寸相同;
所述将所述多尺度实例特征和所述全局实例权重特征融合为所述待识别图像的目标融合特征,包括:
将所述全局实例权重特征分别与每个尺度特征图进行乘积运算,得到N个融合特征图,将N个融合特征图组合为所述待识别图像的目标融合特征。
7.根据权利要求5所述的方法,其特征在于,所述对所述目标融合特征进行识别处理,得到所述待识别图像的图像识别结果,包括:
将所述目标融合特征叠加为待激活特征,对所述待激活特征进行激活处理,得到所述待识别图像与N个图像类别之间的匹配概率集合;
根据所述匹配概率集合确定所述待识别图像的图像类别,将所述待识别图像的图像类别作为所述待识别图像的图像识别结果。
8.根据权利要求7所述的方法,其特征在于,所述目标融合特征包括N个融合特征图;
所述将所述目标融合特征叠加为待激活特征,包括:
分别将每个融合特征图的所有特征图像素的像素值叠加为待激活特征值,将N个待激活特征值组合为所述待激活特征;或,
分别将每个融合特征图的所有特征图像素的像素平均值作为待激活特征值,将N个待激活特征值组合为所述待激活特征。
9.根据权利要求5所述的方法,其特征在于,所述目标融合特征包括N个融合特征图;
所述对所述目标融合特征进行识别处理,得到所述待识别图像的图像识别结果,包括:
将每个融合特征图分别进行插值处理,得到与待识别图像尺寸相同的N个掩模矩阵,根据N个掩模矩阵确定所述待识别图像的每个像素与N个像素类别之间的匹配概率集合;
根据待识别图像的每个像素的匹配概率集合,确定待识别图像的每个像素的像素类别,将待识别图像的每个像素的像素类别作为所述待识别图像的图像识别结果。
10.根据权利要求1所述的方法,其特征在于,所述待识别图像是视网膜图像,所述图像识别结果包括所述视网膜图像中的兴趣对象所在的兴趣区域以及所述兴趣对象的对象属性。
11.根据权利要求1所述的方法,其特征在于,所述待识别图像是非医疗领域的自然图像,所述图像识别结果包括所述自然图像的图像类别。
12.一种图像处理装置,其特征在于,包括:
获取模块,用于获取待识别图像,提取所述待识别图像的图像实例特征,所述图像实例特征包括N个原始特征图,任一原始特征图的任一特征图像素对应所述待识别图像的一个实例,所述N是正整数,所述N等于最后分类的类别数量;
第一提取模块,用于从所述N个原始特征图中提取K个尺度下的K个局部关键实例特征;
叠加模块,用于将K个局部关键实例特征叠加为所述待识别图像的多尺度实例特征,K是正整数;针对K个尺度下的第i个尺度,1≤i≤K,从所述N个原始特征图中提取第i个尺度下的局部关键实例特征的流程包括:为每个原始特征图设置轮询优先级,按照所述轮询优先级从N个原始特征图中确定用于当前轮询的目标原始特征图;根据所述目标原始特征图以及尺度i,确定单位局部关键实例特征;当所有原始特征图都被确定为目标原始特征图时,停止轮询,并将N个单位局部关键实例特征组合为所述第i个尺度下的局部关键实例特征;所述单位局部关键实例特征是由多个单位目标特征图拼接得到的与所述目标原始特征图的尺寸相同实例特征,所述单位目标特征图为对所述目标原始特征图中根据滑动窗口尺寸划分的不存在重叠的特征图像素的像素值进行调整得到的;
第二提取模块,用于从所述N个原始特征图中提取所述待识别图像的全局实例权重特征;
识别模块,用于对所述多尺度实例特征和所述全局实例权重特征进行识别处理,得到所述待识别图像的图像识别结果。
13.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-11中任一项所述方法的步骤。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1-11任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011264341.1A CN112257728B (zh) | 2020-11-12 | 2020-11-12 | 图像处理方法、装置、计算机设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011264341.1A CN112257728B (zh) | 2020-11-12 | 2020-11-12 | 图像处理方法、装置、计算机设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112257728A CN112257728A (zh) | 2021-01-22 |
CN112257728B true CN112257728B (zh) | 2021-08-17 |
Family
ID=74265827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011264341.1A Active CN112257728B (zh) | 2020-11-12 | 2020-11-12 | 图像处理方法、装置、计算机设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112257728B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114332530A (zh) * | 2021-12-22 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、计算机设备及存储介质 |
CN114299522B (zh) * | 2022-01-10 | 2023-08-29 | 北京百度网讯科技有限公司 | 图像识别方法装置、设备和存储介质 |
CN115131612A (zh) * | 2022-07-02 | 2022-09-30 | 哈尔滨理工大学 | 一种基于递归残差网络的视网膜oct图像分类方法 |
CN115630307B (zh) * | 2022-11-29 | 2023-03-21 | 中国中医科学院中医药信息研究所 | 一种基于跨视角和注意力聚合的证候诊断方法及装置 |
CN116012626B (zh) * | 2023-03-21 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 建筑立面图像的素材匹配方法、装置、设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989336A (zh) * | 2015-02-13 | 2016-10-05 | 中国科学院西安光学精密机械研究所 | 基于带权重的解卷积深度网络学习的场景识别方法 |
CN108742627A (zh) * | 2018-06-25 | 2018-11-06 | 重庆知遨科技有限公司 | 一种基于脑部医学图像融合分类的检测装置 |
CN110298387A (zh) * | 2019-06-10 | 2019-10-01 | 天津大学 | 融入像素级attention机制的深度神经网络目标检测方法 |
US10482603B1 (en) * | 2019-06-25 | 2019-11-19 | Artificial Intelligence, Ltd. | Medical image segmentation using an integrated edge guidance module and object segmentation network |
CN110598715A (zh) * | 2019-09-04 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、计算机设备及可读存储介质 |
CN111242037A (zh) * | 2020-01-15 | 2020-06-05 | 华南理工大学 | 基于结构信息的车道线检测方法 |
CN111652887A (zh) * | 2020-05-13 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 图像分割模型训练方法、装置、计算机设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514432B (zh) * | 2012-06-25 | 2017-09-01 | 诺基亚技术有限公司 | 人脸特征提取方法、设备和计算机程序产品 |
US11586880B2 (en) * | 2018-08-28 | 2023-02-21 | Beijing Jingdong Shangke Information Technology Co., Ltd. | System and method for multi-horizon time series forecasting with dynamic temporal context learning |
CN113569798B (zh) * | 2018-11-16 | 2024-05-24 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
CN111460876B (zh) * | 2019-06-05 | 2021-05-25 | 北京京东尚科信息技术有限公司 | 用于识别视频的方法和装置 |
CN111402258A (zh) * | 2020-03-12 | 2020-07-10 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
-
2020
- 2020-11-12 CN CN202011264341.1A patent/CN112257728B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989336A (zh) * | 2015-02-13 | 2016-10-05 | 中国科学院西安光学精密机械研究所 | 基于带权重的解卷积深度网络学习的场景识别方法 |
CN108742627A (zh) * | 2018-06-25 | 2018-11-06 | 重庆知遨科技有限公司 | 一种基于脑部医学图像融合分类的检测装置 |
CN110298387A (zh) * | 2019-06-10 | 2019-10-01 | 天津大学 | 融入像素级attention机制的深度神经网络目标检测方法 |
US10482603B1 (en) * | 2019-06-25 | 2019-11-19 | Artificial Intelligence, Ltd. | Medical image segmentation using an integrated edge guidance module and object segmentation network |
CN110598715A (zh) * | 2019-09-04 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、计算机设备及可读存储介质 |
CN111242037A (zh) * | 2020-01-15 | 2020-06-05 | 华南理工大学 | 基于结构信息的车道线检测方法 |
CN111652887A (zh) * | 2020-05-13 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 图像分割模型训练方法、装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
"Attentive CT Lesion Detection Using Deep Pyramid Inference with Multi-Scale Booster";Qingbin Shao et al.;《arXiv》;20190709;全文 * |
"Diffculty-aware Glaucoma Classification with Multi-Rater Consensus Modeling";Shuang Yu et al.;《arXiv》;20200729;全文 * |
"基于加权多尺度张量子空间的人脸图像特征提取方法";王仕民等;《数据采集与处理》;20161231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112257728A (zh) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112257728B (zh) | 图像处理方法、装置、计算机设备以及存储介质 | |
EP3779774B1 (en) | Training method for image semantic segmentation model and server | |
US12001607B2 (en) | System and method for iterative classification using neurophysiological signals | |
EP3933693B1 (en) | Object recognition method and device | |
CN112446476A (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
EP3989112A1 (en) | Human body attribute recognition method and apparatus, electronic device and storage medium | |
EP3304255A1 (en) | Image classification by brain computer interface | |
CN111291604A (zh) | 面部属性识别方法、装置、存储介质及处理器 | |
US20220254134A1 (en) | Region recognition method, apparatus and device, and readable storage medium | |
CN106650619A (zh) | 一种人体动作识别方法 | |
CN110796199A (zh) | 一种图像处理方法、装置以及电子医疗设备 | |
WO2021047587A1 (zh) | 手势识别方法、电子设备、计算机可读存储介质和芯片 | |
CN110222718A (zh) | 图像处理的方法及装置 | |
CN115620384B (zh) | 模型训练方法、眼底图像预测方法及装置 | |
CN111291700A (zh) | 一种人脸属性识别方法、装置、设备及可读存储介质 | |
CN114677754A (zh) | 行为识别方法、装置、电子设备及计算机可读存储介质 | |
CN114677730A (zh) | 活体检测方法、装置、电子设备及存储介质 | |
Gangonda et al. | VGHN: variations aware geometric moments and histogram features normalization for robust uncontrolled face recognition | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及*** | |
CN110473176A (zh) | 图像处理方法及装置、眼底图像处理方法、电子设备 | |
Kumar et al. | Masked face age and gender identification using CAFFE-modified MobileNetV2 on photo and real-time video images by transfer learning and deep learning techniques | |
Rafiq et al. | Real-time vision-based bangla sign language detection using convolutional neural network | |
Karnati et al. | Facial expression recognition in-the-wild using blended feature attention network | |
CN113887373B (zh) | 基于城市智慧体育的并行融合网络的姿态识别方法和*** | |
CN111222374A (zh) | 测谎数据处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40037377 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |