CN112579808B - 数据标注处理方法及装置、*** - Google Patents
数据标注处理方法及装置、*** Download PDFInfo
- Publication number
- CN112579808B CN112579808B CN202011602759.9A CN202011602759A CN112579808B CN 112579808 B CN112579808 B CN 112579808B CN 202011602759 A CN202011602759 A CN 202011602759A CN 112579808 B CN112579808 B CN 112579808B
- Authority
- CN
- China
- Prior art keywords
- image
- result
- blood cell
- classifying
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20152—Watershed segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Radiology & Medical Imaging (AREA)
- Library & Information Science (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种数据标注处理方法及装置、***。其中,该方法包括:获取血液样本图像,并对血液样本图像进行预处理,得到白细胞图像;利用神经网络模型对白细胞图像进行分类,得到白细胞的分类结果;获取分类结果是否正确的判断结果,如果判断结果指示分类结果正确,保存白细胞图像以及分类结果;如果判断结果指示分类结果不正确,获取对白细胞图像的正确标注结果,其中,正确标注结果是目标用户在客户端对白细胞图像进行人工分类标注得到的。本申请解决了由于目前血液细胞图像的标注需要标注人员拥有专业的医学知识和经验,导致人力成本和时间成本较高,并且标注效率较低,错误率较高的技术问题。
Description
技术领域
本申请涉及数据标注领域,具体而言,涉及一种数据标注处理方法及装置、***。
背景技术
白血病的主流诊断手段包括细胞形态学诊断和基因分析诊断。其中,血细胞形态分析只需要一张图像,而不是血液样本,因此适用于低成本或远程的诊断***。利用图像处理和深度学习的计算机辅助形态分析***可以用较低的时间成本和人力成本来完成白血病的诊断。
通过白细胞亚型分类,可以得到初步的诊断结论。白细胞可以分成17种不同的类型,一些白细胞类型,从外表上看比较容易分辨,而又一些白细胞的类型从细胞形态,细胞核大小比例等方面来看,都基本无法分辨。例如,幼粒细胞细分为早幼粒细胞,中幼粒细胞,晚幼粒细胞。幼粒细胞的三个阶段的细胞形态和结构是十分相似的,只有经过专业培训的血液学专家在可以分辨。精确判断早幼粒细胞,对于诊断急性早幼粒细胞白血病具有十分重要的意义。
所以基于细胞形态学进行白血病诊断,需要精确的知道血液样本中的白细胞分别属于哪个亚型。白细胞亚型分类是一个有层次结构的分类问题,并且深度学习依赖于大量标注的数据。所以,使用深度学习完成白细胞亚型分类任务,需要有海量的有亚型标注的白细胞图像数据。对于白血病诊断来说,如果需要一个高精度的深度学习模型,至少需要1万张的带标注的血液细胞图像数据。但是由于医学图像的特殊性,通常只有经过专业培养的血液科医生才能够精确且可靠的对血液细胞图像进行分类和标注。进行大量的医学图像标注需要投入专业医生的大量的时间和精力,使得人力成本和时间成本很高。所以,如何设计一个标注***,并降低数据标注的人力成本和时间成本,成为了一个非常重要的问题。
一个典型的图像标注***一般包括数据采集和数据标注两个部分。其中依赖标注人员对于采集的数据进行标注。但是针对医疗图像特别是血液细胞的标注,需要标注人员拥有专业的医学知识和经验。所以进行大量的医学图像标注需要投入专业医生的大量的时间和精力,使得人力成本和时间成本很高。而且白细胞亚型分类是一个多层次结构的分类问题,分类种类多,部分亚型及其相似,所以标注的复杂和难度很高,即使在专业医生的帮助下,整体的标注效率较低,错误率较高。
针对由于目前血液细胞图像的标注需要标注人员拥有专业的医学知识和经验,导致人力成本和时间成本较高,并且标注效率较低,错误率较高的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种数据标注处理方法及装置、***,以至少解决由于目前血液细胞图像的标注需要标注人员拥有专业的医学知识和经验,导致人力成本和时间成本较高,并且标注效率较低,错误率较高的技术问题。
根据本申请实施例的一个方面,提供了一种数据标注处理方法,包括:获取血液样本图像,并对血液样本图像进行预处理,得到白细胞图像;利用神经网络模型对白细胞图像进行分类,得到白细胞的分类结果;获取分类结果是否正确的判断结果,如果判断结果指示分类结果正确,保存白细胞图像以及分类结果;如果判断结果指示分类结果不正确,获取对白细胞图像的正确标注结果,其中,正确标注结果是目标用户在客户端对白细胞图像进行人工分类标注得到的。
可选地,获取分类结果是否分类正确的判断结果之前,方法还包括:将分类结果和白细胞图像发送至客户端;判断结果是目标用户在客户端依据白细胞图像和分类结果判断得到的。
可选地,获取对白细胞图像的正确标注结果之后,上述方法还包括:利用白细胞图像和正确标注结果重新训练神经网络模型。
可选地,血液样本图像包括正常个体的血液样本图像以及白血病患者的血液样本图像,对血液样本图像进行预处理,得到白细胞图像,包括:对血液样本图像进行细胞检测分割处理,得到以血液细胞为中心的图像;对以血液细胞为中心的图像进行白细胞筛选处理,得到以白细胞为中心的白细胞图像。
可选地,对血液样本图像进行细胞检测分割处理,得到以血液细胞为中心的图像,包括:将血液样本图像转换为灰度图;利用K均值算法对灰度图进行检测,得到血液细胞的图像;对血液细胞的轮廓图像进行直方图均衡化处理,得到直方图均衡化处理后的血液细胞图像;对直方图均衡化处理后的血液细胞图像进行形态学去噪处理,得到形态学去噪处理后的血液细胞图像;对形态学去噪处理后的血液细胞图像进行填洞处理,识别得到血液细胞的轮廓,并去除血液细胞图像内部的空洞;利用分水岭算法对填洞处理后的血液细胞图像进行处理,得到以血液细胞为中心的图像。
可选地,利用神经网络模型对白细胞图像进行分类,得到白细胞的分类结果之前,上述方法还包括:对神经网络模型进行训练,该步骤包括:将原始样本数据和对抗样本数据输入至神经网络模型,对神经网络模型进行虚拟对抗训练,其中,原始样本数据包括标注了分类结果的血液样本图像以及未标注分类结果的血液样本图像,对抗样本数据包括对原始样本数据施加噪声之后的样本数据。
可选地,对神经网络模型进行训练,还包括:将神经网络模型最后一个全连接层的输出作为神经网络模型提取的图像特征,其中,图像特征为固定长度的向量;将图像特征作为支持向量机的输入,将支持向量机作为最终的分类器,其中,分类器用于对白细胞图像进行分类。
根据本申请实施例的另一方面,还提供了一种数据标注处理装置,包括:预处理模块,用于获取血液样本图像,并对血液样本图像进行预处理,得到白细胞图像;分类模块,用于利用神经网络模型对白细胞图像进行分类,得到白细胞的分类结果;处理模块,用于获取分类结果是否正确的判断结果,如果判断结果指示分类结果正确,保存白细胞图像以及分类结果;如果判断结果指示分类结果不正确,获取对白细胞图像的正确标注结果,其中,正确标注结果是目标用户在客户端对白细胞图像进行人工分类标注得到的。
根据本申请实施例的另一方面,还提供了一种数据标注处理***,包括:服务器及客户端,其中,服务器,用于获取血液样本图像,并对血液样本图像进行预处理,得到白细胞图像;利用神经网络模型对白细胞图像进行分类,得到白细胞的分类结果;获取分类结果是否正确的判断结果,如果判断结果指示分类结果正确,获取对白细胞图像的正确标注结果,其中,正确标注结果是目标用户在客户端对白细胞图像进行人工分类标注得到的;客户端,与服务器通信,用于将判断结果和正确标注结果发送至服务器。
根据本申请实施例的再一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行以上的细胞的分类方法。
根据本申请实施例的再一方面,还提供了一种处理器,处理器用于运行程序,其中,在程序运行时执行以上的细胞的分类方法。
在本申请实施例中,采用获取血液样本图像,并对血液样本图像进行预处理,得到白细胞图像;利用神经网络模型对白细胞图像进行分类,得到白细胞的分类结果;获取分类结果是否正确的判断结果,如果判断结果指示分类结果正确,保存白细胞图像以及分类结果;如果判断结果指示分类结果不正确,获取对白细胞图像的正确标注结果,其中,正确标注结果是目标用户在客户端对白细胞图像进行人工分类标注得到的方式,通过使用粗分类器对血液细胞图像进行预分类,并将分类结果提供给相关领域专家进行其粗分类所对应的细分类的标注,如果粗分类结果错误,将会把标注结果反馈给粗分类器,达到了提高分类器的精确度的目的,从而实现了有效减少数据标注量,提高了数据标注速度和标注效率,降低人力成本及时间成本的技术效果,进而解决了由于目前血液细胞图像的标注需要标注人员拥有专业的医学知识和经验,导致人力成本和时间成本较高,并且标注效率较低,错误率较高技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种数据标注处理方法的流程图;
图2是根据本申请实施例的一种增强的分水岭算法的示意图;
图3是根据本申请实施例的一种数据标注处理装置的结构框;
图4是根据本申请实施例的一种数据标注处理***的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种数据标注处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例提出了一种多阶段反馈标注方法,用以解决以上背景技术中提到的技术问题。多阶段反馈标注***主要基于两个思想:一个是使用粗分类器对结果进行预分类,并将分类结果提供给专家进行其粗分类所对应的细分类的标注,如果其粗分类结果错误,将会把人工标注的结果反馈给上一个阶段。第二,粗分类器的错误分类结果将会从下一阶段的标注过程中由标注专家反馈回来,利用下一阶段的标注反馈,我们可以提高粗分类器的精度。随着标注过程的进行,粗分类器不断从下一阶段的标注反馈中学习,分类精度会越来越高,专家的反馈工作量也会越来越小。
综合上述两点,多阶段反馈标注***可以针对存在多层次类别分类的标注问题,有效的减小了标注总量,增加标注速度和标注效率。下面对该方法进行详细说明:
图1是根据本申请实施例的一种数据标注处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取血液样本图像,并对血液样本图像进行预处理,得到白细胞图像;
血液样本图像一般由光学实验室显微镜采集的,并以相机压缩格式存储。采集对象包括正常个体和白血病患者的外周血样本。
步骤S104,利用神经网络模型对白细胞图像进行分类,得到白细胞的分类结果;
需要说明的是,执行步骤S104是对血液样本中的白细胞进行粗分类的过程。对于每一张白细胞图像,使用卷积神经网络进行粗分类。该卷积神经网络使用预先标注的数据进行训练。
步骤S106,获取分类结果是否正确的判断结果,如果判断结果指示分类结果正确,保存白细胞图像以及分类结果;如果判断结果指示分类结果不正确,获取对白细胞图像的正确标注结果,其中,正确标注结果是目标用户在客户端对白细胞图像进行人工分类标注得到的。
步骤S106是对血液样本中的白细胞进行细分类的过程,将待标注的白细胞图像和该图像的粗分类结果传输到客户端,以使用户判断粗分类结果是否正确。若粗分类结果正确,则保存白细胞图像和其细分类结果。若粗分类结果错误,则保存白细胞图像和其正确的粗分类结果,并反馈给粗分类单元(需要说明的是,这里的正确的粗分类结果是用户在客户端通过人工分类标注确定的)。
通过上述步骤,通过使用粗分类器对血液细胞图像进行预分类,并将分类结果提供给相关领域专家进行其粗分类所对应的细分类的标注,如果粗分类结果错误,将会把标注结果反馈给粗分类器,达到了提高分类器的精确度的目的,从而实现了有效减少数据标注量,提高了数据标注速度和标注效率,降低人力成本及时间成本的技术效果。
根据本申请的一个可选的实施例,执行步骤S106之前,将分类结果和白细胞图像发送至客户端;判断结果是目标用户在客户端依据白细胞图像和分类结果判断得到的。
需要说明的是,这里的用户是指拥有专业的医学知识和经验专业技术人员,将步骤S104得到的粗分类结果和白细胞图像发送至客户端,用户在客户端判断该粗分类结果是否正确,如果不正确,由该用户人工对白细胞图像中的白细胞进行分类标注,并将正确的标注结果反馈给粗分类单元。
根据本申请的一个可选的实施例,获取对白细胞图像的正确标注结果之后,还需要利用白细胞图像和正确标注结果重新训练神经网络模型。
在本步骤中,利用用户反馈的正确标注结果和白细胞图像重新训练上述神经网络模型,随着标注过程的进行,粗分类器不断从下一阶段的标注反馈中学习,分类精度会越来越高,专家(用户)的反馈工作量也会越来越小。
在本申请的一些可选的实施例中,血液样本图像包括正常个体的血液样本图像以及白血病患者的血液样本图像,在步骤S102中通过以下方式对血液样本图像进行预处理,得到白细胞图像:对血液样本图像进行细胞检测分割处理,得到以血液细胞为中心的图像;对以血液细胞为中心的图像进行白细胞筛选处理,得到以白细胞为中心的白细胞图像。
预处理主要包括细胞检测分割和白细胞筛选,将血液样本图像处理为切割好的白细胞图像。细胞检测分割的输出的是以血液细胞为中心的裁剪的图像,白细胞筛选输出的是白细胞为中心的裁剪的图像。
根据本申请的另一个可选的实施例,对血液样本图像进行细胞检测分割处理,得到以血液细胞为中心的图像,包括以下方法:将血液样本图像转换为灰度图;利用K均值算法对灰度图进行检测,得到血液细胞的图像;对血液细胞的轮廓图像进行直方图均衡化处理,得到直方图均衡化处理后的血液细胞图像;对直方图均衡化处理后的血液细胞图像进行形态学去噪处理,得到形态学去噪处理后的血液细胞图像;对形态学去噪处理后的血液细胞图像进行填洞处理,识别得到血液细胞的轮廓,并去除血液细胞图像内部的空洞;利用分水岭算法对填洞处理后的血液细胞图像进行处理,得到以血液细胞为中心的图像。
针对血液细胞成像的特点,本申请实施例提出了一种增强的分水岭算法。如图2所示,整个工作流程包括转换为灰度图,应用K均值算法,直方图均衡化,形态学去噪,填洞,分水岭算法。具体包括以下内容:
转换为灰度图(图2(b)),将原始血液样本图像(图2(a))转换为灰度图。
K均值算法(图2(c)),静脉血中的细胞可被视为一组中紧密拥挤的几个像素,而组和组之间的距离足以使K均值方法检测到。因此,2个像素簇由K均值方法分开,其中一个属于细胞而另一个属于背景。
直方图均衡化(图2(d)),由于在细胞染色在显微镜成像下,红细胞和背景之间的颜色非常接近,因此,应用直方图均衡来改善原始图像的对比度,从而提高后续步骤的准确度。
形态学去噪(图2(e)),在二值化之后,在细胞内具有孔隙和在细胞周围产生噪声的图像,例如灰尘和垃圾。我们使用应用形态学操作,在背景中消除这一类型的噪声。
填洞(图2(f)),在进行形态学去噪后,在细胞图片内部仍会有少量深色噪声像素。考虑到这个流程最终要检测出细胞轮廓,且假定在制作涂片和选定区域时选择了没有细胞重叠的部分,因此将细胞内部全部使用白色像素填充,用于去掉深色噪声像素,便于下一步提取轮廓。识别所有的细胞轮廓,并将细胞内的空洞除去。
因为细胞成像的特性,经上述处理过程后,部分细胞内部会产生空洞(图2(e))。为了使后续分水岭算法能将细胞正确的完整的分割出来,需要将细胞内部空洞除去(图2(f))。
分水岭算法(图2(g)),利用分水岭算法对填洞处理后的血液细胞图像进行处理,得到以血液细胞为中心的图像。
在计算机视觉传统方法中,分水岭算法经常用于自动轮廓检测和细胞分割,其在处理粘连甚至重叠细胞的情况下往往可以得到更好的结果。但是使用分水岭算法容易造成图像的过度分割,通过之前的步骤,可以改善过度分割的现象。
根据本申请的一个可选的实施例,执行步骤S104之前,还需要对神经网络模型进行训练,该步骤包括:将原始样本数据和对抗样本数据输入至神经网络模型,对神经网络模型进行虚拟对抗训练,其中,原始样本数据包括标注了分类结果的血液样本图像以及未标注分类结果的血液样本图像,对抗样本数据包括对原始样本数据施加噪声之后的样本数据。
优选地,对神经网络模型进行训练,还包括:将神经网络模型最后一个全连接层的输出作为神经网络模型提取的图像特征,其中,图像特征为固定长度的向量;将图像特征作为支持向量机的输入,将支持向量机作为最终的分类器,其中,分类器用于对白细胞图像进行分类。
因为白细胞亚型分类有一些常规分类问题所没有的特殊点:数据集类别高度不平衡,部分异常类别(病变的细胞)的数量极低;部分亚型之间的外形十分相似,难以提取出辨别的特征。
直接使用深度神经网络进行分类有两个主要问题:一个问题是数量较少或者容易混淆的类别的分类准确率较低;另一个问题是训练阶段非常不稳定,导致实际使用中很难应用。
针对上述关键问题,本申请实施例引入了虚拟对抗训练神经网络模型,以及使用深度神经网络结合支持向量机技术。
因为成像条件(光照,色差)等不同,不同批次的样本在特征上有一定的不稳定,需要模型可以鲁棒的应对这些不稳定的噪声,得到稳定的分类结果。其次,因为带标注的血液细胞数据相对数量较低,同时有大量的未标注的数据,可以利用这些未标注的数据加入训练过程,提高模型的泛性和鲁棒性。所以在模型训练中引入了虚拟对抗学习。
对抗训练是指对原始数据的对抗样本进行训练,用来提高模型的稳定性和鲁棒性,并降低模型的错误率。对抗样本指对原始样本施加微量的噪声,在对抗训练中,使用对抗样本进行训练,可以使得模型在训练数据附近局部中保持输出的稳定性,从而避免微小的输入扰动对于模型最终输出的影响。虚拟对抗训练,指在对抗训练的基础上,根据模型输出的分布确定对抗的方向,使得对抗训练的过程变得更加高效。
支持向量机是用来解决而分类问题的监督学***面使得在训练集上政府样本间隔最大。因为支持向量机和卷积神经网络训练过程中对于数据的要求不同,在训练卷积神经网络的时候,需要更多的样本,而使用支持向量机就不需要这么多的样本。另外,支持向量机采用的是困难负样本挖掘,将分类困难的样本抽取出来,使得正负样本数量均衡,减少实验结果的假阳性问题。
血液细胞数据是数据极不平衡的,某些类别(比如变种或异常细胞)的样本数量会非常小而无法是深度神经网络拟合。因此我们使用深度神经网络和支持向量机结合来克服这个问题。我们首先使用整个训练数据集训练深度神经网络,然后我们将深度神经网络视为特征提取器,使用深度神经网络最后一个全连接层的输出,作为深度神经网络提取的图像特征,一般为一个固定长度的向量。然后我们使用支持向量机作为最终的分类器,并将此特征向量作为支持向量机的输入。这项技术可以使相对数量较少或者一些难以区分的类别有较大的准确性提高。
使用上述两种技术后,训练过程更加稳定,获得的分类模型更加鲁棒,并且比直接使用神经网络获得了更高的分类准确率。
本申请实施例提供的数据标注处理方法,针对复杂的白细胞亚型分类提出了多阶段标注方法,有效的提高了标注的友好程度,降低了人工标注的错误概率。利用了多级反馈的机制,可以降低整个***总共的标注量,有效的降低整个标注流程的时间成本和人力成本。
图3是根据本申请实施例的一种数据标注处理装置的结构框图,如图3所示,该装置包括:
预处理模块30,用于获取血液样本图像,并对血液样本图像进行预处理,得到白细胞图像;
分类模块32,用于利用神经网络模型对白细胞图像进行分类,得到白细胞的分类结果;
处理模块34,用于获取分类结果是否正确的判断结果,如果判断结果指示分类结果正确,保存白细胞图像以及分类结果;如果判断结果指示分类结果不正确,获取对白细胞图像的正确标注结果,其中,正确标注结果是目标用户在客户端对白细胞图像进行人工分类标注得到的。
需要说明的是,图3所示实施例的优选实施方式可以参见图1所示实施例的相关描述,此处不再赘述。
图4是根据本申请实施例的一种数据标注处理***的结构框图,如图4所示,该***包括:服务器40及客户端42,其中,
服务器40,用于获取血液样本图像,并对血液样本图像进行预处理,得到白细胞图像;利用神经网络模型对白细胞图像进行分类,得到白细胞的分类结果;获取分类结果是否正确的判断结果,如果判断结果指示分类结果正确,获取对白细胞图像的正确标注结果,其中,正确标注结果是目标用户在客户端对白细胞图像进行人工分类标注得到的;
客户端42,与服务器40通信,用于将判断结果和正确标注结果发送至服务器40。
标注人员可以使用客户端42(终端设备)通过网络与服务器40进行交互,客户端42用来接收和显示医学图像,并提供用户交互式的标注方式(鼠标、键盘等),并向服务器40发送标注信息等。
服务器40需要提供标注过程中各种服务,例如向终端设备传输医学图像,接受并保存从客户端42传来的标注信息。对图像和标注信息进行存储和查询等。所有的图像和标注信息都存储在服务器40上,服务器40可以对接收到的医学图像进行预分类,并通过客户端42反馈的标注结果,调整存储的标注信息。
需要说明的是,图4所示实施例的优选实施方式可以参见图1所示实施例的相关描述,此处不再赘述。
本申请实施例还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行以上的细胞的分类方法。
上述非易失性存储介质用于存储执行以下功能的程序:获取血液样本图像,并对血液样本图像进行预处理,得到白细胞图像;利用神经网络模型对白细胞图像进行分类,得到白细胞的分类结果;获取分类结果是否正确的判断结果,如果判断结果指示分类结果正确,保存白细胞图像以及分类结果;如果判断结果指示分类结果不正确,获取对白细胞图像的正确标注结果,其中,正确标注结果是目标用户在客户端对白细胞图像进行人工分类标注得到的。
本申请实施例还提供了一种处理器,处理器用于运行程序,其中,在程序运行时执行以上的细胞的分类方法。
上述处理器用于运行执行以下功能的程序:获取血液样本图像,并对血液样本图像进行预处理,得到白细胞图像;利用神经网络模型对白细胞图像进行分类,得到白细胞的分类结果;获取分类结果是否正确的判断结果,如果判断结果指示分类结果正确,保存白细胞图像以及分类结果;如果判断结果指示分类结果不正确,获取对白细胞图像的正确标注结果,其中,正确标注结果是目标用户在客户端对白细胞图像进行人工分类标注得到的。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,ReSTMFd-Only Memory)、随机存取存储器(RSTMFM,RSTMFndom STMFccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (6)
1.一种数据标注处理方法,其特征在于,包括:
获取血液样本图像,并对所述血液样本图像进行预处理,得到白细胞图像;
利用神经网络模型对所述白细胞图像进行分类,得到白细胞的分类结果;
获取所述分类结果是否正确的判断结果,如果所述判断结果指示所述分类结果正确,保存所述白细胞图像以及所述分类结果;
如果所述判断结果指示所述分类结果不正确,获取对所述白细胞图像的正确标注结果,其中,所述正确标注结果是目标用户在客户端对所述白细胞图像进行人工分类标注得到的;
如果所述判断结果指示所述分类结果不正确,获取对所述白细胞图像的正确标注结果,还包括:将所述正确标注结果反馈给粗分类单元;
获取对所述白细胞图像的正确标注结果之后,所述方法还包括:利用所述白细胞图像和所述正确标注结果重新训练所述神经网络模型;
对所述血液样本图像进行预处理,包括:对所述血液样本图像进行细胞检测分割处理,得到以血液细胞为中心的图像,包括:将所述血液样本图像转换为灰度图;利用K均值算法对所述灰度图进行检测,得到所述血液细胞的图像;对所述血液细胞的轮廓图像进行直方图均衡化处理,得到直方图均衡化处理后的血液细胞图像;对所述直方图均衡化处理后的血液细胞图像进行形态学去噪处理,得到形态学去噪处理后的血液细胞图像;对所述形态学去噪处理后的血液细胞图像进行填洞处理,识别得到所述血液细胞的轮廓,并去除所述血液细胞图像内部的空洞;利用分水岭算法对所述填洞处理后的血液细胞图像进行处理,得到所述以血液细胞为中心的图像;
利用神经网络模型对所述白细胞图像进行分类,得到所述白细胞的分类结果之前,所述方法还包括:
对所述神经网络模型进行训练,该步骤包括:
将原始样本数据和对抗样本数据输入至所述神经网络模型,对所述神经网络模型进行虚拟对抗训练,其中,所述原始样本数据包括标注了所述分类结果的血液样本图像以及未标注所述分类结果的血液样本图像,所述对抗样本数据包括对所述原始样本数据施加噪声之后的样本数据;
对所述神经网络模型进行训练,还包括:
将所述神经网络模型最后一个全连接层的输出作为所述神经网络模型提取的图像特征,其中,所述图像特征为固定长度的向量;
将所述图像特征作为支持向量机的输入,将所述支持向量机作为最终的分类器,其中,所述分类器用于对所述白细胞图像进行分类。
2.根据权利要求1所述的方法,其特征在于,
获取所述分类结果是否分类正确的判断结果之前,所述方法还包括:将所述分类结果和所述白细胞图像发送至所述客户端;
所述判断结果是目标用户在所述客户端依据所述白细胞图像和所述分类结果判断得到的。
3.根据权利要求1所述的方法,其特征在于,所述血液样本图像包括正常个体的血液样本图像以及白血病患者的血液样本图像,对所述血液样本图像进行预处理,得到白细胞图像,包括:
对所述血液样本图像进行细胞检测分割处理,得到以血液细胞为中心的图像;
对所述以血液细胞为中心的图像进行白细胞筛选处理,得到以白细胞为中心的白细胞图像。
4.一种数据标注处理装置,其特征在于,包括:
预处理模块,用于获取血液样本图像,并对所述血液样本图像进行预处理,得到白细胞图像;
分类模块,用于利用神经网络模型对所述白细胞图像进行分类,得到白细胞的分类结果;
处理模块,用于获取所述分类结果是否正确的判断结果,如果所述判断结果指示所述分类结果正确,保存所述白细胞图像以及所述分类结果;如果所述判断结果指示所述分类结果不正确,获取对所述白细胞图像的正确标注结果,其中,所述正确标注结果是目标用户在客户端对所述白细胞图像进行人工分类标注得到的;
所述处理模块,还用于将所述正确标注结果反馈给粗分类单元;
所述装置还用于在获取对所述白细胞图像的正确标注结果之后,利用所述白细胞图像和所述正确标注结果重新训练所述神经网络模型;
所述预处理模块,还用于对所述血液样本图像进行预处理,包括:对所述血液样本图像进行细胞检测分割处理,得到以血液细胞为中心的图像,包括:将所述血液样本图像转换为灰度图;利用K均值算法对所述灰度图进行检测,得到所述血液细胞的图像;对所述血液细胞的轮廓图像进行直方图均衡化处理,得到直方图均衡化处理后的血液细胞图像;对所述直方图均衡化处理后的血液细胞图像进行形态学去噪处理,得到形态学去噪处理后的血液细胞图像;对所述形态学去噪处理后的血液细胞图像进行填洞处理,识别得到所述血液细胞的轮廓,并去除所述血液细胞图像内部的空洞;利用分水岭算法对所述填洞处理后的血液细胞图像进行处理,得到所述以血液细胞为中心的图像;
所述装置还用于利用神经网络模型对所述白细胞图像进行分类,得到所述白细胞的分类结果之前,对所述神经网络模型进行训练,具体包括:
将原始样本数据和对抗样本数据输入至所述神经网络模型,对所述神经网络模型进行虚拟对抗训练,其中,所述原始样本数据包括标注了所述分类结果的血液样本图像以及未标注所述分类结果的血液样本图像,所述对抗样本数据包括对所述原始样本数据施加噪声之后的样本数据;
对所述神经网络模型进行训练,还包括:
将所述神经网络模型最后一个全连接层的输出作为所述神经网络模型提取的图像特征,其中,所述图像特征为固定长度的向量;
将所述图像特征作为支持向量机的输入,将所述支持向量机作为最终的分类器,其中,所述分类器用于对所述白细胞图像进行分类。
5.一种数据标注处理***,其特征在于,包括:服务器及客户端,其中,
所述服务器,用于获取血液样本图像,并对所述血液样本图像进行预处理,得到白细胞图像;利用神经网络模型对所述白细胞图像进行分类,得到白细胞的分类结果;获取所述分类结果是否正确的判断结果,如果所述判断结果指示所述分类结果正确,获取对所述白细胞图像的正确标注结果,其中,所述正确标注结果是目标用户在所述客户端对所述白细胞图像进行人工分类标注得到的;
所述客户端,与所述服务器通信,用于将所述判断结果和所述正确标注结果发送至所述服务器;
所述服务器,还用于在所述判断结果指示所述分类结果不正确时,获取对所述白细胞图像的正确标注结果,还包括:将所述正确标注结果反馈给粗分类单元;
所述数据标注处理***还用于在获取对所述白细胞图像的正确标注结果之后,利用所述白细胞图像和所述正确标注结果重新训练所述神经网络模型;
所述服务器,还用于对所述血液样本图像进行预处理,包括:对所述血液样本图像进行细胞检测分割处理,得到以血液细胞为中心的图像,包括:将所述血液样本图像转换为灰度图;利用K均值算法对所述灰度图进行检测,得到所述血液细胞的图像;对所述血液细胞的轮廓图像进行直方图均衡化处理,得到直方图均衡化处理后的血液细胞图像;对所述直方图均衡化处理后的血液细胞图像进行形态学去噪处理,得到形态学去噪处理后的血液细胞图像;对所述形态学去噪处理后的血液细胞图像进行填洞处理,识别得到所述血液细胞的轮廓,并去除所述血液细胞图像内部的空洞;利用分水岭算法对所述填洞处理后的血液细胞图像进行处理,得到所述以血液细胞为中心的图像;
所述数据标注处理***还用于利用神经网络模型对所述白细胞图像进行分类,得到所述白细胞的分类结果之前,对所述神经网络模型进行训练,具体包括:
将原始样本数据和对抗样本数据输入至所述神经网络模型,对所述神经网络模型进行虚拟对抗训练,其中,所述原始样本数据包括标注了所述分类结果的血液样本图像以及未标注所述分类结果的血液样本图像,所述对抗样本数据包括对所述原始样本数据施加噪声之后的样本数据;
对所述神经网络模型进行训练,还包括:
将所述神经网络模型最后一个全连接层的输出作为所述神经网络模型提取的图像特征,其中,所述图像特征为固定长度的向量;
将所述图像特征作为支持向量机的输入,将所述支持向量机作为最终的分类器,其中,所述分类器用于对所述白细胞图像进行分类。
6.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至3中任意一项所述的细胞的分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011602759.9A CN112579808B (zh) | 2020-12-29 | 2020-12-29 | 数据标注处理方法及装置、*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011602759.9A CN112579808B (zh) | 2020-12-29 | 2020-12-29 | 数据标注处理方法及装置、*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112579808A CN112579808A (zh) | 2021-03-30 |
CN112579808B true CN112579808B (zh) | 2023-07-18 |
Family
ID=75144148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011602759.9A Active CN112579808B (zh) | 2020-12-29 | 2020-12-29 | 数据标注处理方法及装置、*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579808B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705318B (zh) * | 2021-04-22 | 2023-04-18 | 腾讯医疗健康(深圳)有限公司 | 基于图像的识别方法、装置、设备及可读存储介质 |
CN113407980B (zh) * | 2021-08-18 | 2022-02-15 | 深圳市信润富联数字科技有限公司 | 数据标注*** |
CN115393846B (zh) * | 2022-10-28 | 2023-03-03 | 成都西交智汇大数据科技有限公司 | 一种血细胞识别方法、装置、设备及可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473739A (zh) * | 2013-08-15 | 2013-12-25 | 华中科技大学 | 一种基于支持向量机的白细胞图像精确分割方法与*** |
CN108985214A (zh) * | 2018-07-09 | 2018-12-11 | 上海斐讯数据通信技术有限公司 | 图像数据的标注方法和装置 |
CN110059656A (zh) * | 2019-04-25 | 2019-07-26 | 山东师范大学 | 基于卷积对抗生成神经网络的白细胞分类方法及*** |
CN110717522A (zh) * | 2019-09-18 | 2020-01-21 | 平安科技(深圳)有限公司 | 图像分类网络的对抗防御方法及相关装置 |
CN110738263A (zh) * | 2019-10-17 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 一种图像识别模型训练的方法、图像识别的方法及装置 |
CN111078908A (zh) * | 2019-11-28 | 2020-04-28 | 北京云聚智慧科技有限公司 | 一种数据标注的检测方法和装置 |
CN111292839A (zh) * | 2020-05-13 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200152326A1 (en) * | 2018-11-09 | 2020-05-14 | International Business Machines Corporation | Blood pathology image analysis and diagnosis using machine learning and data analytics |
-
2020
- 2020-12-29 CN CN202011602759.9A patent/CN112579808B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473739A (zh) * | 2013-08-15 | 2013-12-25 | 华中科技大学 | 一种基于支持向量机的白细胞图像精确分割方法与*** |
CN108985214A (zh) * | 2018-07-09 | 2018-12-11 | 上海斐讯数据通信技术有限公司 | 图像数据的标注方法和装置 |
CN110059656A (zh) * | 2019-04-25 | 2019-07-26 | 山东师范大学 | 基于卷积对抗生成神经网络的白细胞分类方法及*** |
CN110717522A (zh) * | 2019-09-18 | 2020-01-21 | 平安科技(深圳)有限公司 | 图像分类网络的对抗防御方法及相关装置 |
CN110738263A (zh) * | 2019-10-17 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 一种图像识别模型训练的方法、图像识别的方法及装置 |
CN111078908A (zh) * | 2019-11-28 | 2020-04-28 | 北京云聚智慧科技有限公司 | 一种数据标注的检测方法和装置 |
CN111292839A (zh) * | 2020-05-13 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
徐宁等.血液白细胞图像自动识别***开发与应用.《实验技术与管理》.2012,(第12期),正文1-3节. * |
血液白细胞图像自动识别***开发与应用;徐宁等;《实验技术与管理》;20121220(第12期);正文1-3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN112579808A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112579808B (zh) | 数据标注处理方法及装置、*** | |
EP3486836B1 (en) | Image analysis method, apparatus, program, and learned deep learning algorithm | |
Mishra et al. | Gray level co-occurrence matrix and random forest based acute lymphoblastic leukemia detection | |
Andrade et al. | Recent computational methods for white blood cell nuclei segmentation: A comparative study | |
Ramoser et al. | Leukocyte segmentation and classification in blood-smear images | |
KR20190043135A (ko) | 생물학적 입자의 분류 시스템 및 방법 | |
Miao et al. | Simultaneous Segmentation of Leukocyte and Erythrocyte in Microscopic Images Using a Marker‐Controlled Watershed Algorithm | |
CN111476754B (zh) | 一种骨髓细胞影像人工智能辅助分级诊断***及方法 | |
Percannella et al. | A classification-based approach to segment HEp-2 cells | |
Pandit et al. | Survey on automatic rbc detection and counting | |
CN112767355A (zh) | 一种甲状腺结节Tirads分级自动识别模型构建方法及装置 | |
Pandit et al. | Literature review on object counting using image processing techniques | |
Sholeh | White blood cell segmentation for fresh blood smear images | |
US20240054639A1 (en) | Quantification of conditions on biomedical images across staining modalities using a multi-task deep learning framework | |
Arivuselvam et al. | Leukemia classification using the deep learning method of CNN | |
Grochowski et al. | Machine learning system for automated blood smear analysis | |
KR20200136004A (ko) | 세포 샘플 내에서 적어도 하나의 기형을 가지는 세포를 검출하기 위한 방법 | |
Suryani et al. | Image segmentation of acute myeloid leukemia using multi otsu thresholding | |
Ghosh et al. | Entropy based divergence for leukocyte image segmentation | |
Taher et al. | Identification of lung cancer based on shape and color | |
Arunachalam | Applications of Machine learning and Image processing techniques in the detection of leukemia | |
Zheng et al. | White blood cell segmentation based on visual attention mechanism and model fitting | |
Ravindranath et al. | Early detection of lung cancer by nodule extraction—A survey | |
Ruberto et al. | A leucocytes count system from blood smear images. | |
Sushma et al. | A comparative study on automated detection of malaria by using blood smear images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |