CN110070113A - 一种训练集的训练方法及装置 - Google Patents

一种训练集的训练方法及装置 Download PDF

Info

Publication number
CN110070113A
CN110070113A CN201910252738.XA CN201910252738A CN110070113A CN 110070113 A CN110070113 A CN 110070113A CN 201910252738 A CN201910252738 A CN 201910252738A CN 110070113 A CN110070113 A CN 110070113A
Authority
CN
China
Prior art keywords
training
training set
samples pictures
subset
training subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910252738.XA
Other languages
English (en)
Other versions
CN110070113B (zh
Inventor
王子宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Side Medical Technology Co Ltd
Original Assignee
Guangzhou Side Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Side Medical Technology Co Ltd filed Critical Guangzhou Side Medical Technology Co Ltd
Priority to CN201910252738.XA priority Critical patent/CN110070113B/zh
Publication of CN110070113A publication Critical patent/CN110070113A/zh
Application granted granted Critical
Publication of CN110070113B publication Critical patent/CN110070113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明实施例提供一种训练集的训练方法及装置,所述方法包括:获取用于训练预设模型的训练集;从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集;分别对已构建的第一训练集、第二训练集和第三训练集进行训练。所述装置执行上述方法。本发明实施例提供的训练集的训练方法及装置,能够提高训练集构建的合理性,进而更加合理地对训练集进行训练。

Description

一种训练集的训练方法及装置
技术领域
本发明实施例涉及图片处理技术领域,尤其涉及一种训练集的训练方法及装置。
背景技术
胶囊内镜具有无痛、无伤、拍摄图像信息量大等优点,具备广泛的应用价值。
现有技术采用人工方式识别通过胶囊内镜拍摄的原始图片、并对原始图片进行分类,为了更加准确、高效地识别原始图片,需要构建模型,但是模型在使用之前通常需要进行训练,需要对训练集进行训练,以便模型能够更加准确地进行图片识别,但是,现有对于训练集的训练方法,由于构建的训练集不够合理,导致训练后的模型准确度不高。
因此,如何避免上述缺陷,提高训练集构建的合理性,进而更加合理地对训练集进行训练,成为亟须解决的问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种训练集的训练方法及装置。
本发明实施例提供一种训练集的训练方法,包括:
获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征;
从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;
从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;
从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集;
分别对已构建的第一训练集、第二训练集和第三训练集进行训练。
本发明实施例提供一种训练集的训练装置,包括:
获取单元,用于获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征;
第一构建单元,用于从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;
第二构建单元,用于从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;
第三构建单元,用于从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集;
训练单元,用于分别对已构建的第一训练集、第二训练集和第三训练集进行训练。
本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征;
从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;
从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;
从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集;
分别对已构建的第一训练集、第二训练集和第三训练集进行训练。
本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征;
从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;
从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;
从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集;
分别对已构建的第一训练集、第二训练集和第三训练集进行训练。
本发明实施例提供的训练集的训练方法及装置,通过逐级依次滤掉干扰样本图片、第一目标图片和第二目标图片,并构建对应的训练集,再对训练集分别进行训练,能够提高训练集构建的合理性,进而更加合理地对训练集进行训练。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明训练集的训练方法实施例流程图;
图2(a)~图2(h)均为本发明实施例拍摄的全曝光图片的截图;
图3(a)~图3(h)均为本发明实施例拍摄的局部带有形状变化的第一目标图片的截图;
图4(a)~图4(h)均为本发明实施例拍摄的带有***性糜烂的第二目标图片的截图;
图5为本发明训练集的训练装置实施例结构示意图;
图6为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明训练集的训练方法实施例流程图,如图1所示,本发明实施例提供的一种训练集的训练方法,包括以下步骤:
S101:获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征。
具体的,装置获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征。需要说明的是:上述干扰样本图片、第一目标图片和第二目标图片都属于样本图片的范畴,样本图片是从原始图片中选取的、可作为训练样本的图片,该原始图片是通过胶囊内镜拍摄的,对胶囊内镜的工作过程作如下说明:
·胶囊内镜从口腔进入消化道,再从***自然排出体外。
·胶囊内镜的电池续航力有限,其有效工作区间为口腔、食道、胃、十二指肠、小肠和大肠一部分。
·胶囊内镜的每次活动都产生域内检查图片和域外检查图片。
·域内检查图片是对消化道某一段所进行的拍摄结果。
·域外检查图片是除了域内检查图片以外,胶囊内镜顺便拍到的图片。
·全部图片均可自动识别,无需任何人工介入(包括图像预处理)。
·识别图像后,将胶囊内镜拍摄的图片分为六个大类(125个小类),自动保存于125个图片文件夹中,其中,六个大类可以为:
第一大类:一类域外分类标签(10个类别)。
第二大类:二类域外分类标签(13个类别)。
第三大类:基于局部结构特征的第一目标图片分类标签(14个类别)。
第四大类:洞状结构第一目标图片分类标签(8个类别)。
第五大类:基于全局结构特征的第一目标图片分类标签(24个类别)。
第六大类:第二目标图片分类标签(56个类别)。
·能够自动识别口腔、食道、胃、十二指肠、小肠和大肠等消化道的不同部位。
每粒胶囊内镜每次可以拍摄的原始图片的数量可以为2000~3000张,即胶囊内镜获取到的图片集中的图片数量。
可以从医院信息***中导出、未经任何处理的胶囊内镜拍摄的原始图片 (JPG格式)。干扰样本图片可以理解为无法用于图片识别的样本图片,识别出这些图片以后,需要尽早剔除这些图片,从而减少训练预设模型过程中的运算量。需要说明的是:干扰样本图片可以包括全曝光图片,图2(a)~图2(h) 均为本发明实施例拍摄的全曝光图片的截图,各图之间相互独立,都分别是全曝光图片的表现形式。异常特征可以包括凸起特征和/或指定颜色特征、凸起特征可以包括肿胀、颗粒状物凸起。指定颜色特征可以包括红色、白色,不作具体限定。当该预设模型输出结果包括第二目标图片时,可以生成针对异常特征的特殊标记,例如用方框框选异常特征,以指示相关人员对该方框框选部分进行仔细排查,即异常特征可以作为某些疾病诊断过程中的中间参考特征,仅仅依赖该异常特征还不足以诊断出疾病。第一目标图片可以包括局部带有形状变化的第一目标图片,具体形状变化的内容可以包括褶皱、裂隙、交错等,不作具体限定。图3(a)~图3(h)均为本发明实施例拍摄的局部带有形状变化的第一目标图片的截图,各图之间相互独立,都分别是局部带有形状变化的第一目标图片的表现形式。第二目标图片可以包括发红、肿胀、糜烂、溃疡等,图4(a)~图4(h)均为本发明实施例拍摄的带有***性糜烂的第二目标图片的截图,各图之间相互独立,都分别是局部带有***性糜烂的第二目标图片的表现形式。
S102:从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片。
具体的,装置从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片。举例说明如下:所有样本图片包括{A、B、C},A、B、C分别为干扰样本图片、第一目标图片、第二目标图片,可以理解的是A、B、C中的每一类都是图片集合,该步骤从样本图片中滤掉A,即构建包含A的第一训练集,将B、C 保留,并作为所有第一剩余样本图片。
S103:从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片。
具体的,装置从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片。参照上述举例,具体说明如下:所有第一剩余样本图片包括{B、C},该步骤从所有第一剩余样本图片中滤掉B,即构建包含B 的第二训练集,将C保留,并作为所有第二剩余样本图片。
S104:从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集。
具体的,装置从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集。参照上述举例,具体说明如下:所有第二剩余样本图片包括{C},该步骤从所有第二剩余样本图片中获取C,即构建包含C的第三训练集。需要说明的是,由于某些图片的特性,例如易混淆等,导致第二剩余样本图片中可能还会包括除C之外的其它类型的图片,通过该步骤,可以使得构建出的第三训练集尽可能的包含全部的第二目标图片,而不包含除C之外的其它类型的图片。
S105:分别对已构建的第一训练集、第二训练集和第三训练集进行训练。
具体的,装置分别对已构建的第一训练集、第二训练集和第三训练集进行训练。对已构建的训练集进行训练的方法为本领域成熟技术,不再赘述。
本发明实施例提供的训练集的训练方法,通过逐级依次滤掉干扰样本图片、第一目标图片和第二目标图片,并构建对应的训练集,再对训练集分别进行训练,能够提高训练集构建的合理性,进而更加合理地对训练集进行训练。
在上述实施例的基础上,所述第一训练集包括第一训练子集和第二训练子集;相应的,所述从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,包括:
将所述第一训练集拆分为所述第一训练子集和所述第二训练子集;所述第一训练子集为与一类域外分类标签相对应的训练子集、所述一类域外分类标签是基于原始图片的拍摄缺陷、与待检测目标部位无关的拍摄部位确定的;所述第二训练子集为与二类域外分类标签相对应的训练子集、所述二类域外分类标签是基于无医学判断价值的原始图片、附着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的。
具体的,装置将所述第一训练集拆分为所述第一训练子集和所述第二训练子集;所述第一训练子集为与一类域外分类标签相对应的训练子集、所述一类域外分类标签是基于原始图片的拍摄缺陷、与待检测目标部位无关的拍摄部位确定的;所述第二训练子集为与二类域外分类标签相对应的训练子集、所述二类域外分类标签是基于无医学判断价值的原始图片、附着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的。即第一训练子集和第二训练子集分别对应上述第一大类和第二大类,拍摄缺陷可以包括全曝光图片、全黑图片、半曝光图片、局部曝光图片、结构模糊图片和细节模糊图片。待检测目标部位可以是胃部,上述拍摄部位可以包括在所述胶囊内镜入口之前拍摄的图片、在食道中拍摄的图片、口腔图片、肠道图片。无医学判断价值的原始图片可以包括:
均质整图,即被拍摄对象表面平坦光滑,没有显著纹理,颜色均一,尽管拍摄质量很高,但由于内容过于单一,已经失去医学判断价值(无法判断拍摄对象所处的位置,角度,器官载体,解剖特征等)。图片的数量占比大约是5.8%,这个比例非常高。这类图片由于失去医学价值,尽管表面上不是垃圾图片,但实际上和“垃圾图片”没有什么分别。后续处理过程中完全可以忽略。
水线图片:即图片中出现的空气和水的交界线,图像结构清晰简单。暴露在空气中的部分,其内容与上述的均质整图的内容相似,没有医学价值;淹没在水面下的部分,由于被水膜覆盖,也没有有价值的信息暴露,因此整个图片也没有医学价值,可以被视为“垃圾图片”,图片数量占比大约是3.8%。
附着有覆盖物的原始图片中的覆盖物可以包括团块状悬浮物,气泡群,黏膜体等,由于拍摄物被覆盖物完全覆盖,因此,导致这类图片失去医学价值。
消化残渣物的原始图片:消化道中未***干净的食物残留物,在胃部,肠部都可能有,图片数量占比大约1%。多数情况下,消化残渣的覆盖度会比较大,占据图幅超过50%的面积,但是只要有没有覆盖到的地方,就需要确保没有异常特征出现,这样能够保证经过这个类别引导过来的图片,都是不含异常特征的图片,也就可以归类到“垃圾图片”不再参与后续处理了。
分别从所有样本图片中滤掉与所述第一训练子集和所述第二训练子集分别对应的干扰样本图片,以分别构建所述第一训练子集和所述第二训练子集。
具体的,装置分别从所有样本图片中滤掉与所述第一训练子集和所述第二训练子集分别对应的干扰样本图片,以分别构建所述第一训练子集和所述第二训练子集。参照上述举例,A拆分为A1和A2,分别对应上述第一大类和第二大类,构建的第一训练子集与第一大类A1相对应,构建的第二训练子集与第二大类A2相对应。
本发明实施例提供的训练集的训练方法,通过分别构建第一训练子集和第二训练子集,进一步能够提高训练集构建的合理性,进而更加合理地对训练集进行训练。
在上述实施例的基础上,所述第二训练集包括第三训练子集、第四训练子集和第五训练子集;相应的,所述从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,包括:
将所述第二训练集拆分为所述第三训练子集、所述第四训练子集和所述第五训练子集;所述第三训练子集为与基于局部结构特征的第一目标图片分类标签相对应的训练子集;所述第四训练子集为与洞状结构第一目标图片分类标签相对应的训练子集;所述第五训练子集为与基于全局结构特征的第一目标图片分类标签相对应的训练子集。
具体的,装置将所述第二训练集拆分为所述第三训练子集、所述第四训练子集和所述第五训练子集;所述第三训练子集为与基于局部结构特征的第一目标图片分类标签相对应的训练子集;所述第四训练子集为与洞状结构第一目标图片分类标签相对应的训练子集;所述第五训练子集为与基于全局结构特征的第一目标图片分类标签相对应的训练子集。基于局部结构特征的第一目标图片可以包括:
边缘缺陷的第一目标图片,即边缘缺陷的图片通常是对洞状结构侧面拍摄的结果,大部分图幅结构简单,只在边缘部分有残缺的洞状或半放射状结构。由于很多异常特征也出现在这个区域,因此这个类别的图片有很强的对照作用。
简单线状结构:即是指图片中仅包含1到2根短的棱状结构,图面有少部分阴影区域,其余部分光滑,没有明显纹理。很多包含异常特征的图片也具有类似的背景结构,因此,这个类别的图片可以与异常特征图片行成很好的对照。
洞状结构第一目标图片,即拍摄物呈现洞状结构,可以根据洞状的大小区分为大洞结构、小洞结构。
基于全局结构特征的第一目标图片可以包括:
胃角结构,即胃角是胃小弯在最低端角处形成的构造,一般呈90°转角,是胃体与幽门部在胃小弯的分界。胃壁收缩时,胃角表面常常有螺纹状褶皱,胃壁舒张时,褶皱消失。因此把这一个特殊位置的图片,归为一个类别。
稠密纹理结构,即远景拍摄的胃壁结构呈现出致密排列的曲线纹理,通常是为内壁收缩时拍摄到的,在这个纹理之上还会叠加一些结构信息,使得整个图片的背景变得非常复杂,在这类图片的背景上寻找和识别异常特征,也变得异常艰难。图片数量占比大约4.5%。
分别从所有第一剩余样本图片中滤掉与所述第三训练子集、所述第四训练子集和所述第五训练子集分别对应的第一目标图片,以分别构建所述第三训练子集、所述第四训练子集和所述第五训练子集。
具体的,装置分别从所有第一剩余样本图片中滤掉与所述第三训练子集、所述第四训练子集和所述第五训练子集分别对应的第一目标图片,以分别构建所述第三训练子集、所述第四训练子集和所述第五训练子集。参照上述举例,B拆分为B1、B2和B3,分别对应上述第三大类至第五大类,构建的第三训练子集与第三大类B1相对应、构建的第四训练子集与第四大类B2相对应、构建的第五训练子集与第五大类B3相对应。
本发明实施例提供的训练集的训练方法,通过分别构建第三训练子集至第五训练子集,进一步能够提高训练集构建的合理性,进而更加合理地对训练集进行训练。
在上述实施例的基础上,所述分别对已构建的第一训练集、第二训练集和第三训练集进行训练,包括:
分别对已构建的所述第一训练子集、所述第二训练子集、所述第三训练子集、所述第四训练子集、所述第五训练子集和所述第三训练集进行训练。
具体的,装置分别对已构建的所述第一训练子集、所述第二训练子集、所述第三训练子集、所述第四训练子集、所述第五训练子集和所述第三训练集进行训练。对已构建的训练集进行训练的方法为本领域成熟技术,不再赘述。
本发明实施例提供的训练集的训练方法,通过分别对已构建的第一训练子集至第五训练子集、及第三训练集进行训练,进一步能够提高训练集构建的合理性,进而更加合理地对训练集进行训练。
在上述实施例的基础上,所述方法还包括:
获取所述第一训练子集、所述第二训练子集、所述第三训练子集、所述第四训练子集、所述第五训练子集和所述第三训练集分别对应的训练时长。
具体的,装置获取所述第一训练子集、所述第二训练子集、所述第三训练子集、所述第四训练子集、所述第五训练子集和所述第三训练集分别对应的训练时长。训练时长可以理解为从训练开始时刻到训练完成时刻之间的时长。
若判断获知至少存在一个训练时长达到预设时长,则对达到预设时长的目标训练时长对应的目标训练集进行拆分,以使拆分后的目标训练集对应的训练时长小于所述预设时长。
具体的,装置若判断获知至少存在一个训练时长达到预设时长,则对达到预设时长的目标训练时长对应的目标训练集进行拆分,以使拆分后的目标训练集对应的训练时长小于所述预设时长。预设时长可以根据实际情况自主设置。对于存在一个训练时长达到预设时长的情况,例如:只有第一训练子集的训练时长T1达到预设时长,则目标训练集为第一训练子集,再对第一训练子集进行拆分,具体拆分方式不作具体限定。对于存在多个训练时长达到预设时长的情况,例如为两个,即只有第一训练子集的训练时长T1和第二训练子集的训练时长T2达到预设时长,则目标训练集为第一训练子集和第二训练子集,再分别对第一训练子集和第二训练子集进行拆分。
本发明实施例提供的训练集的训练方法,通过将训练时长过长的训练集进行拆分,进一步能够提高训练集构建的合理性,进而更加合理地对训练集进行训练。
图5为本发明训练集的训练装置实施例结构示意图,如图5所示,本发明实施例提供了一种训练集的训练装置,包括获取单元501、第一构建单元 502、第二构建单元503、第三构建单元504和训练单元505,其中:
获取单元501用于获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征;第一构建单元502用于从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;第二构建单元503用于从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;第三构建单元504用于从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集;训练单元505用于分别对已构建的第一训练集、第二训练集和第三训练集进行训练。
具体的,获取单元501用于获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征;第一构建单元502用于从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;第二构建单元503用于从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;第三构建单元504用于从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集;训练单元505用于分别对已构建的第一训练集、第二训练集和第三训练集进行训练。
本发明实施例提供的训练集的训练装置,通过逐级依次滤掉干扰样本图片、第一目标图片和第二目标图片,并构建对应的训练集,再对训练集分别进行训练,能够提高训练集构建的合理性,进而更加合理地对训练集进行训练。
本发明实施例提供的训练集的训练装置具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图6为本发明实施例提供的电子设备实体结构示意图,如图6所示,所述电子设备包括:处理器(processor)601、存储器(memory)602和总线603;
其中,所述处理器601、存储器602通过总线603完成相互间的通信;
所述处理器601用于调用所述存储器602中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征;从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集;分别对已构建的第一训练集、第二训练集和第三训练集进行训练。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征;从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集;分别对已构建的第一训练集、第二训练集和第三训练集进行训练。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征;从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集;分别对已构建的第一训练集、第二训练集和第三训练集进行训练。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种训练集的训练方法,其特征在于,包括:
获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征;
从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;
从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;
从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集;
分别对已构建的第一训练集、第二训练集和第三训练集进行训练。
2.根据权利要求1所述的方法,其特征在于,所述第一训练集包括第一训练子集和第二训练子集;相应的,所述从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,包括:
将所述第一训练集拆分为所述第一训练子集和所述第二训练子集;所述第一训练子集为与一类域外分类标签相对应的训练子集、所述一类域外分类标签是基于原始图片的拍摄缺陷、与待检测目标部位无关的拍摄部位确定的;所述第二训练子集为与二类域外分类标签相对应的训练子集、所述二类域外分类标签是基于无医学判断价值的原始图片、附着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的;
分别从所有样本图片中滤掉与所述第一训练子集和所述第二训练子集分别对应的干扰样本图片,以分别构建所述第一训练子集和所述第二训练子集。
3.根据权利要求2所述的方法,其特征在于,所述第二训练集包括第三训练子集、第四训练子集和第五训练子集;相应的,所述从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,包括:
将所述第二训练集拆分为所述第三训练子集、所述第四训练子集和所述第五训练子集;所述第三训练子集为与基于局部结构特征的第一目标图片分类标签相对应的训练子集;所述第四训练子集为与洞状结构第一目标图片分类标签相对应的训练子集;所述第五训练子集为与基于全局结构特征的第一目标图片分类标签相对应的训练子集;
分别从所有第一剩余样本图片中滤掉与所述第三训练子集、所述第四训练子集和所述第五训练子集分别对应的第一目标图片,以分别构建所述第三训练子集、所述第四训练子集和所述第五训练子集。
4.根据权利要求3所述的方法,其特征在于,所述分别对已构建的第一训练集、第二训练集和第三训练集进行训练,包括:
分别对已构建的所述第一训练子集、所述第二训练子集、所述第三训练子集、所述第四训练子集、所述第五训练子集和所述第三训练集进行训练。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取所述第一训练子集、所述第二训练子集、所述第三训练子集、所述第四训练子集、所述第五训练子集和所述第三训练集分别对应的训练时长;
若判断获知至少存在一个训练时长达到预设时长,则对达到预设时长的目标训练时长对应的目标训练集进行拆分,以使拆分后的目标训练集对应的训练时长小于所述预设时长。
6.一种训练集的训练装置,其特征在于,包括:
获取单元,用于获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征;
第一构建单元,用于从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;
第二构建单元,用于从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;
第三构建单元,用于从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集;
训练单元,用于分别对已构建的第一训练集、第二训练集和第三训练集进行训练。
7.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至5任一所述的方法。
CN201910252738.XA 2019-03-29 2019-03-29 一种训练集的训练方法及装置 Active CN110070113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910252738.XA CN110070113B (zh) 2019-03-29 2019-03-29 一种训练集的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910252738.XA CN110070113B (zh) 2019-03-29 2019-03-29 一种训练集的训练方法及装置

Publications (2)

Publication Number Publication Date
CN110070113A true CN110070113A (zh) 2019-07-30
CN110070113B CN110070113B (zh) 2021-03-30

Family

ID=67366818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910252738.XA Active CN110070113B (zh) 2019-03-29 2019-03-29 一种训练集的训练方法及装置

Country Status (1)

Country Link
CN (1) CN110070113B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809465A (zh) * 2014-01-23 2015-07-29 北京三星通信技术研究有限公司 分类器训练方法、目标检测、分割或分类方法和装置
CN105488453A (zh) * 2015-11-30 2016-04-13 杭州全实鹰科技有限公司 一种基于图像处理的驾驶员未系安全带检测识别方法
CN106097340A (zh) * 2016-06-12 2016-11-09 山东大学 一种基于卷积分类器的自动检测并勾画肺结节所在位置的方法
CN106778583A (zh) * 2016-12-07 2017-05-31 北京理工大学 基于卷积神经网络的车辆属性识别方法与装置
CN107103187A (zh) * 2017-04-10 2017-08-29 四川省肿瘤医院 基于深度学习的肺结节检测分级与管理的方法及***
CN107833219A (zh) * 2017-11-28 2018-03-23 腾讯科技(深圳)有限公司 图像识别方法及装置
CN107909572A (zh) * 2017-11-17 2018-04-13 合肥工业大学 基于图像增强的肺结节检测方法及***
CN107945875A (zh) * 2017-11-17 2018-04-20 合肥工业大学 基于数据增强的肺结节检测方法及***
CN107977963A (zh) * 2017-11-30 2018-05-01 北京青燕祥云科技有限公司 肺结节的判定方法、装置和实现装置
CN108133476A (zh) * 2017-12-26 2018-06-08 安徽科大讯飞医疗信息技术有限公司 一种肺结节自动检测方法及***
CN108364006A (zh) * 2018-01-17 2018-08-03 超凡影像科技股份有限公司 基于多模式深度学习的医学图像分类装置及其构建方法
CN108664924A (zh) * 2018-05-10 2018-10-16 东南大学 一种基于卷积神经网络的多标签物体识别方法
CN109086716A (zh) * 2018-08-01 2018-12-25 北京嘀嘀无限科技发展有限公司 一种安全带佩戴检测的方法及装置
CN109508741A (zh) * 2018-11-09 2019-03-22 哈尔滨工业大学 基于深度学习筛选训练集的方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809465A (zh) * 2014-01-23 2015-07-29 北京三星通信技术研究有限公司 分类器训练方法、目标检测、分割或分类方法和装置
CN105488453A (zh) * 2015-11-30 2016-04-13 杭州全实鹰科技有限公司 一种基于图像处理的驾驶员未系安全带检测识别方法
CN106097340A (zh) * 2016-06-12 2016-11-09 山东大学 一种基于卷积分类器的自动检测并勾画肺结节所在位置的方法
CN106778583A (zh) * 2016-12-07 2017-05-31 北京理工大学 基于卷积神经网络的车辆属性识别方法与装置
CN107103187A (zh) * 2017-04-10 2017-08-29 四川省肿瘤医院 基于深度学习的肺结节检测分级与管理的方法及***
CN107909572A (zh) * 2017-11-17 2018-04-13 合肥工业大学 基于图像增强的肺结节检测方法及***
CN107945875A (zh) * 2017-11-17 2018-04-20 合肥工业大学 基于数据增强的肺结节检测方法及***
CN107833219A (zh) * 2017-11-28 2018-03-23 腾讯科技(深圳)有限公司 图像识别方法及装置
CN107977963A (zh) * 2017-11-30 2018-05-01 北京青燕祥云科技有限公司 肺结节的判定方法、装置和实现装置
CN108133476A (zh) * 2017-12-26 2018-06-08 安徽科大讯飞医疗信息技术有限公司 一种肺结节自动检测方法及***
CN108364006A (zh) * 2018-01-17 2018-08-03 超凡影像科技股份有限公司 基于多模式深度学习的医学图像分类装置及其构建方法
CN108664924A (zh) * 2018-05-10 2018-10-16 东南大学 一种基于卷积神经网络的多标签物体识别方法
CN109086716A (zh) * 2018-08-01 2018-12-25 北京嘀嘀无限科技发展有限公司 一种安全带佩戴检测的方法及装置
CN109508741A (zh) * 2018-11-09 2019-03-22 哈尔滨工业大学 基于深度学习筛选训练集的方法

Also Published As

Publication number Publication date
CN110070113B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN108615236A (zh) 一种图像处理方法及电子设备
CN110084275A (zh) 一种训练样本的选取方法及装置
CN113129287A (zh) 一种针对上消化道内镜影像的病灶自动留图方法
CN109978015B (zh) 一种图像处理方法、装置及内窥镜***
CN112184699A (zh) 水产品健康检测方法、终端设备及存储介质
CN108615045A (zh) 筛选胶囊内镜拍摄的图像的方法、装置及设备
JP3842171B2 (ja) 断層像処理装置
CN112232977A (zh) 水产品养殖评估方法、终端设备及存储介质
CN112907544A (zh) 基于机器学习的粪水性状识别方法及***、手持智能设备
CN110110750A (zh) 一种原始图片的分类方法及装置
CN111563439A (zh) 一种水产生物病害检测方法、装置及设备
CN110070113A (zh) 一种训练集的训练方法及装置
CN110097082A (zh) 一种训练集的拆分方法及装置
CN110097080B (zh) 一种分类标签的构建方法及装置
CN110110749A (zh) 一种训练集中的图片处理方法及装置
CN113052843A (zh) 辅助内镜检查的方法、装置、***、存储介质和计算设备
CN110083727A (zh) 一种确定分类标签的方法及装置
CN110110746A (zh) 一种确定分类标签的方法及装置
CN110874824A (zh) 图像修复方法及装置
CN110084276A (zh) 一种训练集的拆分方法及装置
CN109993226A (zh) 一种训练集的拆分方法及装置
CN110084280A (zh) 一种确定分类标签的方法及装置
CN110084278A (zh) 一种训练集的拆分方法及装置
CN110097081A (zh) 一种训练集的构建方法及装置
CN114581402A (zh) 胶囊内窥镜质检方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant