CN114758197B - 数据筛选方法、装置及计算机可读存储介质 - Google Patents

数据筛选方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN114758197B
CN114758197B CN202210671419.4A CN202210671419A CN114758197B CN 114758197 B CN114758197 B CN 114758197B CN 202210671419 A CN202210671419 A CN 202210671419A CN 114758197 B CN114758197 B CN 114758197B
Authority
CN
China
Prior art keywords
data
training
learning model
active learning
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210671419.4A
Other languages
English (en)
Other versions
CN114758197A (zh
Inventor
谈继勇
刘根
李元伟
杨洪光
廖玲
孙熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hanwei Intelligent Medical Technology Co ltd
Original Assignee
Shenzhen Hanwei Intelligent Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Hanwei Intelligent Medical Technology Co ltd filed Critical Shenzhen Hanwei Intelligent Medical Technology Co ltd
Priority to CN202210671419.4A priority Critical patent/CN114758197B/zh
Publication of CN114758197A publication Critical patent/CN114758197A/zh
Application granted granted Critical
Publication of CN114758197B publication Critical patent/CN114758197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10132Ultrasound image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30068Mammography; Breast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

本发明公开了一种数据筛选方法、装置及计算机可读存储介质,其中,所述数据筛选方法包括:获取由已标注超声数据组成的第一数据集;基于所述第一数据集训练主动学习模型,得到初始主动学习模型,所述主动学习模型包括动态搜索模块;获取由未标注超声数据组成的第二数据集,将所述第二数据集输入所述初始主动学习模型中,根据所述初始主动学习模型预测所述第二数据集中的目标数据,并基于所述目标数据生成第三数据集,其中,所述目标数据的数据量,大于所述第二数据集中除所述目标数据之外的其它数据的数据量。本发明旨在降低主动学习模型训练的成本,提高训练效率。

Description

数据筛选方法、装置及计算机可读存储介质
技术领域
本发明涉及超声技术领域,尤其涉及一种数据筛选方法、装置及计算机可读存储介质。
背景技术
随着科技的发展,对乳腺超声数据的处理可以依靠主动学习模型,主动学习模型需要通过大量的数据对其进行训练,以此来提高主动学习模型整体的鲁棒性。
训练模型所需要的训练数据集对于模型整体的鲁棒性有至关重要的作用,乳腺超声数据存在标准数据获取难度大、数据标注成本高及乳腺结构组织复杂等难点,所以对于采集到的训练数据,一般会基于单张图像或者随机挑选图像进行人工标注,但是由于训练数据的难易程度不同,使用简单的训练数据训练主动学习模型会导致训练效果不好,训练效率太低。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种数据筛选方法、装置及计算机可读存储介质,旨在达成降低主动学习模型训练的成本,提高训练效率的效果。
为实现上述目的,本发明提供一种数据筛选方法,所述数据筛选方法包括:
获取由已标注超声数据组成的第一数据集;
基于所述第一数据集训练主动学习模型,得到初始主动学习模型,所述主动学习模型包括动态搜索模块;
获取由未标注超声数据组成的第二数据集,将所述第二数据集输入所述初始主动学习模型中,根据所述初始主动学习模型预测所述第二数据集中的目标数据,并基于所述目标数据生成第三数据集,其中,所述目标数据的数据量,大于所述第二数据集中除所述目标数据之外的其它数据的数据量。
可选地,所述基于所述目标数据生成第三数据集的步骤之后,还包括:
获取由所述第三数据集进行数据标注后得到的第四数据集,并将所述第四数据集输入所述初始主动学习模型;
基于所述第四数据集训练所述初始主动学习模型。
可选地,所述根据所述初始主动学习模型预测所述第二数据集中的目标数据的步骤包括:
确定所述第二数据集中每个超声数据的不确定性置信度;
当所述超声数据的不确定性置信度大于预设阀值时,则所述超声数据为所述目标数据。
可选地,所述确定所述第二数据集中每个超声数据的不确定性置信度的步骤包括:
通过所述初始主动学习模型的动态搜索模块确定特征融合模块与表达模块;
根据所述特征融合模块和所述表达模块确定所述第二数据集中每个超声数据的数据特征;
根据所述数据特征确定所述不确定性置信度。
可选地,所述基于所述第一数据集训练主动学习模型的步骤包括:
获取初始训练集比例;
根据所述初始训练集比例从所述第一数据集中确定训练数据;
根据主动学习模型的优化器和所述训练数据训练所述主动学习模型。
可选地,所述根据主动学习模型的优化器和所述训练数据训练所述主动学习模型的步骤之后,还包括:
获取新增训练集比例;
根据所述新增训练集比例从所述第一数据集的未作为训练数据的超声数据中确定新增训练数据;
将所述新增训练数据加入所述训练数据;
根据所述优化器和新增后的所述训练数据训练所述主动学习模型;
在训练结束后时,执行所述根据所述新增训练集比例从所述第一数据集的未作为训练数据的超声数据中确定新增训练数据步骤;
在训练次数达到预设训练次数时,结束训练。
可选地,所述根据主动学习模型的优化器和所述训练数据训练所述主动学习模型的步骤包括:
确定动量参数、初始学习率和权重损失;
根据所述动量参数、所述初始学习率和所述权重损失确定所述优化器的损失函数;
根据所述损失函数和所述训练数据训练所述主动学习模型。
此外,为实现上述目的,本发明还提供一种数据筛选装置,所述数据筛选装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据筛选程序,所述数据筛选程序被所述处理器执行时实现如上所述的数据筛选方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据筛选程序,所述数据筛选程序被处理器执行时实现如上所述的数据筛选方法的步骤。
本发明实施例提出的一种数据筛选方法、装置及计算机可读存储介质,先获取由已标注超声数据组成的第一数据集;基于所述第一数据集训练主动学习模型,得到初始主动学习模型,所述主动学习模型包括动态搜索模块;获取由未标注超声数据组成的第二数据集,将所述第二数据集输入所述初始主动学习模型中,根据所述初始主动学习模型预测所述第二数据集中的目标数据,并基于所述目标数据生成第三数据集,其中,所述目标数据的数据量,大于所述第二数据集中除所述目标数据之外的其它数据的数据量。这样在获取到大量数据集后,只需要标注一部分数据用于训练出初始主动模型,基于初始主动训练模型预测未标注数据中的更具有数据量的目标数据,该目标数据对于训练模型更具有价值,生成的第三数据集作为更优的训练数据集,在下一次模型训练时可以只对目标数据进行标注,不需要标注全部数据,从而降低主动学习模型训练的成本,提高训练效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明数据筛选方法的一实施例的流程示意图;
图3为本发明数据筛选方法的另一实施例的流程示意图;
图4为本发明实施例涉及的动态搜索模块架构简图;
图5为本发明实施例涉及的一应用场景示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
由于在相关技术中,对于采集到的训练数据,一般会基于单张图像或者随机挑选图像进行人工标注,基于标注后的训练数据进行模型训练,但是由于训练数据的难易程度不同,使用简单的训练数据训练主动学习模型会导致训练效果不好,训练效率太低。
为了提高主动学习模型的训练效率,本发明实施例提出一种数据筛选方法、装置及计算机可读存储介质,其中,所述方法的主要步骤包括:
获取由已标注超声数据组成的第一数据集;
基于所述第一数据集训练主动学习模型,得到初始主动学习模型,所述主动学习模型包括动态搜索模块;
获取由未标注超声数据组成的第二数据集,将所述第二数据集输入所述初始主动学习模型中,根据所述初始主动学习模型预测所述第二数据集中的目标数据,并基于所述目标数据生成第三数据集,其中,所述目标数据的数据量,大于所述第二数据集中除所述目标数据之外的其它数据的数据量。
这样通过训练的初始主动学习模型,找到更具有数据量的目标数据,目标数据用于主动学习模型训练更有价值,这样也可以减少超声数据的标注量。从而降低主动学习模型训练的成本,提高训练效率。
以下结合附图对本发明权利要求要求保护的内容进行详细说明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是数据筛选装置。
如图1所示,该终端可以包括:处理器1001,例如CPU,存储器1003,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。存储器1003可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1003可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1003中可以包括操作***以及数据筛选程序。
在图1所示的终端中,处理器1001可以用于调用存储器1003中存储的数据筛选程序,并执行以下操作:
获取由已标注超声数据组成的第一数据集;
基于所述第一数据集训练主动学习模型,得到初始主动学习模型,所述主动学习模型包括动态搜索模块;
获取由未标注超声数据组成的第二数据集,将所述第二数据集输入所述初始主动学习模型中,根据所述初始主动学习模型预测所述第二数据集中的目标数据,并基于所述目标数据生成第三数据集,其中,所述目标数据的数据量,大于所述第二数据集中除所述目标数据之外的其它数据的数据量。
进一步地,处理器1001可以调用存储器1003中存储的数据筛选程序,还执行以下操作:
获取由所述第三数据集进行数据标注后得到的第四数据集,并将所述第四数据集输入所述初始主动学习模型;
基于所述第四数据集训练所述初始主动学习模型。
进一步地,处理器1001可以调用存储器1003中存储的数据筛选程序,还执行以下操作:
确定所述第二数据集中每个超声数据的不确定性置信度;
当所述超声数据的不确定性置信度大于预设阀值时,则所述超声数据为所述目标数据。
进一步地,处理器1001可以调用存储器1003中存储的数据筛选程序,还执行以下操作:
通过所述初始主动学习模型的动态搜索模块确定特征融合模块与表达模块;
根据所述特征融合模块和所述表达模块确定所述第二数据集中每个超声数据的数据特征;
根据所述数据特征确定所述不确定性置信度。进一步地,处理器1001可以调用存储器1003中存储的数据筛选程序,还执行以下操作:
获取初始训练集比例;
根据所述初始训练集比例从所述第一数据集中确定训练数据;
根据主动学习模型的优化器和所述训练数据训练所述主动学习模型。
进一步地,处理器1001可以调用存储器1003中存储的数据筛选程序,还执行以下操作:
获取新增训练集比例;
根据所述新增训练集比例从所述第一数据集的未作为训练数据的超声数据中确定新增训练数据;
将所述新增训练数据加入所述训练数据;
根据所述优化器和新增后的所述训练数据训练所述主动学习模型;
在训练结束后时,执行所述根据所述新增训练集比例从所述第一数据集的未作为训练数据的超声数据中确定新增训练数据步骤;
在训练次数达到预设训练次数时,结束训练。
进一步地,处理器1001可以调用存储器1003中存储的数据筛选程序,还执行以下操作:
确定动量参数、初始学习率和权重损失;
根据所述动量参数、所述初始学习率和所述权重损失确定所述优化器的损失函数;
根据所述损失函数和所述训练数据训练所述主动学习模型。
随着科技的发展,对乳腺超声数据的处理可以依靠主动学习模型,主动学习模型需要通过大量的数据对其进行训练,以此来提高主动学习模型整体的鲁棒性。
在相关技术中,对于目标检测任务中的主动学习研究较少,其中的难点在于更复杂的图像实例不确定性(即复杂的目标回归框不确定性),无法直接简单的利用图像中实例的不确定性来衡量图像样本的不确定性。针对目标检测主动学习方式仅简单的使用图像实例、图像像素指标来表示图像级别的不确定性,仍然缺乏利用实例级别模型来学习图像不确定性的***方法,2021年,有学者为主动学习和目标检测任务设计了一种方法,在公开数据集PASCAL VOC和MS COCO上均取得了优异的成绩,且能较好的移植到其他模型和数据集上。在通过主动学习模型完成目标检测任务具有可行性时,如何训练目标检测任务的主动模型十分重要。
进一步地,训练主动学习模型所需要的训练数据集对于模型整体的鲁棒性有至关重要的作用,训练数据集采集的数据是医学影像数据,医学影像数据尤其是乳腺超声图像的处理具有以下难点:(1)标准数据获取难度大,因超声设备厂家多,造成超声成像存在较大区别;(2)数据标注成本高,因医学数据的标注需要专业医生标注,而标注医生对工程问题不了解,存在专业性上的差异;(3)乳腺结构组织复杂,导致在超声中的成像变化大,需要相对更专业的超声医生进行标注,而我国乳腺超声医生资源是十分匮乏;(4)不同乳腺病灶的数据比例严重不均衡,且呈现数据越复杂样本量越少的状态,而对于采集到的训练数据,一般会基于单张图像或者随机挑选图像进行人工标注,这样的标注成本过高,并且由于训练数据的难易程度不同,使用简单的训练数据训练主动学习模型会导致训练效果不好,训练效率太低。
由此可见,在相关训练数据采集方法中,存在上述缺陷。本发明实施例为解决上述缺陷,提出一种数据筛选方法,旨在达成通过标注部分超声数据训练处初始主动学习模型,进而确定出未标注超声数据中更具有数据量的目标数据,并生成第三数据集,目标数据标注后用于训练模型可以减少标注成本,提高训练效率。
以下,通过具体示例性方案对本发明权利要求要求保护的内容,进行解释说明,以便本领域技术人员更好地理解本发明权利要求的保护范围。可以理解的是,以下示例性方案不对本发明的保护范围进行限定,仅用于解释本发明。
示例性地,参照图2,在本发明数据筛选方法的一实施例中,所述数据筛选方法包括以下步骤:
步骤S10、获取由已标注超声数据组成的第一数据集;
步骤S20、基于所述第一数据集训练主动学习模型,得到初始主动学习模型,所述主动学习模型包括动态搜索模块;
在本实施例中,超声数据可以是基于AIBUS(智能乳腺超声机器人)采集乳腺超声数据;
在获取大量超声数据后,对其中少量的部分数据进行标注,一些超声数据具有对应的病理报告,该类数据称为金标准数据样本,可以优先对金标准数据样本进行标注,执行标注的主体可以是专业医生,也可以是精度更高或者以完成训练的学习模型。标注是在超声图像上确定出目标回归框,标记到病灶、组织等关键区域,已标注的超声数据需要转化成可训练的数据格式,例如COCO格式、VOC格式,然后组成第一数据集输入所述主动训练模型,需要注意的是,第一数据集中的超声数据是少量珍贵的超声数据。
可选地,为了提高数据标注的准确性,至少包括2名专业医生或学习模型对超声数据进行标注、审核。
主动训练模型基于已标注整理的第一数据集进行模型训练,该主动训练模型中包括动态搜索模块,对于目标检测任务而言,特征融合模块和表达模块有着重要作用,动态搜索模块含有多种信息途径,通过训练学习,动态搜索模块可以自行搜索合适的特征融合模块与表达模块,具体地,对不同的信息路径赋予不同的权重,组合得到合适的特征融合模块与表达模块,使得目标检测到网络等捕捉到更多有效且多样化的特征。如图4所述,该动态搜索模块含有多条信息路径,可包括:自上而下、自下而上、尺寸均衡、空、融合***、跳过连接,具有动态搜索模块的主动学习模型与不具有动态搜索模块的主动学习模型基于同样的数据集中进行验证后,验证结果表明具有动态搜索模块的主动学习模型对于目标检测而言,有更好的效果。
步骤S30、获取由未标注超声数据组成的第二数据集,将所述第二数据集输入所述初始主动学习模型中,根据所述初始主动学习模型预测所述第二数据集中的目标数据,其中,所述目标数据的数据量,大于所述第二数据集中除所述目标数据之外的其它数据的数据量,并基于所述目标数据生成第三数据集。
在本实施例中,已经通过第一数据集训练得到初始主动学习模型,初始主动学习模型也具有一定的目标检测能力,获取没有标注的超声数据组成的第二数据集输入到初始训练模型中,具有动态搜索模块的初始主动学习模型可以预测出第二数据集中目标数据,并基于目标数据生成第三数据集,目标数据是目标数据的数据量,大于所述第二数据集中除所述目标数据之外的其它数据的数据量,数据量指该数据内出现复杂目标回归框的不确定性更高,即对该类数据的完成目标检测任务难度大,更具有训练意义,第三数据集中的数据可以是全部目标数据或者部分目标数据。可以理解的是,第一数据集、第二数据集、第三数据集都是超声数据集。
可选地,获取由所述第三数据集进行数据标注后得到的第四数据集,并将所述第四数据集输入所述初始主动学习模型;基于所述第四数据集训练所述初始主动学习模型。
在确定了第三数据集后,第三数据集内的超声数据同样是未经过标注的超声数据,由于第三数据集中是数据量更大的目标数据,对第三数据集完成目标检测任务的难度更大,更有训练价值,根据第三数据集训练初始主动学习模型的训练效果更好,在训练前,第三数据集需要通过专业医生或者精度更高或训练完成的学习模型进行标注,标注后得到第四数据集,第四数据集与第一数据集都是已标注的数据集,基于第四数据集训练初始学习模型,得到精度更高的主动学习模型,其预测出来的目标数据集更加准确,进而迭代训练主动学习模型,主动学习模型的训练效果会越来越好,训练效率越来越高,主动学习模型精度也越来越高。
可选地,根据所述初始主动学习模型预测所述第二数据集中的目标数据的步骤可以是:确定所述第二数据集中每个超声数据的不确定性置信度;当所述超声数据的不确定性置信度大于预设阀值时,则所述超声数据为所述目标数据。
具有动态搜索模块的初始主动学习模型对超声第二数据集中每个超声数据进行预测,计算出每个超声数据的不确定性置信度,不确定性置信度是超声数据中目标检测出现的目标回归框的不确定性置信度,该不确定性置信度越高,说明数据越复杂,越具有训练价值和意义,根据超声数据的不确定性置信度进行排序,通过整体数据集难易程度、医生建议等,设定不确定性置信度的预设阀值,当超声数据的不确定性置信度大于预设阀值时,确定这个超声数据是更具有数据量的目标数据,遍历第二数据集的全部超声数据,最终确定所有不确定性置信度大于预设阀值的超声数据的是目标数据,目标数据的合集是第三数据集。
进一步地,通过所述初始主动学习模型的动态搜索模块确定特征融合模块与表达模块;根据所述特征融合模块和所述表达模块确定所述第二数据集中每个超声数据的数据特征;根据所述数据特征确定所述不确定性置信度。
在本实施例中,主动学习模型训练前和训练后的架构基本不会发生改变,只是精度标高,执行目标检测任务效果更好,即训练前后的主动学习模型都具有动态搜索模块,动态搜索模块可以针对每个超声数据或者第二数据集自行搜索合适的特征融合模块与表达模块,根据特征融合模块与表达模块确定第二数据集中每个超声数据的数据特征,根据数据特征确定不确定性置信度。
可选地,将OPA-FPN模块取代常见的主动学习模型框架中FPN模块,OPA-FPN模块为动态搜索模块。
可选地,为了提高预测准确性,第二数据集与第一数据集的数据样本之间具有关联性,可以是相近时段采集的数据,也可以是同一规格的超声数据采集的数据,也可以是采集的是同一年龄段的人员的超声数据等。
为了便于理解,本实施例提供一具体应用场景,请参照图5,先获取少量珍贵的金标准超声数据,经过专业医生标注后输入主动学习模型中进行训练,基于训练后主动学习对未标注超声数据进行预测,从而确定未标注超声数据不确定性置信度,若高于预设阀值时,作为更具有数据量的目标数据,进入第三数据集中,经过专业医生标注后,再次用于主动学习模型训练,迭代优化主动学习训练模型。
需要注意的是,训练数据占原有数据集50%的时候,在新增标注数据时无明显训练效果,甚至降低模型精度。仅使用50%的数据量所训练的目标检测模型,就能取得超过使用全部数据时训练的目标检测模型的结果,具体的模型结果衡量指标采用通过的Sensitive(敏感度)指标,Specificity(特异性)指标以及F1-score(F1值)指标。
Figure 611660DEST_PATH_IMAGE001
表1
表1表示不同数据量所训练的模型在困难测试集上表现差异,不同检测模型EfficientDet-D2-12666和EfficientDet-D2-6333在相同困难测试集上的具体结果如表格1所示,其中,EfficientDet代表所使用的目标检测模型名称,D2代表模型具体所使用的尺度,12666和6333分别代表模型训练过程中所使用的训练集的数据量。因此,不需要基于原有数据集中的所有超声数据训练,也不需要标注全部超声数据,本实施例的目的在于筛选出更少的训练数据训练主动学习模型,再者,挑选出更具有数据量的目标数据用于训练模型,能够进一步减少标注成本,提高训练效率。
在本实施例公开的技术方案中,获取由已标注超声数据组成的第一数据集;基于所述第一数据集训练主动学习模型,得到初始主动学习模型,所述主动学习模型包括动态搜索模块;获取由未标注超声数据组成的第二数据集,将所述第二数据集输入所述初始主动学习模型中,根据所述初始主动学习模型预测所述第二数据集中的目标数据,并基于所述目标数据生成第三数据集,其中,所述目标数据的数据量,大于所述第二数据集中除所述目标数据之外的其它数据的数据量。这样先通过第一数据集训练出初始主动学习模型后,可以根据该初始主动学习模型对未标注的第二数据集进行预测,确定更具数据量的目标数据,基于目标数据生成第三数据集,一方面筛选出来的第三数据集作为训练数据,可以提高训练效果,另一方面,不同标注所有的超声数据,只需要标准筛选出来的第三数据就能达到理想的超声数据,就能达到更好的训练效果,提高训练效率。
可选地,参照图3,基于上述任一实施例,在本发明数据筛选方法的另一实施例中,所述数据筛选方法包括:
步骤S21、获取初始训练集比例;
步骤S22、根据所述初始训练集比例从所述第一数据集中确定训练数据;
步骤S33、根据主动学习模型的优化器和所述训练数据训练所述主动学习模型。
在本实施例中,第一数据集中包括若干已标注的超声数据,根据上述内容可知,在利用第一数据集训练超声数据时,不需要采用第一数据集中的全部数据进行模型训练,且基于第一次数据集可以对主动学习模型训练多次,最终获得初始训练化模型,首先获取初始训练集比例,初始训练集比例可以是0.1,从第一数据集中确定需要进行训练数据,然后基于该训练数据和主动学习模型的优化器对训练所述主动学习模型。
可选地,确定动量参数、初始学习率和权重损失;根据所述动量参数、所述初始学习率和所述权重损失确定所述优化器的损失函数;根据所述损失函数和所述训练数据训练所述主动学习模型。
在基于训练数据对主动学习模型进行训练时,需要先设定主动学习模型的优化器,根据大量试验选定优化器为SGD优化器(随机梯度下降法),设定其中的动量参数为0.9,初始学习率为1e-4,权重损失为1e-4。模型训练使用Focal Loss损失函数,根据所述动量参数、初始学习率和权重损失确定优化器内的损失函数,然后基于设定好的优化器和训练数据训练主动学习模型。
可选地,获取新增训练集比例;
根据所述新增训练集比例从所述第一数据集的未作为训练数据的超声数据中确定新增训练数据;将所述新增训练数据加入所述训练数据;根据所述优化器和新增后的所述训练数据训练所述主动学习模型;在训练结束后时,执行所述根据所述新增训练集比例从所述第一数据集的未作为训练数据的超声数据中确定新增训练数据步骤;在训练次数达到预设训练次数时,结束训练。
在本实施例中,第一数据集的数据经过初始化比例计算后,还有剩余数据未作为训练数据,该剩余数据可以作为新增训练数据,用于主动学习模型的训练,首先获取新增训练集比例,新增训练集比例可以是0.05,根据新增训练集比例从未作为训练数据的超声数据中确定新增训练数据,将所述新增训练数据加入所述训练数据,新增后的训练数据可以再次对主动学习模型进行训练,重复执行新增训练数据的步骤,获取预设训练次数,循环次数可以是8次,根据重复执行新增训练数据的步骤次数,最终根据第一数据集训练出初始主动学习模型。
需要说明的是,初始训练集比例、新增训练集比例和预设训练次数可以是预先经过试验确定的,使训练效果最优的数值。
在本实施例公开的技术方案中,获取初始训练集比例;根据所述初始训练集比例从所述第一数据集中确定训练数据;根据主动学习模型的优化器和所述训练数据训练所述主动学习模型,训练数据占原有数据一定比例下,可以达到最佳训练效果,根据初始训练集比例确定训练数据,选择部分第一数据集进行训练,以实现可控地达到最佳训练效果。
此外,本发明实施例还提出一种数据筛选装置,所述数据筛选装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据筛选程序,所述数据筛选程序被所述处理器执行时实现如上各个实施例所述的数据筛选方法的步骤。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据筛选程序,所述数据筛选程序被处理器执行时实现如上各个实施例所述的数据筛选方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得数据筛选装置执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (4)

1.一种数据筛选方法,其特征在于,所述数据筛选方法包括:
获取由已标注乳腺超声数据组成的第一数据集;所述标注是在超声图像上确定出目标回归框,所述目标回归框标记到病灶和组织关键区域;
获取初始训练集比例,根据所述初始训练集比例从所述第一数据集中确定训练数据;
确定动量参数0.9、初始学习率1e-4和权重损失1e-4;
根据所述动量参数、所述初始学习率和所述权重损失确定SGD优化器的FocalLoss损失函数;
根据主动学习模型的SGD优化器和所述训练数据训练所述主动学习模型;
获取新增训练集比例0.05;根据所述新增训练集比例从所述第一数据集的未作为训练数据的超声数据中确定新增训练数据;将所述新增训练数据加入所述训练数据;根据所述优化器和新增后的所述训练数据训练所述主动学习模型;在训练结束后时,执行所述根据所述新增训练集比例从所述第一数据集的未作为训练数据的超声数据中确定新增训练数据步骤;在训练次数达到预设训练次数8次时,结束训练,得到初始主动学习模型,所述主动学习模型包括动态搜索模块;
基于所述第一数据集训练主动学习模型,得到初始主动学习模型,所述主动学习模型包括动态搜索模块;
基于所述动态搜索模块对不同的信息路径赋予不同的权重,针对第二数据集自行搜索合适的特征融合模块与表达模块,所述特征融合模块与所述表达模块用于确定第二数据集中每个超声数据的数据特征,所述数据特征用于确定不确定性置信度;
获取由未标注超声数据组成的第二数据集,将所述第二数据集输入所述初始主动学习模型中,根据所述初始主动学习模型预测所述第二数据集中的目标数据,并基于所述目标数据生成第三数据集,其中,所述目标数据的数据量,大于所述第二数据集中除所述目标数据之外的其它数据的数据量,所述数据量指数据内出现复杂目标回归框的不确定性;
获取由所述第三数据集进行数据标注后得到的第四数据集,并将所述第四数据集输入所述初始主动学习模型;
基于所述第四数据集训练所述初始主动学习模型。
2.如权利要求1所述的数据筛选方法,其特征在于,所述根据所述初始主动学习模型预测所述第二数据集中的目标数据的步骤包括:
确定所述第二数据集中每个超声数据的不确定性置信度;
当所述超声数据的不确定性置信度大于预设阀值时,则所述超声数据为所述目标数据。
3.一种数据筛选装置,其特征在于,所述数据筛选装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据筛选程序,所述数据筛选程序被所述处理器执行时实现如权利要求1至2中任一项所述的数据筛选方法的步骤。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据筛选程序,所述数据筛选程序被处理器执行时实现如权利要求1至2中任一项所述的数据筛选方法的步骤。
CN202210671419.4A 2022-06-15 2022-06-15 数据筛选方法、装置及计算机可读存储介质 Active CN114758197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210671419.4A CN114758197B (zh) 2022-06-15 2022-06-15 数据筛选方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210671419.4A CN114758197B (zh) 2022-06-15 2022-06-15 数据筛选方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114758197A CN114758197A (zh) 2022-07-15
CN114758197B true CN114758197B (zh) 2022-11-01

Family

ID=82336722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210671419.4A Active CN114758197B (zh) 2022-06-15 2022-06-15 数据筛选方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114758197B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5568811A (en) * 1994-10-04 1996-10-29 Vingmed Sound A/S Method for motion encoding of tissue structures in ultrasonic imaging
CN111666993A (zh) * 2020-05-28 2020-09-15 平安科技(深圳)有限公司 医学图像样本筛查方法、装置、计算机设备和存储介质
CN113344028A (zh) * 2021-05-10 2021-09-03 深圳瀚维智能医疗科技有限公司 乳腺超声序列图像分类方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783993A (zh) * 2019-05-23 2020-10-16 北京京东尚科信息技术有限公司 智能标注方法、装置、智能平台及存储介质
CN110532345A (zh) * 2019-07-15 2019-12-03 北京小米智能科技有限公司 一种未标注数据的处理方法、装置及存储介质
CN112183577A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
CN113689441A (zh) * 2021-08-30 2021-11-23 华东师范大学 一种基于DeepLabV3网络的左心室超声动态分割方法
CN114549845A (zh) * 2022-01-13 2022-05-27 山东师范大学 一种基于特征融合的Logo图像检测方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5568811A (en) * 1994-10-04 1996-10-29 Vingmed Sound A/S Method for motion encoding of tissue structures in ultrasonic imaging
CN111666993A (zh) * 2020-05-28 2020-09-15 平安科技(深圳)有限公司 医学图像样本筛查方法、装置、计算机设备和存储介质
CN113344028A (zh) * 2021-05-10 2021-09-03 深圳瀚维智能医疗科技有限公司 乳腺超声序列图像分类方法及装置

Also Published As

Publication number Publication date
CN114758197A (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN108197664B (zh) 模型获取方法、装置、电子设备及计算机可读存储介质
JP5054252B1 (ja) 類似症例検索装置、類似症例検索方法、類似症例検索装置の作動方法およびプログラム
JP2021166062A (ja) 顕微鏡スライド画像のための焦点重み付き機械学習分類器誤り予測
CN109241967A (zh) 基于深度神经网络的甲状腺超声图像自动识别***、计算机设备、存储介质
CN112597038B (zh) 软件缺陷预测方法及***
CN114201592B (zh) 面向医学图像诊断的视觉问答方法
CN112949408B (zh) 一种过鱼通道目标鱼类实时识别方法和***
KR20180064863A (ko) 딥러닝을 이용한 수완부 방사선 영상으로부터 골 성숙도(smi) 자동 분석방법
CN109766465A (zh) 一种基于机器学习的图文融合图书推荐方法
JP7313942B2 (ja) 評価支援方法、評価支援システム、プログラム
CN113298780A (zh) 一种基于深度学习的儿童骨龄评估方法及***
CN109919912A (zh) 一种医学影像的质量评价方法和装置
CN114445356A (zh) 基于多分辨率的全视野病理切片图像肿瘤快速定位方法
CN111680575A (zh) 一种人类上皮细胞染色分类装置、设备及存储介质
CN112801940B (zh) 模型评测方法、装置、设备及介质
CN114758197B (zh) 数据筛选方法、装置及计算机可读存储介质
CN113705595A (zh) 异常细胞转移程度的预测方法、装置和存储介质
CN114419401B (zh) 白细胞检测识别方法、装置、计算机存储介质及电子设备
CN114010227B (zh) 一种右心室特征信息识别方法及装置
CN110428012A (zh) 脑网络模型建立方法、脑图像分类方法、装置及电子设备
CN113627522B (zh) 基于关系网络的图像分类方法、装置、设备及存储介质
McAlpine et al. The dynamics of pathology dataset creation using urine cytology as an example
CN115035339A (zh) 一种基于人工智能的膀胱镜图像分类方法
CN114118305A (zh) 一种样本筛选方法、装置、设备及计算机介质
CN112288686A (zh) 一种模型训练方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant