CN118230969A - 用于提供更新的机器学习算法的***和方法 - Google Patents

用于提供更新的机器学习算法的***和方法 Download PDF

Info

Publication number
CN118230969A
CN118230969A CN202311623232.8A CN202311623232A CN118230969A CN 118230969 A CN118230969 A CN 118230969A CN 202311623232 A CN202311623232 A CN 202311623232A CN 118230969 A CN118230969 A CN 118230969A
Authority
CN
China
Prior art keywords
medical
machine learning
learning algorithm
data
dataset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311623232.8A
Other languages
English (en)
Inventor
塞佩尔·法尔汉德
***·阿卜迪舍克塔伊
斯特凡·特森
热拉尔多·埃尔莫斯罗巴拉德斯
品川嘉久
维尼特·维奈邦博雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Healthineers AG
Original Assignee
Siemens Healthineers AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Healthineers AG filed Critical Siemens Healthineers AG
Publication of CN118230969A publication Critical patent/CN118230969A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

提供了用于提供更新的机器学习算法的***和方法。示例性***包括接口,该接口被配置成:从模型聚合器设备获得机器学习算法,该机器学习算法被配置成从医学数据集中提取医学发现;从模型聚合器设备获得自然语言处理算法,该自然语言处理算法被配置成从文本数据中提取医学发现的指示;以及从一个或更多个本地数据库获得医学数据集和相关联的医学报告。此外,示例性***包括计算单元,该计算单元具有:‑数据解析模块;‑参考数据生成模块;‑数据选通模块;以及‑训练模块。

Description

用于提供更新的机器学习算法的***和方法
技术领域
本发明涉及特别是在医疗保健环境中提供更新的机器学习算法。此外,本发明涉及联合学习领域中的***和方法、以及用于基于医疗保健信息、特别是基于电子医疗记录自动提供训练数据的***和方法。
背景技术
医学成像(例如采用计算机断层扫描或磁共振***)的进步允许再现患者的解剖结构中最微小的变化。由于这些***的提高的性能,越来越关注其中后续治疗的成功机会增加的疾病的早期检测。然而,对于放射科医生来说,这种增加的关注也有负面方面。视觉上分析放射学图像的过程通常具有挑战性。例如,器官的密度和组织类型变化很大,进而呈现出各种各样的视觉特征。另外,背景视觉模式可能会模糊恶性肿瘤的早期迹象,那么人眼可能容易将其忽略。因此,对异常或模式的空间分布的手动分类不可避免地会由于错误、人为误差和/或太细微而人眼无法察觉的细节而导致误差。因此,对医学图像的分析可能导致假阴性,这可能导致错过治疗。同样,评估可能会提示假阳性,这可能会导致不希望的心理和次优的下游诊断和治疗结果。此外,医学图像中的异常和/或特征的可靠检测通常需要经验丰富的医生进一步增加他们的工作量。此外,在评估图像数据中的人为因素增加了一定程度的主观性,这通常是不希望的。
为了解决这样的问题,正在开发计算机辅助检测(CADe)和计算机辅助诊断(CADx)***。在下文中,这两种类型的***将被称为CAD***。CAD***是帮助放射科医生解释医学图像的技术。CAD***的常见用途是自动识别医学图像中的可疑区域。这种可疑区域可以包含指示异常的图像模式,这些异常可以包括生物组织内的癌性生长、包块、脓肿、撕裂、钙化、病变和/或其他不规则性,并且这些异常如果未被检测到则会导致严重的医疗问题。
迄今为止,机器学习算法已被证明在医学发现的自动化检测中非常有效。一个问题是,这样的算法必须在足够数量、足够质量的训练数据上进行训练,以在推理期间正常工作。训练数据特别重要,因为它必须带有基本事实,机器学习算法可以使用基本事实来比较其结果并进行调整,以提高性能。通常,基本事实依赖于专家的注释。也就是说,人类专家必须手动注释医学数据集中的医学发现。这是一项乏味的任务,尤其是在必须提供大量训练数据集来训练复杂的检测算法的情况下。
本发明的任务是通过提供能够促进在临床环境中更有效地使用医学数据和更有效地训练机器学习算法的***和方法来改进这种情况。
发明内容
通过用于临床决策支持的方法、对应的***、对应的计算机程序产品和计算机可读存储介质来解决该目的。替选的实施方式和/或优选的实施方式是基于上述内容的主题。
在下文中,关于要求保护的装置以及关于要求保护的方法描述了根据本发明的技术解决方案。本文中描述的特征、优点或替选实施方式同样可以被分配给其他要求保护的对象,反之亦然,其他要求保护的对象可以被分配给本文中描述的特征、优点或替选实施方式。换言之,涉及本发明方法的方面可以通过关于装置描述或要求保护的特征来改进。在这种情况下,例如,所述方法的功能特征由装置的目标单元、目标模块或目标要素来体现。
该技术解决方案将关于用于识别医学数据集中的医学发现的方法和***以及还关于用于提供经训练的函数的方法和***进行描述。用于识别的方法和***的数据结构和/或函数的实施方式的特征和替选形式在此可以转移到用于提供经训练的函数的方法和***的类似数据结构和/或函数。类似数据结构在此尤其可以通过使用前缀“训练”来识别。此外,在用于识别医学图像数据集中的一个或更多个切片的方法和***中使用的经训练的函数特别地可以由用于调整经训练的函数的方法和***来调整和/或训练和/或提供。
根据一方面,提供了一种用于提供更新的机器学习算法的方法,包括以下步骤:
-提供包括至少一个医学发现的医学数据集;
-从数据库中检索与医学数据集相关联的医学报告,该医学报告包括至少一个医学发现的至少一个指示;
-获得自然语言处理算法,该自然语言处理算法被配置成从结构化和/或非结构化文本中提取医学发现的指示;
-将自然语言处理算法应用于医学报告,以提取至少一个医学发现的至少一个指示;
-获得机器学习算法,该机器学习算法被配置成从医学数据集中提取医学发现;
-基于医学数据集和所提取的至少一个指示来更新机器学习算法;以及
-提供所更新的机器学习算法。
机器学习算法
通常,机器学习算法可以被视为将输入数据映射到输出数据,从而完成某个学习任务。根据一些示例,机器学习算法可以被配置成执行以下任务中的一个或更多个:分别从医学数据集中提取一个或更多个数据描述符,并对一个或更多个数据描述符进行分类。输入与输出之间的关系可以由嵌入在机器学习算法中的参数中的一个或更多个(通常:过多)参数来管控。可以在训练期间根据机器学习算法将必须完成的任务来学习(调整)参数的值。机器学习算法的其他术语可以是经训练的映射规范、具有经训练的参数的映射规范、具有经训练的参数的函数、经训练的机器学习模型、基于人工智能的算法或经训练的函数。
根据一些示例,经训练的函数包括机器学习和/或可学习(人工)神经网络,最优选地是卷积神经网络。神经网络基本上是像生物神经网例如人脑一样构建的。特别地,人工神经网络包括输入层和输出层。它还可以包括输入层与输出层之间的多个层。每个层包括至少一个节点、优选地多个节点。每个节点可以被理解为生物处理单元,例如神经元。换言之,每个神经元与应用于输入数据的操作相对应。一个层的节点可以通过边缘或连接与其他层的节点互相连接,特别地,一个层的节点可以通过有向边缘或连接与其他层的节点互相连接。这些边缘或连接限定了网络的节点之间的数据流。特别地,边缘或连接配备有参数,其中参数通常表示为“权重”。该参数可以调节第一节点的输出对第二节点的输入的重要性,其中第一节点和第二节点通过边缘连接。特别地,可以对神经网络进行训练。具体地,根据“有监督学习”技术基于已知的输入值和输出值对执行神经网络的训练,其中已知输入值用作神经网络的输入,并且其中将神经网络的对应输出值与对应的已知输出值进行比较。只要最后一个网络层的输出值根据训练数据充分对应于已知输出值,人工神经网络就独立地学习和调整各个节点的权重。对于卷积神经网络,这种技术也称为“深度学习”。术语“神经网络”和“人工神经网络”可以用作同义词。
第一组神经网络层可以应用于从医学数据集中包括的数据项中提取特征,特别是从相应的图像数据、文本数据和/或纵向数据中提取特征。例如,图像数据可以以每个切片/图像的灰度和/或颜色值的形式给出。如此提取的特征如对比度、梯度、纹理、密度、失真、奇异性、图案、标志、掩模等可以形成相应图像/切片的图像描述符。可以将图像描述符作为输入值馈送至第二组网络层,第二组网络层用于基于提取的特征来确定两个切片或切片与关键图像之间的相似度。然而,所描述的神经网络的两个功能同样可以通过单独的各个神经网络来执行。换言之,可以由第一神经网络执行用于特征提取的图像分析,并且可以由第二神经网络执行根据相似性的分类,即,对象和/或特性分配。
机器学习算法可以是医学发现检测算法,医学发现检测算法通常被配置成检测医学图像中的候选医学发现。例如,发现检测算法可以具有两个阶段:用于检测图像数据中的潜在相关模式的检测阶段以及用于将潜在相关模式分类为候选医学发现或分类为要丢弃的假阳性的分类阶段。原则上,对于候选医学发现——其所有可以在发现检测算法中实现——的这样的计算机辅助检测和分类,已知过多的功能和方法。例如,参考US2009/0 092300A1、US2009/0 067 693A1和US2016/0 321 427A1,其内容通过引用整体并入本文中。特别地,发现检测算法可以包括一个或更多个机器学习函数,这些机器学习函数被训练成:如果被应用于医学图像,则检测候选医学发现并对候选医学发现进行分类。用于该任务的合适的训练函数包括(人工)神经网络,例如卷积神经网络。
医学数据集
通常,医学数据集包括可能有助于做出适当的临床决策的基本任务的任何信息。这样,医学数据集可以包括目标患者的个人详情(诸如年龄、性别、习惯、保险详情等)。此外,医学数据集可以包括目标患者的例如以电子医疗记录(EMR)形式的健康记录。此外,医学数据集可以包括在一次或更多次医学检查中测量的数据,所述数据可以包括非图像数据和图像数据。非图像数据可以是实验室数据,诸如从活检样本获得的基因序列、血液值、心血管值等。图像数据可以是放射学图像数据。放射学图像数据可以涉及在空间上提供两个维度的二维图像数据。此外,放射学图像数据可以涉及在空间上提供三个维度的三维图像数据。通常,放射学图像数据在其包含患者的身体部位的二维或三维图像数据的意义上描绘患者的身体部位。放射学图像数据可以例如呈像素或体素的阵列形式。这样的像素或体素的阵列可以表示作为三维位置的函数的强度、吸收或其他参数,并且可以例如通过对由医学成像模态获得的测量信号的适当处理来获得。医学成像模态对应于用于生成或产生医学图像的***。例如,医学成像模态可以是计算机断层扫描***(CT***)、磁共振***(MR***)、血管造影(或C型臂X射线)***、正电子发射断层扫描***(PET***)等。除了放射学图像数据之外,患者数据还可以包括数字病理图像数据,诸如利用数字病理载玻片扫描仪(slide scanner)获取的组织病理学图像。组织病理学图像可能涉及来自目标患者的活检样本的切片,已经利用一种或更多种色素对所述切片进行了染色。组织病理学中最常用的染色剂是苏木精(hematoxylin)与伊红(eosin)的组合(通常缩写为H&E)。用于对组织切片着色的其他化合物包括藏红(safranin)、油红O(Oil Red O)、刚果红(congo red)、银盐和人工染料。最近,抗体也被用于特别地标识数字病理图像中的细胞的类别。
可以从包括一个或更多个数据库和服务器的医疗保健信息***接收医学数据集。医疗保健信息***可以是医疗保健组织的场所内的本地***。此外,医疗保健信息***可以是基于云的。医疗保健信息***可以包括一个或更多个标准化组件,诸如图片存档和通信***(PACS)、放射学信息***(RIS)、实验室信息***(LIS)、医院信息***(HIS)或电子医疗记录***(EMR)。包括在患者数据中的图像数据可以根据DICOM格式被格式化。DICOM(=医学中的数字成像和通信)是用于医疗保健信息学中的医学成像信息和相关数据的通信和管理的开放标准。DICOM可以用于存储和传输医学图像和相关联的信息,使得能够集成诸如扫描仪的医学成像设备、服务器、工作站、打印机、网络硬件以及图片存档和通信***(PACS)。它被临床团体(clinical syndicates)、医院广泛采用以及用于如医生的办公室或机构的较小应用。DICOM数据对象由多个属性组成,包括诸如患者姓名、ID等的项,并且还由包含图像像素数据和从图像数据提取的元数据的特殊属性组成。为了描述数据格式和交换电子健康记录,可以依赖对应的标准,诸如HL7 FHIR标准。此外,除了指定的数据库之外,医疗保健信息学***可以直接涉及医学成像模态,诸如放射学和/或病理学成像***。
医学报告
医学报告可以包括自然语言的结构化或非结构化文本。医学报告可以用一个或更多个词总结关于患者的发现。每个医学报告可能与指定的患者和/或医学数据集相关。
应用的框架中的“检索”可能意味着从医疗保健信息***获取医学报告。因此,可以例如基于目标患者的ID或其他合适的标识符来单独查询医疗保健信息***的资源。此外,协同查询可以被发送到医疗保健信息***,该医疗保健信息***可以被配置成内部地管理这样的数据请求。
医学发现
每个医学发现可以与医学数据集中的对应数据项相关。医学发现可以指示患者的某种状况或病理。状况或病理可能与患者的诊断相关。另外,医学发现可以指示在患者的诊断和/或治疗中要执行的某些工作流程步骤。
医学发现可以与将患者与其他患者区分开的解剖结构相关。医学发现可以位于患者的不同器官内(例如,在患者的肺内,或者在患者的肝脏内)或者在患者的器官之间。特别地,医学发现也可能与异物相关。
特别地,医学发现可能与赘生物(也称为“肿瘤”)特别是良性赘生物、原位赘生物、恶性赘生物和/或不确定/未知行为的赘生物相关。特别地,医学发现可能与结节特别是肺结节相关。特别地,医学发现可能与病变特别是肺部病变相关。
医学发现的指示
医学发现的指示可以涉及医学报告中包括的任何一条信息,包括医学发现的信息,例如医学发现在医学数据集中的类型、特性和/或位置。特别地,指示可以以一个或更多个词或句子的形式包括在医学报告中。
自然语言处理算法
自然语言处理算法通常可以被配置成处理自然语言并输出机器可读的结果,例如以指示的形式。
变换器网络是通常包括编码器、解码器或者编码器和解码器两者的神经网络架构。在一些实例中,编码器和/或解码器分别包括几个对应的编码层和解码层。在每个编码层和解码层中都有注意力机制。注意力机制——有时称为自注意力——将一系列数据项中的数据项(例如词或像素)与该系列中的其他数据项相关。例如,自注意力机制允许模型检查句子中的词组,并确定该句子中其他词组对被检查词的相对重要性。关于变换器网络的综述,请参考Vaswani等人的“Attention Is All You Need(注意力是您所需要的全部)”,arXiv:1706.03762,2017年6月12日,其内容通过引用整体包括在本文中。
更新
更新机器学习算法可能意味着通过机器学习来调整机器学习算法的一个或更多个参数。特别地,更新可以包括进一步训练机器学习算法。
优点
通过上述方法,可以自动挖掘组织中可用的医学数据,以用于训练数据集,以进一步训练机器学习算法。由此,可以减少对手动注释的需求,并且可以更有效地呈现进一步训练机器学习算法。
本发明的构思是使用自然语言处理技术来改进医学环境中机器学习算法的训练。自然语言处理(NLP)技术有潜力自动分析医学报告,包括放射学报告。实现这一点的一种方法是通过使用大型语言模型。这样的语言模型已经被证明在诸如文本生成和语言翻译的任务中是有效的。它还被应用于医学文本的分析,包括从电子医疗记录中提取信息,如Miotto,R.等人所例示的,“Deep patient:An unsupervised representation to predictthe future of patients from the electronic health records(深度患者:从电子健康记录中预测患者未来的无监督表示)”,科学报告,第6卷,文章编号:26094(2016),其内容整体并入本文中。
为了使用自然语言处理算法来分析放射学报告,报告的文本将被输入到算法中。然后,自然语言处理算法将被训练以识别提及的疾病和其他相关信息,例如解剖位置。该信息将作为结构化数据被输出,以用于结合关于解剖位置表述的位置的知识(例如,根据人体图谱)进行进一步的分析和解释。通过算法的进一步整合,例如,关于所提及的疾病的本体服务,可以选择用于后续步骤的相关发现。
此外,所使用的算法被组合以传送对于所识别的疾病或模式的准确性和解剖位置的精度的概率。这可以包括文本解释,但也包括报告中具体定位信息的提及(系列4中的切片234)以及与解剖标志的关系(到……3cm距离)。
然后,该信息用于重新训练机器学习算法,其可以包括疾病识别和分类机器学习网络(CAD)。在实施方式中,这可以作为所谓的联合学习来完成。来自自然语言处理算法的概率信息和机器学习算法的概率得分可以用来训练和/或验证机器学习算法。在其他实施方式中,训练可以发生在现有的患者数据上,其中进一步的结果是已知的并且尚未公开给机器学习算法,以创建用于训练的附加的基本事实。
根据另一方面,自然语言处理算法可以与解剖专有技术算法和/或疾病知识算法结合以便以有监督或无监督方式训练机器学习算法。
根据一方面,更新步骤包括:
-将机器学习算法应用于医学数据集,以从与至少一个医学发现相对应的医学数据集中提取中间医学发现;
-将中间医学发现与至少一个医学发现的至少一个指示进行比较;以及
-基于比较步骤更新机器学习算法。
换言之,更新可以包括基于所提取的指示的直接比较。这样,就可以进行有效的训练。
根据一方面,更新步骤还包括确定中间医学发现与至少一个指示之间的对应性水平;以及仅在对应性水平高于预定阈值时才更新机器学习算法。
对应性水平可以被认为是该指示适合进一步训练机器学习算法的程度的度量。如果中间医学发现与指示之间存在巨大差异,则该指示可能属于不同的医学发现,并且不应该用于进一步训练机器学习算法。因此,建立了质量选通,从而确保训练仅基于高质量数据进行。
根据一方面,
-医学数据集包括医学图像数据集;
-医学发现涉及医学图像数据集中描绘的图像特征,具体是病变;
-指示包括医学图像数据集中的图像特征的类型和/或位置;以及
-机器学习算法被配置成从医学图像数据集中提取图像特征作为医学发现。
换言之,该方法可以用于其特别有用的医学图像数据。为了识别图像特征的位置,自然语言处理算法可以被配置成输出医学发现所驻留的器官。
数据分割
根据一些方面,该方法还可以包括根据位置和/或器官分割医学图像数据集。接下来,分割的医学图像数据集可以被输入到机器学习算法中。这样,就可以对机器学习算法进行更有针对性的训练。
根据其他方面,获得机器学习算法的步骤可以包括提供多个不同的机器学习算法,并且基于该指示、特别是位置选择不同的机器学习算法之一。例如,多个机器学习算法的不同之处可能在于它们分别被训练以检测不同器官中的医学发现。因此,机器学习算法的选择可以涉及从已经被配置成检测指示中包括的器官中的医学发现的多个机器学习算法中选择机器学习算法。
当然,上述分割概念也可以应用于非图像数据。
根据前述方面中任一项所述的方法,其中,
-该指示包括医学发现在医学数据集的数据项中存在的概率值。
发明人已经认识到,提供概率值使得能够比较难以比较的数据结构,例如从文本数据中取得的指示和从图像和/或非图像数据中提取的医学发现。
数据项尤其可以是指向对应医学数据集中的给定位置的指针,例如研究和切片编号以及/或者到一个或更多个解剖标志的距离。
根据一方面,
-机器学习算法被配置成输出医学发现在医学数据集的不同数据项中存在的概率图,以从医学数据集中提取医学发现,以及
-进一步训练的步骤基于概率值和概率图的比较。
通过将概率值与概率图相匹配,可以容易地比较自然语言处理算法和机器学习算法的输出。
根据一方面,
-自然语言处理算法基于变换器模型;以及/或者
-机器学习算法基于卷积神经网络。
变换器网络的优点是,由于注意力机制,变换器网络可以有效地处理输入数据中的长期依赖性。此外,变换器网络中使用的编码器能够并行处理数据,这节省了推理中的计算资源。此外,由于自动回归,变换器网络的解码器能够非常有把握地迭代生成输出令牌序列。
通过使用卷积神经网络,可以以非常有效的方式处理输入图像,因为基于不同核的卷积运算可以提取各种图像特征,从而可以在训练期间通过调整卷积核的权重来找到相关的图像特征。此外,基于卷积核中的权重共享,需要训练的参数较少,这防止了训练阶段的过拟合,并使得在网络中具有更快的训练或更多层,从而提高了网络的性能。
根据一方面,提供了一种用于将更新的机器学习算法从客户端计算设备提供给模型聚合器设备的方法,该方法包括以下步骤:
-在客户端计算设备处从模型聚合器设备获得机器学习算法,该机器学习算法被配置成从医学数据集中提取医学发现;
-在客户端计算设备处从模型聚合器设备获得自然语言处理算法,该自然语言处理算法被配置成从文本数据中提取医学发现的指示;
-在客户端计算设备处获得医学数据集的集合,每个医学数据集包括至少一个医学发现;
-由客户端设备从数据库中检索分别与医学数据集的集合中的医学数据集相关联的医学报告的集合;
-由客户端计算设备将自然语言处理算法应用于医学报告的集合,以从医学报告中提取医学发现的指示,每个指示对应于医学数据集;
-由客户端计算设备确定是否允许包括医学数据集和对应指示中的一者、要合并到机器学习算法的训练过程中的本地数据项;
-使用所允许的本地数据项来更新机器学习算法;
-将所更新的机器学习算法从本地客户端设备提供给模型聚合器设备。
根据一方面,提供了一种用于将更新的机器学习算法从客户端计算设备提供给模型聚合器设备的方法,该方法包括以下步骤:
-在客户端计算设备处从模型聚合器设备获得机器学习算法,该机器学习算法被配置成从医学数据集中提取医学发现;
-在客户端计算设备处从模型聚合器设备获得自然语言处理算法,该自然语言处理算法被配置成从文本数据中提取医学发现的指示;
-在客户端计算设备处获得医学数据集的集合,每个医学数据集包括至少一个医学发现;
-由客户端设备从数据库中检索分别与医学数据集的集合中的医学数据集相关联的医学报告的集合;
-由客户端计算设备将自然语言处理算法应用于医学报告的集合,以从医学报告中提取医学发现的指示,每个指示对应于医学数据集;
-基于医学数据集和所提取的至少一个指示更新机器学习算法;以及
-将所更新的机器学习算法从本地客户端设备提供给模型聚合器设备。
客户端设备和模型聚合器设备
特别地,模型聚集器设备可以涉及web服务器。此外,模型聚合器设备可以是云服务器或本地服务器。客户端设备可以特别地涉及本地站点处的包括一个或更多个计算单元的本地计算机网络。本地站点可以例如涉及医疗保健环境或设施例如医院、实验室、机构、大学或上述一个或更多个的协会。通常,模型聚合器设备位于本地站点外部,并从外部为本地站点/客户端设备中的一个或更多个提供服务。
优点
上述方面将训练数据的自动生成和质量控制以及联合学习的概念结合在一起。由此,这两个概念协同地有助于更有效地更新机器学习算法。特别地,模型聚集器设备可以被配置成将更新的机器学习算法集成到具有与更新的机器学习算法基本相同功能的主算法中。分散式训练减轻了与将数据整理到集中式服务器相关联的数据隐私和监管问题。它还解决了导致数据异质性的因素,例如地理来源、注释实践、专家经验等。
具体地,可以基于许多客户端设备报告的使用情况来改进托管在(中央)模型聚合器设备处的中央机器学习算法(或主模型)。因此,易于训练、运行和可部署的主模型被分发到客户端设备并在本地执行。每个客户端设备可以随机、定期或按命令向模型聚合器设备发送本地更新。本地更新可以基于客户端设备收集的本地数据来概述对机器学习算法的本地改变。模型聚合器设备可以使用本地更新来改进机器学习模型。进而,模型聚合器设备则可以下载经修改的机器学习算法,其基于客户端设备报告的实际使用情况来实现学习修改。这使得客户端设备能够协作学习和改进共享的机器学习模型。因此,不同的客户端设备可能属于不同的医疗组织,例如医院、机构或上述连锁。
根据一方面,确定步骤包括:
-将机器学习算法应用于医学数据集,以从每个医学数据集提取至少一个医学发现,以及
-确定是否允许的步骤另外基于所提取的医学发现,并且特别地,包括将所提取的医学发现与所提取的指示进行比较。
通过将训练数据选择基于所提取的医学发现,可以过滤错误的指示。由此,可以确保本地训练数据不被污染。
根据一方面,确定步骤包括将质量选通算法应用于所提取的指示,以及
-由客户端计算设备从模型聚合器设备获得质量选通算法。
由此,可以集中地提供用于过滤数据项的方法,从而确保高数据完整性。
根据一方面,客户端计算设备被配置为包括数据库的医疗信息***中的边缘设备。
由此,可以有效地利用医疗信息***的数据。
根据一方面,模型聚合器设备是远离客户端计算设备的服务器设备。
根据一方面,模型聚合器设备被配置成基于更新的机器学习算法修改机器学习算法的主模型。
提供了一种本地模型更新模块,包括:
-接口,其被配置成:
从模型聚合器设备获得机器学习算法,该机器学习算法被配置成从医学数据集中提取医学发现;
从模型聚合器设备获得自然语言处理算法,该自然语言处理算法被配置成从文本数据中提取医学发现的指示;
从一个或更多个本地数据库获得医学数据集和相关联的医学报告;
-数据解析模块,其被配置成向一个或更多个本地数据库查询医学数据集的集合和相关联的医学报告的集合,医学数据集各自包括至少一个医学发现;
-参考数据生成模块,其被配置成通过将自然语言处理算法应用于医学报告来生成医学发现的至少一部分的指示;
-数据选通模块,其被配置成确定是否允许包括医学数据集和对应指示中的一者、要合并到机器学习算法的训练过程中的本地数据项;
-训练模块,其被配置成基于所允许的本地数据项更新机器学习算法。
接口
接口可以包括用于经由互联网连接与本地服务器或中央web服务器进行数据交换的接口,以用于接收医学图像数据集。接口单元还可以适于例如通过向用户显示计算单元的处理结果(例如,在图形用户界面中)或者通过允许用户调整用于图像处理或可视化的参数来与***的一个或更多个用户对接。
计算单元
如前所述的模块可以包括在计算单元中。计算单元可以被实现为数据处理***或数据处理***的一部分。这样的数据处理***可以例如包括云计算***、计算机网络、计算机、平板计算机、智能电话和/或类似物。计算单元可以包括硬件和/或软件。硬件可以包括例如一个或更多个处理器、一个或更多个存储器及其组合。一个或更多个存储器可以存储用于执行根据本发明的方法步骤的指令。硬件可能能够被软件配置和/或能够被软件操作。通常,所有单元、子单元或模块可以例如经由网络连接或相应的接口至少暂时地彼此进行数据交换。因此,各个单元可以彼此分开定位。计算机程序产品/计算机可读介质
根据另一方面,本发明涉及一种包括程序元素的计算机程序产品,,在程序元素被加载到计算单元的存储器中时,所述程序元素促使***的计算单元执行根据上述方法方面中的一个或更多个方法方面的步骤。
根据另一方面,本发明涉及一种其上存储有程序元素的计算机可读介质,当程序元素由计算单元执行时,根据一个或更多个方法方面,所述程序元素可由***的计算单元读取和执行。
通过计算机程序产品和/或计算机可读介质实现本发明的优点在于:已经存在的提供***可以容易地通过软件更新来适配,以如本发明所提出的那样工作。
同样地,计算机程序产品可以是例如计算机程序或者包括计算机程序旁边的另一元素。该另一元素可以是:硬件,例如其上存储有计算机程序的存储设备、用于使用计算机程序的硬件密钥等;和/或软件,例如用于使用计算机程序的文档或软件密钥。计算机程序产品还可以包括开发材料、运行时***和/或数据库或库。计算机程序产品可以分布在若干计算机实例之中。
附图说明
根据实施方式的以下描述,上述发明的特性、特征和优点以及实现它们的方式变得更清楚和更容易理解,将关于附图对实施方式进行详细描述。该以下描述不将本发明限制于所包含的实施方式。在不同的附图中,相同的部件、部分或步骤可以用相同的附图标记来标记。通常,附图不是按比例绘制的。在下文中:
图1示意性地描绘了根据实施方式的用于提供更新的机器学习算法的方法,
图2示意性地描绘了根据实施方式的用于提供更新的机器学习算法的方法,
图3示意性地描绘了根据实施方式的用于提供更新的机器学习算法的***,
图4示意性地描绘了根据实施方式的用于提供更新的机器学习算法的数据流图,以及
图5示意性地描绘了根据实施方式的用于提供更新的机器学习算法的***。
具体实施方式
图1——方法1
图1描绘了根据实施方式的用于提供更新的机器学习算法U-MLA的方法。图4中示出对应的数据流。该方法包括若干步骤。步骤的顺序不一定对应于步骤的编号,但是也可以在本发明的不同实施方式之间变化。此外,可以重复各个步骤或一系列步骤。
在第一步骤S10处,提供包括至少一个医学发现的医学数据集。特别地,在步骤S10处,可以从被配置成存储一个或更多个医学数据集MDS的数据库DB2中检索医学数据集MDS。在步骤S20处,从报告数据库DB1中检索医学报告MR。由此,医学报告MR与医学数据集MDS相关联。“相关联”可以意味着医学数据集MDS和医学报告MR具有相同的患者标识符,即属于同一患者。因此,步骤S20可以包括从医学数据集MDS中提取患者标识符,并且使用该患者标识符向报告数据库DB1查询相关联的医学报告MR。医学报告MR可以包括至少一个数据项,其书面描述了医学数据集MDS中包括的一个或更多个医学发现。
在步骤S30处,获得自然语言处理算法NLPA。特别地,可以在客户端计算设备CCD处从模型聚合器设备MAD获得自然语言处理算法NLPA。特别地,自然语言处理算法NLPA可以被配置成处理医学报告MR中包括的任何自然语言文本,以从中提取一个或更多个指示I,指示I具体地包括医学发现的类型、位置和/或特性中的任一个。特别地,指示I可以以机器可读的格式例如以特征向量的形式(也称为医学发现在医学报告MR中的嵌入)对这些属性进行编码。
在步骤S40处,将自然语言处理算法NLPA应用于医学报告MR,以提取至少一个医学发现的至少一个指示I。
接下来,在步骤S50处获得机器学习算法MLA。特别地,可以在客户端计算设备CCD处从模型聚合器设备MAD获得机器学习算法MLA。机器学习算法MLA可以被配置成检测医学图像数据集中的一个或更多个医学发现。机器学习算法MLA可以在它已准备好部署的意义上由模型聚合器设备MAD以容易训练的格式提供。
在步骤S60处,基于医学数据集MDS和提取的至少一个指示I来更新机器学习算法MLA,并且可以在步骤S70处提供由此更新的机器学习算法(MLA)U-MLA。特别地,更新的机器学习算法U-MLA可以从客户端计算设备CCD提供给模型聚合器设备MAD。在模型聚合器设备MAD处,更新的机器学习算法U-MLA可以被包括在机器学习算法MLA的主模型中。接下来,机器学习算法MLA的主模型可以作为机器学习算法MLA被重新分发至客户端计算设备CCD。
步骤S60可以包括若干可选步骤。在步骤S61处,将机器学习算法MLA应用于医学数据集MDS,以从与针对其获得指示I的至少一个医学发现相对应的医学数据集MDS中提取中间医学发现。在步骤S62处,将中间医学发现与指示I进行比较。由于该比较给出了机器学习算法执行的好或坏的见解,因此原则上该比较可以用于更新机器学习模式。本身来讲,步骤S61和S62用成对的指示I集和医学数据集MDS进行重复,直到机器学习算法MLA能够生成可接受的结果(即,直到达到损失函数的局部最小值)。一旦所有对都被使用,则对就被随机地混洗(shuffled)以进行下一轮。
作为安全性检查,可以基于指示I和中间医学发现的比较在步骤S63处执行对应性测试,以检查两者在它们位于大致相同位置的意义上是否至少相关。如果在指示I与中间医学发现之间未找到匹配,则可以丢弃该数据项。特别地,指示I可以包括医学发现在医学数据集MDS的数据项中存在的概率或置信度值,并且机器学习算法MLA被配置成输出医学发现在医学数据集MDS的数据项中存在的概率或置信度值。然后,步骤S63可以包括仅允许其置信度值独立地高于预定阈值的那些数据对进入训练数据。
图2——方法2
图2描绘了根据实施方式的用于从客户端计算设备CCD向模型聚合器设备MAD提供更新的机器学习算法U-MLA的方法。图4中示出对应的数据流。该方法包括若干步骤。步骤的顺序不一定对应于步骤的编号,但是也可以在本发明的不同实施方式之间变化。此外,可以重复各个步骤或一系列步骤。
在步骤S100处,在客户端计算设备CCD处从模型聚合器设备MAD获得机器学习算法MLA。如前所述,机器学习算法MLA被配置成从医学数据集MDS中提取医学发现。
在步骤S200处,在客户端计算设备CCD处从模型聚合器设备MAD接收被配置成从文本数据提取医学发现的指示I的自然语言处理算法NLPA。
在步骤S300处,在客户端计算设备CCD处例如通过查询数据库DB2获得医学数据集MDS的集合,每个医学数据集包括至少一个医学发现。
在步骤S400处,客户端计算设备CCD例如从报告数据库DB1检索医学报告MR的集合。由此,如此检索的医学报告MR在每个医学报告MR可以明确地分配给医学数据集MDS的意义上分别与至少一个医学数据集MDS相关联。
接下来,在步骤S500处,由客户端计算设备CCD将自然语言处理算法NLPA应用于医学报告MR的集合,以从医学报告MR中提取医学发现的指示I。如同每个报告对应于医学数据集一样,每个指示I在其可以明确地分配给医学数据集MDS的意义上对应于医学数据集MDS。
在步骤S600处,由客户端计算设备CCD确定是否允许包括医学数据集MDS和对应指示I中的一者、要合并到机器学习算法MLA的训练过程中的本地数据项或数据对。这可能意味着可以在客户端计算设备CCD的本地训练数据中采用该数据对。可选地,这可以包括在步骤S610处将机器学习算法MLA应用于医学数据集MDS,以从每个医学数据集MDS中提取至少一个(中间)医学发现。然后,这些中间医学发现可以用于例如基于对应的置信度或概率值或者基于提取的医学发现与提取的指示的比较来确定是否允许数据对进入训练过程。根据一些示例,步骤S610可以通过将选通算法应用于提取的指示I和/或医学数据集MDS和/或中间医学发现来执行,其同样可以作为又一工具从模型聚合器设备MAD提供给客户端计算设备CCD。
接下来,在步骤S700处,可以使用本地训练数据——即训练过程所允许的数据项或数据对来更新机器学***均)以给出机器学习模型的预测性能的估计。关于可以如何执行机器学习算法MLA的本地更新的更多细节可以在EP 3798 934A1中找到,其内容通过引用整体并入本公开内容中。
最后,在步骤S800处,从本地客户端计算设备CCD向模型聚合器设备MAD提供更新的机器学习算法MLA。
图3——***
图3描绘了用于特定于客户端的联合学习的示例***1,联合学习能够在包括位于(不同)本地站点的一个或更多个客户端***CS(为了便于参考起见,仅示出一个)的环境中训练、更新、分发、监测以及通常管理多个机器学习算法MLA。***1适于执行根据一个或更多个实施方式的方法,例如,如参照图1、图2、图4和/或图5进一步描述的方法。
***1包括位于本地站点的至少一个客户端***CS和模型聚合器设备MAD。聚合器设备MAD和客户端***CS经由网络对接。模型聚合器设备MAD通常可以被配置成控制、协调和引导***1中的联合学习过程。联合学习过程可以包括在客户端***CS处创建、训练、更新、分发、部署、监测以及通常管理机器学习算法MLA。例如,本地站点可以涉及临床或医学环境,例如医院或医院集团、实验室、医学影像中心、诊所或机构。
机器学***均、k均值聚类、Qlearning、遗传算法和/或关联规则或其他合适的模型。
模型聚合器设备MAD可以是例如web服务器。此外,模型聚合器设备MAD可以是云服务器或本地服务器。模型聚合器设备MAD可以使用任何合适的计算设备来实现。模型聚合器设备MAD可以具有计算单元CCU,其被配置成向客户端***CS提供机器学习算法MLA、自然语言处理算法NLPA和其他工具。此外,模型聚合器设备MAD的计算单元CCU可以被配置成将更新的机器学习算法MLA合并在主模型中。
模型聚合器设备MAD的计算单元CCU可以包括工作存储装置和一个或更多个处理器。一个或更多个处理器可以包括例如一个或更多个中央处理单元(CPU)、图形处理单元(GPU)和/或其他处理设备。计算单元CCU还可以包括微控制器或集成电路。替选地,计算单元110可以包括真实或虚拟的计算机组,例如所谓的“集群”或“云”。模型聚合器设备MAD还可以包括用于通过网络与客户端***CS通信的接口单元(未示出)。接口单元可以包括用于与一个或更多个网络对接的任何合适的部件,包括例如发射机、接收机、端口、控制器、天线或其他合适的部件。
客户端***CS包括客户端计算设备CCD、被配置为客户端***CS的本地存储器单元的两个数据库DB1和DB2。数据库DB1、DB2可以被实现为可经由对应的客户端计算设备CCD访问的云存储装置。替选地,数据库DB1、DB2可以被实现为相应客户端***CS的场所内的本地或分散存储装置。此外,数据库DB1和DB2也可以集成在一个数据库或存储器单元中。
数据库DB2被配置成存储医学数据集MDS。医学数据集MDS可以包括例如与临床或医学问题相关的多个数据集。例如,数据集MDS可以涉及实验室测试结果和/或病理数据和/或医学成像数据及其任意组合。医学数据集MDS可以涉及一个或更多个患者的医学数据。例如,医学数据集MDS可以包括实验室测试结果和/或源于病理成像的病理数据和/或由一个或更多个医学成像设施生成的医学成像数据,所述医学成像设施诸如计算机断层扫描设备、磁共振***、血管造影术(或C臂X射线)***、正电子发射断层扫描***等及其任意组合。医学数据集MDS可以在客户端***CS的相应本地站点处生成。此外,医学数据集MDS可以包括与患者相关的非图像数据、关于所实施的治疗的信息、关于症状和治疗反应的信息、健康进展等。例如,这样的信息可以通过电子医学记录(EMR)的方式来提供。医学数据集MDS可以本地存储在客户端***CS的一个或更多个数据库中。数据库可以是医院信息***(HIS)、放射学信息***(RIS)、临床信息***(CIS)、实验室信息***(LIS)和/或心血管信息***(CVIS)、图片存档和通信***(PACS)等的一部分。从这些数据库中,可以在本地访问医学数据集MDS,以训练机器学习模型,并在部署后稍后定期使用机器学习算法MLA。此外,客户端***CS包括被配置成存储一个或更多个医学报告MR的报告数据库DB1。因此,医学报告MR包含以人类可读形式(例如以一个或更多个结构化或非结构化文本块的形式)由人类进行或至少验证的观察结果。值得注意的是,医学报告可以与医学数据集MDS一起存储在如上所述的客户端***CS的一个或更多个数据库中,而不必存储在单独的数据库中。数据库DB1、DB2可以持续更新,或者每天或每周更新,或者一般来说,每当有新的测试结果变得可用时更新。
医学数据集MDS和医学报告MR的本地访问——特别是它们向机器学习算法MLA和自然语言处理算法NLPA的传送可以由客户端计算单元CU管理或控制。客户端计算单元CU可以是任何合适类型的计算设备,例如通用计算机、专用计算机、膝上型计算机、本地服务器***或其他合适的计算设备。客户端计算单元CU可以包括存储器和一个或更多个处理器。一个或更多个处理器可以包括例如一个或更多个中央处理单元(CPU)、图形处理单元(GPU)和/或其他处理设备。存储器可以包括一种或更多个计算机可读介质,并且可以存储可由一个或更多个处理器访问的信息,包括可以由一个或更多个处理器执行的指令。这些指令可以包括用于获取医学数据集MDS和/或医学报告MR、应用机器学习算法MLA或自然语言处理算法NLPA和/或更新机器学习算法MLA的指令。
此外,客户端计算设备CCD包括接口INT。接口INT可以是用于通过合适的网络与模型聚合器设备MAD和/或任何本地数据库DB1、DB2通信的网络接口。接口INT可以包括用于与一个或更多个网络对接的任何合适的部件,包括例如发射机、接收机、端口、控制器、天线或其他合适的部件。
客户端计算单元CU可以包括被配置成执行工作流程中的不同任务以证明更新的机器学习算法MLA的模块。
例如,客户端计算单元CU可以包括数据解析模块DPM,其被配置成向一个或更多个本地数据库查询医学数据集MDS的集合和相关联的医学报告MR的集合。
此外,客户端计算单元CU可以包括参考数据生成模块RDGM,其被配置成通过将自然语言处理算法NLPA应用于医学报告MR来生成医学发现的至少一部分的指示I。
此外,客户端计算单元CU可以包括数据选通模块DTM,其被配置成确定是否允许包括医学数据集MDS和对应指示I中的一者、要合并到机器学习算法MLA的训练过程中的数据对。
此外,客户端计算单元CU可以包括训练模块TM,其被配置成基于所允许的数据对来更新机器学习算法。
不同子单元DPM、DTM、TM、RDGM的指定将通过示例的方式来解释,而不是限制本公开内容。因此,子单元DPM、DTM、TM、RDGM可以被集成以形成一个单个处理单元,或者可以由被配置成执行在计算单元CU的处理器等上运行的对应方法步骤的计算机代码段来体现。每个子单元DPM、DTM、TM、RDGM可以单独连接至***1的需要数据交换以执行方法步骤的其他子单元和/或其他部件。例如,子单元DPM可以连接至数据库DB1、DB2。
图1和图2的流程图同样表示用于以一个或更多个计算机程序的形式实现方法步骤的示例硬件逻辑或机器可读指令。程序可以以存储在非暂态计算机可读存储介质(例如CD-ROM、软盘、硬盘驱动器、DVD、蓝光磁盘或与处理器相关联的存储器)上的软件来实现。整个程序和/或其部分可以替选地由除处理器之外的设备执行以及/或者以固件或专用硬件来实现。
图4——数据流
在图4中,示出了根据实施方式的用于更新机器学习算法MLA的数据流图。
提供了用于自动训练机器学习算法MLA的弱监督方法。特别地,机器学习算法MLA可以是异常检测算法。具体地,医学报告MR中的文本信息被用作指导异常分割***的监督线索,该异常分割***识别输入图像中异常模式的位置和范围。通过使嵌入空间中的输入图像与对应文本提示之间的相似性最大化来使用对比学习执行分割***的训练。
为此,机器学习算法MLA和自然语言处理算法NLPA可以用于将来自图像和报告的视觉和纹理信息映射到共享的表示空间。特别地,机器学习算法MLA可以包括视觉变换器。自然语言算法NLPA可以基于Devlin,J.等人的参考文献“Bert:Pre-training of deepbidirectional transformers for language understanding(Bert:用于语言理解的深度双向变换器的预训练)”arXiv:1810.04805,其内容通过引用整体并入本文中。视觉变换器可以基于Dosovitskiy,A.等人在国际学习表示会议中的参考文献“An Image is Worth16x16 Words:Transformers for Image Recognition at Scale(图像值16×16个单词:用于大规模图像识别的变换器)”,其内容通过引用整体并入本文中。
在训练期间,通过优化对比损失函数CLF来使正/负图像-文本嵌入对之间的相似性最大化/最小化。
根据实施方式,机器学习算法MLA是用于训练用于异常分割任务的CAD算法的***。机器学习算法MLA可以在训练期间使用多层感知器头来获取输入图像的嵌入表示R。同样,自然语言处理算法NLPA被配置成获取指示I作为医学报告MR内的文本嵌入。根据一些示例,该***可以用于使用知识蒸馏技术来训练单独的学生分割模型。
图5——***2
图5描绘了根据另一实施方式的用于特定于客户端的联合学习的示例***1。根据该实施方式,机器学习算法MLA以及自然语言处理算法NLPA以分散的方式被进一步训练。
所提出的方法使得能够在没有输入图像的手动注释的情况下训练CAD***,从而为CAD***的成本节约、可扩展性和可推广性提供了显著的优势。它允许在当前唯一验证的放射学结果(即书面报告)上训练CAD***,而不需要显式创建诸如人类注释的附加信息。
该***还可以被设置成自动抑制或删除具有低相关性(例如,文本描述不够精确的情况)的图像和报告/EMR数据对。这样就可以自动聚焦到找到的相关数据对。
这样的***还可以用于通过对在多个成像研究中获得的数据/报告进行回顾性训练来获得训练/改进工作流优化或结果预测器算法。

Claims (10)

1.一种用于提供更新的机器学习算法的方法,包括以下步骤:
-提供(S10)包括至少一个医学发现的医学数据集(MDS);
-从数据库(DB-R)中检索(S20)与所述医学数据集相关联的医学报告(MR),所述医学报告包括所述至少一个医学发现的至少一个指示;
-获得(S30)自然语言处理算法(NLPA),所述自然语言处理算法被配置成从结构化和/或非结构化文本中提取医学发现的指示;
-将所述自然语言处理算法应用于(S40)所述医学报告,以提取所述至少一个医学发现的至少一个指示(IND);
-获得(S50)机器学习算法(MLA),所述机器学习算法被配置成从医学数据集中提取医学发现(MF);
-基于所述医学数据集和所提取的至少一个指示来更新(S60)所述机器学习算法;以及
-提供(S70)所更新的机器学习算法。
2.根据权利要求1所述的方法,其中,所述更新(S60)步骤包括:
-将所述机器学习算法应用于(S61)所述医学数据集,以从与所述至少一个医学发现相对应的医学数据集中提取中间医学发现;
-将所述中间医学发现与所述至少一个医学发现的至少一个指示进行比较(S62);
-基于所述比较步骤更新所述机器学习算法。
3.根据权利要求2所述的方法,其中,
-所述更新步骤包括确定(S63)所述中间医学发现与所述至少一个指示之间的对应性水平;并且
-所述机器学***高于预定阈值时才更新。
4.根据前述权利要求中任一项所述的方法,其中,
-所述医学数据集包括医学图像数据集;
-所述医学发现涉及所述医学图像数据集中描绘的图像特征,具体是病变;
-所述指示包括所述医学图像数据集中的图像特征的类型和/或位置;以及
-所述机器学习算法被配置成从医学图像数据集中提取图像特征作为医学发现。
5.根据前述权利要求中任一项所述的方法,其中,
所述自然语言处理算法基于变换器模型;以及/或者
所述机器学习算法基于卷积神经网络。
6.一种用于将更新的机器学习算法从客户端计算设备(CCD)提供给模型聚合器设备(MAD)的方法,所述方法包括以下步骤:
-在所述客户端计算设备处从所述模型聚合器设备获得(S100)机器学习算法,所述机器学习算法被配置成从医学数据集中提取医学发现;
-在所述客户端计算设备处从所述模型聚合器设备获得(S200)自然语言处理算法,所述自然语言处理算法被配置成从文本数据中提取医学发现的指示;
-在所述客户端计算设备处获得(S300)医学数据集的集合,每个医学数据集包括至少一个医学发现;
-由所述客户端设备从数据库中检索(S400)分别与所述医学数据集的集合中的医学数据集相关联的医学报告的集合;
-由所述客户端计算设备将所述自然语言处理算法应用于(S500)所述医学报告的集合,以从所述医学报告中提取所述医学发现的指示,每个指示对应于医学数据集;
-由所述客户端计算设备确定(S600)是否允许包括所述医学数据集和对应指示中的一者、要合并到所述机器学习算法的训练过程中的本地数据项;
-使用所允许的本地数据项来更新(S700)所述机器学习算法;
-将所更新的机器学习算法从所述本地客户端设备提供给(S800)所述模型聚合器设备。
7.根据权利要求6所述的方法,其中,所述确定步骤包括:
-将所述机器学习算法应用于(S610)所述医学数据集,以从每个医学数据集提取至少一个医学发现,以及
-所述确定是否允许的步骤另外基于所提取的医学发现,并且特别地包括将所提取的医学发现与所提取的指示进行比较。
8.根据权利要求6或7中任一项所述的方法,其中,
-所述确定步骤包括将质量选通算法应用于所提取的指示,以及
-由所述客户端计算设备从所述模型聚合器设备获得所述质量选通算法。
9.根据权利要求6至8中任一项所述的方法,其中,所述模型聚合器设备被配置成基于所更新的机器学习算法修改所述机器学习算法的主模型。
10.一种本地模型更新模块(CCD),包括:
-接口(INT),其被配置成进行以下操作:
从模型聚合器设备(MAD)获得机器学习算法,所述机器学习算法被配置成从医学数据集中提取医学发现;
从所述模型聚合器设备获得自然语言处理算法,所述自然语言处理算法被配置成从文本数据中提取医学发现的指示;
从一个或更多个本地数据库获得医学数据集和相关联的医学报告;
-数据解析模块(DPM),其被配置成向所述一个或更多个本地数据库查询医学数据集的集合和相关联的医学报告的集合,所述医学数据集各自包括至少一个医学发现;
-参考数据生成模块(RDGM),其被配置成通过将所述自然语言处理算法应用于所述医学报告来生成所述医学发现的至少一部分的指示;
-数据选通模块(DTM),其被配置成确定是否允许包括所述医学数据集和对应指示中的一者、要合并到所述机器学习算法的训练过程中的本地数据项;
-训练模块(TM),其被配置成基于所允许的本地数据项更新所述机器学习算法。
CN202311623232.8A 2022-12-20 2023-11-28 用于提供更新的机器学习算法的***和方法 Pending CN118230969A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102022214014.1A DE102022214014A1 (de) 2022-12-20 2022-12-20 Systeme und Verfahren zur Bereitstellung eines angepassten Algorithmus für maschinelles Lernen
DE102022214014.1 2022-12-20

Publications (1)

Publication Number Publication Date
CN118230969A true CN118230969A (zh) 2024-06-21

Family

ID=88779254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311623232.8A Pending CN118230969A (zh) 2022-12-20 2023-11-28 用于提供更新的机器学习算法的***和方法

Country Status (3)

Country Link
EP (1) EP4390960A1 (zh)
CN (1) CN118230969A (zh)
DE (1) DE102022214014A1 (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8331636B2 (en) 2007-09-11 2012-12-11 Siemens Medical Solutions Usa, Inc. Automatic calibration of computer aided diagnosis based on retrospective examination
US7876943B2 (en) 2007-10-03 2011-01-25 Siemens Medical Solutions Usa, Inc. System and method for lesion detection using locally adjustable priors
US20140088989A1 (en) * 2012-09-27 2014-03-27 Balaji Krishnapuram Rapid Learning Community for Predictive Models of Medical Knowledge
US20160321427A1 (en) 2015-04-28 2016-11-03 Siemens Medical Solutions Usa, Inc. Patient-Specific Therapy Planning Support Using Patient Matching
US10957442B2 (en) * 2018-12-31 2021-03-23 GE Precision Healthcare, LLC Facilitating artificial intelligence integration into systems using a distributed learning platform
EP3798934A1 (en) 2019-09-27 2021-03-31 Siemens Healthcare GmbH Method and system for scalable and decentralized incremental machine learning which protects data privacy
US11763081B2 (en) * 2020-10-02 2023-09-19 Merative Us L.P. Extracting fine grain labels from medical imaging reports

Also Published As

Publication number Publication date
DE102022214014A1 (de) 2024-06-20
EP4390960A1 (en) 2024-06-26

Similar Documents

Publication Publication Date Title
US10282588B2 (en) Image-based tumor phenotyping with machine learning from synthetic data
US11850021B2 (en) Dynamic self-learning medical image method and system
RU2703679C2 (ru) Способ и система поддержки принятия врачебных решений с использованием математических моделей представления пациентов
Helwan et al. Deep networks in identifying CT brain hemorrhage
Hou et al. Explainable DCNN based chest X-ray image analysis and classification for COVID-19 pneumonia detection
WO2019104096A1 (en) Multi-modal computer-aided diagnosis systems and methods for prostate cancer
Mazzanti et al. Imaging, health record, and artificial intelligence: hype or hope?
RU2720363C2 (ru) Способ формирования математических моделей пациента с использованием технологий искусственного интеллекта
Mohapatra et al. Segmentation and Classification of Encephalon Tumor by Applying Improved Fast and Robust FCM Algorithm with PSO‐Based ELM Technique
Amorim et al. Interpreting deep machine learning models: an easy guide for oncologists
Kumar et al. Deep-learning-enabled multimodal data fusion for lung disease classification
CN112686899B (zh) 医学图像分析方法和装置、计算机设备及存储介质
Tandon et al. Automatic lung carcinoma identification and classification in CT images using CNN deep learning model
Jain et al. Early detection of brain tumor and survival prediction using deep learning and an ensemble learning from radiomics images
EP4390960A1 (en) Systems and methods for providing an updated machine learning algorithm
Mansour Multimodal biomedical image retrieval and indexing system using handcrafted with deep convolution neural network features
US20240087697A1 (en) Methods and systems for providing a template data structure for a medical report
Priya et al. An intellectual caries segmentation and classification using modified optimization-assisted transformer denseUnet++ and ViT-based multiscale residual denseNet with GRU
EP4379672A1 (en) Methods and systems for classifying a medical image dataset
Cherezov et al. Resolving impact of technical and biological variability on the convolutional neural networks: evaluating chest x-ray scans
US20240127917A1 (en) Method and system for providing a document model structure for producing a medical findings report
EP4111942A1 (en) Methods and systems for identifying slices in medical image data sets
US20230342928A1 (en) Detecting ischemic stroke mimic using deep learning-based analysis of medical images
Marti-Bonmati et al. Era of AI Quantitative Imaging
Kadry et al. Res-Unet based blood vessel segmentation and cardio vascular disease prediction using chronological chef-based optimization algorithm based deep residual network from retinal fundus images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination