CN112542242A

CN112542242A - 数据转换/症状评分

Info

Publication number: CN112542242A
Application number: CN202010993862.4A
Authority: CN
Inventors: 克里斯·贝迪斯; 马修·斯蒂克兰; 弗兰克·海丝特; 安吉·沙玛
Original assignee: Phoenix Partners Leeds Ltd
Current assignee: Phoenix Partners Leeds Ltd
Priority date: 2019-09-23
Filing date: 2020-09-21
Publication date: 2021-03-23
Also published as: US20210089965A1; GB201913666D0; EP3796226A1

Abstract

一种用于生成与负面健康后果相关的定量值的计算机***，该计算机***包括：转换模块，其被配置为接收与患者相关联的多个数据项集合，每个集合包括描述符以及该事件影响患者的时间。转换模块生成训练数据结构，该训练数据结构包括：针对每个患者的所选特征的阵列，每个所选特征与表示分数的数值相关联，该分数指示该特征与负面健康后果的预测的相关性；以及指示患者是否表现负面健康后果的标签；以及机器学习模型，其使用训练数据结构进行训练，从而可操作来为具有至少一些特征的患者生成与负面健康后果相关的定量值。

Description

数据转换/症状评分

技术领域

本公开涉及一种用于生成与负面健康后果相关的定量值的计算机***。该***可以被用作供医疗从业人员使用的诊断辅助工具，或者被用作消费者的健康管理工具。

背景技术

对患者的负面健康后果进行评估和预测是向患者提供医护保健的重要阶段。这样的评估和预测包括对患者疾病的诊断，疾病发展风险的预测以及诊断出某种疾病的患者发生并发症的风险的预测。例如，对于医护保健人员来说，很难从患者症状中诊断出卵巢癌，并且常常保持未被检测到——直到癌症的后期阶段(治疗不太可能成功的时期)。对该疾病和其他疾病的早期诊断是提供有效治疗的关键。

现在，患者健康记录常常可以在数据库中找到。这样的数据库可以存储来自多个不同来源的共享患者记录。可以从健康服务的不同分支(例如从初级保健和二级保健来源)收集针对患者的多个记录。将针对患者的不同记录收集在一起，以形成存储在数据库中的针对该患者的单个患者记录。然后，来自不同医院、手术室等的医护保健人员可以访问此共享的患者记录，以便为他们提供患者医疗历史的详尽记录。

发明内容

患者的电子医护保健记录的可用性提高使发明人考虑一种计算机***的设计，该计算机***用于使用其中包含的数据项来帮助诊断和预测患者的负面健康后果。

诸如神经网络之类的机器学习模型可以在对患者进行诊断和预测方面扮演有价值的角色。已经证明，可以训练神经网络来根据视网膜扫描预测心血管风险。此外，可以训练机器学习模型来比人眼更精确地发现癌组织。

一种提议是应用机器学习模型来执行患者记录的数据分析。来自GP(全科医生)的数据可以被馈送到机器学习模型中进行分析。另外，健康记录数据可以与基因组数据相结合，并被提供给机器学习模型。除了基因组数据之外，来自可穿戴物的数据或以任何方式可链接到患者的任何其他数据都可以与健康记录数据相结合进行分析。

但是，为了实现这些期望的后果，必须考虑对数据结构的操纵以及训练模型在各种上下文中可用的方式。

根据第一方面，提供了一种用于生成与患者的负面健康后果相关的定量值的计算机***，该计算机***包括：转换模块，其被配置为接收多个数据项集合，每个集合与患者相关联并且每个数据项包括描述符和该事件影响患者的时间，转换模块被配置为生成至少一个训练数据结构，该至少一个训练数据结构包括：针对每个患者的所选特征的阵列，每个所选特征与表示分数的数值相关联，该分数指示该特征与负面健康后果的预测的相关性；以及指示患者是否表现负面健康后果的标签；以及至少一个机器学习模型，该至少一个机器学习模型在至少一个训练数据结构上训练，以便可操作来为具有至少一些特征的患者生成与负面健康后果相关的定量值，但针对至少一些特征的负面健康后果的状况是未知的。

在一些实施例中，转换模块被配置为生成多个训练数据结构，每个训练数据结构具有对应于不同的相应负面健康后果的不同标签；以及多个机器学习模型，相关于相应负面健康后果之一已经训练了每个模型。

在一些实施例中，利用具有共同的所选特征集合的训练数据结构来训练利用指示相应不同的负面健康后果的标签所训练的每个机器学习模型。

在一些实施例中，使用具有不同的所选特征集合的训练数据结构来训练与不同的相应负面健康后果相关所训练的每个机器学习模型，所述不同的所选特征集合具有包括至少一些共同特征的不同集合。

在一些实施例中，转换模型被配置为接收患者集合中的附加数据项，并且修改指示该患者集合受到所述附加数据项影响的每个特征的相关性的一个或多个分数并生成包括针对该患者的修改的一个或多个分数的新训练数据结构。

在一些实施例中，转换模块被配置为使用与数据项的描述符相关联的数值的与时间相关的操纵来生成分数。

在一些实施例中，与时间有关的操纵包括衰减模型，其中如果在随后接收的数据项中未表示特定所选特征，则与该特定所选特征相关联的分数随时间减小。

在一些实施例中，转换模型被配置为接收患者集合中的附加数据项并生成包括由针对该患者集合的该附加数据项所描述的新特征的新训练数据结构，其中计算机***包括使用新训练数据结构训练的另一机器学习模型。

在一些实施例中，转换模块被配置为以原始格式接收多个患者的数据项集合，并将原始格式的数据项映射为包括用于每个特征的预定指示符代码的标准格式，以形成描述符的一部分。

在一些实施例中，特征选自：症状；对患者执行的测试或程序；针对患者的测试结果；针对患者的个人数据；针对患者的上下文数据；和家族史。

在一些实施例中，该计算机***包括用于接收个人数据的接口，该个人数据包括从至少一个传感器导出的传感器数据，该至少一个传感器被配置为确定关于患者的生理信息、患者的年龄、患者的体重、患者的基因组信息、患者的种族、患者的血型等。

在一些实施例中，计算机***被配置为从患者所穿戴的至少一个可穿戴设备接收传感器数据。

在一些实施例中，计算机***被配置为从外部数据源导出上下文数据，该上下文数据包括位置数据、物理环境数据(例如天气)、社交环境数据(例如剥夺指数(deprivationindex))或针对患者的社交数据(例如患者的婚姻状况)。

在一些实施例中，负面健康后果是疾病或疾病并发症。

本文所述的***和方法原则上可以被用于任何疾病或疾病并发症。此处给出了一些示例，但不应被认为是限制：

心血管疾病，包括：

冠心病(CAD)，诸如心绞痛和心肌梗塞(通常称为心脏病发)

中风

心脏衰竭

高血压性心脏病

风湿性心脏病

心肌病

心律不齐

先天性心脏病

瓣膜性心脏病

心脏炎，主动脉瘤

外周动脉疾病

血栓栓塞性疾病

静脉血栓形成。

癌症，包括：

***癌

胆管癌症(胆管癌)

膀胱癌

肠癌

脑瘤

乳腺癌

原发灶不明的癌

类癌肿瘤

***

***癌

内分泌癌

眼癌

胆囊癌

头颈癌

卡波西肉瘤

肾癌

白血病

肝癌

肺癌

淋巴瘤

黑色素瘤

间皮瘤

多发性骨髓瘤

卵巢癌

胰腺癌

***癌

腹膜癌

原发性骨癌

***癌

继发性骨癌

皮肤癌

软组织癌

胃和食道癌

睾丸癌

胸腺癌

甲状腺癌

子宫癌

外阴和***癌

呼吸***疾病，包括：

哮喘

支气管扩张

慢性阻塞性肺病(Chronic obstructive lung disease)

慢性阻塞性肺病(Chronic obstructive pulmonary disease)

支气管炎和肺气肿

慢性鼻-鼻窦炎

过敏性肺炎

肺癌和呼吸道和胸腔内器官肿瘤

肺纤维化

慢性胸膜疾病

尘肺病

肺嗜酸性粒细胞增多症

肺源性心脏病和肺循环疾病，包括肺栓塞、肺动脉高压和肺性心脏病

鼻炎

结节病

睡眠呼吸暂停综合症

糖尿病

当疾病是糖尿病时，疾病并发症的示例包括肾病、神经病变、视网膜病变和糖尿病足(截肢)。当疾病是房颤时，疾病并发症包括中风和血栓栓塞。

在一些实施例中，转换模块包括：在其上执行计算机程序的至少一个计算机，该计算机程序被配置为从接收到的数据项的多个集合生成至少一个训练数据结构；以及接口，所述接口用于接收多个患者数据项集合并连接来将其供应给至少一个计算机。

根据第二方面，提供了一种用于训练机器学习模型以便可操作来生成与患者的负面健康后果相关的定量值的计算机实现的方法，该方法包括：从多个患者数据项集合中生成至少一个训练数据结构，每个患者集合与一个患者相关联，并且每个数据项都包括健康影响事件的描述符以及该事件影响所述患者的时间，其中训练数据结构包括：针对每个患者的所选特征的阵列，每个所选特征与表示分数的数值相关联，该分数指示该特征与负面健康后果的预测的相关性；以及指示所述患者是否表现负面健康后果的标签：将至少一个训练数据结构应用于至少一个机器学习模型，从而训练机器学习模型。

在一些实施例中，该方法包括以下步骤：使用多个所述训练数据结构来训练相应的多个机器学习模型，每个训练数据结构具有与不同的负面健康后果相关的不同标签。

在一些实施例中，该方法包括以下步骤：利用具有共同的所选特征集合的训练数据结构来训练利用指示相应不同的负面健康后果的标签所训练的每个机器学习模型。

在一些实施例中，该方法包括以下步骤：使用具有不同的所选特征集合的训练数据结构来训练与不同的相应负面健康后果相关所训练的每个机器学习模型，所述不同的所选特征集合具有包括至少一些共同特征的不同集合。

在一些实施例中，该方法包括以下步骤：在转换模型处接收患者集合中的附加数据项；并且修改指示该患者集合受到附加数据项影响的每个特征的相关性的一个或多个分数；并生成包括针对该患者的修改一个或多个分数的新训练数据结构。

在一些实施例中，该方法包括以下步骤：使用对与数据项的描述符相关联的数值的与时间相关的操纵来生成分数。

在一些实施例中，与时间相关的操纵包括衰减模型，该方法包括：如果在随后接收的数据项中未表示特定所选特征，则与该特定所选特征相关联的分数随时间减小。与时间相关的操纵可以是S形形式的衰减函数。S形的“宽度”可以随特征而变化，例如以适应不同症状的不同历史相关性的似然性。

在一些实施例中，该方法包括：接收患者集合中的附加数据项；并且生成包括由针对该患者集合附加数据项所描述的新特征的新训练数据结构，其中该方法包括使用该新训练数据结构训练另一机器学习模型。

在一些实施例中，该方法包括在转换模块处以原始格式接收多个患者的数据项集合，并将该原始格式的数据项映射为包括用于每个特征的预定指示符代码的标准格式，以形成描述符的一部分。

在一些实施例中，该方法包括特征选自：症状；对患者执行的测试或程序；针对患者的测试结果；针对患者的个人数据；针对患者的上下文数据；和家族史。

在一些实施例中，该方法包括在计算机***的接口处接收个人数据，该个人数据包括从至少一个传感器导出的传感器数据，该至少一个传感器被配置为确定关于患者的生理信息、患者的年龄、患者的体重、患者的基因组信息、患者的种族、患者的血型等。

在一些实施例中，该方法包括从患者所穿戴的至少一个可穿戴设备接收传感器数据。

在一些实施例中，该方法包括从外部数据源导出上下文数据，该上下文数据包括位置数据、物理环境数据(例如天气)、社交环境数据(例如剥夺指数)或针对患者的社交数据(例如患者的婚姻状况)。

在一些实施例中，负面健康后果是疾病或疾病并发症。

在一些实施例中，负面健康后果包括以下群组中的疾病：心血管疾病、癌症、呼吸***疾病和糖尿病。

在一些实施例中，负面健康后果是包括以下至少一种糖尿病并发症的疾病并发症，诸如肾病、神经病变、视网膜病变和糖尿病足(截肢)或房颤(例如中风和血栓栓塞)。

在一些实施例中，转换模块包括在其上执行计算机程序的至少一个计算机，该方法包括：由计算机程序从所接收的多个数据项集合中生成至少一个训练数据结构；以及在转换模块的接口处接收多个患者数据项集合；并通过接口将多个患者数据项集合供应给至少一个计算机。

附图说明

图1是用于从与患者相关联的数据项的集合中产生训练数据集合的过程的示意图示；

图1A是用于从与患者相关联的数据项的集合中产生操作数据集合的过程的示意图示；

图2是用于从原始数据产生特征分数的过程的示意图示；

图2A是用于从原始数据产生特征分数的过程的示意图示；

图3是用于从原始数据产生特征分数的过程的示意图示；

图4是用于从原始数据产生特征分数的过程的示意图示；

图5是用于从原始数据产生特征分数的过程的示意图示；

图5A是用于从包括上下文数据的原始数据产生特征分数的过程的示意图示；

图6是用于确定患者的家族史特征分数的不同选项的示意图示；

图7是被用来生成训练数据集合的标准格式数据项的示例图示；

图8是当衰减函数被应用时不同的症状记录如何随时间对训练数据集合中的特征分数做出贡献的示例图示；

图9是如何对数据项进行归类以确定训练数据集合中的特征分数的示例图示；

图10是被用来生成操作数据集合的标准格式数据项的示例图示；

图11是当衰减函数被应用时不同的症状记录如何随时间对操作数据集合中的特征分数做出贡献的示例图示；

图12是如何对数据项进行归类以确定操作数据集合中的特征分数的示例图示；

图13是当贪睡函数被应用时从机器学习模型获得的结果如何随时间变化的示例图示；

图14是当贪睡函数被应用并且指示另一诊断事件的数据项发生时从机器学习模型获得的结果如何随时间变化的示例图示；

图15是神经网络的简化示意视图；

图16是神经元的简化示意视图；

图17是决策树的简化示意视图；

图18是使用机器学习模型对数据点进行聚类的示例图示；

图19是用于训练和操作机器学习模型的过程的示意视图；

图20是用于实现用于训练和操作机器学习模型的过程的***的示意视图；和

图21是用于与***交互的用户设备的示意视图。

具体实施方式

根据本申请的实施例，提供了包括转换模块的***。转换模块接收与患者相关联的一系列数据项，并基于一系列数据项为患者提供一系列分数。每个分数表示与患者相关联的特征(例如症状)。这些分数中的至少一个与该患者以及用于机器学习模型的标签相关联。其余分数被用作对模型的输入，以用于对模型进行训练。针对患者的分数是训练数据集合的一部分，该训练数据集合包括与转换模块所产生的许多患者相关联的分数。训练数据集合被用来训练机器学习模型。转换模块可以产生若干不同的训练数据集合，每个用于训练不同的机器学习模型。

此外，根据本申请的实施例，在***上运行的转换模块被配置为从一系列数据项中为患者提供基于一系列数据项的一系列分数，以在机器学***的目标或建议。相应地，用于对模型进行训练的训练数据中的标签与患者的负面健康后果相关。标签可以对应于治疗建议，例如针对特定手术或药物的建议。标签可以对应于个性化目标或建议，例如有关饮食或运动水平的目标或建议。

本文对用于为模型生成数据集合(操作和训练数据集合)的转换模块进行参考。在一些实施例中，该转换模块可以是单个转换模块，例如被用来生成所有数据集合(训练和操作数据集合)。但是，在其他实施例中，可以存在多个转换模块，被用来生成不同类型的数据集合。例如，可以存在一个转换模块用于为模型生成训练数据集合，而另一个转换模块用于为同一模型生成操作数据集合。可以存在不同的转换模块，以用于为不同的模型生成不同的训练数据集合。可以存在不同的转换模块，以用于为不同的模型生成不同的操作数据集合。

图1是图示出了如何使用数据项来为人工智能模型生成训练数据的示意图。正如本说明书中将更详细解释的，这些数据项是从原始数据记录中导出的，并在被转换模块用来生成训练数据之前以标准格式进行存储。

针对每个人都有数据项集合。针对特定人的每个数据项集合都与标识符(诸如患者标识符)相关联。当产生训练数据结构时，这些标识符被剥离，使得训练数据被匿名化。这些集合可以是列表或任何其他类型的阵列的形式。用于数据项的标准格式的示例如图7中所示。每个数据项都具有描述符，该描述符描述了特征或指示符(如将参考图7所述)，诸如症状、测试结果、治疗或者包括上下文数据(例如气候数据)。每个数据项都包括发作时间。发作时间可以是日期和一天中的时间，也可以只是日期。发作时间被认为是特征或指示符被应用于患者的时间。例如，在症状的上下文中，发作时间被认为是患者经历症状的时间。在气候数据的情况下，发作时间是气候数据被应用的时间。

在一些情况下，发作时间可以是特征或指示符的原始数据记录被记录的时间。在其他情况下，发作时间可以是与原始数据记录被记录的时间分开的时间。在这种情况下，与指示原始数据记录本身被记录时的时间分开地将发作时间记录在原始数据记录中。原始数据记录中的该“附加”发作时间可以在原始数据记录被记录时由医护保健人员手动记录。例如，可以在2018年4月18日记录原始数据项，该原始数据项包括患者在2018年4月9日经历腹痛的指示。在该示例中，发作时间是2018年4月9日。在另一个示例中，原始数据可以被记录于2018年4月18日，没有单独的发作时间指示。在这种情况下，标准格式数据项中的发作时间为2018年4月18日。发作时间的粒度(granularity)可能会因指示符和/或模型而异。

每个数据项可以包括记录特征或指示符的位置(例如医院或GP手术)的记录、或由患者亲自输入特征或指示符的记录。

针对任何特定人的数据项集合可以包括跨越数十年的非常大量的数据项。为许多人或患者建立了数据项集合。患者的数量可以包括成千上万的患者。随着与患者相关联的新的特征或指示符被记录，数据项可以被连续地添加到数据项集合中。

转换模块接收这些数据项集合并从它们中生成多个训练数据结构(或“数据集合”)，每个数据结构均包括用于训练不同模型的训练数据。转换模块移除患者ID，使得训练数据被匿名化。每个训练数据结构(在图1中被图示为表格)以列和行的阵列形式来进行组织，每行与特定的人或患者相关联，每列与特定的指示符或特征相关联。应当意识到，数据结构的任何其他组织可以被利用，但是重要的是针对每个患者的分数可以与每个特定特征或指示符相交。转换模块为每个相交生成分数。例如，在患有腹痛的患者1的相交盒中，转换模块已生成9.12的分数并将其***到训练数据阵列中。以本文进一步解释的方式为患者和特征的每个相交指派特定分数。为模型的标签保留训练数据结构的一列。在图1中所图示的训练数据结构的一个示例中，用于模型的标签是卵巢癌。在此训练数据结构中，标签列填充有指示该患者是患有卵巢癌还是未患有卵巢癌的二进制信息(1或0)。由于在患者1与卵巢癌之间的相交之处的分数为零，因此示例中的患者1没有卵巢癌。

可以生成用于预测或评估各种不同的负面健康后果的模型，每个模型使用不同的训练数据结构。负面健康后果包括疾病或疾病并发症的收缩(contraction)。如图1中所示，从患者的数据项集合中生成其他训练数据结构。示例训练数据结构包括用于训练用于预测患者的心脏病的模型的训练数据结构。在这种情况下，标签列填充有指示该患者是否患有心脏病的二进制信息(1或0)。合适的特征或指示符(对心脏病具有预测价值，例如吸烟)被用来为该模型的训练数据结构生成分数。图1中还示出了用于训练用于预测患者的糖尿病的模型的训练数据结构。在这种情况下，标签列中填充有指示该患者是否患有糖尿病的二进制信息(1或0)。合适的特征或指示符(对糖尿病具有预测价值，例如年龄或运动水平)被用来为该模型的训练数据结构生成分数。

在图1中所示的示例训练数据结构中，包括为其提供分数的不同特征。例如，在针对卵巢癌模型的训练数据结构中，提供了针对腹痛的分数。在针对心脏病模型的训练数据结构中未提供此类分数，而是提供了针对血压的分数。然而，在本申请的其他示例实施例中，在不同的训练数据结构中被评分的特征的集合可以是相同的，其中仅所选择的标签在训练数据集合之间是不同的。

即使在相同特征被评分并被***到训练数据集合中的情况下，对于患者而言针对该特征的分数也可能在用于训练不同模型的不同训练数据集合之间有所不同。换句话说，不同的变换集合可以被应用来为与不同模型相关联的训练数据集合确定针对相同特征的分数。例如，在图1中，针对糖尿病、心脏病和卵巢癌中的每一个，训练数据集合中都包括特征“体重”。但是，与患者1的体重相关联的分数可能在数据集合之间有所不同。这反映出这样的事实：转换模块在取决于产生训练数据集合的模型来确定分数时会应用不同的规则/变换。即使在针对患者1的数据项集合中，当转换模块为不同模型生成训练数据集合时，指示患者1的体重的描述符是相同的，但是转换模块仍会通过对针对患者1的数据项集合应用不同的变换来在针对不同模型的训练数据集合中输出与“体重”特征相关联的不同分数。

在针对特定模型建立训练数据集合时，可以手动或自动确定要被用作数据集合中的列的特征或指示符。

可以针对诸如卵巢癌或糖尿病之类的特定疾病和/或针对特定疾病后果建立模型。例如，疾病后果可能是并发症，预计在至少某些时候会出现某种特定疾病。例如，足溃疡、截肢和失明是糖尿病的常见并发症。但是，并非所有患者都遭受这些并发症，这些机器学习模型的价值之一就是建立可能与并发症密切相关联的特征或指示符，反之，甚至对于患有特定疾病的人也能具有良好后果。

将意识到，是在已知患有特定疾病的人上训练针对疾病后果的模型。也就是说，训练数据集合将仅包括患有该疾病的患者或人员。转换模块将搜索与人员相关联的数据项集合，以挑选出与具有该特定疾病的记录的人员相关联的数据项集合，然后基于与此类人员相关联的数据项集合来构建训练数据集合。每种情况下的标签列表示疾病或疾病后果。

除了可能被包括在患者健康记录中的与健康相关的数据类型之外，训练数据集合还可以容纳其他种类的附加数据。唯一的准则是附加数据需要与人相关联。附加数据可以与发生的时间相关联(例如，气候数据)，或者可以是与患者相关联的永久性特征，诸如基因组数据或血液数据。附加数据可以是环境数据。从提供与特定位置有关的环境数据的资源中导出这样的环境数据。可以基于患者的正常位置(例如，他们的家庭地址)或通过基于他们可能随身携带的设备(诸如移动电话)跟踪他们的位置来记录该数据。这样的移动设备可以具有嵌入在电话中的应用，该应用使得能够与时间相关联地估算和记录环境数据。这样的环境数据可以包括大气压力、污染水平、平均温度、平均湿度水平等。

另一种附加数据是社交数据或剥夺指示符。这些通常基于人的永久位置，诸如他们的正常家庭地址。可能还有与特定人相关联的其他社交指示符，这些指示符也可能会注入到剥夺分数。

其他附加数据可以包括饮食。这可以被记录为被食用的食物的类型、卡路里计数等。这可以被记录为在医生的手术或其他医疗机构中进行的历史结果或进行自我报告。这样的数据还可以包括饮酒水平或吸烟水平。

另一种形式的附加数据是可以从可穿戴物中导出的数据，诸如可以感测来自用户的生理测量的传感器数据。这些可以包括血压、心率、皮肤温度、血糖等。此类可穿戴物可以提供此类感测数据的连续时间相关数据流。为了建立用于与特定患者相关联的数据项集合的标准格式数据项，确定粒度以用于提取数据流并将其转换为那些数据项。例如，可以每天、每周或每月记录测量。

另一种形式的附加数据(也就是个人数据)可与人的总体健康状态(诸如他们的活动水平)相关。

容易意识到的是，这不是可以被用来生成训练数据集合的数据的详尽列表。但是，重要的是要认识到，除了症状数据或医疗数据之外的数据，附加数据还可以有用地被利用来训练与疾病或疾病并发症相关的模型。实际上，有可能仅使用不一定与健康或症状相关的数据来训练用于特定疾病或疾病并发症的模型。也就是说，可以仅使用针对患者的上下文数据(诸如环境数据等)来训练模型。重要的是，当要在特定输入数据集合上执行模型以生成特定的被请求输出时，每个模型都可以指示对输入数据的需求。

图1A是图示出在操作阶段期间如何使用已被转换成标准格式的数据项来生成数据(在本文中被称为“操作数据”)以输入到经训练的人工智能模型以获得一个或多个结果的示意图。当模型***作来确定患者的后果时，来自单个患者的数据被应用于模型，并且后果值被导出。

数据项集合与特定的人相关联，该特定的人由标识符(诸如患者标识符)标识。该集合可以是列表或任何其他类型的阵列的形式。数据项的示例如图10中所示。每个数据项都具有描述符，该描述符描述了特征或指示符(如参考图7所述)，诸如症状测试结果、治疗或者包括上下文数据(例如气候数据)。每个数据项都包括发作时间。发作时间可以是日期和一天中的时间，也可以只是日期。发作时间被认为是应用特征或指示符的时间。例如，在症状的上下文中，发作时间被认为是患者经历症状的时间。在气候数据的情况下，发作时间是气候数据被应用的时间。

在一些情况下，发作时间可能是特征或指示符的原始数据记录被记录的时间。在其他情况下，发作时间可以是与原始数据记录被记录的时间分开的时间。在这种情况下，与指示原始数据记录本身被记录的时间分开地将发作时间记录在原始数据记录中。原始数据记录中的“附加”发作时间可以在原始数据记录被记录时由医护保健人员手动记录。例如，可以在2018年4月18日记录原始数据项，该原始数据项包括患者在2018年4月9日经历腹痛的指示。在该示例中，发作时间是2018年4月9日。在另一个示例中，原始数据可以被记录于2018年4月18日，没有单独的发作时间指示。在这种情况下，标准格式数据项中的发作时间为2018年4月18日。

发作时间的粒度可能会因指示符和/或模型而异。每个数据项包括记录特征或指示符的位置(例如医院、GP手术)的记录、或由患者亲自输入特征或指示符的记录。

针对任何特定人的数据项集合可以包括跨越数十年的非常大量的数据项。

转换模块接收患者的数据项集合并从它们中生成操作数据集合以输入到一个或多个模型。转换模块为不同的患者产生许多不同的操作数据集合。一次确定一个操作数据集合，每个操作数据集合分别被应用于适当的模型以确定后果。由于一个或多个模型分别为不同的患者获得结果，因此将为运行模型的每个患者产生单个操作数据集合。如图1A中所示，操作数据集合包括与特定人或患者相关联的单行分数(每个分数与特定指示或特征相关联)。应当意识到，可以利用数据结构的任何其他组织，但是重要的是针对患者的操作数据集合包括与该患者相关联的分数集合。转换模块针对每个特征或指示符生成分数。在图1A的示例中，为患者1的腹痛指派了3.6的分数。该分数已由转换模块生成，并被***到操作数据集合中。

与训练数据集合不同，操作数据集合不包括用于模型的标签。如图1A的示例中所示，所示的操作数据集合的第一个示例不包括图1中所图示的示例训练数据集合中存在的卵巢癌的指示。在操作阶段，来自模型的输出被用来确定患者患有卵巢癌的概率。来自模型的输出为1可以指示该患者患有卵巢癌，而来自该模型的输出为0可以指示该患者没有卵巢癌。0到1之间的数字提供了患者患有卵巢癌的概率的指示。卵巢癌是一个示例，但是可以应用不同的模型来生成针对各种不同的负面健康后果的输出。因此，用于输入到特定模型的操作数据集合包含针对被用来对模型进行训练的训练数据集合中的相同特征或指示符的分数，而没有训练数据集合中包括的标签。

输出值可能是两个分类输出的贡献——(i)该人将患上卵巢癌的概率；(ii)该人将不会患上卵巢癌的概率。

如图1A中所示，其他操作数据结构是从针对患者的数据项集合中生成的。示例操作数据结构包括用于输入到用于预测患者心脏病的模型的操作数据结构。合适的特征或指示符(对糖尿病具有预测价值，例如吸烟)被用来为该模型的操作数据结构生成分数。这些特征与图1中所示的对应训练数据结构中使用的特征相匹配。图1A中还示出了用于输入到用于预测患者糖尿病的模型的操作数据结构。合适的特征或指示符(对心脏病具有预测价值，例如年龄或运动水平)被用来为该模型的训练数据结构生成分数。这些特征与图1中所示的对应训练数据结构中使用的特征相匹配。

在图1A中所示的示例操作数据结构中，包括为其提供分数的不同特征。例如，在针对卵巢癌模型的操作数据结构中，提供了针对腹痛的分数。在针对心脏病模型的操作数据结构中未提供此类分数，而是提供了针对血压的分数。然而，在本申请的其他示例实施例中，在不同的操作数据结构中被评分的特征的集合可以是相同的。

即使在相同特征被评分并被***到操作数据集合中的情况下，对于患者而言针对该特征的分数也可能在用于操作不同模型的不同操作数据集合之间有所不同。换句话说，不同的变换集合可以被应用来为与不同模型相关联的操作数据集合确定针对相同特征的分数。例如，在图1A中，针对糖尿病、心脏病和卵巢癌中的每一个，操作数据集合中都包括特征“体重”。但是，与患者1的体重相关联的分数可能在数据集合之间有所不同。这反映出这样的事实：转换模块在取决于产生操作数据集合的模型来确定分数时会应用不同的规则/变换。即使在针对患者1的数据项集合中，当转换模块为不同模型生成操作数据集合时，指示患者1的体重的描述符是相同的，但是转换模块仍会通过对针对患者1的数据项集合应用不同的变换来在针对不同模型的操作数据集合中输出与“体重”特征相关联的不同分数。

在针对特定模型建立操作数据集合时，可以手动或自动确定在该操作数据集合中要被评分的特征或指示符。

除了可能被包括在患者健康记录中的与健康相关的数据类型之外，操作数据集合还可以容纳其他种类的附加数据。唯一的准则是附加数据需要与人相关联。附加数据可以与发生的时间相关联(例如，气候数据)，或者可以是与患者相关联的永久性特征，诸如基因组数据或血液数据。附加数据可以是环境数据。从提供与特定位置有关的环境数据的资源中导出这样的环境数据。可以基于患者的正常位置(例如，他们的家庭地址)或通过基于他们可能随身携带的设备(诸如移动电话)跟踪他们的位置来记录该数据。这样的移动设备可以具有嵌入在电话中的应用，该应用使得能够与时间相关联地估算和记录环境数据。这样的环境数据可以包括大气压力、污染水平、平均温度、平均湿度水平等。附加数据可以是社交环境数据，诸如剥夺分数。

其他附加数据包括饮食。这可以被记录为被食用的食物的类型、卡路里计数等。这可以被记录为在医生的手术或其他医疗机构中进行的历史结果或进行自我报告。这样的数据还可以包括饮酒水平或吸烟水平。

另一种形式的附加数据是可以从可穿戴物中导出的数据，诸如可以感测来自用户的生理测量的传感器数据。这些可能包括血压、心率、皮肤温度、血糖等。此类可穿戴物可以提供此类感测数据的连续时间相关数据流。为了建立用于与特定患者相关联的数据项集合的标准格式数据项，确定粒度以用于提取数据流并将其转换为那些数据项。例如，可能每天、每周或每月记录测量。

容易意识到的是，这不是可以被用来生成操作数据集合的数据的详尽列表。但是，重要的是要认识到，除了症状数据或医疗数据之外的数据，附加数据还可以有用地被利用来向与疾病或疾病并发症相关的模型提供输入数据。实际上，有可能仅使用不一定与健康或症状相关的数据来为特定疾病或疾病并发症生成操作数据模型。也就是说，可以仅向模型提供针对患者的上下文数据(诸如环境数据等)。重要的是，每个模型都理解被用来训练它的特征集合。

图1和图1A中所图示的转换模块以标准格式接收数据项，从中执行特征提取(即，确定用于机器学习模型的输入/训练的分数)。首先从原始数据转换标准格式的该数据，该原始数据是从患者记录中获得的，在一些情况下是从其他来源例如天气数据、患者输入的数据中获得的。图1和图1A中所示的数据项是标准格式的数据项。标准格式可以是图7和图10中所图示的格式。

对图2进行参考，其图示出了原始数据可以如何被转换为可以从中执行特征提取的标准格式的示例。在此示例中示出了原始数据项集合。该原始数据表示关于患者的信息，该信息例如可以从患者的一个或多个健康记录中提取，或者从客户端设备中的应用中获得。该信息还可以包括可以通过任何可靠方式链接到患者的任何其他信息——例如，在该时间点处由患者所在位置链接的污染、花粉或温度水平。与来自患者健康记录的指示符一样，该上下文/附加信息可以被存储在标准格式数据项的描述符中。

健康记录中的原始数据信息包括有关患者诊断、症状、治疗、测试结果、处方等的信息。健康记录可以是医疗专业人员或患者本身或其非专业利益相关方(例如，家庭)做出的记录。原始数据可以以若干不同的格式存在。原始数据可以包括用来对整个健康服务中的患者健康记录进行编码的编码数据(例如5字节(byte)代码或80比特(bit)整数)。原始数据可以包括或可以完全是自由文本。原始数据可以包括由编码或自由文本标签所描述的用于测量的数值。原始数据的每一项然后至少包括编码或非编码的描述性标签。原始数据的每一项都包括指示其记录时间的时间戳。至少一些原始数据项可以分别指示发作时间，该发作时间指示描述符何时被应用。通过唯一的编码标识符或者通过可以包括出生日期、给定名称、姓氏和性别的人口统计学数值的收集，原始数据项的收集与人(可能是患者)相关联。

预处理阶段(其在图19中被示为S310，下面将对其进行详细讨论)由***执行，并且涉及从原始数据中以标准格式产生数据项集合。标准格式可以包括特征的描述符，该特征的描述符包括编码格式(例如，标准的5字节代码)和/或包括自由文本。原始数据可以包括标准格式的数据项，并且因此，对于这些数据项，不会进行到标准格式的转换。例如，如图2中所示，原始数据包括记录在2019年1月6日报告了腹痛的信息。该信息可以作为标准格式的数据项而被存储在患者记录中。当整个数据集合以标准格式被放置时，此数据项的副本被存储为标准格式数据的一部分，而不会被转换为另一不同的格式。

一些原始数据可以不是标准格式，但可以被映射为标准格式的一个或多个数据项。原始数据中的该记录可以被用来产生标准格式的多个数据项。如图2中所示，来自患者记录的原始数据包含编码信息，其记录了患者在2018年2月5日出现腹痛。2018年2月5日的同一记录还包含编码数据项，其指示已开具处方泰诺(Tylenol)。2018年2月5日的同一记录还包含描述患者右侧疼痛症状的自由文本，并指示已开具处方泰诺。***从此原始数据中产生标准格式的三个不同数据项。转换模块使用这些标准格式数据项中的每一项来为“腹痛(abdominal pain)”特征确定分数。

图2中示出的原始数据还包括2019年1月6日做出的“腹痛(abdo pain)”记录和2019年5月10日做出的“腹痛(Abdom pain)”记录。带着所指示特征适用的日期和时间以及相关编码或自由文本信息以标准格式将这些记录放置到数据项集合中。5月10日做出的体重记录也已在预处理期间从原始格式被转换为标准格式。

一旦已经从患者的记录中提取了数据项集合并将其转换为标准格式的项集合，然后就由转换模块执行特征提取(图19中的S315a或S315b)以产生被输入到机器学习模型(例如神经网络或决策树)的分数。在图2中所示的示例中，所有标准格式的数据项(排除与特征腹痛无关的体重)均被用来确定与特征“腹痛”相关的分数。分数提供了该特征的影响的指示，并且可能但不唯一地表示症状的严重性。当评估针对患者的结果(例如患者后果、诊断)时，将分数作为输入提供给机器学习模型。

可以取决于报告相关症状和/或制定相关处方的次数来确定被指派给特定特征的分数。例如，在图2的示例中，由于在标准格式数据中存在指示腹痛的多个数据项，因此指派给腹痛的分数可能更高。

尽管针对某些特征的分数取决于某些数据项出现在数据项集合中的次数，但是在确定分数时，对数据项的计数可能会有某些限制。具体地，取决于数据项的数量而计算出的分数取决于是否在某个时间窗口内记录了多个数据项。如果在预定义的时间窗口内记录了多个数据项，则出于确定特征分数的目的，将那些多个数据项计数为单个数据项。时间窗口一个接一个顺序地重复。

在示例中，可以定义一天的时间段以用于计算与腹痛相关联的分数。一天的多个顺序时间窗口被定义。出于确定特征分数的目的，将落在特定的一天时间窗口内的指示腹痛的任何数据项视为单个数据项。

对图2A进行参考，其图示出了取决于多个数据项，使用时间窗口来限制分数的计算。如图所示，示出了以不同的发作时间记录的一系列症状数据项。沿着时间线示出了一系列时间窗口t₀、t₁、t₂、t₃和t₄。每个时间窗口上方示出了被应用来确定特征分数的数据项的有效数量。例如，表示症状S_y的两个数据项被示出，所述症状S_y在第一时间窗口t₀内具有发作时间。由于在时间窗口t₀内至少有一个数据项，因此为了确定与症状相关联的分数，这两个数据项仅被视为一个数据项。表示症状S_y的一个数据项被示出，所述症状S_y在第二时间窗口t₁内具有发作时间。由于在时间窗口t₁内至少有一个数据项，因此为了确定与症状相关联的分数，这一个数据项仅被视为单个数据项。表示症状S_y的三个数据项被示出，所述症状S_y在第三时间窗口t₂内具有发作时间。由于在第三时间窗口t₂内至少有一个数据项，因此为了确定与症状相关联的分数，这三个数据项仅被视为一个数据项。在第四时间窗口t₃内，没有与症状S_y相关联的数据项。因此，用于确定与症状S_y相关联的分数的数据项的有效数量为零。在第五个时间窗口t₄内，只有一个症状S_y。由于在时间窗口t₄内至少有一个数据项，因此为了确定与症状相关联的分数，存在一个有效数据项。

在图2A中所示的示例中，特征分数被示为通过将每个时间窗口中的有效数据项的数量相加而被计算出。然而，实际上，可以应用将数据项映射到特征分数的更复杂的变换。

不同的特征可以针对时间窗口使用不同的持续时间，以用于确定用于计算分数的有效数据项的数量。例如，如果数据项表示腹痛，则时间窗口的持续时间可以各自为1天。如果数据项表示体重，则时间窗口的持续时间可以各自为1周。如果数据项表示血压，则时间窗口的持续时间可以各自为半小时。

指派给特定特征的分数可以取决于与数据项相关联的发作时间的另一种方式是通过使用衰减函数。例如，当确定分数时，可以向较新近做出的记录或者发作时间较新近的记录给予更大的权重。例如，在确定要为腹痛指派的分数时，与在2017年5月10日记录腹痛的信息相比，在2018年2月5日记录的腹痛的信息可以被给予更大的权重。稍后详细解释此“衰减函数”。使用由转换模块执行的基于规则的操作来执行分数的计算。规则可以基于数学函数，例如线性或S形(sigmoid)。可以在优化阶段期间(图19中的S340)调整用于规则的参数(渐变、最小/最大、系数)以生成适当的最终分数。例如，随着自从腹痛以来流逝的时间接近2年，可以将腹痛调整为接近零。用于从一个或多个数据项中确定针对同一特征分数的参数和规则可能会取决于模型的类型而有所不同。下面给出有关转换模块被配置为执行的不同数据输入变换的更多信息。

尽管在图2中从以标准格式存储的数据项中确定仅一个特征分数(即，针对腹痛的分数)，但在一些示例中，可以从这样的数据集合中提取多个特征分数。例如，除了从数据集合中提取特征腹痛外，还可以提取指示已向患者开具处方止痛药的特征。每个特征均被表示为分数，以被用作到机器学习模型的输入值。输入值可以在训练阶段期间被用来训练模型，也可以在操作阶段期间被用来获得结果。

当产生分数时，原始数据(以及由此产生的标准格式数据)中的信息可以被用来指示未在原始数据中明确表达的病症。在图3中，可以在示例中看到这一点，其中记录了开具处方***的信息被用来产生表示激素替代疗法的分数。即使记录了开具处方***的数据项未精确映射到激素替代疗法，这个数据项也被映射到了表示治疗类型(即激素替代疗法)的特征项。类似地，也如图3中所示，转换模块使用包括红细胞计数具有特定值的测试结果的数据项来确定针对贫血的分数。

在一些示例中，特征分数提取可以涉及从数据项中得出关于患者病症的推断，而这些病症未明确地被记录在数据项本身中。针对例如症状、测试结果、所执行的治疗、处方进行编码的不同数据项可以被用来推断患者病症。特征分数提取取决于这些项来确定患者病症，而并未针对这些病症直接编码这些项。在图2中可以看到这一点的示例，其中从指示恶心的数据项中推断出针对腹痛的分数。

在一些示例中，转换模块可以使用单个数据项来生成两个不同的特征分数。例如，图3示出了包括描述符的原始数据项，该描述符指示患者已开具处方赖脯(Humalog)胰岛素。该原始数据项被转换为标准格式数据项，该标准格式数据项还指示患者已开具处方赖脯胰岛素。转换模块将该数据项作为输入，并取决于患者已开具处方赖脯胰岛素的指示来产生针对糖尿病的特征分数。另外，转换模块还取决于患者已开具处方赖脯胰岛素的指示来输出针对胰岛素暴露的特征分数。因此，从单个数据项产生了多个特征分数。

在一些示例中，一条原始数据可以被用来确定多个不同的分数，每个分数与不同的特征相关联。对图4进行参考，其图示出了这一点的示例。原始数据中提供了物理文档。该文档包含记录患者处方和患者症状的信息。从该文档中提取数据项集合。第一数据项包括腹痛的指示。第二数据项包括开具处方泰诺的指示。第三数据项包括腹痛、无恶心和处方为泰诺的指示。转换模块接收该数据项集合并取决于这些数据项来生成相关分数集合。因此，从原始数据中的单个文档生成分数集合。

多个特征分数可以取决于单个数据项。如图4中所示，转换模块使用至少一个数据项(带有描述符：“患者来找我看病报告右侧腹痛。无恶心。处方泰诺”)来生成多个特征分数，即针对腹痛、无恶心和泰诺的特征分数。这些特征分数全取决于标准格式的单个数据项。

对图5进行参考，其图示出了转换模块如何取决于针对患者的多个测量值来确定分数。原始数据包括一系列数据项，每个数据项指示在特定时间记录的HbAlc测量值。每个原始数据项都被转换为标准格式数据项。然后，转换模块确定表示HbA1c测量值是在增加还是在降低的分数。在该示例中，转换模块取决于数据项来针对特征“降低的HbA1c测量”输出分数1.0，这些数据项共同指示HbA1c测量值随时间降低。转换模块还取决于相同的数据项来针对特征“增加的HbA1c测量”输出分数0.0。这些分数是用于由机器学习模型处理的适当的输入值。

对图5A进行参考，其图示出了原始数据中的上下文数据如何可以被用来生成分数的示例。在此示例中，上下文数据是环境数据(即花粉计数)。在图5A中，第一条原始数据指示患者已报告花粉症。第二条原始数据指示在花粉症记录的大约发作时间处的花粉计数。***从原始数据中的每条这些数据中产生标准格式的数据项。第一数据项包括指示患者已报告花粉症的描述符。第二数据项包括指示花粉计数的描述符。针对花粉症的发作时间和应用花粉计数的时间基本相同。转换模块从该数据项产生两个特征分数。为花粉症提供第一特征分数。为花粉计数提供第二特征分数。

如图1和图1A中所示，负面健康后果的家族史可以是转换模块评分并用作机器学习模型的输入值的特征之一。

家族史可以是明确的或推断出的。明确的家族史是在与医生或其他医务人员的会谈中记录的，他们询问患者有关该患者祖先或其他亲戚是否患有特定疾病或疾病并发症的问题。这样的信息可以被记录在针对该患者的数据项集合中。转换模块使用数据项集合中的家族史的指示来生成针对疾病或疾病并发症的家族史的分数。给出了针对家族史的二进制分数。

但是，转换模块也可以被配置为从关系中推断出家族史。例如，如果患者数据列出了父母、祖父母或其他亲戚的名字，那么可以在数据库中搜索那些人员的健康记录，并且可以提取与疾病或疾病并发症相关的相关特征或指示符以提供针对那些特征的分数。

对图6进行参考，其图示出了转换模块可以如何确定针对患者的家族史的分数。在左侧上，图6图示出了可以如何在患者的记录中明确记录家族史。在右侧上，图6图示出了可以如何取决于患者记录中记录的关系来推断家族史。

在图的左侧上，示出了患者“C”的家谱。家谱示出了患者“C”的父母和祖父母。被标记为人“B”的其中一位父母被诊断出患有心脏病。此记录被明确记录在针对患者“C”的原始健康数据中。该记录被转换为适当的数据项，并被用来在与患者相关联的特征列表(用于训练或操作数据集合)中生成表示心脏病家族史的分数，以用于与特定模型一起使用。

患者“C”的祖父母之一，被标记为人“A”，被诊断患有囊性纤维化。此记录被明确记录在针对患者“C”的原始健康数据中。该记录被转换为适当的数据项，并被用来在与患者相关联的特征列表(用于训练或操作数据集合)中生成表示囊性纤维化家族史的分数，以用于与特定模型一起使用。

在图6的右侧上，示出了与图6的左侧上相同的家谱。但是，在此示例中，患者的健康记录不包括疾病家族史的明确记录。但是，用来生成数据项的原始数据确实包括针对患者“C”的家庭关系的指示。例如，原始数据包括患者“C”是人“A”的孙子的记录，以及患者“C”是人“B”的孩子的记录。根据本申请的实施例，***使用这些原始数据记录来请求与人“A”和人“B”相关联的健康记录数据。然后，检索到的健康记录数据被用来确定针对患者“C”的家族史。例如，***检索针对人“A”的健康记录，并确定针对患者“C”的囊性纤维化家族史。转换模块基于推断出的囊性纤维化历史而在特征列表中输出针对囊性纤维化家族史的分数。***检索针对人“B”的健康记录，并确定针对患者“C”的心脏病家族史。转换模块基于推断出的心脏病历史而在针对患者“C”的特征列表中输出针对心脏病家族史的分数。

在一些实施例中，所记录的家族史数据可以与性别相关联。例如，一些遗传性疾病可能仅经由母系或父系遗传。因此，转换模块可以产生特征分数，该特征分数指示沿着母系的特定疾病的家族史。附加地或可替代地，可以由转换模块生成特征分数，该特征分数指示沿着父系的特定疾病的家族史。与性别相关联的这些家族史特征分数可以使用特定性别的家族史的明确记录(例如，如图6的左侧上所示)从原始数据中导出，也可以通过从包含家庭关系的指示(例如，图6的右侧上所示)的原始数据中进行推断而导出。

可以以多种不同的方式生成用于在训练数据集合中使用的分数。使用数据输入变换来生成分数，该数据输入变换由图1中所示的转换模块来实现。上面已经讨论了其中一些数据输入变换(诸如衰减函数)，但下面将更详细地讨论。

生成分数的一种方式是利用衰减函数。与每个人相关联的每个数据项都与至少一个时间(即，如上所讨论的发作时间)相关联。可以进行搜索以收集具有共同描述符的所有数据项，以生成该特定特征或指示符的行为的时间相关描述。然后可以基于针对该描述符的历史来指派分数。例如，如果患者一年之前记录了腹痛，并且没有该腹痛的进一步记录，则在训练数据集合被建立时，针对腹痛的分数将为低。但是，如果腹痛就是最近才被记录的，并且在最后的最近三次手术访视中(或记录数据的其他场合)已被注释，那么分数可能较高。可以取决于要被评分的特征或指示符以任何适当的等级生成分数。不同的衰减函数可以被用于不同的特征或指示符。分数的目的是给出在执行训练时针对该特定患者应该被应用到该特定指示符的可能权重的指示。使用衰减函数的示例是影响函数，其中取决于数据项被记录前的时间量对针对该数据项的分数的贡献进行加权。分数是取决于数据项被记录时的时间加权后的数据项的贡献加起来的结果。当使用影响函数来计算分数时，仅对于间隔超过预定义的时间段(例如间隔3天)记录的数据项才执行取决于数据项被记录前的时间量的加权。

当衰减函数被应用时，影响分数的每个数据项都与权重相关联。数据项对分数的贡献取决于权重。分数可以根据以下来计算：

分数＝∑_iW_iS_i

其中S_i是来自第i个数据项对分数的基线贡献。每个数据项对分数的基线贡献通过其相应权重W_i进行调整。

图8图示出了当衰减函数被应用时，权重如何随时间变化的示例。以t_s示出了生成针对训练数据集合的特征分数的时间。以S_y示出了数据项。这些中的每一个都可以是症状的记录，例如腹痛。在这种情况下，从每个数据项产生的分数将是针对腹痛的分数。

如图8中所示，针对每个数据项的权重随着分数生成时间t_s和发作时间之间的差而降低。换句话说，在分数的计算中，“较旧的”的数据项被加权较轻，而“较新的”(较近的)数据项被加权较重。权重可以根据发作时间的S形函数而变化，如图8中所示。

由图8所图示的数据项的加权结果是，如果相关数据项在过去发生得较早，则计算出的与特征相关联的分数将更低。

S形的宽度可以取决于衰减函数被应用到的症状而变化。

生成分数的另一种方式是生成在时间段内已报告的值的平均值。例如，如果训练数据集合中的列与吸烟相关，并且患者在其历史中报告了不同时间每天吸烟的香烟数量不同，则可以将合计数记录为分数。该合计数可以例如是平均值或均值，或者是各个地报告的数量的任何其他统计表示形式。一种可能性是先前收集的值的滚动均值。这样的滚动均值可以被应用来确定与血液测试值相关联的分数。

转换模块还应用类别来确定针对特定患者的分数。例如，可以取决于每个数据项所表示的特征的值将每个数据项置于一个类别中。然后对类别值执行统计操作(例如，平均或确定标准偏差)以获得针对该特征的分数。该技术可以被应用来确定针对吸烟的分数。在这种情况下，根据预定规则将数据项归类到不同类别(例如，重度吸烟者、中度吸烟者、轻度吸烟者)。数值与每个类别相关联，并为该类别中的每个数据项指派数值。针对每个数据项的数值的平均值被确定，并被用来为患者提供分数。所确定的数值的标准偏差也可以被确定并且被用于为患者确定分数。

对图9进行参考，其图示出了用于确定分数的数据项的类别。每个数据项可以包括患者每周抽烟的香烟数量的指示。取决于相应的数量将每个数据项归类到三个类别之一，即，轻度吸烟者、中度吸烟者和重度吸烟者。每个类别与不同数量相关联，并且因此数量与每个数据项相关联。转换模块将针对每个数据项的数量求平均值，以为患者产生分数。

在图9中所示的示例中，重度吸烟者类别与分数15相关联，中度吸烟者类别与分数10相关联，轻度吸烟者类别与分数5相关联。因为有三个数据项落在每个类别内，所以与这些值相关联的均值为10。转换模块输出该值作为针对“吸烟”特征的特征分数。

尽管在图9中只有三个类别，每个类别反映了记录原始数据项时患者的吸烟行为，但在其他示例中，可能还有附加类别，这些类别与患者过去的行为相关。例如，可能存在诸如重度、中度、轻度过去吸烟者之类的类别，其中数据项记录了由患者报告的历史吸烟行为。

在一些示例实施例中，除了使用被应用于数据项的类别以获得特征分数之外，衰减函数还可以被应用来对每个数据项进行加权，使得较旧的数据项被加权较轻。因此，所获得的表示特征分数的平均值是加权平均值，其中在确定与所有数据项相关联的类别分数的加权平均值时，与较旧的数据项相关联的类别分数被加权较轻。

尽管图9呈现了在吸烟的上下文中的类别技术，但是这种归类然后提供统计表示的技术也可以被用于计算与其他特征(诸如饮酒量)相关联的分数。

生成分数的另一种方式是将二进制分数用于存在或不存在的指示符。例如，针对患者，为特定疾病建立训练数据集合，所述特定疾病的家族史被评分为1或0，而与该疾病的家族史在针对那个患者的数据项集合中出现的次数无关。例如，一个人有卵巢癌家族史或没有卵巢癌家族史，与卵巢癌家族史相关联的分数将被设置为1或0。

在一些实施例中，在确定分数取两个二进制值中的哪一个时，转换模块仅考虑具有小于特定时间之前的发作时间的数据项。例如，如果训练数据集合中的特定症状在最近六个月内发生，则该特定症状被评分为一；但是如果该症状在最近六个月内未发生，则被评分为零。

在一些实施例中，在确定分数取两个二进制值中的哪一个时，转换模块仅考虑具有发作时间大于某个诊断以来的特定时间段的数据项。例如，当应用模型来确定患者阑尾炎的概率时，如果特定症状(例如腹痛)在胃肠炎诊断的特定时间段内发生，则该症状被评分为零，如果它在胃肠炎诊断的特定时间段之外发生，则被评分为一。

在一些实施例中，在确定分数取两个二进制值中的哪一个时，转换模块仅考虑具有患者超过一定年龄的发作时间的数据项。例如，在确定二进制分数取两个值中的哪一个时，仅在针对数据项的发作时间指示患者超过55岁时才考虑指示绝经的数据项。

在一些实施例中，在确定分数取两个二进制值中的哪一个时，转换模块确定数据项是否包括落在一定范围内的用于特定属性的值。

在一些实施例中，如果数据项的发作时间小于某个时间之前，分数可能不是真正的二进制，而是可以等于最大可能值的一半。例如，如果存在指示特定症状发生在最近六个月内的数据项，则训练数据集合中的特定症状可以被评分为一，如果存在指示该症状发生超过六个月的数据项，则被评分为0.5，如果不存在指示该症状的数据项，则被评分为0。

由转换模块执行的用于确定分数的另一种类型的数据输入变换是基于具有在特定时间段内有效的特定指示符的数据项的总数来确定分数。例如，在确定针对腹痛的分数时，转换模块可以确定存在指示腹痛的三个数据项，这些数据项在去年内具有发作时间。然后，转换模块基于这三个数据项输出针对腹痛的分数3。即使数据项集合包括另外的数据项，这些数据项指示发作时间在去年以外的腹痛，但是转换模块在确定分数时也不考虑这些数据项。

由转换模块执行的用于生成分数的另一种技术是取决于自数据项的发作时间以来逝去的时间量来确定分数。例如，在确定与糖尿病相关联的分数时，自患者被诊断出患有糖尿病以来的年数可以被用来确定用于输入到模型的分数。

由转换模块执行的用于生成分数的另一种技术是在记录针对患者的特定特征时取决于患者的年龄来确定分数。例如，如果在较晚的年龄发生，那么由数据项指示的水痘的诊断可能会被更重地加权并被转化为针对患者的更高分数。在一些实施例中，可以应用年龄的下限，在该年龄的下限以下，在评估分数时不考虑所记录的数据项。例如，在确定针对妊娠的分数的情况下，当患者的年龄低于某个下限时，转换模块可以不考虑指示所记录的妊娠的数据项。

由转换模块执行的用于生成分数的另一种技术是取决于针对特征的最新数据项(即，具有最新近的发作时间)来确定分数。例如，如果针对患者的一系列数据项指示针对患者的呼吸困难水平，则在确定分数时可以基于最新近记录来确定针对呼吸困难的分数而抛弃指示呼吸困难的其他数据项。

当确定针对呼吸困难的分数时，转换模块可以将数据项转变成伪造的数字分数。例如，包括描述符“MRC呼吸困难等级：1”的数据项将转化为针对呼吸困难的分数为一(如果该数据项是针对呼吸困难的最新近的)。类似地，包括描述符“MRC呼吸困难等级：2”的数据项将转化为针对呼吸困难的分数为二(如果该数据项是针对呼吸困难的最新近的)。

由转换模块执行的用于生成分数的另一种技术是取决于由一系列数据项指示的数值的变化率来确定分数。例如，转换模块可以取决于多个数据项来确定指示血压变化率的分数，每个数据项均包括针对血压的描述符。

评分可以考虑到特定特征指示符出现在针对患者的数据项集合中的次数、它出现的时间和频率以及它如何被记录。例如，与由患者或用户自行记录的特征或指示符相比，已由医生或其他医疗机构记录的特征或指示符可以被赋予更多的权重。可以基于在数据项中存在的所记录的位置的指示来确定如何记录特征，或者如何记录特征可以是数据项中的描述符的一部分。

如上所提及，可以以特定于其评分的特征或指示符的方式来生成每个分数。因此，对于一些机器学习模型，需要将分数标准化并可能执行建立训练数据集合常用的其他统计操作。例如，可以移除明显的错误或异常值。此外，即使在已经将该列建立为训练数据集合的列之后，也可以移除基于非常低的信息内容的特征(即，与该特征相关的数据项的数量很小)。可以以技术人员已知的方式对用于机器学习模型的训练数据集合执行标准化。

由转换模块生成的训练数据集合可以由转换模块更新。可以取决于在转换模块处接收到的附加数据项来更新一个或多个训练数据集合中的分数。例如，当描述例如新的症状、所执行的治疗的新的数据项被生成并被添加到与患者相关联的数据项集合中时，这些数据项集合被用来生成训练数据集合，转换模块使用这些新的数据项来更新分数。此外，在分数取决于时间的情况下——例如其中分数取决于自每个数据项的发作时间以来的时间(例如，在衰减函数的示例中)——可以响应于时间流逝(即数据项的老化)来更新训练数据集合中的分数。训练数据集合中的标签也可以被更新。

因此，转换模块可以产生用于模型的新的已更新的训练数据集合。这可以使用新的相关数据项来产生。六个月前产生的训练数据集合可以由转换模块更新。转换模块可以接收包括在过去六个月中记录的特征的新数据项，并使用这些新数据项来更新训练数据集合中的相关分数。

可以通过使用新数据项应用本文所述的任何数据输入变换来执行对训练数据集合的更新。例如，转换模块可以通过考虑新记录的数据项来更新针对特征的运行平均值。

然后由转换模块产生的已更新的训练数据集合可以被应用来重新训练相关模型。将包括已更新的分数和任何已更新的标签的已更新的一个或多个训练数据集合提供给模型，以更新相关的一个或多个机器学习模型。

已更新的训练数据集合可以包括针对新特征的分数。新数据项可能变得可用或被确定为相关。在这种情况下，可以添加新特征以产生更新训练数据集合。然后，已更新的训练数据集合被应用来训练新的机器学习模型，其中相对于原始机器学习模型，新的机器学习模型具有附加的输入值。

可以以多种不同的方式生成用于在操作数据集合中使用的分数。使用数据输入变换来生成分数，该数据输入变换由图1A中所示的转换模块来实现。上面已经讨论了其中一些数据输入变换(诸如衰减函数)，但下面会更详细地讨论。

生成分数的一种方式是利用衰减函数。与每个人相关联的每个数据项都与至少一个时间(即，如上所讨论的发作时间)相关联。可以进行搜索以收集具有共同描述符的所有数据项，以生成该特定特征或指示符的行为的时间相关描述。然后可以基于针对该描述符的历史来指派分数。例如，如果患者一年以前记录了腹痛，并且没有该腹痛的进一步记录，则在操作数据集合被建立时，针对腹痛的分数将为低。但是，如果腹痛就是最近才被记录的，并且在最后的最近三次手术访视中(或记录数据的其他场合)已被注释，那么分数可能较高。可以取决于要被评分的特征或指示符以任何适当的等级生成分数。不同的衰减函数可以被用于不同的特征或指示符。分数的目的是给出在运行模型时针对该特定患者应该被应用于该特定指示符的可能权重的指示。使用衰减函数的示例是影响函数，其中取决于数据项被记录前的时间量对针对该数据项的分数的贡献进行加权。分数是取决于数据项被记录时的时间加权后的数据项的贡献加起来的结果。当使用影响函数来计算分数时，仅对于间隔超过预定义的时间段(例如间隔3天)记录的数据项才执行取决于数据项被记录前的时间量的加权。

分数＝∑_iW_iS_i

图11图示出了当衰减函数被应用时，权重如何随时间变化的示例。以t_s示出了生成针对操作数据集合的特征分数的时间。以S_y示出了数据项。这些中的每一个都可以是症状的记录，例如腹痛。在这种情况下，从每个数据项产生的分数将是针对腹痛的分数。

如图11中所示，针对每个数据项的权重随着分数生成时间t_s和发作时间之间的差而降低。换句话说，在分数的计算中，较旧的数据项被加权较轻，而较新的数据项被加权较重。权重可以根据发作时间的S形函数而变化，如图11中所示。

由图11所图示的数据项的加权结果是，如果相关数据项在过去发生得较早，则计算出的与特征相关联的分数将更低。

生成分数的另一种方式是生成在一段时间内已报告的值的平均值。例如，如果操作数据集合中的列与吸烟相关，并且患者在其历史中报告了不同时间每天吸烟的香烟数量不同，则可以将合计数记录为分数。该合计数可以例如是平均值或均值，或者是各个地报告的数量的任何其他统计表示形式。一种可能性是先前收集的值的滚动均值。这样的滚动均值可以被应用来确定与血液测试值相关联的分数。

对图12进行参考，其图示出了用于确定分数的数据项的类别。每个数据项可以包括患者每周抽烟的香烟数量的指示。取决于相应的数量将每个数据项归类到三个类别之一，即，轻度吸烟者、中度吸烟者和重度吸烟者。每个类别与不同数量相关联，并且因此数量与每个数据项相关联。转换模块将针对每个数据项的数字求平均值，以为患者产生分数。

在图12中所示的示例中，重度吸烟者类别与分数15相关联，中度吸烟者类别与分数10相关联，轻度吸烟者类别与分数5相关联。由于有三个数据项落在每个类别内，所以与这些值相关联的均值为10。转换模块输出该值作为针对“吸烟”特征的特征分数。

尽管在图12中只有三个类别，每个类别反映了记录原始数据项时患者的吸烟行为，但在其他示例中，可能还有附加类别，这些类别与患者过去的行为相关。例如，可能存在诸如重度、中度、轻度过去吸烟者之类的类别，其中数据项记录了由患者报告的历史吸烟行为。

尽管图12呈现了在吸烟的上下文中的类别技术，但这种归类然后提供统计表示的技术也可以被用于计算与其他特征(诸如饮酒量)相关联的分数。

生成分数的另一种方式是将二进制分数用于存在或不存在的指示符。例如，针对患者，为特定疾病建立训练数据集合，所述特定疾病的家族史被评分为1或0，而与针对那个患者的该疾病的家族史在数据项集合中出现的次数无关。例如，一个人有卵巢癌家族史或没有卵巢癌家族史，并且与卵巢癌家族史相关联的分数将被设置为1或0。

在一些实施例中，在确定分数取两个二进制值中的哪一个时，转换模块仅考虑具有小于特定时间之前的发作时间的数据项。例如，如果操作数据集合中的特定症状在最近六个月内发生，则该特定症状被评分为一；但是如果该症状在最近六个月内未发生，则被评分为零。

在一些实施例中，如果数据项的发作时间小于某个时间之前，分数可能不是真正的二进制，而是可以等于最大可能值的一半。例如，如果存在指示特定症状发生在最近六个月内的数据项，则操作数据集合中的特定症状可以被评分为一，如果存在指示该症状发生超过六个月的数据项，则被评分为0.5，如果不存在指示该症状的数据项，则被评分为0。

当确定针对呼吸困难的分数时，转换模块可以将数据项转变成伪造的数字分数。例如，包括描述符“MRC呼吸困难等级：1”的数据项将转化为针对呼吸困难的分数为一(如果该数据项是针对呼吸困难的最新近的)。类似地，包括描述符“MRC呼吸困难等级：2”的数据项将转化为针对呼吸困难的分数为二(如果该数据项是针对呼吸困难的最新的)。

在一些实施例中，可以以基于规则的方式进一步处理机器学习模型的输出以获得结果。可以实现此目的的一种方式是，响应于某些条件被满足，将来自机器学习模型的输出临时设置为零。换句话说，来自机器学习模型的输出被暂时抑制。这被称为“贪睡”函数。贪睡函数可以由实现机器学习模型的***来实现。

对图13进行参考，其图示出了将贪睡函数应用于机器学习模型的输出的示例。如图所示，与负面健康后果相关联的结果随着记录特定症状的数据项数量的增加而增加。衰减函数被应用，使得该症状的较早记录比较新记录被加权得较轻，并且因此对模型的输出的影响较小。机器学习模型可以使用特征分数(包括所讨论的症状)来确定患者患有卵巢癌的概率。指示患者不太可能患有卵巢癌的来自诊断事件(例如超声)的结果可能极大降低了症状是由卵巢癌引起的概率。因此，在特定的预定义的时间段(例如六个月)内，将结果设置为零。因此，如果相关的诊断事件少于预定义的时间段，则贪睡函数将结果设置为零。如果相关的诊断事件发生超过了预定义的时间段，则结果可能再次为非零。这允许所执行的诊断可能不再是对患者当前状态的准确估算的可能性。基于在诊断事件之前记录的数据项和在诊断事件之后记录的任何数据项，确定在预定义的时间段(贪睡时段)之后的输出。由于数据项在结果被归零的同时老化，因此输入到机器学习模型的一些分数随着时间的推移而衰减，如图13中所示，机器学习模型的输出将随着时间的变化而改变，即“衰减”特征。每次运行模型时，输出都可能变化，即使没有其他输入也没有其他改变——也就是说，时间是唯一的影响变量。此外，在贪睡处于活动时，在诊断事件之后呈现的其他任何数据项也会影响输出。在预定义的时间段之后移除贪睡函数时，结果就是好像从未应用过贪睡函数所得的值。

在一些示例中，贪睡时段可以被进一步的诊断事件中断。对图14进行参考，其图示出了一个示例，其中在诊断事件发生之后，来自机器学习模型的结果被设置为零。但是，在稍后的时间(在此示例中为2个月后)，将发生进一步的诊断事件。如果第一诊断事件是指示不太可能发生卵巢癌的超声检查，那么第二诊断事件可以是指示卵巢癌的合理概率的血液测试。因此，从机器学习模型获得的结果(先前在第一诊断事件之后被设置为零)然后在第二诊断事件之后再次被设置为非零值，从而缩短了贪睡时段。进一步的诊断事件也可能影响输入到机器学习模型的分数(如图14中所示)，从而引起来自机器学习模型的输出的变化，并且因此引起结果的变化。缩短的贪睡时段后的分数取决于贪睡时段期间发生的任何衰减或进一步的记录。

以下描述提供了可以被用来实现本申请的实施例的机器学习过程的示例说明。此外，提供了硬件的描述，可以在所述硬件中实现实施例。

机器学习是用于使得计算机***无需明确的指令即可解决问题和执行任务的研究的分支。机器学习***自动分析被称为“训练数据”的数据集合，以便在训练阶段期间训练数学模型。一旦基于训练数据进行训练，然后数学模型便被应用于数据集合，以在操作阶段期间进行预测和/或决策。

存在两种不同类型的机器学习，分别被称为监督学习和无监督学习。在监督学习中，用于构建模型的训练数据包括输入数据和所期望的输出数据。基于输入数据对模型的参数进行调整，以便导致能够从输入数据近似生成输出数据的模型。输出数据通常包括人类已经提供的用于标签输入数据集合的标签集合。

监督学习可以被用来执行将输入数据分类为特定类别。例如，受过训练以执行光学字符识别的数学模型，当被提供有表示字母表的字母图像的数据时，可以输出图像中示出的字母表中26个不同字母之一的指示。这种类型的模型被称为分类器模型，因为图像被分类到类别集合(即字母表中的字母)之一。另一类型的监督学习模型可以被用来执行输入数据的回归分析。在这种情况下，输出数据包括一个或多个连续值，而不是离散类。例如，可以训练数学模型以在给定输入数据集合(包括位置、大小、年龄等)的情况下输出针对属性值的估计。

在无监督学习中，用于构建模型的训练数据包括输入数据，但不包括模型的输出或标签。在无监督学习中，不是训练模型从输入数据中再生输出数据，而是在训练数据中基于共性来训练模型，并且基于未来输入数据中存在或不存在这些共性来提供输出。无监督学习在降维和聚类分析中具有应用。

机器学习领域中广泛使用的一种类型的模型是人工神经网络。神经网络包括节点集合的布置，所述节点通过链路彼此互连并且彼此交互。神经网络在计算中的原理基于有关电刺激如何在人脑中传达信息的信息。出于这个原因，这些节点通常被称为神经元。它们也可以被称为顶点。链路有时被称为边。网络可以获取输入数据，并且某些节点对数据执行操作。这些操作的结果将被传递到其他节点。每个节点的输出被称为它的激活或节点值。每个链路都与权重相关联。权重定义了神经网络节点之间的连接性。神经网络能够通过已知的许多不同技术来进行学习，所述学习是通过改变权重值来实现的。

图15示出了节点在神经网络中的一种布置的极简版本。这种类型的布置通常被用于学***或程度的度量。存在不同的学习方法，但是在每种情况下，在图15中通过网络从左到右正向传播，总误差的计算，以及通过误差的网络在图15中从右到左反向传播。在下一个周期中，每个节点都将考虑向后传播的误差，并产生修订的权重集合。以这种方式，可以训练网络以执行其期望的操作。

已知不同类型的神经网络。一种类型的神经网络是前馈神经网络，其中网络中的信息仅在从输入层到输出层的一个方向上通过网络传播。在每种情况下，下一层的激活取决于前一层的激活以及两层之间的连接的权重。前馈神经网络可以是有时间意识的，在这种情况下，特定节点的激活取决于与输入数据相关联的时间值。另一种类型的神经网络是递归神经网络，其中，来自神经网络的节点的输出作为输入提供给神经网络中的较早的节点。这可以通过提供神经网络的输出作为神经网络的输入来执行。可替代地，这可以由网络的一个或多个隐藏层中的节点接收来自其当前迭代之前的一个或多个迭代的其先前输出作为输入来执行。一种特殊类型的递归神经网络是长短期记忆(LSTM)神经网络，其中节点将信息保留更长的时间段，并且因此能够处理具有时间间隙的数据。

除了神经网络之外，可以用于执行机器学习的另一种模型是决策树。决策树是监督机器学习模型的示例。对图17进行参考，其图示出了决策树200的示例。决策树200包括一系列节点。在操作阶段期间，将输入数据提供给决策树的顶部，并基于数据进行决策，以达到决策树底部处的特定输出。决策树200包括根节点205，其表示决策树的开始。在根节点205处，基于被馈送到树中的每个输入数据集合，针对该数据集合向下前进到树的哪个分支做出决策。在根节点205处对第一数据集合做出的决策可以使决策过程前进到决策节点210a。另一方面，对于在根节点205处的第二数据集合做出的决策可以使该决策过程前进到决策节点210b。

当该过程前进到决策节点210a、210b之一时，然后通过将某些准则应用于输入数据集合来做出与特定决策节点相关联的决策。然后，用此决策来确定该过程所前进到的决策树中的下一个节点。该下一个节点可以是另一个决策节点，诸如决策节点210c，或者它可以是终端节点(即叶子)，诸如终端节点215a、215b、215c、215d、215e。每个终端节点表示决策树的输出或目标值。因此，通过基于根节点205和每个后续决策节点处的输入值进行决策，模型最终识别出终端节点和对应的输出。因此，可以用决策树来从一个或多个输入值产生输出。

一种类型的决策树是分类树，其将一个或多个输入值分类为离散的类别。另一种类型的决策树是回归树，其中目标变量随输入值连续变化。

因此，如所描述的，可以在操作阶段期间使用决策树，以取决于输入值来输出分类和/或连续值。在训练阶段期间，可以通过基于输入数据中的值将输入数据划分为不同的子集来训练决策树。以递归的方式在每个子集上重复此过程，直到树中的节点处的子集中的数据点对输出都具有相同的值，或者在划分时不再为预测增加值。一旦训练了决策树，然后在操作阶段期间将其应用于新的输入数据，以确定先前未知的结果。

使用此类决策树存在的一个局限性是它们倾向于过度拟合被用来训练它们的数据。将数据分隔为子集直到所有数据点都对应于相同的输出为止，这过度拟合了训练数据，从而可能导致在操作阶段期间对未来输入数据集合的不良预测。为了克服该局限性，可以应用已知为随机森林的技术。在训练阶段期间，随机森林涉及使用随机选择的输入数据的不同子集来构建多个决策树。在操作阶段期间，将相同的输入提供给每个决策树。在分类的情况下，来自随机森林的输出是来自每个个体决策树的输出的模式。另一方面，在回归分析的情况下，来自随机森林的输出是来自每个个体决策树的输出的均值。应用该随机森林，其中对来自多个决策树的输出求平均，可以解决过度拟合数据的问题。

可以用于机器学习的另一种类型的模型是聚类算法，诸如k均值聚类算法。这是一种无监督机器学习，其被用来将不同的数据点指派到不同的群组中。该算法基于所提供的特征将每个数据点迭代地指派给k个群组之一。

对图18进行参考，其图示出了被分组为四个不同聚类(即，k＝4)的数据点的集合。在该示例中，每个数据点包括两个变量，并被示为被表示在二维空间中的某个位置处。每个聚类都具有关联的质心，其表示针对每个聚类的均值位置。例如，对于存在于二维空间的左上象限中的聚类，为该聚类定义质心290。

最初，在聚类算法被应用之前，所有数据点都未被指派给任何一个聚类。首先为四个聚类中的每个聚类定义质心。每个质心可以通过从数据点集合中随机选择一个数据点来定义，或者可以不参考数据点集合而随机生成。然后将其余数据点分别指派给四个聚类之一。每个数据点又被指派给聚类，其中针对该聚类的质心和数据点之间的平方欧几里德距离最小。每次将数据点添加到聚类时，针对该聚类的质心的位置都被更新，以反映针对该聚类的新均值。最终，所有数据点都被指派给k个聚类之一。

通过应用这种聚类算法，模型可以被应用来以无监督的方式对数据进行归类。

对图19进行参考，其图示出了整个过程300，通过该过程300可以将机器学习应用来分析数据。该图图示出了一个或多个数据源302，其可以是例如存储患者记录的一个或多个数据库。在S305处，从一个或多个数据源302中选择数据。取决于正被进行的特定请求来进行数据选择。例如，可以提取某个数据集合以用于分析患者的心血管风险。可以提取不同的数据集合以用于检测患者的卵巢癌。

在S310处，所选择的数据被富集和预处理。富集数据包括用更多信息来扩充原始数据。该信息可以允许数据被解释并被转换为标准格式。可以按需提供该信息。例如，基于接收到的原始数据，***确定需要进一步信息以提供给机器学习模型。可以检索该进一步信息，并将其应用来扩充来自所选择的原始数据的数据。

预处理步骤涉及：将在S305处检索到的原始数据转换为可以分析的标准格式。由于可以从多个来源中检索在S305处检索到的数据，因此该检索到的原始数据可以以多种不同格式存在。通过在S310处对数据进行预处理，将来自数据的信息转换为标准格式以进行分析。在S310处进行的预处理还包括任何必要的数据清理操作。对原始数据执行这些操作，以更正或移除数据中任何损坏或不准确的部分。

在S315a处，从由S310得到的预处理数据中提取特征和标签。特征提取包括从数据中提取适合于提供给机器学习模型的信息。这个阶段涉及从标准格式的数据中导出输入值(即分数)集合，所述输入值集合表示用于提供给机器学习模型的特征。这些特征和标签被用于在训练阶段期间训练一个或多个模型。标签表示来自模型的预期输出。特征分数和标签一起构成一个或多个训练数据集合。

在S320处，从数据中提取的特征和标签被用来训练从多个候选模型之中选择的模型。从适合于执行特定分析的候选模型集合中选择候选模型。例如，第一类型的模型可能适合于确定糖尿病患者的不同后果的概率。另一种类型的模型可能更适合于确定癌症患者的不同后果的概率。使用在S315a处提取的特征和标签以监督的方式训练所选择的模型。在特征提取过程之前进行模型选择，从数据项中提取的特征取决于所选择的模型。

在S320处的训练期间，调整模型的参数(例如，用于神经网络的权重)，以便从特征中再现标签。通过这样做，产生了经训练的模型。

在S315b处，为操作阶段执行特征提取。从数据项集合中确定表示特征的输入值(如上面针对步骤S305、S310和S315a所讨论的)，并在操作阶段期间将所述输入值提供给经训练的模型。在此步骤中确定的操作数据集合不包括训练数据集合中存在的标签。此外，每个操作数据集合都与不同的患者相关联。

在S325处，将经训练的模型应用于从在S315b处提供的数据集合中提取的特征。经训练的模型输出结果，例如关于患者负面后果的诊断或预测，所述结果在S330处可以以多种方式被分析。结果可以在用户接口上显示给用户。例如通过为患者提供建议的治疗，结果可以被用来通知决策制定。结果可以被用来执行进一步的分析。

在图19中的S335和S340处示出了与机器学习过程的重新训练和优化相关的其他步骤。应当意识到，尽管这些步骤与其他步骤一起被示为机器学习过程300的一部分，但是在实施例中，在S325处，它们可以不与模型的操作实时地或连续地执行。相反，它们可以与操作过程分开执行以用于从机器学习模型获得结果。

在S335处，对来自至少一个模型的输出的分析被用来执行至少一个模型的重新训练。可以取决于稍后日期提供的可以被用来优化模型的数据来执行重新训练。新近可用的数据可以被用来在训练数据集合中产生新的特征分数。

可以强调用于重新训练的需求的一种方式可能来自机器学习模型的输出阈值的变化，该机器学习模型会产生某些预测。在对模型进行初始训练后，在操作阶段期间，模型的某个值的输出可以指示患者的某种负面健康后果的某种概率。例如，在初始训练后，如果用于确定卵巢癌风险的机器学习模型输出值为0.6，则这可以指示该患者有50％的概率被转诊有关卵巢癌的咨询。但是，随着新类型的数据(例如新型扫描数据)变得可用，模型的输出对应于有50％的概率被转诊有关卵巢癌的咨询的患者的阈值上升(例如，达0.8)，因为没有被包括作为模型输入参数的扫描数据现在提供了模型未考虑的附加信息，使得模型的输出承载较小的权重。因此，当模型的输出的预测值在一定值处偏移一定量时，可以确定执行重新训练。

通过将新可用的数据添加到数据项集合中，然后如所述重新计算用于训练数据集合的分数，来执行重新训练。新的训练数据集合可以包括一个或多个新的特征分数，其可以表示如上面针对卵巢癌模型所讨论的新型扫描数据。使用包括新特征分数的新训练数据集合，相关的机器学习模型被更新和重新训练。例如，在机器学习是神经网络的情况下，通过向神经网络添加附加输入节点来更新机器学习模型。附加输入节点在训练阶段期间接收新的特征分数，以用于训练模型。当模型已被训练时，模型将接收包含新特征分数的操作数据集合，该新特征分数被输入到附加输入节点。

作为示例，模型可以被应用于患者数据以检测卵巢癌。在稍后的时间点处，发现新的健康数据变量可能对卵巢癌的预测有用。因此，模型被扩展以允许附加输入变量(即，与新的健康数据变量相关联的特征分数)。产生新的训练数据集合，包括针对每个患者的新的特征分数。可以以与旧的训练数据集合相同的方式生成新的训练数据集合的其余特征分数。然后，新的训练数据集合将被用来训练机器学习模型。然后，新的健康数据变量将被包括在后续的操作数据集合中，该操作数据集合被用来在操作阶段期间从新模型中获得结果。

在S340处，对机器学习管道中的一个或多个阶段进行优化。基于在S330处进行的分析和结果来进行该优化。例如，通过将机器学习的结果与未来测试结果进行比较而确定的机器学习准确性的指示可以被用来优化管道中的不同阶段。该优化可以涉及：比较来自不同模型的结果，并且响应于确定该选择的模型产生优于另一候选模型的结果而从候选模型之中选择模型。

该优化涉及：优化管道中的任何其他阶段，诸如在S305处修改数据选择，以便修改从数据库302中选择的数据，以通过一个或多个机器学习模型进行分析。该优化可以涉及：修改管道的富集阶段，以便将新的或不同类型的数据用于扩充数据集合。该优化可以涉及：在预处理期间修改原始数据被放置成的格式。该优化可以涉及：修改在S315a/S315b处执行的特征提取，从而提取不同的特征或使用不同的输入值来表示特征。

对图20进行参考，其图示出了数据处理***600，其可以被用来训练和/或运行一个或多个机器学习模型。经训练的一个或多个模型的操作以及一个或多个模型的训练可以在不同的***(均由***600举例说明)上或在同一***600上进行。***600还可以运行转换模块，其被用来产生用于训练和操作模型的特征分数。***600被示为单个封闭装置。然而，在一些实施例中，***600是分布式***，具有多个数据处理装置彼此通信地操作。***600可以包括用于代表一个或多个客户端设备执行处理的服务器、后端***等。

***600包括至少一个随机存取存储器610、至少一个只读存储器620、至少一个数据处理单元620、330和输入/输出接口640。存储器610、620存储用于输入到一个或多个模型的数据，并用于存储在一个或多个模型的执行期间执行的处理结果。存储器610、620中的至少一个存储与患者相关联的数据项以及由转换模块从数据项获得的训练和操作数据集合。存储器610、620中的至少一个另外存储计算机可执行代码，该计算机可执行代码在被执行时提供一个或多个机器学习模型和转换模块。数据处理单元630、640中的至少一个执行与一个或多个模型相关联的处理、模型的训练以及由模型使用的数据的任何必要的预处理。数据处理单元630、640中的至少一个执行计算机可执行代码以提供一个或多个模型和转换模块。经由接口640，***600接收用于构造训练数据集合的数据项和用于构造操作数据集合的数据项。***600另外经由接口650发送通过在输入数据上运行模型而产生的结果。

如所指出的，使用一个或多个模型在***600上处理数据，该***600可以代表被配置为与***600通信的一个或多个客户端设备来执行该处理。对图21进行参考，其图示出了电子设备700的示例，该电子设备700充当这样的客户端设备。电子设备700可以是移动用户设备(UE)、个人计算机(PC)、终端或工作站或一些其他形式的设备。

设备700包括接口730，它通过接口730来与***700发送和接收信号。接口730可以是被配置为通过无线电接口发送和接收通信的收发器装置。可以例如借助于无线电部分和相关联的天线布置来提供收发器装置。天线布置可以被布置在设备700的内部或外部。

设备700提供有至少一个数据处理实体715、至少一个随机存取存储器720、至少一个只读存储器725以及用于在软件和硬件辅助下执行任务的其他可能组件730，该其他可能组件730被设计来执行该任务，该任务包括访问***和其他通信设备的控制、访问以及与访问***和其他通信设备通信。至少一个随机存取存储器720和至少一个只读存储器725可以与可以是数据处理器的数据处理实体715通信。可以在适当的电路板上和/或芯片组中提供数据处理、存储和其他相关的控制装置。用户可以借助于诸如键盘710、语音命令、触敏屏幕或触摸板、其组合等的合适的用户接口来控制设备700的操作。还可以在设备700中提供显示器705、扬声器和麦克风。显示器705使得用户能够选择数据以供***600处理和/或查看处理的结果。此外，设备700可以包括其他设备的适当的连接器(有线或无线)和/或用于将外部配件(例如免提装备)连接到其上。

存储器720、725中的至少一个可以被配置为存储由***600用来构造操作和/或训练数据集合的数据项。至少一个数据处理实体715被配置为使这些数据项经由接口730被发送到***600以进行处理。至少一个数据处理实体715可以附加地或可替代地使指令经由接口730发送，以使数据项从另一实体600被检索并被递送给***以用于构造操作和/或训练数据集合。

设备700可以另外接收在***600上操作的一个或多个机器学习模型的处理结果(例如，负面健康后果的指示)。这些结果由接口730接收并存储在存储器720、725中的至少一个中。结果可以在显示器705上显示给设备700的用户。

Claims

1.一种计算机***，其用于生成与患者的负面健康后果相关的定量值，所述计算机***包括：

转换模块，所述转换模块被配置为接收多个数据项集合，每个集合与所述患者相关联，并且每个数据项包括描述符以及该描述符应用的时间，所述转换模块被配置为生成至少一个训练数据结构，所述至少一个训练数据结构包括针对每个患者的所选特征的阵列，每个所选特征与表示分数的数值相关联，所述分数指示该特征与所述负面健康后果的预测的相关性；以及指示所述患者是否表现所述负面健康后果的标签；和

至少一个机器学习模型，所述至少一个机器学习模型在所述至少一个训练数据结构上训练，以便可操作来为具有至少一些特征的患者生成与负面健康后果相关的定量值，但针对所述至少一些特征的负面健康后果的状况是未知的。

2.根据权利要求1所述的计算机***，其中所述转换模块被配置为生成多个训练数据结构，每个训练数据结构具有对应于不同的相应负面健康后果的不同标签；和

多个机器学习模型，相关于所述相应负面健康后果之一已经训练了每个模型。

3.根据权利要求2所述的计算机***，其中利用具有共同的所选特征集合的训练数据结构来训练利用指示相应不同的负面健康后果的标签所训练的每个机器学习模型。

4.根据权利要求2所述的计算机***，其中使用具有不同的所选特征集合的训练数据结构来训练相关于不同的相应负面健康后果所训练的每个机器学习模型，所述不同的所选特征集合具有包括至少一些共同特征的不同集合。

5.根据前述权利要求中任一项所述的计算机***，其中转换模型被配置为接收患者集合中的附加数据项，并且修改指示该患者集合受到所述附加数据项影响的每个特征的相关性的一个或多个分数并生成包括针对该患者的已修改的一个或多个分数的新训练数据结构。

6.根据权利要求1至4中任一项所述的计算机***，其中所述转换模块被配置为使用与所述数据项的所述描述符相关联的数值的与时间相关的操纵来生成所述分数。

7.根据权利要求6所述的计算机***，其中所述与时间相关的操纵包括衰减模型，其中如果在随后接收的数据项中未表示特定所选特征，则与该特定所选特征相关联的分数随时间减小。

8.根据权利要求1至4中任一项所述的计算机***，其中所述转换模块被配置为取决于包括针对特定特征的相关描述符的数据项的数量来生成与该特定特征相关联的分数，其中所述转换模块被配置为，当确定与所述特定特征相关联的所述分数时，为了确定与所述特定特征相关联的所述分数，将在时间窗口内发生的多个数据项评估为单个数据项。

9.根据权利要求1至4中任一项所述的计算机***，其中转换模型被配置为接收患者集合中的附加数据项，并生成包括由针对该患者集合的所述附加数据项所描述的新特征的新训练数据结构，其中所述计算机***包括使用所述新训练数据结构训练的另一机器学习模型。

10.根据权利要求1至4中任一项所述的计算机***，其中所述转换模块被配置为以原始格式接收多个患者的数据项集合，并且将所述原始格式的所述数据项映射为包括用于每个特征的预定指示符代码的标准格式，以形成所述描述符的一部分。

11.根据权利要求1至4中任一项所述的计算机***，其中所述特征选自：

症状；

对所述患者执行的测试或程序；

针对所述患者的测试结果；

针对所述患者的个人数据；

针对所述患者的上下文数据；和

家族史。

12.根据权利要求11所述的计算机***，其包括用于接收所述个人数据的接口，所述个人数据包括从至少一个传感器导出的传感器数据，所述至少一个传感器被配置为确定关于患者的生理信息、患者的年龄、患者的体重、患者的基因组信息、患者的种族、患者的血型等。

13.根据权利要求12所述的计算机***，其被配置为从所述患者所穿戴的至少一个可穿戴设备接收所述传感器数据。

14.根据权利要求11所述的计算机***，其被配置为从外部数据源导出上下文数据，所述上下文数据包括位置数据、物理环境数据(例如天气)、社交环境数据(例如剥夺指数)或针对所述患者的社交数据(例如所述患者的婚姻状况)。

15.根据权利要求1至4中任一项所述的计算机***，其中所述负面健康后果是疾病或疾病并发症。

16.根据权利要求1至4中任一项所述的计算机***，其中所述负面健康后果包括以下群组中的疾病：心血管疾病、癌症、呼吸***疾病和糖尿病。

17.根据权利要求1至4中任一项所述的计算机***，其中所述负面健康后果是包括以下至少一种的疾病并发症：肾病；神经病变；视网膜病变；糖尿病足；和房颤。

18.根据权利要求1至4中任一项所述的计算机***，其中所述转换模块包括：在其上执行计算机程序的至少一个计算机，所述计算机程序被配置为从所接收的多个数据项集合中生成所述至少一个训练数据结构；以及接口，所述接口用于接收多个患者数据项集合并连接来将它们供应给所述至少一个计算机。

19.一种用于训练机器学习模型以便可操作来生成与患者的负面健康后果相关的定量值的计算机实现的方法，所述方法包括：

从多个患者数据项集合中生成至少一个训练数据结构，每个患者集合与一个患者相关联，并且每个数据项都包括健康影响事件的描述符以及该事件影响所述患者的时间，其中所述训练数据结构包括：针对每个患者的所选特征的阵列，每个所选特征与表示分数的数值相关联，该分数指示该特征与所述负面健康后果的预测的相关性；以及指示所述患者是否表现所述负面健康后果的标签：

将至少一个训练数据结构应用于至少一个机器学习模型，从而训练所述机器学习模型。

20.根据权利要求19所述的方法，其包括以下步骤：使用多个所述训练数据结构来训练相应的多个机器学习模型，每个训练数据结构具有与不同的负面健康后果相关的不同标签。