CN111133526A - 发掘可用于机器学习技术中的新颖特征,例如用于诊断医疗状况的机器学习技术 - Google Patents
发掘可用于机器学习技术中的新颖特征,例如用于诊断医疗状况的机器学习技术 Download PDFInfo
- Publication number
- CN111133526A CN111133526A CN201880061507.4A CN201880061507A CN111133526A CN 111133526 A CN111133526 A CN 111133526A CN 201880061507 A CN201880061507 A CN 201880061507A CN 111133526 A CN111133526 A CN 111133526A
- Authority
- CN
- China
- Prior art keywords
- feature
- data
- generator
- novelty
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000010801 machine learning Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims description 147
- 230000035772 mutation Effects 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 14
- 238000005065 mining Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 8
- 230000006798 recombination Effects 0.000 claims description 4
- 238000005215 recombination Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 25
- 239000000284 extract Substances 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 6
- 210000000748 cardiovascular system Anatomy 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 208000024172 Cardiovascular disease Diseases 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- 102000017011 Glycated Hemoglobin A Human genes 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 210000005242 cardiac chamber Anatomy 0.000 description 2
- 230000000747 cardiac effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 208000029078 coronary artery disease Diseases 0.000 description 2
- 238000002565 electrocardiography Methods 0.000 description 2
- 239000008103 glucose Substances 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000005226 mechanical processes and functions Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 108010014663 Glycated Hemoglobin A Proteins 0.000 description 1
- 208000031481 Pathologic Constriction Diseases 0.000 description 1
- 206010049418 Sudden Cardiac Death Diseases 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 229920006037 cross link polymer Polymers 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000000537 electroencephalography Methods 0.000 description 1
- 230000010429 evolutionary process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 108091005995 glycated hemoglobin Proteins 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 208000010125 myocardial infarction Diseases 0.000 description 1
- 208000031225 myocardial ischemia Diseases 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 238000000718 qrs complex Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 231100000430 skin reaction Toxicity 0.000 description 1
- 208000037804 stenosis Diseases 0.000 description 1
- 230000036262 stenosis Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000003325 tomography Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Z—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
- G16Z99/00—Subject matter not provided for in other main groups of this subclass
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Physiology (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
一种设施,提供用于发掘要在机器学习技术中使用的新颖特征的***和方法。该设施针对多个对象接收一组或多组数据,这些数据表示一段时间内对象的某些输出或状况或捕获对象的某些物理方面。然后,该设施从数据中提取或计算值,并将一个或多个特征生成器应用于提取的值。基于特征生成器的输出,该设施识别用于至少一个机器学习过程的新颖特征生成器,并进一步对新颖特征生成器进行突变,然后可以将新颖特征生成器应用于接收到的数据以识别其他新颖特征生成器。
Description
相关申请的交叉引用
本申请要求于2017年7月18日提交的美国专利申请号15/653,433的优先权,其标题为“发掘用于机器学习技术中的新颖特征,例如用于诊断医疗状况的机器学习技术”,在此通过引用整体并入本文。
相关应用
本申请涉及2013年8月19日提交的标题为“用于表征心血管***的无创方法和***”的美国专利申请号13/970,580,现在是美国专利号9,289,150;2016年3月4日提交的题为“用于表征心血管***的无创方法和***”的美国专利申请号15/061,090号;2017年5月5日提交的标题为“用于表征心血管***的无创方法和***”的美国专利申请号15/588,148;2012年9月6日提交的标题为“用于评估电生理信号的***和方法”的美国专利申请号13/605,364,现在为美国专利号8,923,958;2013年8月19日提交的标题为“用于表征心血管***的全因死亡率和突发性心脏病死亡风险的无创方法和***”的美国专利申请13/970,582,现在为美国专利号9,408,543;2016年7月11日提交的标题为“用于表征心血管***的全因死亡率和突发性心脏病死亡风险的无创方法和***”的美国专利申请号15/207,214;2014年6月4日提交的标题为“用于估算哺乳动物心脏腔大小和机械功能的无创心电图方法”的美国专利申请号14/295,615;2013年11月12日提交的标题为“用于估计哺乳动物心脏腔大小和机械功能的无创心电图方法”的美国专利申请号14/077,993;2015年1月14日提交的标题为“用于估计葡萄糖,糖化血红蛋白和其他血液成分的无创方法”的美国专利申请号14/596,541,现为美国专利9,597,021;2017年3月16日提交的标题为“用于估计葡萄糖,糖基化血红蛋白和其他血液成分的无创方法”的美国专利申请号15/460,341;2015年2月12日提交的标题为“用于从单通道数据表征心血管***的方法和***”的美国专利申请号14/620,388;2016年6月24日提交的标题为“使用数学分析和机器学习来诊断疾病的方法和***”的美国专利申请号15/192,639;2016年8月26日提交的标题为“生物信号获取装置”的美国专利申请号15/248,838;2016年9月21日提交的标题为“用于心动相空间层析成像的图形用户界面”的美国临时专利申请号62/397,895;2017年6月26日提交的标题为“用于测量心肌缺血,狭窄识别,局部化和分流储备的无创方法和***”的美国专利申请号15/633,330;以及与本文同时提交的标题为“发掘用于机器学习技术的基因组”的美国专利申请号15/653,441。上述申请和已授权的专利中的每一个均通过引用整体并入本文。
背景技术
机器学***均值,以及关于这些信号的其他统计信息。机器学习技术可以使用这些特征来生成和调整将这些特征与一个或多个状况,例如某种形式的心血管疾病(CVD),包括冠状动脉疾病(CAD))相关的模型,然后将该模型应用于具有未知结果的数据来源,例如未诊断的患者或未来的天气模式,等等。通常,这些功能是由数据科学家与领域专家一起手动选择和组合的。
附图的简要说明
图1A-1G是示出根据一些示例的可以应用于特征生成器的多种类型的突变的数据结构图。
图2是示出在一些示例中设施在其中操作的环境的框图。
图3是示出一些示例中的发掘组件的处理的流程图。
图4是示出一些示例中的处理组件的处理的流程图。
图5是示出了在一些示例中的应用特征生成器组件的处理的流程图。
图6是示出了在一些示例中的识别新颖特征向量组件的处理的流程图。
具体实施方式
因为机器学习技术依赖于特征来生成预测模型,所以特征识别和生成的过程通常是机器学习过程的重要部分。发明人已经认识到,为生成更精确的模型提供了基础的手动识别特征是昂贵和费时的(甚至更难以生成)。因此,发明人已经设想并实践执行自动特征发掘的设施。
在一些示例中,该设施作为机器学习流水线的一部分操作,该机器学习流水线基于时间序列和/或其他信号,例如,生理信号,来构建和评估预测模型,例如,用于疾病诊断的预测模型。机器学习过程使用特征来识别训练数据组内的模式,并基于这些模式生成预测模型。可以使用验证数据组(即,结果已知但未用于训练模型的数据组)验证这些预测模型,并将其应用于新的输入数据,以便从输入数据预测结果,例如提供对医疗状况的诊断等。当生成或获取新数据和新特征时,机器学习过程通过合并新特征,并在某些情况下舍弃其他特征,例如那些被确定与其他功能过于相似的其他特征,来改善这些模型的预测能力。
在一些示例中,设施寻求识别特征生成器的组,其每个从每个输入数据组中提取一个或多个值,然后组合和/或操作提取的值。该设施通过将特征生成器的每一个应用于一组训练观测来评估特征生成器。对于每个特征生成器,通过执行它对每个训练观测值指定的值提取和组合/操作而生成的一组值称为特征生成器的“特征向量”。设施将这些特征向量相互比较以评估其新颖性(即它们与其他特征向量如何不同)。生成识别为新颖的特征向量的特征生成器被添加到可用的特征组中,以用作由机器学习流水线构建和评估的模型的输入。此外,对用于生成识别为新颖的特征向量的每个特征生成器被修改,以生成新一代的特征生成器。该设施通过评估他们从训练观察中生成的特征向量的新颖性,类似地评估新一代特征生成器。该设施经过多代的重复,为机器学习过程提供了更多功能。
作为例子,用于发掘要在机器学习技术中使用的新颖特征的设施可以用于医学诊断预测建模任务。在该例子中,该设施针对多个患者或受试者接收一组或多组生理数据,该一组或多组生理数据与一段时间内(例如,小于一秒,几秒钟,大约十秒钟,大约30秒以及最多大约五分钟,大约一个小时或更长的时间等)的某种生理输出或患者的状况有关,例如脑电图等。这些数据可以与设施的操作实时地或接近实时地或几乎同时地被接收,或者它们可以在更早的时间被接收。在某些情况下,设施会丢弃信号的某些部分,以确保来自每个患者的信号以稳定且一致的初始状态开始。此外,可以将数据归一化以去除潜在的误导性信息。例如,该设施可以归一化信号数据的幅度(例如,变换为z分数(z-score)),以解决由传感器接触或其他非生理数据引起的信号强度的变化。作为另一例子,在心脏信号的情况下,设施可以执行峰值搜索并丢弃信号中识别出的第一个心跳之前和信号中识别出的最后一个心跳之后的任何数据。
在一些示例中,该设施将一组特征生成器应用于一组信号,以针对信号和特征生成器的每种组合生成该信号的特征值。因此,每个特征值代表基础信号数据的某些属性。在一个示例中,设施接收1000个患者中的每个患者的患者数据,并将一个或多个特征生成器应用于该数据,以针对特征生成器对单个患者的数据的每次应用生成特征值(或一组特征值)。该设施在“特征向量”中收集由单个特征生成器生成的特征值,以使特征向量为每个患者存储一个特征值。一旦生成了特征向量,就可以将它们进行比较以确定每个特征向量相对于其他特征向量的每一个如何不同。该设施为每个特征向量计算距离度量,以评估相应特征生成器的新颖性。基于评估的新颖性,设施(1)提供特征生成器,这些特征生成器将新颖的特征向量生成到机器学习过程中,以使得新的预测模型以特征生成器为基础;以及(2)修改这些特征生成器以创建新一代的特征生成器。该设施重复此进化过程,以识别甚至更多的新颖功能,供机器学习过程使用。
在一些示例中,对于每个接收到的数据组,设施计算或识别来自数据的一个或多个值的分离组。例如,在将数据作为心电图的一部分生成的情况下,设施识别数据中的全局和局部最大值和最小值,从数据中计算频率/周期信息,在特定时间段内计算数据的平均值(例如,在QRS复合波期间生成的平均持续时间和值),等等。在某些情况下,设施变换接收到的数据并从变换后的数据中提取多组一个或多个值。该设施可以通过多种方式变换接收到的信号数据,例如获取数据的一个或多个(连续)导数,获取数据的一个或多个偏导数,对数据进行积分,计算数据的梯度,对数据应用函数,应用傅立叶变换,应用线性或矩阵变换,生成拓扑度量/特征,生成计算几何度量/功能,生成差分流形度量/特征等。以这种方式,该设施生成数据的多个方面(perspective),以生成多种特征的不同的组。尽管通过例子的方式提供了这些变换,但是本领域的普通技术人员将认识到可以以多种方式来变换数据。
在一个例子中,该设施接收多个输入信号(例如,由连接到患者的不同电极或导线收集的输入信号,多峰信号,例如来自宽带生物电势测量设备导线和SpO2(血氧饱和度)通道的信号等等和/或变换后的信号,并通过为每个信号计算采样周期内信号的平均值,从信号数据中提取值。在该例子中,表示了每个患者四个信号,但是本领域的普通技术人员将认识到,可以监视和/或接收任何数量的信号以用于设施的处理和进一步分析。因此,在此例子中,每个患者的提取数据可以表示为这些随时间推移的一组平均值,例如:
表1
表1表示n位患者中每位患者的一组平均信号值(A,B,C和D)。尽管此处使用平均值,但是本领域普通技术人员将认识到,可以从基础数据信号中提取或计算任何类型的数据,例如信号超过阈值的时间量,一个信号的值而另一个信号的值超过阈值,依此类推。
在一些示例中,在已经从接收到的信号中提取数据之后,设施将一个或多个特征生成器应用于接收到的或生成的数据,诸如提取的数据,原始或预处理的信号数据,变换的数据等等。特征生成器接收信号数据的至少一部分或表示作为输入,并生成相应的输出值(或一组值)(即“特征”)。一组特征生成器包括以下等式:
F1=A+C-D, (等式1)
F3=S(1)*D, (等式3)
其中,A,B,C和D分别表示从特定患者的数据中提取的值,而S(t)表示每个信号在时间t处的信号值。例如,在等式1中,F1代表特征的名称,而等式A+C-D代表相应的特征生成器。在某些情况下,该设施使用复合特征生成器,其中一个特征生成器充当另一个特征生成器的输入,例如:
在此示例中,该设施将特征生成器应用于表1中表示的每个患者的提取数据,以为每个特征生成器生成三个值的特征向量(每个患者一个),例如下面的表2中所示:
表2
在此例子中,设施已将每个特征生成器F1,F2,和F3应用于表1中所示的提取数据,以为每个特征生成器生成包括每个患者的值的相应特征向量。例如,通过将特征生成器F1应用于提取的数据而生成的特征向量包括患者1的值-29.76,患者2的值-0.6,等等。因此,对于每个特定特征生成器,每个特征向量基于每个患者的生理数据的至少一部分(即,特征生成器所应用的生理数据中表示的患者)代表相应特征生成器的签名(不一定是唯一的)。在一些示例中,特征生成器使用不同的结构或模型来表达,例如表达树,神经网络等。本领域的普通技术人员将认识到,该设施可以在特征向量的生成中采用任何数量的特征生成器和任何数量的生理学数据组(或其一部分)。在一些示例中,设施随机地选择多个先前生成的特征生成器以用于生成特征向量,而不是采用每个可用的特征生成器。在一些示例中,设施通过例如随机地生成表达树,将权重随机分配给神经网络内的连接等,来创建和/或修改特征生成器。
在一些示例中,在设施生成多个特征向量之后,设施使用某种形式的新颖性搜索来识别所生成的特征向量中最“新颖”的特征向量。新颖性对应于特定特征向量与其他特征向量的比较组(由当前迭代过程中设施生成的任何特征向量以及任何早期迭代中选择的特征生成器生成的特征向量组成)之间的差如何;与比较组的特征向量的差越大,新颖性就越大。该设施使用距离的形式作为新颖性的度量(即,每个特征向量与其他特征向量之间的距离多远)。在这种情况下,对于每个生成的特征向量,设施都会计算该特征向量与其他每个生成的特征向量之间的距离,并对生成的距离值进行合计,例如计算特征向量的平均值或均值(例如算术,几何,调和等)距离值,或特征向量与其他每个生成的特征向量之间的总(和)距离,确定特征向量的模式距离值,中值距离值,最大距离值,等等。例如,使用表2的特征向量(针对患者1,2,和n),可以按以下方式计算每组特征向量的距离:
在该例子中,已经计算了每个特征向量之间的总欧几里德距离,作为用于计算两个向量中的每个向量之间的差的手段。除了由特征生成器的当前组(即,当前代)生成的特征向量之外,该设施还包括由较早代的特征生成器生成的特征向量。在一些例子中,设施在比较之前向每个特征向量施加权重,例如随机生成的权重,和/或归一化每组特征向量。因此,此例子中每个特征向量的距离测量如下:
表3
在该例子中,设施基于所计算的距离来识别最“新颖的”特征向量,其对于每个特征向量起着“新颖性得分”或“匹配(fitness)得分”的作用。设施识别与其他向量的平均距离最大的特征向量(例如,由F3生成的特征向量),最大距离最大的特征向量(例如,由F1和F3生成的特征向量)等等。在一些例子中,所识别的新颖特征向量的数量被固定(或封顶)为预定数量,例如5,10,100,500等。在其他例子中,要识别的新颖特征向量的数量是动态确定的,例如,基于新颖性分数分析的特征向量的前10%,具有新颖性分数大于超过所分析特征向量的平均新颖性分数的预定数量的标准偏差的任何特征向量,等等。然后,可以将生成每个已识别的新颖特征向量的特征生成器添加到可用的特征组中,以用作由机器学习流水线构建和评估的模型的输入。这些模型可以应用于患者数据,例如用于诊断,预测,治疗,或其他分析,科学,健康相关或其他目的。
在一些示例中,除了提供用于生成所识别的新颖特征向量以供机器学习过程使用的特征生成器之外,该设施还随机地突变或修改用于生成所识别的新颖特征向量的特征生成器。每个突变都会影响相应特征生成器中的某些更改,并创建新版本的特征生成器,可用于为新一代特征生成器做出贡献。该设施使用此新特征生成器生成新特征向量,然后评估新特征向量的新颖性。此外,可以进一步对相应的特征生成器进行突变,以继续进行特征向量和特征代的创建过程。例如,可以通过随机选择等式中的一个或多个元素(例如,随机选择的元素)并将选定的元素替换为其他元素,来使以等式形式表示的特征生成器,例如F10=A+C-D)发生突变。在此示例中,可以通过用B替换A以创建F11=B+C-D或用替换C-D来创建 来更改等式。在这种情况下,已包括下标0和1以表示每个特征生成器的代标记或计数。换句话说,F10代表第0代(即第一代)的以上(等式1)的F1,F11代表了第1代(即第二代)的F1的突变版本,依此类推。在某些情况下,较早的一代(或其变换)作为元素包含在后续的一代中,例如或
图1A-1G包括数据结构图,其示出了根据所公开的技术的一些示例的可以应用于特征生成器的多种类型的突变。图1A表示与F10一致的表达式树,而图1B表示与F20一致的表达式树。在此例子中,每个等式均以表达式树的形式表示。图1C和1D表示F10的点突变。对表达式树的点突变导致对表达式树中一个或多个节点的修改,例如用另一个值替换一个值,变换一个值,用另一个运算符替换一个运算符,等等。在图1C中,设施用表示乘法运算符的节点101C替换了图1A中的加法运算符101A;因此,在此例子中,F11=A×(C-D)。在图1D中,设施已对节点101D,102D,103D,和104D中的每一个进行了突变:节点101D已将加法运算符节点101A替换为乘法运算符,节点102D已将节点102A的A替换为B,节点103D已将减法运算符节点103A替换为加法运算符,并且节点104D已将节点104D的D替换为值7;因此,在此例子中,F11=B×(C+7)。
在某些情况下,设施使用一种或多种有性繁殖技术对特征生成器进行突变,该有性繁殖技术允许将两个不同特征生成器的至少一部分进行组合,例如随机重组。图1E代表F10的“随机重组”突变。在随机重组中,来自一个或多个表达树的子树被拼接在一起。在此例子中,子树105A与子树105B拼接在一起,导致在此示例中F11=A+A*S(4)。图1F表示F20的子树突变。在子树突变中,将表达树的子树替换为另一子树,例如随机生成的子树,或从另一表达树中(例如,随机地)选择的子树,等等。在此例子中,子树106B(单个节点)被图1A的整个表达式树替换,导致在这个例子中本领域普通技术人员将认识到,该设施可以将其他突变应用于特征生成器,并且可以将任意数量的突变同时应用于特征生成器的一个或多个元素。例如,该设施可以对表达树的一个元素执行子树突变,同时还可以对表达树的一个或多个节点执行点突变。
图1G表示神经网络100和相应连接权重(w0-w7)的多组120,每组连接权重对应于神经网络的不同代。在一些例子中,通过针对每个权重调用随机数生成器以生成权重的值,来生成神经网络的权重的初始组。类似地,可以通过再次调用随机数生成器以生成权重的新值来生成后代。在一些示例中,该设施不是简单地调用随机数生成器来生成新的权重,而是通过对先前生成的权重进行某种变换来对每个权重进行突变,例如w0(next)=w0(previous)*rand(MAX),其中w0(next)代表正在生成的一代中的连接权重w0的值,w0(previous)代表最近的上一代连接权重中的连接权重w0的值,rand()代表由随机数生成器生成的值,而MAX表示对随机数生成器的最大值约束,可以由用户提供或由设施自动生成。本领域普通技术人员将认识到,可以以多种方式随机生成和/或变换每个权重。
在一些示例中,在对特征生成器进行突变之后,该设施通过将下一代特征生成器应用于患者数据,识别由新一代特征生成器的特征生成器生成的新颖特征向量,并提供识别的新颖特征向量用于通过机器学习过程训练和测试诊断模型,来继续新颖特征发掘过程。此外,该设施还对生成新颖特征的特征生成器进行了突变。设施执行此过程,直到到达终点为止,例如当一代特征生成器生成少于阈值数量的新颖特征向量(例如,大约五,十,100等)时,预定数量的代被生成(例如,大约三个,15,50,1000等),等等。
以这种方式,该设施提供了用于生成和识别新颖特征组的新技术,这些新特征组可以用作机器学习过程的一部分,以训练诊断或预测模型。因此,所公开的技术极大地提高了以下方面的诊断能力和价值:1)通过机器学习过程生成的预测模型;2)用来收集基础数据的测量装置和***,例如宽带生物电势测量设备,通过增强由这些装置生成的数据的价值,以及增强它们快速而较少侵入性地诊断疾病(例如CVD)或预测未来结果,例如患心肌梗塞的可能性,的能力。因此,所公开的技术基于分析的数据解决了与诊断或预测结果有关的问题。例如,在医学领域,这些技术可用于获得更早且更准确的诊断,从而减少验证患者体内某种状况是否存在或缺乏所需的全部测试数量,与进行初步诊断所需的其他测试相关的费用,等等。此外,所公开的技术通过提供识别和生成新颖特征的新方法以及因此用于训练诊断和预测模型的新颖特征组或向量来提高诊断机器学习技术的有效性。
图2是说明根据所公开技术的一些示例的设施在其中操作的环境200的框图。在该例子中,环境200包括服务提供者210,信号记录器230,数据提供者240,患者250,和网络260。在该例子中,服务提供者包括设施220,设施220包括发掘组件221,处理组件222,应用特征生成器组件223,识别新颖特征向量组件224,患者数据存储器225,模型存储器226,特征向量存储器227,和特征生成器存储器228。设施调用发掘组件221以基于接收到的数据来识别和突变特征生成器。发掘组件调用处理组件222,以处理和变换患者信号数据,例如来自诊断机(例如,宽带生物电势测量设备)的原始信号数据,3-D图像数据等。应用特征生成器组件223由发掘组件调用,以将一组一个或多个特征生成器应用于已处理和变换后的患者信号数据。由发掘组件调用识别新颖特征向量组件224,以从例如由一个或多个特征生成器生成的一组特征向量中识别出最新颖的特征向量。患者数据存储器225包括生理患者数据,例如原始生理数据,变换的生理数据,个人(biographical)信息,人口统计信息等。这些数据可以匿名存储以保护每个相应患者的隐私,并且可以被处理和加密为确保其传输和存储符合任何管辖法律及其实施法规,例如1996年美国健康保险可移植性和责任法案(经修订),欧洲数据保护指令,加拿大个人信息保护和电子文档法案,1988年的澳大利亚隐私法,2015年的日本个人信息保护法(经修订),州和省法律法规等。模型存储器226存储有关通过将机器学习技术应用于训练数据而生成的模型的信息,例如Christopher M.Bishop在《模式识别和机器学习(2006)》(国会图书馆控制编号:2006922522;ISBN-10:0-387-31073-8)中描述的机器学习技术,其全部内容通过引用合并于此。特征向量存储器227存储通过将一个或多个特征生成器应用于一组生理数据而生成的特征向量组。特征生成器存储器228存储可以应用于患者生理数据并且可以包括特征生成器的多代的特征生成器的组。在该例子中,信号记录器230经由电极235连接至患者250,并且包括设施220,一个或多个输出装置232,例如显示器,打印机,扬声器等,以及一个或多个输入装置234,例如,设置控件,键盘,生物特征数据读取器等。因此,如本例子所示,该设备可以配置为从患者和其他诊断设备远程操作和/或与诸如宽带生物电势测量设备(即配置为捕获未经过滤的电生理信号的任何装置,包括那些频谱成分未改变的信号)的诊断设备一起使用或作为诊断设备的一部分。因此,该设施可以被配置为在读取生理数据时实时操作和/或可以被应用于先前记录的生理数据。数据提供者240,每个数据提供者包括数据存储器242,可以提供信息以供设施分析或使用,例如工作场所之外的记录的生理患者数据(例如,在无法访问房屋设施的医院或诊所,第三方数据提供者等),在其他地方生成或生成的特征向量和/或特征生成器,等等。网络260表示通信链路,环境200的多种元件可以通过该通信链路进行通信,例如互联网,局域网等。
在多种示例中,这些计算机***和其他装置可以包括服务器计算机***,台式计算机***,膝上型计算机***,上网本,平板电脑,移动电话,个人数字助理,电视,照相机,汽车计算机,电子媒体播放器,电器,可穿戴装置,其他硬件和/或类似物。在一些示例中,该设施可以在专用计算***上运行,例如宽带生物电势测量设备(或配置为捕获未过滤的电生理信号,包括具有不变频谱成分的电生理信号的任何装置),脑电图设备,放射学设备,声音录音设备,等等。在多种示例中,计算机***和装置包括以下一个或多个:被配置为执行计算机程序的中央处理单元(“CPU”);计算机存储器,其被配置为当程序和数据被使用时,存储程序和数据,包括正在测试的多线程程序,调试器,设施(facility),包括内核的操作***,以及设备驱动器;持久性存储装置,例如配置为持久性存储程序和数据(例如,固件等)的硬盘驱动器或闪存驱动器;计算机可读存储介质驱动器,例如软盘,闪存,CD-ROM,或DVD驱动器,配置为读取存储在计算机可读存储介质,例如软盘,闪存设备,CD-ROM,或DVD中的程序和数据;以及配置为将计算机***连接到其他计算机***以发送和/或接收数据的网络连接,例如通过互联网,局域网(LAN),广域网(WAN),点对点拨号连接,手机网络,或其他网络及在多种示例中,包括路由器,交换机,和多种类型的发射器,接收器,或计算机可读传输介质的其他网络的网络硬件。尽管可以将如上所述配置的计算机***用于支持设施的操作,但是本领域技术人员将容易认识到,可以使用多种类型和配置并且具有多种组件的装置来实现该设施。可以在由一个或多个计算机或其他装置执行的计算机可执行指令,例如程序模块,的一般情境中描述设施的元件。通常,程序模块包括被配置为执行特定任务或实现特定抽象数据类型并且可以被加密的例程,程序,对象,组件,数据结构,和/或类似物。此外,在多种例子中,可以根据需要组合或分布程序模块的功能。此外,显示页面可以以多种方式中的任何一种来实现,例如以C++或以XML(可扩展标记语言),HTML(超文本标记语言),JavaScript,AJAX(异步JavaScript和XML)技术中的网页,或创建可显示数据的任何脚本或方法,例如无线访问协议(WAP)来实现。典型地,程序模块的功能可以在多种示例中根据需要进行组合或分布,包括基于云的实现,Web应用,用于移动装置的移动应用,等。
以下讨论提供了可以在其中实现所公开的技术的合适的计算环境的简要,一般的描述。尽管不是必需的,但是在计算机可执行指令的一般情境中描述了所公开技术的多个方面,例如,由通用数据处理装置执行的例程,诸如服务器计算机,无线设备,或个人计算机。相关领域的技术人员将理解,可以用其他通信,数据处理,或计算机***配置来实践所公开技术的多个方面,包括:互联网或具有其他网络功能的电器,手持式装置(包括个人数字助理(PDA)),可穿戴计算机(例如,面向健身的可穿戴计算装置),各种形式的蜂窝电话或移动电话(包括在IP上的语音(VoIP)电话),非智能终端(dumb terminal),媒体播放器,游戏装置,多处理器***,基于微处理器或可编程的消费类电子产品,机顶盒,网络PC,小型计算机,大型计算机等。实际上,术语“计算机”,“服务器”,“主机”,“主机***”等在本文中通常可互换使用,并且是指任何上述装置和***,以及任何数据处理器。
所公开技术的多个方面可以体现在专用计算机或数据处理器中,例如专用集成电路(ASIC),现场可编程门阵列(FPGA),图形处理单元(GPU),多核处理器,等等,它们被特别地编程,配置,或构造为执行在此详细解释的一个或多个计算机可执行指令。尽管所公开的技术的某些方面,例如某些功能,被描述为仅在单个设备上执行,但是所公开的技术也可以在分布式计算环境中实践,在分布式计算环境中功能或模块在不同的处理设备之间共享,这些功能或模块通过通信网络,例如局域网(LAN),广域网(WAN)或互联网连接。在分布式计算环境中,程序模块可以位于本地和远程存储装置备中。
所公开技术的多个方面可以被存储或分布在有形计算机可读介质上,该有形计算机可读介质包括磁性或光学可读计算机磁盘,硬接线或预编程的芯片(例如,EEPROM半导体芯片),纳米技术存储器,生物存储器,或其他计算机可读存储介质。可替代地,在所公开技术的方面下的计算机实现的指令,数据结构,屏幕显示,和其他数据可以在一段时间内在互联网上或在其他网络(包括无线网络)上,在传播介质(例如,电磁波,声波等)上的传播信号上分布,或它们也可以在任何模拟或数字网络(分组交换,电路交换,或其他方案)上被提供。此外,术语计算机可读存储介质不包括信号(例如,传播信号)或瞬态介质。
图3是示出了根据所公开技术的一些示例的发掘组件221的处理的流程图。设施调用发掘组件221以基于所选患者数据来识别新颖特征向量。在框305中,该组件接收生理信号数据,例如从信号记录器直接接收的原始信号数据,从另一设备或站点先前生成的生理信号等。存在几种用于从患者收集和分析生理信号(例如,电生理信号,生物信号)的技术用于诊断和其他目的,包括,例如,活动***,超声心动图,宽带生物电势测量设备,脑电图,肌电图,眼电图,皮肤电反应,心率监测器,磁共振成像,脑磁图,肌力图,可穿戴设备技术装置(例如FITBIT)等。虽然这些***提供的数据有助于识别医疗问题和诊断医疗状况,但它们通常只是诊断过程的起点。此外,鉴于大多数此类***的特定性质,通常会对其进行分析的数据进行过度过滤,以降低***本身或技术人员,医师,或其他医疗保健提供者的复杂性(在这种情况下,以降低视觉复杂性等),从而消除可能具有未开发诊断价值的数据。在框310中,该组件调用过程信号数据组件以处理和变换接收到的信号数据,这可以生成多组数据和变换后的数据。在框315中,该组件将生成值设置为等于0。在框320中,该组件通过例如随机生成表达式树,随机生成神经网络的一组权重,随机突变一组先前生成的特征生成器中的一个或多个,依此类推,来生成一个或多个特征生成器。在框325中,该组件调用应用特征生成器组件以将所生成的特征生成器应用于一组或多组处理信号数据以生成一组特征向量。在框330中,组件调用识别新颖特征向量组件以从特征生成器所生成的一组特征向量中识别出最新颖的特征向量。在框335中,组件将生成所识别的特征向量的特征生成器存储在例如特征生成器存储器中。在框340中,该组件增加代变量。在判定框345中,如果代变量大于或等于代阈值,则该组件完成,否则该组件在框350处继续。该组件还可以使用其他停止条件,例如不会生成至少阈值数量的新颖特征向量的特征生成器的几个代(a number ofgenerations)。在框350中,组件复制并突变所识别的特征生成器,然后循环回到框325,以将经突变的特征生成器应用于一组或多组经处理的信号数据。如上所述,组件可以将任何一种或多种类型的突变应用于特征生成器,例如将多点突变和/或随机重组应用于一个或多个表达树,随机生成神经网络的一组连接权重,等等。
图4是示出了根据所公开技术的一些示例的处理组件222的处理的流程图。处理组件222由发掘组件调用以处理和变换患者信号数据。在框405至465中,该组件循环遍历一组接收信号(或数据组的组)中的每个信号(或数据组),每个信号代表从患者接收的生理数据。在框410中,该组件对接收到的信号进行预处理,例如对信号应用一个或多个信号滤波器,对数据执行峰值搜索并丢弃无关信息,对接收信号进行下采样,对接收信号进行上采样,对接收信号进行子采样,将模拟信号变换为数字信号,将图像数据变换为信号数据等。在框415中,组件将预处理的信号存储在例如患者数据存储器中。信号数据可以匿名存储(即,没有显式或隐式地识别相应的患者等)。然而,与同一患者相关联的信号数据的不同实例可以与匿名的唯一标识符相关联,使得来自单个患者的多个信号可以结合用于训练和诊断目的。在框420中,该组件从所存储的信号数据中提取一个或多个值。在框425中,组件存储一个或多个提取的值。在框430中,该组件识别要应用于信号的任何变换。例如,设施可以存储对一组变换或变换函数(例如,傅里叶变换,应用于信号的函数,导数,偏导数等)的指示,以应用于特定信号。作为另一个例子,该设施可以从变换目录中随机选择一个或多个变换以应用于信号数据。在框435至460中,该组件循环遍历每个变换并将该变换应用于信号数据。在框440中,组件将变换应用于信号(例如,相对于特定变量计算三阶导数,计算通过将一个函数应用于信号数据而生成的复合函数的结果(即,表示信号的函数)等。在框445中,该组件将变换后的信号数据存储在例如患者数据存储器中;在框450中,该组件从变换后的信号数据中提取一个或多个值;在框455中,该组件存储一个或多个提取的值。在框460中,如果有任何识别的变换要应用,则该组件选择下一个变换并循环回到框435,以将该变换应用于信号数据,否则该组件在框465继续进行。在框465,如果有任何信号尚待分析,则组件选择下一个信号并循环回到框405以处理下一个信号,否则组件完成。
图5是示出了根据所公开技术的一些示例的应用特征生成器组件223的处理的流程图。发掘组件调用应用特征生成器223组件,以将一组一个或多个特征生成器应用于信号数据,例如预处理和变换后的信号数据,建模信号数据等。在框510至570中,该组件循环遍历接收到的每个特征生成器组,并将特征生成器应用于接收到的一组信号数据中的每个信号。例如,所接收的信号数据可以包括用于多个患者中的每个患者的多个信号数据组,该数据的多个变换等等。在框520至550中,组件循环遍历每个信号以将特征生成器应用于信号数据。在框530中,组件将当前选择的特征生成器应用于当前选择的信号数据。例如,组件可以将特征生成器应用于当前选择的信号数据的预处理版本和该数据的任何变换版本中的每一个。作为另一个例子,组件将由建模信号数据生成的系数“***”或替换为具有一组变量的特征生成器,以生成输出特征值。作为另一例子,该组件可以将建模信号数据的一个或多个元素应用于神经网络以生成输出特征值。在框540中,组件存储输出值。在框550中,如果存在任何待分析的信号,则该组件选择下一个信号并循环回到框520以处理下一个信号,否则该组件在框560处继续。在框560中,该组件生成包含每个生成的特征值的特征向量,并将与特征生成器关联的特征向量存储在例如特征向量存储器中。例如,特征向量可以包括特征阵列以及到相应特征生成器的链接或标识符。组件还可以将特征向量与用于生成特征向量的信号数据相关联。在框570中,如果有任何特征生成器尚待处理,则该组件选择下一个特征生成器并循环回到框510以处理该特征生成器,否则该组件返回特征向量。
图6是示出了根据所公开技术的一些示例的识别新颖特征向量组件224的处理的流程图。在该例子中,设施接收一组特征向量,并且对于每个特征向量,接收与相应特征生成器有关的信息,例如特征生成器的标识符。在框605中,组件收集特征向量的比较组,该比较组包括例如由发现为新颖的较早一代的特征生成器生成的特征向量和由当前一代的特征向量生成的特征向量。例如,组件可以从特征存储器中随机选择一组新颖的特征向量。在某些情况下,检索特征向量的请求包括要检索的每个特征向量的特征值数量的上限和下限,例如不小于50(下限阈值)和不大于5000(上限阈值)。在框610至640中,组件循环遍历当前一代特征生成器的每个特征向量,以确定它们的每个相应特征向量与特征向量的比较组的每个特征向量有多不同。在框615至630中,组件循环遍历特征向量的比较组的每个特征向量,以将每个特征向量与当前选择的特征生成器的特征向量进行比较。在框620中,组件计算比较组的当前选择的特征向量与当前选择的特征生成器的特征向量之间的差值。例如,组件可以计算每个特征向量之间的距离值。在框625中,组件存储计算出的差值。在框630中,如果存在任何要比较的特征向量,则组件选择下一个特征向量并循环回到框615以处理特征向量,否则该组件在框635处继续。在框635中,该组件基于所存储的差值,例如平均或最大距离计算当前选定特征生成器的新颖性分数,并将该新颖性分数与特征生成器相关联地存储(例如,在特征生成器存储器中)。在框640中,如果有任何特征生成器尚待评估,则该组件选择下一个特征生成器,并循环回到框615以处理特征生成器,否则该组件在框645继续。在框645至660中,组件根据计算出的新颖性分数测试每个特征向量是否新颖,并识别任何相应的特征生成器。在判定框650中,如果当前选择的特征生成器的新颖性分数大于新颖性阈值,则该组件在框655继续,否则该组件在框660继续。可以以任意数量的方式生成或确定新颖性阈值,例如从用户处接收新颖性阈值,基于一组新颖性分数(例如,平均值,平均值加25%,前n个(其中n由用户提供或由设施自动生成),前十个百分点),计算新颖性阈值,等等。以这种方式,新颖性阈值可以基于例如没有超过当前新颖性阈值的新特征生成器的代的数量动态地变化(例如,一代又一代),以确保设施正在生成和测试新特征生成器和相应的特征。在框655中,组件将当前选择的特征向量识别为新颖的。在框660中,如果有任何特征向量尚待处理,则组件选择下一个特征向量,并循环回到框645以处理特征向量,否则该组件完成。
根据前述内容,将理解的是,出于说明的目的,本文已经描述了所公开的技术的特定示例,但是在不背离所公开的技术的范围的情况下可以进行多种修改。例如,所公开的技术可以应用于医学领域之外的领域,例如预测天气模式,地质活动,或基于采样的输入数据在其中进行预测的任何其他领域。为了减少权利要求的数量,下面以某些权利要求的形式呈现了所公开技术的某些方面,但是申请人考虑了以任何数量的权利要求形式的所公开的技术的多个方面。因此,除了所附权利要求书外,所公开的技术不受限制。
Claims (19)
1.一种用于发掘用于机器学习的特征的***以诊断一个或多个患者内的一个或多个医疗状况,该***包括:
机器,该机器被配置为从至少一个患者接收生理信号数据;
第一组件,其被配置为将接收到的生理数据存储在患者数据存储器中,所述患者数据存储器包括多个患者的生理数据;
第二组件,其被配置为针对所述多个患者中的一个或多个患者中的每个,
从所述患者数据存储器中接收所述至少一个患者的一种或多种类型的生理信号数据,每种类型的生理信号数据代表相应患者的至少一种生理输出,以及
对于每种类型的接收到的生理信号数据,从相应的生理数据信号中提取至少一个值;
第三组件,其针对生理数据的每种类型,
对于收到生理数据类型的所述一个或多个患者中的每一个,
将多个特征生成器应用于从所述相应的生理数据中提取的所述至少一个值,以生成针对生理数据的所述类型的特征,以及
根据所生成的特征,为所述生理类型生成一个或多个特征向量;
第四组件,配置为,为每个生成的特征向量,
计算所述特征向量的新颖性分数;
第五组件,被配置为基于所计算的新颖性分数从所述多个特征向量中识别至少一个新颖特征向量,其中,通过将新颖性分数与新颖性阈值进行比较来确定新颖性;
第六组件,被配置为从生成新颖特征向量的所述多个特征生成器中识别每个特征生成器;和
第七组件,被配置为对每个所识别的特征生成器进行突变以生成另一特征生成器代。
2.根据权利要求1所述的***,其中,所述机器包括宽带生物电势测量设备。
3.一种存储指令的计算机可读介质,该指令如果由具有存储器和处理器的计算***执行,使所述计算***执行用于发掘用于机器学习的特征的方法,所述方法包括:
对于多个特征生成器中的每一个,
对于多个数据信号中的每一个,
从所述数据信号中提取值,以及
将所述特征生成器应用于提取的值以生成特征值,以及
由所述特征生成器基于所生成的特征值生成特征向量;
对于所述多个特征向量中的每个特征向量,
计算所述特征向量的新颖性分数;和
基于所计算的新颖性分数,从所述多个特征向量中识别至少一个新颖特征向量。
4.根据权利要求3所述的计算机可读介质,所述方法还包括:
从生成新颖特征向量的所述多个特征生成器中识别每个特征生成器;和
对每个识别的特征生成器进行突变以生成另一个特征生成器代。
5.根据权利要求3所述的计算机可读介质,所述方法还包括:
随机生成多个特征生成器,其中生成包括表达式树的第一特征生成器包括:
生成包括多个节点的二叉树,以及
对于所述多个节点中的每个节点,
将运算符,值,或等式分配给节点。
6.根据权利要求4所述的计算机可读介质,所述方法还包括:
生成包括神经网络的第二特征生成器包括,对于所述神经网络的多个连接权重的每一个,随机地生成一个值。
7.根据权利要求4所述的计算机可读介质,其中,对第一特征生成器进行突变包括:将点突变,随机重组,子树突变,或其任意组合中的至少一个应用于所述第一特征生成器。
8.根据权利要求3所述的计算机可读介质,其中,计算第一特征向量的新颖性分数包括:
对于除所述第一特征向量之外的多个特征向量中的每一个,计算所述第一特征向量与除所述第一特征向量之外的所述特征向量之间的差;和
合计计算的差值。
9.根据权利要求7所述的计算机可读介质,其中,合计所述计算的差值包括:基于所述计算的差值来计算平均值。
10.根据权利要求4所述的计算机可读介质,所述方法还包括:
将突变的特征生成器应用于由至少一名患者提供的生理数据的至少一种表示。
11.一种由具有存储器和处理器的计算***执行的,用于发掘用于机器学习的特征的方法,所述方法包括:
对于多个特征生成器中的每一个,
对于多个数据信号中的每一个,
从所述数据信号中提取值,以及
将所述特征生成器应用于提取的值以生成特征值,以及
由所述特征生成器基于所生成的特征值生成特征向量;
对于每个生成的特征向量,
计算所述特征向量的新颖性分数;和
基于所计算的新颖性分数从所述多个特征向量中识别至少一个新颖特征向量,其中,识别新颖性特征生成器包括将新颖性分数与新颖性阈值进行比较。
12.根据权利要求11所述的方法,还包括:
突变所述多个特征生成器中的至少一个以生成另一个特征生成器代。
13.如权利要求11所述的方法,还包括:
至少部分地通过基于所计算的新颖性分数确定平均新颖性分数来计算所述新颖性阈值。
14.如权利要求11所述的方法,还包括:
至少部分地通过基于所计算的新颖性分数确定新颖性分数的第n个百分点数,计算所述新颖性阈值。
15.根据权利要求11所述的方法,还包括:
至少部分地通过从计算的新颖性分数中确定第n个最高新颖性分数,计算所述新颖性阈值。
16.根据权利要求12所述的方法,还包括:
使至少一个突变的特征生成器发生突变。
17.根据权利要求11所述的方法,还包括:
至少部分地基于所识别的至少一个新颖特征向量来生成预测模型。
18.根据权利要求17所述的方法,还包括:
对于多个输入信号中的每一个,每个信号对应于一个患者,
至少部分地基于所生成的预测模型来预测相应患者的结果。
19.一个或多个计算机存储器共同存储包括多个特征向量的特征向量数据结构,每个特征向量包括,对于多个患者中的每个患者,通过将第一特征生成器应用于代表所述患者的生理数据的至少一个表示来生成的单个值,
其中,所述特征向量数据结构被配置为用于评估所述第一特征生成器的所述新颖性。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/653,433 | 2017-07-18 | ||
US15/653,433 US11139048B2 (en) | 2017-07-18 | 2017-07-18 | Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions |
PCT/IB2018/000902 WO2019016598A1 (en) | 2017-07-18 | 2018-07-18 | DISCOVERING NEW FEATURES FOR USE IN AUTOMATIC LEARNING TECHNIQUES, SUCH AS AUTOMATIC LEARNING TECHNIQUES FOR DIAGNOSING HEALTH CONDITIONS |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111133526A true CN111133526A (zh) | 2020-05-08 |
CN111133526B CN111133526B (zh) | 2024-04-12 |
Family
ID=65016348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880061507.4A Active CN111133526B (zh) | 2017-07-18 | 2018-07-18 | 发掘可用于机器学习技术中的新颖特征,例如用于诊断医疗状况的机器学习技术 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11139048B2 (zh) |
EP (1) | EP3655895A4 (zh) |
JP (1) | JP7335240B2 (zh) |
CN (1) | CN111133526B (zh) |
CA (1) | CA3069891A1 (zh) |
WO (1) | WO2019016598A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10460440B2 (en) * | 2017-10-24 | 2019-10-29 | General Electric Company | Deep convolutional neural network with self-transfer learning |
US11783160B2 (en) * | 2018-01-30 | 2023-10-10 | Intel Corporation | Memoryless weight storage hardware for neural networks |
CN108260117A (zh) | 2018-02-28 | 2018-07-06 | 惠州Tcl移动通信有限公司 | 一种蓝牙传输控制方法、控制***及存储介质 |
US11471090B2 (en) | 2018-06-04 | 2022-10-18 | Analytics For Life Inc. | Method and system to assess pulmonary hypertension using phase space tomography and machine learning |
US11551096B1 (en) * | 2018-07-26 | 2023-01-10 | Amazon Technologies, Inc. | Automated design techniques |
US11087170B2 (en) * | 2018-12-03 | 2021-08-10 | Advanced Micro Devices, Inc. | Deliberate conditional poison training for generative models |
KR102057047B1 (ko) * | 2019-02-27 | 2019-12-18 | 한국과학기술정보연구원 | 질병 예측 장치 및 이를 이용한 질병 예측 방법 |
US20200303060A1 (en) * | 2019-03-18 | 2020-09-24 | Nvidia Corporation | Diagnostics using one or more neural networks |
US11154240B2 (en) * | 2019-04-02 | 2021-10-26 | Kpn Innovations Llc | Methods and systems for utilizing diagnostics for informed vibrant constitutional guidance |
CN114173647A (zh) | 2019-06-18 | 2022-03-11 | 生命解析公司 | 使用心脏和光电容积脉搏波信号的动态分析来评估疾病的方法和*** |
US20210304039A1 (en) * | 2020-03-24 | 2021-09-30 | Hitachi, Ltd. | Method for calculating the importance of features in iterative multi-label models to improve explainability |
US11604976B2 (en) * | 2020-04-29 | 2023-03-14 | International Business Machines Corporation | Crossbar arrays for computations in memory-augmented neural networks |
US20220027780A1 (en) * | 2020-07-24 | 2022-01-27 | Actimize Ltd. | Systems and methods for unsupervised feature selection for online machine learning |
MX2023001430A (es) | 2020-08-21 | 2023-03-06 | Upfield Europe Bv | Composicion de trigliceridos de grasas solidas. |
US20230394032A1 (en) * | 2020-12-04 | 2023-12-07 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods for processing data samples in communication networks |
US20230233089A1 (en) * | 2022-01-23 | 2023-07-27 | Analytics For Life Inc. | Multi-sensor mems system and machine-learned analysis method for hypertrophic cardiomyopathy estimation |
US11783233B1 (en) | 2023-01-11 | 2023-10-10 | Dimaag-Ai, Inc. | Detection and visualization of novel data instances for self-healing AI/ML model-based solution deployment |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030041041A1 (en) * | 2001-03-01 | 2003-02-27 | Nello Cristianini | Spectral kernels for learning machines |
WO2005036180A1 (en) * | 2003-10-08 | 2005-04-21 | The Government Of The United States Of America As Represented By The Secretary Of Department Of Health And Human Services | Analysis methods using biomarkers concentrated with biomarkers attractant molecules |
JP2006518062A (ja) * | 2003-01-15 | 2006-08-03 | ブラッコ イメージング ソチエタ ペル アチオニ | 予測アルゴリズムのトレーニングおよびテスティングのデータベース最適化のシステムおよび方法 |
WO2009063463A2 (en) * | 2007-11-14 | 2009-05-22 | Medasense Biometrics Ltd | Pain monitoring using multidimensional analysis of physiological signals |
US20100030780A1 (en) * | 2008-07-30 | 2010-02-04 | Kave Eshghi | Identifying related objects in a computer database |
US20110172514A1 (en) * | 2008-09-29 | 2011-07-14 | Koninklijke Philips Electronics N.V. | Method for increasing the robustness of computer-aided diagnosis to image processing uncertainties |
US20140172643A1 (en) * | 2012-12-13 | 2014-06-19 | Ehsan FAZL ERSI | System and method for categorizing an image |
US20150088870A1 (en) * | 2013-09-24 | 2015-03-26 | The Regents Of The University Of Michigan | Systems and Methods for Diagnosing Inherited Retinal Diseases |
US20150278254A1 (en) * | 2014-03-31 | 2015-10-01 | Anurag Bhardwaj | Image-based retrieval and searching |
US20160364522A1 (en) * | 2015-06-15 | 2016-12-15 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
Family Cites Families (119)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5394509A (en) * | 1992-03-31 | 1995-02-28 | Winston; Patrick H. | Data processing system and method for searching for improved results from a process |
US7475048B2 (en) * | 1998-05-01 | 2009-01-06 | Health Discovery Corporation | Pre-processed feature ranking for a support vector machine |
US7970718B2 (en) | 2001-05-18 | 2011-06-28 | Health Discovery Corporation | Method for feature selection and for evaluating features identified as significant for classifying data |
US6513025B1 (en) | 1999-12-09 | 2003-01-28 | Teradyne, Inc. | Multistage machine learning process |
EP2631856A3 (en) | 2000-11-10 | 2013-10-30 | Affinnova, Inc. | Method and apparatus for for dynamic, real-time market segmentation |
US6917926B2 (en) | 2001-06-15 | 2005-07-12 | Medical Scientists, Inc. | Machine learning method |
US20030088565A1 (en) | 2001-10-15 | 2003-05-08 | Insightful Corporation | Method and system for mining large data sets |
EP1449108A4 (en) | 2001-11-07 | 2006-11-22 | Health Discovery Corp | CLASSIFICATION OF CHARACTERISTICS PRETRATED FOR A SUPPORT VECTOR MACHINE |
JP2004287782A (ja) * | 2003-03-20 | 2004-10-14 | Fuji Photo Film Co Ltd | 画像の意味を判定する方法および装置 |
WO2005002313A2 (en) | 2003-07-01 | 2005-01-13 | Cardiomag Imaging, Inc. (Cmi) | Machine learning for classification of magneto cardiograms |
WO2005048185A1 (en) | 2003-11-17 | 2005-05-26 | Auckland University Of Technology | Transductive neuro fuzzy inference method for personalised modelling |
US7480640B1 (en) | 2003-12-16 | 2009-01-20 | Quantum Leap Research, Inc. | Automated method and system for generating models from data |
US20050198182A1 (en) | 2004-03-02 | 2005-09-08 | Prakash Vipul V. | Method and apparatus to use a genetic algorithm to generate an improved statistical model |
US20060204107A1 (en) * | 2005-03-04 | 2006-09-14 | Lockheed Martin Corporation | Object recognition system using dynamic length genetic training |
US7827011B2 (en) | 2005-05-03 | 2010-11-02 | Aware, Inc. | Method and system for real-time signal classification |
US7650024B2 (en) * | 2005-06-07 | 2010-01-19 | George Mason Intellectual Properties, Inc. | Dissipative functional microarrays for classification |
JP4618058B2 (ja) * | 2005-09-01 | 2011-01-26 | 株式会社日立製作所 | 背景画像生成方法とその装置及び画像監視システム |
US7599893B2 (en) | 2005-10-13 | 2009-10-06 | Aureon Laboratories, Inc. | Methods and systems for feature selection in machine learning based on feature contribution and model fitness |
GB2453263A (en) | 2006-05-16 | 2009-04-01 | Douglas S Greer | System and method for modeling the neocortex and uses therefor |
WO2007147166A2 (en) | 2006-06-16 | 2007-12-21 | Quantum Leap Research, Inc. | Consilence of data-mining |
US8046200B2 (en) | 2006-09-05 | 2011-10-25 | Colorado State University Research Foundation | Nonlinear function approximation over high-dimensional domains |
US20080320421A1 (en) * | 2007-06-20 | 2008-12-25 | Demaris David L | Feature extraction that supports progressively refined search and classification of patterns in a semiconductor layout |
US7792770B1 (en) | 2007-08-24 | 2010-09-07 | Louisiana Tech Research Foundation; A Division Of Louisiana Tech University Foundation, Inc. | Method to indentify anomalous data using cascaded K-Means clustering and an ID3 decision tree |
US8065247B2 (en) | 2007-11-21 | 2011-11-22 | Inomaly, Inc. | Systems and methods for multivariate influence analysis of heterogenous mixtures of categorical and continuous data |
US20100016743A1 (en) | 2008-07-17 | 2010-01-21 | Syed Zeeshan H | Identifying Groups of Patients with Similar Physiological Characteristics and Risk Profiles |
WO2010030794A1 (en) | 2008-09-10 | 2010-03-18 | Digital Infuzion, Inc. | Machine learning methods and systems for identifying patterns in data |
WO2010045463A2 (en) | 2008-10-15 | 2010-04-22 | Government Of The United States As Represented By The Secretary Of The Army | Clinical decision model |
NZ572036A (en) | 2008-10-15 | 2010-03-26 | Nikola Kirilov Kasabov | Data analysis and predictive systems and related methodologies |
US8016200B2 (en) | 2009-08-31 | 2011-09-13 | Symbol Technologies, Inc. | Handle and activation assembly for portable electronic device |
CN101785672B (zh) | 2010-01-29 | 2011-08-31 | 重庆大学 | 基于磁共振波谱成像的乳腺肿瘤诊断*** |
JP5603639B2 (ja) * | 2010-04-23 | 2014-10-08 | 国立大学法人京都大学 | 予測装置の学習装置及びそのコンピュータプログラム |
US20120029974A1 (en) | 2010-07-30 | 2012-02-02 | International Business Machines Corporation | Complex service modeling |
US20120040861A1 (en) | 2010-08-13 | 2012-02-16 | Somalogic, Inc. | Pancreatic Cancer Biomarkers and Uses Thereof |
US10321892B2 (en) | 2010-09-27 | 2019-06-18 | Siemens Medical Solutions Usa, Inc. | Computerized characterization of cardiac motion in medical diagnostic ultrasound |
WO2012103290A1 (en) | 2011-01-26 | 2012-08-02 | Google Inc. | Dynamic predictive modeling platform |
US8533224B2 (en) | 2011-05-04 | 2013-09-10 | Google Inc. | Assessing accuracy of trained predictive models |
US9336484B1 (en) | 2011-09-26 | 2016-05-10 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) | System and method for outlier detection via estimating clusters |
US9934361B2 (en) | 2011-09-30 | 2018-04-03 | Univfy Inc. | Method for generating healthcare-related validated prediction models from multiple sources |
KR101725121B1 (ko) | 2011-10-19 | 2017-04-12 | 한국전자통신연구원 | 특징 벡터 분류 장치 및 방법 |
US8688603B1 (en) | 2011-11-14 | 2014-04-01 | Amazon Technologies, Inc. | System and method for identifying and correcting marginal false positives in machine learning models |
EP2811459B1 (en) * | 2012-01-30 | 2020-02-19 | NEC Corporation | Information processing system, information processing method, information processing device, and control method and control program therefor, and communication terminal, and control method and control program therefor |
AU2013274606B2 (en) | 2012-06-11 | 2015-09-17 | Landmark Graphics Corporation | Methods and related systems of building models and predicting operational outcomes of a drilling operation |
US9245235B2 (en) | 2012-10-12 | 2016-01-26 | Nec Laboratories America, Inc. | Integrated approach to model time series dynamics in complex physical systems |
US20140143188A1 (en) | 2012-11-16 | 2014-05-22 | Genformatic, Llc | Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy |
US9576262B2 (en) | 2012-12-05 | 2017-02-21 | Microsoft Technology Licensing, Llc | Self learning adaptive modeling system |
US9367683B2 (en) | 2013-03-15 | 2016-06-14 | Cyberricade, Inc. | Cyber security |
CN103177114B (zh) | 2013-04-02 | 2016-01-27 | 浙江大学 | 基于鉴别流形的跨数据域的转移学习分类方法 |
WO2014186387A1 (en) | 2013-05-14 | 2014-11-20 | The Regents Of The University Of California | Context-aware prediction in medical systems |
US20150134315A1 (en) | 2013-09-27 | 2015-05-14 | Codexis, Inc. | Structure based predictive modeling |
WO2015066052A1 (en) | 2013-10-28 | 2015-05-07 | New York University | Methods, computer-accessible medium and systems to model disease progression using biomedical data from multiple patients |
US20150127595A1 (en) | 2013-11-01 | 2015-05-07 | Numenta, Inc. | Modeling and detection of anomaly based on prediction |
WO2015069827A2 (en) | 2013-11-06 | 2015-05-14 | H. Lee Moffitt Cancer Center And Research Institute, Inc. | Pathology case review, analysis and prediction |
US9652354B2 (en) | 2014-03-18 | 2017-05-16 | Microsoft Technology Licensing, Llc. | Unsupervised anomaly detection for arbitrary time series |
US10366346B2 (en) | 2014-05-23 | 2019-07-30 | DataRobot, Inc. | Systems and techniques for determining the predictive value of a feature |
US20170228507A1 (en) | 2014-08-08 | 2017-08-10 | Icahn School Of Medicine At Mount Sinai | Automatic disease diagnoses using longitudinal medical record data |
US9697469B2 (en) | 2014-08-13 | 2017-07-04 | Andrew McMahon | Method and system for generating and aggregating models based on disparate data from insurance, financial services, and public industries |
US20160045120A1 (en) | 2014-08-15 | 2016-02-18 | Massachusetts Institute Of Technology | Systems and methods for spike sorting |
WO2016033104A1 (en) | 2014-08-25 | 2016-03-03 | Sunstone Analytics | Customizable machine learning models |
SG10201503424YA (en) | 2014-10-09 | 2016-05-30 | Cloudradigm Pte Ltd | A computer implemented method and system for automatically modelling a problem and orchestrating candidate algorithms to solve the problem |
US9349178B1 (en) | 2014-11-24 | 2016-05-24 | Siemens Aktiengesellschaft | Synthetic data-driven hemodynamic determination in medical imaging |
US20160162458A1 (en) | 2014-12-09 | 2016-06-09 | Idibon, Inc. | Graphical systems and methods for human-in-the-loop machine intelligence |
US9659259B2 (en) * | 2014-12-20 | 2017-05-23 | Microsoft Corporation | Latency-efficient multi-stage tagging mechanism |
WO2016118513A1 (en) | 2015-01-20 | 2016-07-28 | The Broad Institute, Inc. | Method and system for analyzing biological networks |
EP3048563A1 (en) | 2015-01-22 | 2016-07-27 | Alcatel Lucent | Method and system for incremental manifold learning |
CA2978708A1 (en) | 2015-03-03 | 2016-09-09 | Nantomics, Llc | Ensemble-based research recommendation systems and methods |
CA2980174C (en) | 2015-04-09 | 2023-03-28 | Equifax, Inc. | Automated model development process |
US9996804B2 (en) | 2015-04-10 | 2018-06-12 | Facebook, Inc. | Machine learning model tracking platform |
GB2545361B (en) | 2015-04-10 | 2018-01-24 | Applied Proteomics Inc | Methods of assessing colorectal cancer status |
EP3297566A4 (en) | 2015-05-22 | 2019-02-20 | CSTS Health Care Inc. | BIOMARKER-CONTROLLED TARGETED MOLECULAR THERAPEUTIC COMBINATIONS BASED ON KNOWLEDGE REPRESENTATION PATH ANALYSIS |
US10984338B2 (en) | 2015-05-28 | 2021-04-20 | Raytheon Technologies Corporation | Dynamically updated predictive modeling to predict operational outcomes of interest |
US11250342B2 (en) | 2015-07-16 | 2022-02-15 | SparkBeyond Ltd. | Systems and methods for secondary knowledge utilization in machine learning |
US9652712B2 (en) * | 2015-07-27 | 2017-05-16 | Google Inc. | Analyzing health events using recurrent neural networks |
US10542897B2 (en) | 2015-08-26 | 2020-01-28 | Analytics For Life Inc. | Method and apparatus for wide-band phase gradient signal acquisition |
EP3353688A4 (en) | 2015-09-21 | 2019-06-26 | Equifax, Inc. | UPDATING ATTRIBUTE DATA STRUCTURES TO INDICATE TRENDS IN ATTRIBUTE DATA PROVIDED TO AUTOMATED MODELING SYSTEMS |
WO2017059022A1 (en) | 2015-09-30 | 2017-04-06 | Inform Genomics, Inc. | Systems and methods for predicting treatment-regiment-related outcomes |
US20170169180A1 (en) | 2015-12-14 | 2017-06-15 | International Business Machines Corporation | Situation-dependent blending method for predicting the progression of diseases or their responses to treatments |
WO2017120579A1 (en) | 2016-01-10 | 2017-07-13 | Presenso, Ltd. | System and method for validating unsupervised machine learning models |
WO2017147552A1 (en) | 2016-02-26 | 2017-08-31 | Daniela Brunner | Multi-format, multi-domain and multi-algorithm metalearner system and method for monitoring human health, and deriving health status and trajectory |
CN105843896A (zh) | 2016-03-22 | 2016-08-10 | 中国科学院信息工程研究所 | 一种多源异构大数据的冗余源协同缩减方法 |
CN105912500B (zh) | 2016-03-30 | 2017-11-14 | 百度在线网络技术(北京)有限公司 | 机器学习模型生成方法和装置 |
US20180032678A1 (en) * | 2016-07-29 | 2018-02-01 | International Business Machines Corporation | Medical recording system |
US10650008B2 (en) | 2016-08-26 | 2020-05-12 | International Business Machines Corporation | Parallel scoring of an ensemble model |
US9582781B1 (en) | 2016-09-01 | 2017-02-28 | PagerDuty, Inc. | Real-time adaptive operations performance management system using event clusters and trained models |
US10417523B2 (en) | 2016-11-07 | 2019-09-17 | Ayasdi Ai Llc | Dimension grouping and reduction for model generation, testing, and documentation |
US20180137415A1 (en) | 2016-11-11 | 2018-05-17 | Minitab, Inc. | Predictive analytic methods and systems |
CN106777891B (zh) | 2016-11-21 | 2019-06-07 | 中国科学院自动化研究所 | 一种数据特征选择和预测方法及装置 |
US20180225391A1 (en) | 2017-02-06 | 2018-08-09 | Neural Algorithms Ltd. | System and method for automatic data modelling |
US11416751B2 (en) | 2017-03-31 | 2022-08-16 | H2O.Ai Inc. | Time-based ensemble machine learning model |
US9864956B1 (en) * | 2017-05-01 | 2018-01-09 | SparkCognition, Inc. | Generation and use of trained file classifiers for malware detection |
US11081215B2 (en) * | 2017-06-01 | 2021-08-03 | International Business Machines Corporation | Medical record problem list generation |
US11106978B2 (en) | 2017-09-08 | 2021-08-31 | SparkCognition, Inc. | Execution of a genetic algorithm with variable evolutionary weights of topological parameters for neural network generation and training |
US10719521B2 (en) | 2017-09-18 | 2020-07-21 | Google Llc | Evaluating models that rely on aggregate historical data |
US10635978B2 (en) | 2017-10-26 | 2020-04-28 | SparkCognition, Inc. | Ensembling of neural network models |
JP6859247B2 (ja) | 2017-10-26 | 2021-04-14 | 日本電信電話株式会社 | 学習装置、分析システム、学習方法および学習プログラム |
US11663517B2 (en) | 2017-11-03 | 2023-05-30 | Salesforce, Inc. | Automatic machine learning model generation |
TWI651664B (zh) | 2017-11-15 | 2019-02-21 | 財團法人資訊工業策進會 | 模型生成伺服器及其模型生成方法 |
US10405219B2 (en) | 2017-11-21 | 2019-09-03 | At&T Intellectual Property I, L.P. | Network reconfiguration using genetic algorithm-based predictive models |
US11599753B2 (en) | 2017-12-18 | 2023-03-07 | Oracle International Corporation | Dynamic feature selection for model generation |
CN107993723A (zh) | 2017-12-19 | 2018-05-04 | 苏州大学 | 一种基于集成进化学习的华法林剂量预测建模方法 |
CN108090570A (zh) | 2017-12-20 | 2018-05-29 | 第四范式(北京)技术有限公司 | 用于选择机器学习样本的特征的方法及*** |
KR102038703B1 (ko) | 2017-12-27 | 2019-11-26 | (주)가디엘 | 동적 전이 앙상블 모형을 통한 실시간 다변량 시계열 예측방법 및 그 시스템 |
CN108090516A (zh) | 2017-12-27 | 2018-05-29 | 第四范式(北京)技术有限公司 | 自动生成机器学习样本的特征的方法及*** |
US11918333B2 (en) | 2017-12-29 | 2024-03-05 | Analytics For Life Inc. | Method and system to assess disease using phase space tomography and machine learning |
US20190219994A1 (en) | 2018-01-18 | 2019-07-18 | General Electric Company | Feature extractions to model large-scale complex control systems |
CN108335756B (zh) | 2018-01-18 | 2022-05-24 | 中山大学 | 鼻咽癌数据库及基于所述数据库的综合诊疗决策方法 |
CA3094421A1 (en) | 2018-03-19 | 2019-09-26 | Onera Technologies B.V. | A method and a system for detecting a respiratory event of a subject and a method for forming a model for detecting a respiratory event |
US11475372B2 (en) | 2018-03-26 | 2022-10-18 | H2O.Ai Inc. | Evolved machine learning models |
CN108960269B (zh) | 2018-04-02 | 2022-05-27 | 创新先进技术有限公司 | 数据集的特征获取方法、装置及计算设备 |
CN108875815A (zh) | 2018-06-04 | 2018-11-23 | 深圳市研信小额贷款有限公司 | 特征工程变量确定方法及装置 |
CN109117864B (zh) | 2018-07-13 | 2020-02-28 | 华南理工大学 | 基于异构特征融合的冠心病风险预测方法、模型及*** |
CN109146076A (zh) | 2018-08-13 | 2019-01-04 | 东软集团股份有限公司 | 模型生成方法及装置、数据处理方法及装置 |
CN109217291A (zh) | 2018-08-28 | 2019-01-15 | 南京理工大学 | 考虑削峰填谷模型的电气互联***多目标优化方法 |
CN109242021A (zh) | 2018-09-07 | 2019-01-18 | 浙江财经大学 | 一种基于多阶段混合模型的分类预测方法 |
CN109273094B (zh) | 2018-09-14 | 2021-11-12 | 道之精准医学科技(上海)有限公司 | 一种基于Boosting算法的川崎病风险评估模型的构建方法及构建*** |
CN109635955A (zh) | 2018-11-28 | 2019-04-16 | 中诚信征信有限公司 | 一种特征组合方法、装置及设备 |
CN109711558A (zh) | 2018-12-20 | 2019-05-03 | 四川新网银行股份有限公司 | 针对含潜在不稳定特征构建机器学习模型的方法及装置 |
CN109828836B (zh) | 2019-01-20 | 2021-04-30 | 北京工业大学 | 一种批量流式计算***参数动态配置方法 |
CN109948668A (zh) | 2019-03-01 | 2019-06-28 | 成都新希望金融信息有限公司 | 一种多模型融合方法 |
CN110175644A (zh) | 2019-05-27 | 2019-08-27 | 恒安嘉新(北京)科技股份公司 | 特征选择方法、装置、电子设备、及存储介质 |
-
2017
- 2017-07-18 US US15/653,433 patent/US11139048B2/en active Active
-
2018
- 2018-07-18 JP JP2020524693A patent/JP7335240B2/ja active Active
- 2018-07-18 EP EP18835234.8A patent/EP3655895A4/en active Pending
- 2018-07-18 WO PCT/IB2018/000902 patent/WO2019016598A1/en unknown
- 2018-07-18 CA CA3069891A patent/CA3069891A1/en active Pending
- 2018-07-18 CN CN201880061507.4A patent/CN111133526B/zh active Active
-
2021
- 2021-06-25 US US17/359,145 patent/US20220093216A1/en active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030041041A1 (en) * | 2001-03-01 | 2003-02-27 | Nello Cristianini | Spectral kernels for learning machines |
JP2006518062A (ja) * | 2003-01-15 | 2006-08-03 | ブラッコ イメージング ソチエタ ペル アチオニ | 予測アルゴリズムのトレーニングおよびテスティングのデータベース最適化のシステムおよび方法 |
WO2005036180A1 (en) * | 2003-10-08 | 2005-04-21 | The Government Of The United States Of America As Represented By The Secretary Of Department Of Health And Human Services | Analysis methods using biomarkers concentrated with biomarkers attractant molecules |
WO2009063463A2 (en) * | 2007-11-14 | 2009-05-22 | Medasense Biometrics Ltd | Pain monitoring using multidimensional analysis of physiological signals |
US20100030780A1 (en) * | 2008-07-30 | 2010-02-04 | Kave Eshghi | Identifying related objects in a computer database |
US20110172514A1 (en) * | 2008-09-29 | 2011-07-14 | Koninklijke Philips Electronics N.V. | Method for increasing the robustness of computer-aided diagnosis to image processing uncertainties |
US20140172643A1 (en) * | 2012-12-13 | 2014-06-19 | Ehsan FAZL ERSI | System and method for categorizing an image |
US20150088870A1 (en) * | 2013-09-24 | 2015-03-26 | The Regents Of The University Of Michigan | Systems and Methods for Diagnosing Inherited Retinal Diseases |
US20150278254A1 (en) * | 2014-03-31 | 2015-10-01 | Anurag Bhardwaj | Image-based retrieval and searching |
US20160364522A1 (en) * | 2015-06-15 | 2016-12-15 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
Non-Patent Citations (2)
Title |
---|
PAUL A SZERLIP等: "Unsupervised Feature Learning through Divergent Discriminative Feature Accumulation", pages 2 - 3 * |
徐元萍等: "推荐***中的新颖性问题研究", 《计算机应用研究》, vol. 37, no. 8, 31 August 2020 (2020-08-31), pages 2310 - 2314 * |
Also Published As
Publication number | Publication date |
---|---|
US11139048B2 (en) | 2021-10-05 |
JP2020530634A (ja) | 2020-10-22 |
US20190026430A1 (en) | 2019-01-24 |
WO2019016598A1 (en) | 2019-01-24 |
US20220093216A1 (en) | 2022-03-24 |
CA3069891A1 (en) | 2019-01-24 |
EP3655895A4 (en) | 2021-04-21 |
CN111133526B (zh) | 2024-04-12 |
JP7335240B2 (ja) | 2023-08-29 |
EP3655895A1 (en) | 2020-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220093216A1 (en) | Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions | |
US20220093215A1 (en) | Discovering genomes to use in machine learning techniques | |
CN110996785B (zh) | 生物电磁场中异常的机器判别 | |
Wang et al. | Arrhythmia classification algorithm based on multi-head self-attention mechanism | |
Hao et al. | Multi-branch fusion network for Myocardial infarction screening from 12-lead ECG images | |
Kumar et al. | Neighborhood rough set based ECG signal classification for diagnosis of cardiac diseases | |
US20200258627A1 (en) | Systems, devices, software, and methods for a platform architecture | |
EP4272645A1 (en) | Method and apparatus for converting electrical biosignal data into numerical vectors, and method and apparatus for analyzing disease by using same | |
Ertuğrul et al. | Automatic diagnosis of cardiovascular disorders by sub images of the ECG signal using multi-feature extraction methods and randomized neural network | |
CN115778403A (zh) | 心电图分析方法、装置、电子设备和存储介质 | |
Ghorashi et al. | Leveraging regression analysis to predict overlapping symptoms of cardiovascular diseases | |
Shen et al. | Bio-signal analysis system design with support vector machines based on cloud computing service architecture | |
JP7173482B2 (ja) | ヘルスケアデータ分析システム、ヘルスケアデータ分析方法およびヘルスケアデータ分析プログラム | |
Wang et al. | Biometric recognition based on scalable end-to-end convolutional neural network using photoplethysmography: A comparative study | |
Rasheed et al. | Heart disease prediction using machine learning method | |
Sahoo et al. | Prediction of ECG fiducial parameters from PPG signals for the analysis of cardiovascular diseases: A novel Gaussian process regression-based approach | |
WO2023210217A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Lomoio et al. | AUTAN-ECG: An AUToencoder bAsed system for anomaly detectioN in ECG signals | |
Dasgupta et al. | Network approaches in anomaly detection for disease conditions | |
Sivasubramaniam et al. | Early detection and prediction of Heart Disease using Wearable devices and Deep Learning algorithms | |
Yoon et al. | Classification feasibility test on multi-lead electrocardiography signals generated from single-lead electrocardiography signals | |
Abirami | AI Clinical Decision Support System (AI-CDSS) for Cardiovascular Diseases | |
Gautam et al. | Autoencoder-based Photoplethysmography (PPG) signal reliability enhancement in construction health monitoring | |
Al-Shammary et al. | Efficient ECG classification based on the probabilistic Kullback-Leibler divergence | |
Hameed | An Investigation into using Deep Convolutional Neural Networks for ECG Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |