CN115732057A - 乳腺癌用药方案推荐方法及装置、设备、存储介质 - Google Patents
乳腺癌用药方案推荐方法及装置、设备、存储介质 Download PDFInfo
- Publication number
- CN115732057A CN115732057A CN202111015800.7A CN202111015800A CN115732057A CN 115732057 A CN115732057 A CN 115732057A CN 202111015800 A CN202111015800 A CN 202111015800A CN 115732057 A CN115732057 A CN 115732057A
- Authority
- CN
- China
- Prior art keywords
- gene
- genes
- user
- characteristic
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 100
- 229940079593 drug Drugs 0.000 title claims abstract description 98
- 206010006187 Breast cancer Diseases 0.000 title claims abstract description 80
- 208000026310 Breast neoplasm Diseases 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 28
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 227
- 238000012549 training Methods 0.000 claims abstract description 71
- 238000012216 screening Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 19
- 238000003066 decision tree Methods 0.000 claims description 34
- 238000011156 evaluation Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 37
- 230000000694 effects Effects 0.000 abstract description 8
- 230000008569 process Effects 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 108091007854 Cdh1/Fizzy-related Proteins 0.000 description 3
- 102000038594 Cdh1/Fizzy-related Human genes 0.000 description 3
- 108010067741 Fanconi Anemia Complementation Group N protein Proteins 0.000 description 3
- 102000016627 Fanconi Anemia Complementation Group N protein Human genes 0.000 description 3
- 101000628562 Homo sapiens Serine/threonine-protein kinase STK11 Proteins 0.000 description 3
- 108700019961 Neoplasm Genes Proteins 0.000 description 3
- 102000048850 Neoplasm Genes Human genes 0.000 description 3
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 3
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 3
- 102100026715 Serine/threonine-protein kinase STK11 Human genes 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 102000000872 ATM Human genes 0.000 description 2
- 108010004586 Ataxia Telangiectasia Mutated Proteins Proteins 0.000 description 2
- 101000777277 Homo sapiens Serine/threonine-protein kinase Chk2 Proteins 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 108700020796 Oncogene Proteins 0.000 description 2
- 102000043276 Oncogene Human genes 0.000 description 2
- 102100031075 Serine/threonine-protein kinase Chk2 Human genes 0.000 description 2
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 2
- 102000015098 Tumor Suppressor Protein p53 Human genes 0.000 description 2
- 238000002512 chemotherapy Methods 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 206010067484 Adverse reaction Diseases 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 230000006838 adverse reaction Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- -1 and for example Proteins 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明属于人工智能推荐技术领域,公开了一种乳腺癌用药方案推荐方法及装置等,通过在多个病例样本数据的特征基因全集中进行筛选,可以筛选出重要的特征基因,剔除无关或者关联度较低的特征基因,进而降低模型的特征向量维度,提高模型的训练速度,同时也使得乳腺癌用药方案推荐模型的识别过程更加专精;以及,通过在用户操作界面上显示每个重要特征基因及其重要性分值以供用户选择,以用户选择的目标重要特征基因作为特征向量,对用户指定的模型进行训练更新,可以将医生或者医学专家的经验与人工智能技术进行有机结合,提高针对乳腺癌病例进行用药推荐的准确率,更好地辅助医疗人员进行治疗方案的决策,提高治疗效果。
Description
技术领域
本发明属于人工智能推荐技术领域,具体涉及一种乳腺癌用药方案推荐方法及装置、设备、存储介质。
背景技术
已知诱发癌变的基因(即癌变基因)是极其多的,对众多信息直接进行分析很难得到准确的因果关系。并且,仅对于乳腺癌来说,就可能是由多种癌变基因导致的,例如ATM、TP53、CHEK2、PTEN、CDH1、STK11、PALB2都是可能导致乳腺癌的基因组合。针对不同癌变基因存在有不同的用药方案,并且,每种用药方案还有可能存在未被挖掘出来的治疗效果。
传统乳腺癌用药方案推荐,都是基于医生或者医学专家的经验。而近些年人工智能(Artificial Intelligence,AI)技术大火之后,又出现了人工智能推荐***,即采用AI模型以癌变基因为特征向量,进行乳腺癌用药方案推荐。在实践中发现,病人的基因检测数据十分复杂,因此用药方案推荐的特征向量非常多,每个特征向量之间的影响关系又极为复杂。
然而,现有乳腺癌用药方案推荐模型,往往是比较单一的AI模型,都是将所有的癌变基因作为特征向量进行决策,但是一些无关或关联度较低的癌变基因参与决策,通常会对用药方案决策造成重大影响,直接导致所推荐的用药方案不够准确,治疗效果降低。
发明内容
本发明的目的在于提供一种乳腺癌用药方案推荐方法及装置、设备、存储介质,可以提高针对乳腺癌病例进行用药推荐的准确率,更好地辅助医疗人员进行治疗方案的决策,提高治疗效果。
本发明实施例第一方面公开一种乳腺癌用药方案推荐方法,包括:
对多个病例样本数据进行预处理,获得统一格式的多个病例样本数据;
从所述多个病例样本数据的特征基因全集中进行筛选,获得多个重要特征基因;
计算获得每个所述重要特征基因的重要性分值;
在用户操作界面上显示每个所述重要特征基因及其重要性分值;
接收用户针对所述多个所述重要特征基因的第一选择操作指令;
根据所述第一选择操作指令,确定用户选中的目标重要特征基因;
根据用户输入的第二选择操作指令,确定出用户指定的模型;
以所述目标重要特征基因作为特征向量、根据所述多个病例样本数据,对所述用户指定的模型进行训练,获得乳腺癌用药方案推荐模型;
将待推荐病例数据输入所述乳腺癌用药方案推荐模型,获得用药方案推荐结果。
在其中一个实施例中,所述特征基因全集包括N个特征基因;所述从所述多个病例样本数据的特征基因全集中进行筛选,获得多个重要特征基因,包括:
每次从所述特征基因全集中减去一个特征基因,获得与所述N个特征基因一一对应的特征基因组合;
利用所述多个病例样本数据,计算每个所述特征基因组合的评价函数值;
当所述评价函数值用于表征某个特征基因组合的分类结果最差时,将所述某个特征基因组合对应的特征基因从所述特征基因全集中剔除;
当所述特征基因全集中剩余的特征基因数量等于指定特征数时,将剩余的特征基因作为重要特征基因。
在其中一个实施例中,所述多个病例样本数据包括训练样本集;所述计算获得每个所述重要特征基因的重要性分值,包括:
从所述训练样本集中有放回地随机抽样,获得多个训练样本子集,所述训练样本子集与所述训练样本集的样本数量相同;
针对每个所述训练样本子集,构建一棵决策树;
使每棵所述决策树利用其对应的训练样本子集,根据所述多个重要特征基因进行***生长;
在所有所述决策树***生长结束后,生成所有所述决策树的规则信息;
统计每个所述重要特征基因在所述规则信息中的出现总频次以及总信息增益;
计算每个所述重要特征基因的所述总信息增益和除以所述出现总频次的商值,将所述商值作为重要性分值。
在其中一个实施例中,所述根据用户输入的第二选择操作指令,确定出用户指定的模型,包括:
接收用户针对所述用户操作界面上显示的多个AI模型名称的第二选择操作指令;
根据所述第二选择操作指令,确定出用户选中的AI模型名称;
将用户选中的AI模型名称对应的AI模型作为用户指定的模型。
本发明实施例第二方面公开一种乳腺癌用药方案推荐装置,包括:
预处理单元,用于对多个病例样本数据进行预处理,获得统一格式的多个病例样本数据;
筛选单元,用于从所述多个病例样本数据的特征基因全集中进行筛选,获得多个重要特征基因;
计算单元,用于计算获得每个所述重要特征基因的重要性分值;
显示单元,用于在用户操作界面上显示每个所述重要特征基因及其重要性分值;
接收单元,用于接收用户针对所述多个所述重要特征基因的第一选择操作指令;
第一确定单元,用于根据所述第一选择操作指令,确定用户选中的目标重要特征基因;
第二确定单元,用于根据用户输入的第二选择操作指令,确定出用户指定的模型;
训练单元,用于以所述目标重要特征基因作为特征向量、根据所述多个病例样本数据,对所述用户指定的模型进行训练,获得乳腺癌用药方案推荐模型;
推荐单元,用于将待推荐病例数据输入所述乳腺癌用药方案推荐模型,获得用药方案推荐结果。
在其中一个实施例中,所述特征基因全集包括N个特征基因;所述筛选单元包括:
获取子单元,用于每次从所述特征基因全集中减去一个特征基因,获得与所述N个特征基因一一对应的特征基因组合;
评价子单元,用于利用所述多个病例样本数据,计算每个所述特征基因组合的评价函数值;
剔除子单元,用于在所述评价函数值用于表征某个特征基因组合的分类结果最差时,将所述某个特征基因组合对应的特征基因从所述特征基因全集中剔除;
筛选子单元,用于在所述特征基因全集中剩余的特征基因数量等于指定特征数时,将剩余的特征基因作为重要特征基因。
在其中一个实施例中,所述多个病例样本数据包括训练样本集,所述训练样本集包括n个所述病例样本数据;所述计算单元包括:
抽样子单元,用于从所述训练样本集中有放回地随机抽样,获得多个训练样本子集,所述训练样本子集与所述训练样本集的样本数量相同;
构建子单元,用于针对每个所述训练样本子集,构建一棵决策树;
***子单元,用于使每棵所述决策树利用其对应的训练样本子集,根据所述多个重要特征基因进行***生长;
生成子单元,用于在所有所述决策树***生长结束后,生成所有所述决策树的规则信息;
统计子单元,用于统计每个所述重要特征基因在所述规则信息中的出现总频次以及总信息增益;
计算子单元,用于计算每个所述重要特征基因的所述总信息增益和除以所述出现总频次的商值,将所述商值作为重要性分值。
在其中一个实施例中,所述第二确定单元,具体用于接收用户针对所述用户操作界面上显示的多个AI模型名称的第二选择操作指令;以及,根据所述第二选择操作指令,确定出用户选中的AI模型名称,将用户选中的AI模型名称对应的AI模型作为用户指定的模型。
本发明实施例第三方面公开一种电子设备,包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行第一方面公开的乳腺癌用药方案推荐方法。
本发明实施例第四方面公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行第一方面公开的乳腺癌用药方案推荐方法。
本发明的有益效果在于,所提供的乳腺癌用药方案推荐方法及装置、设备、存储介质,通过在多个病例样本数据的特征基因全集中进行筛选,可以筛选出重要的特征基因,剔除无关或者关联度较低的特征基因,进而降低模型的特征向量维度,提高模型的训练速度,同时也使得乳腺癌用药方案推荐模型的识别过程更加专精,以及,通过在用户操作界面上显示每个重要特征基因及其重要性分值以供用户选择,以用户选择的目标重要特征基因作为特征向量、对用户指定的模型进行训练更新,获得乳腺癌用药方案推荐模型,可以将医生或者医学专家的经验与人工智能技术进行有机结合,提高针对乳腺癌病例进行用药推荐的准确率,更好地辅助医疗人员进行治疗方案的决策,提高治疗效果。
附图说明
此处的附图,示出了本发明所述技术方案的具体实例,并与具体实施方式构成说明书的一部分,用于解释本发明的技术方案、原理及效果。
除非特别说明或另有定义,不同附图中,相同的附图标记代表相同或相似的技术特征,对于相同或相似的技术特征,也可能会采用不同的附图标记进行表示。
图1是本发明实施例公开的一种乳腺癌用药方案推荐方法的流程图;
图2是本发明实施例公开的一种乳腺癌用药方案推荐装置的结构示意图;
图3是本发明实施例公开的一种电子设备的结构示意图。
附图标记说明:
201、预处理单元;202、筛选单元;203、计算单元;204、显示单元;205、接收单元;206、第一确定单元;207、第二确定单元;208、训练单元;209、推荐单元;301、存储器;302、处理器。
具体实施方式
为了便于理解本发明,下面将参照说明书附图对本发明的具体实施例进行更详细的描述。
除非特别说明或另有定义,本文所使用的所有技术和科学术语与所属技术领域的技术人员通常理解的含义相同。在结合本发明的技术方案以现实的场景的情况下,本文所使用的所有技术和科学术语也可以具有与实现本发明的技术方案的目的相对应的含义。本文所使用的“第一、第二…”仅仅是用于对名称的区分,不代表具体的数量或顺序。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
需要说明的是,当元件被认为“固定于”另一个元件,它可以是直接固定在另一个元件上,也可以是存在居中的元件;当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件,也可以是同时存在居中元件;当一个元件被认为是“安装在”另一个元件,它可以是直接安装在另一个元件,也可以是同时存在居中元件。当一个元件被认为是“设在”另一个元件,它可以是直接设在另一个元件,也可以是同时存在居中元件。
除非特别说明或另有定义,本文所使用的“所述”、“该”为相应位置之前所提及或描述的技术特征或技术内容,该技术特征或技术内容与其所提及的技术特征或技术内容可以是相同的,也可以是相似的。
毫无疑义,与本发明的目的相违背,或者明显矛盾的技术内容或技术特征,应被排除在外。
如图1所示,本发明实施例公开一种乳腺癌用药方案推荐方法,包括:
S1、电子设备对多个病例样本数据进行预处理,获得统一格式的多个病例样本数据。
本发明实施例中,执行主体可以是如笔记本电脑、电脑或个人计算机(PersonalComputer,PC)等电子设备。电子设备可以从肿瘤基因组图谱(TCGA)数据库与医院数据库分别获取得到大量的乳腺癌病例数据作为病例样本数据,病例样本数据中包括有特征基因数据,从特征基因数据中可以获取多个特征基因,组成特征基因全集。由于多个病例样本数据的来源不同,电子设备可以对不同来源的病例样本数据进行规整处理,使多个病例样本数据的格式统一,其格式可以是如满足下一个***模块的输入要求的指定格式。
在获得统一格式的多个病例样本数据之后,电子设备可以将多个病例样本数据分成训练样本集D和测试样本集Q,训练样本集D用于训练,测试样本集Q用于验证。
S2、电子设备从多个病例样本数据的特征基因全集中进行筛选,获得多个重要特征基因,组成特征基因子集。
其中,特征基因全集可以包括ATM、TP53、CHEK2、PTEN、CDH1、STK11和PALB2等特征基因,重要特征基因可以例如BRCA、PTEN、CDH1、STK11或PALB2等。
步骤S2中,电子设备可以通过基于熵的乳腺癌特征选择神经网络分类器(NeuralNetwork Classifierwith Entropy Based Feature,NNCEBF)、或者通过序列后向选择(Sequential Backward Selection,SBS)算法,对多个病例样本数据的特征基因全集进行特征筛选,获得多个重要特征基因,将多个重要特征基因组成特征基因子集。
假设多个病例样本数据的特征基因全集T,其中包括的特征基因数量为N(N为正整数),指定至少需要保留的特征基因数量(即指定特征数)为M(M小于N),每次将特征基因全集T中减去一个特征基因vk(k=1,2,3,……,N),获得N个特征基因组合Tv,N个特征基因组合Tv与N个特征基因一一对应,并利用多个病例样本数据中的训练样本集D计算每个特征基因组合Tv的评价函数值,该评价函数值用于评价每个特征基因组合Tv的分类结果好坏程度,当评价函数值用于表征某个特征基因组合Tv的分类结果最差时,将某个特征基因组合Tv对应的特征基因vk作为最不重要的特征基因,并从特征基因全集T中剔除该特征基因vk,如此循环,直到特征基因全集T中剩下的特征基因数量为M,将这M个特征基因作为重要特征基因组成特征基因子集。
其中,评价函数值可以通过相关性、相似性度量(如欧氏距离、标准化欧氏距离、马氏距等)、信息增益或分类器准确度等评价函数进行计算。
本实施例中,采用相关性函数作为评价函数,进行评价函数值计算,利用训练样本集D计算每个特征基因组合Tv的评价函数值的方式具体是分别以每个特征基因组合Tv作为特征向量,对训练样本集D进行分类获得分类结果,然后通过相关性函数,计算每个特征基因组合Tv与其对应的分类结果的相关度作为评价函数值。若任一特征基因组合Tv的评价函数值最小,则说明该特征基因组合Tv的分类结果最差。
实施步骤S2,通过在多个病例样本数据的特征基因全集中进行筛选,可以筛选出重要的特征基因,剔除无关或者关联度较低的特征基因,进而降低模型的特征向量维度,提高模型的训练速度,同时也使得乳腺癌用药方案推荐模型的识别过程更加专精,提高针对乳腺癌病例进行用药推荐的准确率,更好地辅助医疗人员进行治疗方案的决策,提高治疗效果。
S3、电子设备计算获得每个重要特征基因的重要性分值。
其中,重要性分值用于表征相应的重要特征基因对于用药方案推荐的影响大小。特征重要性引擎包括随机森林(Random Forest,RF)、极端随机树(Extremely randomizedtrees,Extra-Tress)或者极端梯度提升(eXtreme Gradient Boosting,XGBoost)等算法、或者反向传播神经网络(Back Propagation neural network,BPNN)。
具体地,可以通过RF算法作为特征重要性引擎,计算获得每个重要特征基因的重要性分值。步骤S3可以包括:电子设备从具有n个样本数量的训练样本集D中有放回的随机抽样,获得多个与训练样本集D具有相同样本数量n的训练样本子集Y,针对每个训练样本子集Y构建一棵决策树,以及从特征基因子集中随机地选取m1(m1小于M)个重要特征基因,使每棵决策树利用其对应的训练样本子集Y,根据m1个重要特征基因进行***生长,在***生长过程中,每棵决策树每次进行***生长时,从这m1个重要特征基因中选择最优的一个重要特征基因,以该最优的重要特征基因作为依据进行***,直至决策树不再***了,即***生长结束;在决策树***生长结束后,生成所有决策树的规则信息,统计每个重要特征基因在所有决策树的规则信息中出现的总频次(即出现总频次,也即每个重要特征基因在决策树***时被利用的次数)、每个重要特征基因在决策树的所有树节点上的总信息增益和,将每个重要特征基因的总信息增益除以其在所有决策树的规则信息中的出现总频次所得到的商值,作为每个重要特征基因的重要性分值。
S4、电子设备在用户操作界面上显示每个重要特征基因及其重要性分值。
考虑到乳腺癌用药方案推荐***的用户往往是医生或者医学专家,并非熟悉人工智能技术的专业技术人员,无法适应复杂的***参数设置和调整。
因此,通过在用户操作界面上显示每个重要特征基因及其重要性分值,用户可以选择实际需要的目标重要特征基因作为特征向量,实时对乳腺癌用药方案推荐***进行训练更新,从而将医生或者医学专家的经验与人工智能技术进行有机结合,进一步提高针对乳腺癌病例进行用药推荐的准确率,更好地辅助医疗人员进行治疗方案的决策,提高治疗效果。
其次,鉴于各种重要特征基因属于用户熟悉的业务领域,用户可以非常直观地进行特征选择,不需要掌握过多计算机或人工智能技术,可以非常便利地手动实时更新推荐模型,使乳腺癌用药方案推荐模型更加贴近业务,便于操作。
S5、电子设备接收用户针对多个重要特征基因的第一选择操作指令。
其中,用户操作界面可以安装在电子设备上,用户利用电子设备的输入装置输入第一选择操作指令,比如,用户利用鼠标勾选用户操作界面中的重要特征基因,以输入第一选择操作指令。
S6、电子设备根据第一选择操作指令,确定用户选中的目标重要特征基因。其中,用户选中的目标重要特征基因的数量可以是一个或多个。
S7、电子设备根据用户输入的第二选择操作指令,确定出用户指定的模型。
S8、电子设备以目标重要特征基因为特征向量、根据多个病例样本数据,对用户指定的模型进行训练,获得乳腺癌用药方案推荐模型。
步骤S8中,用户指定的模型可以包括一个或多个用户选中的AI模型,AI模型可以是如协同过滤(Collaborative filtering,CF)算法、深度学习神经网络(Deep LearningNeural Networks,DNN)等推荐模型。
本发明实施例中,用户可以通过用户操作界面选择目标重要特征基因,在选择的同时还可以输入每个目标重要特征基因的权重系数。也即,电子设备在执行步骤S6之后,还可以接收用户针对其选中的每个目标重要特征基因而输入的权重系数。相应地,在步骤S8中,电子设备则根据用户输入的每个目标重要特征基因的权重系数,对每个目标重要特征基因进行加权融合,之后再以加权融合结果为特征向量、根据多个病例样本数据,对用户指定的模型进行训练,获得乳腺癌用药方案推荐模型。
通过用户在用户操作界面上选择目标重要特征基因时,输入设置每个目标重要特征基因的权重系数,可以方便用户对模型训练的特征向量进行权重调整,以及进一步将医生或者医学专家的经验与人工智能技术进行有机结合。
其中,在对用户指定的模型进行训练,获得乳腺癌用药方案推荐模型的过程中,也可以采用RF算法进行训练,同样地,从具有n个样本数量的训练样本集D中有放回的随机抽样,获得多个训练样本子集Y,训练样本子集Y与训练样本集D具有相同样本数量n,针对每个训练样本子集Y构建一棵决策树,以及从用户选中的Z个目标重要特征基因中随机地选取m2(m2小于Z)个目标重要特征基因,根据m2个目标重要特征基因进行***生长,也即,在***生长过程中,每棵决策树每次进行***生长时,从这m2个目标重要特征基因中选择最优的一个目标重要特征基因,以该最优的目标重要特征基因作为依据进行***,直至决策树不再***了,即***生长结束,获得乳腺癌用药方案推荐模型。
其中,训练获得乳腺癌用药方案推荐模型后,还可以利用测试样本集Q对训练获得的乳腺癌用药方案推荐模型进行验证,若验证出乳腺癌用药方案推荐模型的分类结果符合要求,确定乳腺癌用药方案推荐模型训练成功。
其中,在对乳腺癌用药方案推荐模型的验证过程中,即当进行回归时,RF算法不能够作出超越训练样本集数据范围的预测,可能导致在对某些还有特定噪声的数据进行建模时出现过度拟合。因此,可以结合XGBoost算法进行回归,在目标函数中引入正则项,从而防止过拟合。
S9、电子设备将待推荐病例数据输入乳腺癌用药方案推荐模型,获得用药方案推荐结果。
相应地,步骤S9中,可以将待推荐病例数据输入乳腺癌用药方案推荐模型,针对乳腺癌用药方案推荐模型包括的每一颗决策树的结果进行整合,生成预测值,将预测值对应的用药方案及化疗决策信息作为用药方案推荐结果。
在本发明实施例中,在用户操作界面上显示每个重要特征基因及其重要性分值的同时,还可以在用户操作界面上显示多个AI模型名称,其中一个AI模型名称对应一个AI模型,相应地,步骤S7包括:接收用户针对用户操作界面上显示的多个AI模型名称的第二选择操作指令,根据第二选择操作指令确定出用户选中的AI模型名称,将用户选中的AI模型名称对应的AI模型作为用户指定的模型。
相应地,步骤S8中,对用户指定的模型进行训练,即对一个或多个用户选中的AI模型分别进行训练,所获得的乳腺癌用药方案推荐模型的数量也相应地包括一个或多个,每一个AI模型对应一个乳腺癌用药方案推荐模型。
而步骤S9中,则是将待推荐病例数据输入一个或多个乳腺癌用药方案推荐模型,获得与乳腺癌用药方案推荐模型一一对应的推荐结果,如果乳腺癌用药方案推荐模型的数量为一,将唯一的推荐结果作为用药方案推荐结果,而如果乳腺癌用药方案推荐模型的数量包括多个,则对多个推荐结果进行融合处理,获得一个用药方案推荐结果。
如此,通过在用户操作界面上显示多个AI模型名称,用户可以根据需求选择不同AI模型进行训练,并利用训练后的多个乳腺癌用药方案推荐模型进行分类,再融合成一个用药方案推荐结果,可以进一步提高针对乳腺癌病例进行用药推荐的准确率。
步骤S9之后,电子设备还可以接收用户输入的患者的个人信息,该个人信息可以包括年龄、性别、既往病史、疾病信息以及历史用药数据等,其中,既往病史可以包括患者历史患病的名称及对应的治疗时长等,疾病信息可以包括患者的具体病况,比如疾病的癌症分期信息、影响疾病的高危险因素等,历史用药数据用于反映患者历史上使用药品的不良反应;然后将该个人信息和步骤S9中获得的用药方案推荐结果输入评测模型,获得评测结果,该评测结果用于表征用药方案推荐结果所包括的用药方案及化疗决策信息是否适用于患者,评测结果以用药方案推荐结果适用于患者的概率值的形式输出。
通过评测乳腺癌用药方案推荐模型所推荐的用药方案推荐结果是否适用于患者,可以针对患者进行个性化地推荐,更加智能化。
进一步地,还可以在上述概率值达到一定阈值时,才判定乳腺癌用药方案推荐模型所推荐的用药方案推荐结果适用于患者,并在用户操作界面上显示用药方案推荐结果,可以提高针对乳腺癌病例进行用药推荐的可靠性。
如图2所示,本发明实施例公开一种乳腺癌用药方案推荐装置,包括预处理单元201、筛选单元202、计算单元203、显示单元204、接收单元205、第一确定单元206、第二确定单元207、训练单元208和推荐单元209;其中,
预处理单元201,用于对多个病例样本数据进行预处理,获得统一格式的多个病例样本数据;
筛选单元202,用于从多个病例样本数据的特征基因全集中进行筛选,获得多个重要特征基因;
计算单元203,用于计算获得每个重要特征基因的重要性分值;
显示单元204,用于在用户操作界面上显示每个重要特征基因及其重要性分值;
接收单元205,用于接收用户针对多个重要特征基因的第一选择操作指令;
第一确定单元206,用于根据第一选择操作指令,确定用户选中的目标重要特征基因;
第二确定单元207,用于根据用户输入的第二选择操作指令,确定出用户指定的模型;
训练单元208,用于以目标重要特征基因作为特征向量、根据多个病例样本数据,对用户指定的模型进行训练,获得乳腺癌用药方案推荐模型;
推荐单元209,用于将待推荐病例数据输入乳腺癌用药方案推荐模型,获得用药方案推荐结果。
可选地,图2所示的乳腺癌用药方案推荐装置中,特征基因全集包括N个特征基因;筛选单元202可以包括以下未图示的子单元:
获取子单元,用于每次从特征基因全集中减去一个特征基因,获得与N个特征基因一一对应的特征基因组合;
评价子单元,用于利用多个病例样本数据,计算每个特征基因组合的评价函数值;
剔除子单元,用于在评价函数值用于表征某个特征基因组合的分类结果最差时,将某个特征基因组合对应的特征基因从特征基因全集中剔除;
筛选子单元,用于在特征基因全集中剩余的特征基因数量等于指定特征数时,将剩余的特征基因作为重要特征基因。
可选地,图2所示的乳腺癌用药方案推荐装置中,多个病例样本数据包括训练样本集;上述的计算单元203可以包括以下未图示的子单元:
抽样子单元,用于从训练样本集中有放回地随机抽样,获得多个训练样本子集,训练样本子集与训练样本集的样本数量相同;
构建子单元,用于针对每个训练样本子集,构建一棵决策树;
***子单元,用于使每棵决策树利用其对应的训练样本子集,根据多个重要特征基因进行***生长;
生成子单元,用于在所有决策树***生长结束后,生成所有决策树的规则信息;
统计子单元,用于统计每个重要特征基因在规则信息中的出现总频次以及总信息增益;
计算子单元,用于计算每个重要特征基因的总信息增益和除以出现总频次的商值,将商值作为重要性分值。
可选地,图2所示的乳腺癌用药方案推荐装置中,上述的第二确定单元207,具体用于接收用户针对用户操作界面上显示的多个AI模型名称的第二选择操作指令;以及,根据第二选择操作指令,确定出用户选中的AI模型名称,将用户选中的AI模型名称对应的AI模型作为用户指定模型。
如图3所示,本发明实施例公开一种电子设备,包括存储有可执行程序代码的存储器301以及与存储器301耦合的处理器302;
其中,处理器302调用存储器301中存储的可执行程序代码,执行上述各实施例中描述的乳腺癌用药方案推荐方法。
本发明实施例还公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行上述各实施例中描述的乳腺癌用药方案推荐方法。
以上实施例的目的,是对本发明的技术方案进行示例性的再现与推导,并以此完整的描述本发明的技术方案、目的及效果,其目的是使公众对本发明的公开内容的理解更加透彻、全面,并不以此限定本发明的保护范围。
以上实施例也并非是基于本发明的穷尽性列举,在此之外,还可以存在多个未列出的其他实施方式。在不违反本发明构思的基础上所作的任何替换与改进,均属本发明的保护范围。
Claims (10)
1.乳腺癌用药方案推荐方法,其特征在于,包括:
对多个病例样本数据进行预处理,获得统一格式的多个病例样本数据;
从所述多个病例样本数据的特征基因全集中进行筛选,获得多个重要特征基因;
计算获得每个所述重要特征基因的重要性分值;
在用户操作界面上显示每个所述重要特征基因及其重要性分值;
接收用户针对所述多个所述重要特征基因的第一选择操作指令;
根据所述第一选择操作指令,确定用户选中的目标重要特征基因;
根据用户输入的第二选择操作指令,确定出用户指定的模型;
以所述目标重要特征基因作为特征向量、根据所述多个病例样本数据,对所述用户指定的模型进行训练,获得乳腺癌用药方案推荐模型;
将待推荐病例数据输入所述乳腺癌用药方案推荐模型,获得用药方案推荐结果。
2.根据权利要求1所述的乳腺癌用药方案推荐方法,其特征在于,所述特征基因全集包括N个特征基因;所述从所述多个病例样本数据的特征基因全集中进行筛选,获得多个重要特征基因,包括:
每次从所述特征基因全集中减去一个特征基因,获得与所述N个特征基因一一对应的特征基因组合;
利用所述多个病例样本数据,计算每个所述特征基因组合的评价函数值;
当所述评价函数值用于表征某个特征基因组合的分类结果最差时,将所述某个特征基因组合对应的特征基因从所述特征基因全集中剔除;
当所述特征基因全集中剩余的特征基因数量等于指定特征数时,将剩余的特征基因作为重要特征基因。
3.根据权利要求1所述的乳腺癌用药方案推荐方法,其特征在于,所述多个病例样本数据包括训练样本集;所述计算获得每个所述重要特征基因的重要性分值,包括:
从所述训练样本集中有放回地随机抽样,获得多个训练样本子集,所述训练样本子集与所述训练样本集的样本数量相同;
针对每个所述训练样本子集,构建一棵决策树;
使每棵所述决策树利用其对应的训练样本子集,根据所述多个重要特征基因进行***生长;
在所有所述决策树***生长结束后,生成所有所述决策树的规则信息;
统计每个所述重要特征基因在所述规则信息中的出现总频次以及总信息增益;
计算每个所述重要特征基因的所述总信息增益和除以所述出现总频次的商值,将所述商值作为重要性分值。
4.根据权利要求1至3任一项所述的乳腺癌用药方案推荐方法,其特征在于,所述根据用户输入的第二选择操作指令,确定出用户指定的模型,包括:
接收用户针对所述用户操作界面上显示的多个AI模型名称的第二选择操作指令;
根据所述第二选择操作指令,确定出用户选中的AI模型名称;
将用户选中的AI模型名称对应的AI模型作为用户指定的模型。
5.乳腺癌用药方案推荐装置,其特征在于,包括:
预处理单元,用于对多个病例样本数据进行预处理,获得统一格式的多个病例样本数据;
筛选单元,用于从所述多个病例样本数据的特征基因全集中进行筛选,获得多个重要特征基因;
计算单元,用于计算获得每个所述重要特征基因的重要性分值;
显示单元,用于在用户操作界面上显示每个所述重要特征基因及其重要性分值;
接收单元,用于接收用户针对所述多个所述重要特征基因的第一选择操作指令;
第一确定单元,用于根据所述第一选择操作指令,确定用户选中的目标重要特征基因;
第二确定单元,用于根据用户输入的第二选择操作指令,确定出用户指定的模型;
训练单元,用于以所述目标重要特征基因作为特征向量、根据所述多个病例样本数据,对所述用户指定的模型进行训练,获得乳腺癌用药方案推荐模型;
推荐单元,用于将待推荐病例数据输入所述乳腺癌用药方案推荐模型,获得用药方案推荐结果。
6.根据权利要求5所述的乳腺癌用药方案推荐装置,其特征在于,所述特征基因全集包括N个特征基因;所述筛选单元包括:
获取子单元,用于每次从所述特征基因全集中减去一个特征基因,获得与所述N个特征基因一一对应的特征基因组合;
评价子单元,用于利用所述多个病例样本数据,计算每个所述特征基因组合的评价函数值;
剔除子单元,用于在所述评价函数值用于表征某个特征基因组合的分类结果最差时,将所述某个特征基因组合对应的特征基因从所述特征基因全集中剔除;
筛选子单元,用于在所述特征基因全集中剩余的特征基因数量等于指定特征数时,将剩余的特征基因作为重要特征基因。
7.根据权利要求5所述的乳腺癌用药方案推荐装置,其特征在于,所述多个病例样本数据包括训练样本集;所述计算单元包括:
抽样子单元,用于从所述训练样本集中有放回地随机抽样,获得多个训练样本子集,所述训练样本子集与所述训练样本集的样本数量相同;
构建子单元,用于针对每个所述训练样本子集,构建一棵决策树;
***子单元,用于使每棵所述决策树利用其对应的训练样本子集,根据所述多个重要特征基因进行***生长;
生成子单元,用于在所有所述决策树***生长结束后,生成所有所述决策树的规则信息;
统计子单元,用于统计每个所述重要特征基因在所述规则信息中的出现总频次以及总信息增益;
计算子单元,用于计算每个所述重要特征基因的所述总信息增益和除以所述出现总频次的商值,将所述商值作为重要性分值。
8.根据权利要求5至7任一项所述的乳腺癌用药方案推荐装置,其特征在于,所述第二确定单元,具体用于接收用户针对所述用户操作界面上显示的多个AI模型名称的第二选择操作指令;以及,根据所述第二选择操作指令,确定出用户选中的AI模型名称,将用户选中的AI模型名称对应的AI模型作为用户指定的模型。
9.电子设备,其特征在于,包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至4任一项所述的乳腺癌用药方案推荐方法。
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至4任一项所述的乳腺癌用药方案推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111015800.7A CN115732057A (zh) | 2021-08-31 | 2021-08-31 | 乳腺癌用药方案推荐方法及装置、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111015800.7A CN115732057A (zh) | 2021-08-31 | 2021-08-31 | 乳腺癌用药方案推荐方法及装置、设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115732057A true CN115732057A (zh) | 2023-03-03 |
Family
ID=85291644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111015800.7A Pending CN115732057A (zh) | 2021-08-31 | 2021-08-31 | 乳腺癌用药方案推荐方法及装置、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115732057A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117689452A (zh) * | 2024-02-01 | 2024-03-12 | 北京未来聚典信息技术有限公司 | 一种基于购药规律的医药精准营销管理方法及*** |
-
2021
- 2021-08-31 CN CN202111015800.7A patent/CN115732057A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117689452A (zh) * | 2024-02-01 | 2024-03-12 | 北京未来聚典信息技术有限公司 | 一种基于购药规律的医药精准营销管理方法及*** |
CN117689452B (zh) * | 2024-02-01 | 2024-04-30 | 北京未来聚典信息技术有限公司 | 一种基于购药规律的医药精准营销管理方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020181805A1 (zh) | 糖尿病的预测方法及装置、存储介质、计算机设备 | |
US10832128B2 (en) | Transfer learning apparatus, transfer learning system, transfer learning method, and recording medium | |
US20210342212A1 (en) | Method and system for identifying root causes | |
US7805385B2 (en) | Prognosis modeling from literature and other sources | |
Padula et al. | Machine learning methods in health economics and outcomes research—the PALISADE checklist: a good practices report of an ISPOR task force | |
CN111758108A (zh) | 用于对概率分布进行建模的***和方法 | |
CN112015917A (zh) | 基于知识图谱的数据处理方法、装置及计算机设备 | |
US11636951B2 (en) | Systems and methods for generating a genotypic causal model of a disease state | |
CN111785366B (zh) | 患者治疗方案的确定方法、装置及计算机设备 | |
CN111899828A (zh) | 一种知识图谱驱动的乳腺癌诊疗方案推荐*** | |
US20230112591A1 (en) | Machine learning based medical data checker | |
EP3796226A1 (en) | Data conversion/symptom scoring | |
CN116910172B (zh) | 基于人工智能的随访量表生成方法及*** | |
US12009085B2 (en) | Systems and methods for scheduling alimentary combinations | |
CN112447270A (zh) | 一种用药推荐方法、装置、设备及存储介质 | |
Abaho et al. | Detect and Classify--Joint Span Detection and Classification for Health Outcomes | |
CN115732057A (zh) | 乳腺癌用药方案推荐方法及装置、设备、存储介质 | |
CN113066531B (zh) | 风险预测方法、装置、计算机设备及存储介质 | |
US20220029986A1 (en) | Methods and systems of biometric identification in telemedicine using remote sensing | |
US12019635B2 (en) | Methods and systems for arranging and displaying guided recommendations via a graphical user interface based on biological extraction | |
CN116721699A (zh) | 一种基于肿瘤基因检测结果的智能推荐方法 | |
Ankrah et al. | Multi-Class Classification of Genetic Mutation Using Machine Learning Models | |
Mandal et al. | Reconstruction of dominant gene regulatory network from microarray data using rough set and bayesian approach | |
US20220367061A1 (en) | System and method for text-based conversation with a user, using machine learning | |
Kerdprasop et al. | Bridging data mining model to the automated knowledge base of biomedical informatics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |