CN115910213B - 人类表型本体的筛选方法、装置、设备及介质 - Google Patents
人类表型本体的筛选方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115910213B CN115910213B CN202211318813.6A CN202211318813A CN115910213B CN 115910213 B CN115910213 B CN 115910213B CN 202211318813 A CN202211318813 A CN 202211318813A CN 115910213 B CN115910213 B CN 115910213B
- Authority
- CN
- China
- Prior art keywords
- hpo
- screening
- phenotype
- model
- recall
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012216 screening Methods 0.000 title claims abstract description 318
- 238000000034 method Methods 0.000 title claims abstract description 39
- 101150093249 hpo gene Proteins 0.000 claims abstract description 50
- 238000004422 calculation algorithm Methods 0.000 claims description 56
- 238000013528 artificial neural network Methods 0.000 claims description 43
- 108090000623 proteins and genes Proteins 0.000 claims description 29
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000012163 sequencing technique Methods 0.000 claims description 19
- 238000013519 translation Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 13
- 108091026890 Coding region Proteins 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 238000013215 result calculation Methods 0.000 claims description 5
- 241000208340 Araliaceae Species 0.000 claims description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 3
- 235000008434 ginseng Nutrition 0.000 claims description 3
- 238000013507 mapping Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000002068 genetic effect Effects 0.000 description 4
- 208000026350 Inborn Genetic disease Diseases 0.000 description 3
- 125000002015 acyclic group Chemical group 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 208000016361 genetic disease Diseases 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 208000016012 Phenotypic abnormality Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000002858 computational analysis of gene expression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种人类表型本体的筛选方法、装置、设备及介质,将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果,从而提高筛选的准确性,进而提高推荐HPO的准确率。
Description
技术领域
本发明属于医疗技术领域,尤其涉及一种人类表型本体的筛选方法、装置、设备及介质。
背景技术
人类遗传疾病是指由于遗传物质的改变而造成的疾病,而遗传病数量种类多且每年均有新发现的遗传疾病种类,使得遗传疾病成为危害人类健康的重要因素。
人类表型本体(HPO)是一个标准化受控的词典,它包含了基因和基因产物的表型信息。在人类在线孟德尔遗传数据库(online Mendelian Inheritance in Man)为大约8千个疾病提供了超过11万个基因注释,这些疾病被HPO术语所标注,使得HPO术语可以被用来描述所有的体征、症状和其他表型表现的特征。由于HPO包含了表型异常的关联信息,基于数据库搜索在关联人类疾病的基因表达模式的临床诊断或计算分析可以通过包含上述标注概念的HPO术语的语义相似度计算来实现。
然而HPO官方词条是英文版,对于英文临床文本的处理大致流程为:首先通过英文分词工具进行分词,然后通过统一医学***(Unified Medical Language System)数据库对分词结果进行筛选,从而得到HPO结果,然而此流程需要将中文的临床信息翻译为英文的翻译信息,一旦翻译不准确,则会导致筛选的结果存在不准确的问题。
发明内容
针对上述现有技术的不足,本发明的目的在于提供一种人类表型本体的筛选方法、装置、设备及介质,以解决筛选的结果存在不准确的问题。
本发明提供一种人类表型本体的筛选方法,包括如下步骤:
获取临床记录信息;
将临床记录信息作为神经网络语言模型的输入,所述神经网络语言模型输出临床记录信息对应的第一表型信息;
将第一表型信息作为HPO筛选模型的输入,获取HPO筛选结果;
所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型,将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语;
将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语,经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数;
将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果。
在本发明的一实施例中,所述将临床记录信息作为神经网络语言模型的输入,所述神经网络语言模型输出临床记录信息对应的第一表型信息的步骤包括:
将临床记录信息依据第一预设规则转换为编码序列Seqtoken(id1,id2...idn),将编码序列Seqtoken(id1,id2...idn)作为神经网络语言模型的输入,所述神经网络语言模型输出临床记录信息对应的第一表型信息。
在本发明的一实施例中,所述神经网络语言模型输出临床记录信息对应的第一表型信息的步骤包括:
所述神经网络语言模型包括概率算法模型、标签识别模型、过滤算法模型及表型位置提取模型;
将编码序列Seqtoken(id1,id2...idn)输入至概率算法模型,获取概率矩阵M(vec1,vec2...vecn),其中vec为高维向量;
将概率矩阵M(vec1,vec2...vecn)输入至标签识别模型,所述标签识别模型自概率矩阵中筛选出标签序列Seqlabel(t1,t2...tn);
将标签序列Seqlabel(t1,t2...tn)输入至过滤算法模型,所述过滤算法模型对标签序列进行纠正,获得过滤后的标签序列Seqlabel(t1,t2...tn);
将过滤后的标签序列输入至表型位置提取模型,获取表型位置标记的三元集合G,{[idxstart,idxend,pstart+pend]∈G|0<start<end<n},其中px=max(vecx),Score1=pstart+pend,p为表型的置信值,Score1为置信值得分,pstart为标签序列中的最高的置信值;pend为标签序列中的最低的置信值;
将表型位置标记的三元集合G输入至HPO筛选算法模型,获取三元集合G的得分Score2=HPO(x),x∈G;
将Score1与第一阈值进行比较,将Score2与第二阈值进行比较,获得第一表型集合,所述第一表型集合为第一表型信息,第一阈值和第二阈值为人工预设参考值。
在本发明的一实施例中,所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型,将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语,将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语的步骤包括:
将召回HPO术语复制后输入至表型语义角度子模型,对所述第一表型信息依据第二预设规则对第一表型信息进行分词,获得分词结果Pc(w1,w2...wn),其中w为中文分词词语;
将分词结果Pc(w1,w2...wn)依据第二预设规则转化成Pc(vec1,vec2...vecn),其中vec是高维向量;
由公式:计算获得表型向量,其中vec是高维向量;
由公式:计算获得语义结果;
对语义结果进行排序,获得排序语义结果,将排序语义结果输入至HPO筛选模型,获得语义角度筛选术语,所述语义角度筛选术语为依据排序语义结果自HPO筛选模型中筛选的推荐HPO项;
将召回HPO术语复制后输入至表型词统计角度子模型;
由公式:计算获得对应每个HPO的筛选分数,Scorebm25为HPO分数得分,其中f(qi,D)为中文人类表型本体分词后各词在中文人类表型本体中出现的频率,avgdl为HPO翻译的文本平均长度,|D|为HPO翻译对应的文本长度,N为HPO词条的总条目数,n(qi)为包含qi的HPO翻译条目数量,b和k1为可调参;
对获得每个HPO的筛选分数进行排序,选取分数最高的HPO层级扩充子模型的候选HPO术语。
在本发明的一实施例中,所述经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数的步骤包括:
自HPO数据库获取HPO关联基因的注释个数Countgene;Countgene为HPO基因信息;
由公式与输入表型计算,获得HPO词对关联系数,其中,Q为上一步提取的表型,D为人类表型本体数据库中的中文描述。
在本发明的一实施例中,所述将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果的步骤包括:
获得召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数,计算每个HPO筛选算法分数,
由公式Scorefinal=k1·Scoresemantic+k2·log(Scorebm25+b1)+k3·Scorepair+k4·log(Countgene+b2),获得每个HPO筛选算法最终分数,其中,k为控制不同分数的权重参数,b为调整分数值域的控制参数,Scoresemantic为语义角度筛选术语,Scorebm25为召回统计角度筛选术语,Scorepair为HPO词对关联系数,Countgene为HPO基因信息;Scorefinal为HPO筛选算法最终分数。
在本发明的一实施例中,所述将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果的步骤还包括:
对每个HPO筛选算法最终分数进行排序,获得排序后的HPO筛选算法最终分数,将排序后的每个HPO筛选算法最终分数逐一与第三阈值进行比较,第三阈值为人工预设参考值;
若HPO筛选算法最终分数大于第三阈值,则输出推荐的HPO。
本发明提供一种人类表型本体的筛选装置,包括:
信息录入模块,用于获取临床记录信息;
神经网络语言模块,用于处理临床记录信息,获得第一表型信息;
HPO筛选模块,用于对第一表型进行处理获得召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数;
结果计算模块,依据召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息、HPO词对关联系数及预设的评分规则输出HPO筛选结果;
结果输出模块,依据HPO筛选结果,输出推荐的HPO。
本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述的人类表型本体的筛选方法。
本发明提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述的人类表型本体的筛选方法。
实施本发明实施例,将至少具有如下有益效果:
本发明提供一种人类表型本体的筛选方法、装置、设备及介质,将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果,从而提高筛选的准确性,进而提高推荐HPO的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例中的流程图;
图2为本发明另一实施例中的流程图;
图3为本发明人类表型本体的筛选装置的结构框图;
图4为一实施例中计算机设备的结构框图。
图中:
人类表型本体的筛选装置100、信息录入模块101、神经网络语言模块102、HPO筛选模块103、结果计算模块104、结果输出模块105、计算机设备200、处理器210、存储器220。
具体实施方式
为了使本领域的技术人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,当元件被称为“固定于”或“设置于”另一个部件上,它可以直接在另一个部件上或者间接设置在另一个部件上;当一个部件被称为是“连接于”另一个部件,它可以是直接连接到另一个部件或间接连接至另一个部件上。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或部件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”、“若干个”的含义是两个或两个以上,除非另有明确具体的限定。
须知,本说明书附图所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本申请可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本申请所能产生的功效及所能达成的目的下,均应仍落在本申请所揭示的技术内容得能涵盖的范围内。
本发明提供一种人类表型本体的筛选方法,包括如下步骤:
S1:获取临床记录信息;
S2:将临床记录信息作为神经网络语言模型的输入,所述神经网络语言模型输出临床记录信息对应的第一表型信息;
S3:将第一表型信息作为HPO筛选模型的输入,获取HPO筛选结果;
S4:所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型,将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语;
S5:将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语,经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数;
S6:将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果。
参考图1,实施例一,将临床记录信息作为神经网络语言模型的输入,所述神经网络语言模型输出临床记录信息对应的第一表型信息;将第一表型信息作为HPO筛选模型的输入,获取HPO筛选结果;所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型,将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语,将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果,从而提高筛选的准确性,进而提高推荐HPO的准确率。
需要说明的是,临床记录信息为电子病历或纸质病历,若采用纸质病历则需要通过人工提取纸质病历信息;HPO基因信息为HPO关联基因注释信息;每一个HPO术语描述了一种独特的表型异常;HPO层级结构为一个有向无换图,即每个节点代表其上一层级术语的子类。
需要进一步说明的是,由于中文临床信息在转换翻译的过程中,存在表述不标准、单一表型表达不唯一、存在单词缩写的问题,使得词库的词匹配算法通常不能将此类表型信息识别出。
因此本实施例中采用神经网络语言模型,通过语言模型借助神经网络高泛化的特点来解决之前表型识别严重依赖于词库的问题,然后将后续提取出的召回HPO术语返回,进行二次过滤,以提高筛选的准确性。
在本发明的一实施例中,所述将临床记录信息作为神经网络语言模型的输入,所述神经网络语言模型输出临床记录信息对应的第一表型信息的步骤包括:
将临床记录信息依据第一预设规则转换为编码序列Seqtoken(id1,id2...idn),将编码序列Seqtoken(id1,id2...idn)作为神经网络语言模型的输入,所述神经网络语言模型输出临床记录信息对应的第一表型信息,第一预设规则为字典映射规则。
参考图1至图2,实施例二:获取到临床记录信息,并将临床记录信息进行预处理获得Seqehr(c1,c2...cn),Seqehr(c1,c2...cn)为临床检测信息序列,将Seqehr(c1,c2...cn)按照预设的字典映射规定转换成编码序列Seqtoken(id1,id2...idn),并将编码序列Seqtoken(id1,id2...idn)作为神经网络语言模型的输入,所述神经网络语言模型输出临床记录信息对应的第一表型信息,将第一表型信息作为HPO筛选模型的输入,获取HPO筛选结果;
所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型,将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语;将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语,经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数;将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果。
需要说明的是,即将临床记录信息序列转换成编码序列,编码序列进行运用自然语言处理技术提取出所有的医学名词,然后通过神经网络语言模型输出临床记录信息对应的第一表型信息,使得医学名词的匹配准确度更高。
在本发明的一实施例中,所述神经网络语言模型输出临床记录信息对应的第一表型信息的步骤包括:
所述神经网络语言模型包括概率算法模型、标签识别模型、过滤算法模型及表型位置提取模型;
将编码序列Seqtoken(id1,id2...idn)输入至概率算法模型,获取概率矩阵M(vec1,vec2...vecn),其中vec为高维向量;
将概率矩阵M(vec1,vec2...vecn)输入至标签识别模型,所述标签识别模型自概率矩阵中筛选出标签序列Seqlabel(t1,t2...tn);
将标签序列Seqlabel(t1,t2...tn)输入至过滤算法模型,所述过滤算法模型对标签序列进行纠正,获得过滤后的标签序列Seqlabel(t1,t2...tn);
将过滤后的标签序列输入至表型位置提取模型,获取表型位置标记的三元集合G,{[idxstart,idxend,pstart+pend]∈G|0<start<end<n},其中px=max(vecx),Score1=pstart+pend,p为表型的置信值,Score1为置信值得分,pstart为标签序列中的最高的置信值;
将表型位置标记的三元集合G输入至HPO筛选算法模型,获取三元集合G的得分Score2=HPO(x),x∈G;
将Score1与第一阈值进行比较,将Score2与第二阈值进行比较,获得第一表型集合,所述第一表型集合为第一表型信息,第一阈值和第二阈值为人工预设参考值。
参考图1至图2,实施例三:
获取临床记录信息;
将临床记录信息作为神经网络语言模型的输入,临床记录信息通过转化得到的编码序列Seqtoken(id1,id2...idn)并输入到概率算法模型当中,即M(vec1,vec2...vecn)=LM(Seqtoken(id1,id2...idn)),得到概率矩阵,然后通过标签识别模型从概率矩阵中识别出标签序列,即得到标签序列,将标签序列输入至过滤算法模型中,argmax为对函数求参数(集合)的函数,Seqlabel(t1,t2...tn)=FILTER(Seqlabel(t1,t2...tn)),得到过滤后的标签序列,其中,FILTER为FILTER函数,即将返回一个数组;
将过滤后的标签序列输入至表型位置提取模型中,获取到表型位置标记的三元集合G,{[idxstart,idxend,pstart+pend]∈G|0<start<end<n},其中px=max(vecx),Score1=pstart+pend,p为表型的置信值,Score1为置信值得分,pstart为标签序列中的最高的置信值,从而得到表型的置信值,然后将Score1与第一阈值进行比较,将Score2与第二阈值进行比较,获得第一表型集合,所述第一表型集合为第一表型信息,将第一表型信息作为HPO筛选模型的输入,获取HPO筛选结果;所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型,将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语;将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语,经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数;
将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果。
在本发明的一实施例中,所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型,将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语,将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语的步骤包括:
将召回HPO术语复制后输入至表型语义角度子模型,对所述第一表型信息依据第二预设规则(预先设定的词-向量映射库Dcorpus中的词典集)对第一表型信息进行分词,获得分词结果Pc(w1,w2...wn),其中w为中文分词词语;
将分词结果Pc(w1,w2...wn)依据第二预设规则(词-向量映射库Dcorpus)转化成Pc(vec1,vec2...vecn),其中vec是高维向量;
由公式:计算获得表型向量,其中vec是高维向量;
由公式:计算获得语义结果;
对语义结果进行排序,获得排序语义结果,将排序语义结果输入至HPO筛选模型,获得语义角度筛选术语,所述语义角度筛选术语为依据排序语义结果自HPO筛选模型中筛选的推荐HPO项;
将召回HPO术语复制后输入至表型词统计角度子模型;
由公式:计算获得对应每个HPO的筛选分数,Scorebm25为HPO分数得分,其中f(qi,D)为中文人类表型本体分词后各词在中文人类表型本体中出现的频率,avgdl为HPO翻译的文本平均长度,|D|为HPO翻译对应的文本长度,N为HPO词条的总条目数,n(qi)为包含qi的HPO翻译条目数量,b和k1为可调参;
对获得每个HPO的筛选分数进行排序,选取分数最高的HPO层级扩充子模型的候选HPO术语,将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果。
需要说明的是,由于HPO词条存在多维度的信息,使得现有技术中在做精准排序时,会对精准排序造成干扰,第二预设规则为词-向量映射库规则。
参考图1至图2,实施例四:
获取临床记录信息;将临床记录信息作为神经网络语言模型的输入,所述神经网络语言模型输出临床记录信息对应的第一表型信息;将第一表型信息作为HPO筛选模型的输入,获取HPO筛选结果,所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型,将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语,即,将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语;将复制的第一表型信息输入至HPO层级扩充子模型中,依据预设格式词——向量映射库Dcorpus中的词典集,对第一表型信息进行分词获得分词结果Pc(w1,w2...wn),然后将分词结果Pc(w1,w2...wn)经过词——向量映射库Dcorpus转换成Pc(vec1,vec2...vecn),得到Vecp于预先计算的HPO-向量映射库Dcorpus中的同维向量,并输入到公式计算获得语义结果,semantic为语义,score为得分;接着通过排序得到语义结果基于语义相似获得推荐的HPO项。通过术语向量化及空间最邻近算法来召回候选HPO项,以作为HPO层级扩充子模型的候选HPO术语,运用上述步骤能够找到语义相似的表型,同时增加对于中文人类表型本体术语翻译质量不高的冗余。
由于纯语义匹配的召回策略无法解决输入的表型中词的重点不一致的问题。本实施例采用一下步骤来解决输入的表型中词的重点不一致的问题:
统计中文人类表型本体中的词的出现频率及逆文档概率(逆文档频率:是文档频率的倒数,主要用于概念TF-IDF(term frequency–inverse document frequency)中),将召回HPO术语复制后输入至表型词统计角度子模型,通过公式 计算获得对应每个HPO到匹配分数,然后对第一表型信息与每个HPO翻译相对应并计算其结果,然后对结果进行排序,选取分数最高的HPO层级扩充子模型的候选HPO术语。
由于HPO层级进行候选项扩充是非常重要的环节之一,但是现有的HPO项的关联的基因注释个数通常很少,导致无法更好的辅助人工完成分析。本实施例中HPO层级结构为一个有向无环结构,其中每个节点代表其上层术语的子类,同时存在单个HPO上下层级的关联项过度,然后采用随机采样策略以选取HPO候选项的数量。
然后将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果。
在本发明的一实施例中,所述经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数的步骤包括:
自HPO数据库获取HPO关联基因的注释个数Countgene;
由公式与输入表型计算,获得HPO词对关联系数,其中,Q为上一步提取的表型,D为人类表型本体数据库中的中文描述。
在本发明的一实施例中,所述将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果的步骤包括:
获得召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数,计算每个HPO筛选算法分数,
由公式Scorefinal=k1·Scoresemantic+k2·log(Scorebm25+b1)+k3·Scorepair+k4·
log(Countgene+b2),获得每个HPO筛选算法最终分数,其中,k为控制不同分数的权重参数,b为调整分数值域的控制参数,Scoresemantic为语义角度筛选术语,Scorebm25为召回统计角度筛选术语,Scorepair为HPO词对关联系数,Countgene为HPO基因信息;Scorefinal为HPO筛选算法最终分数。
参考图1至图2,实施例五:
获取到临床记录信息,并将临床记录信息进行预处理获得Seqehr(c1,c2...cn),Seqehr(c1,c2...cn)为临床检测信息序列,将Seqehr(c1,c2...cn)按照预设的字典映射规定转换成编码序列Seqtoken(id1,id2...idn),并将编码序列Seqtoken(id1,id2...idn)作为神经网络语言模型的输入,将临床记录信息作为神经网络语言模型的输入,临床记录信息通过转化得到的编码序列Seqtoken(id1,id2...idn)并输入到概率算法模型当中,即M(vec1,vec2...vecn)=LM(Seqtoken(id1,id2...idn)),得到概率矩阵,然后通过标签识别模型从概率矩阵中识别出标签序列,即得到标签序列,将标签序列输入至过滤算法模型中,argmax为对函数求参数(集合)的函数,Seqlabel(t1,t2...tn)=FILTER(Seqlabel(t1,t2...tn)),得到过滤后的标签序列,其中,FILTER为FILTER函数,即将返回一个数组;
将过滤后的标签序列输入至表型位置提取模型中,获取到表型位置标记的三元集合G,{[idxstart,idxend,pstart+pend]∈G|0<start<end<n},其中px=max(vecx),Score1=pstart+pend,p为表型的置信值,Score1为置信值得分,pstart为标签序列中的最高的置信值,从而得到表型的置信值,然后将Score1与第一阈值进行比较,将Score2与第二阈值进行比较,获得第一表型集合,所述第一表型集合为第一表型信息,将第一表型信息作为HPO筛选模型的输入,获取HPO筛选结果;所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型,将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语;将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语,经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数;将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语;将复制的第一表型信息输入至HPO层级扩充子模型中,依据预设格式词——向量映射库Dcorpus中的词典集,对第一表型信息进行分词获得分词结果Pc(w1,w2...wn),然后将分词结果Pc(w1,w2...wn)经过词——向量映射库Dcorpus转换成Pc(vec1,vec2...vecn),得到Vecp于预先计算的HPO-向量映射库Dcorpus中的同维向量,并输入到公式计算获得语义结果,semantic为语义,score为得分;接着通过排序得到语义结果基于语义相似获得推荐的HPO项。通过术语向量化及空间最邻近算法来召回候选HPO项,以作为HPO层级扩充子模型的候选HPO术语,运用上述步骤能够找到语义相似的表型,同时增加对于中文人类表型本体术语翻译质量不高的冗余。
由于纯语义匹配的召回策略无法解决输入的表型中词的重点不一致的问题。本实施例采用一下步骤来解决输入的表型中词的重点不一致的问题:
统计中文人类表型本体中的词的出现频率及逆文档概率(逆文档频率:是文档频率的倒数,主要用于概念TF-IDF(term frequency–inverse document frequency)中),将召回HPO术语复制后输入至表型词统计角度子模型,通过公式 计算获得对应每个HPO到匹配分数,然后对第一表型信息与每个HPO翻译相对应并计算其结果,然后对结果进行排序,选取分数最高的HPO层级扩充子模型的候选HPO术语。
由于HPO层级进行候选项扩充是非常重要的环节之一,但是现有的HPO项的关联的基因注释个数通常很少,导致无法更好的辅助人工完成分析。本实施例中HPO层级结构为一个有向无环结构,其中每个节点代表其上层术语的子类,同时存在单个HPO上下层级的关联项过度,然后采用随机采样策略以选取HPO候选项的数量。
然后将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果。
自HPO数据库获取HPO关联基因的注释个数Countgene;由公式与输入表型计算,获得HPO词对关联系数,HPO基因信息即为HPO关联基因的注释个数。最后将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果。
在本发明的一实施例中,所述将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果的步骤还包括:
对每个HPO筛选算法最终分数进行排序,获得排序后的HPO筛选算法最终分数,将排序后的每个HPO筛选算法最终分数逐一与第三阈值进行比较,第三阈值为人工预设参考值;
若HPO筛选算法最终分数大于第三阈值,则输出推荐的HPO。
参考图1至图2,实施例六:
获取到临床记录信息,并将临床记录信息进行预处理获得Seqehr(c1,c2...cn),Seqehr(c1,c2...cn)为临床检测信息序列,将Seqehr(c1,c2...cn)按照预设的字典映射规定转换成编码序列Seqtoken(id1,id2...idn),并将编码序列Seqtoken(id1,id2...idn)作为神经网络语言模型的输入,将临床记录信息作为神经网络语言模型的输入,临床记录信息通过转化得到的编码序列Seqtoken(id1,id2...idn)并输入到概率算法模型当中,即M(vec1,vec2...vecn)=LM(Seqtoken(id1,id2...idn)),得到概率矩阵,然后通过标签识别模型从概率矩阵中识别出标签序列,即得到标签序列,将标签序列输入至过滤算法模型中,argmax为对函数求参数(集合)的函数,Seqlabel(t1,t2...tn)=FILTER(Seqlabel(t1,t2...tn)),得到过滤后的标签序列,其中,FILTER为FILTER函数,即将返回一个数组;
将过滤后的标签序列输入至表型位置提取模型中,获取到表型位置标记的三元集合G,{[idxstart,idxend,pstart+pend]∈G|0<start<end<n},其中px=max(vecx),Score1=pstart+pend,p为表型的置信值,Score1为置信值得分,pstart为标签序列中的最高的置信值,从而得到表型的置信值,然后将Score1与第一阈值进行比较,将Score2与第二阈值进行比较,获得第一表型集合,所述第一表型集合为第一表型信息,将第一表型信息作为HPO筛选模型的输入,获取HPO筛选结果;所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型,将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语;将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语,经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数;将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语;将复制的第一表型信息输入至HPO层级扩充子模型中,依据预设格式词——向量映射库Dcorpus中的词典集,对第一表型信息进行分词获得分词结果Pc(w1,w2...wn),然后将分词结果Pc(w1,w2...wn)经过词——向量映射库Dcorpus转换成Pc(vec1,vec2...vecn),得到Vecp于预先计算的HPO-向量映射库Dcorpus中的同维向量,并输入到公式计算获得语义结果,semantic为语义,score为得分;接着通过排序得到语义结果基于语义相似获得推荐的HPO项。通过术语向量化及空间最邻近算法来召回候选HPO项,以作为HPO层级扩充子模型的候选HPO术语,运用上述步骤能够找到语义相似的表型,同时增加对于中文人类表型本体术语翻译质量不高的冗余。
由于纯语义匹配的召回策略无法解决输入的表型中词的重点不一致的问题。本实施例采用一下步骤来解决输入的表型中词的重点不一致的问题:
统计中文人类表型本体中的词的出现频率及逆文档概率(逆文档频率:是文档频率的倒数,主要用于概念TF-IDF(term frequency–inverse document frequency)中),将召回HPO术语复制后输入至表型词统计角度子模型,通过公式 计算获得对应每个HPO到匹配分数,然后对第一表型信息与每个HPO翻译相对应并计算其结果,然后对结果进行排序,选取分数最高的HPO层级扩充子模型的候选HPO术语。
由于HPO层级进行候选项扩充是非常重要的环节之一,但是现有的HPO项的关联的基因注释个数通常很少,导致无法更好的辅助人工完成分析。本实施例中HPO层级结构为一个有向无环结构,其中每个节点代表其上层术语的子类,同时存在单个HPO上下层级的关联项过度,然后采用随机采样策略以选取HPO候选项的数量。
然后将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果。
自HPO数据库获取HPO关联基因的注释个数Countgene;由公式与输入表型计算,获得HPO词对关联系数,HPO基因信息即为HPO关联基因的注释个数。
将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数输入至公式Scorefinal=k1·Scoresemantic+k2·log(Scorebm25+b1)+k3·Scorepair+k4·log(Countgene+b2)中,获得每个HPO筛选算法最终分数,然后将每个HPO筛选算法计算推荐分数,按照推荐分排序,从而控制推荐的HPO项数量,以减少对人工的干扰项,对每个HPO筛选算法最终分数进行排序,获得排序后的HPO筛选算法最终分数,将排序后的每个HPO筛选算法最终分数逐一与第三阈值进行比较,第三阈值为人工预设参考值;若HPO筛选算法最终分数大于第三阈值,则输出推荐的HPO,从而提高筛选的准确性,进而提高推荐HPO的准确率,提高识别的泛化能力及准确率,降低人工工作的强度,提高整个流程的效率。
更进一步的,由于将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数输入至公式Scorefinal=k1·Scoresemantic+k2·log(Scorebm25+b1)+k3·Scorepair+k4·log(Countgene+b2)中,获得每个HPO筛选算法最终分数,其中涉及多个可变参数,使用常规方案的复杂程度高,通过以下公式进行计算:
设a1,a2,a3,令k1=a1a2a3,k2=a2a3(1-a1),k3=a3(1-a2),k4=1-a3
故Scorefinal=k1·Scoresemantic+k2·log(Scorebm25+b1)+k3·Scorepair+k4·log(Countgene+b2)
等价于
Scorefinal=·a1a2a3·Scoresemantic·+·a2a3(1-a1)·log(Scorebm25+b1)+a3(1-a2)·Scorepair·+1-a3·log(Countgene·+b2)
=a3{a2[a1·Scoresemantic·+·(1-a1)·log(Scorebm25+b1)]·(1-a2)·Scorepair}·+(1-a3)·log(Countgene·+b2)
由公式进行人类表型本体匹配算法进行转化,从而损失部分准确率,将指数复杂度转换成线性复杂度,再由a1,a2,a3计算获得k1,k2,k3,k4,以减少公式的复杂度,同时也能保证最终排序分数在合理范围内。
本发明提供一种人类表型本体的筛选装置100,包括:
信息录入模块101,用于获取临床记录信息;
神经网络语言模块102,用于处理临床记录信息,获得第一表型信息;
HPO筛选模块103,用于对第一表型进行处理获得召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数;
结果计算模块104,依据召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息、HPO词对关联系数及预设的评分规则输出HPO筛选结果;
结果输出模块105,依据HPO筛选结果,输出推荐的HPO。
在本实施例中,计算机通过信息录入模块101获取到临床记录信息,然后将临床记录信息转换成预设格式输入至神经网络语言模块102中,神经网络语言模块102进行处理获得第一表型信息,然后输入至HPO筛选模块103中,经过HPO筛选模块103的处理获得召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数,然后将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数输入至结果计算模块104中进行计算,并按照预设的评分规则输出HPO筛选结果,结果输出模块105接收到HPO筛选结果,最终输出推荐的HPO。
本发明提供一种计算机设备200,包括存储器220和处理器210,所述存储器220存储有计算机程序,所述计算机程序被所述处理器220执行时,使得所述处理器220执行如上述的人类表型本体的筛选方法。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
该计算机设备包括通过终端总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质有存储操作终端,还可有存储计算机程序,该计算机程序被处理器执行时,可使得处理器实现上述的人类表型本体的筛选方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行上述的人类表型本体的筛选方法。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述的人类表型本体的筛选方法。
本领域普通技术人员可以理解实现上述实施例***中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各***的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种人类表型本体的筛选方法,其特征在于,包括如下步骤:
获取临床记录信息;
将临床记录信息作为神经网络语言模型的输入,所述神经网络语言模型输出临床记录信息对应的第一表型信息;
将第一表型信息作为HPO筛选模型的输入,获取HPO筛选结果;
所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型,将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语;
将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语,经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数;所述经过HPO层级扩充子模型的HPO层级关联关系扩展为召回HPO术语、HPO基因信息及HPO词对关联系数的步骤包括:
自HPO数据库获取HPO关联基因的注释个数Countgene;Countgene为HPO基因信息;
由公式与输入表型计算,获得HPO词对关联系数,其中,Q为上一步提取的表型,D为人类表型本体数据库中的中文描述;
将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果。
2.根据权利要求1所述的人类表型本体的筛选方法,其特征在于,所述将临床记录信息作为神经网络语言模型的输入,所述神经网络语言模型输出临床记录信息对应的第一表型信息的步骤包括:
将临床记录信息依据第一预设规则转换为编码序列Seqtoken(id1,id2...idn),将编码序列Seqtoken(id1,id2...idn)作为神经网络语言模型的输入,所述神经网络语言模型输出临床记录信息对应的第一表型信息。
3.根据权利要求2所述的人类表型本体的筛选方法,其特征在于,所述神经网络语言模型输出临床记录信息对应的第一表型信息的步骤包括:
所述神经网络语言模型包括概率算法模型、标签识别模型、过滤算法模型及表型位置提取模型;
将编码序列Seqtoken(id1,id2...idn)输入至概率算法模型,获取概率矩阵M(vec1,vec2...vecn),其中vec为高维向量;
将概率矩阵M(vec1,vec2...vecn)输入至标签识别模型,所述标签识别模型自概率矩阵中筛选出标签序列Seqlabel(t1,t2...tn);
将标签序列Seqlabel(t1,t2...tn)输入至过滤算法模型,所述过滤算法模型对标签序列进行纠正,获得过滤后的标签序列Seqlabel(t1,t2...tn);
将过滤后的标签序列输入至表型位置提取模型,获取表型位置标记的三元集合G,{[idxstart,idxend,pstart+pend]∈G|0<start<end<n},其中px=max(vecx),Score1=pstart+pend,p为表型的置信值,Score1为置信值得分,pstart为标签序列中的最高的置信值;pend为标签序列中的最低的置信值;
将表型位置标记的三元集合G输入至HPO筛选算法模型,获取三元集合G的得分Score2=HPO(x),x∈G;
将Score1与第一阈值进行比较,将Score2与第二阈值进行比较,获得第一表型集合,所述第一表型集合为第一表型信息,第一阈值和第二阈值为人工预设参考值。
4.根据权利要求1所述的人类表型本体的筛选方法,其特征在于,所述HPO筛选模型包括表型语义角度子模型、表型词统计角度子模型及HPO层级扩充子模型,将第一表型信息复制后分别输入至表型语义角度子模型和表型词统计角度子模型,获取语义角度筛选术语及统计角度筛选术语,将语义角度筛选术语及统计角度筛选术语作为HPO层级扩充子模型的候选HPO术语的步骤包括:
将召回HPO术语复制后输入至表型语义角度子模型,对所述第一表型信息依据第二预设规则对第一表型信息进行分词,获得分词结果Pc(w1,w2...wn),其中w为中文分词词语;
将分词结果Pc(w1,w2...wn)依据第二预设规则转化成Pc(vec1,vec2...vecn),其中vec是高维向量;
由公式:计算获得表型向量,其中vec是高维向量;
由公式:计算获得语义结果;
对语义结果进行排序,获得排序语义结果,将排序语义结果输入至HPO筛选模型,获得语义角度筛选术语,所述语义角度筛选术语为依据排序语义结果自HPO筛选模型中筛选的推荐HPO项;
将召回HPO术语复制后输入至表型词统计角度子模型;
由公式:计算获得对应每个HPO的筛选分数,Scorebm25为HPO分数得分,其中f(qi,D)为中文人类表型本体分词后各词在中文人类表型本体中出现的频率,avgdl为HPO翻译的文本平均长度,|D|为HPO翻译对应的文本长度,N为HPO词条的总条目数,n(qi)为包含qi的HPO翻译条目数量,b和k1为可调参;
对获得每个HPO的筛选分数进行排序,选取分数最高的HPO层级扩充子模型的候选HPO术语。
5.根据权利要求1所述的人类表型本体的筛选方法,其特征在于,所述将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果的步骤包括:
获得召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数,计算每个HPO筛选算法分数,
由公式Scorefinal=k1·Scoresemantic+k2·log(Scorebm25+b1)+k3·Scorepair+k4·log(Countgent+b2),获得每个HPO筛选算法最终分数,其中,k为控制不同分数的权重参数,b为调整分数值域的控制参数,Scoresemantic为语义角度筛选术语,Scorebm25为召回统计角度筛选术语,Scorepair为HPO词对关联系数,Countgene为HPO基因信息;Scorefinal为HPO筛选算法最终分数。
6.根据权利要求1所述的人类表型本体的筛选方法,其特征在于,所述将召回HPO术语复制后返回至表型语义角度子模型和表型词统计角度子模型获取召回语义角度筛选术语及召回统计角度筛选术语,将召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数经过多维度加权排序后,根据预设的评分规则筛选出HPO筛选结果的步骤还包括:
对每个HPO筛选算法最终分数进行排序,获得排序后的HPO筛选算法最终分数,将排序后的每个HPO筛选算法最终分数逐一与第三阈值进行比较,第三阈值为人工预设参考值;
若HPO筛选算法最终分数大于第三阈值,则输出推荐的HPO。
7.一种人类表型本体的筛选装置,其特征在于,用于应用权利要求1-6中任一项所述人类表型本体的筛选方法,所述人类表型本体的筛选装置包括:
信息录入模块,用于获取临床记录信息;
神经网络语言模块,用于处理临床记录信息,获得第一表型信息;
HPO筛选模块,用于对第一表型进行处理获得召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息及HPO词对关联系数;
结果计算模块,依据召回语义角度筛选术语、召回统计角度筛选术语、HPO基因信息、HPO词对关联系数及预设的评分规则输出HPO筛选结果;
结果输出模块,依据HPO筛选结果,输出推荐的HPO。
8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-6中所述的方法。
9.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1-6中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211318813.6A CN115910213B (zh) | 2022-10-26 | 2022-10-26 | 人类表型本体的筛选方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211318813.6A CN115910213B (zh) | 2022-10-26 | 2022-10-26 | 人类表型本体的筛选方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115910213A CN115910213A (zh) | 2023-04-04 |
CN115910213B true CN115910213B (zh) | 2023-12-29 |
Family
ID=86482522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211318813.6A Active CN115910213B (zh) | 2022-10-26 | 2022-10-26 | 人类表型本体的筛选方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115910213B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491518A (zh) * | 2017-08-15 | 2017-12-19 | 北京百度网讯科技有限公司 | 一种搜索召回方法和装置、服务器、存储介质 |
CN110021364A (zh) * | 2017-11-24 | 2019-07-16 | 上海暖闻信息科技有限公司 | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测*** |
CN111159977A (zh) * | 2020-04-07 | 2020-05-15 | 深圳华大基因科技服务有限公司 | 一种人类表型标准用语确定方法及装置 |
CN112329479A (zh) * | 2020-11-25 | 2021-02-05 | 山东师范大学 | 一种人类表型本体术语识别方法及*** |
CN112687397A (zh) * | 2020-12-31 | 2021-04-20 | 四川大学华西医院 | 罕见病知识库的处理方法及装置、可读存储介质 |
CN112687328A (zh) * | 2021-03-12 | 2021-04-20 | 北京贝瑞和康生物技术有限公司 | 确定临床描述信息的表型信息的方法、设备和介质 |
CN112992303A (zh) * | 2019-12-15 | 2021-06-18 | 苏州市爱生生物技术有限公司 | 人类表型标准用语提取方法 |
CN113254620A (zh) * | 2021-06-21 | 2021-08-13 | 中国平安人寿保险股份有限公司 | 基于图神经网络的应答方法、装置、设备及存储介质 |
CN114388084A (zh) * | 2020-10-20 | 2022-04-22 | 广州源古纪科技有限公司 | 一种人类表型本体术语提取*** |
CN114416927A (zh) * | 2022-01-24 | 2022-04-29 | 招商银行股份有限公司 | 智能问答方法、装置、设备及存储介质 |
CN114446422A (zh) * | 2021-12-15 | 2022-05-06 | 望海康信(北京)科技股份公司 | 病案标化方法、***及相应设备和存储介质 |
CN114490949A (zh) * | 2022-02-14 | 2022-05-13 | 平安科技(深圳)有限公司 | 基于bm25算法的文档检索方法、装置、设备及介质 |
CN114724724A (zh) * | 2020-12-21 | 2022-07-08 | 苏州市爱生生物技术有限公司 | 一种基于人类表型特征的疾病排序方法和致病基因排序方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019070634A1 (en) * | 2017-10-06 | 2019-04-11 | The Trustees Of Columbia University In The City Of New York | GENOMIC DIAGNOSTIC PREDICTIONS BASED ON ELECTRONIC HEALTH RECORD DATA |
-
2022
- 2022-10-26 CN CN202211318813.6A patent/CN115910213B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491518A (zh) * | 2017-08-15 | 2017-12-19 | 北京百度网讯科技有限公司 | 一种搜索召回方法和装置、服务器、存储介质 |
CN110021364A (zh) * | 2017-11-24 | 2019-07-16 | 上海暖闻信息科技有限公司 | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测*** |
CN112992303A (zh) * | 2019-12-15 | 2021-06-18 | 苏州市爱生生物技术有限公司 | 人类表型标准用语提取方法 |
CN111159977A (zh) * | 2020-04-07 | 2020-05-15 | 深圳华大基因科技服务有限公司 | 一种人类表型标准用语确定方法及装置 |
WO2021203694A1 (zh) * | 2020-04-07 | 2021-10-14 | 深圳华大基因科技服务有限公司 | 一种人类表型标准用语确定方法及相关设备 |
CN114388084A (zh) * | 2020-10-20 | 2022-04-22 | 广州源古纪科技有限公司 | 一种人类表型本体术语提取*** |
CN112329479A (zh) * | 2020-11-25 | 2021-02-05 | 山东师范大学 | 一种人类表型本体术语识别方法及*** |
CN114724724A (zh) * | 2020-12-21 | 2022-07-08 | 苏州市爱生生物技术有限公司 | 一种基于人类表型特征的疾病排序方法和致病基因排序方法 |
CN112687397A (zh) * | 2020-12-31 | 2021-04-20 | 四川大学华西医院 | 罕见病知识库的处理方法及装置、可读存储介质 |
CN112687328A (zh) * | 2021-03-12 | 2021-04-20 | 北京贝瑞和康生物技术有限公司 | 确定临床描述信息的表型信息的方法、设备和介质 |
CN113254620A (zh) * | 2021-06-21 | 2021-08-13 | 中国平安人寿保险股份有限公司 | 基于图神经网络的应答方法、装置、设备及存储介质 |
CN114446422A (zh) * | 2021-12-15 | 2022-05-06 | 望海康信(北京)科技股份公司 | 病案标化方法、***及相应设备和存储介质 |
CN114416927A (zh) * | 2022-01-24 | 2022-04-29 | 招商银行股份有限公司 | 智能问答方法、装置、设备及存储介质 |
CN114490949A (zh) * | 2022-02-14 | 2022-05-13 | 平安科技(深圳)有限公司 | 基于bm25算法的文档检索方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
在线孟德尔人类遗传数据库数据挖掘的研究进展;李建华;李哲人;康雁;李岭;;生物医学工程学杂志(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115910213A (zh) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA3085033C (en) | Methods and systems for multi-label classification of text data | |
CN109920501B (zh) | 基于卷积神经网络和主动学习的电子病历分类方法及*** | |
Qayyum et al. | Medical image retrieval using deep convolutional neural network | |
Messina et al. | Segmentation-free handwritten Chinese text recognition with LSTM-RNN | |
CN108334574B (zh) | 一种基于协同矩阵分解的跨模态检索方法 | |
WO2020211720A1 (zh) | 数据处理方法和代词消解神经网络训练方法 | |
US10949456B2 (en) | Method and system for mapping text phrases to a taxonomy | |
He et al. | Cross-modal subspace learning via pairwise constraints | |
CN109858015B (zh) | 一种基于ctw和km算法的语义相似度计算方法及装置 | |
CN112149414A (zh) | 文本相似度确定方法、装置、设备及存储介质 | |
Wang et al. | Markov topic models | |
CN112988980B (zh) | 目标产品查询方法、装置、计算机设备和存储介质 | |
CN113764112A (zh) | 一种在线医疗问答方法 | |
CN116245107B (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
CN115269838B (zh) | 一种电子病历的分类方法 | |
CN113343696A (zh) | 电子病历命名实体的识别方法、装置、远程终端及*** | |
CN111581960B (zh) | 一种获取医学文本语义相似度的方法 | |
CN115910213B (zh) | 人类表型本体的筛选方法、装置、设备及介质 | |
CN116804998A (zh) | 基于医学语义理解的医学术语检索方法和*** | |
CN115827877B (zh) | 一种提案辅助并案的方法、装置、计算机设备和存储介质 | |
JP7181439B2 (ja) | 臨床試験の解析プログラムの生成を補助するためのプログラム生成補助システム | |
CN115565198A (zh) | 基于集成列式卷积的医学文本实体提取方法、***及设备 | |
Zhang et al. | Text summarization based on sentence selection with semantic representation | |
CN114637846A (zh) | 视频数据处理方法、装置、计算机设备和存储介质 | |
CN112836014A (zh) | 一种面向多领域跨学科的专家遴选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |