CN112687397B

CN112687397B - 罕见病知识库的处理方法及装置、可读存储介质

Info

Publication number: CN112687397B
Application number: CN202011644230.3A
Authority: CN
Inventors: 张睿; 王觅也
Original assignee: West China Hospital of Sichuan University
Current assignee: West China Hospital of Sichuan University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-05-09
Anticipated expiration: 2040-12-31
Also published as: CN112687397A

Abstract

本申请提供一种罕见病知识库的处理方法及装置、可读存储介质。罕见病知识库的处理方法，包括：获取多个罕见病患者的电子病历；从电子病历中提取出可用数据；可用数据包括：多个临床表型术语、多个临床表型术语各自对应的罕见病、以及用于表征多个临床表型术语和其各自对应的罕见病之间的关联程度的统计信息；获取罕见病权威知识库；罕见病权威知识库中包括多种罕见病和多种罕见病对应的多个标准表型术语；将多个临床表型术语与多个临床表型术语各自对应的罕见病对应的多个标准表型术语进行比较；根据比较结果对罕见病权威知识库进行优化，得到优化的罕见病权威知识库。该方法提高罕见病知识库的实用性和在临床诊疗实践中的可应用性。

Description

罕见病知识库的处理方法及装置、可读存储介质

技术领域

本申请涉及医疗数据处理领域，具体而言，涉及一种罕见病知识库的处理方法及装置、可读存储介质。

背景技术

罕见病是指患病人数占总人口的0.65-1‰的疾病，罕见病的异质性非常大，其种类繁多且少见。通过数据库技术，可以将大量罕见病的权威诊疗经验形成知识库，该知识库中的数据可以有各种应用。

然而，现有技术中，权威的罕见病知识库中的表型术语缺乏实践性，在实际应用时，可能出现实践与理论存在差异的情况，进而导致其实用性和在临床诊疗实践中的可应用性还比较差。

发明内容

本申请实施例的目的在于提供一种罕见病知识库的处理方法及装置、可读存储介质，用以提高罕见病知识库的实用性和在临床诊疗实践中的可应用性。

第一方面，本申请实施例提供一种罕见病知识库的处理方法，包括：获取多个罕见病患者的电子病历；从所述电子病历中提取出可用数据；所述可用数据包括：多个临床表型术语、所述多个临床表型术语各自对应的罕见病、以及用于表征所述多个临床表型术语和其各自对应的罕见病之间的关联程度的统计信息；获取罕见病权威知识库；所述罕见病权威知识库中包括多种罕见病和所述多种罕见病对应的多个标准表型术语；将所述多个临床表型术语与所述多个临床表型术语各自对应的罕见病对应的多个标准表型术语进行比较；根据比较结果对所述罕见病权威知识库进行优化，得到优化的罕见病权威知识库；所述优化的罕见病权威知识库中的各个标准表型术语对应有所述统计信息。

在本申请实施例中，与现有技术相比，通过获取罕见病患者的电子病历，从中提取出可用数据，再基于该可用数据对罕见病权威知识库进行优化，优化的罕见病权威知识库中的各个标准表型术语对应有与其各自对应的罕见病之间的关联程度的统计信息。一方面，将实践数据(电子病历)与罕见病权威知识库进行整合，实现罕见病权威知识库的优化，优化的罕见病权威知识库具有实践数据的支撑，其在临床诊疗实践中的可应用性和实用性更强。另一方面，优化的罕见病知识库中还包括有关联程度信息，在后续利用时，该关联程度统计信息有利于计算生物医学知识，使该知识库可随罕见病病例库规模的扩大而进一步扩大，具有迭代自学习的特性，进而能够基于该关联程度信息实现更精准的知识库应用，提高其在临床诊疗实践中的可应用性。

作为一种可能的实现方式，所述根据比较结果对所述罕见病权威知识库进行优化，得到优化的罕见病权威知识库，包括：将存在匹配的标准表型术语的临床表型术语对应的统计信息按照与所述匹配的标准表型术语的对应关系存储到所述罕见病权威知识库中。

在本申请实施例中，在进行优化时，对于与临床表型术语匹配的标准表型术语，可以将与其匹配的临床表型术语对应的统计信息按照与匹配的标准表型术语的对应关系存储到罕见病权威知识库中，实现匹配的标准表型术语的统计信息的添加，提高优化的罕见病知识库的在临床诊疗实践中的可应用性和实用性。

作为一种可能的实现方式，所述方法还包括：获取不存在匹配的标准表型术语的目标临床表型术语；计算所述目标临床表型术语在其所述对应的罕见病中的出现频率；若所述出现频率大于或者等于预设频率，且所述目标临床表型术语属于所述多个标准表型术语中的上位概念，不存储所述目标临床表型术语；若所述出现频率大于或者等于预设频率，且所述目标临床表型术语属于所述多个标准表型术语的下位概念，将所述目标临床表型术语和其对应的统计信息存储到所述罕见病权威知识库中。

在本申请实施例中，在进行优化时，对于没有匹配的标准表型术语的目标临床表型术语，可以根据该目标临床表型术语的出现频率和与标准表型术语之间的上下位关系选择是否将目标临床表型术语存储到整合库中。形成更适用于国内住院人群的罕见病整合知识库，提高知识库在临床诊疗实践中的可应用性。

作为一种可能的实现方式，所述方法还包括：针对不存在匹配的临床表型术语的标准表型术语，确定是否存在未进行匹配的临床表型术语；在确定不存在未进行匹配的临床表型术语时，从所述罕见病权威知识库中删除所述不存在匹配的临床表型术语的标准表型术语。

在本申请实施例中，对于罕见病权威知识库中没有匹配的临床表型术语的标准表型术语，说明其在临床诊疗实践中的可应用性较差，此时，在确定没有出现匹配遗漏的情况下，可以将这部分标准表型术语进行删除，实现罕见病权威知识库的术语精简，提高实用性。

作为一种可能的实现方式，在所述根据比较结果对所述罕见病权威知识库进行优化，得到优化的罕见病权威知识库后，所述方法还包括：获取目标患者的电子病历；从所述电子病历中提取出目标临床表型术语；将所述目标临床表型术语与所述优化的罕见病权威知识库中的标准表型术语进行匹配；在确定所述目标临床表型术语存在匹配的标准表型术语时，根据所述匹配的标准表型术语对应的统计信息确定所述目标临床表型术语对应的目标罕见病并反馈。

在本申请实施例中，在应用优化的罕见病权威知识库时，可以先确定与目标临床表型术语匹配的标准表型术语，然后再基于匹配的标准表型术语的统计信息确定目标临床表型术语对应的目标罕见病并反馈，提高最终确定的目标罕见病的准确性。

作为一种可能实现方式，所述获取罕见病权威知识库，包括：获取已有的遗传病知识库和罕见病知识库；从所述遗传病知识库和罕见病知识库中分别提取出多种已知罕见病和所述多种已知罕见病对应的已知表型术语；基于所述多种已知罕见病和所述多种已知罕见病对应的已知表型术语构建所述罕见病权威知识库。

在本申请实施例中，罕见病权威知识库可以基于已有的遗传病知识库和罕见病知识库进行构建得到，提高罕见病权威知识库中的数据的全面性。

作为一种可能的实现方式，所述已有的遗传病知识库包括：OMIM库；所述已有的罕见病知识库包括：Orpha库和eRAM库。

在本申请实施例中，通过OMIM库，Orpha库和eRAM库基本能实现大部分罕见病及其对应的表型术语的搜集，提高罕见病权威知识库中的数据的全面性。

作为一种可能的实现方式，所述从所述电子病历中提取出可用数据，包括：基于已有的术语库从所述电子病历中提取出所述多个临床表型术语；根据所述电子病历中的患者诊断结果确定所述多个临床表型术语各自对应的罕见病；统计电子病历中各个罕见病下的多个临床表型术语的频数以及TF-IDF(Term Frequency-inverse Document Frequency，词频-逆文本频率指数)信息，得到所述统计信息。

在本申请实施例中，在提取可用数据时，可以基于已有的术语库实现临床表型术语的提取；基于患者诊断结果可以确定临床表型术语对应的罕见病；将各个罕见病下的多个临床表型术语的频数以及TF-IDF信息作为统计信息；实现可用数据的快速且准确地提取。该关联程度统计信息有利于计算生物医学知识，使该知识库可随罕见病病例库规模的扩大而进一步扩大，具有迭代自学习的特性。

第二方面，本申请实施例提供一种罕见病知识库的处理装置，包括用于实现第一方面以及第一方面的任意一种可能的实现方式中所述的方法的各个功能模块。

第三方面，本申请实施例提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被计算机运行时执行如第一方面以及第一方面的任意一种可能的实现方式中所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的罕见病知识库的处理方法的流程图；

图2为本申请实施例提供的罕见病知识库的处理装置的功能模块框图。

图标：200-罕见病知识库的处理装置；201-获取模块；202-提取模块；203-比较模块；204-优化模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请实施例提供的罕见病知识库的处理方法可以应用于罕见病数据***，该罕见病数据***可以由较权威的医疗组织进行管理，其他的医疗机构(如地方医院)或者普通的用户或者患者等都可以利用该罕见病数据***中的数据，如查询数据，调取数据等。该罕见病数据***中可以包括：罕见病知识库、罕见病病例、罕见病临床指南等各种与罕见病相关的数据。该处理方法也可以应用于罕见病知识库***，该罕见病知识库***中仅存储罕见病知识库，该罕见病知识库***同样可以由较权威的医疗组织进行管理，其他的医疗机构或者普通的用户或者患者等也都可以利用罕见病知识库***中的数据。

进一步地，不管是罕见病数据***还是罕见病知识库***，都可以视为一种数据库***，对于数据库***来说，通常包括前端和后端，前端用于实现***与用户(包括使用该***的用户和开发该***的用户)的交互，后端用于实现数据的处理与存储，以及响应前端的数据查询等需求，反馈对应的数据等。本申请实施例所提供的处理方法应用于后端，该后端可以为数据库服务器。

进一步地，本申请实施例中所提及的术语属于：HPO(The Human PhenotypeOntology，人类表型本体)，是一种出现在人类疾病中异常表型的标准化词汇。HPO中的每个词条，都描述了一种异常表型。HPO的重要性在于，几乎主流的疾病知识库都采用HPO术语来描述疾病的异常表型。目前HPO已经有13,000条概念，并对其进行了***的分类管理，因此在各种遗传病以及罕见病的研究中起到显著的作用。以CHPO(The Chinese HumanPhenotype Ontology Consortium，中文人类表型标准用语联盟)为例，其翻译HPO提供人类表型的中文标准术语，以及一个高效的中文人类表型搜索引擎，CHPO可理解为HPO的中文翻译版本。HPO概念包含4个主要大类，分别为：表型异常(Phenotypic abnormality)；遗传模式(Mode of inheritance)；死亡/衰老(Mortality/Aging)；临床调节因素(Clinicalmodifier)。其中，表型异常下又分为23类：分别是***异常、声音异常、神经***异常、***异常、眼部异常、胎儿产前发育或出生异常、肿瘤、内分泌***异常、头部和颈部的异常、免疫***异常、生长异常、肢体异常、胸腔异常、血液和造血组织异常、肌肉组织异常、心血管***异常、骨骼***异常、呼吸***异常、耳部异常、代谢紊乱/稳态失衡、泌尿生殖***异常、体壁的异常、消化***异常。

作为举例，一些HPO术语：常染色体隐性遗传、蛋白尿、肾小管功能障碍、认知障碍、***异常、抑郁、攻击性行为、黄疸、小头畸形、白内障、蓝色虹膜。

基于上述应用场景的介绍，请参照图1，为本申请实施例提供的罕见病知识库的处理方法的流程图，该处理方法可以应用于前述实施例中所述的服务器，该处理方法包括：

步骤101：获取多个罕见病患者的电子病历。

步骤102：从电子病历中提取出可用数据；可用数据包括：多个临床表型术语、多个临床表型术语各自对应的罕见病、以及用于表征多个临床表型术语和其各自对应的罕见病之间的关联程度的统计信息。

步骤103：获取罕见病权威知识库；罕见病权威知识库中包括多种罕见病和多种罕见病对应的多个标准表型术语。

步骤104：将多个临床表型术语与多个临床表型术语各自对应的罕见病对应的多个标准表型术语进行比较。

步骤105：根据比较结果对罕见病权威知识库进行优化，得到优化的罕见病权威知识库；优化的罕见病权威知识库中的各个标准表型术语对应有统计信息。

接下来对步骤101-步骤105以及该处理方法的详细实施方式进行介绍。

在步骤101中，需要获取多个罕见病患者的电子病历，该电子病历可以来源于多个医疗机构(比如医联体内的多家医疗机构)，该电子病历可以理解为已经被诊断为罕见病患者的电子病历。进而，在该电子病历中，会包含大量的临床表型术语，以及临床表型术语所对应的罕见病。对于来源于不同的医疗机构电子病历，其形式可能不同，但是在医疗领域中，尽管是不同的医疗机构，设计的电子病历中所包含的基础信息基本相同，因此，可以保证对来源于不同医疗机构的罕见病患者的电子病历都能进行识别和内容提取。作为举例，请参照表1，为电子病历中可以包括的一些信息示例，其中，健康状况术语即为临床表型术语，可以通过术语ID(Identity document，身份标识)来表示，当然，除了包括术语ID，也包括术语的文本。对于健康状态术语来源，可以理解，不同的表型术语可能来源于不同的类型，比如前述实施例中所述的HPO便为一种术语类型，不同的电子病历中采用的对应不同类型的表型术语可能不一致，但是其表达的意思都是一致的，通常都是同义词或者近似词。后续在进行内容提取的过程中，也可以实现不同来源类型的术语的提取。其中的类别，包括患者的健康问题和疾病，通过该项信息，便能提取出患者所患的罕见病信息。

表1

进一步地，在步骤101中获取到多个罕见病患者的电子病历后，执行步骤102，从电子病历中提取出可用数据。其中，可用数据包括：多个临床表型术语、多个临床表型术语各自对应的罕见病，以及统计信息。统计信息可以用于表征多个临床表型术语和其各自对应的罕见病之间的关联程度。

作为一种可选的实施方式，步骤102包括：基于已有的术语库从电子病历中提取出多个临床表型术语；根据电子病历中的患者诊断结果确定多个临床表型术语各自对应的罕见病；统计各个罕见病下的多个临床表型术语的频数以及TF-IDF(Term Frequency-inverse Document Frequency，词频-逆文本频率指数)信息，得到统计信息。

在这种实施方式中，在提取临床表型术语时，可以基于已有的术语库进行提取。在本申请实施例中，为了实现HPO术语的识别，已有的术语库可以是自建的HPO中文术语库。接下来对HPO中文术语库的自建进行介绍。

在本申请实施例中，HPO中文术语库的自建可以采用几种实施方式。

第一种实施方式：利用OMAHA术语集对HPO术语集进行同义词和下位词的富集，实现HPO术语集的扩充。其中，OMAHA术语集可以采用最新版本的术语集，以其顶层类(临床所见、疾病两类，即T001和T018)概念，对CHPO中文术语进行同义词、下位词富集，对应的富集规则包括：a.将OMAHA上述两类概念的首选术语、待定首选术语、许用术语合并后形成OMAHA同义词表。b.将OMAHA同义词表与CHPO词汇表进行字符串比较，当OMAHA同义词表的任一词条与CHPO词汇表词条完全匹配，则将该OMAHA概念下所有同义词加入CHPO概念作为HPO中文同义词。c.需要纳入该OMAHA概念的下位词作为该HPO叶节点概念的下位词。其中，添加的同义词、下位词可以经由医生审核后再进行加入。

第二种实施方式，利用UMLS(Unified Medical Language System，一体化医学语言***)对HPO术语集进行同义词和下位词的富集。对于UMLS，其中包括几种知识源：超级叙词表(Metathesaurus)，是一个庞大、多用途、多语种的词汇数据库，其是生物医学概念、术语、词汇及其涵义、等级范畴的广泛集成，包含多种生物医学术语集(如HPO)的概念、术语及其编码，以及其层级、定义、关系及属性。语义网络(Semantic Network)，其是为建立概念、术语间复杂的语义关系而构建的，其为超级叙词表中所有概念提供了语义类型与语义关系。专家词典及词典工具(SPECIALIST Lexicon and Lexical Tools)，是一个大型的包含生物医学以及通用英语的句法词典，以及用于规范字符串、生成词法变体及创建索引的工具。

进一步地，对应UMLS的富集规则包括：a.通过UMLS的术语集交叉映射，获取其交叉映射成功的其他术语集的术语词条，有中文的直接引用，无中文的使用Google(谷歌)翻译，形成UMLS同义词表_a。b.将UMLS同义词表_a的每条术语，在已有的电子病历临床文本中，进行字符串匹配，如果在实际电子病历语料中出现过的词条，则形成UMLS同义词表_b。c.将UMLS同义词表_b的中文术语词条，加入对应的HPO概念作为其中文同义词。d.下位词的富集过程同上，同义词表换成下位词表。其中，针对同义词、下位词的添加，可以由医生审核后再进行添加。

第三种可选的实施方式：利用医院的电子病历数据进行术语富集，其中不涉及下位词的富集。对应的富集规则包括：a.通过既有医学自然语言处理模型，将电子病历临床文本中的症状及疾病成分定位出来后，形成HPO中文候选术语。b.计算HPO中文候选术语与前述HPO中文标准术语的文字相似度、药物相似度、诊断相似度后，计算综合相似度。c.将每个HPO中文候选术语，按综合相似度降序输出HPO中文标准术语列表，反馈给临床医师详细审核，审核通过的词条作为HPO概念中文同义词。

作为举例，对于同义术语，高频听力障碍的同义术语可以包括：高频听力损失，高频听力受损，高频听力损伤，高频听力下降；听力异常的同义术语可以包括：听力下降，听力减退，听觉下降，听觉异常；耳鸣的同义术语可以包括：耳嗡鸣，耳鸣声；嗅觉异常的同义术语可以包括：嗅觉改变，嗅觉恶化，嗅觉下降，闻不出味道。对于这几种富集HPO术语库的术语库自建方式，在实际应用时，可以根据需求进行选择。进一步地，基于富集的HPO术语库，应用逆向最大匹配法以及基于规则的各种算法，可以实现识别电子病历中的HPO术语。其中，基于规则的算法需要对文本中的术语进行否定性判断，以及术语是描述患者本人还是其家属的判断等。

进一步地，对于术语识别算法，可以包括：相似度计算算法，匹配算法等，本质上可以理解为基于预设的各种规则(比如逆向最大匹配，否定性判断，上下文关系，预设的同义词词表等)将待识别的文本与术语库中的术语进行匹配，若匹配成功，那么当前待识别的文本对应的匹配术语便为提取出的临床表型术语。在本申请实施例中，关于采用的匹配算法或者识别算法等，采用本领域的常规技术手段即可，在此不进行详细介绍，比如相似度算法可以是：Jaro Distance、Levenshtein Distance、Smith-Waterman Distance等字符串相似程度算法。

进一步地，对于临床表型术语各自对应的罕见病，在前述实施例中提到过，电子病历中包含有患者的诊断结果，通过提取诊断结果项的具体文本信息或者ICD(International Classification of Diseases，国际疾病分类)-10编码，便能确定罕见病。对于一份电子病历来说，其中提取出的各个临床表型术语对应的罕见病便为该份电子病历的诊断结果中的罕见病。比如：某个白化病(一种罕见病)患者的电子病历中提取出所有临床表型术语，对应的罕见病均为白化病。此外，可以理解，由于一种罕见病可能由多种临床表型术语共同决定，进而同一个临床表型术语可能出现在不同的罕见病患者的电子病历中，即同一个临床表型术语可能与不同的罕见病都有对应关系。

由于针对同一个患者，也可能存在着多个罕见病共病的情况，因此，在一种实施方式中，从一个电子病历中也可以提取出多种罕见病和多种罕见病分别对应的临床表型术语。

进一步地，对于统计信息，在本申请实施例中可以包括：频数以及TF-IDF信息。其中，频数又称次数，一个罕见病下的临床表型术语的频数即为在相同的罕见病患者的电子病历中出现的次数。TF-IDF是基于频数的信息，其可以表示临床表型术语对于罕见病的重要程度，可以理解为一种权重参数。在得到次数信息后，可以基于TF-IDF的计算规则计算TF-IDF值。对于TF-IDF的计算规则，属于本领域的公知常识，在此不进行具体介绍。

对于统计信息的作用，从频数和TF-IDF信息的概念和作用进行分析，当一个临床表型术语在一个罕见病下出现的频数越高时，说明该临床表型术语与该罕见病的关联程度越高；以及当一个临床表型术语在一个罕见病下的TF-IDF值越大时，说明该临床表型术语对该罕见病的影响越大，也说明该临床表型术语与该罕见病的关联程度越高。因此，统计信息可以表征临床表型术语与罕见病之间的关联程度。

在本申请实施例中，在提取可用数据时，可以基于已有的自建HPO中文同义术语实现临床表型术语的提取；基于患者诊断结果可以确定临床表型术语对应的罕见病；将各个罕见病下的多个临床表型术语的频数以及TF-IDF信息作为统计信息；实现可用数据的快速且准确地提取。

在步骤102中提取出可用数据后，执行步骤103，获取罕见病权威知识库。在罕见病权威知识库中，包括：多种罕见病和多种罕见病对应的多个标准表型术语。

作为一种可选的实施方式，步骤103包括：获取已有的遗传病知识库和罕见病知识库；从遗传病知识库和罕见病知识库中分别提取出多种已知罕见病和多种已知罕见病对应的已知表型术语；基于多种已知罕见病和多种已知罕见病对应的已知表型术语构建罕见病权威知识库。

在这种实施方式中，已有的遗传病知识库中也包括有多种罕见病和罕见病对应的表型术语，因此，可作为数据源。已有的罕见病知识库，包括大量的罕见病和罕见病对应的表型术语，可作为数据源。其中，已有的罕见病遗传病知识库可以包括OMIM(OnlineMendelian Inheritance in Man，人类孟德尔遗传病)知识库，OMIM知识库是一个全面的、权威的、可免费获取的人类基因和遗传表型的汇编知识库。OMIM关注遗传表型与基因型之间的关系。OMIM每天更新，并且这些条目可映射到其他遗传学资源。该数据库最初由VictorA.McKusick博士在20世纪60年代初建立，作为孟德尔性状和疾病的一个目录，题为孟德尔人类遗传(Mendelian Inheritance in Man,MIM)。其在线版本，即OMIM，于1985年由美国国立医学图书馆与约翰霍普金斯大学William H.Welch医学图书馆合作建立，并于1987年开始可在互联网自由获取。OMIM作为遗传学知识库在被UMLS收录于知识源图谱之中。OMIM作为涵盖关于人类遗传病和基因座位等相关信息和文献的中心级数据库，其收录了近8000种罕见病，占人类目前已知疾病总数的10％左右。

Orpha库是一个罕见病和治疗药物及其他资料的综合知识库，其是目前世界上非常权威和丰富的罕见病知识库。

eRAM(encyclopedia of Rare disease Annotations for Precision Medicine，罕见病术语注释百科全书)其不仅整合了多种罕见病相关的术语集、知识库，还通过基于模式的文本挖掘处理了上千万份的文献及病例资料，其整合了15942种罕见病、6147种表型术语，以及多种表型-疾病关联，形成一个庞大的罕见病知识体系，eRAM可揭示疾病间的许多新联系。

除了上述三种知识库，还有DECIPHER等多种罕见病及遗传病知识库，都可以作为罕见病权威知识库的数据来源。

进一步地，在获取到这些已有的知识库后，这些已有的知识库中的罕见病和对应的表型术语都已是规范形式，此时可以直接通过这些知识库的数据结构进行数据提取，比如：知识库中的某个分类下，都是罕见病和罕见病对应的表型术语，则将该分类下的所有数据进行提取即可。当从不同的已有的知识库中提取出罕见病和罕见病对应的表型术语后，将其进行存储，实现罕见病权威知识库的构建。

在存储时，各个罕见病和罕见病对应的表型术语，分别标记其来源，对来源于不同的知识库的罕见病和对应的表型术语进行关联存储。对于来源于同一个知识库的罕见病和对应的表型术语，如果存在着相同(重复)的情况，仅保留一份数据即可。并且，在存储时，按照罕见病-表型术语的方式进行存储，比如：特发性肺动脉高压对应的全部表型术语都存储在特发性肺动脉高压的数据类下，白血病对应的全部表型术语都存储在白血病的数据类下，以便于数据的应用。在完成罕见病权威知识库的构建后，其中的罕见病对应的表型术语可视为标准表型术语。

此外，在前述实施例中列举了多种已有的知识库，在实际应用时，可以根据实际的需求，从中选取一个或者多个知识库进行罕见病权威知识库的构建。

作为另一种实施方式，有的权威组织可能已经基于已有的知识库完成了罕见病权威知识库的构建，并且已经进行了应用。在这种情况下，也可以通过获取这些权威组织发布的罕见病权威知识库，将其作为步骤103中的罕见病权威知识库，不需要再进行构建。

进一步地，在步骤103中获取到罕见病权威知识库后，执行步骤104，将多个临床表型术语与多个临床表型术语各自对应的罕见病对应的多个标准表型术语进行比较。其中，在进行比较时，基于同一罕见病，将标准表型术语和临床表型术语进行比较。比如：在可用数据中，包括白血病和白血病对应的临床表型术语，则在比较时，先在罕见病权威知识库中找到白血病对应的数据类，然后再将临床表型术语与白血病该数据类下的各个标准表型术语进行比较。

可以理解，在比较时，将各个临床表型术语依次与标准表型术语进行一一匹配，基于预设的匹配规则(与前述实施例中在进行术语提取时的匹配规则同理)去查找是否有匹配的标准表型术语，查找匹配的结果便为比较结果。对于各个临床表型术语比较结果，有2种不同的情况，包括：存在与临床表型术语匹配的标准表型术语和不存在与临床表型术语匹配的标准表型术语。

进一步地，在步骤104后，执行步骤105，根据比较结果对罕见病权威知识库进行优化，得到优化的罕见病权威知识库，优化的罕见病权威知识库中的各个标准表型术语对应有统计信息。

在步骤105中，基于不同的比较结果，采用不同的实施方式。因此，作为一种可选的实施方式，步骤105包括：将存在匹配的标准表型术语的临床表型术语对应的统计信息按照与匹配的标准表型术语的对应关系存储到罕见病权威知识库中。

在这种实施方式中，通过存在着匹配的标准表型术语的临床表型术语对罕见病权威知识库进行优化。例如：假设临床表型术语为：“白内障”，其对应的罕见病为“苯丙酮尿症”，在罕见病权威知识库中的“苯丙酮尿症”该类下，查找到“白内障”该术语。则，将“白内障”该术语对应的统计信息与罕见病权威知识库中的“白内障”术语进行对应存储。在存储时，例如：之前的罕见病权威知识库中通过数据表存储数据，原来的数据表中，在各个罕见病下，仅包括表型术语名称和表型术语ID这两个数据项，现在为各个罕见病都新增两个数据项，分别为频数和TF-IDF这两个信息的数据项。当然，如果有更多的统计信息，设置与各个统计信息对应的数据项。那么在存储时，将“白内障”该术语对应的频数和TF-IDF存储到“苯丙酮尿症”的“白内障”这一术语下的这两个数据项中，实现按照对应关系进行存储。

在本申请实施例中，在进行优化时，对于与临床表型术语匹配的标准表型术语，可以将与其匹配的临床表型术语对应的统计信息按照与匹配的标准表型术语的对应关系存储到罕见病权威知识库中，实现匹配的标准表型术语的统计信息的添加，提高优化的罕见病知识库在临床诊疗实践中的可应用性和实用性。

作为另一种可选的实施方式，步骤105包括：获取不存在匹配的标准表型术语的目标临床表型术语；计算目标临床表型术语在其所述对应的罕见病中的出现频率；若出现频率大于或者等于预设频率，且目标临床表型术语属于多个标准表型术语中的上位概念，不存储目标临床表型术语；若出现频率大于或者等于预设频率，且目标临床表型术语属于多个标准表型术语的下位概念，将目标临床表型术语和其对应的统计信息存储到罕见病权威知识库中。

其中预设频率为5％，对于该种实施方式中的不同情况，在后续实施例中结合其他几种实施方式进行详细介绍。

在存储时，同样的，例如：之前的罕见病权威知识库中通过数据表存储数据，原来的数据表中，在各个罕见病下，仅包括表型术语名称和表型术语ID这两个数据项，现在为各个罕见病新增两个数据项，分别为频数和TF-IDF这两个信息的数据项。

当然，如果有更多的统计信息，设置与各个统计信息对应的数据项。比如：术语：“攻击性行为”，以及该术语对应的罕见病：“威尔逊病”，那么在存储时，将“攻击性行为”、其对应的频数和TF-IDF存储到“威尔逊病”类下对应的各个数据项中，实现表型术语的扩充。

在本申请实施例中，在进行优化时，对于没有匹配的标准表型术语的临床表型术语，可以根据该目标临床表型术语的出现频率和与标准表型术语之间的上下位关系选择是否将目标临床表型术语存储到整合库中。

其中，对于表型术语之间的上下位关系，比如：“攻击性行为”，其下位表型术语可以包括：“男性间的攻击行为”、“恐惧诱发的攻击行为”、“易怒的攻击行为”、“工具性攻击行为”等，同样的，对于这些下位表型术语来说，其上位表型术语则为“攻击性行为”。

除了查找不到匹配的标准表型术语的情况，还存在着一种情况：在罕见病权威知识库中不能查找到对应的罕见病，即罕见病和罕见病对应的临床表型术语和统计信息都是新的数据。在这种情况下，可以将该新的罕见病、对应的临床表型术语和统计信息都进行反馈或者提示，当用户查看该反馈或者提示后，发送给专家进行审核，当专家通过审核后，用户输入相应的数据存储指令，服务器再基于该指令将这些新的罕见病、对应的临床表型术语和统计信息进行对应存储。若专家没有通过审核，则不进行存储操作。

进一步地，不管步骤105采用上述哪种实施方式，对于罕见病权威知识库中的标准表型术语来说，可能会不存在匹配的临床表型术语，即这些术语仅出现在罕见病权威知识库中，却未出现在罕见病患者的病历中。比如：“婴儿期喂养困难”该术语，大概率不会出现在成人病历中。再比如：有一些术语，虽然搜集在知识库中，但并没有临床实践数据，大概率也不会出现在患者的病历中。可以理解，权威知识库其涵盖罕见病发病患者其幼年期、青年期、中年期等变化。但针对住院人群时，其幼年期病史往往不会在现病史中进行描述，因此将权威知识库对应的“疾病-表型”组合进行裁剪，可提高罕见病匹配率，有现实意义。此时，该方法还包括：针对不存在匹配的临床表型术语的标准表型术语，确定是否存在未进行匹配的临床表型术语；在确定不存在未进行匹配的临床表型术语时，从罕见病权威知识库中删除不存在匹配的临床表型术语的标准表型术语。

在这种实施方式中，针对这些标准表型术语，先确认是否没有出现匹配遗漏，即确定是否存在未进行匹配的临床表型术语，确定的方式可以是：将这些标准表型术语再依次与临床表型术语进行匹配，若再次匹配后，仍然没有匹配的临床表型术语，确定不存在未进行匹配的临床表型术语(即没有匹配遗漏)；若再次匹配后，查找到匹配的临床表型术语，确定匹配遗漏。

进一步地，当确定没有匹配遗漏时，可以从罕见病权威知识库中删除对应的标准表型术语。从另一个角度来说，由于需要在罕见病权威知识库中加入统计信息，如果某个标准表型术语没有对应的临床表型术语，那么它也没有对应的统计信息，那么该项标准表型术语在罕见病权威知识库中存在的价值也不大，可以将其删除。

在本申请实施例中，对于罕见病权威知识库中没有匹配的临床表型术语的标准表型术语，说明其在临床诊疗实践中的可应用性较差，此时，在确定没有出现匹配遗漏的情况下，可以将这部分标准表型术语进行删除，实现罕见病权威知识库的术语精简，提高临床实践的实用性。

针对仅出现在罕见病权威知识库中，却未出现在罕见病患者的病历中的标准表型术语，除了采用删除的方式，也可以采用不删除的方式，但是需要为其添加对应的标识。比如：为这些标准表型术语添加“暂未经过临床认证”的标识，或者其他可以表示这些标准表型术语暂时没有对应的临床依据的标识。通过这种实施方式，没有直接对这些数据进行否定，能够保证罕见病权威知识库中的数据的严谨性。

为了便于理解，接下来对步骤105的多种实施方式进行结合介绍。首先针对“疾病-表型”组合的来源，假设从电子病历来源的为病例库，从罕见病权威知识库来源的为权威库，优化后的罕见病权威知识库称为整合库，针对病例库和权威库中存在差异的表型术语进行判断，分为以下几种情况：

第一种情况：病例库和权威库中都有的表型术语，这部分表型术语纳入整合库。

第二种情况：病例库和权威库中都没有的表型术语，这部分表型术语显然不会纳入整合库。

第三种情况：病例库中有的表型术语，但是权威库中没有的表型术语，此时先计算目标表型术语在其对应的罕见病中的出现频率。

如果出现频率小于预设频率(可以为5％)，则不纳入整合库。

如果出现频率大于或者等于预设频率，且属于权威库中已有表型术语的任一上位概念(包括父概念、祖父概念等)，该目标表型术语不纳入整合库。因为，通常这类上位概念已经在权威库中有对应的隐含注释。

如果出现频率大于或者等于预设频率，且属于权威库中的已有表型术语的任一下位概念(包括子概念、孙子概念等)，该目标表型术语纳入整合库中，因为，通常这类下位概念本身会包含更多的信息量。

如果出现频率大于或者等于预设频率，但是与权威库中的已有表型术语没有上位概念或者下位概念的关系，则该目标表型术语不纳入整合库。因为，这类表型术语大概率是合并症和并发症。但是，在这种情况下，可以考虑表型术语之间的DAG(Directed AcyclicGraph，有向无环图)距离，其中，HPO术语本身设置有DAG的层级信息，可以基于该DAG层级信息确定DAG距离。可选的，通过寻找该目标表型术语与权威库中所有表型术语的“信息量最大的共同祖先概念”，以决定是否将这个“信息量最大的共同祖先概念”纳入整合库，该决定可以由罕见病专科医师根据临床实际情况作出。

第四种情况：病例库中没有的表型术语，但是权威库中有的表型术语，这部分表型术语可以反馈给算法工程师及临床医师，当确定术语识别算法无误，且临床专科医师判定该表型术语在实际应用的电子病历中确实属于临床上很少描述的表型术语(如“婴儿期喂养困难”)，则将这部分表型术语进行移除，不再进入整合库。

当步骤105执行完后，罕见病权威知识库便完成了优化。针对优化的罕见病权威知识库，可以进行相关的应用。作为一种可选的实施方式，该方法还包括：获取目标患者的电子病历；从电子病历中提取出目标临床表型术语；将目标临床表型术语与优化的罕见病权威知识库中的标准表型术语进行匹配；在确定目标临床表型术语存在匹配的标准表型术语时，根据匹配的标准表型术语对应的统计信息确定目标临床表型术语对应的目标罕见病并反馈。

在这种实施方式，所获取到的电子病历可以是没有对应的诊断结果的电子病历，或者已有诊断结果，但是需要对诊断结果进行进一步地验证的电子病历。该电子病历可以是由医生或者患者输入的，若为医生输入，最后反馈的目标罕见病可以为医生提供诊断相似度的数据参考，使医生作出更准确的判断。若为患者输入，最后反馈的目标罕见病可以为患者提供参考信息，使患者根据参考信息选择是否就医以及进一步地检查。不管是哪种实施方式，最终反馈的目标罕见病均是作为一种参考数据。其中，涉及到的术语提取和术语匹配，在前述实施例中均已经介绍过，在此不再重复介绍。

在根据匹配的标准表型术语对应的统计信息确定目标临床表型术语对应的目标罕见病时，涉及到统计信息的应用。作为一种可选的实施方式，如果匹配的标准表型术语有多个，则将多个匹配的标准表型术语的统计信息进行比较，将关联程度最高的标准表型术语(比如：频数值和TF-IDF值最高的标准表型术语)对应的罕见病确定为目标罕见病。并且，在反馈时，将关联程度最高的标准表型术语和统计信息与目标罕见病，以及知识库来源(权威知识库中本来记录有的信息)进行一并反馈。当然，也可以将多个匹配的标准表型术语对应的不同的罕见病均确定为目标罕见病，在反馈时，将统计信息、匹配的表型术语和对应的罕见病，以及知识库来源进行一并反馈，使用户基于统计信息对参考数据进行利用。在反馈时，还可以先基于统计信息对各个罕见病进行排序(比如关联程度高的在前，关联程度低的在后)，然后再反馈给用户，使用户能够更直观地看出区别。

作为另一种可选的实施方式，如果匹配的标准表型术语仅有一个，则直接确定该匹配的标准表型术语对应的罕见病为目标罕见病。并且，在反馈时，将该匹配的标准表型术语和统计信息与目标罕见病，以及知识库来源进行一并反馈。

在本申请实施例中，除了采用这种应用方式，作为另一种实施方式，该方法还包括：获取目标罕见病；将该目标罕见病与优化的罕见病权威知识库中的各个罕见病进行匹配；将与目标罕见病匹配的罕见病下的各个标准表型术语和对应的统计信息进行反馈。在这种实施方式中，用户可以对特定的罕见病对应的标准表型术语进行查询，查询的用户同样可以是医生或者患者，实现为医生或者患者提供参考信息(数据)。

用户除了输入目标罕见病(即某个特定的罕见病)进行查询，作为另一种可选的实施方式，用户还可以输入特定的表型术语，服务器确定该特定的表型术语对应的罕见病，然后反馈给用户。这种实施方式与输入电子病历的方式类似，所不同的是，在该种实施方式中，无需再进行术语提取，其中涉及到的各个过程的实施方式与输入电子病历的术语提取后的各个步骤的实施方式相同，在此不再重复介绍。

从上述介绍的几种应用方式可以看出，采用本申请实施例所提供的知识库的处理方法，可以实现：整合电子病历的实践数据与权威知识库，在原有权威知识库的规则之上附加了统计信息，有利于罕见病协作网整合多家数据、信息、知识后，进一步计算及推演各表型对各个疾病的频数及TF-IDF等信息，或该罕见病下各表型术语的常规组合，或目标人群罹患特定罕见病的概率。未来通过CBK(Computable Biomedical Knowledge，生物医学知识)以及知识网格平台等平台，该优化的罕见病知识库可以进行封装，以便提供类似知识服务(KaaS)的云计算服务，以提升知识库的复用及互操作性，这些理念均可在罕见病协作网内进行落地与实践，实现知识的三个应用过程：“实践→数据流”、“数据→知识流”、“知识→实践流”。进而提高知识库的实用性和在临床诊疗实践中的可应用性，也提高在应用数据时数据的准确性。

基于同一发明构思，请参照图2，本申请实施例中还提供一种罕见病知识库的处理装置200，包括：获取模块201、提取模块202、比较模块203以及优化模块204。

获取模块201用于：获取多个罕见病患者的电子病历；提取模块202用于：从所述电子病历中提取出可用数据；所述可用数据包括：多个临床表型术语、所述多个临床表型术语各自对应的罕见病、以及用于表征所述多个临床表型术语和其各自对应的罕见病之间的关联程度的统计信息；获取模块201还用于：获取罕见病权威知识库；所述罕见病权威知识库中包括多种罕见病和所述多种罕见病对应的多个标准表型术语；比较模块203用于：将所述多个临床表型术语与所述多个临床表型术语各自对应的罕见病对应的多个标准表型术语进行比较；优化模块204用于：根据比较结果对所述罕见病权威知识库进行优化，得到优化的罕见病权威知识库；所述优化的罕见病权威知识库中的各个标准表型术语对应有所述统计信息。

可选的，优化模块204具体用于：将存在匹配的标准表型术语的临床表型术语对应的统计信息按照与所述匹配的标准表型术语的对应关系存储到所述罕见病权威知识库中。

可选的，优化模块204具体还用于：将不存在匹配的标准表型术语的临床表型术语和其对应的统计信息对应存储到所述罕见病权威知识库中。

可选的，优化模块204还用于：针对不存在匹配的临床表型术语的标准表型术语，确定是否存在未进行匹配的临床表型术语；在确定不存在未进行匹配的临床表型术语时，从所述罕见病权威知识库中删除所述不存在匹配的临床表型术语的标准表型术语。

可选的，罕见病知识库的处理装置200还包括反馈模块，获取模块201还用于获取目标患者的电子病历；提取模块202还用于从所述电子病历中提取出目标临床表型术语；比较模块203还用于将所述目标临床表型术语与所述优化的罕见病权威知识库中的标准表型术语进行匹配；反馈模块用于：在确定所述目标临床表型术语存在匹配的标准表型术语时，根据所述匹配的标准表型术语对应的统计信息确定所述目标临床表型术语对应的目标罕见病并反馈。

可选的，获取模块201具体用于：获取已有的遗传病知识库和罕见病知识库；从所述遗传病知识库和罕见病知识库中分别提取出多种已知罕见病和所述多种已知罕见病对应的已知表型术语；基于所述多种已知罕见病和所述多种已知罕见病对应的已知表型术语构建所述罕见病权威知识库。

可选的，提取模块202具体用于：基于已有的术语库从所述电子病历中提取出所述多个临床表型术语；所述已有的术语库包括：超级叙词表、语义网络和专家词典以及词典工具；根据所述电子病历中的患者诊断结果确定所述多个临床表型术语各自对应的罕见病；统计各个罕见病下的多个临床表型术语的频数以及TF-IDF信息，得到所述统计信息。

前述实施例中的罕见病知识库的处理方法中的各实施方式和具体实例同样适用于图2装置，通过前述对罕见病知识库的处理方法的详细描述，本领域技术人员可以清楚的知道图2的罕见病知识库的处理装置200的实施方式，所以为了说明书的简洁，在此不再详述。

基于同一发明构思，本申请实施例还提供一种可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被计算机运行时执行上述任一实施方式所述的罕见病知识库的处理方法。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种罕见病知识库的处理方法，其特征在于，包括：

获取多个罕见病患者的电子病历；

从所述电子病历中提取出可用数据；所述可用数据包括：多个临床表型术语、所述多个临床表型术语各自对应的罕见病、以及用于表征所述多个临床表型术语和其各自对应的罕见病之间的关联程度的统计信息；

获取罕见病权威知识库；所述罕见病权威知识库中包括多种罕见病和所述多种罕见病对应的多个标准表型术语；

将所述多个临床表型术语与所述多个临床表型术语各自对应的罕见病对应的多个标准表型术语进行比较；

根据比较结果对所述罕见病权威知识库进行优化，得到优化的罕见病权威知识库；所述优化的罕见病权威知识库中的各个标准表型术语对应有所述统计信息。

2.根据权利要求1所述的方法，其特征在于，所述根据比较结果对所述罕见病权威知识库进行优化，得到优化的罕见病权威知识库，包括：

将存在匹配的标准表型术语的临床表型术语对应的统计信息按照与所述匹配的标准表型术语的对应关系存储到所述罕见病权威知识库中。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取不存在匹配的标准表型术语的目标临床表型术语；

计算所述目标临床表型术语在其所述对应的罕见病中的出现频率；

若所述出现频率大于或者等于预设频率，且所述目标临床表型术语属于所述多个标准表型术语中的上位概念，不存储所述目标临床表型术语；

若所述出现频率大于或者等于预设频率，且所述目标临床表型术语属于所述多个标准表型术语的下位概念，将所述目标临床表型术语和其对应的统计信息存储到所述罕见病权威知识库中。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

针对不存在匹配的临床表型术语的标准表型术语，确定是否存在未进行匹配的临床表型术语；

在确定不存在未进行匹配的临床表型术语时，从所述罕见病权威知识库中删除所述不存在匹配的临床表型术语的标准表型术语。

5.根据权利要求1所述的方法，其特征在于，在所述根据比较结果对所述罕见病权威知识库进行优化，得到优化的罕见病权威知识库后，所述方法还包括：

获取目标患者的电子病历；

从所述电子病历中提取出目标临床表型术语；

将所述目标临床表型术语与所述优化的罕见病权威知识库中的标准表型术语进行匹配；

在确定所述目标临床表型术语存在匹配的标准表型术语时，根据所述匹配的标准表型术语对应的统计信息确定所述目标临床表型术语对应的目标罕见病并反馈。

6.根据权利要求1所述的方法，其特征在于，所述获取罕见病权威知识库，包括：

获取已有的遗传病知识库和罕见病知识库；

从所述遗传病知识库和所述罕见病知识库中分别提取出多种已知罕见病和所述多种已知罕见病对应的已知表型术语；

基于所述多种已知罕见病和所述多种已知罕见病对应的已知表型术语构建所述罕见病权威知识库。

7.根据权利要求6所述的方法，其特征在于，所述遗传病知识库包括：OMIM库；所述罕见病知识库包括：Orpha库和eRAM库。

8.根据权利要求1所述的方法，其特征在于，所述从所述电子病历中提取出可用数据，包括：

基于已有的术语库从所述电子病历中提取出所述多个临床表型术语；

根据所述电子病历中的患者诊断结果确定所述多个临床表型术语各自对应的罕见病；

统计各个罕见病下的多个临床表型术语的频数以及TF-IDF信息，得到所述统计信息。

9.一种罕见病知识库的处理装置，其特征在于，包括：

获取模块，用于获取多个罕见病患者的电子病历；

提取模块，用于从所述电子病历中提取出可用数据；所述可用数据包括：多个临床表型术语、所述多个临床表型术语各自对应的罕见病、以及用于表征所述多个临床表型术语和其各自对应的罕见病之间的关联程度的统计信息；

所述获取模块还用于：获取罕见病权威知识库；所述罕见病权威知识库中包括多种罕见病和所述多种罕见病对应的多个标准表型术语；

比较模块，用于将所述多个临床表型术语与所述多个临床表型术语各自对应的罕见病对应的多个标准表型术语进行比较；

优化模块，用于根据比较结果对所述罕见病权威知识库进行优化，得到优化的罕见病权威知识库；所述优化的罕见病权威知识库中的各个标准表型术语对应有所述统计信息。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被计算机运行时执行如权利要求1-8任一项所述的方法。