CN116562266B

CN116562266B - 文本分析方法、计算机设备及计算机可读存储介质

Info

Publication number: CN116562266B
Application number: CN202310838526.6A
Authority: CN
Inventors: 张抒扬; 陈挺; 毛小豪; 黄予; 金晔; 王伦; 张舒媛
Original assignee: Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Current assignee: Tsinghua University; Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-09-15
Anticipated expiration: 2043-07-10
Also published as: CN116562266A

Abstract

本申请涉及自然语言处理技术领域，公开了一种文本分析方法、计算机设备及计算机可读存储介质。文本分析方法包括：获取病人的待分析病历文本；将待分析病历文本输入至表型抽取模型的提取模块进行提取，得到待分析病历文本中的多个医学实体；将医学实体输入至表型抽取模型的表型链接模块，得到多个医学实体对应的标准HPO表型集合；将标准HPO表型集合利用预测算法根据融合医学知识库进行预测，得到待分析病历文本的初始预测结果，其中，初始预测结果包括多个疾病以及每个疾病的概率。本申请的文本分析方法表型抽取精度高，预测结果的准确性高。

Description

文本分析方法、计算机设备及计算机可读存储介质

技术领域

本申请涉及自然语言处理技术领域，具体地，涉及一种文本分析方法、计算机设备及计算机可读存储介质。

背景技术

医生对患者进行疾病的诊断时，通常都是基于自己的经验进行，准确度有限。因此，目前常利用人工智能手段辅助医生进行疾病的诊断。

尤其是针对罕见病的诊断。罕见病，又称“孤儿病”，是患病率极低的各类疾病的统称，到目前为止已发现的罕见病数量大约为6000-8000种。虽然罕见病的发病率极低，但由于病种繁多，患有罕见病的总体人数并不少，据估计，全世界约有3.5亿人患有罕见病。

由于训练数据数量少、测试数据不均衡等问题，导致在利用人工智能手段进行疾病，特别是罕见病预测时的结果不够好。

发明内容

有鉴于此，本申请实施例的目的是提供一种文本分析方法、计算机设备及计算机可读存储介质，能够解决现有在利用人工智能手段进行疾病，特别是罕见病预测时的结果不够好的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种文本分析方法，包括：

获取病人的待分析病历文本；

将所述待分析病历文本输入至表型抽取模型的提取模块进行提取，得到所述待分析病历文本中的多个医学实体；

将所述医学实体输入至所述表型抽取模型的表型链接模块，得到所述多个医学实体对应的标准HPO表型集合；

将所述标准HPO表型集合利用预测算法根据融合医学知识库进行预测，得到所述待分析病历文本的初始预测结果，其中，所述初始预测结果包括多个疾病以及每个疾病的概率。

根据本申请公开的一种具体实施方式，所述表型抽取模型的表型链接模块的训练方法包括：

获取中文HPO叙词表与医学实体样本；

构建第一训练集，其中，所述第一训练集包括由中文HPO叙词表中的一个HPO标准词和一个医学实体样本构成的文本对样本，以及所述文本对的匹配度；

将所述第一训练集输入至第一预设模型，得到所述文本对样本对应的两个语义向量；

根据所述两个语义向量的距离以及所述文本对的匹配度，以最小化预设损失函数为目标进行迭代训练，得到所述表型抽取模型的表型链接模块。

根据本申请公开的一种具体实施方式，所述获取中文HPO叙词表与医学实体样本之前，还包括：

基于多种翻译接口对统一医学语言***进行中文翻译，得到中文统一医学语言***；

将多个中文医学词表与所述中文统一医学语言***进行词条链接，得到中文统一医学叙词表；

从所述中文统一医学叙词表中导出与HPO表型相关的子集，得到所述中文HPO叙词表。

根据本申请公开的一种具体实施方式，所述基于多种翻译接口对统一医学语言***进行中文翻译，得到中文统一医学语言***，包括：

基于多种翻译接口对统一医学语言***进行中文翻译，得到每种翻译接口对应的翻译结果；

基于预设过滤规则，对每种翻译接口对应的翻译结果进行过滤，得到所述中文统一医学语言***，其中，所述预设过滤规则包括针对第一翻译接口保留预设标签类别的翻译结果，以及针对第二翻译接口和第三翻译接口保留相同的翻译结果。

根据本申请公开的一种具体实施方式，所述融合医学知识库的构建方法包括：

对预设文本进行表型抽取，构建所述预设文本中的疾病与表型的对应关系，得到第一医学知识库；

构建所述第一医学知识库与第二医学知识库的第一疾病映射关系；

基于所述第一疾病映射关系以及所述第二医学知识库与第三医学知识库的第二疾病映射关系，将相同的疾病以及对应的表型进行融合，得到融合医学知识库。

根据本申请公开的一种具体实施方式，所述预测算法包括ICTO，所述将所述标准HPO表型集合利用预测算法根据融合医学知识库进行预测，得到所述待分析病历文本的初始预测结果，包括：

根据第一预设公式计算所述标准HPO表型集合与所述融合医学知识库中的疾病的表型集合的匹配程度，得到所述待分析病历文本的初始预测结果，其中，所述第一预设公式包括：式中，Q表示所述标准HPO表型集合，D _k表示所述融合医学知识库中的疾病的表型集合，/>表示Q与D _k的单边匹配得分，/>表示D _k与Q的单边匹配得分，单边匹配得分的表达式为：/>式中，/>表示在f _u (S ₂ )的所有表型中，只有同在S ₁的表型参与计算，f _u (S ₂ )表示集合S ₂与集合S ₂中的每个表型的祖先集合的并集，IC表示表型t的信息内容值，IC的表达式为：/>式中，t _i表示表型，N表示所述融合医学知识库中的疾病总数，Nt _i表示被表型t _i及所述表型t _i的子孙节点注释的疾病数量；或，

根据第二预设公式计算所述标准HPO表型集合与所述融合医学知识库中的疾病的表型集合的匹配程度，得到所述待分析病历文本的初始预测结果，其中，所述第二预设公式包括：式中，表示取在f _u (D _k )的所有表型中，同在Q的表型，与在f _u (Q)的所有表型中，同在D _k的表型的并集参与计算。

根据本申请公开的一种具体实施方式，所述预测算法包括PPO，所述将所述标准HPO表型集合利用预测算法根据融合医学知识库进行预测，得到所述待分析病历文本的初始预测结果，包括：根据第三预设公式计算所述标准HPO表型集合与所述融合医学知识库中的疾病的表型集合的匹配程度，得到所述待分析病历文本的初始预测结果，其中，所述第三预设公式包括：式中，Q表示所述标准HPO表型集合，t _i表示Q中的任意一个表型，D _k表示所述融合医学知识库中的疾病的表型集合，的表达式为：/>式中，p _ik表示表型注释数据直接提供的患有疾病D _k的病人有表型t _i的频率，P(t _i )表示表型t _i的背景概率，f _pp表示表型概率传播函数，P(t _i )的表达式为：/>式中，N表示所述融合医学知识库中的疾病总数，Nt _i表示被表型t _i及所述表型t _i的子孙节点注释的疾病数量；

f _pp的表达式为f _max、f _ind、f _sum中的任意一个：式中，C _ik的表达式为 F _ch (t _i )表示表型t _i的子节点集合，f _u (D _k )表示集合D _k与集合D _k中的每个表型的祖先集合的并集。

根据本申请公开的一种具体实施方式，所述预测算法包括补集朴素贝叶斯模型和多层感知机模型。根据本申请公开的一种具体实施方式，所述方法还包括：

将多种所述预测算法的初始预测结果基于次序统计量进行融合，得到所述待分析病历文本的预测结果。

根据本申请公开的一种具体实施方式，所述将多种所述预测算法的初始预测结果基于次序统计量进行融合，得到所述待分析病历文本的预测结果，包括：

将每种预测算法的初始预测结果除以所述融合医学知识库中的疾病总数，利用N维次序统计量的联合累计分布计算Z统计量，作为所述待分析病历文本的预测结果。

第二方面，本申请实施例提供了一种计算机设备，包括处理器和存储器，所述存储器上存储有程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第三方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

本申请的上述实施例提供的文本分析方法、计算机设备及计算机可读存储介质，采用表型抽取模型得到待分析病例文本中的标准HPO表型集合，表型抽取精度高，为后续的预测提供了基础；基于多个医学知识库构建融合医学知识库，并且在此基础上，基于预测方法进行预测，进一步提升预测结果的准确性。

本申请的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对本申请保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了本申请实施例提供的一种文本分析方法的流程示意图；

图2示出了本申请实施例提供的HPO的结构示意图；

图3示出了本申请实施例提供的融合医学知识库的融合过程示意图；

图4示出了本申请实施例提供的另一种文本分析方法的流程示意图；

图5示出了本申请实施例提供的另一种文本分析方法的步骤150的过程示意图。

实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在下文中，可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本申请的各种实施例中被清楚地限定。

请参阅图1，图1示出了本申请实施例提供的文本分析方法的流程图，如图1所示，该方法包括以下步骤：

步骤110、获取病人的待分析病历文本。

具体的，待分析病历文本用于描述病人的患病状态，可以是通过输入输出设备输入至计算机设备的电子文本，也可以是对纸质文本进行光学字符识别后得到的文本，还可以是根据病人的语音进行语音识别后得到的文本，本申请实施例对此不作具体限定。

本申请实施例以罕见病为例展开论述，可以理解的是，其他疾病的处理逻辑类似，可以根据实际需求进行调整。

步骤120、将所述待分析病历文本输入至表型抽取模型的提取模块进行提取，得到所述待分析病历文本中的多个医学实体。

步骤130、将所述医学实体输入至所述表型抽取模型的表型链接模块，得到所述多个医学实体对应的标准HPO表型集合。

人类表型本体（Human Phenotype Ontology，HPO）提供了描述人类表型的标准术语集，第一个版本由德国夏洛特医学中心于2008年发布，通过对在线人类孟德尔遗传数据库（Online Mendelian Inheritance in Man，OMIM）的描述文本进行概念抽取而建立。请一并参阅图2，图2示出了本申请实施例提供的HPO的结构示意图。HPO的表型被组织为层级结构，结构中的每个节点表示一个表型术语，节点之间通过“is-a”边（属于关系）连接形成有向无环图（Directed Acyclic Graph，DAG）。例如“湿疹(Eczema)”属于“皮肤炎症反应（Inflammatory abnormality of the skin）”，“苯丙酮酸血症（Phenylpyruvicacidemia）”属于“酸中毒（Acidosis）”等。位置越靠上的节点表示的概念越泛化，越靠下的节点表示的概念越具体。目前基于表型的罕见病诊断算法或工具大多依赖于HPO提供的表型层次结构信息与疾病的表型注释信息。

此外，目前的罕见病预测或者诊断方法都是把提取好的表型作为模型输入进行预测。然而，医生人工抽取存在耗时长、困难大的问题。由于同一医学概念常常有不同的表达，例如“Romberg征”与“闭目难立征（HP:0002403）”、“间断发热”与“阵发性发热（HP:0001954）”、“视物成双”与“复视（HP:0000651）”、“指甲发白”与“白甲（HP:0001820）”等；同时，HPO表型术语与临床用语也存在着一定差异，例如“顶骨***（HP:0000242）”与“顶骨突出”、“牙齿错位咬合（HP:0000689）”与“牙齿不齐”等，这给表型自动化抽取带来一定挑战。

因此，本申请实施例提供了一种表型抽取模型，该表型抽取模型被命名为CText2Hpo。本申请提供的CText2Hpo是一套无需标注语料训练的、面向中文的表型抽取模型，可达到与医学专家人工抽取相当的效果。表型抽取模型先对待分析病例文本进行提取，得到待分析病历文本中的多个医学实体，提取的医学实体可以认为是潜在的、不标准的医学描述。示例性地，表型抽取模型的提取模块采用TopWORDs模型。

再将医学实体输入至所述表型抽取模型的表型链接模块，得到所述多个医学实体对应的标准HPO表型集合。针对每个医学实体，先将医学实体利用ALBERT模型转换为语义向量，再计算得到该医学实体的语义向量和每个标准HPO表型的语义向量之间的相似度，把相似度最高的标准HPO表型作为该医学实体对应的标准HPO表型。根据每个医学实体对应的标准HPO表型，构建标准HPO表型集合，从而将不标准的医学描述映射到标准HPO表型，作为病人的表示，进而在后续的步骤中利用病人的表示进行预测。其中，针对一个医学实体t _s与每个标准HPO表型t _h的相似度的计算方法如公式（1）：（1）式中，表示医学实体t _s对应的语义向量，/>表示标准HPO表型t _h对应的语义向量，d表示距离，在本申请实施例中采用欧式距离。

采用本申请提供的表型链接模块进行表型链接任务，只需要分别生成标准HPO表型和医学实体的语义向量，从而降低了使用表型链接模块的次数，降低了计算复杂度。

目前不存在公开的高质量的中文医学文本标注数据可以用来训练深度学习模型，因此，基于深度学习方法效果欠佳和泛化性能较差而不能进行推广。

有鉴于此，本申请实施例构建中文HPO叙词表，以构建训练集进行训练得到表型抽取模型的表型链接模块。因此，一种可选的实施方式中，所述表型抽取模型的表型链接模块的训练方法包括：

获取中文HPO叙词表与医学实体样本；

具体的，令t表示一段文本，h _t =g _a (t)表示文本t经过ALBERT网络g _a输出的词向量，g _fc表示全连接网络，则t对应的语义向量v _t的表达式如公式（2）：（2）

式中，W _a表示ALBERT网络的参数，W _fc表示全连接网络的参数。

通过最小化DDML（Discriminative Deep Metric Learning，判别式深度度量学习）损失函数进行训练，DDML损失函数的表达式如公式（3）：（3）

其中，t _i与t _j为训练集中的文本对样本，d表示距离，在本申请实施例中采用欧式距离，[z]₊=max(z,0)表示RELU函数，τ为给定的超参数，为所述文本对的匹配度，表达式如公式（4）：/>（4）

一种可选的实施方式中，所述获取中文HPO叙词表与医学实体样本之前，还包括：

从所述中文统一医学叙词表中导出与预设条件相关的子集，得到中文HPO叙词表。

具体的，统一医学语言***（Unified Medical Language System，UMLS），是一个巨型医学术语***，涵盖了临床、基础、药学、生物学、医学管理等医学及与医学相关学科，收录了约200万个医学概念。UMLS已应用电子病历、卫生服务、公共卫生统计、生物医学文献分类以及临床基础和卫生服务研究等多个技术领域。

在本申请实施例中，先利用多个翻译接口对UMLS进行中文翻译，得到中文统一医学语言***，再借助UMLS中的概念编码（Unique Identifier for Concept，CUI）将多个中文医学词表与中文统一医学语言***进行词条链接，生成具有“概念-术语”二级结构的中文统一医学叙词表。其中，多个中文医学词表包括：CHPO（The Chinese Human PhenotypeOntology，中文人类表型本体）、中文ICD-10（International Classification ofDiseases-10，国际疾病分类第十次修订本）、中文SNOMED-CT（Systematized Nomenclatureof Medicine-Clinical Terms，医学***化命名-临床术语）以及中文MeSH（MedicalSubject Headings，医学主题词表）。

在实际使用过程中，可以根据具体需求对中文统一医学叙词表进行提取，例如，在本申请实施例中需要HPO表型的链接，则导出与HPO表型相关的子集，得到中文HPO叙词表。请一并参阅表1，示出了本申请提供的中文HPO叙词表，其中，标准词来自CHPO的人工翻译，同义词来自其他词表或翻译接口的机器翻译。

表1

可以理解的是，利用翻译接口在进行机器翻译时，可能存在一些错误，本申请实施例在进行中文翻译时，添加了一些过滤规则。因此，在一种可选的实施方式中，所述基于多种翻译接口对统一医学语言***进行中文翻译，得到中文统一医学语言***，包括：

具体的，本申请实施例采用的翻译接口可以包括金山词霸、谷歌翻译及百度翻译。对于第一翻译接口，即金山词霸，只保留属于预设标签类别的翻译结果，示例性地，预设标签类别包括12种，“[医]”、“[化]”、“[植物]”、“[植]”、“[动物]”、“[动]”、“[鸟类]”、“[解剖]”、“[中医]”、“[昆]”、“[药]”、“[化学]”。对于第二翻译接口和第三翻译接口，即百度翻译和谷歌翻译，只有当二者的中文翻译的词语或描述相同时，才进行保留。

通过过滤规则的设置，可以提高针对统一医学语言***进行中文翻译时的准确性。

步骤140、将所述标准HPO表型集合利用预测算法根据融合医学知识库进行预测，得到所述待分析病历文本的初始预测结果，其中，所述初始预测结果包括多个疾病以及每个疾病的概率。

具体的，本申请采用预测算法基于融合医学知识库对所述标准HPO表型集合进行预测，进而得到每种预测算法的初始预测结果。初始预测结果表示所述病人患有某种疾病及所述病人患有该疾病的概率，在本申请实施例中，概率是通过计算从所述病人的待分析病历文本中利用步骤120-130提取到的标准HPO表型集合，与融合医学知识库中的疾病的相似度得到的。

需要说明的是，本申请实施例提供的初始预测结果包括多个疾病以及每个疾病的概率，应当被理解为一种中间结果，以辅助医生更好地进行疾病的诊断，最终的诊断结果仍然需要医生基于实际情况结合本申请实施例提供的初始预测结果进行综合判断。

可以理解的是，可以对初始预测结果中的疾病按照概率的高低进行排序，以使用户（也即医生或病人）更清楚地了解初始预测结果。

一种可选的实施方式中，所述融合医学知识库的构建方法包括：

预设文本可以根据实际需求设置，例如在本申请实施例中，是对罕见病进行预测，因此，预设文本为《罕见病诊疗指南》，该指南中的疾病来自《中国第一批罕见病目录释义》。可以基于前文构建的中文HPO叙词表以及后向匹配算法对预设文本进行表型抽取，为保证准确率，可以进行人工的检查与标注，计算机设备接收人工操作后对表型抽取得到的结果进行调整。最终，构建了包含144个疾病和3663条注释的CCRD（Compendium of China’sfirst list of Rare Diseases，中国第一批罕见病目录释义）知识库，作为第一医学知识库，并构建了第一医学知识库与第二医学知识库的第一疾病映射关系。在本申请实施例中，第二医学知识库为Orpanet知识库，第三医学知识库为OMIM（Online MendelianInheritance in Man，在线人类孟德尔遗传）知识库。

基于第一疾病映射关系，以及第二医学知识库与第三医学知识库的第二疾病映射关系，将相同的疾病以及对应的表型进行融合，得到融合医学知识库。

在合并表型注释的过程中，若表型的频率不同，则取多个频率的均值作为该表型的最终频率。对于没有映射关系的疾病编码，其表型注释不变。对于融合知识库的所有疾病，赋予了新的疾病编码（以“RD:”为前缀）。

请一并参阅图3，图3示出了本申请实施例提供的融合医学知识库的融合过程示意图。在图3中以特发性肺纤维化（Idiopathic Pulmonary Fibrosis, IPF）为例，展示了多个知识库的融合过程。

从图3可以看出，本申请实施例提供的融合医学知识库的疾病覆盖范围更广，表型注释信息更加完整，质量较高。

可以理解的是，预测算法可以根据实际需求设定，在本申请实施例中，预测算法包括：ICTO、PPC、CNB及MLP中的任意一种。下面分别针对每种预测算法的预测过程进行介绍。

（1）ICTO

一种可选的实施方式中，所述预测算法包括ICTO，所述将所述标准HPO表型集合利用预测算法根据融合医学知识库进行预测，得到所述待分析病历文本的初始预测结果，包括：

具体的，为更好地理解本方案，先针对表型集合的相关概念做介绍，这部分内容在后文中通用，不再赘述。

每个疾病和输入的病人的待分析病历文本都可以看做是HPO表型的集合。令表示第k个疾病的表型集合，/>表示病人的待分析病历文本的表型集合。由于HPO表型被组织为有向无环图，可以定义以下函数。令f _a (t)表示表型t的祖先（Ancestor）集合，f _pa (t)表示表型t的父节点集合，f _ch (t)表示表型t的子节点集合。对于某个表型集合/>，令f _u (s)表示对集合S进行“向上推导（up-induce）”，即生成集合S与集合中的每个表型S _i的祖先集合的并集，表达式如公式（5）：（5）

f _d (s)表示对集合S进行“向下删减（down-reduce）”，即只保留集合S中最“具体（细化）”的表型，而其他表型将被移除，其定义的表达式如公式（6）：（6）

以图2为例，可以得到：ICTO（Information Content Term Overlap）是一个基于IC值与表型重合数量的方法，通过计算疾病表型集合D _k与病人表型集合Q的表型重合个数并以表型重要程度加权而得到。

IC（Information Content）值，反映了一个表型的标识能力，即对疾病分类的重要程度，其表达式如公式（7）：（7）

其中t _i表示表型，N表示某一知识库中的疾病总数（在本申请实施例中，为融合医学知识库），Nt _i表示被表型t _i及其子孙节点注释的疾病数量。具体而言，Nt _i的表达式如公式（8）：（8）

其中1表示示性函数。

一般而言，描述越泛化的节点（离根节点近），其信息量就越低；描述越具体的节点，其信息量就越高。根节点的信息量为0，因为根节点的表型在所有疾病中均有出现。

对于ICTO，单边（One-sided）匹配得分的表达式如公式（9）：（9）

其中，表示在f_u(S₂)的所有表型中，只有同在S ₁的表型参与相似度计算。Sim（Q→D _k）反映了在疾病D _k的所有表型注释（直接或间接）中，有多少表型出现在病人中以及它们有多重要，病人的其他表型将被认为是噪声表型而被忽略。ICTO的“对称（Symmetric）”相似度通过对单边匹配得分进行平均计算而得（简称为“ICTO(A)”），表达式如公式（10）：/>（10）

或通过合并单边匹配的表型计算而得（简称为“ICTO(U)”），表达式如公式（11）：（11）

本申请提供的ICTO算法的优势在于不考虑病人的噪声表型。噪声表型是指，该表型不在该疾病的表型注释中，也不是任一表型注释的祖先或子孙。病人的噪声表型对ICTO相似度的计算不会产生影响。出发点在于，由于基因表达的异质性，病人出现许多无关的噪声表型是正常的，真实病人常常伴有大量与所患罕见病无关的表型，病人与所患疾病的相似度并不应该受病人带有的噪声表型多少的影响，因此ICTO方法在处理“噪声”现象上更为合理。

（2）PPO

一种可选的实施方式中，所述预测算法包括PPO，所述将所述标准HPO表型集合利用预测算法根据融合医学知识库进行预测，得到所述待分析病历文本的初始预测结果，包括：

根据第三预设公式计算所述标准HPO表型集合与所述融合医学知识库中的疾病的表型集合的匹配程度，得到所述待分析病历文本的初始预测结果，其中，所述第三预设公式包括：式中，Q表示所述标准HPO表型集合，t _i表示Q中的任意一个表型，D _k表示所述融合医学知识库中的疾病的表型集合，/>的表达式为：/>式中，p _ik表示表型注释数据直接提供的患有疾病D _k的病人有表型t _i的频率，P(t _i )表示表型t _i的背景概率，f _pp表示表型概率传播函数，P(t _i )的表达式为：/>式中，N表示所述融合医学知识库中的疾病总数，Nt _i表示被表型t _i及所述表型t _i的子孙节点注释的疾病数量；

PPO（Probability Propagation in Ontology）是一个基于表型概率的方法，与朴素贝叶斯（Naive Bayes，NB）分类器的条件独立性假设类似，PPO假设给定疾病k后表型的出现具有独立性，区别在于PPO的模型参数基于HPO的本体结构以及表型注释的频率给定。

具体地，根据贝叶斯公式，病人Q患有疾病D _k的概率的表达式如公式（12）：（12）

其中，P(q ₁ ,...,q _m |D _k )可基于条件独立性假设进一步分解，表达式如公式（13）：（13）

疾病D _k与任一表型t _i，P(t _i |D _k )递归地定义为如公式（14）：（14）

也即，如果表型t _i属于疾病D _k，那么，P(t _i |D _k )的取值为p _ik；如果表型t _i不属于疾病D _k与疾病D _k包括的每个表型的祖先集合的并集，那么，P(t _i |D _k )的取值为P(t _i )；其他情况下，P(t _i |D _k )的取值为f _pp。

公式（14）中，p _ik表示表型注释数据直接提供的患有疾病D _k的病人有表型t _i的频率（若仅提供了表型的频率区间，则取频率区间的中值作为该表型的频率），对于没有提供频率信息的表型注释，其频率将设为默认频率dp（default probability）。

P(t _i )指表型t _i的背景概率（background probability），由公式（7）定义。

由于表型注释数据只提供了最“具体”表型的频率，对于这些表型注释的祖先节点，本申请实施例提出三种基于本体结构的表型概率传播函数f _pp，表达式如公式（15）-（17）：（15）（16）（17）

其中，C _ik表示表型t _i的子节点集合与疾病D _k的表型集合（直接或间接）的交集，表达式如公式（18）：（18）

在三种表型概率传播函数中，假设t _i子表型的出现存在正相关性，表示子表型的出现彼此独立，/>假设子表型的出现存在负相关性。最后，假设疾病的概率P(D _k )相同，则疾病D _k与病人Q的表型集合相似度可基于对数似然函数定义，表达式如公式（19）：/>（19）

（3）CNB

CNB（Complement Naive Bayes，补集朴素贝叶斯模型）是多项式朴素贝叶斯（Multinomial Naive Bayes，MNB）模型的一个变种。

令表示病人患有除了疾病k之外的其他疾病有表型t _i的概率，其表达式如公式（20）：/>（20）其中α _j表示平滑项，/>，在本申请实施例中，α _j均为相同值。

令输入病人的表型集合为V，其对应的特征向量v=f _fv(V)，由贝叶斯公式，该病人不患有疾病k的概率的表达式如公式（21）：（21）

假设病人不患有某个疾病的先验概率彼此相等，则对数似然概率的表达式如公式（22）：（22）

最后，病人v与疾病k的匹配得分的表达式如公式（23）：（23）

（4）MLP

MLP（MuLti Perceptron，多层感知机），又叫前向人工神经网络（FeedforwardArtificial Neural Network），通常包含一个输入层，多个隐藏层以及一个输出层。由于训练样本不足，使用过于复杂的模型反而会使得测试集上的预测准确性下降，因此本申请实施例采用的MLP模型仅包含一层隐藏层。

给定输入向量x_i，网络的输出向量，二者之间的关系的表达式如公式（24）：（24）

其中与/>为模型参数，/>表示Sigmoid函数。模型通过最小化二元交叉熵损失函数进行训练，二元交叉熵损失函数的表达式如公式（25）：（25）

其中，表示标签/>对应的one-hot向量；/>为正则项。

对于训练好的MLP模型，输入病人向量v，获取其输出向量p，则该病人与疾病k的匹配得分的表达式如公式（26）：（26）

本申请实施例中提供的文本分析方法，采用表型抽取模型得到待分析病例文本中的标准HPO表型集合，表型抽取精度高，为后续的预测提供了基础；基于多个医学知识库构建融合医学知识库，并且在此基础上，基于预测方法进行预测，进一步提升预测结果的准确性。

请参阅图4，图4示出了本申请实施例提供的另一种文本分析方法的流程示意图。一种可选的实施方式中，所述方法还包括：

步骤150、将多种预测算法的初始预测结果基于次序统计量进行融合，得到所述待分析病历文本的预测结果。

具体的，在本申请实施例中，多种预测算法包括前述ICTO、PPO、CNB和MLP。采用次序统计量对多种预测算法的初始预测结果进行融合，从而进一步地提高预测结果的准确性。需要说明的是，本申请实施例提供的预测结果同样包括多个疾病以及每个疾病的概率，并将疾病按照概率高低进行排序，与初始预测结果一样应当被理解为一种中间结果，以辅助医生更好地进行疾病的诊断。

请一并参阅图5，图5示出了本申请实施例提供的另一种文本分析方法的步骤150的过程示意图。

一种可选的实施方式中，步骤150包括：

首先将每种预测算法的初始预测结果除以所述融合医学知识库中的疾病总数，利用N维次序统计量的联合累计分布来计算Z统计量，也即偶然获得的观察到的排序比的概率。

Z统计量的表达式如公式（27）：（27）

式中，r _i为第i种方法的排序比，r ₀=0，N表示方法的总数。在本申请实施例中，方法也即预测算法。

由于上述公式的高复杂性，本申请实施例提供一种更快的递归方法来计算上述积分，表达式如公式（28）-（29）：（28）/>（29）式中，v ₀=0。

从而对每种预测算法的初始预测结果进行了融合，使用Z统计量进行重新排序，得到待分析病例文本的预测结果。

可选的，本申请实施例还提供一种计算机设备，包括处理器和存储器，所述存储器上存储有程序或指令，该程序或指令被处理器执行时实现上述文本分析方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

可选的，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述文本分析方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的计算机设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例提供的计算机设备和计算机可读存储介质能够实现方法实施例中的文本分析方法的各个过程，且能达到相同的技术效果，为避免重复，此处不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是智能手机、个人计算机、服务器、或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种文本分析方法，其特征在于，包括：

获取病人的待分析病历文本；

将所述标准HPO表型集合利用预测算法根据融合医学知识库进行预测，得到所述待分析病历文本的初始预测结果，其中，所述初始预测结果包括多个疾病以及每个疾病的概率；

所述预测算法包括ICTO，所述将所述标准HPO表型集合利用预测算法根据融合医学知识库进行预测，得到所述待分析病历文本的初始预测结果，包括：

根据第一预设公式计算所述标准HPO表型集合与所述融合医学知识库中的疾病的表型集合的匹配程度，得到所述待分析病历文本的初始预测结果，其中，所述第一预设公式包括：

式中，Q表示所述标准HPO表型集合，D_k表示所述融合医学知识库中的疾病的表型集合，表示Q与D_k的单边匹配得分，/>表示D _k与Q的单边匹配得分，单边匹配得分的表达式为：

式中，表示在f_u(S₂)的所有表型中，只有同在S₁的表型参与计算，f_u(S₂)表示集合S₂与集合S₂中的每个表型的祖先集合的并集，IC表示表型t的信息内容值，IC的表达式为：

式中，t_i表示表型，N表示所述融合医学知识库中的疾病总数，Nt_i表示被表型t_i及所述表型t_i的子孙节点注释的疾病数量；或，

根据第二预设公式计算所述标准HPO表型集合与所述融合医学知识库中的疾病的表型集合的匹配程度，得到所述待分析病历文本的初始预测结果，其中，所述第二预设公式包括：

式中，表示取在f_u(D_k)的所有表型中，同在Q的表型，与在f_u(Q)的所有表型中，同在D_k的表型的并集参与计算；

所述预测算法包括PPO，所述将所述标准HPO表型集合利用预测算法根据融合医学知识库进行预测，得到所述待分析病历文本的初始预测结果，包括：

根据第三预设公式计算所述标准HPO表型集合与所述融合医学知识库中的疾病的表型集合的匹配程度，得到所述待分析病历文本的初始预测结果，其中，所述第三预设公式包括：

式中，Q表示所述标准HPO表型集合，t_i表示Q中的任意一个表型，D_k表示所述融合医学知识库中的疾病的表型集合，的表达式为：

式中，p_ik表示表型注释数据直接提供的患有疾病D_k的病人有表型t_i的频率，P(t_i)表示表型t_i的背景概率，f_pp表示表型概率传播函数，P(t_i)的表达式为：

式中，N表示所述融合医学知识库中的疾病总数，Nt_i表示被表型t_i及所述表型t_i的子孙节点注释的疾病数量；

f_pp的表达式为f_max、f_ind、f_sum中的任意一个：

式中，C_ik的表达式为

F_ch(t_i)表示表型t_i的子节点集合，f_u(D_k)表示集合D_k与集合D_k中的每个表型的祖先集合的并集；

所述预测算法还包括补集朴素贝叶斯模型和多层感知机模型；

所述方法还包括：

2.根据权利要求1所述的文本分析方法，其特征在于，所述表型抽取模型的表型链接模块的训练方法包括：

获取中文HPO叙词表与医学实体样本；

3.根据权利要求2所述的文本分析方法，其特征在于，所述获取中文HPO叙词表与医学实体样本之前，还包括：

4.根据权利要求3所述的文本分析方法，其特征在于，所述基于多种翻译接口对统一医学语言***进行中文翻译，得到中文统一医学语言***，包括：

5.根据权利要求1所述的文本分析方法，其特征在于，所述融合医学知识库的构建方法包括：

6.根据权利要求1所述的文本分析方法，其特征在于，所述将多种所述预测算法的初始预测结果基于次序统计量进行融合，得到所述待分析病历文本的预测结果，包括：

7.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器上存储有程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-6中任一项所述的文本分析方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如权利要求1-6中任一项所述的文本分析方法的步骤。