CN110391026A

CN110391026A - 基于医疗概率图的信息分类方法、装置及设备

Info

Publication number: CN110391026A
Application number: CN201910675902.8A
Authority: CN
Inventors: 代小亚; 陈俊; 陆超; 黄海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-10-29
Anticipated expiration: 2039-07-25
Also published as: CN110391026B

Abstract

本发明实施例提供一种基于医疗概率图的信息分类方法、装置及设备，该方法包括：获取症状描述信息，所述症状描述信息包括至少一个描述要素；根据医疗概率图确定各所述描述要素对应的不同症状类型的概率；其中，所述医疗概率图是根据至少两种概率模型对相同的医疗语料进行处理得到的概率结果确定的；根据各所述描述要素对应的不同症状类型的概率，确定所述症状描述信息对应的症状类型；本实施例中的医疗概率图是根据多个概率模型对相同的医疗语料进行处理得到的，一方面，保证了医疗概率图中各节点之间转移概率的准确性，提高了信息分类的准确率；另一方面，无需医疗人员手工标注，降低了构建医疗概率图的时间成本和人力成本。

Description

基于医疗概率图的信息分类方法、装置及设备

技术领域

本发明实施例涉及智能医疗技术领域，尤其涉及一种基于医疗概率图的信息分类方法、装置及设备。

背景技术

医疗概率图在信息分类中起重要作用。医疗概率图包括多种类型的医疗实体节点，以及不同类型的医疗实体节点之间的转移概率。在构建概率图的过程中，一个关键的步骤就是确定两个节点间的转移概率。

目前，通常采用的方式是人工标注转移概率，具体的，医学专业人员根据自身的学习积累或临床经验确定两个实体节点之间的转移概率值。

然而，上述方式受限于标注人员的专业水平，无法保证概率标注的准确性，使得利用医疗概率图进行信息分类的准确性较低。

发明内容

本发明实施例提供一种基于医疗概率图的信息分类方法、装置及设备，能够保证医疗概率图的转移概率的准确性，从而提高信息分类的准确性。

第一方面，本发明实施例提供一种基于医疗概率图的信息分类方法，包括：

获取症状描述信息，所述症状描述信息包括至少一个描述要素；

根据医疗概率图确定各所述描述要素对应的不同症状类型的概率；其中，所述医疗概率图是根据至少两种概率模型对相同的医疗语料进行处理得到的概率结果确定的；

根据各所述描述要素对应的不同症状类型的概率，确定所述症状描述信息对应的症状类型。

可选的，所述根据各所述描述要素对应的不同症状类型的概率，确定所述症状描述信息对应的症状类型，包括：

针对所述医疗概率图中的每个症状类型，根据各所述描述要素对应所述症状类型的概率，得到各所述描述要素对应所述症状类型的概率之和；

将所述概率之和满足预设条件的症状类型，作为所述症状描述信息对应的症状类型。

可选的，所述根据医疗概率图确定各所述描述要素对应的症状类型的概率之前，所述方法还包括：

对所述医疗语料进行自然语言处理，得到医疗实体，所述医疗实体包括症状类型和描述要素；

通过所述至少两种概率模型分别对所述医疗实体进行处理，得到每种概率模型输出的概率结果，所述概率结果包括各实体对的转移概率，所述实体对的转移概率为描述要素与症状类型之间的转移概率；

根据每种概率模型的权重，以及各所述概率模型针对同一实体对输出的概率结果，构建所述医疗概率图。

可选的，所述根据每种概率模型的权重，以及各所述概率模型针对同一实体对输出的概率结果，构建所述医疗概率图之前，所述方法还包括：

获取测试集，所述测试集包括测试医疗实体和标准概率结果；

通过所述至少两种概率模型分别对所述测试医疗实体进行处理，得到每种概率模型输出的测试概率结果；

针对同一实体对，根据所述标准概率结果和每种概率模型输出的测试概率结果，确定各所述概率模型的权重。

可选的，所述根据所述标准概率结果和每种概率模型输出的测试概率结果，确定各所述概率模型的权重，包括：

根据所述标准概率结果和每种概率模型输出的测试概率结果，确定各所述概率模型对应的准确率；

根据各所述概率模型对应的准确率，确定各所述概率模型的权重，其中，所述准确率与所述权重成正比。

可选的，所述通过所述至少两种概率模型分别对所述医疗实体进行处理，得到每种概率模型输出的概率结果，包括：

若所述概率模型为基于共现频次的概率模型，则根据所述医疗语料获取症状类型与各所述描述要素的共现频次；

针对每个实体对，根据所述实体对中的症状类型与描述要素的共现频次，以及症状类型与各描述要素的共现频次之和，获取所述实体对的转移概率。

若所述概率模型为基于词频和逆文本频率的概率模型，则获取所述实体对中的症状类型与描述要素的共现频次、所述实体对中的症状类型与描述要素的共现频次，以及所述医疗语料的数量；

针对每个实体对，根据所述实体对中的症状类型与描述要素的共现频次、所述实体对中的症状类型与描述要素的共现频次，以及所述医疗语料的数量，获取所述实体对的转移概率。

若所述概率模型为基于信息增益的概率模型，则针对每个实体对，获取所述医疗语料中包括症状类型的第一概率、所述医疗语料中包括描述要素的第二概率、所述医疗语料不包括描述要素的第三概率、所述医疗语料中包括所述描述要素的情况下也包括所述症状类型的第一条件概率、所述医疗语料中不包括描述要素的情况下包括症状类型的第二条件概率；

根据所述第一概率、所述第二概率、所述第三概率、所述第一条件概率和所述第二条件概率，获取所述实体对的转移概率。

若所述概率模型为基于关联程度的概率模型，则针对每个实体对，获取所述医疗语料中同时出现症状类型与描述要素的第一语料的数量、所述医疗语料中不出现症状类型但是出现描述要素的第二语料的数量、所述医疗语料中出现症状类型但是不出现描述要素的第三语料的数量、以及所述医疗语料中既不出现症状类型也不出现描述要素的第四语料的数量：

根据所述第一语料的数量、所述第二语料的数量、所述第三语料的数量、所述第四语料的数量以及所述医疗语料的总数量，获取所述实体对的转移概率。

若所述概率模型为基于互信息的概率模型，则针对每个实体对，获取所述医疗语料中同时出现症状类型与描述要素的第一语料的数量、所述医疗语料中不出现症状类型但是出现描述要素的第二语料的数量、以及所述医疗语料中出现症状类型但是不出现描述要素的第三语料的数量；

根据所述第一语料的数量、所述第二语料的数量、所述第三语料的数量以及所述医疗语料的总数量，获取所述实体对的转移概率。

可选的，所述描述要素的类型包括如下中的至少一种：症状、体征、检验、用药、手术。

第二方面，本发明实施例提供一种基于医疗概率图的信息分类装置，包括：

获取模块，用于获取症状描述信息，所述症状描述信息包括至少一个描述要素；

预测模块，用于根据医疗概率图确定各所述描述要素对应的不同症状类型的概率；其中，所述医疗概率图是根据至少两种概率模型对相同的医疗语料进行处理得到的概率结果确定的；

所述预测模块，还用于根据各所述描述要素对应的不同症状类型的概率，确定所述症状描述信息对应的症状类型。

可选的，所述预测模块具体用于：

可选的，所述装置还包括构建模块，所述构建模块用于：

可选的，所述构建模块还用于：

可选的，所述构建模块具体用于：

第三方面，本发明实施例提供一种基于医疗概率图的信息分类设备，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。

本发明实施例提供的基于医疗概率图的信息分类方法、装置及设备，该方法包括：获取症状描述信息，所述症状描述信息包括至少一个描述要素；根据医疗概率图确定各所述描述要素对应的不同症状类型的概率；其中，所述医疗概率图是根据至少两种概率模型对相同的医疗语料进行处理得到的概率结果确定的；根据各所述描述要素对应的不同症状类型的概率，确定所述症状描述信息对应的症状类型；本实施例中的医疗概率图是根据多个概率模型对相同的医疗语料进行处理得到的，一方面，保证了医疗概率图中各节点之间转移概率的准确性，提高了信息分类的准确率；另一方面，无需医疗人员手工标注，降低了构建医疗概率图的时间成本和人力成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例适用的应用场景示意图；

图2为本发明一实施例提供的基于医疗概率图的信息分类方法的流程示意图；

图3为本发明实施例中的医疗概率图的示意图；

图4为本发明另一实施例提供的医疗概率图的构建方法的流程示意图；

图5为本发明一实施例提供的信息分类装置的结构示意图；

图6为本发明另一实施例提供的信息分类装置的结构示意图；

图7为本发明一实施例提供的信息分类设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前人工智能已经渗透到医疗行业。医疗行业中基于人工智能的信息分类得到越来越多的关注。信息分类可以辅助医疗人员进行医学研究，从而缓解医疗资源紧缺的现状。

信息分类要达到辅助医疗人员的目的，必须保证信息分类的准确率。目前，供机器学习的医疗语料主要包括两种：一种是书籍、参考文献等，另一种是医院中真实的病历。目前信息分类的推理过程主要采用医疗概率图，医疗概率图包括多种类型的医疗实体节点，以及不同节点之间的转移概率。在构建概率图的过程中，如何利用现有的医疗语料确定各个节点之间的转移概率，是构建医疗概率图中的重要环节。

现有技术中，通常采用的方式是人工标注转移概率，具体的，医学专业人员根据自身的学习积累或临床经验确定两个实体节点之间的转移概率值。

然而，上述方式受限于标注人员的专业水平，无法保证概率标注的准确性。即使采用多人矫正的方式能够一定程度保证准确性，但是，由于医疗概率图中的医疗实体的数目庞大，标注量工作量巨大，导致时间成本和人力成本较高。

为了解决上述问题，本发明实施例提供一种基于医疗概率图的信息分类方法。图1为本发明实施例适用的应用场景示意图。如图1所示，将症状描述信息输入信息分类装置中，信息分类装置根据症状描述信息和医疗概率图，确定出症状描述信息的类型。其中的医疗概率图是根据多个概率模型对相同的医疗语料进行处理得到的，一方面，保证了医疗概率图中各节点之间转移概率的准确性，提高了信息分类的准确率；另一方面，无需医疗人员手工标注，降低了构建医疗概率图的时间成本和人力成本。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明一实施例提供的基于医疗概率图的信息分类方法的流程示意图。本实施例的方法可以由信息分类装置执行，该装置可以为软件和/或硬件的形式。

如图2所示，本实施例的方法，包括：

S201：获取症状描述信息，所述症状描述信息包括至少一个描述要素。

其中，症状描述信息是用于描述患病表现的信息。症状描述信息可以是以文本形式输入信息分类装置中，也可以是以语音形式(例如口述信息)输入信息分类装置中，还可以为采用其他形式输入，本实施例对此不作具体限定。症状描述信息还可以是患者的电子病历中的信息，即，将电子病历输入至信息分类装置中。

本实施例中，症状描述信息中包括至少一个描述要素，每个描述要素可用于描述一种患病表现。例如：感冒对应的症状描述信息可以包括3个描述要素，分别为：头疼、发烧、打喷嚏。

其中，本实施例的每个描述要素可以为下述类型中的一种：症状、体征、检验、用药、手术等。不同类型的描述要素可以从不同维度描述患病情况。例如，症状类型的描述要素可以为头疼、流鼻涕等；体征类型的描述要素可以为体温值、血压值等；检验类型的描述要素可以为血常规检查结果、心电图检查结果等；手术类型的描述要素可以为手术类型、手术指征等。需要说明的是，上述对于描述要素的举例仅为示例性说明。

S202：根据医疗概率图确定各所述描述要素对应的不同症状类型的概率；其中，所述医疗概率图是根据至少两种概率模型对相同的医疗语料进行处理得到的概率结果确定的。

S203：根据各所述描述要素对应的不同症状类型的概率，确定所述症状描述信息对应的症状类型。

图3为本发明实施例中的医疗概率图的示意图。如图3所示，医疗概率图中包括至少一个医疗实体，其中，医疗实体包括症状类型和描述要素。示例性的，图3中，肺炎、感冒为症状类型医疗实体，咳嗽、发烧、打喷嚏、流鼻涕为描述要素医疗实体。其中，每个描述要素和每个症状类型组成一个实体对，每个实体对中的描述要素到症状类型具有一个转移概率。如图3所示，发烧到感冒的转移概率为p1，发烧到肺炎的转移概率为p2，咳嗽到感冒的转移概率为p3，咳嗽到肺炎的转移概率为p4，打喷嚏到感冒的转移概率为p5，打喷嚏到肺炎的转移概率为p6，流鼻涕到感冒的转移概率为p7，流鼻涕到肺炎的转移概率为p8。

本实施例中，信息分类装置获取到症状描述信息后，可以根据症状描述信息中的描述要素以及医疗概率图，确定出描述要素到各症状类型的概率。进而，根据描述要素到各症状类型的概率，确定出症状描述信息的类型。示例性的，针对所述医疗概率图中的每个症状类型，根据各所述描述要素对应所述症状类型的概率，得到各所述描述要素对应所述症状类型的概率之和；将所述概率之和满足预设条件的症状类型，作为所述症状描述信息对应的症状类型。例如：将概率之和最大的症状类型，作为症状描述信息对应的症状类型。

示例性的，假设症状描述信息中包括两个描述要素：打喷嚏、咳嗽。根据如图3所示的转移概率图，假设打喷嚏到感冒的转移概率p5＝0.8，打喷嚏到肺炎的转移概率p6＝0.3咳嗽到感冒的转移概率p3＝0.7，咳嗽到肺炎的转移概率p4＝0.2。则可以确定出症状类型为感冒的概率远大于症状类型为肺炎的概率，因此，可以确定出该症状描述信息的类型为感冒。

本实施例中，医疗概率图是根据至少两种概率模型对相同的医疗语料进行处理得到的概率结果确定的。具体的，根据待学习的医疗语料，得到医疗实体，即得到医疗概率图中的各医疗实体。然后针对每个由描述要素和症状类型组成的实体对，采用至少两种概率模型计算实体对的转移概率，并根据各概率模型对应的权重，对多种概率模型得到的转移概率进行加权计算，得到该实体对的转移概率。对医疗概率图中的每个实体对均进行上述计算，得到医疗概率图。

本实施例中的医疗概率图是采用至少两种不同的概率模型得到的，与仅采用一种概率模型相比，或者，与现有技术相比，能够保证各实体对的转移概率的准确性。进一步的，通过至少两种概率模型得到转移概率，避免了人工标注过程，降低了构建医疗概率图的时间成本和人力成本。

本实施例提供的基于医疗概率图的信息分类方法，该方法包括：获取症状描述信息，所述症状描述信息包括至少一个描述要素；根据医疗概率图确定各所述描述要素对应的不同症状类型的概率；其中，所述医疗概率图是根据至少两种概率模型对相同的医疗语料进行处理得到的概率结果确定的；根据各所述描述要素对应的不同症状类型的概率，确定所述症状描述信息对应的症状类型；本实施例中的医疗概率图是根据多个概率模型对相同的医疗语料进行处理得到的，一方面，保证了医疗概率图中各节点之间转移概率的准确性，提高了信息分类的准确率；另一方面，无需医疗人员手工标注，降低了构建医疗概率图的时间成本和人力成本。

下面结合一个具体的实施例详细描述医疗概率图的构建过程。

图4为本发明另一实施例提供的医疗概率图的构建方法的流程示意图。本实施例的执行主体可以是信息分类设备，还可以是独立于信息分类设备的构建设备。当本实施例由构建设备执行时，构建设备根据如图4所示的实施例构建得到医疗概率图后，将医疗概率图设置于信息分类设备中，供信息分类过程使用。

如图4所示，本实施例的医疗概率图的构建方法，包括：

S401：对所述医疗语料进行自然语言处理，得到医疗实体，所述医疗实体包括症状类型和描述要素。

其中，医疗语料可以是医疗领域的任意文本语料，包括但不限于：医疗实体词典、医疗实体词典的相似词、电子病历中的文本、医疗文献中的文本、医疗教科书中的文本等。

具体的，对每个医疗语料进行自然语言处理(Natural Language Processing，NLP)，得到该医疗语料中的医疗实体。将所有医疗语料解析得到的医疗实体进行汇总，去掉重复的医疗实体，得到用于构建医疗概率图的各医疗实体。

其中，医疗实体中包括症状类型和描述要素。本实施例中，将除症状类型对应的医疗实体之外的其他医疗实体称为描述要素，例如：症状、体征、检验、用药、手术等。

S402：通过所述至少两种概率模型分别对所述医疗实体进行处理，得到每种概率模型输出的概率结果，所述概率结果包括各实体对的转移概率，所述实体对的转移概率为描述要素与症状类型之间的转移概率。

本实施例中，通过S401得到医疗实体后，这些医疗实体作为医疗概率图中的节点。其中，每个症状类型节点和每个描述要素节点组成一个实体对。针对每个实体对，计算描述要素与症状类型的转移概率，得到每个实体对的转移概率。

具体的，在计算每个实体对的转移概率时，本实施例中是采用多种概率模型进行计算，分别得到每种概率模型输出的概率结果。其中，本实施例中可采用的概率模型包括但不限于如下：基于共现频次的概率模型、基于词频和逆文本频率的概率模型、基于信息增益的概率模型、基于关联程度的概率模型、基于互信息的概率模型等。

可以理解的，针对上述的每个概率模型，计算实体对的转移概率的方法可以有多种，本实施例对此不作赘述。具体可参见后续实施例的描述。

S403：根据每种概率模型的权重，以及各所述概率模型针对同一实体对输出的概率结果，构建所述医疗概率图。

本实施例中，针对每个实体对，得到多个概率模型输出的转移概率之后，根据每种概率模型的权重，对多个概率模型输出的转移概率进行加权计算，得到该实体对对应的转移概率。

一种可能的实施方式中，在对多个概率模型输出的转移概率进行加权计算之前，还可以对各个模型输出的转移概率进行归一化处理，以消除不同概率模型输出的转移概率取值范围不同的影响。

一种可能的实施方式中，根据多个概率模型的准确率确定各个概率模型的权重。示例性的，某个概率模型的准确率越高，则该概率模型的权重越高；某个概率模型的准确率越低，则该概率模型的权重越低。

具体的，确定各概率模型的准确率时，可以利用测试集数据进行测试，得到概率模型的准确率。一种可选的实施方式中，获取测试集，所述测试集包括测试医疗实体和标准概率结果；通过所述至少两种概率模型分别对所述测试医疗实体进行处理，得到每种概率模型输出的测试概率结果；针对同一实体对，根据所述标准概率结果和每种概率模型输出的测试概率结果，确定各所述概率模型对应的准确率；根据各所述概率模型对应的准确率，确定各所述概率模型的权重，其中，所述准确率与所述权重成正比。

其中，测试集可以是用于进行信息分类的测试数据集。测试集中的每条数据包括描述要素和描述要素对应的症状类型。

本实施例中的医疗概率图的构建过程中，根据多个概率模型对相同的医疗语料进行处理构建得到医疗概率图，一方面，与现有技术相比，或者与仅采用一种概率模型相比，保证了医疗概率图中各实体对的转移概率的准确性，提高了信息分类的准确率；另一方面，无需医疗人员手工标注，降低了构建医疗概率图的时间成本和人力成本。

下面结合一个具体的实施例详细描述每个实体对的转移概率的计算过程。本实施例采用8种概率模型进行计算。为了描述方面，本实施例中将实体对记录为<症状类型i，描述要素j>，该实体对的转移概率是指描述要素j与症状类型i的转移概率。

第一种概率模型为基于共现频次的概率模型。

具体的，根据所述医疗获取症状类型与各所述描述要素的共现频次。然后针对每个实体对<症状类型i，描述要素j>，根据所述实体对中的症状类型i与描述要素j的共现频次，以及症状类型i与各描述要素的共现频次之和，获取所述实体对的转移概率。

其中，共现是指症状类型i与描述要素j是否在同一个语料中出现。示例性的，若实体对<症状类型i，描述要素j>在一个病例中共同出现，或者在一个问答对中共同出现，或者，在一个文字段落中共同出现，则表明症状类型i与描述要素j存在联系。假设实体对<症状类型i，描述要素j>在所有语料中的共现频次的统计结果为：

症状类型i与描述要素1的共现频次为n_i1；

症状类型i与描述要素2的共现频次为n_i2；

症状类型i与描述要素3的共现频次为n_i3；

……

则实体对<症状类型i，描述要素j>的转移概率P₁为：

其中，n_ij为症状类型i与描述要素j的共现频次。

可以理解的，实体对的转移概率的要至少兼顾到关联强度和可区分度两个方面。基于共现频率的概率模型考虑描述要素与症状类型的关联强度。除了共现频率之外，本实施例中还引入了另外7种概率模型来进行转移概率的计算，每个概率模型各有侧重，最后再进行加权平均，就能够融合各种概率模型的长处，提高转移概率的准确性。下面分别进行介绍。

第二种概率模型为基于词频和逆文本频率的概率模型。

具体的，获取所述实体对中的症状类型与描述要素的共现频次、所述实体对中的症状类型与描述要素的共现频次，以及所述医疗语料的数量；针对每个实体对，根据所述实体对中的症状类型与描述要素的共现频次、所述实体对中的症状类型与描述要素的共现频次，以及所述医疗语料的数量，获取所述实体对的转移概率。

第二种概率模型的主要思想为，每个描述要素到症状类型的转移概率与该描述要素在医疗语料中出现的频率成正比，与所述医疗语料中出现的该描述要素的语料的数目成反比。第二种概率模型又可以称为TF-IDF概率模型。其中IDF反映了一个实体对在所有医疗语料中出现的频率。如果一个实体对在很多语料中均出现，则它的IDF值应该很低，表明其对信息分类的贡献很低，鉴别意义不高。TF反映了一个实体对在医疗语料中共现的概率，一个实体对的共现概率越高，说明两者共现的情况越常见，则该实体对的转移概率越大。第二中概率模型TF-IDF相当于调和了词频与逆文本频率，两者兼顾。

实体对<症状类型i，描述要素j>转移概率P₂为：

其中，tf_pair为症状类型i与描述要素j在所有医疗语料中的共现概率，N为所述医疗语料的数量，n_pair为症状类型i与描述要素j在所有医疗语料中的共现频次。

一种可能的实施方式中，根据症状类型i与描述要素j的共现频次，以及症状类型i与各描述要素的共现频次之和，获取症状类型i与描述要素j的共现概率，即tf_pair的计算方式与第一种概率模型中P₁的计算方式相同。

第三种概率模型是第二种概率模型的变形，第三种概率模型可以称为TFC概率模型，与第二种概率模型的主要思想一致。具体变形方式为，对第二种概率模型中的TF进行归一化处理。

即，实体对<症状类型i，描述要素j>转移概率P₃为：

第四种概率模型是第二种概率模型的变形，第四种概率模型可以称为ITC概率模型，与第二种概率模型的主要思想一致。具体变形方式为，将TF用其对数表示。

即，实体对<症状类型i，描述要素j>转移概率P4为：

第五种概率模型也是第二种概率模型的变形。第五种概率模型可以称为TF-IWF概率模型，与第二种概率模型的主要思想一致。具体变形方式为，用逆文本频率的倒数的对数值IWF来代替IDF，并且用IWF的平方来对逆文本频率进行倚重。

实体对<症状类型i，描述要素j>转移概率P₅为：

第六种概率模型是基于信息增益的概率模型。

具体的，针对每个实体对，获取所述医疗语料中包括症状类型的第一概率、所述医疗语料中包括描述要素的第二概率、所述医疗语料不包括描述要素的第三概率、所述医疗语料中包括所述描述要素的情况下也包括所述症状类型的第一条件概率、所述医疗语料中不包括描述要素的情况下包括症状类型的第二条件概率。

该概率模型的主要思想是：在计算某个实体对的转移概率时，考虑有该描述要素或没有该描述要素时，为症状类型推理所能提供的信息增益的差值。

实体对<症状类型i，描述要素j>转移概率P₆为：

其中，Entropy(S)为不考虑描述要素时的熵，ExpectedEntropy(S)为考虑该描述要素时的熵；P(D)为所述医疗语料中包括症状类型的第一概率，P(S)所述医疗语料中包括描述要素的第二概率，P(D|S)所为所述医疗语料中包括所述描述要素的情况下也包括所述症状类型的第一条件概率，为所述医疗语料不包括描述要素的第三概率，为所述医疗语料中不包括描述要素的情况下包括症状类型的第二条件概率。

第七种概率模型为基于关联程度的概率模型。第七种概率模型也可以称为CHI概率模型。第七种概率模型的主要思想是衡量描述要素与症状类型的相关联程度。具体的，分别计算每个描述要素对于每个症状类型的CHI值，若某描述要素对于某症状类型的关联度越高，则说明该描述要素与该症状类型之间的相关性越大，反之则越小。

具体的，针对每个实体对，获取所述医疗语料中同时出现症状类型与描述要素的第一语料的数量、所述医疗语料中不出现症状类型但是出现描述要素的第二语料的数量、所述医疗语料中出现症状类型但是不出现描述要素的第三语料的数量、以及所述医疗语料中既不出现症状类型也不出现描述要素的第四语料的数量；根据所述第一语料的数量、所述第二语料的数量、所述第三语料的数量、所述第四语料的数量以及所述医疗语料的总数量，获取所述实体对的转移概率。

下面结合表1进行举例说明。表1示例的是症状类型与描述要素之间的CHI的统计表。

表1

	症状类型i	非症状类型i
			描述要素j	A	B
非描述要素j	C	D

其中，A为所述医疗语料中同时出现症状类型i与描述要素j的语料的数量，B为所述医疗语料中不出现症状类型i但是出现描述要素j的语料的数量，C为所述医疗语料中出现症状类型i但是不出现描述要素j的语料的数量，D为所述医疗语料中既不出现症状类型i也不出现描述要素j的语料的数量。

实体对<症状类型i，描述要素j>转移概率P₇为：

第八种概率模型为基于互信息的概率模型，也可以称为MI概率模型。具体的，针对每个实体对，获取所述医疗语料中同时出现症状类型与描述要素的第一语料的数量、所述医疗语料中不出现症状类型但是出现描述要素的第二语料的数量、以及所述医疗语料中出现症状类型但是不出现描述要素的第三语料的数量；根据所述第一语料的数量、所述第二语料的数量、所述第三语料的数量以及所述医疗语料的总数量，获取所述实体对的转移概率。

依旧结合表1进行举例说明。实体对<症状类型i，描述要素j>转移概率P₈为：

本实施例中，上述8种概率模型对于信息分类皆有不同的侧重和贡献，得到8种概率模型输出的转移概率之后，可以采用加权平均的方式将各概率模型的计算结果进行整合，得到最终的转移概率。

通过采用多种概率模型，消除了单一方法导致的计算结果不准确性，提高了医疗概率图在信息分类中的准确率。另外，采用本实施例的方法构建医疗概率图，在300万的医疗语料数据集上，医疗实体提取完成之后，仅需要大约2个小时的时间即可构建完成，降低了时间成本和人力成本。

图5为本发明一实施例提供的信息分类装置的结构示意图。如图5所示，本实施例的信息分类装置500，包括：获取模块501和预测模块502。

其中，获取模块501，用于获取症状描述信息，所述症状描述信息包括至少一个描述要素；

预测模块502，用于根据医疗概率图确定各所述描述要素对应的不同症状类型的概率；其中，所述医疗概率图是根据至少两种概率模型对相同的医疗语料进行处理得到的概率结果确定的；

所述预测模块502，还用于根据各所述描述要素对应的不同症状类型的概率，确定所述症状描述信息对应的症状类型。

本实施例的信息分类装置，可用于执行如图2所示的方法实施例中的信息分类方法，其实现原理和技术效果类似，此处不再赘述。

图6为本发明另一实施例提供的信息分类装置的结构示意图，在图5所示实施例的基础上，如图6所示，本实施例的信息分类装置，还包括构建模块503。

可选的，所述预测模块502具体用于：

可选的，所述构建模块503用于：

可选的，所述构建模块503还用于：

可选的，所述构建模块503具体用于：

本实施例的信息分类装置，可用于执行上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图7为本发明一实施例提供的信息分类设备的硬件结构示意图。如图7所示，本实施例的信息分类设备700，包括：处理器701以及存储器702；其中，存储器702，用于存储计算机程序；处理器701，用于执行存储器存储的计算机程序，以实现上述实施例中的信息分类方法。具体可以参见前述方法实施例中的相关描述。

可选地，存储器702既可以是独立的，也可以跟处理器701集成在一起。

当所述存储器702是独立于处理器701之外的器件时，所述信息分类设备700还可以包括：总线703，用于连接所述存储器702和处理器701。

本实施例提供的信息分类设备，可用于执行上述任一方法实施例中的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序用于实现如上任一方法实施例中的技术方案。

本发明实施例还提供一种芯片，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行上述任一方法实施例中的技术方案。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本发明附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于医疗概率图的信息分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据各所述描述要素对应的不同症状类型的概率，确定所述症状描述信息对应的症状类型，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据医疗概率图确定各所述描述要素对应的症状类型的概率之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据每种概率模型的权重，以及各所述概率模型针对同一实体对输出的概率结果，构建所述医疗概率图之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述标准概率结果和每种概率模型输出的测试概率结果，确定各所述概率模型的权重，包括：

6.根据权利要求3至5任一项所述的方法，其特征在于，所述通过所述至少两种概率模型分别对所述医疗实体进行处理，得到每种概率模型输出的概率结果，包括：

7.根据权利要求3至5任一项所述的方法，其特征在于，所述通过所述至少两种概率模型分别对所述医疗实体进行处理，得到每种概率模型输出的概率结果，包括：

8.根据权利要求3至5任一项所述的方法，其特征在于，所述通过所述至少两种概率模型分别对所述医疗实体进行处理，得到每种概率模型输出的概率结果，包括：

9.根据权利要求3至5任一项所述的方法，其特征在于，所述通过所述至少两种概率模型分别对所述医疗实体进行处理，得到每种概率模型输出的概率结果，包括：

10.根据权利要求3至5任一项所述的方法，其特征在于，所述通过所述至少两种概率模型分别对所述医疗实体进行处理，得到每种概率模型输出的概率结果，包括：

11.根据权利要求1至5任一项所述的方法，其特征在于，所述描述要素的类型包括如下中的至少一种：症状、体征、检验、用药、手术。

12.一种基于医疗概率图的信息分类装置，其特征在于，包括：

13.根据权利要求12所述的装置，其特征在于，所述预测模块具体用于：

14.根据权利要求12所述的装置，其特征在于，所述装置还包括构建模块，所述构建模块用于：

15.根据权利要求14所述的装置，其特征在于，所述构建模块还用于：

16.根据权利要求15所述的装置，其特征在于，所述构建模块具体用于：

17.根据权利要求14至16任一项所述的装置，其特征在于，所述构建模块具体用于：

18.根据权利要求14至16任一项所述的装置，其特征在于，所述构建模块具体用于：

19.根据权利要求14至16任一项所述的装置，其特征在于，所述构建模块具体用于：

20.根据权利要求14至16任一项所述的装置，其特征在于，所述构建模块具体用于：

21.一种基于医疗概率图的信息分类设备，其特征在于，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行如权利要求1至11任一项所述的方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至11任一项所述的方法。