CN104268144B

CN104268144B - 一种电子病历查询语句的构造方法

Info

Publication number: CN104268144B
Application number: CN201410394537.0A
Authority: CN
Inventors: 王文斌; 顾君忠
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2014-08-12
Filing date: 2014-08-12
Publication date: 2017-08-29
Anticipated expiration: 2034-08-12
Also published as: CN104268144A

Abstract

本发明公开了一种电子病历查询语句的构造方法，该方法包括电子病历语料预处理，医学术语抽取及筛选，医学术语权重计算，新查询语句构造四步骤；其中：电子病历语料预处理包括分词、词频统计、概率分布参数计算；医学术语抽取及筛选包括分词、医学术语抽取及去掉医学停用词；医学术语权重计算包括泊松分布拟合词分布、医学术语出现概率计算及医学术语自信息计算；新查询构造是将得到的带权重医学术语与原始查询语句，通过线性平滑参数结合，得到新查询语句。本发明应用到一个新的病历集合上，就可以在该病历集合上进行更加有效的查询，提高了电子病历检索的准确度。

Description

一种电子病历查询语句的构造方法

技术领域

本发明涉及信息检索、查询扩展、查询词加权、自然语言处理等技术领域，具体地说是一种利用自信息来度量查询词权重，根据输入的原始查询语句，重新构造带权重的查询语句的方法，用来提高电子病历检索的准确率和召回率。

背景技术

随着医疗***的信息化，电子病历（electronic medical records, 简称EMR）被广泛使用，正在以前所未有的速度增长。病历一般包括病人的临床诊断，以往病史，检查报告，治疗药物等丰富的信息。把这些信息检索出来，进行统计分析，有利于临床医学研究，可以更好地诊断、预防和治疗人类的疾病。显然，使用人工的方法处理这些信息是一件不可能的任务。因此，电子病历检索给信息检索带来了新的挑战。

电子病历的检索，更多的是涉及这样的查询：查询的目标是一个病人群体，附带的查询条件是，这些病人患有的病，使用过的药物，进行过的检查，目前的康复情况等等。病名，治疗药物，检查项目等，都是专门的医学术语。针对这样的查询语句，有必要提出一种新的查询词权重设置方法。

发明内容

本发明的目的是针对现有技术的不足而提供的一种电子病历查询语句的构造方法，该方法利用医学术语抽取方法得到查询语句中的医学术语；随后通过分析整个电子病历集合中这些医学术语的概率分布来得到医学术语的自信息；最后加入平滑参数构造了新的带权重的查询语句。

本发明的目的是这样实现的：

一种电子病历查询语句的构造方法，该方法包括以下具体步骤：

a）、电子病历语料预处理

对电子病历语料文本进行分词，去掉停用词之后，得到所有语料中出现的词；利用公式（1）计算每个词t在每篇病历中的平均出现次数；

（1）

其中，表示词t的平均出现次数，n表示电子病历语料集合的大小，表示词t在第i篇病历中出现的次数；通过计算得到每个词t对应的；

b）、医学术语抽取及筛选

首先，抽取原始查询语句中出现的医学术语；再在抽取出的医学术语中去掉医学停用词，剩下的医学术语的集合记为，其中表示第i个医学术语，每个医学术语有可能由多个词组成；

c）、医学术语权重计算

计算每个医学术语的权重，具体包括：

ⅰ）、计算组成医学术语的词的出现概率；使用泊松分布来拟合词t的概率分布；那么使用公式（2）来计算；

（2）

其中，T表示词t的出现次数，表示词t的平均出现次数，e表示自然常数；

ⅱ）、计算医学术语在电子病历语料中出现的概率；医学术语中每个词的出现是相互独立事件，使用公式（3）计算；

（3）

ⅲ）、计算每个医学术语的权重，使用自信息的定义，即公式（4）计算；

（4）

d）、新查询语句构造

使用原始查询语句、以及对应的构造新的查询语句，具体包括：

ⅰ）、对于原始查询语句，组成原始查询语句的词之间的权重平均分配，得到查询子句1；

ⅱ）、对于医学术语内部，医学术语中每个词的权重平均分配；

ⅲ）、对于医学术语之间，每个医学术语分配到的权重是，得到查询子句2；

ⅳ）、将查询子句1和查询子句2，按照的比例分配权重，得到新查询语句，其中的取值范围是[0, 1]。

本发明提供了一种电子病历查询语句的构造方法，使用医学术语的自信息来度量医学术语的权重，分析了医学术语在整个病历集合中的分布情况，是一种从全局考虑的方法，只要病历集合确定，很容易得到医学术语的分布情况。

本发明应用到一个新的病历集合上，只要先预处理计算出医学术语的分布情况，之后每个查询语句，通过本发明的方法重新构造之后，就可以在该病历集合上进行更加有效的查询，提高了电子病历检索的准确度。

附图说明

图1为本发明流程图；

图2为本发明构造的查询语句实例图；

图3为本发明与原始查询方法查询结果对比图；

图4为本发明查询语句的形式化表达示意图。

具体实施方式

本发明针对电子病历检索时，通过原始查询语句，自动构造新的查询语句，相较原始查询语句的查询效果得到明显提升。

实施例

下面以文本检索会议（Text Retrieval Conference, 简称TREC）的电子病历数据集自带的测试查询语句为例结合附图对本发明作进一步说明。

参阅图1，首先是图1中右侧的电子病历语料的预处理。

在本实施例中，对于每一篇病历，进行以下这些步骤：分词，去掉停用词，统计每个词出现次数。处理完之后，可以得到一个三元组(t, d, k)的集合，该三元组表示词t在病历d中出现的次数为k。根据公式（1）可以计算得到每个词t对应的平均出现次数：

（1）

参阅图1，其次是图1左侧是整个查询语句构造过程。

在本实施例中，对输入的查询语句进行医学术语提取，并且去掉医学停用词。比如：查询语句是“被诊断出患有局限性***癌并且接受过机器人手术治疗的病人”，提取出的医学术语包括“病人”，“诊断”，“治疗”，“局限性***癌”和“机器人手术”，其中“病人”，“诊断”和“治疗”是医学停用词，应该去掉，剩下的医学术语是“局限性***癌”和“机器人手术”。

接下来是计算每个医学术语的权重，本实施例中根据以下三个公式计算；

（2）

（3）

（4）

其中，公式（2）中T表示词t出现的次数，T服从泊松分布，e表示自然常数，由公式（1）计算得到。公式（3）中，t表示组成第i个医学术语的词语。在本实施例中，输入查询语句“被诊断出患有局限性***癌并且接受过机器人手术治疗的病人”，得到医学术语是“局限性***癌”，由“局限性”，“***”和“癌”组成，对应的分别是0.0447、0.0482、0.1280（保留4位小数）；医学术语是“机器人手术”由“机器人”和“手术”组成，对应的分别是0.0006、0.2641（保留4位小数）；那么根据公式（2）（3）（4）计算权重（保留2位小数）：

最后是新查询语句的构造，将原始的查询语句和加权的医学术语进行线性平滑，得到新查询语句的形式化表达如图4所示。其中，#weight和#equal都是形式化的查询语法，#weight表示加权重的查询，#equal是特殊的#weight，表示权重平均分配；是一个线性平滑参数，取值范围是[0, 1]。在本实施例中，取值为0.6。比如，查询语句“被诊断出患有局限性***癌并且接受过机器人手术治疗的病人”，最后得到的查询语句的形式化表达如图2所示。

利用本发明结合数据集的测试数据，按照原始查询和重构的新查询的检索结果进行对比实验。实验一共包含35组查询语句。图3显示的是实验结果的准确率-召回率折线图，虚折线B代表原始查询语句的结果，实折线A代表新查询语句的结果，可以看到A完全在B的右上方，说明新查询语句的查询效果完全好于原始查询语句的查询效果。实验结果表明经过本发明重新构造的查询语句，能够提高查询的准确率和召回率。

Claims

1.一种电子病历查询语句的构造方法，其特征在于该方法包括以下具体步骤：

a)、电子病历语料预处理

对电子病历语料文本进行分词，去掉停用词之后，得到语料中出现的所有词；利用公式(1)计算每个词t在每篇病历中的平均出现次数；

<mrow> <mi>&lambda;</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>k</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中，λ表示词t的平均出现次数，n表示电子病历语料集合的大小，k_i表示词t在第i篇病历中出现的次数；通过计算得到每个词t对应的λ；

b)、医学术语抽取及筛选

首先，抽取原始查询语句中出现的医学术语；再在抽取出的医学术语中去掉医学停用词，剩下的医学术语的集合记为Q_UMLS＝{Q₁，Q₂，...，Q_n}，其中Q_i表示第i个医学术语，每个医学术语有可能由多个词组成；

c)、医学术语权重计算

计算每个医学术语Q_i的权重w_i，具体包括：

i)、计算组成医学术语的词的出现概率p(t)；使用泊松分布来拟合词t的概率分布；那么p(t)使用公式(2)来计算；

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>T</mi> <mo>&GreaterEqual;</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>T</mi> <mo>=</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>&lambda;</mi> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

其中，T表示词t的出现次数，λ表示词t的平均出现次数，e表示自然常数；

ii)、计算医学术语Q_i在电子病历语料中出现的概率p(Q_i)；医学术语Q_i中每个词的出现是相互独立事件，p(Q_i)使用公式(3)计算；

iii)、计算每个医学术语Q_i的权重w_i，使用自信息的定义，即公式(4)计算；

d)、新查询语句构造

使用原始查询语句、Q₁，Q₂，...，Q_n以及对应的w₁，w₂，...，w_n构造新的查询语句，具体包括：

i)、对于原始查询语句，组成原始查询语句的词之间的权重平均分配，得到查询子句1；

ii)、对于医学术语Q_i内部，医学术语Q_i中每个词的权重平均分配；

iii)、对于医学术语Q_i之间，每个医学术语Q_i分配到的权重是得到查询子句2；

iv)、将查询子句1和查询子句2，按照μ∶(1-μ)的比例分配权重，得到新查询语句，其中μ的取值范围是[0，1]。