CN105159917A

CN105159917A - 一种电子病历的非结构化信息转化为结构化的泛化方法

Info

Publication number: CN105159917A
Application number: CN201510429975.0A
Authority: CN
Inventors: 夏小玲; 张盈利
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2015-07-21
Filing date: 2015-07-21
Publication date: 2015-12-16
Anticipated expiration: 2035-07-21
Also published as: CN105159917B

Abstract

本发明涉及一种电子病历的非结构化信息转化为结构化的泛化方法，包括以下步骤：采用样本学习的方法构建初始候选模式库；根据电子病历信息构建关于标本名的医疗词库；根据医疗词库中标本名，把电子病历语句切分成多个子句，其中，每个子句只包含一个标本的信息；采用分词提取工具对子句进行分词，生成子句序列；依据已经构建的初始候选模式库，从所述子句序列中提取新模式；将多个模式泛化成一个模式；根据得到的模式对文本信息进行信息抽取。本发明可以获得更快速、精确的抽取结果。

Description

一种电子病历的非结构化信息转化为结构化的泛化方法

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种电子病历的非结构化信息转化为结构化的泛化方法。

背景技术

随着信息时代数据量的***式增长，临床医疗数据也展现出其容量大、增速快、形式多样和潜在价值高的特点。而在临床医疗领域，以自然语言文本形式存在的非结构化数据占有重要地位。由于自然语言文本没有一个相对统一的结构，文档格式没有具体的限制，书写比较随意，因此对非结构化医疗数据的结构化信息提取变得十分困难，目前针对文本信息抽取常用的方法，主要是基于规则的抽取模型和基于统计的抽取模型两种。

基于统计的抽取模型的特点是信息抽取精度高，但是对于概率模型发训练过程复杂度高，耗时久。而基于规则的抽取模型的特点是抽取过程简单，但抽取结构过分依赖于规则制定或学习的成果。且这两种方法都是针对所有领域的文本信息，而没有考虑到医疗数据的特点，因此这两种方法很难获得快速精确的抽取结果。如何根据电子病历的特点进行信息抽取，特别是对抽取过程的优化，成为医疗数据分析过程中迫切需要解决的问题。

发明内容

本发明所要解决的技术问题是提供一种电子病历的非结构化信息转化为结构化的泛化方法，以获得更快速、精确的抽取结果。

本发明解决其技术问题所采用的技术方案是：提供一种电子病历的非结构化信息转化为结构化的泛化方法，包括以下步骤：

(1)采用样本学习的方法构建初始候选模式库；

(2)根据电子病历信息构建关于标本名的医疗词库；

(3)根据医疗词库中标本名，把电子病历语句切分成多个子句，其中，每个子句只包含一个标本的信息；

(4)采用分词提取工具对子句进行分词，生成子句序列；

(5)依据已经构建的初始候选模式库，从所述子句序列中提取新模式；

(6)将多个模式泛化成一个模式；

(7)根据得到的模式对文本信息进行信息抽取。

所述步骤(5)为：根据子句中的标本名，从初始候选模式库中选择标本名相同的模式，分别计算每一个模式与子句的相似度，取相似度最大值为CMax，对应模式为Pk，若CMax大于设定阈值，且标本名相同，则新模式为Pk；若标本名不同，则根据子句标本名构建与Pk同构的模式；若CMax小于设定阈值，则采用学习方法构建新模式。

所述步骤(5)和步骤(6)之间还包括进行模式优化的步骤，即若从所述步骤(5)产生的新模式来自初始候选模式库，则依据新模式提取子句信息，并与原子句序列比较提取出新模式未提取的词，依据该词在新模式中增加标本属性，标本属性序列与子句序列对应相同，从而优化新模式。

所述步骤(6)具体包括以下子步骤：

(61)对于模式X，把与其相似度大于泛化门限值的模式分为两类，一类是与模式X的标本名属于同一类的模式集P，一类是与模式X的标本名不属于同一类的模式集Q；

(62)对于模式集P中任意模式Y，若X_i＝Y_i(i＝1,2,...,n)，则把X_i放入泛化后模式C，若X_i！＝Y_i，则把X_i|Y_i放入模式C，其中X_i和Y_i分别是模式X和模式Y的指标；若P为空，则C＝X；

(63)对于泛化后模式C，对于模式集Q中任意模式Z，把Ck|Zk放入模式D，其中Ck和Zk分别是模式C和模式Z的标本名；若C_i＝Z_i(i＝1,2,...,n)，则把C_i放入泛化后模式D；若C_i！＝Z_i，则把C_i|Z_i放入模式D，其中C_i和Z_i分别是模式C和模式Z的指标。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明根据电子病历文本信息的典型特征，在生成新模式的基础上，经过多次泛化有效的缩小了模式库，使电子病历信息抽取更快速、更精确。

附图说明

图1是本发明的流程图；

图2是步骤3电子病理文本切分成子句流程图；

图3是步骤7模式泛化流程图；

图4是步骤7泛化模式示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供了一种电子病历的非结构化信息转化为结构化的泛化方法，如图1所示，包括以下步骤：

步骤1、采用样本学习的方法构建初始候选模式库。如：标本名，指标1：[指标值1]，指标2：[指标值2]...，指标n：[指标值n]，特性：[特性值]。其中，标本是指病种，比如肿块、胆囊等；指标是指标本的大小、颜色、质地、周径、长度等有特定描述形式的属性；属性是指对标本没有特定描述形式的属性，且一个模式只设一个属性；

步骤2、根据电子病历信息手动构建关于标本名的医疗词库；

步骤3、根据医疗词库中的标本名，把电子病历语句切分成多个子句，一个子句只包含一个标本的信息，具体步骤见图2所示；

步骤4、采用分词提取工具jcseg对子句进行分词，生成子句序列；

步骤5、依据已经构建的初始候选模式库，从所述子句序列中提取新模式。具体为：根据子句中的标本名，从初始模式库中选择标本名相同的模式，分别计算每一个模式与子句的相似度，取相似度最大值为CMax，对应模式为Pk，若CMax大于设定阈值，且标本名相同，则新模式为Pk；若标本名不同，则根据子句标本名构建与Pk同构的模式；若CMax小于设定阈值，则采用学习方法构建新模式。

步骤6、若从步骤5产生的新模式来自初始模式库，则依据新模式提取子句信息，并与原子句序列比较提取出新模式未提取的词，依据该词在新模式中增加标本属性，标本属性序列与子句序列对应相同，从而优化新模式，具体如下：

1)假设当前子句语句序列为WR＝(r1,r2,r3,...rn)；

2)根据新模式抽取子句信息，生成词序列WS＝(s1,s2,s3,...sj)；

3)若i<j，则转到4)，否者转到6)；

4)若ri＝si，则信息抽取成功，i＝i+1；转到3)；若ri！＝si，转到5)；

5)则在新模式中构建新指标，放在指标i之前，且ri＝r(i+1),转到3)；

6)模式优化完成。

步骤7、模式泛化，即多个模式泛化成一个模式，如图3所示，具体包括：

7.1)对于优化后的模式X，把与其相似度大于泛化门限值C_G的模式分为两类，一类是与模式X的标本名属于同一类的模式集P，一类是与模式X的标本名不属于同一类的模式集Q；

7.2)对于模式集P中任意模式Y，若X_i＝Y_i(i＝1,2,...,n)，则把X_i放入泛化后模式C，若X_i！＝Y_i，则把X_i|Y_i放入模式C，其中X_i和Y_i分别是模式X和模式Y的指标，如图4所示；若P为空，则C＝X；

7.3)对于泛化后模式C，对于模式集Q中任意模式Z，把Ck|Zk放入模式D，其中Ck和Zk分别是模式C和模式Z的标本名；若C_i＝Z_i(i＝1,2,...,n)，则把C_i放入泛化后模式D；若C_i！＝Z_i，则把C_i|Z_i放入模式D，其中C_i和Z_i分别是模式C和模式Z的指标。

步骤8、根据模式，对文本信息进行信息抽取。

Claims

1.一种电子病历的非结构化信息转化为结构化的泛化方法，其特征在于，包括以下步骤：

(1)采用样本学习的方法构建初始候选模式库；

(2)根据电子病历信息构建关于标本名的医疗词库；

(4)采用分词提取工具对子句进行分词，生成子句序列；

(6)将多个模式泛化成一个模式；

(7)根据得到的模式对文本信息进行信息抽取。

2.根据权利要求1所述的电子病历的非结构化信息转化为结构化的泛化方法，其特征在于，所述步骤(5)为：根据子句中的标本名，从初始候选模式库中选择标本名相同的模式，分别计算每一个模式与子句的相似度，取相似度最大值为CMax，对应模式为Pk，若CMax大于设定阈值，且标本名相同，则新模式为Pk；若标本名不同，则根据子句标本名构建与Pk同构的模式；若CMax小于设定阈值，则采用学习方法构建新模式。

3.根据权利要求1所述的电子病历的非结构化信息转化为结构化的泛化方法，其特征在于，所述步骤(5)和步骤(6)之间还包括进行模式优化的步骤，即若从所述步骤(5)产生的新模式来自初始候选模式库，则依据新模式提取子句信息，并与原子句序列比较提取出新模式未提取的词，依据该词在新模式中增加标本属性，标本属性序列与子句序列对应相同，从而优化新模式。

4.根据权利要求1所述的电子病历的非结构化信息转化为结构化的泛化方法，其特征在于，所述步骤(6)具体包括以下子步骤：