CN106383853A

CN106383853A - 一种电子病历后结构化以及辅助诊断的实现方法及其***

Info

Publication number: CN106383853A
Application number: CN201610787187.3A
Authority: CN
Inventors: 刘勇; 琚生根; 王俊峰; 苏翀
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2017-02-08

Abstract

本发明涉及一种电子病历后结构化以及辅助诊断的实现方法及其***，使用的是几种距离度量的组合方式：字符串编辑距离指的是某字符变为另外一个字符串最少需要多少次替换，***，删除操作。Jaro‑Winkler距离是衡量两个字符串之间的相似性，用于重复记录的检测。采用汉字字符距离和汉字输入法距离的几何均值作为综合相似度度量来衡量特征文本之间的相似度。特征排名使用TF‑IDF的方法来实现，用以评估特征术语相对于文件集或语料库中文档的重要程度，特征术语的重要性与在该文档中出现的频率成正比，与在语料库中出现的频率成反比。根据生成的特征术语，转换成正例数据集和无标注数据集PU学习的文件格式，经过PU学习，***自动推荐相关的诊断以供临床医务人员参考。

Description

一种电子病历后结构化以及辅助诊断的实现方法及其***

技术领域

本发明涉及一种电子病历结构***及其实现方法，具体涉及一种电子病历后结构化以及辅助诊断的实现方法及其***。

背景技术

传统的电子病历数据是以文字描述的形式记录的，尽管病历的结构已有一定的标准作为依据，但由于相关医学临床领域比较复杂，领域中有各自不同的内容，即便是同样的内容，对应的描述方法也各有不同，因此要较好地生成结构化的电子病历困难重重：通过自然语言处理(Natural Language Processing,NLP)来从普通文本描述中提取结构化的内容是一种方法。还有一个解决方法是通过结构化录入方式来实现病历信息的结构化，全结构化的电子病历***有时并不能完全代表临床医生的真实表达，而且全结构化对使用人员来说要求很高，虽然全结构化能为临床数据分析研究带来一定的便利。这样的方式对病历的标准化要求较高，结构化要有对应的标准医学术语来描述，但是标准医学术语编码***中的概念划分不会如此精细，且标准化带来的的精确性与实际应用中录入的灵活性是矛盾的，虽然国际上已经先后推出解决这个问题的相应标准，例如:SNOMED(The SystematizedNomenclature of Human and Veterinary Medicine)、SNOMED CT、ICD-10(国际疾病分类***)等，但在实际应用中往往需要做出很大调整，而且有关标准的汉化工作也相对滞后，这些都是影响结构化录入中使用标准化医学术语的相关因素，同时这些因素也会对电子病历中相关医学数据的挖掘带来一定影响。目前医院临床医务人员在操作电子病历***的时候，由于客观情况的存在，很难在大范围内使用全结构化的电子病历***。尽管结构化电子病历有很多优点，但是由于其实施起来难度较高，对使用人员的要求很高。相比而言，自由文本输入方式要灵活得多，且便于推广实施和使用。

目前国内主流的电子病历***在设计的时候也考虑到用结构化的方法来实现，但是由于医学的复杂性和多变性，全结构化的电子病历实现难度较高。有些电子病历***经过相应的设计能够支持结构化以及临床决策辅助，但是在实际操作的时候，必须按照电子病历规范要求来输入，输入的时候也必须按照***提供的元素来完成。由于输入相对规范，能够给随后的数据提取和利用带来便利；但前提是结构化模板设计是否能够比较符合病历结构化的要求。结构化模板需要专业领域的人员相互配合，工作量很大，如：结构化护理记录、手术记录等，针对病人***位的不同，设计各种麻醉方式、护理级别等等制作不同的模板，这当中还需要有专业领域的医疗专家级别的人员参与，人员素质和参与的程度对结果的好坏影响很大，而且模板制作很难满足所有复杂的情况。另外，在结构化电子病历中涉及到的医学术语标准化问题目前尚缺乏完整的、统一的、便于使用的且有大量实际应用基础的分类体系和相关标准。

虽然已存在SNOMED、SNOMED CT、ICD-10、ICD-9-CM(国际疾病分类临床修正版)等标准术语集，但由于这些标准术语集基本都是通过外文转译来实现的，因此并非所有标准术语的汉化效果都能让人满意，实际工作中或多或少会带来一些不便。基于上述这些缺点，结构化病历实施的效果并不令人满意，尤其像{身体部位}{常规症状}{数字}{时间单位}这种规范结构，并不是随处可见。据了解，目前多数医院所使用的电子病历***在设计时并没有考虑结构化，即便是所谓的基于XML的机构化电子病历也只是部分地结构化，并不是真正意义上的结构化，只能是部分的结构化，像主诉、既往史、实验室检查等等这些更多是基于自由文本录入的部分，但这部分所包含的信息往往是最具有参考意义的，其中包含的特征元素对于临床研究具有很重要的指导意义。

虽然已有一些文章提到了对电子病历的结构化以及对结构化数据的特征识别，但前提是所使用电子病历***在设计时，就按照标准化的结构设计，制作出满足要求的定制模板，录入的时候是按照结构化方式进行的，术语也是用的相对比较规范的医学标准术语集。遗憾的是，许多电子病历***并未这样设计或者在使用过程中没有能够做到。实际上标准化和录入自由化本来就是矛盾的，若想标准化就势必影响自由度，若想自由化就会产生很多不规范的数据，这就需要对这些大量的不规范的数据进行深入分析，使用特定的技术进行特征术语筛选、提炼、分析，只有处理好每一步中间过程，才能为临床的数据分析开展提供有意义的指导。结构化电子病历的诸多缺点导致国内电子病历结构化的发展并不顺利，所以很多医院还是沿用自由文本输入的电子病历***，这样的电子病历只是一个纸质数据到电子数据的转录过程，不利于深层次的数据分析。很多电子病历***在输入过程中没有完善的标准可以遵循，也没有统一的规范，所以对于以后的数据交换、数据整合、数据分析来说都是一个潜在的障碍。但要想一蹴而就，实现所有数据的标准化也是不切实际的，如何在现有的非结构、非标准数据上做到数据的结构化、标准化这就是一个比较有意义的事情。只有结构化后，才能根据结构化的相关信息进一步的提取需要的数据，并对提取的数据进行分析，这样对临床医学相关研究活动的顺利开展提供应有的帮助。

(1)在电子病历中，命名实体识别除了人名识别、地名识别等，还有疾病名称识别、症状名称识别、手术名称识别、药品名称识别等。基于统计学习的方法是使用已标注的语料进行训练，因此语料的标注不需要太多的领域知识。目前，该方法已经广泛应用于自然语言处理领域。常用的统计学习模型包括支持向量机(Support vector machine,SVM)、隐马尔可夫(Hidden Markov model,HMM)、最大熵马尔可夫(Maximum ectropy Markov model,MEMM)、条件随机场(Conditional random field CRF)等。隐马尔可夫模型的这种特性可以用在汉语的自动分词和词性标注上。HMM的方法还用在其他汉语分词方法中，其中由字构词的汉语分词方法就是其中的一种，而且取得了很好的效果，由字构词的方法是N.Xue等人提出，它的主要思想是将分词过程看作字的分类问题，以往的方法都是先建立一个词典，分词的过程实际上就是通过查字典来进行分词，但是由字构词则不同，它把每个汉字构成的词都可以对应一个所处的位置(词位)。一般来说可以描述为：词首(B)、词中(I)、词尾(E)、单独成词(S)。条件随机场模型是在隐马尔可夫和最大熵模型的基础上，提出的用于标注和切分有序数据的条件概率模型，它是一种判别式概率无向图学习模型。CRF现已成功应用于自然语言处理(Natural Language Processing,NLP)、生物信息学及网络智能等领域。(2)通过实体识别出来的特征术语，有的意思相似或相近，甚至意思完全一样，只是因为操作人员输入了不规范术语造成的。例如冠状动脉支架置入术和冠状动脉支架植入术，实际上指代同一个意思。由于输入不规范，导致***提取出两个不同的特征术语。因此，通过计算特征术语之间的相似程度来规范化特征。

发明内容

为解决上述现有技术中的不足，本发明的目的是提供一种电子病历后结构化以及辅助诊断的实现方法及其***，通过结构化录入方式来实现病历信息的结构化。

本发明的目的是采用下述技术方案实现的：

本发明提供一种电子病历后结构化以及辅助诊断的实现方法，其改进之处在于，所述实现方法包括下述步骤：

(1)电子病历文本结构化处理；

S11：建立医学词典；

S12：建立医学语料库；

S13：医学特征术语处理；

(2)辅助诊断管理；

S21：确定特征术语集以及电子病历文档构成的特征词频；

S22：对特征词频进行PU训练并进行PU学习；

S23：得出辅助诊断结果。

进一步地，所述步骤S11中，所述医学词典包括：

标准医学词典，包括：全世界通用的是第10次修订本《疾病和有关健康问题的国际统计分类》ICD-10、国际疾病分类：手术与操作第9版临床修订本ICD-9-CM、医学***命名法－临床术语SNOMED CT的数据作为标准；

医学临床应用词典，包括：内部词典以及同义词典，所述内部词典包括临床症状词典和检查术语的其他相关词典；

所述同义词典包括：非规范化特征术语到对规范化特征术语的映射、错误用词到规范化特征术语的映射和唯一标准术语到多个标准术语的映射。

进一步地，所述步骤S12中，建立医学语料库包括下述步骤：

S121：从电子病历数据库中提取电子病历文档；

S122：对电子病历文档进行词性标注和词位标注；

S123：对词性标注和词位标注后的文档进行数据整合；

S124：制作特征模板，由CRF算法训练形成特征模板；

S125：形成特征数据，并进行CRF算法的效果评估；

S126：最终形成医学语料库。

进一步地，所述步骤S122中，所述词性标注指的是对提取的电子病历文档进行预处理，获得电子病历文档中文本的词性，并结合词位标注，转换成条件随机场CRF格式，并用条件随机场CRF算法进行特征提取；通过人工方式对自动标注后的电子病历文档进行核对；

所述词位标注，使用标准医学词典增加对电子病历文档中文本的命中概率，使用逆向最大匹配算法(逆向最大匹配法从被处理文档的末端开始匹配扫描，每次取最末端的2i个字符(i字字串)作为匹配字段，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配)，医学术语并依据词首B、词中I和词尾E进行自动标注；

所述步骤S124中进行CRF算法训练，若训练过程：％CRF_test-m model test.data>output.txt，训练的结果在output.txt里；评估待预测标签与预测标签的对比；

output.txt在CRF算法中输出中空格为TAB键，全部替换为真正空格键；conlleval.pl识别的是空格键；

所述步骤S125中，CRF算法的效果评估的评估标准为：

TP，True Positive：被模型预测为正的正样本；

FP，False Positive：被模型预测为正的负样本；

FN，False Negative：被模型预测为负的正样本；

TN，True Negative：被模型预测为负的负样本；

精确度:P＝TP/(TP+FP)；

召回率：R＝TP/(TP+FN)，即真正率；

F1，综合分类率：查准率和查全率的调和平均值,等于P,R两个数小的那个:F＝2*P*R/(P+R)。

进一步地，所述步骤S13中，医学特征术语处理包括下述步骤：

S131：经过CRF算法的处理的电子病历文档，得到文本文件，所述文本文件里面标注测试集数据中每个字在文本中的位置表示：词首B、词中I和词尾E，通过相应程序获取特征集合，在所述特征集合中部分特征词中除了有一些是词典中原有的词，有一些并不是相关词典里面原有的特征术语，是CRF通过人工标注的特征模板，进行数据训练后获取的特征词，即所谓的未登录词；

S132：特征提取后得到特征术语集合，里面包含规范的特征术语和不规范的特征术语，结合非规范化特征术语到规范化特征术语映射的同义词典，将不规范的特征术语与同义词典中非规范特征术语进行相似度比较，经过比较后的得到相似度排名且相似度值按照从大到小的顺序排列；

S133：将相似度的阈值初步设为相似度大于或等于50％，将满足阈值条件的非规范特征术语以及对应的规范特征术语作为候选特征术语推荐给操作人员进行参考，由操作人员确定非规范特征术语对应的规范特征术语，作为最终的规范特征术语；阈值的大小由人工自由设置。

进一步地，所述步骤S132中，将特征术语出现在所有电子病历文档中的权重(使用TF-IDF方法来计算)累加起来，最后求出每个特征术语在所有电子病历文档中的均值，然后从大到小排名；

所述步骤S133中，采用特征文本相似度度量来计算相应特征术语集合中特征术语的相似度，最后取(汉字字符距离+拼音距离+五笔距离)的几何均值＝综合相似度公式计算；

在汉字字符距离、拼音距离、五笔距离中分别使用字符串相似(Jaro-Winkler)距离+字符串编辑距离，两种距离来计算相似度，最后取两种距离的平均值作为两种相似度的距离度量。

进一步地，所述步骤S22包括：所述特征词频为由正例文档数据集和未标注文档数据集组成的测试数据集；从正例文档数据集和未标注文档数据集中学习，使用集合P和U学习框架区分出测试数据集中的正例文档和反例文档，即PU学习，其中P代表正例文档数据集合， U代表反例文档组成的未标注数据集合；在不进行反例文档标注的情况下，学习得到一个分类器，用所述分类器对未标注文档数据集进行标注，获得所需要的文档。

进一步地，所述步骤S22中，将明确诊断为确定疾病的病历数据标识出来形成正例文档数据集，结合未标注的病历数据即未标注文档数据集形成训练集进行学习，利用PU学习框架得到的分类器对今后的电子病历文档进行标注，达到辅助诊断的目的。

本发明还包括一种电子病历后结构化以及辅助诊断***，其改进之处在于，所述***包括：

医学词典管理模块：用于对标准词典管理和医学临床应用词典管理；所述医学临床应用词典，包括：内部词典以及同义词典，所述内部词典包括临床症状词典和检查术语的其他相关词典；所述同义词典包括：非规范化特征术语到对规范化特征术语的映射、错误用词到规范化特征术语的映射和唯一标准术语到多个标准术语的映射；

医学语料库管理模块：用于对电子病历文档数据提取、词性标注和词位标注；以及制作特征模板、特征标注和特征提取；

医学特征术语处理：用于对特征术语的规范化管理；

辅助诊断管理模块：用于PU学习框架管理、PU学习训练及测试管理以及PU学习的辅助诊断管理。

为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

与最接近的现有技术相比，本发明提供的技术方案具有的优异效果是：

本发明通过计算特征术语之间的相似程度来规范化特征。本发明度量特征文本相似度方法使用的是几种距离度量的组合方式：Jaro-Winkler(温克勒)距离是衡量两个字符串之间的相似性，它是Jaro距离度量的变体，用于重复记录的检测。字符串编辑距离即字符串编辑距离指的是某字符变为另外一个字符串最少需要多少次替换，***，删除操作。采用(汉字字符距离+拼音距离+五笔距离)的几何均值作为最后的综合相似度度量。特征排名使用TF-IDF(Term frequency inverse document frequency)的方法来实现的，TF-IDF是一种统计方法，用以评估特征术语相对于文件集或语料库中的一个文档的重要程度，特征术语的重要性与它在该文档中出现的次数成正比，与它在语料库中出现的频率成反比。根据生成的特征术语，转换成PU(正例数据集和无标注数据集中学习)学习的文件格式，经过PU学习，***自动推荐相关的诊断以供临床医务人员参考。

为了上述以及相关的目的，一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面，并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显，所公开的实施例是要包括所有这些方面以及它们的等同。

附图说明

图1是本发明提供的第一优选技术方案的电子病历后结构化以及辅助诊断***的结构框图；

图2是本发明提供的医学词典结构图；

图3是本发明提供的多标准术语合成示意图；

图4是本发明提供的医学领域语料库建立流程的示意图；

图5是本发明提供的条件随机场CRF算法格式的示意图；

图6是本发明提供的语料词位标注的流程图；

图7是本发明提供的CRF训练文件格式由字构词的示意图；

图8是本发明提供的特征模板1和特征模板2的示意图；

图9是本发明提供的特征术语处理流程的示意图；

图10是本发明提供的非规范特征术语标注的示意图；

图11是本发明提供的辅助诊断流程图；

图12是本发明提供的第二优选技术方案的不带类标的PU学习示意图；

图13是本发明提供的第二优选技术方案的带类标的PU学习示意图；

图14是本发明提供的第二优选技术方案的正例文档召回率示意图；

图15是本发明提供的第二优选技术方案的正例文档精确率示意图；

图16是本发明提供的第二优选技术方案的F-Value值示意图；

图17是本发明提供的第二优选技术方案的整体准确度示意图；

图18是本发明提供的综合相似度召回率和精确率示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的组件和功能是可选的，并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。在本文中，本发明的这些实施方案可以被单独地或总地用术语“发明”来表示，这仅仅是为了方便，并且如果事实上公开了超过一个的发明，不是要自动地限制该应用的范围为任何单个发明或发明构思。

第一优选技术方案：

如图1所示，为本发明提供的第一优选技术方案的电子病历后结构化以及辅助诊断***的结构框图，本发明提供一种电子病历后结构化以及辅助诊断的实现方法，实现方法包括下述步骤：

(1)电子病历文本结构化处理，包括：

S11：相关医学词典的建立：

由于分词工具一般不是面向医学专业领域的，所带词库不可能包含大多数医学专用术语，本发明为了快速地建立相关词典，使用了ICD10、ICD-9-CM、SNOMED CT的部分数据作为标准，结合医院临床应用词典构成了医学词典。如图2所示。

医学词典包括：

1、医院临床应用词典，包括：内部词典以及同义词典，所述内部词典包括临床症状词典和检查术语的其他相关词典；

(1)内部词典：

临床症状词典：

例如：畏寒、发热、寒战、咳嗽、咳痰、头疼、头痛、头昏、鼻塞、流涕、胸闷、气喘、腹痛、腹胀、尿频、尿急、肌肉酸痛、全身乏力、乏力、呼吸困难、咯血等。

其他相关词典：

各种检查术语，如全胸片、胸部CT等。

(2)同义词词典，包括：非规范化特征术语到对规范化特征术语的映射、错误用词到规范化特征术语的映射和唯一标准术语到多个标准术语的映射。

在书写电子病历的过程中，由于临床医生医学背景的不同，掌握医学相关知识的熟练程度不同，所以临床医生掌握标准医学术语的程度也不同。让每个医生精确掌握所有的标准临床术语不符合实际情况，同时在录入的过程中还会有笔误产生，所以综合考虑同义词词典应该包含以下三个部分，这三个部分可以整合到一个词典中：

非规范化特征术语到规范化特征术语的映射，如表1所示。

表1非规范化特征术语-规范化特征术语映射

非规范化特征术语	规范化特征术语
		克隆病Crohndisease	克罗恩病(节段性回肠炎)
克尼格征	凯尔尼格征
		咳血、咯痰	咯血、咳痰
抗菌素	抗生素
		抗炎治疗	抗感染治疗
颅神经	脑神经
		老花	老视
淋巴腺	***
		老年前期疾呆	阿尔茨海默病
冰冻切片	冷冻切片
		罗音	啰音
原淋巴细胞	淋巴母细胞
		霉菌	真菌

错误用词到规范化特征术语的映射，如表2所示。

表2错误用词-规范化特征术语的映射

错误用词	规范化特征术语
		唐尿病\|糖鸟病	糖尿病
自生免疫	自身免疫

实际使用的时候也考虑将表1和表2合并成一个词典，即同义词典。

还有一种情况就是某一个用语有多种标准表达方法，使用其中任意一个都是规范的，但实际在结构化的过程中，应该参考SNOMED CT的方法建立一个词典，就是唯一标准术语和多个标准术语的映射，也可以把这种情况看作是非规范化特征术语到规范化特征术语的映射的特殊情况，也可以和表1、表2合并到一个同义词典中，如图3所示。

S12：相关医学语料库的建立：建立和维护医学领域的语料库。如图4所示，包括下述步骤：

S121：从电子病历数据库中提取电子病历文档；

S122：对电子病历文档进行词性标注和词位标注；

S123：对词性标注和词位标注后的文档进行数据整合；

S124：制作特征模板，由CRF算法训练形成特征模板；

S125：形成特征数据，并进行CRF算法的效果评估；

S126：最终形成医学语料库。

具体的：

步骤S121中，电子病历文档提取包括：

由于人工标注较大规模的语料库比较困难，本文考虑了人机结合的方式以快速建立一个小规模的语料库，具体步骤如下：

1、通过人工收集了887份电子病历文档，涵盖了心脏科、肿瘤科、呼吸科等科室的病人资料。

2、通过程序自动抽取每个病人的(主诉)、(现病史)、(既往史)、(实验室及器械检查)涉及的文本数据，作为原始处理文件。

3、最后，在此基础上使用相应的工具进行文本的自动标注，再进行人工审核标注的方法，可以快速地构建一个语料库。

步骤S122中：

一、语料的词性标注：

中科院ICTCLAS分词***是基于层次隐马尔可夫模型的中文词法分析***。***功能较多，主要有词性标注、中文分词、命名实体识别、未登录词识别等功能，可以外挂用户词典，在中文信息处理的各个领域中广泛应用。

本发明利用ICTCLAS的相关功能，进行二次开发，用来进行标注前的预处理。该模块设计的目的是快速获取文本的词性，以便下一步使用条件随机场进行特征提取。选取部分效果如下显示：

【主/a诉/v：/w咳嗽/v咳痰/n伴/v呼吸困难/n3/n天/q。/w现/t病史/n：/w3/n天/q前/f患者/n在/p我院/n呼吸/v科/n住院/v期间/f出现/v咳嗽/v、/w咳痰/n，/w自主/v排/v痰/n困难/a，/w需/v辅助/v排/v痰/n，/w为/p大量/m灰色/n粘液/n痰/n，/w未/d见/v痰/n中/f带/v血/n。/w时/n有/v呼吸困难/n伴/vSPO2/x下降/v(/w最低/a70％/m)/w，/w予/v翻身/v拍/v背/v吸/v痰/n后/f好转/v。/w病程/n中/f无/v发热/v、/w无/v恶心/a呕吐/n、 /w无/v血压下降/n、/w无/v咯血/n、/w无/v黑/a便/n。/w胸部/nCT/x示/v(/w2013-6-15/m)/w：/w慢/a支/q改变/v肺气肿/n伴/v感染/v，/w两/m肺纤维化/n，/w两侧/f胸膜/n肥厚/a伴/v胸腔积液/n，/w降/v主动脉/n增/v宽/a。/w】

为了满足CRF++-0.53二次开发对文件的格式的要求，使用计算机程序将ICTCLAS的分词结果转换成指定的格式，如图5所示。

二、语料的词位标注

为了获取CRF学习必要训练语料，须对文档中的所有字进行词位标注，但显然通过人工标注的方式效率较低，考虑用计算机快速标注方式解决。标注的时候需要用到相关医学领域的标准词典，***将ICD10、ICD-9-CM、SNOMED、SNOMED CT、同义词词典等的术语增加到字典中，以增加分词的命中效率。诊断、手术、检查的相关医学术语长度一般比较长，使用逆向最大匹配算法并依据词首(B)、词中(I)、词尾(E)，进行自动标注，由于词典不可能包含所有的标准医学术语，所以在进行词典匹配后，由人工对计算机自动标注后的语料库进行核对，如图6所示。由字构词的结果，对应的CRF训练文件格式如图7所示。

步骤S124中，本发明提供的特征模板1和特征模板2如图8所示。

步骤S125中，CRF算法的效果评估包括：

若训练过程：％CRF_test-m model test.data>output.txt

训练的结果在output.txt里。评估即待预测标签与预测标签的对比。

conlleval.pl<output.txt

.pl后缀为Perl文件，所以需要安装“实用报表提取语言”(Practical Extractionand Report Language，Perl)

注意：output.txt在CRF++输出中空格为TAB键，需要全部替换为真正空格键。conlleval.pl识别的是空格键。

命令集输出特征模板1的评估结果和特征模板2的评估结果对比，如表3所示。

表3模板对比

评价标准：TP(True Positive)：被模型预测为正的正样本；

FP(False Positive)：被模型预测为正的负样本；

FN(False Negative)：被模型预测为负的正样本；

TN(True Negative)：被模型预测为负的负样本；

精确度(Precision):P＝TP/(TP+FP)；

召回率(Recall):R＝TP/(TP+FN)，即真正率；

F1(综合分类率)：查准率和查全率的调和平均值,更接近于P,R两个数较小的那个:F＝2*P*R/(P+R)；

结论：是特征模板2的效果更好，原因是特征模板2可以获取更多的有效特征。

步骤S13的特征术语的处理：对处理后生成的特征术语进行进一步处理，以便获取符合PU学习要求的特征术语。如图9所示，包括下述步骤：

S131：经过CRF算法的处理，会得到一个文本文件，该文件里面标注了测试集数据中每个字在文本中的位置表示：词首(B)、词中(M)、词尾(E)，通过相应的程序获取一个特征集合，在这个特征集合里有些特征词并不是相关词典里面原有的特征术语，是CRF算法通过人工标注的特征模板，进行数据训练后获取的特征词，也就是所谓的未登录词。

S132:特征提取后会得到一个特征术语集合，里面既包含规范的特征术语，也可能包含了不规范的特征术语，这时就需要结合如表1所示的同义词典，将这些特征术语与同义词典中“非规范特征术语”这一项进行相似度比较，经过比较后会有一个相似度排名且相似度值按照从大到小的顺序排列。

S133:由于同义词典刚开始没有现成的标准数据集可以参考，为了从无到有建立一个同义词典，需要将相似度的阈值调的低些，初步设为相似度只要大于或等于50％的就将满足阈值条件的“非规范特征术语”以及对应的“规范特征术语”作为候选特征术语推荐给操作人员进行参考，由人工确定选择哪一个非规范特征术语对应的规范术语作为最终的规范术语。

表4非规范术语-规范术语映射

非规范化特征术语	规范化特征术语
		唐尿病\|糖鸟病	糖尿病

随着同义词典的数据集合中的特征术语越来越多，这个时候阈值可以调的高些，这样做的好处是，只有当相似度高于某一阈值的特征术语对应的特征术语才能显示在候选特征术语列表中供操作人员参考，如果特征术语经过相似度比较没有相应的候选特征术语出现在列表中可以选择，这时候可以通过人工确认的方式，将该特征术语修改成指定的规范特征术语。注：阈值的大小可以由***来人工自由设置，这样比较灵活。

如果录入“唐尿病”，这个词就是一个典型的输入不规范导致的词，由表4可知“唐尿病”对应的候选非规范特征术语是“唐尿病”，根据这个候选非规范化特征术语可以找到“糖尿病”，这才是最终的规范特征术语，如表5所示：

表5规范前的特征术语

喘息	咳痰
		发热	咯血
乏力	气喘
		肺部感染	全胸片
肝炎	胸片
		感染	糖尿病
高血压	唐尿病
		冠状动脉支架置入术	畏寒
冠状动脉支架植入术	心房颤动
		冠心病	胸部CT
寒战	胸闷
		咳嗽	胸痛
白细胞	WBC

如表5中所示，特征术语“唐尿病”对应于同义词词典(表4)中非规范特征术语为“唐尿病”和“糖鸟病”这一条目。由此映射关系可提取出对应的规范化特征术语“糖尿病”。这样便可得知“唐尿病”和“糖尿病”不同，则将非规范特征术语“唐尿病”用醒目的颜色标注出来，提示临床医生修正。如图10所示。

具体的：

步骤S133中，特征术语的相似度处理包括：

根据抽取出来的特征术语集合，检测其中每一个特征术语对应的同义词典中不规范特征术语进行相似度对比，具体的方法要用到特征文本相似度度量来计算相应特征的相似度。根据文章中所述，最后取(汉字字符距离+拼音距离+五笔距离)的几何均值＝综合相似度，虽然相似度的算法相类似，由于综合考虑了实际情况下的特征词有相当一部分是输入错误造成的，其中就包括了谐音(同音、近音)、相似汉字(比如偏旁等形近字)的错误，这时候这种综合相似度就能在提高相似重复检测算法查全率的同时也能够获得较高的查准率。如图18所示：

在汉字字符距离、拼音距离、五笔距离三种方法中分别使用Jaro-Winkler距离+字符串编辑距离两种距离来计算相似度，最后取两种距离的平均值作为两种相似度的距离度量。如表6所示：

表6三种相似度对比

说明这两个特征术语很相近，可以考虑只用其中一个规范术语来表示。通过这种方法也能找出日常使用中的容易出现的针对标准术语的同义词词组，可以考虑添加到同义词典中来丰富词典的词汇量。

规范后的特征术语如下表7所示：

表7规范后的特征术语

喘息	咳痰
		发热	咯血
乏力	气喘
		肺部感染	全胸片
肝炎
		感染	糖尿病
高血压
		冠状动脉支架置入术	畏寒
	心房颤动
		冠心病	胸部CT
寒战	胸闷
		咳嗽	胸痛
白细胞

特征术语排名：经过前面的处理，所提取的特征术语有很多。然而，并不是所有提取的特征都有意义，因此，可以考虑通过TF-IDF的方式来对特征进行排名并筛选出关键特征。因为不是每篇文章都会出现所有的特征词，所以为了获得关键特征术语的排名，本文考虑把所有关键特征术语出现在所有文档d中的权重累加起来，最后求出每个特征术语在所有文档中的均值，然后从大到小排名。本文中经过CRF++工具共抽取特征术语390个，然后根据计算出来的平均权重进行排名，经过领域专家的确认和筛选，最终获得关键特征术语68个。表8列出前20个特征术语。

表8特征术语排名

第二优选技术方案：

辅助诊断管理：

根据生成的特征术语，转换成PU(正例数据集和无标注数据集中学习)学习的文件格式，经过PU学习，***自动推荐相关的诊断以供临床医务人员参考。如图11所示：

S21：确定特征术语集以及电子病历文档构成的特征词频；

S22：对特征词频进行PU训练并进行PU学习；

S23：得出辅助诊断结果。

具体的：

步骤S22：部分督学习的应用：

部分监督学习一般分为两种：第一种学习任务是从已标注和无标注数据中进行学习，又称做LU学习，其中L代表已标注数据集，U代表未标注数据集。第二种学习任务是从正例数据集和无标注数据集中学习，即PU学习，其中P代表正例集合，U代表未标注集合，算法的目的是在不进行反例样本标注的情况下，学到一个精确的分类器。

在实际应用中，需要从一个混合的文档集合中区分出正例文档。而这个混合的文档集合中既包含了正例文档，也包含了其他类别的文档。其中，把感兴趣的类别对应的文档称为正例文档；其余类别对应的文档称为反例文档。所有的正例文档组成了正例集合P；所有的反例文档组成了无标注集合U。

问题定义是要找出一个分类器，通过使用集合P和U能区分出测试集中的正例文档和反例文档。这种解决问题的方法即PU学习。

该学习框架是基于这样一个事实：当今互联网盛行，由于人们在大多数情况下只对其中某类文档或者网页内容有兴趣，而对其他类别文档或者网页内容并不关心。在标注少量感兴趣文档情况下，可以利用PU学习框架得到一个分类器，用它来来对未见文档进行标注，从而获得所需要的文档。例如某些人对***站的网页感兴趣，这是所有其他网页都可以被看做是反例网页。

在医学研究中，也常有这种情况出现，即某种疾病根据某些特征诊断比较难，但这种疾病恰是临床工作者所感兴趣的。将小部分明确诊断为该种疾病的病历数据标识出来形成正例文档集合，然后，结合大量未标注的病历数据即未标注数据集合形成训练集进行学习，利用PU学习框架得到的分类器来对今后的病历资料进行标注，从而达到辅助诊断的目的。

本发明还提供一种电子病历后结构化以及辅助诊断***，包括：

医学特征术语处理：用于对特征术语的规范化管理；

一、实验框架及结果

1、实验所用工具

(1)PU学习工具LPU(http://www.cs.uic.edu/～liub/LPU/lpu.zip)。

(2)支持向量机工具包出下载SVMlight(支持向量机)工具包

(3)实验命令及参数

lpu-s1[option 1]-s2[option 2]-c[option 3]-f[filestem]

-s1:表示PU学习的第一阶段参数选项。

-s2:表示PU学习的第二阶段参数选项。

-c:选择分类器的方式。

在-s1中有三种方法可以选择分别是：间谍法(spy)、罗基奥(roc)、朴素贝叶斯(nb)。在s2中有两种方法可以选择分别是：支持向量机(svm)、期望最大(em)。选择分类器的方式：1表示选择所生成分类器中最好的一个。

2、实验数据集的文件格式

原始的三个数据集分别为：

demo.pos：表示正例文档集合。

demo.unlabel:表示未标注文档集合。

上述两个文件均不包含类标，见图12所示。

demo.test:表示测试数据集。既包含有正例文档也包含反例文档，同时还包

含了类标，正例用+1表示，负例用-1表示，见图13所示。

数据文件中的每行数据格式：类标属性：属性值...属性:属性值。类标取值：+1和-1，分别表示正例文档和反例文档。每一个类标和属性值对之间用空格分隔，每一个属性必须用整数来编号，从1开始编号。每一个属性值必须用整型值，表示各个属性出现在所属文档中的次数。属性值为0的特征将被自动忽略。属性编号必须按照递增的顺序排列，比如5:16:1 7:1 8:1 10:4 11:2 12:3 13:1 14:1 15:1 16:6 17:2 23:1 25:2 29:1。

3、实验数据

(1)、实验数据构成：

本实验共收集有效电子病历750篇，内容涉及呼吸***疾病，经过***的特征抽取，获取有效诊断如下表9所示：

表9有效诊断

抽取的特征属性值如下表10所示：

表10特征属性

全胸片	冠心病	右上肺感染
			胸部CT	肺气肿	肺不张
气喘	心前区疼痛	支气管扩张
			咳嗽	消瘦	恶性胸腔积液
支气管哮喘	畏寒	间质性肺炎
			胸腔积液	呼吸困难	通气功能障碍
流涕	气短	喘鸣
			喘息	发热	阻塞性肺炎
寒战	全身乏力	左上肺感染
			两肺纹理增多	左下肺感染	***肿大
咯血	呼吸衰竭	胆囊结石
			乏力	肺结核	心包积液
胸闷	气胸	喷嚏
			鼻塞	咳痰	液气胸
胸痛	慢性支气管炎	高血压
			头痛	右下肺感染	水肿
急性支气管炎	肌肉酸痛	***钙化
			上呼吸道感染	自发性气胸	胸膜钙化
心悸	慢性支气管炎急性发作	糖尿病
			呕吐	慢性阻塞性肺疾病	体重减轻
恶心	呼吸急促	支气管狭窄
			头昏	下肢水肿	胸膜腔积液
咽痛	肺纤维化

4、实验数据分组

以慢性阻塞性肺疾病为正类，选取151个慢性阻塞性肺疾病病历构成正例文档集合，并生成mzf.pos文件。从剩余文档中再次选择49个慢性阻塞性肺疾病病历和300个其他类型疾病病历构成mzf.unlabel文件。最后，将剩余的50个慢性阻塞性肺疾病病历和200个其他疾病病历构成mzf.test文件。

5、参与实验的分类器的组合：

表11分类器组合

为了确保对不同的应用环境都有适用性，本发明提供的***在实现时，提供多种分类器组合方式。针对不同任务，选择最佳分类器。

6、实验结果及分析：

从图14的正例文档的召回率来看，Roc-Svm的正例文档召回率虽不是最高，但其值也达到了90％，与最高值相差不多。从图15来看，Roc-Svm的正例文档精确率值为82％，接近最高值83％，但综合考虑正例文档的召回率和精确率后，可通过图16看出Roc-Svm正例文档的F-value值达到85.9％，在所有分类器中是最好的。此外，从图17也可以看出Roc-Svm获得了94％的整体准确率指标。由此可知，针对于本实验的数据集而言，Roc-Svm分类器是最优分类器。

这主要由于在PU学习中，未标注集合U通常具有以下特征：

①在未标注集合U中，正例文档所占比例往往较少，因此不会对算法中的反例文档中心向量产生较大影响。

②在未标注集合U中，往往包含有多个不同类别的文档，因此在向量空间中，他们覆盖了一个较大的区域，即相对分散。而正例集合P中文档通常只属于一个类别，是相同类型的。在向量空间中，他们覆盖了一个较小的区域，即相对集中。假设有一个决策边界用于区分正例文档和反例文档。其中，正例文档属于集合P，反例文档属于集合U，决策边界用来保证将正例集合P中的文档与未标注集合U中文档分开。由于集合U中文档较为分散，所以，有很多反例文档被错分为正例文档，这也正是采用Rocchio算法能够高精确率抽取可靠反例文档的原因。因此，在形成可靠的反例文档集合RN以后，可以采用RN和集合P组成训练集来训练支持向量机(SVM)，不断迭代，直到某次迭代中不再有可靠的反例文档被抽出为止。但由于Rocchio算法会将许多反例文档错分为正例文档，因此，正例文档会有很低的精确率，而采用支持向量机(SVM)来分类，将会纠正Rocchio算法的偏置，从而产生更加准确的分类器。这也正是Roc-Svm分类器在本实验中成为最优分类器的原因。

具体实验结果如图14至17所示：

评价标准：TP(True Positive)：被模型预测为正的正样本；FP(False Positive)：被模型预测为正的负样本；FN(False Negative)：被模型预测为负的正样本；TN(TrueNegative)：被模型预测为负的负样本；

精确度(Precision):P＝TP/(TP+FP)；

召回率(Recall):R＝TP/(TP+FN)，即真正率；

准确率(Aaccuracy):分类器对整个样本的判定能力,即将正的判定为正，负的判定为负:A＝(TP+TN)/(TP+FN+FP+TN)。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种电子病历后结构化以及辅助诊断的实现方法，其特征在于，所述实现方法包括下述步骤：

(1)电子病历文本结构化处理；

S11：建立医学词典；

S12：建立医学语料库；

S13：医学特征术语处理；

(2)辅助诊断管理；

S21：确定特征术语集以及电子病历文档构成的特征词频；

S22：对特征词频进行PU训练并进行PU学习；

S23：得出辅助诊断结果。

2.如权利要求1所述的实现方法，其特征在于，所述步骤S11中，所述医学词典包括：

医学临床应用词典，包括：内部词典以及同义词典，所述内部词典包括临床症状词典和检查术语的其他相关词典；所述同义词典包括：非规范化特征术语到对规范化特征术语的映射、错误用词到规范化特征术语的映射和唯一标准术语到多个标准术语的映射。

3.如权利要求1所述的实现方法，其特征在于，所述步骤S12中，建立医学语料库包括下述步骤：

S121：从电子病历数据库中提取电子病历文档；

S122：对电子病历文档进行词性标注和词位标注；

S123：对词性标注和词位标注后的文档进行数据整合；

S124：制作特征模板，由CRF算法训练形成特征模板；

S125：形成特征数据，并进行CRF算法的效果评估；

S126：最终形成医学语料库。

4.如权利要求3所述的实现方法，其特征在于，所述步骤S122中，所述词性标注指的是对提取的电子病历文档进行预处理，获得电子病历文档中文本的词性，并结合词位标注，转换成条件随机场CRF格式，并用条件随机场CRF算法进行特征提取；通过人工方式对自动标注后的电子病历文档进行核对；

所述词位标注，使用标准医学词典增加对电子病历文档中文本的命中概率，使用逆向最大匹配算法，其中，逆向最大匹配法从被处理文档的末端开始匹配扫描，每次取最末端的2i个字符作为匹配字段，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配；医学术语并依据词首B、词中I和词尾E进行自动标注；

所述步骤S125中，CRF算法的效果评估的评估标准为：

TP，True Positive：被模型预测为正的正样本；

FP，False Positive：被模型预测为正的负样本；

FN，False Negative：被模型预测为负的正样本；

TN，True Negative：被模型预测为负的负样本；

精确度:P＝TP/(TP+FP)；

召回率：R＝TP/(TP+FN)，即真正率；

5.如权利要求1所述的实现方法，其特征在于，所述步骤S13中，医学特征术语处理包括下述步骤：

S131：经过CRF算法的处理的电子病历文档，得到文本文件，所述文本文件里面标注测试集数据中每个字在文本中的位置表示：词首B、词中I和词尾E，通过相应程序获取特征集合，在所述特征集合中部分特征词中包含词典中原有的词和词典中未记录的特征术语，是CRF通过人工标注的特征模板，进行数据训练后获取的特征词，即所谓的未登录词；

6.如权利要求5所述的实现方法，其特征在于，所述步骤S132中，使用TF-IDF方法计算将特征术语出现在所有电子病历文档中的权重累加起来，求出每个特征术语在所有电子病历文档中的均值，从大到小排名；

所述步骤S133中，采用特征文本相似度度量来计算相应特征术语集合中特征术语的相似度；取(汉字字符距离+拼音距离+五笔距离)的几何均值＝综合相似度公式计算；

在汉字字符距离、拼音距离、五笔距离中分别使用字符串相似距离+字符串编辑距离，两种距离来计算相似度，最后取两种距离的平均值作为两种相似度的距离度量。

7.如权利要求1所述的实现方法，其特征在于，所述步骤S22包括：所述特征词频为由正例文档数据集和未标注文档数据集组成的测试数据集；从正例文档数据集和未标注文档数据集中学习，使用集合P和U学习框架区分出测试数据集中的正例文档和反例文档，即PU学习，其中P代表正例文档数据集合，U代表反例文档组成的未标注数据集合；在不进行反例文档标注的情况下，学习得到一个分类器，用所述分类器对未标注文档数据集进行标注，获得所需要的文档；

将明确诊断为确定疾病的病历数据标识出来形成正例文档数据集，结合未标注的病历数据即未标注文档数据集形成训练集进行学习，利用PU学习框架得到的分类器对今后的电子病历文档进行标注，达到辅助诊断的目的。

8.一种电子病历后结构化以及辅助诊断***，其特征在于，所述***包括：

医学特征术语处理：用于对特征术语的规范化管理；