CN106682411B

CN106682411B - 一种将体检诊断数据转化为疾病标签的方法

Info

Publication number: CN106682411B
Application number: CN201611198280.7A
Authority: CN
Inventors: 吴健; 周立水; 顾盼; 邱奇波; 邓水光; 李莹; 尹建伟; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-12-22
Filing date: 2016-12-22
Publication date: 2019-04-16
Anticipated expiration: 2036-12-22
Also published as: CN106682411A

Abstract

本发明公开了一种将体检诊断数据转化为疾病标签的方法，包括：(1)对体检诊断数据进行文本分词和新词发现处理，得到词序列；(2)在词序列中，提取所需要的疾病词汇，得到疾病名称；(3)对疾病名称中的同义词进行归并，得到归并的疾病名称；(4)对疾病名称进行聚类，建立疾病类目树；(5)根据归并的疾病名称和疾病类目树进行疾病标记，得到疾病标签。该方法采用多种自然语言处理技术挖掘体检诊断数据中疾病结果，提取其中疾病分类结构并进行编码数字化，为体检记录提供标准疾病名称标签，从而更直接的描述体检的结果并可以为其他大数据医疗服务。

Description

一种将体检诊断数据转化为疾病标签的方法

技术领域

本发明属于大数据医疗领域，具体涉及一种将体检诊断数据转化为疾病标签的方法。

背景技术

随着人们生活水平的提高、保健意识的增强，健康体检逐渐成为一种社会时尚，人们已经改变了只有在得病时才去医院的传统观念，定期体检已经被大多数人所接受。因此，医院积累了海量的电子体检数据。然而，原生的电子体检数据中，存在大量的非结构化的文本体检数据。这些文本数据往往无序杂乱冗余，出自各个水平各种习惯的医生之手，有着很大的局限性，无法被很好的利用起来。

大数据医疗是当前的一个热点，是指通过大数据相关技术，分析医疗领域的数据并挖掘其中的知识从而大幅度提高医疗服务。在过去的几十年中，大数据已经深深地影响了每一个企业，包括医疗保健行业。如今，大量的数据可以让医疗保健更加高效，更加个性化。自然语言处理是大数据密切相关的技术。在大数据的辅助下，自然语言处理也依托于大数据有了更多的发展，出现了如word2vec、LDA等新技术。

目前，在每次体检结束后，获取的体检诊断数据是有复杂形式的医生诊断文本，并未将诊断结果转换为概要的疾病名称，难以被用户快速理解并且难以被后续大数据医疗应用用以分析医疗数据。因此，在可以获得完整原始的体检诊断数据的基础上，提出对医生诊断结果进行分析的方法，进而分类生成疾病类目树并进行数字编码化，再在实际的数据上反馈出体检诊断结果的疾病标签，是具有其切实的研究意义和应用前景的。

发明内容

鉴于上述，本发明提出了一种将体检诊断数据转化为疾病标签的方法，主要采用多种自然语言处理技术挖掘体检诊断数据中疾病结果，提取其中疾病分类结构并进行编码数字化，为体检记录提供标准疾病名称标签，从而更直接的描述体检的结果并可以为其他大数据医疗服务。

本发明的目的是分析体检数据中医生对病人体检数据的诊断结果，找出其中的疾病名称，并进行聚类查找，建立疾病的类目树，从而提供一个将原始的诊断结果转换成疾病标签的方法。

一种将体检诊断数据转化为疾病标签的方法，包括如下步骤：

(1)对体检诊断数据进行文本分词和新词发现处理，得到词序列；

(2)在词序列中，提取所需要的疾病词汇，得到疾病名称；

(3)对疾病名称中的同义词进行归并，得到归并的疾病名称；

(4)对疾病进行聚类，建立疾病类目树；

(5)根据归并的疾病名称和疾病类目树进行疾病标记，得到疾病标签。

步骤(1)的具体步骤为：

(1-1)对体检诊断数据中原生的诊断结果进行分词，得到文本词序列；

(1-2)根据文本词序列中词语之间的关系进行词语合并，得到新词汇；

(1-3)对新词汇再进行分词，得到词序列。

在步骤(1-1)中，对于体检诊断数据中原生的诊断结果，首先，使用字典生成的Trie树进行分词匹配，然后，对其分词匹配的结果做进一步地索引和统计，得到最大概率分词结果，称为文本词序列。

利用Trie树进行分词匹配时，对于同一个字符串时常可以有多种分词方式，作为优选，采用动态规划求解字符串的最大概率分词结果。

在步骤(1-2)中，在体检诊断数据中，由于体检诊断文本的特殊性，难以在第一次分词即可得到最佳的效果，很多疾病相关的词汇可能会被误拆，因此，根据分词结果中词语之间的关系进行词语合并，得到新词汇，便于后续的使用。作为优选，通过统计点互信息指标来判断词语之间的关系。点互信息(Point-wise Mutual Information,PMI)是衡量两个事物(例如两个词)之间的相关性的指标，广泛应用于机器学习领域，其原理如以下公式所示：

在概率论中，如果x跟y不相关，则p(x,y)＝p(x)p(y)。二者相关性越大，则p(x,y)与p(x)p(y)的差值就越大。同样，在y出现的情况下x出现的条件概率p(x|y)除以x本身出现的概率p(x)也表示x跟y的相关程度。对于相邻的词，例如：出现P(甲状腺结节)的概率远大于P(甲状腺)P(结节)的概率时，认为甲状腺结节是一个语料库中的新词。

在步骤(2)中，采用统计方法TF-IDF提取词序列中的关键词(疾病名称)，并结合停用词库，基本获得体检诊断结果文本的标签，即为疾病名称。统计方法TF-IDF(termfrequency–inverse document frequency)用以评估一字词对于一个文本集或一个语料库中的其中一份文本的重要程度。字词的重要性随着它在文本中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。词频(term frequency,TF)是指某一个给定的词语在该文本中出现的次数。逆文本频率(inverse document frequency,IDF)由总文本数目除以包含该词语之文本的数目，再将得到的商取对数得到。

在步骤(3)中，获取的所有疾病词汇中存在大量的同义词，如后发性白内障拥有别名继发性白内障和继发性内障，他们都需要被归并到一个疾病。这里为了发现各个疾病词汇的同义词，采用word2vec算法将各个疾病名称抽象成数学向量，再使用数学向量的距离计算同义词。

在步骤(4)中，为了更多地理解各个疾病之间的关系，在所有疾病名称都提取完毕之后，对疾病名称进行聚类，获取疾病之间的类目关系。本发明采用了隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)进行疾病聚类。LDA是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。

本发明方法主要是分析体检数据中医生对病人体检数据的诊断结果，找出其中的疾病名称，并进行聚类查找，建立疾病的类目树，从而将原始的诊断结果转换成疾病标签。该方法具有的优点为：

(1)使用PMI对医疗体检诊断结果进行新词发现，可以发现许多未发现的新疾病词汇。

(2)对于大量疾病词汇，使用word2vec算法发现其中的同义词，在规范化疾病名称的同时也减少了冗余的词语。

(3)使用LDA进行疾病的聚类，可以方便地获得各个类别的疾病之间的联系。

附图说明

图1为基于体检诊断数据的疾病标签***结构图；

图2为同义词发现算法word2vec示意图；

图3为局部疾病标签类目树示例图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

如图1所示，本发明将体检诊断数据转化为疾病标签的方法包括以下步骤：

步骤1，文本分词：对体检诊断数据中原生的诊断结果进行分词，得到文本词序列。

文本分词需要词典以获得较高的准确率，这里选用的是从外部语料库收集得到的基础词典结合相关的医疗词典。对于体检数据中原生的诊断结果，使用字典生成的Trie树进行分词匹配，对其分词匹配的结果做进一步地索引和统计，得到最大概率分词结果，称为文本词序列。

Trie树又称单词查找树，是一种树形结构，用于保存大量的字符串。它的优点是：利用字符串的公共前缀来节约存储空间。利用Trie树分词可以大幅度提高分词的速度。对于同一个字符串时常可以有多种分词方式，这里使用动态规划求解字符串的最大概率分词结果。

步骤2，新词发现：根据文本词序列中词语之间的关系进行词语合并，得到新词汇。

在这个步骤中，根据步骤1分词结束后的各个统计信息，重点对相邻的词进行分析。采用PMI指标来判断词语之间的关系，对于相邻的词，如出现P(甲状腺结节)的概率远大于P(甲状腺)P(结节)的概率时，认为甲状腺结节是一个语料库中的新词。

步骤3，文本分词：对新词汇再进行分词，得到词序列。

此步骤进行分词的方法与步骤1中的分词方法相同，都是采用字典生成的Trie树进行分词匹配，采用动态规划求解字符串的最大概率分词结果。

步骤4，疾病提取：在词序列中提取所需要的疾病词汇，得到疾病名称。

这里使用统计方法TF-IDF提取词序列中的疾病名称，并结合停用词库，基本获得体检诊断结果文本的标签，即为疾病名称。对于每个诊断文本数据，TF-IDF都可以找出其中出现较多而在其他诊断文本数据里面出现并不多的词语。

步骤5，同义词归并：对疾病名称中的同义词进行归并，得到归并的疾病名称；

此处，采用word2vec算法将各个疾病名称抽象成数学的向量，再使用数学向量的距离计算同义词。如图2所示，CBOW和Skip-gram是word2vec算法的两种实现，其中，w(t)是指任意位置的一个词，而w(t-1)则为其对应位置的前一个词，w(t+1)为其对应位置的后一个词，CBOW算法是根据一个词的前后两个词可以推断出当前词，而Skip-gram算法为根据一个词，可以推断出它上下文的可能环境。word2vec算法的基本思想是通过训练将每个词映射成K维实数向量(K为模型中的超参数)，通过词之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度。它采用一个三层的神经网络，输入层-隐层-输出层，这个三层神经网络本身是对语言模型进行建模，但也同时获得一种单词在向量空间上的表示，而这个副作用才是Word2vec的真正目标。当获得每个词的词向量后，可以根据词向量之间的距离来寻找一个词的同义词。

步骤6，疾病聚类：对疾病进行聚类，建立疾病类目树；

此步骤中采用LDA进行疾病聚类，以获取疾病之间的类目关系，建立类目树，图3为建立好的类目树的局部图。对于语料库中的每篇文档，LDA定义了如下生成过程：

(1)对每一篇文档，从主题分布中抽取一个主题；

(2)从上述被抽到的主题所对应的单词分布中抽取一个单词；

(3)重复上述过程，直至遍历文档中的每一个单词。

在假设这样的文档生成方式后，求取这个模型的各个参数，从而求出每个主题及主题内部的词分布。对于体检诊断数据库而言，每个主题内部的词都是疾病的名称，而每个主题就是一个类别的疾病。

步骤7，标签提取：根据归并的疾病名称和疾病类目树进行疾病标记，得到每个体检文本唯一的疾病标签。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种将体检诊断数据转化为疾病标签的方法，包括如下步骤：

(1)用Trie树加字典对体检诊断数据中原生的诊断结果进行分词，对分词匹配的结果做进一步地索引和统计，采用动态规划求解字符串，获得文本词序列；采用通过统计点互信息指标来判断词语之间的关系，并根据文本词序列中词语之间的关系进行词语合并，得到新词汇；对新词汇再进行分词，得到词序列；

(2)采用统计方法TF-IDF提取词序列中的疾病名称，并结合停用词库，获得体检诊断结果文本的疾病名称；

(3)采用word2vec算法将各个疾病名称抽象成数学向量，再使用数学向量的距离计算同义词，以此实现对疾病名称中的同义词进行归并，得到归并的疾病名称；

(4)采用隐含狄利克雷分布对疾病名称进行聚类，建立疾病类目树；