CN106682411B - 一种将体检诊断数据转化为疾病标签的方法 - Google Patents

一种将体检诊断数据转化为疾病标签的方法 Download PDF

Info

Publication number
CN106682411B
CN106682411B CN201611198280.7A CN201611198280A CN106682411B CN 106682411 B CN106682411 B CN 106682411B CN 201611198280 A CN201611198280 A CN 201611198280A CN 106682411 B CN106682411 B CN 106682411B
Authority
CN
China
Prior art keywords
disease
physical examination
word
obtains
disease name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611198280.7A
Other languages
English (en)
Other versions
CN106682411A (zh
Inventor
吴健
周立水
顾盼
邱奇波
邓水光
李莹
尹建伟
吴朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201611198280.7A priority Critical patent/CN106682411B/zh
Publication of CN106682411A publication Critical patent/CN106682411A/zh
Application granted granted Critical
Publication of CN106682411B publication Critical patent/CN106682411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种将体检诊断数据转化为疾病标签的方法,包括:(1)对体检诊断数据进行文本分词和新词发现处理,得到词序列;(2)在词序列中,提取所需要的疾病词汇,得到疾病名称;(3)对疾病名称中的同义词进行归并,得到归并的疾病名称;(4)对疾病名称进行聚类,建立疾病类目树;(5)根据归并的疾病名称和疾病类目树进行疾病标记,得到疾病标签。该方法采用多种自然语言处理技术挖掘体检诊断数据中疾病结果,提取其中疾病分类结构并进行编码数字化,为体检记录提供标准疾病名称标签,从而更直接的描述体检的结果并可以为其他大数据医疗服务。

Description

一种将体检诊断数据转化为疾病标签的方法
技术领域
本发明属于大数据医疗领域,具体涉及一种将体检诊断数据转化为疾病标签的方法。
背景技术
随着人们生活水平的提高、保健意识的增强,健康体检逐渐成为一种社会时尚,人们已经改变了只有在得病时才去医院的传统观念,定期体检已经被大多数人所接受。因此,医院积累了海量的电子体检数据。然而,原生的电子体检数据中,存在大量的非结构化的文本体检数据。这些文本数据往往无序杂乱冗余,出自各个水平各种习惯的医生之手,有着很大的局限性,无法被很好的利用起来。
大数据医疗是当前的一个热点,是指通过大数据相关技术,分析医疗领域的数据并挖掘其中的知识从而大幅度提高医疗服务。在过去的几十年中,大数据已经深深地影响了每一个企业,包括医疗保健行业。如今,大量的数据可以让医疗保健更加高效,更加个性化。自然语言处理是大数据密切相关的技术。在大数据的辅助下,自然语言处理也依托于大数据有了更多的发展,出现了如word2vec、LDA等新技术。
目前,在每次体检结束后,获取的体检诊断数据是有复杂形式的医生诊断文本,并未将诊断结果转换为概要的疾病名称,难以被用户快速理解并且难以被后续大数据医疗应用用以分析医疗数据。因此,在可以获得完整原始的体检诊断数据的基础上,提出对医生诊断结果进行分析的方法,进而分类生成疾病类目树并进行数字编码化,再在实际的数据上反馈出体检诊断结果的疾病标签,是具有其切实的研究意义和应用前景的。
发明内容
鉴于上述,本发明提出了一种将体检诊断数据转化为疾病标签的方法,主要采用多种自然语言处理技术挖掘体检诊断数据中疾病结果,提取其中疾病分类结构并进行编码数字化,为体检记录提供标准疾病名称标签,从而更直接的描述体检的结果并可以为其他大数据医疗服务。
本发明的目的是分析体检数据中医生对病人体检数据的诊断结果,找出其中的疾病名称,并进行聚类查找,建立疾病的类目树,从而提供一个将原始的诊断结果转换成疾病标签的方法。
一种将体检诊断数据转化为疾病标签的方法,包括如下步骤:
(1)对体检诊断数据进行文本分词和新词发现处理,得到词序列;
(2)在词序列中,提取所需要的疾病词汇,得到疾病名称;
(3)对疾病名称中的同义词进行归并,得到归并的疾病名称;
(4)对疾病进行聚类,建立疾病类目树;
(5)根据归并的疾病名称和疾病类目树进行疾病标记,得到疾病标签。
步骤(1)的具体步骤为:
(1-1)对体检诊断数据中原生的诊断结果进行分词,得到文本词序列;
(1-2)根据文本词序列中词语之间的关系进行词语合并,得到新词汇;
(1-3)对新词汇再进行分词,得到词序列。
在步骤(1-1)中,对于体检诊断数据中原生的诊断结果,首先,使用字典生成的Trie树进行分词匹配,然后,对其分词匹配的结果做进一步地索引和统计,得到最大概率分词结果,称为文本词序列。
利用Trie树进行分词匹配时,对于同一个字符串时常可以有多种分词方式,作为优选,采用动态规划求解字符串的最大概率分词结果。
在步骤(1-2)中,在体检诊断数据中,由于体检诊断文本的特殊性,难以在第一次分词即可得到最佳的效果,很多疾病相关的词汇可能会被误拆,因此,根据分词结果中词语之间的关系进行词语合并,得到新词汇,便于后续的使用。作为优选,通过统计点互信息指标来判断词语之间的关系。点互信息(Point-wise Mutual Information,PMI)是衡量两个事物(例如两个词)之间的相关性的指标,广泛应用于机器学习领域,其原理如以下公式所示:
在概率论中,如果x跟y不相关,则p(x,y)=p(x)p(y)。二者相关性越大,则p(x,y)与p(x)p(y)的差值就越大。同样,在y出现的情况下x出现的条件概率p(x|y)除以x本身出现的概率p(x)也表示x跟y的相关程度。对于相邻的词,例如:出现P(甲状腺结节)的概率远大于P(甲状腺)P(结节)的概率时,认为甲状腺结节是一个语料库中的新词。
在步骤(2)中,采用统计方法TF-IDF提取词序列中的关键词(疾病名称),并结合停用词库,基本获得体检诊断结果文本的标签,即为疾病名称。统计方法TF-IDF(termfrequency–inverse document frequency)用以评估一字词对于一个文本集或一个语料库中的其中一份文本的重要程度。字词的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。词频(term frequency,TF)是指某一个给定的词语在该文本中出现的次数。逆文本频率(inverse document frequency,IDF)由总文本数目除以包含该词语之文本的数目,再将得到的商取对数得到。
在步骤(3)中,获取的所有疾病词汇中存在大量的同义词,如后发性白内障拥有别名继发性白内障和继发性内障,他们都需要被归并到一个疾病。这里为了发现各个疾病词汇的同义词,采用word2vec算法将各个疾病名称抽象成数学向量,再使用数学向量的距离计算同义词。
在步骤(4)中,为了更多地理解各个疾病之间的关系,在所有疾病名称都提取完毕之后,对疾病名称进行聚类,获取疾病之间的类目关系。本发明采用了隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)进行疾病聚类。LDA是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。
本发明方法主要是分析体检数据中医生对病人体检数据的诊断结果,找出其中的疾病名称,并进行聚类查找,建立疾病的类目树,从而将原始的诊断结果转换成疾病标签。该方法具有的优点为:
(1)使用PMI对医疗体检诊断结果进行新词发现,可以发现许多未发现的新疾病词汇。
(2)对于大量疾病词汇,使用word2vec算法发现其中的同义词,在规范化疾病名称的同时也减少了冗余的词语。
(3)使用LDA进行疾病的聚类,可以方便地获得各个类别的疾病之间的联系。
附图说明
图1为基于体检诊断数据的疾病标签***结构图;
图2为同义词发现算法word2vec示意图;
图3为局部疾病标签类目树示例图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
如图1所示,本发明将体检诊断数据转化为疾病标签的方法包括以下步骤:
步骤1,文本分词:对体检诊断数据中原生的诊断结果进行分词,得到文本词序列。
文本分词需要词典以获得较高的准确率,这里选用的是从外部语料库收集得到的基础词典结合相关的医疗词典。对于体检数据中原生的诊断结果,使用字典生成的Trie树进行分词匹配,对其分词匹配的结果做进一步地索引和统计,得到最大概率分词结果,称为文本词序列。
Trie树又称单词查找树,是一种树形结构,用于保存大量的字符串。它的优点是:利用字符串的公共前缀来节约存储空间。利用Trie树分词可以大幅度提高分词的速度。对于同一个字符串时常可以有多种分词方式,这里使用动态规划求解字符串的最大概率分词结果。
步骤2,新词发现:根据文本词序列中词语之间的关系进行词语合并,得到新词汇。
在这个步骤中,根据步骤1分词结束后的各个统计信息,重点对相邻的词进行分析。采用PMI指标来判断词语之间的关系,对于相邻的词,如出现P(甲状腺结节)的概率远大于P(甲状腺)P(结节)的概率时,认为甲状腺结节是一个语料库中的新词。
步骤3,文本分词:对新词汇再进行分词,得到词序列。
此步骤进行分词的方法与步骤1中的分词方法相同,都是采用字典生成的Trie树进行分词匹配,采用动态规划求解字符串的最大概率分词结果。
步骤4,疾病提取:在词序列中提取所需要的疾病词汇,得到疾病名称。
这里使用统计方法TF-IDF提取词序列中的疾病名称,并结合停用词库,基本获得体检诊断结果文本的标签,即为疾病名称。对于每个诊断文本数据,TF-IDF都可以找出其中出现较多而在其他诊断文本数据里面出现并不多的词语。
步骤5,同义词归并:对疾病名称中的同义词进行归并,得到归并的疾病名称;
此处,采用word2vec算法将各个疾病名称抽象成数学的向量,再使用数学向量的距离计算同义词。如图2所示,CBOW和Skip-gram是word2vec算法的两种实现,其中,w(t)是指任意位置的一个词,而w(t-1)则为其对应位置的前一个词,w(t+1)为其对应位置的后一个词,CBOW算法是根据一个词的前后两个词可以推断出当前词,而Skip-gram算法为根据一个词,可以推断出它上下文的可能环境。word2vec算法的基本思想是通过训练将每个词映射成K维实数向量(K为模型中的超参数),通过词之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度。它采用一个三层的神经网络,输入层-隐层-输出层,这个三层神经网络本身是对语言模型进行建模,但也同时获得一种单词在向量空间上的表示,而这个副作用才是Word2vec的真正目标。当获得每个词的词向量后,可以根据词向量之间的距离来寻找一个词的同义词。
步骤6,疾病聚类:对疾病进行聚类,建立疾病类目树;
此步骤中采用LDA进行疾病聚类,以获取疾病之间的类目关系,建立类目树,图3为建立好的类目树的局部图。对于语料库中的每篇文档,LDA定义了如下生成过程:
(1)对每一篇文档,从主题分布中抽取一个主题;
(2)从上述被抽到的主题所对应的单词分布中抽取一个单词;
(3)重复上述过程,直至遍历文档中的每一个单词。
在假设这样的文档生成方式后,求取这个模型的各个参数,从而求出每个主题及主题内部的词分布。对于体检诊断数据库而言,每个主题内部的词都是疾病的名称,而每个主题就是一个类别的疾病。
步骤7,标签提取:根据归并的疾病名称和疾病类目树进行疾病标记,得到每个体检文本唯一的疾病标签。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种将体检诊断数据转化为疾病标签的方法,包括如下步骤:
(1)用Trie树加字典对体检诊断数据中原生的诊断结果进行分词,对分词匹配的结果做进一步地索引和统计,采用动态规划求解字符串,获得文本词序列;采用通过统计点互信息指标来判断词语之间的关系,并根据文本词序列中词语之间的关系进行词语合并,得到新词汇;对新词汇再进行分词,得到词序列;
(2)采用统计方法TF-IDF提取词序列中的疾病名称,并结合停用词库,获得体检诊断结果文本的疾病名称;
(3)采用word2vec算法将各个疾病名称抽象成数学向量,再使用数学向量的距离计算同义词,以此实现对疾病名称中的同义词进行归并,得到归并的疾病名称;
(4)采用隐含狄利克雷分布对疾病名称进行聚类,建立疾病类目树;
(5)根据归并的疾病名称和疾病类目树进行疾病标记,得到疾病标签。
CN201611198280.7A 2016-12-22 2016-12-22 一种将体检诊断数据转化为疾病标签的方法 Active CN106682411B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611198280.7A CN106682411B (zh) 2016-12-22 2016-12-22 一种将体检诊断数据转化为疾病标签的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611198280.7A CN106682411B (zh) 2016-12-22 2016-12-22 一种将体检诊断数据转化为疾病标签的方法

Publications (2)

Publication Number Publication Date
CN106682411A CN106682411A (zh) 2017-05-17
CN106682411B true CN106682411B (zh) 2019-04-16

Family

ID=58871285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611198280.7A Active CN106682411B (zh) 2016-12-22 2016-12-22 一种将体检诊断数据转化为疾病标签的方法

Country Status (1)

Country Link
CN (1) CN106682411B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515908A (zh) * 2017-08-11 2017-12-26 新智数通(北京)技术服务有限公司 一种数据处理方法及装置
CN107977354A (zh) * 2017-10-12 2018-05-01 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的混合语料分词方法
CN107992467A (zh) * 2017-10-12 2018-05-04 北京知道未来信息技术有限公司 一种基于lstm的混合语料分词方法
CN107894976A (zh) * 2017-10-12 2018-04-10 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的混合语料分词方法
CN110299206A (zh) * 2018-03-21 2019-10-01 华东师范大学 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法
CN109243618B (zh) * 2018-09-12 2020-06-16 腾讯科技(深圳)有限公司 医学模型的构建方法、疾病标签构建方法及智能设备
CN109582675A (zh) * 2018-11-29 2019-04-05 北京达佳互联信息技术有限公司 标签匹配方法、装置、服务器及存储介质
CN109697286A (zh) * 2018-12-18 2019-04-30 众安信息技术服务有限公司 一种基于词向量的诊断标准化方法及装置
CN109994201B (zh) * 2019-03-18 2021-06-11 浙江大学 一种基于深度学习的糖尿病与高血压概率计算***
CN110335684A (zh) * 2019-06-14 2019-10-15 电子科技大学 基于主题模型技术的中医智能辨证辅助决策方法
CN110297933A (zh) * 2019-07-01 2019-10-01 山东浪潮人工智能研究院有限公司 一种基于深度学习的主题标签推荐方法及工具
CN110580942A (zh) * 2019-08-23 2019-12-17 和宇健康科技股份有限公司 一种新型体检报告生成方法、装置、介质及终端设备
CN111275122B (zh) * 2020-02-03 2023-08-11 腾讯医疗健康(深圳)有限公司 标签标注方法、装置、设备及可读存储介质
CN111696635A (zh) * 2020-05-13 2020-09-22 平安科技(深圳)有限公司 疾病名称标准化方法及装置
CN112002416A (zh) * 2020-08-23 2020-11-27 吾征智能技术(北京)有限公司 一种基于尿液性状自学习的疾病征兆预测***
CN112735475B (zh) * 2020-12-25 2023-02-21 北京博瑞彤芸科技股份有限公司 一种通过语音搜索疾病知识的方法和***
CN112992376A (zh) * 2021-03-04 2021-06-18 山东大学 基于权重调整的疾病名称匹配方法及***
CN113838579B (zh) * 2021-09-29 2024-07-12 平安医疗健康管理股份有限公司 一种医疗数据的异常检测方法、装置、设备及存储介质
CN114822865B (zh) * 2022-06-27 2022-11-11 天津幸福生命科技有限公司 诊断数据识别方法及装置、电子设备、存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662976A (zh) * 2012-03-12 2012-09-12 浙江工业大学 一种基于指导的文本特征加权方法
CN102760134A (zh) * 2011-04-28 2012-10-31 北京百度网讯科技有限公司 一种同义词的挖掘方法和装置
CN102915493A (zh) * 2011-08-05 2013-02-06 株式会社东芝 信息处理装置和方法
CN102930009A (zh) * 2012-10-30 2013-02-13 北京奇虎科技有限公司 个性化网址导航***
CN103020212A (zh) * 2012-12-07 2013-04-03 合一网络技术(北京)有限公司 一种基于用户查询日志实时发现热点视频的方法和装置
CN103559178A (zh) * 2013-05-31 2014-02-05 武汉中文百科网络有限公司 互联网中文简繁字转换***及方法
CN103902570A (zh) * 2012-12-27 2014-07-02 腾讯科技(深圳)有限公司 一种文本分类特征提取方法、分类方法及装置
CN104424177A (zh) * 2013-08-26 2015-03-18 高德软件有限公司 一种抽取核心词的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598642A (zh) * 2015-02-13 2015-05-06 杜雨阳 一种标准疾病名称查找方法和***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760134A (zh) * 2011-04-28 2012-10-31 北京百度网讯科技有限公司 一种同义词的挖掘方法和装置
CN102915493A (zh) * 2011-08-05 2013-02-06 株式会社东芝 信息处理装置和方法
CN102662976A (zh) * 2012-03-12 2012-09-12 浙江工业大学 一种基于指导的文本特征加权方法
CN102930009A (zh) * 2012-10-30 2013-02-13 北京奇虎科技有限公司 个性化网址导航***
CN103020212A (zh) * 2012-12-07 2013-04-03 合一网络技术(北京)有限公司 一种基于用户查询日志实时发现热点视频的方法和装置
CN103902570A (zh) * 2012-12-27 2014-07-02 腾讯科技(深圳)有限公司 一种文本分类特征提取方法、分类方法及装置
CN103559178A (zh) * 2013-05-31 2014-02-05 武汉中文百科网络有限公司 互联网中文简繁字转换***及方法
CN104424177A (zh) * 2013-08-26 2015-03-18 高德软件有限公司 一种抽取核心词的方法及装置

Also Published As

Publication number Publication date
CN106682411A (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
CN106682411B (zh) 一种将体检诊断数据转化为疾病标签的方法
CN111414393B (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
CN105760507B (zh) 基于深度学习的跨模态主题相关性建模方法
CN106227880B (zh) 医生搜索推荐的实现方法
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN107480125B (zh) 一种基于知识图谱的关系链接方法
CN108628824A (zh) 一种基于中文电子病历的实体识别方法
Varma et al. Inferring generative model structure with static analysis
CN112232065B (zh) 挖掘同义词的方法及装置
CN104899260B (zh) 一种中文病理文本结构化处理方法
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
CN103955703A (zh) 一种基于朴素贝叶斯的医疗影像疾病分类方法
CN114817386A (zh) 一种结构化医疗数据生成方法及装置
CN110188359B (zh) 一种文本实体抽取方法
CN103678287A (zh) 一种关键词翻译统一的方法
CN111460173A (zh) 一种甲状腺癌的疾病本体模型的构建方法
CN113868387A (zh) 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法
Hayat et al. Modeling subjective affect annotations with multi-task learning
Saranya et al. Intelligent medical data storage system using machine learning approach
Baccianella et al. Variable-constraint classification and quantification of radiology reports under the ACR Index
CN108595593A (zh) 基于主题模型的会议研究热点与发展趋势信息分析方法
CN114168751B (zh) 一种基于医学知识概念图的医学文本标签识别方法及***
Wang et al. A review of the application of natural language processing in clinical medicine
Gong et al. Automatic pathology annotation on medical images: A statistical machine translation framework
Abu et al. Biodiversity image retrieval framework for monogeneans

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant