CN109949938B - 用于将医疗非标准名称标准化的方法及装置 - Google Patents
用于将医疗非标准名称标准化的方法及装置 Download PDFInfo
- Publication number
- CN109949938B CN109949938B CN201711385974.6A CN201711385974A CN109949938B CN 109949938 B CN109949938 B CN 109949938B CN 201711385974 A CN201711385974 A CN 201711385974A CN 109949938 B CN109949938 B CN 109949938B
- Authority
- CN
- China
- Prior art keywords
- name
- standard
- data
- names
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 65
- 238000013179 statistical model Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000007405 data analysis Methods 0.000 claims abstract description 4
- 238000013135 deep learning Methods 0.000 claims description 57
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 201000010099 disease Diseases 0.000 claims description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 2
- 208000024891 symptom Diseases 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种用于将医疗非标准名称标准化的方法及装置,涉及医疗、数据分析技术领域,能够提高非标准名称标准化的准确性。其中该方法包括:收集标准名称相关数据和待标准化名称;利用标准名称相关数据训练DL词向量模型和TF‑IDF统计模型;根据DL词向量模型计算待标准化名称与每个标准名称的DL词向量相似度Ai,根据TF‑IDF统计模型计算待标准化名称与每个标准名称的TF‑IDF相似度Bi,根据Ai和Bi计算综合相似度Ci,选择Ci最大的标准名称作为待标准化名称的标准名称。上述方法应用于将医疗非标准名称转化为标准名称的过程中。
Description
技术领域
本发明涉及医疗、数据分析领域,尤其涉及一种用于将医疗非标准名称标准化的方法及装置。
背景技术
在医疗领域中存在着严重的数据混乱问题,主要表现为:医生为了节省时间能够处理更多病患,在填写病历以及开立医嘱时使用了大量的简称或口语型描述性用语,导致针对医疗数据的深入分析难以进行。因此,需要将医生用语(即医疗非标准名称)转化为标准名称,即将非标准名称标准化。
目前进行非标准名称标准化的主要方法是:建立医疗标准名称的TF-IDF(TermFrequency-Inverse Document Frequency,词频-逆向文件频率)统计模型,根据TF-IDF统计模型获得各标准名称的TF-IDF特征和待标准化名称的TF-IDF特征,然后对比待标准化名称的TF-IDF特征与每个标准名称的TF-IDF特征的相似度,选择最相似的标准名称作为该待标准化名称的标准名称。
其中,TF-IDF统计模型是一种用于信息检索与数据挖掘的常用加权技术。TF即词频,是指词汇在某个名称中出现的频率;IDF即逆向文件频率,是指包含某个词汇的名称越多,则这个词汇的区分能力越差,反之越大。TF和IDF的乘积用以评估一个词对于一个文本或一个语料库中的一份文本的重要程度。字词的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF统计模型是用于度量文本相似度的传统重要方法。
但是,TF-IDF统计模型只能将在关系样本数据和同义词词库中的非标准名称标准化,无法准确地将未在关系样本数据和同义词词库中的新词汇转化为标准名称,并且TF-IDF统计模型无法准确地识别同义词,造成目前非标准名称标准化的准确性较低。
发明内容
针对上述现有技术中的问题,本发明实施例提供一种用于将医疗非标准名称标准化的方法及装置,通过引入DL(Deep Learning,深度学习)词向量模型,结合TF-IDF统计模型实现非标准名称的标准化,以提高非标准名称标准化的准确性。
为达到上述目的,本发明实施例采用如下技术方案:
第一方面,本发明实施例提供了一种用于将医疗非标准名称标准化的方法,其特征在于,该方法包括以下步骤:S1:收集标准名称相关数据和待标准化名称,其中所述标准名称数据包括:医疗领域中的标准名称与非标准名称的对应关系数据,和医疗领域中的文本数据。S2:利用所述标准名称相关数据,训练DL词向量模型和TF-IDF统计模型。S3:根据所述DL词向量模型,计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的DL词向量相似度Ai;根据所述TF-IDF统计模型,计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的TF-IDF相似度Bi;根据Ai和Bi,计算所述待标准化名称与所述每个标准名称的综合相似度Ci,选择Ci最大的标准名称作为所述待标准化名称的标准名称。其中,i=1~N,N为所述标准名称相关数据中所包括的标准名称的数量。
在上述用于将医疗非标准名称标准化的方法中,在传统TF-IDF统计模型的基础上,结合DL词向量模型(深度学习的词向量模型),利用TF-IDF统计模型对在标准名称相关数据(即关系样本数据)和同义词词库中的非标准名称进行标准化,同时利用DL词向量模型对未在关系样本数据和同义词词库中的非标准名称进行标准化。
由于DL词向量模型可以将关系样本数据(即标准名称与非标准名称对应关系数据及文本数据)中所包括的标准名称表示为DL词向量,该DL词向量为深度语义型向量,因此同义词能够被准确地识别,从而在此基础上对非标准名称,尤其是使用了同义词的非标准名称,进行标准化能够获得更高的准确率。
并且,由于DL词向量模型无需标注数据即可训练,因此能够对未在关系样本数据和同义词词库中的词汇进行相似度的判断,从而实现对未在关系样本数据和同义词词库中的非标准名称的标准化,提高标准化的准确率。
第二方面,本发明实施例提供了一种用以将医疗非标准名称标准化的装置,该装置包括:数据源收集模块,用于收集标准名称相关数据和待标准化名称,其中所述标准名称数据包括:医疗领域中的标准名称与非标准名称的对应关系数据,和医疗领域中的文本数据。模型训练模块,用于利用所述标准名称相关数据,训练DL词向量模型和TF-IDF统计模型。标准化模块,用于根据所述DL词向量模型,计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的DL词向量相似度Ai;还用于根据所述TF-IDF统计模型,计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的TF-IDF相似度Bi;还用于根据Ai和Bi,计算所述待标准化名称与所述每个标准名称的综合相似度Ci,选择Ci最大的标准名称作为所述待标准化名称的标准名称。其中,i=1~N,N为所述标准名称相关数据中所包括的标准名称的数量。
上述用于将医疗非标准名称标准化的装置所能产生的有益效果与第一方面所述的用于将医疗非标准名称标准化的方法的有益效果相同,此处不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例所提供的用于将医疗非标准名称标准化的方法的基本流程图;
图2为本发明实施例所提供的方法中步骤S1的流程图;
图3为本发明实施例所提供的方法中对数据进行预处理步骤的流程图;
图4为本发明实施例所提供的方法中步骤S3的流程图;
图5为本发明实施例所提供的方法的步骤S3中计算待标准化名称与每个标准名称的DL词向量相似度的流程图;
图6为本发明实施例所提供的用于将医疗非标准名称标准化的装置的基本结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
本发明实施例提供了一种用于将医疗非标准名称标准化的方法,如图1所示,该方法包括以下步骤:
S1:数据源收集。具体包括:收集标准名称相关数据和待标准化名称,其中所述标准名称数据包括:医疗领域中的标准名称与非标准名称的对应关系数据,和医疗领域中的文本数据。
在上述步骤S1中,收集对应关系数据可主要包括一下两个方面的内容:如图2所示,
(1)采用网络爬虫技术,从医疗领域的开放知识库中获取包含标准名称及其缩写、英文名、别名、成分功效、疾病症状等描述信息,对所收集的这些描述信息进行数据解析,得到标准名称与非标准名称的对应关系数据。
其中,医疗领域的开放知识库例如可为万方医学栏目等开放的知识库。通过充分利用现有的知识库数据,可使后续训练出来的DL词向量模型和TF-IDF统计模型更加精准,有助于提高标准化的准确度。
所收集的这些描述信息主要用于进行两个方面的工作:后续用于训练DL词向量模型和TF-IDF统计模型;将标准名称对应的非标准名称作为标准名称的扩展信息,使得后续在进行标准名称与非标准名称相似度的判断时,提升判断的准确率。
(2)收集医院的医嘱数据和收费明细数据,对医嘱数据和收费明细数据进行关联,从中提取医嘱数据中所使用的非标准名称与收费明细数据中所使用的标准名称的对应关系数据。
其中,对医嘱数据和收费明细数据进行关联可依据设计规则,例如:同一病人的一次住院中开立医嘱时间与项目收费时间相近,且医嘱描述与收费描述相似性较高,则可判断医嘱与收费是关联的。当然,也可以使用其他的规则,本实施对此并不限定。
所收集的医疗领域中的文本数据具体可包括:病历、疾病、检查、检验等的描述性文本信息数据。
S2:模型训练。具体包括:利用所收集的标准名称相关数据,训练DL词向量模型和TF-IDF统计模型。
在上述步骤S2中,DL词向量模型为深度学习的词向量模型,其能够将标准名称与非标准名称都表示为DL词向量,该DL词向量为深度学习的词向量,换句话说,该DL词向量为深度语义型向量,能够将同义不同表述的词汇间的距离拉近,因此能够准确的识别同义词,从而有助于提升后续非标准名称标准化的准确率。并且,DL词向量模型无需标注数据即可训练,因此能够对未在关系样本数据(即上述标准名称相关数据)和同义词词库中的词汇进行相似度的判断,这也有助于提升非标准名称标准化的准确率。
在训练DL词向量模型的过程中,窗口大小为主要需要调节的参数,作为一种可能的设计,可将窗口大小调整为3,以识别绝大部分的词汇。
在本实施例中,为了便于模型的训练,在利用所收集的标准名称相关数据进行模型训练之前,即在步骤S1与步骤S2之间,可预先对所收集的标准名称相关数据进行预处理。如图3所示,该预处理的过程包括如下过程:
对标准名称相关数据进行文本分词,将其分成若干词汇。通过文本分词,便于后续对非标准名称中的词汇与标准名称进行相似度的比对。
对经过文本分词的数据进行词汇过滤,去除其中的停用词和低频词汇。其中,停用词是指无实际语义信息的词汇,主要包括标点符号、语气词等词汇;低频词汇是指出现次数低于一定阈值的词汇。通过词汇过滤,可避免停用词和低频词汇对相似度比对产生干扰。
对经过词汇过滤的数据进行同义词替换,将其中的每组同义词采用同一词汇表述。进行同义词替换可依据同义词词库,同义词词库中的数据可包含同义词词林,及整理的医疗领域相关的同义词词对。通过同义词替换,可避免同义不同表述的词汇对相似度比对产生干扰。
需要说明的是,由于标准名称相关数据包括标准名称与非标准名称的对应关系数据,及文本数据,因此需要分别对二者进行预处理。
此外,为了便于后续对非标准名称的标准化,可对所收集的待标准化名称也进行预处理,具体过程参见上面的预处理过程。
S3:待标准化名称标准化。
上述步骤S3具体包括如下过程:
S31:根据DL词向量模型,计算待标准化名称与标准名称相关数据中的每个标准名称的DL词向量相似度Ai。
在上述步骤S31中,i=1~N,N为标准名称相关数据中所包括的标准名称的数量。也就是说,本步骤中可获得的DL词向量相似度为N个,分别为A1~AN。
如图4所示,上述步骤S31的具体过程可为:首先,根据DL词向量模型,将待标准化名称转化为一个DL词向量矩阵P,并将标准名称相关数据中的每个标准名称分别转化为一个DL词向量矩阵Pi(即P1~PN)。然后,根据P和Pi,计算待标准化名称与标准名称相关数据中的每个标准名称的DL词向量相似度Ai。
其中,根据P和Pi计算Ai可采用如下方式:如图5所示,首先,计算P与Pi的乘积,得到待标准化名称与标准名称相关数据中的每个标准名称的DL词向量相似度矩阵Pi′(即P1′~P′N)。然后,根据Pi′,获取待标准化名称中的每个词汇的最大相似度;此处“获取待标准化名称中的每个词汇的最大相似度”可采用贪心算法。之后,计算待标准化名称中的每个词汇的最大相似度之和。最后,将所得到的最大相似度之和除以待标准化名称中所包括的词汇的数目,所得到平均值结果作为Ai;通过这种求平均值的方式能够避免某些标准名称中词汇量较多所导致的误差。
S32:根据TF-IDF统计模型,计算待标准化名称与标准名称相关数据中的每个标准名称的TF-IDF相似度Bi。
在上述步骤S32中,可获得的TF-IDF相似度也为N个,分别为B1~BN。
如图4所示,上述步骤S32的具体过程可为:首先,根据TF-IDF统计模型,将待标准化名称转化为一个TF-IDF特征向量Q,并将标准名称相关数据中的每个标准名称分别转化为一个TF-IDF特征向量Qi(即Q1~QN)。然后,根据Q和Qi,计算待标准化名称与标准名称相关数据中的每个标准名称的TF-IDF相似度Bi。需要说明的是,在计算Bi的过程中可采用余弦相似度算法。
S33:模型融合。如图4所示,具体包括:根据Ai和Bi,计算待标准化名称与标准名称相关数据中的每个标准名称的综合相似度Ci。
在上述步骤S33中,可获得的综合相似度也为N个,分别为C1~CN。
利用Ai和Bi计算Ci可采用的方法有多种,作为一种可能的实现方式,可采用加权平均法。
S34:选择Ci最大的标准名称作为待标准化名称的标准名称。
作为一种可能的实现方式,在上述步骤S34中,可依据数值大小对C1~CN进行排序,数值越大的Ci代表待标准化名称与对应标准名称的相似度越大,从而可确定数值最大的Ci对应的标准名称为待标准化名称的标准名称。
以上是对本发明实施例所提供的用于将医疗非标准名称标准化的方法的详细介绍。在上述方法中,将DL词向量模型与传统的TF-IDF统计模型相结合,从而融合了深度学习方法和传统统计方法的优点。其中,TF-IDF统计模型对在关系样本数据和同义词词库(在本实施例中即为标准名称相关数据)中的非标准名称具有良好的相似度判断能力,能够准确地将这部分非标准名称标准化。DL词向量模型对未在关系样本数据和同义词词库中的非标准名称,及包含同义词的非标准名称具有良好的相似度判断能力,能够准确地将这部分非标准名称标准化。
基于上述用于将医疗非标准名称标准化的方法,本实施例还提供一种装置,用于将医疗非标准名称标准化,如图6所示,该装置包括:数据源收集模块1、模型训练模块2和标准化模块3。
其中,数据源收集模块1用于收集标准名称相关数据和待标准化名称。所述标准名称数据包括:医疗领域中的标准名称与非标准名称的对应关系数据,和医疗领域中的文本数据。
模型训练模块2用于利用数据源收集模块1所收集的标准名称相关数据,训练DL词向量模型和TF-IDF统计模型。
标准化模块3用于根据DL词向量模型,计算待标准化名称与标准名称相关数据中的每个标准名称的DL词向量相似度Ai;还用于根据TF-IDF统计模型,计算待标准化名称与标准名称相关数据中的每个标准名称的TF-IDF相似度Bi;还用于根据Ai和Bi,计算待标准化名称与每个标准名称的综合相似度Ci,选择Ci最大的标准名称作为待标准化名称的标准名称。
采用上述装置对医疗非标准名称进行标准化,能够对未在标准名称相关数据和同义词词库中的词汇进行相似度的判断,并且能够准确识别同义不同表述的词汇,从而提高了非标准名称标准化的准确度。
以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (7)
1.一种用于将医疗非标准名称标准化的方法,其特征在于,所述方法包括以下步骤:
S1:收集标准名称相关数据和待标准化名称,其中所述标准名称数据包括:医疗领域中的标准名称与非标准名称的对应关系数据,和医疗领域中的文本数据;
S2:利用所述标准名称相关数据,训练深度学习词向量模型和TF-IDF统计模型;
S3:根据所述深度学习词向量模型,计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的深度学习词向量相似度Ai;根据所述TF-IDF统计模型,计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的TF-IDF相似度Bi;根据Ai和Bi,计算所述待标准化名称与所述每个标准名称的综合相似度Ci,选择Ci最大的标准名称作为所述待标准化名称的标准名称;其中,i=1~N,N为所述标准名称相关数据中所包括的标准名称的数量;
在步骤S3中,所述根据所述深度学习词向量模型,计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的深度学习词向量相似度Ai,包括:
根据所述深度学习词向量模型,将所述待标准化名称转化为一个深度学习词向量矩阵P,并将所述每个标准名称分别转化为一个深度学习词向量矩阵Pi;计算P与Pi的乘积,得到所述待标准化名称与所述每个标准名称的深度学习词向量相似度矩阵Pi′;根据Pi′,获取所述待标准化名称中的每个词汇的最大相似度;计算所述每个词汇的最大相似度之和;将所述最大相似度之和除以所述待标准化名称中所包括的词汇的数目,所得到结果作为Ai;
计算Bi采用余弦相似度算法;在步骤S3中,计算所述综合相似度Ci采用加权平均法。
2.根据权利要求1所述的方法,其特征在于,在步骤S1中,收集所述对应关系数据包括:
采用网络爬虫技术,从医疗领域的开放知识库中获取包含标准名称及其缩写、英文名、别名、成分功效、疾病症状的描述信息,对所述描述信息进行数据解析,得到标准名称与非标准名称的对应关系数据;
收集医院的医嘱数据和收费明细数据,对所述医嘱数据和所述收费明细数据进行关联,从中提取所述医嘱数据中所使用的非标准名称与所述收费明细数据中所使用的标准名称的对应关系数据。
3.根据权利要求1所述的方法,其特征在于,在步骤S1中,所述文本数据包括:病历、疾病、检查、检验的描述性文本信息数据。
4.根据权利要求1所述的方法,其特征在于,在步骤S1与步骤S2之间,还包括:对所述标准名称相关数据和所述待标准化名称进行预处理;进行所述预处理包括:
对待预处理的数据进行文本分词,将其分成若干词汇;
对经过所述文本分词的数据进行词汇过滤,去除其中的停用词和低频词汇;
对经过所述词汇过滤的数据进行同义词替换,将其中的每组同义词采用同一词汇表述。
5.根据权利要求1所述的方法,其特征在于,在步骤S2中,在训练所述深度学习词向量模型的过程中,将其参数窗口大小调整为3。
6.根据权利要求1所述的方法,其特征在于,在步骤S3中,所述根据所述TF-IDF统计模型,计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的TF-IDF相似度Bi,包括:
根据所述TF-IDF统计模型,将所述待标准化名称转化为一个TF-IDF特征向量Q,并将所述每个标准名称分别转化为一个TF-IDF特征向量Qi;
根据Q和Qi,计算所述待标准化名称与所述每个标准名称的TF-IDF相似度Bi。
7.一种用于将医疗非标准名称标准化的装置,其特征在于,所述装置包括:
数据源收集模块,用于收集标准名称相关数据和待标准化名称,其中所述标准名称数据包括:医疗领域中的标准名称与非标准名称的对应关系数据,和医疗领域中的文本数据;
模型训练模块,用于利用所述标准名称相关数据,训练深度学习词向量模型和TF-IDF统计模型;
标准化模块,用于根据所述深度学***均法;
所述标准化模块,具体用于根据所述深度学习词向量模型,将所述待标准化名称转化为一个深度学习词向量矩阵P,并将所述每个标准名称分别转化为一个深度学习词向量矩阵Pi;计算P与Pi的乘积,得到所述待标准化名称与所述每个标准名称的深度学习词向量相似度矩阵Pi′;根据Pi′,获取所述待标准化名称中的每个词汇的最大相似度;计算所述每个词汇的最大相似度之和;将所述最大相似度之和除以所述待标准化名称中所包括的词汇的数目,所得到结果作为Ai。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711385974.6A CN109949938B (zh) | 2017-12-20 | 2017-12-20 | 用于将医疗非标准名称标准化的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711385974.6A CN109949938B (zh) | 2017-12-20 | 2017-12-20 | 用于将医疗非标准名称标准化的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109949938A CN109949938A (zh) | 2019-06-28 |
CN109949938B true CN109949938B (zh) | 2024-04-26 |
Family
ID=67004323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711385974.6A Active CN109949938B (zh) | 2017-12-20 | 2017-12-20 | 用于将医疗非标准名称标准化的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109949938B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110504028A (zh) * | 2019-08-22 | 2019-11-26 | 上海软中信息***咨询有限公司 | 一种疾病问诊方法、装置、***、计算机设备和存储介质 |
CN110781646B (zh) * | 2019-10-15 | 2023-08-22 | 泰康保险集团股份有限公司 | 名称标准化方法、装置、介质及电子设备 |
CN112907009B (zh) * | 2019-12-04 | 2023-04-18 | 贝壳技术有限公司 | 标准化模型的构建方法、装置、存储介质及设备 |
CN110956043A (zh) * | 2019-12-17 | 2020-04-03 | 人和未来生物科技(长沙)有限公司 | 基于别名标准化的领域专业词汇词嵌入向量训练方法、***及介质 |
CN110827931A (zh) * | 2020-01-13 | 2020-02-21 | 四川大学华西医院 | 一种临床术语的管理方法及装置、可读存储介质 |
CN111695016A (zh) * | 2020-06-05 | 2020-09-22 | 苏州瑞云信息技术有限公司 | 一种新的医药行业智能流向数据匹配的技术方案 |
CN112948360A (zh) * | 2021-01-26 | 2021-06-11 | 华院计算技术(上海)股份有限公司 | 一种基于字向量相似度的医疗***条目名称标准化方法及*** |
CN112988953B (zh) * | 2021-04-26 | 2021-09-03 | 成都索贝数码科技股份有限公司 | 自适应广播电视新闻关键词标准化方法 |
CN113326310B (zh) * | 2021-06-18 | 2023-04-18 | 立信(重庆)数据科技股份有限公司 | 基于nlp的调研数据标准化方法及*** |
CN113723056A (zh) * | 2021-08-19 | 2021-11-30 | 杭州火树科技有限公司 | Icd编码转化方法、装置、计算设备和存储介质 |
CN113793668A (zh) * | 2021-09-17 | 2021-12-14 | 平安科技(深圳)有限公司 | 基于人工智能的症状标准化方法、装置、电子设备及介质 |
CN116167354B (zh) * | 2023-04-19 | 2023-07-07 | 北京亚信数据有限公司 | 医疗专业名词特征提取模型训练、标准化方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110009817A (ko) * | 2009-07-23 | 2011-01-31 | (주)공영디비엠 | 회사명 데이터 표준화 관리 장치 및 방법 |
CN105183909A (zh) * | 2015-10-09 | 2015-12-23 | 福州大学 | 基于高斯混合模型的社交网络用户兴趣预测方法 |
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取***及方法 |
US9542456B1 (en) * | 2013-12-31 | 2017-01-10 | Emc Corporation | Automated name standardization for big data |
CN106844308A (zh) * | 2017-01-20 | 2017-06-13 | 天津艾登科技有限公司 | 一种使用语义识别进行自动化疾病编码转换的方法 |
CN106919793A (zh) * | 2017-02-24 | 2017-07-04 | 黑龙江特士信息技术有限公司 | 一种医疗大数据的数据标准化处理方法及装置 |
CN106933806A (zh) * | 2017-03-15 | 2017-07-07 | 北京大数医达科技有限公司 | 医疗同义词的确定方法和装置 |
KR20170133692A (ko) * | 2016-05-26 | 2017-12-06 | 아주대학교산학협력단 | 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006514620A (ja) * | 2002-11-06 | 2006-05-11 | マウント シナイ スクール オブ メディシン | ニメスリドを用いた筋萎縮性側索硬化症の治療 |
US20150213063A1 (en) * | 2014-01-27 | 2015-07-30 | Linkedin Corporation | Data standardization |
-
2017
- 2017-12-20 CN CN201711385974.6A patent/CN109949938B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110009817A (ko) * | 2009-07-23 | 2011-01-31 | (주)공영디비엠 | 회사명 데이터 표준화 관리 장치 및 방법 |
US9542456B1 (en) * | 2013-12-31 | 2017-01-10 | Emc Corporation | Automated name standardization for big data |
CN105183909A (zh) * | 2015-10-09 | 2015-12-23 | 福州大学 | 基于高斯混合模型的社交网络用户兴趣预测方法 |
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取***及方法 |
KR20170133692A (ko) * | 2016-05-26 | 2017-12-06 | 아주대학교산학협력단 | 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치 |
CN106844308A (zh) * | 2017-01-20 | 2017-06-13 | 天津艾登科技有限公司 | 一种使用语义识别进行自动化疾病编码转换的方法 |
CN106919793A (zh) * | 2017-02-24 | 2017-07-04 | 黑龙江特士信息技术有限公司 | 一种医疗大数据的数据标准化处理方法及装置 |
CN106933806A (zh) * | 2017-03-15 | 2017-07-07 | 北京大数医达科技有限公司 | 医疗同义词的确定方法和装置 |
Non-Patent Citations (3)
Title |
---|
余弦相似度在高校综合信息***中的应用;朱浩;连德富;左志宏;颜凯;东南大学学报(自然科学版)(第S1期);第123-128页 * |
基于Word2vec的微博短文本分类研究;张谦;高章敏;刘嘉勇;信息网络安全(第1期);第57-62页 * |
基于评论挖掘的药物副作用发现机制;赵明珍;程亮喜;林鸿飞;;中文信息学报(第06期);第193-202页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109949938A (zh) | 2019-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949938B (zh) | 用于将医疗非标准名称标准化的方法及装置 | |
CN107562732B (zh) | 电子病历的处理方法及*** | |
CN109522551B (zh) | 实体链接方法、装置、存储介质及电子设备 | |
CN111949759A (zh) | 病历文本相似度的检索方法、***及计算机设备 | |
CN112786194A (zh) | 基于人工智能的医学影像导诊导检***、方法及设备 | |
CN112541056B (zh) | 医学术语标准化方法、装置、电子设备及存储介质 | |
CN112541066B (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
CN112507701A (zh) | 待纠错医疗数据的识别方法、装置、设备和存储介质 | |
Li et al. | Ffa-ir: Towards an explainable and reliable medical report generation benchmark | |
CN111477320B (zh) | 治疗效果预测模型的构建***、治疗效果预测***及终端 | |
CN110600123A (zh) | 一种中医临床辅助诊断方法 | |
CN111145903A (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊*** | |
CN112860842A (zh) | 病历标注方法、装置及存储介质 | |
CN113420122A (zh) | 分析文本的方法、装置、设备及存储介质 | |
CN113435200A (zh) | 实体识别模型训练、电子病历处理方法、***及设备 | |
CN114242194A (zh) | 一种基于人工智能的医学影像诊断报告自然语言处理装置及方法 | |
CN111832306A (zh) | 基于多特征融合的影像诊断报告命名实体识别方法 | |
CN115033659A (zh) | 基于深度学习的子句级自动摘要模型***及摘要生成方法 | |
Jui et al. | A machine learning-based segmentation approach for measuring similarity between sign languages | |
Sedghi et al. | Mining clinical text for stroke prediction | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN106294751B (zh) | 基于关键词网络相关性分析的异常检查报告自动识别方法 | |
CN117422074A (zh) | 一种临床信息文本标准化的方法、装置、设备及介质 | |
CN112749277A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN116719840A (zh) | 一种基于病历后结构化处理的医疗信息推送方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |