CN109697285A - 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 - Google Patents

增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 Download PDF

Info

Publication number
CN109697285A
CN109697285A CN201811523661.7A CN201811523661A CN109697285A CN 109697285 A CN109697285 A CN 109697285A CN 201811523661 A CN201811523661 A CN 201811523661A CN 109697285 A CN109697285 A CN 109697285A
Authority
CN
China
Prior art keywords
word
vector
feature
electronic health
health record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811523661.7A
Other languages
English (en)
Other versions
CN109697285B (zh
Inventor
王建新
余颖
李敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201811523661.7A priority Critical patent/CN109697285B/zh
Publication of CN109697285A publication Critical patent/CN109697285A/zh
Application granted granted Critical
Publication of CN109697285B publication Critical patent/CN109697285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法,对输入的电子病历文本进行预处理后,考虑中文词语构成中,单个汉字包含具体语义,利用引入关注机制的BiLSTM提取字符级特征向量表示,获得单个汉字的语义及构词特征;将字符级词向量表示与利用word2vec训练得到的词语级别的向量表示进行拼接,得到字符特征增强的词语向量表示;以特征词向量表示的文本序列作为输入,再次利用BiLSTM学习整个电子病历中的上下文特征,并采用关注机制,计算各个特征词的贡献度,得到上下文特征加权的文本向量表示,提高了预测效果。本发明的方法适用于基于中文电子病历文本的疾病标签分类任务,并有效提高了分类效果。

Description

增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
技术领域
本发明涉及医学信息学领域,特别是一种增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法。
背景技术
电子健康病历(Electronic Health Records,EHRs,简称电子病历)已成为医学临床研究的重要数据资源之一。它将病人就医过程中的各种信息以数字化的数据进行存储,方便我们利用计算机来对临床数据进行分析和处理。对于一份电子病历,需要有描述病人疾病状况的统一标签规范,从而有利于将患者信息进行合理的分类以帮助临床决策。由世界卫生组织发布并持续更新的国际疾病分类编码(International Classification ofDiseases,ICD)是国际通用的疾病编码方案,它常被作为临床记录的标签,用于标识症状、体征、疾病、异常发现或操作等。目前,新修订的ICD编码第10版已被广泛应用于我国的医院信息***中。
为电子病历标注ICD编码是利用电子病历的一项重要并且基础的工作。电子病历中诊断名称与ICD编码的缺失,不利于我们对临床数据的分析研究。通常,ICD编码的标注工作由各医院病案室的医务人员根据医生给出的临床诊断描述来进行人工判别。人工编码不仅要求编码人员掌握一定的医学知识、编码规则和医学术语,而且费时费力。因此,利用计算机来进行自动编码可以为编码标注工作提供有效的辅助,提高ICD编码的标注效率。
目前大部分的疾病编码自动标注工作都基于临床文本数据来进行,如放射科的报告、死亡证明、出院小结等。但是,绝大部分的研究工作集中在英文语料上,在中文临床文本上的疾病编码预测工作较少,且主要的方法是基于诊断名称的字符串语义比对。语义相似性的比较对诊断名称描述的质量要求较高,且在诊断名称缺失的情况下无法进行自动编码标注。目前还没有相关研究工作将神经网络模型用于中文电子病历的疾病编码标注任务。
中文电子病历文本的处理有两个特点:一是电子病历文本较长,长文本的上下文信息获取较难;二是中文汉字不同于英文,单个汉字也具有语义,尤其在医学用语中,诸如方位、身体部位等都是一个汉字来描述,因此,包含字符特征的语义表示能更好的表达词的语义。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法,以端到端的方式完成自动标注,提高预测效果。
为解决上述技术问题,本发明所采用的技术方案是:
一种增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法,包括以下步骤:
1)利用中文分词工具,引入用户自定义医学临床用语词典进行分词,去除停用词,并根据词频筛选出特征词;
2)对特征词分别进行字符级别和词语级别的向量化表示,拼接字符级向量与词语级向量,构建词语的字符增强特征向量表示;
3)利用拼接后的特征词得到整个文本的上下文特征,并采用关注机制,计算各个特征词的贡献度,获得整个文本的上下文特征加权向量表示。
步骤1)中,根据以下规则选取所述特征词:其中Sfw表示特征词集合,表示词wi的频率,Nd表示电子病历样本总数。
步骤2)中,利用融合关注机制的双向LSTM训练特征词的字符级特征向量表示,利用基于词分布式表示的词向量表示方法word2vec得到特征词的词语级向量表示形式。
双向长短期记忆网络训练的输出方式为:其中表示前向LSTM在第t个单元或t时刻的隐层输出,则为后向LSTM在第t个单元的隐层输出。
关注机制的计算方式为:
uij=tanh(Wchij+bc);
hij为第i个词的第j个字符在BiLSTM训练后的隐层输出,Wc为权值矩阵,bc为偏置向量,uc为随机初始化字符级的上下文特征向量,αij为利用softmax函数计算得到的第j个字符对于第i个词的权重大小,为第i个词的上下文加权特征向量表示。
步骤3)中,计算整个文本的上下文特征加权向量的方法包括:将拼接后的特征词向量表示的文本输入第二层双向长短期记忆网络,学习得到整个文本的上下文特征,并采用关注机制,计算各个特征词的权重,得到上下文信息加权的文本特征向量。
关注机制的计算方式为:
ui=tanh(Whi+bw);
v=∑iαihi
hi是文本序列第i个词的字符加强特征向量经BiLSTM训练后得到的隐层的输出,W为权值矩阵,bw为偏置向量,在应用关注机制时,相应引入并随机初始化一个词语级别的文档上下文特征向量uw来完成权值的计算,αi为每个词对应的权重,v为整个文本的上下文加权特征向量表示,将该向量输入全连接层,由sigmoid函数计算得到每个疾病编码的出现概率。
与现有技术相比,本发明所具有的有益效果为:本发明针对中文自身特点,将单个汉字的语义特征融入词的特征向量表示,并结合关注机制,对输入序列中真正有贡献的特征词进行了加权,提高了疾病编码的预测效果;该方法适用于中文临床文本数据,利用神经网络模型自动提取文本特征,以端到端的方式完成自动标注。
附图说明
图1本发明的流程图;
图2融合关注机制的层次BiLSTM特征学习模型;
图3关注机制的计算;(a)将hij变成uij;(b)利用上下文特征向量计算每个uij的权重;(c)hij的加权求和得到应用关注机制的特征向量表示;
图4为本发明实施实验结果图。
具体实施方式
一、临床文本数据的预处理
利用中文分词工具“结巴”和用户自定义的医学词库,对输入的出院小结文本进行分词后,去除停用词,统计有效词的词频,基于词频从大到小排序后选择特征词,按以下规则选取:其中Sfw表示特征词集合,表示词wi的频率,Nd表示电子病历总数。
二、特征词的词向量表示
1)基于字符的词向量表示
首先,为每个字符初始化一个向量表示,然后输入融合关注机制的BiLSTM,训练得到每个特征词的字符级词向量表示,BiLSTM中的每个神经单元状态值ct和输出值ht具体计算过程为(t=1,2,...,n,t表示网络中的第t个神经单元或者t时刻的神经单元):
it=sigmoid(Wi[xt;ht-1]+bi) (1)
ft=sigmoid(Wf[xt;ht-1]+bf) (2)
gt=tanh(Wg[xt;ht-1]+bg) (3)
ot=sigmoid(Wo[xt;ht-1]+bo) (4)
ct=ft*ct-1+it*gt (5)
ht=ot*tanh(ct) (6)
每个神经单元包含一个输入门i,一个输出门o,一个遗忘门f,一个存储单元g,一个保存状态的单元c和一个隐藏状态h,它们均为向量,Wi,Wf,Wg,Wo为权值矩阵,bi,bf,bg,bo为偏置向量,“;”表示连接运算,“*”表示元素点乘,sigmoid函数的计算为tanh函数的计算为BiLSTM的输出方式为
2)注意力机制的应用
关注机制计算方法为:
uij=tanh(Wchij+bc) (7)
hij为第i个词的第j个字符在BiLSTM训练后的隐层输出,Wc为权值矩阵,bc为偏置向量,uc为随机初始化字符级的上下文特征向量,αij即为利用softmax函数计算得到的第j个字符对于第i个词的权重大小,即为第i个词的上下文加权特征向量表示。
3)将训练得到的字符级词向量与使用word2vec生成的词向量进行拼接,得到字符级上下文特征加强的词特征向量。
三、上下文特征提取
将字符加强的特征向量序列输入第二层融合关注机制的BiLSTM,提取文本上下文信息特征,BiLSTM神经单元的计算和上下文特征加权的计算,与字符级词向量表示时的相同,具体的计算公式如下:
ui=tanh(Whi+bw) (10)
v=∑iαihi (12)
hi是文本序列第i个词的字符加强特征向量经BiLSTM训练后得到的隐层的输出,W为权值矩阵,bw为偏置向量,在应用关注机制时,相应引入并随机初始化一个词语级别的文档上下文特征向量uw来完成权值的计算,αi为每个词对应的权重,v为整个文本的上下文加权特征向量表示,将该向量输入全连接层,由sigmoid函数计算得到每个疾病编码的出现概率。
四、实验验证
1)实验过程
为了验证本方法的有效性,我们在真实的中文电子病历临床数据上进行了实验验证。该数据集包含7732个出院记录,共涉及1177个ICD-10疾病编码标签,ICD-10编码是由字母和数字组成的点分六位编码,以字母开头,前三位编码为一级编码,指明疾病类目。出院小结的平均长度为610个词语,平均每个出院小结对应3.6个疾病编码。
实验在一台服务器上完成,该服务器包含256GB内存和NVIDIA GeForce Titan XPascal CUDA GPU处理器。我们将数据集按照9:1的比例分为训练集和测试集,并通过十次随机打乱数据进行了验证。评价指标选择了微平均的精确度(P)、召回率(R)和两者综合的指标F1值,以及从样本的角度评价误报情况的Hamming损失值。F1值越高、Hamming损失值越低说明模型性能越好。
2)实验结果
因相关研究工作已指出了深度学习方法优于传统的机器学习方法,我们主要与其他常见的神经网络模型进行了对比实验,结果如表1所示,MA-BiLSTM表示我们的模型,D2V+CNN为相关研究工作中的方法,该方法在公开的英文数据集MIMIC III上取得目前最好效果。实验结果表明MA-BiLSTM在各项评价指标上均优于其他神经网络模型,说明结合关注机制的BiLSTM能够有效捕获长文本的上下文信息特征,并提高预测效果。
表1对比实验结果
Model Micro_P(CI:95%) Micro_R(CI:95%) Micro_F1(CI:95%) hLoss(CI:95%)
CBOW 0.614(±6.43e-03) 0.522(±5.30e-03) 0.564(±4.52e-03) 0.00248(±3.14e-05)
CNN 0.647(±6.67e-03) 0.509(±6.51e-03) 0.569(±4.71e-03) 0.00237(±3.52e-05)
D2V+CNN 0.661(±9.57e-03) 0.514(±8.74e-03) 0.579(±7.14e-03) 0.00231(±3.70e-05)
MA-BiLSTM 0.704(±1.13e-02) 0.586(±5.84e-03) 0.639(±4.45e-03) 0.00204(±3.47e-05)
为分析模型各个模块的发挥的作用,我们设计了消融实验进行分析,结果如表2所示。从实验结果看,仅有词向量或字符向量表示文本中词语的特征,预测结果都发生了下降,因此,字符向量加强的词向量表示确实带来了更好的文本特征表示。关注机制在模型中起到了重要作用,去掉了关注机制,模型的性能下降明显。
在ICD-10全编码和一级编码上均进行了预测,7732个样本,对应一级编码为488个。实验结果如图4所示。一级编码上的预测结果在精确度上达到了80.5%,能较好的辅助病案室医务人员的疾病编码标注工作。
表2模型消融实验结果

Claims (7)

1.一种增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法,其特征在于,包括以下步骤:
1)利用中文分词工具,引入用户自定义医学临床用语词典进行分词,去除停用词,并根据词频筛选出特征词;
2)对特征词分别进行字符级别和词语级别的向量化表示,拼接字符级向量与词语级向量,构建词语的字符增强特征向量表示;
3)利用拼接后的特征词得到整个文本的词向量表示序列,并采用关注机制,计算各个特征词的贡献度,获得整个文本的上下文特征加权向量表示。
2.根据权利要求1所述的增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法,其特征在于,步骤1)中,根据以下规则选取所述特征词:其中Sfw表示特征词集合,表示词wi的频率,Nd表示电子病历样本总数。
3.根据权利要求1所述的增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法,其特征在于,步骤2)中,利用融合关注机制的BiLSTM训练特征词的字符级特征向量表示,利用基于词分布式表示的词向量表示方法word2vec得到特征词的词语级向量表示形式。
4.根据权利要求3所述的增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法,其特征在于,BiLSTM的输出方式为:其中表示前向LSTM在第t个单元或t时刻的隐层输出,则为后向LSTM在第t个单元的隐层输出。
5.根据权利要求3所述的增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法,其特征在于,关注机制的计算方式为:
uij=tanh(Wchij+bc);
hij为第i个词的第j个字符在BiLSTM训练后的隐层输出,Wc为权值矩阵,bc为偏置向量,uc为随机初始化字符级的上下文特征向量,αij为利用softmax函数计算得到的第j个字符对于第i个词的权重大小,为第i个词的上下文加权特征向量表示。
6.根据权利要求1所述的增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法,其特征在于,步骤3)中,计算整个文本的上下文特征加权向量的方法包括:将拼接后的特征词向量表示的文本输入第二层双向长短期记忆网络,学习得到整个文本的上下文特征,并采用关注机制,计算各个特征词的权重,得到上下文信息加权的文本特征向量。
7.根据权利要求6所述的增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法,其特征在于,关注机制的计算方式为:
ui=tanh(Whi+bw);
v=∑iαihi
hi是文本序列第i个词的字符加强特征向量经BiLSTM训练后得到的隐层的输出,W为权值矩阵,bw为偏置向量,在应用关注机制时,相应引入并随机初始化一个词语级别的文档上下文特征向量uw来完成权值的计算,αi为每个词对应的权重,v为整个文本的上下文加权特征向量表示,将该向量输入全连接层,由sigmoid函数计算得到每个疾病编码的出现概率。
CN201811523661.7A 2018-12-13 2018-12-13 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 Active CN109697285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811523661.7A CN109697285B (zh) 2018-12-13 2018-12-13 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811523661.7A CN109697285B (zh) 2018-12-13 2018-12-13 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法

Publications (2)

Publication Number Publication Date
CN109697285A true CN109697285A (zh) 2019-04-30
CN109697285B CN109697285B (zh) 2022-06-21

Family

ID=66231615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811523661.7A Active CN109697285B (zh) 2018-12-13 2018-12-13 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法

Country Status (1)

Country Link
CN (1) CN109697285B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427610A (zh) * 2019-06-25 2019-11-08 平安科技(深圳)有限公司 文本分析方法、装置、计算机装置及计算机存储介质
CN110491499A (zh) * 2019-07-10 2019-11-22 厦门大学 面向标注电子病历的临床辅助决策方法及***
CN110491465A (zh) * 2019-08-20 2019-11-22 山东众阳健康科技集团有限公司 基于深度学习的疾病分类编码方法、***、设备及介质
CN110633470A (zh) * 2019-09-17 2019-12-31 北京小米智能科技有限公司 命名实体识别方法、装置及存储介质
CN110781407A (zh) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 用户标签生成方法、装置及计算机可读存储介质
CN110837494A (zh) * 2019-10-12 2020-02-25 云知声智能科技股份有限公司 一种识别病历首页未特指诊断编码错误的方法及装置
CN110867231A (zh) * 2019-11-18 2020-03-06 中山大学 基于文本分类的疾病预测方法、装置、计算机设备及介质
CN110866401A (zh) * 2019-11-18 2020-03-06 山东健康医疗大数据有限公司 基于注意力机制的中文电子病历命名实体识别方法及***
CN110895580A (zh) * 2019-12-12 2020-03-20 山东众阳健康科技集团有限公司 一种基于深度学习的icd手术与操作编码自动匹配方法
CN111429204A (zh) * 2020-03-10 2020-07-17 携程计算机技术(上海)有限公司 酒店推荐方法、***、电子设备和存储介质
CN112052646A (zh) * 2020-08-27 2020-12-08 安徽聚戎科技信息咨询有限公司 一种文本数据标注方法
CN112183104A (zh) * 2020-08-26 2021-01-05 望海康信(北京)科技股份公司 编码推荐方法、***及相应设备和存储介质
CN112185564A (zh) * 2020-10-20 2021-01-05 福州数据技术研究院有限公司 一种基于结构化电子病历的眼科疾病预测方法和存储设备
CN112259260A (zh) * 2020-11-18 2021-01-22 中国科学院自动化研究所 基于智能穿戴设备的智能医疗问答方法、***及装置
CN112380863A (zh) * 2020-10-29 2021-02-19 国网天津市电力公司 一种基于多头自注意力机制的序列标注方法
WO2021057133A1 (zh) * 2019-09-24 2021-04-01 北京国双科技有限公司 一种文档分类模型训练的方法和相关装置
CN112632911A (zh) * 2021-01-04 2021-04-09 福州大学 基于字符嵌入的汉字编码方法
CN112732915A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 情感分类方法、装置、电子设备及存储介质
CN113012774A (zh) * 2019-12-18 2021-06-22 医渡云(北京)技术有限公司 病案自动编码方法、装置、电子设备及存储介质
CN113593709A (zh) * 2021-07-30 2021-11-02 江先汉 一种疾病编码方法、***、可读存储介质及装置
CN116884630A (zh) * 2023-09-06 2023-10-13 深圳达实旗云健康科技有限公司 一种提高疾病自动编码效率的方法
CN116955628A (zh) * 2023-08-08 2023-10-27 武汉市万睿数字运营有限公司 一种投诉事件分类方法、装置、计算机设备及存储介质
CN117438024A (zh) * 2023-12-15 2024-01-23 吉林大学 急诊病人体征数据的智能采集分析***及方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080288292A1 (en) * 2007-05-15 2008-11-20 Siemens Medical Solutions Usa, Inc. System and Method for Large Scale Code Classification for Medical Patient Records
WO2015084615A1 (en) * 2013-12-03 2015-06-11 3M Innovative Properties Company Constraint-based medical coding
US20160132648A1 (en) * 2014-11-06 2016-05-12 ezDI, LLC Data Processing System and Method for Computer-Assisted Coding of Natural Language Medical Text
CN106484674A (zh) * 2016-09-20 2017-03-08 北京工业大学 一种基于深度学习的中文电子病历概念抽取方法
CN106844308A (zh) * 2017-01-20 2017-06-13 天津艾登科技有限公司 一种使用语义识别进行自动化疾病编码转换的方法
EP3273373A1 (en) * 2016-07-18 2018-01-24 Fresenius Medical Care Deutschland GmbH Drug dosing recommendation
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN107731269A (zh) * 2017-10-25 2018-02-23 山东众阳软件有限公司 基于原始诊断数据和病历文件数据的疾病编码方法及***
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080288292A1 (en) * 2007-05-15 2008-11-20 Siemens Medical Solutions Usa, Inc. System and Method for Large Scale Code Classification for Medical Patient Records
WO2015084615A1 (en) * 2013-12-03 2015-06-11 3M Innovative Properties Company Constraint-based medical coding
US20160132648A1 (en) * 2014-11-06 2016-05-12 ezDI, LLC Data Processing System and Method for Computer-Assisted Coding of Natural Language Medical Text
EP3273373A1 (en) * 2016-07-18 2018-01-24 Fresenius Medical Care Deutschland GmbH Drug dosing recommendation
CN106484674A (zh) * 2016-09-20 2017-03-08 北京工业大学 一种基于深度学习的中文电子病历概念抽取方法
CN106844308A (zh) * 2017-01-20 2017-06-13 天津艾登科技有限公司 一种使用语义识别进行自动化疾病编码转换的方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN107731269A (zh) * 2017-10-25 2018-02-23 山东众阳软件有限公司 基于原始诊断数据和病历文件数据的疾病编码方法及***
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AITZIBER ATUTXA: "Machine Learning Approaches on Diagnostic Term Encoding With the ICD for Clinical Documentation", 《IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS》 *
HAORAN SHI ET AL: "Towards Automated ICD Coding Using Deep Learning", 《HTTPS://ARXIV.ORG/ABS/1711.04075V3》 *
MIN LI ET AL: "Automated ICD-9 Coding via A Deep Learning Approach", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 *
TAL BAUMEL ET AL: "Multi-Label Classification of Patient Notes: Case Study on ICD Code Assignment", 《HTTPS://ARXIV.ORG/ABS/1709.09587》 *
钟楠祎: "基于深度学习的数据特征的提取与预测研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427610A (zh) * 2019-06-25 2019-11-08 平安科技(深圳)有限公司 文本分析方法、装置、计算机装置及计算机存储介质
CN110491499A (zh) * 2019-07-10 2019-11-22 厦门大学 面向标注电子病历的临床辅助决策方法及***
CN110491465A (zh) * 2019-08-20 2019-11-22 山东众阳健康科技集团有限公司 基于深度学习的疾病分类编码方法、***、设备及介质
WO2021032219A3 (zh) * 2019-08-20 2021-04-15 山东众阳健康科技集团有限公司 基于深度学习的疾病分类编码方法、***、设备及介质
CN110633470A (zh) * 2019-09-17 2019-12-31 北京小米智能科技有限公司 命名实体识别方法、装置及存储介质
WO2021057133A1 (zh) * 2019-09-24 2021-04-01 北京国双科技有限公司 一种文档分类模型训练的方法和相关装置
CN110837494B (zh) * 2019-10-12 2022-03-25 云知声智能科技股份有限公司 一种识别病历首页未特指诊断编码错误的方法及装置
CN110837494A (zh) * 2019-10-12 2020-02-25 云知声智能科技股份有限公司 一种识别病历首页未特指诊断编码错误的方法及装置
CN110781407A (zh) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 用户标签生成方法、装置及计算机可读存储介质
CN110867231A (zh) * 2019-11-18 2020-03-06 中山大学 基于文本分类的疾病预测方法、装置、计算机设备及介质
CN110866401A (zh) * 2019-11-18 2020-03-06 山东健康医疗大数据有限公司 基于注意力机制的中文电子病历命名实体识别方法及***
CN110895580A (zh) * 2019-12-12 2020-03-20 山东众阳健康科技集团有限公司 一种基于深度学习的icd手术与操作编码自动匹配方法
CN113012774A (zh) * 2019-12-18 2021-06-22 医渡云(北京)技术有限公司 病案自动编码方法、装置、电子设备及存储介质
CN111429204A (zh) * 2020-03-10 2020-07-17 携程计算机技术(上海)有限公司 酒店推荐方法、***、电子设备和存储介质
CN112183104A (zh) * 2020-08-26 2021-01-05 望海康信(北京)科技股份公司 编码推荐方法、***及相应设备和存储介质
CN112183104B (zh) * 2020-08-26 2024-06-14 望海康信(北京)科技股份公司 编码推荐方法、***及相应设备和存储介质
CN112052646B (zh) * 2020-08-27 2024-03-29 安徽聚戎科技信息咨询有限公司 一种文本数据标注方法
CN112052646A (zh) * 2020-08-27 2020-12-08 安徽聚戎科技信息咨询有限公司 一种文本数据标注方法
CN112185564A (zh) * 2020-10-20 2021-01-05 福州数据技术研究院有限公司 一种基于结构化电子病历的眼科疾病预测方法和存储设备
CN112185564B (zh) * 2020-10-20 2022-09-06 福州数据技术研究院有限公司 一种基于结构化电子病历的眼科疾病预测方法和存储设备
CN112380863A (zh) * 2020-10-29 2021-02-19 国网天津市电力公司 一种基于多头自注意力机制的序列标注方法
CN112259260A (zh) * 2020-11-18 2021-01-22 中国科学院自动化研究所 基于智能穿戴设备的智能医疗问答方法、***及装置
CN112259260B (zh) * 2020-11-18 2023-11-17 中国科学院自动化研究所 基于智能穿戴设备的智能医疗问答方法、***及装置
CN112732915A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 情感分类方法、装置、电子设备及存储介质
CN112632911A (zh) * 2021-01-04 2021-04-09 福州大学 基于字符嵌入的汉字编码方法
CN112632911B (zh) * 2021-01-04 2022-05-13 福州大学 基于字符嵌入的汉字编码方法
CN113593709B (zh) * 2021-07-30 2022-09-30 江先汉 一种疾病编码方法、***、可读存储介质及装置
CN113593709A (zh) * 2021-07-30 2021-11-02 江先汉 一种疾病编码方法、***、可读存储介质及装置
CN116955628A (zh) * 2023-08-08 2023-10-27 武汉市万睿数字运营有限公司 一种投诉事件分类方法、装置、计算机设备及存储介质
CN116955628B (zh) * 2023-08-08 2024-05-03 武汉市万睿数字运营有限公司 一种投诉事件分类方法、装置、计算机设备及存储介质
CN116884630A (zh) * 2023-09-06 2023-10-13 深圳达实旗云健康科技有限公司 一种提高疾病自动编码效率的方法
CN117438024A (zh) * 2023-12-15 2024-01-23 吉林大学 急诊病人体征数据的智能采集分析***及方法
CN117438024B (zh) * 2023-12-15 2024-03-08 吉林大学 急诊病人体征数据的智能采集分析***及方法

Also Published As

Publication number Publication date
CN109697285B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN109697285A (zh) 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及***
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN111192680B (zh) 一种基于深度学习和集成分类的智能辅助诊断方法
CN106844308B (zh) 一种使用语义识别进行自动化疾病编码转换的方法
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN108182295A (zh) 一种企业知识图谱属性抽取方法及***
CN109635280A (zh) 一种基于标注的事件抽取方法
CN109508459B (zh) 一种从新闻中提取主题和关键信息的方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN108399163A (zh) 结合词聚合与词组合语义特征的文本相似性度量方法
CN109522557A (zh) 文本关系抽取模型的训练方法、装置及可读存储介质
CN109003677B (zh) 病历数据结构化分析处理方法
CN110134946A (zh) 一种针对复杂数据的机器阅读理解方法
CN110321563A (zh) 基于混合监督模型的文本情感分析方法
CN108563725A (zh) 一种中文症状体征构成识别方法
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN108345583A (zh) 基于多语注意力机制的事件识别及分类方法及装置
CN110298036A (zh) 一种基于词性增量迭代的在线医疗文本症状识别方法
Li et al. Recurrent neural networks with specialized word embedding for Chinese clinical named entity recognition
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN111859938B (zh) 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法
CN110046356A (zh) 标签嵌入在微博文本情绪多标签分类中的应用研究
CN108920446A (zh) 一种工程文本的处理方法
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant