CN111178047B - 基于层次序列标注的古代医案处方抽取方法 - Google Patents

基于层次序列标注的古代医案处方抽取方法 Download PDF

Info

Publication number
CN111178047B
CN111178047B CN201911347473.8A CN201911347473A CN111178047B CN 111178047 B CN111178047 B CN 111178047B CN 201911347473 A CN201911347473 A CN 201911347473A CN 111178047 B CN111178047 B CN 111178047B
Authority
CN
China
Prior art keywords
prescription
labeling
sequence
name
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911347473.8A
Other languages
English (en)
Other versions
CN111178047A (zh
Inventor
张引
熊海辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911347473.8A priority Critical patent/CN111178047B/zh
Publication of CN111178047A publication Critical patent/CN111178047A/zh
Application granted granted Critical
Publication of CN111178047B publication Critical patent/CN111178047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于层次序列标注的古代医案处方抽取方法,采用BERT+CRF的层次序列标注网络,包括输入层、特征抽取层、全连接层、药与方剂名预测CRF层、处方预测CRF层。首先,本发明不需要对医案进行分句,直接以完整的医案作为输入,避免了分句造成的错误传播。其次,以序列标注的形式获得处方文本,直接获取最相关的文本片段。最后,在识别过程中考虑了药名和方剂名的信息,增强了处方抽取过程中的特征表示,获得了更好的效果,能够利用少量人工标注的数据来识别古代医案中的处方文本;本发明还设计了一种适用于模型挑选的基于BLEU的评价指标方法,用以量化模型抽取结果与标注结果之间的匹配层度,获取最佳模型。

Description

基于层次序列标注的古代医案处方抽取方法
技术领域
本发明涉及深度学习中的预训练语言模型,条件随机场。具体为一种基于层次序列标注的古代医案处方抽取方法。
背景技术
中医医案记录了病人治疗疾病的完整过程,包括治疗期间的病证、处方用药等内容。但是,由于古代医家所处时代、个人风格等原因,导致古代医案内容繁简不一,格式差异较大。这为医案内容的格式化处理、数字化带来了困难。对于中医学者以及中医爱好者而言,从医案中学习过去医家的治疗经验是学习治疗思想的一个重要途径。为此,如何对古代医案进行文本的格式化尤为重要。医案结构化的目的是从无结构的医案文本中识别出药、方、病、症、证和处方等内容,从而形成结构化的医案数据资源。结构化的医案有助于计算机存储、检索,从而更好的对医案进行浏览。此外,结构化的医案有助于进行医案数据的挖掘研究,对于中医爱好者以及研究者而言具有重要的意义。
处方抽取是医案结构化中的任务之一,其基本目的在于从无结构的医案文本中识别并抽取出处方文本片段。一种现有的解决办法是以句子为粒度,通过分类的方式进行处方的识别。该方法首先将医案进行分句,每个句子可以标注为是处方或者不是处方两种情况,从而可以建立一个二分类的模型进行句子分类,最终得到代表处方的句子。这种方法存在两个问题:(1)分句基于规则进行,容易存在错误导致错误传播;(2)以句子为粒度进行分类太粗略,有的处方仅是句子的一部分内容,而不是整个完整的句子都是处方。因此,为了更好地实现古代医案处方抽取任务,主要涉及的技术难点如下:
1.如何设计模型抽取长文本片段;
2.如何减少标注成本,减少标注压力,仅使用少量的标注数据来实现处方抽取;
3.如何设计评价指标量化模型的效果。
发明内容
为了解决上述问题,本发明提出了一种层次序列标注模型进行处方抽取,以序列标注的形式来解决处方抽取问题。首先,以完整的医案内容作为输入,避免了分句造成的错误传播。其次,以序列标注的形式获得处方文本,可以直接获取最相关的文本片段,识别的内容更加精准。最后,在识别过程中考虑了药名和方剂名的信息,增强了处方抽取过程中的特征表示,获得了更好的效果,能够利用少量人工标注的数据来识别古代医案中的处方文本。
为了实现上述目的,本发明采用如下的技术方案:
一种基于层次序列标注的古代医案处方抽取方法,步骤如下:
1)采集权威的医案数据资源,通过OCR工具抽取出医案正文信息;
2)采用数据标注工具对部分医案正文中的处方数据、药名和方剂名进行标注,得到包含两个标注序列的人工标注数据,其中一个是处方标注序列,另一个是药名和方剂名标注序列;所述的两个标注序列均采用BIO标签体系,其中B表示处方、药名和方剂名的开始部分,I表示处方、药名和方剂名的中间部分,O表示不是处方、药名和方剂名的部分;
3)将未标注的医案正文进行分句,过滤字数少于预设阈值的句子,得到预训练语料;将预训练语料用于BERT模型进行模型参数微调;
4)建立BERT+CRF的层次序列标注网络,包括输入层、特征抽取层、全连接层、药与方剂名预测CRF层、处方预测CRF层,所述的特征抽取层采用步骤3)训练好的BERT模型;加载微调后的BERT参数,并利用步骤2)得到的人工标注数据对BERT+CRF的层次序列标注网络进行训练,采用基于BLEU的评价指标方法,将层次序列标注网络处方预测CRF层输出的处方内容预测的BIO标签序列解码得到的处方内容与人工标注结果进行匹配分数的计算,选择匹配分数最高的模型对应的网络参数,得到BERT+CRF的层次序列标注模型;
5)将待处理的医案正文输入步骤4)得到的BERT+CRF的层次序列标注模型中,输出处方内容预测的BIO标签序列,从BIO标签序列中解码出所有的BI序列,BI序列对应的文字内容即为抽取出的处方内容。
进一步的,本发明设计了一种基于BLEU的评价指标方法,用以量化模型抽取结果与标注结果之间的匹配层度,所述的基于BLEU的评价指标方法具体为:
在训练过程中,将层次序列标注网络处方预测CRF层输出的处方内容预测的BIO标签序列进行解码,得到所有的BI序列,根据BI序列对应的文字内容得到处方内容,表示为pred=[p1,p2,...,pi,...,pn];人工标注结果表示为label=[t1,t2,...,tj,...,tm],其中pi和tj均为文本字符串,n表示处方内容的数量,m表示人工标注的处方内容的数量;
定义N=min(m,n),T=max(m,n),采用BLEU法计算{pi,tj}的相关度,i=1,2,…,n,j=1,2,…,n;枚举所有N个不同行不同列的相关度的和,将最大值作为分子,将T作为分母,计算得到最终的匹配分数,计算公式为:
Figure GDA0003116818170000031
其中,matrix_sum表示所有的N个不同行不同列的相关度的和。
进一步的,所述的BERT+CRF的层次序列标注网络包括输入层、特征抽取层、全连接层、药与方剂名预测CRF层和处方预测CRF层,所述的特征抽取层采用步骤3)训练好的BERT模型;
输入层将输入的字序列映射为对应的ID序列;BERT模型以ID序列为输入,得到每个ID序列对应的特征表示,该特征长度为768维;将每个ID序列对应的特征表示分别输入到两个全连接层进行特征转换,特征降维为3维的特征,其中通过全连接层1转换的特征为药与方剂名特征,经过全连接层2转换的特征为处方特征;将全连接层1输出的药与方剂名特征输入药与方剂名预测CRF层,得到药与方剂名预测的BIO标签序列,将全连接层2输出的处方特征和全连接层1输出的药与方剂名特征相加作为新的特征,输入处方预测CRF层,得到处方内容预测的BIO标签序列。
本发明具备的有益效果:
(1)本发明通过序列标注的方式,在对BERT+CRF的层次序列标注网络进行训练时,不需要对医案进行分句,直接以完整的医案作为输入,直接识别最相关的文本片段,避免了错误传播问题;抽取的处方内容更精准和干净,不包含不相关的文本信息;
(2)本发明使用自然语言处理技术中的预训练语言模型来获得字表征,可以利用大规模的无标注文本中进行预训练,学习通用的语义、语法,减少了标注成本和标注压力,仅使用少量的标注数据来实现处方抽取;
(3)本发明充分利用药名、方剂名信息进行处方识别,对处方识别起到很好的辅助作用,增强了处方抽取过程中的特征表示,获得了更好的效果;
(4)本发明设计了一种基于BLEU的评价指标方法,用以量化模型抽取结果与标注结果之间的匹配层度,用于在训练过程中获取最佳模型。
附图说明
图1为基于层次序列标注的模型结构图;
图2为评价指标说明图。
具体实施方式
以下结合具体实例对本发明做详细说明。
在当前的信息抽取任务中,目标主要集中在如何抽取文本的命名实体,并且命名实体通常很短,处方文本抽取相比,处方文本通常为很长的一段用药序列。为此,本发明提出了两个方法,一个是基于层次序列标注的方式进行处方抽取。把处方抽取当作序列标注问题,并且以BIO标签体系标记出处方对应的片段。另一种是基于边界预测的方法,即预测处方片段在文本中的开始位置和结束位置。我们通过大量实验,证明了基于层次序列标注的方案要优于基于边界预测的方法,因此最终采用基于层次序列标注的方式进行处方抽取。
由于中医邻域的数据标注需要标注人员具备基本的专业领域知识,因而导致处方标注数据难以获取。为了解决这方面的问题,本发明使用自然语言处理技术中的预训练语言模型来获得字表征,能够在大规模的无标注文本中进行预训练,学习通用的语义、语法。然后再通过中医领域的无标注数据进行微调,获得更好的领域相关的字表征,最后再通过标注数据进行训练;减少了标注成本和标注压力,仅使用少量的标注数据来实现处方抽取。
如图1所示,本发明提出的一种基于层次序列标注的古代医案处方抽取方法,所采用的基于层次序列标注网络为BERT+CRF的层次序列标注网络,包括输入层、BERT模型、全连接层、药与方剂名预测CRF层和处方预测CRF层;
输入层将输入的字序列映射为对应的ID序列;BERT模型以ID序列为输入,得到每个ID序列对应的特征表示,该特征长度为768维;将每个ID序列对应的特征表示分别输入到两个全连接层进行特征转换,特征降维为3维的特征,其中通过全连接层1转换的特征为药与方剂名特征,经过全连接层2转换的特征为处方特征;将全连接层1输出的药与方剂名特征输入药与方剂名预测CRF层,得到药与方剂名预测的BIO标签序列,将全连接层2输出的处方特征和全连接层1输出的药与方剂名特征相加作为新的特征,输入处方预测CRF层,得到处方内容预测的BIO标签序列。
在本发明的一个具体实施例中,采用上述BERT+CRF的层次序列标注网络对古代医案处方进行抽取,步骤如下:
步骤一、通过OCR将中医医案相关的经典书籍,如《二续名医类案》进行扫描处理,转换为文本信息,在扫描过程中,***相关的标记,标记医案相关的科室,疾病,正文等内容。
步骤二、通过医案处方标注工具,使用BIO标签体系,标注出部分医案文本中的处方文本片段,获取人工标注数据,包含两个标注序列,其中一个是处方标注序列,另一个是药名和方剂名标注序列;所述的两个标注序列均采用BIO标签体系,在标注过程中,每个字对应BIO标签中的一个,其中B表示处方、药名和方剂名的开始部分,I表示处方、药名和方剂名的中间部分,O表示不是处方、药名和方剂名的部分;
例如,对于文本:“投以玉屏风散加桂枝芍药以益卫固表其汗自止服之甚效”,其对应的处方标注序列的标注结果和药、方剂名标注结果为:
Figure GDA0003116818170000051
步骤三、预训练语料的准备。将未标注的医案正文进行分句,过滤字数少于5个字的句子,得到预训练语料;预训练语料用于对BERT模型进行预训练微调。语料格式为:每行为一个文本,每篇医案当作一个文档,在语料中通过空行隔开。
在本发明的一个具体实施例中,语料格式如下:
Figure GDA0003116818170000052
Figure GDA0003116818170000061
其中,1-6行表示一篇医案的内容,每行为一个句子,8到10行表示另一篇医案,医案间以空行隔开。
步骤四、加载微调后的BERT参数,并利用人工标注数据对BERT+CRF的层次序列标注网络进行训练,采用基于BLEU的评价指标方法,在训练过程中,将层次序列标注网络处方预测CRF层输出的处方内容预测的BIO标签序列进行解码,得到所有的BI序列,根据BI序列对应的文字内容得到处方内容,表示为pred=[p1,p2,...,pi,...,pn];人工标注结果表示为label=[t1,t2,...,tj,...,tm],其中pi和tj均为文本字符串,n表示处方内容的数量,m表示人工标注的处方内容的数量;
如图2所示为评价指标说明图,其中A为预测的处方内容的数量少于人工标注的处方内容的数量,B为预测的处方内容的数量等于人工标注的处方内容的数量,C为预测的处方内容的数量大于人工标注的处方内容的数量;由于预测的处方内容的数量和人工标注的处方内容的数量可能会存在数量不同的情况,在计算评价指标的时候,需要考虑预测结果少于和大于标注数量时的惩罚措施,因此定义N=min(m,n),T=max(m,n),采用BLEU法计算{pi,tj}的相关度,i=1,2,…,n,j=1,2,…,n;枚举所有N个不同行不同列的相关度的和,将最大值作为分子,将T作为分母,计算得到最终的匹配分数,计算公式为:
Figure GDA0003116818170000062
其中,matrix_sum表示所有的N个不同行不同列的相关度的和。选择匹配分数最高的模型对应的网络参数,得到BERT+CRF的层次序列标注模型;将待处理的医案正文输入BERT+CRF的层次序列标注模型中,输出处方内容预测的BIO标签序列,从BIO标签序列中解码出所有的BI序列,BI序列对应的文字内容即为抽取出的处方内容,获得最终的处方抽取结果。
对于医案“……按脉沉迟细此气虚表弱易感风寒阳虚不能卫外故津液不固易泄而且畏风非疟症也。投以玉屏风散加桂枝芍药以益卫固表其汗自止服之甚效。更以原方去桂枝加人参熟附叠服数帖脉旺气充皮衣尽脱。……”,基于句子分类的抽取结果为(其中每个句子后面括号内容为识别结果,省略号表示省略部分前后文):
Figure GDA0003116818170000071
基于层次序列标注方法的抽取结果为(其中,下划线内容为处方文本片段,省略号表示省略部分前后文):
Figure GDA0003116818170000072
本发明不需要对医案进行分句,直接以完整的医案作为输入,避免了分句造成的错误传播;以序列标注的形式获得处方文本,直接获取最相关的文本片段;最后在识别过程中考虑了药名和方剂名的信息,增强了处方抽取过程中的特征表示,获得了更好的效果,能够利用少量人工标注的数据来识别古代医案中的处方文本,相比基于句子分类的抽取结果,本发明抽取的处方内容更精准和干净,不包含不相关的文本信息。
以上实施例仅表达了本发明的一种具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (2)

1.一种基于层次序列标注的古代医案处方抽取方法,其特征在于,步骤如下:
1)采集权威的医案数据资源,通过OCR工具抽取出医案正文信息;
2)采用数据标注工具对部分医案正文中的处方数据、药名和方剂名进行标注,得到包含两个标注序列的人工标注数据,其中一个是处方标注序列,另一个是药名和方剂名标注序列;所述的两个标注序列均采用BIO标签体系,其中B表示处方、药名和方剂名的开始部分,I表示处方、药名和方剂名的中间部分,O表示不是处方、药名和方剂名的部分;
3)将未标注的医案正文进行分句,过滤字数少于预设阈值的句子,得到预训练语料;将预训练语料用于BERT模型进行模型参数微调;
4)建立BERT+CRF的层次序列标注网络,包括输入层、特征抽取层、全连接层、药与方剂名预测CRF层、处方预测CRF层,所述的特征抽取层采用步骤3)训练好的BERT模型;加载微调后的BERT参数,并利用步骤2)得到的人工标注数据对BERT+CRF的层次序列标注网络进行训练,采用基于BLEU的评价指标方法,将层次序列标注网络处方预测CRF层输出的处方内容预测的BIO标签序列解码得到的处方内容与人工标注结果进行匹配分数的计算,选择匹配分数最高的模型对应的网络参数,得到BERT+CRF的层次序列标注模型;
所述的基于BLEU的评价指标方法具体为:
在训练过程中,将层次序列标注网络处方预测CRF层输出的处方内容预测的BIO标签序列进行解码,得到所有的BI序列,根据BI序列对应的文字内容得到处方内容,表示为pred=[p1,p2,...,pi,...,pn];人工标注结果表示为label=[t1,t2,...,tj,...,tm],其中pi和tj均为文本字符串,n表示处方内容的数量,m表示人工标注的处方内容的数量;
定义N=min(m,n),T=max(m,n),采用BLEU法计算{pi,tj}的相关度,i=1,2,…,n,j=1,2,…,m;枚举所有N个不同行不同列的相关度的和,将最大值作为分子,将T作为分母,计算得到最终的匹配分数,计算公式为:
Figure FDA0003138693110000011
其中,matrix_sum表示所有的N个不同行不同列的相关度的和;
5)将待处理的医案正文输入步骤4)得到的BERT+CRF的层次序列标注模型中,输出处方内容预测的BIO标签序列,从BIO标签序列中解码出所有的BI序列,BI序列对应的文字内容即为抽取出的处方内容。
2.如权利要求1所述的一种基于层次序列标注的古代医案处方抽取方法,其特征在于,所述的BERT+CRF的层次序列标注网络的输入层将输入的字序列映射为对应的ID序列;BERT模型以ID序列为输入,得到每个ID序列对应的特征表示,该特征长度为768维;将每个ID序列对应的特征表示分别输入到两个全连接层进行特征转换,特征降维为3维的特征,其中通过全连接层1转换的特征为药与方剂名特征,经过全连接层2转换的特征为处方特征;将全连接层1输出的药与方剂名特征输入药与方剂名预测CRF层,得到药与方剂名预测的BIO标签序列,将全连接层2输出的处方特征和全连接层1输出的药与方剂名特征相加作为新的特征,输入处方预测CRF层,得到处方内容预测的BIO标签序列。
CN201911347473.8A 2019-12-24 2019-12-24 基于层次序列标注的古代医案处方抽取方法 Active CN111178047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911347473.8A CN111178047B (zh) 2019-12-24 2019-12-24 基于层次序列标注的古代医案处方抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911347473.8A CN111178047B (zh) 2019-12-24 2019-12-24 基于层次序列标注的古代医案处方抽取方法

Publications (2)

Publication Number Publication Date
CN111178047A CN111178047A (zh) 2020-05-19
CN111178047B true CN111178047B (zh) 2021-08-27

Family

ID=70657427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911347473.8A Active CN111178047B (zh) 2019-12-24 2019-12-24 基于层次序列标注的古代医案处方抽取方法

Country Status (1)

Country Link
CN (1) CN111178047B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401077B (zh) * 2020-06-02 2020-09-18 腾讯科技(深圳)有限公司 语言模型的处理方法、装置和计算机设备
CN112906367A (zh) * 2021-02-08 2021-06-04 上海宏原信息科技有限公司 消费者文本的信息提取结构,标注方法和识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110516256A (zh) * 2019-08-30 2019-11-29 的卢技术有限公司 一种中文命名实体提取方法及其***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110516256A (zh) * 2019-08-30 2019-11-29 的卢技术有限公司 一种中文命名实体提取方法及其***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Huan Zhao et al..Pre-Trained Language Model Transfer on Chinese Named Entity Recognition.《2019 IEEE 21st International Conference on High Performance Computing and Communications;IEEE 17th International Conference on Smart City;IEEE 5th International Conference on Data Science and Systems (HPCC/SmartCity/DSS)》.2019,第2150-2155页. *
基于BERT的中文命名实体识别方法;王子牛 等;《计算机科学》;20191130;第46卷(第11A期);第138-142页 *

Also Published As

Publication number Publication date
CN111178047A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
WO2021139424A1 (zh) 文本内涵质量的评估方法、装置、设备及存储介质
WO2020211275A1 (zh) 基于预训练模型与微调技术的医疗文本关系抽取方法
CN108628824A (zh) 一种基于中文电子病历的实体识别方法
CN109508459B (zh) 一种从新闻中提取主题和关键信息的方法
CN107368547A (zh) 一种基于深度学习的智能医疗自动问答方法
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
CN109697285A (zh) 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN108108449A (zh) 一种面向医疗领域的基于多源异构数据问答***及该***的实现方法
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
Wang et al. A framework and its empirical study of automatic diagnosis of traditional Chinese medicine utilizing raw free-text clinical records
CN111178047B (zh) 基于层次序列标注的古代医案处方抽取方法
CN109003677B (zh) 病历数据结构化分析处理方法
CN109858042A (zh) 一种翻译质量的确定方法及装置
CN113632092A (zh) 实体识别的方法和装置、建立词典的方法、设备、介质
CN110569343B (zh) 一种基于问答的临床文本结构化方法
Flickinger et al. Wikiwoods: Syntacto-semantic annotation for english wikipedia
CN110600123A (zh) 一种中医临床辅助诊断方法
CN110675962A (zh) 一种基于机器学习和文本规则的中药药理作用识别方法及***
CN101777044B (zh) 利用语句结构信息的机器翻译自动评测***及实现方法
CN116911300A (zh) 语言模型预训练方法、实体识别方法和装置
CN113254609B (zh) 一种基于负样本多样性的问答模型集成方法
CN113130025A (zh) 一种实体关系抽取方法、终端设备及计算机可读存储介质
CN112613315B (zh) 一种文本知识自动抽取方法、装置、设备及存储介质
CN113111660A (zh) 数据处理方法、装置、设备和存储介质
CN116737924B (zh) 一种医疗文本数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant