CN112802568A - 基于病历文本的多标签胃部疾病分类方法及装置 - Google Patents

基于病历文本的多标签胃部疾病分类方法及装置 Download PDF

Info

Publication number
CN112802568A
CN112802568A CN202110146815.0A CN202110146815A CN112802568A CN 112802568 A CN112802568 A CN 112802568A CN 202110146815 A CN202110146815 A CN 202110146815A CN 112802568 A CN112802568 A CN 112802568A
Authority
CN
China
Prior art keywords
model
training
label
text
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110146815.0A
Other languages
English (en)
Inventor
李寿山
陆文捷
谭惜姿
朱苏阳
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zidong Information Technology Suzhou Co ltd
Original Assignee
Zidong Information Technology Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zidong Information Technology Suzhou Co ltd filed Critical Zidong Information Technology Suzhou Co ltd
Priority to CN202110146815.0A priority Critical patent/CN112802568A/zh
Publication of CN112802568A publication Critical patent/CN112802568A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及一种基于病历文本的多标签胃部疾病分类方法及装置,属于医学文本智能处理技术领域,该方法包括:获取多组训练数据,每组训练数据包括病历文本和病历文本对应的疾病标签;基于多组训练数据对预设的网络结构进行训练,得到疾病分类模型;疾病分类模型用于对输入的病历文本中的疾病分类进行识别;其中,网络结构是预训练模型与seq2seq模型的结合;利用预训练模型和自注意力机制的网络,将多标签分类问题转化为序列生成问题,从而在有限的训练样本上获得非常好的多标签分类性能。另外,在分类过程中不需要人工参与,减少人为因素的同时,可以为医生提供精准的诊断参考,缓解医护人员的工作压力。

Description

基于病历文本的多标签胃部疾病分类方法及装置
【技术领域】
本申请涉及一种基于病历文本的多标签胃部疾病分类方法及装置,属于医学文本智能处理技术领域。
【背景技术】
胃部疾病是发生在胃部的器质性或功能性疾病,病因十分复杂,包括理化刺激、感染、毒素、遗传、精神因素、发育障碍、手术影响等。胃部疾病的相关症状会被记录到病历文本中,后续供医疗人员判断疾病分类。
然而,人工提取病历文本中的病症会耗费医护人员的时间,胃部疾病分类效率较低。
【发明内容】
本申请提供了一种基于病历文本的多标签胃部疾病分类方法及装置,可以缓解病历文本数据集不够大的问题,实现更高性能的病历文本的自动多标签分类。本申请提供如下技术方案:
第一方面,提供一种基于病历文本的多标签胃部疾病分类方法,所述方法包括:
获取多组训练数据,每组训练数据包括病历文本和所述病历文本对应的疾病标签;
基于所述多组训练数据对预设的网络结构进行训练,得到疾病分类模型;所述疾病分类模型用于对输入的病历文本中的疾病分类进行识别;
其中,所述网络结构是预训练模型与seq2seq模型的结合;所述预训练模型用于提取文本特征,所述seq2seq模型用于对文本特征进行标签分类。
可选地,所述基于所述多组训练数据对预设的网络结构进行训练,包括:
对所述病历文本进行预处理,得到预处理后的病历文本;
将所述预处理后的病历文本输入所述网络结构,结合网络输出结果和所述疾病标签对所述网络结构进行训练;
其中,预处理包括去停用词处理和文本长度统一处理。
可选地,所述seq2seq模型为依赖于自注意力机制的Transformer模型。
可选地,所述Transformer模型能够学习目标标签序列之间的依赖关系。
可选地,所述Transformer模型包括编码组件、与编码组件相连的解码组件、与解码组件相连的线性层和与线性层相连的逻辑回归层,所述编码组件包括多个编码器,所述解码组件包括多个解码器;
所述线性层用于将所述解码组件输出的实数向量投射到对数几率的向量中,所述向量中每个单元格对应某个单词的分数;
所述逻辑回归层用于将所述线性层输出的分数转化为概率,概率最高的单元格对应的单词作为当前时间步的输出。
可选地,所述自注意力机制的计算公式通过下式表示:
Figure BDA0002930788800000021
其中,Q表示查询矩阵,K为关注的内容。
可选地,所述预训练模型为基于双向Transformer的大规模无监督预训练语言模型BERT模型。
可选地,所述基于所述多组训练数据对预设的网络结构进行训练,得到疾病分类模型,包括:
使用自适应矩估计Adam优化器,通过下式在训练过程中改变学习率,以基于所述多组训练数据对预设的网络结构进行训练,得到所述疾病分类模型;
Figure BDA0002930788800000022
其中,step_num表示时间步序号,warmup_steps为预设常数;d表示上一模型学习率,lrate表示更新后的学习率。
可选地,所述基于所述多组训练数据对预设的网络结构进行训练,得到疾病分类模型之后,还包括:
将待分类文本输入所述疾病分类模型,得到多标签序列;
使用集束搜索算法从所述多标签序列中搜索最终的疾病标签,所述最终的疾病标签为标签概率分布中概率最大的标签。
第二方面,提供一种基于病历文本的多标签胃部疾病分类装置,所述装置包括:
数据获取模块,用于获取多组训练数据,每组训练数据包括病历文本和所述病历文本对应的疾病标签;
模型训练模块,用于基于所述多组训练数据对预设的网络结构进行训练,得到疾病分类模型;所述疾病分类模型用于对输入的病历文本中的疾病分类进行识别;
其中,所述网络结构是预训练模型与seq2seq模型的结合;所述预训练模型用于提取文本特征,所述seq2seq模型用于对文本特征进行标签分类。
本申请的有益效果至少包括:通过获取多组训练数据,每组训练数据包括病历文本和病历文本对应的疾病标签;基于多组训练数据对预设的网络结构进行训练,得到疾病分类模型;疾病分类模型用于对输入的病历文本中的疾病分类进行识别;其中,网络结构是预训练模型与seq2seq模型的结合;利用预训练模型和自注意力机制的网络,将多标签分类问题转化为序列生成问题,从而在有限的训练样本上获得非常好的多标签分类性能。另外,在分类过程中不需要人工参与,减少人为因素的同时,可以为医生提供精准的诊断参考,缓解医护人员的工作压力。
另外,依赖于自注意力机制的网络架构,它充分发挥了BERT具有很强的特征提取功能和Transformer利用自注意力机制实现快速并行计算的优势,有效地缓解了数据集不够大的问题,在捕获标签间潜在联系的同时通过并行计算缩短了模型计算的时间。
此外,模型在预测时使用集束搜索算法从多标签序列整体生成的角度选择了概率最高的分类结果,因此能在病历文本的多标签胃部疾病分类问题上发挥了比传统多标签分类方法更好的性能。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
【附图说明】
图1是本申请一个实施例提供的基于病历文本的多标签胃部疾病分类方法的流程图;
图2是本申请一个实施例提供的预训练模型与seq2seq模型的结合的示意图;
图3是本申请一个实施例提供的基于病历文本的多标签胃部疾病分类装置的框图。
【具体实施方式】
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
首先,对本申请涉及的若干名词进行介绍。
双向迁移的解码器(Bidirectional Encoder Representations fromTransformers,BERT):是一种大规模无监督预训练语言模型,作为Word2vec的替代者,它在自然语言处理(Natural Language Processing,NLP)领域刷新了精度,是近年来来自残差网络的最具突破性的一项技术。BERT的本质是通过海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,他为其他任务提供了一个可供迁移的模型。其优点在于集成了生成式的预训练(Generative Pre-Training,GPT)的Transformer特征提取结构和从语言模型中获取词向量(embedding from language model,ELMo)双向结构,在生成深层的双向语言表征的同时实现了并行计算,最后该模型在预训练后,只需要添加一个额外的输出层进行微调,就可以应用于各种下游任务并且取得非常好的性能。
由于深度学习对数据集的大小有一定的要求,若原始的数据集比较小,机器无法学习到单词对应的好的特征表示。而BERT利用了大规模的语料,可以为任意字词训练出一个好的特征表示,具有很强的特征提取能力,能够一定程度上提升模型的性能。
Transformer模型:是依赖于自注意力机制的先进的序列对序列(Sequence toSequence,seq2seq)模型。该模型使用自注意力(self-attention)机制,不采用循环神经网络(Recurrent Neural Network,RNN)的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。其优势主要在于应用了自注意力机制,解决了文本长距离依赖问题,产生了更具可解释性的模型。其次,该模型突破了RNN模型不能并行计算的限制。最后,该模型相较于卷积神经网络(Convolutional Neural Networks,CNN),计算两个位置之间的关联所需的操作次数不随距离增长。结合以上优点,Transformer模型可以在序列生成中发挥非常好的性能。
由于样本的分类结果中多个标签之间存在着潜在联系,如果模型能够捕获标签之间的联系,便更利于模型达到更好的多标签分类性能。Transformer模型实现了这项功能,同时该模型实现了并行计算,在缩短模型计算时间的同时达到了更好的多标签分类性能。
集束搜索(Beam Search)算法:是一种启发式图搜索算法,通常用在图的解空间比较大的情况下,为了减少搜索所占用的空间和时间,在每一步深度扩展的时候,剪掉一些质量比较差的结点,保留下一些质量较高的结点。这样减少了空间消耗,并提高了时间效率。
算法的工作流程包括:使用广度优先策略建立搜索树,在树的每一层,按照启发代价对节点进行排序,然后仅留下预先确定的个数(Beam Width-集束宽度)的节点,仅这些节点在下一层次继续扩展,其他节点被剪掉。具体地,将初始节点***到列表(list)中;将该节点出堆,如果该节点是目标节点,则算法结束;否则扩展该节点,取集束宽度的节点入堆。然后到第二步继续循环。算法结束的条件是找到最优解或者堆为空。
可选地,本申请以各个实施例的执行主体为具有图像处理能力的电子设备为例进行说明,该电子设备可以为终端或服务器,该终端可以为计算机、笔记本电脑、平板电脑、医疗诊断设备等,本实施例不对终端的类型和电子设备的类型作限定。
图1是本申请一个实施例提供的基于病历文本的多标签胃部疾病分类方法的流程图。该方法至少包括以下几个步骤:
步骤101,获取多组训练数据,每组训练数据包括病历文本和病历文本对应的疾病标签。
在一个示例中,训练数据是从数据集中划分得到的。数据集包括病历文本和病历文本对应的疾病标签。比如:使用1260张病历文本训练疾病分类模型、使用180张病历文本作为验证集对该网络模型微调,获得自动多标签分类模型。
示意性地,预先设定输出词表y,包含了胃炎、胃息肉、胃溃疡、胃癌、胆汁反流、胃出血和其他胃部疾病共七个疾病标签词条。在其它实施例中,胃部疾病的疾病标签也可以实现为更多或更少的标签类型,本实施例不对疾病标签的实现方式作限定。
步骤102,基于多组训练数据对预设的网络结构进行训练,得到疾病分类模型;疾病分类模型用于对输入的病历文本中的疾病分类进行识别;其中,网络结构是预训练模型与seq2seq模型的结合;预训练模型用于提取文本特征,seq2seq模型用于对文本特征进行标签分类。
具体地,将文本通过大规模预训练模型转化为向量表示,并传入序列生成模型,得到生成标签序列,即最终的文本多标签分类结果。
基于多组训练数据对预设的网络结构进行训练之前,对病历文本进行预处理,得到预处理后的病历文本;将预处理后的病历文本输入网络结构,结合网络输出结果和疾病标签对网络结构进行训练;其中,预处理包括去停用词处理和文本长度统一处理。
去停用词处理主要是删除病历文本中包括序号在内的多余字符,目的是降低文本数据规模及特征维度、减少了模型的计算时间并提高了实验性能。本实施例中,经过去部分停用词并将所有文本统一到相同的长度降低文本数据规模及特征维度、减少了模型的计算时间并提高了实验性能。
另外,基于多组训练数据对预设的网络结构进行训练之前,需要利用大规模的语料预训练得到预训练模型。在一个示例中,预训练模型为基于双向Transformer的大规模无监督预训练语言模型BERT模型。BERT模型集成了GPT的Transformer特征提取结构和ELMO双向结构,不仅具有很强的抽取特征的能力,而且易于并行计算,此外,该模型在训练字向量时还充分利用了单词的上下文信息。载入BERT模型可以将文本数据转换为更有利于机器学习的文本向量表示。
BERT模型将所有文本样例转换为相同的文本长度。比如:在BERT模型中导入大规模中文预训练模型后,将每条病历文本训练为40*768的向量表示,其中每条文本包含40个字向量,每个字向量为768维的向量,该向量表示是文本的深层双向语言表征。
在一个示例中,seq2seq模型为依赖于自注意力机制的Transformer模型。Transformer模型能够学习目标标签序列之间的依赖关系,使模型在生成多标签序列时达到更高的性能。
本实施例中,使用Transformer模型构造病历文本多标签序列生成网络。该模型将病历文本的多标签分类问题转换为序列生成问题。
依赖于自注意力机制的Transformer模型突破了RNN模型不能并行计算的限制,相比于CNN,计算两个位置之间的关联所需的操作次数不随距离增长,解决了文本长期依赖问题,因此可以训练出符合病历文本多标签分类的模型。
参考图2,Transformer模型包括编码组件、与编码组件相连的解码组件、与解码组件相连的线性层和与线性层相连的逻辑回归层,编码组件包括多个编码器,解码组件包括多个解码器;线性层用于将解码组件输出的实数向量投射到对数几率的向量中,向量中每个单元格对应某个单词的分数;逻辑回归层用于将线性层输出的分数转化为概率,概率最高的单元格对应的单词作为当前时间步的输出。
其中,自注意力机制的计算公式通过下式表示:
Figure BDA0002930788800000071
其中,Q表示查询矩阵,K为关注的内容。
其中,基于多组训练数据对预设的网络结构进行训练,得到疾病分类模型,包括:使用自适应矩估计Adam优化器,通过下式在训练过程中改变学习率,以基于多组训练数据对预设的网络结构进行训练,得到疾病分类模型;
Figure BDA0002930788800000081
其中,step_num表示时间步序号,warmup_steps为预设常数;d表示上一模型学习率,lrate表示更新后的学习率。示意性地,warmup_steps=4000。当然,warmup_steps也可以实现为其它数值,本实施例不对warmup_steps的取值作限定。
可选地,为了防止过拟合,使用Dropout随机忽略全连接层的部分神经元,比如:dropout设置为0.1。
具体地,参考图3,输入文本x经过文本预处理得到文本x',然后将文本输入预训练模型BERT得到文本对应的语言表征s,将语言表征s传入依赖于自注意力机制的Transformer模型进行训练,模型每次返回一个序列概率分布。示意性地,训练中,样本包括1260条病历文本,每条文本涉及胃炎、胃息肉、胃溃疡、胃癌、胆汁反流、胃出血和其他胃部疾病中的一种或多种疾病。
本实施例中,使用基于病历文本训练好的Transformer模型进行病历文本多标签分类,将多标签分类问题转化为序列生成问题,得到最终的病历文本多标签分类结果。
在基于多组训练数据对预设的网络结构进行训练,得到疾病分类模型之后,还包括:将待分类文本输入疾病分类模型,得到多标签序列;使用集束搜索算法从多标签序列中搜索最终的疾病标签,最终的疾病标签为标签概率分布中概率最大的标签。
本实施例中,使用集束搜索算法作为模型预测阶段的序列生成算法。该算法站在整个词序列整体的角度上使概率最大化,使模型最终达到更高的多标签分类性能。另外,在每一步序列扩展的过程中减掉概率较低的序列情况,从而减少搜索所占用的空间和时间。
在训练得到疾病分类模型之后,还可以使用测试集对该模型进行测试,测试过程包括:输入待分类文本x,经过文本预处理得到文本x',将x'实时传入预训练模型得到其对应的语言表征s,再将s传入Transformer模型,模型每次返回一个序列概率分布,使用集束搜索算法选择最终的标签,最终的标签选择为该标签概率分布中概率最大的标签。最后的序列生成结果即病历文本的分类结果。
示意性地,测试时,将文本预处理后调整为40的长度,将其传入大规模预训练模型BERT中获得文本表征,然后将360*40*768的测试集传入Transformer模型并经过线性层和softmax层得到文本概率分布,结合集束搜索算法选择序列生成概率最大的多标签序列,即最后的分类结果。
下表一为不同分类模型之间的比较,其中,seq2seq模型是一种encoder-decoder结构的序列生成模型,其中encoder负责将输入序列压缩成指定长度的向量,实验中采用BiLSTM模型结构,双向LSTM能够学习语义和句法信息,decoder负责根据语义向量生成指定的序列,实验中采用LSTM模型结构。从表一可以看出,虽然LSTM模型模型实现了以序列生成的方式解决多标签分类问题,但是由于LSTM特征提取的能力不足,且模型的整体架构简单,因此该方法的性能较差,只有80.56%的正确率。Word2vec+Transformer方法中的word2vec方法是词向量训练工具,能够较好地表达不同词之间的相似和类比关系。从表一可以看出,word2vec虽然有较好的表达词义的能力,且该模型较seq2seq模型采用了具有自注意力机制的Transformer模型,但是存在多义词无法识别的问题,而且word2vec方法训练词向量是基于简单的浅层神经网络实现的,缺乏较强的特征提取能力,因此利用word2vec方法训练字向量并结合Transformer模型的方法性能较之前有所提升,达到87.50%的正确率。而本实施例中的BERT是基于双向Transformer的大规模无监督预训练语言模型,在具备强大的特征提取能力的同时,实现了并行计算,在多标签病历文本分类问题上达到了近93%的正确率。从表一可以看出,基于病历文本的多标签胃部疾病分类的方法能够达到较好的性能效果。
表一:
使用模型 准确率acc
Seq2seq模型 0.8056
word2vec+Transformer 0.8750
BERT+Transformer 0.9278
综上所述,本实施例提供的基于病历文本的多标签胃部疾病分类方法,通过获取多组训练数据,每组训练数据包括病历文本和病历文本对应的疾病标签;基于多组训练数据对预设的网络结构进行训练,得到疾病分类模型;疾病分类模型用于对输入的病历文本中的疾病分类进行识别;其中,网络结构是预训练模型与seq2seq模型的结合;利用预训练模型和自注意力机制的网络,将多标签分类问题转化为序列生成问题,从而在有限的训练样本上获得非常好的多标签分类性能。另外,在分类过程中不需要人工参与,减少人为因素的同时,可以为医生提供精准的诊断参考,缓解医护人员的工作压力。
另外,依赖于自注意力机制的网络架构,它充分发挥了BERT具有很强的特征提取功能和Transformer利用自注意力机制实现快速并行计算的优势,有效地缓解了数据集不够大的问题,在捕获标签间潜在联系的同时通过并行计算缩短了模型计算的时间。
此外,模型在预测时使用集束搜索算法从多标签序列整体生成的角度选择了概率最高的分类结果,因此能在病历文本的多标签胃部疾病分类问题上发挥了比传统多标签分类方法更好的性能。
图3是本申请一个实施例提供的基于病历文本的多标签胃部疾病分类装置的框图。该装置至少包括以下几个模块:数据获取模块310和模型训练模块320。
数据获取模块310,用于获取多组训练数据,每组训练数据包括病历文本和所述病历文本对应的疾病标签;
模型训练模块320,用于基于所述多组训练数据对预设的网络结构进行训练,得到疾病分类模型;所述疾病分类模型用于对输入的病历文本中的疾病分类进行识别;
其中,所述网络结构是预训练模型与seq2seq模型的结合;所述预训练模型用于提取文本特征,所述seq2seq模型用于对文本特征进行标签分类。
相关细节参考上述方法实施例。
需要说明的是:上述实施例中提供的基于病历文本的多标签胃部疾病分类装置在进行基于病历文本的多标签胃部疾病分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将基于病历文本的多标签胃部疾病分类装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于病历文本的多标签胃部疾病分类装置与基于病历文本的多标签胃部疾病分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
可选地,本申请还提供有一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的基于病历文本的多标签胃部疾病分类方法。
可选地,本申请还提供有一种计算机产品,该计算机产品包括计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的基于病历文本的多标签胃部疾病分类方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于病历文本的多标签胃部疾病分类方法,其特征在于,所述方法包括:
获取多组训练数据,每组训练数据包括病历文本和所述病历文本对应的疾病标签;
基于所述多组训练数据对预设的网络结构进行训练,得到疾病分类模型;所述疾病分类模型用于对输入的病历文本中的疾病分类进行识别;
其中,所述网络结构是预训练模型与seq2seq模型的结合;所述预训练模型用于提取文本特征,所述seq2seq模型用于对文本特征进行标签分类。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多组训练数据对预设的网络结构进行训练,包括:
对所述病历文本进行预处理,得到预处理后的病历文本;
将所述预处理后的病历文本输入所述网络结构,结合网络输出结果和所述疾病标签对所述网络结构进行训练;
其中,预处理包括去停用词处理和文本长度统一处理。
3.根据权利要求1所述的方法,其特征在于,所述seq2seq模型为依赖于自注意力机制的Transformer模型。
4.根据权利要求3所述的方法,其特征在于,所述Transformer模型能够学习目标标签序列之间的依赖关系。
5.根据权利要求3所述的方法,其特征在于,所述Transformer模型包括编码组件、与编码组件相连的解码组件、与解码组件相连的线性层和与线性层相连的逻辑回归层,所述编码组件包括多个编码器,所述解码组件包括多个解码器;
所述线性层用于将所述解码组件输出的实数向量投射到对数几率的向量中,所述向量中每个单元格对应某个单词的分数;
所述逻辑回归层用于将所述线性层输出的分数转化为概率,概率最高的单元格对应的单词作为当前时间步的输出。
6.根据权利要求3所述的方法,其特征在于,所述自注意力机制的计算公式通过下式表示:
Figure FDA0002930788790000021
其中,Q表示查询矩阵,K为关注的内容。
7.根据权利要求1所述的方法,其特征在于,所述预训练模型为基于双向Transformer的大规模无监督预训练语言模型BERT模型。
8.根据权利要求1所述的方法,其特征在于,所述基于所述多组训练数据对预设的网络结构进行训练,得到疾病分类模型,包括:
使用自适应矩估计Adam优化器,通过下式在训练过程中改变学习率,以基于所述多组训练数据对预设的网络结构进行训练,得到所述疾病分类模型;
Figure FDA0002930788790000022
其中,step_num表示时间步序号,warmup_steps为预设常数;d表示上一模型学习率,lrate表示更新后的学习率。
9.根据权利要求1所述的方法,其特征在于,所述基于所述多组训练数据对预设的网络结构进行训练,得到疾病分类模型之后,还包括:
将待分类文本输入所述疾病分类模型,得到多标签序列;
使用集束搜索算法从所述多标签序列中搜索最终的疾病标签,所述最终的疾病标签为标签概率分布中概率最大的标签。
10.一种基于病历文本的多标签胃部疾病分类装置,其特征在于,所述装置包括:
数据获取模块,用于获取多组训练数据,每组训练数据包括病历文本和所述病历文本对应的疾病标签;
模型训练模块,用于基于所述多组训练数据对预设的网络结构进行训练,得到疾病分类模型;所述疾病分类模型用于对输入的病历文本中的疾病分类进行识别;
其中,所述网络结构是预训练模型与seq2seq模型的结合;所述预训练模型用于提取文本特征,所述seq2seq模型用于对文本特征进行标签分类。
CN202110146815.0A 2021-02-03 2021-02-03 基于病历文本的多标签胃部疾病分类方法及装置 Pending CN112802568A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110146815.0A CN112802568A (zh) 2021-02-03 2021-02-03 基于病历文本的多标签胃部疾病分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110146815.0A CN112802568A (zh) 2021-02-03 2021-02-03 基于病历文本的多标签胃部疾病分类方法及装置

Publications (1)

Publication Number Publication Date
CN112802568A true CN112802568A (zh) 2021-05-14

Family

ID=75813862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110146815.0A Pending CN112802568A (zh) 2021-02-03 2021-02-03 基于病历文本的多标签胃部疾病分类方法及装置

Country Status (1)

Country Link
CN (1) CN112802568A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033155A (zh) * 2021-05-31 2021-06-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种结合序列生成和层级词表的医学概念自动编码方法
CN113297385A (zh) * 2021-07-28 2021-08-24 西南石油大学 基于改进GraphRNN的多标签文本分类模型及分类方法
CN113313177A (zh) * 2021-06-03 2021-08-27 紫东信息科技(苏州)有限公司 消化道内窥镜图片多标签分类***
CN113362945A (zh) * 2021-06-03 2021-09-07 重庆南鹏人工智能科技研究院有限公司 基于多步决策的全肺呼吸内科疾病医学辅助诊断***
CN113421632A (zh) * 2021-07-09 2021-09-21 中国人民大学 一种基于时间序列的心理疾病类型诊断***
CN113488166A (zh) * 2021-07-28 2021-10-08 联仁健康医疗大数据科技股份有限公司 糖尿病数据分析模型训练及数据管理方法、装置和设备
CN113705186A (zh) * 2021-07-22 2021-11-26 上海原圈网络科技有限公司 一种留言语义分析下的自动回复方法和装置
CN113723341A (zh) * 2021-09-08 2021-11-30 北京有竹居网络技术有限公司 视频的识别方法、装置、可读介质和电子设备
CN113808663A (zh) * 2021-09-01 2021-12-17 基诺莱(重庆)生物技术有限公司 基于人工智能的基因变异位点的匹配方法、***及设备
CN114297379A (zh) * 2021-12-16 2022-04-08 ***数智科技有限公司 一种基于Transformer的文本二分类方法
CN114580433A (zh) * 2022-05-05 2022-06-03 北京大学 基于动态权重对比学习的多标签文本分类方法和***
CN115019960A (zh) * 2022-08-01 2022-09-06 浙江大学 一种基于个性化状态空间进展模型的疾病辅助决策***
CN116259422A (zh) * 2023-03-13 2023-06-13 暨南大学 基于虚拟数据增强的眼科疾病诊疗意见生成方法、***、介质和设备
CN117238532A (zh) * 2023-11-10 2023-12-15 武汉楚精灵医疗科技有限公司 智能随访方法及装置
CN118248328A (zh) * 2024-05-28 2024-06-25 中国人民解放军空军军医大学 疾病预测模型的训练方法、疾病预测***
CN118248328B (zh) * 2024-05-28 2024-07-30 中国人民解放军空军军医大学 疾病预测模型的训练方法、疾病预测***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078878A (zh) * 2019-12-06 2020-04-28 北京百度网讯科技有限公司 文本处理方法、装置、设备及计算机可读存储介质
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及***、信息数据处理终端
CN112163064A (zh) * 2020-10-14 2021-01-01 上海应用技术大学 基于深度学习的文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078878A (zh) * 2019-12-06 2020-04-28 北京百度网讯科技有限公司 文本处理方法、装置、设备及计算机可读存储介质
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及***、信息数据处理终端
CN112163064A (zh) * 2020-10-14 2021-01-01 上海应用技术大学 基于深度学习的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘文臻: "中文文本多标签分类算法研究", 《信息科技》, no. 7, pages 2 - 5 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033155A (zh) * 2021-05-31 2021-06-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种结合序列生成和层级词表的医学概念自动编码方法
CN113313177A (zh) * 2021-06-03 2021-08-27 紫东信息科技(苏州)有限公司 消化道内窥镜图片多标签分类***
CN113362945A (zh) * 2021-06-03 2021-09-07 重庆南鹏人工智能科技研究院有限公司 基于多步决策的全肺呼吸内科疾病医学辅助诊断***
CN113421632A (zh) * 2021-07-09 2021-09-21 中国人民大学 一种基于时间序列的心理疾病类型诊断***
CN113705186A (zh) * 2021-07-22 2021-11-26 上海原圈网络科技有限公司 一种留言语义分析下的自动回复方法和装置
CN113705186B (zh) * 2021-07-22 2023-12-22 上海原圈网络科技有限公司 一种留言语义分析下的自动回复方法和装置
CN113297385A (zh) * 2021-07-28 2021-08-24 西南石油大学 基于改进GraphRNN的多标签文本分类模型及分类方法
CN113488166A (zh) * 2021-07-28 2021-10-08 联仁健康医疗大数据科技股份有限公司 糖尿病数据分析模型训练及数据管理方法、装置和设备
CN113808663A (zh) * 2021-09-01 2021-12-17 基诺莱(重庆)生物技术有限公司 基于人工智能的基因变异位点的匹配方法、***及设备
CN113723341B (zh) * 2021-09-08 2023-09-01 北京有竹居网络技术有限公司 视频的识别方法、装置、可读介质和电子设备
CN113723341A (zh) * 2021-09-08 2021-11-30 北京有竹居网络技术有限公司 视频的识别方法、装置、可读介质和电子设备
CN114297379A (zh) * 2021-12-16 2022-04-08 ***数智科技有限公司 一种基于Transformer的文本二分类方法
CN114580433B (zh) * 2022-05-05 2022-08-02 北京大学 基于动态权重对比学习的多标签文本分类方法和***
CN114580433A (zh) * 2022-05-05 2022-06-03 北京大学 基于动态权重对比学习的多标签文本分类方法和***
CN115019960A (zh) * 2022-08-01 2022-09-06 浙江大学 一种基于个性化状态空间进展模型的疾病辅助决策***
CN115019960B (zh) * 2022-08-01 2022-11-29 浙江大学 一种基于个性化状态空间进展模型的疾病辅助决策***
WO2024027438A1 (zh) * 2022-08-01 2024-02-08 浙江大学 一种基于个性化状态空间进展模型的疾病辅助决策***
CN116259422B (zh) * 2023-03-13 2024-02-06 暨南大学 基于虚拟数据增强的眼科疾病诊疗意见生成方法、***、介质和设备
CN116259422A (zh) * 2023-03-13 2023-06-13 暨南大学 基于虚拟数据增强的眼科疾病诊疗意见生成方法、***、介质和设备
CN117238532B (zh) * 2023-11-10 2024-01-30 武汉楚精灵医疗科技有限公司 智能随访方法及装置
CN117238532A (zh) * 2023-11-10 2023-12-15 武汉楚精灵医疗科技有限公司 智能随访方法及装置
CN118248328A (zh) * 2024-05-28 2024-06-25 中国人民解放军空军军医大学 疾病预测模型的训练方法、疾病预测***
CN118248328B (zh) * 2024-05-28 2024-07-30 中国人民解放军空军军医大学 疾病预测模型的训练方法、疾病预测***

Similar Documents

Publication Publication Date Title
CN112802568A (zh) 基于病历文本的多标签胃部疾病分类方法及装置
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109241536B (zh) 一种基于深度学习自注意力机制的句子排序方法
US20210012199A1 (en) Address information feature extraction method based on deep neural network model
CN111428073B (zh) 一种深度监督量化哈希的图像检索方法
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN112015868B (zh) 基于知识图谱补全的问答方法
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
CN113934887B (zh) 一种基于语义解耦的无提议时序语言定位方法
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、***及介质
CN110598022A (zh) 一种基于鲁棒深度哈希网络的图像检索***与方法
CN115329054A (zh) 一种面向复杂性问题的开放域问答***
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN111428502A (zh) 一种面向军事语料的命名实体标注方法
Bai et al. Bilinear Semi-Tensor Product Attention (BSTPA) model for visual question answering
CN117407532A (zh) 一种利用大模型与协同训练进行数据增强的方法
CN117131383A (zh) 一种提高双塔模型搜索精排性能的方法
CN115641395A (zh) 一种基于互信息的图文对齐方法
Yu et al. Deep hash image retrieval method based on anti-autoencoder
CN117874175B (zh) 一种基于信息瓶颈的信息检索方法和***
CN116821712B (zh) 非结构化文本与知识图谱的语义匹配方法及装置
CN117688944B (zh) 基于多粒度卷积特征融合的中文情感分析方法及***
CN114036946B (zh) 一种文本特征提取及辅助检索的***及方法
Barua et al. ELMAGIC: Energy-Efficient Lean Model for Reliable Medical Image Generation and Classification Using Forward Forward Algorithm
Zou et al. Diving into Text Representation Learning with Deep Hashing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination