CN112289467A - 一种面向低资源场景可迁移的医疗问诊对话***及方法 - Google Patents

一种面向低资源场景可迁移的医疗问诊对话***及方法 Download PDF

Info

Publication number
CN112289467A
CN112289467A CN202011287854.4A CN202011287854A CN112289467A CN 112289467 A CN112289467 A CN 112289467A CN 202011287854 A CN202011287854 A CN 202011287854A CN 112289467 A CN112289467 A CN 112289467A
Authority
CN
China
Prior art keywords
disease
meta
graph
node
symptom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011287854.4A
Other languages
English (en)
Other versions
CN112289467B (zh
Inventor
梁小丹
林帅
唐鉴恒
陈子良
林倞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011287854.4A priority Critical patent/CN112289467B/zh
Publication of CN112289467A publication Critical patent/CN112289467A/zh
Application granted granted Critical
Publication of CN112289467B publication Critical patent/CN112289467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种面向低资源场景可迁移的医疗问诊对话***及方法,该***包括:模拟病人构建模块,用于建立模拟病人,模拟病人具有若干对话样本,每次训练随机选取一个对话样本,并针对模拟病人给出其病情描述报告;智能医疗问诊***构建模块,建立智能医疗问诊***,根据病情描述,通过分层上下文编码器模块从对话历史中提取不同层级的上下文信息,编码得到单轮层级和多轮层级对话的特征向量,通过演化外部医疗知识图,根据特征向量进行疾病‑症状之间的关系推理得到图节点特征向量,并在图节点信息指导下,利用复制网络生成医生对病人的回复;训练模块,对***进行端到端训练,利用图演化元学习算法在已有疾病的对话数据上训练***。

Description

一种面向低资源场景可迁移的医疗问诊对话***及方法
技术领域
本发明涉及医疗信息技术领域,特别是涉及一种面向低资源场景可迁移的医疗问诊对话***及方法。
背景技术
看病难一直是我国医疗体系***最突出的问题。随着大数据和互联网的发展,人们开始通过搜索引擎来完成疾病的初步自我诊断,然而搜索引擎搜索到的是网上存在的相关案例的问答结果,这种诊断的结果可能由于与用户完全一致的症状表现而导致诊断结果有偏差甚至错误,现存的线下问诊网站医生的素质参差不齐,有一些医生可能会给出错误的诊断结果,所以构建一个具有知识推理能力的自动诊断对话***是亟待解决的一个需求。
近年来对话***作为一种新型的下一代人机交互方式取得了显著的发展,各种虚拟助理逐渐商用落地,对话***是自然语言处理的一个重要领域,其可以分为闲聊型对话***和任务型对话***,任务型对话***的主要作用是计算机通过与用户之间的交互帮助用户完成特定的任务,比如电影院订票、餐厅订票、在线购物等等,闲聊型对话***可以与用户在开放域中聊天,医疗问诊对话***本质是一个任务型的对话***。
医疗问诊对话***的主要任务是:根据用户的病情陈述,***通过与用户的对话获得诊断所需要的症状信息,然后自动地给出最终的诊断意见。这能够有效的简化诊断流程并且减少从病人处收集信息的成本,此外医疗对话***作出的诊断结果也可以协助医生更加高效地做出诊断。然而,现有的医疗问诊对话***多依赖于大量的对话数据来训练,因而只能针对数据覆盖到的特定疾病进行诊断,***可扩展性较差。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种面向低资源场景可迁移的医疗问诊对话***及方法,以实现一种具有良好拓展性、实用性强且实现疾病与症状相互关系推理的医疗问诊***。
为达上述目的,本发明提出一种面向低资源场景可迁移的医疗问诊对话***,包括:
模拟病人构建模块,用于建立模拟病人,所述模拟病人具有若干对话样本,每次训练随机选取一个对话样本,并针对所述模拟病人给出其病情描述报告;
智能医疗问诊***构建模块,用于建立一个智能医疗问诊***,所述智能***根据模拟病人的病情描述,通过分层上下文编码器模块从对话历史中提取不同层级的上下文信息,编码得到单轮层级和多轮层级对话的特征向量;通过演化外部的医疗知识图,根据得到的特征向量进行疾病-症状之间的关系推理,得到图节点特征向量,并在演化得到的图节点信息的指导下,利用复制网络,智能生成医生对病人的回复;
训练模块,用于对所述智能医疗问诊***构建模块获得的智能医疗问诊***进行端到端训练,利用图演化元学习算法在已有疾病的对话数据上训练所述***,当出现新疾病需要自动诊断时,将所述***通过在新疾病的少量数据上进行迁移微调,得到拓展后的对话问诊***。
优选地,所述智能医疗问诊***构建模块进一步包括:
分层上下文编码器模块,用于根据模拟病人的病情描述,通过两个长短时记忆网络提取医生与病人对话对话历史的上下文信息,将其编码成单轮层级和多轮层级对话的特征向量;
元疾病推理模块,用于通过外部知识库构建疾病-症状知识图,并将分层上下文编码器模块获得的特征向量初始化构建的疾病-症状知识图的话语结点,通过两层图注意力网络,分别将话语节点蕴含的信息传递到疾病节点与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的图节点特征向量;
基于医疗知识图的解码器,用于在所述元疾病推理模块获得的图节点特征向量的指导下,利用复制网络作为对话生成器,从普通词表或者图节点集合动态选择解码的结果,智能生成医生对病人的回复。
优选地,所述分层上下文编码器模块将模拟病人产生的对话样本输入到第一个双向长短期记忆网络,对每轮的话语编码,取最后一个时步的输出作为话语层级的特征向量;然后将所述话语层级的特征向量输入到另一个双向长短期记忆网络,对话语层级的特征向量序列进行编码得到对话层级的高层级特征向量。
优选地,所述分层上下文编码器模块使用监督学习的方式训练双向长短期记忆网络模型。
优选地,所述元疾病推理模块进一步包括:
知识图构建单元,用于通过外部知识库构建先验性的疾病-症状知识图,所述知识图包含话语节点,疾病节点,症状节点三类节点,将每个话语节点和该单轮话语包含的疾病、症状节点进行连边,并通过查询外部知识库,将相关疾病和对应症状连边;
信息传递及扩散传播单元,用于通过两层图注意力网络,分别将对话节点蕴含的信息传递到疾病与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的图节点特征向量。
优选地,所说基于医疗知识图的解码器根据所述元疾病推理模块得到的最终的图节点特征向量,分步依次生成每个单词,生成每个单词的过程就是取所有候选词中生成概率最大的那个预测分布来自于两部分:分别是普通词表分布和图节点集合的分布,两分布的加权求和得到最终的预测分布。
优选地,所述训练模块通过在旧疾病上对所述智能医疗问诊***进行元训练,使得所述智能医疗问诊***学习到疾病间通用的对话与诊断技巧,进而可以通过新疾病少量的对话样本进行微调,具备快速迁移到新疾病上完成问诊的能力。
优选地,于训练模型中,对于每个旧的任务,元对话模型首先进行一步梯度更新:
Figure BDA0002782948470000041
然后通过一阶与模型无关的元学习,得到元初始化模型θmeta;使用所述的元初始化模型θmeta,在需要诊断新疾病时,仅通过在少量对话数据上进行一步梯度更新θmeta,即快速迁移适应到新疾病上。
优选地,所述训练模块以在线的形式收集所有可观察到的对话样本,提取对话样本中的症状节点,如果两个症状节点出现在同一个样本中,则将两症状节点进行连边操作;然后根据得到的所述全局症状图,原疾病症状图动态更新方式为Ameta=A+A*,并将Ameta设置为元模型θmeta参数的一部分,来动态学习准确的相互关系表征。
为达到上述目的,本发明还提供一种面向低资源场景可迁移的医疗问诊对话方法,包括如下步骤:
步骤S1,建立一个模拟病人,所述模拟病人具有一定数量的对话样本,每次训练随机选取一个对话样本,针对所述模拟病人会给出其病情描述报告;
步骤S2,建立一个智能医疗问诊***,所述智能医疗问诊***根据模拟病人的病情描述,通过分层上下文编码器模块从对话历史中提取不同层级的上下文信息,编码得到单轮层级和多轮层级对话的特征向量;通过演化外部的医疗知识图,根据得到的特征向量进行疾病-症状之间的关系推理,得到图节点特征向量,并在演化得到的图节点信息的指导下,利用复制网络,智能生成医生对病人的回复;
步骤S3,对步骤S2构建的智能医疗问诊***进行端到端训练,利用图演化元学习算法在已有疾病的对话数据上训练所述***,当出现新疾病需要自动诊断时,将所述***通过在新疾病的少量数据上进行迁移微调,得到拓展后的对话问诊***。
与现有技术相比,具有如下优点
1、相比于现有的医疗问诊对话***多依赖于大量的对话数据来训练的缺陷,本发明采用一阶模型无关的元学习算法学习到不同疾病间通用的对话技巧和问诊逻辑,经过元训练得到的元对话模型可以仅利用少量的对话数据即可快速迁移到未知新疾病上,完成对新疾病的智能问诊,具备良好的可拓展性。
2、本发明的元疾病推理模块利用外部知识库,构建出疾病与症状的元知识图,同时根据线上收集的对话数据,构建出全局症状图并对元知识图进行演化,使其适应到不同疾病的对话场景下。同时该模块利用图注意力网络,对元知识图上疾病与症状节点之间的相互关系进行推理。这个过程与现实中医生对病人的问诊流程是一致的,医生通常有基于过去诊断经验的知识库,包含着不同疾病与症状之间的相互关系,这个知识库会随着新的诊断案例的总结学习进行演变和完善,同时医生在诊断新疾病时不需要大量的诊断案例的学习,只需要将对已见过疾病经验进行迁移,即可进行对新疾病的问诊。
3、本发明采用元知识图指导的复制网络作为对话生成器,通过动态选择生成词来自普通词表或者来自图实体节点,从而能够生成更精准有效的回复,提高智能问诊的效率。
附图说明
图1为本发明一种面向低资源场景可迁移的医疗问诊对话***的***架构图;
图2为本发明具体实施例中面向低资源场景可迁移的医疗问诊对话***的结构示意图。;
图3为本发明一种面向低资源场景可迁移的医疗问诊对话方法的步骤流程图;
图4为本发明具体实施例中一种面向低资源场景可迁移的医疗问诊对话***的生成效果与可视化图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种面向低资源场景可迁移的医疗问诊对话***的***架构图,图2为本发明具体实施例中面向低资源场景可迁移的医疗问诊对话***的结构示意图。如图1及图2所示,本发明一种面向低资源场景可迁移的医疗问诊对话***,包括:
模拟病人构建模块10,用于建立模拟病人,所述模拟病人具有一定数量的对话样本,每次训练随机选取一个对话样本,针对所述模拟病人会给出其病情描述报告。在本发明中,一个对话样本包含多轮对话,所述病情描述是病人对自我病情的陈述,即病人在多轮对话中描述自己的症状。
智能医疗问诊***构建模块11,用于建立一个智能医疗问诊***,所述智能***根据模拟病人的病情描述,通过分层上下文编码器模块从对话历史中提取不同层级的上下文信息,编码得到单轮层级和多轮层级对话的特征向量;通过演化外部的医疗知识图,根据得到的特征向量进行疾病-症状之间的关系推理,得到图节点特征向量,并在演化得到的图节点信息的指导下,利用复制网络,智能生成医生对病人的回复。
具体地,智能医疗问诊***构建模块11进一步包括:
分层上下文编码器模块110,用于根据模拟病人的病情描述,通过两个长短时记忆网络提取医生与病人对话对话历史的上下文信息,将其编码成单轮层级和多轮层级对话的特征向量。
具体地,分层上下文编码器模块110将模拟病人产生的对话样本输入到第一个双向长短期记忆网络(LSTM),对每轮(一问一答为一轮)的话语编码,取最后一个时步的输出作为话语层级的特征向量;然后将所述话语层级的特征向量输入到另一个双向长短期记忆网络,对所述话语层级的特征向量序列进行编码得到对话层级的高层级特征向量。
优选地,所述分层上下文编码器模块110采用双向长短期记忆网络,使用监督学习的方式训练双向长短期记忆网络模型,词向量和隐藏状态的维度都设为300,以BIO形式对文本序列中的每个词进行标注。
元疾病推理模块111,用于通过外部知识库构建疾病-症状知识图,将分层上下文编码器模块110获得的特征向量初始化构建的疾病-症状知识图的话语结点,通过两层图注意力网络,分别将话语节点蕴含的信息传递到疾病节点与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的图节点特征向量。
具体地,元疾病推理模块111进一步包括:
知识图构建单元,用于通过外部知识库构建先验性的疾病-症状知识图A,所述知识图包含三类节点:话语节点,疾病节点以及症状节点。为了将话语节点和疾病、症状节点联系起来,将每个话语节点和该单轮话语包含的疾病、症状节点进行连边,为了建立疾病与症状之间的联系,通过查询外部知识库,将相关疾病和对应症状连边。
信息传递及扩散传播单元,用于通过两层图注意力网络,分别将话语节点蕴含的信息传递到疾病与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的疾病与症状图节点特征向量,节点特征更新如下:hi=σ(∑j∈NαIJWhj),这使得元疾病图推理模块可以对疾病与症状的相互关系进行推理;
预测单元,用于将经信息传递及扩散传播单元得到的疾病与症状节点特征向量送入全连接神经网络,进行下一轮医生对病人的回复中可能出现症状的分类,根据分类结果,计算交叉熵损失函数,得到实体预测损失
Figure BDA0002782948470000071
这里是对症状的分类任务,即下一轮回复里可能出现哪些症状,而基于医疗知识图的解码器112的任务则是回复生成,旨在生成自然语言形式的回复。
基于医疗知识图的解码器112,用于在元疾病推理模块111获得的图节点特征向量的指导下,利用复制网络,从普通词表或者图节点集合动态选择解码的结果,生成智能医生对病人的回复。
具体地说,基于医疗知识图的解码器112根据元疾病推理模块111得到的最终的图节点特征向量(例如有50个图节点,则就有50个维度相等(假设维度为512)的一维特征向量,向量的每个元素为实数,例如某节点向量有512个实数元素,即[0.32,-1.21,0.89….]),分步依次生成每个单词,生成每个词的过程就是取所有候选词中生成概率最大的那个,生成概率分布来自于两部分:分别是普通词表概率分布和图节点的概率分布,两分布的加权求和得到最终的生成分布,即Pfinal=(1-pg)·PV+pg·PE。假设最终生成的医生回复为:“你/应该/是/得了/肠炎。”生成每个词的过程就是取所有候选词中最后的生成概率Pfinal最大的那个,比如‘你’的生成概率最大,则先生成‘你’;后面则生成‘应该’等词。
具体地,解码器具体架构为双向长短期记忆网络(LSTM),令xt为解码器在t时刻的输入,st为解码器的状态,
Figure BDA0002782948470000081
为图节点特征向量,则复制权重为
Figure BDA0002782948470000082
Figure BDA0002782948470000083
其中“|”为两个向量的拼接操作,σ为Sigmoid激活函数,ω1与b1为可训练的参数。普通词表分布根据LSTM的计算公式得到,普通词表概率分布为:
Figure BDA0002782948470000084
其中
Figure BDA0002782948470000085
为上下文向量,v、ω2与b2为可训练的参数;图节点复制概率分布是根据注意力权重得到,图节点的复制概率分布为:
Figure BDA0002782948470000086
其中v′、ω3与b3为可训练的参数。
训练模块12,用于对智能医疗问诊***构建模块11构建的智能医疗问诊***进行端到端训练,利用图演化元学习算法在已有疾病的对话数据(即模拟病人构建模块10构建的模拟病人的对话样本)上训练所述***,当出现新疾病需要自动诊断时,将所述***通过在新疾病的少量数据上进行迁移微调,得到拓展后的对话问诊***。
具体地,训练模块12通过在旧疾病上对所述医疗问诊***进行元训练,使得所述***学习到疾病间通用的对话与诊断技巧,进而可以通过新疾病少量的对话样本进行微调,具备快速迁移到新疾病上完成问诊的能力。
对于每个旧的任务,元对话模型(即模拟病人构建模块10、智能医疗问诊***构建模块11、训练模块12形成的模型,通过元学习的方法进行训练,故称作元对话模型)首先进行一步梯度更新:
Figure BDA0002782948470000091
然后通过一阶与模型无关的元学习,得到元初始化模型θmeta。使用所述的元初始化模型θmeta,可以在需要诊断新疾病时,仅通过在少量对话数据上进行一步梯度更新θmeta,即可快速迁移适应到新疾病上。
为了演化外部医疗知识图使其适应新疾病的问诊,训练模块14首先构造一个全局症状图A*,具体构造方式为:以在线的形式收集所有可观察到的对话样本,提取对话样本中的症状节点,如果两个症状节点出现在同一个样本中,则将两症状节点进行连边操作;然后根据得到的所述全局症状图,元疾病知识图A的动态更新方式为Ameta=A+A*,A代表通过外部知识库构建的元疾病知识图,A*代表通过对话样本提取构建的全局症状图,为了更精细地刻画疾病与症状的相互关系,将Ameta设置为元模型θmeta参数的一部分,来动态学习准确的相互关系表征。
优选地,在训练阶段,给定元对话模型θmeta和对话上下文U,使用生成回复ri与真实回复R的负对数似然作为损失函数进行学习,计算方式为:
Figure BDA0002782948470000092
Figure BDA0002782948470000093
优选地,最终的损失函数为上述生成损失
Figure BDA0002782948470000094
与实体预测损失
Figure BDA0002782948470000095
的加权求和,权重系数为τ,最终的损失函数可表示为:
Figure BDA0002782948470000096
图3为本发明一种面向低资源场景可迁移的医疗问诊对话方法的步骤流程图。如图3所示,本发明一种面向低资源场景可迁移的医疗问诊对话方法,包括如下步骤:
步骤S1,建立模拟病人,所述模拟病人具有一定数量的对话样本,每次训练随机选取一个对话样本,针对所述模拟病人会给出其病情描述报告。一个对话样本包含多轮对话,所述病情描述是病人对自我病情的陈述,即病人在多轮对话中描述自己的症状。
步骤S2,建立一个智能医疗问诊***,所述智能医疗问诊***根据模拟病人的病情描述,通过分层上下文编码器模块从对话历史中提取不同层级的上下文信息,编码得到单轮层级和多轮层级对话的特征向量;通过演化外部的医疗知识图,根据得到的特征向量进行疾病-症状之间的关系推理,得到图节点特征向量,并在演化得到的图节点信息的指导下,利用复制网络,智能生成医生对病人的回复。
具体地,步骤S2进一步包括:
步骤S200,所述分层上下文编码器模块根据模拟病人的病情描述,通过两个长短时记忆网络提取医生与病人对话对话历史的上下文信息,将其编码成单轮层级和多轮层级对话的特征向量。
具体地,分层上下文编码器模块将模拟病人产生的对话样本输入到第一个双向长短期记忆网络,对每轮的话语编码,取最后一个时步的输出作为话语层级的特征向量;然后将所述话语层级的特征向量输入到另一个双向长短期记忆网络,对话语层级的特征向量序列进行编码得到对话层级的高层级特征向量。
优选地,所述分层上下文编码器模块采用双向长短期记忆网络,使用监督学习的方式训练双向长短期记忆网络模型,词向量和隐藏状态的维度都设为300,以BIO形式对文本序列中的每个词进行标注。
步骤S201,所述元疾病推理模块通过外部知识库构建疾病-症状知识图,并将步骤S200获得的特征向量初始化构建的疾病-症状知识图的话语结点,通过两层图注意力网络,分别将话语节点蕴含的信息传递到疾病节点与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的图节点特征向量。
具体地,步骤S201进一步包括:
步骤S201a,通过外部知识库构建先验性的疾病-症状知识图,所述知识图包含三类结点:话语节点,疾病节点,症状节点。为了将话语节点和疾病、症状节点联系起来,将每个话语节点和该单轮话语包含的疾病、症状节点进行连边。为了建立疾病与症状之间的联系,通过查询外部知识库,将相关疾病和对应症状连边。
步骤S201b,通过两层图注意力网络,分别将对话节点蕴含的信息传递到疾病与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的图节点特征向量,节点特征更新如下:hi=σ(∑j∈NαIJWhj),这使得元疾病图推理模块可以对疾病与症状的相互关系进行推理;
步骤S201c,将经信息传递及扩散传播单元得到的疾病与症状节点特征向量送入全连接层,预测下一轮医生将要询问病人的症状。
步骤S202,在步骤S201获得的图节点特征向量的指导下,利用复制网络,从普通词表或者图节点集合动态选择解码的结果,生成智能医生对病人的回复。
具体地说,根据步骤S201得到的最终的图节点特征向量(例如有50个图节点,则就有50个维度相等(假设维度为512)的一维特征向量,向量的每个元素为实数,例如某节点向量有512个实数元素,即[0.32,-1.21,0.89….]),分步依次生成每个单词,生成每个词的过程就是取所有候选词中生成概率最大的那个,生成概率分布来自于两部分:分别是普通词表概率分布和图节点的概率分布,两分布的加权求和得到最终的生成分布,即Pfinal=(1-pg)·PV+pg·PE。假设最终生成的医生回复为:“你/应该/是/得了/肠炎。”生成每个词的过程就是取所有候选词中最后的生成概率Pfinal最大的那个,比如‘你’的生成概率最大,则先生成‘你’;后面则生成‘应该’等词。
具体地,解码器具体架构为双向长短期记忆网络(LSTM),令xt为解码器在t时刻的输入,st为解码器的状态,
Figure BDA0002782948470000111
为图节点特征向量,则复制权重为
Figure BDA0002782948470000112
Figure BDA0002782948470000113
其中“”为两个向量的拼接操作,σ为Sigmoid激活函数,ω1与b1为可训练的参数。普通词表分布根据LSTM的计算公式得到,普通词表概率分布为:
Figure BDA0002782948470000121
其中
Figure BDA0002782948470000122
为上下文向量,v、ω2与b2为可训练的参数;图节点复制概率分布是根据注意力权重得到,图节点的复制概率分布为:
Figure BDA0002782948470000123
其中v′、ω3与b3为可训练的参数。
步骤S3,对步骤S2构建的智能医疗问诊***进行端到端训练,利用图演化元学习算法在已有疾病的对话数据上训练所述***,当出现新疾病需要自动诊断时,将所述***通过在新疾病的少量数据上进行迁移微调,得到拓展后的对话问诊***。
具体地,步骤S3进一步包括:
步骤S300,为了演化外部医疗知识图使其适应新疾病的问诊,首先构造一个全局症状图A*,具体构造方式为:以在线的形式收集所有可观察到的对话样本,提取对话样本中的症状节点,如果两个症状节点出现在同一个样本中,则将两节点进行连边操作,这里的连边操作与步骤S201a类似,只是步骤S201a中是根据外部知识图谱得到图谱A,而这里是根据对话数据提取得到;根据得到的所述全局症状图,原疾病症状图动态更新方式为Ameta=A+A*,其中A代表通过外部知识库构建的元疾病知识图谱,A*代表通过对话样本提取构建的全局症状图;为了更精细地刻画疾病与症状的相互关系,将Ameta设置为元模型θmeta参数的一部分,来动态学习准确的相互关系表征。
步骤S301,通过在旧疾病上对所述医疗问诊***进行元训练,使得所述***学习到疾病间通用的对话与诊断技巧,进而可以通过新疾病少量的对话样本进行微调,具备快速迁移到新疾病上完成问诊的能力。对于每个旧的任务,元对话模型首先进行一步梯度更新:
Figure BDA0002782948470000124
然后通过一阶与模型无关的元学习,得到元初始化模型θmeta。使用所述的元初始化模型θmeta,可以在需要诊断新疾病时,仅通过在少量对话数据上进行一步梯度更新θmeta,即可快速迁移适应到新疾病上。
优选地,在训练阶段,使用生成回复与真实回复的负对数似然作为损失函数进行学习,计算方式为:
Figure BDA0002782948470000131
优选地,最终的损失函数为生成损失与实体预测损失的加权求和:
Figure BDA0002782948470000132
图4为本发明具体实施例中一种面向低资源场景可迁移的医疗问诊对话***的生成效果与可视化图,可见,本发明基于对话历史,对外部知识图进行了丰富和演化,成功推理出了患者的疾病,同时生成了质量较高的回复。说明本发明可以很好地迁移到未见过的新疾病上,特别是当新疾病对话数据量较少时,具备良好的迁移性能
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种面向低资源场景可迁移的医疗问诊对话***,包括:
模拟病人构建模块,用于建立模拟病人,所述模拟病人具有若干对话样本,每次训练随机选取一个对话样本,并针对所述模拟病人给出其病情描述报告;
智能医疗问诊***构建模块,用于建立一个智能医疗问诊***,所述智能医疗问诊***根据模拟病人的病情描述,通过分层上下文编码器模块从对话历史中提取不同层级的上下文信息,编码得到单轮层级和多轮层级对话的特征向量;通过演化外部的医疗知识图,根据得到的特征向量进行疾病-症状之间的关系推理,得到图节点特征向量,并在演化得到的图节点信息的指导下,利用复制网络,智能生成医生对病人的回复;
训练模块,用于对所述智能医疗问诊***构建模块获得的智能医疗问诊***进行端到端训练,利用图演化元学习算法在已有疾病的对话数据上训练所述***,当出现新疾病需要自动诊断时,将所述***通过在新疾病的少量数据上进行迁移微调,得到拓展后的对话问诊***。
2.如权利要求1所述的一种面向低资源场景可迁移的医疗问诊对话***,其特征在于,所述智能医疗问诊***构建模块进一步包括:
分层上下文编码器模块,用于根据模拟病人的病情描述,通过两个长短时记忆网络提取医生与病人对话对话历史的上下文信息,将其编码成单轮层级和多轮层级对话的特征向量;
元疾病推理模块,用于通过外部知识库构建疾病-症状知识图,并将分层上下文编码器模块获得的特征向量初始化构建的疾病-症状知识图的话语结点,通过两层图注意力网络,分别将话语节点蕴含的信息传递到疾病节点与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的图节点特征向量;
基于医疗知识图的解码器,用于在所述元疾病推理模块获得的图节点特征向量的指导下,利用复制网络作为对话生成器,从普通词表或者图节点集合动态选择解码的结果,智能生成医生对病人的回复。
3.如权利要求2所述的一种面向低资源场景可迁移的医疗问诊对话***,其特征在于:所述分层上下文编码器模块将模拟病人产生的对话样本输入到第一个双向长短期记忆网络,对每轮的话语编码,取最后一个时步的输出作为话语层级的特征向量;然后将所述话语层级的特征向量输入到另一个双向长短期记忆网络,对话语层级的特征向量序列进行编码得到对话层级的高层级特征向量。
4.如权利要求3所述的一种面向低资源场景可迁移的医疗问诊对话***,其特征在于:所述分层上下文编码器模块使用监督学习的方式训练双向长短期记忆网络模型。
5.如权利要求3所述的一种面向低资源场景可迁移的医疗问诊对话***,其特征在于:所述元疾病推理模块进一步包括:
知识图构建单元,用于通过外部知识库构建先验性的疾病-症状知识图,所述知识图包含话语节点,疾病节点,症状节点三类节点,将每个话语节点和该单轮话语包含的疾病、症状节点进行连边,并通过查询外部知识库,将相关疾病和对应症状连边;
信息传递及扩散传播单元,用于通过两层图注意力网络,分别将对话节点蕴含的信息传递到疾病与症状节点,同时将疾病与症状节点之间的信息进行扩散传播,得到最终的图节点特征向量。
6.如权利要求5所述的一种面向低资源场景可迁移的医疗问诊对话***,其特征在于:所说基于医疗知识图的解码器根据所述元疾病推理模块得到的最终的图节点特征向量,分步依次生成每个单词,生成每个单词的过程就是取所有候选词中生成概率最大的那个,预测分布来自于两部分:分别是普通词表分布和图节点集合的分布,两分布的加权求和得到最终的预测分布。
7.如权利要求6所述的一种面向低资源场景可迁移的医疗问诊对话***,其特征在于:所述训练模块通过在旧疾病上对所述智能医疗问诊***进行元训练,使得所述智能医疗问诊***学习到疾病间通用的对话与诊断技巧,进而可以通过新疾病少量的对话样本进行微调,具备快速迁移到新疾病上完成问诊的能力。
8.如权利要求7所述的一种面向低资源场景可迁移的医疗问诊对话***,其特征在于:于训练模型中,对于每个旧的任务,元对话模型首先进行一步梯度更新:
Figure FDA0002782948460000031
然后通过一阶与模型无关的元学习,得到元初始化模型θmeta;使用所述的元初始化模型θmeta,在需要诊断新疾病时,仅通过在少量对话数据上进行一步梯度更新θmeta,即快速迁移适应到新疾病上。
9.如权利要求8所述的一种面向低资源场景可迁移的医疗问诊对话***,其特征在于:所述训练模块以在线的形式收集所有可观察到的对话样本,提取对话样本中的症状节点,如果两个症状节点出现在同一个样本中,则将两症状节点进行连边操作;然后根据得到的所述全局症状图,原疾病症状图动态更新方式为Ameta=A+A*,并将Ameta设置为元模型θmeta参数的一部分,来动态学习准确的相互关系表征。
10.一种面向低资源场景可迁移的医疗问诊对话方法,包括如下步骤:
步骤S1,建立一个模拟病人,所述模拟病人具有一定数量的对话样本,每次训练随机选取一个对话样本,并针对所述模拟病人给出其病情描述报告;
步骤S2,建立一个智能医疗问诊***,所述智能医疗问诊***根据模拟病人的病情描述,通过分层上下文编码器模块从对话历史中提取不同层级的上下文信息,编码得到单轮层级和多轮层级对话的特征向量;通过演化外部的医疗知识图,根据得到的特征向量进行疾病-症状之间的关系推理,得到图节点特征向量,并在演化得到的图节点信息的指导下,利用复制网络,智能生成医生对病人的回复;
步骤S3,对步骤S2构建的智能医疗问诊***进行端到端训练,利用图演化元学习算法在已有疾病的对话数据上训练所述***,当出现新疾病需要自动诊断时,将所述***通过在新疾病的少量数据上进行迁移微调,得到拓展后的对话问诊***。
CN202011287854.4A 2020-11-17 2020-11-17 一种面向低资源场景可迁移的医疗问诊对话***及方法 Active CN112289467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011287854.4A CN112289467B (zh) 2020-11-17 2020-11-17 一种面向低资源场景可迁移的医疗问诊对话***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011287854.4A CN112289467B (zh) 2020-11-17 2020-11-17 一种面向低资源场景可迁移的医疗问诊对话***及方法

Publications (2)

Publication Number Publication Date
CN112289467A true CN112289467A (zh) 2021-01-29
CN112289467B CN112289467B (zh) 2022-08-02

Family

ID=74399057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011287854.4A Active CN112289467B (zh) 2020-11-17 2020-11-17 一种面向低资源场景可迁移的医疗问诊对话***及方法

Country Status (1)

Country Link
CN (1) CN112289467B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436752A (zh) * 2021-05-26 2021-09-24 山东大学 一种半监督的多轮医疗对话回复生成方法及***
CN114005549A (zh) * 2021-11-09 2022-02-01 哈尔滨理工大学 一种基于深度学习的增强型自动医疗诊断对话***
CN116072298A (zh) * 2023-04-06 2023-05-05 之江实验室 一种基于层级标记分布学习的疾病预测***
CN116246749A (zh) * 2023-05-11 2023-06-09 西南医科大学附属医院 集成电子病历的内分泌病人个性化健康管理***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817329A (zh) * 2019-01-21 2019-05-28 暗物智能科技(广州)有限公司 一种医疗问诊对话***以及应用于该***的强化学习方法
CN111125445A (zh) * 2019-12-17 2020-05-08 北京百度网讯科技有限公司 社区主题生成方法、装置、电子设备及存储介质
CN111553890A (zh) * 2020-04-22 2020-08-18 上海全景云医学影像诊断有限公司 基于增量学习的x光正位胸片多任务检测方法
CN111696345A (zh) * 2020-05-08 2020-09-22 东南大学 一种基于网络社区检测和gcn的耦合大规模数据流宽度学习快速预测智能算法
CN111863237A (zh) * 2020-05-29 2020-10-30 东莞理工学院 一种基于深度学习的移动端疾病智能辅助诊断***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817329A (zh) * 2019-01-21 2019-05-28 暗物智能科技(广州)有限公司 一种医疗问诊对话***以及应用于该***的强化学习方法
CN111125445A (zh) * 2019-12-17 2020-05-08 北京百度网讯科技有限公司 社区主题生成方法、装置、电子设备及存储介质
CN111553890A (zh) * 2020-04-22 2020-08-18 上海全景云医学影像诊断有限公司 基于增量学习的x光正位胸片多任务检测方法
CN111696345A (zh) * 2020-05-08 2020-09-22 东南大学 一种基于网络社区检测和gcn的耦合大规模数据流宽度学习快速预测智能算法
CN111863237A (zh) * 2020-05-29 2020-10-30 东莞理工学院 一种基于深度学习的移动端疾病智能辅助诊断***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIANG, XD等: "Interpretable Structure-Evolving LSTM", 《30TH IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2017)》 *
曾航齐等: "基于Hadoop的医疗大数据智能辅助诊疗平台的构建", 《中国数字医学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436752A (zh) * 2021-05-26 2021-09-24 山东大学 一种半监督的多轮医疗对话回复生成方法及***
CN114005549A (zh) * 2021-11-09 2022-02-01 哈尔滨理工大学 一种基于深度学习的增强型自动医疗诊断对话***
CN116072298A (zh) * 2023-04-06 2023-05-05 之江实验室 一种基于层级标记分布学习的疾病预测***
CN116072298B (zh) * 2023-04-06 2023-08-15 之江实验室 一种基于层级标记分布学习的疾病预测***
CN116246749A (zh) * 2023-05-11 2023-06-09 西南医科大学附属医院 集成电子病历的内分泌病人个性化健康管理***
CN116246749B (zh) * 2023-05-11 2023-07-21 西南医科大学附属医院 集成电子病历的内分泌病人个性化健康管理***

Also Published As

Publication number Publication date
CN112289467B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN112289467B (zh) 一种面向低资源场景可迁移的医疗问诊对话***及方法
CN109817329B (zh) 一种医疗问诊对话***以及应用于该***的强化学习方法
CN112271001B (zh) 一种应用异构图神经网络的医疗咨询对话***及方法
CN110188331B (zh) 模型训练方法、对话***评价方法、装置、设备及存储介质
Xu et al. User memory reasoning for conversational recommendation
CN111897941A (zh) 对话生成方法、网络训练方法、装置、存储介质及设备
CN110851491A (zh) 基于多重邻居节点的多重语义影响的网络链接预测方法
CN111210002B (zh) 一种基于生成对抗网络模型的多层学术网络社区发现方法、***
CN112115246A (zh) 基于对话的内容推荐方法、装置、计算机设备及存储介质
Liu et al. Augmented LSTM framework to construct medical self-diagnosis android
CN115495552A (zh) 基于双通道语义增强的多轮对话回复生成方法及终端设备
CN111046157B (zh) 一种基于平衡分布的通用英文人机对话生成方法和***
Jhunjhunwala et al. Multi-action dialog policy learning with interactive human teaching
Lan et al. Knowledge graph-based conversational recommender system in travel
Li Regularized adaptation: Theory, algorithms and applications
CN115862862A (zh) 疾病预测方法、装置及计算机可读存储介质
CN115964475A (zh) 一种用于医疗问诊的对话摘要生成方法
CN116150334A (zh) 基于UniLM模型和Copy机制的中文共情语句训练方法及***
CN116994695A (zh) 报告生成模型的训练方法、装置、设备及存储介质
Zhang et al. A question-centric multi-experts contrastive learning framework for improving the accuracy and interpretability of deep sequential knowledge tracing models
CN114333790A (zh) 数据处理方法、装置、设备、存储介质及程序产品
CN115687910A (zh) 一种数据处理方法、装置、计算机设备以及可读存储介质
Kreyssig Deep learning for user simulation in a dialogue system
He et al. Scalable online disease diagnosis via multi-model-fused actor-critic reinforcement learning
Habitamu Designing and Implementing Adaptive Bot Model to Consult Ethiopian Published Laws Using Ensemble Architecture with Rules Integrated

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant