CN109741824B - 一种基于机器学习的医疗问诊方法 - Google Patents

一种基于机器学习的医疗问诊方法 Download PDF

Info

Publication number
CN109741824B
CN109741824B CN201811571115.0A CN201811571115A CN109741824B CN 109741824 B CN109741824 B CN 109741824B CN 201811571115 A CN201811571115 A CN 201811571115A CN 109741824 B CN109741824 B CN 109741824B
Authority
CN
China
Prior art keywords
answer
question
vector
medical
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811571115.0A
Other languages
English (en)
Other versions
CN109741824A (zh
Inventor
张倬胜
王衎清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhizhi Shanghai Education Technology Co ltd
Original Assignee
Zhizhi Shanghai Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhizhi Shanghai Education Technology Co ltd filed Critical Zhizhi Shanghai Education Technology Co ltd
Priority to CN201811571115.0A priority Critical patent/CN109741824B/zh
Publication of CN109741824A publication Critical patent/CN109741824A/zh
Application granted granted Critical
Publication of CN109741824B publication Critical patent/CN109741824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于机器学习的医疗问诊方法对于在线医疗领域、未来智慧医院来说有较高的价值与广泛的意义。为了实现医疗信息化中的疾病与诊疗的智能问答***,本发明提出一种基于机器学习的医疗问诊方法,能够通过数据挖掘与分析医疗数据中的特征,实现自动化的问诊。具体流程包括:准备医疗问诊数据集,数据向量化,问句语义特征表示与语义挖掘,多轮问答交互,模型训练与参数更新。

Description

一种基于机器学习的医疗问诊方法
技术领域
本发明属于计算机科学与医疗卫生的交叉领域,涉及一种针对医疗问答数据的特征提取与分析、自动问诊和问答对话方法。
背景技术
问答***是一个快速发展的研究领域,融合了信息检索(InformationRetrieval,IR)、信息抽取(Information Extraction,IE)、自然语言处理(NaturalLanguage Processing,NLP)等多类研究。问答***可以接受人们自然语言方式的提问,利用知识库检索找出与问题相关的匹配文档,从中抽取出简洁、准确的答案返回给用户。问答***与信息检索的不同在于,信息检索返回给用户的知识一系列与问题相关的文档集合,而不是给出确定的答案。问答***在信息检索、信息抽取的基础上更进了一步,问答***可以直接返回准确的问题答案,而不必让用户从那么多经过排序的文档集合中去发掘有用信息,这在很大程度上克服了搜索引擎显现出的弊端,使用户有了更加自然的人机交互方式。通过研究问答***衍生出的各类技术和方法也促进了相关领域的进步,例如文档检索、命名实体识别(Named Entity Recognition,NER)等。
问答***是人工智能领域的一个研究应用方向,整合了自然语言处理、语言学、统计学、知识库等多种方法。在基于语言学方法的问答***中,知识信息是按照一定的产生规则、逻辑框架或模板、本体语义网来进行组织,常用于问题答案对(Question Answer Pair)的分析和匹配。为了把用户的问题转化为一个可以用于检索数据库的标准查询表示,往往会用到语义分析、分词、词性标注等技术来实现。
合理利用健康医疗大数据,使得医疗资源能够充分发挥其优势,从而降低国家所面临的健康风险。构建医疗领域知识库,即将自然语言描述的医疗信息转化为特定形式表示的医疗领域知识,可以很好地对现有的医疗知识进行管理、共享、查询和推理,从而挖掘出领域中更多隐含的知识;其次,根据知识库中的现有知识,结合患者的问题描述对其进行智能化的科室分类和相似问题推荐,将会大幅缩短患者的等待时间,减轻在线分诊医生的工作量,增加整个平台问答的质量。
发明内容
一种基于机器学习的医疗问诊方法,具体包括如下步骤:准备医疗问诊数据集,数据向量化,问句语义特征表示与语义挖掘,多轮问答交互,模型训练与参数更新。
本发明的提出一种基于机器学习的医疗问诊方法,能够通过数据挖掘与分析医疗数据中的特征,实现自动化的问诊。
本发明所提出的一种基于机器学习的医疗问诊方法具体包括如下步骤:
步骤1,采集医疗问答数据集,电子化、格式化、收集的医疗问答数据,去除无效、无关的数据,作为***输入;
步骤2,将医疗问答数据进行向量化,具体是将输入的问题进行分词,作为***输入的基本单元;
步骤3,将步骤2向量化后的医疗问答数据采用问句语义特征表示,并挖掘语义;
步骤4,采用多轮问答交互机制,具体是采用多轮对话的方式来结合上下文实现问诊的记忆功能,获取已有的对话上下文,具体为将已有的对话文本首尾拼接到一起;
步骤5,针对步骤4得到的上下文和答案,进行模型训练与参数更新,通过训练使数据集中问题和答案拟合,计算问题和答案向量之间的误差,该误差设定为损失函数,更新***参数,不断降低损失,使结果不断趋向准确。
在上述的一种基于机器学习的医疗问诊方法,步骤1的具体方法包括:去掉与医疗无关的数据,将数据形式组织为一问一答的形式。
在上述的一种基于机器学习的医疗问诊方法,所述步骤2具体包括:
步骤一,建立词语表,具体是遍历全部数据,得到全部的词语集合;
步骤二,建立词语表,将每个元素表示为向量;具体为在向量化步骤中,假设整个问答数据集的不重复的词语数为K,使用自然语言处理中的词嵌入方法将该K个元素各自映射至特定维度N的向量空间中,得到K×N的映射空间,此时词表元素表示为(K,N)维度的向量;例如可以通过词嵌入的方式将“医疗”表示为100维的向量[0.618 0.24911-0.422420.1217 0.34527-0.034457…]。
在上述的一种基于机器学习的医疗问诊方法,所述步骤3具体包括:采用神经网络提取数据中的内在特征和病理,具体方法是:设置向量化后的文本数据为输入,通过神经网络(如卷积神经网络)为的神经元自动计算向量空间中的特征表示,输出为神经元学习后的特征向量。
在上述的一种基于机器学习的医疗问诊方法,所述步骤4具体包括:
步骤一,将已有的m轮对话与当前问题表示成向量后拼接作为带有上下文的问句表示;
步骤二,用Ui,i∈[1,m]表示m个当前用户与***已有的对话,则上下文表示为Uc=U1∪U2∪…∪Um,∪表示将句子首位拼接;
步骤三,用Q表示当前问题,则联合表示为UQ=Uc∪Q。
在上述的一种基于机器学习的医疗问诊方法,其特征在于,所述步骤5具体包括:使用向量相似度来表示问题和正确答案之间的对应程度,并作为模型的损失函数;具体方法可通过向量点乘、余弦距离以及欧式距离计算相似度;其中,欧氏距离、余弦距离分别满足
其中x表示预测的答案,y表示真实答案;
此外,基于上述相似度也可以采用Hinge loss结合负例答案进一步学习,即引入负例答案(不正确的答案)来拟合正确答案,远离错误答案,即满足
l(y,y′)=max(0,m-y+y′)
其中,y是正样本与正确答案的相似度,y’是负样本与正确答案的相似度,m是人为选定的边界值,通常设置为0.5。
因此,本发明具有如下优点:1.本发明采用机器学习与神经网络架构、向量化计算过程,相对于基于文本字符级的统计学习方法具有更加精细的语义特征,语义识别和问答对话更为准确可靠。2.本发明具有自我学习更新功能和人机交互功能,能够规范化、结构化诊疗过程,为新时代医疗带来全新解决方案。3.病人可通过与基于本发明研发的***进行交互,提前自助提交检查及病历,缩短就医路径。了解就医流程和状态,便捷预约减少排队增加和医生沟通渠道,提升看病体验。此外,还能减少医生重复性的问询工作,提升工作效率。
具体实施方式
下面通过实施例,对本发明的技术方案作进一步具体的说明。
实施例:
首先介绍本发明的方法原理,具体包括如下步骤:
第一步,准备医疗问答数据集。电子化、格式化、收集的医疗问答数据,去除无效、无关的数据,作为***输入。
第二步,向量空间的数据表示。由于中文文本处理的基本单元是词,因此,需要将输入的问题进行分词,作为***输入的基本单元。使用词嵌入技术将输入问句映射到向量空间中。词嵌入是以一种低维实数向量的词语表示方式,将词语的各类特征都包含在里面,既有词性、词频等语法特征,又有词语之间的语义信息。具体做法是建立词语表,将每个元素表示为向量。为了便于计算特征值,在向量化步骤中,假设整个问答数据集的不重复的词语数为K,使用自然语言处理中的词嵌入方法将该K个元素各自映射至特定维度N的向量空间中,得到K×N的映射空间,此时词表元素表示为(K,N)维度的向量。例如可以通过词嵌入的方式将“医疗”表示为100维的向量[0.618 0.24911-0.42242 0.1217 0.34527-0.034457…]。
第三步,问句语义特征表示与语义挖掘。将问题都表示成向量之后,可以通过多种神经网络用于自动挖掘其中的语义特征和问答意图,例如卷积神经网络、递归神经网络等,本发明不限于某一种特定的网络。以常用的长短期记忆网络为例,
it=σ(Wixt+Uist-1+bi)
ft=σ(Wfxt+Ufst-1+bf)
ot=σ(Woxt+Uost-1+bo)
ht=ot*tanh(Ct)
其中xt是输入(即前面拼接的向量)的第t个向量,U是当前输入的权值矩阵,W是前一时刻的权值矩阵,b是偏置项,是基于当前输入和之前隐藏状态计算的状态值,U,W,b称为该神经网络的参数。it,ft,ot分别输入门、遗忘门和输出门,h代表网络输出。
第四步,多轮问答交互。传统的问答***采用的是一问一答的模式,缺乏对历史问答的“回忆”与交互。本发明采用多轮对话的方式来结合上下文实现问诊的记忆功能。本发明不限于某种具体的多轮对话方法,例如将已有的m轮对话与当前问题表示成向量后拼接作为带有上下文的问句表示。用Ui,i∈[1,m]表示m个当前用户与***已有的对话,则上下文表示为Uc=U1∪U2∪…∪Um,∪表示将句子首位拼接。用Q表示当前问题,则联合表示为UQ=Uc∪Q
第五步,模型训练与参数更新。机器学习模块通过训练使数据集中问题和答案拟合,计算问题和答案向量之间的误差(损失函数),更新***参数,不断降低损失,使结果不断趋向准确。
在模型训练和参数更新步骤中,损失函数使用向量相似度来表示问题和正确答案之间的对应程度,并作为模型的损失函数。例如可通过向量点乘、余弦距离以及欧式距离计算相似度;其中,欧氏距离、余弦距离分别满足
其中x表示预测的答案,y表示真实答案。
此外,基于上述相似度也可以采用Hinge loss结合负例答案进一步学习,即引入负例答案(不正确的答案)来拟合正确答案,远离错误答案,即满足
l(y,y′)=max(0,m-y+y′)
其中,y是正样本与正确答案的相似度,y’是负样本与正确答案的相似度,m是人为选定的边界值,通常设置为0.5。
下面是采用本发明所涉及方法的具体案例。
将问答数据集进行分词,建立一个包含K个词的元素表,假设数据集共有9万个词,每个词语对应100维的向量,因此向量映射表大小为90000×100的矩阵,其中的向量采用随机初始化的方式,每个向量值的随机范围为[-0.5,0.5]。
问句语义特征表示与语义挖掘模块采用长短期记忆网络,其中的主要参数可设置为:神经元个数(特征维度)为128,学习率为0.001。训练方式采用Adam优化算法。模型训练与参数更新步骤中采用Hinge loss不断拟合预测和真实答案,得到最优模型。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (1)

1.一种基于机器学习的医疗问诊方法,其特征在于,包括:
第一步,准备医疗问答数据集,电子化、格式化、收集的医疗问答数据,去除无效、无关的数据,作为***输入;
第二步,向量空间的数据表示,由于中文文本处理的基本单元是词,将输入的问题进行分词,作为***输入的基本单元;使用词嵌入技术将输入问句映射到向量空间中;词嵌入是以一种低维实数向量的词语表示方式,将词语的各类特征都包含在里面,既有词性、词频语法特征,又有词语之间的语义信息;具体是建立词语表,将每个元素表示为向量;在向量化步骤中,假设整个问答数据集的不重复的词语数为K,使用自然语言处理中的词嵌入方法将该K个元素各自映射至特定维度N的向量空间中,得到K×N的映射空间,此时词表元素表示为(K,N)维度的向量;通过词嵌入的方式将“医疗”表示为100维的向量[0.618 0.24911 -0.42242 0.1217 0.34527 -0.034457 …];
第三步,问句语义特征表示与语义挖掘,将问题都表示成向量之后,通过多种神经网络用于自动挖掘其中的语义特征和问答意图,采用长短期记忆网络
其中,是输入的第t个向量, U是当前输入的权值矩阵,W是前一时刻的权值矩阵,b是偏置项,/>是基于当前输入和之前隐藏状态计算的状态值,U,W,b称为该神经网络的参数;,/>,/>分别输入门、遗忘门和输出门,h代表网络输出;
第四步,多轮问答交互,将已有的m轮对话与当前问题表示成向量后拼接作为带有上下文的问句表示;用 表示m个当前用户与***已有的对话,则上下文表示为,/>表示将句子首位拼接;用Q表示当前问题,则联合表示为
第五步,模型训练与参数更新,机器学习模块通过训练使数据集中问题和答案拟合,计算问题和答案向量之间的误差,更新***参数,不断降低损失,使结果不断趋向准确;
在模型训练和参数更新步骤中,损失函数使用向量相似度来表示问题和正确答案之间的对应程度,并作为模型的损失函数;通过向量点乘、余弦距离以及欧式距离计算相似度;其中,欧氏距离、余弦距离分别满足
其中x表示预测的答案,y表示真实答案;
基于上述相似度采用Hinge loss结合负例答案进一步学习, 即引入负例答案来拟合正确答案,远离错误答案,即满足
l(y,y′)=max(0,m−y+y′)
其中,y是正样本与正确答案的相似度,y’是负样本与正确答案的相似度,m是人为选定的边界值,设置为0.5;
将问答数据集进行分词,建立一个包含K个词的元素表,假设数据集共有9万个词,每个词语对应100维的向量,因此向量映射表大小为90000 × 100的矩阵,其中的向量采用随机初始化的方式,每个向量值的随机范围为[-0.5, 0.5];
问句语义特征表示与语义挖掘模块采用长短期记忆网络,其中的主要参数可设置为:神经元个数为128,学习率为0.001;训练方式采用Adam优化算法;模型训练与参数更新步骤中采用Hinge loss不断拟合预测和真实答案,得到最优模型。
CN201811571115.0A 2018-12-21 2018-12-21 一种基于机器学习的医疗问诊方法 Active CN109741824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811571115.0A CN109741824B (zh) 2018-12-21 2018-12-21 一种基于机器学习的医疗问诊方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811571115.0A CN109741824B (zh) 2018-12-21 2018-12-21 一种基于机器学习的医疗问诊方法

Publications (2)

Publication Number Publication Date
CN109741824A CN109741824A (zh) 2019-05-10
CN109741824B true CN109741824B (zh) 2023-08-04

Family

ID=66361048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811571115.0A Active CN109741824B (zh) 2018-12-21 2018-12-21 一种基于机器学习的医疗问诊方法

Country Status (1)

Country Link
CN (1) CN109741824B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136839B (zh) * 2019-05-14 2021-10-08 北京百度网讯科技有限公司 一种症状信息处理方法、装置和电子设备
CN110176315B (zh) * 2019-06-05 2022-06-28 京东方科技集团股份有限公司 医疗问答方法及***、电子设备、计算机可读介质
CN110838359B (zh) * 2019-10-16 2023-07-07 平安科技(深圳)有限公司 基于对话机器人的分诊方法、装置、存储介质及机器人
CN112133414A (zh) * 2020-09-08 2020-12-25 深圳中兴网信科技有限公司 医疗服务***
CN114091476A (zh) * 2021-11-18 2022-02-25 北京淘友天下科技发展有限公司 对话识别方法、装置、电子设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答***
EP3229157A1 (en) * 2016-04-07 2017-10-11 Siemens Healthcare GmbH Image analytics question answering
CN107368547A (zh) * 2017-06-28 2017-11-21 西安交通大学 一种基于深度学习的智能医疗自动问答方法
WO2018000282A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种聊天对话***的扩充学习方法及聊天对话***
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN108509519A (zh) * 2018-03-09 2018-09-07 北京邮电大学 基于深度学习的通用知识图谱增强问答交互***及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答***
EP3229157A1 (en) * 2016-04-07 2017-10-11 Siemens Healthcare GmbH Image analytics question answering
WO2018000282A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种聊天对话***的扩充学习方法及聊天对话***
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN107368547A (zh) * 2017-06-28 2017-11-21 西安交通大学 一种基于深度学习的智能医疗自动问答方法
CN108509519A (zh) * 2018-03-09 2018-09-07 北京邮电大学 基于深度学习的通用知识图谱增强问答交互***及方法

Also Published As

Publication number Publication date
CN109741824A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN109741824B (zh) 一种基于机器学习的医疗问诊方法
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及***
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及***
CN113724882B (zh) 基于问诊会话构建用户画像的方法、装置、设备和介质
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及***
CN110287323B (zh) 一种面向目标的情感分类方法
Wazalwar et al. Interpretation of sign language into English using NLP techniques
CN112784532B (zh) 用于短文本情感分类的多头注意力记忆***
CN111339269A (zh) 模板自动生成的知识图谱问答训练及应用服务***
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN110489554B (zh) 基于位置感知互注意力网络模型的属性级情感分类方法
CN113569023A (zh) 一种基于知识图谱的中文医药问答***及方法
CN113204611A (zh) 建立阅读理解模型的方法、阅读理解方法及对应装置
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN113593661A (zh) 临床术语标准化方法、装置、电子设备及存储介质
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配***及方法
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
CN115878847B (zh) 基于自然语言的视频引导方法、***、设备及存储介质
CN115905187B (zh) 一种面向云计算工程技术人员认证的智能化命题***
CN115357710B (zh) 表格描述文本生成模型的训练方法、装置及电子设备
CN117009456A (zh) 医疗查询文本的处理方法、装置、设备、介质和电子产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant