CN109741824B

CN109741824B - 一种基于机器学习的医疗问诊方法

Info

Publication number: CN109741824B
Application number: CN201811571115.0A
Authority: CN
Inventors: 张倬胜; 王衎清
Original assignee: Zhizhi Shanghai Education Technology Co ltd
Current assignee: Zhizhi Shanghai Education Technology Co ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2023-08-04
Anticipated expiration: 2038-12-21
Also published as: CN109741824A

Abstract

基于机器学习的医疗问诊方法对于在线医疗领域、未来智慧医院来说有较高的价值与广泛的意义。为了实现医疗信息化中的疾病与诊疗的智能问答***，本发明提出一种基于机器学习的医疗问诊方法，能够通过数据挖掘与分析医疗数据中的特征，实现自动化的问诊。具体流程包括：准备医疗问诊数据集，数据向量化，问句语义特征表示与语义挖掘，多轮问答交互，模型训练与参数更新。

Description

一种基于机器学习的医疗问诊方法

技术领域

本发明属于计算机科学与医疗卫生的交叉领域，涉及一种针对医疗问答数据的特征提取与分析、自动问诊和问答对话方法。

背景技术

问答***是一个快速发展的研究领域，融合了信息检索(InformationRetrieval,IR)、信息抽取(Information Extraction,IE)、自然语言处理(NaturalLanguage Processing,NLP)等多类研究。问答***可以接受人们自然语言方式的提问，利用知识库检索找出与问题相关的匹配文档，从中抽取出简洁、准确的答案返回给用户。问答***与信息检索的不同在于，信息检索返回给用户的知识一系列与问题相关的文档集合，而不是给出确定的答案。问答***在信息检索、信息抽取的基础上更进了一步，问答***可以直接返回准确的问题答案，而不必让用户从那么多经过排序的文档集合中去发掘有用信息，这在很大程度上克服了搜索引擎显现出的弊端，使用户有了更加自然的人机交互方式。通过研究问答***衍生出的各类技术和方法也促进了相关领域的进步，例如文档检索、命名实体识别(Named Entity Recognition,NER)等。

问答***是人工智能领域的一个研究应用方向，整合了自然语言处理、语言学、统计学、知识库等多种方法。在基于语言学方法的问答***中，知识信息是按照一定的产生规则、逻辑框架或模板、本体语义网来进行组织，常用于问题答案对(Question Answer Pair)的分析和匹配。为了把用户的问题转化为一个可以用于检索数据库的标准查询表示，往往会用到语义分析、分词、词性标注等技术来实现。

合理利用健康医疗大数据，使得医疗资源能够充分发挥其优势，从而降低国家所面临的健康风险。构建医疗领域知识库，即将自然语言描述的医疗信息转化为特定形式表示的医疗领域知识，可以很好地对现有的医疗知识进行管理、共享、查询和推理，从而挖掘出领域中更多隐含的知识；其次，根据知识库中的现有知识，结合患者的问题描述对其进行智能化的科室分类和相似问题推荐，将会大幅缩短患者的等待时间，减轻在线分诊医生的工作量，增加整个平台问答的质量。

发明内容

一种基于机器学习的医疗问诊方法，具体包括如下步骤：准备医疗问诊数据集，数据向量化，问句语义特征表示与语义挖掘，多轮问答交互，模型训练与参数更新。

本发明的提出一种基于机器学习的医疗问诊方法，能够通过数据挖掘与分析医疗数据中的特征，实现自动化的问诊。

本发明所提出的一种基于机器学习的医疗问诊方法具体包括如下步骤：

步骤1，采集医疗问答数据集，电子化、格式化、收集的医疗问答数据，去除无效、无关的数据，作为***输入；

步骤2，将医疗问答数据进行向量化，具体是将输入的问题进行分词，作为***输入的基本单元；

步骤3，将步骤2向量化后的医疗问答数据采用问句语义特征表示，并挖掘语义；

步骤4，采用多轮问答交互机制，具体是采用多轮对话的方式来结合上下文实现问诊的记忆功能，获取已有的对话上下文，具体为将已有的对话文本首尾拼接到一起；

步骤5，针对步骤4得到的上下文和答案，进行模型训练与参数更新，通过训练使数据集中问题和答案拟合，计算问题和答案向量之间的误差，该误差设定为损失函数，更新***参数，不断降低损失，使结果不断趋向准确。

在上述的一种基于机器学习的医疗问诊方法，步骤1的具体方法包括：去掉与医疗无关的数据，将数据形式组织为一问一答的形式。

在上述的一种基于机器学习的医疗问诊方法，所述步骤2具体包括：

步骤一，建立词语表，具体是遍历全部数据，得到全部的词语集合；

步骤二，建立词语表，将每个元素表示为向量；具体为在向量化步骤中，假设整个问答数据集的不重复的词语数为K，使用自然语言处理中的词嵌入方法将该K个元素各自映射至特定维度N的向量空间中，得到K×N的映射空间，此时词表元素表示为(K，N)维度的向量；例如可以通过词嵌入的方式将“医疗”表示为100维的向量[0.618 0.24911-0.422420.1217 0.34527-0.034457…]。

在上述的一种基于机器学习的医疗问诊方法，所述步骤3具体包括：采用神经网络提取数据中的内在特征和病理，具体方法是：设置向量化后的文本数据为输入，通过神经网络(如卷积神经网络)为的神经元自动计算向量空间中的特征表示，输出为神经元学习后的特征向量。

在上述的一种基于机器学习的医疗问诊方法，所述步骤4具体包括：

步骤一，将已有的m轮对话与当前问题表示成向量后拼接作为带有上下文的问句表示；

步骤二，用U_i，i∈[1，m]表示m个当前用户与***已有的对话，则上下文表示为U_c＝U₁∪U₂∪…∪U_m，∪表示将句子首位拼接；

步骤三，用Q表示当前问题，则联合表示为U_Q＝U_c∪Q。

在上述的一种基于机器学习的医疗问诊方法，其特征在于，所述步骤5具体包括：使用向量相似度来表示问题和正确答案之间的对应程度，并作为模型的损失函数；具体方法可通过向量点乘、余弦距离以及欧式距离计算相似度；其中，欧氏距离、余弦距离分别满足

其中x表示预测的答案，y表示真实答案；

此外，基于上述相似度也可以采用Hinge loss结合负例答案进一步学习,即引入负例答案(不正确的答案)来拟合正确答案，远离错误答案，即满足

l(y,y′)＝max(0,m-y+y′)

其中，y是正样本与正确答案的相似度，y’是负样本与正确答案的相似度，m是人为选定的边界值，通常设置为0.5。

因此，本发明具有如下优点：1.本发明采用机器学习与神经网络架构、向量化计算过程，相对于基于文本字符级的统计学习方法具有更加精细的语义特征，语义识别和问答对话更为准确可靠。2.本发明具有自我学习更新功能和人机交互功能，能够规范化、结构化诊疗过程，为新时代医疗带来全新解决方案。3.病人可通过与基于本发明研发的***进行交互，提前自助提交检查及病历，缩短就医路径。了解就医流程和状态，便捷预约减少排队增加和医生沟通渠道，提升看病体验。此外，还能减少医生重复性的问询工作，提升工作效率。

具体实施方式

下面通过实施例，对本发明的技术方案作进一步具体的说明。

实施例：

首先介绍本发明的方法原理，具体包括如下步骤：

第一步，准备医疗问答数据集。电子化、格式化、收集的医疗问答数据，去除无效、无关的数据，作为***输入。

第二步，向量空间的数据表示。由于中文文本处理的基本单元是词，因此，需要将输入的问题进行分词，作为***输入的基本单元。使用词嵌入技术将输入问句映射到向量空间中。词嵌入是以一种低维实数向量的词语表示方式，将词语的各类特征都包含在里面，既有词性、词频等语法特征，又有词语之间的语义信息。具体做法是建立词语表，将每个元素表示为向量。为了便于计算特征值，在向量化步骤中，假设整个问答数据集的不重复的词语数为K，使用自然语言处理中的词嵌入方法将该K个元素各自映射至特定维度N的向量空间中，得到K×N的映射空间，此时词表元素表示为(K，N)维度的向量。例如可以通过词嵌入的方式将“医疗”表示为100维的向量[0.618 0.24911-0.42242 0.1217 0.34527-0.034457…]。

第三步，问句语义特征表示与语义挖掘。将问题都表示成向量之后，可以通过多种神经网络用于自动挖掘其中的语义特征和问答意图，例如卷积神经网络、递归神经网络等，本发明不限于某一种特定的网络。以常用的长短期记忆网络为例，

i_t＝σ(W_ix_t+U_is_t-1+b_i)

f_t＝σ(W_fx_t+U_fs_t-1+b_f)

o_t＝σ(W_ox_t+U_os_t-1+b_o)

h_t＝o_t*tanh(C_t)

其中x_t是输入(即前面拼接的向量)的第t个向量，U是当前输入的权值矩阵，W是前一时刻的权值矩阵，b是偏置项，是基于当前输入和之前隐藏状态计算的状态值，U，W，b称为该神经网络的参数。i_t，f_t，o_t分别输入门、遗忘门和输出门，h代表网络输出。

第四步，多轮问答交互。传统的问答***采用的是一问一答的模式，缺乏对历史问答的“回忆”与交互。本发明采用多轮对话的方式来结合上下文实现问诊的记忆功能。本发明不限于某种具体的多轮对话方法，例如将已有的m轮对话与当前问题表示成向量后拼接作为带有上下文的问句表示。用U_i，i∈[1，m]表示m个当前用户与***已有的对话，则上下文表示为U_c＝U₁∪U₂∪…∪U_m，∪表示将句子首位拼接。用Q表示当前问题，则联合表示为U_Q＝U_c∪Q

第五步，模型训练与参数更新。机器学习模块通过训练使数据集中问题和答案拟合，计算问题和答案向量之间的误差(损失函数)，更新***参数，不断降低损失，使结果不断趋向准确。

在模型训练和参数更新步骤中，损失函数使用向量相似度来表示问题和正确答案之间的对应程度，并作为模型的损失函数。例如可通过向量点乘、余弦距离以及欧式距离计算相似度；其中，欧氏距离、余弦距离分别满足

其中x表示预测的答案，y表示真实答案。

l(y,y′)＝max(0,m-y+y′)

下面是采用本发明所涉及方法的具体案例。

将问答数据集进行分词，建立一个包含K个词的元素表，假设数据集共有9万个词，每个词语对应100维的向量，因此向量映射表大小为90000×100的矩阵，其中的向量采用随机初始化的方式，每个向量值的随机范围为[-0.5,0.5]。

问句语义特征表示与语义挖掘模块采用长短期记忆网络，其中的主要参数可设置为：神经元个数(特征维度)为128，学习率为0.001。训练方式采用Adam优化算法。模型训练与参数更新步骤中采用Hinge loss不断拟合预测和真实答案，得到最优模型。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于机器学习的医疗问诊方法，其特征在于，包括：

第一步，准备医疗问答数据集，电子化、格式化、收集的医疗问答数据，去除无效、无关的数据，作为***输入；

第二步，向量空间的数据表示，由于中文文本处理的基本单元是词，将输入的问题进行分词，作为***输入的基本单元；使用词嵌入技术将输入问句映射到向量空间中；词嵌入是以一种低维实数向量的词语表示方式，将词语的各类特征都包含在里面，既有词性、词频语法特征，又有词语之间的语义信息；具体是建立词语表，将每个元素表示为向量；在向量化步骤中，假设整个问答数据集的不重复的词语数为K，使用自然语言处理中的词嵌入方法将该K个元素各自映射至特定维度N的向量空间中，得到K×N的映射空间，此时词表元素表示为（K，N）维度的向量；通过词嵌入的方式将“医疗”表示为100维的向量[0.618 0.24911 -0.42242 0.1217 0.34527 -0.034457 …]；

第三步，问句语义特征表示与语义挖掘，将问题都表示成向量之后，通过多种神经网络用于自动挖掘其中的语义特征和问答意图，采用长短期记忆网络

其中，是输入的第t个向量， U是当前输入的权值矩阵，W是前一时刻的权值矩阵，b是偏置项，/>是基于当前输入和之前隐藏状态计算的状态值，U，W，b称为该神经网络的参数；，/>，/>分别输入门、遗忘门和输出门，h代表网络输出；

第四步，多轮问答交互，将已有的m轮对话与当前问题表示成向量后拼接作为带有上下文的问句表示；用表示m个当前用户与***已有的对话，则上下文表示为，/>表示将句子首位拼接；用Q表示当前问题，则联合表示为；

第五步，模型训练与参数更新，机器学习模块通过训练使数据集中问题和答案拟合，计算问题和答案向量之间的误差，更新***参数，不断降低损失，使结果不断趋向准确；

在模型训练和参数更新步骤中，损失函数使用向量相似度来表示问题和正确答案之间的对应程度，并作为模型的损失函数；通过向量点乘、余弦距离以及欧式距离计算相似度；其中，欧氏距离、余弦距离分别满足

；

其中x表示预测的答案，y表示真实答案；

基于上述相似度采用Hinge loss结合负例答案进一步学习, 即引入负例答案来拟合正确答案，远离错误答案，即满足

l(y,y′)=max(0,m−y+y′)

其中，y是正样本与正确答案的相似度，y’是负样本与正确答案的相似度，m是人为选定的边界值，设置为0.5；

将问答数据集进行分词，建立一个包含K个词的元素表，假设数据集共有9万个词，每个词语对应100维的向量，因此向量映射表大小为90000 × 100的矩阵，其中的向量采用随机初始化的方式，每个向量值的随机范围为[-0.5, 0.5]；

问句语义特征表示与语义挖掘模块采用长短期记忆网络，其中的主要参数可设置为：神经元个数为128，学习率为0.001；训练方式采用Adam优化算法；模型训练与参数更新步骤中采用Hinge loss不断拟合预测和真实答案，得到最优模型。