CN109360658A

CN109360658A - 一种基于词向量模型的疾病模式挖掘方法及装置

Info

Publication number: CN109360658A
Application number: CN201811298304.5A
Authority: CN
Inventors: 王静远; 李姝�; 杨英; 马旭
Original assignee: Science Technology Research Institute Of National Health And Family Planning Commission Of People's Republick Of China; Beihang University
Current assignee: Science Technology Research Institute Of National Health And Family Planning Commission Of People's Republick Of China; Beihang University
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2019-02-19
Anticipated expiration: 2038-11-01
Also published as: CN109360658B

Abstract

本发明提供了一种基于词向量模型的疾病模式挖掘方法及装置。该方法包括：获取原始医疗数据data，分别进行0‑1二值化处理，处理后得到二值矩阵，根据所述二值矩阵Mat，构造词向量模型的训练样本集合；训练所述词向量模型，得到医疗指标编码矩阵；医疗指标编码向量层次聚类；可视化聚类结果，得到模式挖掘的结果。针对信息化医疗数据固有的数据量大，内容不完整，噪声大，特征间关系复杂等特点，将自然语言处理中词向量模型应用于医疗数据，可有效地进行医疗大数据疾病模式挖掘。

Description

一种基于词向量模型的疾病模式挖掘方法及装置

技术领域

本发明涉及医疗数据挖掘领域，更具体的说是涉及一种基于词向量模型的疾病模式挖掘方法及装置。

背景技术

随着计算机在医学上的应用日益普及，用计算机存储病案在医院已经十分普遍。长期以来，各大医院收集保存了大量的临床诊断数据，这些数据既包括对病人的血糖、血脂、肝功、肾功等生物指标进行测验得到的数值数据，还包括病人的身高、体重、年龄、性别、职业等自然数据，以及疾病史、吸烟史、饮酒史、患病症状、用药及治疗方案等众多非数值数据。这些临床诊断数据中蕴藏着大量的有价值的信息，对不同疾病患者的临床诊断数据进行数据挖掘，有助于发现与该疾病相关的发病规律、危险因素及其之间的相互影响，为疾病的临床诊断和治疗提供参考。

然而，由于临床诊断数据固有的数据量大，内容不完整，噪声大，特征间关系复杂，现有医疗数据分析的方法，如关联分析、聚类分析、孤立点分析、演变分析等，已经不能满足解决此类复杂问题的需要。如何从这些海量信息中运用各种数据挖掘技术探求各种疾病之间或疾病与生活习惯之间的相互关系，更好地为医院的决策管理、医疗、科研和教学服务，己经越来越为人们所关注。

发明内容

有鉴于此，本发明提供了一种基于词向量模型的疾病模式挖掘方法及装置，该方法将自然语言处理中词向量模型应用于医疗数据挖掘，对于内容不完整、特征关系复杂的海量医疗数据，可以有效地进行疾病模式挖掘。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于词向量模型的疾病模式挖掘方法，包括如下步骤：

S1：获取原始医疗数据data，所述原始医疗数据data包含N条记录，每条记录包含M_raw个原始特征；所述原始特征包括：患者生活习惯特征、血糖、肝功、患病情况和患病史信息；

S2：对所述M_raw个原始特征分别进行0-1二值化处理，处理后得到二值矩阵Mat∈[0,1]^N*M，M为处理后新特征的个数；所述新特征的个数为待分析医疗指标的个数；

S3：根据所述二值矩阵Mat，构造词向量模型的训练样本集合；

S4：训练所述词向量模型，得到医疗指标编码矩阵W∈R^M*T；所述编码矩阵W为M个待分析医疗指标的T维编码向量；

S5：对所述M个待分析医疗指标的T维编码向量进行层次聚类；

S6：可视化聚类结果，得到模式挖掘的结果。

在一个实施例中，步骤S2中对所述M_raw个原始特征分别进行0-1二值化处理，包括：

根据医疗数据包含不同取值类型的原始特征，对于所述不同取值类型的原始特征分别进行处理，具体处理步骤如下：

S21：对于二分类特征：设原始特征F₁的取值f₁∈{v₁,v₂}且在数据中两个取值出现的次数从原始特征F₁中提取出一个二值医疗指标Z，此处Z的取值

S22：对于多分类特征：设原始特征F₂的取值其中N_f为原始特征F₂的合法取值个数；从原始特征F₂中提取N_f个二值医疗指标，记为：此处指标Z_i的取值为：

S23：对于连续取值特征：将连续特征离散化为K段，再进行one-hot编码；对于连续取值原始特征F₃，其取值记为f₃；

获得特征离散化的(K-1)个分割点，设分割点和起始点集合记为Θ＝{θ₀,θ₁,θ₂，…,θ_K}，其中其中：quantile为分位数函数，用于计算数据中F₃特征取值的分位数；

从F₃中提取K个二值医疗指标，记为：(Z₁,Z₂,…,Z_K)，此处特征Z的取值为：

在一个实施例中，步骤S3根据所述二值矩阵Mat，构造词向量模型的训练样本集合，包括：

待分析医疗指标编号为1～M，设词向量模型的训练样本表示为：{(I₁,O₁),(I₂,O₂),…,(I_l,O_l)}，I_i为模型的输入，O_i为模型的输出，l为训练样本的条数；

对于一个训练样本(I_i,O_i)，词向量模型要求，I_i、O_i为医疗指标编号；

对每条记录中取值为1的医疗指标进行两两组合，公式表示为：Train_set＝{(i,j)|Mat(n,i)＝1and Mat(n,j)＝1；i,j,n∈N⁺；n≤N；i,j≤M}；式中：i为训练样本中任一条数据，j为训练样本的总条数，n为取值为1个的医疗指标的数量。

在一个实施例中，步骤S4训练所述词向量模型，得到医疗指标编码矩阵W∈R^M*T，包括：

S41：变量初始化：给定模型超参数：医疗指标编码向量的维度T，每次采样样本量batch_size，训练次数iter；初始化变量：医疗指标编码矩阵

W∈R^M*T，softmax权重矩阵U∈R^T*M；

S42：从所述Train_set中随机采样得到batch_size条训练样本，得到输入样本矩阵I∈[0,1]^batch_size*M,输出样本矩阵O∈[0,1]^batch_size*M；

S43：对于一对训练样本(I_n,O_n)，I_i、O_i为医疗指标编号，定义：

A_n∈[0,1]^1*M且

B_n∈[0,1]^1*M且

模型输出：Y_n＝sampled_softmax(A_nWU)

sampled_softmax为负采样softmax函数；

定义模型loss函数，选用交叉熵函数，B_n中只有1维取值为1，其余为0，loss函数表示为：

词向量模型使用梯度下降法，最小化loss函数；

S44：循环执行上述步骤S42～S43：共iter次，词向量模型训练完成。

在一个实施例中，步骤S5对所述M个待分析医疗指标的T维编码向量进行层次聚类，包括：

S51：将每个样本归为一类,共得到M类,每类仅包含一个样本；类与类之间的距离为各样本间的余弦距离；

S52：找到最接近的两个类并合并成一类,将类内样本向量各维度取均值，得到中心向量作为该类的向量；

S53：重新计算各类间的余弦距离，并记录当前聚类簇数目，计算当前聚类结果的轮廓系数；此处，轮廓系数的计算公式为：

其中，a(i)表示样本i到同一簇内其它点余弦距离的平均值，b(i)表示样本i到其它簇的所有样本点的平均余弦距离的最小值；

S54：重复S52～S53,直到聚类簇数目为1，记录轮廓系数最大时的聚类簇数目为C，并将聚类簇数目为C时的结果作为最终聚类结果，聚类完成。

第二方面，本发明还提供一种基于词向量模型的疾病模式挖掘装置，包括：

获取模块，用于获取原始医疗数据data，所述原始医疗数据data包含N条记录，每条记录包含M_raw个原始特征；所述原始特征包括：患者生活习惯特征、血糖、肝功、患病情况和患病史信息；

处理模块，用于对所述M_raw个原始特征分别进行0-1二值化处理，处理后得到二值矩阵Mat∈[0,1]^N*M，M为处理后新特征的个数；所述新特征的个数为待分析医疗指标的个数；

构造模块，用于根据所述二值矩阵Mat，构造词向量模型的训练样本集合；

训练模块，用于训练所述词向量模型，得到医疗指标编码矩阵W∈R^M*T；所述编码矩阵W为M个待分析医疗指标的T维编码向量；

聚类模块，用于对所述M个待分析医疗指标的T维编码向量进行层次聚类；

可视化模块，用于可视化聚类结果，得到模式挖掘的结果。

在一个实施例中，所述处理模块，根据医疗数据包含不同取值类型的原始特征，对于所述不同取值类型的原始特征分别进行处理，具体包括：

第一处理子模块，对于二分类特征：设原始特征F₁的取值f₁∈{v₁,v₂}且在数据中两个取值出现的次数从原始特征F₁中提取出一个二值医疗指标Z，此处Z的取值

第二处理子模块，对于多分类特征：设原始特征F₂的取值其中N_f为原始特征F₂的合法取值个数；从原始特征F₂中提取N_f个二值医疗指标，记为：此处指标Z_i的取值为：

第三处理子模块，对于连续取值特征：将连续特征离散化为K段，再进行one-hot编码；对于连续取值原始特征F₃，其取值记为f₃；获得特征离散化的(K-1)个分割点，设分割点和起始点集合记为Θ＝{θ₀,θ₁,θ₂,…,θ_K}，其中其中：quantile为分位数函数，用于计算数据中F₃特征取值的分位数；从F₃中提取K个二值医疗指标，记为：(Z₁,Z₂,…,Z_K)，此处特征Z的取值为：

在一个实施例中，所述构造模块，包括：

编号子模块：待分析医疗指标编号为1～M，设词向量模型的训练样本表示为：{(I₁,O₁),(I₂,O₂),…,(I_l,O_l)}，I_i为模型的输入，O_i为模型的输出，l为训练样本的条数；对于一个训练样本(I_i,O_i)，词向量模型要求，I_i、O_i为医疗指标编号；

组合子模块，用于对每条记录中取值为1的医疗指标进行两两组合，公式表示为：Train_set＝{(i,j)|Mat(n,i)＝1and Mat(n,j)＝1；i,j,n∈N⁺；n≤N；i,j≤M}；式中：i为训练样本中任一条数据，j为训练样本的总条数，n为取值为1个的医疗指标的数量。

经由上述的技术方案可知，与现有技术相比：

本发明提供了一种基于词向量模型的疾病模式挖掘方法，针对信息化医疗数据固有的数据量大，内容不完整，噪声大，特征间关系复杂等特点，将自然语言处理中词向量模型应用于医疗数据，可有效地进行医疗大数据疾病模式挖掘。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种基于词向量模型的疾病模式挖掘方法流程图；

图2为本发明提供的步骤S5的流程图；

图3为本发明提供的Skip-Gram词向量模型的示意图；

图4为本发明提供的聚类结果可视化图；

图5为本发明提供的一种基于词向量模型的疾病模式挖掘装置框图；

图6为本发明提供的处理模块52的框图；

图7为本发明提供的构造模块53的框图；

图8为本发明提供的训练模块54的框图；

图9为本发明提供的聚类模块55的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面详细说明本发明提供的一种基于词向量模型的疾病模式挖掘方法。

参照图1所示，本发明提供一种基于词向量模型的疾病模式挖掘方法，包括如下步骤：

S1：获取原始医疗数据data；所述原始医疗数据data包含N条记录，每条记录包含M_raw个原始特征；所述原始特征包括：患者生活习惯特征、血糖、肝功、患病情况和患病史信息；

S5：对所述M个待分析医疗指标的T维编码向量进行层次聚类；

S6：可视化聚类结果，得到模式挖掘的结果。

本实施例中，可针对信息化医疗数据固有的数据量大，内容不完整，噪声大，特征间关系复杂等特点，将自然语言处理中词向量模型应用于医疗数据，可有效地进行医疗大数据疾病模式挖掘。

下面分别对上述步骤进行详细说明：

参照图1所示，一种基于词向量模型的疾病模式挖掘方法，包括如下步骤：

S1：获取原始数据data，包含N条记录，每条记录包含M_raw个原始特征，医疗数据的特征通常包括患者生活习惯特征，血糖、肝功等检验类特征，患病情况和患病史特征等。

S2：对M_raw个特征分别进行0-1二值化处理，处理后得到二值矩阵Mat∈[0,1]^N*M，M为处理后新特征的个数，即待分析的M个医疗指标。

医疗数据通常包含不同取值类型的原始特征，对于不同类型的特征分别进行处理，具体处理方法如下：

S21：对于二分类特征，如医疗数据中“是否患病”特征取值有“是”和“否”两个选项。设原始特征F₁的可能取值f₁∈{v₁,v₂}且在数据中两个取值出现的次数从特征F₁中提取出一个二值医疗指标Z，此处Z的取值

S22：对于多分类特征，如医疗数据中“血型”特征有“A”、“B”、“O”多个选项。多分类特处理具体方法为：设特征F₂的可能取值其中N_f为特征F的合法取值个数。从特征F₂中提取N_f个二值医疗指标，记为：此处指标Z_i的取值为：

S23：对于连续取值特征，如医疗数据中“血压”等特征。将连续特征离散化为K段，再进行one-hot编码。具体方法为：对于连续取值特征F₃，其取值记为f₃。首先获得特征离散化的(K-1)个分割点，设分割点和起始点集合记为Θ＝{θ₀,θ₁,θ₂,…,θ_K}，其中quantile为分位数函数，用于计算数据中F₃特征取值的分位数。之后，从特征F₃中提取K个二值医疗指标，记为：(Z₁,Z₂,…,Z_K)，此处特征Z的取值为：如血压特征最终处理为5个0-1二值特征，新特征名为{‘血压低’,’血压偏低’,’血压正常’,’血压偏高’,’血压高’}。

S3：通过S2，提取出M个待分析医疗指标，并得到数据二维矩阵Mat∈[0,1]^N*M。在此基础上，从Mat矩阵中提取词向量模型的输入和输出。提取方法为：

构造词向量模型的训练样本集合；将待分析医疗指标编号为1～M，设词向量模型的训练样本表示为：{(I₁,O₁),(I₂,O₂),…,(I_l,O_l)}，I_i为模型的输入，O_i为模型的输出，l为训练样本的条数。对于一个训练样本(I_i,O_i)，词向量模型要求，I_i、O_i为医疗指标编号，并且，I_i、O_i两指标相关性较强。在医疗数据中，认为在同一记录中取值都为1的两医疗指标之间相关性较强，所以，模型训练集构造方法为对每条记录中取值为1的医疗指标进行两两组合，公式表示为：Train_set＝{(i,j)|Mat(n,i)＝1and Mat(n,j)＝1；i,j,n∈N⁺；n≤N；i,j≤M}；

S4：训练词向量模型，学习医疗指标编码矩阵W。具体训练过程如下：

S41：变量初始化。给定模型超参数：医疗指标编码向量的维度T，每次采样样本量batch_size，训练次数iter。初始化变量：医疗指标编码矩阵W∈R^M*T，softmax权重矩阵U∈R^T*M；

S42：从Train_set中随机采样得到batch_size条训练样本，得到输入样本矩阵I∈[0,1]^batch_size*M,输出样本矩阵O∈[0,1]^batch_size*M；

A_n∈[0,1]^1*M且

B_n∈[0,1]^1*M且

模型输出：Y_n＝sampled_softmax(A_nWU)

sampled_softmax为负采样softmax函数。

定义模型loss函数，选用交叉熵函数，由于B_n中只有1维取值为1，其余都为0，所以，loss函数表示为：

词向量模型使用梯度下降法，最小化loss函数；

S44：循环执行S42～S43共iter次，词向量模型训练完成；

S5：通过词向量模型训练得到医疗指标编码矩阵W∈R^M*T即为M个指标的T维编码向量，编码向量距离近的医疗指标间相关性强。可以使用层次聚类的方法对医疗指标进行聚类，聚类样本为M个医疗指标，每个样本维度为编码向量维度T。聚类方法如下：参照图2所示：

S51：将每个样本归为一类,共得到M类,每类仅包含一个样本.类与类之间的距离为各样本间的余弦距离；

S52：找到最接近的两个类并合并成一类,将类内样本向量各维度取均值，得到中心向量作为该类的向量。

其中，a(i)表示样本i到同一簇内其它点余弦距离的平均值，b(i)表示样本i到其它簇的所有样本点的平均余弦距离的最小值。

S6：可视化聚类结果，得到模式挖掘的结果。

其中：原始医疗数据要求包含多条记录，每条记录包含多个疾病或疾病影响因素的特征。特征取值类型可以为二分类、多分类、连续数值，允许医疗数据存在缺失、异常、特征冗余。

本发明中从原始医疗数据中进行医疗指标的提取，并使用词向量模型，对医疗指标进行编码，使用编码向量间的余弦距离可以衡量医疗指标的相似度。进一步，对医疗指标进行聚类，进行可视化展示，发现疾病相关模式，即模型的学习目标。

为便于介绍，下面以健康体检数据为例说明本发明的技术要点与方案。在体检数据中，每条记录为一个人的体检记录，特征可以为患病特征、生活习惯特征、生理指标化验特征等。模式挖掘的目的是发现相关性较强的疾病特征或疾病影响因素特征的集合，即模式。

在介绍模型前，首先列出变量列表。

表1模型超参数及重要变量定义

变量	定义
		K	超参数，连续特征离散化分段数。
batch_size	超参数，词向量模型训练批样本量。
		T	超参数，特征编码维度。
iter	超参数，词向量模型训练迭代次数。
		C	超参数，层次聚类类别个数
N	数据记录条数。
		M<sub>raw</sub>，M	原始数据特征个数和提取医疗指标个数。
W∈R<sup>M*T</sup>	医疗指标编码矩阵。

一：数据预处理

实际医疗数据中，数据特征有多种取值类型，不同类型的特征间相关度度量的标准无法统一，所以，首先需要进行特征变换，统一特征的格式，这里，从原始数据中提取出多个0-1二值医疗指标。具体方法为：首先去除缺失值和异常值比例超过80％的记录和特征，对不同取值类型的原始特征进行分别处理，对于二值型特征，如医疗数据中“是否患病”特征取值有“是”和“否”两个选项，处理方法为：取值为1的记录取值不变，其余原始取值为0或原始值缺失的记录记为0，提取出一个二值医疗指标。对于多分类特征，如医疗数据中“血型”特征有“A”、“B”、“O”多个选项，处理方法为：对合法分类个数为v的多分类特征进行v维one-hot编码，从而得到v个二值医疗特征。对于连续型特征，如血压，对特征等频离散化为K个取值，K为模型中超参数，然后再进行K维one-hot编码,得到K个二值医疗特征。最终，从原始数据中提取M个二值医疗指标，下一步会对这M个医疗指标进行相关性分析。

二：医疗词向量模型

由于医疗数据的特征类型多样性、稀疏性、特征高度相关以及样本类别不平衡、内容缺失较多等特点，本发明使用了自然语言处理中词向量模型进行医疗数据模式挖掘。文本数据一般具有低频性，稀疏性，单词间关系复杂，这与医疗数据有一定的相似性。所以，本文将自然语言处理的相关方法运用于医疗数据的关系挖掘和预测。

将自然语言处理的方法运用于医疗数据，文本数据中的单词相当于医疗数据中的个人特征，并且要求特征必须为二值特征。文本数据中的句子对应于医疗数据中，每一条记录为一个句子。这样，在医疗数据中，单词数即为医疗指标的个数，而句子数为数据记录条数，并且，在每个句子中，指标取值为1表示出现该单词1次，即每个句子中，每个单词最多出现一次，并且，单词之前没有先后关系，只有共现关系。

本发明中使用的词向量模型为Skip-gram模型。Skip-gram是自然语言处理领域获取词向量的方法。在本发明的医疗词向量模型中，医疗指标会被表示成一种相对低维度的稠密向量，即医疗指标编码向量。在该模型中，编码向量中的每一个分量都代表该医疗指标的某种特征。

Skip-Gram模型认为相似的单词具有相似的上下文语境，在本发明的医疗词向量模型中，本发明认为在同一条记录中取值为1的指标之间互为上下文，所以，模型训练集构造方法为对每条记录中取值为1的医疗指标进行两两组合，词向量模型结构图如附图3所示。

医疗词向量模型使用一个优化的神经网络模型来训练编码向量，它使用的神经网络只有三层结构：输入层，隐层，输出层。其中输入层为一个医疗指标的one-hot编码，隐层的向量就是输入医疗指标对应的编码向量，训练过程中要对其进行更新，输出层为与之出现在同一记录中的另一医疗指标的one-hot编码。Skip-gram为了优化解决Softmax复杂度高的问题，使用层级Softmax方法或负样本采样方法。负样本的采样方法是按照医疗指标取1的频率排序之后选取和输入医疗指标接近频率的一部分医疗指标，如果取到正样本则舍弃。通过Skip-Gram得到的医疗编码向量之间的距离能够非常好的体现医疗指标之间的相似度。可用于分析疾病或疾病影响因素间的相关关系。

三：层次聚类

使用得到的医疗指标编码向量对医疗指标进行聚类。本发明使用凝聚的层次聚类方法。该方法使用自底向上的策略，开始时每个医疗指标自己是独立的类，然后不断合并成越来越大的类，直到满足聚类个数要求。在合并过程中是找出两个最近的类让他们合并形成一个类，这里使用余弦距离进行距离评估。

下面结合具体实例来进一步说明本发明的技术方案。

实施例涉及国家免费孕前优生健康检查项目的疾病模式的挖掘。

1、数据

实例使用的数据集为2014-2015年国家免费孕前优生健康检查项目的体检数据记录。本实施例选用了河南省共19万条数据，并选取与生育结局相关的84个特征，进行模型的构建。

该健康检查项目以家庭为单位，在夫妻备孕阶段进行体检和问卷调查，并后续跟踪调查怀孕期间的相关信息和最终生育结局。

数据库记录包含详细的夫妻双方的个人特征，主要有以下几类，血糖、血压等生物指标的测验数据；职业、文化程度、地区等社会信息，慢性病、遗传病史等疾病特征，以及生活饮食心理相关的特征。特征类型包括二值特征、多分类特征、连续数值特征。

2、疾病模式挖掘

基于本发明提供的方法，进行疾病模式挖掘，聚类结果附图4所示。

通过模型，可以挖掘出一些重要的疾病模式。上述实施例的数据中包含了夫妻双方的疾病，生活习惯等多种类型的特征，由于夫妻双方在一起生活，相互影响，可以导致夫妻双方的生活习惯和社会特征之间存在一定的相关关系。另外，对于每个人，其生活习惯和社会关系可能与某些疾病特征有关系。通过分析，可以发现一些夫妻双方之间的特征相关性，如，夫妻之间的年龄较为相似，文化程度比较相似，由于双方在一起生活，生活工作规律和心理压力等也十分相似；另外，发现吸烟者经常也会存在被动吸烟，并且，吸烟者饮酒概率会变大；肥胖的人更容易得高血压，容易患脂肪肝，导致出现转氨酶升高。

通过疾病模式挖掘，发现了一些根据医学知识和生活常识可以解释的的规律，也有一些还有待解释的现象，模型发现的个人生活工作规律、个体之间的相互影响、生活习惯与疾病的关系等，对社会学和医学的研究有重要的意义。

基于同一发明构思，本发明实施例还提供了一种基于词向量模型的疾病模式挖掘装置，由于该装置所解决问题的原理与前述基于词向量模型的疾病模式挖掘方法相似，因此该装置的实施可以参见前述方法的实施，重复之处不再赘述。

第二方面，参照图5所示，本发明还提供一种基于词向量模型的疾病模式挖掘装置，包括：

获取模块51，用于获取原始医疗数据data，所述原始医疗数据data包含N条记录，每条记录包含M_raw个原始特征；所述原始特征包括：患者生活习惯特征、血糖、肝功、患病情况和患病史信息；

处理模块52，用于对所述M_raw个原始特征分别进行0-1二值化处理，处理后得到二值矩阵Mat∈[0,1]^N*M，M为处理后新特征的个数；所述新特征的个数为待分析医疗指标的个数；

构造模块53，用于根据所述二值矩阵Mat，构造词向量模型的训练样本集合；

训练模块54，用于训练所述词向量模型，得到医疗指标编码矩阵W∈R^M*T；所述编码矩阵W为M个待分析医疗指标的T维编码向量；

聚类模块55，用于对所述M个待分析医疗指标的T维编码向量进行层次聚类；

可视化模块56，用于可视化聚类结果，得到模式挖掘的结果。

在一个实施例中，参照图6所示，所述处理模块52，根据医疗数据包含不同取值类型的原始特征，对于所述不同取值类型的原始特征分别进行处理，具体包括：

第一处理子模块521，对于二分类特征：设原始特征F₁的取值f₁∈{v₁,v₂}且在数据中两个取值出现的次数从原始特征F₁中提取出一个二值医疗指标Z，此处Z的取值

第二处理子模块522，对于多分类特征：设原始特征F₂的取值其中N_f为原始特征F₂的合法取值个数；从原始特征F₂中提取N_f个二值医疗指标，记为：此处指标Z_i的取值为：

第三处理子模块523，对于连续取值特征：将连续特征离散化为K段，再进行one-hot编码；对于连续取值原始特征F₃，其取值记为f₃；获得特征离散化的(K-1)个分割点，设分割点和起始点集合记为Θ＝{θ₀,θ₁,θ₂,…,θ_K}，其中其中：quantile为分位数函数，用于计算数据中F₃特征取值的分位数；从F₃中提取K个二值医疗指标，记为：(Z₁,Z₂,…,Z_K)，此处特征Z的取值为：

在一个实施例中，参照图7所示，所述构造模块53，包括：

编号子模块531：待分析医疗指标编号为1～M，设词向量模型的训练样本表示为：{(I₁,O₁),(I₂,O₂),…,(I_l,O_l)}，I_i为模型的输入，O_i为模型的输出，l为训练样本的条数；对于一个训练样本(I_i,O_i)，词向量模型要求，I_i、O_i为医疗指标编号；

组合子模块532，用于对每条记录中取值为1的医疗指标进行两两组合，公式表示为：Train_set＝{(i,j)|Mat(n,i)＝1and Mat(n,j)＝1；i,j,n∈N⁺；n≤N；i,j≤M}；式中：i为训练样本中任一条数据，j为训练样本的总条数，n为取值为1个的医疗指标的数量。

在一个实施例中，参照图8所示，所示训练模块54，包括：

初始化子模块541，用于变量初始化：给定模型超参数：医疗指标编码向量的维度T，每次采样样本量batch_size，训练次数iter；初始化变量：医疗指标编码矩阵W∈R^M*T，softmax权重矩阵U∈R^T*M；

采样子模块542，用于从所述Train_set中随机采样得到batch_size条训练样本，得到输入样本矩阵I∈[0,1]^batch_size*M,输出样本矩阵O∈[0,1]^batch_size*M；

训练子模块543，用于对于一对训练样本(I_n,O_n)，I_i、O_i为医疗指标编号，定义：

A_n∈[0,1]^1*M且

B_n∈[0,1]^1*M且

模型输出：Y_n＝sampled_softmax(A_nWU)

sampled_softmax为负采样softmax函数；

词向量模型使用梯度下降法，最小化loss函数；

循环执行上述采样子模块、训练子模块中步骤共iter次，词向量模型训练完成。

在一个实施例中，参照图9所示，聚类模块55，用于对所述M个待分析医疗指标的T维编码向量进行层次聚类，包括：

归类子模块551，用于将每个样本归为一类,共得到M类,每类仅包含一个样本；类与类之间的距离为各样本间的余弦距离；

合并子模块552，用于找到最接近的两个类并合并成一类,将类内样本向量各维度取均值，得到中心向量作为该类的向量；

计算子模块553，用于重新计算各类间的余弦距离,并记录聚类簇个数和轮廓系数。

此处，轮廓系数的计算公式为：

重复所述合并子模块和计算子模块的步骤，直到聚类簇数目为1，记录轮廓系数最大时的聚类簇数目为C，并将聚类簇数目为C时的结果作为最终聚类结果，聚类完成。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于词向量模型的疾病模式挖掘方法，其特征在于，包括如下步骤：

S2：对所述M_raw个原始特征分别进行0-1二值化处理，处理后得到二值矩阵Mat∈[0，1]^N*M，M为处理后新特征的个数；所述新特征的个数为待分析医疗指标的个数；

S5：对所述M个待分析医疗指标的T维编码向量进行层次聚类；

S6：可视化聚类结果，得到模式挖掘的结果。

2.根据权利要求1所述的一种基于词向量模型的疾病模式挖掘方法，其特征在于：步骤S2中对所述M_raw个原始特征分别进行0-1二值化处理，包括：

S21：对于二分类特征：设原始特征F₁的取值f₁∈{v₁，v₂}且在数据中两个取值出现的次数从原始特征F₁中提取出一个二值医疗指标Z，此处Z的取值

获得特征离散化的(K-1)个分割点，设分割点和起始点集合记为Θ＝{θ₀，θ₁，θ₂，…，θ_K}，其中其中：quantile为分位数函数，用于计算数据中F₃特征取值的分位数；

从F₃中提取K个二值医疗指标，记为：(Z₁，Z₂，…，Z_K)，此处特征Z的取值为：

3.根据权利要求1所述的一种基于词向量模型的疾病模式挖掘方法，其特征在于：步骤S3根据所述二值矩阵Mat，构造词向量模型的训练样本集合，包括：

待分析医疗指标编号为1～M，设词向量模型的训练样本表示为：{(I₁，O₁)，(I₂，O₂)，…，(I_l，O_l)}，I_i为模型的输入，O_i为模型的输出，l为训练样本的条数；

对于一个训练样本(I_i，O_i)，词向量模型要求，I_i、O_i为医疗指标编号；

对每条记录中取值为1的医疗指标进行两两组合，公式表示为：Train_set＝{(f，j)|Mat(n，i)＝1and Mat(n，j)＝1；i，j，n∈N⁺；n≤N；i，j≤M}；式中：i为训练样本中任一条数据，j为训练样本的总条数，n为取值为1个的医疗指标的数量。

4.根据权利要求3所述的一种基于词向量模型的疾病模式挖掘方法，其特征在于：步骤S4训练所述词向量模型，得到医疗指标编码矩阵W∈R^M*T，包括：

S41：变量初始化：给定模型超参数：医疗指标编码向量的维度T，每次采样样本量batch_size，训练次数iter；初始化变量：医疗指标编码矩阵W∈R^M*T，softmax权重矩阵U∈R^T*M；

S42：从所述Train_set中随机采样得到batch_size条训练样本，得到输入样本矩阵I∈[0，1]^batch_size*M，输出样本矩阵O∈[0，1]^batch_size*M；

S43：对于一对训练样本(I_n，O_n)，I_i、O_i为医疗指标编号，定义：

A_n∈[0，1]^1*M且

B_n∈[0，1]^1*M且

模型输出：Y_n＝sampled_softmax(A_nWU)

sampled_softmax为负采样softmax函数；

词向量模型使用梯度下降法，最小化loss函数；

5.根据权利要求4所述的一种基于词向量模型的疾病模式挖掘方法，其特征在于：步骤S5对所述M个待分析医疗指标的T维编码向量进行层次聚类，包括：

S51：将每个样本归为一类，共得到M类，每类仅包含一个样本；类与类之间的距离为各样本间的余弦距离；

S52：找到最接近的两个类并合并成一类，将类内样本向量各维度取均值，得到中心向量作为该类的向量；

S54：重复S52～S53，直到聚类簇数目为1，记录轮廓系数最大时的聚类簇数目为C，并将聚类簇数目为C时的结果作为最终聚类结果，聚类完成。

6.一种基于词向量模型的疾病模式挖掘装置，其特征在于，包括：

处理模块，用于对所述M_raw个原始特征分别进行0-1二值化处理，处理后得到二值矩阵Mat∈[0，1]^N*M，M为处理后新特征的个数；所述新特征的个数为待分析医疗指标的个数；

可视化模块，用于可视化聚类结果，得到模式挖掘的结果。

7.根据权利要求6所述的一种基于词向量模型的疾病模式挖掘装置，其特征在于：所述处理模块，根据医疗数据包含不同取值类型的原始特征，对于所述不同取值类型的原始特征分别进行处理，具体包括：

第一处理子模块，对于二分类特征：设原始特征F₁的取值f₁∈{v₁，v₂}且在数据中两个取值出现的次数从原始特征F₁中提取出一个二值医疗指标Z，此处Z的取值

第三处理子模块，对于连续取值特征：将连续特征离散化为K段，再进行one-hot编码；对于连续取值原始特征F₃，其取值记为f₃；获得特征离散化的(K-1)个分割点，设分割点和起始点集合记为Θ＝{θ₀，θ₁，θ₂，…，θ_K}，其中其中：quantile为分位数函数，用于计算数据中F₃特征取值的分位数；从F₃中提取K个二值医疗指标，记为：(Z₁，Z₂，…，Z_K)，此处特征Z的取值为：

8.根据权利要求6所述的一种基于词向量模型的疾病模式挖掘装置，其特征在于：所述构造模块，包括：

编号子模块：待分析医疗指标编号为1～M，设词向量模型的训练样本表示为：{(I₁，0₁)，(I₂，O₂)，…，(I_l，O_l)}，I_i为模型的输入，O_i为模型的输出，l为训练样本的条数；对于一个训练样本(I_i，O_i)，词向量模型要求，I_i、O_i为医疗指标编号；

组合子模块，用于对每条记录中取值为1的医疗指标进行两两组合，公式表示为：Train_set＝{(i，j)|Mat(n，i)＝1and Mat(n，j)＝1；i，j，n∈N⁺；n≤N；i，j≤M}；式中：i为训练样本中任一条数据，j为训练样本的总条数，n为取值为1个的医疗指标的数量。