CN109102896A

CN109102896A - 一种分类模型生成方法、数据分类方法及装置

Info

Publication number: CN109102896A
Application number: CN201810712862.5A
Authority: CN
Inventors: 王晓婷; 栾欣泽; 何光宇; 孟健
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-12-28

Abstract

本申请实施例公开了一种分类模型生成方法、数据分类方法及装置，该方法包括：获取原始体征数据，每条原始体征数据包括至少一项指标值；在原始体征数据中查找存在指标值缺失的体征数据；对存在指标值缺失的体征数据中所缺失指标值进行数据填补，生成填补后的体征数据；将原始体征数据中不存在指标值缺失的体征数据以及填补后的体征数据作为训练数据，根据训练数据以及每条训练数据对应的数据分类标签对初始分类模型进行训练，生成体征数据分类模型，所生成的体征数据分类模型可以对任一体征数据进行分类，分类结果可以辅助医生进行诊断，从而本申请针对大量原始体征数据，挖掘其内部的联系建立了体征数据分类模型，提高了原始体征数据的利用率。

Description

一种分类模型生成方法、数据分类方法及装置

技术领域

本申请涉及数据处理领域，具体涉及一种分类模型生成方法及装置，一种数据分类方法及装置。

背景技术

我国人口基数众多从而患病人口数量也多，在患者就诊后会产生大量病历，在病例中会包括大量的医学数据，例如患者进行医学检查后的体征数据。在现有技术中，患者的病历通常供患者留存、或供医生查阅，但是对于大量医学数据并没有有效挖掘、利用，造成医学数据利用率低下。

发明内容

有鉴于此，本申请实施例提供一种分类模型生成方法及装置，一种数据分类方法及装置，实现对体征数据进一步分析、利用，提高医学数据的利用率。

为解决上述问题，本申请实施例提供的技术方案如下：

一种分类模型生成方法，所述方法包括：

获取原始体征数据，每条所述原始体征数据包括至少一项指标值；

在所述原始体征数据中查找存在指标值缺失的体征数据；

对所述存在指标值缺失的体征数据中所缺失的指标值进行数据填补，生成填补后的体征数据；

将所述原始体征数据中不存在指标值缺失的体征数据以及所述填补后的体征数据作为训练数据，根据所述训练数据以及每条所述训练数据对应的数据分类标签对初始分类模型进行训练，生成体征数据分类模型。

在一种可能的实现方式中，所述方法还包括：

在对所述存在指标值缺失的体征数据中所缺失的指标值进行数据填补之前，将每条所述原始体征数据中的指标值进行归一化处理。

在一种可能的实现方式中，所述对所述存在指标值缺失的体征数据中所缺失的指标值进行数据填补，生成填补后的体征数据，包括：

针对任一所述存在指标值缺失的体征数据，确定该存在指标值缺失的体征数据中所缺失的指标值对应的指标项；

根据其他原始体征数据中该指标项的指标值，利用多种数据填补算法，生成该指标项的多个数据填补结果；

计算所述多个数据填补结果的平均值，将该存在指标值缺失的体征数据中所缺失的该指标项的指标值填补为所述平均值，生成该条填补后的体征数据。

在一种可能的实现方式中，所述数据填补算法包括极大似然估计法、平均值填充法以及近似补齐法中的任意多个。

在一种可能的实现方式中，所述初始分类模型采用朴素贝叶斯模型或者决策树模型。

一种数据分类方法，所述方法包括：

获取待分类体征数据，所述待分类体征数据包括至少一项指标值；

如果所述待分类体征数据存在指标值缺失，对所缺少的指标值进行数据填补，将填补后的待分类体征数据输入体征数据分类模型，获得所述待分类体征数据的分类结果；

如果所述待分类体征数据不存在指标值缺失，将所述待分类体征数据输入所述体征数据分类模型，获得所述待分类体征数据的分类结果；

所述体征数据分类模型是根据所述的分类模型生成方法所生成的。

在一种可能的实现方式中，所述方法还包括：

将所述待分类体征数据中的指标值进行归一化处理。

在一种可能的实现方式中，所述如果所述待分类体征数据存在指标值缺失，将所缺少的指标值进行数据填补，包括：

如果所述待分类体征数据存在指标值缺失，确定所述待分类体征数据中所缺失的指标值对应的指标项；

根据原始体征数据中该指标项的指标值，利用多种数据填补算法，生成该指标项的多个数据填补结果；

计算所述多个数据填补结果的平均值，将所述待分类体征数据中所缺失的该指标项的指标值填补为所述平均值，获得填补后的待分类体征数据。

一种分类模型生成装置，所述装置包括：

获取单元，用于获取原始体征数据，每条所述原始体征数据包括至少一项指标值；

查找单元，用于在所述原始体征数据中查找存在指标值缺失的体征数据；

填补单元，用于对所述存在指标值缺失的体征数据中所缺失的指标值进行数据填补，生成填补后的体征数据；

生成单元，用于将所述原始体征数据中不存在指标值缺失的体征数据以及所述填补后的体征数据作为训练数据，根据所述训练数据以及每条所述训练数据对应的数据分类标签对初始分类模型进行训练，生成体征数据分类模型。

在一种可能的实现方式中，所述装置还包括：

归一化单元，用于在对所述存在指标值缺失的体征数据中所缺失的指标值进行数据填补之前，将每条所述原始体征数据中的指标值进行归一化处理。

在一种可能的实现方式中，所述填补单元具体包括：

确定子单元，用于针对任一所述存在指标值缺失的体征数据，确定该存在指标值缺失的体征数据中所缺失的指标值对应的指标项；

生成子单元，用于根据其他原始体征数据中该指标项的指标值，利用多种数据填补算法，生成该指标项的多个数据填补结果；

填补子单元，计算所述多个数据填补结果的平均值，将该存在指标值缺失的体征数据中所缺失的该指标项的指标值填补为所述平均值，生成该条填补后的体征数据。

一种数据分类装置，所述装置包括：

获取单元，用于获取待分类体征数据，所述待分类体征数据包括至少一项指标值；

第一获得单元，用于如果所述待分类体征数据存在指标值缺失，对所缺少的指标值进行数据填补，将填补后的待分类体征数据输入体征数据分类模型，获得所述待分类体征数据的分类结果；

第二获得单元，用于如果所述待分类体征数据不存在指标值缺失，将所述待分类体征数据输入所述体征数据分类模型，获得所述待分类体征数据的分类结果；

所述体征数据分类模型是根据所述分类模型生成装置所生成的。

在一种可能的实现方式中，所述装置还包括：

归一化单元，用于将所述待分类体征数据中的指标值进行归一化处理。

在一种可能的实现方式中，所述第一获得单元具体包括：

确定子单元，用于确定所述待分类体征数据中所缺失的指标值对应的指标项；

生成子单元，用于根据原始体征数据中该指标项的指标值，利用多种数据填补算法，生成该指标项的多个数据填补结果；

填补子单元，用于计算所述多个数据填补结果的平均值，将所述待分类体征数据中所缺失的该指标项的指标值填补为所述平均值，获得填补后的待分类体征数据。

一种计算机可读存储介质，所述机算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行所述分类模型生成方法或者所述数据分类方法。

一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行分类模型生成方法或者数据分类方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例获取原始体征数据后，将原始体征数据中的各指标值填补完整生成训练数据，利用训练数据以及训练数据的分类标签对初始分类模型进行训练，生成体征数据分类模型，所生成的体征数据分类模型可以对任一体征数据进行分类，分类结果可以辅助医生进行诊断，从而本申请实施例针对大量原始体征数据，挖掘了其内部的联系建立了体征数据分类模型，提高了原始体征数据的利用率。

附图说明

图1为本申请实施例提供的一种分类模型生成方法流程图；

图2为本申请实施例提供的一种数据填补方法流程图；

图3为本申请实施例提供的分类模型训练流程图；

图4为本申请实施例提供的一种数据分类方法流程图；

图5为本申请实施例提供的另一种数据填补方法流程图；

图6为本申请实施例提供的数据分类流程图；

图7为本申请实施例提供的一种分类模型生成装置结构图；

图8为本申请实施例提供的一种数据分类装置结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

为了便于理解本申请提供的技术方案，下面先对本申请技术方案的研究背景进行简单说明。

随着计算机领域的不断发展，数据挖掘引起了各个领域的极大关注，数据挖掘是指从大量的数据中通过算法搜索隐藏与其中信息和知识，以便将获取的信息和知识将转换成有用的信息以指导后续的发展。

但是，在现有的医学领域中，患者就诊后会产生的大量医学数据并未被进行有效挖掘以辅助医生进行医学诊断，从而导致大量医学数据被搁置，造成医学数据的浪费。

基于此，本申请提出了一种分类模型生成方法及装置，一种数据分类方法及装置，将大量原始体征数据作为训练数据，挖掘了其内部的联系建立了体征数据分类模型，并利用该模型对待分类体征数据进行分类，以便将分类结果提供给医生，以辅助医生进行医疗诊断，提高了原始体征数据的利用率。

下面将结合附图对本申请实施例提供的分类模型生成方法进行介绍。

参见图1，其示出了本申请实施例提供的一种分类模型生成方法的流程图，如图1所示，该方法包括：

S101：获取原始体征数据，每条原始体征数据包括至少一项指标值。

本实施例中，为实现对体征数据进行分类，首先需要通过训练生成分类模型，而在分类模型的生成过程中，需要首先获取原始体征数据。其中，原始体征数据可以指患者进行医学检查时产生的体征数据，该体征数据中可以包括至少一项指标值，例如血压值、血糖值、体温、心率等等。

在实际应用中，为保证训练生成的分类模型的准确性，可以获取大量原始体征数据。由于医学检查可以分为多个项目，比如血常规、尿常规、生化检查等项目，患者可以选择检查一个项目或多个项目，因此该原始体征数据可以包括某一检查项目对应的一类体征数据，也可以包括多个检查项目对应的多类体征数据，例如，该原始体征数据可以包括患者进行尿常规或血常规或生化检查时产生的体征数据，该原始体征数据也可以包括患者进行尿常规和血常规检查时产生的体征数据。

为便于理解，以原始体征数据包括血常规检查中的指标值为例，可以获取Data1、Data2、Data3和Data4等多条原始体征数据，每条特征数据可以包括平均血红蛋白量、平均血红蛋白浓度、血小板分布浓度和红细胞分布宽度等血常规检查中的指标值，例如表1所示。需要注意的是，平均血红蛋白量、平均血红蛋白浓度、血小板分布浓度、红细胞分布宽度等为指标项，指标项对应的具体数值为原始体征数据中的指标值。

表1 原始体征数据表

可以理解的是，医学检查产生的原始体征数据中，每条原始体征数据中可以包括数值型指标值，例如，平均血红蛋白量为30.2pg、血小板分布宽度为11.3fl，也可以包括非数值型指标值，例如，尿常规中尿蛋白和尿糖检查结果均用阴性或阳性来表征患者体征。

本申请实施例对原始体征数据包括的指标值不进行限定，可以根据实际情况进行选择。

S102：在原始体征数据中查找存在指标值缺失的体征数据。

本实施例中，当获取原始体征数据后，需要对每条原始特征数据进行检查，查找出缺少指标值的体征数据，以利用缺少指标值的体征数据执行S103。为了查找存在指标值缺失的体征数据，可以首先获取全部原始体征数据中指标值对应的各指标项，确定出原始体征数据中对应的全部指标项，如果某一原始体征数据中存在缺少任意指标项，则该原始体征数据为存在指标值缺失的体征数据。例如，原始体征数据A中对应有指标项1、2、3的指标值，原始体征数据B中对应有指标项2、3、4的指标值，原始体征数据C中对应有指标项3、4、5的指标值，则原始体征数据A、B、C均为存在指标值缺失的体征数据，原始体征数据A缺失指标项4、5的指标值，原始体征数据B缺失指标项1、5的指标值，原始体征数据C缺失指标项1、2的指标值。

S103：对存在指标值缺失的体征数据中所缺失的指标值进行数据填补，生成填补后的体征数据。

在实际应用中，为避免利用缺失指标值的特征数据进行训练导致生成体征分类模型的不准确，当通过S102查找到缺失指标值的特征数据时，可以对该缺失指标值的特征数据进行填补，补充缺失的指标值，从而得到一条完整的原始体征数据，执行S104。其中，填补缺失指标值的特征数据的具体实现方式将在后续实施例中详细说明。

S104：将原始体征数据中不存在指标值缺失的体征数据以及填补后的体征数据作为训练数据，根据训练数据以及每条训练数据对应的数据分类标签对初始分类模型进行训练，生成体征数据分类模型。

本实例中，经过S103，填补缺失指标值的体征数据后，可以获得填补后的体征数据，进一步的，将不存在指标值缺失的体征数据以及填补后的特征数据均作为训练数据，然后根据训练数据以及每条训练数据对应的数据分类标签对初始分类模型进行训练，进而获取体征数据分类模型。

在具体应用时，可以预先对获取的每条原始体征数据进行分类，并根据分类结果对原始体征数据分配数据分类标签，从而在将原始体征数据作为训练数据时，根据训练数据以及训练数据各自对应的数据分类标签进行训练，生成体征数据分类模型。

其中，数据分类标签可以用于表征每条体征数据对应的患者体质，不同的患者其体质可能是不同的，不同体质在进行医学检查时生成的体征数据也可能不相同。具体实现时，数据分类标签可以使用不同的字符进行标识，例如标签1对应标识体质1、标签2对应标识体质2、标签3对应标识体质3等等。

由上述实施例可以看出，本申请实施例通过获取原始体征数据后，将原始体征数据中的各指标值填补完整生成训练数据，利用训练数据以及训练数据的分类标签对初始分类模型进行训练，生成体征数据分类模型，所生成的体征数据分类模型可以对任一体征数据进行分类，分类结果可以辅助医生进行诊断，从而本申请实施例针对大量原始体征数据，挖掘了其内部的联系建立了体征数据分类模型，提高了原始体征数据的利用率。

在本申请实施例中，一种可能的实现方式是，本申请中的初始分类模型可以为朴素贝叶斯模型或者决策树模型。下面将分别介绍根据训练数据和每条训练数据对应的数据分类标签对朴素贝叶斯模型或决策树模型进行训练的过程。

一、朴素贝叶斯训练模型

在本实施例中，朴素贝叶斯理论是指，根据一个已经发生事件的概率，计算另一个事件发生的概率，其数学表达式参见公式(1)

其中，P(Y)为事件Y的先验概率，P(Y|X)为事件X的后验概率，表示事件X发生后，发生事件Y的概率。

在此基础上，结合本申请的实际应用，其中Y表示数据分类标签类别，X为训练数据，假设有4个数据分类标签，分别为y1、y2、y3和y4，获取5条原始体征数据，每条体征数据包括4项指标值，每条体征数据的分类标签分别为y1、y2、y3、y3、y4，其中，第1条体征数据为[x1 x2 x3 x4]，数据分类标签为y1；第2条体征数据为[x5 x6 x7 x8]，数据分类标签为y2；第3条数据为[x9 x10 x11 x12]，数据分类标签为y3；第4条体征数据为[x13 x14 x15x16]，数据分类标签为y3；第5条体征数据为[x17 x18 x19 x20]，数据分类标签为y4。

则

为便于理解，X1为第1条体征数据、X2为第2条体征数据、X3为第3条体征数据、X4为第4条体征数据、X5为第5条体征数据，本实施例训练的目的在于计算P(y1|X1)、P(y2|X2)、P(y3|X3)、P(y3|X4)和P(y4|X5)，计算公式参见公式(2)：

假设Xi中各个数据之间相互独立，则上述公式(2)可以写为：

其中，xa、xb、xc和xd的具体取值与Xi相关，例如，当Xi＝X1时，其分别为x1、x2、x3和x4，则公式(3)可以为：

由于分母和输入数据与常量相关，则可以去除分母，则上述公式(3)可以为：

在实际应用时，可以利用已知数据分类标签Y的所有可能值计算概率，并选择输出概率最大的结果，也就是说，当数据为X1时，其分别为y1、y2、y3和y4的概率，选择最大的概率对应的分类标签，作为X1的数据分类标签，则：

以P(y1|X1)为例进行说明，则上述公式(4)可以为：

从上述计算公式可以看出，在获取P(y1|X1)时，需要获知P(Y＝y1)和P(X1|y1)，下面将分别介绍如何获取具体的概率值。

(1)如果没有P(Y＝y1)的先验概率，则利用P(Y＝y_k)＝m_k/m获得，其中，m_k为数据分类标签为y_k的个数，m为获取的所有体征数据中数据分类标签的个数，也就是获取的体征数据条数。

(2)在获取P(X1|y1)时，需区分体征数据X1的属性，当体征数据为离散值时，P(X1|y1)利用下述公式获取：

其中，xj为体征数据Xi中指标值，m_k为数据分类标签为yk的个数，n为每条特征数据包括指标值个数，δ为预先设置的正整数。

当体征数据为连续值时，P(X1|y1)利用下述公式获取：

其中，μ_k和分别为当Y＝yk时，所有Xi的平均值、方差。

通过上述计算获取P(yk|Xi)，然后对朴素贝叶斯模型进行训练，以生成体征数据分类模型。

二、决策树模型

决策树又称分类树，是一种常用的分类方法，基本原理是输入大量的训练样本，其中，每个训练样本均有属性值和类别，该类别是预先确定的，决策树通过学习得到分类器，该分类器可以对新输入的数据进行正确的分类。

为便于理解，以决策树为二叉树进行说明，假设获取的原始体征数据为表2所示，共获取4条原始体征数据，每条原始体征数据包括4个指标值，该表仅用于说明如何训练决策树模型，并未对获取的原始体征数据做任何限定。

表2 决策树训练数据

从表2中可以看出获取的每条体征数据中均有四个指标值，同时均已确定各自的数据分类标签，则训练过程可以如下：

(1)判断平均血红蛋白量是否在否阈值范围A内，如果是，则确定该条体征数据对应的体质分类为y1；如果否，进行(2)；

(2)判断平均血红蛋白浓度是否在阈值范围B内，如果是，则确定该条体征数据对应的体质分类为y2；如果否，进行(3)；

(3)判断血小板分布宽度是否在阈值范围C内，如果是，则确定该条体征数据对应的体质分类为y3；如果否，进行(4)；

(4)判断红细胞分布宽度是否在阈值范围D内，如果是，则确定该条体征数据对应的体质分类为y4；如果否，可以标位其它，以便与上述四种体征分类进行区分。

其中，A、B、C和D的具体设置可以参照获取的原始体征数据中各指标值，通过上述学习训练后，便可以生成体征数据分类模型。

需要说明的是，上述训练过程以平均血红蛋白量作为第一判断条件，当然也可以以平均血红蛋白浓度或血小板分布宽度为第一判断条件，也可以将平均血红蛋白浓度和血小板分布宽度共同作为第一判断条件，本实施例在此不做限定。

通过上述实施例，可以利用训练数据对上述两种初始分类模型进行训练，从而可以快速生成体征数据分类模型，以便利用该体征数据分类模型对待分类体征数据进行分类。

通过表1和表2提供的原始体征数据中可以看出，每条原始体征数据中所包括指标值的量纲是不同的，例如平均血红蛋白量为(pg)、平均血红蛋白浓度为(g/L)，两个指标值分布在不同的数量级，不利于后续训练初始分类模型，因此，在本申请实施例中，在获取原始体征数据之后，首先将原始体征数据中的指标值进行归一化处理，从而将不同量纲数据划分为统一分类数据，消除量纲带来的不便。同时，考虑到需要对存在指标值缺失的体征数据中进行填补，为使得填补的数据更为准确，在一些可能的实现方式，在对存在指标值缺失的体征数据中所缺失的指标值进行数据填补之前，将每条原始体征数据中的指标值进行归一化处理。

本实例中，是针对原始体征数据中同一指标项对应的指标值进行归一化处理，该指标项例如可以为平均血红蛋白、平均血红蛋白浓度、血小板分布宽度或红细胞分布宽度等。

在具体实现时，可以采用0-1标准化方法对原始体征数据中的指标值进行归一化处理，其中，0-1标准化又称离差标准化，是对原始数据进行线性变换，使结果落在[0,1]区间，转换函数为：

其中，x为某指标项中对应的一个指标值、max为全部原始体征数据中该指标项的最大值，min为全部原始体征数据中该指标项的最小值。

以平均血红蛋白浓度为例进行说明，max为345，min为320，通过上述转换函数转换后，Data1中平均血红蛋白浓度归一化为0.76、Data2对应的归一化为0、Data3对应的归一化为0.6、Data4对应的归一化为1。

需要说明的是，也可以采用其他标准化方法进行归一化处理，例如min-max标准化，本申请实施例对归一化处理的具体方式不做限定。

另外，对于指标项对应的指标值为非数值型时，也可以进行归一化处理，具体实现时，可以为该非数值性进行赋值，然后对赋值后的指标值进行归一化处理。如果某指标向对应的指标值仅有两种结果，例如阴性或阳性，则可以将阳性设置为1，阴性设置为0，无需进行后续的归一化处理。

通过本实施方式，利用归一化算法可以对原始体征数据中的指标值进行归一化处理，使得每项指标值均处于[0,1]区间，便于后续分类处理，提高处理速度。

通过上述实施例可知，需要对存在指标值缺失的体征数据中所缺失的指标值进行数据填补，下面将结合附图对本申请实施例提供的填补算法进行说明。

参见图2，其示出了本申请实施例提供的一种数据填补方法流程图，如图2所示，该方法可以包括：

S201：针对任一存在指标值缺失的体征数据，确定该存在指标值缺失的体征数据中所缺失的指标值对应的指标项。

本实施例中，通过S102可以查找存在指标值缺失的体征数据，对于任意一条缺失指标值的体征数据，需要确定每条体征数据中缺失指标值对应的指标项，该指标项可以为该指标值对应的检查项目名称。例如，假设表1中Data2中缺失红细胞分布宽度对应的指标值，则可以确定Data2中缺失指标值对应的指标项为红细胞分布宽度；Data3中缺失血小板分布宽度对应指标值，则可以确定Data3中缺失指标值对应的指标项为血小板分布宽度。

S202：根据其他原始体征数据中该指标项的指标值，利用多种数据填补算法生成该指标项的多个数据填补结果。

通过S201，确定每条缺失指标值的体征数据中所缺失指标值的指标项后，则利用未缺失该指标值的其他原始体征数据中该指标项的指标值进行数据填补。例如，表1中，Data2中缺失指标值对应的指标项为红细胞分布宽度，而Data1、Data3和Data4中均未缺失该指标项对应的指标值，则可以利用Data1、Data3和Data4中红细胞分布宽度对应的指标值进行数据填补；Data3中缺失指标值对应的指标项为血小板分布宽度，而Data1、Data2和Data4中均未缺失该指标项对应的指标值，则可以利用Data1、Data2和Data4血小板分布宽度对应的指标值进行填补。在具体实现时，为保证填补结果的准确性，可以利用多种数据填补算法进行填补，每种数据填补算法生成一个该指标项对应的数据填补结果，从而可以获得多个数据填补结果。

需要说明的是，对于缺失的指标值为非数值时，首先通过S201确定该缺失指标值对应的指标项后，然后可以对其他原始体征数据中该指标项的对应的指标值进行赋值，再根据赋值后的其他原始体征数据中该指标项的指标值进行数据填补。在一种可选的实现方式中，数据填补算法可以包括极大似然估计法、平均值填充法以及近似补齐法中的任意多个。也就是说，在进行数据填补时，可以选择其中任意两种填补算法进行填补，生成两个数据填补结果；也可以选择三种填补算法进行填补，生成三个数据填补结果。

其中，极大似然估计法是建立在极大似然原理基础上的一个统计方法，提供了一种给定观察数据来评估模型参数的方法。在本实施例中，在缺失类型为随机缺失时，假设模型对于完整的样本是可靠的，可以通过观测数据的边际分布对未知参数进行极大似然估计，通过情况下，极大似然参数估计采用的计算方法为期望值最大化(Expectation-Maximization，EM)算法，该算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法，在每次迭代过程中交替执行一下两个步骤：

(1)在给定完全主句和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望值；

(2)利用极大化对数似然函数确定参数值，并用于下步的迭代。

EM算法在上述两个步骤之间不断迭代直至收敛，即两个步骤之间的参数变化小于预先设定的阈值时结束迭代过程。

平均值填充方法，可以先将获取的原始体征数据的属性分为数值属性和非数值属性；对于缺失的指标值为数值属性时，是利用其他原始体证数据中该指标项的指标值的平均值来填补；对于缺失的指标值为非数值属性时，可以根据统计学中的众数原理，在其他原始体征数据中查找该指标项对应的指标值出现次数最多的数值，然后将出现次数最多的数值填补缺失的指标值。

就近补齐法，在其他原始体征数据中查找与存在指标值缺失的体征数据最相似的体征数据，然后利用查找的最相似体征数据中该指标项对应的指标值填补缺失的指标值。其中，最相似体征数据，可以为两条体征数据对应的数据分类标签相同，或者，两条体征数据中其他指标项对应的指标值的差值在预设阈值范围内。

S203：计算多个数据填补结果的平均值，将该存在指标值缺失的体征数据中所缺失的该指标项的指标值填补为平均值，生成该条填补后的体征数据。

通过S202，可以获得多个数据填补结果，为提高最终填补的指标值准确性，可以将获取的多个数据填补结果取平均值，将该平均值作为存在指标值缺失的体征数据中所缺失的指标值，从而生成填补后的体征数据。

通过本实施例提供的填补算法，可以快速、准确的生成所需的填补数据，从而使得存在指标值缺失的体征数据转换为完整的体征数据，进而为后续训练提供完整的训练样本，提高训练的准确性。

为便于理解本申请中体征数据分类模型的训练过程，参见图3，其示出了本申请实施例提供的体征数据分类模型训练的流程图，如图3所示，在体征数据分类模型训练过程中，首先需要获取原始体征数据，然后对原始体征数据进行查重，去除重复的体征数据，减少冗余，再对去重后的体征数据进行归一化处理，得到归一化体征数据，在归一化体征数据中查找存在指标值缺失的体征数据，并利用多种数据填补算法对存在指标值缺失的体征数据进行数据填补，生成填补后的体征数据，最后，将原始体征数据中不存在指标值缺失的体征数据和填补后的体征数据作为训练数据对初始分类模型进行训练生成体征数据分类模型。

以上为本申请实施例提供的一种分类模型生成方法的具体实现方式，基于上述实施例中的体征数据分类模型，本申请实施例还提供了一种数据分类方法。

参将图4，其示出了本申请实施例提供的一种数据分类方法流程图，如图4所示，该方法可以包括：

S401：获取待分类体征数据，其中，待分类的体征数据包括至少一项指标值。

本实施例中，当需要确定某条体征数据对应的分类结果时，首先需要获取待分类体征数据，该体征数据中可包括一项或多项的指标值，例如血压值、血糖值、心率等等。

S402：判断获取的待分类体征数据中是否存在指标值缺失，如果是，执行S403；如果否，执行S404。

本实例中，当获取待分类的体征数据后，需要对该条体征数据进行检查，以判断该条体征数据是否存在指标值缺失的情况，从而避免将存在指标值缺失的体征数据输入体征数据分类模型中，影响分类结果，因此，当获取待分类体征数据中存在缺失指标值时，则执行S403。如果，获取的待分类体征数据中不存在缺失指标值，则执行S404。

S403：对缺失的标值进行数据填补，将填补后的待分类体征数据输入体征数据分类模型，获得待分类体征数据的分类结果。

本实施例中，当确定获取的待分类体征数据中存在缺失指标值的情况时，对缺失指标值进行填补，具体填补方法后续将会介绍。

在具体应用时，将填补后的待分类体征数据作为输入数据输入至体征数据分类模型，以使得体征数据分类模型根据输入数据获得分类结果，例如该分类结果可以表征该待分类体征数据对应患者的体质。其中，本实施例的体征数据分类模型为上述实施例训练生成的分类模型。

S404：将待分类体征数据输入体征数据分类模型，获得待分类体征数据的分类结果。

通过S402，当确定待分类体征数据为完整数据后，将该待分类数据作为输入数据输入至体征数据分类模型中，以使得体征数据分类模型可以根据输入数据判断待分类体征数据的类型，获得分类结果。

由上述实施例可以看出，首先获取待分类体征数据，再判断该待分类体征数据是否存在指标值缺失情况，如果是，则对缺失指标值进行填补，将填补后的待分类体征数据输入体征数据分类模型中；如果否，则直接将待分类体征数据输入至体征数据分类模型中，进而获得待分类体征数据的分类结果，从而实现快速对待分类体征数据进行分类，且分类结果可以辅助医生进行诊断，提高了原始体征数据的利用率。

在本实施例中，也可以对待分类体征数据中的指标值进行归一化处理，在实际应用中，可以根据原始体征数据的指标值对待分类体征数据中的指标值进行归一化处理，从而将不同量纲的指标值划分为统一分类数据，具体实现方式可以参见原始体征数据指标值的归一化处理方法，本实施例在此不再赘述。

需要说明的是，本实施例中，如果在生成体征数据分类模型过程中，对原始体征数据中的指标值进行了归一化处理，则在利用体征数据分类模型对待分类数据进行分类时，也需要对待分类数据中的指标值进行归一化处理；如果未对原始体征数据的指标值进行归一化处理，则无需对待分类体征数据中的指标值进行归一化处理，从而统一输入数据，确保分类模型可以准确识别输入数据，保证获得分类结果的准确性。

针对于所获取的待分类体征数据缺失指标值的情况，本申请实施例提供了一种填补缺失指标值的方法，下面将结合附图进行介绍。

参见图5，其示出了本申请实施例提供的另一种数据填补方法，如图5所示，该方法可以包括：

S501：如果待分类体征数据存在指标值缺失，确定待分类体征数据中所缺失的指标值对应的指标项。

本实施例中，通过S402判断出待分类体征数据存在指标值缺失情况时，需要确定该指标值对应的指标项，以便利用该指标项进行后续填补。

S502：根据原始体征数据中该指标项对应的指标值，利用多种数据填补算法，生成该指标项的多个数据填补结果。

通过S501，确定缺失指标值对应的指标项，指标项确定后可以利用多种填补算法进行数据填补，填补时所利用的数据为原始体征数据中该指标项对应的指标值，将该指标值作为多个填补算法的参数进行计算，获得该指标项的多个数据填补结果。例如，获取的待分类体征数据中缺失平均血红蛋白量，则可以利用表1中4条数据中平均血红蛋白量对应的值通过多个填补算法得到多个数据填补结果。

其中，多种填补算法可以为极大似然估计法、平均值填充法以及近似补齐法中的任意多个，关于各个算法的具体实现可以参见上述实施例，本实施例在此不再赘述。

S503：计算多个数据填补结果的平均值，将待分类体征数据中所缺失的该指标项的指标值填补为该平均值，获得填补后的待分类体征数据。

本实施例中，通过S502，获得多个数据填补结果，将多个数据填补结果进行相加求取平均值，将该平均值作为缺失指标值，从而获得完整的待分类体征数据，进而将该待分类体征数据作为输入数据输入至体征分类模型中得到分类结果。

通过本实施例提供的填补算法，可以快速、准确地对缺失指标值的待分类数据进行数据填补，从而保证待分类体征数据的完整性，提高最终分类的准确性。

为便于理解本申请中待分类体征数据的分类过程，参见图6，其示出了本申请实施例提供的数据分类的流程图，如图6所述，在数据分类过程中，首先获取待分类体征数据，然后对待分类体征数据进行归一化处理，再判断该待分类体征数据是否存在缺失指标值的情况，如果存在，进行数据填补，得到填补后的待分类体征数据，然后输入至体征数据分类模型中；如果不存在，则将待分类体征数据输入至体征数据分累模型中，最后，输出分类结果。

基于上述方法实施例，本申请还提供了一种分类模型生成装置，下面将结合附图对该装置进行说明。

参见图7，其示出了本申请实施例提供的一种分类模型生成装置结构图，可以包括：

获取单元701，用于获取原始体征数据，每条所述原始体征数据包括至少一项指标值；

查找单元702，用于在所述原始体征数据中查找存在指标值缺失的体征数据；

填补单元703，用于对所述存在指标值缺失的体征数据中所缺失的指标值进行数据填补，生成填补后的体征数据；

生成单元704，用于将所述原始体征数据中不存在指标值缺失的体征数据以及所述填补后的体征数据作为训练数据，根据所述训练数据以及每条所述训练数据对应的数据分类标签对初始分类模型进行训练，生成体征数据分类模型。

在本申请一些可能的实现方式中，所述装置还包括：

在本申请一些可能的实现方式中，所述填补单元具体包括：

在本申请一些可能的实现方式中，所述数据填补算法包括极大似然估计法、平均值填充法以及近似补齐法中的任意多个。

在本申请一些可能的实现方式中，所述初始分类模型采用朴素贝叶斯模型或者决策树模型。

参见图8，其示出了本申请实施例提供的一种数据分类装置结构图，该装置可以包括：

获取单元801，用于获取待分类体征数据，所述待分类体征数据包括至少一项指标值；

第一获得单元802，用于如果所述待分类体征数据存在指标值缺失，对所缺少的指标值进行数据填补，将填补后的待分类体征数据输入体征数据分类模型，获得所述待分类体征数据的分类结果；

第二获得单元803，用于如果所述待分类体征数据不存在指标值缺失，将所述待分类体征数据输入所述体征数据分类模型，获得所述待分类体征数据的分类结果；

所述体征数据分类模型是根据所述的分类模型生成装置所生成的。

在本申请一些可能的实现方式中，所述装置还包括：

在本申请一些可能的实现方式中，所述第一获得单元具体包括：

另外，本申请实施例还提供一种计算机可读存储介质，所述机算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述的分类模型生成方法或者上述的数据分类方法。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述的分类模型生成方法或者上述的数据分类方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种分类模型生成方法，其特征在于，所述方法包括：

在所述原始体征数据中查找存在指标值缺失的体征数据；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述对所述存在指标值缺失的体征数据中所缺失的指标值进行数据填补，生成填补后的体征数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述数据填补算法包括极大似然估计法、平均值填充法以及近似补齐法中的任意多个。

5.根据权利要求1所述的方法，其特征在于，所述初始分类模型采用朴素贝叶斯模型或者决策树模型。

6.一种数据分类方法，其特征在于，所述方法包括：

所述体征数据分类模型是根据权利要求1-5任一项所述的分类模型生成方法所生成的。

7.一种分类模型生成装置，其特征在于，所述装置包括：

8.一种数据分类装置，其特征在于，所述装置包括：

所述体征数据分类模型是根据权利要求7所述的分类模型生成装置所生成的。

9.一种计算机可读存储介质，其特征在于，所述机算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-5任一项所述的分类模型生成方法或者权利要求6所述的数据分类方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1-5任一项所述的分类模型生成方法或者权利要求6所述的数据分类方法。