CN112599250A

CN112599250A - 一种基于深度神经网络的术后数据分析方法及设备

Info

Publication number: CN112599250A
Application number: CN202011549793.4A
Authority: CN
Inventors: 史斌; 高峰利; 金海龙
Original assignee: Third Medical Center of PLA General Hospital
Current assignee: Third Medical Center of PLA General Hospital
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-02

Abstract

本发明提供了一种基于深度神经网络的术后数据分析设备及方法，该设备包括：数据输入部、数据预处理部、数据分析部、存储部、输出部；数据输入部连接数据预处理部，数据预处理部连接数据分析部，数据分析部连接输出部；数据输入部、数据预处理部、数据分析部、输出部分别与存储部连接；数据预处理部对所述原始数据集进行预处理，获得归一化后的标准数据集；数据分析部接收所述标准数据集，并进行分析，针对标准数据集中的单个的个体单位数据集，给出分类后的数据标签。本发明能较好地获取单个个体数据中血清学指标的主要特征，并且精确地获取单个个体数据对应的数据标签，为后续医学研究提供了良好的数据支撑。

Description

一种基于深度神经网络的术后数据分析方法及设备

技术领域

本发明涉及医学移植后相关数据的分析及处理领域，特别涉及一种基于深度神经网络的针对肝移植后各项监测数据的处理及分析相关的方法及***，可广泛应用于数据监测类的医疗设备及医学研究中。

背景技术

肝细胞癌(Hepatocellular carcinoma,HCC)是我国最常见的恶性肿瘤，据统计，每年新发肝癌病例约37万，病死率约占88％，已成为我国第二位恶性肿瘤致死原因，严重影响人们的身体健康。而在常规的肝移植术后的数据的分析中，目前常用的米兰标准等，已不能很好地满足现有的海量数据的分析要求。目前常规的手段，仅是通过医护人员对海量信息进行人工的筛选和排序，再通过简单的医疗***分析，给出数据预测结果，从而作为后续数据监控的中间变量，但该些方法已无法适应现有的数据量要求，其准确性和参考价值，也同样不断受到质疑。在医疗领域中，尤其是医疗器械领域中，如何通过***的方法，在医疗设备装置中更好地处理海量的肝移植后各项数据，并对该些海量数据进行有效性筛选，从而提供更为贴切且有利于后续数据走势预测的数据分析方法，是目前市场上的一项亟待解决的问题。而海量病例数据的有效筛选和处理，以及数据间潜在关系的挖掘，将大大减轻医务人员及技术人员在海量数据处理中的工作量，从而为后续的病理分析等提供一定的处理后的标准化数据作为基础数据。

发明内容

有鉴于此，本发明实施例提供一种基于深度神经网络的术后数据分析设备及方法，具体而言，提供了以下的技术方案：

首先，本发明提供了一种基于深度神经网络的术后数据分析设备，该设备包括：

数据输入部、数据预处理部、数据分析部、存储部、输出部；所述数据输入部连接数据预处理部，所述数据预处理部连接所述数据分析部，所述数据分析部连接所述输出部；所述数据输入部、数据预处理部、数据分析部、输出部分别与所述存储部连接；

数据输入部，用于输入术后的原始数据集；所述原始数据集输入后，由所述数据输入部发送至数据预处理部；

所述数据预处理部对所述原始数据集进行预处理，所述预处理包括数据筛选、缺失数据填充、错误数据清洗、多值数据处理、离散数据编码及数据归一化，获得归一化后的标准数据集；所述标准数据集发送至所述数据分析部，并同时发送存储部进行存储；

所述数据分析部接收所述标准数据集，并进行分析，针对标准数据集中的单个的个体单位数据集，给出分类后的数据标签；所述分类后的数据标签及标准数据集发送至所述输出部，同时发送存储部存储，在所述存储部存储时，所述数据标签与所述标准数据集中对应的个体单位数据集关联存储；

所述输出部将所述数据标签与所述标准数据集中对应的个体单位数据集以关联的方式输出。

优选的，所述数据分析部包含神经网络模块，当输入的所述原始数据集用于训练所述神经网络模块时，所述数据预处理部对于获得的归一化后的标准数据集，以单个个体为单位，增加数据标签，形成样本数据集；所述样本数据集发送至所述数据分析部进行神经网络训练，并同时发送存储部进行存储。

优选的，所述数据预处理部中，所述缺失数据补充，对于缺失的数据项，采用存储部中存储的已有数据中对应数据项的平均值补充对应的缺失数据项。

优选的，所述数据预处理部中，所述离散数据编码，通过将离散类数据项按照数据类别设置统一编码的方式进行处理。

优选的，所述数据预处理部中，所述数据归一化，将数据中的指标数值，通过等比缩放方式，全部归一化到0至255区间。

优选的，所述增加数据标签，通过以下方式：

对于标准数据集，以单个个体为单位，增加数据标签项，数据标签项对应单个个体单位的数据标签值，所述数据标签值基于单个个体单位的相对时间数据与全部标准数据集中的相对时间数据的中值的比对结果来添加；

当单个个体单位的相对时间数据大于所述中值时，归为一类数据标签，否则归为另一类数据标签；

所述相对时间指单个个体单位手术时间与复发时间之间的差值。

优选的，所述标准数据集包含64个数据项。

此外，本发明还提供了一种基于深度神经网络的术后数据分析方法，该方法可以通过如上所述基于深度神经网络的术后数据分析设备来执行，该方法包括：

S1、输入术后原始数据集；

S2、对所述原始数据集进行预处理，所述预处理包括数据筛选、缺失数据填充、错误数据清洗、多值数据处理、离散数据编码及数据归一化，获得归一化后的标准数据集；

S3、针对标准数据集中的单个的个体单位数据集，通过神经网络，给出分类后的数据标签。

优选的，当输入的所述原始数据集用于训练所述神经网络时，对所述标准数据集，以单个个体为单位，增加数据标签，形成样本数据集，进行神经网络训练。

优选的，所述增加数据标签，通过以下方式：

与现有技术相比，本发明技术方案提出的方法训练神经网络模型，既能较好地获取单个个体数据中，尤其是血清学指标中的主要特征，又能精确地分析并获取单个个体数据对应的数据标签，从而确定单个个体的相对时间数据，作为后续医学研究的基础数据使用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为神经网络模型结构示例图；

图2为本发明实施例的神经网络模型训练流程；

图3为本发明实施例的模型应用流程；

图4为本发明实施例的设备结构示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。应当明确，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本领域技术人员应当知晓，下述具体实施例或具体实施方式，是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式，而该些设置方式之间均是可以相互结合或者相互关联使用的，除非在本发明明确提出了其中某些或某一具体实施例或实施方式无法与其他的实施例或实施方式进行关联设置或共同使用。同时，下述的具体实施例或实施方式仅作为最优化的设置方式，而不作为限定本发明的保护范围的理解。

实施例1：

结合图2-4，在一个具体的实施例中，本发明所提供的数据分析设备可以通过以下的具体实施方式来实现：

如图4所示，本发明提供的一种基于深度神经网络的术后数据分析设备，包括如下几个核心部：

数据输入部，用于输入术后的原始数据集；所述原始数据集输入后，由所述数据输入部发送至数据预处理部；输入部可以是例如键盘、医用数据分析仪、便携式存储器的阅读设备等。

所述输出部将所述数据标签与所述标准数据集中对应的个体单位数据集以关联的方式输出。输出部可以采用打印、显示或者有线/无线方式发送数据的方式进行输出，可以基于设备的具体使用场景和面向的对象不同而进行调整。

在一个具体的实施方式中，所述数据分析部包含神经网络模块，当输入的所述原始数据集用于训练所述神经网络模块时，所述数据预处理部对于获得的归一化后的标准数据集，以单个个体为单位，增加数据标签，形成样本数据集；所述样本数据集发送至所述数据分析部进行神经网络训练，并同时发送存储部进行存储。

制作数据标签是数据集制作中的关键步骤，本发明以复发时间数据的类别作为数据标签，对数据集中的不同个体数据组进行标定，在一个具体的实施方式中，数据标签可以例如分为“长”和“短”两个大类，作为数据标签，在该实施例中，该数据标签采用的是复发的相对时间作为参考分类的依据，即以手术时间与复发时间之间的差值，作为个体单位的数据标签的时间，在进行数据标签的分类时，将全部参考数据集中的各个个体单位的上述的相对时间(即每个个体单位的手术时间与复发时间之间的差值)进行汇总，并求取该些时间集合的中值，再将单个个体单位的相对时间与所述的中值进行比较，大于该中值，则分类为“长”，即该数据标签为“长”，否则分类为“短”，即该数据标签为“短”。在一个更为具体的实施方式中，当设置为“长”时，对应的标签可以用“1”代表，当设置为“短”时，可以用“0”代表。

在一个具体的实施方式中，所述数据预处理部中，所述缺失数据补充，对于缺失的数据项，采用存储部中存储的已有数据中对应数据项的平均值补充对应的缺失数据项。例如单个A数据项在某个单个个体数据集中缺失时，我们可以将全部数据集中的有A数据项的数据记录摘出，并求取该些A数据项数据的平均值，作为缺失A数据项的数据，从而补全给单个个体数据集。

在一个具体的实施方式中，所述数据预处理部中，所述离散数据编码，通过将离散类数据项按照数据类别设置统一编码的方式进行处理。离散数据往往是类似男、女类的类别数据，对于这种类别数据，通过类别编码的方式加以区分，例如将“男”编码为“0，1”，将“女”编码为“1，0”等。当然，也可以采用其他类似的方式进行编码，以示区分。

在一个具体的实施方式中，所述数据预处理部中，所述数据归一化，将数据中的指标数值，通过等比缩放方式，全部归一化到0至255区间。归一化的方式和区间，也可以采用其他的方式实现。但是，基于本发明方案所针对的单体数据的特点，以及后续数据内在关联特征提取的需要，本发明优选将区间设置在0至255，这是发明人在经过大量实验后，所得到的最优化方案，平衡了潜在特征信息的保留与数据量之间的关系，其效果要明显优于其他方式。

在一个具体的实施方式中，所述增加数据标签，通过以下方式：

在一个具体的实施方式中，所述标准数据集包含64个数据项，在增加数据标签项后，标准数据集包含65个数据项。

实施例2：

为更详细地阐述本发明的设备的使用和执行过程，以下结合一具体的实施例来进行说明。在又一个具体的实施例中，在本发明所提供的数据分析设备中，可以执行相应的数据的处理和分析方法，结合说明书附图1-3，在一个具体的实施方式中，该设备在执行数据集的处理和分析过程中，主要执行三个步骤，即建立待分析基础数据集、进行神经网络的训练、基于神经网络的数据分析应用。具体过程为：

一、建立数据集

由于基础数据的收集，不可避免存在缺失、错误、多值等问题，需要对数据进行预处理。

a、选择基础数据

在一个具体的实施方式中，往往需要处理的数据众多，我们此处以待处理的血清学指标和性别、年龄、肝癌复发时间为主要基础数据项，在一个更为优选的实施方式中，待处理的上述的血清学指标数据可以包括：甲胎蛋白(AFP)，白蛋白(ALB)，碱性磷酸酶(ALP)，谷丙转氨酶(ALT)，活化部分凝血活酶时间(APTT)，谷草转氨酶(AST)，CA125，CA19-9，CA72-4，CD3计数，CD45计数，CD8计数，癌胚抗原(CEA)，C-反应蛋白(CRP)，直接胆红素(DBIL)，FK506，乙肝表面抗原(HBsAg-V)，血小板(PLT)，红细胞(RBC)，间接胆红素(TBIL)，白细胞(WBC)，丙型肝炎病毒抗体(抗HCV-V)等。当然，在其他的实施例中，本装置及其执行的方法，还可以处理其他血清类指标数据，本领域技术人员可以依据要处理或分析的具体数据内容进行调整。

b、处理数据缺失

数据缺失主要是因为在基础数据的获取途径差异方面造成的数据项目缺失造成的，例如多数个体数据中包括了“AFP.”检测的数据，少数个体数据则未检测此项或者因为数据保存不善造成数据缺失，此时采用已有的“AFP.”平均值对无此项数据的个体数据进行填充，从而保证以病例为单位的数据的完整性。

c、修正数据错误

数据错误表现为数值超出合理范围、存在非数值文字等形式。在预处理时检测并剔除异常数据，将非数值数据数值化，从而进行数据清洗。

d、处理多值数据

数据记录的多值性很常见，这主要是由于一个个体单位的关联数据可能存在在一个时间段内的多次重复收集或多次重复录入造成的，在多次长虹福收集的情形下，个体单位的同一指标项数据表现为一个时间序列数据。在本发明中，对多值数据的处理采用以下方法中的一种或者多种的任意组合：取最大值、平均值和末位值。具体采用的处理方法，可以基于实际待处理的数据的特点来确定。

e、处理离散数据

数据中存在着一些类似于性别等离散的数据类型，采用One-hot方法对其进行编码，例如将“男”编码为“0，1”，将“女”编码为“1，0”。

f、归一化数值

将选中的每一项指标数值，归一化到0～255区间，以便于后续的神经网络处理。以AFP指标数据为例，首先计算所有数据中’AFP’指标项afp的最大值afp_max，然后将每个个体单位中的’AFP’指标按照afp＝afp x 255/afp_max进行等比例缩放，实现AFP数据的归一化。其他数据的归一化处理方式可以参考同样的方法。当然，在其他的实施方式中，本领域技术人员还可以采用其他的归一化方式来处理待分析数据，并且归一化的范围也可以基于设备的处理精度和速度来确定，此处不再赘述。

g、制作数据标签

下面，以一个典型的个体单位的数据集为例，说明本发明的设备在执行过程中的流程，如表1所示：

表1典型的病例原始数据样本

REPORT_ITEM_NAME	RESULT
		血液分析
CRP.	3.62
		WBC	4.93
P-LCR	24.8
		P-LCC	53
IG#	0.01
		IG％	0.2
血液分析
		CRP.	8.61
PTINR	1.28
		PT(仪器)	14.3
PT％	64.2
		APTT	34.7
Fbg C	355.2
		不	18.0
血液分析
		CRP.	＜0.50
WBC	7.98
		NEUT#	5.13
NEUT％	64.3
		PLT	159
PDW	12.1
		MPV	10.5
P-LCR	28.9
		PCT	0.17
NRBC#	0
		NRBC％	0
IG#	0.05
		IG％	0.6
ALT	33
		AST	15
GGT	84
		ALP	69
TP	72.4
		ALB	44.0
TBIL	13.3

以上表中提供的数据集为例，上表中存在多余血清学指标、多值、未归一化、非数值数据等问题，经过上述的步骤a至f的数据预处理后，建立如下表所示的数据集，其中第一行表示表头，剩余的每一行表示一个个体单位数据样本，前64列表示64个数据项，‘label’列表示样本的所属标签，即数据标签：

表2数据集示例

0_x	1_x	2_x	…	61_x	62_x	63_x	label
								0.02431983	232.727273	28.5197368	…	255	0	132.467532	1
0.1106405	195.909091	32.2944079	…	0	255	149.025974	0
								38.1193388	161.818182	47.8125	…	255	0	168.896104	0
…	…	…	…	…	…	…	…
								0.07262231	201.818182	35.2302632	…	255	0	155.649351	0
0.04219091	115.454545	92.6891447	…	255	0	122.532468	0
								0.10962893	178.636364	28.9391447	…	255	0	188.766234	1

经过上述的数据处理后，待分析的数据就统一归一化为固定的统一的、格式化的数据集，便于后续的神经网络训练和数据自动分析。

二、定制神经网络模型

a、设计模型结构

由于单个数据样本的维度较小，本发明采用了较为简单的网络结构，以避免网络训练过拟合的问题。网络模型由3个全联接层和两个随机丢弃层组成，具体结构如图1所示。

b、训练神经网络模型

训练神经网络模型的流程参见图2。在数据经过清洗和整理之后，可以抽取其中的部分数据作为训练数据集，从而进行网络模型的训练。在训练过程中，如图2，先对样本数据进行随机组合分组，形成不同的批次，按批次输入训练数据，在神经网络的输入层开始，进行前向传播，得到loss集，再进行反向传播，计算一阶梯度，基于一阶梯度更新网络中的各参数及权值，此时，如果网络收敛或者满足预设的收敛阈值要求，则停止训练，输出模型，如果网络不收敛，或者不满足收敛阈值要求，则再次输入不同批次的训练组，继续对网络进行训练，直至网络收敛，或满足收敛阈值要求。经训练后网络便可用于后续的待分析数据的分析或分类使用。

在一个更为具体的实施方式中，接上面的处理后的数据，将表2的数据按行数比例2:1随机分成训练集和测试集，采用图1设计的网络，输入训练集进行训练，并在测试集上测试模型的准确率。对于现有的数据集，得到的测试集准确率是70％。

c、新数据样本时间类别分类

经过训练得到的神经网络模型可以用于实际数据的时间分类，按照图3所示的流程进行操作。首先，将待分析的基础数据输入训练好的模型中，经过模型的前向传播，输出对应的数据组的时间类别，即应当获得的时间标签，例如“1”或“0”，这些时间标签含义即为相对时间的“长”或“短”。

三、模型应用

下面以一个具体的实施例来说明上述经训练后的模型进行相对时间分类情况。对于可获取到个体对应数据的数据组，可以采用上述模型进行相对时间预测。在模型中输入当前个体数据组，以下表为例：

表3当前个体样本数据组示例

0_x	1_x	2_x	…	61_x	62_x	63_x
							5.0831405	198.636364	85.9786184	…	255	0	135.779221

模型将给出当前个体数据组对应的相对时间的预测值：‘长’或‘短’。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于深度神经网络的术后数据分析设备，其特征在于，所述设备包括：

2.根据权利要求1所述的设备，其特征在于，所述数据分析部包含神经网络模块，当输入的所述原始数据集用于训练所述神经网络模块时，所述数据预处理部对于获得的归一化后的标准数据集，以单个个体为单位，增加数据标签，形成样本数据集；所述样本数据集发送至所述数据分析部进行神经网络训练，并同时发送存储部进行存储。

3.根据权利要求1所述的设备，其特征在于，所述数据预处理部中，所述缺失数据补充，对于缺失的数据项，采用存储部中存储的已有数据中对应数据项的平均值补充对应的缺失数据项。

4.根据权利要求1所述的设备，其特征在于，所述数据预处理部中，所述离散数据编码，通过将离散类数据项按照数据类别设置统一编码的方式进行处理。

5.根据权利要求1所述的设备，其特征在于，所述数据预处理部中，所述数据归一化，将数据中的指标数值，通过等比缩放方式，全部归一化到0至255区间。

6.根据权利要求2所述的设备，其特征在于，所述增加数据标签，通过以下方式：

7.根据权利要求1所述的设备，其特征在于，所述标准数据集包含64个数据项。

8.一种基于深度神经网络的术后数据分析方法，其特征在于，所述方法包括：

S1、输入术后原始数据集；

9.根据权利要求8所述的方法，其特征在于，当输入的所述原始数据集用于训练所述神经网络时，对所述标准数据集，以单个个体为单位，增加数据标签，形成样本数据集，进行神经网络训练。

10.根据权利要求9所述的方法，其特征在于，所述增加数据标签，通过以下方式：