CN112599250A - 一种基于深度神经网络的术后数据分析方法及设备 - Google Patents
一种基于深度神经网络的术后数据分析方法及设备 Download PDFInfo
- Publication number
- CN112599250A CN112599250A CN202011549793.4A CN202011549793A CN112599250A CN 112599250 A CN112599250 A CN 112599250A CN 202011549793 A CN202011549793 A CN 202011549793A CN 112599250 A CN112599250 A CN 112599250A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- standard
- preprocessing
- single individual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 31
- 230000002980 postoperative effect Effects 0.000 title claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000001356 surgical procedure Methods 0.000 claims description 5
- 230000000405 serological effect Effects 0.000 abstract description 5
- 238000011160 research Methods 0.000 abstract description 3
- 102100023635 Alpha-fetoprotein Human genes 0.000 description 12
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 12
- 238000003062 neural network model Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 108010074051 C-Reactive Protein Proteins 0.000 description 5
- 102100032752 C-reactive protein Human genes 0.000 description 5
- 210000000265 leukocyte Anatomy 0.000 description 4
- 239000013589 supplement Substances 0.000 description 4
- 238000002054 transplantation Methods 0.000 description 4
- 102100036475 Alanine aminotransferase 1 Human genes 0.000 description 3
- 108010082126 Alanine transaminase Proteins 0.000 description 3
- 108010088751 Albumins Proteins 0.000 description 3
- 102000009027 Albumins Human genes 0.000 description 3
- 102000002260 Alkaline Phosphatase Human genes 0.000 description 3
- 108020004774 Alkaline Phosphatase Proteins 0.000 description 3
- 108010003415 Aspartate Aminotransferases Proteins 0.000 description 3
- 102000004625 Aspartate Aminotransferases Human genes 0.000 description 3
- 238000004159 blood analysis Methods 0.000 description 3
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 3
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 3
- 210000004185 liver Anatomy 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- BPYKTIZUTYGOLE-IFADSCNNSA-N Bilirubin Chemical compound N1C(=O)C(C)=C(C=C)\C1=C\C1=C(C)C(CCC(O)=O)=C(CC2=C(C(C)=C(\C=C/3C(=C(C=C)C(=O)N\3)C)N2)CCC(O)=O)N1 BPYKTIZUTYGOLE-IFADSCNNSA-N 0.000 description 2
- 102000012406 Carcinoembryonic Antigen Human genes 0.000 description 2
- 108010022366 Carcinoembryonic Antigen Proteins 0.000 description 2
- 238000008789 Direct Bilirubin Methods 0.000 description 2
- UIIMBOGNXHQVGW-UHFFFAOYSA-M Sodium bicarbonate Chemical compound [Na+].OC([O-])=O UIIMBOGNXHQVGW-UHFFFAOYSA-M 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000003743 erythrocyte Anatomy 0.000 description 2
- 201000007270 liver cancer Diseases 0.000 description 2
- 208000014018 liver neoplasm Diseases 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- PGOHTUIFYSHAQG-LJSDBVFPSA-N (2S)-6-amino-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-4-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-5-amino-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S,3R)-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S,3R)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-5-amino-2-[[(2S)-1-[(2S,3R)-2-[[(2S)-2-[[(2S)-2-[[(2R)-2-[[(2S)-2-[[(2S)-2-[[2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-1-[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-amino-4-methylsulfanylbutanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-5-carbamimidamidopentanoyl]amino]propanoyl]pyrrolidine-2-carbonyl]amino]-3-methylbutanoyl]amino]-4-methylpentanoyl]amino]-4-methylpentanoyl]amino]acetyl]amino]-3-hydroxypropanoyl]amino]-4-methylpentanoyl]amino]-3-sulfanylpropanoyl]amino]-4-methylsulfanylbutanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-hydroxybutanoyl]pyrrolidine-2-carbonyl]amino]-5-oxopentanoyl]amino]-3-hydroxypropanoyl]amino]-3-hydroxypropanoyl]amino]-3-(1H-imidazol-5-yl)propanoyl]amino]-4-methylpentanoyl]amino]-3-hydroxybutanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-5-carbamimidamidopentanoyl]amino]-5-oxopentanoyl]amino]-3-hydroxybutanoyl]amino]-3-hydroxypropanoyl]amino]-3-carboxypropanoyl]amino]-3-hydroxypropanoyl]amino]-5-oxopentanoyl]amino]-5-oxopentanoyl]amino]-3-phenylpropanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-methylbutanoyl]amino]-4-methylpentanoyl]amino]-4-oxobutanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-4-carboxybutanoyl]amino]-5-oxopentanoyl]amino]hexanoic acid Chemical compound CSCC[C@H](N)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C)C(=O)N1CCC[C@H]1C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(C)C)C(=O)NCC(=O)N[C@@H](CO)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CS)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CO)C(=O)N[C@@H](Cc1cnc[nH]1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](Cc1ccccc1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCCCN)C(O)=O PGOHTUIFYSHAQG-LJSDBVFPSA-N 0.000 description 1
- 241000711549 Hepacivirus C Species 0.000 description 1
- 101000738771 Homo sapiens Receptor-type tyrosine-protein phosphatase C Proteins 0.000 description 1
- 102100037422 Receptor-type tyrosine-protein phosphatase C Human genes 0.000 description 1
- 108010000499 Thromboplastin Proteins 0.000 description 1
- 102100030859 Tissue factor Human genes 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000002672 hepatitis B Diseases 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pathology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供了一种基于深度神经网络的术后数据分析设备及方法,该设备包括:数据输入部、数据预处理部、数据分析部、存储部、输出部;数据输入部连接数据预处理部,数据预处理部连接数据分析部,数据分析部连接输出部;数据输入部、数据预处理部、数据分析部、输出部分别与存储部连接;数据预处理部对所述原始数据集进行预处理,获得归一化后的标准数据集;数据分析部接收所述标准数据集,并进行分析,针对标准数据集中的单个的个体单位数据集,给出分类后的数据标签。本发明能较好地获取单个个体数据中血清学指标的主要特征,并且精确地获取单个个体数据对应的数据标签,为后续医学研究提供了良好的数据支撑。
Description
技术领域
本发明涉及医学移植后相关数据的分析及处理领域,特别涉及一种基于深度神经网络的针对肝移植后各项监测数据的处理及分析相关的方法及***,可广泛应用于数据监测类的医疗设备及医学研究中。
背景技术
肝细胞癌(Hepatocellular carcinoma,HCC)是我国最常见的恶性肿瘤,据统计,每年新发肝癌病例约37万,病死率约占88%,已成为我国第二位恶性肿瘤致死原因,严重影响人们的身体健康。而在常规的肝移植术后的数据的分析中,目前常用的米兰标准等,已不能很好地满足现有的海量数据的分析要求。目前常规的手段,仅是通过医护人员对海量信息进行人工的筛选和排序,再通过简单的医疗***分析,给出数据预测结果,从而作为后续数据监控的中间变量,但该些方法已无法适应现有的数据量要求,其准确性和参考价值,也同样不断受到质疑。在医疗领域中,尤其是医疗器械领域中,如何通过***的方法,在医疗设备装置中更好地处理海量的肝移植后各项数据,并对该些海量数据进行有效性筛选,从而提供更为贴切且有利于后续数据走势预测的数据分析方法,是目前市场上的一项亟待解决的问题。而海量病例数据的有效筛选和处理,以及数据间潜在关系的挖掘,将大大减轻医务人员及技术人员在海量数据处理中的工作量,从而为后续的病理分析等提供一定的处理后的标准化数据作为基础数据。
发明内容
有鉴于此,本发明实施例提供一种基于深度神经网络的术后数据分析设备及方法,具体而言,提供了以下的技术方案:
首先,本发明提供了一种基于深度神经网络的术后数据分析设备,该设备包括:
数据输入部、数据预处理部、数据分析部、存储部、输出部;所述数据输入部连接数据预处理部,所述数据预处理部连接所述数据分析部,所述数据分析部连接所述输出部;所述数据输入部、数据预处理部、数据分析部、输出部分别与所述存储部连接;
数据输入部,用于输入术后的原始数据集;所述原始数据集输入后,由所述数据输入部发送至数据预处理部;
所述数据预处理部对所述原始数据集进行预处理,所述预处理包括数据筛选、缺失数据填充、错误数据清洗、多值数据处理、离散数据编码及数据归一化,获得归一化后的标准数据集;所述标准数据集发送至所述数据分析部,并同时发送存储部进行存储;
所述数据分析部接收所述标准数据集,并进行分析,针对标准数据集中的单个的个体单位数据集,给出分类后的数据标签;所述分类后的数据标签及标准数据集发送至所述输出部,同时发送存储部存储,在所述存储部存储时,所述数据标签与所述标准数据集中对应的个体单位数据集关联存储;
所述输出部将所述数据标签与所述标准数据集中对应的个体单位数据集以关联的方式输出。
优选的,所述数据分析部包含神经网络模块,当输入的所述原始数据集用于训练所述神经网络模块时,所述数据预处理部对于获得的归一化后的标准数据集,以单个个体为单位,增加数据标签,形成样本数据集;所述样本数据集发送至所述数据分析部进行神经网络训练,并同时发送存储部进行存储。
优选的,所述数据预处理部中,所述缺失数据补充,对于缺失的数据项,采用存储部中存储的已有数据中对应数据项的平均值补充对应的缺失数据项。
优选的,所述数据预处理部中,所述离散数据编码,通过将离散类数据项按照数据类别设置统一编码的方式进行处理。
优选的,所述数据预处理部中,所述数据归一化,将数据中的指标数值,通过等比缩放方式,全部归一化到0至255区间。
优选的,所述增加数据标签,通过以下方式:
对于标准数据集,以单个个体为单位,增加数据标签项,数据标签项对应单个个体单位的数据标签值,所述数据标签值基于单个个体单位的相对时间数据与全部标准数据集中的相对时间数据的中值的比对结果来添加;
当单个个体单位的相对时间数据大于所述中值时,归为一类数据标签,否则归为另一类数据标签;
所述相对时间指单个个体单位手术时间与复发时间之间的差值。
优选的,所述标准数据集包含64个数据项。
此外,本发明还提供了一种基于深度神经网络的术后数据分析方法,该方法可以通过如上所述基于深度神经网络的术后数据分析设备来执行,该方法包括:
S1、输入术后原始数据集;
S2、对所述原始数据集进行预处理,所述预处理包括数据筛选、缺失数据填充、错误数据清洗、多值数据处理、离散数据编码及数据归一化,获得归一化后的标准数据集;
S3、针对标准数据集中的单个的个体单位数据集,通过神经网络,给出分类后的数据标签。
优选的,当输入的所述原始数据集用于训练所述神经网络时,对所述标准数据集,以单个个体为单位,增加数据标签,形成样本数据集,进行神经网络训练。
优选的,所述增加数据标签,通过以下方式:
对于标准数据集,以单个个体为单位,增加数据标签项,数据标签项对应单个个体单位的数据标签值,所述数据标签值基于单个个体单位的相对时间数据与全部标准数据集中的相对时间数据的中值的比对结果来添加;
当单个个体单位的相对时间数据大于所述中值时,归为一类数据标签,否则归为另一类数据标签;
所述相对时间指单个个体单位手术时间与复发时间之间的差值。
与现有技术相比,本发明技术方案提出的方法训练神经网络模型,既能较好地获取单个个体数据中,尤其是血清学指标中的主要特征,又能精确地分析并获取单个个体数据对应的数据标签,从而确定单个个体的相对时间数据,作为后续医学研究的基础数据使用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为神经网络模型结构示例图;
图2为本发明实施例的神经网络模型训练流程;
图3为本发明实施例的模型应用流程;
图4为本发明实施例的设备结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。应当明确,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本领域技术人员应当知晓,下述具体实施例或具体实施方式,是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式,而该些设置方式之间均是可以相互结合或者相互关联使用的,除非在本发明明确提出了其中某些或某一具体实施例或实施方式无法与其他的实施例或实施方式进行关联设置或共同使用。同时,下述的具体实施例或实施方式仅作为最优化的设置方式,而不作为限定本发明的保护范围的理解。
实施例1:
结合图2-4,在一个具体的实施例中,本发明所提供的数据分析设备可以通过以下的具体实施方式来实现:
如图4所示,本发明提供的一种基于深度神经网络的术后数据分析设备,包括如下几个核心部:
数据输入部、数据预处理部、数据分析部、存储部、输出部;所述数据输入部连接数据预处理部,所述数据预处理部连接所述数据分析部,所述数据分析部连接所述输出部;所述数据输入部、数据预处理部、数据分析部、输出部分别与所述存储部连接;
数据输入部,用于输入术后的原始数据集;所述原始数据集输入后,由所述数据输入部发送至数据预处理部;输入部可以是例如键盘、医用数据分析仪、便携式存储器的阅读设备等。
所述数据预处理部对所述原始数据集进行预处理,所述预处理包括数据筛选、缺失数据填充、错误数据清洗、多值数据处理、离散数据编码及数据归一化,获得归一化后的标准数据集;所述标准数据集发送至所述数据分析部,并同时发送存储部进行存储;
所述数据分析部接收所述标准数据集,并进行分析,针对标准数据集中的单个的个体单位数据集,给出分类后的数据标签;所述分类后的数据标签及标准数据集发送至所述输出部,同时发送存储部存储,在所述存储部存储时,所述数据标签与所述标准数据集中对应的个体单位数据集关联存储;
所述输出部将所述数据标签与所述标准数据集中对应的个体单位数据集以关联的方式输出。输出部可以采用打印、显示或者有线/无线方式发送数据的方式进行输出,可以基于设备的具体使用场景和面向的对象不同而进行调整。
在一个具体的实施方式中,所述数据分析部包含神经网络模块,当输入的所述原始数据集用于训练所述神经网络模块时,所述数据预处理部对于获得的归一化后的标准数据集,以单个个体为单位,增加数据标签,形成样本数据集;所述样本数据集发送至所述数据分析部进行神经网络训练,并同时发送存储部进行存储。
制作数据标签是数据集制作中的关键步骤,本发明以复发时间数据的类别作为数据标签,对数据集中的不同个体数据组进行标定,在一个具体的实施方式中,数据标签可以例如分为“长”和“短”两个大类,作为数据标签,在该实施例中,该数据标签采用的是复发的相对时间作为参考分类的依据,即以手术时间与复发时间之间的差值,作为个体单位的数据标签的时间,在进行数据标签的分类时,将全部参考数据集中的各个个体单位的上述的相对时间(即每个个体单位的手术时间与复发时间之间的差值)进行汇总,并求取该些时间集合的中值,再将单个个体单位的相对时间与所述的中值进行比较,大于该中值,则分类为“长”,即该数据标签为“长”,否则分类为“短”,即该数据标签为“短”。在一个更为具体的实施方式中,当设置为“长”时,对应的标签可以用“1”代表,当设置为“短”时,可以用“0”代表。
在一个具体的实施方式中,所述数据预处理部中,所述缺失数据补充,对于缺失的数据项,采用存储部中存储的已有数据中对应数据项的平均值补充对应的缺失数据项。例如单个A数据项在某个单个个体数据集中缺失时,我们可以将全部数据集中的有A数据项的数据记录摘出,并求取该些A数据项数据的平均值,作为缺失A数据项的数据,从而补全给单个个体数据集。
在一个具体的实施方式中,所述数据预处理部中,所述离散数据编码,通过将离散类数据项按照数据类别设置统一编码的方式进行处理。离散数据往往是类似男、女类的类别数据,对于这种类别数据,通过类别编码的方式加以区分,例如将“男”编码为“0,1”,将“女”编码为“1,0”等。当然,也可以采用其他类似的方式进行编码,以示区分。
在一个具体的实施方式中,所述数据预处理部中,所述数据归一化,将数据中的指标数值,通过等比缩放方式,全部归一化到0至255区间。归一化的方式和区间,也可以采用其他的方式实现。但是,基于本发明方案所针对的单体数据的特点,以及后续数据内在关联特征提取的需要,本发明优选将区间设置在0至255,这是发明人在经过大量实验后,所得到的最优化方案,平衡了潜在特征信息的保留与数据量之间的关系,其效果要明显优于其他方式。
在一个具体的实施方式中,所述增加数据标签,通过以下方式:
对于标准数据集,以单个个体为单位,增加数据标签项,数据标签项对应单个个体单位的数据标签值,所述数据标签值基于单个个体单位的相对时间数据与全部标准数据集中的相对时间数据的中值的比对结果来添加;
当单个个体单位的相对时间数据大于所述中值时,归为一类数据标签,否则归为另一类数据标签;
所述相对时间指单个个体单位手术时间与复发时间之间的差值。
在一个具体的实施方式中,所述标准数据集包含64个数据项,在增加数据标签项后,标准数据集包含65个数据项。
实施例2:
为更详细地阐述本发明的设备的使用和执行过程,以下结合一具体的实施例来进行说明。在又一个具体的实施例中,在本发明所提供的数据分析设备中,可以执行相应的数据的处理和分析方法,结合说明书附图1-3,在一个具体的实施方式中,该设备在执行数据集的处理和分析过程中,主要执行三个步骤,即建立待分析基础数据集、进行神经网络的训练、基于神经网络的数据分析应用。具体过程为:
一、建立数据集
由于基础数据的收集,不可避免存在缺失、错误、多值等问题,需要对数据进行预处理。
a、选择基础数据
在一个具体的实施方式中,往往需要处理的数据众多,我们此处以待处理的血清学指标和性别、年龄、肝癌复发时间为主要基础数据项,在一个更为优选的实施方式中,待处理的上述的血清学指标数据可以包括:甲胎蛋白(AFP),白蛋白(ALB),碱性磷酸酶(ALP),谷丙转氨酶(ALT),活化部分凝血活酶时间(APTT),谷草转氨酶(AST),CA125,CA19-9,CA72-4,CD3计数,CD45计数,CD8计数,癌胚抗原(CEA),C-反应蛋白(CRP),直接胆红素(DBIL),FK506,乙肝表面抗原(HBsAg-V),血小板(PLT),红细胞(RBC),间接胆红素(TBIL),白细胞(WBC),丙型肝炎病毒抗体(抗HCV-V)等。当然,在其他的实施例中,本装置及其执行的方法,还可以处理其他血清类指标数据,本领域技术人员可以依据要处理或分析的具体数据内容进行调整。
b、处理数据缺失
数据缺失主要是因为在基础数据的获取途径差异方面造成的数据项目缺失造成的,例如多数个体数据中包括了“AFP.”检测的数据,少数个体数据则未检测此项或者因为数据保存不善造成数据缺失,此时采用已有的“AFP.”平均值对无此项数据的个体数据进行填充,从而保证以病例为单位的数据的完整性。
c、修正数据错误
数据错误表现为数值超出合理范围、存在非数值文字等形式。在预处理时检测并剔除异常数据,将非数值数据数值化,从而进行数据清洗。
d、处理多值数据
数据记录的多值性很常见,这主要是由于一个个体单位的关联数据可能存在在一个时间段内的多次重复收集或多次重复录入造成的,在多次长虹福收集的情形下,个体单位的同一指标项数据表现为一个时间序列数据。在本发明中,对多值数据的处理采用以下方法中的一种或者多种的任意组合:取最大值、平均值和末位值。具体采用的处理方法,可以基于实际待处理的数据的特点来确定。
e、处理离散数据
数据中存在着一些类似于性别等离散的数据类型,采用One-hot方法对其进行编码,例如将“男”编码为“0,1”,将“女”编码为“1,0”。
f、归一化数值
将选中的每一项指标数值,归一化到0~255区间,以便于后续的神经网络处理。以AFP指标数据为例,首先计算所有数据中’AFP’指标项afp的最大值afp_max,然后将每个个体单位中的’AFP’指标按照afp=afp x 255/afp_max进行等比例缩放,实现AFP数据的归一化。其他数据的归一化处理方式可以参考同样的方法。当然,在其他的实施方式中,本领域技术人员还可以采用其他的归一化方式来处理待分析数据,并且归一化的范围也可以基于设备的处理精度和速度来确定,此处不再赘述。
g、制作数据标签
制作数据标签是数据集制作中的关键步骤,本发明以复发时间数据的类别作为数据标签,对数据集中的不同个体数据组进行标定,在一个具体的实施方式中,数据标签可以例如分为“长”和“短”两个大类,作为数据标签,在该实施例中,该数据标签采用的是复发的相对时间作为参考分类的依据,即以手术时间与复发时间之间的差值,作为个体单位的数据标签的时间,在进行数据标签的分类时,将全部参考数据集中的各个个体单位的上述的相对时间(即每个个体单位的手术时间与复发时间之间的差值)进行汇总,并求取该些时间集合的中值,再将单个个体单位的相对时间与所述的中值进行比较,大于该中值,则分类为“长”,即该数据标签为“长”,否则分类为“短”,即该数据标签为“短”。在一个更为具体的实施方式中,当设置为“长”时,对应的标签可以用“1”代表,当设置为“短”时,可以用“0”代表。
下面,以一个典型的个体单位的数据集为例,说明本发明的设备在执行过程中的流程,如表1所示:
表1典型的病例原始数据样本
REPORT_ITEM_NAME | RESULT |
血液分析 | |
CRP. | 3.62 |
WBC | 4.93 |
P-LCR | 24.8 |
P-LCC | 53 |
IG# | 0.01 |
IG% | 0.2 |
血液分析 | |
CRP. | 8.61 |
PTINR | 1.28 |
PT(仪器) | 14.3 |
PT% | 64.2 |
APTT | 34.7 |
Fbg C | 355.2 |
不 | 18.0 |
血液分析 | |
CRP. | <0.50 |
WBC | 7.98 |
NEUT# | 5.13 |
NEUT% | 64.3 |
PLT | 159 |
PDW | 12.1 |
MPV | 10.5 |
P-LCR | 28.9 |
PCT | 0.17 |
NRBC# | 0 |
NRBC% | 0 |
IG# | 0.05 |
IG% | 0.6 |
ALT | 33 |
AST | 15 |
GGT | 84 |
ALP | 69 |
TP | 72.4 |
ALB | 44.0 |
TBIL | 13.3 |
以上表中提供的数据集为例,上表中存在多余血清学指标、多值、未归一化、非数值数据等问题,经过上述的步骤a至f的数据预处理后,建立如下表所示的数据集,其中第一行表示表头,剩余的每一行表示一个个体单位数据样本,前64列表示64个数据项,‘label’列表示样本的所属标签,即数据标签:
表2数据集示例
0_x | 1_x | 2_x | … | 61_x | 62_x | 63_x | label |
0.02431983 | 232.727273 | 28.5197368 | … | 255 | 0 | 132.467532 | 1 |
0.1106405 | 195.909091 | 32.2944079 | … | 0 | 255 | 149.025974 | 0 |
38.1193388 | 161.818182 | 47.8125 | … | 255 | 0 | 168.896104 | 0 |
… | … | … | … | … | … | … | … |
0.07262231 | 201.818182 | 35.2302632 | … | 255 | 0 | 155.649351 | 0 |
0.04219091 | 115.454545 | 92.6891447 | … | 255 | 0 | 122.532468 | 0 |
0.10962893 | 178.636364 | 28.9391447 | … | 255 | 0 | 188.766234 | 1 |
经过上述的数据处理后,待分析的数据就统一归一化为固定的统一的、格式化的数据集,便于后续的神经网络训练和数据自动分析。
二、定制神经网络模型
a、设计模型结构
由于单个数据样本的维度较小,本发明采用了较为简单的网络结构,以避免网络训练过拟合的问题。网络模型由3个全联接层和两个随机丢弃层组成,具体结构如图1所示。
b、训练神经网络模型
训练神经网络模型的流程参见图2。在数据经过清洗和整理之后,可以抽取其中的部分数据作为训练数据集,从而进行网络模型的训练。在训练过程中,如图2,先对样本数据进行随机组合分组,形成不同的批次,按批次输入训练数据,在神经网络的输入层开始,进行前向传播,得到loss集,再进行反向传播,计算一阶梯度,基于一阶梯度更新网络中的各参数及权值,此时,如果网络收敛或者满足预设的收敛阈值要求,则停止训练,输出模型,如果网络不收敛,或者不满足收敛阈值要求,则再次输入不同批次的训练组,继续对网络进行训练,直至网络收敛,或满足收敛阈值要求。经训练后网络便可用于后续的待分析数据的分析或分类使用。
在一个更为具体的实施方式中,接上面的处理后的数据,将表2的数据按行数比例2:1随机分成训练集和测试集,采用图1设计的网络,输入训练集进行训练,并在测试集上测试模型的准确率。对于现有的数据集,得到的测试集准确率是70%。
c、新数据样本时间类别分类
经过训练得到的神经网络模型可以用于实际数据的时间分类,按照图3所示的流程进行操作。首先,将待分析的基础数据输入训练好的模型中,经过模型的前向传播,输出对应的数据组的时间类别,即应当获得的时间标签,例如“1”或“0”,这些时间标签含义即为相对时间的“长”或“短”。
三、模型应用
下面以一个具体的实施例来说明上述经训练后的模型进行相对时间分类情况。对于可获取到个体对应数据的数据组,可以采用上述模型进行相对时间预测。在模型中输入当前个体数据组,以下表为例:
表3当前个体样本数据组示例
0_x | 1_x | 2_x | … | 61_x | 62_x | 63_x |
5.0831405 | 198.636364 | 85.9786184 | … | 255 | 0 | 135.779221 |
模型将给出当前个体数据组对应的相对时间的预测值:‘长’或‘短’。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于深度神经网络的术后数据分析设备,其特征在于,所述设备包括:
数据输入部、数据预处理部、数据分析部、存储部、输出部;所述数据输入部连接数据预处理部,所述数据预处理部连接所述数据分析部,所述数据分析部连接所述输出部;所述数据输入部、数据预处理部、数据分析部、输出部分别与所述存储部连接;
数据输入部,用于输入术后的原始数据集;所述原始数据集输入后,由所述数据输入部发送至数据预处理部;
所述数据预处理部对所述原始数据集进行预处理,所述预处理包括数据筛选、缺失数据填充、错误数据清洗、多值数据处理、离散数据编码及数据归一化,获得归一化后的标准数据集;所述标准数据集发送至所述数据分析部,并同时发送存储部进行存储;
所述数据分析部接收所述标准数据集,并进行分析,针对标准数据集中的单个的个体单位数据集,给出分类后的数据标签;所述分类后的数据标签及标准数据集发送至所述输出部,同时发送存储部存储,在所述存储部存储时,所述数据标签与所述标准数据集中对应的个体单位数据集关联存储;
所述输出部将所述数据标签与所述标准数据集中对应的个体单位数据集以关联的方式输出。
2.根据权利要求1所述的设备,其特征在于,所述数据分析部包含神经网络模块,当输入的所述原始数据集用于训练所述神经网络模块时,所述数据预处理部对于获得的归一化后的标准数据集,以单个个体为单位,增加数据标签,形成样本数据集;所述样本数据集发送至所述数据分析部进行神经网络训练,并同时发送存储部进行存储。
3.根据权利要求1所述的设备,其特征在于,所述数据预处理部中,所述缺失数据补充,对于缺失的数据项,采用存储部中存储的已有数据中对应数据项的平均值补充对应的缺失数据项。
4.根据权利要求1所述的设备,其特征在于,所述数据预处理部中,所述离散数据编码,通过将离散类数据项按照数据类别设置统一编码的方式进行处理。
5.根据权利要求1所述的设备,其特征在于,所述数据预处理部中,所述数据归一化,将数据中的指标数值,通过等比缩放方式,全部归一化到0至255区间。
6.根据权利要求2所述的设备,其特征在于,所述增加数据标签,通过以下方式:
对于标准数据集,以单个个体为单位,增加数据标签项,数据标签项对应单个个体单位的数据标签值,所述数据标签值基于单个个体单位的相对时间数据与全部标准数据集中的相对时间数据的中值的比对结果来添加;
当单个个体单位的相对时间数据大于所述中值时,归为一类数据标签,否则归为另一类数据标签;
所述相对时间指单个个体单位手术时间与复发时间之间的差值。
7.根据权利要求1所述的设备,其特征在于,所述标准数据集包含64个数据项。
8.一种基于深度神经网络的术后数据分析方法,其特征在于,所述方法包括:
S1、输入术后原始数据集;
S2、对所述原始数据集进行预处理,所述预处理包括数据筛选、缺失数据填充、错误数据清洗、多值数据处理、离散数据编码及数据归一化,获得归一化后的标准数据集;
S3、针对标准数据集中的单个的个体单位数据集,通过神经网络,给出分类后的数据标签。
9.根据权利要求8所述的方法,其特征在于,当输入的所述原始数据集用于训练所述神经网络时,对所述标准数据集,以单个个体为单位,增加数据标签,形成样本数据集,进行神经网络训练。
10.根据权利要求9所述的方法,其特征在于,所述增加数据标签,通过以下方式:
对于标准数据集,以单个个体为单位,增加数据标签项,数据标签项对应单个个体单位的数据标签值,所述数据标签值基于单个个体单位的相对时间数据与全部标准数据集中的相对时间数据的中值的比对结果来添加;
当单个个体单位的相对时间数据大于所述中值时,归为一类数据标签,否则归为另一类数据标签;
所述相对时间指单个个体单位手术时间与复发时间之间的差值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011549793.4A CN112599250A (zh) | 2020-12-24 | 2020-12-24 | 一种基于深度神经网络的术后数据分析方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011549793.4A CN112599250A (zh) | 2020-12-24 | 2020-12-24 | 一种基于深度神经网络的术后数据分析方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112599250A true CN112599250A (zh) | 2021-04-02 |
Family
ID=75200947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011549793.4A Pending CN112599250A (zh) | 2020-12-24 | 2020-12-24 | 一种基于深度神经网络的术后数据分析方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112599250A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113140318A (zh) * | 2021-05-10 | 2021-07-20 | 中国人民解放军总医院第三医学中心 | 一种基于深度学习的肝移植术后肺部感染风险预测方法 |
CN117131468A (zh) * | 2023-09-12 | 2023-11-28 | 中山大学孙逸仙纪念医院 | 肝内胆管细胞癌筛查指标及其预后因素的分析评价方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108053885A (zh) * | 2017-11-27 | 2018-05-18 | 上海市第六人民医院 | 一种出血转化预测*** |
CN111145042A (zh) * | 2019-12-31 | 2020-05-12 | 国网北京市电力公司 | 一种采用全连接神经网络的配电网电压异常诊断方法 |
CN111292853A (zh) * | 2020-01-15 | 2020-06-16 | 长春理工大学 | 基于多参数的心血管疾病风险预测网络模型及其构建方法 |
CN111435613A (zh) * | 2019-01-15 | 2020-07-21 | 金敏 | 医疗数据预处理方法、装置和电子设备 |
CN111524600A (zh) * | 2020-04-24 | 2020-08-11 | 中国地质大学(武汉) | 基于neighbor2vec的肝癌术后复发风险预测*** |
WO2020238053A1 (zh) * | 2019-05-31 | 2020-12-03 | 平安科技(深圳)有限公司 | 基于神经网格模型的文本数据类别的识别方法及装置、非易失性可读存储介质、计算机设备 |
-
2020
- 2020-12-24 CN CN202011549793.4A patent/CN112599250A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108053885A (zh) * | 2017-11-27 | 2018-05-18 | 上海市第六人民医院 | 一种出血转化预测*** |
CN111435613A (zh) * | 2019-01-15 | 2020-07-21 | 金敏 | 医疗数据预处理方法、装置和电子设备 |
WO2020238053A1 (zh) * | 2019-05-31 | 2020-12-03 | 平安科技(深圳)有限公司 | 基于神经网格模型的文本数据类别的识别方法及装置、非易失性可读存储介质、计算机设备 |
CN111145042A (zh) * | 2019-12-31 | 2020-05-12 | 国网北京市电力公司 | 一种采用全连接神经网络的配电网电压异常诊断方法 |
CN111292853A (zh) * | 2020-01-15 | 2020-06-16 | 长春理工大学 | 基于多参数的心血管疾病风险预测网络模型及其构建方法 |
CN111524600A (zh) * | 2020-04-24 | 2020-08-11 | 中国地质大学(武汉) | 基于neighbor2vec的肝癌术后复发风险预测*** |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113140318A (zh) * | 2021-05-10 | 2021-07-20 | 中国人民解放军总医院第三医学中心 | 一种基于深度学习的肝移植术后肺部感染风险预测方法 |
CN117131468A (zh) * | 2023-09-12 | 2023-11-28 | 中山大学孙逸仙纪念医院 | 肝内胆管细胞癌筛查指标及其预后因素的分析评价方法 |
CN117131468B (zh) * | 2023-09-12 | 2024-01-23 | 中山大学孙逸仙纪念医院 | 肝内胆管细胞癌筛查指标及其预后因素的分析评价方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11900598B2 (en) | System and method of classification of biological particles | |
CN106934235B (zh) | 一种基于迁移学习的疾病领域间病人相似性度量迁移*** | |
CN106202891B (zh) | 一种面向医疗质量评价的大数据挖掘方法 | |
CN108717867A (zh) | 基于梯度迭代树的疾病预测模型建立方法及装置 | |
CN112259221A (zh) | 基于多种机器学习算法的肺癌诊断*** | |
CN101981446A (zh) | 用于使用支持向量机分析流式细胞术数据的方法和*** | |
JP2018068752A (ja) | 機械学習装置、機械学習方法及びプログラム | |
CN112599250A (zh) | 一种基于深度神经网络的术后数据分析方法及设备 | |
CN109360658B (zh) | 一种基于词向量模型的疾病模式挖掘方法及装置 | |
CN108831563B (zh) | 一种用于判别药品不良反应信号分类检测的决策方法 | |
CN108595657A (zh) | His***的数据表分类映射方法和装置 | |
CN113053535A (zh) | 一种医疗信息预测***及医疗信息预测方法 | |
CN115312183A (zh) | 医学检验报告智能解读方法及*** | |
CN110600135A (zh) | 一种基于改进随机森林算法的乳腺癌预测*** | |
CN111524570B (zh) | 一种基于机器学习的超声随访患者筛选方法 | |
CN113593708A (zh) | 基于集成学习算法的脓毒症预后预测方法 | |
Ilbeigipour et al. | Cluster-based analysis of COVID-19 cases using self-organizing map neural network and K-means methods to improve medical decision-making | |
CN115910364A (zh) | 医学检验质控模型训练方法、医学检验质控方法及*** | |
WO2021102632A1 (zh) | 字符获取、页面处理与知识图谱构建方法及装置、介质 | |
CN118197535A (zh) | 一种抗生素联合用药推荐模型及其应用 | |
CN116864062B (zh) | 一种基于互联网的健康体检报告数据分析管理*** | |
CN114023407A (zh) | 一种健康档案缺失值补全方法、***以及存储介质 | |
CN112632000A (zh) | 日志文件聚类方法、装置、电子设备和可读存储介质 | |
Nuankaew et al. | Weighted voting ensemble for depressive disorder analysis with multi-objective optimization | |
CN116130105A (zh) | 一种基于神经网络的健康风险预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |