CN111696636B - 一种基于深度神经网络的数据处理方法及装置 - Google Patents
一种基于深度神经网络的数据处理方法及装置 Download PDFInfo
- Publication number
- CN111696636B CN111696636B CN202010412571.1A CN202010412571A CN111696636B CN 111696636 B CN111696636 B CN 111696636B CN 202010412571 A CN202010412571 A CN 202010412571A CN 111696636 B CN111696636 B CN 111696636B
- Authority
- CN
- China
- Prior art keywords
- vector
- category
- medical record
- quality
- record data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及人工智能技术领域,实施例公开了一种基于深度神经网络的数据处理方法及装置,其中方法包括:获取至少2个训练样本,将该至少2个训练样本依次输入构建好的深度神经网络DNN模型进行训练,使训练后该DNN模型的损失函数减小至预设波动范围,该DNN模型的损失函数为四元组损失函数,将待预测病历数据的特征向量输入训练好的DNN模型中处理,得到该待预测病历数据对应的目标嵌入向量,根据该目标嵌入向量与质量嵌入向量之间的距离和预设的质量异常距离,确定该待预测病历数据的质量。采用本申请实施例,可以从多方面/多角度筛查病历数据的质量,提高质量筛查的准确度。另外,本申请可应用于智慧医疗领域中,从而推动智慧城市的建设。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于深度神经网络的数据处理方法及装置。
背景技术
电子病历是使用电子设备保存、管理、传输和重现的数字化医疗记录,记录着患者在医院接受诊断和治疗的全过程。然而,电子病历在记录的过程中往往会因为误诊等专业因素或记录错误等非专业因素导致病历质量问题,如病历不合格或病历异常等。
随着计算机技术的发展,可以使用计算机对电子病历的质量问题进行筛查。但目前计算机主要是基于人为制定的客观规则来进行筛查,所以计算机筛查的覆盖面较窄,筛查的准确度低。
发明内容
本申请实施例提供一种基于深度神经网络的数据处理方法及装置,可以从多方面/多角度筛查病历数据的质量,提高质量筛查的准确度。
第一方面,本申请实施例提供了一种基于深度神经网络的数据处理方法,该方法包括:
获取至少2个训练样本,该至少2个训练样本中的每个训练样本为四元组,该四元组包括锚点的特征向量、正样本的特征向量、负样本的特征向量以及假样本的特征向量,该锚点为质量合格的病历数据,该正样本为与该锚点类别相同且质量合格的病历数据,该负样本为与该锚点类别不相同且质量合格的病历数据,该假样本为质量不合格的病历数据;
将该至少2个训练样本依次输入构建好的深度神经网络DNN模型进行训练,使训练后该DNN模型的损失函数减小至预设波动范围,该DNN模型的损失函数为四元组损失函数,该四元组损失函数由该锚点的特征向量输入该DNN模型得到的嵌入向量分别与该正样本的特征向量、该负样本的特征向量、该假样本的特征向量输入该DNN模型得到的嵌入向量之间的差异确定;
将待预测病历数据的特征向量输入训练好的DNN模型中处理,得到该待预测病历数据对应的目标嵌入向量;
根据该目标嵌入向量与质量嵌入向量之间的距离、以及预设的质量异常距离,确定该待预测病历数据的质量。
结合第一方面,在一种可能的实施方式中,上述四元组损失函数为:
L=d(a,p)-d(a,n)-k*d(a,F);
其中,该L表示该四元组损失函数,该a表示该锚点的特征向量输入该DNN模型后得到的嵌入向量,该p表示正样本的特征向量输入该DNN模型后得到的嵌入向量,该n表示负样本的特征向量输入该DNN模型后得到的嵌入向量,该F表示假样本的特征向量输入该DNN模型后得到的嵌入向量,该k为系数,该d(a,p)表示该a与该p之间的距离,该d(a,n)表示该a与该n之间的距离,该d(a,F)表示该a与该F之间的距离。
结合第一方面,在一种可能的实施方式中,根据该目标嵌入向量与质量嵌入向量之间的距离和预设的质量异常距离,确定该待预测病历数据的质量,包括:
若该目标嵌入向量与质量嵌入向量之间的距离大于或等于预设的质量异常距离,则确定该待预测病历数据的质量为不合格;若该目标嵌入向量与该质量嵌入向量之间的距离小于该质量异常距离,则确定该待预测病历数据的质量为合格。
结合第一方面,在一种可能的实施方式中,根据该目标嵌入向量与质量嵌入向量之间的距离、以及预设的质量异常距离,确定该待预测病历数据的质量之前,该方法还包括:
将该至少2个训练样本中所有假样本的特征向量依次输入训练好的DNN模型中处理,得到该所有假样本对应的嵌入向量,其中一个假样本对应一个嵌入向量;将该所有假样本对应的嵌入向量之间的均值向量确定为质量嵌入向量。
结合第一方面,在一种可能的实施方式中,确定该待预测病历数据的质量为合格之后,该方法还包括:根据该目标嵌入向量与各个类别嵌入向量之间的距离、和该各个类别嵌入向量对应的类别距离,确定该待预测病历数据的类别。
结合第一方面,在一种可能的实施方式中,根据该目标嵌入向量与各个类别嵌入向量之间的距离、和该各个类别嵌入向量对应的类别距离,确定该待预测病历数据的类别,包括:若该目标嵌入向量与各个类别嵌入向量中类别嵌入向量w之间的距离小于或等于该类别嵌入向量w对应的类别距离,则确定该待预测病历数据的类别为第一类别,该第一类别为该类别嵌入向量w对应的类别。
结合第一方面,在一种可能的实施方式中,该方法还包括:若该目标嵌入向量与各个类别嵌入向量之间的距离均大于该各个类别嵌入向量对应的类别距离,则确定该待预测病历数据的类别为第二类别,该第二类别与该各个类别嵌入向量对应的类别均不相同。
第二方面,本申请实施例提供了一种数据分类装置,该数据分类装置包括:
获取单元,用于获取至少2个训练样本,该至少2个训练样本中的每个训练样本为四元组,该四元组包括锚点的特征向量、正样本的特征向量、负样本的特征向量以及假样本的特征向量,该锚点为质量合格的病历数据,该正样本为与该锚点类别相同且质量合格的病历数据,该负样本为与该锚点类别不相同且质量合格的病历数据,该假样本为质量不合格的病历数据;
训练单元,用于将该至少2个训练样本依次输入构建好的深度神经网络DNN模型进行训练,使训练后该DNN模型的损失函数减小至预设波动范围,该DNN模型的损失函数为四元组损失函数,该四元组损失函数由该锚点的特征向量输入该DNN模型得到的嵌入向量分别与该正样本的特征向量、该负样本的特征向量、该假样本的特征向量输入该DNN模型得到的嵌入向量之间的差异确定;
处理单元,用于将待预测病历数据的特征向量输入训练好的DNN模型中处理,得到该待预测病历数据对应的目标嵌入向量;
第一确定单元,用于根据该目标嵌入向量与质量嵌入向量之间的距离、以及预设的质量异常距离,确定该待预测病历数据的质量。
结合第二方面,在一种可能的实施方式中,上述四元组损失函数为:
L=d(a,p)-d(a,n)-k*d(a,F);
其中,该L表示该四元组损失函数,该a表示该锚点的特征向量输入该DNN模型后得到的嵌入向量,该p表示正样本的特征向量输入该DNN模型后得到的嵌入向量,该n表示负样本的特征向量输入该DNN模型后得到的嵌入向量,该F表示假样本的特征向量输入该DNN模型后得到的嵌入向量,该k为系数,该d(a,p)表示该a与该p之间的距离,该d(a,n)表示该a与该n之间的距离,该d(a,F)表示该a与该F之间的距离。
结合第二方面,在一种可能的实施方式中,上述第一确定单元具体用于:当该目标嵌入向量与质量嵌入向量之间的距离大于或等于预设的质量异常距离时,确定该待预测病历数据的质量为不合格;当该目标嵌入向量与该质量嵌入向量之间的距离小于该质量异常距离时,确定该待预测病历数据的质量为合格。
结合第二方面,在一种可能的实施方式中,上述处理单元,还用于将该至少2个训练样本中所有假样本的特征向量依次输入训练好的DNN模型中处理,得到该所有假样本对应的嵌入向量,其中一个假样本对应一个嵌入向量;该数据分类装置还包括第二确定单元,用于将该所有假样本对应的嵌入向量之间的均值向量确定为质量嵌入向量。
结合第二方面,在一种可能的实施方式中,上述第一确定单元还用于:根据该目标嵌入向量与各个类别嵌入向量之间的距离、和该各个类别嵌入向量对应的类别距离,确定该待预测病历数据的类别。
结合第二方面,在一种可能的实施方式中,上述第一确定单元还具体用于:当该目标嵌入向量与各个类别嵌入向量中类别嵌入向量w之间的距离小于或等于该类别嵌入向量w对应的类别距离时,确定该待预测病历数据的类别为第一类别,该第一类别为该类别嵌入向量w对应的类别。
结合第二方面,在一种可能的实施方式中,上述第一确定单元还用于:当该目标嵌入向量与各个类别嵌入向量之间的距离均大于该各个类别嵌入向量对应的类别距离时,确定该待预测病历数据的类别为第二类别,该第二类别与该各个类别嵌入向量对应的类别均不相同。
第三方面,本申请实施例提供了一种电子设备,包括处理器和存储器,该处理器和存储器相互连接,其中,该存储器用于存储支持终端执行上述方法的计算机程序,该计算机程序包括程序指令,该处理器被配置用于调用该程序指令,执行上述第一方面的基于深度神经网络的数据处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面的基于深度神经网络的数据处理方法。
本申请实施例通过获取至少2个训练样本,将该至少2个训练样本依次输入构建好的深度神经网络DNN模型进行训练,使训练后该DNN模型的损失函数减小至预设波动范围,该DNN模型的损失函数为四元组损失函数,将待预测病历数据的特征向量输入训练好的DNN模型中处理,得到该待预测病历数据对应的目标嵌入向量,根据该目标嵌入向量与质量嵌入向量之间的距离和预设的质量异常距离,确定该待预测病历数据的质量,可以从多方面/多角度筛查病历数据的质量,提高质量筛查的准确度。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的DNN模型的架构示意图;
图2是本申请实施例提供的基于深度神经网络的数据处理方法的一示意流程图;
图3是本申请实施例提供的基于深度神经网络的数据处理方法的另一示意流程图;
图4是本申请实施例提供的数据处理装置的一示意性框图;
图5是本申请实施例提供的电子设备的一示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
还应当理解,在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
为便于更好地理解本申请实施例所提供的基于深度神经网络的数据处理方法,下面将对本申请实施例提供的深度神经网络(Deep Neural Network,DNN)的架构进行简要说明。
参见图1,图1是本申请实施例提供的DNN模型的架构示意图。DNN可以按不同层的位置划分,如DNN内部的神经网络层可以分为三类,输入层、隐藏层以及输出层。如图1所示,DNN模型的第一层是输入层(input layer),最后一层是输出层(output layer),而中间的层都是隐藏层(hidden layer),如图1中的隐藏层1(hidden layer 1)、隐藏层2(hiddenlayer 2)以及隐藏层3(hidden layer 3)。DNN模型的层与层之间是全连接的,也就是说,第i层的任意一个神经元与第i+1层的任意一个神经元相连。其中,输出层的神经元可以不止一个输出,可以有多个输出,这样的DNN模型可以灵活的应用于分类回归,以及其他的机器学习领域,比如降维和聚类等。可理解的,本申请实施例的DNN模型的输出层的神经元具有多个输出,主要用于机器学习领域的降维和聚类。还可理解的,图1仅是示意图,本申请实施例对DNN模型的隐藏层数量不做限定。
下面将结合图2至图5,对本申请实施例提供的基于深度神经网络的数据处理方法及装置进行说明。本申请提供的基于深度神经网络的数据处理方法可以应用在智慧医疗领域中,通过该方法可以在对电子病历的筛查过程中,克服传统的人工筛查过程中,覆盖面、效率以及准确率低下的问题,实现多方面/多角度地筛查病历数据的质量,提高质量筛查的准确度,进而推动智慧城市的建设。
可理解的,本申请实施例所提及的质量合格的病历数据是指不存在误诊和记录错误等质量问题的病历数据,质量不合格的病历数据是指存在误诊或记录错误等质量问题的病历数据。
参见图2,图2是本申请实施例提供的基于深度神经网络的数据处理方法的一示意流程图。如图2所示,该基于深度神经网络的数据处理方法可包括:
S201,电子设备获取至少2个训练样本。
在一些可行的实施方式中,上述至少2个训练样本中的每个训练样本为一个四元组。每个四元组中包括4个特征,分别为锚点的特征向量、正样本的特征向量、负样本的特征向量以及假样本的特征向量。其中,本申请实施例中的锚点是指质量合格的病历数据,正样本是指与锚点类别相同且质量合格的病历数据,负样本是指与锚点类别不相同且质量合格的病历数据,假样本是指质量不合格的病历数据。
在一些可行的实施方式中,电子设备可以从病历数据库中随机提取N份病历数据。开发人员可以对提取出的该N份病历数据打标签,分别标记该N份病历数据中每份病历数据的质量是否合格,以及标记该N份病历数据中质量合格的病历数据的类别。为便于描述,下面将质量合格的病历数据称为合格病历、质量不合格的病历数据称为异常病历进行说明。可选的,开发人员可以按照病历数据中记录的科室或疾病部位对该N份病历数据中的合格病历进行分类。比如,按科室分类,可分为内科、外科、妇产科、儿科、五官科、肿瘤科或传染科等等。可理解的,上述科室分类还可更细致,如内科还可分为与呼吸内科、消化内科、血液内科等等,外科还可分为普通外科、心胸外科、心血管外科、乳腺外科、肝胆外科等等。又如,按疾病部位分类,可分为心、肝、脾、肺、肾、耳、鼻、喉、眼等等。
电子设备可以将打上质量和类别标签的N份病历数据作为训练数据集。电子设备可以从该训练数据集的K份合格病历中随机选取一份合格病历作为锚点,并提取该锚点的特征向量。电子设备可以从该训练数据集的K-1份合格病历中随机选取一份与锚点的类别相同的合格病历作为正样本,并提取该正样本的特征向量。电子设备可以从该训练数据集的K-2份合格病历中随机选取一份与锚点的类别不相同的合格病历作为负样本,并提取该负样本的特征向量。电子设备可以从该训练数据集的N-K份异常病历中随机选取一份异常病历作为假样本,并提取该假样本的特征向量。电子设备可以将锚点的特征向量、正样本的特征向量、负样本的特征向量以及假样本的特征向量组成一个四元组,并可以将这个四元组作为一个训练样本。电子设备按照上述方法,从该训练数据集中确定出至少2个训练样本,每个训练样本为一个四元组。其中,上述特征向量用于描述病历数据的特征信息,比如特征向量可以包括症状、检验检查结果、诊断等特征信息。锚点的特征向量、正样本的特征向量、负样本的特征向量以及假样本的特征向量之间的特征维度和特征类别均相同。
例如,假设每份病历数据包括5种特征,分别为特征A、特征B、特征C、特征D以及特征E。则锚点i的特征向量Xi=(Ai,Bi,Ci,Di,Ei),正样本j的特征向量Xj=(Aj,Bj,Cj,Dj,Ej),负样本h的特征向量Xh=(Ah,Bh,Ch,Dh,Eh),假样本g的特征向量Xg=(Ag,Bg,Cg,Dg,Eg)。因此,锚点i的特征向量、正样本j的特征向量、负样本h的特征向量以及假样本g的特征向量组成的四元组为(Xi,Xj,Xh,Xg),即训练样本为(Xi,Xj,Xh,Xg)。
S202,电子设备将至少2个训练样本依次输入构建好的深度神经网络DNN模型进行训练。
在一些可行的实施方式中,上述DNN模型的损失函数可以为四元组损失函数。该四元组损失函数可以由锚点的特征向量输入该DNN模型后得到的嵌入向量,分别与正样本的特征向量、负样本的特征向量、假样本的特征向量输入该DNN模型后得到的嵌入向量之间的差异确定。
在一些可行的实施方式中,电子设备可以按照开发人员的设定(如隐藏层数量、输入层的神经元数量、输出层的神经元数量或损失函数等等)构建DNN模型,该DNN模型包括一个输入层、一个或多个隐藏层以及一个输出层,该DNN模型的各层之间为全连接。电子设备可以将上述至少2个训练样本(即四元组)依次输入构建好的DNN模型中进行训练,使训练后该DNN模型的损失函数减小至预设波动范围。该DNN模型的损失函数为四元组损失函数,在训练过程中,该四元组损失函数用于约束DNN模型输出的四元组嵌入向量。其中,四元组嵌入向量包括锚点对应的嵌入向量、正样本对应的嵌入向量、负样本对应的嵌入向量以及假样本对应的嵌入向量。
可选的,上述四元组损失函数满足公式(1-1):
L=d(a,p)-d(a,n)-k*d(a,F), (1-1)
其中,L表示四元组损失函数,d(x,y)表示x和y在样本空间的L2距离。a表示锚点的特征向量输入DNN模型后得到的嵌入向量,p表示正样本的特征向量输入DNN模型后得到的嵌入向量,n表示负样本的特征向量输入DNN模型后得到的嵌入向量,F表示假样本的特征向量输入DNN模型后得到的嵌入向量,k为系数。d(a,p)表示a与p之间的L2距离,d(a,n)表示a与n之间的L2距离,d(a,F)表示a与F之间的L2距离。
可选的,L2距离满足公式(1-2):
其中,Q表示x,y中包括的元素数量,xi表示向量x中的第i个元素,yi表示向量y中的第i个元素。例如,假设x=(1,2,3,4),y=(5,6,7,8),则
在训练过程中,DNN模型最小化四元组损失函数L的值,使锚点对应的嵌入向量与正样本对应的嵌入向量在样本空间的距离尽可能地近,即:使四元组损失函数L中d(a,p)的值尽可能小(说明类别相同的合格病历对应的嵌入向量在样本空间的距离近)。同时,使锚点对应的嵌入向量与负样本对应的嵌入向量、以及锚点对应的嵌入向量与假样本对应的嵌入向量在样本空间的距离尽可能地远,即:使四元组损失函数L中d(a,n)和k*d(a,F)尽可能大(说明类别不相同的合格病历对应的嵌入向量在样本空间的距离远,以及合格病历与异常病历对应的嵌入向量在样本空间的距离远)。DNN模型最小化四元组损失函数L的值,还可以使锚点与假样本、正样本与假样本以及负样本与假样本对应的嵌入向量在样本空间的距离远大于锚点与负样本对应的嵌入向量在样本空间的距离,即:使四元组损失函数L中d(a,F)、d(p,F)以及d(n,F)远大于d(a,n)。
可理解的,由于锚点、正样本以及负样本均为合格病历,假样本为异常病历,所以DNN模型在最小化四元组损失函数时,使d(a,F)、d(p,F)以及d(n,F)远大于d(a,n),可以使DNN模型学习到合格病历与异常病历的差异,从而识别出异常病历。由于锚点是合格病历,正样本是与锚点类别相同的合格病历,所以DNN模型在最小化四元组损失函数时,使d(a,p)的值尽可能小,可以使DNN模型学习到类别相同的合格病历的分布(或特征)。还可理解的,DNN模型通过在训练过程中最小化四元组损失函数L的值,来学习输入的特征向量与输出的嵌入向量之间的映射关系,即调整嵌入向量中各维度元素取值,从而将DNN模型的输出结果逐渐约束到模型学习目标对应的分布中。
其中,输入DNN模型的特征向量的维度大于DNN模型输出的嵌入向量的维度,且嵌入向量中的特征属于特征向量的特征。比如特征向量是1000维的向量,嵌入向量是固定100维的向量。又如输入DNN模型的特征向量包括A、B、C、D以及E这五种特征,DNN模型输出的嵌入向量可以包括B、D以及E这三种特征。
可理解的,由上述训练过程可知,同类别的合格病历集中在同一个样本簇中,不同类别的合格病历分布在一定范围内的不同样本簇中,异常病历分布在距离合格病历较远的位置。
在一些可行的实施方式中,当训练过程中四元组损失函数L的值不再减小(或在某个预设波动范围内波动)时,说明此时DNN模型趋于稳定,且满足四元组损失函数L的约束条件,则DNN模型训练完成。可理解的,训练过程中使用的训练样本越多,训练好的DNN模型的性能越好。
S203,电子设备将待预测病历数据的特征向量输入训练好的DNN模型中处理,得到待预测病历数据对应的目标嵌入向量。
在一些可行的实施方式中,电子设备可以从病历数据库中随机获取一份待预测病历数据,并可以提取该待预测病历数据的特征向量。其中,待预测病历数据是指质量是否合格未知和/或类别未知的病历数据。该待预测病历数据的特征向量包括的特征与训练过程中锚点、正样本、负样本以及假样本的特征向量包括的特征相同(这里指特征种类和特征排序均相同),维度也相同。例如,训练过程中使用的特征向量的维度是1000维,则待预测病历数据的特征向量的维度也为1000维;假设训练过程中使用的特征向量包括A、B、C、D以及E这五种特征,预测病历数据的特征向量也包括A、B、C、D以及E这五种特征。
电子设备可以将上述待预测病历数据的特征向量输入上述训练好的DNN模型中处理,该训练好的DNN模型对输入的特征向量进行映射,输出该待预测病历数据对应的目标嵌入向量。可以理解的,嵌入向量的维度比特征向量的维度更低且更为稠密,DNN模型把特征向量投射到一个维度更低的特征空间中,得到嵌入向量。
S204,电子设备根据目标嵌入向量与质量嵌入向量之间的距离、以及预设的质量异常距离,确定待预测病历数据的质量。
在一些可行的实施方式中,电子设备可以获取质量嵌入向量,并可以获取预设的质量异常距离。电子设备可以计算上述目标嵌入向量与该质量嵌入向量之间的距离,并可以比较该目标嵌入向量与该质量嵌入向量之间的距离、与预设的该质量异常距离之间的大小关系。如果该目标嵌入向量与该质量嵌入向量之间的距离大于或等于预设的该质量异常距离,则电子设备确定上述待预测病历数据的质量为不合格,即该待预测病历数据为异常病历。如果该目标嵌入向量与该质量嵌入向量之间的距离小于该质量异常距离,则电子设备确定该待预测病历数据的质量为合格,即该待预测病历数据为合格病历。其中,该质量嵌入向量可用于反映异常病历的特征。本申请实施例中的距离可以指L2距离。预设的该质量异常距离可以基于上述训练数据集中的病历数据确定。
本申请实施例使用电子病历数据来训练深度学习模型,使模型能够学习到质量合格的病历数据的潜在分布,并按照病历数据是否符合模型学到的分布来进行质量评估,从而可以扩大质量评估的覆盖面,从多方面/多角度筛查病历数据的质量,提高质量筛查的准确度。
在一些可行的实施方式中,电子设备获取质量嵌入向量的方法具体包括:电子设备可以提取上述至少2个训练样本中所有假样本(即上述N-K份异常病历)的特征向量,并可以将该至少2个训练样本中所有假样本的特征向量依次输入训练好的DNN模型中处理,得到所有假样本对应的嵌入向量。其中一个假样本对应一个嵌入向量(N-K份异常病历对应N-K个嵌入向量)。电子设备可以计算所有假样本对应的嵌入向量(即N-K份异常病历对应的N-K个嵌入向量)之间的均值向量,并可以将该均值向量作为质量嵌入向量。
可选的,为了保证病历数据的可靠性以及私密性,可以预先将病历数据(包括训练样本以及待预测病历数据)上传至区块链***中的区块链节点,在执行本申请的基于深度神经网络的数据处理方法时,可以从区块链***中的区块链节点中获取训练样本的相关数据,对DNN模型进行训练,并从区块链节点中获取待预测病历数据,输入DNN模型确定目标嵌入向量,进而根据目标嵌入向量确定带预测病历数据的质量。实现了准确、安全、私密地对病患的病历数据进行质量评估。
可选的,本申请中基于深度神经网络的数据处理方法也可以基于区块链***中部署的智能合约执行,例如,在DNN模型训练完成后,可以通过智能合约判断目标嵌入向量与质量嵌入向量之间的距离,并通过智能合约根据上述距离以及预设的质量异常距离,确定带预测病历数据的质量。进一步可选的,可以在待预测病历的质量确定后,可以将智能合约确定的待预测病历的质量上传至区块链,保证了病历数据的可靠性以及私密性。
需要说明的是,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在本申请实施例中,电子设备获取至少2个训练样本,将该至少2个训练样本依次输入构建好的DNN模型进行训练,使训练后该DNN模型的损失函数减小至预设波动范围,该DNN模型的损失函数为四元组损失函数,将待预测病历数据的特征向量输入训练好的DNN模型中处理,得到该待预测病历数据对应的目标嵌入向量,根据该目标嵌入向量与质量嵌入向量之间的距离和预设的质量异常距离,确定该待预测病历数据的质量,可以扩大质量评估的覆盖面,从多方面/多角度筛查病历数据的质量,提高质量筛查的准确度。
参见图3,图3是本申请实施例提供的基于深度神经网络的数据处理方法的另一示意流程图。如图3所示,该基于深度神经网络的数据处理方法可包括:
S301,电子设备获取至少2个训练样本。
S302,电子设备将至少2个训练样本依次输入构建好的深度神经网络DNN模型进行训练。
S303,电子设备将待预测病历数据的特征向量输入训练好的DNN模型中处理,得到待预测病历数据对应的目标嵌入向量。
在一些可行的实施方式中,本申请实施例中步骤S301-步骤S303的实现方式可参考图2所示实施例的步骤S201-步骤S203的实现方式,在此不再赘述。
S304,电子设备将至少2个训练样本中所有假样本的特征向量依次输入训练好的DNN模型中处理,得到所有假样本对应的嵌入向量,其中一个假样本对应一个嵌入向量。
S305,电子设备将所有假样本对应的嵌入向量之间的向量均值确定为质量嵌入向量。
在一些可行的实施方式中,上述至少2个训练样本中的每个训练样本为一个四元组。每个四元组中包括4个特征,分别为锚点的特征向量、正样本的特征向量、负样本的特征向量以及假样本的特征向量。其中,本申请实施例中的锚点是指质量合格的病历数据,正样本是指与锚点类别相同且质量合格的病历数据,负样本是指与锚点类别不相同且质量合格的病历数据,假样本是指质量不合格的病历数据。为便于描述,下面将质量合格的病历数据称为合格病历、质量不合格的病历数据称为异常病历进行说明。
在一些可行的实施方式中,电子设备可以提取上述至少2个训练样本中所有假样本的特征向量,并可以将该至少2个训练样本中所有假样本的特征向量依次输入训练好的DNN模型中处理,得到所有假样本对应的嵌入向量。其中一个假样本对应一个嵌入向量。电子设备可以计算所有假样本对应的嵌入向量之间的均值向量,并可以将该均值向量作为质量嵌入向量。
S306,若目标嵌入向量与质量嵌入向量之间的距离大于或等于预设的质量异常距离,则电子设备确定待预测病历数据的质量为不合格。
S307,若目标嵌入向量与质量嵌入向量之间的距离小于质量异常距离,则电子设备确定待预测病历数据的质量为合格。
在一些可行的实施方式中,在得到上述质量嵌入向量之后,电子设备可以获取预设的质量异常距离。电子设备可以计算该目标嵌入向量与该质量嵌入向量之间的距离,并可以比较该目标嵌入向量与该质量嵌入向量之间的距离、与预设的该质量异常距离之间的大小关系。如果该目标嵌入向量与该质量嵌入向量之间的距离大于或等于预设的该质量异常距离,则电子设备确定上述待预测病历数据的质量为不合格,即该待预测病历数据为异常病历。如果该目标嵌入向量与该质量嵌入向量之间的距离小于该质量异常距离,则电子设备确定该待预测病历数据的质量为合格,即该待预测病历数据为合格病历。其中,该质量嵌入向量可用于反映异常病历的特征。本申请实施例中的距离可以指L2距离。预设的该质量异常距离可以基于上述训练数据集中的病历数据确定。
S308,在确定待预测病历数据的质量为合格的情况下,电子设备根据目标嵌入向量与各个类别嵌入向量之间的距离、和各个类别嵌入向量对应的类别距离,确定待预测病历数据的类别。
在一些可行的实施方式中,当确定上述待预测病历数据的质量为合格时,电子设备可以获取各个类别嵌入向量,并可以获取预设的各个类别距离。其中一个类别嵌入向量对应一个类别距离。电子设备可以计算上述目标嵌入向量与各个类别嵌入向量之间的距离,并可以比较该目标嵌入向量与各个类别嵌入向量之间的距离、与该各个类别嵌入向量对应的类别距离之间的大小关系。如果该目标嵌入向量与该各个类别嵌入向量中的类别嵌入向量w之间的距离小于或等于该类别嵌入向量w对应的类别距离,则电子设备可以确定上述待预测病历数据的类别为第一类别,该第一类别可以为该类别嵌入向量w对应的类别。如果该目标嵌入向量与该类别嵌入向量w之间的距离大于该类别嵌入向量w对应的类别距离,说明上述待预测病历数据的类别与该类别嵌入向量对应的类别不相同。
本申请实施例一方面,使用电子病历数据来训练深度学习模型,使模型能够学习到质量合格的病历数据的潜在分布,并按照病历数据是否符合模型学到的分布来进行质量评估,从而可以扩大质量评估的覆盖面,从多方面/多角度筛查病历数据的质量,提高质量筛查的准确度。本申请实施例另一方面,通过四元组损失函数来约束模型输出的嵌入向量,除了能将质量合格的病历数据与质量不合格的病历数据区分开,还可以对质量合格的病历数据按病历类别进行分类。
可选的,如果上述目标嵌入向量与上述各个类别嵌入向量之间的距离均大于该各个类别嵌入向量对应的类别距离,说明上述待预测病历数据的类别不属于任一已有类别,则电子设备将上述待预测病历数据的类别作为第二类别。该第二类别与该各个类别嵌入向量对应的类别均不相同。
例如,假设存在4个类别嵌入向量,分别是类别嵌入向量S1、类别嵌入向量S2、类别嵌入向量S3以及类别嵌入向量S4。假设存在4个类别距离,类别距离1、2、3以及4;类别嵌入向量S1对应类别距离1,类别嵌入向量S2对应类别距离2;类别嵌入向量S3对应类别距离3,类别嵌入向量S4对应类别距离4。假设类别嵌入向量S1、S2、S3以及S4对应的类别分别为类别1、类别2、类别3以及类别4。电子设备依次计算目标嵌入向量与类别嵌入向量S1、类别嵌入向量S2、类别嵌入向量S3以及类别嵌入向量S4之间的距离D1、D2、D3、D4。电子设备比较目标嵌入向量与类别嵌入向量S1、S2、S3以及S4之间的距离D1、D2、D3以及D4之间的大小关系。如果D1小于或等于类别距离1、D2大于类别距离2、D3大于类别距离3、以及D4大于类别距离4,则电子设备确定待预测病历数据的类别为该类别嵌入向量S1对应的类别,即类别1。如果D1大于类别距离1、D2大于类别距离2、D3大于类别距离3以及D4大于类别距离4,说明待预测病历数据的类别与类别嵌入向量S1、S2、S3、S4对应的类别均不相同,也说明待预测病历数据不属于任一已有类别,则电子设备将待预测病历数据的类别作为单独的一个类别,如第二类别。可以理解的,如果D1小于或等于类别距离1、D2大于类别距离2、D3也小于或等于类别距离3、以及D4大于类别距离4,则电子设备确定待预测病历数据的类别即为该类别嵌入向量S1对应的类别,即类别1,也为该类别嵌入向量S3对应的类别,即类别3。
可选的,电子设备可以每计算目标嵌入向量与一个类别嵌入向量之间的距离,就比较该目标嵌入向量与这个类别嵌入向量之间的距离、与这个类别嵌入向量对应的类别距离之间的大小关系。例如,电子设备计算目标嵌入向量与类别嵌入向量S1之间的距离D1,并比较距离D1与类别嵌入向量S1对应的类别距离1之间的大小关系。如果D1小于或等于类别距离1,则电子设备确定待预测病历数据的类别为该类别嵌入向量S1对应的类别,即类别1。如果D1大于类别距离1,则电子设备计算目标嵌入向量与类别嵌入向量S2之间的距离D2,并比较距离D2与类别嵌入向量S2对应的类别距离2之间的大小关系。如果D2小于或等于类别距离2,则电子设备确定待预测病历数据的类别为该类别嵌入向量S2对应的类别,即类别2。如果D2大于类别距离2,则电子设备计算目标嵌入向量与类别嵌入向量S3之间的距离D3,并比较距离D3与类别嵌入向量S3对应的类别距离3之间的大小关系,以此类推,直到电子设备确定出待预测病历数据的类别为止。
在一些可行的实施方式中,如果上述目标嵌入向量与上述各个类别嵌入向量之间的距离均大于该各个类别嵌入向量对应的类别距离,说明上述待预测病历数据的类别不属于任一已有类别,则电子设备可以计算该目标嵌入向量与该各个类别嵌入向量之间的距离、与该各个类别嵌入向量对应的类别距离之间的绝对差值。电子设备确定待预测病历数据的类别为各个绝对差值中最小绝对差值对应的类别。例如,假设目标嵌入向量与类别嵌入向量S1之间的距离D1大于类别距离1、目标嵌入向量与类别嵌入向量S2之间的距离D2大于类别距离2、目标嵌入向量与类别嵌入向量S3之间的距离D3大于类别距离3、以及目标嵌入向量与类别嵌入向量S4之间的距离D4大于类别距离4。电子设备分别计算距离D1与类别距离1的绝对差值A1、距离D2与类别距离2的绝对差值A2、距离D3与类别距离3的绝对差值A3、以及距离D4与类别距离4的绝对差值A4。电子设备从绝对差值A1、A2、A3以及A4中确定出最小绝对差值,并确定待预测病历数据的类别为该最小绝对差值对应的类别。假设最小绝对差值为A3,A3对应的类别为类别3,则待预测病历数据的类别为A3对应的类别,即类别3。
在一些可行的实施方式中,电子设备获取各个类别嵌入向量具体包括:电子设备可以提取上述至少2个训练样本中属于同一类别的多个合格病历的特征向量,并可以将属于同一类别的多个合格病历的特征向量依次输入训练好的DNN模型中处理,得到同一类别的多个合格病历对应的多个嵌入向量。其中一个合格病历对应一个嵌入向量。电子设备可以计算同一类别的多个合格病历对应的多个嵌入向量的均值向量,将该均值向量作为这个类别的类别嵌入向量。例如,假设至少2个训练样本中包括4个类别,分别为类别1、类别2、类别3以及类别4,则电子设备最后确定出4个类别嵌入向量,分别是类别1的类别嵌入向量、类别2的类别嵌入向量、类别3的类别嵌入向量以及类别4的类别嵌入向量。
在本申请实施例中,电子设备获取至少2个训练样本,将该至少2个训练样本依次输入构建好的DNN模型进行训练,使训练后该DNN模型的损失函数减小至预设波动范围,该DNN模型的损失函数为四元组损失函数,将待预测病历数据的特征向量输入训练好的DNN模型中处理,得到该待预测病历数据对应的目标嵌入向量,再将至少2个训练样本中所有假样本的特征向量依次输入训练好的DNN模型中处理,得到所有假样本对应的嵌入向量,将所有假样本对应的嵌入向量之间的向量均值确定为质量嵌入向量,当目标嵌入向量与质量嵌入向量之间的距离大于或等于预设的质量异常距离时,电子设备确定待预测病历数据的质量为不合格,当目标嵌入向量与质量嵌入向量之间的距离小于质量异常距离是,电子设备确定待预测病历数据的质量为合格,在确定待预测病历数据的质量为合格的情况下,电子设备根据目标嵌入向量与各个类别嵌入向量之间的距离、和各个类别嵌入向量对应的类别距离,确定待预测病历数据的类别。不仅可以扩大质量评估的覆盖面,从多方面/多角度筛查病历数据的质量,提高质量筛查的准确度,还可以对质量合格的病历数据按病历类别进行分类。
参见图4,图4是本申请实施例提供的数据处理装置的一示意性框图。如图4所示,本申请实施例的数据处理装置可以包括:获取单元10、训练单元20、处理单元30以及第一确定单元40。
获取单元10,用于获取至少2个训练样本,该至少2个训练样本中的每个训练样本为四元组,该四元组包括锚点的特征向量、正样本的特征向量、负样本的特征向量以及假样本的特征向量,该锚点为质量合格的病历数据,该正样本为与该锚点类别相同且质量合格的病历数据,该负样本为与该锚点类别不相同且质量合格的病历数据,该假样本为质量不合格的病历数据;
训练单元20,用于将该至少2个训练样本依次输入构建好的深度神经网络DNN模型进行训练,使训练后该DNN模型的损失函数减小至预设波动范围,该DNN模型的损失函数为四元组损失函数,该四元组损失函数由该锚点的特征向量输入该DNN模型得到的嵌入向量分别与该正样本的特征向量、该负样本的特征向量、该假样本的特征向量输入该DNN模型得到的嵌入向量之间的差异确定;
处理单元30,用于将待预测病历数据的特征向量输入训练好的DNN模型中处理,得到该待预测病历数据对应的目标嵌入向量;
第一确定单元40,用于根据该目标嵌入向量与质量嵌入向量之间的距离、以及预设的质量异常距离,确定该待预测病历数据的质量。
在一些可行的实施方式中,上述四元组损失函数为:
L=d(a,p)-d(a,n)-k*d(a,F);
其中,该L表示该四元组损失函数,该a表示该锚点的特征向量输入该DNN模型后得到的嵌入向量,该p表示正样本的特征向量输入该DNN模型后得到的嵌入向量,该n表示负样本的特征向量输入该DNN模型后得到的嵌入向量,该F表示假样本的特征向量输入该DNN模型后得到的嵌入向量,该k为系数,该d(a,p)表示该a与该p之间的距离,该d(a,n)表示该a与该n之间的距离,该d(a,F)表示该a与该F之间的距离。
在一些可行的实施方式中,上述第一确定单元40具体用于:当该目标嵌入向量与质量嵌入向量之间的距离大于或等于预设的质量异常距离时,确定该待预测病历数据的质量为不合格;当该目标嵌入向量与该质量嵌入向量之间的距离小于该质量异常距离时,确定该待预测病历数据的质量为合格。
在一些可行的实施方式中,上述数据分类装置还包括第二确定单元50。上述处理单元30,还用于将该至少2个训练样本中所有假样本的特征向量依次输入训练好的DNN模型中处理,得到该所有假样本对应的嵌入向量,其中一个假样本对应一个嵌入向量;该第二确定单元50,用于将该所有假样本对应的嵌入向量之间的均值向量确定为质量嵌入向量。
在一些可行的实施方式中,上述第一确定单元40还用于:根据该目标嵌入向量与各个类别嵌入向量之间的距离、和该各个类别嵌入向量对应的类别距离,确定该待预测病历数据的类别。
在一些可行的实施方式中,上述第一确定单元40还具体用于:当该目标嵌入向量与各个类别嵌入向量中类别嵌入向量w之间的距离小于或等于该类别嵌入向量w对应的类别距离时,确定该待预测病历数据的类别为第一类别,该第一类别为该类别嵌入向量w对应的类别。
在一些可行的实施方式中,上述第一确定单元40还用于:当该目标嵌入向量与各个类别嵌入向量之间的距离均大于该各个类别嵌入向量对应的类别距离时,确定该待预测病历数据的类别为第二类别,该第二类别与该各个类别嵌入向量对应的类别均不相同。
其中,上述获取单元10、上述训练单元20、上述处理单元30、上述第一确定单元40以及上述第二确定单元50可以为集成于一个模块中,如处理模块。
具体实现中,上述数据处理装置可通过上述各个模块执行上述图2或图3所提供的实现方式中各个步骤所提供的实现方式,实现上述各实施例中所实现的功能,具体可参见上述图2或图3所示的方法实施例中各个步骤提供的相应描述,在此不再赘述。
在本申请实施例中,数据处理装置通过获取至少2个训练样本,将该至少2个训练样本依次输入构建好的深度神经网络DNN模型进行训练,使训练后该DNN模型的损失函数减小至预设波动范围,该DNN模型的损失函数为四元组损失函数,将待预测病历数据的特征向量输入训练好的DNN模型中处理,得到该待预测病历数据对应的目标嵌入向量,根据该目标嵌入向量与质量嵌入向量之间的距离和预设的质量异常距离,确定该待预测病历数据的质量,可以从多方面/多角度筛查病历数据的质量,提高质量筛查的准确度。
参见图5,图5是本申请实施例提供的电子设备的一示意性框图。如图5所示,本申请实施例中的电子设备可以包括:一个或多个处理器501和存储器502。上述处理器501和存储器502通过总线503连接。存储器502用于存储计算机程序,该计算机程序包括程序指令,处理器501用于执行存储器502存储的程序指令。其中,处理器501被配置用于调用该程序指令执行:
获取至少2个训练样本,该至少2个训练样本中的每个训练样本为四元组,该四元组包括锚点的特征向量、正样本的特征向量、负样本的特征向量以及假样本的特征向量,该锚点为质量合格的病历数据,该正样本为与该锚点类别相同且质量合格的病历数据,该负样本为与该锚点类别不相同且质量合格的病历数据,该假样本为质量不合格的病历数据;
将该至少2个训练样本依次输入构建好的深度神经网络DNN模型进行训练,使训练后该DNN模型的损失函数减小至预设波动范围,该DNN模型的损失函数为四元组损失函数,该四元组损失函数由该锚点的特征向量输入该DNN模型得到的嵌入向量分别与该正样本的特征向量、该负样本的特征向量、该假样本的特征向量输入该DNN模型得到的嵌入向量之间的差异确定;
将待预测病历数据的特征向量输入训练好的DNN模型中处理,得到该待预测病历数据对应的目标嵌入向量;
根据该目标嵌入向量与质量嵌入向量之间的距离和预设的质量异常距离,确定该待预测病历数据的质量。
应当理解,在本申请实施例中,所称处理器501可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器502可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器502的一部分还可以包括非易失性随机存取存储器。例如,存储器502还可以存储设备类型的信息。
具体实现中,本申请实施例中所描述的处理器501可执行本申请实施例提供的基于深度神经网络的数据处理方法的实现方式,也可执行本申请实施例所描述的数据处理装置的实现方式,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图2或图3所示的基于深度神经网络的数据处理方法,具体细节请参照图2或图3所示实施例的描述,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例所述的数据处理装置或电子设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart mediacard,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请是参照本申请实施例的方法、装置和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程诊疗数据的处理设备的处理器以产生一个机器,使得通过计算机或其他可编程诊疗数据的处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程诊疗数据的处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程诊疗数据的处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (7)
1.一种基于深度神经网络的数据处理方法,其特征在于,包括:
获取至少2个训练样本,所述至少2个训练样本中的每个训练样本为四元组,所述四元组包括锚点的特征向量、正样本的特征向量、负样本的特征向量以及假样本的特征向量,所述锚点为质量合格的病历数据,所述正样本为与所述锚点类别相同且质量合格的病历数据,所述负样本为与所述锚点类别不相同且质量合格的病历数据,所述假样本为质量不合格的病历数据;
将所述至少2个训练样本依次输入构建好的深度神经网络DNN模型进行训练,使训练后所述DNN模型的损失函数减小至预设波动范围,所述DNN模型的损失函数为四元组损失函数,所述四元组损失函数由所述锚点的特征向量输入所述DNN模型得到的嵌入向量分别与所述正样本的特征向量、所述负样本的特征向量、所述假样本的特征向量输入所述DNN模型得到的嵌入向量之间的差异确定;所述四元组损失函数为:
;
其中,所述L表示所述四元组损失函数,所述a表示所述锚点的特征向量输入所述DNN模型后得到的嵌入向量,所述p表示正样本的特征向量输入所述DNN模型后得到的嵌入向量,所述n表示负样本的特征向量输入所述DNN模型后得到的嵌入向量,所述F表示假样本的特征向量输入所述DNN模型后得到的嵌入向量,所述k为系数,所述d(a,p)表示所述a与所述p之间的距离,所述d(a,n)表示所述a与所述n之间的距离,所述d(a,F)表示所述a与所述F之间的距离;
将待预测病历数据的特征向量输入训练好的DNN模型中处理,得到所述待预测病历数据对应的目标嵌入向量;
将所述至少2个训练样本中所有假样本的特征向量依次输入训练好的DNN模型中处理,得到所述所有假样本对应的嵌入向量,其中一个假样本对应一个嵌入向量;
将所述所有假样本对应的嵌入向量之间的均值向量确定为质量嵌入向量;
若所述目标嵌入向量与所述质量嵌入向量之间的距离大于或等于预设的质量异常距离,则确定所述待预测病历数据的质量为不合格;
若所述目标嵌入向量与所述质量嵌入向量之间的距离小于所述质量异常距离,则确定所述待预测病历数据的质量为合格。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待预测病历数据的质量为合格之后,所述方法还包括:
根据所述目标嵌入向量与各个类别嵌入向量之间的距离、和所述各个类别嵌入向量对应的类别距离,确定所述待预测病历数据的类别。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标嵌入向量与各个类别嵌入向量之间的距离、和所述各个类别嵌入向量对应的类别距离,确定所述待预测病历数据的类别,包括:
若所述目标嵌入向量与各个类别嵌入向量中类别嵌入向量w之间的距离小于或等于所述类别嵌入向量w对应的类别距离,则确定所述待预测病历数据的类别为第一类别,所述第一类别为所述类别嵌入向量w对应的类别。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若所述目标嵌入向量与各个类别嵌入向量之间的距离均大于所述各个类别嵌入向量对应的类别距离,则确定所述待预测病历数据的类别为第二类别,所述第二类别与所述各个类别嵌入向量对应的类别均不相同。
5.一种数据处理装置,其特征在于,包括:
获取单元,用于获取至少2个训练样本,所述至少2个训练样本中的每个训练样本为四元组,所述四元组包括锚点的特征向量、正样本的特征向量、负样本的特征向量以及假样本的特征向量,所述锚点为质量合格的病历数据,所述正样本为与所述锚点类别相同且质量合格的病历数据,所述负样本为与所述锚点类别不相同且质量合格的病历数据,所述假样本为质量不合格的病历数据;
训练单元,用于将所述至少2个训练样本依次输入构建好的深度神经网络DNN模型进行训练,使训练后所述DNN模型的损失函数减小至预设波动范围,所述DNN模型的损失函数为四元组损失函数,所述四元组损失函数由所述锚点的特征向量输入所述DNN模型得到的嵌入向量分别与所述正样本的特征向量、所述负样本的特征向量、所述假样本的特征向量输入所述DNN模型得到的嵌入向量之间的差异确定;所述四元组损失函数为:
;
其中,所述L表示所述四元组损失函数,所述a表示所述锚点的特征向量输入所述DNN模型后得到的嵌入向量,所述p表示正样本的特征向量输入所述DNN模型后得到的嵌入向量,所述n表示负样本的特征向量输入所述DNN模型后得到的嵌入向量,所述F表示假样本的特征向量输入所述DNN模型后得到的嵌入向量,所述k为系数,所述d(a,p)表示所述a与所述p之间的距离,所述d(a,n)表示所述a与所述n之间的距离,所述d(a,F)表示所述a与所述F之间的距离;
处理单元,用于将待预测病历数据的特征向量输入训练好的DNN模型中处理,得到所述待预测病历数据对应的目标嵌入向量;
所述处理单元,还用于将所述至少2个训练样本中所有假样本的特征向量依次输入训练好的DNN模型中处理,得到所述所有假样本对应的嵌入向量,其中一个假样本对应一个嵌入向量;将所述所有假样本对应的嵌入向量之间的均值向量确定为质量嵌入向量;
第一确定单元,用于当所述目标嵌入向量与所述质量嵌入向量之间的距离大于或等于预设的质量异常距离时,确定所述待预测病历数据的质量为不合格;当所述目标嵌入向量与所述质量嵌入向量之间的距离小于所述质量异常距离时,确定所述待预测病历数据的质量为合格。
6.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-4任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010412571.1A CN111696636B (zh) | 2020-05-15 | 2020-05-15 | 一种基于深度神经网络的数据处理方法及装置 |
PCT/CN2020/099539 WO2021114637A1 (zh) | 2020-05-15 | 2020-06-30 | 一种基于深度神经网络的数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010412571.1A CN111696636B (zh) | 2020-05-15 | 2020-05-15 | 一种基于深度神经网络的数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111696636A CN111696636A (zh) | 2020-09-22 |
CN111696636B true CN111696636B (zh) | 2023-09-22 |
Family
ID=72477848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010412571.1A Active CN111696636B (zh) | 2020-05-15 | 2020-05-15 | 一种基于深度神经网络的数据处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111696636B (zh) |
WO (1) | WO2021114637A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883222B (zh) * | 2020-09-28 | 2020-12-22 | 平安科技(深圳)有限公司 | 文本数据的错误检测方法、装置、终端设备及存储介质 |
CN112099739B (zh) * | 2020-11-10 | 2021-02-23 | 大象慧云信息技术有限公司 | 一种纸质***分类批量打印方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359669A (zh) * | 2018-09-10 | 2019-02-19 | 平安科技(深圳)有限公司 | 医保报销异常检测方法、装置、计算机设备和存储介质 |
CN110597878A (zh) * | 2019-09-16 | 2019-12-20 | 广东工业大学 | 一种多模态数据的跨模态检索方法、装置、设备及介质 |
CN110598006A (zh) * | 2019-09-17 | 2019-12-20 | 南京医渡云医学技术有限公司 | 模型的训练方法、三元组的嵌入方法、装置、介质及设备 |
WO2020073507A1 (zh) * | 2018-10-11 | 2020-04-16 | 平安科技(深圳)有限公司 | 一种文本分类方法及终端 |
CN111062495A (zh) * | 2019-11-28 | 2020-04-24 | 深圳市华尊科技股份有限公司 | 机器学习方法及相关装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103076334B (zh) * | 2013-01-25 | 2014-12-17 | 上海理工大学 | 一种定量检测数字印刷线条与文本的方法 |
CN106484681B (zh) * | 2015-08-25 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
CN108615044A (zh) * | 2016-12-12 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 一种分类模型训练的方法、数据分类的方法及装置 |
CN110232675B (zh) * | 2019-03-28 | 2022-11-11 | 昆明理工大学 | 一种工业环境下的纹理表面缺陷检测与分割装置及方法 |
-
2020
- 2020-05-15 CN CN202010412571.1A patent/CN111696636B/zh active Active
- 2020-06-30 WO PCT/CN2020/099539 patent/WO2021114637A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359669A (zh) * | 2018-09-10 | 2019-02-19 | 平安科技(深圳)有限公司 | 医保报销异常检测方法、装置、计算机设备和存储介质 |
WO2020073507A1 (zh) * | 2018-10-11 | 2020-04-16 | 平安科技(深圳)有限公司 | 一种文本分类方法及终端 |
CN110597878A (zh) * | 2019-09-16 | 2019-12-20 | 广东工业大学 | 一种多模态数据的跨模态检索方法、装置、设备及介质 |
CN110598006A (zh) * | 2019-09-17 | 2019-12-20 | 南京医渡云医学技术有限公司 | 模型的训练方法、三元组的嵌入方法、装置、介质及设备 |
CN111062495A (zh) * | 2019-11-28 | 2020-04-24 | 深圳市华尊科技股份有限公司 | 机器学习方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111696636A (zh) | 2020-09-22 |
WO2021114637A1 (zh) | 2021-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yao et al. | A mutual multi-scale triplet graph convolutional network for classification of brain disorders using functional or structural connectivity | |
US20210342627A1 (en) | Method and system for analyzing image | |
US11630985B2 (en) | Method and system for analyzing image | |
CN111461168A (zh) | 训练样本扩充方法、装置、电子设备及存储介质 | |
CN109948680B (zh) | 病历数据的分类方法及*** | |
CN111696636B (zh) | 一种基于深度神经网络的数据处理方法及装置 | |
CN109800781A (zh) | 一种图像处理方法、装置及计算机可读存储介质 | |
JPWO2017017722A1 (ja) | 処理装置、処理方法及びプログラム | |
TWI814154B (zh) | 基於醫學影像的疾病預測方法 | |
CN111883222B (zh) | 文本数据的错误检测方法、装置、终端设备及存储介质 | |
Chan et al. | Quasi-conformal statistical shape analysis of hippocampal surfaces for Alzheimer׳ s disease analysis | |
Chi et al. | Deep semisupervised multitask learning model and its interpretability for survival analysis | |
CN112420125A (zh) | 分子属性预测方法、装置、智能设备和终端 | |
CN117591953A (zh) | 基于多组学数据的癌症分类方法、***及电子设备 | |
JP2018032071A (ja) | 検証装置、検証方法及び検証プログラム | |
Lamia et al. | Detection of pneumonia infection by using deep learning on a mobile platform | |
CN112733724A (zh) | 基于判别样本元挖掘器的亲属关系验证方法和装置 | |
CN110428012A (zh) | 脑网络模型建立方法、脑图像分类方法、装置及电子设备 | |
CN115240843A (zh) | 基于结构因果模型的公平性预测*** | |
Khozama et al. | Study the Effect of the Risk Factors in the Estimation of the Breast Cancer Risk Score Using Machine Learning | |
CN110689112A (zh) | 数据处理的方法及装置 | |
CN113011462A (zh) | 瘤细胞图像的分类和装置 | |
JP2020081542A (ja) | 装置、方法およびプログラム | |
Nnamdi et al. | Model confidence calibration for reliable covid-19 early screening via audio signal analysis | |
CN115359040B (zh) | 预测待测对象的组织样本属性的方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40030005 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |