CN110647519A - 对测试样本中的缺失属性值进行预测的方法及装置 - Google Patents
对测试样本中的缺失属性值进行预测的方法及装置 Download PDFInfo
- Publication number
- CN110647519A CN110647519A CN201910818641.0A CN201910818641A CN110647519A CN 110647519 A CN110647519 A CN 110647519A CN 201910818641 A CN201910818641 A CN 201910818641A CN 110647519 A CN110647519 A CN 110647519A
- Authority
- CN
- China
- Prior art keywords
- missing
- test sample
- attribute
- vector string
- attribute value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Debugging And Monitoring (AREA)
Abstract
本公开是关于一种对测试样本中的缺失属性值进行预测的方法及装置,属于测试技术领域,该方法包括:分别获取缺失测试样本目标属性以外属性的属性值的向量,并将向量按照目标属性以外属性的顺序连成第一向量串;针对每个非缺失测试样本,分别获取目标属性以外属性的属性值对应的向量,并将向量按照非缺失测试样本中目标属性以外属性的顺序连成第二向量串;计算每个第二向量串和第一向量串的欧式距离;基于符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值;将预测到的缺失属性值作为目标属性的属性值。本公开通过缺失测试样本与非缺失测试样本的对比计算,有效保证缺失测试样本的缺失属性值获取的效率和准确性。
Description
技术领域
本公开涉及测试技术领域,具体而言,涉及一种对测试样本中的缺失属性值进行预测的方法及装置。
背景技术
对测试样本中的缺失属性值进行预测就是用于测试目标***运行稳定性等性能的测试样本集中的测试样本中的缺失属性值进行预测。
目前,在对目标***进行测试时,通常准备测试样本集,通过将测试样本集中每个测试样本输入目标***以测试目标***的各项性能。随着目标***的不断升级,测试样本同样会进行修改以适应升级或者改动后的目标***。现有技术中,通常会存在用于测试目标***的测试样本的某项属性的属性值缺失,但是无法查找到缺失哪个属性的属性值的情况,因此,存在测试样本的修改困难,目标***的测试难以得到保障的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种对测试样本中的缺失属性值进行预测的方案,进而至少在一定程度上通过缺失测试样本与非缺失测试样本的对比计算,有效保证缺失测试样本的缺失属性值获取的效率和准确性。
根据本公开的一个方面,提供一种对测试样本中的缺失属性值进行预测的方法,包括:
针对缺失特定的目标属性的属性值的缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照所述缺失测试样本中所述目标属性以外的属性的顺序连成第一向量串;
针对未缺失属性值的每个非缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照该非缺失测试样本中所述目标属性以外的属性的顺序连成第二向量串;
计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离;
确定所述欧式距离符合预定条件的非缺失测试样本;
基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值;
将预测到的所述测试样本中的缺失属性值作为所述缺失测试样本的所述目标属性的属性值。
在本公开的一种示例性实施例中,所述确定所述欧式距离符合预定条件的非缺失测试样本,包括:
确定所述欧式距离最小的非缺失测试样本;
所述基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值,包括:
将欧式距离最小的非缺失测试样本中的目标属性的属性值,作为预测的测试样本中的缺失属性值。
在本公开的一种示例性实施例中,所述确定所述欧式距离符合预定条件的非缺失测试样本,包括:
确定所述欧式距离小于预定欧式距离阈值的非缺失测试样本;
所述基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值,包括:
如果目标属性是数值型,将所述欧式距离小于预定欧式距离阈值的非缺失测试样本中的目标属性的属性值的平均值,作为预测的测试样本中的缺失属性值。
在本公开的一种示例性实施例中,所述确定所述欧式距离符合预定条件的非缺失测试样本,包括:
确定所述欧式距离小于预定欧式距离阈值的非缺失测试样本;
所述基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值,包括:
如果目标属性是字符型,将所述欧式距离小于预定欧式距离阈值的非缺失测试样本中出现次数最多的目标属性的属性值,作为预测的测试样本中的缺失属性值。
在本公开的一种示例性实施例中,所述计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离,包括:
获取所述缺失测试样本的所述第一向量串中向量的个数相对于每个所述非缺失测试样本的所述第二向量串中的向量的个数差;
当所述个数差为负数时,为所述缺失测试样本的所述第一向量串中添加补位向量后,得到补位后第一向量串;
计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的补位后第一向量串的欧式距离。
在本公开的一种示例性实施例中,所述计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离,包括:
获取所述缺失测试样本的所述第一向量串中向量的个数相对于每个所述非缺失测试样本的所述第二向量串中的向量的个数差;
当所述个数差为正数时,为所述非缺失测试样本的所述第二向量串中添加补位向量后,得到补位后第二向量串;
计算每个所述非缺失测试样本的所述补位后第二向量串和所述缺失测试样本的第一向量串的欧式距离。
在本公开的一种示例性实施例中,所述当所述个数差为负数时,为所述缺失测试样本的所述第一向量串中添加补位向量后,得到补位后第一向量串,包括:
所述当所述个数差为负数时,在所述第一向量串的结尾,为所述缺失测试样本的所述第一向量串中添加所述个数差个补位向量后,得到补位后第一向量串。
根据本公开的一个方面,提供一种对测试样本中的缺失属性值进行预测的装置,其特征在于,包括:
第一获取模块,用于针对缺失特定的目标属性的属性值的缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照所述缺失测试样本中所述目标属性以外的属性的顺序连成第一向量串;
第二获取模块,用于针对未缺失属性值的每个非缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照该非缺失测试样本中所述目标属性以外的属性的顺序连成第二向量串;
计算模块,用于计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离;
确定模块,用于确定所述欧式距离符合预定条件的非缺失测试样本;
预测模块,用于基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值;
添加模块,用于将预测到的所述测试样本中的缺失属性值作为所述缺失测试样本的所述目标属性的属性值。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有对测试样本中的缺失属性值进行预测的程序,其特征在于,所述对测试样本中的缺失属性值进行预测的程序被处理器执行时实现上述任一项所述的方法。
根据本公开的一个方面,提供一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的对测试样本中的缺失属性值进行预测的程序;其中,所述处理器配置为经由执行所述对测试样本中的缺失属性值进行预测的程序来执行上述任一项所述的方法。
本公开一种对测试样本中的缺失属性值进行预测的方法及装置,首先,针对缺失特定的目标属性的属性值的缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照所述缺失测试样本中所述目标属性以外的属性的顺序连成第一向量串;这样通过第一向量串表示缺失测试样本中的属性值,可以在后续步骤中用于高效计算缺失属性值,同时,第一向量串是属性的顺序连成的,可以有效保证计算准确性。然后,针对未缺失属性值的每个非缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照该非缺失测试样本中所述目标属性以外的属性的顺序连成第二向量串;通过设置多个未缺失属性值的非缺失测试样本作为校验样本,并获取每个校验样本的属性值的第二向量串,可以与第一向量串在后续步骤中高效、准确的进行计算,分析缺失属性值。然后,计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离;通过欧氏距离可以准确计算得到每个非缺失测试样本与缺失测试样本之间的相似度。进而可以通过确定所述欧式距离符合满足用于对测试样本进行校验的预定条件的非缺失测试样本后,基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值后,将预测到的所述测试样本中的缺失属性值作为所述缺失测试样本的所述目标属性的属性值。以这种方式,通过基于非缺失测试样本的,利用第一向量串和第二向量串可以高效准确的计算获取到缺失测试样本的缺失的目标属性的属性值。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出一种对测试样本中的缺失属性值进行预测的方法的流程图。
图2示意性示出一种对测试样本中的缺失属性值进行预测的方法的应用场景示例图。
图3示意性示出一种计算第一向量串和第二向量串的欧式距离的方法流程图。
图4示意性示出一种对测试样本中的缺失属性值进行预测的装置的方框图。
图5示意性示出一种用于实现上述对测试样本中的缺失属性值进行预测的方法的电子设备示例框图。
图6示意性示出一种用于实现上述对测试样本中的缺失属性值进行预测的方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本示例实施方式中首先提供了对测试样本中的缺失属性值进行预测的方法,该对测试样本中的缺失属性值进行预测的方法可以运行于服务器,也可以运行于服务器集群或云服务器等,当然,本领域技术人员也可以根据需求在其他平台运行本发明的方法,本示例性实施例中对此不做特殊限定。参考图1所示,该对测试样本中的缺失属性值进行预测的方法可以包括以下步骤:
步骤S110,针对缺失特定的目标属性的属性值的缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照所述缺失测试样本中所述目标属性以外的属性的顺序连成第一向量串;
步骤S120,针对未缺失属性值的每个非缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照该非缺失测试样本中所述目标属性以外的属性的顺序连成第二向量串;
步骤S130,计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离;
步骤S140,确定所述欧式距离符合预定条件的非缺失测试样本;
步骤S150,基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值;
步骤S160,将预测到的所述测试样本中的缺失属性值作为所述缺失测试样本的所述目标属性的属性值。
上述对测试样本中的缺失属性值进行预测的方法中,首先,针对缺失特定的目标属性的属性值的缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照所述缺失测试样本中所述目标属性以外的属性的顺序连成第一向量串;这样通过第一向量串表示缺失测试样本中的属性值,可以在后续步骤中用于高效计算缺失属性值,同时,第一向量串是属性的顺序连成的,可以有效保证计算准确性。然后,针对未缺失属性值的每个非缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照该非缺失测试样本中所述目标属性以外的属性的顺序连成第二向量串;通过设置多个未缺失属性值的非缺失测试样本作为校验样本,并获取每个校验样本的属性值的第二向量串,可以与第一向量串在后续步骤中高效、准确的进行计算,分析缺失属性值。然后,计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离;通过欧氏距离可以准确计算得到每个非缺失测试样本与缺失测试样本之间的相似度。进而可以通过确定所述欧式距离符合满足用于对测试样本进行校验的预定条件的非缺失测试样本后,基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值后,将预测到的所述测试样本中的缺失属性值作为所述缺失测试样本的所述目标属性的属性值。以这种方式,通过基于非缺失测试样本的,利用第一向量串和第二向量串可以高效准确的计算获取到缺失测试样本的缺失的目标属性的属性值。
下面,将结合附图对本示例实施方式中上述对测试样本中的缺失属性值进行预测的方法中的各步骤进行详细的解释以及说明。
在步骤S110中,针对缺失特定的目标属性的属性值的缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照所述缺失测试样本中所述目标属性以外的属性的顺序连成第一向量串。
本示例的实施方式中,参考图2所示,服务器201接收到缺失目标属性的属性值的预测指令后,从服务器202上爬取到缺失特定的目标属性的属性值的缺失测试样本后,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照所述缺失测试样本中所述目标属性以外的属性的顺序连成第一向量串。这样可以由服务器201基于第一向量串在后续步骤中,高效、准确计算缺失属性值。可以理解,在条件允许的情况下,也可以由服务器202爬取存储于自身的缺失特定的目标属性的属性值的缺失测试样本后,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照所述缺失测试样本中所述目标属性以外的属性的顺序连成第一向量串,由服务器202基于第一向量串在后续步骤中,高效、准确计算缺失属性值。其中,服务器201可以是任何具有处理能力的设备,例如,电脑、微处理器等,在此不做特殊限定,服务器202可以是任何具有指令发送、数据存储能力的设备,例如手机、电脑等,在此不做特殊限定。
缺失特定的目标属性的属性值的缺失测试样本就是例如人脸识别测试过程中,缺失如某个属性为目标部位关键点的属性值为坐标的数据,或者缺失属性的目标部位纹理的属性值为纹理特征数据的人脸图像测试样本。
分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,就是获取缺失测试样本中所有具有属性值的属性的属性值后,通过进行向量映射,将获取的每个属性值映射为对应的向量。例如,将人脸某个关键点的坐标(12,32)根据预定映射规则映射为对应的向量(10,12,32),其中10可以表示该向量为关键点数据。然后,将向量按照缺失测试样本中目标属性以外的属性的顺序连成第一向量串,通过第一向量串表示缺失测试样本中的属性值,可以在后续步骤中用于高效计算缺失属性值,同时,第一向量串是属性的顺序连成的,可以有效保证计算准确性。
在步骤S120中,针对未缺失属性值的每个非缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照该非缺失测试样本中所述目标属性以外的属性的顺序连成第二向量串。
本示例的实施方式中,未缺失属性值的每个非缺失测试样本就是例如人脸图像样本库中存储的用于人脸识别测试的,包含所有如属性为目标部位关键点的属性值为坐标的数据,或者属性为目标部位纹理的属性值为纹理特征数据的人脸图像测试样本。测试样本数据库中保存有各种系列的非缺失测试样本,例如不同系列的人脸图像样本,就是人脸关键点坐标呈系列过渡变化的人脸图像样本,用于测试每个系列的测试样本在目标***中运行过程中的性能。
针对未缺失属性值的每个非缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,就是获取每个未缺失测试样本中,所有属性中除去缺失测试样本的所述目标属性以外的其它属性的属性值,这样可以使得非缺失测试样本与缺失测试样本具有对照性,进而获取其它属性的属性值的向量就是例如,将人脸某个关键点的坐标(12,32)根据预定映射规则映射为对应的向量(10,12,32),其中10可以表示该向量为关键点数据。然后,将向量按照非缺失测试样本中所述目标属性以外的属性的顺序连成第二向量串,通过第二向量串表示非缺失测试样本中的属性值,可以在后续步骤中用于与第一向量串进行高效对比计算两者的相似度,确定与缺失样本最接近的非缺失样本,同时,第二向量串是按照属性的顺序连成的,可以有效保证计算准确性。
在步骤S130中,计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离。
本示例的实施方式中,通过计算每个非缺失测试样本的第二向量串和缺失测试样本的第一向量串的欧式距离,可以准确地得到除去了目标属性值的属性的非缺失测试样本中与缺失测试样本相似度。
其中,第一向量串A=(a[1]a[2]…a[n])与第二向量串B=(b[1]b[2]…b[n])的欧氏距离d(AB)计算公式就是如d(AB)=sqrt[∑((a-b)^2)](i=12…n)。其中a[n]、b[n]代表第一向量串和第二向量串中的每个向量。
本示例的一种实施方式中,所述计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离,包括:
获取所述缺失测试样本的所述第一向量串中向量的个数相对于每个所述非缺失测试样本的所述第二向量串中的向量的个数差;
当所述个数差为负数时,为所述缺失测试样本的所述第一向量串中添加补位向量后,得到补位后第一向量串;
计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的补位后第一向量串的欧式距离。
通过获取所述缺失测试样本的所述第一向量串中向量的个数相对于每个所述非缺失测试样本的所述第二向量串中的向量的个数差,可以得到如果非缺失测试样本的在除去目标属性的属性值后得到的第二向量串比第一向量串的向量的个数多或者少的情况。然后,当所述个数差为负数时,说明第一向量串的向量比第二向量串的向量少,通过为所述缺失测试样本的所述第一向量串中添加例如零向量(0,0)的补位向量后,得到补位后第一向量串,进而可以保证准确计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的补位后第一向量串的欧式距离。
本示例的一种实施方式中,所述计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离,参考图3所示,包括:
步骤S310,获取所述缺失测试样本的所述第一向量串中向量的个数相对于每个所述非缺失测试样本的所述第二向量串中的向量的个数差;
步骤S320,当所述个数差为正数时,为所述非缺失测试样本的所述第二向量串中添加补位向量后,得到补位后第二向量串;
步骤S330,计算每个所述非缺失测试样本的所述补位后第二向量串和所述缺失测试样本的第一向量串的欧式距离。
通过获取所述缺失测试样本的所述第一向量串中向量的个数相对于每个所述非缺失测试样本的所述第二向量串中的向量的个数差,可以得到如果非缺失测试样本的在除去目标属性的属性值后得到的第二向量串比第一向量串的向量的个数多或者少的情况。然后,当所述个数差为正数时,说明第一向量串的向量比第二向量串的向量多,通过为所述非缺失测试样本的所述第二向量串中添加例如零向量(0,0)的补位向量后,得到补位后第一向量串,进而可以保证准确计算每个所述非缺失测试样本的补位后第二向量串和所述缺失测试样本的第一向量串的欧式距离。
本示例的一种实施方式中,所述当所述个数差为负数时,为所述缺失测试样本的所述第一向量串中添加补位向量后,得到补位后第一向量串,包括:
所述当所述个数差为负数时,在所述第一向量串的结尾,为所述缺失测试样本的所述第一向量串中添加所述个数差个补位向量后,得到补位后第一向量串。
本示例的一种实施方式中,所述当所述个数差为正数时,为所述非缺失测试样本的所述第二向量串中添加补位向量后,得到补位后第二向量串,包括:
所述当所述个数差为正数时,在所述第二向量串的结尾,为所述非缺失测试样本的所述第二向量串中添加所述个数差个补位向量后,得到补位后第二向量串。
在步骤S140中,确定所述欧式距离符合预定条件的非缺失测试样本。
本示例的实施方式中,欧氏距离符合预定条件就是第一向量串和第二向量串的欧氏距离的大小符合例如小于预定阈值或者为最小值的预定条件。通过确定欧式距离符合预定条件的非缺失测试样本,可以得到与缺失测试样本相似的非缺失测试样本。进而可以在后续步骤中准确地根据与缺失测试样本相似的非缺失测试样本确定缺失测试样本中缺失的属性值。
在步骤S150中,基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值。
本示例的实施方式中,由于,通过确定欧式距离符合预定条件的非缺失测试样本,可以得到与缺失测试样本相似的非缺失测试样本。通过欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,可以与缺失测试样本中目标属性的属性值很好地匹配,进而可以基于非缺失测试样本中的目标属性的属性值预测到测试样本中的缺失属性值。
这样可以基于非缺失测试样本与缺失测试样本的对比,通过属性值向量串的提取,准确计算预测到缺失测试样本的缺失属性值,有效保证目标***的测试顺利进行,并且测试准确性得以保证。
本示例的一种实施方式中,所述确定所述欧式距离符合预定条件的非缺失测试样本,包括:
确定所述欧式距离最小的非缺失测试样本;
所述基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值,包括:
将欧式距离最小的非缺失测试样本中的目标属性的属性值,作为预测的测试样本中的缺失属性值。
欧式距离最小的非缺失测试样本,就是与缺失测试样本最相似的一个非缺失测试样本。这样将欧式距离最小的非缺失测试样本中的目标属性的属性值,作为预测的测试样本中的缺失属性值,可以有效保证缺失属性值预测的准确性。
本示例的一种实施方式中,所述确定所述欧式距离符合预定条件的非缺失测试样本,包括:
确定所述欧式距离小于预定欧式距离阈值的非缺失测试样本;
所述基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值,包括:
如果目标属性是数值型,将所述欧式距离小于预定欧式距离阈值的非缺失测试样本中的目标属性的属性值的平均值,作为预测的测试样本中的缺失属性值。
欧式距离小于预定欧式距离阈值的非缺失测试样本,就是与缺失测试样本相似的至少一个非缺失测试样本,这样如果目标属性是数值型,将所述欧式距离小于预定欧式距离阈值的非缺失测试样本中的目标属性的属性值的平均值,作为预测的测试样本中的缺失属性值,可以有效降低缺失属性值预测的误差。
本示例的一种实施方式中,所述确定所述欧式距离符合预定条件的非缺失测试样本,包括:
确定所述欧式距离小于预定欧式距离阈值的非缺失测试样本;
所述基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值,包括:
如果目标属性是字符型,将所述欧式距离小于预定欧式距离阈值的非缺失测试样本中出现次数最多的目标属性的属性值,作为预测的测试样本中的缺失属性值。
欧式距离小于预定欧式距离阈值的非缺失测试样本,就是与缺失测试样本相似的至少一个非缺失测试样本,这样如果目标属性是字符型,将所述欧式距离小于预定欧式距离阈值的非缺失测试样本中出现次数最多的目标属性的属性值,作为预测的测试样本中的缺失属性值,可以在目标属性是字符型时,有效保证缺失属性值预测的误差。
在步骤S160中,将预测到的所述测试样本中的缺失属性值作为所述缺失测试样本的所述目标属性的属性值。
本示例的实施方式中,通过将基于非缺失测试样本,利用第一向量串和第二向量串可以高效准确的计算获取到的测试样本中的缺失属性值作为缺失测试样本的缺失的目标属性的属性值,可以准确获取到完整的测试样本,保证测试顺利进行。
本公开还提供了一种对测试样本中的缺失属性值进行预测的装置。参考图4所示,该对测试样本中的缺失属性值进行预测的装置可以包括第一获取模块410、第二获取模块420、计算模块430、确定模块440、预测模块450及添加模块460。其中:
第一获取模块410可以用于针对缺失特定的目标属性的属性值的缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照所述缺失测试样本中所述目标属性以外的属性的顺序连成第一向量串;
第二获取模块420可以用于针对未缺失属性值的每个非缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照该非缺失测试样本中所述目标属性以外的属性的顺序连成第二向量串;
计算模块430可以用于计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离;
确定模块440可以用于确定所述欧式距离符合预定条件的非缺失测试样本;
预测模块450可以用于基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值;
添加模块460可以用于将预测到的所述测试样本中的缺失属性值作为所述缺失测试样本的所述目标属性的属性值。
上述对测试样本中的缺失属性值进行预测的装置中各模块的具体细节已经在对应的对测试样本中的缺失属性值进行预测的方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为***、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
下面参照图5来描述根据本发明的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:上述至少一个处理单元510、上述至少一个存储单元520、连接不同***组件(包括存储单元520和处理单元510)的总线530。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1中所示的步骤S110:针对缺失特定的目标属性的属性值的缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照所述缺失测试样本中所述目标属性以外的属性的顺序连成第一向量串;S120:针对未缺失属性值的每个非缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照该非缺失测试样本中所述目标属性以外的属性的顺序连成第二向量串;步骤S130:计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离;步骤S140:确定所述欧式距离符合预定条件的非缺失测试样本;步骤S150:基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值;步骤S160:将预测到的所述测试样本中的缺失属性值作为所述缺失测试样本的所述目标属性的属性值。
存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得客户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器560通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品600,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在客户计算设备上执行、部分地在客户设备上执行、作为一个独立的软件包执行、部分在客户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到客户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (10)
1.一种对测试样本中的缺失属性值进行预测的方法,其特征在于,包括:
针对缺失特定的目标属性的属性值的缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照所述缺失测试样本中所述目标属性以外的属性的顺序连成第一向量串;
针对未缺失属性值的每个非缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照该非缺失测试样本中所述目标属性以外的属性的顺序连成第二向量串;
计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离;
确定所述欧式距离符合预定条件的非缺失测试样本;
基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值;
将预测到的所述测试样本中的缺失属性值作为所述缺失测试样本的所述目标属性的属性值。
2.根据权利要求1所述的方法,其特征在于,所述确定所述欧式距离符合预定条件的非缺失测试样本,包括:
确定所述欧式距离最小的非缺失测试样本;
所述基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值,包括:
将欧式距离最小的非缺失测试样本中的目标属性的属性值,作为预测的测试样本中的缺失属性值。
3.根据权利要求1所述的方法,其特征在于,所述确定所述欧式距离符合预定条件的非缺失测试样本,包括:
确定所述欧式距离小于预定欧式距离阈值的非缺失测试样本;
所述基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值,包括:
如果目标属性是数值型,将所述欧式距离小于预定欧式距离阈值的非缺失测试样本中的目标属性的属性值的平均值,作为预测的测试样本中的缺失属性值。
4.根据权利要求1所述的方法,其特征在于,所述确定所述欧式距离符合预定条件的非缺失测试样本,包括:
确定所述欧式距离小于预定欧式距离阈值的非缺失测试样本;
所述基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值,包括:
如果目标属性是字符型,将所述欧式距离小于预定欧式距离阈值的非缺失测试样本中出现次数最多的目标属性的属性值,作为预测的测试样本中的缺失属性值。
5.根据权利要求1所述的方法,其特征在于,所述计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离,包括:
获取所述缺失测试样本的所述第一向量串中向量的个数相对于每个所述非缺失测试样本的所述第二向量串中的向量的个数差;
当所述个数差为负数时,为所述缺失测试样本的所述第一向量串中添加补位向量后,得到补位后第一向量串;
计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的补位后第一向量串的欧式距离。
6.根据权利要求1所述的方法,其特征在于,所述计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离,包括:
获取所述缺失测试样本的所述第一向量串中向量的个数相对于每个所述非缺失测试样本的所述第二向量串中的向量的个数差;
当所述个数差为正数时,为所述非缺失测试样本的所述第二向量串中添加补位向量后,得到补位后第二向量串;
计算每个所述非缺失测试样本的所述补位后第二向量串和所述缺失测试样本的第一向量串的欧式距离。
7.根据权利要求5所述的方法,其特征在于,所述当所述个数差为负数时,为所述缺失测试样本的所述第一向量串中添加补位向量后,得到补位后第一向量串,包括:
所述当所述个数差为负数时,在所述第一向量串的结尾,为所述缺失测试样本的所述第一向量串中添加所述个数差个补位向量后,得到补位后第一向量串。
8.一种对测试样本中的缺失属性值进行预测的装置,其特征在于,包括:
第一获取模块,用于针对缺失特定的目标属性的属性值的缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照所述缺失测试样本中所述目标属性以外的属性的顺序连成第一向量串;
第二获取模块,用于针对未缺失属性值的每个非缺失测试样本,分别获取所述缺失测试样本的所述目标属性以外的属性的属性值对应的向量,并将所述向量按照该非缺失测试样本中所述目标属性以外的属性的顺序连成第二向量串;
计算模块,用于计算每个所述非缺失测试样本的所述第二向量串和所述缺失测试样本的所述第一向量串的欧式距离;
确定模块,用于确定所述欧式距离符合预定条件的非缺失测试样本;
预测模块,用于基于欧式距离符合预定条件的非缺失测试样本中的目标属性的属性值,预测测试样本中的缺失属性值;
添加模块,用于将预测到的所述测试样本中的缺失属性值作为所述缺失测试样本的所述目标属性的属性值。
9.一种计算机可读存储介质,其上存储有对测试样本中的缺失属性值进行预测的程序,其特征在于,所述对测试样本中的缺失属性值进行预测的程序被处理器执行时实现权利要求1-7任一项所述的方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的对测试样本中的缺失属性值进行预测的程序;其中,所述处理器配置为经由执行所述对测试样本中的缺失属性值进行预测的程序来执行权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910818641.0A CN110647519B (zh) | 2019-08-30 | 2019-08-30 | 对测试样本中的缺失属性值进行预测的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910818641.0A CN110647519B (zh) | 2019-08-30 | 2019-08-30 | 对测试样本中的缺失属性值进行预测的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110647519A true CN110647519A (zh) | 2020-01-03 |
CN110647519B CN110647519B (zh) | 2023-10-03 |
Family
ID=68991395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910818641.0A Active CN110647519B (zh) | 2019-08-30 | 2019-08-30 | 对测试样本中的缺失属性值进行预测的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110647519B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035779A (zh) * | 2014-06-25 | 2014-09-10 | 中国科学院软件研究所 | 一种数据流决策树分类中的缺失值处理方法 |
CN109165664A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
US10268711B1 (en) * | 2016-01-26 | 2019-04-23 | Amazon Technologies, Inc. | Identifying and resolving data quality issues amongst information stored across multiple data sources |
CN109857816A (zh) * | 2019-01-11 | 2019-06-07 | 平安科技(深圳)有限公司 | 测试样本的选取方法及装置、存储介质、电子设备 |
-
2019
- 2019-08-30 CN CN201910818641.0A patent/CN110647519B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035779A (zh) * | 2014-06-25 | 2014-09-10 | 中国科学院软件研究所 | 一种数据流决策树分类中的缺失值处理方法 |
US10268711B1 (en) * | 2016-01-26 | 2019-04-23 | Amazon Technologies, Inc. | Identifying and resolving data quality issues amongst information stored across multiple data sources |
CN109165664A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
CN109857816A (zh) * | 2019-01-11 | 2019-06-07 | 平安科技(深圳)有限公司 | 测试样本的选取方法及装置、存储介质、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110647519B (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783490B (zh) | 数据融合方法、装置、计算机设备及存储介质 | |
CN113342345A (zh) | 深度学习框架的算子融合方法、装置 | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
CN109582906B (zh) | 数据可靠度的确定方法、装置、设备和存储介质 | |
CN111291882A (zh) | 一种模型转换的方法、装置、设备和计算机存储介质 | |
CN111145076A (zh) | 数据并行化处理方法、***、设备及存储介质 | |
CN111611390B (zh) | 一种数据处理方法及装置 | |
CN110780879A (zh) | 一种基于智能编译技术的决策执行方法、装置、设备及介质 | |
CN113887615A (zh) | 图像处理方法、装置、设备和介质 | |
CN110175128B (zh) | 一种相似代码案例获取方法、装置、设备和存储介质 | |
CN111161238A (zh) | 图像质量评价方法及装置、电子设备、存储介质 | |
CN115359308A (zh) | 模型训练、难例识别方法、装置、设备、存储介质及程序 | |
CN110348581B (zh) | 用户特征群中用户特征寻优方法、装置、介质及电子设备 | |
CN110929499B (zh) | 文本相似度获取方法、装置、介质及电子设备 | |
CN116361567B (zh) | 应用于云办公的数据处理方法及*** | |
CN115296905B (zh) | 一种基于移动终端的数据采集分析方法及*** | |
CN116703659A (zh) | 一种应用于工程咨询的数据处理方法、装置及电子设备 | |
CN113723890B (zh) | 信息处理方法、装置、设备及存储介质 | |
CN116229535A (zh) | 人脸检测模型的训练方法、人脸检测方法及装置 | |
CN113360672B (zh) | 用于生成知识图谱的方法、装置、设备、介质和产品 | |
CN110647519B (zh) | 对测试样本中的缺失属性值进行预测的方法及装置 | |
CN115762704A (zh) | 一种处方审核方法、装置、设备和存储介质 | |
CN113449062B (zh) | 轨迹处理方法、装置、电子设备和存储介质 | |
EP4280100A1 (en) | Binocular parallax estimation method, model training method and related device | |
CN114897183A (zh) | 问题数据处理方法、深度学习模型的训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |