CN112347137A - 数据验证方法、装置及可读存储介质 - Google Patents

数据验证方法、装置及可读存储介质 Download PDF

Info

Publication number
CN112347137A
CN112347137A CN201910722886.3A CN201910722886A CN112347137A CN 112347137 A CN112347137 A CN 112347137A CN 201910722886 A CN201910722886 A CN 201910722886A CN 112347137 A CN112347137 A CN 112347137A
Authority
CN
China
Prior art keywords
data
sample data
sample
association
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910722886.3A
Other languages
English (en)
Inventor
李阳
赵红兵
史晓婵
侯俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910722886.3A priority Critical patent/CN112347137A/zh
Publication of CN112347137A publication Critical patent/CN112347137A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例公开了一种数据验证方法、装置及可读存储介质,所述数据验证方法包括:获取样本数据,所述样本数据包括第一样本数据和第二样本数据;通过关联分析算法对所述样本数据进行学习,以生成验证规则;获取待测数据,所述待测数据包括第一待测数据和第二待测数据;基于验证规则对所述待测数据进行验证。

Description

数据验证方法、装置及可读存储介质
技术领域
本公开涉及计算机技术领域,具体涉及一种数据验证方法、装置及可读存储介质。
背景技术
在当前的大数据环境下,数据量迅速增长,测试***通过验证规则来对***的输出数据进行验证,以确定***的输出是否存在问题。在做出本公开的过程中,发明人发现,传统验证方式是通过非智能的人工方式编写验证规则,需要消耗大量的人工和***资源,而且不能跟随工作***的变化而自动调整,验证规则较为死板,不具有灵活性。
发明内容
为了解决相关技术中的问题,本公开实施例提供一种数据验证方法、装置及可读存储介质。
第一方面,本公开实施例中提供了一种数据验证方法。
具体地,所述数据验证方法,包括:
获取样本数据,所述样本数据包括第一样本数据和第二样本数据;
通过关联分析算法对所述样本数据进行学习,以生成验证规则;
获取待测数据,所述待测数据包括第一待测数据和第二待测数据;
基于验证规则对所述待测数据进行验证。
结合第一方面,本公开在第一方面的第一种实现方式中,所述通过关联分析算法对所述样本数据进行学习,以生成验证规则,包括:
通过关联分析算法对所述样本数据进行学习,确定所述第一样本数据和所述第二样本数据之间的关联关系;
基于所述关联关系生成所述验证规则。
结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述通过关联分析算法对所述样本数据进行学习,确定所述第一样本数据和所述第二样本数据之间的关联关系,包括:通过关联分析算法确定所述第一样本数据和所述第二样本数据之间的关联字段;
基于所述关联关系生成所述验证规则,包括:基于所述第一样本数据和所述第二样本数据之间的关联字段生成验证规则。
结合第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述通过关联分析算法确定所述第一样本数据和所述第二样本数据之间的关联字段,包括:通过关联分析算法,确定所述第一样本数据和所述第二样本数据存在关联的字段、存在关联的字段之间的取值范围关系;
所述基于所述第一样本数据和所述第二样本数据之间的关联字段生成验证规则,包括:基于所述第一样本数据和所述第二样本数据存在关联的字段、存在关联的字段之间的取值范围关系,生成验证规则。
结合第一方面,本公开在第一方面的第四种实现方式中,所述数据验证方法还包括:
用所述待测数据更新所述样本数据。
结合第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,使用所述待测数据更新所述样本数据,包括:
当所述待测数据满足所述验证规则时,使用所述待测数据更新所述样本数据;
当所述待测数据不满足所述验证规则时,进行报警和/或使用所述待测数据更新所述样本数据。
结合第一方面,本公开在第一方面的第六种实现方式中,所述数据验证方法还包括:
对所述第一样本数据和/或所述第二样本数据进行统计,剔除所述第一样本数据和/或第二样本数据中字段的取值存在异常的样本数据。
结合第一方面,本公开在第一方面的第七种实现方式中,基于验证规则对所述待测数据进行验证,之前进一步包括:
从所述样本数据进行学习得到的验证规则和预先设定的验证规则中,选择用于对所述待测数据进行验证的验证规则。
结合第一方面,本公开在第一方面的第八种实现方式中,所述第一样本数据和所述第一待测数据包括用户请求;
所述第二样本数据和所述第二待测数据包括响应于所述用户请求而获得的返回数据和/或日志数据。
结合第一方面,本公开在第一方面的第九种实现方式中,至少一个所述样本数据和/或至少一个所述待测数据是在生产环境获得的。
第二方面,本公开实施例中提供了一种数据验证装置。
具体地,所述数据验证装置包括:
样本数据获取模块,用于获取样本数据,所述样本数据包括第一样本数据和第二样本数据;
验证规则生成模块,用于通过关联分析算法对所述样本数据进行学习,以生成验证规则;
待测数据获取模块,用于获取待测数据,所述待测数据包括第一待测数据和第二待测数据;
待测数据验证模块,用于基于验证规则对所述待测数据进行验证。
结合第二方面,本公开在第二方面的第一种实现方式中,所述通过关联分析算法对所述样本数据进行学习,以生成验证规则,包括:
通过关联分析算法对所述样本数据进行学习,确定所述第一样本数据和所述第二样本数据之间的关联关系;
基于所述关联关系生成所述验证规则。
结合第二方面的第一种实现方式,本公开在第二方面的第二种实现方式中,所述通过关联分析算法对所述样本数据进行学习,确定所述第一样本数据和所述第二样本数据之间的关联关系,包括:通过关联分析算法确定所述第一样本数据和所述第二样本数据之间的关联字段;
基于所述关联关系生成所述验证规则,包括:基于所述第一样本数据和所述第二样本数据之间的关联字段生成验证规则。
结合第二方面的第二种实现方式,本公开在第二方面的第三种实现方式中,所述通过关联分析算法确定所述第一样本数据和所述第二样本数据之间的关联字段,包括:通过关联分析算法,确定所述第一样本数据和所述第二样本数据存在关联的字段、存在关联的字段之间的取值范围关系;
所述基于所述第一样本数据和所述第二样本数据之间的关联字段生成验证规则,包括:基于所述第一样本数据和所述第二样本数据存在关联的字段、存在关联的字段之间的取值范围关系,生成验证规则。
结合第二方面,本公开在第二方面的第四种实现方式中,所述数据验证装置还包括:
样本数据更新模块,用所述待测数据更新所述样本数据。
结合第二方面的第四种实现方式,本公开在第二方面的第五种实现方式中,使用所述待测数据更新所述样本数据,包括:
当所述待测数据满足所述验证规则时,使用所述待测数据更新所述样本数据;
当所述待测数据不满足所述验证规则时,进行报警和/或使用所述待测数据更新所述样本数据。
结合第二方面,本公开在第二方面的第六种实现方式中,所述数据验证装置还包括:
异常数据剔除模块,用于对所述第一样本数据和/或所述第二样本数据进行统计,剔除所述第一样本数据和/或第二样本数据中字段的取值存在异常的样本数据。
结合第二方面,本公开在第二方面的第七种实现方式中,基于验证规则对所述待测数据进行验证,之前进一步包括:
从所述样本数据进行学习得到的验证规则和预先设定的验证规则中,选择用于对所述待测数据进行验证的验证规则。
结合第二方面,本公开在第二方面的第八种实现方式中,所述第一样本数据和所述第一待测数据包括用户请求;
所述第二样本数据和所述第二待测数据包括响应于所述用户请求而获得的返回数据和/或日志数据。
结合第二方面,本公开在第二方面的第九种实现方式中,至少一个所述样本数据和/或至少一个所述待测数据是在生产环境获得的。
第三方面,本公开实施例中提供了一种计算机可读存储介质。
具体地,所述计算机可读存储介质,存储有可执行指令,当所述可执行指令被处理器执行时,实现如第一方面、第一方面的第一种实现方式到第一方面的第九种实现方式中任一项所述的方法。
第四方面,本公开实施例中提供了一种用于对查询请求进行改写的方法。
具体地,所述用于对查询请求进行改写的方法,包括:
获取样本数据,所述样本数据包括历史查询请求数据和历史查询结果数据;
通过关联分析算法对所述样本数据进行学习,以生成对查询请求数据进行改写的改写规则;
获取实时查询请求数据,基于所述改写规则对所述实时查询请求数据进行改写。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它标签、目的和优点将变得更加明显。在附图中:
图1是根据本公开实施例的应用场景的示意图;
图2是根据本公开实施例的数据验证方法的流程图;
图3是根据本公开实施例的数据验证方法的流程图;
图4是根据本公开实施例的数据验证方法的整体流程示意图;
图5是根据本公开实施例的数据验证装置的结构框图;
图6是适用于实现本公开实施例的数据验证方法的计算机***的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1是根据本公开实施例的应用场景的示意图。
在图1中,数据工厂模块用于从线上抓取用于测试的定制的查询串和查询结果,对抓取的数据进行分析和管理,并将数据存储至数据库(DB)。调度服务模块中包括调度控制器(Master),用于向规则引擎发送请求,执行规则引擎的规则调用,以根据规则对DB数据库中的查询串和查询结果进行验证。调度服务模块还执行指标统计和异常处理,并且与线上服务和追踪服务相连,用于对验证结果进行追踪分析。规则引擎模块包括多个规则,用于对规则进行管理、包括规则的预处理、规则映射、规则匹配以及规则执行。WEB前端模块用于根据用户的指令进行任务触发,并进行数据集展示、规则集展示,以及验证结果的结果显示等。
图2是根据本公开实施例的数据验证方法的流程图。
在步骤S201中,获取样本数据,所述样本数据包括第一样本数据和第二样本数据;
在步骤S202中,通过关联分析算法对所述样本数据进行学习,以生成验证规则;
在步骤S203中,获取待测数据,所述待测数据包括第一待测数据和第二待测数据;
在步骤S204中,基于验证规则对所述待测数据进行验证。
根据本公开实施例,基于多个样本数据组生成验证规则,所述验证规则体现了第一样本数据与第二样本数据之间的关联关系,使用该验证规则,可以验证待测数据组的第一待测数据与第二待测数据之间是否也具有这样的关联关系,如果是,则说明待测数据组满足该验证规则。
与传统的人工编写规则方式相比,通过上述方式从样本数据组生成验证规则的自动化程度更高,更容易找出人工难以发现的数据之间的关联,验证结果更准确。同时,当由于***改变而产生新数据时,能够自动发现和更新规则,提高了数据验证的效率和灵活性。
根据本公开实施例,所述第二样本数据与所述第一样本数据之间具有关联关系;所述第二待测数据与所述第一待测数据之间具有关联关系。
例如,第一样本数据和第一待测数据可以是用户输入的语音或者文本数据、网页中抓取的数据、***工作过程中产生的中间数据等,但本公开不限于此。第二样本数据可以是与第一样本数据之间具有关联关系的数据,第二待测数据可以是与第一待测数据之间具有关联关系的数据。
例如,第一样本数据可以是针对某商品的折扣力度,第二样本数据可以是该商品的销量增幅,通过关联分析发现该商品的折扣力度与其销量增幅之间具有关联关系,基于该关联关系自动形成相应的验证规则。如果发现待测数据组显示该商品的折扣力度与销量增幅不满足该验证规则,则可以检查是否销量统计***出错、或有其他外部因素(例如,出现了强有力的竞品等)导致之前的验证规则不再适用。
根据本公开实施例,所述第一样本数据和所述第一待测数据包括用户输入数据;所述第二样本数据包括响应于所述第一样本数据而获得的输出数据和/或日志数据;所述第二待测数据包括响应于所述第一待测数据而获得的输出数据和/或日志数据。
例如,第一样本数据和第一待测数据可以是用户通过语音、文本、手势或者手柄等输入的数据,第二样本数据和第二待测数据可以是响应于用户输入得到的视频、图像、语音、文本等数据。
例如,在游戏***中,第一样本数据和第一待测数据可以是游戏手柄的前后左右移动,第二样本数据和第二待测数据可以是游戏手柄在各方向上移动时显示屏上显示的飞机的运动方向,日志数据是***对游戏手柄在各方向上移动时的相应响应时间。通过这种方式,可以验证显示屏上显示的飞机运动方向是否异常和/或***对游戏手柄的响应时间是否异常。
根据本公开实施例,所述通过关联分析算法对所述样本数据进行学习,以生成验证规则,包括:通过关联分析算法对所述样本数据进行学习,确定所述第一样本数据和所述第二样本数据之间的关联关系;基于所述关联关系生成所述验证规则。
例如,在广告推荐***中,用户通过语音输入“足球”查询请求作为第一样本数据,通过语音识别技术得到其中的关键字“足球”,并通过检索数据库,得到“火车头”、“阿迪达斯”等品牌的足球广告网页作为第二样本数据。通过关联分析算法对样本数据进行学习,确定第一样本数据和第二样本数据间的关联关系是包含相同的物品名称。基于这种关联关系生成的验证规则是用户的查询请求和广告网页要有相同的物品名称。相应地,如果第一待测数据与第二待测数据之间不具有相同的物品名称,则待测数据组不符合验证规则。
根据本公开实施例,所述通过关联分析算法对所述样本数据进行学习,确定所述第一样本数据和所述第二样本数据之间的关联关系,包括:通过关联分析算法确定所述第一样本数据和所述第二样本数据之间的关联字段;基于所述关联关系生成所述验证规则,包括:基于所述第一样本数据和所述第二样本数据之间的关联字段生成验证规则。
例如,在广告推荐***中,用户查询请求和返回的广告都会包含很多字段。通过关联分析可以发现其中的关联字段,将其用于生成验证规则。通过关联分析的方式可以从海量数据中快速、精准地定位关联字段并发现其中包含的规则,而这对于人工编写规则来说是非常困难的。
具体地,例如,在广告推荐***中,通过关联分析发现当用户查询请求中有字段“ismall”时,返回的所有广告都具有字段“channel”,于是确定所述第一样本数据和所述第二样本数据之间的关联字段是“ismall”和“channel”。又例如,通过关联分析发现当用户查询请求中有字段“location”时,返回的广告都具有字段“position”,于是确定所述第一样本数据和所述第二样本数据之间的关联字段是“location”和“position”。
根据本公开实施例,所述通过关联分析算法确定所述第一样本数据和所述第二样本数据之间的关联字段,包括:通过关联分析算法,确定所述第一样本数据和所述第二样本数据存在关联的字段、存在关联的字段之间的取值范围关系;所述基于所述第一样本数据和所述第二样本数据之间的关联字段生成验证规则,具体包括:基于所述第一样本数据和所述第二样本数据存在关联的字段、存在关联的字段之间的取值范围关系,生成验证规则。
例如,在广告推荐***中,对于关联字段“ismall”和“channel”,验证规则可以是当ismall=1时,channel=“天猫”;对于关联字段“location”和“position”,验证规则可以是当location=“中国”时,position的取值可以是中国的任意省份。
又例如,如果已确定第一样本数据中的第一字节“中国”这个字段和第二样本数据中“北京”所在的字段position有关联,“北京”是字段position的取值,字段position可以位于第二样本数据中第10个字节,最终获得的是,第一样本数据第一字节的“中国”和第二样本数据的第10字节的“北京”存在关联,关联关系是中国包含北京,生成的验证规则是获取第一样本数据的第一个字节的取值,和第二样本数据的第10个字节的取值,判断是否为包含关系,如果是则验证成功。
图3是根据本公开实施例的数据验证方法的流程图。
图3中除了包括和图2相同的步骤S201~S204,还包括步骤S205。
在步骤S205中,用所述待测数据更新所述样本数据。
例如,当由于广告推荐***修改而导致字段location的取值不再使用中文字符而是使用数字时,例如用0表示中国,可以用所述待测数据更新所述样本数据,从而用更新后的样本数据更新验证规则,即验证规则可以变为当location=0时,position的取值可以是中国的任意省份。
或者,当***增加了新功能从而出现新的输入和输出数据时,根据本公开实施例的数据验证方法也能够通过关联分析自动发现这些新的输入和输出数据之间的关联字段及所述关联字段之间的相应关联关系,并相应地生成新的验证规则。
采用这种方式,可以跟随线上获得的变化的待测数据更新样本数据,从而自动更新验证规则,减少人工干预,验证规则具有自适应的特点,提高了验证过程的效率和灵活性。
根据本公开实施例,使用所述待测数据更新所述样本数据,包括:当所述待测数据满足所述验证规则时,使用所述待测数据更新所述样本数据;当所述待测数据不满足所述验证规则时,进行报警和/或使用所述待测数据更新所述样本数据。
根据本公开实施例,可以根据线上获得的待测数据更新样本数据,来实时更新验证规则。当被测***被修改时,用于产生输出数据的方式可能发生变化,因此需要相应地调整规则。有些情况下,虽然新的输出数据仍然满足旧的规则,但旧的规则实际上已不适用于验证新的输出数据。
例如,在原广告推荐***中,当用户的查询请求是“足球”时,返回的是按照销量排序的足球卖家列表,验证规则是销量越高的卖家排名越高。广告推荐***修改后,返回的是按照好评数排序的足球卖家列表。虽然按照好评数排序的卖家列表可能偶尔与按照销量排序的卖家列表相同,但“销量越高的卖家排名越高”这一验证规则显然已经不适用修改后的广告推荐***,所以,即使待测数据组符合原有验证规则,仍有必要基于待测数据组更新样本数据,并实时更新验证规则。
换言之,当被测***被修改后,被测***的输出虽然仍旧满足原先的验证规则,但是原先的验证规则实际上已不再不适用,此时需要根据待测数据更新样本数据,自动调整验证规则,适应被测***的修改。
根据本公开实施例,当所述待测数据组不满足所述验证规则时,进行报警和/或使用所述待测数据更新所述样本数据。例如,当作为第一待测数据的广告查询请求中location=中国,而作为第二待测数据的广告推荐为日本商户的广告,此输出不符合验证规则,于是可以进行报警,由管理员确认此输出是***错误导致的还是***修改导致的,并且决定是否要使用待测数据组来更新样本数据。或者,在不方便进行人工干预的情况下,当第二待测数据不满足所述验证规则时,也可以默认使用待测数据组来更新样本数据。使用更新的样本数据进行学习,可以相应地更新验证规则。如果更新验证规则后发现持续出现待测数据组不满足更新后的验证规则的情况下,则进行人工干预,否则可以使用更新的验证规则来进行验证。
根据本公开实施例,对所述第一样本数据和/或所述第二样本数据进行统计,剔除所述第一样本数据和/或第二样本数据中字段的取值存在异常的样本数据。
在用样本数据生成验证规则之前,先要对第一样本数据和第二样本数据进行筛选,剔除其中明显异常的数据,避免生成不合理的验证规则。
例如,可以通过统计方法来剔除样本数据中明显异常的数据。例如,第一样本数据和第二样本数据中明显与其他样本数据的格式不一致的数据,应予以剔除,以避免在学习过程中造成错误甚至***故障。
根据本公开实施例,基于验证规则对所述待测数据进行验证,之前进一步包括:从所述样本数据进行学习得到的验证规则和预先设定的验证规则中,选择用于对所述待测数据进行验证的验证规则。
根据本公开实施例,除了可以使用样本数据学习得到验证规则,也可以通过预先设定的方式设定验证规则。例如,第一样本数据的广告查询请求中location=中国时,设定验证规则是推荐中国、日本、韩国的广告。在实际使用中,可以根据需要灵活选择学习得到的验证规则或预先设定的验证规则。
根据本公开实施例,所述第一样本数据和所述第一待测数据包括用户请求;所述第二样本数据和所述第二待测数据包括响应于所述用户请求而获得的返回数据和/或日志数据。
例如,第一样本数据和第一待测数据包括用户通过语音、手势、触摸屏点触、对话框文本输入等提出的请求,第二样本数据和第二待测数据是响应于上述用户请求而获得的语音、图像、图形、曲线、文本等返回数据和/或日志数据。例如,在广告推荐***中,第一样本数据和第一待测数据可以是用户通过语音或文本输入的商品查询请求,第二样本数据和第二待测数据可以是***响应于商品查询请求而提供给用户的查询结果和/或***响应时间。
例如,样本数据组中的第一样本数据和第二样本数据分别是用户对A商品的历史查询请求和***响应于用户对A商品的历史查询请求而提供的商品查询结果中各商品的价格。待测数据组中的第一待测数据和第二待测数据分别是用户对A商品的当前查询请求和***响应于用户对A商品的当前查询请求而提供的商品查询结果中各商品的价格。
根据样本数据组可以确定验证规则“***响应于对A商品的查询请求而提供的商品查询结果中各商品的价格在价格区间R中”,如果第二待测数据中有商品价格不在该区间R中,则待测数据组不满足该验证规则。或者,根据样本数据组可以确定验证规则“***响应于对A商品的查询请求而提供的商品查询结果中各商品的价格具有分布曲线C”,如果第二待测数据的商品价格不具有分布曲线C,则待测数据组不满足该验证规则。此时可以进一步检查是否出现***异常或是否有某些商户进行了不适当的定价。
根据本公开实施例,至少一个所述样本数据组和/或至少一个所述待测数据组是在生产环境获得的。根据本公开实施例,生产环境是指***上线之后的实际使用环境。样本数据组可以是预先获得的训练样本,或者可以是***上线之后在进行线上测试时获得的实际数据。使用生产环境得到的数据来生成验证规则,能够随***的改变而及时调整规则或发现规则,相比于人工撰写规则而言更加灵活便捷。
图4是根据本公开实施例的数据验证方法的整体流程示意图。
在图4中,训练数据通过特征引擎,经由相关性规则生成若干事实,例如第一样本数据的广告查询请求中location=中国,第二样本数据的广告推荐为广东、湖南商户的广告。将事实通过规则模板生成各验证规则。在生成验证规则后,针对测试数据,通过内容初始化、商业解析、智能分析和规则加载,抽取出和测试数据、应用场景相对应的验证规则,再根据验证规则对测试数据进行验证,得到验证结果。
图5是根据本公开实施例的数据验证装置的结构框图。
在图5中,数据验证装置500包括:
样本数据获取模块501,用于获取多个样本数据,所述样本数据包括第一样本数据和第二样本数据;
验证规则生成模块502,用于通过关联分析算法对所述样本数据进行学习,以生成验证规则;
待测数据获取模块503,用于获取待测数据,所述待测数据包括第一待测数据和第二待测数据;
待测数据验证模块504,用于基于验证规则对所述待测数据进行验证。
根据本公开实施例,所述通过关联分析算法对所述样本数据进行学习,以生成验证规则,包括:
通过关联分析算法对所述样本数据进行学习,确定所述第一样本数据和所述第二样本数据之间的关联关系;
基于所述关联关系生成所述验证规则。
根据本公开实施例,所述通过关联分析算法对所述样本数据进行学习,确定所述第一样本数据和所述第二样本数据之间的关联关系,包括:通过关联分析算法确定所述第一样本数据和所述第二样本数据之间的关联字段;
基于所述关联关系生成所述验证规则,包括:基于所述第一样本数据和所述第二样本数据之间的关联字段生成验证规则。
根据本公开实施例,所述通过关联分析算法确定所述第一样本数据和所述第二样本数据之间的关联字段,包括:通过关联分析算法,确定所述第一样本数据和所述第二样本数据存在关联的字段、存在关联的字段之间的取值范围关系;
所述基于所述第一样本数据和所述第二样本数据之间的关联字段生成验证规则,包括:基于所述第一样本数据和所述第二样本数据存在关联的字段、存在关联的字段之间的取值范围关系,生成验证规则。
根据本公开实施例,所述数据验证装置还包括:
样本数据更新模块,用所述待测数据更新所述样本数据。
根据本公开实施例,使用所述待测数据更新所述样本数据,包括:
当所述待测数据满足所述验证规则时,使用所述待测数据更新所述样本数据;
当所述待测数据不满足所述验证规则时,进行报警和/或使用所述待测数据更新所述样本数据。
根据本公开实施例,所述数据验证装置还包括:
异常数据剔除模块,用于对所述第一样本数据和/或所述第二样本数据进行统计,剔除所述第一样本数据和/或第二样本数据中字段的取值存在异常的样本数据。
根据本公开实施例,基于验证规则对所述待测数据进行验证,之前进一步包括:
从所述样本数据进行学习得到的验证规则和预先设定的验证规则中,选择用于对所述待测数据进行验证的验证规则。
根据本公开实施例,所述第一样本数据和所述第一待测数据包括用户请求;
所述第二样本数据和所述第二待测数据包括响应于所述用户请求而获得的返回数据和/或日志数据。
根据本公开实施例,至少一个所述样本数据和/或至少一个所述待测数据是在生产环境获得的。
根据本公开实施例,本公开提出了一种用于对查询请求进行改写的方法,其特征在于,所述方法包括:获取样本数据,所述样本数据包括历史查询请求数据和历史查询结果数据;通过关联分析算法对所述样本数据进行学习,以生成对查询请求数据进行改写的改写规则;获取实时查询请求数据,基于所述改写规则对所述实时查询请求数据进行改写。
例如,通过对历史查询请求数据和历史查询结果数据进行学习,发现以关键词“夏季薄款运动服”进行查询能够得到对应的运动服商品列表,于是得到改写规则:将“夏薄运动服”、“夏季薄动服”改写为“夏季薄款运动服”。在接收到实时用户查询请求“夏薄运动服”时,可以将其改写为“夏季薄款运动服”,从而得到准确的查询结果。
图6是适用于实现本公开实施例的数据验证方法的计算机***的结构示意图。
如图6所示,计算机***600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分609加载到随机访问存储器(RAM)603中的程序而执行上述实施例中的各种处理。在RAM603中,还存储有***600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分909经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在其可读介质上的计算机程序,所述计算机程序包含用于执行上述数据管理和/或访问方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种可读存储介质,该可读存储介质可以是上述实施例中计算机***中所包含的可读存储介质;也可以是单独存在,未装配入设备中的可读存储介质。可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域开发人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (13)

1.一种数据验证方法,其特征在于,包括:
获取样本数据,所述样本数据包括第一样本数据和第二样本数据;
通过关联分析算法对所述样本数据进行学习,以生成验证规则;
获取待测数据,所述待测数据包括第一待测数据和第二待测数据;
基于验证规则对所述待测数据进行验证。
2.根据权利要求1所述的方法,其特征在于,所述通过关联分析算法对所述样本数据进行学习,以生成验证规则,包括:
通过关联分析算法对所述样本数据进行学习,确定所述第一样本数据和所述第二样本数据之间的关联关系;
基于所述关联关系生成所述验证规则。
3.根据权利要求2所述的方法,其特征在于:
所述通过关联分析算法对所述样本数据进行学习,确定所述第一样本数据和所述第二样本数据之间的关联关系,包括:通过关联分析算法确定所述第一样本数据和所述第二样本数据之间的关联字段;
基于所述关联关系生成所述验证规则,包括:基于所述第一样本数据和所述第二样本数据之间的关联字段生成验证规则。
4.根据权利要求3所述的方法,其特征在于:
所述通过关联分析算法确定所述第一样本数据和所述第二样本数据之间的关联字段,包括:通过关联分析算法,确定所述第一样本数据和所述第二样本数据存在关联的字段、存在关联的字段之间的取值范围关系;
所述基于所述第一样本数据和所述第二样本数据之间的关联字段生成验证规则,包括:基于所述第一样本数据和所述第二样本数据存在关联的字段、存在关联的字段之间的取值范围关系,生成验证规则。
5.根据权利要求1所述的方法,其特征在于,还包括:
用所述待测数据更新所述样本数据。
6.根据权利要求5所述的方法,其特征在于,使用所述待测数据更新所述样本数据,包括:
当所述待测数据满足所述验证规则时,使用所述待测数据更新所述样本数据;
当所述待测数据不满足所述验证规则时,进行报警和/或使用所述待测数据更新所述样本数据。
7.根据权利要求1所述的方法,其特征在于,还包括:
对所述第一样本数据和/或所述第二样本数据进行统计,剔除所述第一样本数据和/或第二样本数据中字段的取值存在异常的样本数据。
8.根据权利要求1所述的方法,其特征在于,基于验证规则对所述待测数据进行验证,之前进一步包括:
从所述样本数据进行学习得到的验证规则和预先设定的验证规则中,选择用于对所述待测数据进行验证的验证规则。
9.根据权利要求1所述的方法,其特征在于:
所述第一样本数据和所述第一待测数据包括用户请求;
所述第二样本数据和所述第二待测数据包括响应于所述用户请求而获得的返回数据和/或日志数据。
10.根据权利要求1所述的方法,其特征在于,至少一个所述样本数据和/或至少一个所述待测数据是在生产环境获得的。
11.一种数据验证装置,其特征在于,包括:
样本数据获取模块,用于获取样本数据,所述样本数据包括第一样本数据和第二样本数据;
验证规则生成模块,用于通过关联分析算法对所述样本数据进行学习,以生成验证规则;
待测数据获取模块,用于获取待测数据,所述待测数据包括第一待测数据和第二待测数据;
待测数据验证模块,用于基于验证规则对所述待测数据进行验证。
12.一种计算机可读存储介质,存储有可执行指令,当所述可执行指令被处理器执行时,实现根据权利要求1~10中任一项所述的数据验证方法。
13.一种用于对查询请求进行改写的方法,其特征在于,所述方法包括:
获取样本数据,所述样本数据包括历史查询请求数据和历史查询结果数据;
通过关联分析算法对所述样本数据进行学习,以生成对查询请求数据进行改写的改写规则;
获取实时查询请求数据,基于所述改写规则对所述实时查询请求数据进行改写。
CN201910722886.3A 2019-08-06 2019-08-06 数据验证方法、装置及可读存储介质 Pending CN112347137A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910722886.3A CN112347137A (zh) 2019-08-06 2019-08-06 数据验证方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910722886.3A CN112347137A (zh) 2019-08-06 2019-08-06 数据验证方法、装置及可读存储介质

Publications (1)

Publication Number Publication Date
CN112347137A true CN112347137A (zh) 2021-02-09

Family

ID=74367210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910722886.3A Pending CN112347137A (zh) 2019-08-06 2019-08-06 数据验证方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN112347137A (zh)

Similar Documents

Publication Publication Date Title
US8285721B2 (en) Mapping item records to product records
CN109167816B (zh) 信息推送方法、装置、设备和存储介质
US20230066853A1 (en) Method and apparatus for training information prediction models, method and apparatus for predicting information, and storage medium and device thereof
US8489533B2 (en) Inferring view sequence and relevance data
US8793201B1 (en) System and method for seeding rule-based machine learning models
CN114663198A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN110427358B (zh) 数据清洗方法及装置和信息推荐方法及装置
CN109409419B (zh) 用于处理数据的方法和装置
US8577814B1 (en) System and method for genetic creation of a rule set for duplicate detection
US10867249B1 (en) Method for deriving variable importance on case level for predictive modeling techniques
CN111340605B (zh) 训练用户行为预测模型、用户行为预测的方法和装置
US20160063394A1 (en) Computing Device Classifier Improvement Through N-Dimensional Stratified Input Sampling
CN108984777A (zh) 客户服务方法、装置和计算机可读存储介质
CN108399545B (zh) 电子商务平台质量检测方法和装置
CN111368195B (zh) 一种模型训练方法、装置、设备及存储介质
CN108460049A (zh) 一种确定信息类别的方法和***
US20170031927A1 (en) Multi-term query subsumption for document classification
CN115860872A (zh) 一种目标物品确定方法、装置、电子设备及存储介质
CN112347137A (zh) 数据验证方法、装置及可读存储介质
JP5640796B2 (ja) 名寄せ支援処理装置、方法及びプログラム
US20220309390A1 (en) Machine-learning-based unsupervised master data correction
CN113656586A (zh) 情感分类方法、装置、电子设备及可读存储介质
US20080005159A1 (en) Method and computer program product for collection-based iterative refinement of semantic associations according to granularity
CN112596725A (zh) 编程作品的评分方法、评分装置、终端设备及存储介质
JPWO2020085374A1 (ja) 熟練指数提供装置、熟練指数提供方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination