CN110413635A

CN110413635A - 一种数据处理方法以及装置

Info

Publication number: CN110413635A
Application number: CN201910689137.5A
Authority: CN
Inventors: 魏世康; 高双; 陈晨; 杨宇; 田正中; 兰杰; 吴洋; 刘泉
Original assignee: Koubei Shanghai Information Technology Co Ltd
Current assignee: Koubei Shanghai Information Technology Co Ltd
Priority date: 2019-06-20
Filing date: 2019-07-29
Publication date: 2019-11-05

Abstract

本申请公开了一种数据处理方法以及装置，该方法包括：在获得待质检数据的目标特征信息后，判断是否可根据质检结果信息库获得该目标特征信息对应的第一目标质检结果信息，如果是，则从质检结果信息库中获得所述目标特征信息对应的第一目标质检结果信息，如果否，则对待质检数据进行质量检验，获得目标特征信息对应的第二目标质检结果信息，并且将第二目标质检结果信息和目标特征信息添加至质检结果信息库中。通过使用本方法，可采用统一方式、高效完成对来自监控***、工单***、任务流***、知识库等不同***的处理数据和处理过程的数据质量检验过程，可解决现有的数据质量检验过程缺乏通用性和高效性的问题。

Description

一种数据处理方法以及装置

技术领域

本申请涉及数据质量检验领域，具体涉及一种数据处理方法。本申请同时涉及一种数据处理装置以及一种电子设备。

背景技术

随着电子商务领域的餐饮服务、在线商品交易、知识订阅、服务预定等业务的发展，与之对应的线下保障业务越来越复杂，因此，需通过建立保障中台来支撑电子商务领域的客户服务、技术开发、数据存储等环节的保障业务，使得监控***、工单***、任务流***、知识库等***的服务能力不断健全。线下保障业务包括发现问题、解决问题、反馈问题等多个方面，其中，数据质量检验是线下保障业务的核心环节。

然而，目前只能使用报表监控、人工处理等手段对来自监控***、工单***、任务流***、知识库等不同***的处理数据和处理过程分别进行数据质量检验，使得数据质量检验的方式较为复杂和多样，数据质量检验的过程缺少通用性和高效性。

发明内容

本申请提供一种数据处理方法，以解决现有的数据质量检验过程缺少通用性和高效性的问题。本申请另外提供一种数据处理装置以及一种电子设备。本申请还提供一种数据抽样方法、一种数据抽样装置以及一种电子设备。

本申请提供一种数据处理方法，包括：

获得待质检数据；

获得所述待质检数据的目标特征信息；

判断是否可根据质检结果信息库获得所述目标特征信息对应的第一目标质检结果信息；

如果是，则从所述质检结果信息库中获得所述目标特征信息对应的第一目标质检结果信息；

如果否，则对所述待质检数据进行质量检验，获得所述目标特征信息对应的第二目标质检结果信息；

将所述第二目标质检结果信息和所述目标特征信息添加至所述质检结果信息库中。

可选的，所述获得所述待质检数据的目标特征信息，包括：

对所述目标质检数据进行特征提取，获得所述待质检数据的初始特征信息；

对所述初始特征信息进行标准化处理，获得所述目标特征信息。

可选的，所述获得待质检数据，包括：

获得需要进行数据质量检验的原始数据；

获得目标抽样任务；

根据所述目标抽样任务对所述原始数据进行抽样处理，获得待质检数据。

可选的，所述获得目标抽样任务，包括：

获得基础抽样项；

根据所述原始数据和所述基础抽样项，获得与所述原始数据相匹配的叠加抽样项；

将所述基础抽样项与所述叠加抽样项进行合并，获得抽样项集合；

根据所述抽样项集合生成目标抽样任务。

可选的，所述根据所述原始数据和所述基础抽样项，获得与所述原始数据相匹配的叠加抽样项，包括：

根据所述基础抽样项生成基础抽样任务；

根据所述基础抽样任务获得基础抽样分布数量；

判断所述基础抽样分布数量是否与所述原始数据对应的场景需求相匹配；

如果不匹配，则根据所述原始数据对应的场景需求对所述基础抽样分布数量进行补偿处理，获得所述叠加抽样项。

可选的，所述获得基础抽样项，包括：

提取所述原始数据的特征；

计算所述原始数据的特征的基础权重值；

根据所述基础权重值，确定原始数据的特征权重的正常范围；

根据所述原始数据的特征权重的正常范围，获得基础抽样项。

可选的，根据所述抽样项集合生成目标抽样任务，包括：

根据所述抽样项集合生成抽样任务语句；

对所述抽样任务语句进行校验；

对通过校验的抽样任务语句设定任务触发方式，获得目标抽样任务。

可选的，所述对所述待质检数据进行质量检验，获得所述目标特征信息对应的第二目标质检结果信息，包括：

根据所述待质检数据获得待质检项；

判断所述待质检项是否为针对客观数据的质检项；

如果是，则按预设质检算法对所述待质检数据进行质检，获得第二目标质检结果信息；

如果否，则将所述待质检数据发送至人工干预端，并接收所述人工干预端返回的第二目标质检结果信息。

可选的，所述目标特征信息包括特征关键字和所述特征关键字对应的权重数据，所述目标特征信息为所述质检结果信息库中的已有特征信息，所述将所述目标特征信息添加至所述质检结果信息库中，包括：

调整所述质检结果信息库中的所述目标特征信息的特征关键字所对应的权重数据。

可选的，所述目标特征信息为所述质检结果信息库中不存在的特征信息，所述将所述目标特征信息添加至所述质检结果信息库中，包括：

在所述质检结果信息库中创建所述目标特征信息。

本申请还提供一种数据处理装置，包括：

待质检数据获得单元，用于获得待质检数据；

目标特征信息获得单元，用于获得所述待质检数据的目标特征信息；

判断单元，用于判断是否可根据质检结果信息库获得所述目标特征信息对应的第一目标质检结果信息；

第一目标质检结果信息获得单元，用于在确定可根据质检结果信息库获得所述目标特征信息对应的第一目标质检结果信息时，从所述质检结果信息库中获得所述目标特征信息对应的第一目标质检结果信息；

第二目标质检结果信息获得单元，用于在确定无法根据质检结果信息库获得所述目标特征信息对应的第一目标质检结果信息时，对所述待质检数据进行质量检验，获得所述目标特征信息对应的第二目标质检结果信息；

信息添加单元，用于将所述第二目标质检结果信息和所述目标特征信息添加至所述质检结果信息库中。

本申请还提供一种电子设备，包括：

处理器；

存储器，用于存储数据处理程序，所述程序在被所述处理器读取执行时，执行如下操作：

获得待质检数据；

获得所述待质检数据的目标特征信息；

本申请还提供一种数据抽样方法，包括：

获得待抽样的原始数据；

获得基础抽样项；

根据所述基础抽样项和所述叠加抽样项，获得目标抽样任务；

根据所述目标抽样任务对所述原始数据进行抽样处理，获得目标抽样数据。

根据所述基础抽样项生成基础抽样任务；

根据所述基础抽样任务获得基础抽样分布数量；

可选的，所述获得基础抽样项，包括：

提取所述原始数据的特征；

计算所述原始数据的特征的基础权重值；

可选的，所述根据所述基础抽样项和所述叠加抽样项，获得目标抽样任务，包括：

根据所述抽样项集合生成目标抽样任务。

可选的，所述根据所述抽样项集合生成目标抽样任务，包括：

根据所述抽样项集合生成抽样任务语句；

对所述抽样任务语句进行校验；

本申请还提供一种数据抽样装置，包括：

原始数据获得单元，用于获得需进行抽样处理的原始数据；

基础抽样项获得单元，用于获得基础抽样项；

叠加抽样项获得单元，用于根据所述原始数据和所述基础抽样项，获得与所述原始数据相匹配的叠加抽样项；

目标抽样任务获得单元，用于根据所述基础抽样项和所述叠加抽样项，获得目标抽样任务；

目标抽样数据获得单元，用于根据所述目标抽样任务对所述原始数据进行抽样处理，获得目标抽样数据。

本申请还提供一种电子设备，包括：

处理器；

存储器，用于存储数据抽样程序，所述程序在被所述处理器读取执行时，执行如下操作：

获得待抽样的原始数据；

获得基础抽样项；

与现有技术相比，本申请具有以下优点：

本申请提供的数据处理方法，在获得待质检数据的目标特征信息后，判断是否可根据质检结果信息库获得该目标特征信息对应的第一目标质检结果信息，如果是，则从质检结果信息库中获得所述目标特征信息对应的第一目标质检结果信息，如果否，则对待质检数据进行质量检验，获得目标特征信息对应的第二目标质检结果信息，并且将第二目标质检结果信息和目标特征信息添加至质检结果信息库中。通过使用该方法，可采用统一方式、高效完成对来自监控***、工单***、任务流***、知识库等异构***的处理数据和处理过程的数据质量检验，可有效解决现有的数据质量检验过程缺乏通用性和高效性的问题。

附图说明

图1是本申请第一实施例提供的方法流程图；

图2是本申请第二实施例提供的装置单元框图；

图3是本申请第三实施例提供的电子设备示意图；

图4是本申请第四实施例提供的方法流程图；

图5是本申请第五实施例提供的装置单元框图；

图6是本申请第六实施例提供的电子设备示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

针对电子商务领域的数据质量检验场景，为了实现数据质量检验过程的通用性和高效性，本申请提供了一种数据处理方法、与该方法相对应的数据处理装置以及电子设备。本申请还提供一种数据抽样方法、一种数据抽样装置以及一种电子设备。以下提供实施例对所述方法、装置以及电子设备进行详细说明。

本申请第一实施例提供一种数据处理方法，该方法的应用主体可以为用于进行数据质量检验的计算设备应用，图1为本申请第一实施例提供的数据处理方法流程图，以下结合图1对本实施例提供的方法进行详细描述。以下描述所涉及的实施例是用来解释说明方法原理，不是实际使用的限定。

如图1所示，本实施例提供的数据处理方法包括如下步骤：

S101，获得待质检数据。

在本实施例中，待质检数据为针对需要进行数据质量检验的原始数据执行抽样任务后得到的数据。获得待质检数据的过程包括如下内容：

A、获得需要进行数据质量检验的原始数据。

需要进行数据质量检验的原始数据可以为***工单数据、知识库数据、任务数据、监控预警项数据等包含人工处理流程且需要进行质量控制的数据。***工单数据可以是针对运营人员所反馈的问题、客户投诉、客户咨询等事项的记录数据，任务数据可以是***各方协同处理问题的流程化步骤，知识库可以是指用于协助解决工单中所包含的各类问题的数据集，知识库数据可以为业务知识和问题排查步骤等内容；监控报警项是指对应用后台日志的监控事项，例如报警的对象、出现报错的时间、频次等。

在本实施例中，获得需要进行数据质量检验的原始数据的方式可以为：通过预定的数据清洗方式对***数据进行数据清洗，获得上述原始数据。

B、获得目标抽样任务。

目标抽样任务指的是用于对上述原始数据执行抽样操作的任务数据。在本实施例中，获得目标抽样任务的过程包含如下内容：

B-1、获得基础抽样项。

在本实施例中，抽样项分为基础抽样项和叠加抽样项，基础抽样项可以是按照单一维度进行均分抽样的抽样规则，例如按照人员维度或者被抽样实体维度进行均分抽样的规则；叠加抽样项是在基础抽样项的基础上进行比例倾斜的抽样规则，例如，在均分抽样的基础上，对某一类实体或者某一类人员倾斜一定百分比进行抽样，在本实施例中，叠加抽样项与业务场景强相关。

本实施例中，获得基础抽样项的方式包括如下内容：

首先，提取上述需要进行数据质量检验的原始数据的特征，例如，遍历所有相同类型的离线待检数据，如待检的***工单数据，并提取所遍历的离线待检数据的所有特征，如提取***工单数据的类型、来源、工单产生时间、工单处理时长及其它内容特征。

原始数据的特征可分为外部特征和内部特征。外部特征是指易发生变化的特征，例如，针对***工单数据(以下简称工单)，其外部特征包括工单产生时间、工单处理时长、工单滞留时长(例如、提交到下一个处理节点时可能出现的无人申领处理的不确定状况)、工单流转次数等因不确定因素的影响而容易发生变化的特征；内部特征是指较为稳定的，不会被随意改变的特征，如工单标题、工单类目、工单关键字、工单故障级别、工单问题描述、工单备注等特征。

其次，计算上述原始数据的特征的基础权重值。计算特征的基础权重值可以采取方差计算的方式，例如，计算出工单的处理时长为2个小时、工单的内容平均字符数量为140个等等，该平均处理时长和平均字符数量即为基础权重值。

然后，根据上述原始数据的特征的基础权重值，确定原始数据的特征权重的正常范围，具体可根据上述基础权重值和权重阈值(权重阈值根据参数调优得到，例如采用控制变量法对权重阈值进行伸缩处理，获得最优权重阈值)得到原始数据的特征权重的正常范围。例如，特征A的基础权重值是a，且权重阈值是b，则特征A的权重正常范围是(a-b，a+b)。确定原始数据的特征权重的正常范围，即可确定出特征权重处于正常范围内的原始数据。

最后，根据上述确定出的原始数据的特征权重的正常范围，获得基础抽样项。在本实施例中，基础抽样项为需要抽取的特征权重处于正常范围内的原始数据的类型和抽取百分比，例如，抽样项1：抽取点餐工单10％；抽样项2：抽取耗时超过20分钟的商品工单20％。

B-2、根据上述原始数据和基础抽样项，获得与原始数据相匹配的叠加抽样项，该过程实质为获得与原始数据对应的场景需求相匹配的叠加抽样项。在本实施例中，获得上述叠加抽样项的过程包括如下内容：

首先，根据基础抽样项生成基础抽样任务。基础抽样项为按照单一维度进行均分抽样的抽样规则，基础抽样任务是实现该抽样规则的具体方式。根据基础抽样项生成基础抽样任务的方式可以为：根据基础抽样项的内容生成能够执行抽样操作的SQL语句，该SQL语句经规则校验和任务触发设定后，即生成基础抽样任务。

其次，根据基础抽样任务获得基础抽样分布数量；例如，执行上述基础抽样任务，并统计被抽取对象的分布数量，如正常范围下的点餐工单数量、异常范围下的点餐工单数量等。抽取分布数量是指正常点餐工单、耗时超过20分钟的点餐工单、异常点餐工单、正常商品工单、耗时超过20分钟的商品工单、异常商品工单等不同工单类型下所对应的抽取数量。

最后，判断所述基础抽样分布数量是否与所述原始数据对应的场景需求相匹配；如果不匹配，则根据所述原始数据对应的场景需求对所述基础抽样分布数量进行补偿处理，获得所述叠加抽样项。叠加抽样项的主要作用是对重合数据做去重处理，例如，最后得到正常范围下的点餐工单数量是12％，而当前的抽样规则设定是10％，则表明还有2％的点餐工单处于应该被抽取而未被抽取的状态，因此需针对该2％的点餐工单进行补偿处理，在本实施例中，补偿处理方式采取简单的多退少补的方法。

例如，抽样项如下：抽样项1：点餐工单取10％；抽样项2：耗时超过20分钟的点餐工单取20％；抽样项3：耗时超过20分钟的商品工单取20％；抽样项4：异常的商品工单取10％；点餐工单共100单，其中耗时超过20分钟的点餐工单有60单。商品工单共200单，其中耗时超过20分钟的商品工单有140单。则根据三个抽样项叠加，最后抽取的工单数量为：点餐工单10+12＝22(假设抽样项1和抽样项2抽取的工单不重叠，若重叠则数量小于22)；商品工单28+20＝48(假设异常商品工单和耗时超过20分钟的商品工单不重叠，若重叠，则数量小于48)。

B-3、将基础抽样项与叠加抽样项进行合并，获得抽样项集合。

B-4、根据抽样项集合生成目标抽样任务。

根据抽样项集合生成目标抽样任务的过程具体可以为：根据抽样项集合生成抽样任务语句，例如根据抽样项集合中抽样项之间的关系生成抽样SQL语句；对该抽样任务语句进行校验，例如进行SQL规则校验；对通过校验的抽样任务语句设定任务触发方式，获得目标抽样任务，例如，判断经抽样后获得的数据是用于定时任务或是不定时触发任务，如果是用于定时任务，则目标抽样任务为定时抽样任务，按照定时周期被动触发；如果是用于不定时触发任务，则目标抽样任务为不定时抽样任务，例如手动触发抽样任务。

C、根据目标抽样任务对上述原始数据进行抽样处理，获得待质检数据。

S102，获得待质检数据的目标特征信息。

本实施例中，获得待质检数据的目标特征信息，具体包括如下内容：

首先，对目标质检数据进行特征提取，获得所述待质检数据的初始特征信息。特征提取的主要思想是根据多维特征解决分类问题，可结合多种解决分类问题的机器学习算法实现该特征提取的过程，如朴素贝叶斯算法等。

其次，对初始特征信息进行标准化处理，获得所述目标特征信息。例如，根据实体ID、处理人、抽检批次、抽样ID等信息建立标准化模型，将不同类型的待质检数据的初始特征信息进行标准化处理。

例如：标准化处理前，初始特征信息包含：工单编号、工单发生时间、用户ID、商户ID、商户名称、门店ID、门店名称、门店所在省市、门店地址、订单号、商品ID、券ID、活动ID、活动名称等基础信息以及客服处理备注、技术保障处理备注、问题原因、解决方案、相关处理人员、是否上传凭证等问题处理信息。标准化处理后，获得的目标特征信息为由特征关键字和该特征关键字权重值组成的二维矩阵，例如：特征关键字1：关键字权重值30；特征关键字2：关键字权重值23；特征关键字3：关键字权重值121…，每一个工单都对应一个二维矩阵，所有工单组成三维矩阵M*N*2，其中M是指工单数量，N是特征关键字总量，2表示三维矩阵中的特征关键字和关键字权重值两列信息。

S103，判断是否可根据质检结果信息库获得目标特征信息对应的第一目标质检结果信息。

质检结果信息库中包含质检结果与特征信息的对应关系，对历史数据中获得的多维度的质检结果进行聚类分析后，建立该质检结果与特征信息的对应关系，对于历史上通过人工打分的方式获得的质检结果的待质检数据，在其获得质检结果后，对该质检结果所对应的待质检数据进行特征提取和聚类分析，获得该质检结果对应的经标准化处理之后的特征信息，并建立该质检结果与特征信息之间的对应关系。

将目标特征信息与质检结果信息库中的特征信息进行匹配，根据匹配结果判断是否可根据质检结果信息库获得目标特征信息对应的第一目标质检结果信息，例如：需进行打分的工单A包含10个特征关键字，10个特征关键字所对应的权重值分别为(21，23，12，23，42，234，545，64，6756，32)，而质检结果信息库中，包含该10个特征关键字，且和工单A相似或相同的工单有5个(可以使用余弦相似性或者LDA主题模型等聚类方式判断工单之间的相似性)，分别是工单B、C、D、E、F，则可根据质检结果信息库中与工单A相似或相同的工单所对应的质检结果信息，获得目标特征信息对应的第一目标质检结果信息。

S104-1，如果根据质检结果信息库能够获得目标特征信息对应的第一目标质检结果信息，则从所述质检结果信息库中获得所述目标特征信息对应的第一目标质检结果信息。

例如，上述B、C、D、E、F工单的得分(质检结果)分别是(7分，8分，7分，8分，7分)，则可以得出工单A的得分为(7+8+7+8+7)/5。除了上述的平均算法，还可以采用加权平均算法或其它更为复杂的分数计算方法计算获得工单A的得分。

S104-2，如果根据质检结果信息库不能获得目标特征信息对应的第一目标质检结果信息，则对所述待质检数据进行质量检验，获得所述目标特征信息对应的第二目标质检结果信息。此处使用第二目标质检结果信息，其目的在于与上述第一目标质检结果信息进行区分。

本实施例中，对待质检数据进行质量检验，获得所述目标特征信息对应的第二目标质检结果信息的过程包括如下内容：

首先，根据待质检数据获得目标质检项。目标质检项指的是针对待质检数据的数据质量检验规则，不同数据类型的待质检数据，对应不同的质检项，例如，工单数据需对应针对工单***的数据质量检验规则。在本实施例中，根据待质检数据获得目标质检项，其实质为：从已有数据质量检验规则中选取与待质检数据的数据类型相匹配的数据质量检验规则。

其次，判断所述目标质检项是否为针对客观数据的质检项。

在本实施例中，质检项可以分为主观质检项和客观质检项，主观质检项是指难以直接通过质检算法给出质检结果，需要人工主观参与的方式才能获得质检结果的质检项，该类型质检项需在大量数据积累的基础上才能通过智能化的方式获得质检结果，例如，通过预设算法，根据上述质检结果信息库中存在的、与待质检工单相似的工单的质检结果对待质检工单进行打分，以此获得该待质检工单的智能化质检结果。客观质检项是指针对客观数据的质检项，如针对工单产生时间、工单处理时长、工单滞留时长等客观数据的质检项，这些待质检数据可以直接由预定的质检算法进行打分。

如果根据上述判断获知目标质检项是针对客观数据的质检项，则按该质检项所对应的质检算法对待质检数据进行智能化质检，获得第二目标质检结果信息。需要说明的是，该智能化质检的过程需要对待质检数据进行数据导入，例如，通过数据实时计算平台进行数据质量检验，由于待质检数据来自工单***、知识库、任务流***等多种数据来源，且都存储于各个业务域的数据库中，因此需要提供一个能支持来自多个异构数据源的质检数据实现数据导入的能力。该过程需触发质检数据导入任务，触发机制可以是定时被动触发，也可以是人工主动触发，为了区分每次导入的数据，可分批次导入待质检数据。

需要说明的是，如果目标质检项不是针对客观数据的质检项，则将所述待质检数据发送至人工干预端，并接收所述人工干预端返回的第二目标质检结果信息。

S105，将上述第二目标质检结果信息和目标特征信息添加至质检结果信息库中。

由上述内容可知，目标特征信息包括特征关键字和该特征关键字对应的权重数据，如果目标特征信息为质检结果信息库中的已有特征信息，则将目标特征信息添加至质检结果信息库中的方式为：调整质检结果信息库中的目标特征信息的特征关键字所对应的权重数据，具体可以采取加权平均法调整该权重数据。调整权重数据的原因是：目标特征信息添加至质检结果信息库中后，质检结果信息库中的权重数据会发生变化，例如，质检结果信息库中，特征关键字A原有的权重数据为(a-b，a+b)，然而，经标准化处理后的目标特征信息中也包含该特征关键字A，其权重数据为c，则质检结果信息库中的特征关键字A的权重数据需要在原有基础上进行调整，使得质检结果信息库中的该特征关键字A更符合实际需求。

如果目标特征信息为质检结果信息库中不存在的特征信息，则将目标特征信息添加至质检结果信息库中的方式为：在质检结果信息库中创建该目标特征信息。

在本实施例中，在上述获得第二目标质检结果信息或第一目标质检结果信息之后，还可进一步针对第二目标质检结果信息或第一目标质检结果信息进行数据应用。例如，对第二目标质检结果信息或第一目标质检结果信息进行数据分析，分析出被质检人A最近一个月内处理工单的数量、处理工单的质量以及处理过程的优缺点等信息，该信息可被发送至被质检人A所使用的终端，被质检人A可通过上述信息进行学习和自查。还可以将上述质检结果信息进行数据化和规范化处理，并将数据化和规范化处理后获得的有效信息输入知识库应用接口进行知识推荐，并将来自知识库的推荐结果传输至被质检人A所使用的终端，被质检人A可以根据该推荐结果进行学习，并通过其使用的终端反馈学习情况。还可将上述第二目标质检结果信息或第一目标质检结果信息应用到被质检人A的绩效评估环节中。通过上述操作，可实现针对质检结果信息的多维度的数据利用。

本实施例提供的数据处理方法，在获得待质检数据的目标特征信息后，判断是否可根据质检结果信息库获得该目标特征信息对应的第一目标质检结果信息，如果是，则从质检结果信息库中获得该目标特征信息对应的第一目标质检结果信息，如果否，则对待质检数据进行质量检验，获得目标特征信息对应的第二目标质检结果信息，并且将第二目标质检结果信息和目标特征信息添加至质检结果信息库中。通过使用本方法，可采用统一方式、高效完成对来自监控***、工单***、任务流***、知识库等不同***的处理数据和处理过程的数据质量检验过程，可避免现有的数据质量检验过程缺乏通用性和高效性的问题。

上述第一实施例提供了一种数据处理方法，与之相对应的，本申请第二实施例还提供了一种数据处理装置，由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可，下述对装置实施例的描述仅仅是示意性的。

请参考图2理解该实施例，图2为本实施例提供的装置单元框图，如图2所示，本实施例提供的装置包括：

待质检数据获得单元201，用于获得待质检数据；

目标特征信息获得单元202，用于获得待质检数据的目标特征信息；

判断单元203，用于判断是否可根据质检结果信息库获得目标特征信息对应的第一目标质检结果信息；

第一目标质检结果信息获得单元204，用于在确定可根据质检结果信息库获得目标特征信息对应的第一目标质检结果信息时，从质检结果信息库中获得目标特征信息对应的第一目标质检结果信息；

第二目标质检结果信息获得单元205，用于在确定无法根据质检结果信息库获得目标特征信息对应的第一目标质检结果信息时，对待质检数据进行质量检验，获得目标特征信息对应的第二目标质检结果信息；

信息添加单元206，用于将第二目标质检结果信息和目标特征信息添加至质检结果信息库中。

可选的，获得待质检数据的目标特征信息，包括：

对目标质检数据进行特征提取，获得待质检数据的初始特征信息；

对初始特征信息进行标准化处理，获得目标特征信息。

可选的，获得待质检数据，包括：

获得需要进行数据质量检验的原始数据；

获得目标抽样任务；

根据目标抽样任务对原始数据进行抽样处理，获得待质检数据。

可选的，获得目标抽样任务，包括：

获得基础抽样项；

根据原始数据和基础抽样项，获得与原始数据相匹配的叠加抽样项；

将基础抽样项与叠加抽样项进行合并，获得抽样项集合；

根据抽样项集合生成目标抽样任务。

可选的，根据原始数据和基础抽样项，获得与原始数据相匹配的叠加抽样项，包括：

根据基础抽样项生成基础抽样任务；

根据所述基础抽样任务获得基础抽样分布数量；

可选的，获得基础抽样项，包括：

提取原始数据的特征；

计算原始数据的特征的基础权重值；

根据基础权重值，确定原始数据的特征权重的正常范围；

根据原始数据的特征权重的正常范围，获得基础抽样项。

可选的，根据抽样项集合生成目标抽样任务，包括：

根据抽样项集合生成抽样任务语句；

对抽样任务语句进行校验；

可选的，对待质检数据进行质量检验，获得目标特征信息对应的第二目标质检结果信息，包括：

根据待质检数据获得待质检项；

判断待质检项是否为针对客观数据的质检项；

如果是，则按预设质检算法对待质检数据进行质检，获得第二目标质检结果信息；

如果否，则将待质检数据发送至人工干预端，并接收人工干预端返回的第二目标质检结果信息。

可选的，目标特征信息包括特征关键字和特征关键字对应的权重数据，目标特征信息为质检结果信息库中的已有特征信息，将目标特征信息添加至质检结果信息库中，包括：

调整质检结果信息库中的目标特征信息的特征关键字所对应的权重数据。

可选的，目标特征信息为质检结果信息库中不存在的特征信息，将目标特征信息添加至质检结果信息库中，包括：

在质检结果信息库中创建目标特征信息。

在上述的实施例中，提供了一种数据处理方法以及一种数据处理装置，此外，本申请第三实施例还提供一种电子设备，由于电子设备实施例基本相似于方法实施例，所以描述得比较简单，相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可，下述对电子设备实施例的描述仅仅是示意性的。该电子设备实施例如下：

请参考图3理解本实施例，图3为本实施例提供的电子设备的示意图。

如图3所示，电子设备包括：处理器301；存储器302；

存储器302，用于存储数据处理的程序，程序在被处理器读取执行时，执行如下操作：

获得待质检数据；

获得待质检数据的目标特征信息；

判断是否可根据质检结果信息库获得目标特征信息对应的第一目标质检结果信息；

如果是，则从质检结果信息库中获得目标特征信息对应的第一目标质检结果信息；

如果否，则对待质检数据进行质量检验，获得目标特征信息对应的第二目标质检结果信息；

将第二目标质检结果信息和目标特征信息添加至质检结果信息库中。

可选的，获得待质检数据的目标特征信息，包括：

对初始特征信息进行标准化处理，获得目标特征信息。

可选的，获得待质检数据，包括：

获得需要进行数据质量检验的原始数据；

获得目标抽样任务；

可选的，获得目标抽样任务，包括：

获得基础抽样项；

将基础抽样项与叠加抽样项进行合并，获得抽样项集合；

根据抽样项集合生成目标抽样任务。

根据基础抽样项生成基础抽样任务；

根据所述基础抽样任务获得基础抽样分布数量；

可选的，获得基础抽样项，包括：

提取原始数据的特征；

计算原始数据的特征的基础权重值；

根据基础权重值，确定原始数据的特征权重的正常范围；

根据原始数据的特征权重的正常范围，获得基础抽样项。

可选的，根据抽样项集合生成目标抽样任务，包括：

根据抽样项集合生成抽样任务语句；

对抽样任务语句进行校验；

根据待质检数据获得待质检项；

判断待质检项是否为针对客观数据的质检项；

在质检结果信息库中创建目标特征信息。

本申请第四实施例提供一种数据抽样方法，该方法的应用主体可以为用于对数据进行抽样处理的计算设备应用，如图4所示，图4为本实施例提供的方法流程图。在图4中，本实施例提供的数据抽样方法包括如下步骤：

S401，获得需进行抽样处理的原始数据。

S402，获得基础抽样项。

基础抽样项是按照单一维度进行均分抽样的规则，例如按照人员维度或者被抽样实体维度进行均分抽样的抽样规则。本实施例中，获得基础抽样项的方式包括如下过程：

首先，针对上述需进行抽样处理的原始数据进行特征提取，例如，遍历预定时间内的所有同类型的离线数据，如第三方电子商务平台的***工单数据、日志数据等，并提取所遍历的离线数据的所有特征，如提取***工单数据的类型、来源、工单产生时间、工单处理时长及其它特征。

在本实施例中，原始数据的特征可分为外部特征和内部特征。外部特征是指具有不确定因素的特征信息，例如，针对***工单数据(以下简称工单)，其外部特征包括工单产生时间、工单处理时长、工单滞留时长(例如、工单被提交到下一个处理节点时因无人申领处理而出现的工单滞留现象)、工单流转次数等特征；内部特征是指较为稳定的，不易改变的特征，如工单标题、工单类目、工单关键字、工单故障级别、工单问题描述等特征。

其次，计算上述原始数据的特征的基础权重值。计算特征的基础权重值可以采取方差计算的方式，例如，计算出工单的平均处理时长为2个小时、工单的内容平均字符数量为140个等等。

然后，根据上述原始数据的特征的基础权重值，确定原始数据的特征权重的正常范围，具体可根据上述基础权重值和权重阈值(权重阈值根据参数调优得到，例如采用控制变量法对权重阈值进行伸缩处理，获得最优权重阈值)得到原始数据的特征权重的正常范围。例如，特征A的基础权重值是a，权重阈值是b，则特征A的权重正常范围是(a-b，a+b)。确定原始数据的特征权重的正常范围，即可确定出特征权重处于正常范围内的原始数据。

最后，根据上述确定出的原始数据的特征权重的正常范围，获得基础抽样项。在本实施例中，基础抽样项所规定的内容为：需要抽取的特征权重处于正常范围内的原始数据的类型和抽取百分比，例如，抽样项1：抽取点餐工单10％；抽样项2：抽取耗时超过20分钟的商品工单20％。

S403，根据原始数据和基础抽样项，获得与原始数据相匹配的叠加抽样项。

获得与原始数据相匹配的叠加抽样项，其实质为获得与原始数据对应的场景需求相匹配的叠加抽样项。叠加抽样项是在基础抽样项的基础上进行比例倾斜的抽样方法，例如，在均分抽样的基础上，对某一类实体或者某一类人员倾斜一定百分比进行抽样，叠加抽样项与被抽样实体的业务场景强相关。在本实施例中，获得叠加抽样项的过程包括如下内容：

其次，根据所述基础抽样任务获得基础抽样分布数量；例如，执行上述基础抽样任务，并统计被抽取对象的分布数量，如正常范围下的点餐工单数量、异常范围下的点餐工单数量等。抽取分布是指正常点餐工单、耗时超过20分钟的点餐工单、异常点餐工单、正常商品工单、耗时超过20分钟的商品工单、异常商品工单等不同工单类型下的抽取数量。

最后，判断所述基础抽样分布数量是否与所述原始数据对应的场景需求相匹配；如果不匹配，则根据所述原始数据对应的场景需求对所述基础抽样分布数量进行补偿处理，获得所述叠加抽样项。

叠加抽样项的主要作用是对重合数据做去重处理，例如，最后得到正常范围下的点餐工单数量是12％，而当前的抽样规则设定是10％，则表明还有2％的点餐工单处于应该被抽取而未被抽取的状态，因此需针对该2％的点餐工单进行补偿处理，补偿处理方式采取简单的多退少补的方法。

例如，抽样项如下：抽样项1：点餐工单抽取10％；抽样项2：耗时超过20分钟的点餐工单抽取20％；抽样项3：耗时超过20分钟的商品工单抽取20％；抽样项4：异常的商品工单抽取10％；点餐工单共100单，其中耗时超过20分钟的点餐工单有60单。商品工单共200单，其中耗时超过20分钟的商品工单有140单。则根据三个抽样项叠加，最后抽取的工单数量为：点餐工单10+12＝22(假设抽样项1和抽样项2抽取的工单不重叠，若重叠，则抽取数量小于22)；商品工单28+20＝48(假设异常商品工单和耗时超过20分钟的商品工单不重合，若重合，则数量小于48)。

S404，根据基础抽样项和叠加抽样项，获得目标抽样任务。

在本实施例中，该步骤包含如下内容：

首先，将基础抽样项与叠加抽样项进行合并，获得抽样项集合。

其次，根据抽样项集合生成目标抽样任务。

根据抽样项集合生成目标抽样任务的过程具体可以为：根据抽样项集合生成抽样任务语句，例如根据抽样项集合中抽样项之间的关系生成抽样SQL语句；对该抽样任务语句进行校验，例如进行SQL规则校验；对通过校验的抽样任务语句设定任务触发方式，获得目标抽样任务，例如，判断抽样规则生成是用于定时任务还是手动触发任务，若是定时任务则生成定时抽样任务，按照定时周期被动触发，或者生成手动触发任务。

S405，根据目标抽样任务对原始数据进行抽样处理，获得目标抽样数据。

本实施例提供的数据抽样方法，在基础抽样项的基础上结合了与业务场景强相关的叠加抽样项，使得抽样结果更符合数据处理过程中的场景需求，也使得依赖于该抽样结果的后续流程更加准确。

上述第四实施例提供了一种数据抽样方法，与之相对应的，本申请第五实施例还提供了一种数据抽样装置，由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可，下述对装置实施例的描述仅仅是示意性的。

请参考图5理解该实施例，图5为本实施例提供的装置单元框图，如图5所示，本实施例提供的装置包括：

原始数据获得单元501，用于获得需进行抽样处理的原始数据；

基础抽样项获得单元502，用于获得基础抽样项；

叠加抽样项获得单元503，用于根据原始数据和基础抽样项，获得与原始数据相匹配的叠加抽样项；

目标抽样任务获得单元504，用于根据基础抽样项和叠加抽样项，获得目标抽样任务；

目标抽样数据获得单元505，用于根据目标抽样任务对原始数据进行抽样处理，获得目标抽样数据。

根据基础抽样项生成基础抽样任务；

根据所述基础抽样任务获得基础抽样分布数量；

可选的，获得基础抽样项，包括：

提取原始数据的特征；

计算原始数据的特征的基础权重值；

根据基础权重值，确定原始数据的特征权重的正常范围；

根据原始数据的特征权重的正常范围，获得基础抽样项。

可选的，根据基础抽样项和叠加抽样项，获得目标抽样任务，包括：

将基础抽样项与叠加抽样项进行合并，获得抽样项集合；

根据抽样项集合生成目标抽样任务。

可选的，根据抽样项集合生成目标抽样任务，包括：

根据抽样项集合生成抽样任务语句；

对抽样任务语句进行校验；

在上述的实施例中，提供了一种数据抽样方法以及一种数据抽样装置，此外，本申请第六实施例还提供一种电子设备，由于电子设备实施例基本相似于方法实施例，所以描述得比较简单，相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可，下述对电子设备实施例的描述仅仅是示意性的。该电子设备实施例如下：

请参考图6理解本实施例，图6为本实施例提供的电子设备的示意图。

如图6所示，电子设备包括：处理器601；存储器602；

存储器602，用于存储数据抽样的程序，程序在被处理器读取执行时，执行如下操作：

获得待抽样的原始数据；

获得基础抽样项；

根据基础抽样项和叠加抽样项，获得目标抽样任务；

根据目标抽样任务对原始数据进行抽样处理，获得目标抽样数据。

根据基础抽样项生成基础抽样任务；

根据所述基础抽样任务获得基础抽样分布数量；

可选的，获得基础抽样项，包括：

提取原始数据的特征；

计算原始数据的特征的基础权重值；

根据基础权重值，确定原始数据的特征权重的正常范围；

根据原始数据的特征权重的正常范围，获得基础抽样项。

将基础抽样项与叠加抽样项进行合并，获得抽样项集合；

根据抽样项集合生成目标抽样任务。

可选的，根据抽样项集合生成目标抽样任务，包括：

根据抽样项集合生成抽样任务语句；

对抽样任务语句进行校验；

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims

1.一种数据处理方法，其特征在于，包括：

获得待质检数据；

获得所述待质检数据的目标特征信息；

2.根据权利要求1所述的方法，其特征在于，所述获得所述待质检数据的目标特征信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述获得待质检数据，包括：

获得需要进行数据质量检验的原始数据；

获得目标抽样任务；

4.根据权利要求3所述的方法，其特征在于，所述获得目标抽样任务，包括：

获得基础抽样项；

根据所述抽样项集合生成目标抽样任务。

5.根据权利要求4所述的方法，其特征在于，所述根据所述原始数据和所述基础抽样项，获得与所述原始数据相匹配的叠加抽样项，包括：

根据所述基础抽样项生成基础抽样任务；

根据所述基础抽样任务获得基础抽样分布数量；

6.一种数据处理装置，其特征在于，包括：

待质检数据获得单元，用于获得待质检数据；

7.一种电子设备，其特征在于，包括：

处理器；

获得待质检数据；

获得所述待质检数据的目标特征信息；

8.一种数据抽样方法，其特征在于，包括：

获得需进行抽样处理的原始数据；

获得基础抽样项；

9.一种数据抽样装置，其特征在于，包括：

原始数据获得单元，用于获得待抽样的原始数据；

基础抽样项获得单元，用于获得基础抽样项；

10.一种电子设备，其特征在于，包括：

处理器；

获得需进行抽样处理的原始数据；

获得基础抽样项；