CN113485993A

CN113485993A - 数据识别方法以及装置

Info

Publication number: CN113485993A
Application number: CN202110792112.5A
Authority: CN
Inventors: 牛弘
Original assignee: Zhejiang eCommerce Bank Co Ltd
Current assignee: Zhejiang eCommerce Bank Co Ltd
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-10-08

Abstract

本说明书实施例提供数据识别方法以及装置，其中所述数据识别方法包括：数据采集模块、模型训练模块以及数据识别模块，所述模型训练模块从所述数据采集模块获取目标项目的历史训练数据进行模型训练，获得数据识别模型；所述数据识别模块从所述数据采集模块获取所述目标项目的待识别数据，以及从所述模型训练模块获取所述数据识别模型，并将所述待识别数据输入所述数据识别模型，获得所述目标项目的识别结果。

Description

数据识别方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种数据识别方法。本说明书一个或者多个实施例同时涉及一种数据识别装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着大数据时代的到来，在资源服务平台给用户提供资源服务的过程中，需要获取用户的单源数据作为增强信用的来源，该单源数据可包括用户属性数据、资产数据、资源流水数据等，且资源服务平台针对上述数据进行充分分析、评估，确保可以在用户无抵押的情况下为用户提供信用资源值，但往往资源服务平台通过用户上传的方式获取到的单源数据，可能存在虚假数据，只能通过宽泛的硬规则进行校验，进而导致资源服务平台获取到的用户数据质量较差，计算机处理效率较低，也极大地影响计算机资源，后续不仅会影响用户的资源服务，也无法保证向监管部门呈报数据的真实性。

发明内容

有鉴于此，本说明书施例提供了一种数据识别方法。本说明书一个或者多个实施例同时涉及一种数据识别装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种数据识别方法，包括：数据采集模块、模型训练模块以及数据识别模块，

所述模型训练模块从所述数据采集模块获取目标项目的历史训练数据进行模型训练，获得数据识别模型；

所述数据识别模块从所述数据采集模块获取所述目标项目的待识别数据，以及从所述模型训练模块获取所述数据识别模型，并将所述待识别数据输入所述数据识别模型，获得所述目标项目的识别结果。

根据本说明书实施例的第二方面，提供了一种数据识别装置，包括：数据采集模块、模型训练模块以及数据识别模块，

所述模型训练模块，被配置为从所述数据采集模块获取目标项目的历史训练数据进行模型训练，获得数据识别模型；

所述数据识别模块，被配置为从所述数据采集模块获取所述目标项目的待识别数据，以及从所述模型训练模块获取所述数据识别模型，并将所述待识别数据输入所述数据识别模型，获得所述目标项目的识别结果。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述数据识别方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现任意一项所述数据识别方法的步骤。

本说明书一个实施例通过模型训练模块对数据识别模型进行训练获得数据识别模型，再利用数据识别模型对待识别数据进行识别，以确定待识别数据是否异常的识别结果，通过上述数据识别模型识别出待识别数据的质量，不仅实现了对待识别数据的校验，也提高了对待识别数据的识别效率，在将待识别数据质量提高的情况下，以减少后续对质量较差的待识别数据的利用，降低资源服务平台对用户的资源服务的影响，提升用户体验。

附图说明

图1是本说明书一个实施例提供的一种数据识别方法的结构示意图；

图2是本说明书一个实施例提供的一种数据识别方法的流程图；

图3是本说明书一个实施例提供的一种数据识别方法的处理过程的流程示意图；

图4是本说明书一个实施例提供的一种数据识别方法的的单源数据与服务平台的关联示意图；

图5是本说明书一个实施例提供的一种数据识别方法的单源数据处理结构层示意图；

图6是本说明书一个实施例提供的一种数据识别装置的结构示意图；

图7是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

单源数据：即单一源头数据，也可以理解为输入型数据。

DRC：为单元化项目提供稳定的秒级的保证事务一致性的实时数据同步服务，以实现对异构数据源进行实时迁移同步，及数据流订阅的数据管道基础技术设施。

目前，在资源服务平台为用户提供资源服务的场景中，资源服务平台通过获取用户数据，再结合用户输入、大数据平台等单源数据(外部数据)作为增加信用的来源，充分进行分析、评估和授信，确保可以在无抵押的情况下，实现为用户提供资源服务，其中，大数据平台中产生的数据是否正常，农业资源服务中的农户输入数据是否为农户真实数据，或者是用户在其他平台的资源服务数据是否真实，这些问题都会直接或者间接地影响到资源服务项目的发展，因此，获取的用户数据(即单源数据)可能会存在质量问题，一方面会影响对用户资源的提额、降额，比如，是否尽可能地满足用户的需求，是否及时降额避免引发坏账造成的资源损失，另一方面，保证向监管部门呈报的数据真实无误，进而可以证明，单源数据的质量保证是极其必要的。

单源数据的来源不但多种多样，而且人、软硬件每日产生的数据达到了数千万的量级，平台内的数据可以通过自身的监控、核对等方式保证其质量，但是单源数据想要保证其质量，通过传统的方式几乎无法做到，原因在于，想要核对单源数据的正确性没有核对的对手方，传统的核对方式是当上游数据不等于下游数据就报异常，而在单源数据的场景下，我们只能拿到下游数据，无法拿到源头数据，所以无法做一致性核对，当前仅能靠一些宽泛的硬规则校验，进而在宽泛的规则治理下，势必会有漏网之鱼，会有一些隐蔽的不正确的数据混杂在其中，综上，本说明书实施例提供的数据识别方法，通过获取到的历史训练数据以及待识别数据训练数据识别模型，以识别数据的异常情况，并将待识别数据的异常情况进行人工打标，确定待识别数据是否真的异常，以防数据识别模型进行异常误报，进而实现对数据识别模型不断进行迭代训练，获得极具智能的数据识别模型，以减少对单源数据识别异常的误报。

在本说明书中，提供了一种数据识别方法，本说明书同时涉及一种数据识别装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本说明书一个实施例提供的一种数据识别方法的结构示意图。

需要说明的是，本说明书实施例提供的数据识别方法，可应用于数据识别***，包括数据采集部分、训练模型部分以及识别异常部分，在上述三个部分之间能够实现对异常数据的识别。

图1中A部分为数据采集部分，B部分为训练模型部分，C部分为识别异常部分，数据采集部分A可自动采集数据，其中，采集的数据包括历史训练数据以及待识别数据；训练模型部分B可将采集的数据存储在数据离线表中，同时，可将历史训练数据输入异常识别算法中进行模型训练，获得数据识别模型，并将所述数据识别模型发送至识别异常部分C中存储；识别异常部分C将获取的待识别数据输入数据识别模型中，获得数据识别结果。

实际应用中，在识别异常部分识别出待识别数据的识别结果之后，目标用户可对该数据识别结果进行打标，确定该数据识别结果是否准确，即确定待识别数据是否异常，在目标用户确定待识别数据确实为异常的情况下，可将待识别数据的异常结果返回至数据识别模型，在确定待识别数据并非是异常数据的情况下，可将该待识别数据的假异常结果返回至数据识别模型，再次对数据识别模型进行训练，以强化数据识别模型的能力，进而提高数据识别模型识别异常数据的准确性。

参见图2，图2示出了根据本说明书一个实施例提供的一种数据识别方法的流程图，具体包括以下步骤。

步骤202：所述模型训练模块从所述数据采集模块获取目标项目的历史训练数据进行模型训练，获得数据识别模型。

其中，目标项目的历史训练数据可以理解为针对某一项目的历史数据，比如，用户A在银行的流水数据。

其中，数据识别模型可以理解为识别数据是否异常的模型，也可以理解为识别数据是否稳定模型，比如，该数据识别模型为识别数据是否异常，则该数据识别模型的输入为待识别数据，则输出为异常/非异常。

实际应用中，本说明书一实施例提供的数据识别方法，具有三个模块交互操作，分别有模型训练模块、数据采集模块以及数据识别模块；为了保证获取到的待识别数据的质量，需要训练一个数据识别模型，进而可实现快速地对待识别数据进行识别，具体的，模型训练模块可以从数据采集模型中获取大量的目标项目的历史训练数据作为样本数据，基于确定的样本数据进行模型训练，进而可获取数据识别模型，需要说明的是，该模型训练方法可以为无监督训练方法，获得数据识别模型，且本说明书实施例对模型训练方式在此不做过多限制。

进一步，为了获取大量能够训练数据识别模型的数据，可事先对获取的单源数据进行预处理，以便于后续根据处理后的数据进行数据识别模型的训练；具体的，所述模型训练模块从所述数据采集模块获取目标项目的历史训练数据进行模型训练，获得数据识别模型之前，还包括：

所述数据采集模块基于数据采集接口获取初始数据，并基于预设风险评级工具对所述初始数据进行风险评级，将风险级别满足预设需求条件的数据作为候选数据；

基于预设优化算法对所述候选数据进行优化，并基于预设数据格式工具对优化后的候选数据进行格式处理，生成目标数据，其中，所述目标数据包括所述目标业务的历史训练数据以及待识别数据。

其中，初始数据可以理解为数据采集模块从其他平台获取的，并未处理过的初始数据；相应的，候选数据可以理解为通过风险评级检测之后，风险级别较低的数据；而最后的目标数据可以理解为将候选数据进行清洗，且进行格式转换后的数据。

具体的，数据采集模块与其他平台之间通过数据采集接口相连接，可基于该数据采集接口获取大量的初始数据，由于获取的初始数据中，可能携带有一些风险数据，进而可基于预设风险评级工具对大量的初始数据先进行风险评级，以确定初始数据的风险等级，筛除掉风险等级较高的初始数据，将风险等级较低的数据作为候选数据，此外，数据采集部分可基于数据采集接口，通过数据流订阅的数据管道基础技术设施，再利用分布式拉模式消息队列，对实时采集的数据进行处理，同时还可以利用预设优化算法对候选数据进行优化处理，且再利用预设数据格式工具对优化后的候选数据进行格式处理，最终生成目标数据，其中，该目标数据中可包括目标业务的历史训练数据以及待识别数据两种。

实际应用中，对采集到的数据利用预设风险评级工具、预设优化算法以及预设数据格式工具进行处理的过程中，对上述使用工具或者是算法，并不做任何限定，比如，在获取到大量的用户A的银行账户的流水数据之后，可利用DRC(数据流订阅的数据管道基础技术设施)、ANTQ(分布式拉模式消息队列)以及Kepler(数据实时采集平台)对该流水数据进行处理，将处理后的历史银行账户的流水数据作为历史训练数据，以便于后续将该历史训练数据输入至模型训练模块进行数据识别模型的训练。

本说明书实施例提供的数据识别方法，通过数据采集模块对获取到的数据进行处理之后，使得目标数据更加平滑、稳定且有效率，以便于后续可基于目标数据中的历史训练数据以及待识别数据实现对数据识别模型的训练。

更进一步地，对数据识别模型的训练可采用无监督的训练方式；具体的，所述模型训练模块从所述数据采集模块获取目标项目的历史训练数据进行模型训练，包括：

所述模型训练模块将从数据采集模块获取的目标项目的历史训练数据存储至预设数据表，并从所述预设数据表中读取所述历史训练数据，且基于所述历史训练数据进行模型训练。

其中，预设数据表可以理解为可进行分布式离线数据分析的工具表，比如ODPS离线数据表。

实际应用中，数据采集模块可将获取到的目标项目的历史训练数据存储至预设数据表中，可便于后续将预设数据表中的历史训练数据做离线数据分析，而模型训练数据从预设数据表中可读取历史训练数据作为训练样本，并根据历史训练数据对数据识别模型进行训练，可采用无监督聚类的方式训练数据识别模型，本说明书实施例对此不做过多限制。

本说明书实施例提供的数据识别方法，通过将数据采集模块确定的目标数据存储至预设数据表中，以便于后续在预设数据表中获取目标项目的历史训练数据，作为模型训练的样本数据进行训练，可快速地实现对数据识别模块的训练。

此外，在模型训练数据从预设数据表中读取历史训练数据的过程中，可基于预设的属性条件读取相应的历史训练数据，使得训练的数据识别模型对待识别数据识别的精准性；具体的，所述从所述预设数据表中读取所述历史训练数据，包括：

根据预设数据属性条件从所述预设数据表中读取所述历史训练数据。

其中，预设数据属性条件可以理解为目标项目相应的读取数据的属性条件，比如，获取的用户A的流水数据中，可读取该流水数据中的整数型数据，其中，字符型的数据可以理解为预设数据的属性条件。

实际应用中，模型训练模块可从预设数据表中读取符合预设数据属性条件的数据，作为历史训练数据输入至数据识别模型中，进行模型训练，比如，用户A的流水数据为用户标识(A)-时间(2021-1-1)-金额(+500)；用户标识(A)-时间(2021-1-2)-金额(+300/-100)等具有时间性的大量数据，如果预设数据属性条件为整数型数据条件，那么，模型训练模块可从预设数据表中获取金额类的数据，作为最后的历史训练数据。

本说明书实施例提供的数据识别方法，通过在预设数据表中获取与预设数据属性条件相符的历史训练数据，作为后续的样本数据实现对数据识别模型的训练，进而保证了数据识别模型应用识别数据的精准度。

为了保证数据识别模型的广泛应用，模型训练模块可将训练后的数据识别模型进行存储，便于后续使用；具体的，所述获得数据识别模型之后，还包括：

所述模型训练模块将所述数据识别模型进行存储，并发送至所述数据识别模块。

实际应用中，模型训练模块可将训练后的数据识别模型存储至其相应的机构平台的存储***中，或者可以采用区块链的方式将数据识别模型进行存储，本说明书实施例将数据识别模型具体的存储位置不做任何限定，可根据不同的实际应用情况，存储至不同的存储位置，此外，模型训练模块将数据识别模型进行存储后，可将该数据识别模型发送至数据识别模块，以便于后续数据识别模块利用数据识别模型对待识别数据进行异常识别。

本说明书实施例提供的数据识别方法，模型训练模块通过将数据识别模型进行存储，并转发送至数据识别模块中，以便于后续数据识别模块

步骤204：所述数据识别模块从所述数据采集模块获取所述目标项目的待识别数据，以及从所述模型训练模块获取所述数据识别模型，并将所述待识别数据输入所述数据识别模型，获得所述目标项目的识别结果。

其中，待识别数据可以理解为目标项目中所需要识别数据是否异常的数据，比如，针对用户A近一个月的银行账户的流水数据，需要通过数据识别模型识别该流水数据是否处于异常情况。

实际应用中，数据识别模块不仅可以从数据采集模块获取目标项目的历史训练数据，也可以从数据采集模块中获取目标项目的待识别数据，并同时从模型训练模块中获取数据识别模型，然后将待识别数据输入数据识别模型中，即可获得目标项目的识别结果，比如，将目标用户A的近一个月的银行账户的流水数据输入数据识别模型中，可获得该流水数据的识别结果为异常，或者为非异常。

此外，数据识别模块还可以对从数据采集模块获取的待识别数据进行限流处理，以保证数据识别模型识别待识别数据的数量，进而保证数据识别模型识别的准确度；具体的，所述数据识别模块从所述数据采集模块获取所述目标项目的待识别数据，包括：

所述数据识别模块基于预设数据量条件，对从所述数据采集模型获取的数据进行处理，将处理后的数据作为所述目标项目的待识别数据。

其中，预设数据量条件可以理解为获取待识别数据数量的限制条件，比如，可预设数据识别模块从数据采集模块中获取的待识别数据的数据量条件为500条/秒。

实际应用中，数据识别模块可基于预设数据量条件，对数据采集模块中获取的数据进行预处理，获取相应的数据量的待识别数据，并将该获取后的数据作为待识别数据，比如，数据识别模块从数据采集模块中获取的数据每秒有1000条数据，那么基于预设数据量条件500条/秒，可将获取的数据限流减少到500条后，作为该目标项目的待识别数据，以便于后续将该待识别数据输入至数据识别模型中进行数据识别。

本说明书实施例提供的数据识别方法，通过数据识别模块对获取的数据进行限流处理，以减少一次输入至数据识别模型的数据量，保证数据识别模型单次识别数据的条数，减小数据处理压力，降低数据识别模型识别有误的异常情况的发生。

本说明书另一实施例提供的数据识别方法中，不仅包括数据采集模块、模型训练模块以及数据识别模块，还包括：数据优化模块，

所述数据优化模块接收所述目标项目的识别结果，将所述目标项目的识别结果展示给目标用户；

接收所述目标用户对所述目标项目的识别结果打标后形成的判定结果，且将所述判定结果返回至所述模型训练模块。

需要说明的是，数据优化模块可以理解为对待识别数据的识别结果判定是否正确的打标部分，其中，可以基于人工经验对识别结果进行打标，判定该识别结果是否准确，即待识别数据是否为异常数据，或者是带有噪音的数据。

实际应用中，在数据采集模块采集目标项目的历史训练数据以及待识别数据之后，模型训练模块可基于历史训练数据进行模型训练，获得数据识别模型，数据识别模块可利用数据识别模型对待识别数据进行识别，获得识别结果，其上述三个模块的具体实施步骤可参见上述实施例，在此不做过多赘述；此外，数据优化模块可接收到针对目标项目的识别结果，并将该识别结果展示给目标用户，同时，数据优化模块还可接收目标用户基于个人经验对该识别数据进行打标后形成的判定结果，并将判定结果返回至模型训练模块，便于后续对数据识别模型进行迭代训练。

例如，在数据识别模型返回待识别数据发生异常之后，该识别结果为异常，则通过报警的方式实时通知到数据提供方的通讯平台中，数据提供方可对此进行直接打标，确定该异常数据是否真的异常，或者是否带有噪音数据，若数据提供方确定该异常数据为非异常，则将非异常的判定结果返回至模型训练模块的数据识别模型中，以实现数据识别模型对该异常数据进行重新判定与识别，且学习该异常数据的真实情况。

本说明书实施例提供的数据识别方法，通过数据优化模块可获取目标用户的专家经验，以沉淀目标用户的专家经验，对数据识别模型识别出的识别结果进行再次判定，以检验数据识别模型的识别准确度，便于后续训练更为智能，识别准确率较高的数据识别模型。

进一步地，模型训练模块还会基于接收到的判定结果对数据识别模型进行优化处理，以不断更新更为智能的数据识别模型；具体的，所述将所述判定结果返回至所述模型训练模块之后，还包括：

所述模型训练模块将所述历史训练数据作为样本训练数据，并将所述判定结果作为所述样本训练数据对应的样本标签；

基于所述样本训练数据以及所述样本标签调整所述数据识别模型的模型参数，完成对所述数据识别模型的优化，并将优化后的数据识别模型进行存储。

具体实施时，模型训练模块在接收到针对待识别数据的判定结果之后，可将历史训练数据作为样本训练数据，且将判定结果作为该样本训练数据对应的样本标签，根据该样本训练数据以及对应的样本标签调整数据识别模型的模型参数，进而完成对数据识别模型的优化，且将优化后的数据识别模型进行存储。

需要说明的是，上述对数据识别模型的优化方法可以为有监督型的模型训练方法，将数据优化模块中目标用户的人工打标结果作为待识别数据的标签，进而实现了有监督型的模型调整方式，优化数据识别模型。

本说明书实施例提供的数据识别方法，通过人工打标确定的判定结果作为样本标签，快速地实现对数据识别模型的优化，便于后续加强对新数据的识别的异常检测结果准确。

综上，本说明书提供的数据识别方法，通过不同模块间交互操作，降低人工打标待识别数据为异常数据的成本，默认训练需要的历史训练数据中的正样本数据占大多数，且直接对历史数据进行无监督学***台实时进行打标真实异常的数据，以快速地优化数据识别模型。

下述结合附图3，以本说明书提供的数据识别方法在识别异常数据的应用为例，对所述数据识别方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种数据识别方法的处理过程的流程示意图，具体包括以下步骤。

需要说明的是，在识别异常数据的过程中，可通过自动采集数据、学***台)后存储到ODPS(数据离线表)里，再调用DataGo API(数据采集接口)，生成Kepler实时采集数据任务，并积累成为历史训练数据；学习历史数据，异常识别算法读取ODPS离线表数据后，产出智能模型，并将该智能模型文件由上传到存储***上；分析新数据质量，实时获取的数据会落在数据调度中心这个***里，经过智能调度后，发送给智能模型分析识别数据是否有异常；沉淀专家经验，当智能模型反馈数据异常后，报警会实时的通知到数据提供方，数据提供方可以直接打标该条数据是否是异常或者噪音数据。

步骤302：数据采集部分A通过数据采集接口获取目标项目的单源数据，并将该单源数据发送至数据采集部分A中的数据处理模块。

步骤304：数据采集部分A的数据处理模块将该单源数据进行处理后，存储至训练模型部分B的数据离线表中。

具体的，数据处理模块对单源数据可通过数据管道基础技术设施、分布式拉模式消息队列以及数据实时采集平台进行处理，以获取目标数据，其中，目标数据了包括目标项目的历史训练数据以及待识别数据。

步骤306：训练模型部分B的异常识别算法模块读取数据离线表中的历史训练数据。

步骤308：训练模型部分B的异常识别算法模块利用历史训练数据进行模型训练，产出数据识别模型。

步骤310：训练模型部分B将获取的数据识别模型进行存储，并发送至识别异常部分C。

步骤312：识别异常部分C从数据采集部分A的数据处理模块获取待识别数据，并将待识别数据发送至限流模块。

步骤314：识别异常部分C中的限流模块对待识别数据进行限流处理之后，输入识别异常部分C的数据识别模型中。

步骤316：识别异常部分C中的数据识别模型产出数据识别结果。

步骤318：识别异常部分C将产出的数据识别结果发送至精准优化部分D中，进行人工经验打标，判定待识别数据的数据识别结果是否准确。

其中，人工经验打标是为了根据专家经验，对数据识别结果进行判定是否为真的异常，或者是否存在噪音数据等，以确定数据识别模型识别待识别数据的准确度。

步骤320：精准优化部分D将人工经验打标后的判定结果返回至识别异常部分C的数据识别模型中进行优化处理。

本说明书实施例通过上述方式，可实现对数据识别模型的优化，训练出更为智能，识别准确度较高的数据识别模型，其中，异常识别算法训练的初始数据识别模型可以通过无监督的训练方式获得，而后续对该初始数据识别模型进行优化的部分，可以理解为是一个有监督的模型优化过程，人工经验打标后的结果可以看作为有监督训练中的数据对应的标签。

进一步地，针对本说明书实施例解决的问题是对单源数据的质量问题，由于源头数据我们无法把控，无法确定上游产生的数据是否有问题，只能查找历史数据来判断新的数据是否为异常数据，因此，保障单源数据质量的方式可以为：学习历史单源数据的表现规律，然后生成智能规则，然后再用于判断新的数据是否有异常，比如可以智能地学习到外部资源字段数据的动态分布、密度等特性，学习资源服务机构名称、地址等字段是否是有真实的含义，且在当新的数据过来之后，智能模型规则即可察觉出背后数据的异常情况。

其实，传统的预测方式是用一个模型可以预测出所有的数据，但现如今的数据差异化变大，每个字段的历史表现都不尽相同，那么大而全的模型运行确实很好，但预测出的结果却是粗放型的，就等于每一种类型的数据都没有具体相对应的模型进行预测，进而就导致大而全的模型预测数据的种类越多，预测数据的质量就会下降，定位就会越不精准。尤其是针对数据敏感性的各行业，当数据越来越个性化的时候，精细化模型才是真正的精准预测，即对每个字段的历史数据分别进行学***台名称模型等等，若训练的模型足够精细，那么针对数据的识别也能达到精准。

但在模型的训练过程中，可能会出现模型并不知道到自己识别的数据结果为异常，因此，服务平台对异常数据进行打标显得尤为重要，在模型对异常数据的结果报出来之后，会在服务平台中实时通知给数据提供方以供排查，若给数据提供方报警的数据不是异常数据或者是噪音，数据提供方即可在服务平台里秒级打标异常数据，可以理解为根据人的专家经验沉淀到模型中，通过利用专家的智慧，让模型训练的更为智能，这样在下一次相同的数据识别场景下，模型就不会再把类似的场景当作异常数据报告出来，这一步的有监督过程实际上也是利用专家经验，模型在人的辅助下，不断进步，误报数据异常的情况会越来越少，预测的越来越精准。

本申请实施例对数据异常的监控逻辑可以理解为，尽可能避免误报，要让模型预测的精确率变得很高，当异常数据报出来之后，则说明待识别数据确实存在问题，因此，通过人工经验打标参与之后，就会和模型在对待识别数据的精确率和召回率之间做取舍，慢慢调整报警阈值(模型算法参数)，这样异常报警的比例就会变大，虽然报告的异常数据可能是误报，但是针对模型训练出的心智已经成立，最后达到一个平衡的临界点。此时，在算法策略上，可能会默认选取正常数据，并采用无监督学***台进行模型训练，回调平台通知模型训练完成，预测数据自动启停，异常报警自动通知等。综上，本说明书实施例提供的数据识别方法保障单源数据质量的方法是：为了降低人工打标正常或者异常数据的成本，默认训练需要历史数据里的正样本的占绝大多数，直接对历史数据进行无监督学***台软件秒级打标异常数据，快速地优化智能模型。

为了更为清楚地表明单源数据与服务平台之间的关系，可参见图4，图4示出了本说明书实施例提供的数据识别方法的单源数据与服务平台的关联示意图。

图4中的A部分为单源数据源，B部分为智能异常检测平台，C部分为服务平台，在单源数据源中可分为外部数据、政策数据以及内部输入型数据，而智能异常检测平台相当于在单源数据源和服务平台的消费数据方之间架起了一个“虚拟防火墙”，利用模型识别数据分布密度异常、历史长期趋势异常、数据动态分布异常等，可以有效地发现数据潜在问题，将发现、分析、定位完整闭环，提升多个平台之间的联防联控能力。

在实际应用中，单源数据在各大外部平台获取到之后，会通过不同的处理层进行处理，以确定判断数据是否异常的方式；可参见图5，图5示出了本说明书实施例提供的数据识别方法的单源数据处理结构层示意图。

图5中从不同的平台1、平台2以及平台3获取到单源数据之后，将该单源数据输入场景层进行异常检测、异常预测、根因分析、趋势分析，进而提高智能预测效率，然后将单源数据输入至服务层，服务层在对数据进行预处理，包括数据采集、流量加工、人工打标、权限管理等，单源数据还可以输入至算法层或者依赖层中进行处理，最终，可确定出识别策略为：根据历史数据的表现，生成智能规则，用于判断新数据是否异常。

综上，从上述实施例中对本说明书提供的数据识别方法进行的描述，通过人工对模型识别后的识别结果进行打标，以不断地对模型进行调整，生成智能规则，以提高后续模型识别新数据是否异常的准确性。

与上述方法实施例相对应，本说明书还提供了数据识别装置实施例，图6示出了本说明书一个实施例提供的一种数据识别装置的结构示意图。如图6所示，该装置包括：数据采集模块、模型训练模块以及数据识别模块，

所述模型训练模块602，被配置为从所述数据采集模块获取目标项目的历史训练数据进行模型训练，获得数据识别模型；

所述数据识别模块604，被配置为从所述数据采集模块获取所述目标项目的待识别数据，以及从所述模型训练模块获取所述数据识别模型，并将所述待识别数据输入所述数据识别模型，获得所述目标项目的识别结果。

可选地，所述装置，还包括：数据优化模块，

所述数据优化模块，被配置为接收所述目标项目的识别结果，将所述目标项目的识别结果展示给目标用户；

可选地，所述模型训练模块602，进一步被配置为：

可选地，所述数据采集模块，进一步配置为：

可选地，所述模型训练模块602，进一步被配置为：

可选地，所述模型训练模块，进一步被配置为：

可选地，所述数据识别模块604，进一步被配置为：

本说明书实施例提供的数据识别装置，通过模型训练模块对数据识别模型进行训练获得数据识别模型，再利用数据识别模型对待识别数据进行识别，以确定待识别数据是否异常的识别结果，通过上述数据识别模型识别出待识别数据的质量，不仅实现了对待识别数据的校验，也提高了对待识别数据的识别效率，在将待识别数据质量提高的情况下，以减少后续对质量较差的待识别数据的利用，降低资源服务平台对用户的资源服务的影响，提升用户体验。

上述为本实施例的一种数据识别装置的示意性方案。需要说明的是，该数据识别装置的技术方案与上述的数据识别方法的技术方案属于同一构思，数据识别装置的技术方案未详细描述的细节内容，均可以参见上述数据识别方法的技术方案的描述。

图7示出了根据本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接，数据库750用于保存数据。

计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。

其中，处理器720用于执行如下计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述数据识别方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的数据识别方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述数据识别方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现所述数据识别方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据识别方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上数据识别方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据识别方法，包括：数据采集模块、模型训练模块以及数据识别模块，

2.根据权利要求1所述的数据识别方法，还包括：数据优化模块，

3.根据权利要求2所述的数据识别方法，所述将所述判定结果返回至所述模型训练模块之后，还包括：

4.根据权利要求1所述的数据识别方法，所述模型训练模块从所述数据采集模块获取目标项目的历史训练数据进行模型训练，获得数据识别模型之前，还包括：

5.根据权利要求1-4任意一项所述的数据识别方法，所述模型训练模块从所述数据采集模块获取目标项目的历史训练数据进行模型训练，包括：

6.根据权利要求5所述的数据识别方法，所述从所述预设数据表中读取所述历史训练数据，包括：

7.根据权利要求2所述的数据识别方法，所述获得数据识别模型之后，还包括：

8.根据权利要求7所述的数据识别方法，所述数据识别模块从所述数据采集模块获取所述目标项目的待识别数据，包括：

9.一种数据识别装置，包括：数据采集模块、模型训练模块以及数据识别模块，

10.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现权利要求1-8任意一项所述数据识别方法的步骤。

11.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1-8任意一项所述数据识别方法的步骤。