CN112597209A - 数据的验证方法、装置、***及计算机可读存储介质 - Google Patents

数据的验证方法、装置、***及计算机可读存储介质 Download PDF

Info

Publication number
CN112597209A
CN112597209A CN202011480066.7A CN202011480066A CN112597209A CN 112597209 A CN112597209 A CN 112597209A CN 202011480066 A CN202011480066 A CN 202011480066A CN 112597209 A CN112597209 A CN 112597209A
Authority
CN
China
Prior art keywords
data
degree
determining
abnormal
unsupervised
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011480066.7A
Other languages
English (en)
Other versions
CN112597209B (zh
Inventor
朱晨鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202011480066.7A priority Critical patent/CN112597209B/zh
Publication of CN112597209A publication Critical patent/CN112597209A/zh
Application granted granted Critical
Publication of CN112597209B publication Critical patent/CN112597209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及金融科技技术领域,公开了一种数据的验证方法、装置、***及计算机可读存储介质,该方法的步骤包括:响应用户指令,基于用户指令和无监督异常识别算法确定对应的异常度数据;确定业务目标数据,基于异常度数据和业务目标数据构建对应的数据验证模型;基于数据验证模型验证无监督异常识别算法的有效性。本申请通过用户指令和无监督异常识别算法共同确定异常度数据,从而保证了异常度数据的准确性。再通过异常度数据和业务目标数据构建数据验证模型,并通过数据验证模型验证无监督异常识别算法的有效性,保证了数据验证模型与业务目标数据之间的关联性。

Description

数据的验证方法、装置、***及计算机可读存储介质
技术领域
本申请涉及金融科技(Fintech)数据处理技术领域,尤其涉及一种数据的验证方法、装置、***及计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对数据的验证技术提出了更高的要求。
目前小微企业风险管理的数据验证方法主要是通过专家经验验证和无监督算法验证,专家经验验证主要是根据主观经验进行评判,而不是根据统计分析或者模型算法来进行客观的计算,如,根据相关经验判断特征重要性,根据相关经验进行变量加权。无监督算法验证通常为无监督异常检测,异常检测是发现样本之间的差异性。然而,专家经验验证需要大量的行业经验积累,数据不具有说服性,无监督算法验证从数据学习出来的模型和真实的业务目标之间并不一定有直接联系。
上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
发明内容
本申请的主要目的在于提供一种数据的验证方法、装置、***及计算机可读存储介质,旨在保证数据模型与业务目标数据之间的关联性。
为实现上述目的,本申请提供一种数据的验证方法,所述数据的验证方法包括步骤:
响应用户指令,基于所述用户指令和无监督异常识别算法确定对应的异常度数据;
确定业务目标数据,基于所述异常度数据和所述业务目标数据构建对应的数据验证模型;
基于所述数据验证模型验证所述无监督异常识别算法的有效性。
可选地,所述基于所述数据验证模型验证所述无监督异常识别算法的有效性的步骤包括:
确定所述数据验证模型中所述异常度数据和所述业务目标数据的关联性程度,基于所述关联性程度验证所述无监督异常识别算法的有效性。
可选地,所述基于所述关联性程度验证所述无监督异常识别算法的有效性的步骤包括:
确定所述关联性程度是否大于或者等于预设关联程度;
若确定所述关联性程度大于或者等于所述预设关联程度,则确定所述无监督异常识别算法有效;
若确定所述关联性程度小于所述预设关联程度,则确定所述无监督异常识别算法无效。
可选地,所述确定业务目标数据,基于所述异常度数据和所述业务目标数据构建对应的数据验证模型的步骤包括:
将所述异常度数据确定为自变量数据,并检测是否存在业务数据标签;
若检测到存在业务数据标签,则基于所述业务数据标签确定所述业务目标数据,并将所述业务目标数据确定为目标变量数据;
基于所述自变量数据和所述目标变量数据构建所述数据验证模型。
可选地,所述检测是否存在可识别的业务数据标签的步骤之后,还包括:
若检测到不存在业务数据标签,则基于所述用户指令确定所述业务目标数据,并将所述业务目标数据确定为所述目标变量数据。
可选地,所述基于所述用户指令和无监督异常识别算法确定对应的异常度数据的步骤包括:
基于所述用户指令确定对应的用户数据和所述用户数据对应的数据特征;
基于所述无监督异常识别算法和所述数据特征对所述用户数据进行数据分析,确定所述用户数据的异常点数据;
基于所述异常点数据确定对应的异常度数据。
可选地,所述基于所述用户指令确定对应的用户数据的步骤包括:
确定所述用户指令中的数据库信息、数据内容信息、数据分布信息和数据量级信息;
基于所述数据库信息、所述数据内容信息、所述数据分布信息和所述数据量级信息确定所述用户指令对应的用户数据。
本申请实施例还提供一种数据的验证装置,其特征在于,所述数据的验证装置包括:
确定模块,用于响应用户指令,基于所述用户指令和无监督异常识别算法确定对应的异常度数据;
构建模块,用于确定业务目标数据,基于所述异常度数据和所述业务目标数据构建对应的数据验证模型;
验证模块,用于基于所述数据验证模型验证所述无监督异常识别算法的有效性。
本申请实施例还提供一种数据的验证***,所述数据的验证***包括存储器、处理器和存储在所述存储器上并在所述处理器上运行的数据的验证程序,所述数据的验证程序被所述处理器执行时实现如上所述的数据的验证方法的步骤。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据的验证程序,所述数据的验证程序被处理器执行时实现如上所述的数据的验证方法的步骤。
本申请实施例提供一种数据的验证方法、装置、***及计算机可读存储介质,通过响应用户指令,基于用户指令和无监督异常识别算法确定对应的异常度数据;确定业务目标数据,基于异常度数据和业务目标数据构建对应的数据验证模型;基于数据验证模型验证无监督异常识别算法的有效性。由此可知,本申请在进行数据验证的过程中,通过用户指令和无监督异常识别算法共同确定异常度数据,从而保证了异常度数据的准确性。再通过异常度数据和业务目标数据构建数据验证模型,并通过数据验证模型验证无监督异常识别算法的有效性,保证了数据验证模型与业务目标数据之间的关联性。
附图说明
图1是本申请实施例方案涉及的硬件运行环境的结构示意图;
图2是本申请数据的验证方法第一实施例的流程示意图;
图3是本申请数据的验证方法的流程示意图;
图4是本申请数据的验证装置较佳的结构示意图。
本申请目的的实现、功能特点及优点将合并实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,图1为本申请实施例方案涉及的硬件运行环境的***结构示意图。该数据的验证***可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的数据的验证***结构并不构成对数据的验证***的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及数据的验证程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据的验证程序,并执行以下操作:
响应用户指令,基于所述用户指令和无监督异常识别算法确定对应的异常度数据;
确定业务目标数据,基于所述异常度数据和所述业务目标数据构建对应的数据验证模型;
基于所述数据验证模型验证所述无监督异常识别算法的有效性。
进一步地,处理器1001可以调用存储器1005中存储的数据的验证程序,还执行以下操作:
确定所述数据验证模型中所述异常度数据和所述业务目标数据的关联性程度,基于所述关联性程度验证所述无监督异常识别算法的有效性。
进一步地,处理器1001可以调用存储器1005中存储的数据的验证程序,还执行以下操作:
确定所述关联性程度是否大于或者等于预设关联程度;
若确定所述关联性程度大于或者等于所述预设关联程度,则确定所述无监督异常识别算法有效;
若确定所述关联性程度小于所述预设关联程度,则确定所述无监督异常识别算法无效。
进一步地,处理器1001可以调用存储器1005中存储的数据的验证程序,还执行以下操作:
将所述异常度数据确定为自变量数据,并检测是否存在业务数据标签;
若检测到存在业务数据标签,则基于所述业务数据标签确定所述业务目标数据,并将所述业务目标数据确定为目标变量数据;
基于所述自变量数据和所述目标变量数据构建所述数据验证模型。
进一步地,处理器1001可以调用存储器1005中存储的数据的验证程序,还执行以下操作:
若检测到不存在业务数据标签,则基于所述用户指令确定所述业务目标数据,并将所述业务目标数据确定为所述目标变量数据。
进一步地,处理器1001可以调用存储器1005中存储的数据的验证程序,还执行以下操作:
基于所述用户指令确定对应的用户数据和所述用户数据对应的数据特征;
基于所述无监督异常识别算法和所述数据特征对所述用户数据进行数据分析,确定所述用户数据的异常点数据;
基于所述异常点数据确定对应的异常度数据。
进一步地,处理器1001可以调用存储器1005中存储的数据的验证程序,还执行以下操作:
确定所述用户指令中的数据库信息、数据内容信息、数据分布信息和数据量级信息;
基于所述数据库信息、所述数据内容信息、所述数据分布信息和所述数据量级信息确定所述用户指令对应的用户数据。
本申请提供一种数据的验证方法,参照图2,图2为本申请数据的验证方法第一实施例的流程示意图。
本申请实施例提供了数据的验证方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些数据下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例以数据验证***为执行主体进行举例说明,数据的验证方法包括:
步骤S10,响应用户指令,基于所述用户指令和无监督异常识别算法确定对应的异常度数据。
用户根据用户经验在数据验证***的输入界面输入对应的用户指令,用户指令用于指明对应的用户数据源、用户数据源的数据特征和业务数据信息等,其中,用户包括但不限制于个体户、小微型企业、中型企业和大型企业,需要说明的是,本申请实施例中用户主要面对的小微型企业。
数据验证***侦测到输入界面输入用户指令时,响应用户指令,然后通过无监督异常识别算法并结合用户数据源的数据特征对用户数据源进行分析,识别用户数据源中的孤立点,即将识别出来的孤立点确定为异常数据点。其中,无监督异常识别算法包括但不限制于局部异常因子算法、DBSCAN聚类算法、单分类SVM算法和孤立森林算法,本实施例不作限制。
无监督异常识别算法的应用场景只需要得到异常数据点的排名,将最为异常的一部分异常数据点确定为异常数据,其输出结果为异常数据对应的异常数值,该异常数值即为异常数据对应的异常度数据。
进一步地,所述步骤S10包括:
步骤S101,基于所述用户指令确定对应的用户数据和所述用户数据对应的数据特征;
步骤S102,基于所述无监督异常识别算法和所述数据特征对所述用户数据进行数据分析,确定所述用户数据的异常点数据;
步骤S103,基于所述异常点数据确定对应的异常度数据。
具体地,数据验证***确定用户指令包含的用户数据信息,根据用户数据信息确定用户指令对应的用户数据,以及用户数据对应的数据特征,通过无监督异常识别算法并按照数据特征对用户数据进行正常数据和异常数据分析,识别出偏离正常点数据的常点数据。然后,数据验证***输出该异常点数据对应的异常数值,其中,异常数值一般以异常分数形式进行表示,将异常数值与预设标准数值进行作差,得到异常差值,再确定异常差值所处的预设差值阶段,通过异常差值所处的预设差值阶段确定异常点数据对应的异常度数据。其中,预设标准数值和预设差值阶段是根据实际情况设定,本实施例不作限制。
在本实施例中,比如,预设标准数值为0.5,预设差值阶段为,第一阶段0至0.1,第二阶段0.11至0.3,第三阶段为0.31至0.6,第四阶段大于0.6。异常点数据对应的异常数值为0.94,数据验证***确定异常差值为0.95-0.5=0.45,异常差值0.45大于0.31且小于0.6,则确定异常点数据对应的异常度数据为第三阶段。
进一步地,所述步骤S101,基于所述用户指令确定对应的用户数据的步骤包括:
步骤S1011,确定所述用户指令中的数据库信息、数据内容信息、数据分布信息和数据量级信息;
步骤S1102,基于所述数据库信息、所述数据内容信息、所述数据分布信息和所述数据量级信息确定所述用户指令对应的用户数据。
具体地,数据验证***对用户指令进行分析,确定用户指令中携带的数据库信息、数据内容信息、数据分布信息和数据量级信息。然后,数据验证***根据数据库信息,如,数据库的名称或者数据库的地址等,确定所需要获取对应数据的数据库。接着,数据验证***根据数据内容信息确定所需要获取的数据是什么,根据数据分布信息确定数据的内在分布,根据数据量级信息确定数据的量级。最后,数据验证***按照数据内容信息、数据分布信息和数据量级信息在该数据库中确定所要获取的用户数据。
在本实施例中,比如,数据库的地址为“101.1.12.1.0”,数据内容信息为“提款数据”,数据分布信息为“2020年1月至11月”,数据量级信息为“10000条”,数据验证***在“101.1.12.1.0”数据库中获取“2020年1月至11月”的“10000条提款数据”,若“2020年1月至11月”的“提款数据”大于或者等于10000条,数据验证***则取10000条“提款数据”,若“2020年1月至11月”的“提款数据”小于10000条,数据验证***则取当前数量级的“提款数据”。
步骤S20,确定业务目标数据,基于所述异常度数据和所述业务目标数据构建对应的数据验证模型。
数据验证***确定数据库中是否存在对应的场景下可识别的业务数据标签,若数据验证***确定数据库中存在可识别的业务数据标签,数据验证***则根据该业务数据标签确定对应的业务目标数据,若数据验证***确定数据库中不存在可识别的业务数据标签,数据验证***则根据用户指令中携带的数据信息确定业务目标数据,其中,场景即定义用户的正常操作和异常操作,业务目标数据可以是是否违约,也可以是是否提款等。
数据验证***确定业务目标数据后,将异常度数据和业务目标数据确定为对应的模型变量,并通过异常度数据的模型变量和业务目标数据的模型变量构建对应的数据验证模型。
进一步,所述步骤S20包括:
步骤S201,将所述异常度数据确定为自变量数据,并检测是否存在业务数据标签;
步骤S202,若检测到存在业务数据标签,则基于所述业务数据标签确定所述业务目标数据,并将所述业务目标数据确定为目标变量数据;
步骤S203,若检测到不存在业务数据标签,则基于所述用户指令确定所述业务目标数据,并将所述业务目标数据确定为所述目标变量数据;
步骤S204,基于所述自变量数据和所述目标变量数据构建所述数据验证模型。
具体地,数据验证***将异常度数据确定为构建数据验证模型的自变量数据,并在数据库中检测是否存在业务数据标签,若数据验证***检测到在数据库中存在业务数据标签,数据验证***则识别该业务数据标签,得到对应的识别结果,并将识别结果确定为该业务数据标签对应的业务目标数据,并将该业务目标数据确定为构建数据验证模型的目标变量数据。若数据验证***检测到在数据库中不存在业务数据标签,数据验证***则确定用户指令中携带的业务数据信息,根据该业务数据信息确定用户指令对应的业务目标数据,并将该业务目标数据确定为构建数据验证模型的目标变量数据。
数据验证***确定构建数据验证模型的自变量数据和构建数据验证模型的目标变量数据后,将构建数据验证模型的自变量数据和构建数据验证模型的目标变量数据进行构建回归模型,得到对应的数据验证模型。
步骤S30,基于所述数据验证模型验证所述无监督异常识别算法的有效性。
数据验证***构建完成数据验证模型后,确定数据验证模型中异常度数据和业务目标数据之间的关联性,根据数据验证模型中异常度数据和业务目标数据之间的关联性确定无监督异常识别算法有效或者无效。
进一步地,如图3所示,图3为本申请数据的验证方法的流程示意图,基于专家经验(用户经验)的特征筛选,选择适用于小微企业(用户)风险模型的用户数据源和用户数据源对应的特征衍生方式(数据特征),得到专家经验指令(用户指令)。基于无监督算法的异常识别,通过无监督异常识别算法和用户数据源对应的特征衍生方式,计算用户数据源的异常度数据。基于业务目标的多场景回归测试,将无监督异常识别算法计算出的异常度数据作为自变量,将多场景的业务目标数据作为目标变量构建回归模型(数据验证模型),通过回归模型验证无监督异常识别算法的有效性。
本实施例通过响应用户指令,基于用户指令和无监督异常识别算法确定对应的异常度数据;确定业务目标数据,基于异常度数据和业务目标数据构建对应的数据验证模型;基于数据验证模型验证无监督异常识别算法的有效性。由此可知,本实施例在进行数据验证的过程中,通过用户指令和无监督异常识别算法共同确定异常度数据,从而保证了异常度数据的准确性。再通过异常度数据和业务目标数据构建数据验证模型,并通过数据验证模型验证无监督异常识别算法的有效性,保证了数据验证模型与业务目标数据之间的关联性。
进一步地,本申请数据的验证方法提供另一实施例,所述步骤S30包括:
步骤S301,确定所述数据验证模型中所述异常度数据和所述业务目标数据的关联性程度,基于所述关联性程度验证所述无监督异常识别算法的有效性。
具体的,数据验证***确定数据验证模型中异常度数据和业务目标数据之间的关联性程度,将数据验证模型中异常度数据和业务目标数据之间的关联性程度与预设关联程度进行程度大小比较,根据关联性程度与预设关联程度的比较结果确定无监督异常识别算法有效或者无效,其中,预设关联程度由技术人员设定,本实施例不作限制。关联性程度和预设关联程度的表达形式包括但不限制于数值表达形式和等级表达形式。
进一步地,所述步骤S301包括:
步骤S3011,确定所述关联性程度是否大于或者等于预设关联程度;
步骤S3012,若确定所述关联性程度大于或者等于所述预设关联程度,则确定所述无监督异常识别算法有效;
步骤S3013,若确定所述关联性程度小于所述预设关联程度,则确定所述无监督异常识别算法无效。
具体地,数据验证***分别确定关联性程度和预设关联程度对应的数值或者等级,并将关联性程度对应的数值或者等级与预设关联程度对应的数值或者等级进行大小比较,确定关联性程度对应的数值或者等级是否大于或者我等于预设关联程度对应的数值或者等级,若数据验证***确定关联性程度对应的数值或者等级大于或者等于预设关联程度对应的数值或者等级,数据验证***则确定数据验证模型中异常度数据和业务目标数据之间的关联性满足预设要求,即确定无监督异常识别算法有效。若数据验证***确定关联性程度对应的数值或者等级小于预设关联程度对应的数值或者等级,数据验证***则确定数据验证模型中异常度数据和业务目标数据之间的关联性没有满足预设要求,即确定无监督异常识别算法无效。
在本实施例中,比如,关联性程度和预设关联程度的表达形式为数值,预设关联程度的数值为75,数据验证***确定异常度数据和业务目标数据之间的关联性程度为82大于75,则确定无监督异常识别算法有效。数据验证***确定异常度数据和业务目标数据之间的关联性程度为67小于75,则确定无监督异常识别算法无效。
本实施例确定数据验证模型中异常度数据和业务目标数据的关联性程度,基于关联性程度验证无监督异常识别算法的有效性。由此可知,本实施例通过数据验证模型与业务目标数据之间的关联性异常度数据和业务目标数据的关联性程度和预设关联程度验证无监督异常识别算法的有效性,从而保证了数据验证模型与业务目标数据之间的关联性。
此外,本申请还提供一种数据的验证装置,参照图4,图4是本申请数据的验证装置较佳的结构示意图,所述数据的验证装置包括:
确定模块10,用于响应用户指令,基于所述用户指令和无监督异常识别算法确定对应的异常度数据;
构建模块20,用于确定业务目标数据,基于所述异常度数据和所述业务目标数据构建对应的数据验证模型;
验证模块30,用于基于所述数据验证模型验证所述无监督异常识别算法的有效性。
进一步地,所述确定模块10还用于确定所述数据验证模型中所述异常度数据和所述业务目标数据的关联性程度;
所述验证模块30还用于基于所述关联性程度验证所述无监督异常识别算法的有效性;
所述确定模块10还用于确定所述关联性程度是否大于或者等于预设关联程度;
所述确定模块10还用于若确定所述关联性程度大于或者等于所述预设关联程度,则确定所述无监督异常识别算法有效;
所述确定模块10还用于若确定所述关联性程度小于所述预设关联程度,则确定所述无监督异常识别算法无效;
所述确定模块10还用于将所述异常度数据确定为自变量数据。
进一步地,所述确定模块10还包括:
检测单元,用于检测是否存在业务数据标签。
进一步地,所述确定模块10还用于若检测到存在业务数据标签,则基于所述业务数据标签确定所述业务目标数据,并将所述业务目标数据确定为目标变量数据;
所述构建模块20还用于基于所述自变量数据和所述目标变量数据构建所述数据验证模型;
所述确定模块10还用于若检测到不存在业务数据标签,则基于所述用户指令确定所述业务目标数据,并将所述业务目标数据确定为所述目标变量数据;
所述确定模块10还用于基于所述用户指令确定对应的用户数据和所述用户数据对应的数据特征;
所述确定模块10还用于基于所述无监督异常识别算法和所述数据特征对所述用户数据进行数据分析,确定所述用户数据的异常点数据;
所述确定模块10还用于基于所述异常点数据确定对应的异常度数据;
所述确定模块10还用于确定所述用户指令中的数据库信息、数据内容信息、数据分布信息和数据量级信息;
所述确定模块10还用于基于所述数据库信息、所述数据内容信息、所述数据分布信息和所述数据量级信息确定所述用户指令对应的用户数据。
本申请基于数据的验证装置具体实施方式与上述基于数据的验证方法各实施例基本相同,在此不再赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据的验证程序,所述数据的验证程序被处理器执行时实现如上所述的数据的验证方法的步骤。
本申请计算机可读存储介质具体实施方式与上述数据的验证方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的数据下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多数据下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件货物的形式体现出来,该计算机软件货物存储在一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台数据的验证***执行本申请各个实施例所述的方法。

Claims (10)

1.一种数据的验证方法,其特征在于,所述数据的验证方法包括步骤:
响应用户指令,基于所述用户指令和无监督异常识别算法确定对应的异常度数据;
确定业务目标数据,基于所述异常度数据和所述业务目标数据构建对应的数据验证模型;
基于所述数据验证模型验证所述无监督异常识别算法的有效性。
2.如权利要求1所述数据的验证方法,其特征在于,所述基于所述数据验证模型验证所述无监督异常识别算法的有效性的步骤包括:
确定所述数据验证模型中所述异常度数据和所述业务目标数据的关联性程度,基于所述关联性程度验证所述无监督异常识别算法的有效性。
3.如权利要求2所述数据的验证方法,其特征在于,所述基于所述关联性程度验证所述无监督异常识别算法的有效性的步骤包括:
确定所述关联性程度是否大于或者等于预设关联程度;
若确定所述关联性程度大于或者等于所述预设关联程度,则确定所述无监督异常识别算法有效;
若确定所述关联性程度小于所述预设关联程度,则确定所述无监督异常识别算法无效。
4.如权利要求1所述数据的验证方法,其特征在于,所述确定业务目标数据,基于所述异常度数据和所述业务目标数据构建对应的数据验证模型的步骤包括:
将所述异常度数据确定为自变量数据,并检测是否存在业务数据标签;
若检测到存在业务数据标签,则基于所述业务数据标签确定所述业务目标数据,并将所述业务目标数据确定为目标变量数据;
基于所述自变量数据和所述目标变量数据构建所述数据验证模型。
5.如权利要求4所述数据的验证方法,其特征在于,所述检测是否存在可识别的业务数据标签的步骤之后,还包括:
若检测到不存在业务数据标签,则基于所述用户指令确定所述业务目标数据,并将所述业务目标数据确定为所述目标变量数据。
6.如权利要求1至5任一项所述数据的验证方法,其特征在于,所述基于所述用户指令和无监督异常识别算法确定对应的异常度数据的步骤包括:
基于所述用户指令确定对应的用户数据和所述用户数据对应的数据特征;
基于所述无监督异常识别算法和所述数据特征对所述用户数据进行数据分析,确定所述用户数据的异常点数据;
基于所述异常点数据确定对应的异常度数据。
7.如权利要求6所述数据的验证方法,其特征在于,所述基于所述用户指令确定对应的用户数据的步骤包括:
确定所述用户指令中的数据库信息、数据内容信息、数据分布信息和数据量级信息;
基于所述数据库信息、所述数据内容信息、所述数据分布信息和所述数据量级信息确定所述用户指令对应的用户数据。
8.一种数据的验证装置,其特征在于,所述数据的验证装置包括:
确定模块,用于响应用户指令,基于所述用户指令和无监督异常识别算法确定对应的异常度数据;
构建模块,用于确定业务目标数据,基于所述异常度数据和所述业务目标数据构建对应的数据验证模型;
验证模块,用于基于所述数据验证模型验证所述无监督异常识别算法的有效性。
9.一种数据的验证***,其特征在于,所述数据的验证***包括存储器、处理器和存储在所述存储器上并在所述处理器上运行的数据的验证程序,所述数据的验证程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据的验证方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据的验证程序,所述数据的验证程序被处理器执行时实现如权利要求1至7中任一项所述的数据的验证方法的步骤。
CN202011480066.7A 2020-12-15 2020-12-15 数据的验证方法、装置、***及计算机可读存储介质 Active CN112597209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011480066.7A CN112597209B (zh) 2020-12-15 2020-12-15 数据的验证方法、装置、***及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011480066.7A CN112597209B (zh) 2020-12-15 2020-12-15 数据的验证方法、装置、***及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112597209A true CN112597209A (zh) 2021-04-02
CN112597209B CN112597209B (zh) 2024-07-26

Family

ID=75196216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011480066.7A Active CN112597209B (zh) 2020-12-15 2020-12-15 数据的验证方法、装置、***及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112597209B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139610A (zh) * 2021-04-29 2021-07-20 国网河北省电力有限公司电力科学研究院 一种针对变压器监测数据的异常检测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856156B1 (en) * 2011-10-07 2014-10-07 Cerner Innovation, Inc. Ontology mapper
CN109615080A (zh) * 2018-09-20 2019-04-12 阿里巴巴集团控股有限公司 无监督模型评估方法、装置、服务器及可读存储介质
CN109886809A (zh) * 2019-01-24 2019-06-14 平安科技(深圳)有限公司 交易数据智能分析方法、电子装置及计算机可读存储介质
CN109902721A (zh) * 2019-01-28 2019-06-18 平安科技(深圳)有限公司 异常点检测模型验证方法、装置、计算机设备及存储介质
CN110009359A (zh) * 2019-01-22 2019-07-12 阿里巴巴集团控股有限公司 无监督风险防控模型的训练方法、更新方法及装置
CN111275546A (zh) * 2020-02-24 2020-06-12 中国工商银行股份有限公司 金融客户欺诈风险识别方法及装置
CN111507376A (zh) * 2020-03-20 2020-08-07 厦门大学 一种基于多种无监督方法融合的单指标异常检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856156B1 (en) * 2011-10-07 2014-10-07 Cerner Innovation, Inc. Ontology mapper
CN109615080A (zh) * 2018-09-20 2019-04-12 阿里巴巴集团控股有限公司 无监督模型评估方法、装置、服务器及可读存储介质
CN110009359A (zh) * 2019-01-22 2019-07-12 阿里巴巴集团控股有限公司 无监督风险防控模型的训练方法、更新方法及装置
CN109886809A (zh) * 2019-01-24 2019-06-14 平安科技(深圳)有限公司 交易数据智能分析方法、电子装置及计算机可读存储介质
CN109902721A (zh) * 2019-01-28 2019-06-18 平安科技(深圳)有限公司 异常点检测模型验证方法、装置、计算机设备及存储介质
CN111275546A (zh) * 2020-02-24 2020-06-12 中国工商银行股份有限公司 金融客户欺诈风险识别方法及装置
CN111507376A (zh) * 2020-03-20 2020-08-07 厦门大学 一种基于多种无监督方法融合的单指标异常检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TUMASCH REICHENBACHER ET AL: "Assessing geographic relevance for mobile search: A computational model and its validation via crowdsourcing", 《JOURNAL OF ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY》, vol. 67, no. 11, 1 November 2016 (2016-11-01), pages 2620 - 2634 *
王悦丞 等: "基于多元回归模型的多变量报警根源分析", 《第31届中国过程控制会议》, 30 July 2020 (2020-07-30), pages 237 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139610A (zh) * 2021-04-29 2021-07-20 国网河北省电力有限公司电力科学研究院 一种针对变压器监测数据的异常检测方法及装置

Also Published As

Publication number Publication date
CN112597209B (zh) 2024-07-26

Similar Documents

Publication Publication Date Title
CN109241418B (zh) 基于随机森林的异常用户识别方法及装置、设备、介质
CN114207648A (zh) 在计算环境中自动更新支付信息的技术
US9116879B2 (en) Dynamic rule reordering for message classification
CN113051543B (zh) 在大数据环境下的云服务安全校验方法及云服务***
CN111768040A (zh) 模型解释方法、装置、设备及可读存储介质
CN114244611B (zh) 异常攻击检测方法、装置、设备及存储介质
CN113888299A (zh) 风控决策方法、装置、计算机设备和存储介质
CN111339531A (zh) 恶意代码的检测方法、装置、存储介质及电子设备
CN111259207A (zh) 短信的识别方法、装置及设备
CN112307464A (zh) 诈骗识别方法、装置及电子设备
CA3164550A1 (en) Image information processing method for use in q&a system, device and electronic equipment
CN112597209B (zh) 数据的验证方法、装置、***及计算机可读存储介质
KR102143510B1 (ko) 정보 보안 위험 관리 시스템
CN110781494A (zh) 数据异常预警方法、装置、设备及存储介质
US11663547B2 (en) Evolutionary software prioritization protocol for digital systems
CN112214770B (zh) 恶意样本的识别方法、装置、计算设备以及介质
CN111767543B (zh) 重放攻击漏洞确定方法、装置、设备及可读存储介质
Ugarte-Pedrero et al. On the adoption of anomaly detection for packed executable filtering
JP6954466B2 (ja) 生成方法、生成装置および生成プログラム
CN111582757A (zh) 欺诈风险的分析方法、装置、设备及计算机可读存储介质
CN116089920A (zh) 一种敏感字段预警方法、***、计算机设备及介质
CN113052509B (zh) 模型评估方法、模型评估装置、电子设备和存储介质
CN115982713A (zh) 漏洞修复方法、装置、电子设备和计算机可读存储介质
CN111767544B (zh) 多频重放攻击漏洞确定方法、装置、设备及可读存储介质
EP3174263A1 (en) Apparatus and method for verifying detection rule

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant