CN115329280A - 一种数据筛选方法、装置、设备及介质 - Google Patents
一种数据筛选方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115329280A CN115329280A CN202210990092.7A CN202210990092A CN115329280A CN 115329280 A CN115329280 A CN 115329280A CN 202210990092 A CN202210990092 A CN 202210990092A CN 115329280 A CN115329280 A CN 115329280A
- Authority
- CN
- China
- Prior art keywords
- initial screening
- interval
- value
- limit value
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请涉及数据处理领域,具体涉及一种数据筛选方法、装置、设备及介质,用于提高数据筛选的准确性。本申请实施例中,首先获取样本信息;然后根据初始筛选区间的个数、初始筛选区间的权重确定样本信息的每个初始筛选区间的上限值以及下限值;针对任意一个初始筛选区间,根据该初始筛选区间的上限值、下限值以及该初始筛选区间的权重,确定该初始筛选区间的指定信息值;根据指定信息值确定该初始筛选区间对应的目标筛选域;根据目标筛选域对样本信息进行筛选,得到目标信息。在本申请中,得到的初始筛选区间更加符合用户需求,进而提高了后续数据筛选的准确性。
Description
技术领域
本申请涉及数据处理领域,具体涉及一种数据筛选方法、装置、设备及介质。
背景技术
现阶段相关技术中对于数据筛选的研究,基本都是基于模糊数学理论,根据经验对隶属函数进行主观预设和微调。但是该方法在样本量较小的情况下,难以获得真正符合变量的概率分布类型。且样本统计信息没有得到充分利用。针对数据筛选,大多对所有的筛选范围设置相同的权重,使得对数据的筛选结果不具有一般性,导致得到的数据的筛选结果不准确。
发明内容
本申请实施例提供一种数据筛选方法、装置、设备及介质,用于提高数据筛选的准确性。
第一方面,本申请提供一种数据筛选方法,所述方法包括:
获取样本信息,其中,所述样本信息为与用户关联的对象的属性值,所述属性值服从正态分布;
根据初始筛选区间的个数、所述初始筛选区间的权重确定所述样本信息的每个所述初始筛选区间的上限值以及下限值;其中,所述初始筛选区间的个数是根据所述样本信息设定的;其中,所述权重是根据所述样本信息设定的;
针对任意一个初始筛选区间,根据所述任意一个初始筛选区间的所述上限值、所述下限值以及所述任意一个初始筛选区间的权重,确定所述任意一个初始筛选区间的指定信息值;所述指定信息值表征在所述任意一个初始筛选区间中属性值最大的样本信息;
根据所述指定信息值确定所述任意一个初始筛选区间对应的目标筛选域;
根据所述目标筛选域对所述样本信息进行筛选,得到目标信息。
在本申请中,用户根据样本信息自行设定初始筛选区间的个数,以及每个初始筛选区间的权重,基于用户设置的权重最终可确定出目标筛选域,并基于目标筛选域对样本信息进行筛选,满足了用户的需求,提高了数据筛选的准确性。
在一些可能的实施例中,所述根据初始筛选区间的个数、所述初始筛选区间的权重确定所述样本信息的每个所述初始筛选区间的上限值以及下限值,包括:
基于所述初始筛选区间的个数以及所述初始筛选区间的权重,对所述初始筛选区间进行标准化处理,得到标准化处理的上限值和标准化处理的下限值;
根据所述标准化处理的上限值、所述标准化处理的下限值以及所述初始筛选区间的概率分布函数得到所述初始筛选区间的上限值和下限值。
在本申请中,根据初始筛选区间的个数以及初始筛选区间的权重来确定初始筛选区间的上限值和下限值,使得到的初始筛选区间更加符合用户需求,进而提高了后续数据筛选的准确性。
在一些可能的实施例中,述基于所述初始筛选区间的个数以及所述初始筛选区间的权重,对所述初始筛选区间进行标准化处理,得到标准化处理的上限值和标准化处理的下限值,包括:
采用标准化处理公式对所述初始筛选区间进行标准化处理,其中,所述标准化处理公式为:
其中,AS为第s个初始筛选区间,为所述标准化处理的上限值,为所述标准化处理的下限值;ωs为第s个初始筛选区间的权重;f(x)为第s个初始筛选区间的概率密度函数;D第s个初始筛选区间中的标准差,E为第s个初始筛选区间的均值。
在一些可能的实施例中,所述根据所述积分处理的积分上限、积分下限以及所述初始筛选区间的概率分布函数得到所述初始筛选区间的上限值和下限值,包括:
将所述积分处理的积分上限以及积分下限分别带入所述概率分布函数,得到所述初始筛选区间的上限值和下限值;其中,所述概率分布函数为:
其中:AS为第s个初始筛选区间,max(AS)为所述第s个初始筛选区间的上限值,min(AS)为所述第s个初始筛选区间的下限值;ωi为第i个初始筛选区间的权重;f(x)为第s个初始筛选区间的概率密度函数;Φ(x)为第s个初始筛选区间的概率分布函数;D所述第s个初始筛选区间中的标准差,E为所述第s个初始筛选区间的均值。
在本申请中,通过标准化处理公式以及概率分布函数来确定初始筛选区间的上限值以及下限值,使得到的初始筛选区间更加准确。
在一些可能的实施例中,所述根据所述任意一个初始筛选区间的所述上限值、所述下限值以及所述任意一个初始筛选区间的权重,确定所述任意一个初始筛选区间的指定信息值,包括:
根据所述任意一个初始筛选区间的所述上限值、所述下限值以及所述任意一个初始筛选区间的权重确定所述任意一个初始筛选区间的概率平均线;
确定所述概率平均线与所述任意一个初始筛选区间的概率密度函数的交点个数;
根据所述交点个数确定所述任意一个初始筛选区间的指定信息值。
在本申请中,根据概率平均线与初始筛选区间的概率密度函数的交点个数来确定指定信息值,使得确定的指定信息值更加准确。
在一些可能的实施例中,所述根据所述交点个数确定所述任意一个初始筛选区间的指定信息值,包括:
若所述交点个数为一个点,则根据第一指定信息确定公式确定所述指定信息值;
若所述交点个数为两个点,则所述指定信息值为所述任意一个初始筛选区间的均值;
其中,所述第一指定信息确定公式为:
其中:maxT(AS)为所述指定信息值,AS为第s个初始筛选区间,avg为所述第s个初始筛选区间的概率平均线,f-1(avg)为所述第s个初始筛选区间的概率平均线的反函数,D所述第s个初始筛选区间中的标准差,E为所述第s个初始筛选区间的均值。
在本申请中通过第一指定信息确定公式以及初始筛选区间的均值来确定指定信息值,保证了确定的指定信息值的准确性。
在一些可能的实施例中,所述根据所述指定信息值确定所述任意一个初始筛选区间对应的目标筛选域,包括:
基于所述样本信息中属性值最小的样本信息、所述样本信息中属性值最大的样本信息以及所述指定信息值,确定所述指定信息值的所属范围;
基于所述所属范围确定目标筛选域公式;
将所述指定信息值带入所述目标筛选域公式,得到所述任意一个初始筛选区间对应的目标筛选域。
在本申请中,基于指定信息值的所属范围来确定初始筛选区间对应的目标筛选域,保证了目标筛选域的准确性。
第二方面,本申请提供一种数据筛选装置,所述装置包括:
获取模块,用于获取样本信息,其中,所述样本信息为与用户关联的对象的属性值,所述属性值服从正态分布;
初始筛选区间确定模块,用于根据初始筛选区间的个数、所述初始筛选区间的权重确定所述样本信息的每个所述初始筛选区间的上限值以及下限值;其中,所述初始筛选区间的个数是根据所述样本信息设定的;其中,所述权重是根据所述样本信息设定的;
指定信息值确定模块,用于针对任意一个初始筛选区间,根据所述任意一个初始筛选区间的所述上限值、所述下限值以及所述任意一个初始筛选区间的权重,确定所述任意一个初始筛选区间的指定信息值;所述指定信息值表征在所述任意一个初始筛选区间中属性值最大的样本信息;
目标筛选域确定模块,用于根据所述指定信息值确定所述任意一个初始筛选区间对应的目标筛选域;
目标信息确定模块,用于根据所述目标筛选域对所述样本信息进行筛选,得到目标信息。
在一些可能的实施例中,所述初始筛选区间确定模块执行所述根据初始筛选区间的个数、所述初始筛选区间的权重确定所述样本信息的每个所述初始筛选区间的上限值以及下限值时,被配置为:
基于所述初始筛选区间的个数以及所述初始筛选区间的权重,对所述初始筛选区间进行标准化处理,得到标准化处理的上限值和标准化处理的下限值;
根据所述标准化处理的上限值、所述标准化处理的下限值以及所述初始筛选区间的概率分布函数得到所述初始筛选区间的上限值和下限值。
在一些可能的实施例中,所述初始筛选区间确定模块执行基于所述初始筛选区间的个数以及所述初始筛选区间的权重,对所述初始筛选区间进行标准化处理,得到标准化处理的上限值和标准化处理的下限值时,被配置为:
采用标准化处理公式对所述初始筛选区间进行标准化处理,其中,所述标准化处理公式为:
其中,AS为第s个初始筛选区间,为所述标准化处理的上限值,为所述标准化处理的下限值;ωs为第s个初始筛选区间的权重;f(x)为第s个初始筛选区间的概率密度函数;D第s个初始筛选区间中的标准差,E为第s个初始筛选区间的均值。
在一些可能的实施例中,所述指定信息值确定模块执行根据所述任意一个初始筛选区间的所述上限值、所述下限值以及所述任意一个初始筛选区间的权重,确定所述任意一个初始筛选区间的指定信息值时,被配置为:
根据所述任意一个初始筛选区间的所述上限值、所述下限值以及所述任意一个初始筛选区间的权重确定所述任意一个初始筛选区间的概率平均线;
确定所述概率平均线与所述任意一个初始筛选区间的概率密度函数的交点个数;
根据所述交点个数确定所述任意一个初始筛选区间的指定信息值。
在一些可能的实施例中,所述指定信息值确定模块执行根据所述交点个数确定所述任意一个初始筛选区间的指定信息值时,被配置为:
若所述交点个数为一个点,则根据第一指定信息确定公式确定所述指定信息值;
若所述交点个数为两个点,则所述指定信息值为所述任意一个初始筛选区间的均值;
其中,所述第一指定信息确定公式为:
其中:maxT(AS)为所述指定信息值,AS为第s个初始筛选区间,avg为所述第s个初始筛选区间的概率平均线,f-1(avg)为所述第s个初始筛选区间的概率平均线的反函数,D所述第s个初始筛选区间中的标准差,E为所述第s个初始筛选区间的均值。
在一些可能的实施例中,所述目标筛选域确定模块执行根据所述指定信息值确定所述任意一个初始筛选区间对应的目标筛选域时,被配置为:
基于所述样本信息中属性值最小的样本信息、所述样本信息中属性值最大的样本信息以及所述指定信息值,确定所述指定信息值的所属范围;
基于所述所属范围确定目标筛选域公式;
将所述指定信息值带入所述目标筛选域公式,得到所述任意一个初始筛选区间对应的目标筛选域。
第三方面,本申请提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中任一项所述的方法包括的步骤。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行第一方面中任一项所述的方法。
第五方面,本申请提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行第一方面中任一项所述的方法。
附图说明
图1为本申请实施例提供的一种数据筛选方法的应用场景示意图;
图2为本申请实施例提供的一种数据筛选方法的整理流程示意图;
图3为本申请实施例提供的一种数据筛选方法的确定初始筛选区间的流程示意图;
图4为本申请实施例提供的一种数据筛选方法的确定指定信息值的流程示意图;
图5为本申请实施例提供的一种数据筛选方法的确定目标筛选域的流程示意图;
图6为本申请实施例提供的一种数据筛选方法的装置示意图;
图7为本申请实施例提供的一种数据筛选方法的电子设备示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以按不同于此处的顺序执行所示出或描述的步骤。
本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个,例如可以是两个、三个或者更多个,本申请实施例不做限制。
本申请技术方案中,对数据的采集、传播、使用等,均符合国家相关法律法规要求。
在介绍本申请实施例所提供的一种数据筛选方法之前,为了便于理解,首先对下面对本申请实施例的专业术语进行解释:
1、模糊集合与隶属函数
即可由映射:
确定论域U的一个模糊子集A。
隶属函数是对模糊概念的定量描述,正确地确定隶属函数,是运用模糊集合理论解决实际问题的基础。典型的模糊分布有阶梯型、指数型、正态型、线型、幂函数型、正弦型等。
2、α截集
论域U中所有的元素x所对应的隶属函数μA(x)的值都不小于α的一个集合称为模糊集合A的α截集。
其中,α是置信水平(阈值)。利用α截集可以将一个模糊集合转化为普通集合。
3、正态分布
在介绍专业术语之后,为了便于理解,对下面对本申请实施例的背景技术进行解释:
发明人研究发现,现阶段相关技术中对于数据筛选的研究,基本都是基于模糊数学理论,根据经验对隶属函数进行主观预设和微调。该方法一方面,主观随意性太大,准确性很差。尤其是在样本量较小的情况下,难以获得真正符合变量的概率分布类型。另一方面,样本统计信息没有得到充分利用。针对数据筛选,相关技术中最根本的隶属函数的选择问题,已有研究基于正态分布概率密度函数进行隶属函数自动匹配方法。该法充分利用了样本信息,由此得到了更加合理的隶属函数。但是该方法默认不同模糊区间概率相等,相当于研究了一种非常特殊的情况,对于隶属函数极大值点的研究不具有一般性。因此使得对数据的筛选结果不具有一般性,导致得到的数据的筛选结果不准确。
有鉴于此,本申请提出了一种数据筛选方法、装置、电子设备和存储介质,用于解决上述问题。本申请的发明构思可概括为:获取样本信息,其中,样本信息为与用户关联的对象的属性值,属性值服从正态分布;根据初始筛选区间的个数、初始筛选区间的权重确定样本信息的每个初始筛选区间的上限值以及下限值;其中,初始筛选区间的个数是根据样本信息设定的;其中,权重是根据样本信息设定的;针对任意一个初始筛选区间,根据任意一个初始筛选区间的上限值、下限值以及任意一个初始筛选区间的权重,确定任意一个初始筛选区间的指定信息值;指定信息值表征在任意一个初始筛选区间中属性值最大的样本信息;根据指定信息值确定任意一个初始筛选区间对应的目标筛选域;根据目标筛选域对样本信息进行筛选,得到目标信息。
为了便于理解,下面结合附图对本申请实施例提供的一种数据筛选方法进行详细说明:
如图1所示,为本申请实施例中的一种数据筛选方法的应用场景图。图中包括:服务器10、存储器20、终端设备30;其中:
服务器10首先从存储器20中获取样本信息,其中,样本信息为与用户关联的对象的属性值,属性值服从正态分布;服务器10根据初始筛选区间的个数、初始筛选区间的权重确定样本信息的每个初始筛选区间的上限值以及下限值;其中,初始筛选区间的个数是用户在终端设备30中根据样本信息设定的;其中,权重是根据样本信息设定的;针对任意一个初始筛选区间,根据任意一个初始筛选区间的上限值、下限值以及任意一个初始筛选区间的权重,确定任意一个初始筛选区间的指定信息值;指定信息值表征在任意一个初始筛选区间中属性值最大的样本信息;根据指定信息值确定任意一个初始筛选区间对应的目标筛选域;根据目标筛选域对样本信息进行筛选,得到目标信息。
本申请中的描述中仅就单个服务器、存储器、终端设备加以详述,但是本领域技术人员应当理解的是,示出的服务器、存储器、终端设备旨在表示本申请的技术方案涉及的服务器、存储器、终端设备的操作。而非暗示对服务器、存储器、终端设备的数量、类型或是位置等具有限制。应当注意,如果向图示环境中添加附加模块或从其中去除个别模块,不会改变本申请的示例实施例的底层概念。
需要说明的是,本申请实施例中的存储器例如可以是缓存***、也可以是硬盘存储、内存存储等等。此外,本申请提出的数据筛选方法不仅适用于图1所示的应用场景,还适用于任何有数据筛选需求的装置。
如图2所示,为本申请实施例提供的一种数据筛选方法的整体流程示意图,其中:
步骤201中:获取样本信息,其中,样本信息为与用户关联的对象的属性值,属性值服从正态分布;
步骤202中:根据初始筛选区间的个数、初始筛选区间的权重确定样本信息的每个初始筛选区间的上限值以及下限值;其中,初始筛选区间的个数是根据样本信息设定的;其中,权重是根据样本信息设定的;
步骤203中:针对任意一个初始筛选区间,根据任意一个初始筛选区间的上限值、下限值以及任意一个初始筛选区间的权重,确定任意一个初始筛选区间的指定信息值;指定信息值表征在任意一个初始筛选区间中属性值最大的样本信息;
步骤204中:根据指定信息值确定任意一个初始筛选区间对应的目标筛选域;
步骤205中:根据目标筛选域对样本信息进行筛选,得到目标信息。
在本申请中,用户根据样本信息自行设定初始筛选区间的个数,以及每个初始筛选区间的权重,基于用户设置的权重最终可确定出目标筛选域,并基于目标筛选域对样本信息进行筛选,满足了用户的需求,提高了数据筛选的准确性。
为了便于理解,下面对图2中的步骤进行详细说明:
在本申请实施例中,样本信息为与用户关联的对象的属性值,且该属性值服从正态分布。例如:一个班级内全部学生的身高、一个公司内所有员工的收入等。本申请对样本信息的具体种类不作限定,符合正态分布的数据均可作为本申请中的样本信息。
在一些实施例中,根据初始筛选区间的个数、初始筛选区间的权重确定样本信息的每个初始筛选区间的上限值以及下限值时,可实施为如图3所示的步骤:
步骤301中:基于初始筛选区间的个数以及初始筛选区间的权重,对初始筛选区间进行标准化处理,得到标准化处理的上限值和标准化处理的下限值;
在本申请中,标准化处理公式如公式1所示:
其中:AS为第s个初始筛选区间,为标准化处理的上限值,为标准化处理的下限值;ωs为第s个初始筛选区间的权重;f(x)为第s个初始筛选区间的概率密度函数;D第s个初始筛选区间中的标准差,E为第s个初始筛选区间的均值。
例如:样本信息为一个班级内学生的身高,用户根据需求,确定将学生身高构成的样本信息划分为5个初始筛选区间,分别为140厘米以下,140厘米-150厘米,150厘米-160厘米,160厘米-170厘米,以及170厘米以上;并确定每个初始筛选区间分别对应的权重为:ω1、ω2、ω3、ω4、ω5。若对第二个初始筛选区间进行标准化处理的话,则上述公式1中的,AS为A2,ωs为ω2,D第2个初始筛选区间中的标准差,E为第2个初始筛选区间的均值。
步骤302中:根据标准化处理的上限值、标准化处理的下限值以及初始筛选区间的概率分布函数得到初始筛选区间的上限值和下限值。
在本申请中,概率分布函数如公式2所示:
其中:f(x)为第s个初始筛选区间的概率密度函数;Φ(x)为第s个初始筛选区间的概率分布函数。
分别将公式1的上限以及下限带入至公式2中,则可得到公式3和公式4:
根据公式3和公式4分别可求得公式5和公式6:
综上可得到初始筛选区间的上限值为公式5中max(AS)的,下限值为公式6中的min(AS)。
特别的,根据公式5和公式6可以得到:当s=1时,即该初始筛选区间为样本信息的第一个初始筛选区间时,min(AS)=-∞;当s=x时,即该初始筛选区间为样本信息的最后一个初始筛选区间时,max(AS)=+∞;当s等于其他值时,min(AS)=max(AS -1)。
在本申请中,根据初始筛选区间的个数以及初始筛选区间的权重来确定初始筛选区间的上限值和下限值,使得到的初始筛选区间更加符合用户需求,进而提高了后续数据筛选的准确性,且通过标准化处理公式以及概率分布函数来确定初始筛选区间的上限值以及下限值,使得到的初始筛选区间更加准确。
在一些可能的实施例中,根据任意一个初始筛选区间的上限值、下限值以及任意一个初始筛选区间的权重,确定任意一个初始筛选区间的指定信息值,可具体实施为如图4所示的步骤,其中:
步骤401中:根据任意一个初始筛选区间的上限值、下限值以及任意一个初始筛选区间的权重确定任意一个初始筛选区间的概率平均线;
在本申请实施例中,可采用公式7来确定初始筛选区间的概率平均线:
其中:avg(AS)为第s个初始筛选区间的概率平均线,ωs为第s个初始筛选区间的权重,max(AS)为第s个初始筛选区间的上限值,min(AS)为第s个初始筛选区间的下限值。
继续以样本信息为一个班级内的学生的身高为例,若确定第二个初始筛选区间的概率平均线的话,则上述公式7中的,AS为A2,ωs为ω2,max(AS)为max(A2),min(AS)为min(A2)。
步骤402中:确定概率平均线与任意一个初始筛选区间的概率密度函数的交点个数;
步骤403中:根据交点个数确定任意一个初始筛选区间的指定信息值。
根据相关技术中针对极大值点的定义:模糊区间AS的均值概率线y=avg(AS)和正态分布概率密度函数相交。若交点只有一个,则此交点的横坐标是AS的隶属函数的极大值点;若交点有两个,则以这两个交点的横坐标形成的区间为新的模糊区间,再次进行下去,直至只有一个交点为止,此交点的横坐标是AS的隶属函数的极大值点。
由此可得,当交点有两个时,此时样本均值E必落在这两个交点的横坐标区间之内,且因为样本满足正态分布,两个交点必以x=E轴对称。在本申请中的初始筛选区间中依照相关技术中的极大值点的定义再次进行相交,新的两个交点也必对称,一直进行到底,最后的交点必是均值E。由此,可以由相关技术中针对极大值点的定义得出本申请中针对指定信息值的定义。
指定信息值定义:初始筛选区间的AS的均值概率线y=avg(AS)和正态分布概率密度函数相交。若交点只有一个,则此交点的横坐标是AS的目标筛选域的指定信息值;若交点有两个,则以样本信息的均值作为AS的目标筛选域的指定信息值。
由此可见,根据上述定义,根据交点个数确定任意一个初始筛选区间的指定信息值,包括以下两种情况:
1)若交点个数为一个点,则根据第一指定信息确定公式确定指定信息值;
2)若交点个数为两个点,则指定信息值为任意一个初始筛选区间的均值;
其中,第一指定信息确定公式如公式8所示:
其中:maxT(AS)为指定信息值,AS为第s个初始筛选区间,avg为第s个初始筛选区间的概率平均线,f-1(avg)为第s个初始筛选区间的概率平均线的反函数,D第s个初始筛选区间中的标准差,E为第s个初始筛选区间的均值。
例如:继续以样本信息为一个班级内的学生的身高为例,若确定第二个初始筛选区间的指定信息值,则上述公式8中的,AS为A2,avg为第2个初始筛选区间的概率平均线,f-1(avg)为第2个初始筛选区间的概率平均线的反函数,D第2个初始筛选区间中的标准差,E为第2个初始筛选区间的均值。
在本申请中通过第一指定信息确定公式以及初始筛选区间的均值来确定指定信息值,保证了确定的指定信息值的准确性。
在本申请中在确定出指定信息值后,根据指定信息值确定任意一个初始筛选区间对应的目标筛选域时,可实施为如图5所示的步骤,其中:
步骤501中:基于样本信息中属性值最小的样本信息、样本信息中属性值最大的样本信息以及指定信息值,确定指定信息值的所属范围;
步骤502中:基于所属范围确定目标筛选域公式;
步骤503中:将指定信息值带入目标筛选域公式,得到任意一个初始筛选区间对应的目标筛选域。
例如:针对样本信息,将该样本信息划分为t个初始筛选区间,分别为:A1,A2…As…,At-1,At,且各初始筛选区间分别对应的指定信息值为:maxT(A1),maxT(A2)…,maxT(As)…maxT(At-1),maxT(At),属性值最小的样本信息为Umin、样本信息中属性值最大的样本信息为Umax,在本申请中采用正余弦函数来确定初始筛选区间对应的目标筛选域。
在本申请中,目标筛选域公式以及各目标筛选域对应的所属范围如公式9所示:
其中,Ai(x)为第i个初始筛选区间的目标筛选域,x为所述第i个初始筛选区间的指定信息值,Umin为属性值最小的样本信息、Umax为属性值最大的样本信息。
根据公式9可得在i=1时,公式9可推导为公式10:
根据公式9可得在i=2时,公式9可推导为公式11:
根据公式9可得在i=t-1时,公式9可推导为公式12:
根据公式9可得在i=t时,公式9可推导为公式13:
综上所述,可根据用户设置的初始筛选区间的个数以及权重最终可确定出每个初始筛选区间对应的目标筛选域,由于初始筛选区间个数以及权重均为用户根据需求所设的,因此,根据得到目标筛选域来对样本信息进行筛选可以使得到的筛选结果更加符合用户需求。
如图6所示,基于相同的发明构思,提出一种数据筛选装置600,所述装置包括:
获取模块6001,用于获取样本信息,其中,所述样本信息为与用户关联的对象的属性值,所述属性值服从正态分布;
初始筛选区间确定模块6002,用于根据初始筛选区间的个数、所述初始筛选区间的权重确定所述样本信息的每个所述初始筛选区间的上限值以及下限值;其中,所述初始筛选区间的个数是根据所述样本信息设定的;其中,所述权重是根据所述样本信息设定的;
指定信息值确定模块6003,用于针对任意一个初始筛选区间,根据所述任意一个初始筛选区间的所述上限值、所述下限值以及所述任意一个初始筛选区间的权重,确定所述任意一个初始筛选区间的指定信息值;所述指定信息值表征在所述任意一个初始筛选区间中属性值最大的样本信息;
目标筛选域确定模块6004,用于根据所述指定信息值确定所述任意一个初始筛选区间对应的目标筛选域;
目标信息确定模块6005,用于根据所述目标筛选域对所述样本信息进行筛选,得到目标信息。
在一些可能的实施例中,所述初始筛选区间确定模块执行根据初始筛选区间的个数、所述初始筛选区间的权重确定所述样本信息的每个所述初始筛选区间的上限值以及下限值时,被配置为:
将所述初始筛选区间的个数、所述初始筛选区间的权重带入所述标准化处理公式;
根据带入后的所述标准化处理公式以及概率分布函数,得到所述初始筛选区间的上限值和下限值。
在一些可能的实施例中,所述标准化处理公式为:
所述概率分布函数为:
其中:AS为第s个初始筛选区间,max(AS)为所述第s个初始筛选区间的上限值,min(AS)为所述第s个初始筛选区间的下限值;ωs为所述第s个初始筛选区间的权重;f(x)为所述第s个初始筛选区间的概率密度函数;D所述第s个初始筛选区间中的标准差,E为所述第s个初始筛选区间的均值;ωi为第i个初始筛选区间的权重。
在一些可能的实施例中,所述指定信息值确定模块执行根据所述任意一个初始筛选区间的所述上限值、所述下限值以及所述任意一个初始筛选区间的权重,确定所述任意一个初始筛选区间的指定信息值时,被配置为:
根据所述任意一个初始筛选区间的所述上限值、所述下限值以及所述任意一个初始筛选区间的权重确定所述任意一个初始筛选区间的概率平均线;
确定所述概率平均线与所述任意一个初始筛选区间的概率密度函数的交点个数;
根据所述交点个数确定所述任意一个初始筛选区间的指定信息值。
在一些可能的实施例中,所述指定信息值确定模块执行根据所述交点个数确定所述任意一个初始筛选区间的指定信息值时,被配置为:
若所述交点个数为一个点,则根据第一指定信息确定公式确定所述指定信息值;
若所述交点个数为两个点,则所述指定信息值为所述任意一个初始筛选区间的均值;
其中,所述第一指定信息确定公式为:
其中:maxT(AS)为所述指定信息值,AS为第s个初始筛选区间,avg为所述第s个初始筛选区间的概率平均线,f-1(avg)为所述第s个初始筛选区间的概率平均线的反函数,D所述第s个初始筛选区间中的标准差,E为所述第s个初始筛选区间的均值。
在一些可能的实施例中,所述目标筛选域确定模块执行根据所述指定信息值确定所述任意一个初始筛选区间对应的目标筛选域时,被配置为:
基于所述样本信息中属性值最小的样本信息、所述样本信息中属性值最大的样本信息以及所述指定信息值,确定所述指定信息值的所属范围;
基于所述所属范围确定目标筛选域公式;
将所述指定信息值带入所述目标筛选域公式,得到所述任意一个初始筛选区间对应的目标筛选域。
在介绍了本申请示例性实施方式的数据筛选方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为***、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
在一些可能的实施方式中,根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的数据筛选方法中的步骤。
下面参照图7来描述根据本申请的这种实施方式的电子设备130。图7显示的电子设备130仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于:上述至少一个处理器131、上述至少一个存储器132、连接不同***组件(包括存储器132和处理器131)的总线133。
总线133表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、***总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器132可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1321和/或高速缓存存储器1322,还可以进一步包括只读存储器(ROM)1323。
存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325,这样的程序模块1324包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与电子设备130交互的设备通信,和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且,电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解,尽管图7中未示出,可以结合电子设备130使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
在一些可能的实施方式中,本申请提供的一种数据筛选方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种数据筛选方法中的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于数据筛选的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (11)
1.一种数据筛选方法,其特征在于,所述方法包括:
获取样本信息,其中,所述样本信息为与用户关联的对象的属性值,所述属性值服从正态分布;
根据初始筛选区间的个数、所述初始筛选区间的权重确定所述样本信息的每个所述初始筛选区间的上限值以及下限值;其中,所述初始筛选区间的个数是根据所述样本信息设定的;其中,所述权重是根据所述样本信息设定的;
针对任意一个初始筛选区间,根据所述任意一个初始筛选区间的所述上限值、所述下限值以及所述任意一个初始筛选区间的权重,确定所述任意一个初始筛选区间的指定信息值;所述指定信息值表征在所述任意一个初始筛选区间中属性值最大的样本信息;
根据所述指定信息值确定所述任意一个初始筛选区间对应的目标筛选域;
根据所述目标筛选域对所述样本信息进行筛选,得到目标信息。
2.根据权利要求1所述的方法,其特征在于,所述根据初始筛选区间的个数、所述初始筛选区间的权重确定所述样本信息的每个所述初始筛选区间的上限值以及下限值,包括:
基于所述初始筛选区间的个数以及所述初始筛选区间的权重,对所述初始筛选区间进行标准化处理,得到标准化处理的上限值和标准化处理的下限值;
根据所述标准化处理的上限值、所述标准化处理的下限值以及所述初始筛选区间的概率分布函数得到所述初始筛选区间的上限值和下限值。
4.根据权利要求2所述的方法,其特征在于,所述根据所述积分处理的积分上限、积分下限以及所述初始筛选区间的概率分布函数得到所述初始筛选区间的上限值和下限值,包括:
将所述积分处理的积分上限以及积分下限分别带入所述概率分布函数,得到所述初始筛选区间的上限值和下限值;其中,所述概率分布函数为:
其中:AS为第s个初始筛选区间,max(AS)为所述第s个初始筛选区间的上限值,min(AS)为所述第s个初始筛选区间的下限值;ωi为第i个初始筛选区间的权重;f(x)为第s个初始筛选区间的概率密度函数;Φ(x)为第s个初始筛选区间的概率分布函数;D所述第s个初始筛选区间中的标准差,E为所述第s个初始筛选区间的均值。
5.根据权利要求1所述的方法,其特征在于,所述根据所述任意一个初始筛选区间的所述上限值、所述下限值以及所述任意一个初始筛选区间的权重,确定所述任意一个初始筛选区间的指定信息值,包括:
根据所述任意一个初始筛选区间的所述上限值、所述下限值以及所述任意一个初始筛选区间的权重确定所述任意一个初始筛选区间的概率平均线;
确定所述概率平均线与所述任意一个初始筛选区间的概率密度函数的交点个数;
根据所述交点个数确定所述任意一个初始筛选区间的指定信息值。
7.根据权利要求1所述的方法,其特征在于,所述根据所述指定信息值确定所述任意一个初始筛选区间对应的目标筛选域,包括:
基于所述样本信息中属性值最小的样本信息、所述样本信息中属性值最大的样本信息以及所述指定信息值,确定所述指定信息值的所属范围;
基于所述所属范围确定目标筛选域公式;
将所述指定信息值带入所述目标筛选域公式,得到所述任意一个初始筛选区间对应的目标筛选域。
8.一种数据筛选装置,其特征在于,所述装置包括:
获取模块,用于获取样本信息,其中,所述样本信息为与用户关联的对象的属性值,所述属性值服从正态分布;
初始筛选区间确定模块,用于根据初始筛选区间的个数、所述初始筛选区间的权重确定所述样本信息的每个所述初始筛选区间的上限值以及下限值;其中,所述初始筛选区间的个数是根据所述样本信息设定的;其中,所述权重是根据所述样本信息设定的;
指定信息值确定模块,用于针对任意一个初始筛选区间,根据所述任意一个初始筛选区间的所述上限值、所述下限值以及所述任意一个初始筛选区间的权重,确定所述任意一个初始筛选区间的指定信息值;所述指定信息值表征在所述任意一个初始筛选区间中属性值最大的样本信息;
目标筛选域确定模块,用于根据所述指定信息值确定所述任意一个初始筛选区间对应的目标筛选域;
目标信息确定模块,用于根据所述目标筛选域对所述样本信息进行筛选,得到目标信息。
9.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行权利要求1-7中任一项所述的方法包括的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行如权利要求1-7中任一项所述的方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行上述如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210990092.7A CN115329280A (zh) | 2022-08-18 | 2022-08-18 | 一种数据筛选方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210990092.7A CN115329280A (zh) | 2022-08-18 | 2022-08-18 | 一种数据筛选方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115329280A true CN115329280A (zh) | 2022-11-11 |
Family
ID=83924448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210990092.7A Pending CN115329280A (zh) | 2022-08-18 | 2022-08-18 | 一种数据筛选方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115329280A (zh) |
-
2022
- 2022-08-18 CN CN202210990092.7A patent/CN115329280A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11226972B2 (en) | Ranking collections of document passages associated with an entity name by relevance to a query | |
CN110688393A (zh) | 查询语句优化方法、装置、计算机设备及存储介质 | |
CN113379301A (zh) | 通过决策树模型对用户进行分类的方法、装置和设备 | |
CN112118551A (zh) | 设备风险识别方法及相关设备 | |
CN113806653B (zh) | 页面预加载方法、装置、计算机设备及存储介质 | |
CN111383100A (zh) | 基于风险模型的全生命周期管控方法和装置 | |
CN112052082B (zh) | 任务属性优化方法、装置、服务器及存储介质 | |
CN111179055B (zh) | 授信额度调整方法、装置和电子设备 | |
CN114117134A (zh) | 一种异常特征检测方法、装置、设备和计算机可读介质 | |
CN111582649B (zh) | 基于用户app独热编码的风险评估方法、装置和电子设备 | |
CN115329280A (zh) | 一种数据筛选方法、装置、设备及介质 | |
CN113793017B (zh) | 一种配电房老化评价方法、装置、终端设备及存储介质 | |
CN115543428A (zh) | 一种基于策略模板的模拟数据生成方法和装置 | |
CN113094415B (zh) | 数据抽取方法、装置、计算机可读介质及电子设备 | |
CN114139621A (zh) | 确定模型分类性能标识的方法、装置、设备及存储介质 | |
CN114268625B (zh) | 特征选择方法、装置、设备及存储介质 | |
CN115099875A (zh) | 基于决策树模型的数据分类方法及相关设备 | |
CN114330720A (zh) | 用于云计算的知识图谱构建方法、设备及存储介质 | |
CN111694951B (zh) | 兴趣主题生成方法、装置、设备及存储介质 | |
CN113408724A (zh) | 模型压缩方法及装置 | |
CN109584047B (zh) | 一种授信方法、***、计算机设备及介质 | |
CN115550259B (zh) | 基于白名单的流量分配方法及相关设备 | |
CN112600756B (zh) | 业务数据的处理方法及装置 | |
CN111913737B (zh) | 一种数据服务接口的构建方法、装置、设备及存储介质 | |
CN114615144B (zh) | 网络优化方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |