CN112966210A - 一种存储用户数据的方法和装置 - Google Patents
一种存储用户数据的方法和装置 Download PDFInfo
- Publication number
- CN112966210A CN112966210A CN201911272851.0A CN201911272851A CN112966210A CN 112966210 A CN112966210 A CN 112966210A CN 201911272851 A CN201911272851 A CN 201911272851A CN 112966210 A CN112966210 A CN 112966210A
- Authority
- CN
- China
- Prior art keywords
- rank
- user
- distribution
- index
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000009826 distribution Methods 0.000 claims abstract description 149
- 238000013507 mapping Methods 0.000 claims abstract description 105
- 230000001186 cumulative effect Effects 0.000 claims abstract description 33
- 238000005315 distribution function Methods 0.000 claims abstract description 33
- 238000006243 chemical reaction Methods 0.000 claims abstract description 32
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 17
- 230000002159 abnormal effect Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000001151 non-parametric statistical test Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Operations Research (AREA)
- Finance (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种存储用户数据的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:对各个用户的指标值进行秩分布转化,计算所述各个用户的秩排名率;基于累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射,得到所述各个用户的映射结果值;基于映射阈值和所述各个用户的映射结果值,确定所述各个用户的指标表现水平;将所述各个用户的映射结果值和指标表现水平存储到大数据平台,以供数据库***调用。该实施方式能够解决存储在大数据平台的各个用户的数据不够准确的技术问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种存储用户数据的方法和装置。
背景技术
大量的第三方商家在电商平台开设店铺,每天的大量销售行为带来了新的海量数据,电商平台需要根据一些数据指标的反馈,判断第三方商家的服务表现水平,以确保其平台用户可以享受优质的服务。在判断第三方商家的服务表现水平的过程中,对于一项确定的数据指标,目前主要采用标准化的方式来判断指标表现水平。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
由于数据指标会存在小样本、指标分布偏态或者极值异常等问题,导致采用标准化的方式识别指标表现水平导致识别结果不准确,继而导致存储在大数据平台的各个用户的数据不够准确,影响其他业务***的使用。
发明内容
有鉴于此,本发明实施例提供一种存储用户数据的方法和装置,以解决存储在大数据平台的各个用户的数据不够准确的技术问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种存储用户数据的方法,包括:
对各个用户的指标值进行秩分布转化,计算所述各个用户的秩排名率;
基于累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射,得到所述各个用户的映射结果值;
基于映射阈值和所述各个用户的映射结果值,确定所述各个用户的指标表现水平;
将所述各个用户的映射结果值和指标表现水平存储到大数据平台,以供数据库***调用。
可选地,对各个用户的指标值进行秩分布转化,包括:
以指标值表现越好、秩排名越小为目标,对各个用户的指标值进行秩排序。
可选地,以指标值表现越好、秩排名越小为目标,对各个用户的指标值进行秩排序,包括:
若指标值表现为指标值越大,对应的秩排名越小,则按照指标值由大到小的顺序,对各个用户进行排序;
若指标值表现为指标值越小,对应的秩排名越小,则按照指标值由小到大的顺序,对各个用户进行排序。
可选地,对于任意一个用户,采用如下方法计算所述用户的秩排名率:
根据排序中用户的总数量和所述用户在排序中的秩排名,计算所述用户的秩排名率。
可选地,基于累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射,包括:
若所述各个用户的指标值的分布为偏态分布,则基于指数分布的累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射;
若所述各个用户的指标值的分布为正态分布,则基于钟形分布的累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射。
可选地,对各个用户的指标值进行秩分布转化之前,还包括:
判断是否存在指标值相同的用户的数量大于等于压缩阈值;
若是,则将所述指标值相同的用户压缩为一个用户组,并将所述指标值直接映射到所述用户组。
可选地,对各个用户的指标值进行秩分布转化之前,还包括:
判断用户的总数量是否小于样本量阈值;
若是,则通过贝叶斯对各个用户的指标值进行加权修正。
另外,根据本发明实施例的另一个方面,提供了一种存储用户数据的装置,包括:
排名模块,用于对各个用户的指标值进行秩分布转化,计算所述各个用户的秩排名率;
映射模块,用于基于累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射,得到所述各个用户的映射结果值;
识别模块,用于基于映射阈值和所述各个用户的映射结果值,确定所述各个用户的指标表现水平;
存储模块,用于将所述各个用户的映射结果值和指标表现水平存储到大数据平台,以供数据库***调用。
可选地,所述排名模块还用于:
以指标值表现越好、秩排名越小为目标,对各个用户的指标值进行秩排序。
可选地,所述排名模块还用于:
若指标值表现为指标值越大,对应的秩排名越小,则按照指标值由大到小的顺序,对各个用户进行排序;
若指标值表现为指标值越小,对应的秩排名越小,则按照指标值由小到大的顺序,对各个用户进行排序。
可选地,所述排名模块还用于:对于任意一个用户,采用如下方法计算所述用户的秩排名率:
根据排序中用户的总数量和所述用户在排序中的秩排名,计算所述用户的秩排名率。
可选地,所述映射模块还用于:
若所述各个用户的指标值的分布为偏态分布,则基于指数分布的累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射;
若所述各个用户的指标值的分布为正态分布,则基于钟形分布的累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射。
可选地,所述排名模块还用于:
对各个用户的指标值进行秩分布转化之前,判断是否存在指标值相同的用户的数量大于等于压缩阈值;
若是,则将所述指标值相同的用户压缩为一个用户组,并将所述指标值直接映射到所述用户组。
可选地,所述排名模块还用于:
对各个用户的指标值进行秩分布转化之前,判断用户的总数量是否小于样本量阈值;
若是,则通过贝叶斯对各个用户的指标值进行加权修正。
根据本发明实施例的另一个方面,还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用计算各个用户的秩排名率,并对各个用户的秩排名率进行分布映射,从而确定各个用户的指标表现水平的技术手段,所以克服了现有技术中存储在大数据平台的各个用户的数据不够准确的技术问题。本发明实施例通过对指标值进行秩分布转化,消除了服务场景中不同数据量纲的差异,处理了不同数据分布的差异,解决了极值异常的问题,使得数据结果具有非常强的稳健型;而后通过基于累积分布函数的反函数进行分布映射,对之前的信息损失进行补偿,以降低秩分布转化带来的数据信息损失,从而达到更好的数据特征表达效果,由此使得存储在大数据平台的用户数据更加准确。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的存储用户数据的方法的主要流程的示意图;
图2是根据本发明一个可参考实施例的存储用户数据的方法的主要流程的示意图;
图3是根据本发明另一个可参考实施例的存储用户数据的方法的主要流程的示意图;
图4是根据本发明再又一个可参考实施例的存储用户数据的方法的主要流程的示意图;
图5是根据本发明实施例的存储用户数据的装置的主要模块的示意图;
图6是本发明实施例可以应用于其中的示例性***架构图;
图7是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
目前,主要采用标准化的方式来判断指标表现水平,计算方法如下:
通过标准化方式来判断指标表现水平存在以下问题:
1)对于数据的分布要求较高,只有当原始数据分布近似于正态分布,且不存在极值异常点时,该方法的表现较好。
2)但是当原始数据分布属于偏态分布(例如,数据存在严重的左倾现象),此时计算出的指标表现水平Y也趋向于偏态分布,这往往与实际情况是不符合的,会出现大量指标表现水平Y低于或高于平均水平。这种情况下,普通水平的商家在该项指标下会有一个很高的表现得分,或者一个很低的表现得分。
3)当原始数据存在极值异常点时,一个异常的极值会影响到行业标准差σ的计算,仅仅一个异常的数据就会改变其他所有商家的指标表现水平,这也是不符合实际业务情况的。
4)仅考虑指标原始值的情况下,小样本问题会导致商家数据指标可信度不足,例如某商家仅进行了一次销售时的数据并不足以证明商家的指标表现水平足够好或差。
本发明实施例提供的存储用户数据的方法可以解决数据指标存在的小样本、指标分布偏态或者极值异常等问题,从而获得稳健的指标表现水平。
图1是根据本发明实施例的存储用户数据的方法的主要流程的示意图。作为本发明的一个实施例,如图1所示,所述存储用户数据的方法可以包括:
步骤101,对各个用户的指标值进行秩分布转化,计算所述各个用户的秩排名率。
不同指标的量纲不同,分布差异极大,且存在极值异常点的问题。因此,本发明实施例将指标值转化为非参数统计中的秩统计量,之后计算秩的排名率,以消除量纲差异,处理原始分布差异性和异常点。对于电商平台上的商家来说,可以根据服务场景配置不同的指标,比如,评价场景下可以包括商品质量满意度、物料速度满意度、商品描述满意度、卖家服务满意度等指标,咨询场景下可以包括30秒应答率、平均响应时长等指标,售后场景下可以包括退换货返修率、售后服务时长等指标,物流场景下可以包括48小时揽件及时率、隔日达率等指标,纠纷场景下可以包括交易纠纷率、交易自助完结率、纠纷处理遵时率等指标。
可选地,对各个用户的指标值进行秩分布转化包括:以指标值表现越好、秩排名越小为目标,对各个用户的指标值进行秩排序。也就是说,指标值X1越好,秩排名RankX1越小,秩排名率X2越高。
可选地,以指标值表现越好、秩排名越小为目标,对各个用户的指标值进行秩排序,包括:若指标值表现为指标值越大,对应的秩排名越小,则按照指标值由大到小的顺序,对各个用户进行排序;若指标值表现为指标值越小,对应的秩排名越小,则按照指标值由小到大的顺序,对各个用户进行排序。这样可以保证指标值X1越好,秩排名RankX1越小,秩排名率X2越高。
可选地,对于任意一个用户,采用如下方法计算所述用户的秩排名率:
根据排序中用户的总数量和所述用户在排序中的秩排名,计算所述用户的秩排名率。
例如,可以采用以下公式计算秩排名率X2:
其中,RankX1表示该用户在排序中的秩排名。
至此,在行业下表现越好的指标值X1,其秩排名率X2越大,该结果消除了不同数据源的量纲差异,也不受数据分布偏态的影响,且对极值异常问题具有很强的抗干扰性。
因此,通过步骤101原始指标值转化为非参数统计中的秩统计量,消除量纲差异,有效地处理了原始分布差异性和极值异常点。极值异常点是指极度远离数据均值,为严重离群点,主要表现为由于特殊情况导致的“不合理值”,例如,交易纠纷率=3000%,售后服务时长=4000h等。秩统计量是用于非参数统计检验的一种顺序统计量,是基于样本值的大小在全体样本中所占位次(秩)的统计量。在实际场景中,可以等价于指标排名。
步骤102,基于累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射,得到所述各个用户的映射结果值。
经过步骤101的秩转化后,指标差异被消除,但是存在信息部分丢失的问题。因此,通过步骤102寻找一个对原始指标值表达能力较强的分布,并结合实际业务场景推断出指标的正负向反馈信息。
确定目标分布后,由于秩转化后的秩排名率X2近似均匀分布,因此可以用目标分布的累积分布函数F的反函数映射方法,将秩排名率X2的分布转化为目标分布,具体公式如下
X3=F-1(X2),F-1表示F的反函数
反函数分布映射:若累积分布函数F是连续的严格增函数,则存在其反函数F-1(y),y∈[0,1]。累积分布函数的反函数可以用来生成服从该随机分布的随机变量。设若FX(x)是概率分布X的累积分布函数,并存在反函数若a是[0,1)区间上均匀分布的随机变量,则服从X的分布。
之后,根据实际业务场景对映射结果值X3的阈值进行限定,并观测映射结果值X3是否满足业务对于该指标在业务场景中的正负向反馈。如果满足,则以该目标分布进行映射,如果不满足,则重新寻找目标分布,直到映射结果值X3满足业务对于该指标在业务场景中的正负向反馈。正负向反馈是指根据输入信息,所获得一个反馈信息。在本发明实施例中,是指由指标原始指标值经过秩分布转化和反函数分布映射后所得到的结果值,该结果值大于0时表示指标在场景中是正向的,该结果值越大,说明指标在场景中表现越好,反之亦然。
可选地,若所述各个用户的指标值的分布为偏态分布,则基于指数分布的累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射;若所述各个用户的指标值的分布为正态分布,则基于钟形分布的累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射。偏态分布:与“正态分布”相对,分布曲线左右不对称的数据次数分布,是连续随机变量概率分布的一种。可以通过峰度和偏度的计算,衡量偏态的程度。
通常地,对于原始指标值分布严重偏态的(例如交易纠纷率),可采用指数分布映射,即如下所示:
X3=0.7*ln(X2)
通常地,对于原始指标值分布较为对称的(例如隔日达率),可采用钟形分布映射,即如下所示:
在本发明的实施例中,从秩分布转化到反函数分布映射,该过程统称为正负向反馈,意即根据用户指标的原始值,判断该项指标对于用户而言是正向或负向反馈,并判断反馈强度。
步骤103,基于映射阈值和所述各个用户的映射结果值,确定所述各个用户的指标表现水平。
一般来说,映射阈值的大小可以根据目标分布和置信区间来设置。以置信区间95%为例,如果目标分布为指数分布,则映射阈值为[-2,0],如果目标分布为钟形分布,则映射阈值为[-2,2]。在得到了映射结果值之后,基于对应的映射阈值,分析各个用户的指标表现水平。
可选地,表现水平的记录结果可以分为两种类型:一种类型为反馈值,用一个数值来表式正负向反馈的强度,大于0越多,说明该指标表现越优异,反之亦然;另一种类型为反馈类型,用一个分类结果来表示对于指标的判断,如优、良、中、差、劣。
步骤104,将所述各个用户的映射结果值和指标表现水平存储到大数据平台,以供数据库***调用。
在得到了各个用户的映射结果值和指标表现水平之后,可以将映射结果值和指标表现水平都存入大数据平台,供数据库***直接调用,满足其他模型的特征提取需求。
根据上面所述的各种实施例,可以看出本发明通过计算各个用户的秩排名率,并对各个用户的秩排名率进行分布映射,从而确定各个用户的指标表现水平的技术手段,解决了现有技术中存储在大数据平台的各个用户的数据不够准确的技术问题。本发明实施例通过对指标值进行秩分布转化,消除了服务场景中不同数据量纲的差异,处理了不同数据分布的差异,解决了极值异常的问题,使得数据结果具有非常强的稳健型;而后通过基于累积分布函数的反函数进行分布映射,对之前的信息损失进行补偿,以降低秩分布转化带来的数据信息损失,从而达到更好的数据特征表达效果,由此使得存储在大数据平台的用户数据更加准确。
图2是根据本发明一个可参考实施例的存储用户数据的方法的主要流程的示意图。作为本发明的又一个实施例,所述存储用户数据的方法可以包括以下步骤:
步骤201,判断是否存在指标值相同的用户的数量大于等于压缩阈值;若是,则执行步骤202;若否,则执行步骤203。
步骤202,将所述指标值相同的用户压缩为一个用户组,并将所述指标值直接映射到所述用户组。
在进行秩分布转化之前,首先考虑秩分布的节点问题,即是否存在大量用户的指标值相同。如果存在这类特殊节点,则采用节点压缩的方式,将相同的指标值直接映射到一个合适的秩排名RankX1上。也就是说,将所述指标值相同的用户压缩为一个用户组,并将所述指标值直接映射到所述用户组。在对指标值进行秩分布转化时,该用户组作为一个用户进行秩排名,那么该用户组内的各个用户的秩排名RankX1相同,秩排名率X2也相同。
步骤203,以指标值表现越好、秩排名越小为目标,对各个用户的指标值进行秩排序。
可选地,以指标值表现越好、秩排名越小为目标,对各个用户的指标值进行秩排序,包括:若指标值表现为指标值越大,对应的秩排名越小,则按照指标值由大到小的顺序,对各个用户进行排序;若指标值表现为指标值越小,对应的秩排名越小,则按照指标值由小到大的顺序,对各个用户进行排序。这样可以保证指标值X1越好,秩排名RankX1越小,秩排名率X2越高。
步骤204,计算所述各个用户的秩排名率。
可以采用以下公式计算秩排名率X2:
其中,RankX1表示该用户在排序中的秩排名。
步骤205,基于累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射,得到所述各个用户的映射结果值。
若所述各个用户的指标值的分布为偏态分布,则基于指数分布的累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射;若所述各个用户的指标值的分布为正态分布,则基于钟形分布的累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射。
步骤206,基于映射阈值和所述各个用户的映射结果值,确定所述各个用户的指标表现水平。
步骤207,将所述各个用户的映射结果值和指标表现水平存储到大数据平台,以供数据库***调用。
另外,在本发明一个可参考实施例中存储用户数据的方法的具体实施内容,在上面所述存储用户数据的方法中已经详细说明了,故在此重复内容不再说明。
图3是根据本发明另一个可参考实施例的存储用户数据的方法的主要流程的示意图。作为本发明的另一个实施例,所述存储用户数据的方法可以包括以下步骤:
步骤301,判断用户的总数量是否小于样本量阈值;若是,则执行步骤302;若否,则执行步骤303。
步骤302,通过贝叶斯对各个用户的指标值进行加权修正。
如果指标的样本量较低(也就是用户的总数量较少,一般来说,有多少个用户就会有多少个样本量)时,其提供的指标结果可信度也较低,且结果值的波动较大,不利于识别指标表现水平。因此,在步骤302中,根据贝叶斯理论,对小样本数据的结果进行修正,以提升模型总体的稳定性。
可选地,贝叶斯加权修正公式如下:
mc=nt-n0
其中,X0表示修正前的指标值,n0表示指标的样本量;P表示行业的平均指标值;参数nt由实际业务场景决定,代表指标结果可信的最小样本量,默认值可设置为15、20、30、40或者50等。
贝叶斯定理是指概率论中的一个定理,描述在已知一些条件下,某事件的发生概率。贝叶斯加权修正是指在假定指标结果为行业均值的情况下,根据实际样本数据调整指标结果。本发明实施例在贝叶斯加权的基础上对小样本数据进行修正,以解决小样本数据可信度低、业务价值不足的问题。
步骤303,以指标值表现越好、秩排名越小为目标,对各个用户的指标值进行秩排序。
可选地,以指标值表现越好、秩排名越小为目标,对各个用户的指标值进行秩排序,包括:若指标值表现为指标值越大,对应的秩排名越小,则按照指标值由大到小的顺序,对各个用户进行排序;若指标值表现为指标值越小,对应的秩排名越小,则按照指标值由小到大的顺序,对各个用户进行排序。这样可以保证指标值X1越好,秩排名RankX1越小,秩排名率X2越高。
步骤304,计算所述各个用户的秩排名率。
可以采用以下公式计算秩排名率X2:
其中,RankX1表示该用户在排序中的秩排名。
步骤305,基于累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射,得到所述各个用户的映射结果值。
对于原始指标值分布严重偏态的(例如交易纠纷率),可采用指数分布映射,即如下所示:
X3=0.7*ln(X2)
对于原始指标值分布较为对称的(例如隔日达率),可采用钟形分布映射,即如下所示:
步骤306,基于映射阈值和所述各个用户的映射结果值,确定所述各个用户的指标表现水平。
步骤307,将所述各个用户的映射结果值和指标表现水平存储到大数据平台,以供数据库***调用。
另外,在本发明另一个可参考实施例中存储用户数据的方法的具体实施内容,在上面所述存储用户数据的方法中已经详细说明了,故在此重复内容不再说明。
图4是根据本发明再一个可参考实施例的存储用户数据的方法的主要流程的示意图。作为本发明的再一个实施例,所述存储用户数据的方法可以包括以下步骤:
步骤401,计算指标项的行业均值、方差、极值。
步骤402,判断指标项的行业均值、方差、极值是否存在显著差异;若否,则结束;若是,执行步骤403。
仅当被选指标具有信息差异性时,该指标可以提供有效信息供后续使用。因此,在步骤402中,判断指标的行业信息是否充分,消除逻辑谬误,以提升模型的总体性能。
在本发明的实施例中,主要考虑指标项的行业均值、方差、极值是否存在显著差异,判定逻辑如下:
行业极值Xt=max(X)-min(X)<阈值C
其中阈值A、B、C根据实际数据分布评估得出。例如A、B、C的默认值可采用0、0.0001、0.01。
如果同时满足上述三个条件,则说明指标项的行业均值、方差、极值是否存在显著差异。
步骤403,以指标值表现越好、秩排名越小为目标,对各个用户的指标值进行秩排序。
步骤404,计算所述各个用户的秩排名率。
步骤405,基于累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射,得到所述各个用户的映射结果值。
步骤406,基于映射阈值和所述各个用户的映射结果值,确定所述各个用户的指标表现水平。
步骤407,将所述各个用户的映射结果值和指标表现水平存储到大数据平台,以供数据库***调用。
另外,在本发明再一个可参考实施例中存储用户数据的方法的具体实施内容,在上面所述存储用户数据的方法中已经详细说明了,故在此重复内容不再说明。
图5是根据本发明实施例的存储用户数据的装置的主要模块的示意图,如图5所示,所述存储用户数据的装置500包括排名模块501、映射模块502、识别模块503和存储模块504。其中,排名模块501用于对各个用户的指标值进行秩分布转化,计算所述各个用户的秩排名率;映射模块502用于基于累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射,得到所述各个用户的映射结果值;识别模块503用于基于映射阈值和所述各个用户的映射结果值,确定所述各个用户的指标表现水平;存储模块504用于将所述各个用户的映射结果值和指标表现水平存储到大数据平台,以供数据库***调用。
可选地,所述排名模块501还用于:
以指标值表现越好、秩排名越小为目标,对各个用户的指标值进行秩排序。
可选地,所述排名模块501还用于:
若指标值表现为指标值越大,对应的秩排名越小,则按照指标值由大到小的顺序,对各个用户进行排序;
若指标值表现为指标值越小,对应的秩排名越小,则按照指标值由小到大的顺序,对各个用户进行排序。
可选地,所述排名模块501还用于:对于任意一个用户,采用如下方法计算所述用户的秩排名率:
根据排序中用户的总数量和所述用户在排序中的秩排名,计算所述用户的秩排名率。
可选地,所述映射模块502还用于:
若所述各个用户的指标值的分布为偏态分布,则基于指数分布的累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射;
若所述各个用户的指标值的分布为正态分布,则基于钟形分布的累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射。
可选地,所述排名模块501还用于:
对各个用户的指标值进行秩分布转化之前,判断是否存在指标值相同的用户的数量大于等于压缩阈值;
若是,则将所述指标值相同的用户压缩为一个用户组,并将所述指标值直接映射到所述用户组。
可选地,所述排名模块501还用于:
对各个用户的指标值进行秩分布转化之前,判断用户的总数量是否小于样本量阈值;
若是,则通过贝叶斯对各个用户的指标值进行加权修正。
根据上面所述的各种实施例,可以看出本发明通过计算各个用户的秩排名率,并对各个用户的秩排名率进行分布映射,从而确定各个用户的指标表现水平的技术手段,解决了现有技术中存储在大数据平台的各个用户的数据不够准确的技术问题。本发明实施例通过对指标值进行秩分布转化,消除了服务场景中不同数据量纲的差异,处理了不同数据分布的差异,解决了极值异常的问题,使得数据结果具有非常强的稳健型;而后通过基于累积分布函数的反函数进行分布映射,对之前的信息损失进行补偿,以降低秩分布转化带来的数据信息损失,从而达到更好的数据特征表达效果,由此使得存储在大数据平台的用户数据更加准确。
需要说明的是,在本发明所述存储用户数据的装置的具体实施内容,在上面所述存储用户数据的方法中已经详细说明了,故在此重复内容不再说明。
图6示出了可以应用本发明实施例的存储用户数据的方法或存储用户数据的装置的示例性***架构600。
如图6所示,***架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的物品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、物品信息——仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的存储用户数据的方法一般由服务器605执行,相应地,所述存储用户数据的装置一般设置在服务器605中。本发明实施例所提供的存储用户数据的方法也可以由终端设备601、602、603执行,相应地,所述存储用户数据的装置可以设置在终端设备601、602、603中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机***700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机***700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有***700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括排名模块、映射模块和识别模块,其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:对各个用户的指标值进行秩分布转化,计算所述各个用户的秩排名率;基于累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射,得到所述各个用户的映射结果值;基于映射阈值和所述各个用户的映射结果值,确定所述各个用户的指标表现水平;将所述各个用户的映射结果值和指标表现水平存储到大数据平台,以供数据库***调用。
根据本发明实施例的技术方案,因为采用计算各个用户的秩排名率,并对各个用户的秩排名率进行分布映射,从而确定各个用户的指标表现水平的技术手段,所以克服了现有技术中存储在大数据平台的各个用户的数据不够准确的技术问题。本发明实施例通过对指标值进行秩分布转化,消除了服务场景中不同数据量纲的差异,处理了不同数据分布的差异,解决了极值异常的问题,使得数据结果具有非常强的稳健型;而后通过基于累积分布函数的反函数进行分布映射,对之前的信息损失进行补偿,以降低秩分布转化带来的数据信息损失,从而达到更好的数据特征表达效果,由此使得存储在大数据平台的用户数据更加准确。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种存储用户数据的方法,其特征在于,包括:
对各个用户的指标值进行秩分布转化,计算所述各个用户的秩排名率;
基于累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射,得到所述各个用户的映射结果值;
基于映射阈值和所述各个用户的映射结果值,确定所述各个用户的指标表现水平;
将所述各个用户的映射结果值和指标表现水平存储到大数据平台,以供数据库***调用。
2.根据权利要求1所述的方法,其特征在于,对各个用户的指标值进行秩分布转化,包括:
以指标值表现越好、秩排名越小为目标,对各个用户的指标值进行秩排序。
3.根据权利要求2所述的方法,其特征在于,以指标值表现越好、秩排名越小为目标,对各个用户的指标值进行秩排序,包括:
若指标值表现为指标值越大,对应的秩排名越小,则按照指标值由大到小的顺序,对各个用户进行排序;
若指标值表现为指标值越小,对应的秩排名越小,则按照指标值由小到大的顺序,对各个用户进行排序。
4.根据权利要求1所述的方法,其特征在于,对于任意一个用户,采用如下方法计算所述用户的秩排名率:
根据排序中用户的总数量和所述用户在排序中的秩排名,计算所述用户的秩排名率。
5.根据权利要求1所述的方法,其特征在于,基于累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射,包括:
若所述各个用户的指标值的分布为偏态分布,则基于指数分布的累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射;
若所述各个用户的指标值的分布为正态分布,则基于钟形分布的累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射。
6.根据权利要求1所述的方法,其特征在于,对各个用户的指标值进行秩分布转化之前,还包括:
判断是否存在指标值相同的用户的数量大于等于压缩阈值;
若是,则将所述指标值相同的用户压缩为一个用户组,并将所述指标值直接映射到所述用户组。
7.根据权利要求1所述的方法,其特征在于,对各个用户的指标值进行秩分布转化之前,还包括:
判断用户的总数量是否小于样本量阈值;
若是,则通过贝叶斯对各个用户的指标值进行加权修正。
8.一种存储用户数据的装置,其特征在于,包括:
排名模块,用于对各个用户的指标值进行秩分布转化,计算所述各个用户的秩排名率;
映射模块,用于基于累积分布函数的反函数,对所述各个用户的秩排名率进行分布映射,得到所述各个用户的映射结果值;
识别模块,用于基于映射阈值和所述各个用户的映射结果值,确定所述各个用户的指标表现水平;
存储模块,用于将所述各个用户的映射结果值和指标表现水平存储到大数据平台,以供数据库***调用。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911272851.0A CN112966210A (zh) | 2019-12-12 | 2019-12-12 | 一种存储用户数据的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911272851.0A CN112966210A (zh) | 2019-12-12 | 2019-12-12 | 一种存储用户数据的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112966210A true CN112966210A (zh) | 2021-06-15 |
Family
ID=76271006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911272851.0A Pending CN112966210A (zh) | 2019-12-12 | 2019-12-12 | 一种存储用户数据的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966210A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080201317A1 (en) * | 2007-02-16 | 2008-08-21 | Yahoo! Inc. | Ranking documents |
US7689520B2 (en) * | 2005-02-25 | 2010-03-30 | Microsoft Corporation | Machine learning system and method for ranking sets of data using a pairing cost function |
US20130024448A1 (en) * | 2011-07-21 | 2013-01-24 | Microsoft Corporation | Ranking search results using feature score distributions |
US20130135489A1 (en) * | 2011-11-30 | 2013-05-30 | Microsoft Corporation | Response function determination by rank minimization |
CN104504618A (zh) * | 2014-12-29 | 2015-04-08 | 天津大学 | 基于pair-copula函数的微电网可靠性评估数据抽样方法 |
CN107464571A (zh) * | 2016-06-06 | 2017-12-12 | 南京邮电大学 | 一种数据质量评估的方法、设备及*** |
-
2019
- 2019-12-12 CN CN201911272851.0A patent/CN112966210A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7689520B2 (en) * | 2005-02-25 | 2010-03-30 | Microsoft Corporation | Machine learning system and method for ranking sets of data using a pairing cost function |
US20080201317A1 (en) * | 2007-02-16 | 2008-08-21 | Yahoo! Inc. | Ranking documents |
US20130024448A1 (en) * | 2011-07-21 | 2013-01-24 | Microsoft Corporation | Ranking search results using feature score distributions |
US20130135489A1 (en) * | 2011-11-30 | 2013-05-30 | Microsoft Corporation | Response function determination by rank minimization |
CN104504618A (zh) * | 2014-12-29 | 2015-04-08 | 天津大学 | 基于pair-copula函数的微电网可靠性评估数据抽样方法 |
CN107464571A (zh) * | 2016-06-06 | 2017-12-12 | 南京邮电大学 | 一种数据质量评估的方法、设备及*** |
Non-Patent Citations (7)
Title |
---|
晏榆洋;: "基于秩和检验及非参数Bootstrap法的多指标统计综合评价模型", 四川文理学院学报, no. 05, 10 September 2018 (2018-09-10) * |
杨贵军;林珍英;张聪聪;: "关于一般非参数Behrens-Fisher问题的秩和检验方法", 统计与信息论坛, no. 01, 10 January 2015 (2015-01-10) * |
樊利利;: "变形广义极值分布的参数估计及实例分析", 首都师范大学学报(自然科学版), no. 06, 15 December 2016 (2016-12-15) * |
熊峻江, 武哲, 高镇同: "不完全疲劳寿命数据可靠性分析的秩统计方法及其应用", 航空学报, no. 02, 25 February 1998 (1998-02-25) * |
王晓惠;尤丽萍;邹碧容;: "综合指数和秩和比法在评价护理质量中的应用", 解放军护理杂志, no. 09, 25 September 2006 (2006-09-25) * |
赵志坚;关键;: "利用逆正态得分函数修正秩的非参量检测器", 现代雷达, no. 04, 15 April 2011 (2011-04-15) * |
郭文;游思思;张天柱;徐常胜;: "低秩重检测的多特征时空上下文的视觉跟踪", 软件学报, no. 04, 4 December 2017 (2017-12-04) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595448B (zh) | 信息推送方法和装置 | |
CN113095893A (zh) | 确定物品销量的方法和装置 | |
CN114500339B (zh) | 一种节点带宽监测方法、装置、电子设备及存储介质 | |
CN110866040A (zh) | 用户画像生成方法、装置和*** | |
CN110866698A (zh) | 用于评定服务提供方的服务分值的装置 | |
CN112446764A (zh) | 游戏商品推荐方法、装置及电子设备 | |
CN110245684B (zh) | 数据处理方法、电子设备和介质 | |
CN110738508A (zh) | 一种数据分析方法和装置 | |
CN113205189B (zh) | 训练预测模型的方法、预测方法及装置 | |
CN114663015A (zh) | 补货方法和装置 | |
CN114049072A (zh) | 指标确定方法、装置、电子设备和计算机可读介质 | |
CN112287208B (zh) | 用户画像生成方法、装置、电子设备及存储介质 | |
CN112632384B (zh) | 针对应用程序的数据处理方法、装置、电子设备和介质 | |
CN112966210A (zh) | 一种存储用户数据的方法和装置 | |
CN114021642A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN114493132A (zh) | 资源分配方法、装置和电子设备 | |
CN112418898A (zh) | 基于多时间窗口融合的物品需求数据分析方法和装置 | |
TWI657393B (zh) | 行銷客群預測系統及其方法 | |
CN116228382A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN115455298A (zh) | 目标物品确定方法、装置、电子设备及存储介质 | |
CN115729957A (zh) | 一种基于最大信息系数的未知流特征选择方法及装置 | |
CN113342903A (zh) | 一种数据仓库中模型的管理方法及装置 | |
CN114612128A (zh) | 基于大数据的数字优惠券生成方法、装置、设备及介质 | |
CN110874386A (zh) | 建立类目映射关系的方法和装置 | |
CN117195104A (zh) | 资源分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |