CN112365384B - 目标事件结果指标权重、影响因素值确定方法及相关装置 - Google Patents

目标事件结果指标权重、影响因素值确定方法及相关装置 Download PDF

Info

Publication number
CN112365384B
CN112365384B CN202110050453.5A CN202110050453A CN112365384B CN 112365384 B CN112365384 B CN 112365384B CN 202110050453 A CN202110050453 A CN 202110050453A CN 112365384 B CN112365384 B CN 112365384B
Authority
CN
China
Prior art keywords
index
value
weight
correlation
event result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110050453.5A
Other languages
English (en)
Other versions
CN112365384A (zh
Inventor
傅云凤
童洋
易善鸿
刘慧军
闫智慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xintang Sichuang Educational Technology Co Ltd
Original Assignee
Beijing Xintang Sichuang Educational Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xintang Sichuang Educational Technology Co Ltd filed Critical Beijing Xintang Sichuang Educational Technology Co Ltd
Priority to CN202110050453.5A priority Critical patent/CN112365384B/zh
Publication of CN112365384A publication Critical patent/CN112365384A/zh
Application granted granted Critical
Publication of CN112365384B publication Critical patent/CN112365384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种目标事件结果指标权重、影响因素值确定方法及相关装置,目标事件结果指标权重确定方法包括:获取第一训练数据集;利用第一训练数据集的各个数据单元的目标事件结果值和各个第一相关指标值,对待训练的目标事件结果拟合模型进行训练,直至得到满足训练要求的目标事件结果拟合模型,获取拟合矩阵;至少根据拟合矩阵获取权重矩阵,权重矩阵的各个元分别对应各个第一相关指标;根据权重矩阵的各个元获取各个第一相关指标权重以及各个第一相关指标权重的符号。本发明实施例所提供的目标事件结果指标权重、影响因素值确定方法及相关装置,可以实现对于对目标事件结果产生间接影响的影响因素值。

Description

目标事件结果指标权重、影响因素值确定方法及相关装置
技术领域
本发明实施例涉及计算机领域,尤其涉及一种目标事件结果指标权重、目标事件结果影响因素值确定方法及相关装置。
背景技术
随着计算机技术和深度学习技术的发展,事件未来发生的概率的预测需求得以通过技术进行一定程度的实现。
比如:在教育场景下,为了保证生源的稳定性,需要提高已有学生的续报率、降低已有学生的退费率,因此,需要根据已有学生的基本情况,获取未来的续报率或者退费率,由于续报率或者退费率受到学生学习结果的影响,而学生学习结果直接通过是否学会、是否喜欢等指标直接反映,并间接受到教师教学动作的影响,因此,如果教师了解各个班级的不同教学动作对于学生学习结果的影响程度,就可以通过调整教学动作实现提高续报率提高或者降低退费率。
因此,如何确定对目标事件结果产生间接影响的影响因素值,就成为亟需解决的技术问题。
发明内容
本发明实施例提供一种目标事件结果指标权重、目标事件结果影响因素值确定方法及相关装置,以实现对于对目标事件结果产生间接影响的影响因素值。
为解决上述问题,本发明实施例提供一种目标事件结果指标权重确定方法,包括:
获取第一训练数据集,其中,所述第一训练数据集包括各个数据单元的目标事件结果值和各个第一相关指标值,所述第一相关指标值为与所述目标事件结果的相关度满足第一相关度阈值的各个第一指标的数值,所述目标事件结果值至少基于所述数据单元的与各个第二相关指标值和第二相关指标权重获取,所述第二相关指标为与所述目标事件结果相关联的指标,且所述第二相关指标值直接反映所述目标事件结果值,所述第一相关指标值间接影响所述目标事件结果值;
利用所述第一训练数据集的各个所述数据单元的目标事件结果值和各个所述第一相关指标值,对待训练的目标事件结果拟合模型进行训练,直至得到满足训练要求的所述目标事件结果拟合模型,获取拟合矩阵;
至少根据所述拟合矩阵获取权重矩阵,所述权重矩阵的各个元分别对应各个所述第一相关指标;
根据所述权重矩阵的各个元获取各个第一相关指标权重以及各个所述第一相关指标权重的符号。
为解决上述问题,本发明实施例还提供一种目标事件结果影响因素值确定方法,包括:
获取通过如各实施例任一项所述的目标事件结果指标权重确定方法确定的数据单元的各个第一相关指标的第一相关指标权重以及所述第一相关指标权重的符号,并获取所述数据单元的各个所述第一相关指标的第一相关指标值;
利用相互对应的各个所述第一相关指标值、所述第一相关指标权重以及所述第一相关指标权重的符号获取各个所述影响因素值。
为解决上述问题,本发明实施例还提供一种目标事件结果指标权重确定装置,包括:
第一训练数据集获取单元,适于获取第一训练数据集,其中,所述第一训练数据集包括各个数据单元的目标事件结果值和各个第一相关指标值,所述第一相关指标值为与所述目标事件结果的相关度满足第一相关度阈值的各个第一指标的数值,所述目标事件结果值至少基于所述数据单元的与各个第二相关指标值和第二相关指标权重获取,所述第二相关指标为与所述目标事件结果相关联的指标,且所述第二相关指标值直接反映所述目标事件结果值,所述第一相关指标值间接影响所述目标事件结果值;
拟合矩阵获取单元,适于利用所述第一训练数据集的各个所述数据单元的目标事件结果值和各个所述第一相关指标值,对待训练的目标事件结果拟合模型进行训练,直至得到满足训练要求的所述目标事件结果拟合模型,获取拟合矩阵;
权重矩阵获取单元,适于至少根据所述拟合矩阵获取权重矩阵,所述权重矩阵的各个元分别对应各个所述第一相关指标;
指标权重获取单元,适于根据所述权重矩阵的各个元获取各个第一相关指标权重以及各个所述第一相关指标权重的符号。
为解决上述问题,本发明实施例还提供一种目标事件结果影响因素值确定装置,包括:
数据单元数据值获取单元,适于获取通过如权利要求1-14任一项所述的目标事件结果指标权重确定方法确定的数据单元的各个第一相关指标的第一相关指标权重以及所述第一相关指标权重的符号,并获取所述数据单元的各个所述第一相关指标的第一相关指标值;
影响因素值获取单元,适于利用相互对应的各个所述第一相关指标值、所述第一相关指标权重以及所述第一相关指标权重的符号获取各个所述影响因素值。
为解决上述问题,本发明实施例提供一种存储介质,所述存储介质存储有适于目标事件结果指标权重确定的程序,以实现如前述的目标事件结果指标权重确定方法,或者所述存储介质存储有适于目标事件结果影响因素值确定的程序,以实现如各实施例所述的目标事件结果影响因素值确定方法。
为解决上述问题,本发明实施例提供一种设备,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如前述的目标事件结果指标权重确定方法或者如各实施例所述的目标事件结果影响因素值确定方法。
与现有技术相比,本发明的技术方案具有以下优点:
本发明实施例所提供的目标事件结果指标权重、目标事件结果影响因素值确定方法及相关装置,其中,目标事件结果指标权重确定目标事件结果指标权重确定方法,在进行目标事件结果指标权重获取时,首先获取第一训练数据集,第一训练数据集是多个数据单元的数据信息的集合,包括各个数据单元的目标事件结果值和与目标事件结果的相关度满足第一相关度阈值的各个第一相关指标值,目标事件结果是基于具有直接关联关系的第二相关指标值获取,然后根据各个数据单元的第一相关指标数据值对目标事件结果拟合模型进行训练,获取预测目标事件结果,当预测目标事件结果满足训练要求时,得到拟合矩阵,然后至少根据拟合矩阵获取权重矩阵,并进一步根据权重矩阵的各个元获取各个第一相关指标权重及其符号。可以看出,本发明实施例所提供的目标事件结果指标权重确定方法,通过基于第二相关指标值获取的目标事件结果值和对目标事件结果值有间接影响的第一相关指标值,对目标事件结果拟合模型进行训练,获取拟合矩阵,进而根据拟合矩阵获取各个第一相关指标权重及其符号,可以为获取对目标事件结果产生间接影响的影响因素值做好准备,也可以为基于影响因素值对行为人的行为动作调整提供参考做好准备,有助于实现对目标事件结果所影响的事件概率向着预期的方向改变,以使未来真正的事件概率满足预期。
可选方案中,各个第一指标还包括预先标注的第一相关指标类别,在进行目标事件结果指标权重确定时,还需要利用所述第一训练数据集的各个所述数据单元的目标事件结果值和各个所述第一相关指标值,对待训练的降维模型和待训练的目标事件结果拟合模型进行串联训练第一训练数据集,获取降维矩阵和拟合矩阵,然后根据所述降维矩阵和拟合矩阵获取权重矩阵,再基于权重矩阵的对应于同一第一相关指标类别的各个元的元绝对值与指标类别绝对值,获取各个第一相关指标权重。这样,一方面,可以利用大量的第一相关指标和第一相关指标值与目标事件结果之间构建影响关系,保证所构建的影响关系更为准确;另一方面,将第一相关指标和第一相关指标值转化为维数更少的影响因素值,可以使得所得到的影响因素更为集中,可以降低由于第一相关指标数量过多所造成的指标分散,不利于行为人获取准确的待调整行为的问题,因此,可以实现保证所构建的影响关系具有较高的准确性的基础上更方便地确定行为人的待调整行为,以实现对目标事件结果所影响的事件概率向着预期的方向改变。
附图说明
图1是本发明实施例所提供的目标事件结果指标权重确定方法的一流程示意图;
图2为本发明实施例所提供的目标事件结果指标权重确定方法的目标事件结果值的获取流程示意图;
图3为本发明实施例所提供的目标事件结果指标权重确定方法的第二相关指标权重的获取流程示意图;
图4为本发明实施例所提供的目标事件结果指标权重确定方法的第一训练数据集的获取流程示意图;
图5为本发明实施例所提供的目标事件结果指标权重确定方法的第一相关指标的获取示意图;
图6为本发明实施例所提供的目标事件结果指标权重确定方法的另一流程示意图;
图7为本发明实施例所提供的目标事件结果指标权重确定方法的获取第一相关指标权重的流程示意图;
图8为本发明实施例所提供的目标事件结果影响因素值确定方法的流程示意图;
图9为本发明实施例所提供的目标事件结果影响因素值确定方法的另一流程示意图;
图10是本发明实施例所提供的目标事件结果指标权重确定装置的一框图;
图11为本发明实施例所提供的目标事件结果影响因素值确定装置的结构框图;
图12是本发明实施例提供的设备一种可选硬件设备架构。
具体实施方式
现有技术中,难以确定对目标事件结果产生间接影响的影响因素值,从而难以对行为人的行为动作调整提供依据。
为了确定对目标事件结果产生间接影响的影响因素值,本发明实施例提供了一种目标事件结果指标权重确定方法,包括:
获取第一训练数据集,其中,所述第一训练数据集包括各个数据单元的目标事件结果值和各个第一相关指标值,所述第一相关指标值为与所述目标事件结果的相关度满足第一相关度阈值的各个第一指标的数值,所述目标事件结果值至少基于所述数据单元的与各个第二相关指标值和第二相关指标权重获取,所述第二相关指标为与所述目标事件结果相关联的指标,且所述第二相关指标值的直接反映所述目标事件结果,所述第一相关指标值间接影响所述目标事件结果值;
利用所述第一训练数据集的各个所述数据单元的目标事件结果值和各个所述第一相关指标值,对待训练的目标事件结果拟合模型进行训练,直至得到满足训练要求的所述目标事件结果拟合模型,获取拟合矩阵;
至少根据所述拟合矩阵获取权重矩阵,所述权重矩阵的各个元分别对应各个所述第一相关指标;
根据所述权重矩阵的各个元获取各个第一相关指标权重以及各个所述第一相关指标权重的符号。
可见,本发明实施例所提供的目标事件结果指标权重确定方法,在进行目标事件结果指标权重获取时,首先获取第一训练数据集,第一训练数据集是多个数据单元的数据信息的集合,包括各个数据单元的目标事件结果值和与目标事件结果的相关度满足第一相关度阈值的各个第一相关指标值,目标事件结果是基于具有直接关联关系的第二相关指标值获取,然后根据各个数据单元的第一相关指标数据值对目标事件结果拟合模型进行训练,获取预测目标事件结果,当预测目标事件结果满足训练要求时,得到拟合矩阵,然后至少根据拟合矩阵获取权重矩阵,并进一步根据权重矩阵的各个元获取各个第一相关指标权重及其符号。
可以看出,本发明实施例所提供的目标事件结果指标权重确定方法目标事件结果指标权重确定,通过基于第二相关指标值获取的目标事件结果值和对目标事件结果值有间接影响的第一相关指标值,对目标事件结果拟合模型进行训练,获取拟合矩阵,进而根据拟合矩阵获取各个第一相关指标权重及其符号,可以为获取对目标事件结果产生间接影响的影响因素值做好准备,也可以为基于影响因素值对行为人的行为动作调整提供参考做好准备,有助于实现对目标事件结果所影响的事件概率向着预期的方向改变,以使未来真正的事件概率满足预期。
为方便理解,先对本发明中的部分词语进行解释:
事件概率,某个事情发生的概率,比如:在教育领域的续报率、退费率;在影视领域的收视率、观看率等等,在其他领域,还有其他的事件发生的概率;为方便理解和描述,本发明实施例以下内容以在教育领域为示例进行说明:
事件结果类别,对事件概率的发生产生直接影响的各个方面,是对某个事件情况的描述,可以直接为各个第三相关指标,也可以为各个第三相关指标预先标注的聚类类别,包括目标事件结果和至少一个非目标事件结果;而目标事件结果即为对事件概率的发生产生直接影响的各个事件结果类别中,需要进行指标权重确定的事件结果,非目标事件结果即为各个事件结果类别中除去目标事件结果的其他目标事件结果,比如:在教育领域,对于续报率产生直接影响的事件结果可以包括学生学会、学生受关注、学生喜欢等等,可以将其中的任何一个作为目标事件结果,当将学生学会作为目标事件结果时,学生受关注、学生喜欢课程就是事件结果中的非目标事件结果,当然,在其他实施例中,也可以将学生受关注或者学生喜欢课程作为目标事件结果;事件结果类别值,各个事件结果类别的具体数值;
第一指标,是间接影响目标事件结果值,进而间接影响事件概率的各个指标,比如:在教育领域,影响学生学会的第一指标可以包括教师的备课时长、课堂随机点名使用率、表扬上墙均发起次数等等,可见,在教育领域第一指标是教师端的指标,第一相关指标是通过相关度计算得到的,与所述目标事件结果的相关度满足第一相关度阈值的各个第一指标;
第二指标,是直接反映目标事件结果值,并直接影响事件概率的各个指标,比如:直接反映学生学会的第二指标可以包括选择题答题正确率、听懂率等等,第二相关指标是通过相关度计算得到的,与事件概率的相关度满足第三相关度阈值的各个第三相关指标中与目标事件结果相关的指标,而经过相关度计算,得到的与事件概率的相关度满足第三相关度阈值的各个第三相关指标中还可能包括与目标事件结果不相关,但与非目标事件结果相关的指标;
第三指标,是直接反映事件结果值(包括目标事件结果值和非目标事件结果值),并直接影响事件概率的各个指标,比如:反映学生学会的包括选择题答题正确率、听懂率等等,反映学生喜欢的包括:喜爱度比值、抢红包参与率等等,影响学生受关注的包括:被表扬次数、个人秀点赞率等等,其中,第三相关指标为与事件概率的相关度满足第三相关度阈值的各个第三指标,而第二相关指标为第三相关指标中与目标事件结果中相关的部分,因此,在教育领域,第二相关指标和第三指标均是学生端的指标。
第一相关指标类别:各个第一相关指标汇聚后的类别,在教育领域可以包括:课前备课、课堂教学、课堂氛围、对学生激励、课后服务、对学生的关注度等等,每个第一相关指标类别都可以包含多个第一相关指标。
影响因素值:对目标事件结果产生间接影响的各个因素的数据,各个影响因素可以为各个第一相关指标,当对各个第一相关指标进行聚类时,也可以为各个第一相关指标聚类后的第一相关指标类别。
因此,在本发明实施例中,基于第二相关指标,获取目标事件结果,基于目标事件结果和各个第一相关指标获取各个第一相关指标的权重,进而获取影响因素值。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1是本发明实施例所提供的目标事件结果指标权重确定方法的一流程示意图。
如图中所示,本发明实施例所提供的目标事件结果指标权重确定方法,包括以下步骤:
步骤S10:获取第一训练数据集,所述第一训练数据集包括各个数据单元的目标事件结果值和各个第一相关指标值。
容易理解的是,目标事件结果指标权重实际是指各个不同的指标对于产生某个目标事件结果的影响大小,是需要基于大量的数据构建的,因此,为了实现对于目标事件结果指标权重的获取,需要首先获取数据集,即前述的第一训练数据集,涉及大量的数据单元。
而为了获取目标事件结果指标权重,第一训练数据集需要包括各个数据单元的目标事件结果值和各个第一相关指标值,其中,目标事件结果值是至少基于所述数据单元的各个第二相关指标值和第二相关指标权重获取的,而所述第二相关指标为与所述目标事件结果相关联的指标,且所述第二相关指标值直接反映所述目标事件结果值;并且所述第一相关指标值为间接影响所述目标事件结果值的指标值,所述第一相关指标值为与所述目标事件结果的相关度满足第一相关度阈值的各个第一指标的数值。
其中,数据单元是指一组相对应的目标事件结果值和各个第一相关指标值、各个第二相关指标值以及事件概率所归属的单元,比如:一个班级、一个学生、一个时段、一个租铺等等,以班级为例,对应于班级的目标事件结果值可以为学生学会值、学生喜欢课程值和学生受关注值,当确定目标事件结果值为学生学会值时,第一相关指标值可以为教师备课功能使用率、平均备课时长、备课时长标准差、随机点名使用率、课均随机点名次数、表扬上墙课均发起次数等等,第二相关指标值可以为题目正确率、题目参与率、听懂率等等。
容易理解的是,目标事件结果值是需要至少根据第二相关指标值和第二相关指标权重获取,第一相关指标值是可以通过对数据单元的各个第一指标值的统计和与目标事件结果的相关度计算获取,因此,需要首先获取目标事件结果值。
首先目标事件结果值的获取时机是可以选择的:
在一种实施例中,目标事件结果值可以是在执行本发明实施例所提供的目标事件结果指标权重确定方法前提前获取的,在进行本发明实施例所提供的目标事件结果指标权重确定方法时,直接拿来使用;在另一种具体实施方式中,目标事件结果值也可以是在目标事件结果指标权重确定时,根据第二相关指标值和第二相关指标权重计算得到。
不论目标事件结果值是何时获取,都在本发明实施例所提供的目标事件结果指标权重确定方法的保护范围之内。
目标事件结果值的获取方法可以为:
为了方便得到目标事件结果值,在一种具体实施方式中,请参考图2,图2为本发明实施例所提供的目标事件结果指标权重确定方法的目标事件结果值的获取流程示意图。
如图中所示,目标事件结果值的获取方法可以包括:
步骤S100:确定各个所述数据单元的与所述目标事件结果相关的各个第二相关指标。
为了获取目标事件结果值,首先根据目标事件结果确定第二相关指标,其中,目标事件结果是事件结果类别中的一种,在一种具体实施方式中,事件结果类别可以是通过对各个第三相关指标的聚类确定的,因此,当确定目标事件结果后,通过查找的方式就可以确定各个第三相关指标中的第二相关指标。
比如:当确定学生学会为目标事件结果,那么就可以确定题目正确率、听懂率为第二相关指标。
步骤S101:根据对应于各个所述第二相关指标的第二相关指标权重和所述第二相关指标值,获取各个所述数据单元的所述目标事件结果值。
确定第二相关指标后,获取第二相关指标值以及第二相关指标权重,通过对二者的运算就可以得到目标事件结果值,获取过程比较简单。
当然,容易理解的是,为了获取目标事件结果值,还需要首先确定第二相关指标值和第二相关指标权重。
首先,对于第二相关指标值,由于第二相关指标是第三相关指标中的一部分,因此第二相关指标值也是第三相关指标值中的一部分,通过目标事件结果对第三相关指标值的筛选就可以得到,因此,第二相关指标值的获取转化为第三相关指标值的获取,由于第三相关指标是与事件概率的相关度满足第三相关度阈值的第三指标,因此,第三相关指标值可以基于能够通过统计获取的第三指标值与事件概率的相关性计算获取。
首先说明第三相关指标值的获取方法,在一种具体实施方式中,第三相关指标值的获取方法如下:
由于能够获取到的、可能与事件概率相关的指标,并不一定与事件概率相关,因此,需要首先对获取到的各个数据单元的第三指标值进行处理,确定与所述事件概率的相关度满足第三相关度阈值的各个第三指标。
然而,第三相关指标的获取是依赖于大量的数据单元的,数据单元的集合不同,与事件概率相关度满足第三相关度阈值的第三指标很有可能是不同的,以数据单元为班级单元为例:
当所有班级的数据单元的数据组合到一起作为集合时,得到的相关度满足第三相关度阈值的指标可能是A、B、C,而当对班级进行分类后,小学的班级数据单元得到的相关度满足第三相关度阈值的指标可能是B、C、D,中学的班级数据单元得到的相关度满足第三相关度阈值的指标可能是C、D、E;当选择不同年级的数据单元时,小学低年级的相关度满足第三相关度阈值的指标与小学高年级的相关度满足第三相关度阈值的指标也可能是不同的,并且当具体进行事件概率的预测时,也会按照不同的分类方式分别获取相关度满足第三相关度阈值的指标,然后再分别进行不同的预测,因此,还需要确定后续预测使用的分类方式和不同分类方式下的相关度满足第三相关度阈值的指标。
因此,为了确定准确的第三相关指标,需要首先获取原始第二训练数据集,然后获取目标分类维度和与所述目标分类维度相对应的第三指标,
最后获取根据所述目标分类维度分类的预分类数据集,并筛选与所述目标分类维度相对应的第三指标的所述预计第三相关指标。
容易理解的是,原始第二训练数据集是直接获取到的未经过处理的训练数据集,所述原始第二训练数据集包括对应于各个数据单元的实际概率和预计相关第三指标值,所述预计相关第三指标值为预计与所述事件概率相关的各个第三指标的数值,原始第二训练数据集可以通过对应的统计软件获取。
另外,需要说明的是,本文所述的目标分类维度是指经过比较,所确定的对于事件概率预测效果较好的分类维度,在一种具体实施方式中,为了获取目标分类维度,可以通过对多种分类维度进行数据分类后的相关性计算确定。
为此,首先根据各个预定分类维度对所述原始第二训练数据集进行分类,得到预分类数据集。
其中预定分类维度为根据数据单元的特点,可能的分类维度。比如:对于教学相关的数据单元,可以将预定分类维度确定为:年级、学校、班级类型、整体等等。
按照不同的预定分类维度,分别对原始数据集进行分类,得到各个预分类数据集。
然后,通过相关性计算算法,利用各个所述预分类数据集的各个所述数据单元的所述预计相关第三指标值和实际概率,获取各个预计相关第三指标值与实际概率的相关度,得到相关度满足第三相关度阈值的各个第三相关指标,确定第三相关指标数量最多的预定分类维度,以及与第三相关指标数量最多的所述预定分类维度相对应的第三指标,得到所述目标分类维度和与所述目标分类维度相对应的第三相关指标,其中第三相关指标数量为相关度满足第三相关度阈值的第三指标的数量。
需要说明的是,相关度可能为正值,表示指标与事件概率之间为正相关,也可能为负值,表示指标与事件概率之间为负相关,其中相关度满足第三相关度阈值是指相关度的绝对值大于或等于第三相关度阈值。
由于第三相关度阈值过高,会造成满足第三相关度阈值的指标的数量过少,不利于后续第二相关权重指标的获取,第三相关度阈值过低,又会造成满足第三相关度阈值的第三指标的数量过多,增加第二相关权重指标的获取的运算量,因此,在一种具体实施方式中,可以选择第三相关度阈值为0.2,即将相关度的绝对值大于或等于0.2的第三指标确定为第三相关指标,从而同时兼顾准确性和运算量。
在进行前述的相关性计算时,由于按照各个预定分类维度对所述第二原始第二训练数据集进行分类后,各个预分类数据集的数据单元量不同,可以分别选择不同的相关性计算算法。
具体地,可以选择斯皮尔曼等级相关系数(spearman相关系数)计算算法和肯德尔等级相关系数(Kendal’stau-b相关系数)计算算法。
由于斯皮尔曼等级相关系数(spearman相关系数)计算算法对于数据集的要求既不要求必须符合正态分布,并且对于任何单调函数定义的关系都适用,而且当样本量相对较大时,选择spearman相关系数计算算法更优;当样本量相对较小时,Kendall’s tau-b相关系数计算算法对错误的敏感度更低,更精确。
为此,在进行相关性指标确定时,还可以首先根据预分类数据集的数据单元量选择具体的计算算法。
具体地,先获取预分类数据集的数据单元量,然后判断数据单元量是否超过第一数据量阈值,如果超过,那么选择斯皮尔曼等级相关系数计算算法进行计算,如果没超过,那么可以选择肯德尔等级相关系数计算算法。
为了避免由于数据量过小,对于满足相关度阈值的指标的确定产生不确定影响,还可以在判断数据单元量未超过第一数据量阈值时,再进一步判断数据单元量是否超过第二数据量阈值,如果超过,那么可以选择肯德尔等级相关系数计算算法,否则,直接舍弃。
第一数据量阈值和第二数据量阈值的具体数值可以根据需要确定,容易理解的是,第一数据量阈值大于第二数据量阈值,比如:第一数据量阈值选择150、200等,第二数据量阈值可以选择10、8等。
经过对各个预分类数据集的相关性计算后,可以分别得到与各个预分类数据集对应的满足第三相关度阈值的各个第三指标,然后需要根据与各个预分类数据集对应的满足第三相关度阈值的各个第三指标从预定分类维度中选择目标分类维度。
为了保证对于第三相关指标权重获取的准确性,可以选择满足第三相关度阈值的第三指标的数量最多的预定分类维度为目标分类维度,从而也可以得到与目标分类维度相对应的各个第三指标,即第三相关指标。
这样,可以得到合适的目标分类维度,以及与目标分类维度对应的第三相关指标和第三相关指标值。
然后,基于确定的目标事件结果,从第三相关指标值中进行筛选,就可以得到第二相关指标值。
当然,第三相关指标可以在执行本发明实施例所提供的目标事件结果值指标权重确定方法前提前确定,通过目标事件结果从中进行筛选,就可以得到第二相关指标和第二相关指标值。
对于第二相关指标权重,首先第二相关指标权重可以在执行本发明实施例所提供的目标事件结果值指标权重确定方法前提前获取的,直接通过查找使用,也可以在在执行本发明实施例所提供的目标事件结果指标权重确定方法的过程中,在获取目标事件结果前,基于事件概率和第三相关指标得到。当然,前述两种方式都在本发明实施例所提供的目标事件结果指标权重确定方法的保护范围之内。
由于第二相关指标是第三相关指标中的一部分,因此第二相关指标权重的获取可以通过获取第三相关指标权重,并进行筛选的方式得到,为此需要获取第三相关指标权重。
为了保证对于第三相关指标权重(当然包括第二相关指标权重)的获取,同时提高所获取的第三相关指标权重的准确性,可以选择大量的第三指标,当然所得到的第三相关指标也会较多,为了降低分散度,可以通过聚类的方法将第三相关指标进行降维,在此情况下,第三相关指标的聚类类别即为各个事件结果类别,通过利用各个事件结果类别预先对第三相关指标进行标注,然后通过后续的运算,实现降维,当然事件结果类别包括目标事件结果和非目标事件结果。在此情况下,为了获取第二相关指标权重,本发明实施例提供一种获取第二相关指标权重的方法,请参考图3,图3为本发明实施例所提供的目标事件结果指标权重确定方法的第二相关指标权重的获取流程示意图。
如图中所示,本发明实施例所提供的获取第二相关指标权重的步骤可以:
步骤S1010:获取第二训练数据集,所述第二训练数据集包括各个所述数据单元的实际概率和各个第三相关指标值,所述第三相关指标值为与所述实际概率的相关度满足第三相关度阈值的各个第三指标的数值。
需要说明的是,本文所述的第一训练数据集中所包含的数据单元与本文所述的第二训练数据集中所包含的数据单元中至少包含相同的数据单元,从而基于所得到的第二相关指标权重得到的目标事件结果值可以用于目标事件结果指标权重确定,当然,第二训练数据集也可以与第一训练数据集中所包含的数据单元完全一致;各个所述第三指标的指标集包括各个所述第二指标,且各个所述第三相关指标预先标注的事件结果类别至少包括所述目标事件结果,所述实际概率为所述数据单元的事件发生的真实概率,且所述实际概率的数值受到所述目标事件结果值和所述非目标事件结果值的影响。
容易理解的是,第三相关指标值的获取可以直接根据前述方式确定的第三相关指标进行获取。
另外,为方便理解,现结合前述教学场景下的案例对第三相关指标的事件结果类别进行说明:
对于各个第三相关指标:题目正确率(包括均值和标准差)、题目参与率(包括均值和标准差)、听懂率(包括均值和标准差)、课程喜爱度(包括均值和标准差)、抢红包参与率(包括均值和标准差)、积分(包括均值和标准差)、表扬次数(包括均值和标准差)、个人秀查看率(包括均值和标准差)、个人秀点赞率(包括均值和标准差),进行事件结果类别的标注,比如:
第三相关指标事件结果类别
题目正确率、题目参与率、听懂率学会
课程喜爱度、抢红包参与率、积分喜欢
表扬次数、个人秀查看率受关注
容易理解的是,实际概率为各个所述数据单元的事件概率的真实值,第三相关指标值为与所述事件概率的相关度满足第三相关度阈值的各个第三指标的数值。
基于前述的第三相关指标的获取方法得到目标分类维度后,获取根据目标分类维度分类的预分类数据集,并选择预分类数据集中的各个数据单元的第三相关指标的数据值,得到各个第二训练数据集。
因此,得到的第二训练数据集包括对应于各个数据单元的实际概率和第三相关指标值。
容易理解的是,因为第二训练数据集是通过对原始第二训练数据集按照目标分类维度分类后得到的,因此,第二训练数据集会有多个,基于不同的第二训练数据集,训练后的第三相关指标权重(包括第二相关指标权重)很有可能是不同的,从而在获取目标事件结果时,基于具体的数据单元所归属的类别,可以选择对应的第三相关指标权重(包括第二相关指标权重)。
步骤S1011:利用各个所述数据单元的所述实际概率和各个所述第三相关指标值对第三降维模型和概率预测模型进行串联训练,直至得到满足预定目标的所述第三降维模型和所述概率预测模型,得到第三降维矩阵,所述第三降维矩阵的各行分别对应各个所述第三相关指标。
得到第二训练数据集后,为了获取第二相关指标权重,首先获取第三将降维矩阵,为此利用同一第二训练数据集中的各个所述数据单元的所述实际概率和各个所述第三相关指标值对第三降维模型和概率预测模型进行串联训练,直至得到的预测概率与实际概率的损失满足要求,得到满足预定目标的所述第三降维模型和所述概率预测模型,并得到第三降维矩阵。
基于第三相关指标值的排布,可以得知第三降维矩阵的各行分别对应的各个所述第三相关指标。
容易理解的是,第三降维模型和概率预测模型都可以是提前构建的,其中第三降维模型可以为RBM (Restricted Boltzmann Machines, 受限玻尔兹曼机)模型,也可以为PCA(Principal components analysis,主成分分析)模型,概率预测模型可以为多项式拟合模型、回归树模型、随机森林回归模型等等。
步骤S1012:根据所述第三降维矩阵获取各个第三相关指标权重,根据所述第二相关指标从各个所述第三相关指标权重中筛选得到各个所述第二相关指标权重。
得到第三降维矩阵后,还需进一步获取各个第三相关指标权重,为此:
首先,利用与各个所述第三相关指标对应的指标相关性方向值和所述事件结果类别,对所述第三降维矩阵进行调整,得到行数和列数均等于所述事件结果类别的数量的权重方阵,获取所述权重方阵的各个用于表示所述事件结果类别的目标元;
然后,根据各个所述目标元在所述权重方阵中的位置,确定所述第三降维矩阵中与各个所述目标元对应的各个降维目标元;
最后,利用各个所述降维目标元所对应的第三相关指标,获取各个第三相关指标权重。
其中,所述指标相关性方向值为所述第三相关指标与所述实际概率的所述相关度的相关性方向数值,如果相关度为正值,则表示指标与事件概率正相关,相关性方向值为1,如果相关度为负值,则表示指标与事件概率负相关,相关性方向值为-1。
实际运算过程中,由于所要事件概率是需提升的事件概率(如续报率)还是需降低的事件概率(如退费率)与指标的关联关系不同,因此,需要根据所要事件概率是哪种类型,确定是否对相关性计算过程中得到的相关度的指标相关性方向值进行取反运算:如果是想要提升的概率(如续报率),直接利用相关性计算得到的相关度的指标相关性方向值和事件结果类别,对第三降维矩阵进行调整,得到行数和列数均等于指标类别数量的权重方阵;如果是想要降低的概率(如退费率),则首先对相关性计算得到的相关度的指标相关性方向值进行一次取反运算,然后利用取反运算得到的指标相关性方向值和事件结果类别,对第三降维矩阵进行调整,得到行数和列数均等于指标类别数量的权重方阵。
这样,可以保证后续运算得到的事件结果类别值都是体现的正向的数值,代表的是好的方向,比如结合前述的案例:学会的分值越高,退费率就会越低。
1)在进行权重方阵的获取时,根据第三降维矩阵各个行所代表的第三相关指标,获取对应的指标相关性方向值,并根据第三相关指标与事件结果类别之间的对应关系,获取对应于同一事件结果类别的各个第三相关指标同一列的各个元,并将各个元对应的指标相关性方向值作为各个元的权重进行加权求和,得到权重方阵的对应位置的元,得到权重方阵。
为方便理解基于第三降维矩阵获取权重方阵的具体方法,现举例如下:
其中第三降维矩阵、第三降维矩阵各行所表示的第三相关指标以及各个第三相关指标对应的事件结果类别如下所示:
Figure 165188DEST_PATH_IMAGE001
各个第三相关指标的指标相关性方向值(当然如果事件概率是需降低的事件概率,指标相关性方向值为已经经过取反运算的指标相关性方向值)分别为(1,-1,1,-1,1,-1),即正确率均值、喜爱度均值和表扬次数均值的指标相关性方向值为1,其他三个的指标相关性方向值为-1。
在调整过程中,进行如下计算:
Figure 613487DEST_PATH_IMAGE002
……
从而得到权重方阵,如下:
Figure 658803DEST_PATH_IMAGE003
容易理解的是,权重方阵中,第一行所对应的事件结果类别为学会,第二行所对应的事件结果类别为喜欢,第三行所对应的事件结果类别为受关注。
2)得到权重方阵后,进一步确定权重方阵中的各个目标元。
通过确定权重方阵中的目标元,可以用于确定降维目标元,实现对于第三相关指标权重的获取。
在一种具体实施方式中,可以首先获取所述权重方阵的各个元中数值最大的最大值元,得到一个目标元,并得到目标元所在行和目标元所在列。
如上述示例中的权重方阵,假设m22为数值最大的最大值元,从而可以得到m22为第一个目标元,该目标元的目标元所在行和目标元所在列分别为第二行、第二列。
然后,忽略所述权重方阵中所述目标元所在行的各个元和所述目标元所在列的各个元,得到调整方阵。
如上述示例中的权重方阵,忽略第二行第二列的各个元,得到调整方阵如下:
Figure 585171DEST_PATH_IMAGE004
进一步,以所述调整方阵作为新的权重方阵,获取新的目标元,直至得到全部的所述目标元。
继续结合上述示例,获取调整方阵中的最大值元,假设是m13,从而可以得到m13为第二个目标元,该目标元的目标元所在行和目标元所在列分别为第一行、第三列。
然后再次忽略,第一行和第三列的各个元,得到新的调整方阵:
Figure 930702DEST_PATH_IMAGE005
再获取新的调整方阵中的最大值元:m31,从而可以得到m31为第三个目标元,该目标元的目标元所在行和目标元所在列分别为第三行、第一列。
由于权重方阵为3维的方阵,从而得到全部的目标元。
这样,所得到的所述权重方阵的各行分别对应各个所述第三相关指标的事件结果类别,所述目标元的数量等于所述事件结果类别的数量。
可以看出,通过上述方法,对权重方阵的最大值元的获取和调整方阵的获取,可以很方便地实现全部目标元的获取,并且使得所获取的各个目标元更加合理,即目标元确定为第三相关指标权重重要性最大的指标类别;另一方面,还能够保证降至目标维度的指标类别齐全完整,而不会造成某个指标类别的重复或者某个指标类别的缺失,比如这里的学会、喜欢、受关注三个指标类别都有,而不会出现学会、学会、喜欢这样的方式。
3)得到权重方阵的各个目标元后,根据各个目标元在矩阵方阵中的位置,确定第三降维矩阵中的降维目标元。
请继续参考前述示例:
其中权重方阵的各个目标元分别为:m22、m13和m31,各个目标元对应的降维目标元分别为:
m22对应w32和w42;m13对应w13和w23;m31对应w51和w61
从而可以得到各个降维目标元对应的降维目标元值。
4)得到降维目标元值和降维目标元对应的指标后,进一步获取第三相关指标权重。
首先获取各个事件结果类别所包括的第三相关指标的各个降维目标元值之和,然后获取各个降维目标元值在各个降维目标元值之和中的比例。
请继续参考前述示例,其中:w13对应的指标为正确率均值,w23对应的指标为正确率标准差,w32对应的指标为喜爱度均值、w42对应的指标为喜爱度标准差,w51对应的指标为表扬次数均值和w61对应的指标为表扬次数标准差。
然后根据各个降维指标元值计算第三相关指标权重,具体可以采用以下公式进行:
正确率均值的权重A1为:w13/(w13+w23);
正确率标准差的权重A2为:w23/(w13+w23);
喜爱度均值的权重B1为: w32/(w32+w42);
喜爱度标准差的权重B2为:w42/(w32+w42);
表扬次数均值的权重C1为:w51/(w51+w61);
表扬次数标准差的权重C2为:w61/(w51+w61)。
然后根据所确定的目标事件结果选择对应的第二指标权重,比如学会的第二支指标权重即为正确率均值权重A1和正确率标准差权重A2。
从而,本发明实施例所提供的目标事件结果指标权重确定方法,在计算第三相关指标权重(包括第二相关指标权重)时,所得到的第三降维矩阵中的各个元所代表的意义无法确定,为此利用权重方阵,实现对于第三降维矩阵中的降维目标元的确定,以及降维目标元所代表的意义的确定,进而根据第三降维矩阵中的降维目标元值,实现对于第三相关指标权重(包括第二相关指标权重)的获取,从而,巧妙地利用指标向指标类别转换的逻辑,将无法确定第三降维矩阵的各个元所代表的意义显现出来,实现了黑盒信息的透明化,实现了第三相关指标权重(包括第二相关指标权重)的获取,并可以保证后续基于第二相关指标数据值获取目标事件结果类别值的实现。
并且在获取第三相关指标权重的过程中,利用串联训练过程,获取第三降维矩阵,实现第三相关指标向目标事件结果类别的转换,将多个数量的数值向较少数量的数值进行转换,保证使用较多的第三相关指标数量提高准确性的同时,降低分散度,提高集中度。
在另一种具体实施方式中,为了获取各个第三相关指标权重(包括各个第二相关指标权重),并进一步提高准确性,还可以对一个第二训练数据集中的数据单元进行随机提取,得到多个第二训练数据子集,为此,第三降维模型的数量至少等于第二训练数据子集的数量,通过以下步骤获取各个第三相关指标权重(包括各个第二相关指标权重):
分别利用各个第二训练数据子集的所述数据单元的所述实际概率和所述第三相关指标值,对与其对应的第三降维模型和概率预测模型进行串联训练,直至得到满足预定目标的各个所述第三降维模型和各个所述概率预测模型,得到各个第三降维矩阵;
利用与各个所述第三相关指标对应的指标相关性方向值和所述事件结果类别,对各个所述第三降维矩阵进行调整,得到行数和列数均等于所述事件结果类别数量的各个权重方阵,获取各个所述权重方阵的各个用于表示所述事件结果类别的各个目标元;
确定各个所述权重方阵中各个目标元的位置相同且数量最多的权重方阵,得到各个一致权重方阵,并确定各个所述一致权重方阵所对应的各个第三降维矩阵;
根据各个所述目标元在各个所述一致权重方阵中的位置,确定各个所述第三降维矩阵中与各个所述目标元对应的各个降维目标元和各个降维目标元值,获取各个所述第三降维矩阵中同一位置的各个降维目标元值的均值,得到降维目标元均值,利用各个所述降维目标元均值和各个所述降维目标元所对应的指标,获取各个第三相关指标权重。
与前述第三相关指标权重相比,在此具体实施例中,经过模型串联训练后,得到各个第三降维模型的第三降维矩阵,因此,如果有n个第三降维模型,会得到n个第三降维矩阵。
得到各个第三降维矩阵后,对于各个第三降维矩阵进行调整,即利用与所述第三相关指标对应的所述指标相关性方向值和所述事件结果类别,对各个所述第三降维矩阵进行调整,得到行数和列数均等于所述指标类别的数量的各个权重方阵,获取各个所述权重方阵的各个目标元。具体获取目标元的方式,请参考前述描述。
容易理解的是,如果经过前述步骤得到n个第三降维矩阵,那么会得到n个权重方阵,进而得到n组目标元。
得到对应于各个权重方阵的各组目标元后,由于基于各个权重方阵得到目标元的位置会有不同,比如继续结合前述案例:有的权重方阵的目标元的位置分别为第一行第二列、第二行第三列和第三行第一列,而有的权重方阵的目标元的位置分别为第一行第三列、第二行第一列和第三行第二列,等等,会有多种组合方式,为了保证后续运算的实现,同时提高训练的准确性,确定各个所述权重方阵中各个目标元的位置相同且数量最多的权重方阵,得到各个一致权重方阵,并确定各个所述一致权重方阵所对应的各个第三降维矩阵。
即根据所得到的各组目标元的位置,确定目标元位置相同的权重方阵,然后统计每组目标元位置相同权重方阵的数量,将数量最多的一组权重方阵作为一致权重方阵,然后根据各个一致权重方阵获取各个转换前的各个第三降维矩阵。
进一步地,根据各个一致权重方阵中各个目标元的位置,确定对应的第三降维矩阵中的降维目标元和降维目标元值。
假设一致权重方阵有k个,那么会确定出k组降维目标元和降维目标元值,然后计算各个一致权重方阵所对应的第三降维矩阵的各个降维目标元值的平均值,即k组降维目标元值的均值,得到降维目标元均值。
然后利用各个降维目标元均值和各个所述降维目标元所对应的第三相关指标,获取各个第三相关指标权重。
具体地,首先确定所标注的事件结果类别相同的各个所述第三相关指标,得到各个同类别第三相关指标;
获取各个所述同类别第三相关指标的降维目标元均值之和,得到降维指标和值;
再利用各个所述同类别第三相关指标的所述降维指标元均值和与其对应的所述降维指标和值,获取各个所述第三相关指标权重。
这样,可以很方便地实现第三相关指标权重的获取,从而可以通过筛选的方式,得到各个第二相关指标权重。
这样,通过多个第三降维模型获取多个第三降维矩阵,进而获取多个权重方阵,进而利用各个权重方阵的目标元的位置的确定和选择,确定进行第三相关指标权重计算的各个第三降维矩阵,利用平均值实现第三相关指标权重的获取,从而可以提高所获取的第三相关指标权重的准确性,即提高第二相关指标权重的准确性。
当然,在另一种具体实施方式中,比如:第三相关指标较少时,事件结果类别可以直接为各个第三相关指标,此时,可以直接利用第二训练数据集的实际概率和第三相关指标值对概率预测模型进行训练,获取满足概率预测模型达到训练要求时的模型矩阵,然后基于模型矩阵获取各个第三相关指标权重,并通过筛选就可以得到各个第二相关指标权重,无需进行降维运算。
得到对应于目标事件结果的第二相关指标权重后,根据各个所述第二相关指标的第二相关指标权重和所述第二相关指标值,就可以得到各个所述数据单元的所述目标事件结果值。
得到各个所述数据单元的所述目标事件结果值后,再基于目标事件结果值和各个数据单元的第一指标值,获取第一相关指标。
具体地,请参考图4和图5,图4为本发明实施例所提供的目标事件结果指标权重确定方法的第一训练数据集的获取流程示意图;图5为本发明实施例所提供的目标事件结果指标权重确定方法的第一相关指标的获取示意图。
得到各个数据单元的目标事件结果值和各个第一指标值后,需要进一步获取第一相关指标值,得到第一训练数据集。
如图4所示,在一种具体实施方式中,获取第一训练数据集的步骤包括:
步骤S102:获取原始第一训练数据集,所述原始第一训练数据集包括各个数据单元的目标事件结果值和各个第一指标值,所述第一指标为预计与所述目标事件结果相关的各个指标。
容易理解的是,原始第一训练数据集即为得到目标事件结果值和各个第一指标值后的数据集。
步骤S103:根据预定的目标分类维度对所述各个数据单元进行分类,得到分类数据集。
容易理解的是,预定的目标分类维度即为获取第三相关指标时所得到的目标分类维度,以对数据单元进行分类,以保持一致性。
步骤S104:通过相关性计算算法,利用各个所述分类数据集的各个所述数据单元的所述第一指标值和所述目标事件结果值,获取各个所述第一指标与所述目标事件结果的相关度,得到相关度满足第一相关度阈值的各个第一相关指标,得到所述第一训练数据集。
如图5所示,得到分类数据集后,将分类数据集的各个数据单元的目标事件结果值和第一指标值输入到相关性计算算法中,得出与目标事件结果相关度满足第一相关度阈值的各个第一相关指标。
与第三相关指标类似,此时所得到的相关度可能为正值,表示指标与目标事件结果之间为正相关,也可能为负值,表示指标与目标事件结果之间为负相关,其中相关度满足第一相关度阈值是指相关度的绝对值大于或等于相关度阈值。
同样地,由于第一相关度阈值过高,会造成满足第一相关度阈值的指标的数量过少,不利于后续目标事件结果权重的获取,第一相关度阈值过低,又会造成满足相关度阈值的第一指标的数量过多,增加运算量,因此,在一种具体实施方式中,可以选择第一相关度阈值为0.2,即将相关度的绝对值大于或等于0.2的第一指标确定为第一相关指标,从而同时兼顾准确性和运算量。当然,第一相关度阈值可以根据需要进行调整,与第三相关度阈值可以相同也可以不同。
与前述相同,由于按照目标分类维度对所述原始第一训练数据集进行分类后,受到原始第一训练数据集的数据单元量的影响,各个分类数据集的数据单元量不同,可以分别选择不同的相关性计算算法。
具体地,可以选择斯皮尔曼等级相关系数(spearman相关系数)计算算法和肯德尔等级相关系数(Kendal’stau-b相关系数)计算算法。
由于斯皮尔曼等级相关系数(spearman相关系数)计算算法对于数据集的要求不要求必须符合正态分布,并且对于任何单调函数定义的关系都适用,而且当样本量相对较大时,选择spearman相关系数计算算法更优;当样本量相对较小时,Kendall’s tau-b相关系数计算算法对错误的敏感度更低,更精确。
具体地选择方式,可以参考前述的描述,在此不再赘述,仅在进行相关性指标确定时可以首先根据分类数据集的数据单元量选择具体的计算算法。
得到各个所述第一指标与所述目标事件结果的相关度,得到相关度满足第一相关度阈值的各个第一相关指标。
获取各个数据单元的各个第一相关指标的数据值,结合目标事件结果值,得到各个所述第一训练数据集。
当然,基于目标分类维度,会得到多个第一训练数据集,从而基于不同的第一训练数据集会得到不同的目标事件结果指标权重,在后续具体获取目标事件影响因素值时,基于具体的目标事件结果的数据单元所属的第一训练数据集,选择对应的目标事件结果指标权重。
另外,容易理解的是,基于不同的目标事件结果,也会得到不同的目标事件结果指标权重,因此在获取目标事件影响因素值时,还需要结合目标事件结果的类别,选择对应的目标事件结果指标权重。
步骤S11:利用所述第一训练数据集的各个所述数据单元的目标事件结果值和各个所述第一相关指标值,对待训练的目标事件结果拟合模型进行训练,直至得到满足训练要求的所述目标事件结果拟合模型,获取拟合矩阵。
得到各个数据单元的目标事件结果值和第一相关指标值后,利用所述第一训练数据集对待训练的目标事件结果拟合模型进行训练,获取预测目标事件结果值,并将其与目标事件结果值(基于第二相关指标值获取的)进行比较,获取损失,直至损失与损失阈值进行比较,如果满足损失阈值,那么得到满足训练要求的所述目标事件结果拟合模型,获取拟合矩阵。
容易理解的是,待训练的目标事件结果拟合模型也是提前构建的,可以为多项式拟合模型、回归树模型或随机森林回归模型等各种拟合模型。
步骤S12:至少根据所述拟合矩阵获取权重矩阵,所述权重矩阵的各个元分别对应各个所述第一相关指标。
得到拟合矩阵后,再进一步获取权重矩阵,需要说明的是,如果在步骤S11中仅获取了拟合矩阵,那么拟合矩阵即为权重矩阵,当然权重矩阵的各个元分别对应各个第一相关指标。
步骤S13:根据所述权重矩阵的各个元获取各个第一相关指标权重以及各个所述第一相关指标权重的符号。
得到权重矩阵,进一步根据权重矩阵的各个元,获取各个第一相关指标权重,并且可以根据权重矩阵的各个元的符号,确定第一相关指标权重的符号。
具体地,为了获取各个第一相关指标权重,可以首先获取权重矩阵各个元的绝对值,得到元绝对值,然后获取各个元绝对值的绝对值之和,然后获取各个元绝对值与绝对值之和的比值,得到各个第一相关指标权重,为后续获取目标事件结果影响因素值做好准备。
可以看出,本发明实施例所提供的目标事件结果指标权重确定方法,通过基于第二相关指标值获取的目标事件结果值和对目标事件结果值有间接影响的第一相关指标值,对目标事件结果拟合模型进行训练,获取拟合矩阵,进而根据拟合矩阵获取各个第一相关指标权重及其符号,可以为获取对目标事件结果产生间接影响的影响因素值做好准备,也可以为基于影响因素值对行为人的行为动作调整提供参考做好准备,有助于实现对目标事件结果所影响的事件概率向着预期的方向改变,以使未来真正的事件概率满足预期。
然而,为了提高所获取目标事件结果指标权重的准确性,需要利用较多的第一指标,从而得到的第一相关指标的数量也会较多,这会导致所得到的第一相关指标权重也会较多,也会导致后续得到的对于目标事件结果的影响因素的数量也会较多,不利于后续对行为人的行为调整,因此,在另一种具体实施方式中,本发明实施例还提供一种目标事件结果指标权重确定方法,以使得到的目标事件结果权重能够实现对第一相关指标进行聚类的要求,实现后续得到的目标事件结果的影响因素更为集中,并可以进行分层次地确定影响,方便对行为人的行为调整,请参考图6,图6为本发明实施例所提供的目标事件结果指标权重确定方法的另一流程示意图。
如图中所示,本发明实施例所提供的目标事件结果指标权重确定方法包括:
步骤S20:获取第一训练数据集, 所述第一训练数据集包括各个数据单元的目标事件结果值和各个第一相关指标值,各个所述第一相关指标均包括预先标注的第一相关指标类别,所述第一相关指标类别的数量小于所述第一相关指标的数量。
步骤S20的部分具体内容请参考图1-图5中步骤S10的详细描述,在此不再赘述。
需要补充说明的是,在此实施例中,为了实现对目标事件结果指标权重的确定,并在保证准确性的基础上,提高最终所得到的目标事件结果的影响因素的集中性,更方便地确定行为人的待调整行为,因此,在一实施例中,可以对相关度满足第一相关度阈值的第一相关指标进行降维处理。
为了保证降维的实现,在得到第一相关指标后,需要确定降维前的第一相关指标对应于降维后的第一相关指标类别,在一种具体实施方式中,为了实现降维前的第一相关指标与降维后的第一相关指标类别的对应,可以对各个第一相关指标预先标注第一相关指标类别,根据第一相关指标与第一相关指标类别之间的实际意义关联,对各个第一相关指标进行第一相关指标类别的标注,即各个第一相关指标包括预先标注的第一相关指标类别。容易理解的是,第一相关指标类别是为了实现对第一相关指标的降维而标注的,因此第一相关指标类别的数量小于第一相关指标的数量。
为方便理解,现结合前述教学场景下的案例对第一相关指标的第一相关指标类别进行说明:
对于各个第一相关指标:备课功能使用率、平均备课时长、备课时长标准差、可控倒计时发起率、可控倒计时课均发起次数、可控倒计时发起次数标准差、随机点名使用率、课均随机点名次数、随机点名次数标准差,表扬上墙课均发起次数、表扬上墙发起次数标准差、表扬上墙原因维度数均值、表扬上墙原因维度数标准差、表扬上墙发起率、积分发起率、积分课均发起量、积分发起量标准差、一站到底发起率、一站到底课均发起次数、一站到底发起次数标准差、扣积分发起率、扣积分课均发起次数、扣积分发起次数标准差、主观题备注使用率、学情记录使用率、主观题备注课均记录条数、主观题备注课均记录人数、班级秀发送率、个人秀报告完成度的标注,如下表所示:
第一相关指标 第一相关指标类别
备课功能使用率、平均备课时长、备课时长标准差 课前备课
可控倒计时发起率、可控倒计时课均发起次数、可控倒计时发起次数标准差、随机点名使用率、课均随机点名次数、随机点名次数标准差 课堂教学
表扬上墙课均发起次数、表扬上墙发起次数标准差、表扬上墙原因维度数均值、表扬上墙原因维度数标准差、表扬上墙发起率、积分发起率、积分课均发起量、积分发起量标准差 学生激励
一站到底发起率、一站到底课均发起次数、一站到底发起次数标准差 课堂氛围
扣积分发起率、扣积分课均发起次数、扣积分发起次数标准差、主观题备注使用率、学情记录使用率、主观题备注课均记录条数、主观题备注课均记录人数 学生关注
班级秀发送率、个人秀报告完成度 课后服务
从而,对多个第一相关指标进行降维,得到6维的第一相关指标类别。
步骤S21:利用所述第一训练数据集的各个所述数据单元的目标事件结果值和各个所述第一相关指标值,对待训练的第一降维模型和待训练的目标事件结果拟合模型进行串联训练,直至得到满足训练要求的所述第一降维模型和所述目标事件结果拟合模型,获取第一降维矩阵和所述拟合矩阵。
得到标注有第一相关指标类别的第一训练数据集后,为了实现降维,并保证降维结果的准确性,利用数据单元的第一相关指标值输入待训练的第一降维模型和待训练的目标事件结果拟合模型,进行目标事件结果的预测,得到各个预测目标事件结果值,然后进一步根据目标事件结果值和预测目标事件结果值的差别,得到事件结果损失,直至事件结果损失满足事件结果损失阈值,得到满足训练要求的所述第一降维模型和所述目标事件结果拟合模型,以及第一降维矩阵和所述拟合矩阵。
当然在进行串联训练的过程中,第一降维模型的输出直接输入到目标事件结果拟合模型中,二者是串联进行的,并未有数据的输出。
具体地,第一降维模型可以为RBM (Restricted Boltzmann Machines, 受限玻尔兹曼机)模型,也可以为PCA(Principal components analysis,主成分分析)模型。
其中,第一降维矩阵的行数分别对应各个第一相关指标,有多少个指标,第一降维矩阵就会有多少行,列数对应降维后的第一相关指标类别数,而拟合矩阵的行数则对应降维后的第一相关指标类别数,列数为1。
需要说明的是,对第一降维模型以及目标事件结果拟合模型的训练,只是为了获取第一降维矩阵和拟合矩阵。
步骤S22:根据所述第一降维矩阵和所述拟合矩阵获取权重矩阵。
得到第一降维矩阵和拟合矩阵后,对二者进行相应运算,获取权重矩阵,为获取各个第一相关指标权重,以及后续获取第一相关指标类别值(即影响因素值)做好准备。
通过利用拟合矩阵可以进一步使得到的权重矩阵更能够反映每个第一相关指标对目标事件结果的影响程度,并保证第一相关指标与目标事件结果强关联。
在一种具体实施方式中,可以通过对第一降维矩阵和拟合矩阵的内积运算,获取权重矩阵,这样,不仅能够更准确地反映每个第一相关指标对目标事件结果的影响程度,还能够确定第一相关指标权重的符号。
步骤S23:获取所述权重矩阵的各个所述元的元值的绝对值以及各个所述元的元值的符号,得到元绝对值和所述第一相关指标权重的符号。
得到权重矩阵后,为了获取将第一相关指标值转换为第一相关指标类别值的第一相关指标权重,可以首先获取所述权重矩阵的各个所述元的元值的绝对值,得到元绝对值,同时将权重矩阵的各个元的元值的符号,作为各个第一相关指标权重的符号。
步骤S24:根据对应于同一所述第一相关指标类别的各个所述元绝对值,获取各个所述第一相关指标权重。
得到各个元绝对值后,进一步根据各个元绝对值获取第一相关指标权重。
为了获取各个第一相关指标权重,本发明实施例还提供一种目标事件结果指标权重确定方法,如图7所示,图7为本发明实施例所提供的目标事件结果指标权重确定方法的获取第一相关指标权重的流程示意图。
获取第一相关指标权重的步骤包括:
步骤S240:获取对应于同一所述第一相关指标类别的各个所述元绝对值之和,得到指标类别绝对值。
由于各个第一相关指标的第一相关指标类别不完全相同,在计算第一相关指标权重时,以第一相关指标类别为单位。
获取同一指标类别的各个元绝对值,然后获取各个元绝对值之和,得到各个指标类别绝对值。
结合前述案例,比如:首先获取权重矩阵中,对应于课前备课这一第一相关指标类别的各个第一相关指标:备课功能使用率、平均备课时长、备课时长标准差的元绝对值,并获取指标类别绝对值,即三个元绝对值之和。
步骤S241:分别获取对应于同一所述第一相关指标类别的各个所述元绝对值与所述指标类别绝对值的比值,得到各个所述第一相关指标权重。
得到指标类别绝对值后,获得同一第一相关指标类别的各个元绝对值与指标类别绝对值之比,得到第一相关指标权重。
继续结合前述案例,将权重矩阵中对应备课功能使用率的元绝对值、对应平均备课时长的元绝对值和对应备课时长标准差的元绝对值,分别与对应课前备课的指标类别绝对值进行比值计算,得到各个第一相关指标的第一相关指标权重,当然,对应于其他第一相关指标类别的各个第一相关指标权重也以相同的方式进行计算。
这样,一方面可以很简单的根据权重矩阵获取到第一相关指标权重,另一方面,所得到的第一相关指标权重所对应的是各个第一相关指标在第一相关指标类别中的比值,保证后续计算的对应第一相关指标类别的影响因素值的准确性。
并且,可以看出,利用第一相关指标类别对第一相关指标数量进行降维,进而获取第一相关指标权重的方法,一方面,可以利用大量的第一相关指标和第一相关指标值与目标事件结果之间构建影响关系,保证所构建的影响关系更为准确;另一方面,将第一相关指标和第一相关指标值转化为维数更少的影响因素值,可以使得所得到的影响因素更为集中,可以降低由于第一相关指标数量过多所造成的指标分散,不利于行为人获取准确的待调整行为的问题,因此,可以实现保证所构建的影响关系具有较高的准确性的基础上更方便地确定行为人的待调整行为,以实现对目标事件结果所影响的事件概率向着预期的方向改变。
为了进一步提高第一相关指标权重获取的准确性,在另一种具体实施方式中,为了获取各个第一相关指标权重并进一步提高准确性,还可以对一个第一训练数据集中的数据单元进行随机提取,得到多个第一训练数据子集,为此,第一降维模型的数量至少等于第一训练数据子集的数量,通过以下步骤获取各个第一相关指标权重:
分别利用各个第一训练数据子集的所述数据单元的所述目标事件结果值和所述第一相关指标值,对与其对应的第一降维模型和目标事件结果拟合模型进行串联训练,直至得到满足训练要求的各个所述第一降维模型和各个所述目标事件结果拟合模型,得到各个第一降维矩阵和拟合矩阵;
根据利用同一所述第一训练数据子集得到的所述第一降维矩阵和所述拟合矩阵,获取初始权重矩阵,得到各个初始权重矩阵;
根据各个所述初始权重矩阵,获取所述权重矩阵。
与前述第一相关指标权重相比,在此具体实施例中,经过模型串联训练后,得到各个第一降维矩阵和各个拟合矩阵。
得到各个第一降维矩阵和各个拟合矩阵后,同一所述第一训练数据子集得到的所述第一降维矩阵和所述拟合矩阵,获取初始权重矩阵。具体获取初始权重矩阵的方式,请参考前述权重矩阵描述。
然后进一步根据初始权重矩阵,获取权重矩阵。
在一种具体实施方式中,可以通过获取各个所述初始权重矩阵的元值的平均值,得到所述权重矩阵。
这样,通过多个第一降维矩阵和多个拟合矩阵,进而获取多个初始权重矩阵,利用多个初始权重矩阵获取权重矩阵,从而可以提高所获取的第一相关指标权重的准确性。
为了实现对于目标事件结果影响因素值的确定,进而实现对行为人行为调整的指导,本发明实施例还提供一种目标事件结果影响因素值确定方法,请参考图8,图8为本发明实施例所提供的目标事件结果影响因素值确定方法的流程示意图。
如图中所示,本发明实施例所提供的目标事件结果影响因素值确定方法,包括:
步骤S30:获取通过如前述的目标事件结果指标权重确定方法确定的数据单元的各个第一相关指标的第一相关指标权重以及所述第一相关指标权重的符号,并获取所述数据单元的各个所述第一相关指标的第一相关指标值。
容易理解的是,尽管数据单元的第一指标很多,但经过目标事件结果指标权重确定过程可知,在此,仅需要获取第一相关指标值,即前述经过相关性计算获取的,相关度满足第一相关度阈值的第一指标的第一相关指标值。
获取目标事件结果影响因素值的数据单元可以为在目标事件结果指标权重确定过程中所使用的数据单元,也可以是在目标事件结果指标权重确定过程中未使用的数据单元,当然所获取的各个第一相关指标的第一相关指标权重以及所述第一相关指标权重的符号仅与第一相关指标相关,与数据单元是否在目标事件结果指标权重确定过程中使用过无关。由于在目标事件结果指标权重确定方法中,数据单元根据目标分类维度进行了分类,所得到的第一相关指标权重以及所述第一相关指标权重的符号也是与目标分类维度相关的,在获取目标事件结果影响因素值时,也要根据数据单元所在的数据集选择对应的第一相关指标权重以及所述第一相关指标权重的符号。
步骤S31:利用相互对应的各个所述第一相关指标值、所述第一相关指标权重以及所述第一相关指标权重的符号获取各个所述影响因素值。
得到第一相关指标值和第一相关指标权重以及所述第一相关指标权重的符号后,进一步进行影响因素值的获取。
具体地,当第一权重指标符号为正值时,影响因素值可以为:第一相关指标值与第一相关指标权重的乘积;当第一权重指标符号为负值时,影响因素值可以为:获取1-第一相关指标值的差值后,再与第一相关指标权重进行乘积计算。
可以看出,本发明实施例所提供的目标事件结果影响因素值确定方法,通过第一相关指标权重及其符号以及第一相关指标值可以获取对目标事件结果产生间接影响的影响因素值,从而可以基于影响因素值对行为人的行为动作调整,有助于实现对目标事件结果所影响的事件概率向着预期的方向改变,以使未来真正的事件概率满足预期。
为了目标事件结果影响因素值的确定,进而实现对行为人行为调整的指导,本发明实施例还提供另一种目标事件结果影响因素值确定方法,请参考图9,图9为本发明实施例所提供的目标事件结果影响因素值确定方法的另一流程示意图。
如图中所示,本发明另一实施例所提供的目标事件结果影响因素值确定方法,包括:
步骤S40:获取通过如前所述的目标事件结果指标权重确定方法确定的数据单元的各个第一相关指标的第一相关指标权重以及所述第一相关指标权重的符号,并获取所述数据单元的各个所述第一相关指标的第一相关指标值。
步骤S40的具体内容请参考步骤S30的相关描述,在此不再赘述。
需要说明的是,此时所获取的各个第一相关指标的第一相关指标权重以及所述第一相关指标权重的符号是基于经过第一降维矩阵和拟合矩阵获取的。
步骤S41:根据对应于同一所述第一相关指标类别的各个所述第一相关指标值、所述第一相关指标权重以及所述第一相关指标权重的符号,获取各个所述第一相关指标类别的影响值,得到所述影响因素值。
得到第一相关指标值和第一相关指标权重以及所述第一相关指标权重的符号后,基于对应于同一第一相关指标类别的各个所述第一相关指标值、所述第一相关指标权重以及所述第一相关指标权重的符号,获取各个所述第一相关指标的指标影响值,并通过指标影响值获取所述影响因素值。
具体地,当第一权重指标符号为正值时,指标影响值可以为:第一相关指标值与第一相关指标权重的乘积;当第一权重指标符号为负值时,指标影响值可以为:获取1-第一相关指标值的差值后,再与第一相关指标权重进行乘积运算,然后获取对应于同一第一相关指标类别各指标影响值进行相加,得到对应于各个第一相关指标类别的影响因素值。
可以看出,本发明实施例所提供的目标事件结果影响因素值确定方法,可以在利用更多的第一相关指标,提高影响的准确性的基础上,降低由于第一相关指标数量过多所造成的指标分散,不利于行为人获取准确的待调整行为的问题,可以实现保证所得到的影响因素值具有较高的准确性,并更方便地确定行为人的待调整行为,以实现对目标事件结果所影响的事件概率向着预期的方向改变。
下面对本发明实施例提供的目标事件结果指标权重确定装置和目标事件结果影响因素值确定装置进行介绍,下文描述的目标事件结果指标权重确定装置和目标事件结果影响因素值确定装置可以认为是,电子设备(如:PC)为分别实现本发明实施例提供的目标事件结果指标权重确定方法和目标事件结果影响因素值确定方法所需设置的功能模块架构。下文描述的目标事件结果指标权重确定装置和目标事件结果影响因素值确定装置的内容,可分别与上文描述的目标事件结果指标权重确定方法和目标事件结果影响因素值确定方法的内容相互对应参照。
图10是本发明实施例所提供的目标事件结果指标权重确定装置的一框图,该目标事件结果指标权重确定装置即可应用于客户端,也可应用于服务器端,参考图10,该目标事件结果指标权重确定装置,包括:
第一训练数据集获取单元100,适于获取第一训练数据集,其中,所述第一训练数据集包括各个数据单元的目标事件结果值和各个第一相关指标值,所述第一相关指标值为与所述目标事件结果的相关度满足第一相关度阈值的各个第一指标的数值,所述目标事件结果值至少基于所述数据单元的与各个第二相关指标值和第二相关指标权重获取,所述第二相关指标为与所述目标事件结果相关联的指标,且所述第二相关指标值直接反映所述目标事件结果值,所述第一相关指标值间接影响所述目标事件结果值;
拟合矩阵获取单元110,适于利用所述第一训练数据集的各个所述数据单元的目标事件结果值和各个所述第一相关指标值,对待训练的目标事件结果拟合模型进行训练,直至得到满足训练要求的所述目标事件结果拟合模型,获取拟合矩阵;
权重矩阵获取单元120,适于至少根据所述拟合矩阵获取权重矩阵,所述权重矩阵的各个元分别对应各个所述第一相关指标;
指标权重获取单元130,适于根据所述权重矩阵的各个元获取各个第一相关指标权重以及各个所述第一相关指标权重的符号。
容易理解的是,目标事件结果指标权重实际是指各个不同的指标对于产生某个目标事件结果的影响大小,是需要基于大量的数据构建的,因此,为了实现对于目标事件结果指标权重的获取,需要首先获取数据集,即前述的第一训练数据集,涉及大量的数据单元。
而为了获取目标事件结果指标权重,第一训练数据集需要包括各个数据单元的目标事件结果值和各个第一相关指标值,其中,目标事件结果值是至少基于所述数据单元的各个第二相关指标值和第二相关指标权重获取的,而所述第二相关指标为与所述目标事件结果相关联的指标,且所述第二相关指标值直接反映所述目标事件结果值;并且所述第一相关指标值为间接影响所述目标事件结果值的指标值,所述第一相关指标值为与所述目标事件结果的相关度满足第一相关度阈值的各个第一指标的数值。
其中,数据单元是指一组相对应的目标事件结果值和各个第一相关指标值、各个第二相关指标值以及事件概率所归属的单元,比如:一个班级、一个学生、一个时段、一个租铺等等,以班级为例,对应于班级的目标事件结果值可以为学生学会值、学生喜欢课程值和学生受关注值,当确定目标事件结果值为学生学会值时,第一相关指标值可以为教师备课功能使用率、平均备课时长、备课时长标准差、随机点名使用率、课均随机点名次数、表扬上墙课均发起次数等等,第二相关指标值可以为题目正确率、题目参与率、听懂率等等。
可选地,第一训练数据集获取单元100,适于获取第一训练数据集,其中,所述第一训练数据集包括各个数据单元的目标事件结果值和各个第一相关指标值,包括:
确定各个所述数据单元的与所述目标事件结果相关的各个第二相关指标;
根据对应于各个所述第二相关指标的第二相关指标权重和所述第二相关指标值,获取各个所述数据单元的所述目标事件结果值。
可选地,第一训练数据集获取单元100,适于根据对应于各个所述第二相关指标的第二相关指标权重和所述第二相关指标值,获取各个所述数据单元的所述目标事件结果值,所述第二相关指标权重的获取步骤包括:
获取第二训练数据集,所述第二训练数据集包括各个所述数据单元的实际概率和各个第三相关指标值,所述第三相关指标值为与所述实际概率的相关度满足第三相关度阈值的各个第三指标的数值,各个所述第三指标的指标集包括各个所述第二指标,且各个所述第三相关指标预先标注的事件结果类别至少包括所述目标事件结果,所述实际概率为所述数据单元的事件发生的真实概率,且所述实际概率的数值受到所述目标事件结果值和所述非目标事件结果值的影响;
利用各个所述数据单元的所述实际概率和各个所述第三相关指标值对第三降维模型和概率预测模型进行串联训练,直至得到满足预定目标的所述第三降维模型和所述概率预测模型,得到第三降维矩阵,所述第三降维矩阵的各行分别对应各个所述第三相关指标;
根据所述第三降维矩阵获取各个第三相关指标权重,根据所述第二相关指标从各个所述第三相关指标权重中筛选得到各个所述第二相关指标权重。
可选地,第一训练数据集获取单元100,适于根据所述第三降维矩阵获取各个第三相关指标权重包括:
利用与各个所述第三相关指标对应的指标相关性方向值和所述事件结果类别,对所述第三降维矩阵进行调整,得到行数和列数均等于所述事件结果类别的数量的权重方阵,获取所述权重方阵的各个用于表示所述事件结果类别的目标元,其中,所述指标相关性方向值为所述第三相关指标与所述实际概率的所述相关度的相关性方向数值,所述权重方阵的各行分别对应各个所述第三相关指标的事件结果类别,所述目标元的数量等于所述事件结果类别的数量;
根据各个所述目标元在所述权重方阵中的位置,确定所述第三降维矩阵中与各个所述目标元对应的各个降维目标元;
利用各个所述降维目标元所对应的第三相关指标,获取各个第三相关指标权重。
在一种具体实施方式中,所述第二训练数据集包括各个第二训练数据子集,所述第三降维模型的数量至少等于所述第二训练数据子集的数量;可选地,第一训练数据集获取单元100,适于根据对应于各个所述第二相关指标的第二相关指标权重和所述第二相关指标值,获取各个所述数据单元的所述目标事件结果值,第二相关指标权重的获取步骤包括:
分别利用各个第二训练数据子集的所述数据单元的所述实际概率和所述第三相关指标值,对与其对应的第三降维模型和概率预测模型进行串联训练,直至得到满足预定目标的各个所述第三降维模型和各个所述概率预测模型,得到各个第三降维矩阵;
利用与各个所述第三相关指标对应的指标相关性方向值和所述事件结果类别,对各个所述第三降维矩阵进行调整,得到行数和列数均等于所述事件结果类别的数量的各个权重方阵,获取各个所述权重方阵的各个用于表示所述事件结果类别的各个目标元;
确定各个所述权重方阵中各个目标元的位置相同且数量最多的权重方阵,得到各个一致权重方阵,并确定各个所述一致权重方阵所对应的各个第三降维矩阵;
根据各个所述目标元在各个所述一致权重方阵中的位置,确定各个所述第三降维矩阵中与各个所述目标元对应的各个降维目标元和各个降维目标元值,获取各个所述第三降维矩阵中同一位置的各个降维目标元值的均值,得到降维目标元均值,利用各个所述降维目标元均值和各个所述降维目标元所对应的指标,获取各个第三相关指标权重。
可选地,第一训练数据集获取单元100,适于利用各个所述降维目标元均值和各个所述降维目标元所对应的指标,获取各个第三相关指标权重包括:
确定所述事件结果类别相同的各个所述第三相关指标,得到各个同类别指标;
获取各个所述同类别指标的降维目标元均值之和,得到降维指标和值;
利用各个所述同类别指标的所述降维指标元均值和与其对应的所述降维指标和值,获取各个所述第三相关指标权重。
可选地,第一训练数据集获取单元100,适于获取所述权重方阵的各个用于表示所述事件结果类别的目标元包括:
获取所述权重方阵的各个元中数值最大的最大值元,得到一个目标元,并得到目标元所在行和目标元所在列;
忽略所述权重方阵中所述目标元所在行的各个元和所述目标元所在列的各个元,得到调整方阵,以所述调整方阵作为新的权重方阵,获取新的目标元,直至得到全部的所述目标元。
得到各个数据单元的目标事件结果值和第一相关指标值后,拟合矩阵获取单元110利用所述第一训练数据集对待训练的目标事件结果拟合模型进行训练,获取预测目标事件结果值,并将其与目标事件结果值(基于第二相关指标值获取的)进行比较,获取损失,直至损失与损失阈值进行比较,如果满足损失阈值,那么得到满足训练要求的所述目标事件结果拟合模型,获取拟合矩阵。
容易理解的是,待训练的目标事件结果拟合模型也是提前构建的,可以为多项式拟合模型、回归树模型或随机森林回归模型等各种拟合模型。
得到拟合矩阵后,权重矩阵获取单元120再进一步获取权重矩阵,需要说明的是,如果仅获取了拟合矩阵,那么拟合矩阵即为权重矩阵,当然权重矩阵的各个元分别对应各个第一相关指标。
得到权重矩阵,指标权重获取单元130进一步根据权重矩阵的各个元,获取各个第一相关指标权重,并且可以根据权重矩阵的各个元的符号,确定第一相关指标权重的符号。
具体地,为了获取各个第一相关指标权重,可以首先获取权重矩阵各个元的绝对值,得到元绝对值,然后获取各个元绝对值的绝对值之和,然后获取各个元绝对值与绝对值之和的比值,得到各个第一相关指标权重,为后续获取目标事件结果影响因素值做好准备。
可以看出,本发明实施例所提供的目标事件结果指标权重确定装置,通过基于第二相关指标值获取的目标事件结果值和对目标事件结果值有间接影响的第一相关指标值,对目标事件结果拟合模型进行训练,获取拟合矩阵,进而根据拟合矩阵获取各个第一相关指标权重及其符号,可以为获取对目标事件结果产生间接影响的影响因素值做好准备,也可以为基于影响因素值对行为人的行为动作调整提供参考做好准备,有助于实现对目标事件结果所影响的事件概率向着预期的方向改变,以使未来真正的事件概率满足预期。
在另一种具体实施方式中,为了提高所获取目标事件结果指标权重的准确性,需要利用较多的第一指标,从而得到的第一相关指标的数量也会较多,这会导致所得到的第一相关指标权重也会较多,也会导致后续得到的对于目标事件结果的影响因素的数量也会较多,不利于后续对行为人的行为调整,因此,在另一种具体实施方式中,本发明实施例还提供一种目标事件结果指标权重确定装置,以使得到的目标事件结果权重能够对第一相关指标进行聚类,实现后续得到的对目标事件结果的影响因素更集中,并可以进行分层次地确定影响,以及方便对行为人的行为调整。
在此实施例中,本发明实施例所提供的目标事件结果指标权重确定装置的第一训练数据集获取单元100,适于获取第一训练数据集,所获取的各个所述第一相关指标均包括预先标注的第一相关指标类别,所述第一相关指标类别的数量小于所述第一相关指标的数量;
所述拟合矩阵获取单元110,适于利用所述第一训练数据集的各个所述数据单元的目标事件结果值和各个所述第一相关指标值,对待训练的目标事件结果拟合模型进行训练,直至得到满足训练要求的所述目标事件结果拟合模型,获取拟合矩阵包括:
利用所述第一训练数据集的各个所述数据单元的目标事件结果值和各个所述第一相关指标值,对待训练的第一降维模型和待训练的目标事件结果拟合模型进行串联训练,直至得到满足训练要求的所述第一降维模型和所述目标事件结果拟合模型,获取第一降维矩阵和所述拟合矩阵。
所述权重矩阵获取单元120,适于至少根据所述拟合矩阵获取权重矩阵包括:
根据所述第一降维矩阵和所述拟合矩阵获取权重矩阵;
所述指标权重获取单元130,适于根据所述权重矩阵的各个元获取各个第一相关指标权重以及各个所述第一相关指标权重的符号包括:
获取所述权重矩阵的各个所述元的元值的绝对值以及各个所述元的元值的符号,得到元绝对值和所述第一相关指标权重的符号;
根据对应于同一所述第一相关指标类别的各个所述元绝对值,获取各个所述第一相关指标权重。
为了保证降维的实现,在得到第一相关指标后,需要确定降维前的第一相关指标对应于降维后的第一相关指标类别,在一种具体实施方式中,为了实现降维前的第一相关指标与降维后的第一相关指标类别的对应,可以对各个第一相关指标预先标注第一相关指标类别,根据第一相关指标与第一相关指标类别之间的实际意义关联,对各个第一相关指标进行第一相关指标类别的标注,即各个第一相关指标包括预先标注的第一相关指标类别。容易理解的是,第一相关指标类别是为了实现对第一相关指标的降维而标注的,因此第一相关指标类别的数量小于第一相关指标的数量。
得到标注有第一相关指标类别的第一训练数据集后,为了实现降维,并保证降维结果的准确性,所述拟合矩阵获取单元110利用数据单元的第一相关指标值输入待训练的第一降维模型和待训练的目标事件结果拟合模型,进行目标事件结果的预测,得到各个预测目标事件结果值,然后进一步根据目标事件结果值和预测目标事件结果值的差别,得到事件结果损失,直至事件结果损失满足事件结果损失阈值,得到满足训练要求的所述第一降维模型和所述目标事件结果拟合模型,以及第一降维矩阵和所述拟合矩阵。
当然在进行串联训练的过程中,第一降维模型的输出直接输入到目标事件结果拟合模型中,二者是串联进行的,并未有数据的输出。
具体地,第一降维模型可以为RBM (Restricted Boltzmann Machines, 受限玻尔兹曼机)模型,也可以为PCA(Principal components analysis,主成分分析)模型。
其中,第一降维矩阵的行数分别对应各个第一相关指标,有多少个指标,第一降维矩阵就会有多少行,列数对应降维后的第一相关指标类别数,而拟合矩阵的行数则对应降维后的第一相关指标类别数,列数为1。
需要说明的是,对第一降维模型以及目标事件结果拟合模型的训练,只是为了获取第一降维矩阵和拟合矩阵。
得到第一降维矩阵和拟合矩阵后,权重矩阵获取单元120适于对二者进行相应运算,获取权重矩阵,为获取各个第一相关指标权重,以及后续获取第一相关指标类别值(即影响因素值)做好准备。通过利用拟合矩阵可以进一步使得到的权重矩阵更能够反映每个第一相关指标对目标事件结果的影响程度,并保证第一相关指标与目标事件结果强关联。
在一种具体实施方式中,可以通过对第一降维矩阵和拟合矩阵的内积运算,获取权重矩阵,这样,不仅能够更准确地反映每个第一相关指标对目标事件结果的影响程度,还能够确定第一相关指标权重的符号。
得到权重矩阵后,为了获取将第一相关指标值转换为第一相关指标类别值的第一相关指标权重,指标权重获取单元130可以首先获取所述权重矩阵的各个所述元的元值的绝对值,得到元绝对值,同时将权重矩阵的各个元的元值的符号,作为各个第一相关指标权重的符号,然后根据对应于同一所述第一相关指标类别的各个所述元绝对值,获取各个所述第一相关指标权重。
得到各个元绝对值后,指标权重获取单元130,适于获取第一相关指标权重包括:
获取对应于同一所述第一相关指标类别的各个所述元绝对值之和,得到指标类别绝对值;
分别获取对应于同一所述第一相关指标类别的各个所述元绝对值与所述指标类别绝对值的比值,得到各个所述第一相关指标权重。
由于各个第一相关指标的第一相关指标类别不完全相同,在计算第一相关指标权重时,以第一相关指标类别为单位。
获取同一指标类别的各个元绝对值,然后获取各个元绝对值之和,得到各个指标类别绝对值。
结合前述案例,比如:首先获取权重矩阵中,对应于课前备课这一第一相关指标类别的各个第一相关指标:备课功能使用率、平均备课时长、备课时长标准差的元绝对值,并获取指标类别绝对值,即三个元绝对值之和。
得到指标类别绝对值后,获得同一第一相关指标类别的各个元绝对值与指标类别绝对值之比,得到第一相关指标权重。
继续结合前述案例,将权重矩阵中对应备课功能使用率的元绝对值、对应平均备课时长的元绝对值和对应备课时长标准差的元绝对值,分别与对应课前备课的指标类别绝对值进行比值计算,得到各个第一相关指标的第一相关指标权重,当然,对应于其他第一相关指标类别的各个第一相关指标权重也以相同的方式进行计算。
这样,一方面可以很简单的根据权重矩阵获取到第一相关指标权重,另一方面,所得到的第一相关指标权重所对应的是各个第一相关指标在第一相关指标类别中的比值,保证后续计算的对应第一相关指标类别的影响因素值的准确性。
并且,可以看出,利用第一相关指标类别对第一相关指标数量进行降维,进而获取第一相关指标权重的方法,一方面,可以利用大量的第一相关指标和第一相关指标值与目标事件结果之间构建影响关系,保证所构建的影响关系更为准确;另一方面,将第一相关指标和第一相关指标值转化为维数更少的影响因素值,可以使得所得到的影响因素更为集中,可以降低由于第一相关指标数量过多所造成的指标分散,不利于行为人获取准确的待调整行为的问题,因此,可以实现保证所构建的影响关系具有较高的准确性的基础上更方便地确定行为人的待调整行为,以实现对目标事件结果所影响的事件概率向着预期的方向改变。
在另一种具体实施方式中,为了获取各个第一相关指标权重并进一步提高准确性,还可以对一个第一训练数据集中的数据单元进行随机提取,得到多个第一训练数据子集,为此,第一降维模型的数量至少等于第一训练数据子集的数量:
拟合矩阵获取单元110,适于分别利用各个第一训练数据子集的所述数据单元的所述目标事件结果值和所述第一相关指标值,对与其对应的第一降维模型和目标事件结果拟合模型进行串联训练,直至得到满足训练要求的各个所述第一降维模型和各个所述目标事件结果拟合模型,得到各个第一降维矩阵和拟合矩阵;
权重矩阵获取单元120,适于根据利用同一所述第一训练数据子集得到的所述第一降维矩阵和所述拟合矩阵,获取初始权重矩阵,得到各个初始权重矩阵;
根据各个所述初始权重矩阵,获取所述权重矩阵。
与前述第一相关指标权重相比,在此具体实施例中,经过模型串联训练后,得到各个第一降维矩阵和各个拟合矩阵。
得到各个第一降维矩阵和各个拟合矩阵后,同一所述第一训练数据子集得到的所述第一降维矩阵和所述拟合矩阵,获取初始权重矩阵。具体获取初始权重矩阵的方式,请参考前述权重矩阵描述。
然后进一步根据初始权重矩阵,获取权重矩阵。
在一种具体实施方式中,可以通过获取各个所述初始权重矩阵的元值的平均值,得到所述权重矩阵。
这样,通过多个第一降维矩阵和多个拟合矩阵,进而获取多个初始权重矩阵,利用多个初始权重矩阵获取权重矩阵,从而可以提高所获取的第一相关指标权重的准确性。
为了实现对于目标事件结果影响因素值的确定,进而实现对行为人行为调整的指导,本发明实施例还提供一种目标事件结果影响因素值确定装置,请参考图11,图11为本发明实施例所提供的目标事件结果影响因素值确定装置的结构框图。
如图中所示,本发明实施例所提供的目标事件结果影响因素值装置,包括:
数据单元数据值获取单元200,适于获取通过如前述的目标事件结果指标权重确定方法确定的数据单元的各个第一相关指标的第一相关指标权重以及所述第一相关指标权重的符号,并获取所述数据单元的各个所述第一相关指标的第一相关指标值;
影响因素值获取单元210,适于利用相互对应的各个所述第一相关指标值、所述第一相关指标权重以及所述第一相关指标权重的符号获取各个所述影响因素值。
容易理解的是,尽管数据单元的第一指标很多,但经过目标事件结果指标权重确定过程可知,在此,仅需要获取第一相关指标值,即前述经过相关性计算获取的,相关度满足第一相关度阈值的第一指标的第一相关指标值。
获取目标事件结果影响因素值的数据单元可以为在目标事件结果指标权重确定过程中所使用的数据单元,也可以是在目标事件结果指标权重确定过程中未使用的数据单元,当然所获取的各个第一相关指标的第一相关指标权重以及所述第一相关指标权重的符号仅与第一相关指标相关,与数据单元是否在目标事件结果指标权重确定过程中使用过无关。由于在目标事件结果指标权重确定方法中,数据单元根据目标分类维度进行了分类,所得到的第一相关指标权重以及所述第一相关指标权重的符号也是与目标分类维度相关的,在获取目标事件结果影响因素值时,也要根据数据单元所在的数据集选择对应的第一相关指标权重以及所述第一相关指标权重的符号。
得到第一相关指标值和第一相关指标权重以及所述第一相关指标权重的符号后,影响因素值获取单元进一步进行影响因素值的获取。
具体地,当第一权重指标符号为正值时,影响因素值可以为:第一相关指标值与第一相关指标权重的乘积;当第一权重指标符号为负值时,影响因素值可以为:获取1-第一相关指标值的差值后,再与第一相关指标权重进行乘积运算。
可以看出,本发明实施例所提供的目标事件结果影响因素值确定装置,通过第一相关指标权重及其符号以及第一相关指标值可以获取对目标事件结果产生间接影响的影响因素值,从而可以基于影响因素值对行为人的行为动作调整,有助于实现对目标事件结果所影响的事件概率向着预期的方向改变,以使未来真正的事件概率满足预期。
为了目标事件结果影响因素值的确定,进而实现对行为人行为调整的指导,本发明实施例还提供另一种目标事件结果影响因素值确定装置,所述第一相关指标第一相关指标类别,所述影响因素值获取单元210,适于利用相互对应的各个所述第一相关指标值、所述第一相关指标权重以及所述第一相关指标权重的符号获取各个影响因素值包括:
根据对应于同一所述第一相关指标类别的各个所述第一相关指标值、所述第一相关指标权重以及所述第一相关指标权重的符号,获取各个所述第一相关指标类别的影响值,得到所述影响因素值。
其中,本实施例中所获取的各个第一相关指标的第一相关指标权重以及所述第一相关指标权重的符号是基于经过第一降维矩阵和拟合矩阵获取的。
得到第一相关指标值和第一相关指标权重以及所述第一相关指标权重的符号后,影响因素值获取单元210基于对应于同一第一相关指标类别的各个所述第一相关指标值、所述第一相关指标权重以及所述第一相关指标权重的符号,获取各个所述第一相关指标的指标影响值,并通过指标影响值获取所述影响因素值。
具体地,当第一权重指标符号为正值时,指标影响值可以为:第一相关指标值与第一相关指标权重的乘积;当第一权重指标符号为负值时,指标影响值可以为:获取1-第一相关指标值的差值后,再与第一相关指标权重做乘积运算,然后获取对应于同一第一相关指标类别各指标影响值进行相加,得到对应于各个第一相关指标类别的影响因素值。
可以看出,本发明实施例所提供的目标事件结果影响因素值确定装置,可以在利用更多的第一相关指标,提高影响的准确性的基础上,降低由于第一相关指标数量过多所造成的指标分散,不利于行为人获取准确的待调整行为的问题,可以实现保证所得到的影响因素值具有较高的准确性,并更方便地确定行为人的待调整行为,以实现对目标事件结果所影响的事件概率向着预期的方向改变。
当然,本发明实施例还提供一种电子设备,本发明实施例提供的设备可以通过程序形式装载上述所述的程序模块架构,以实现本发明实施例提供的目标事件结果指标权重确定方法或目标事件结果影响因素值确定方法;该硬件设备可以应用于具体数据处理能力的电子设备,该电子设备可以为:例如终端设备或者服务器设备。
可选的,图12示出了本发明实施例提供的设备一种可选硬件设备架构,可以包括:至少一个存储器3和至少一个处理器1;所述存储器存储有程序,所述处理器调用所述程序,以执行前述的目标事件结果指标权重确定方法或目标事件结果影响因素值确定方法,另外,至少一个通信接口2和至少一个通信总线4;处理器1和存储器3可以位于同一电子设备,例如处理器1和存储器3可以位于服务器设备或者终端设备;处理器1和存储器3也可以位于不同的电子设备。
作为本发明实施例公开内容的一种可选实现,存储器3可以存储程序,处理器1可调用所述程序,以执行本发明上述实施例提供的目标事件结果指标权重确定方法或目标事件结果影响因素值确定方法。
本发明实施例中,电子设备可以是能够进行目标事件结果指标权重确定或目标事件结果影响因素值确定的平板电脑、笔记本电脑等设备。
在本发明实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;显然,图中所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式;
可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
处理器1可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
需要说明的是,上述的设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出);鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需,本发明实施例对此不进行逐一介绍。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,当该指令被处理器执行时可以实现如上所述目标事件结果指标权重确定方法或目标事件结果影响因素值确定方法。
本发明实施例所提供的存储介质所存储的计算机可执行指令,通过基于第二相关指标值获取的目标事件结果值和对目标事件结果值有间接影响的第一相关指标值,对目标事件结果拟合模型进行训练,获取拟合矩阵,进而根据拟合矩阵获取各个第一相关指标权重及其符号,可以为获取对目标事件结果产生间接影响的影响因素值做好准备,也可以为基于影响因素值对行为人的行为动作调整提供参考做好准备,有助于实现对目标事件结果所影响的事件概率向着预期的方向改变,以使未来真正的事件概率满足预期。。
上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及,否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外,本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中,并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是,所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式,或者可在提交本申请之后的修改中作为新的权利要求包括。
本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中,根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。
在固件或软件配置方式中,本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部,并可经由各种己知手段向处理器发送数据以及从处理器接收数据。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。
虽然本发明实施例披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种变动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (20)

1.一种目标事件结果指标权重确定方法,其特征在于,包括:
获取第一训练数据集,其中,所述第一训练数据集包括各个数据单元的目标事件结果值和各个第一相关指标值,所述第一相关指标值为与所述目标事件结果的相关度满足第一相关度阈值的各个第一指标的数值,所述目标事件结果值至少基于所述数据单元的与各个第二相关指标值和第二相关指标权重获取,所述第二相关指标为与所述目标事件结果相关联的指标,且所述第二相关指标值直接反映所述目标事件结果值,所述第一相关指标值间接影响所述目标事件结果值,其中,所述目标事件结果值为对事件概率的发生产生直接影响的各个事件结果中,需要进行指标权重确定的事件结果值,包括学生学会值、学生喜欢课程值或学生受关注值,第二相关指标为第三相关指标中与所述目标事件结果相关的指标,第三相关指标为与事件概率的相关度满足第三相关度阈值的各个第三指标,所述事件概率为某个事情发生的概率,包括退费率或续报率,第三指标,是直接反映事件结果值,并直接影响事件概率的各个指标,第一指标是教师端的指标,第二相关指标和第三指标均是学生端的指标,各个所述第一相关指标均包括预先标注的第一相关指标类别,所述第一相关指标类别的数量小于所述第一相关指标的数量;
利用所述第一训练数据集的各个所述数据单元的目标事件结果值和各个所述第一相关指标值,对待训练的第一降维模型和待训练的目标事件结果拟合模型进行串联训练,直至得到满足训练要求的所述第一降维模型和所述目标事件结果拟合模型,获取第一降维矩阵和拟合矩阵;
根据所述第一降维矩阵和所述拟合矩阵获取权重矩阵,所述权重矩阵的各个元分别对应各个所述第一相关指标;
获取所述权重矩阵的各个所述元的元值的绝对值以及各个所述元的元值的符号,得到元绝对值和所述第一相关指标权重的符号;
根据对应于同一所述第一相关指标类别的各个所述元绝对值,获取各个所述第一相关指标权重。
2.如权利要求1所述的目标事件结果指标权重确定方法,其特征在于,所述根据对应于同一所述第一相关指标类别的各个所述元绝对值,获取各个所述第一相关指标权重的步骤包括:
获取对应于同一所述第一相关指标类别的各个所述元绝对值之和,得到指标类别绝对值;
分别获取对应于同一所述第一相关指标类别的各个所述元绝对值与所述指标类别绝对值的比值,得到各个所述第一相关指标权重。
3.如权利要求1所述的目标事件结果指标权重确定方法,其特征在于,所述根据所述第一降维矩阵和所述拟合矩阵获取权重矩阵的步骤包括:
获取所述第一降维矩阵和所述拟合矩阵的内积,得到所述权重矩阵。
4.如权利要求1所述的目标事件结果指标权重确定方法,其特征在于,所述第一训练数据集包括各个第一训练数据子集,所述第一降维模型的数量至少等于所述第一训练数据子集的数量;
所述利用所述第一训练数据集的各个所述数据单元的目标事件结果值和各个所述第一相关指标值,对待训练的第一降维模型和待训练的目标事件结果拟合模型进行串联训练,直至得到满足训练要求的所述第一降维模型和所述目标事件结果拟合模型,获取第一降维矩阵和所述拟合矩阵的步骤包括:
分别利用各个所述第一训练数据子集的各个所述数据单元的目标事件结果值和各个所述第一相关指标值,对与其对应的所述第一降维模型和所述目标事件结果拟合模型进行串联训练,直至得到满足训练要求的各个所述第一降维模型和各个所述目标事件结果拟合模型,获取各个所述第一降维矩阵和各个所述拟合矩阵;
所述根据所述第一降维矩阵和所述拟合矩阵获取权重矩阵的步骤包括:
根据利用同一所述第一训练数据子集得到的所述第一降维矩阵和所述拟合矩阵,获取初始权重矩阵,得到各个初始权重矩阵;
根据各个所述初始权重矩阵,获取所述权重矩阵。
5.如权利要求4所述的目标事件结果指标权重确定方法,其特征在于,所述根据各个所述初始权重矩阵,获取所述权重矩阵的步骤包括:
获取各个所述初始权重矩阵的元值的平均值,得到所述权重矩阵。
6.如权利要求1所述的目标事件结果指标权重确定方法,其特征在于,所述获取第一训练数据集的步骤包括:
获取原始第一训练数据集,所述原始第一训练数据集包括各个数据单元的目标事件结果值和各个第一指标值,所述第一指标为预计与所述目标事件结果相关的各个指标;
根据预定的目标分类维度对所述各个数据单元进行分类,得到分类数据集;
通过相关性计算算法,利用各个所述分类数据集的各个所述数据单元的所述第一指标值和所述目标事件结果值,获取各个所述第一指标与所述目标事件结果的相关度,得到相关度满足第一相关度阈值的各个第一相关指标,得到所述第一训练数据集。
7.如权利要求6所述的目标事件结果指标权重确定方法,其特征在于,所述相关性计算算法包括:斯皮尔曼等级相关系数计算算法和肯德尔等级相关系数计算算法。
8.如权利要求1-7任一项所述的目标事件结果指标权重确定方法,其特征在于,各个所述数据单元的所述目标事件结果值的获取步骤包括:
确定各个所述数据单元的与所述目标事件结果相关的各个第二相关指标;
根据对应于各个所述第二相关指标的第二相关指标权重和所述第二相关指标值,获取各个所述数据单元的所述目标事件结果值。
9.如权利要求8所述的目标事件结果指标权重确定方法,其特征在于,所述第二相关指标权重的获取步骤包括:
获取第二训练数据集,所述第二训练数据集包括各个所述数据单元的实际概率和各个第三相关指标值,所述第三相关指标值为与所述实际概率的相关度满足第三相关度阈值的各个第三指标的数值,各个所述第三指标的指标集包括各个第二指标,且各个所述第三相关指标预先标注的事件结果类别至少包括所述目标事件结果,所述实际概率为所述数据单元的事件发生的真实概率,且所述实际概率的数值受到所述目标事件结果值和非目标事件结果值的影响;
利用各个所述数据单元的所述实际概率和各个所述第三相关指标值对第三降维模型和概率预测模型进行串联训练,直至得到满足预定目标的所述第三降维模型和所述概率预测模型,得到第三降维矩阵,所述第三降维矩阵的各行分别对应各个所述第三相关指标;
根据所述第三降维矩阵获取各个第三相关指标权重,根据所述第二相关指标从各个所述第三相关指标权重中筛选得到各个所述第二相关指标权重。
10.如权利要求9所述的目标事件结果指标权重确定方法,其特征在于,所述根据所述第三降维矩阵获取各个第三相关指标权重的步骤包括:
利用与各个所述第三相关指标对应的指标相关性方向值和所述事件结果类别,对所述第三降维矩阵进行调整,得到行数和列数均等于所述事件结果类别的数量的权重方阵,获取所述权重方阵的各个用于表示所述事件结果类别的目标元,其中,所述指标相关性方向值为所述第三相关指标与所述实际概率的所述相关度的相关性方向数值,所述权重方阵的各行分别对应各个所述第三相关指标的事件结果类别,所述目标元的数量等于所述事件结果类别的数量;
根据各个所述目标元在所述权重方阵中的位置,确定所述第三降维矩阵中与各个所述目标元对应的各个降维目标元;
利用各个所述降维目标元所对应的第三相关指标,获取各个第三相关指标权重。
11.如权利要求10所述的目标事件结果指标权重确定方法,其特征在于,所述第二训练数据集包括各个第二训练数据子集,所述第三降维模型的数量至少等于所述第二训练数据子集的数量;
所述利用各个所述数据单元的所述实际概率和各个所述第三相关指标值对第三降维模型和概率预测模型进行串联训练,直至得到满足预定目标的所述第三降维模型和所述概率预测模型,得到第三降维矩阵的步骤包括:
分别利用各个第二训练数据子集的所述数据单元的所述实际概率和所述第三相关指标值,对与其对应的第三降维模型和概率预测模型进行串联训练,直至得到满足预定目标的各个所述第三降维模型和各个所述概率预测模型,得到各个第三降维矩阵;
所述利用与各个所述第三相关指标对应的指标相关性方向值和所述事件结果类别,对所述第三降维矩阵进行调整,得到行数和列数均等于所述事件结果类别的数量的权重方阵,获取所述权重方阵的各个用于表示所述事件结果类别的目标元的步骤包括:
利用与各个所述第三相关指标对应的指标相关性方向值和所述事件结果类别,对各个所述第三降维矩阵进行调整,得到行数和列数均等于所述事件结果类别的数量的各个权重方阵,获取各个所述权重方阵的各个用于表示所述事件结果类别的各个目标元;
所述根据各个所述目标元在所述权重方阵中的位置,确定所述第三降维矩阵中与各个所述目标元对应的各个降维目标元,利用各个所述降维目标元所对应的第三相关指标,获取各个第三相关指标权重的步骤包括:
确定各个所述权重方阵中各个目标元的位置相同且数量最多的权重方阵,得到各个一致权重方阵,并确定各个所述一致权重方阵所对应的各个第三降维矩阵;
根据各个所述目标元在各个所述一致权重方阵中的位置,确定各个所述第三降维矩阵中与各个所述目标元对应的各个降维目标元和各个降维目标元值,获取各个所述第三降维矩阵中同一位置的各个降维目标元值的均值,得到降维目标元均值,利用各个所述降维目标元均值和各个所述降维目标元所对应的指标,获取各个第三相关指标权重。
12.如权利要求11所述的目标事件结果指标权重确定方法,其特征在于,所述利用各个所述降维目标元均值和各个所述降维目标元所对应的指标,获取各个第三相关指标权重的步骤包括:
确定所述事件结果类别相同的各个所述第三相关指标,得到各个同类别指标;
获取各个所述同类别指标的降维目标元均值之和,得到降维指标和值;
利用各个所述同类别指标的所述降维指标元均值和与其对应的所述降维指标和值,获取各个所述第三相关指标权重。
13.如权利要求10所述的目标事件结果指标权重确定方法,其特征在于,所述获取所述权重方阵的各个用于表示所述事件结果类别的目标元的步骤包括:
获取所述权重方阵的各个元中数值最大的最大值元,得到一个目标元,并得到目标元所在行和目标元所在列;
忽略所述权重方阵中所述目标元所在行的各个元和所述目标元所在列的各个元,得到调整方阵,以所述调整方阵作为新的权重方阵,获取新的目标元,直至得到全部的所述目标元。
14.一种目标事件结果影响因素值确定方法,其特征在于,包括:
获取通过如权利要求1-13任一项所述的目标事件结果指标权重确定方法确定的数据单元的各个第一相关指标的第一相关指标权重以及所述第一相关指标权重的符号,并获取所述数据单元的各个所述第一相关指标的第一相关指标值;
利用相互对应的各个所述第一相关指标值、所述第一相关指标权重以及所述第一相关指标权重的符号获取各个所述影响因素值。
15.如权利要求14所述的目标事件结果影响因素值确定方法,其特征在于,所述利用相互对应的各个所述第一相关指标值、所述第一相关指标权重以及所述第一相关指标权重的符号获取各个所述影响因素值的步骤包括:
根据对应于同一所述第一相关指标类别的各个所述第一相关指标值、所述第一相关指标权重以及所述第一相关指标权重的符号,获取各个所述第一相关指标的指标影响值,并通过指标影响值获取所述影响因素值。
16.一种目标事件结果指标权重确定装置,其特征在于,包括:
第一训练数据集获取单元,适于获取第一训练数据集,其中,所述第一训练数据集包括各个数据单元的目标事件结果值和各个第一相关指标值,所述第一相关指标值为与所述目标事件结果的相关度满足第一相关度阈值的各个第一指标的数值,所述目标事件结果值至少基于所述数据单元的与各个第二相关指标值和第二相关指标权重获取,所述第二相关指标为与所述目标事件结果相关联的指标,且所述第二相关指标值直接反映所述目标事件结果值,所述第一相关指标值间接影响所述目标事件结果值,其中,所述目标事件结果值为对事件概率的发生产生直接影响的各个事件结果中,需要进行指标权重确定的事件结果值,包括学生学会值、学生喜欢课程值或学生受关注值,第二相关指标为第三相关指标中与所述目标事件结果相关的指标,第三相关指标为与事件概率的相关度满足第三相关度阈值的各个第三指标,所述事件概率为某个事情发生的概率,包括退费率或续报率,第三指标,是直接反映事件结果值,并直接影响事件概率的各个指标,第一指标是教师端的指标,第二相关指标和第三指标均是学生端的指标,各个所述第一相关指标均包括预先标注的第一相关指标类别,所述第一相关指标类别的数量小于所述第一相关指标的数量;
拟合矩阵获取单元,适于利用所述第一训练数据集的各个所述数据单元的目标事件结果值和各个所述第一相关指标值,对待训练的第一降维模型和待训练的目标事件结果拟合模型进行串联训练,直至得到满足训练要求的所述第一降维模型和所述目标事件结果拟合模型,获取第一降维矩阵和所述拟合矩阵;
权重矩阵获取单元,适于根据所述第一降维矩阵和所述拟合矩阵获取权重矩阵,所述权重矩阵的各个元分别对应各个所述第一相关指标;
指标权重获取单元,适于获取所述权重矩阵的各个所述元的元值的绝对值以及各个所述元的元值的符号,得到元绝对值和所述第一相关指标权重的符号,并根据对应于同一所述第一相关指标类别的各个所述元绝对值,获取各个所述第一相关指标权重。
17.一种目标事件结果影响因素值确定装置,其特征在于,包括:
数据单元数据值获取单元,适于获取通过如权利要求1-13任一项所述的目标事件结果指标权重确定方法确定的数据单元的各个第一相关指标的第一相关指标权重以及所述第一相关指标权重的符号,并获取所述数据单元的各个所述第一相关指标的第一相关指标值;
影响因素值获取单元,适于利用相互对应的各个所述第一相关指标值、所述第一相关指标权重以及所述第一相关指标权重的符号获取各个所述影响因素值。
18.如权利要求17所述的目标事件结果影响因素值确定装置,其特征在于,所述影响因素值获取单元,适于利用相互对应的各个所述第一相关指标值、所述第一相关指标权重以及所述第一相关指标权重的符号获取各个影响因素值包括:
根据对应于同一所述第一相关指标类别的各个所述第一相关指标值、所述第一相关指标权重以及所述第一相关指标权重的符号,获取各个所述第一相关指标的指标影响值,并通过指标影响值获取所述影响因素值。
19.一种存储介质,其特征在于,所述存储介质存储有适于目标事件结果指标权重确定的程序,以实现如权利要求1-13任一项所述的目标事件结果指标权重确定方法,或者所述存储介质存储有适于目标事件结果影响因素值确定的程序,以实现如权利要求14或15所述的目标事件结果影响因素值确定方法。
20.一种电子设备,其特征在于,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如权利要求1-13任一项所述的目标事件结果指标权重确定方法或者如权利要求14或15所述的目标事件结果影响因素值确定方法。
CN202110050453.5A 2021-01-14 2021-01-14 目标事件结果指标权重、影响因素值确定方法及相关装置 Active CN112365384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110050453.5A CN112365384B (zh) 2021-01-14 2021-01-14 目标事件结果指标权重、影响因素值确定方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110050453.5A CN112365384B (zh) 2021-01-14 2021-01-14 目标事件结果指标权重、影响因素值确定方法及相关装置

Publications (2)

Publication Number Publication Date
CN112365384A CN112365384A (zh) 2021-02-12
CN112365384B true CN112365384B (zh) 2021-08-27

Family

ID=74535000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110050453.5A Active CN112365384B (zh) 2021-01-14 2021-01-14 目标事件结果指标权重、影响因素值确定方法及相关装置

Country Status (1)

Country Link
CN (1) CN112365384B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113176769B (zh) * 2021-06-29 2021-09-03 浙江大胜达包装股份有限公司 基于用途需求数据模型的瓦楞纸工艺控制优化方法和***
CN116258373B (zh) * 2023-03-15 2024-02-09 杭州盈禾嘉田科技有限公司 一种基于大数据的病虫害测报预警***及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102570278B1 (ko) * 2017-07-31 2023-08-24 삼성전자주식회사 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법
CN108491817B (zh) * 2018-03-30 2021-02-26 国信优易数据股份有限公司 一种事件检测模型训练方法、装置以及事件检测方法
CN109472412A (zh) * 2018-11-09 2019-03-15 百度在线网络技术(北京)有限公司 一种事件的预测方法及装置
CN110414627A (zh) * 2019-08-07 2019-11-05 北京嘉和海森健康科技有限公司 一种模型的训练方法及相关设备
CN112101516A (zh) * 2020-07-30 2020-12-18 鹏城实验室 一种目标变量预测模型的生成方法、***及装置

Also Published As

Publication number Publication date
CN112365384A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
US20210256354A1 (en) Artificial intelligence learning-based user knowledge tracing system and operating method thereof
CN110598016A (zh) 一种多媒体信息推荐的方法、装置、设备和介质
WO2021180249A1 (zh) 职业推荐方法、装置、设备和介质
Benedetto et al. R2DE: a NLP approach to estimating IRT parameters of newly generated questions
CN109299344A (zh) 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN112365384B (zh) 目标事件结果指标权重、影响因素值确定方法及相关装置
Yao et al. New fairness metrics for recommendation that embrace differences
Zhou et al. Modeling context-aware features for cognitive diagnosis in student learning
CN109690581B (zh) 用户指导***及方法
WO2021208535A1 (zh) 基于自动特征分组的推荐方法及装置
CN111914176B (zh) 题目的推荐方法及装置
US20230353828A1 (en) Model-based data processing method and apparatus
Alipourfard et al. Using Simpson’s paradox to discover interesting patterns in behavioral data
US20150178659A1 (en) Method and System for Identifying and Maintaining Gold Units for Use in Crowdsourcing Applications
CN109978139B (zh) 图片自动生成描述的方法、***、电子装置及存储介质
CN112231516B (zh) 视频摘要生成模型的训练方法、视频摘要生成方法及装置
CN109409670A (zh) 人员匹配方法、装置、***及区块链节点设备
US20210390263A1 (en) System and method for automated decision making
CN114021029A (zh) 试题推荐方法及设备
CN111369063B (zh) 组卷模型训练方法、组卷方法及相关装置
CN115588485B (zh) 基于社交故事训练的自适应干预方法、***、装置和介质
CN112381338B (zh) 事件概率预测模型训练、事件概率预测方法及相关装置
CN116662497A (zh) 视觉问答数据处理方法、装置、计算机设备
CN115129971A (zh) 基于能力评估数据的课程推荐方法、设备及可读存储介质
CN112328894A (zh) 一种行为引导方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant