CN111753920B - 特征构建方法、装置、计算机设备及存储介质 - Google Patents

特征构建方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111753920B
CN111753920B CN202010621785.XA CN202010621785A CN111753920B CN 111753920 B CN111753920 B CN 111753920B CN 202010621785 A CN202010621785 A CN 202010621785A CN 111753920 B CN111753920 B CN 111753920B
Authority
CN
China
Prior art keywords
index distribution
sets
feature
category
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010621785.XA
Other languages
English (en)
Other versions
CN111753920A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Unisinsight Technology Co Ltd
Original Assignee
Chongqing Unisinsight Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Unisinsight Technology Co Ltd filed Critical Chongqing Unisinsight Technology Co Ltd
Priority to CN202010621785.XA priority Critical patent/CN111753920B/zh
Publication of CN111753920A publication Critical patent/CN111753920A/zh
Application granted granted Critical
Publication of CN111753920B publication Critical patent/CN111753920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请涉及机器学习技术领域,提供一种特征构建方法、装置、计算机设备及存储介质,首先,通过第一特征构建单元和第二特征构建单元,构建出特征构建集的多个第一集合和每个所述第一集合的特征值,并记录特征构建过程中的特征构建信息;其次,通过第一特征构建单元和特征构建信息,分别构建出训练集的多个第二集合和测试集的多个第三集合;再通过多个第二集合的特征值和多个第三集合的特征值对二分类模型进行训练和测试,以迭代修改第一特征构建单元和第二特征构建单元的超参数;从而针对不同应用场景调整特征的表现能力,实现有监督的高效的特征构建。

Description

特征构建方法、装置、计算机设备及存储介质
技术领域
本申请涉及机器学习技术领域,具体而言,涉及一种特征构建方法、装置、计算机设备及存储介质。
背景技术
特征构建是结构化数据建模流程中重要的组成部分,也是决定数据挖掘或机器学习项目成功与否重要的因素。
通常,二分类模型的特征构建过程是从业务经验开始的,即,首先根据业务专家的业务经验,选择业务中产生的对算法所学习模式有重要作用的数据项;再通过各种手段对特征进行单变量或多变量操作构建新的特征,如采用特征聚合、映射、抽取、分箱、计算等单变量操作,或者特征交叉(组合)、多项式计算、分组聚合等多变量操作实现特征构建。
但是,上述的特征构建方法都是无监督的方式,特征对算法所学模式的表达能力在模型构建之前是未知的,且从大量建模经验来看,这种无监督方式构建的特征绝大多数是无效或重复的,即特征信息浓度低。同时,上述特征构建过程无法做到有效调整。
发明内容
本申请的目的在于提供一种特征构建方法、装置、计算机设备及存储介质,用以解决现有的特征构建方式构建的特征信息浓度低且无法有效调整特征构建过程的问题。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请提供了一种特征构建方法,所述方法包括:
获取多个样本,并将所述多个样本划分为特征构建集、训练集及测试集;
利用第一特征构建单元,对所述特征构建集中的所述样本进行特征构建并记录特征构建信息,得到多个第一集合;
利用第二特征构建单元计算每个所述第一集合的特征值;
生成特征映射表,其中,所述特征映射表包括多个预设类别、所述多个第一集合和每个所述第一集合的特征值,一个所述预设类别和一个所述第一集合确定一个所述特征值;
利用所述第一特征构建单元和所述特征构建信息,分别对所述训练集和所述测试集中的所述样本进行特征构建,得到多个第二集合和多个第三集合,所述多个第二集合和所述多个第一集合一一对应,所述多个第三集合和所述多个第一集合一一对应;
依据所述多个预设类别查找所述特征映射表,获得每个所述第二集合的特征值和每个所述第三集合的特征值;
利用每个所述第二集合的特征值和每个所述第三集合的特征值,对预先选定的二分类模型进行训练和测试,以迭代修改所述第一特征构建单元和所述第二特征构建单元的超参数,直至所述第一特征构建单元和所述第二特征构建单元达到最优。
第二方面,本申请还提供了一种特征构建装置,所述装置包括:
样本获取模块,用于获取多个样本,并将所述多个样本划分为特征构建集、训练集及测试集;
第一执行模块,用于利用第一特征构建单元,对所述特征构建集中的所述样本进行特征构建并记录特征构建信息,得到多个第一集合;
第二执行模块,用于利用第二特征构建单元计算每个所述第一集合的特征值;
生成模块,用于生成特征映射表,其中,所述特征映射表包括多个预设类别、所述多个第一集合和每个所述第一集合的特征值,一个所述预设类别和一个所述第一集合确定一个所述特征值;
第一处理模块,用于利用所述第一特征构建单元和所述特征构建信息,分别对所述训练集和所述测试集中的所述样本进行特征构建,得到多个第二集合和多个第三集合,所述多个第二集合和所述多个第一集合一一对应,所述多个第三集合和所述多个第一集合一一对应;
第二处理模块,用于依据所述多个预设类别查找所述特征映射表,获得每个所述第二集合的特征值和每个所述第三集合的特征值;
第三处理模块,用于利用每个所述第二集合的特征值和每个所述第三集合的特征值,对预先选定的二分类模型进行训练和测试,以迭代修改所述第一特征构建单元和所述第二特征构建单元的超参数,直至所述第一特征构建单元和所述第二特征构建单元达到最优。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的特征构建方法。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的特征构建方法。
相对现有技术,本申请提供的一种特征构建方法、装置、计算机设备及存储介质,首先,通过第一特征构建单元和第二特征构建单元,构建出特征构建集的多个第一集合和每个所述第一集合的特征值,并记录特征构建过程中的特征构建信息;其次,通过第一特征构建单元和特征构建信息,分别构建出训练集的多个第二集合和测试集的多个第三集合;再通过多个第二集合的特征值和多个第三集合的特征值对二分类模型进行训练和测试,以迭代修改第一特征构建单元和第二特征构建单元的超参数;从而针对不同应用场景调整特征的表现能力,实现有监督的高效的特征构建。
附图说明
图1示出了本申请实施例提供的特征构建方法的流程示意图。
图2为图1示出的特征构建方法中步骤S12的流程示意图。
图3为图1示出的特征构建方法中步骤S13的流程示意图。
图4为图1示出的特征构建方法中步骤S15的流程示意图。
图5为图1示出的特征构建方法中步骤S16的流程示意图。
图6示出了本申请实施例提供的特征构建装置的方框示意图。
图7示出了本申请实施例提供的计算机设备的方框示意图。
图标:10-计算机设备;11-处理器;12-存储器;13-总线;100-特征构建装置;101-样本获取模块;102-第一执行模块;103-第二执行模块;104-生成模块;105-第一处理模块;106-第二处理模块;107-第三处理模块。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述。
请参照图1,图1示出了本申请实施例提供的特征构建方法的流程示意图,该特征构建方法应用于计算机设备,可以包括以下步骤:
S11,获取多个样本,并将多个样本划分为特征构建集、训练集及测试集。
多个样本是用于进行二分类模型的特征构建的历史数据,也就是,某项业务过去一段时间内的历史数据。例如,二分类模型为交通状态预测模型,若要针对该交通状态预测模型进行特征构建,则需要获取道路在过去一段时间内的历史过车数据作为样本。
由于在道路交通状态预测情况下,整个路网的交通状况是随时间不变变化的,因此,需要对路网的各项指标按照时间切片(例如,5min)进行统计,也就是,每隔5min统计一次各个路段的各项指标。各项指标可以包括路段编号、上游平均速度、上游流量、下游平均速度、下游流量、路段车道数、路段长度、道路类型及标签等,标签是下一个时间切片(5min)的交通状态,例如,拥堵或流畅。
以交通状态预测为例,例如预测未来一段时间(例如,5min)的交通状况。在预测之前获取各个路段的历史过车数据作为样本,单个样本的构成如下表1所示:
表1
Figure BDA0002563271650000051
在获取到历史数据后,可以按照4:4:2将所有样本划分为特征构建集、训练集及测试集,分别用于特征构建、模型训练及模型测试。
S12,利用第一特征构建单元,对特征构建集中的样本进行特征构建并记录特征构建信息,得到多个第一集合。
第一特征构建单元可以用于:首先,针对特征构建集中的每个样本,构建新指标;然后,对构建的每个样本的新指标进行异常值处理,并记录异常信息;最后,对异常值处理后的各个新指标进行分集处理并记录分集信息,得到多个第一集合。特征构建信息包括异常信息和分集信息。
以交通状态预测为例,根据业务经验,某个路段的未来拥堵状况可能与该路段的上游平均速度、上游流量、下游平均速度和下游流量有关,因此,可以选择这四项指标用于构建新特征。
通常,从业务上认为路段上下游的平均速度差与近期交通拥堵情况有关,但是还需考虑上下游流量情况,例如大流量的平均速度与小流量的平均速度反应的明显是两种交通状况。因此,可以基于上游平均速度、上游流量、下游平均速度和下游流量这四项指标构建新指标,并且尽量消除上下游流量差异带来的速度差的影响,该新指标可以理解为速度和流量的共同变化对未来5min交通状况的影响。
构建出每个路段的新指标之后,需要对各个路段的新指标进行异常值处理及分集处理,这样就能得到多个第一集合,每个第一集合中均包括至少一个路段的新指标。
S13,利用第二特征构建单元计算每个第一集合的特征值。
第二特征构建单元可以用于:首先,在特征构建集中,选择某个类别特征G,并在类别特征G的不同取值下,通过每个第一集合中正负样本的占比,计算每个第一集合的后验几率;然后,不考虑类别特征G,通过每个第一集合中正负样本的占比,计算每个第一集合的先验几率;再通过上两步得到的类别特征G的不同取值下每个第一集合的后验几率、以及每个第一集合的先验几率,计算类别特征G的不同取值下每个第一集合的后验几率接受率;最后,通过类别特征G的不同取值下每个第一集合的后验几率、每个第一集合的先验几率、以及类别特征G的不同取值下每个第一集合的后验几率接受率,计算出每个第一集合的特征值。
根据业务经验,可以选择某个具有较少取值的类别特征G,使得在类别特征G的不同取值下,步骤S12中构建的新指标具有显著差异。
以交通状态预测为例,根据业务经验,道路类型不同对应的新指标具有显著差异。例如,城市快速路和社区道路的流量和速度指标均有明显差异,相应地,基于流量和速度指标构建的新指标也应存在明显差异,因此,可以将道路类型作为类别特征G。此时,类别特征G的共有三个取值,即,城市快速路、支路和社区道路。
S14,生成特征映射表,其中,特征映射表包括多个预设类别、多个第一集合和每个第一集合的特征值,一个预设类别和一个第一集合确定一个特征值。
多个预设类别即为步骤S13中类别特征G的各个取值,以交通状态预测为例,多个预设类别即为城市快速路、支路和社区道路。
特征映射表反映了在每个预设类别下每个第一集合的特征值,可以如下表2所示:
表2
Figure BDA0002563271650000071
S15,利用第一特征构建单元和特征构建信息,分别对训练集和测试集中的样本进行特征构建,得到多个第二集合和多个第三集合,多个第二集合和多个第一集合一一对应,多个第三集合和多个第一集合一一对应。
对训练集和测试集中的样本进行特征构建的方式,与对特征构建集中的样本进行特征构建的方式类似,即,采用步骤S12中的方式进行特征构建。
以训练集为例,对训练集中的样本进行特征构建的过程,可以包括:
首先,针对训练集中的每个样本,构建新指标,该新指标的构建方式与步骤S12中的方式一致;然后,按照步骤S12中记录的异常信息,对构建的每个样本的新指标进行异常值处理;最后,按照步骤S12中记录的分集信息,对异常值处理后的各个新指标进行分集处理,得到多个第二集合。
S16,依据多个预设类别查找特征映射表,获得每个第二集合的特征值和每个第三集合的特征值。
在同一业务中,类别特征的不同取值是确定的,也即多个预设类别是确定的,以交通状态预测为例,多个预设类别包括城市快速路、支路和社区道路。
由于多个预设类别是确定的,且多个第二集合和多个第一集合一一对应,多个第三集合和多个第一集合一一对应,这样通过查找特征映射表,就能得到在每个预设类别下每个第二集合的特征值和每个第三集合的特征值。例如,第二集合1与第一集合1对应,则通过查表1,可以获得在预设类别1、预设类别2和预设类别3下,第二集合1的特征值分别为特征值11、特征值12和特征值13。
S17,利用每个第二集合的特征值和每个第三集合的特征值,对预先选定的二分类模型进行训练和测试,以迭代修改第一特征构建单元和第二特征构建单元的超参数,直至第一特征构建单元和第二特征构建单元达到最优。
可以将每个第二集合的特征值加入训练数据集、以及将每个第三集合的特征值加入测试数据集,并采用训练数据集对二分类模型进做训练、以及采用测试数据集对训练后的二分类模型做测试,以迭代修改第一特征构建单元和第二特征构建单元的超参数,直至第一特征构建单元和第二特征构建单元达到最优,也就是直至可以采用第一特征构建单元和第二特征构建单元构建出最优的特征值。
训练数据集和测试数据集可以是步骤S11中的训练集和测试集,也可以是另外构建的训练集和测试集,在此不作限定。
在图1的基础上,请参照图2,步骤S12可以包括以下子步骤:
S121,按照预设指标分别对特征构建集中的每个样本进行指标构建,得到第一指标分布,第一指标分布包括每个样本对应的第一中间指标。
预设指标可以是业务影响比较大的指标,例如,在海关洋垃圾检测场景下,预设指标可以是价格和单位质量;又如,在交通状态预测场景下,预设指标可以是上游平均速度、上游流量、下游平均速度和下游流量。
第一中间指标可以是采用预设指标构建的新指标,可以用Fi表示,i为样本标识。第一指标分布可以包括每个样本对应的新指标,可以用F分布表示,即,F=(F1,...Fi...,Fn),n表示特征构建集中的样本总量。
作为一种实施方式,在交通状态预测场景下,按照预设指标分别对特征构建集中的每个样本进行指标构建,得到第一指标分布的过程,可以包括:
1、获取特征构建集中的任意一个目标样本;
2、依据上游平均速度、上游流量、下游平均速度及下游流量,利用预设公式:
Figure BDA0002563271650000091
生成目标样本对应的第一中间指标,其中,i表示路段标识,Vi1表示路段i的上游平均速度,Vi0表示路段i的下游平均速度,Qi1表示路段i的上游流量,Qi0表示路段i的下游流量,α表示第一特征构建单元的超参数,且α∈(0,1];在步骤S17中需要对α进行迭代修改,以学到α的最优取值。
3、重复执行上述步骤,直至生成特征构建集中的每个样本对应的第一中间指标,得到第一指标分布。
S122,对第一指标分布进行异常值处理并记录异常信息,得到第一目标指标分布,第一目标指标分布包括每个样本对应的第一目标指标数据。
在实际应用中,第一指标分布可能是连续变量,也可能是类别变量。如果第一指标分布为连续变量,后期需要做分箱处理,异常值会影响分箱稳定性,因此必须先进行异常值处理。如果第一指标分布为类别分量,后期需要做类别合并处理,明显异常的类别会影响类别合并的准确性,故同样需要先进行异常值处理。
作为一种实施方式,当第一指标分布为连续变量时,异常信息包括第一目标指标分布的最大值和最小值;
对第一指标分布进行异常值处理并记录异常信息,得到第一目标指标分布的过程,可以包括:
对第一指标分布进行截断处理得到第一目标指标分布,并记录第一目标指标分布的最大值和最小值。
异常值处理的方式很多,实际应用中可以结合第一指标分布的具体情况选择不同的处理方式,在此不做限定。第一目标指标分布可以用F'=(F1,...Fi...,Fn)表示。
本实施例选择简单的IQR值检测方法,对F=(F1,...Fi...,Fn)中超过75分位数1.5倍IQR值、以及低于25分位数1.5倍IQR值进行截断处理,并保留最大值和最小值信息。即,先将第一指标分布按照从小到大的顺序进行排序;然后,找到其中的25分位数((第一四分位数))和75分位数(第三四分位数),将75分位数以上1.5倍IQR值截断、25分位数以下1.5倍IQR值截断,从而完成第一指标分布的截断处理,最大值信息为最大截断值,最小值信息为最小截断值。例如,假设有1-100共计100个取值,25分位数(第一四分位数)为25,75分位数(第三四分位数)为75,IQR值为第三四分位数与第一四分位数之差,即75-25=50,那么最大截断值为75+1.5*50=150,最小截断值为25-1.5*50=-50,取值范围为[-50,150],则对低于-50的数以-50作截断、高于150的数以150截断,也就是,将低于-50的数均替换为-50、将高于150的数均替换为150。
作为另一种实施方式,当第一指标分布为类别变量时,异常信息包括第一目标指标分布的替换前类别和替换后类别;
对第一指标分布进行异常值处理并记录异常信息,得到第一目标指标分布的过程,可以包括:
对第一指标分布进行类别替换处理得到第一目标指标分布,并记录第一目标指标分布的替换前类别和替换后类别。
对第一指标分布进行类别替换处理是指,将第一指标分布中明显异常的类别进行合理替换,同时记录替换前类别及替换后类别。例如,F=(男,女,男,未知,男...),显然,其中的“未知”是一个明显异常的类别,需要将其替换为“男”或“女”,假设F'=(男,女,男,女,男...),则替换前类别为“未知”,替换后类别为“女”。
S123,对第一目标指标分布进行分集处理并记录分集信息,得到多个第一集合,每个第一集合均包括至少一个第一目标指标数据。
作为一种实施方式,当第一指标分布为连续变量时,分集信息包括第一目标指标分布的分箱点信息;
对第一目标指标分布进行分集处理并记录分集信息,得到多个第一集合的过程,可以包括:
按照预设分箱数对第一目标指标分布进行分箱处理,得到第一集合,并记录第一目标指标分布的分箱点信息,预设分箱数为第一特征构建单元的超参数。
分箱处理的方法很多,如等频分箱、等距分箱、卡方分箱、最优分箱等。本实施例选择等距分箱,预先设定超参数bins为分箱数,bins可根据经验作范围限定,一般为7-15,然后在步骤S17中进行迭代修改,以学到bins的最优取值。例如,假设第一目标分布中的最小值为-50、最大值为150,bins为4,即,以4个箱体等距分箱,那么第一分割点为-50+(150-(-50))/4*1=0,第二分割点为-50+(150-(-50))/4*2=50,第三分割点为-50+(150-(-50))/4*3=100,分割后的箱体范围为[-50,0],(0,50],(50,100],(100,150],分箱点信息包括各个分割点和分割后的箱体范围。
作为另一种实施方式,当第一指标分布为类别变量时,分集信息包括第一目标指标分布的类别合并信息;
对第一目标指标分布进行分集处理并记录分集信息,得到多个第一集合的过程,可以包括:
对第一目标指标分布进行类别合并处理,得到多个第一集合,并记录第一目标指标分布的类别合并信息。
如果第一指标分布为类别变量,可以观测第一指标分布中各取值的频数情况,并且对于频数较低的取值根据经验进行合并,并记录类别合并信息。
在图1的基础上,请参照图3,步骤S13可以包括以下子步骤:
S131,在每个预设类别下,分别计算每个第一集合的后验几率。
在交通状态预测场景下,多个预设类别包括城市快速路、支路和社区道路,也就是,在城市快速路、支路和社区道路下,分别计算每个第一集合的后验几率。
作为一种实施方式,子步骤S131可以包括以下子步骤:
S131A,在每个预设类别下,分别获取每个第一集合的正样本量及负样本量。
在交通状态预测场景下,以单个第一集合为例,也就是,分别获取第一集合中道路类型为城市快速路、支路和社区道路的正样本量和负样本量。其中,正样本是指表1中标签为“拥堵”的样本,负样本是指表1中标签为“流畅”的样本。
S131B,在每个预设类别下,分别利用第一公式
Figure BDA0002563271650000121
计算每个第一集合的正样本占比,其中,i表示预设类别的标记,j表示第一集合的标记,k表示第一集合的总数目,
Figure BDA0002563271650000122
表示第i个预设类别下第j个第一集合的正样本量,
Figure BDA0002563271650000123
表示第i个预设类别下所有k个第一集合的正样本总量,
Figure BDA0002563271650000131
表示第i个预设类别下第j个第一集合的正样本占比。
S131C,在每个预设类别下,分别利用第二公式
Figure BDA0002563271650000132
计算每个第一集合的负样本占比,其中,
Figure BDA0002563271650000133
表示第i个预设类别下第j个第一集合的负样本量,
Figure BDA0002563271650000134
表示第i个预设类别下所有k个第一集合的负样本总量,
Figure BDA0002563271650000135
表示第i个预设类别下第j个第一集合的负样本占比。
S131D,在每个预设类别下,分别利用后验几率公式
Figure BDA0002563271650000136
计算每个第一集合的后验几率,其中,post_oddsij表示第i个预设类别下第j个第一集合的后验几率。
从后验几率post_oddsij的计算公式可以看出,在某个预设类别下,如果某个第一集合的post_oddsij取值为1,则说明第一集合中正负样本的占比相当,无法采用后验几率对该第一集合中的正负样本进行有效划分,即,第一集合中正负样本的占比相当;如果该第一集合的post_oddsij取值远大于1,则说明该第一集合发生风险的可能性很大,即,正样本占比大;如果该第一集合的post_oddsij取值接近于0,则说明该第一集合发生风险的可能性很小,即正样本占比小。显然,不论是风险大还是风险小,都能采用后验几率对该第一集合中的正负样本进行有效划分。
作为另一种实施方式,在上述计算过程中,可能会存在某个第一集合中负样本占比为0的情况,即,
Figure BDA0002563271650000137
为0,此时,计算的post_oddsij为无穷大或0/0,显然出现这样的值是不合理的,因此,当出现这种情况是需做平滑处理,本实施例采用Laplace平滑,即在计算
Figure BDA0002563271650000138
时将每个第一集合的负样本量加1。因此,子步骤S131还可以包括子步骤S131E:
S131E,当任意一个第一集合的负样本占比为0时,在每个预设类别下,分别利用第三公式
Figure BDA0002563271650000141
重新计算每个第一集合的负样本占比。
S132,计算每个第一集合的先验几率。
在很多情况下,由于数据分布不均衡,在预设类别下某些第一集合的样本量很小,此时通过子步骤S132计算的后验几率的可信度就非常小,如果直接使用该可信度,则很容易出现过拟合,为了避免这种情况,引入先验几率的概念。
先验几率,即不通过预设类别计算各个第一集合的几率。当某个第一集合的样本量非常小时,该箱体的后验几率可信度低,应该以较小的概率接受该第一集合的后验几率,换言之,则以较大的概率接受该第一集合先验几率。
在本实施例中,子步骤S132可以包括以下子步骤:
S132A,获取每个第一集合的正样本量及负样本量;
S132B,依据每个第一集合的正样本量及负样本量,利用先验几率公式
Figure BDA0002563271650000142
计算每个第一集合的先验几率,其中,
Figure BDA0002563271650000143
表示第j个第一集合的正样本量,
Figure BDA0002563271650000144
表示所有k个第一集合的正样本总量,
Figure BDA0002563271650000145
表示第j个第一集合的负样本量,
Figure BDA0002563271650000146
表示所有k个第一集合的负样本总量,prior_oddsj表示第j个第一集合的先验几率。
S133,在每个预设类别下,分别计算每个第一集合的后验几率接受率。
后验几率接受率用来平衡先验几率与后验几率的接受程度,目的是在第一集合有较大的样本量时对后验几率取一个较大的接受率,在第一集合有较少的样本量时取一个较小的接受率。因此,后验几率接受率是与第一集合的样本量相关的一个单调递增函数,且其取值范围应在[0,1],本实施例借用Sigmoid函数建立后验几率接受率。
在本实施例中,子步骤S133可以包括以下子步骤:
S133A,在每个预设类别下,分别获取每个第一集合的样本量;
S133B,在每个预设类别下,分别利用后验几率接受率公式
Figure BDA0002563271650000151
计算每个第一集合的后验几率接受率,其中,Nij表示第i个预设类别下第j个第一集合的样本量,f和K为第二特征构建单元的超参数,accept_rateij表示第i个预设类别下第j个第一集合的后验几率接受率。
在本实施例中,可以将所有第一集合中的样本按照标识进行排序,并选择四分位数作为K的初始取值、选择两倍K作为f的初始取值,然后在步骤S17中进行迭代修改,以学到f和K的最优取值。
S134,在每个预设类别下,依据后验几率、先验几率及后验几率接受率,计算每个第一集合的特征值。
在本实施例中,子步骤S134可以包括以下子步骤:
S134A,按照预设上限值,对后验几率和先验几率进行截断处理,以使后验几率和先验几率不超过预设上限值,预设上限值为第二特征构建单元的超参数。
子步骤S131~S132计算的后验几率和先验几率的取值范围均为[0,+∞],为了避免该值太大,可以根据业务经验将后验几率和先验几率的上限值阶段到特定的θ,θ是一个大于1的数。即,设置后验几率和先验几率的取值范围均为[0,θ]。例如,θ的初始取值可以为5,之后在步骤S17中需要对θ进行迭代修改,以学到θ的最优取值。
S134B,在每个预设类别下,分别利用特征值公式bins_oddsij=accept_rateij*post_oddsij+(1-accept_rateij)*prior_oddsj计算每个第一集合的特征值,其中,bins_oddsij表示第i个预设类别下第j个第一集合的特征值。
也就是,使用后验几率接受率accept_rateij对后验几率post_oddsij和先验几率prior_oddsj进行加权处理,得到特征值bins_oddsij
在图1的基础上,以训练集为例,请参照图4,步骤S15可以包括以下子步骤:
S151,按照预设指标分别对训练集中的每个样本进行指标构建,得到第二指标分布,第二指标分布包括每个样本对应的第二中间指标。
S152,按照异常信息对第二指标分布进行异常值处理得到第二目标指标分布,第二目标指标分布包括每个样本对应的第二目标指标数据。
作为一种实施方式,当第二指标分布为连续变量时,异常信息包括第一目标指标分布的最大值和最小值;
按照异常信息对第二指标分布进行异常值处理得到第二目标指标分布的过程,可以包括:
按照第一目标指标分布的最大值和最小值对第二指标分布进行截断处理,得到第二目标指标分布。
作为另一种实施方式,当第二指标分布为类别变量时,异常信息包括第一目标指标分布的替换前类别和替换后类别;
按照异常信息对第二指标分布进行异常值处理得到第二目标指标分布的过程,可以包括:
按照第一目标指标分布的替换前类别和替换后类别对第二指标分布进行类别替换处理,得到第二目标指标分布。
S153,按照分集信息对第二目标指标分布进行分集处理得到多个第二集合,每个第二集合均包括至少一个第二目标指标数据,且多个第二集合和多个第一集合一一对应。
作为一种实施方式,以训练集为例,当第二指标分布为连续变量时,分集信息包括第一目标指标分布的分箱点信息;
按照分集信息对第二目标指标分布进行分集处理得到多个第二集合的过程,可以包括:
按照第一目标指标分布的分箱点信息对第二指标分布进行分箱处理,得到多个第二集合。
作为另一种实施方式,当第二指标分布为类别变量时,分集信息包括第一目标指标分布的类别合并信息;
按照分集信息对第二目标指标分布进行分集处理得到多个第二集合的过程,可以包括:
按照第一目标指标分布的类别合并信息对第二目标指标分布进行类别合并处理,得到多个第二集合。
需要指出的是,对于训练集和测试集,采用与特征构建集相同的方式进行特征构建,即,子步骤S151~S153的具体过程与子步骤S151~S153一致,在此不再赘述。
在图1的基础上,请参照图5,步骤S16可以包括以下子步骤:
S161,获取任意一个目标预设类别和任意一个目标第二集合。
S162,当特征映射表中存在目标预设类别和目标第二集合确定的目标特征值时,将目标特征值作为目标第二集合的特征值。
S163,当特征映射表中不存在目标预设类别和目标第二集合确定的目标特征值时,设置目标第二集合的特征值为1。
当某个第二集合的特征值为1时,表示正负样本在该第二集合中的占比差异不大,无法对该第二集合进行正负样本的划分,因此,如果特征映射表中确实目标特征值,则将目标第二集合的特征值设置为1,这种情况下不会引入任何有用信息,也就不会影响其他第二集合中正负样本的划分。
上述子步骤S161~S163为获得多个第二集合中的任意一个目标第二集合的特征值的过程,因此,在执行完子步骤S163后,步骤S16还包括:
重复执行子步骤S161~S163,直至得到每个第二集合的特征值。
需要指出的是,针对测试集中,得到每个第三集合的特征值的过程,与上述子步骤S151~S153和子步骤S161~S163的过程相同,在此不再赘述。
与现有技术相比,本申请实施例具有以下有益效果:
首先,本申请应用范围广,几乎适用于所有的二分类建模过程,尤其适用于大量的类别变量不平衡问题,如异常检测、风险防控等;
其次,本申请很好地利用了业务经验,利用业务经验来构建特征,例如,交通状态预测场景下,利用上游平均速度、上游流量、下游平均速度及下游流量构建新指标,利用道路类型确定特征值;同时,在特征构建过程中,将业务经验转化为可调节的数据函数映射,含义清晰,可解释性强;
第三,本申请在特征构建过程中,有监督地结合了历史数据的标签,因此构建的特征具有较高的模式识别信息密度;
第四,本申请在特征构建中采用数据分布区间几率(odds)的概念计算特征值,后验几率越大则风险越大,后验几率越小则风险越小;
第五,本申请处理过程借用了Laplace平滑处理异常情况,保证指标实现过程稳定的进行;
第六,本申请借用了sigmoid函数,将样本量转换为[0,1]之间的后验几率接受率,使用后验几率接受率接受先验几率和后验几率,使得指标构建更合理。
为了执行上述特征构建方法实施例及各个可能的实施方式中的相应步骤,下面给出一种特征构建装置的实现方式。请参照图6,图6示出了本申请实施例提供的特征构建装置100的方框示意图。特征构建装置100应用于计算机设备,该特征构建装置100包括:样本获取模块101、第一执行模块102、第二执行模块103、生成模块104、第一处理模块105、第二处理模块106及第三处理模块107。
样本获取模块101,用于获取多个样本,并将多个样本划分为特征构建集、训练集及测试集。
第一执行模块102,用于利用第一特征构建单元,对特征构建集中的样本进行特征构建并记录特征构建信息,得到多个第一集合。
第二执行模块103,用于利用第二特征构建单元计算每个第一集合的特征值。
生成模块104,用于生成特征映射表,其中,特征映射表包括多个预设类别、多个第一集合和每个第一集合的特征值,一个预设类别和一个第一集合确定一个特征值。
第一处理模块105,用于利用第一特征构建单元和特征构建信息,分别对训练集和测试集中的样本进行特征构建,得到多个第二集合和多个第三集合,多个第二集合和多个第一集合一一对应,多个第三集合和多个第一集合一一对应。
第二处理模块106,用于依据多个预设类别查找特征映射表,获得每个第二集合的特征值和每个第三集合的特征值。
第三处理模块107,用于利用每个第二集合的特征值和每个第三集合的特征值,对预先选定的二分类模型进行训练和测试,以迭代修改第一特征构建单元和第二特征构建单元的超参数,直至第一特征构建单元和第二特征构建单元达到最优。
可选地,第一特征构建单元包括预设指标,所述特征构建信息包括异常信息及分集信息;第一执行模块102具体用于:
按照预设指标分别对特征构建集中的每个样本进行指标构建,得到第一指标分布,第一指标分布包括每个样本对应的第一中间指标。
对第一指标分布进行异常值处理并记录异常信息,得到第一目标指标分布,第一目标指标分布包括每个样本对应的第一目标指标数据。
对第一目标指标分布进行分集处理并记录分集信息,得到多个第一集合,每个第一集合均包括至少一个第一目标指标数据。
可选地,当第一指标分布为连续变量时,异常信息包括第一目标指标分布的最大值和最小值,分集信息包括第一目标指标分布的分箱点信息;
第一执行模块102执行对第一指标分布进行异常值处理并记录异常信息,得到第一目标指标分布的方式,包括:对第一指标分布进行截断处理得到第一目标指标分布,并记录第一目标指标分布的最大值和最小值;
第一执行模块102执行对第一目标指标分布进行分集处理并记录分集信息,得到多个第一集合的方式,包括:按照预设分箱数对第一目标指标分布进行分箱处理,得到第一集合,并记录第一目标指标分布的分箱点信息,预设分箱数为第一特征构建单元的超参数。
可选地,当第一指标分布为类别变量时,异常信息包括第一目标指标分布的替换前类别和替换后类别,分集信息包括第一目标指标分布的类别合并信息;
第一执行模块102执行对第一指标分布进行异常值处理并记录异常信息,得到第一目标指标分布的方式,包括:对第一指标分布进行类别替换处理得到第一目标指标分布,并记录第一目标指标分布的替换前类别和替换后类别;
第一执行模块102执行对第一目标指标分布进行分集处理并记录分集信息,得到多个第一集合的方式,包括:对第一目标指标分布进行类别合并处理,得到多个第一集合,并记录第一目标指标分布的类别合并信息。
可选地,该特征构建方法应用于交通拥堵情况预测,预设指标包括上游平均速度、上游流量、下游平均速度及下游流量;第一执行模块102执行按照预设指标分别对特征构建集中的每个样本进行指标构建,得到第一指标分布的方式,包括:
获取特征构建集中的任意一个目标样本;
依据上游平均速度、上游流量、下游平均速度及下游流量,利用预设公式:
Figure BDA0002563271650000211
生成目标样本对应的第一中间指标,其中,i表示路段标识,Vi1表示路段i的上游平均速度,Vi0表示路段i的下游平均速度,Qi1表示路段i的上游流量,Qi0表示路段i的下游流量,α表示第一特征构建单元的超参数,且α∈(0,1];
重复执行上述步骤,直至生成特征构建集中的每个样本对应的第一中间指标,得到第一指标分布。
可选地,第二执行模块103具体用于:在每个预设类别下,分别计算每个第一集合的后验几率;计算每个第一集合的先验几率;在每个预设类别下,分别计算每个第一集合的后验几率接受率;在每个预设类别下,依据后验几率、先验几率及后验几率接受率,计算每个第一集合的特征值。
可选地,第二执行模块103执行在每个预设类别下,分别计算每个第一集合的后验几率的方式,包括:
在每个预设类别下,分别获取每个第一集合的正样本量及负样本量;
在每个预设类别下,分别利用第一公式
Figure BDA0002563271650000212
计算每个第一集合的正样本占比,其中,i表示预设类别的标记,j表示第一集合的标记,k表示第一集合的总数目,
Figure BDA0002563271650000213
表示第i个预设类别下第j个第一集合的正样本量,
Figure BDA0002563271650000214
表示第i个预设类别下所有k个第一集合的正样本总量,
Figure BDA0002563271650000215
表示第i个预设类别下第j个第一集合的正样本占比;
在每个预设类别下,分别利用第二公式
Figure BDA0002563271650000216
计算每个第一集合的负样本占比,其中,
Figure BDA0002563271650000217
表示第i个预设类别下第j个第一集合的负样本量,
Figure BDA0002563271650000221
表示第i个预设类别下所有k个第一集合的负样本总量,
Figure BDA0002563271650000222
表示第i个预设类别下第j个第一集合的负样本占比;
在每个预设类别下,分别利用后验几率公式
Figure BDA0002563271650000223
计算每个第一集合的后验几率,其中,post_oddsij表示第i个预设类别下第j个第一集合的后验几率。
可选地,第二执行模块103执行在每个预设类别下,分别计算每个第一集合的后验几率的方式,还包括:
当任意一个第一集合的负样本占比为0时,在每个预设类别下,分别利用第三公式
Figure BDA0002563271650000224
重新计算每个第一集合的负样本占比。
可选地,第二执行模块103执行计算每个第一集合的先验几率的方式,包括:
获取每个第一集合的正样本量及负样本量;
依据每个第一集合的正样本量及负样本量,利用先验几率公式
Figure BDA0002563271650000225
计算每个第一集合的先验几率,其中,
Figure BDA0002563271650000226
表示第j个第一集合的正样本量,
Figure BDA0002563271650000227
表示所有k个第一集合的正样本总量,
Figure BDA0002563271650000228
表示第j个第一集合的负样本量,
Figure BDA0002563271650000229
表示所有k个第一集合的负样本总量,prior_oddsj表示第j个第一集合的先验几率。
可选地,第二执行模块103执行在每个预设类别下,分别计算每个第一集合的后验几率接受率的方式,包括:
在每个预设类别下,分别获取每个第一集合的样本量;
在每个预设类别下,分别利用后验几率接受率公式
Figure BDA00025632716500002210
计算每个第一集合的后验几率接受率,其中,Nij表示第i个预设类别下第j个第一集合的样本量,f和K为第二特征构建单元的超参数,accept_rateij表示第i个预设类别下第j个第一集合的后验几率接受率。
可选地,第二执行模块103执行在每个预设类别下,依据后验几率、先验几率及后验几率接受率,计算每个第一集合的特征值的方式,包括:
按照预设上限值,对后验几率和先验几率进行截断处理,以使后验几率和先验几率不超过预设上限值,预设上限值为第二特征构建单元的超参数;
在每个预设类别下,分别利用特征值公式bins_oddsij=accept_rateij*post_oddsij+(1-accept_rateij)*prior_oddsj计算每个第一集合的特征值,其中,bins_oddsij表示第i个预设类别下第j个第一集合的特征值。
可选地,第一特征构建单元包括预设指标,特征构建信息包括异常信息及分集信息;第一处理模块105具体用于:
按照预设指标分别对训练集中的每个样本进行指标构建,得到第二指标分布,第二指标分布包括每个样本对应的第二中间指标。
按照异常信息对第二指标分布进行异常值处理得到第二目标指标分布,第二目标指标分布包括每个样本对应的第二目标指标数据。
按照分集信息对第二目标指标分布进行分集处理得到多个第二集合,每个第二集合均包括至少一个第二目标指标数据,且多个第二集合和多个第一集合一一对应。
可选地,当第二指标分布为连续变量时,异常信息包括第一目标指标分布的最大值和最小值,分集信息包括第一目标指标分布的分箱点信息;
第一处理模块105执行按照异常信息对第二指标分布进行异常值处理得到第二目标指标分布的方式,包括:按照第一目标指标分布的最大值和最小值对第二指标分布进行截断处理,得到第二目标指标分布;
第一处理模块105执行按照分集信息对第二目标指标分布进行分集处理得到多个第二集合的方式,包括:按照第一目标指标分布的分箱点信息对第二指标分布进行分箱处理,得到多个第二集合。
可选地,当第二指标分布为类别变量时,异常信息包括第一目标指标分布的替换前类别和替换后类别,分集信息包括第一目标指标分布的类别合并信息;
第一处理模块105执行按照异常信息对第二指标分布进行异常值处理得到第二目标指标分布的方式,包括:按照第一目标指标分布的替换前类别和替换后类别对第二指标分布进行类别替换处理,得到第二目标指标分布;
第一处理模块105执行按照分集信息对第二目标指标分布进行分集处理得到多个第二集合的方式,包括:按照第一目标指标分布的类别合并信息对第二目标指标分布进行类别合并处理,得到多个第二集合。
可选地,第二处理模块106具体用于:获取任意一个目标预设类别和任意一个目标第二集合;当特征映射表中存在目标预设类别和目标第二集合确定的目标特征值时,将目标特征值作为目标第二集合的特征值;当特征映射表中不存在目标预设类别和目标第二集合确定的目标特征值时,设置目标第二集合的特征值为1;重复执行上述步骤,直至得到每个第二集合的特征值。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的特征构建装置100的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
请参照图7,图7示出了本申请实施例提供的计算机设备10的方框示意图。计算机设备10可以是智能手机、平板电脑、便携式笔记本电脑、台式电脑、服务器等中的任意一种,计算机设备10包括处理器11、存储器12及总线13,处理器11通过总线13与存储器12连接。
存储器12用于存储程序,例如图6所示的特征构建装置100,特征构建装置100包括至少一个可以软件或固件(firmware)的形式存储于存储器12中的软件功能模块,处理器11在接收到执行指令后,执行所述程序以实现上述实施例揭示的特征构建方法。
存储器12可能包括高速随机存取存储器(Random Access Memory,RAM),也可能还包括非易失存储器(non-volatile memory,NVM)。
处理器11可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器11中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器11可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、微控制单元(Microcontroller Unit,MCU)、复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、嵌入式ARM等芯片。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器11执行时实现上述实施例揭示的特征构建方法。
综上所述,本申请提供的一种特征构建方法、装置、计算机设备及存储介质,首先,通过第一特征构建单元和第二特征构建单元,构建出特征构建集的多个第一集合和每个所述第一集合的特征值,并记录特征构建过程中的特征构建信息;其次,通过第一特征构建单元和特征构建信息,分别构建出训练集的多个第二集合和测试集的多个第三集合;再通过多个第二集合的特征值和多个第三集合的特征值对二分类模型进行训练和测试,以迭代修改第一特征构建单元和第二特征构建单元的超参数;从而针对不同应用场景调整特征的表现能力,实现有监督的高效的特征构建。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (16)

1.一种特征构建方法,其特征在于,所述方法包括:
获取多个样本,并将所述多个样本划分为特征构建集、训练集及测试集,所述多个样本是用于进行交通状态预测模型的特征构建的历史过车数据;
利用第一特征构建单元,对所述特征构建集中的所述样本进行特征构建并记录特征构建信息,得到多个第一集合;
利用第二特征构建单元计算每个所述第一集合的特征值;
生成特征映射表,其中,所述特征映射表包括多个预设类别、所述多个第一集合和每个所述第一集合的特征值,一个所述预设类别和一个所述第一集合确定一个所述特征值,所述多个预设类别包括城市快速路、支路和社区道路;
利用所述第一特征构建单元和所述特征构建信息,分别对所述训练集和所述测试集中的所述样本进行特征构建,得到多个第二集合和多个第三集合,所述多个第二集合和所述多个第一集合一一对应,所述多个第三集合和所述多个第一集合一一对应;
依据所述多个预设类别查找所述特征映射表,获得每个所述第二集合的特征值和每个所述第三集合的特征值;
利用每个所述第二集合的特征值和每个所述第三集合的特征值,对预先选定的交通状态预测模型进行训练和测试,以迭代修改所述第一特征构建单元和所述第二特征构建单元的超参数,直至所述第一特征构建单元和所述第二特征构建单元达到最优;
所述第一特征构建单元包括预设指标,所述特征构建信息包括异常信息及分集信息;当应用于交通拥堵情况预测时,所述预设指标包括上游平均速度、上游流量、下游平均速度及下游流量;
所述利用第一特征构建单元,对所述特征构建集中的所述样本进行特征构建并记录特征构建信息,得到多个第一集合的步骤,包括:
获取所述特征构建集中的任意一个目标样本;
依据所述上游平均速度、所述上游流量、所述下游平均速度及所述下游流量,利用预设公式:
Figure FDA0003613972270000021
生成目标样本对应的第一中间指标,其中,m表示路段标识,Vm1表示路段m的上游平均速度,Vm0表示路段m的下游平均速度,Qm1表示路段m的上游流量,Qm0表示路段m的下游流量,α表示所述第一特征构建单元的超参数,且α∈(0,1];
重复执行上述步骤,直至生成所述特征构建集中的每个所述样本对应的第一中间指标,得到第一指标分布,所述第一指标分布包括每个所述样本对应的第一中间指标;
对所述第一指标分布进行异常值处理并记录所述异常信息,得到第一目标指标分布,所述第一目标指标分布包括每个所述样本对应的第一目标指标数据;
对所述第一目标指标分布进行分集处理并记录所述分集信息,得到所述多个第一集合,每个所述第一集合均包括至少一个所述第一目标指标数据。
2.如权利要求1所述的方法,其特征在于,当所述第一指标分布为连续变量时,所述异常信息包括所述第一目标指标分布的最大值和最小值,所述分集信息包括所述第一目标指标分布的分箱点信息;
所述对所述第一指标分布进行异常值处理并记录所述异常信息,得到第一目标指标分布的步骤,包括:
对所述第一指标分布进行截断处理得到所述第一目标指标分布,并记录所述第一目标指标分布的最大值和最小值;
所述对所述第一目标指标分布进行分集处理并记录所述分集信息,得到所述多个第一集合的步骤,包括:
按照预设分箱数对所述第一目标指标分布进行分箱处理,得到所述第一集合,并记录所述第一目标指标分布的分箱点信息,所述预设分箱数为所述第一特征构建单元的超参数。
3.如权利要求1所述的方法,其特征在于,当所述第一指标分布为类别变量时,所述异常信息包括所述第一目标指标分布的替换前类别和替换后类别,所述分集信息包括所述第一目标指标分布的类别合并信息;
所述对所述第一指标分布进行异常值处理并记录所述异常信息,得到第一目标指标分布的步骤,包括:
对所述第一指标分布进行类别替换处理得到所述第一目标指标分布,并记录所述第一目标指标分布的替换前类别和替换后类别;
所述对所述第一目标指标分布进行分集处理并记录所述分集信息,得到所述多个第一集合的步骤,包括:
对所述第一目标指标分布进行类别合并处理,得到所述多个第一集合,并记录所述第一目标指标分布的类别合并信息。
4.如权利要求1所述的方法,其特征在于,所述利用第二特征构建单元计算每个所述第一集合的特征值的步骤,包括:
在每个所述预设类别下,分别计算每个所述第一集合的后验几率;
计算每个所述第一集合的先验几率;
在每个所述预设类别下,分别计算每个所述第一集合的后验几率接受率;
在每个所述预设类别下,依据所述后验几率、所述先验几率及所述后验几率接受率,计算每个所述第一集合的特征值。
5.如权利要求4所述的方法,其特征在于,所述在每个所述预设类别下,分别计算每个所述第一集合的后验几率的步骤,包括:
在每个所述预设类别下,分别获取每个所述第一集合的正样本量及负样本量;
在每个所述预设类别下,分别利用第一公式
Figure FDA0003613972270000041
计算每个所述第一集合的正样本占比,其中,i表示所述预设类别的标记,j表示所述第一集合的标记,k表示第一集合的总数目,
Figure FDA0003613972270000042
表示第i个预设类别下第j个第一集合的正样本量,
Figure FDA0003613972270000043
表示第i个预设类别下所有k个第一集合的正样本总量,
Figure FDA0003613972270000044
表示第i个预设类别下第j个第一集合的正样本占比;
在每个所述预设类别下,分别利用第二公式
Figure FDA0003613972270000045
计算每个所述第一集合的负样本占比,其中,
Figure FDA0003613972270000046
表示第i个预设类别下第j个第一集合的负样本量,
Figure FDA0003613972270000047
表示第i个预设类别下所有k个第一集合的负样本总量,
Figure FDA0003613972270000048
表示第i个预设类别下第j个第一集合的负样本占比;
在每个所述预设类别下,分别利用后验几率公式
Figure FDA0003613972270000049
计算每个所述第一集合的后验几率,其中,post_oddsij表示第i个预设类别下第j个第一集合的后验几率。
6.如权利要求5所述的方法,其特征在于,所述在每个所述预设类别下,分别计算每个所述第一集合的后验几率的步骤,还包括:
当任意一个所述第一集合的负样本占比为0时,在每个所述预设类别下,分别利用第三公式
Figure FDA00036139722700000410
重新计算每个所述第一集合的负样本占比。
7.如权利要求5或6所述的方法,其特征在于,所述计算每个所述第一集合的先验几率的步骤,包括:
获取每个所述第一集合的正样本量及负样本量;
依据每个所述第一集合的正样本量及负样本量,利用先验几率公式
Figure FDA0003613972270000051
计算每个所述第一集合的先验几率,其中,
Figure FDA0003613972270000052
表示第j个第一集合的正样本量,
Figure FDA0003613972270000053
表示所有k个第一集合的正样本总量,
Figure FDA0003613972270000054
表示第j个第一集合的负样本量,
Figure FDA0003613972270000055
表示所有k个第一集合的负样本总量,prior_oddsj表示第j个第一集合的先验几率。
8.如权利要求7所述的方法,其特征在于,所述在每个所述预设类别下,分别计算每个所述第一集合的后验几率接受率的步骤,包括:
在每个所述预设类别下,分别获取每个所述第一集合的样本量;
在每个所述预设类别下,分别利用后验几率接受率公式
Figure FDA0003613972270000056
计算每个所述第一集合的后验几率接受率,其中,Nij表示第i个预设类别下第j个第一集合的样本量,f和K为所述第二特征构建单元的超参数,accept_rateij表示第i个预设类别下第j个第一集合的后验几率接受率。
9.如权利要求8所述的方法,其特征在于,所述在每个所述预设类别下,依据所述后验几率、所述先验几率及所述后验几率接受率,计算每个所述第一集合的特征值的步骤,包括:
按照预设上限值,对所述后验几率和所述先验几率进行截断处理,以使所述后验几率和所述先验几率不超过所述预设上限值,所述预设上限值为所述第二特征构建单元的超参数;
在每个所述预设类别下,分别利用特征值公式bins_oddsij=accept_rateij*post_oddsij+(1-accept_rateij)*prior_oddsj计算每个所述第一集合的特征值,其中,bins_oddsij表示第i个预设类别下第j个第一集合的特征值。
10.如权利要求1所述的方法,其特征在于,所述利用所述第一特征构建单元和所述特征构建信息,对所述训练集的所述样本进行特征构建,得到多个第二集合的步骤,包括:
按照所述预设指标分别对所述训练集中的每个所述样本进行指标构建,得到第二指标分布,所述第二指标分布包括每个所述样本对应的第二中间指标;
按照所述异常信息对所述第二指标分布进行异常值处理得到第二目标指标分布,所述第二目标指标分布包括每个所述样本对应的第二目标指标数据;
按照所述分集信息对所述第二目标指标分布进行分集处理得到所述多个第二集合,每个所述第二集合均包括至少一个所述第二目标指标数据,且所述多个第二集合和所述多个第一集合一一对应。
11.如权利要求10所述的方法,其特征在于,当所述第二指标分布为连续变量时,所述异常信息包括所述第一目标指标分布的最大值和最小值,所述分集信息包括所述第一目标指标分布的分箱点信息;
所述按照所述异常信息对所述第二指标分布进行异常值处理得到第二目标指标分布的步骤,包括:
按照所述第一目标指标分布的最大值和最小值对所述第二指标分布进行截断处理,得到所述第二目标指标分布;
所述按照所述分集信息对所述第二目标指标分布进行分集处理得到所述多个第二集合的步骤,包括:
按照所述第一目标指标分布的分箱点信息对所述第二指标分布进行分箱处理,得到所述多个第二集合。
12.如权利要求10所述的方法,其特征在于,当所述第二指标分布为类别变量时,所述异常信息包括所述第一目标指标分布的替换前类别和替换后类别,所述分集信息包括所述第一目标指标分布的类别合并信息;
所述按照所述异常信息对所述第二指标分布进行异常值处理得到第二目标指标分布的步骤,包括:
按照所述第一目标指标分布的替换前类别和替换后类别对所述第二指标分布进行类别替换处理,得到所述第二目标指标分布;
所述按照所述分集信息对所述第二目标指标分布进行分集处理得到所述多个第二集合的步骤,包括:
按照所述第一目标指标分布的类别合并信息对所述第二目标指标分布进行类别合并处理,得到所述多个第二集合。
13.如权利要求1所述的方法,其特征在于,所述依据所述多个预设类别查找所述特征映射表,获得每个所述第二集合的特征值的步骤,包括:
获取任意一个目标预设类别和任意一个目标第二集合;
当所述特征映射表中存在所述目标预设类别和所述目标第二集合确定的目标特征值时,将所述目标特征值作为所述目标第二集合的特征值;
当所述特征映射表中不存在所述目标预设类别和所述目标第二集合确定的目标特征值时,设置所述目标第二集合的特征值为1;
重复执行上述步骤,直至得到每个所述第二集合的特征值。
14.一种特征构建装置,其特征在于,所述装置包括:
样本获取模块,用于获取多个样本,并将所述多个样本划分为特征构建集、训练集及测试集,所述多个样本是用于进行交通状态预测模型的特征构建的历史过车数据;
第一执行模块,用于利用第一特征构建单元,对所述特征构建集中的所述样本进行特征构建并记录特征构建信息,得到多个第一集合;
第二执行模块,用于利用第二特征构建单元计算每个所述第一集合的特征值;
生成模块,用于生成特征映射表,其中,所述特征映射表包括多个预设类别、所述多个第一集合和每个所述第一集合的特征值,一个所述预设类别和一个所述第一集合确定一个所述特征值,所述多个预设类别包括城市快速路、支路和社区道路;
第一处理模块,用于利用所述第一特征构建单元和所述特征构建信息,分别对所述训练集和所述测试集中的所述样本进行特征构建,得到多个第二集合和多个第三集合,所述多个第二集合和所述多个第一集合一一对应,所述多个第三集合和所述多个第一集合一一对应;
第二处理模块,用于依据所述多个预设类别查找所述特征映射表,获得每个所述第二集合的特征值和每个所述第三集合的特征值;
第三处理模块,用于利用每个所述第二集合的特征值和每个所述第三集合的特征值,对预先选定的交通状态预测模型进行训练和测试,以迭代修改所述第一特征构建单元和所述第二特征构建单元的超参数,直至所述第一特征构建单元和所述第二特征构建单元达到最优;
所述第一特征构建单元包括预设指标,所述特征构建信息包括异常信息及分集信息;当应用于交通拥堵情况预测时,所述预设指标包括上游平均速度、上游流量、下游平均速度及下游流量;
所述第一处理模块执行所述利用第一特征构建单元,对所述特征构建集中的所述样本进行特征构建并记录特征构建信息,得到多个第一集合的方式,包括:
获取所述特征构建集中的任意一个目标样本;
依据所述上游平均速度、所述上游流量、所述下游平均速度及所述下游流量,利用预设公式:
Figure FDA0003613972270000091
生成目标样本对应的第一中间指标,其中,m表示路段标识,Vm1表示路段m的上游平均速度,Vm0表示路段m的下游平均速度,Qm1表示路段m的上游流量,Qm0表示路段m的下游流量,α表示所述第一特征构建单元的超参数,且α∈(0,1];
重复执行上述步骤,直至生成所述特征构建集中的每个所述样本对应的第一中间指标,得到第一指标分布,所述第一指标分布包括每个所述样本对应的第一中间指标;
对所述第一指标分布进行异常值处理并记录所述异常信息,得到第一目标指标分布,所述第一目标指标分布包括每个所述样本对应的第一目标指标数据;
对所述第一目标指标分布进行分集处理并记录所述分集信息,得到所述多个第一集合,每个所述第一集合均包括至少一个所述第一目标指标数据。
15.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-13中任一项所述的特征构建方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-13中任一项所述的特征构建方法。
CN202010621785.XA 2020-06-30 2020-06-30 特征构建方法、装置、计算机设备及存储介质 Active CN111753920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010621785.XA CN111753920B (zh) 2020-06-30 2020-06-30 特征构建方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010621785.XA CN111753920B (zh) 2020-06-30 2020-06-30 特征构建方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111753920A CN111753920A (zh) 2020-10-09
CN111753920B true CN111753920B (zh) 2022-06-21

Family

ID=72680260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010621785.XA Active CN111753920B (zh) 2020-06-30 2020-06-30 特征构建方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111753920B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388869A (zh) * 2018-02-28 2018-08-10 苏州大学 一种基于多重流形的手写数据分类方法及***
CN109213833A (zh) * 2018-09-10 2019-01-15 成都四方伟业软件股份有限公司 二分类模型训练方法、数据分类方法及对应装置
CN110569860A (zh) * 2019-08-30 2019-12-13 西安理工大学 结合判别分析和多核学习的图像有趣性二分类预测方法
CN111144473A (zh) * 2019-12-23 2020-05-12 中国医学科学院肿瘤医院 训练集构建方法、装置、电子设备及计算机可读存储介质
CN111191654A (zh) * 2019-12-30 2020-05-22 重庆紫光华山智安科技有限公司 道路数据生成方法、装置、电子设备及存储介质
CN111291816A (zh) * 2020-02-17 2020-06-16 支付宝(杭州)信息技术有限公司 针对用户分类模型进行特征处理的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8429102B2 (en) * 2011-03-31 2013-04-23 Mitsubishi Electric Research Laboratories, Inc. Data driven frequency mapping for kernels used in support vector machines
US10733527B2 (en) * 2015-12-28 2020-08-04 Facebook, Inc. Systems and methods to de-duplicate features for machine learning model
EP3330901A1 (en) * 2016-12-05 2018-06-06 Tata Consultancy Services Limited Training inductive logic programming enhanced deep belief network models for discrete optimization

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388869A (zh) * 2018-02-28 2018-08-10 苏州大学 一种基于多重流形的手写数据分类方法及***
CN109213833A (zh) * 2018-09-10 2019-01-15 成都四方伟业软件股份有限公司 二分类模型训练方法、数据分类方法及对应装置
CN110569860A (zh) * 2019-08-30 2019-12-13 西安理工大学 结合判别分析和多核学习的图像有趣性二分类预测方法
CN111144473A (zh) * 2019-12-23 2020-05-12 中国医学科学院肿瘤医院 训练集构建方法、装置、电子设备及计算机可读存储介质
CN111191654A (zh) * 2019-12-30 2020-05-22 重庆紫光华山智安科技有限公司 道路数据生成方法、装置、电子设备及存储介质
CN111291816A (zh) * 2020-02-17 2020-06-16 支付宝(杭州)信息技术有限公司 针对用户分类模型进行特征处理的方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Bjorn Waske等.Sensitivity of support vector machines to random feature selection in classification of hyperspectral data.《IEEE Transactions on Geoscience and Remote Sensing》.2010,第48卷(第7期), *
Hu Wenbin等.Real-time traffic jams prediction inpired by Biham,Middleton and Levine (BML) model.《Information Sciences》.2017,第381卷 *
冯亚.数据挖掘中决策树分类算法研究与应用.《中国优秀硕士学位论文全文数据库 (信息科技辑)》.2007, *
盛子豪.基于数据挖掘技术的交通拥堵判别与预测算法研究及应用.《中国优秀硕士学位论文全文数据库 (工程科技II辑)》.2018, *
郝志强.基于联合对称不确定性的特征选择算法研究.《中国优秀硕士学位论文全文数据库 (信息科技辑)》.2018, *

Also Published As

Publication number Publication date
CN111753920A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
US20200320428A1 (en) Fairness improvement through reinforcement learning
Tan et al. Evolutionary fuzzy ARTMAP neural networks for classification of semiconductor defects
CN110968982A (zh) 设计规则检查违规预测***和方法
CN108021945A (zh) 一种变压器状态评价模型建立方法及装置
US11973672B2 (en) Method and system for anomaly detection based on time series
KR102079359B1 (ko) 개선된 sax 기법 및 rtc 기법을 이용한 공정 모니터링 장치 및 방법
CN116881832B (zh) 旋转机械设备故障诊断模型的构建方法及装置
CN112488182A (zh) 一种半导体器件的良率预测方法及装置
Chicho et al. Machine learning classifiers based classification for IRIS recognition
CN116306888A (zh) 神经网络剪枝方法、装置、设备及存储介质
CN106033425A (zh) 数据处理设备和数据处理方法
Loni et al. ADONN: adaptive design of optimized deep neural networks for embedded systems
CN113988458A (zh) 反洗钱风险监控方法和模型训练方法、装置、设备及介质
Hlávka et al. Change-point methods for multivariate time-series: paired vectorial observations
CN111753920B (zh) 特征构建方法、装置、计算机设备及存储介质
CN114648060A (zh) 基于机器学习的故障信号规范化处理及分类方法
CN115801463B (zh) 工业互联网平台入侵检测的方法、装置和电子设备
EP3518152A1 (en) Information processing method and information processing system
CN112433952B (zh) 深度神经网络模型公平性测试方法、***、设备及介质
CN114547552A (zh) 模拟数据的生成方法、装置、智能终端及存储介质
Van Truong et al. A Coevolutionary approach for classification problems: Preliminary results
CN114115150A (zh) 基于数据的热泵***在线建模方法及装置
Dobos et al. A comparative study of anomaly detection methods for gross error detection problems
CN111026608A (zh) 一种Oracle数据库性能诊断方法及其***、设备、介质
Luo et al. Adaptive regularization-incorporated latent factor analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant