CN104517020B

CN104517020B - 用于因果效应分析的特征提取方法和装置

Info

Publication number: CN104517020B
Application number: CN201310462746.XA
Authority: CN
Inventors: 王虎; 小阪勇気
Original assignee: NEC China Co Ltd; NEC Corp
Current assignee: NEC China Co Ltd; NEC Corp
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2017-10-20
Anticipated expiration: 2033-09-30
Also published as: JP5970034B2; CN104517020A; JP2015097078A; US20150094983A1

Abstract

本发明公开了一种用于因果效应分析的特征提取方法和装置，属于数据分析领域。所述方法包括：确定用于对结果事件进行因果效应分析的特征时间点；根据所述特征时间点，获取预设数目的时间区间，所述预设数目的时间区间位于所述特征时间点之前，且所述时间区间距离所述特征时间点的间隔长度与所述时间区间的跨度呈正相关关系；根据所述每个时间区间所发生的潜在原因事件的事件信息，提取对所述结果事件进行因果效应分析的特征。本发明在综合考虑短期潜在原因事件和长期潜在原因事件的情况下，能够控制提取特征的数量，减少了计算量，避免了出现过拟合现象，进而增加了因果效应分析的准确率。

Description

用于因果效应分析的特征提取方法和装置

技术领域

本发明涉及数据分析领域，特别涉及一种用于因果效应分析的特征提取方法和装置。

背景技术

随着数据分析技术的发展，大数据引起了越多越多的关注。对大数据进行分析的一个重要目的在于有效地预测或控制感兴趣的事件的发生状态。而为了进行预测或控制，需要对事件之间的因果效应进行分析。

因果效应是指一个事件的发生对另一个事件的发生具有直接或间接的影响，前者为原因事件，后者为结果事件。一般地，原因事件和结果事件存在时序上的先后顺序，在分析事件之间的因果效应时，需要寻找在结果事件发生之前的潜在的原因事件，再从中确定与结果事件之间真正具有因果效应的原因事件。但是，由于数据量过于庞大，如果直接进行分析，计算量太大，因此需要对潜在的原因事件进行特征提取，以便根据提取到的特征继续进行因果效应分析。

由Porcaro C、Zappasodi F、Rossini PM和Tecchio F撰写的，在2008年12月23日在期刊Clinical Neurophysiology的120卷2期中在线公开的，名称为“Choice ofmultivariate autoregressive model order affecting real netgorkfunctionalconnectivity estimate”的论文中，提出了一种按照固定时间间隔进行特征提取的方法。具体包括：每隔固定时间间隔，获取潜在原因事件，将该潜在原因事件的发生状态作为该结果事件在该时间间隔中的原因特征，以便进行因果效应分析。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

上述的特征提取方式中，为了保证特征提取的准确性，所采用的固定的时间间隔很小，而面对大数据问题，对于某一结果事件来说，可能具有数以万计潜在的原因事件，此时若采用很小的固定时间间隔进行特征提取，会提取到大量的原因特征，必然导致原因特征的维度过高。过高维度的原因特征会导致计算量过大，不仅使得因果效应分析中用于计算的时间过长，还可能产生过拟合现象，使得某些与结果事件之间没有因果效应的原因特征在随机噪声的干扰下，与结果事件产生错误的关联，增加了因果效应分析的出错率。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种用于因果效应分析的特征提取方法和装置。所述技术方案如下：

第一方面，提供了一种用于因果效应分析的特征提取方法，所述方法包括：

确定用于对结果事件进行因果效应分析的特征时间点；

根据所述特征时间点，获取预设数目的时间区间，所述预设数目的时间区间位于所述特征时间点之前，且所述时间区间距离所述特征时间点的间隔长度与所述时间区间的跨度呈正相关关系；

根据所述预设数目的时间区间中每个时间区间所发生的潜在原因事件的事件信息，提取对所述结果事件进行因果效应分析的特征。

第二方面，提供了一种用于因果效应分析的特征提取装置，所述装置包括：

时间点确定模块，用于确定用于对结果事件进行因果效应分析的特征时间点；

区间获取模块，用于根据所述特征时间点，获取预设数目的时间区间，所述预设数目的时间区间位于所述特征时间点之前，且所述时间区间距离所述特征时间点的间隔长度与所述时间区间的跨度呈正相关关系；

特征提取模块，用于根据所述预设数目的时间区间中每个时间区间所发生的潜在原因事件的事件信息，提取对所述结果事件进行因果效应分析的特征。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的方法和装置，在综合考虑短期潜在原因事件和长期潜在原因事件的情况下，能够控制提取特征的数量，减少了计算量，避免了出现过拟合现象，进而增加了因果效应分析的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种用于因果效应分析的特征提取方法的流程图；

图2是本发明实施例提供的一种用于因果效应分析的特征提取方法的流程图；

图3是本发明实施例提供的一种时间区间示意图；

图4是本发明实施例提供的一种用于因果效应分析的特征提取方法的流程图；

图5是本发明实施例提供的一种用于因果效应分析的特征提取装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种用于因果效应分析的特征提取方法的流程图，参见图1，所述方法包括：

101、确定用于对结果事件进行因果效应分析的特征时间点；

在本发明实施例中，该步骤101具体包括：对于大数据场景下，从海量数据所对应的时间点中选择一个时间点作为用于对结果事件进行因果效应分析的特征时间点。

需要说明的是，在因果效应分析中，需要用到结果事件以及该结果事件所对应的潜在原因事件的事件信息。该结果事件为因果效应分析中用户感兴趣的事件。对应于该结果事件，将对该结果事件的发生可能具有直接或间接影响的事件称为潜在原因事件。该特征提取的过程即是要根据该特征时间点之前所发生的潜在原因事件进行特征提取，从而根据提取到的特征对特征时间点对应的结果事件的事件信息(如发生或未发生，上涨幅度或下降幅度等)进行因果效应分析，从潜在原因事件中确定出真正与该结果事件具有因果效应的原因事件。而在实际应用中，可以通过确定多个特征时间点，从而获取到该多个特征时间点对应的结果事件的事件信息，从而根据不同特征时间点所提取到的特征以及不同特征时间点对应的结果事件的事件信息进行因果效应分析，进而获得更加准确的关系模型。

需要说明的是，对于因果效应分析过程的待分析的数据来说，该数据均是按照事件的发生时间点进行记录，以时序数据的形式归档，时间点是时序数据的基本单位，也即是，在确定了该特征时间点时，即可以从数据库中获取该特征时间点对应的该结果事件的事件信息。

然而，结果事件根据事件信息的类型不同，可以为以发生状态确定的结果事件或以数值信息确定的结果事件，分别简称为第一结果事件和第二结果事件。第一结果事件的发生状态为该结果事件发生或未发生，也即是该结果事件可以发生或未发生表示；第二结果事件可以为该结果事件的数值信息，也即是该结果事件为数值信息，或，该第二结果事件还可以为数值信息满足预设规则时，发生状态确定为发生的事件，且在数值信息不满足预设规则时，发生状态确定为未发生的事件，也即是该结果事件以数值信息是否满足预设规则来确定为发生状态，并最终以发生或未发生表示。具体可以为：当该第二结果事件的数值信息超过预设阈值时，确定该第二结果事件发生；或，当该第二结果事件的数值信息的上升比例超过预设百分比时，确定该第二结果事件发生。

需要说明的是，为了提高后续因果效应分析的准确性，需要对该结果事件记录的所有事件信息进行分析，也即是，可以将该结果事件以发生或未发生表示，并根据该特征时间点对该结果事件进行特征提取，且将该结果事件再以数值信息表示，确定记录的各个数值信息的时间点，并根据该特征时间点进行特征提取，以便于后续使用机器学习方法建立准确的关系模型。

例如，糟糕的天气状况、经济政策改变、污染程度、网络论坛中的评论等事件均可能导致城市犯罪率上升，则将天气状况、经济政策改变、污染程度、网络论坛中的评论数作为潜在原因事件，将城市犯罪率上升的事件作为结果事件，并选取用于特征提取的特征时间点，根据该特征时间点进行特征提取，再将城市犯罪率作为结果事件，根据该特征时间点和记录的该特征时间点之前的各个时间点对应的城市犯罪率进行特征提取。

102、根据该特征时间点，获取预设数目的时间区间，该预设数目的时间区间位于该特征时间点之前，且该时间区间距离该特征时间点的间隔长度与该时间区间的跨度呈正相关关系；

其中，该预设数目可以由数据分析人员在进行需求分析时设定或根据所发生的事件的分布情况确定，本发明实施例对此不做限定。此外，每个时间区间的跨度可以按照函数确定或根据所发生的事件的分布情况确定，本发明实施例对每个时间区间的跨度的确定方式不做限定。

如，在经济危机期间，各种类型的原因事件频繁发生时，可以设定较大的预设数目和较小的时间区间跨度，而在经济繁荣期间，各种类型的原因事件较少发生时，可以设定较小的预设数目和较大的时间区间跨度。

在因果效应分析过程中，原因事件必然发生在结果事件之前，因此，特征提取过程中，需要以该结果事件的特征时间点为截止时间点，获取该特征时间点之前的时间区间以及各个时间区间内发生的潜在原因事件。由于原因事件对结果事件的影响通常需要一定的潜伏期才会显现出来，有的原因事件的潜伏期较长，有的较短，短期的原因事件常常密集地分布于距离特征时间点较近的历史时期，长期的原因事件常常分散地分布于距离特征时间点较远的历史时期。而对于该结果事件来说，可能具有多种类型的原因事件，进而需要提取多种类型的原因事件的特征。因此，在划分时间区间时，为了综合考虑特征提取的准确性和计算量，需要采用不同的时间间隔。

优选地，该时间区间距离该特征时间点的间隔长度与该跨度呈正相关关系，即距离该特征时间点越近的时间区间，间隔长度越小，跨度也越小。随着距离该特征时间点越来越远，时间区间的跨度越来越大。通过按照与间隔长度的正相关关系，确定时间区间的跨度，能够有效的控制特征数量。即对于短期的原因事件来说，由于短期的原因事件常常密集地分布于距离特征时间点较近的历史时期，则在距离该特征时间点越近的时间区间应采用较小的跨度，可以提取到较多的特征，提高特征提取的准确性；对于长期的原因事件来说，由于长期的原因事件常常分散地分布于距离特征时间点较远的历史时期，则在距离该特征时间点越远的时间区间应采用较长的跨度，可以控制该长期的原因事件的特征数量，进而减小计算量。

需要说明的是，在下述步骤中，以对该结果事件的其中一种类型的潜在原因事件进行特征提取为例进行说明。而实际上，可以根据获取到的时间区间，分别对该结果事件的需要进行因果效应分析的每种类型的潜在原因事件进行特征提取，进而提取到对该结果事件进行因果效应分析的特征。

103、根据该预设数目的时间区间中的每个时间区间所发生的潜在原因事件的事件信息，提取对该结果事件进行因果效应分析的特征。

在本发明实施例中，该步骤103具体包括1031和1032：

1031、根据该每个时间区间所发生的潜在原因事件的事件信息，获取该每个时间区间所发生的潜在原因事件的统计信息；

具体地，对于大数据场景下，当确定了每个时间区间时，根据每个时间区间以及预先设置的潜在原因事件的类型，确定每个时间区间内所发生的潜在原因事件。在确定了潜在原因事件后，获取每个时间区间所发生的潜在原因事件的事件信息，对每个时间区间所发生的潜在原因事件的事件信息进行统计，获取该每个时间区间的统计信息。

该潜在原因事件的类型可以由数据分析人员预先设置，如，基于步骤101中的示例，用户可以仅将经济政策改变类型的事件设置为潜在原因事件。当任一种经济政策改变时，将这种经济政策改变的事件确定为该潜在原因事件。

该事件信息可以为潜在原因事件的发生状态，即发生或未发生，该发生状态可以由二进制表示，在该潜在原因事件发生时，该潜在原因事件的事件信息为1，在该潜在原因事件未发生时，该潜在原因事件的事件信息为0。另外，该事件信息还可以为潜在原因事件的数值信息，例如，以天气状况为例，该天气状况的事件信息可以为38摄氏度、40摄氏度等数值信息。

在本发明实施例中，当该事件信息为潜在原因事件的发生状态时，该每个时间区间所发生的潜在原因事件的统计信息可以为该每个时间区间所发生的潜在原因事件的发生频率；当该事件信息为潜在原因事件的数值信息时，该每个时间区间所发生的潜在原因事件的统计信息可以为该每个时间区间所发生的潜在原因事件的发生频率、数值信息平均值、数值信息标准差等，该统计信息的具体形式可以由数据分析人员预先设定，本发明实施例对此不做限定。

1032、根据该每个时间区间所发生的潜在原因事件的统计信息，获取用于对该结果事件进行因果效应分析的特征。

在本发明实施例中，该步骤1032具体包括下述(1)或(2)中的任一项：

(1)将每个时间区间所发生的潜在原因事件的统计信息提取为用于对该结果事件进行因果效应分析的特征；或，

(2)将每个时间区间所发生的潜在原因事件的统计信息进行组合，将组合后的信息提取为对该结果事件进行因果效应分析的特征。

对统计信息进行组合的方式可以有以下(2-1)或(2-2)中的任一情况：

(2-1)将每类潜在原因事件作为矩阵的行，每个时间区间作为矩阵的列，对该统计信息进行组合，将得到的统计信息矩阵提取为对该结果事件进行因果效应分析的特征矩阵。

在本发明实施例中，对于该结果事件的每类潜在原因事件，均可以获取到对应于每个时间区间的统计信息，也即是获取到了包括潜在原因事件维度和时间区间维度的多维特征，则将每类潜在原因事件作为矩阵的行，将每个时间区间作为矩阵的列，将每个时间区间所发生的每类潜在原因事件的统计信息进行组合，将得到的统计信息矩阵提取为对该结果事件进行因果效应分析的特征矩阵。

(2-2)将每类潜在原因事件在每个时间区间的统计信息按照潜在原因事件类型的顺序组合，将得到的向量提取为对该结果事件进行因果效应分析的特征向量。

在本发明实施例中，可以对该每类潜在原因事件进行排序，按照该潜在原因事件类型的顺序，将每类潜在原因事件在每个时间区间的统计信息依次排列，进而组合为一个统计信息向量，将得到的统计信息向量提取为对该结果事件造成因果效应分析的特征向量。其中，该潜在原因事件类型的顺序并不是唯一的，可以根据分析需求变化。

事实上，对统计信息进行组合的方式还可以有其他情况，本发明实施例对此不做限定。

本发明实施例中，在该步骤103之后，将提取到的特征以及该结果事件的事件信息作为样本，使用机器学习方法(如范数正则化的逻辑回归)建立每类潜在原因事件与该结果事件的关系模型，对于该关系模型中系数为正的潜在原因事件，结合相关领域技术人员的专业知识，进一步从中确定与该结果事件之间真正具有因果效应的原因事件。

本发明实施例提供的方法，通过获取跨度不同的时间区间，并获取该每个时间区间的统计信息，将该每个时间区间的统计信息提取为用于进行因果效应分析的特征，使得在综合考虑短期潜在原因事件和长期潜在原因事件的情况下，能够控制提取特征的数量，减少了计算量，避免了出现过拟合现象，进而增加了因果效应分析的准确率。

可选地，在图1所示实施例技术方案的基础上，步骤102“根据该特征时间点，获取预设数目的时间区间”包括下述步骤1021、1022、1023和1024：

1021、根据用于因果效应分析的时间跨度，获取与该用于因果效应分析的时间跨度对应的时间区间函数；

其中，该用于因果效应分析的时间跨度是指用于进行因果效应分析的总时间跨度，该用于因果效应分析的时间跨度由分析需求确定，如当需要找出该结果事件之前的2年内对该结果事件的发生具有直接或间接影响的原因事件时，将该用于因果效应分析的时间跨度确定为2年。

该用于因果效应分析的时间跨度不同，该时间区间函数也不同。可选地，该用于因果效应分析的时间跨度较小时，将增长率较小的函数获取为时间区间函数，该用于因果效应分析的时间跨度较大时，将增长率较大的函数获取为该时间区间函数。如，该潜在原因事件的事件信息是以天为单位记录的，则该用于因果效应分析的时间跨度为1个月时，该时间区间函数可以为正比例函数，该用于因果效应分析的时间跨度为1年时，该时间区间可以为指数函数。该用于因果效应分析的时间跨度与时间区间函数之间的对应关系可以根据对短期的潜在原因事件的潜伏期的期望值和长期的潜在原因事件的潜伏期的期望值设定，本发明实施例对此不做限定。

优选地，该时间区间函数的自变量和函数值为整数，且该时间区间函数为递增函数，使得根据该时间区间函数确定的时间区间跨度满足：当时间区间距离该特征时间点的间隔长度越长时，该时间区间的跨度越大。例如将指数函数获取为该时间区间函数，或将斐波那契序列函数获取为该时间区间函数。

例如，按月记录该潜在原因事件的事件信息，且该用于因果效应分析的时间跨度为3年，则该时间区间函数可以为指数函数f(i)＝3^i-1，其中，i为时间区间的序号，f(i)为时间区间的跨度。

1022、根据该时间区间函数，确定该每个时间区间的跨度；

在本发明实施例中，该时间区间函数用于确定每个时间区间的跨度。具体的，时间区间函数的自变量可以为时间区间的序号，函数值即为该时间区间的跨度，或者时间区间函数的自变量为时间区间的起始点，函数值为该时间区间的跨度，本发明实施例对该时间区间函数的自变量不做限定。

相应的，该时间区间函数的自变量为时间区间的序号时，按照时间区间的序号由小到大，依次根据该时间区间函数和时间区间的序号，确定每个时间区间的跨度。或，该时间区间函数的自变量为时间区间的起始点时，在确定上一时间区间后，将上一时间区间的终点确定为待确定时间区间的起始点，根据该待确定时间区间的起始点和该时间区间函数，确定该待确定时间区间的跨度，根据该待确定时间区间的起始点和跨度，确定该待确定时间区间的终点，即确定了该待确定时间区间。

1023、将该特征时间点作为该预设数目的时间区间中第一个时间区间的起始点；根据该第一个时间区间的跨度和该第一个时间区间的起始点，确定该第一个时间区间的终点；

1024、根据已确定的第一个时间区间的终点和该预设数目的时间区间中其他时间区间的跨度，确定该预设数目的时间区间中其他时间区间的起始点和终点。

具体地，从该第一个时间区间开始，将已确定的时间区间的终点确定为待确定时间区间的起始点，根据该待确定时间区间的起始点和跨度，确定该待确定时间区间的终点，进而再将该待确定时间区间确定为已确定的时间区间。依次确定下一个时间区间，直至已确定的时间区间的数目达到该预设数目。

基于步骤1021中的举例，该预设数目为4，该时间区间函数为f(i)＝3^i-1，则确定4个时间区间的跨度分别为1月、3月、9月、27月，则以该特征时间点为零点，向时间进行的反方向，依次获取跨度为1月、3月、9月、27月的时间区间，也即是，确定第一个时间区间的起点为0月、终点为1月；确定第二个时间区间的起点为1月、终点为4月；第三个时间区间的起点为4月、终点为13月；第四个时间区间的起点为13月、终点为40月，此时，时间区间的数目达到该预设数目4，则停止时间区间的获取。

需要说明的是，由于根据时间区间函数以及预设数目所确定的时间区间的总跨度可能不等于该用于因果效应分析的时间跨度，因此，可以根据该用于因果效应分析的时间跨度对已划分的时间区间进行调整，如调整最后一个时间区间的跨度等。例如，用于因果效应分析的时间跨度为45月，而根据时间区间函数以及预设数目确定的4个时间区间的跨度分别为1月、3月、9月、27月，其总跨度为40月，小于用于因果效应分析的时间跨度，则可以将该跨度为27月的时间区间延展为跨度为32月，本发明实施例对该调整方法不作限定。

可选地，在图1所示实施例技术方案的基础上，步骤1031“根据该每个时间区间所发生的潜在原因事件的事件信息，获取该每个时间区间所发生的潜在原因事件的统计信息”包括：对于该预设数目的时间区间中的一个时间区间，计算所述一个时间区间所发生的潜在原因事件的发生频率，将该发生频率作为该一个时间区间所发生的该潜在原因事件的统计信息。

在本发明实施例中，当潜在原因事件的事件信息为该潜在原因事件的发生状态时，该统计信息可以为事件的发生频率。具体地，当该潜在原因事件发生时，事件信息为1，当该潜在原因事件未发生时，事件信息为0，则对于预设数目的时间区间中的任一个时间区间，该时间区间所发生的潜在原因事件的事件信息之和即为该时间区间所发生的潜在原因事件的发生次数，根据发生次数和该时间区间的跨度，计算该时间区间该潜在原因事件在该时间区间中的发生频率，将得到的发生频率作为该时间区间所发生的潜在原因事件的统计信息。

例如，对于跨度为3天的时间区间来说，若根据潜在原因事件的事件信息，确定在该时间区间内经济政策改变事件发生了2次，则该经济政策改变事件在该时间区间中的发生频率为2/3。

进一步地，对于每个时间区间，根据每个时间区间所发生的潜在原因事件的事件信息之和以及每个时间区间的跨度，分别计算该潜在原因事件在每个时间区间中的发生频率，将每个时间区间中的发生频率作为每个时间区间所发生的该潜在原因事件的统计信息。

可选地，在图1所示实施例技术方案的基础上，步骤1031“根据该每个时间区间所发生的潜在原因事件的事件信息，获取该每个时间区间所发生的潜在原因事件的统计信息”包括：对于该预设数目的时间区间中的一个时间区间，计算该一个时间区间所发生的潜在原因事件的事件信息的平均值，将该平均值作为该一个时间区间所发生的该潜在原因事件的统计信息。

在本发明实施例中，当该潜在原因事件的事件信息为该潜在原因事件的数值信息时，该统计信息还可以为事件信息的平均值。具体地，对于一个时间区间，计算该时间区间所发生的潜在原因事件的事件信息的总和，将得到的总和除以该时间区间的跨度，即得到该潜在原因事件在该时间区间中的事件信息的平均值，将该平均值作为该时间区间所发生的潜在原因事件的统计信息。

例如，该潜在原因事件天气状况的数值信息为大气温度，对于跨度为3天的时间区间来说，若在该时间区间内采集到的大气温度分别为35摄氏度、37摄氏度和36摄氏度，则计算该时间区间中大气温度的平均值为36摄氏度，该时间区间中大气温度的统计信息即为36摄氏度。

进一步地，对于每个时间区间，根据每个时间区间所发生的潜在原因事件的事件信息以及每个时间区间的跨度，计算该潜在原因事件在每个时间区间中的事件信息的平均值，将每个时间区间中的平均值作为每个时间区间所发生的该潜在原因事件的统计信息。

可选地，在图1所示实施例技术方案的基础上，步骤1031“根据该每个时间区间所发生的潜在原因事件的事件信息，获取该每个时间区间所发生的潜在原因事件的统计信息”包括：对于该预设数目的时间区间中的一个时间区间，计算该一个时间区间所发生的潜在原因事件的事件信息的标准差，将该标准差作为该一个时间区间所发生的该潜在原因事件的统计信息。

在本发明实施例中，当该潜在原因事件的事件信息为该潜在原因事件的数值信息时，该统计信息还可以为事件信息的标准差。具体地，对于一个时间区间，计算该时间区间所发生的潜在原因事件的事件信息的平均值，根据该时间区间所发生的潜在原因事件的事件信息和事件信息的平均值，应用标准差公式，计算该时间区间所发生的潜在原因事件的事件信息的标准差，将该标准差作为该时间区间所发生的潜在原因事件的统计信息。

仍以上述时间区间内的大气温度为例，在该时间区间内大气温度分别为35摄氏度、37摄氏度和36摄氏度，平均值为36摄氏度，则计算该时间区间中大气温度的标准差为1.41，该时间区间中大气温度的统计信息即为1.41。

进一步地，对于每个时间区间，根据每个时间区间所发生的潜在原因事件的事件信息，计算该潜在原因事件在每个时间区间中的事件信息的平均值，进而计算该潜在原因事件在每个时间区间中的事件信息的标准差，将每个时间区间中的标准差作为每个时间区间所发生的该潜在原因事件的统计信息。

需要说明的是，该统计信息并不限于上述发生频率、平均值和标准差，还可以为方差等信息，本发明实施例对此不做限定。

可选地，在图1所示实施例技术方案的基础上，步骤1031“根据该每个时间区间所发生的潜在原因事件的事件信息，获取该每个时间区间所发生的潜在原因事件的统计信息”包括下述步骤1031-1、1031-2、1031-3、1031-4、1031-5和1031-6：

1031-1、对于该预设数目的时间区间中的一个时间区间，将该一个时间区间作为第一时间区间，将该一个时间区间的相邻时间区间作为第二时间区间；

在本发明实施例中，可以将该第一时间区间的两个相邻时间区间中的任一相邻时间区间作为该第二时间区间，本发明实施例对此不做限定。

1031-2、根据权重函数，确定该第一时间区间所发生的每个潜在原因事件在该第一时间区间内的权重；

其中，该权重函数用于为该潜在原因事件分配权重。该权重函数的自变量可以为时间点，函数值即为该时间点所发生的潜在原因事件的权重。

在本发明实施例中，在两个相邻时间区间之间可能会产生边界效应。边界效应是指若某个事件发生在两个相邻时间区间的交界点附近，该事件可能对相邻的时间区间均造成一定影响，则在计算统计信息时，需要根据该事件可能会对给该两个相邻时间区间的影响，计算时间区间的统计信息，进而使得提取到的特征不易受随机噪声的影响。

为了避免边界效应的产生，可以为两个相邻时间区间内所发生的每个潜在原因事件分配权重，从而在对时间区间所发生的每个潜在原因事件的事件信息进行统计时，可以将相邻时间区间交界点附近的潜在原因事件按照权重分别贡献至该两个相邻时间区间。

1031-3、对于该第二时间区间，根据该权重函数，确定该第二时间区间所发生的每个潜在原因事件在该时间区间内的权重；

具体地，根据该权重函数，可以确定该第二时间区间所发生的每个潜在原因事件在该时间区间内的权重。

可选地，根据权重函数，确定该第二时间区间内且在该第一时间区间与该第二时间区间的交界点附近所发生的潜在原因事件在该第二时间区间内的权重(大于等于零且小于1)，将1与该权重的差作为该第二时间区间所发生的潜在原因事件在该第一时间区间内的权重。

例如，对于相邻的时间区间1和时间区间2来说，在该时间区间交界点附近且位于时间区间1中发生了对外贸易政策改变事件，在该时间区间交界点附近且位于时间区间2中发生了国内财政政策改变事件，且该对外贸易政策改变事件和该国内财政政策改变事件均为经济政策改变事件，则根据权重函数，确定该对外贸易政策改变事件在该时间区间1中的权重为0.6，则可以确定该对外贸易政策改变事件在该时间区间2中的权重为0.4；根据权重函数，确定该国内财政政策改变事件在该时间区间2中的权重为0.7，则可以确定该国内财政政策改变事件在该时间区间1中的权重为0.3。

1031-4、根据该第一时间区间所发生的每个潜在原因事件的事件信息、该第一时间区间所发生的每个潜在原因事件在该第一时间区间内的权重，进行加权计算，获取该第一时间区间所发生的每个潜在原因事件的第一调整事件信息；

具体地，计算该第一时间区间所发生的每个潜在原因事件的事件信息与该第一时间区间所发生的每个潜在原因事件在该第一时间区间内的权重的乘积，将该得到的乘积获取为该第一时间区间所发生的每个潜在原因事件的第一调整事件信息。

1031-5、根据该第二时间区间所发生的每个潜在原因事件的事件信息以及该第二时间区间所发生的每个潜在原因事件在该时间区间内的权重，进行加权计算，获取该第二时间区间所发生的每个潜在原因事件在该时间区间内的第二调整事件信息；

具体地，计算该第二时间区间所发生的每个潜在原因事件的事件信息与该第二时间区间所发生的每个潜在原因事件在该第一时间区间内的权重的乘积，将该得到的乘积获取为该第二时间区间所发生的每个潜在原因事件在该第一时间区间内的第二调整事件信息。

1031-6、根据该第一时间区间所发生的每个潜在原因事件的第一调整事件信息和该第二时间区间所发生的每个潜在原因事件在该第一时间区间内的第二调整事件信息，得到该第一时间区间所发生的潜在原因事件的统计信息。

在本发明实施例中，该步骤1031-6具体包括：

(3)根据该第一调整事件信息和该第二调整事件信息，计算该第一时间区间所发生的每个潜在原因事件的重定义频率，将该重定义频率作为该第一时间区间所发生的该潜在原因事件的统计信息；

在本发明实施例中，当潜在原因事件的事件信息为该潜在原因事件的发生状态时，该统计信息可以为事件的重定义频率，该重定义频率用于表示在加权后该第一时间区间所发生的每个潜在原因事件对该时间区间的贡献以及该第二时间区间所发生的每个潜在原因事件对该第一时间区间的贡献所占的比例。具体地，将该第一调整事件信息和该第二调整事件信息相加，并除以该第一时间区间的跨度，得到该第一时间区间所发生的每个潜在原因事件的重定义频率，将该重定义频率作为该第一时间区间所发生的潜在原因事件的统计信息。

例如，对于跨度为3天的第一时间区间来说，若该第一时间区间内经济政策改变事件发生了2次，其中第1次经济政策改变事件的权重为0.6，第2次经济政策改变事件的权重为1，则该第一调整事件信息分别为0.6和1；该第二时间区间内经济政策改变事件发生了2次，其中的第1次经济政策改变事件在该第一时间区间内的权重为0.3，第2次经济政策改变事件在该第一时间区间内的权重为0，则该第二调整事件信息分别为0.3和0，则该经济政策改变事件在该第一时间区间中的发生频率为(0.6+1+0.3+0)/3＝0.633。

进一步地，对于每个第一时间区间，根据每个第一时间区间所发生的潜在原因事件的第一调整事件信息和该第二时间区间在每个第一时间区间内的第二调整事件信息以及每个第一时间区间的跨度，分别计算该潜在原因事件在每个第一时间区间中的重定义频率，将每个第一时间区间中的重定义频率作为每个第一时间区间所发生的该潜在原因事件的统计信息。

(4)计算该第一时间区间所发生的每个潜在原因事件的第一调整事件信息和该第二时间区间所发生的每个潜在原因事件在该第一时间区间内的第二调整事件信息的平均值，将该平均值作为该第一时间区间所发生的该潜在原因事件的统计信息；

在本发明实施例中，当该潜在原因事件的事件信息为该潜在原因事件的数值信息时，该统计信息还可以为调整事件信息的平均值。具体地，计算该第一时间区间所发生的潜在原因事件的第一调整事件信息和该第二时间区间所发生的潜在原因事件在该第一时间区间内的第二调整事件信息的总和，将得到的总和除以该第一时间区间的跨度，即得到该潜在原因事件在该第一时间区间内的调整事件信息的平均值，将该平均值作为该第一时间区间所发生的潜在原因事件的统计信息。

例如，该潜在原因事件天气状况的数值信息为大气温度，对于跨度为3天的第一时间区间来说，若在该第一时间区间内采集到的大气温度分别为35摄氏度、37摄氏度和36摄氏度，且在该第一时间区间内采集到的大气温度在该第一时间区间内的权重分别为0.8、1和1，则该第一调整事件信息分别为28摄氏度、37摄氏度和36摄氏度，该第二时间区间内采集到的大气温度分别为35摄氏度和36摄氏度，且在该第二时间区间内采集到的大气温度在该第一时间区间内的权重分别为0.4和0，则该第二调整事件信息分别为14摄氏度和0摄氏度，则该大气温度在该第一时间区间内的统计信息为(28+37+36+14+0)/3＝38.33摄氏度。

(5)计算该第一时间区间所发生的每个潜在原因事件的第一调整事件信息和该第二时间区间所发生的每个潜在原因事件在该第一时间区间内的第二调整事件信息的标准差，将该标准差作为该第一时间区间所发生的该潜在原因事件的统计信息。

在本发明实施例中，当该潜在原因事件的事件信息为该潜在原因事件的数值信息时，该统计信息还可以为事件信息的标准差。具体地，计算该第一时间区间所发生的潜在原因事件的第一调整事件信息和该第二时间区间所发生的潜在原因事件在该第一时间区间内的第二调整事件信息的平均值，并应用标准差公式，计算该第一时间区间所发生的潜在原因事件的第一调整事件信息和该第二时间区间所发生的潜在原因事件在该第一时间区间内的第二调整事件信息的标准差，将该标准差作为该第一时间区间所发生的潜在原因事件的统计信息。

需要说明的是，该第一时间区间可以具有两个相邻的时间区间：第一相邻时间区间和第二相邻时间区间，则在本发明实施例提供的另一实施例中，该步骤1031-3包括：对于该第一时间区间的第一相邻时间区间，根据该权重函数，确定该第一相邻时间区间所发生的每个潜在原因事件在该第一时间区间内的权重；对于该第一时间区间的第二相邻时间区间，根据该权重函数，确定该第二相邻时间区间所发生的每个潜在原因事件在该第一时间区间内的权重。相应的，该步骤1031-3包括：根据该第一时间区间所发生的每个潜在原因事件的事件信息、该第一时间区间所发生的每个潜在原因事件在该第一时间区间内的权重，进行加权计算，获取该第一时间区间所发生的每个潜在原因事件的第一调整事件信息；该步骤1031-5包括：根据该第一相邻时间区间所发生的每个潜在原因事件的事件信息以及该第一相邻时间区间所发生的每个潜在原因事件在该第一时间区间内的权重，进行加权计算，获取该第一相邻时间区间所发生的每个潜在原因事件在该第一时间区间内的第二调整事件信息；根据该第二相邻时间区间所发生的每个潜在原因事件的事件信息以及该第二相邻时间区间所发生的每个潜在原因事件在该第一时间区间内的权重，进行加权计算，获取该第二相邻时间区间所发生的每个潜在原因事件在该第一时间区间内的第三调整事件信息；该步骤1031-6包括：根据该第一时间区间所发生的每个潜在原因事件的第一调整事件信息、该第一相邻时间区间所发生的每个潜在原因事件在该第一时间区间内的第二调整事件信息和该第二相邻时间区间所发生的每个潜在原因事件在该第一时间区间内的第三调整事件信息，得到该第一时间区间所发生的潜在原因事件的统计信息。

可选地，在图1所示实施例技术方案的基础上，权重函数包括与每个时间区间对应的子权重函数，所述方法还包括下述步骤(6)、(7)和(8)：

(6)、根据每个时间区间的跨度，设置每两个相邻时间区间中时间跨度较短的时间区间的中点的权重以及每两个相邻时间区间的交界点的权重；

具体地，对于两个相邻的时间区间，根据该两个相邻的时间区间的跨度，设置跨度较短的时间区间的中点的权重，并设置该两个相邻的时间区间的交界点的权重。

优选地，将该中点的权重设置为1。进一步优选地，将该交界点的权重设置为0.5。进一步地，该第一时间区间和该第二时间区间内所发生的潜在原因事件的时间点距离该交界点越近，该潜在原因事件的权重越小。

进一步具体地，将以该特征时间点为零点，以时间进行的反方向为横轴方向所确定的时间点作为该权重函数的自变量。则对于一个第一时间区间和相应的第二时间区间，获取该第一时间区间和该第二时间区间的交界点t1、该第一时间区间的跨度f(i)和该第二时间区间的跨度f(i+1)。其中，i为时间区间的序号，该第二时间区间在该第一时间区间之前，且f(i)小于f(i+1)，则优选地，将时间点t1-f(i)/2的权重设置为1，将时间点t1的权重设置为0.5。

(7)、根据该中点、该交界点、该中点的权重和该交界点的权重，获取该每个时间区间对应的子权重函数；

具体地，在设置每两个相邻时间区间中时间跨度较短的时间区间的中点的权重时，即确定了除跨度最大的时间区间之外的每个时间区间的中点的权重，在设置每两个相邻时间区间的交界点的权重，即确定了每个交界点的权重。则根据已确定的每个时间区间的中点的权重以及每个交界点的权重，对每个时间区间的中点和交界点之间的时间区间进行线性插值，进而得到每个时间区间对应的子权重函数。

例如，根据时间点t1-f(i)/2、时间点t1、时间点t1-f(i)/2的权重以及时间点t1的权重，在时间区间(t1-f(i)/2，t1)内进行线性插值，得到时间区间(t1-f(i)/2，t1)对应的子权重函数。

需要说明的是，为了保证两个相邻的时间区间内以该交界点为中心对称的时间点所发生的潜在原因事件的权重相同，可以将该中点在跨度较长的时间区间内的对称点的权重设置为与该中点的权重相同，并根据该对称点、该交界点、该对称点的权重以及该交界点的权重，对该对称点和该交界点之间的时间区间进行线性插值，得到该对称点和该交界点之间的时间区间所对应的子权重函数。

仍以上述举例进行说明，将时间点t1-f(i)/2关于时间点t1的对称点为时间点t1+f(i)/2，则将时间点t1+f(i)/2的权重也设置为1，根据时间点t1+f(i)/2、时间点t1、时间点t1+f(i)/2的权重以及时间点t1的权重，在时间区间(t1，t1+f(i)/2)内进行线性插值，得到时间区间(t1，t1+f(i)/2)对应的子权重函数。

相应的，该步骤(4)包括：根据已确定的每个时间区间的中点的权重、每个对称点的权重以及每个交界点的权重，对每个时间区间的中点、对称点和交界点之间的时间区间进行线性插值，进而得到每个时间区间对应的子权重函数。

(8)、将所有时间区间对应的子权重函数组合，确定为该权重函数。

具体地，在确定了每个时间区间对应的子权重函数时，将每个时间区间对应的子权重函数按照时间上的顺序进行组合，从而将所有时间区间对应的子权重函数组合为一个权重函数，即为该权重函数。

可选地，在图1所示实施例技术方案的基础上，步骤102“根据该特征时间点，获取预设数目的时间区间”之前，所述方法还包括：根据特征表达能力和***计算速度，确定该预设数目。

对大数据进行分析时，提取到的特征越多，特征表达能力越强，但大量的特征可能会导致计算时间过长，因此，在本发明实施例中，可以综合考虑对因果效应进行分析时所需的特征表达能力和***计算速度，确定该预设数目。优选地，该预设数目为3-5。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图2是本发明实施例提供的一种用于因果效应分析的特征提取方法的流程图，参见图2，所述方法包括：

201、根据特征表达能力和***计算速度，确定该预设数目；

在本发明实施例中，以该预设数目为4进行说明。

202、确定用于对结果事件进行因果效应分析的特征时间点；

在本发明实施例中，以对城市犯罪率上升事件的因果效应分析为例进行说明，则当选取用于对城市犯罪率上升事件进行因果效应分析的特征时间点t0。

203、根据用于因果效应分析的时间跨度，获取与该用于因果效应分析的时间跨度对应的时间区间函数；

在本发明实施例中，以按月记录该潜在原因事件的事件信息，且该用于因果效应分析的时间跨度为3年左右，则该时间区间函数为指数函数f(i)＝3^i-1为例进行说明。

204、根据该时间区间函数，确定该每个时间区间的跨度；

205、将该特征时间点作为该预设数目的时间区间中第一个时间区间的起始点，根据该第一个时间区间的跨度和该第一个时间区间的起始点，确定该第一个时间区间的终点；

206、根据已确定的第一个时间区间的终点和该预设数目的时间区间中其他时间区间的跨度，确定该预设数目的时间区间中其他时间区间的起始点和终点；

参见图3，该潜在原因事件类型分别为e_1t、e_2t……e_jt，该预设数目为4，且该时间区间函数为f(i)＝3^i-1，则4个时间区间的跨度分别为1月、3月、9月、27月。从该特征时间点t0开始，根据每个时间区间的跨度依次获取每个时间区间，则获取到的时间区间分别为(t0-1，t0)、(t0-4，t0-1)、(t0-13，t0-4)、(t0-40，t0-13)4个时间区间。

207、对于该预设数目的时间区间中的每个时间区间，根据该时间区间所发生的潜在原因事件的事件信息，计算该潜在原因事件在该时间区间中的发生频率，将该发生频率作为该时间区间所发生的该潜在原因事件的统计信息；

该步骤207是对每个时间区间进行分别统计的过程，对于具有发生了多个类型的潜在原因事件的时间区间来说，对于每个潜在原因事件类型，均对应有一个统计信息。

基于步骤204的示例，对于跨度为3月的时间区间来说，该时间区间内潜在原因事件类型e_1t对应的发生频率为0，e_2t对应的发生频率为1/3，……，e_jt对应的发生频率为1/3。

208、将每个时间区间所发生的潜在原因事件的统计信息进行组合，将组合后的信息提取为对该结果事件进行因果效应分析的特征。

以将该每个时间区间所发生的潜在原因事件的统计信息提取为用于对该结果事件进行因果效应分析的特征向量为例，若该潜在原因事件e_1t在4个时间区间内的统计信息分别为S11、S12、S13、S14，该潜在原因事件e_2t在4个时间区间内的统计信息分别为S21、S22、S23、S24……该潜在原因事件e_jt在4个时间区间内的统计信息分别为Sj1、Sj2、Sj3、Sj4，则提取到的特征向量为[S11，S12，S13，S14，S21，S22，S23，S24……Sj1，Sj2，Sj3，Sj4]。

图4是本发明实施例提供的一种用于因果效应分析的特征提取方法的流程图，参见图4，所述方法包括：

401、根据特征表达能力和***计算速度，确定该预设数目；

在本发明实施例中，以该预设数目为4进行说明。

402、确定用于对结果事件进行因果效应分析的特征时间点；

403、根据用于因果效应分析的时间跨度，获取与该用于因果效应分析的时间跨度对应的时间区间函数；

在本发明实施例中，以按月记录该潜在原因事件的事件信息，且该用于因果效应分析的时间跨度为3年，则该时间区间函数为指数函数f(i)＝3^i-1为例进行说明。

404、根据该时间区间函数，确定该每个时间区间的跨度；

405、将该特征时间点作为该预设数目的时间区间中第一个时间区间的起始点，根据该第一个时间区间的跨度和该第一个时间区间的起始点，确定该第一个时间区间的终点；

406、根据已确定的第一个时间区间的终点和该预设数目的时间区间中其他时间区间的跨度，确定该预设数目的时间区间中其他时间区间的起始点和终点；

407、根据该预设数目的时间区间中每个时间区间的跨度，设置每两个相邻时间区间中时间跨度较短的时间区间的中点的权重以及所述每两个相邻时间区间的交界点的权重；

在本发明实施例中，对于从该特征时间点开始的第3个时间区间(t0-13，t0-4)来说，与相邻的第2个时间区间相比，第2个时间区间(t0-4，t0-1)的跨度较短，将时间点t0-2.5的权重设置为1，将时间点t0-4的权重设置为0.5，将时间点t0-5.5的权重设置为1。则根据上述设置，对时间点t0-5.5至时间点t0-2.5之间的权重进行线性插值，得到该第3个时间区间和该第2个时间区间的权重函数，进而得到每个时间区间对应的子权重函数g(t’)，如图3所示。需要说明的是，本发明实施例中的权重函数g(t’)以时间点t0处为零点，时间进行的反方向为横轴方向。

408、根据该中点、该交界点、该中点的权重和该交界点的权重，获取该每个时间区间对应的子权重函数；

409、将所有时间区间对应的子权重函数组合，确定为权重函数；

410、对于该预设数目的时间区间中的一个时间区间，将该时间区间作为第一时间区间，将该时间区间的相邻时间区间作为第二时间区间；

411、根据权重函数，确定该第一时间区间所发生的每个潜在原因事件在该第一时间区间内的权重；

对于第3个时间区间来说，根据权重函数g(t’)，可以确定第3个时间区间所发生的潜在原因事件e_jt的第一权重，即g(6.5)＝1、g(8.5)＝1、g(10.5)＝0.78、g(12.5)＝0.56。

412、对于该第二时间区间，根据该权重函数，确定该第二时间区间所发生的每个潜在原因事件在该第一时间区间内的权重；

参见图3，第3个时间区间的相邻时间区间为第2个时间区间和第4个时间区间，图3最下方的曲线为权重函数曲线。对于第2个时间区间来说，根据权重函数g(t’)，可以确定第2个时间区间所发生的潜在原因事件e_jt在第2个时间区间的权重，即g(3.5)＝0.67，则第2个时间区间所发生的潜在原因事件e_jt在第3个时间区间的权重为1-g(3.5)＝0.33。对于第4个时间区间来说，根据权重函数g(t’)，可以确定第4个时间区间所发生的潜在原因事件e_jt在第4个时间区间的权重，即g(14.5)＝0.67、g(16.5)＝0.89，则第4个时间区间所发生的潜在原因事件e_jt在第3个时间区间的权重为1-g(14.5)＝0.33、1-g(16.5)＝0.11。

413、根据该第一时间区间所发生的每个潜在原因事件的事件信息、该第一时间区间所发生的每个潜在原因事件在该第一时间区间内的权重，进行加权计算，获取该第一时间区间所发生的每个潜在原因事件的第一调整事件信息；

414、根据该第二时间区间所发生的每个潜在原因事件的事件信息以及该第二时间区间所发生的每个潜在原因事件在该第一时间区间内的权重，进行加权计算，获取该第二时间区间所发生的每个潜在原因事件在该第一时间区间内的第二调整事件信息；

415、根据该第一时间区间所发生的每个潜在原因事件的第一调整事件信息和该第二时间区间所发生的每个潜在原因事件在该第一时间区间内的第二调整事件信息，得到该第一时间区间所发生的潜在原因事件的统计信息；

以该时间区间所发生的潜在原因事件的事件信息均为1，且该统计信息为该潜在原因事件e_jt的重定义频率为例，得到第3个时间区间内事件信息加权之和为：

(1-g(3.5))+g(6.5)+g(8.5)+g(10.5)+g(12.5)+(1-g(14.5))+(1-g(16.5))＝4.11，则第3个时间区间内该潜在原因事件的重定义频率为4.11/f(3)＝0.46。

416、将每个时间区间所发生的潜在原因事件的统计信息进行组合，将组合后的信息提取为对该结果事件进行因果效应分析的特征。

本发明实施例提供的方法，通过获取跨度不同的时间区间，并获取该每个时间区间的统计信息，将该每个时间区间的统计信息提取为用于进行因果效应分析的特征，使得在综合考虑短期潜在原因事件和长期潜在原因事件的情况下，能够控制提取特征的数量，减少了计算量，避免了出现过拟合现象，进而增加了因果效应分析的准确率。进一步地，通过分配权重的方式，减弱了特征的边界效应，进而增加了因果效应分析的准确率。

图5是本发明实施例提供的一种用于因果效应分析的特征提取装置结构示意图，参见图5，所述装置包括：时间点确定模块501、区间获取模块502、特征提取模块503，

其中，时间点确定模块501用于确定用于对结果事件进行因果效应分析的特征时间点；区间获取模块502与时间点确定模块501连接，用于根据该特征时间点，获取预设数目的时间区间，该预设数目的时间区间位于该特征时间点之前，且该时间区间距离该特征时间点的间隔长度与该时间区间的跨度呈正相关关系；特征提取模块503与区间获取模块502连接，用于根据该预设数目的时间区间中每个时间区间所发生的潜在原因事件的事件信息，提取对该结果事件进行因果效应分析的特征。

可选地，该区间获取模块502包括：

函数获取单元，用于根据用于因果效应分析的时间跨度，获取与该用于因果效应分析的时间跨度对应的时间区间函数；

跨度确定单元，用于根据该时间区间函数，确定该每个时间区间的跨度；

第一确定单元，用于将该特征时间点作为该预设数目的时间区间中第一个时间区间的起始点；根据该第一个时间区间的跨度和该第一个时间区间的起始点，确定该第一个时间区间的终点；

第二确定单元，用于根据已确定的第一个时间区间的终点和该预设数目的时间区间中其他时间区间的跨度，确定该预设数目的时间区间中其他时间区间的起始点和终点。

可选地，该特征提取模块503包括：

统计信息获取单元，用于根据该每个时间区间所发生的潜在原因事件的事件信息，获取该每个时间区间所发生的潜在原因事件的统计信息；

特征提取单元，用于根据该每个时间区间所发生的潜在原因事件的统计信息，获取用于对该结果事件进行因果效应分析的特征。

可选地，该统计信息获取单元用于对于该预设数目的时间区间中的一个时间区间，计算该一个时间区间所发生的潜在原因事件的发生频率，将该发生频率作为该一个时间区间所发生的该潜在原因事件的统计信息。

可选地，该统计信息获取单元用于对于该预设数目的时间区间中的一个时间区间，计算该一个时间区间所发生的潜在原因事件的事件信息的平均值，将该平均值作为该一个时间区间所发生的该潜在原因事件的统计信息。

可选地，该统计信息获取单元用于对于该预设数目的时间区间中的一个时间区间，计算该一个时间区间所发生的潜在原因事件的事件信息的标准差，将该标准差作为该一个时间区间所发生的该潜在原因事件的统计信息。

可选地，该统计信息获取单元包括：

时间区间区分子单元，用于对于该预设数目的时间区间中的一个时间区间，将该一个时间区间作为第一时间区间，将该一个时间区间的相邻时间区间作为第二时间区间；

第一权重确定子单元，用于根据权重函数，确定该第一时间区间所发生的每个潜在原因事件在该第一时间区间内的权重；

第二权重确定子单元，用于对于该第二时间区间，根据该权重函数，确定该第二时间区间所发生的每个潜在原因事件在该第一时间区间内的权重；

第一调整子单元，用于根据该第一时间区间所发生的每个潜在原因事件的事件信息、该第一时间区间所发生的每个潜在原因事件在该第一时间区间内的权重，进行加权计算，获取该第一时间区间所发生的每个潜在原因事件的第一调整事件信息；

第二调整子单元，用于根据该第二时间区间所发生的每个潜在原因事件的事件信息以及该第二时间区间所发生的每个潜在原因事件在该第一时间区间内的权重，进行加权计算，获取该第二时间区间所发生的每个潜在原因事件在该第一时间区间内的第二调整事件信息；

统计信息获取子单元，用于根据该第一时间区间所发生的每个潜在原因事件的第一调整事件信息和该第二时间区间所发生的每个潜在原因事件在该第一时间区间内的第二调整事件信息，得到该第一时间区间所发生的潜在原因事件的统计信息。

可选地，该统计信息获取子单元用于将该第一调整事件信息和该第二调整事件信息相加，并除以该第一时间区间的跨度，得到该第一时间区间所发生的每个潜在原因事件的重定义频率，将该重定义频率作为该第一时间区间所发生的该潜在原因事件的统计信息。

可选地，该统计信息获取子单元用于计算该第一时间区间所发生的每个潜在原因事件的第一调整事件信息和该第二时间区间所发生的每个潜在原因事件在该第一时间区间内的第二调整事件信息的平均值，将该平均值作为该第一时间区间所发生的该潜在原因事件的统计信息。

可选地，该统计信息获取子单元用于计算该第一时间区间所发生的每个潜在原因事件的第一调整事件信息和该第二时间区间所发生的每个潜在原因事件在该第一时间区间内的第二调整事件信息的标准差，将该标准差作为该第一时间区间所发生的该潜在原因事件的统计信息。

可选地，该权重函数包括与该每个时间区间对应的子权重函数，该装置还包括：

权重设置模块，用于根据每个时间区间的跨度，设置每两个相邻时间区间中时间跨度较短的时间区间的中点的权重以及该每两个相邻时间区间的交界点的权重；

函数获取模块，用于根据该中点、该交界点、该中点的权重和该交界点的权重，获取该每个时间区间对应的子权重函数；

函数确定模块，用于将所有时间区间对应的子权重函数组合，确定为该权重函数。

可选地，该特征提取单元用于将每个时间区间所发生的潜在原因事件的统计信息提取为用于对该结果事件进行因果效应分析的特征；或，

该特征提取单元用于将每个时间区间所发生的潜在原因事件的统计信息进行组合，将组合后的信息提取为对该结果事件进行因果效应分析的特征。

可选地，该装置还包括：

预设数目确定模块，用于根据特征表达能力和***计算速度，确定该预设数目。

本发明实施例提供的装置，通过获取跨度不同的时间区间，并获取该每个时间区间的统计信息，将该每个时间区间的统计信息提取为用于进行因果效应分析的特征，使得在综合考虑短期潜在原因事件和长期潜在原因事件的情况下，能够控制提取特征的数量，减少了计算量，避免了出现过拟合现象，进而增加了因果效应分析的准确率。进一步地，通过分配权重的方式，减弱了特征的边界效应，进而增加了因果效应分析的准确率。

需要说明的是：上述实施例提供的用于因果效应分析的特征提取的装置在提取用于因果效应分析的特征时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的用于因果效应分析的特征提取装置与用于因果效应分析的特征提取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于因果效应分析的特征提取方法，其特征在于，所述方法包括：

确定用于对结果事件进行因果效应分析的特征时间点；

2.根据权利要求1所述的方法，其特征在于，根据所述特征时间点，获取预设数目的时间区间包括：

根据用于因果效应分析的时间跨度，获取与所述用于因果效应分析的时间跨度对应的时间区间函数；

根据所述时间区间函数，确定所述每个时间区间的跨度；

将所述特征时间点作为所述预设数目的时间区间中第一个时间区间的起始点；根据所述第一个时间区间的跨度和所述第一个时间区间的起始点，确定所述第一个时间区间的终点；

根据已确定的第一个时间区间的终点和所述预设数目的时间区间中其他时间区间的跨度，确定所述预设数目的时间区间中其他时间区间的起始点和终点。

3.根据权利要求1所述的方法，其特征在于，根据所述预设数目的时间区间中每个时间区间所发生的潜在原因事件的事件信息，提取对所述结果事件进行因果效应分析的特征包括：

根据所述每个时间区间所发生的潜在原因事件的事件信息，获取所述每个时间区间所发生的潜在原因事件的统计信息；

根据所述每个时间区间所发生的潜在原因事件的统计信息，获取用于对所述结果事件进行因果效应分析的特征。

4.根据权利要求3所述的方法，其特征在于，根据所述预设数目的时间区间中每个时间区间所发生的潜在原因事件的事件信息，获取所述每个时间区间所发生的潜在原因事件的统计信息包括：

对于所述预设数目的时间区间中的一个时间区间，计算所述一个时间区间所发生的潜在原因事件的发生频率，将所述发生频率作为所述一个时间区间所发生的所述潜在原因事件的统计信息。

5.根据权利要求3所述的方法，其特征在于，根据所述预设数目的时间区间中每个时间区间所发生的潜在原因事件的事件信息，获取所述每个时间区间所发生的潜在原因事件的统计信息包括：

对于所述预设数目的时间区间中的一个时间区间，计算所述一个时间区间所发生的潜在原因事件的事件信息的平均值，将所述平均值作为所述一个时间区间所发生的所述潜在原因事件的统计信息。

6.根据权利要求3所述的方法，其特征在于，根据所述预设数目的时间区间中每个时间区间所发生的潜在原因事件的事件信息，获取所述每个时间区间所发生的潜在原因事件的统计信息包括：

对于所述预设数目的时间区间中的一个时间区间，计算所述一个时间区间所发生的潜在原因事件的事件信息的标准差，将所述标准差作为所述一个时间区间所发生的所述潜在原因事件的统计信息。

7.根据权利要求3所述的方法，其特征在于，根据所述预设数目的时间区间中每个时间区间所发生的潜在原因事件的事件信息，获取所述每个时间区间所发生的潜在原因事件的统计信息包括：

对于所述预设数目的时间区间中的一个时间区间，将所述一个时间区间作为第一时间区间，将所述一个时间区间的相邻时间区间作为第二时间区间；

根据权重函数，确定所述第一时间区间所发生的每个潜在原因事件在所述第一时间区间内的权重；

对于所述第二时间区间，根据所述权重函数，确定所述第二时间区间所发生的每个潜在原因事件在所述第一时间区间内的权重；

根据所述第一时间区间所发生的每个潜在原因事件的事件信息、所述第一时间区间所发生的每个潜在原因事件在所述第一时间区间内的权重，进行加权计算，获取所述第一时间区间所发生的每个潜在原因事件的第一调整事件信息；

根据所述第二时间区间所发生的每个潜在原因事件的事件信息以及所述第二时间区间所发生的每个潜在原因事件在所述第一时间区间内的权重，进行加权计算，获取所述第二时间区间所发生的每个潜在原因事件在所述第一时间区间内的第二调整事件信息；

根据所述第一时间区间所发生的每个潜在原因事件的第一调整事件信息和所述第二时间区间所发生的每个潜在原因事件在所述第一时间区间内的第二调整事件信息，得到所述第一时间区间所发生的潜在原因事件的统计信息。

8.根据权利要求7所述的方法，其特征在于，根据所述第一时间区间所发生的每个潜在原因事件的第一调整事件信息和所述第二时间区间所发生的每个潜在原因事件在所述第一时间区间内的第二调整事件信息，得到所述第一时间区间所发生的潜在原因事件的统计信息包括：

将所述第一调整事件信息和所述第二调整事件信息相加，并除以所述第一时间区间的跨度，得到所述第一时间区间所发生的每个潜在原因事件的重定义频率，将所述重定义频率作为所述第一时间区间所发生的所述潜在原因事件的统计信息。

9.根据权利要求7所述的方法，其特征在于，根据所述第一时间区间所发生的每个潜在原因事件的第一调整事件信息和所述第二时间区间所发生的每个潜在原因事件在所述第一时间区间内的第二调整事件信息，得到所述第一时间区间所发生的潜在原因事件的统计信息包括：

计算所述第一时间区间所发生的每个潜在原因事件的第一调整事件信息和所述第二时间区间所发生的每个潜在原因事件在所述第一时间区间内的第二调整事件信息的平均值，将所述平均值作为所述第一时间区间所发生的所述潜在原因事件的统计信息。

10.根据权利要求7所述的方法，其特征在于，根据所述第一时间区间所发生的每个潜在原因事件的第一调整事件信息和所述第二时间区间所发生的每个潜在原因事件在所述第一时间区间内的第二调整事件信息，得到所述第一时间区间所发生的潜在原因事件的统计信息包括：

计算所述第一时间区间所发生的每个潜在原因事件的第一调整事件信息和所述第二时间区间所发生的每个潜在原因事件在所述第一时间区间内的第二调整事件信息的标准差，将所述标准差作为所述第一时间区间所发生的所述潜在原因事件的统计信息。

11.根据权利要求7所述的方法，其特征在于，所述权重函数包括与所述每个时间区间对应的子权重函数，所述方法还包括：

根据每个时间区间的跨度，设置每两个相邻时间区间中时间跨度较短的时间区间的中点的权重以及所述每两个相邻时间区间的交界点的权重；

根据所述中点、所述交界点、所述中点的权重和所述交界点的权重，获取所述每个时间区间对应的子权重函数；

将所有时间区间对应的子权重函数组合，确定为所述权重函数。

12.根据权利要求3所述的方法，其特征在于，根据所述每个时间区间所发生的潜在原因事件的统计信息，获取用于对所述结果事件进行因果效应分析的特征包括：

将每个时间区间所发生的潜在原因事件的统计信息提取为用于对所述结果事件进行因果效应分析的特征；或，

将每个时间区间所发生的潜在原因事件的统计信息进行组合，将组合后的信息提取为对所述结果事件进行因果效应分析的特征。

13.根据权利要求1所述的方法，其特征在于，根据所述特征时间点，获取预设数目的时间区间之前，所述方法还包括：

根据特征表达能力和***计算速度，确定所述预设数目。

14.一种用于因果效应分析的特征提取装置，其特征在于，所述装置包括：

15.根据权利要求14所述的装置，其特征在于，所述区间获取模块包括：

函数获取单元，用于根据用于因果效应分析的时间跨度，获取与所述用于因果效应分析的时间跨度对应的时间区间函数；

跨度确定单元，用于根据所述时间区间函数，确定所述每个时间区间的跨度；

第一确定单元，用于将所述特征时间点作为所述预设数目的时间区间中第一个时间区间的起始点；根据所述第一个时间区间的跨度和所述第一个时间区间的起始点，确定所述第一个时间区间的终点；

第二确定单元，用于根据已确定的第一个时间区间的终点和所述预设数目的时间区间中其他时间区间的跨度，确定所述预设数目的时间区间中其他时间区间的起始点和终点。

16.根据权利要求14所述的装置，其特征在于，所述特征提取模块包括：

统计信息获取单元，用于根据所述每个时间区间所发生的潜在原因事件的事件信息，获取所述每个时间区间所发生的潜在原因事件的统计信息；

特征提取单元，用于根据所述每个时间区间所发生的潜在原因事件的统计信息，获取用于对所述结果事件进行因果效应分析的特征。

17.根据权利要求16所述的装置，其特征在于，所述统计信息获取单元用于对于所述预设数目的时间区间中的一个时间区间，计算所述一个时间区间所发生的潜在原因事件的发生频率，将所述发生频率作为所述一个时间区间所发生的所述潜在原因事件的统计信息。

18.根据权利要求16所述的装置，其特征在于，所述统计信息获取单元用于对于所述预设数目的时间区间中的一个时间区间，计算所述一个时间区间所发生的潜在原因事件的事件信息的平均值，将所述平均值作为所述一个时间区间所发生的所述潜在原因事件的统计信息。

19.根据权利要求16所述的装置，其特征在于，所述统计信息获取单元用于对于所述预设数目的时间区间中的一个时间区间，计算所述一个时间区间所发生的潜在原因事件的事件信息的标准差，将所述标准差作为所述一个时间区间所发生的所述潜在原因事件的统计信息。

20.根据权利要求16所述的装置，其特征在于，所述统计信息获取单元包括：

时间区间区分子单元，用于对于所述预设数目的时间区间中的一个时间区间，将所述一个时间区间作为第一时间区间，将所述一个时间区间的相邻时间区间作为第二时间区间；

第一权重确定子单元，用于根据权重函数，确定所述第一时间区间所发生的每个潜在原因事件在所述第一时间区间内的权重；

第二权重确定子单元，用于对于所述第二时间区间，根据所述权重函数，确定所述第二时间区间所发生的每个潜在原因事件在所述第一时间区间内的权重；

第一调整子单元，用于根据所述第一时间区间所发生的每个潜在原因事件的事件信息、所述第一时间区间所发生的每个潜在原因事件在所述第一时间区间内的权重，进行加权计算，获取所述第一时间区间所发生的每个潜在原因事件的第一调整事件信息；

第二调整子单元，用于根据所述第二时间区间所发生的每个潜在原因事件的事件信息以及所述第二时间区间所发生的每个潜在原因事件在所述第一时间区间内的权重，进行加权计算，获取所述第二时间区间所发生的每个潜在原因事件在所述第一时间区间内的第二调整事件信息；

统计信息获取子单元，用于根据所述第一时间区间所发生的每个潜在原因事件的第一调整事件信息和所述第二时间区间所发生的每个潜在原因事件在所述第一时间区间内的第二调整事件信息，得到所述第一时间区间所发生的潜在原因事件的统计信息。

21.根据权利要求20所述的装置，其特征在于，所述统计信息获取子单元用于将所述第一调整事件信息和所述第二调整事件信息相加，并除以所述第一时间区间的跨度，得到所述第一时间区间所发生的每个潜在原因事件的重定义频率，将所述重定义频率作为所述第一时间区间所发生的所述潜在原因事件的统计信息。

22.根据权利要求20所述的装置，其特征在于，所述统计信息获取子单元用于计算所述第一时间区间所发生的每个潜在原因事件的第一调整事件信息和所述第二时间区间所发生的每个潜在原因事件在所述第一时间区间内的第二调整事件信息的平均值，将所述平均值作为所述第一时间区间所发生的所述潜在原因事件的统计信息。

23.根据权利要求20所述的装置，其特征在于，所述统计信息获取子单元用于计算所述第一时间区间所发生的每个潜在原因事件的第一调整事件信息和所述第二时间区间所发生的每个潜在原因事件在所述第一时间区间内的第二调整事件信息的标准差，将所述标准差作为所述第一时间区间所发生的所述潜在原因事件的统计信息。

24.根据权利要求20所述的装置，其特征在于，所述权重函数包括与所述每个时间区间对应的子权重函数，所述装置还包括：

权重设置模块，用于根据每个时间区间的跨度，设置每两个相邻时间区间中时间跨度较短的时间区间的中点的权重以及所述每两个相邻时间区间的交界点的权重；

函数获取模块，用于根据所述中点、所述交界点、所述中点的权重和所述交界点的权重，获取所述每个时间区间对应的子权重函数；

函数确定模块，用于将所有时间区间对应的子权重函数组合，确定为所述权重函数。

25.根据权利要求16所述的装置，其特征在于，所述特征提取单元用于将每个时间区间所发生的潜在原因事件的统计信息提取为用于对所述结果事件进行因果效应分析的特征；或，

所述特征提取单元用于将每个时间区间所发生的潜在原因事件的统计信息进行组合，将组合后的信息提取为对所述结果事件进行因果效应分析的特征。

26.根据权利要求14所述的装置，其特征在于，所述装置还包括：

预设数目确定模块，用于根据特征表达能力和***计算速度，确定所述预设数目。