CN104679970B - 一种数据检测方法及装置 - Google Patents

一种数据检测方法及装置 Download PDF

Info

Publication number
CN104679970B
CN104679970B CN201310629648.0A CN201310629648A CN104679970B CN 104679970 B CN104679970 B CN 104679970B CN 201310629648 A CN201310629648 A CN 201310629648A CN 104679970 B CN104679970 B CN 104679970B
Authority
CN
China
Prior art keywords
traffic data
historical traffic
data
value
time range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310629648.0A
Other languages
English (en)
Other versions
CN104679970A (zh
Inventor
杨承继
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Autonavi Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Autonavi Software Co Ltd filed Critical Autonavi Software Co Ltd
Priority to CN201310629648.0A priority Critical patent/CN104679970B/zh
Publication of CN104679970A publication Critical patent/CN104679970A/zh
Application granted granted Critical
Publication of CN104679970B publication Critical patent/CN104679970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Traffic Control Systems (AREA)

Abstract

本申请公开了一种数据检测方法及装置,方法包括:获取包括一目标道路在预设统计周期内每一天的历史交通数据的目标数据;按照预置的典型日类型,从目标数据中筛选出发布日期符合所述典型日类型的历史交通数据;对典型日类型相同且在预置的同一统计时段内的历史交通数据进行第一异常检测,得到第一异常检测结果;对发布日期符合典型日类型的每一天的历史交通数据进行第二异常检测,得到第二异常检测结果;将第一异常检测结果及第二异常检测结果,确定为所述目标数据的异常数据检测结果。本方案能够将目标道路的历史交通数据的异常数据检测出来,以确保用于分析典型性的历史交通数据均是能够真实反映道路交通情况的数据,以提高分析结果的准确性。

Description

一种数据检测方法及装置
技术领域
本申请涉及数据检测技术领域,特别涉及一种数据检测方法及装置。
背景技术
随着智能交通***的不断发展及广泛应用,其城市交通诱导应用也逐步走向智能化和动态化,在此基础上,智能交通***通过每隔预定时间(如2分钟或5分钟)获取城市当前的交通数据,并及时发布,以便用户能够及时的了解其所在城市当前的路况信息。由于目前交通数据发布较为频繁,积累了大量的历史交通数据,因此,可以通过对历史交通数据进行不同粒度、不同维度的分析,得到城市道路的交通运行规律,从而为城市交通信息的填补及预测提供重要的依据。
目前,直接对城市的所有历史交通数据进行典型性分析,得到每条道路在每一类典型日对应的每个统计时段的交通信息。
在实际应用中,由于各种因素(如天气、交通事故等)均会导致城市历史交通数据中的部分数据为异常数据,这部分异常数据实际可能并不能真实反映道路的交通情况,目前的技术方案无法对这些异常数据进行检测,因此,直接对城市的所有历史交通数据进行典型性分析得到每条道路在每一类典型日对应的每个统计时段的交通信息并不准确。
发明内容
针对现有技术存在的所述技术问题,在根据历史交通数据分析各道路在每一类典型日对应的每一个统计时段的交通信息之前,本申请提供一种数据检测方法及装置,将城市历史交通数据中的异常数据检测出来,以确保用于分析典型性的历史交通数据均是能够较为真实反映道路交通情况的数据,从而提高分析结果的准确性。
本申请提供了一种数据检测方法,包括:
获取目标数据,所述目标数据包括一目标道路在预设统计周期内每一天的历史交通数据;
按照预置的典型日类型,从所述目标数据中,筛选出发布日期符合所述典型日类型的历史交通数据;
对典型日类型相同且在预置的同一统计时段内的历史交通数据进行第一异常检测,得到第一异常检测结果;
对发布日期符合典型日类型的每一天的历史交通数据进行第二异常检测,得到第二异常检测结果;
将所述第一异常检测结果及所述第二异常检测结果,确定为所述目标数据的异常数据检测结果。
上述方法,优选的,所述对典型日类型相同且在预置的同一统计时段内的历史交通数据进行第一异常检测,得到第一异常检测结果,包括:
确定典型日类型相同且在预置的同一统计时段内的每个历史交通数据的U统计量及拒绝域临界值;
判断所述U统计量是否大于其拒绝域临界值,若是,则确定所述历史交通数据异常,否则,确定所述历史交通数据正常。
上述方法,优选的,所述对发布日期符合典型日类型的每一天的历史交通数据进行第二异常检测,得到第二异常检测结果,包括:
对发布日期符合典型日类型的每一天的历史交通数据执行以下步骤:
将同一天的历史交通数据按照发布时间进行划分,得到历史交通数据序列;
确定历史交通数据序列中每个历史交通数据的U统计量及其拒绝域临界值;
判断所述U统计量是否大于其拒绝域临界值,若是,则确定所述历史交通数据异常,否则,确定所述历史交通数据正常。
上述方法,优选的,将同一天的历史交通数据按照发布时间进行划分,得到历史交通数据序列,包括:
将同一天的历史交通数据中,发布时间处于同一发布时间段的历史交通数据划分到同一历史交通数据子序列中;
从第一个历史交通数据子序列开始,依次获取相邻两个历史交通数据子序列的历史交通数据均值μ和方差σ,其中, xi为历史交通数据子序列中第i个历史交通数据的取值,n为所述历史交通数据子序列中历史交通数据取值的个数;
判断相邻两个历史交通数据子序列的均值μ和方差σ是否均对应相等,若是,将所述两个历史交通数据子序列合并作为一个历史交通数据序列,否则,将上述两个历史交通数据子序列分别作为历史交通数据序列。
上述方法,优选的,确定历史交通数据的U统计量,包括:
根据确定所述历史交通数据的U统计量;
其中,U为所述历史交通数据的U统计量,yi为第i个所述历史交通数据的取值,n′为典型日类型相同且在预置的同一统计时段内历史交通数据的个数,或者,n′为数据序列中的历史交通数据的个数,其中
其中,确定所述历史交通数据的拒绝域临界值,包括:
根据P(|U|>μα/2)=α和预置的状态分布表,确定拒绝域临界值μα/2,其中,α为预设的检验水平值。
上述方法,优选的,在将所述第一异常检测结果及所述第二异常检测结果,确定为所述目标数据的异常数据检测结果之后,所述方法还包括:
根据典型日类型相同且在预置的同一统计时段内的正常的历史交通数据,利用获取均值μ;
其中,n″为典型日类型相同且在预置的同一个统计时段内的正常历史交通数据的取值个数,zi为第i个所述正常的历史交通数据的取值;
将所述均值μ确定为属于所述典型日类型的典型日的所述预置的同一统计时段的交通数据统计值。
上述方法,优选的,在将所述均值μ确定为属于所述典型日类型的典型日的所述预置的同一统计时段的交通数据统计值之后,所述方法还包括:
对于每个典型日,判断所述典型日的预置的同一统计时段是否缺失交通数据统计值;
在所述典型日的预置的同一统计时段缺失交通数据统计值时,依据所述统计时段的前一个统计时段和后一个统计时段的交通数据统计值,填补所述统计时段的交通数据统计值。
上述方法,优选的,在将所述均值μ确定为属于所述典型日类型的典型日的所述预置的同一统计时段的交通数据统计值之后,所述方法还包括:
对于每个典型日,判断所述典型日的预置的同一统计时段的交通数据统计值是否超出预设的阈值范围;
在所述典型日的预置的同一统计时段的交通数据统计值超出预设的阈值范围时,确定所述统计时段的交通数据统计值为突变值,根据该统计时段的前一个统计时段和后一个统计时段的交通数据统计值,对所述统计时段的交通数据统计值进行平滑处理。
本申请还提供了一种数据检测装置,包括:
数据获取模块,用于获取目标数据,所述目标数据包括一目标道路在预设统计周期内每一天的历史交通数据;
数据筛选模块,用于按照预置的典型日类型,从所述目标数据中,筛选出发布日期符合所述典型日类型的历史交通数据;
第一检测模块,用于对典型日类型相同且在预置的同一统计时段内的历史交通数据进行第一异常检测,得到第一异常检测结果;
第二检测模块,用于对发布日期符合典型日类型的每一天的历史交通数据进行第二异常检测,得到第二异常检测结果;
结果确定模块,用于将所述第一异常检测结果及所述第二异常检测结果,确定为所述目标数据的异常数据检测结果。
上述装置,优选的,所述第一检测模块包括:
第一统计子模块,用于确定典型日类型相同且在预置的同一统计时段内的每个历史交通数据的U统计量及拒绝域临界值;
第一结果生成子模块,用于判断所述U统计量是否大于其拒绝域临界值,若是,则确定所述历史交通数据异常,否则,确定所述历史交通数据正常。
上述装置,优选的,所述第二检测模块包括:
序列获取子模块,用于对发布日期符合典型日类型的每一天的历史交通数据中,将同一天的历史交通数据按照发布时间进行划分,得到历史交通数据序列;
第二统计子模块,用于确定历史交通数据序列中每个历史交通数据的U统计量及其拒绝域临界值;
第二结果生成子模块,用于判断所述U统计量是否大于其拒绝域临界值,若是,则确定所述历史交通数据异常,否则,确定所述历史交通数据正常。
上述装置,优选的,所述序列获取子模块包括:
子序列划分单元,用于将同一天的历史交通数据中,发布时间处于同一发布时间段的历史交通数据划分到同一历史交通数据子序列中;
子序列均值获取单元,用于从第一个历史交通数据子序列开始,依次获取相邻两个历史交通数据子序列的历史交通数据均值μ和方差σ,其中,xi为历史交通数据子序列中第i个历史交通数据的取值,n为所述历史交通数据子序列中历史交通数据取值的个数;
序列确定单元,用于判断相邻两个历史交通数据子序列的均值μ和方差σ是否均相等,若是,将所述两个历史交通数据子序列合并作为一个历史交通数据序列,否则,将上述两个历史交通数据子序列分别作为历史交通数据序列。
上述装置,优选的,所述第一统计子模块或所述第二统计子模块包括:
U统计量确定单元,用于根据确定所述历史交通数据的U统计量;
其中,U为所述历史交通数据的U统计量,yi为第i个所述历史交通数据的取值,n′为典型日类型相同且在预置的同一统计时段内历史交通数据的个数,或者,n′为数据序列中的历史交通数据的个数,其中
临界值确定单元,用于根据P(|U|>μα/2)=α和预置的状态分布表,确定拒绝域临界值μα/2,其中,α为预设的检验水平值。
上述装置,优选的,还包括:
数据均值获取模块,用于根据典型日类型相同且在预置的同一统计时段内的正常的历史交通数据,利用获取均值μ;
其中,n″为典型日类型相同且在预置的同一统计时段内的正常历史交通数据的取值个数,zi为第i个所述正常的历史交通数据的取值;
统计值确定模块,用于将所述均值μ确定为属于所述典型日类型的典型日的所述预置的同一统计时段的交通数据统计值。
上述装置,优选的,还包括:
缺失判断模块,用于对每个典型日,判断所述典型日的预置的同一统计时段是否缺失交通数据统计值,如果是,触发统计值填补模块;
统计值填补模块,用于依据所述统计时段的前一个统计时段和后一个统计时段的交通数据统计值,填补所述统计时段的交通数据统计值。
上述装置,优选的,还包括:
范围判断模块,用于对于每个典型日,判断所述典型日的预置的同一统计时段的交通数据统计值是否超出预设的阈值范围,如果是,触发统计值平滑模块;
统计值平滑模块,用于确定所述统计时段的交通数据统计值为突变值,根据该统计时段的前一个统计时段和后一个统计时段的交通数据统计值,对所述统计时段的交通数据统计值进行平滑处理。
由上述方案可知,本申请提供的一种数据检测方法及装置,在获取到目标道路的目标数据(目标数据为在预设统计周期内每一天的历史交通数据)之后,依次对目标数据中典型日类型相同且在预置的同一统计周期内的历史交通数据进行纵向的第一异常检测,得到第一异常检测结果,同时对目标数据中发布日期符合典型日类型的每一天的历史交通数据进行第二异常检测,得到第二异常检测结果,从而将第一异常检测结果及第二异常检测结果确定为该目标道路上的异常数据检测结果。本申请在根据历史交通数据分析各道路在典型日的每一个统计时段的交通信息之前,提供一种数据检测方法及装置,将该道路的历史交通数据的异常数据检测出来,以确保用于分析典型性的历史交通数据均是能够较为真实反映道路交通情况的数据,从而提高分析结果的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的一种数据检测方法的流程图;
图2为本申请实施例一的部分流程图;
图3为本申请实施例二提供的一种数据检测方法的部分流程图;
图4为本申请实施例三提供的一种数据检测方法实的部分流程图;
图5为本申请实施例四提供的一种数据检测方法的部分流程图;
图6为本申请实施例五提供的一种数据检测方法的部分流程图;
图7为本申请实施例六提供的一种数据检测方法的部分流程图;
图8为本申请实施例七提供的一种数据检测装置的结构示意图;
图9为本申请实施例八提供的一种数据检测装置的部分结构示意图;
图10为本申请实施例八提供的一种数据检测装置的另一部分结构示意图;
图11为本申请实施例九提供的一种数据检测装置的部分结构示意图;
图12为本申请实施例九提供的一种数据检测装置的另一部分结构示意图;
图13为本申请实施例十提供的一种数据检测装置的结构示意图;
图14为本申请实施例十一提供的一种数据检测装置的结构示意图;
图15为本申请实施例十二提供的一种数据检测装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
参考图1,为本申请提供的一种数据检测方法实施例一的流程图,所述方法可以包括以下步骤:
步骤101:获取目标数据。
其中,所述目标数据包括一目标道路在预设统计周期内每一天的交通历史数据,也就是说,所述目标数据即为需要进行异常检测的数据。
其中,所述预设统计周期可以由检测人员自行设置,例如可以根据经验值设置所述预设统计周期为一年或一个月等。
需要说明的是,目前输出历史交通数据的数据处理***中通常会每隔一个时间点(如2分钟、5分钟等)发布一个交通数据(如车辆在该目标道路的行驶速度、车辆行驶完该目标道路所需要的旅行时间、道路面的占用率或道路面的车辆数等)。所述目标数据可以为在预设的统计周期内累计的所有交通数据,也可以是对该统计周期内累计的交通数据按照固定的时间点抽样得到的交通数据。
步骤102:按照预置的典型日类型,从目标数据中,筛选出发布日期符合所述典型日类型的历史交通数据。
步骤103:对典型日类型相同且在预置的同一统计时段内的历史交通数据进行第一异常检测,得到第一异常检测结果;
其中,所述步骤103中进行第一异常检测即为对所述目标数据进行纵向的异常数据检测,例如,统计周期为一个月,典型日类型为周一,且预设的统计时段分别为7:00-8:00、12:00-13:00、18:00-19:00,则步骤103分别对该月四个周一的7:00-8:00的历史交通数据、四个周一的12:00-13:00的历史交通数据、四个周一的18:00-19:00历史交通数据进行第一异常检测。
步骤104:对发布日期符合典型日类型的每一天的历史交通数据进行第二异常检测,得到第二异常检测结果。
其中,所述步骤104中进行第二异常检测即为对所述目标数据进行横向的异常数据检测,例如,对统计周期内的每一个典型日所包含的历史交通数据进行异常数据检测,得到横向的第二异常检测结果。如统计周期为一个月,典型日类型为周一,则步骤104是对四个周一对应的历史交通数据分别进行数据检测。
步骤105:将所述第一异常检测结果及所述第二异常检测结果,确定为所述目标数据的异常数据检测结果。
本发明实施例中,典型日类型以及统计时段均可由用户预先设置,如典型日类型可以选定为周一、周二、周三、周四、周五、周六、周日、五一假期、十一假期、春节等。统计时段可以根据人们的日常生活习惯设置为上下班高峰期,如一天当中的7:00-9:00、12:00-14:00、18:00-19:00等。
优选地,为进一步提高典型日选取的有效性,并实现自动化的典型日选取,本发明实施例提供一种典型日类型选取方法,该方法是将统计周期内的每一天作为一个预选典型日,将预选典型日进行两两组合,针对每个组合执行如图2所示的方法流程,包括以下步骤:
步骤201:利用获取当前组合的两个预选典型日所包含的历史交通数据的相关系数;
其中,xt为一预选典型日的第t个历史交通数据,yt为另一预选典型日的第t个历史交通数据,n为预选典型日所包含的历史交通数据的个数,ρxy为两个预选典型日的历史交通数据的相关系数。
步骤202:判断所述相关系数是否大于预设第一阈值,如果是,执行步骤203,如果不是则执行步骤204。
步骤203:将所述两个预选典型日作为一个典型日类型。
步骤204:将所述两个预选典型日分别作为一个典型日类型。
依此,得到所述统计周期的典型日类型。
为更清楚、详细的对本发明实施例中的典型日的选取进行描述,下面以一具体实例进行详细描述。假设统计周期为一周,预选典型日设置为周一、周二、周三、周四、周五、周六和周日,将预选典型日之间进行两两组合,计算每个组合的相关度系数如下表1所示:
表1相关系数
相关系数 周一 周二 周三 周四 周五 周六 周日
周一 1 0.6716 0.7524 0.7135 0.6398 0.1249 0.2203
周二 0.6716 1 0.7478 0.7759 0.7079 0.3323 0.3084
周三 0.7524 0.7478 1 0.8214 0.7871 0.3714 0.3987
周四 0.7135 0.7759 0.8214 1 0.7727 0.3844 0.3739
周五 0.6398 0.7079 0.7871 0.7727 1 0.4569 0.3962
周六 0.1249 0.3323 0.3714 0.3844 0.4569 1 0.5244
周日 0.2203 0.3084 0.3987 0.3739 0.3962 0.5244 1
将所述第一阈值设置为0.8时,可将周三和周四作为一个典型日类型,通过上表1可知,典型日类型包括周一、周二、周三和周四、周五、周六、周日。
优选地,本发明实施例为实现自动化的确定统计时段,本发明实施例还提供一种统计时段获取方式,具体如下:
按照发布时间由早到晚的顺序,依次获取一天发布的所有历史交通数据N个;从第一个历史交通数据开始,计算前两个历史交通数据的标准差,若标准差大于等于预设阈值则将前两个历史交通数据作为一个历史交通数据组合;若标准差小于预设阈值,则加入第三个历史交通数据,计算前三个历史交通数据的标准差,若标准差大于等于预设阈值则将前三个历史交通数据作为一个历史交通数据组合,若小于预设阈值则加入第四个历史交通数据并计算前四个历史交通数据的标准差…依此类推,直到加入第m个历史交通数据之后标准差大于等于预设阈值,此时,将该m个历史交通数据作为一个历史交通数据组合,之后选取第m+1个及第m+2个历史交通数据继续进行下一个历史交通数据组合的确定,直到所述目标数据中每一天的历史交通数据中的所有历史交通数据均被选取处理完毕,将最终得到的每个历史交通数据组合对应的历史交通数据的采集时间点组合成一时间段,每个时间段确定为一个统计时段。
例如,对一个目标道路(单道路)而言,拟交通数据的发布周期为5分钟,则一天(典型日)发布288个交通数据(即一天24小时换算成分钟为24*60=1440分钟,1440分钟/5分钟=288个交通数据),计算前m个交通数据的标准差σ,若σ≤ε,继续加入下一个交通数据重新计算标准差σ,直到σ>ε,参与计算的样本点数为n,记该n个交通数据对应的发布时间点所构成的时间段为一统计时段,从n+1个交通数据开始进行下一轮的判断,直至对288个交通数据分析完毕。
由上述方案可知,本申请提供的一种数据检测方法,在获取到目标道路的目标数据(目标数据为在预设统计周期内每一天的历史交通数据)之后,依次对目标数据中典型日类型相同且在预置的同一统计周期内的历史交通数据进行纵向的第一异常检测,得到第一异常检测结果,同时对目标数据中发布日期符合典型日类型的每一天的历史交通数据进行第二异常检测,得到第二异常检测结果,从而将第一异常检测结果及第二异常检测结果确定为该目标道路上的异常数据检测结果。本申请实施例一在根据历史交通数据分析各道路在典型日的每一个统计时段的交通信息之前,提供一种数据检测方法及装置,将该道路的历史交通数据的异常数据检测出来,以确保用于分析典型性的历史交通数据均是能够较为真实反映道路交通情况的数据,从而提高分析结果的准确性。
实施例二
本发明实施例二提供的数据检测方法与实施例一提供的数据检测方法相比,对前述图1所示的流程图中步骤103进行细化。参考图3,为步骤103的流程图,其中,所述步骤103可以包括以下步骤:
步骤301:确定典型日类型相同且在预置的同一统计时段内的每个历史交通数据的U统计量及拒绝域临界值。
例如,对目标道路在统计周期内的所有周一在统计时段7:00-8:00内的每个历史交通数据进行U统计量及拒绝域临界值的确定。
其中,所述步骤301中确定每个历史交通数据的U统计量时,可以通过以下方式实现:
利用获取每个历史交通数据的U统计量。
其中,U为所述典型日类型相同且在预置的同一统计时段内的每个历史交通数据的U统计量,yi为第i个所述历史交通数据的取值,n′为所述典型日类型相同且在预置的同一统计时段内的历史交通数据的个数,μ可以通过得到,σ可以通过得到。
所述步骤301中确定每个历史交通数据的拒绝域临界值,可以通过以下方式得到:
根据P(|U|>μα/2)=α和预置的状态分布表,确定拒绝域临界值μα/2,其中,α为预设的检验水平值。例如,首先确定检验水平值α(一般设定α为0.05);然后,根据U和α查找预置的正态分布表,查找使得P(|U|>μα/2)=α成立的拒绝域临界值μα/2
步骤302:判断所述U统计量是否大于其拒绝域临界值,如果是,执行步骤303,否则,执行步骤304。
步骤303:确定所述历史交通数据异常。
步骤304:确定所述历史交通数据正常。
实施例三
本实施例三与前述实施例一和实施例二相比,区别点在于对图1所示的流程中的步骤104进行细化。参考图4,为步骤104的流程图,其中,所述步骤104中对发布日期符合典型日类型的每一天的历史交通数据执行以下步骤(如典型日类型为周一,则对统计周期内的每个周一的历史交通数据执行以下步骤):
步骤401:将同一天的历史交通数据按照发布时间进行划分,得到历史交通数据序列。
其中,在具体实现时,所述步骤401可以通过以下方式实现:
首先,将同一天的历史交通数据中,发布时间处于同一发布时间段的历史交通数据划分到同一历史交通数据子序列中。例如,可将每个发布时间段设置为半小时或一小时,即可将一天的时间划分为48个或24个发布时间段。如,将发布时间在7:00-7:30的历史交通数据作划分为一个历史交通数据子序列,将发布时间在7:30至8:00的历史交通数据划分为另一历史交通数据子序列,以此类推。
其次,从第一个历史交通数据子序列开始,依次获取相邻两个历史交通数据子序列的历史交通数据的均值μ和方差σ(即以第一个历史交通数据子序列开始,依次获取第j个历史交通数据子序列和第j+1个历史交通数据子序列的历史交通数据的均值μ和方差σ,其中j=j+1,且j为奇数,j的初始值为1),其中,xi为历史交通数据子序列中第i个历史交通数据的取值,n为所述历史交通数据子序列中历史交通数据的个数。例如,同一天的历史交通数据包括历史交通数据1、历史交通数据2、历史交通数据3、历史交通数据4…..,历史交通数据2k-1和历史交通数据2k,则将历史交通数据1与历史交通数据2进行组合得到历史交通数据组合1,将历史交通数据3和历史交通数据4进行组合得到历史交通数据组合2,…,将历史交通数据2k-1和历史交通数据2k进行组合得到历史交通数据组合k,利用依次获取每个历史交通数据组合的历史交通数据均值μ和方差σ。
最后,判断相邻两个历史交通数据子序列的均值μ和方差σ是否均对应相等(即判断相邻两个历史交通数据子序列的均值μ相等且该相邻两个历史交通数据子序列的方差σ相等),若是,则将该两个相邻的历史交通数据子序列合并为同一历史交通数据序列,否则,将上述相邻两个历史交通数据子序列分别作为历史交通数据序列。
步骤402:确定历史交通数据序列中每个历史交通数据的U统计量及其拒绝域临界值。
其中,所述步骤402中确定每个历史交通数据的U统计量时,可以通过以下方式实现:
利用获取每个所述历史交通数据的U统计量。
其中,U为所述历史交通数据序列中每个历史交通数据的U统计量,yi为第i个所述历史交通数据的取值,n′为所述历史交通数据序列中历史交通数据的个数,μ可以通过得到,而σ可以通过得到。
而在所述步骤402中确定每个历史交通数据的拒绝域临界值时,可以通过以下方式实现:
根据P(|U|>μα/2)=α和预置的状态分布表,确定拒绝域临界值μα/2,其中,α为预设的检验水平值,而{|U|>μα/2}为小概率事件。例如,首先确定检验水平值α(一般设定α为0.05),然后,根据U和α查预置的正态分布表找到使得P(|U|>μα/2)=α成立的拒绝域临界值μα/2
步骤403:判断所述U统计量是否大于其拒绝域临界值,若是,执行步骤404,否则,执行步骤405。
步骤404:确定所述历史交通数据异常。
步骤405:确定所述历史交通数据正常。
实施例四
本发明实施例四提供的技术方案与前述实施例一、实施例二、实施例三相比,在步骤105之后还包括步骤106~步骤107,参考图5,为步骤106~步骤107的流程图:
步骤106:根据典型日类型相同且在预置的同一统计时段内的正常的历史交通数据,利用获取均值μ。
其中,n″为典型日类型相同且在预置的同一统计时段内的正常历史交通数据的个数,zi为第i个所述正常的历史交通数据的取值。
需要说明的是,所述步骤106可以首先在典型日类型相同且在预置的同一统计时段内的历史交通数据中,依据所述异常数据检测结果对正常或异常的历史交通数据进行标记,进而得到正常的历史交通数据,并计算正常的历史交通数据的均值μ。
步骤107:将所述均值μ确定为属于所述典型日类型的典型日的所述预置的同一统计时段的交通数据统计值。
其中,所述交通数据统计值即为所述典型日类型相同且在预置的同一统计时段内的历史交通数据的一特征统计量。
优选地,本发明实施例,为便于后续在实时发布交通数据时,若某一道路的某个典型日的某个统计时段缺失交通数据,为该缺失交通数据的统计时段提供交通数据填补的依据,将所述均值μ作为所述属于所述典型日类型的典型日的所述预置的同一统计时段的其中一个特征统计量。并根据目标数据计算属于所述典型日类型的典型日的所述预置的同一统计时段的以下任意一项或多项特征统计量:样本量k、方差σ和可信度值,其中:样本量k是指典型日类型相同且在预置的同一统计时段内的历史交通数据的个数,所述均值方差为可信度为或者n″/k,其中zi为典型日类型相同且在同一统计时段内第i个正常的历史交通数据,n″为典型日类型相同且在预置的同一统计时段内的正常的历史交通数据的个数。
实施例五
本实施例五提供的技术方案,与前述实施例四相比,在步骤107之后还包括步骤108~步骤109。参考图6,为步骤108~步骤109流程图:
步骤108:对于每个典型日,判断所述典型日的预置的同一统计时段是否缺失交通数据统计值,如果是,执行109,如果不是则结束流程。
步骤109:依据所述统计时段的前一个统计时段和后一个统计时段的交通数据统计值,填补所述统计时段的交通数据统计值。
本发明实施例中,缺失交通数据统计值的统计时段可能为以下的状态1或状态2,为提高数据填补的有效性,本发明实施例中,当缺失交通数据统计值的统计时段为状态1时,执行前述步骤109,当缺失交通数据统计值的统计时段为状态2时,不执行前述步骤109:
状态1、该缺失交通数据统计值的统计时段不是所述典型日的第一个统计时段也不是其最后一个统计时段。
状态2、该缺失交通数据统计值的统计时段为典型日的第一个统计时段或其最后一个统计时段。
所述步骤109可以采用一元线性回归方法,对出现数据缺失的统计时段的交通数据统计值进行填补。
实施例六
本实施例六提供的技术方案与前述实施例四相比,在步骤107之后还包括步骤110~步骤112,与前述实施例五相比,在步骤109之后还包括步骤110~112。参考图7,为步骤110~步骤112的流程图:
步骤110:对于每个典型日,判断所述典型日的预置的同一统计时段的交通数据统计值是否超出预设的阈值范围,如果是,执行步骤111,如果不是则结束流程。
其中,所述阈值范围可以为用户预先设置。
步骤111:确定所述统计时段的交通数据统计值为突变值,并根据该统计时段的前一个统计时段和后一个统计时段的交通数据统计值,对所述统计时段的交通数据统计值进行平滑处理。
本发明实施例中,交通数据统计值为突变值的统计时段可能为以下的状态1或状态2,优选的,为提高数据平滑的有效性,本发明实施例中,当交通数据统计值为突变值的统计时段为状态1时,执行前述步骤111,当交通数据统计值为突变值的统计时段为状态2时,不执行前述步骤111:
状态1、该交通数据统计值为突变值的统计时段不是所述典型日的第一个统计时段也不是其最后一个统计时段。
状态2、该交通数据统计值为突变值的统计时段为典型日的第一个统计时段或其最后一个统计时段。
其中,步骤111中,根据其前一统计时段和后一统计时段的交通数据统计值,采用中值滤波的方法平滑处理所述统计时段的交通数据统计值。所述中值滤波的方法是指基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术,其基本原理是把数字序列中一点的值用该点的一个邻域中各点值的中值代替,从而消除孤立的噪声点。中值是指将所有领域数据排序后位置在中间的那个数,若是偶数个,则取位置在中间的两数的算术平均数。
实施例七
参考图8,为本申请实施例七提供的一种数据检测装置的结构示意图,所述数据检测装置可以包括:
数据获取模块801,用于获取目标数据。
其中,所述目标数据包括一目标道路在预设统计周期内每一天的交通历史数据,也就是说,所述目标数据即为需要进行异常检测的数据。
其中,所述预设统计周期可以由检测人员自行设置,例如可以根据经验值设置所述预设统计周期为一年或一个月等。
数据筛选模块802,用于按照预置的典型日类型,从所述目标数据中,筛选出发布日期符合所述典型日类型的历史交通数据。
第一检测模块803,用于对典型日类型相同且在预置的同一统计时段内的历史交通数据进行第一异常检测,得到第一异常检测结果。
其中,所述第一检测模块803进行第一异常检测即为对所述目标数据进行纵向的异常数据检测,例如,统计周期为一个月,典型日类型为周一,且预设的统计时段分别为7:00-8:00、12:00-13:00、18:00-19:00,则第一检测模块803分别对该月四个周一的7:00-8:00的历史交通数据、四个周一的12:00-13:00的历史交通数据、四个周一的18:00-19:00历史交通数据进行第一异常检测。
第二检测模块804,用于对发布日期符合典型日类型的每一天的历史交通数据进行第二异常检测,得到第二异常检测结果。
其中,所述第二检测模块804进行第二异常检测即为对所述目标数据进行横向的异常数据检测,例如,对统计周期内的每一个典型日所包含的历史交通数据进行异常数据检测,得到横向的第二异常检测结果。如统计周期为一个月,典型日类型为周一,则第二检测模块804是对四个周一对应的历史交通数据分别进行数据检测。
结果确定模块805,用于将所述第一异常检测结果及所述第二异常检测结果,确定为所述目标数据的异常数据检测结果。
由上述方案可知,本申请实施例七提供的一种数据检测装置,在获取到目标道路的目标数据(目标数据为在预设统计周期内每一天的历史交通数据)之后,依次对目标数据中典型日类型相同且在预置的同一统计周期内的历史交通数据进行纵向的第一异常检测,得到第一异常检测结果,同时对目标数据中发布日期符合典型日类型的每一天的历史交通数据进行第二异常检测,得到第二异常检测结果,从而将第一异常检测结果及第二异常检测结果确定为该目标道路上的异常数据检测结果。本申请实施例七在根据历史交通数据分析各道路在典型日的每一个统计时段的交通信息之前,提供一种数据检测方法及装置,将该道路的历史交通数据的异常数据检测出来,以确保用于分析典型性的历史交通数据均是能够较为真实反映道路交通情况的数据,从而提高分析结果的准确性。
实施例八
本申请实施例八提供的数据检测装置与实施例七提供的数据检测装置相比,对第一检测模块803的具体结构进行细化,参考图9,为本申请第一检测模块803的结构示意图,其中,所述第一检测模块803可以包括:
第一统计子模块831,用于确定典型日类型相同且在预置的统计时段内的每个历史交通数据的U统计量及拒绝域临界值。
例如,对目标道路在统计周期内的所有周一在统计时段7:00-8:00内的每个历史交通数据进行U统计量及拒绝域临界值的确定。
其中,所述第一统计子模块831的实现可以参考如图10中所示的结构,其中,所述第一统计子模块831可以包括:
U统计量确定单元1001,用于根据确定所述历史交通数据的U统计量。
其中,U为所述历史交通数据的U统计量,yi为第i个所述历史交通数据的取值,n′为典型日类型相同且在预置的同一统计时段内历史交通数据的个数,其中
临界值确定单元1002,用于根据P(|U|>μα/2)=α和预置的状态分布表,确定拒绝域临界值μα/2,其中,α为预设的检验水平值。
例如,所述临界值确定单元1002首先确定检验水平值α(一般设定α为0.05),然后,根据U和α查找预置的正态分布表找到使得P(|U|>μα/2)=α成立的拒绝域临界值μα/2
第一结果生成子模块832,用于判断所述U统计量是否大于其拒绝域临界值,若是则确定所述历史交通数据异常,若否则确定所述历史交通数据正常。
实施例九
实施例九提供的数据检测装置与前述实施例七和实施例八相比,对第二检测模块804的结构进行细化。参考图11,为本申请第二检测模块804的结构示意图,其中,所述第二检测模块804可以包括:
序列获取子模块841,用于对发布日期符合典型日类型的每一天的历史交通数据中,将同一天的历史交通数据按照发布时间进行划分,得到历史交通数据序列。
其中,所述序列获取子模块841的实现可以参考如图12中的结构,其中,所述序列获取子模块841可以包括:
子序列划分单元1201,用于将同一天的历史交通数据中,发布时间处于同一发布时间段的历史交通数据划分到同一历史交通数据子序列中。
例如,例如,可将每个发布时间段设置为半小时或一小时,即可将一天的时间划分为48个或24个发布时间段。如,将发布时间在7:00-7:30的历史交通数据作划分为一个历史交通数据子序列,将发布时间在7:30至8:00的历史交通数据划分为另一历史交通数据子序列,以此类推。
子序列均值获取单元1202,用于从第一个历史交通数据子序列开始,依次获取相邻两个历史交通数据子序列的历史交通数据的均值μ和方差σ(即以第一个历史交通数据子序列开始,依次获取第j个历史交通数据子序列和第j+1个历史交通数据子序列的历史交通数据的均值μ和方差σ,其中j=j+1,且j为奇数,j的初始值为1),其中, xi为历史交通数据子序列中第i个历史交通数据的取值,n为所述历史交通数据子序列中历史交通数据的个数。
序列确定单元1203,用于判断相邻两个历史交通数据子序列的均值μ和方差σ是否均相等(即判断相邻两个历史交通数据子序列的均值μ相等且该相邻两个历史交通数据子序列的方差σ相等),若是,则将该两个相邻的历史交通数据子序列合并为同一历史交通数据序列,否则,将上述相邻两个历史交通数据子序列分别作为历史交通数据序列。
第二统计子模块842,用于确定历史交通数据序列中每个历史交通数据的U统计量及其拒绝域临界值。
其中,所述第二统计子模块842的实现可以参考如图10中所示的结构,其中,所述第二统计子模块842可以包括:
U统计量确定单元1001,用于根据确定所述历史交通数据的U统计量。
其中,U为所述历史交通数据的U统计量,yi为第i个所述历史交通数据的取值,n′为历史交通数据序列中的历史交通数据的个数,其中
临界值确定单元1002,用于根据P(|U|>μα/2)=α和预置的状态分布表,确定拒绝域临界值μα/2,其中,α为预设的检验水平值。
例如,所述临界值确定单元1002首先确定检验水平值α(一般设定α为0.05),然后根据U和α查找预置的正态分布表找到使得P(|U|>μα/2)=α成立的拒绝域临界值μα/2
第二结果生成子模块843,用于判断所述U统计量是否大于其拒绝域临界值,若是,则确定所述历史交通数据异常,若否,则确定所述历史交通数据正常。
实施例十
本发明实施例十提供的数据检测装置与前述实施例七~实施例九提供的数据检测装置,还包括数据均值获取模块806和统计值确定模块807。参考图13,为本申请提供的一种数据检测装置实施例十的结构示意图,所述装置还可以包括:
数据均值获取模块806,用于根据典型日类型相同且在预置的同一统计时段内的正常的历史交通数据,利用获取均值μ。
其中,n″为典型日类型相同且在预置的同一统计时段内的正常历史交通数据的个数,zi为第i个所述正常的历史交通数据的取值。
统计值确定模块807,用于将所述均值μ确定为属于所述典型日类型的典型日的所述预置的同一统计时段的交通数据统计值。
实施例十一
本实施例十一提供的数据检测装置与前述实施例十相比,还包括缺失判断模块808和统计值填补模块809。参考图14,为本实施例十一提供的一种数据检测装置的结构示意图,其中,所述装置还可以包括:
缺失判断模块808,用于对每个典型日,判断所述典型日的预置的同一统计时段是否缺失交通数据统计值,如果是,触发统计值填补模块809;
统计值填补模块809,用于依据所述统计时段的前一个统计时段和后一个统计时段的交通数据统计值,填补所述统计时段的交通数据统计值。
本发明实施例中,缺失交通数据统计值的统计时段可能为以下的状态1或状态2,为提高数据填补的有效性,本发明实施例中,当缺失交通数据统计值的统计时段为状态1时,触发统计值填补模块809,当缺失交通数据统计值的统计时段为状态2时,不触发统计值填补模块809:
状态1、该缺失交通数据统计值的统计时段不是所述典型日的第一个统计时段也不是其最后一个统计时段。
状态2、该缺失交通数据统计值的统计时段为典型日的第一个统计时段或其最后一个统计时段。
统计值填补模块809可以采用一元线性回归方法,对出现数据缺失的统计时段的交通数据统计值进行填补。
实施例十二
本实施例十二提供的数据检测装置与前述实施例十、实施例十一相比,还包括范围判断模块810和统计值平滑模块811。参考图15,为本申请实施例十二提供的一种数据检测装置的结构示意图,该装置可以是在图13或图14所示的装置上还包括范围判断模块810和统计值平滑模块811:
范围判断模块810,用于对于每个典型日,判断所述典型日的预置的同一统计时段的交通数据统计值是否超出预设的阈值范围,如果是,触发统计值平滑模块811;
统计值平滑模块811,用于确定所述统计时段的交通数据统计值为突变值,根据该统计时段的前一个统计时段和后一个统计时段的交通数据统计值,对所述统计时段的交通数据统计值进行平滑处理。
本发明实施例中,交通数据统计值为突变值的统计时段可能为以下的状态1或状态2,优选的,为提高数据平滑的有效性,本发明实施例中,当交通数据统计值为突变值的统计时段为状态1时,触发统计值平滑模块811,当交通数据统计值为突变值的统计时段为状态2时,不触发统计值平滑模块811:
状态1、该交通数据统计值为突变值的统计时段不是所述典型日的第一个统计时段也不是其最后一个统计时段。
状态2、该交通数据统计值为突变值的统计时段为典型日的第一个统计时段或其最后一个统计时段。
其中,统计值平滑模块811根据其前一统计时段和后一统计时段的交通数据统计值,采用中值滤波的方法平滑处理所述统计时段的交通数据统计值。所述中值滤波的方法是指基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术,其基本原理是把数字序列中一点的值用该点的一个邻域中各点值的中值代替,从而消除孤立的噪声点。中值是指将所有领域数据排序后位置在中间的那个数,若是偶数个,则取位置在中间的两数的算术平均数。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种数据检测方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (17)

1.一种数据检测方法,其特征在于,包括:
获取目标数据,所述目标数据包括一目标道路在预设统计周期内每一天的历史交通数据;
按照预置的典型日类型,从所述目标数据中,筛选出发布日期符合所述典型日类型的历史交通数据;
对典型日类型相同且在预置的同一统计时段内的历史交通数据进行第一异常检测,得到第一异常检测结果;
对发布日期符合典型日类型的每一天的历史交通数据进行第二异常检测,得到第二异常检测结果;
将所述第一异常检测结果及所述第二异常检测结果,确定为所述目标数据的异常数据检测结果;
其中,所述统计时段获取方式包括:按照发布时间由早到晚的顺序,依次获取一天发布的所有历史交通数据N个,从第一个历史交通数据开始,计算前两个历史交通数据的标准差,若标准差大于等于预设阈值则将前两个历史交通数据作为一个历史交通数据组合,若标准差小于预设阈值,则加入第三个历史交通数据,计算前三个历史交通数据的标准差,若标准差大于等于预设阈值则将前三个历史交通数据作为一个历史交通数据组合,若小于预设阈值则加入第四个历史交通数据并计算前四个历史交通数据的标准差,依此类推,直到加入第m个历史交通数据之后标准差大于等于预设阈值,此时,将该m个历史交通数据作为一个历史交通数据组合,之后选取第m+1个及第m+2个历史交通数据继续进行下一个历史交通数据组合的确定,直到所述目标数据中每一天的历史交通数据中的所有历史交通数据均被选取处理完毕,将最终得到的每个历史交通数据组合对应的历史交通数据的采集时间点组合成一时间段,每个时间段确定为一个统计时段。
2.根据权利要求1所述的方法,其特征在于,所述对典型日类型相同且在预置的同一统计时段内的历史交通数据进行第一异常检测,得到第一异常检测结果,包括:
确定典型日类型相同且在预置的同一统计时段内的每个历史交通数据的U统计量及拒绝域临界值;
判断所述U统计量是否大于其拒绝域临界值,若是,则确定所述历史交通数据异常,否则,确定所述历史交通数据正常。
3.根据权利要求1所述的方法,其特征在于,所述对发布日期符合典型日类型的每一天的历史交通数据进行第二异常检测,得到第二异常检测结果,包括:
对发布日期符合典型日类型的每一天的历史交通数据执行以下步骤:
将同一天的历史交通数据按照发布时间进行划分,得到历史交通数据序列;
确定历史交通数据序列中每个历史交通数据的U统计量及其拒绝域临界值;
判断所述U统计量是否大于其拒绝域临界值,若是,则确定所述历史交通数据异常,否则,确定所述历史交通数据正常。
4.根据权利要求3所述的方法,其特征在于,将同一天的历史交通数据按照发布时间进行划分,得到历史交通数据序列,包括:
将同一天的历史交通数据中,发布时间处于同一发布时间段的历史交通数据划分到同一历史交通数据子序列中;
从第一个历史交通数据子序列开始,依次获取相邻两个历史交通数据子序列的历史交通数据均值μ和方差σ,其中, xi为历史交通数据子序列中第i个历史交通数据的取值,n为所述历史交通数据子序列中历史交通数据取值的个数;
判断相邻两个历史交通数据子序列的均值μ和方差σ是否均对应相等,若是,将所述两个历史交通数据子序列合并作为一个历史交通数据序列,否则,将上述两个历史交通数据子序列分别作为历史交通数据序列。
5.根据权利要求2或3所述的方法,其特征在于,确定历史交通数据的U统计量,包括:
根据确定所述历史交通数据的U统计量;
其中,U为所述历史交通数据的U统计量,yi为第i个所述历史交通数据的取值,n′为典型日类型相同且在预置的同一统计时段内历史交通数据的个数,或者,n′为数据序列中的历史交通数据的个数,其中
其中,确定所述历史交通数据的拒绝域临界值,包括:
根据P(|U|>μα/2)=α和预置的状态分布表,确定拒绝域临界值μα/2,其中,α为预设的检验水平值。
6.根据权利要求1所述的方法,其特征在于,在将所述第一异常检测结果及所述第二异常检测结果,确定为所述目标数据的异常数据检测结果之后,所述方法还包括:
根据典型日类型相同且在预置的同一统计时段内的正常的历史交通数据,利用获取均值μ;
其中,n″为典型日类型相同且在预置的同一统计时段内的正常历史交通数据的取值个数,zi为第i个所述正常的历史交通数据的取值;
将所述均值μ确定为属于所述典型日类型的典型日的所述预置的同一统计时段的交通数据统计值。
7.根据权利要求6所述的方法,其特征在于,在将所述均值μ确定为属于所述典型日类型的典型日的所述预置的同一统计时段的交通数据统计值之后,所述方法还包括:
对于每个典型日,判断所述典型日的预置的同一统计时段是否缺失交通数据统计值;
在所述典型日的预置的同一统计时段缺失交通数据统计值时,依据所述统计时段的前一个统计时段和后一个统计时段的交通数据统计值,填补所述统计时段的交通数据统计值。
8.根据权利要求6所述的方法,其特征在于,在将所述均值μ确定为属于所述典型日类型的典型日的所述预置的同一统计时段的交通数据统计值之后,所述方法还包括:
对于每个典型日,判断所述典型日的预置的同一统计时段的交通数据统计值是否超出预设的阈值范围;
在所述典型日的预置的同一统计时段的交通数据统计值超出预设的阈值范围时,确定所述统计时段的交通数据统计值为突变值,根据该统计时段的前一个统计时段和后一个统计时段的交通数据统计值,对所述统计时段的交通数据统计值进行平滑处理。
9.一种数据检测装置,其特征在于,包括:
数据获取模块,用于获取目标数据,所述目标数据包括一目标道路在预设统计周期内每一天的历史交通数据;
数据筛选模块,用于按照预置的典型日类型,从所述目标数据中,筛选出发布日期符合所述典型日类型的历史交通数据;
第一检测模块,用于对典型日类型相同且在预置的同一统计时段内的历史交通数据进行第一异常检测,得到第一异常检测结果;
第二检测模块,用于对发布日期符合典型日类型的每一天的历史交通数据进行第二异常检测,得到第二异常检测结果;
结果确定模块,用于将所述第一异常检测结果及所述第二异常检测结果,确定为所述目标数据的异常数据检测结果;
其中,所述统计时段获取方式包括:按照发布时间由早到晚的顺序,依次获取一天发布的所有历史交通数据N个,从第一个历史交通数据开始,计算前两个历史交通数据的标准差,若标准差大于等于预设阈值则将前两个历史交通数据作为一个历史交通数据组合,若标准差小于预设阈值,则加入第三个历史交通数据,计算前三个历史交通数据的标准差,若标准差大于等于预设阈值则将前三个历史交通数据作为一个历史交通数据组合,若小于预设阈值则加入第四个历史交通数据并计算前四个历史交通数据的标准差,依此类推,直到加入第m个历史交通数据之后标准差大于等于预设阈值,此时,将该m个历史交通数据作为一个历史交通数据组合,之后选取第m+1个及第m+2个历史交通数据继续进行下一个历史交通数据组合的确定,直到所述目标数据中每一天的历史交通数据中的所有历史交通数据均被选取处理完毕,将最终得到的每个历史交通数据组合对应的历史交通数据的采集时间点组合成一时间段,每个时间段确定为一个统计时段。
10.根据权利要求9所述的装置,其特征在于,所述第一检测模块包括:
第一统计子模块,用于确定典型日类型相同且在预置的同一统计时段内的每个历史交通数据的U统计量及拒绝域临界值;
第一结果生成子模块,用于判断所述U统计量是否大于其拒绝域临界值,若是,则确定所述历史交通数据异常,否则,确定所述历史交通数据正常。
11.根据权利要求9所述的装置,其特征在于,所述第二检测模块包括:
序列获取子模块,用于对发布日期符合典型日类型的每一天的历史交通数据中,将同一天的历史交通数据按照发布时间进行划分,得到历史交通数据序列;
第二统计子模块,用于确定历史交通数据序列中每个历史交通数据的U统计量及其拒绝域临界值;
第二结果生成子模块,用于判断所述U统计量是否大于其拒绝域临界值,若是,则确定所述历史交通数据异常,否则,确定所述历史交通数据正常。
12.根据权利要求11所述的装置,其特征在于,所述序列获取子模块包括:
子序列划分单元,用于将同一天的历史交通数据中,发布时间处于同一发布时间段的历史交通数据划分到同一历史交通数据子序列中;
子序列均值获取单元,用于从第一个历史交通数据子序列开始,依次获取相邻两个历史交通数据子序列的历史交通数据均值μ和方差σ,其中,xi为历史交通数据子序列中第i个历史交通数据的取值,n为所述历史交通数据子序列中历史交通数据取值的个数;
序列确定单元,用于判断相邻两个历史交通数据子序列的均值μ和方差σ是否均相等,若是,将所述两个历史交通数据子序列合并作为一个历史交通数据序列,否则,将上述两个历史交通数据子序列分别作为历史交通数据序列。
13.根据权利要求10所述的装置,其特征在于,所述第一统计子模块,包括:
U统计量确定单元,用于根据确定所述历史交通数据的U统计量;
其中,U为所述历史交通数据的U统计量,yi为第i个所述历史交通数据的取值,n′为典型日类型相同且在预置的同一统计时段内历史交通数据的个数,或者,n′为数据序列中的历史交通数据的个数,其中
临界值确定单元,用于根据P(|U|>μα/2)=α和预置的状态分布表,确定拒绝域临界值μα/2,其中,α为预设的检验水平值。
14.根据权利要求11所述的装置,其特征在于,所述第二统计子模块,包括:
U统计量确定单元,用于根据确定所述历史交通数据的U统计量;
其中,U为所述历史交通数据的U统计量,yi为第i个所述历史交通数据的取值,n′为典型日类型相同且在预置的同一统计时段内历史交通数据的个数,或者,n′为数据序列中的历史交通数据的个数,其中
临界值确定单元,用于根据P(|U|>μα/2)=α和预置的状态分布表,确定拒绝域临界值μα/2,其中,α为预设的检验水平值。
15.根据权利要求9所述的装置,其特征在于,还包括:
数据均值获取模块,用于根据典型日类型相同且在预置的同一统计时段内的正常的历史交通数据,利用获取均值μ;
其中,n″为典型日类型相同且在预置的同一统计时段内的正常历史交通数据的取值个数,zi为第i个所述正常的历史交通数据的取值;
统计值确定模块,用于将所述均值μ确定为属于所述典型日类型的典型日的所述预置的同一统计时段的交通数据统计值。
16.根据权利要求15所述的装置,其特征在于,还包括:
缺失判断模块,用于对每个典型日,判断所述典型日的预置的同一统计时段是否缺失交通数据统计值,如果是,触发统计值填补模块;
统计值填补模块,用于依据所述统计时段的前一个统计时段和后一个统计时段的交通数据统计值,填补所述统计时段的交通数据统计值。
17.根据权利要求15所述的装置,其特征在于,还包括:
范围判断模块,用于对于每个典型日,判断所述典型日的预置的同一统计时段的交通数据统计值是否超出预设的阈值范围,如果是,触发统计值平滑模块;
统计值平滑模块,用于确定所述统计时段的交通数据统计值为突变值,根据该统计时段的前一个统计时段和后一个统计时段的交通数据统计值,对所述统计时段的交通数据统计值进行平滑处理。
CN201310629648.0A 2013-11-29 2013-11-29 一种数据检测方法及装置 Active CN104679970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310629648.0A CN104679970B (zh) 2013-11-29 2013-11-29 一种数据检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310629648.0A CN104679970B (zh) 2013-11-29 2013-11-29 一种数据检测方法及装置

Publications (2)

Publication Number Publication Date
CN104679970A CN104679970A (zh) 2015-06-03
CN104679970B true CN104679970B (zh) 2018-11-09

Family

ID=53315008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310629648.0A Active CN104679970B (zh) 2013-11-29 2013-11-29 一种数据检测方法及装置

Country Status (1)

Country Link
CN (1) CN104679970B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718715B (zh) * 2015-12-23 2018-10-30 华为技术有限公司 异常检测方法和设备
CN106295683A (zh) * 2016-08-01 2017-01-04 上海理工大学 一种基于尖锐度的时间序列数据的离群点检测方法
CN106452931B (zh) * 2016-12-27 2019-09-17 中国建设银行股份有限公司 监控指标及域值发现方法、域值调整方法及自动监控***
CN108880841A (zh) * 2017-05-11 2018-11-23 上海宏时数据***有限公司 一种业务监控***的阀值设置、异常检测***及方法
CN108520430A (zh) * 2018-03-23 2018-09-11 西安艾润物联网技术服务有限责任公司 停车收费异常分析方法、设备及计算机可读存储介质
CN108961761B (zh) * 2018-08-14 2020-04-24 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109270898B (zh) * 2018-08-30 2020-10-20 大连理工大学 一种具有数据质量诊断与修复功能的建筑能耗数据采集器
CN115576502B (zh) * 2022-12-07 2023-04-28 苏州浪潮智能科技有限公司 一种数据存储的方法、装置、电子设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694747A (zh) * 2009-08-25 2010-04-14 北京世纪高通科技有限公司 异常车速的识别方法和装置
CN101794345A (zh) * 2009-12-30 2010-08-04 北京世纪高通科技有限公司 一种数据处理方法及装置
CN101814112A (zh) * 2010-01-11 2010-08-25 北京世纪高通科技有限公司 处理数据的方法和装置
CN101950477A (zh) * 2010-08-23 2011-01-19 北京世纪高通科技有限公司 一种交通信息处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694747A (zh) * 2009-08-25 2010-04-14 北京世纪高通科技有限公司 异常车速的识别方法和装置
CN101794345A (zh) * 2009-12-30 2010-08-04 北京世纪高通科技有限公司 一种数据处理方法及装置
CN101814112A (zh) * 2010-01-11 2010-08-25 北京世纪高通科技有限公司 处理数据的方法和装置
CN101950477A (zh) * 2010-08-23 2011-01-19 北京世纪高通科技有限公司 一种交通信息处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
服务于智能交通***的离***通数据识别;陈淑燕等;《东南大学学报(自然科学版)》;20080731;第38卷(第4期);723-726 *

Also Published As

Publication number Publication date
CN104679970A (zh) 2015-06-03

Similar Documents

Publication Publication Date Title
CN104679970B (zh) 一种数据检测方法及装置
CN106503840A (zh) 停车场可用车位预测方法及***
CN109923595A (zh) 一种基于浮动车数据的城市道路交通异常检测方法
Hennemuth et al. Statistical methods for the analysis of simulated and observed climate data: applied in projects and institutions dealing with climate change impact and adaptation
CN116013087B (zh) 一种基于城市运动车辆检测的车流量统计方法
Rompis et al. Probe vehicle lane identification for queue length estimation at intersections
Emi Fergus et al. Multiscale landscape and wetland drivers of lake total phosphorus and water color
Dhorde et al. Three-way approach to test data homogeneity: An analysis of temperature and precipitation series over southwestern Islamic Republic of Iran
CN106595665A (zh) 一种障碍空间中移动对象时空轨迹的预测方法
CN103793599A (zh) 一种基于隐马尔科夫模型的出行异常检测方法
Baker et al. A multimetric assessment of stream condition in the northern lakes and forests ecoregion using spatially explicit statistical modeling and regional normalization
CN111564036B (zh) 交通信息可信度的检测方法、装置、***及存储介质
Requena et al. Pooled frequency analysis for intensity–duration–frequency curve estimation
Astagneau et al. When does a parsimonious model fail to simulate floods? Learning from the seasonality of model bias
Karimpour et al. Estimating pedestrian delay at signalized intersections using high-resolution event-based data: a finite mixture modeling method
Habtemichael et al. Incident-induced delays on freeways: quantification method by grouping similar traffic patterns
Wang et al. Delineation and validation of river network spatial scales for water resources and fisheries management
Tang et al. On missing traffic data imputation based on fuzzy C-means method by considering spatial–temporal correlation
Lu et al. Estimation of lane-level travel time distributions under a connected environment
Akhtar et al. Drought monitoring and prediction in climate vulnerable Pakistan: Integrating hydrologic and meteorologic perspectives
CN109190783A (zh) 城市水网渗漏空间聚集性检测及关键影响因素识别方法
Xu et al. A model for integrated spatial land use characteristics linking to surface nutrient concentration
Langland Changes in streamflow and water quality in selected nontidal sites in the Chesapeake Bay Basin, 1985-2003
CN114066037A (zh) 一种基于人工智能的流域污染溯源预测方法及装置
Fan et al. The impact of physiographic factors upon the probability of slides occurrence: a case study from the Kaoping River Basin, Taiwan

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200518

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 102200, No. 8, No., Changsheng Road, Changping District science and Technology Park, Beijing, China. 1-5

Patentee before: AUTONAVI SOFTWARE Co.,Ltd.

TR01 Transfer of patent right