CN111858695A - 路段数据筛选方法、***和存储介质 - Google Patents

路段数据筛选方法、***和存储介质 Download PDF

Info

Publication number
CN111858695A
CN111858695A CN201911266014.7A CN201911266014A CN111858695A CN 111858695 A CN111858695 A CN 111858695A CN 201911266014 A CN201911266014 A CN 201911266014A CN 111858695 A CN111858695 A CN 111858695A
Authority
CN
China
Prior art keywords
data
road section
road
section data
road segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911266014.7A
Other languages
English (en)
Inventor
李伊琳
刘国平
温翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201911266014.7A priority Critical patent/CN111858695A/zh
Publication of CN111858695A publication Critical patent/CN111858695A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种路段数据筛选方法、一种路段数据筛选***和一种计算机可读存储介质。其中方法包括:获取历史订单的轨迹数据;使用序列挖掘算法对所述轨迹数据进行挖掘,确定多个路段数据;确定所述多个路段数据中任一路段数据下所述历史订单的偏航率;根据所述偏航率筛选所述路段数据。通过使用本申请的技术方案,相对于相关技术方案中仅通过流量确定关键路段数据的方法,无需针对根据流量筛选的路段数据逐一进行处理,降低了需要处理的数据量,进而降低了对算力的需求,可以选择算力较低的处理硬件来实现硬件方面的支持,同时,由于需要处理的数据量降低,能够有效降低了能源消耗。

Description

路段数据筛选方法、***和存储介质
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种路段数据筛选方法、一种路段数据筛选***和一种计算机可读存储介质。
背景技术
一般地,相关技术中,通常对于路网运行状况的研究是基于路网流量的变化进行研究,如针对交通领域和网络社区领域的线路进行研究,然而基于路网流量确定的路段数据的方法需要对大量的数据进行处理,无法准确确定影响路网中车辆偏航的路段数据,进而无法满足现阶段的分析需求。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,在本发明的第一方面的实施例中,在于提出了一种路段数据筛选方法,包括:获取历史订单的轨迹数据;使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据;确定多个路段数据中任一路段数据下历史订单的偏航率;根据偏航率筛选路段数据。
在该技术方案中,获取历史订单的轨迹数据,其中,历史订单是网约车、出租车辆、私家车辆等历史出行数据,通过使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据,从轨迹数据中选择具有一定支持度的多个路段,其中多个路段中每一路段具有关键的OD(Origin Destination,出发地点和出行目的地),但需要说明的是OD仅是历史订单的轨迹数据中每一路段的出发地点和出行目的地,而非整个历史订单路线的出发地和目的地,确定多个路段数据中每一个路段数据下历史订单的偏航率,根据偏航率从多个路段数据中筛选得到路段数据,其中,偏航率是经过该路段数据的历史订单中的偏航订单数与历史订单的比值,使用偏航率对多个路段数据进行筛选,将能够反应偏航问题的关键路段数据筛选出来,避免了只通过道路流量选取关键路段进行偏航问题研究存在的不准确,通过筛选得到路段数据进行研究,进而提高了针对路段研究结果的准确性,其中,通过使用本申请的技术方案,相对于相关技术方案中仅通过流量确定关键路段数据的方法,无需针对根据流量筛选的路段数据逐一进行处理,降低了需要处理的数据量,进而降低了对算力的需求,可以选择算力较低的处理硬件来实现硬件方面的支持,同时,由于处理量的降低,能够有效降低了能源消耗。
另外,根据本发明上述实施例的路段数据筛选方法,还可以具有如下附加的技术特征:
在上述技术方案中,进一步地,根据偏航率筛选路段数据的步骤,具体包括:根据偏航率对多个路段数据进行排序,选取偏航率最大所对应的路段数据作为第一路段数据。
在该技术方案中,通过偏航率对多个路段进行筛选,因此,在筛选过程中使用偏航率对多个路段进行排序,由于第一路段数据是选择偏航率最大所对应的路段数据,在进行偏航问题的研究过程中相对于其他的路段数据更能反应偏航原因,故能够根据第一路段数据判断道路是否出现异常。选取偏航率最大的路段数据作为第一路段数据,避免了针对多个路段数据分析偏航原因,降低了偏航原因分析所需要处理的数据量,在降低了算力的占用和能源消耗的同时,提高了异常路段数据确定的速度。
在上述任一技术方案中,进一步地,还包括:根据第一路段数据对历史订单进行分类;在轨迹数据不包含第一路段数据的历史订单的偏航率大于第一偏航数值的情况下,或在轨迹数据不包含第一路段数据的历史订单数大于第一订单数值的情况下:在不包含第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据。
在该技术方案中,在确定第一路段数据之后,使用第一路段数据对历史订单进行分类,得到包含第一路段数据的历史订单和不包含第一路段数据的历史订单,为了消除第一路段数据对后期路段数据的筛选,选择不包含第一路段数据的历史订单进行新一轮的路段数据的筛选,在此之前,判断不包含第一路段数据的历史订单是否满足再次筛选路段数据的条件,具体地,在轨迹数据不包含第一路段数据的历史订单的偏航率小于第一偏航数值的情况下,即不包含第一路段数据的历史订单出现偏航的几率较低,为了降低对算力的占用和能源的消耗,不再进行新一轮的路段数据的筛选,同理,在轨迹数据不包含第一路段数据的历史订单数小于第一订单数值的情况下,轨迹数据不包含第一路段数据的历史订单的数量过小,为了降低对算力的占用和能源的消耗,不再进行新一轮的路段数据的筛选,只有在轨迹数据不包含第一路段数据的历史订单的偏航率大于第一偏航数值的情况下,或在轨迹数据不包含第一路段数据的历史订单数大于第一订单数值的情况下,在不包含第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据,进而筛选得到反应偏航原因的路段数据进行分析。本技术方案的上述步骤能够将消除第一路段数据对第二路段数据筛选的影响,进而得到的第二路段数据能够真正反应出偏航原因,便于发现异常路段。
在上述任一技术方案中,进一步地,在不包含第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据的步骤之后,还包括:将不包含第一路段数据的历史订单作为更新后历史订单;根据第二路段数据对更新后历史订单进行分类,直至更新后历史订单的偏航率小于第一偏航数值或更新后历史订单数小于第一订单数值。
在该技术方案中,通过将不包含第一路段数据的历史订单作为更新后的历史订单,进而在进行新一轮的判断过程中,还能使用上一次的判断标准,由于判断是否需要进行新一轮的路段数据的筛选的判断条件相同,进而在进行路段数据筛选过程可以多次进行,直至不满足进一步筛选的条件。上述过程应用决策树的思想进行分类,通过执行就可以筛选得到互不影响路段数据,以便进行偏航原因的分析,避免了现阶段需要多次重复对同一历史订单进行分析,进而需要大量处理数据的问题,同时避免了筛选得到的路段数据彼此关联,影响偏航原因的分析。
在上述任一技术方案中,进一步地,在不包含第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据的步骤,具体包括:基于偏航率对不包含第一路段数据的多个路段数据进行排序以得到排序结果,根据排序结果选取预设数量的路段数据;从预设数量的路段数据中任选一个路段数据作为第二路段数据。
在该技术方案中,为了提高路段数据的筛选速度,在进行新一轮的路段数据筛选过程中限定多个路段数据的数量,进一步地,基于偏航率对不包含第一路段数据的多个路段数据进行排序,根据排序结果选择预设数量的路段数据作为候选的路段数据,基于候选的路段数据筛选出第二路段数据,进一步地,在预设数量是多次实验的结果,筛选得到的候选的路段数据是在排序结果中由高至低选取预设数量后的得到的路段数据。
在上述任一技术方案中,进一步地,还包括:在确认根据偏航率筛选得到的路段数据组成的无序集合存在的情况下,停止对历史订单的分类。
在该技术方案中,为了进一步降低路段数据的筛选过程花费的时间,判断根据偏航率筛选得到的路段数据组成的无序集合是否存在,若确定的无序集合存在,则停止对历史订单的分类。通过判断无序集合是否存在,若确定的多个路段数据对应的无序集合之前已经存在,即提前停止了历史订单的分类,进而避免对路段数据的筛选,降低了需要处理的数据量和能源的消耗。
在上述任一技术方案中,进一步地,在确认已选路段数据组建的无序集合存在的步骤,具体包括:查找根据偏航率筛选得到的路段数据对应的唯一编码;在唯一编码组成的无序集合存在的情况下,则判定根据偏航率筛选得到的路段数据组成的无序集合存在。
在该技术方案中,通过查找与路段数据的唯一编码,利用编码构建无序集合,通过判定由唯一编码组建的无序集合是否存在。具体地,唯一编码组建的无序集合确定的方式简单,相对于直接使用已选路段数据组建的无序集合需要的算力低,处理的数据量小,进而在得到相同的判定结果下,需要的时间更少,进而提高了判定速度。
在上述任一技术方案中,进一步地,还包括:在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单与历史订单的数量比值小于低于第三预设阈值的情况下,停止对历史订单的分类或在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单的数量小于第四预设阈值,停止对历史订单的分类。
在该技术方案中,为了进一步提高路段数据的筛选速度,需要对历史订单进行分类提出新的剪枝条件,如在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单与历史订单的数量比值小于低于第三预设阈值的情况下,停止对历史订单的分类,或在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单的数量小于第四预设阈值,停止对历史订单的分类,进而降低对历史订单进行分类过程中对算力的需求和能源的消耗。
在上述任一技术方案中,进一步地,轨迹数据包括实走轨迹和导航轨迹,使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据的步骤,具体包括:使用序列挖掘算法对实走轨迹和导航轨迹进行挖掘,确定第一组路段数据集合和第二组路段数据集合;根据第一组路段数据集合和第二组路段数据集合的交集确定多个路段数据。
在该技术方案中,轨迹数据是网约车、出租车辆、私家车辆等历史出行数据,其中,轨迹数据包括两种情况,轨迹数据是导航轨迹或者轨迹数据是实走轨迹。因此,在确定多个路段数据时,首先根据轨迹数据是实走轨迹确定第一组路段数据集合,根据轨迹数据是导航轨迹确定第二组路段数据集合,第一组路段数据集合和第二组路段数据集合的交集确定多个路段数据;或者首先根据轨迹数据是实走轨迹确定第二组路段数据集合,根据轨迹数据是导航轨迹确定第一组路段数据集合,第一组路段数据集合和第二组路段数据集合的交集确定多个路段数据,根据具有偏航的历史订单筛选路段数据,进而进行偏航原因的分析。
在上述任一技术方案中,进一步地,第一组路段数据和第二组路段数据的支持度大于预设阈值;或多个路段数据的支持度大于预设阈值。
在该技术方案中,为了进一步提高路段数据的筛选速度,在确定多个路段数据的同时,通过设定序列挖掘算法的支持度,滤除掉支持度小于预设阈值的路段数据,只针对支持度大于预设阈值的路段数据来筛选,进而降低了多个路段数据的数量,降低了数据处理的数据量,减少了能源的消耗。
在上述任一技术方案中,进一步地,序列挖掘算法为二元的PrefixSpan算法。
在该技术方案中,PrefixSpan(Prefix-Projected Pattern Growth,即前缀投影的挖掘算法),在具体使用过程中还可以选取其它数据挖掘算法。
在本发明的第二方面的实施例中,在于提出了一种路段数据筛选***,包括:存储器,配置为存储可执行指令;处理器,配置为执行存储的指令以实现如上述任一项路段数据筛选方法的步骤。
具体地,处理器,配置为执行存储在存储器中的可执行指令以:获取历史订单的轨迹数据;使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据;确定多个路段数据中任一路段数据下历史订单的偏航率;根据偏航率筛选路段数据。
在该技术方案中,处理器,配置为执行存储在存储器中的可执行指令以:获取历史订单的轨迹数据,其中,历史订单是网约车、出租车辆、私家车辆等历史出行数据,通过使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据,从轨迹数据中选择具有一定支持度的多个路段,其中多个路段中每一路段具有关键的OD(Origin Destination,出发地点和出行目的地),但需要说明的是OD仅是历史订单的轨迹数据中每一路段的出发地点和出行目的地,而非整个历史订单路线的出发地和目的地,确定多个路段数据中每一个路段数据下历史订单的偏航率,根据偏航率从多个路段数据中筛选得到路段数据,其中,偏航率是经过该路段数据的历史订单中的偏航订单数与历史订单的比值,使用偏航率对多个路段数据进行筛选,将能够反应偏航问题的关键路段数据筛选出来,避免了只通过道路流量选取关键路段进行偏航问题研究存在的不准确,通过筛选得到路段数据进行研究,进而提高了针对路段研究结果的准确性,其中,通过使用本申请的技术方案,相对于相关技术方案中,仅通过流量确定关键路段数据的方法,无需针对根据流量筛选的路段数据逐一进行处理,降低了需要处理的数据量,进而降低了对算力的需求,可以选择算力较低的处理硬件来实现硬件方面的支持,同时,由于处理量的降低,能够有效降低了能源消耗。
另外,根据本发明上述实施例的路段数据筛选***,还可以具有如下附加的技术特征:
在上述技术方案中,进一步地,处理器,配置为执行存储在存储器中的可执行指令以:根据偏航率对多个路段数据进行排序,选取偏航率最大所对应的路段数据作为第一路段数据。
在该技术方案中,处理器,配置为执行存储在存储器中的可执行指令以:通过偏航率对多个路段进行筛选,因此,在筛选过程中使用偏航率对多个路段进行排序,由于第一路段数据是选择偏航率最大所对应的路段数据,在进行偏航问题的研究过程中相对于其他的路段数据更能反应偏航原因,故能够根据第一路段数据判断道路是否出现异常。选取偏航率最大的路段数据作为第一路段数据,避免了针对多个路段数据分析偏航原因,降低了偏航原因分析所需要处理的数据量,在降低了算力的占用和能源消耗的同时,提高了异常路段数据确定的速度。
在上述任一技术方案中,进一步地,处理器还被配置为执行存储在存储器中的可执行指令以:根据第一路段数据对历史订单进行分类;在轨迹数据不包含第一路段数据的历史订单的偏航率大于第一偏航数值的情况下,或在轨迹数据不包含第一路段数据的历史订单数大于第一订单数值的情况下:在不包含第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据。
在该技术方案中,在确定第一路段数据之后,使用第一路段数据对历史订单进行分类,得到包含第一路段数据的历史订单和不包含第一路段数据的历史订单,为了消除第一路段数据对后期路段数据的筛选,选择不包含第一路段数据的历史订单进行新一轮的路段数据的筛选,在此之前,判断不包含第一路段数据的历史订单是否满足再次筛选路段数据的条件,具体地,在轨迹数据不包含第一路段数据的历史订单的偏航率小于第一偏航数值的情况下,即不包含第一路段数据的历史订单出现偏航的几率较低,为了降低对算力的占用和能源的消耗,不再进行新一轮的路段数据的筛选,同理,在轨迹数据不包含第一路段数据的历史订单数小于第一订单数值的情况下,轨迹数据不包含第一路段数据的历史订单的数量过小,为了降低对算力的占用和能源的消耗,不再进行新一轮的路段数据的筛选,只有在轨迹数据不包含第一路段数据的历史订单的偏航率大于第一偏航数值的情况下,或在轨迹数据不包含第一路段数据的历史订单数大于第一订单数值的情况下,在不包含第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据,进而筛选得到反应偏航原因的路段数据进行分析。本技术方案的上述步骤能够将消除第一路段数据对第二路段数据筛选的影响,进而得到的第二路段数据能够真正反应出偏航原因,便于发现异常路段。
在上述任一技术方案中,进一步地,处理器还被配置为执行存储在存储器中的可执行指令以:将不包含第一路段数据的历史订单作为更新后历史订单;根据第二路段数据对更新后历史订单进行分类,直至更新后历史订单的偏航率小于第一偏航数值或更新后历史订单数小于第一订单数值。
在该技术方案中,通过将不包含第一路段数据的历史订单作为更新后的历史订单,进而在进行新一轮的判断过程中,还能使用上一次的判断标准,由于判断是否需要进行新一轮的路段数据的筛选的判断条件相同,进而在进行路段数据筛选过程可以多次进行,直至不满足进一步筛选的条件。上述过程应用决策树的思想进行分类,通过执行就可以筛选得到互不影响路段数据,以便进行偏航原因的分析,避免了现阶段需要多次重复对同一历史订单进行分析,进而需要大量处理数据的问题,同时避免了筛选得到的路段数据彼此关联,影响偏航原因的分析。
在上述任一技术方案中,进一步地,处理器被配置为执行存储在存储器中的可执行指令以:基于偏航率对不包含第一路段数据的多个路段数据进行排序以得到排序结果,根据排序结果选取预设数量的路段数据;从预设数量的路段数据中任选一个路段数据作为第二路段数据。
在该技术方案中,为了提高路段数据的筛选速度,在进行新一轮的路段数据筛选过程中限定多个路段数据的数量,进一步地,基于偏航率对不包含第一路段数据的多个路段数据进行排序,根据排序结果选择预设数量的路段数据作为候选的路段数据,基于候选的路段数据筛选出第二路段数据,进一步地,在预设数量是多次实验的结果,筛选得到的候选的路段数据是在排序结果中由高至低选取预设数量后的得到的路段数据。
在上述任一技术方案中,进一步地,处理器还配置为执行存储在存储器中的可执行指令以:在确认根据偏航率筛选得到的路段数据组成的无序集合存在的情况下,停止对历史订单的分类。
在该技术方案中,为了进一步降低路段数据的筛选过程花费的时间,判断根据偏航率筛选得到的路段数据组成的无序集合是否存在,若确定的无序集合存在,则停止对历史订单的分类。通过判断无序集合是否存在,若确定的多个路段数据对应的无序集合之前已经存在,即提前停止了历史订单的分类,进而避免对路段数据的筛选,降低了需要处理的数据量和能源的消耗。
在上述任一技术方案中,进一步地,处理器配置为执行存储在存储器中的可执行指令以:查找根据偏航率筛选得到的路段数据对应的唯一编码;在唯一编码组成的无序集合存在的情况下,则判定根据偏航率筛选得到的路段数据组成的无序集合存在。
在该技术方案中,通过查找与路段数据的唯一编码,利用编码构建无序集合,通过判定由唯一编码组建的无序集合是否存在。具体地,唯一编码组建的无序集合确定的方式简单,相对于直接使用已选路段数据组建的无序集合需要的算力低,处理的数据量小,进而在得到相同的判定结果下,需要的时间更少,进而提高了判定速度。
在上述任一技术方案中,进一步地,处理器还配置为执行存储在存储器中的可执行指令以:在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单与历史订单的数量比值小于低于第三预设阈值的情况下,停止对历史订单的分类或在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单的数量小于第四预设阈值,停止对历史订单的分类。
在该技术方案中,为了进一步提高路段数据的筛选速度,需要对历史订单进行分类提出新的剪枝条件,如在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单与历史订单的数量比值小于低于第三预设阈值的情况下,停止对历史订单的分类,或在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单的数量小于第四预设阈值,停止对历史订单的分类,进而降低对历史订单进行分类过程中对算力的需求和能源的消耗。
在上述任一技术方案中,进一步地,轨迹数据包括实走轨迹和导航轨迹,处理器配置为执行存储在存储器中的可执行指令以:使用序列挖掘算法对实走轨迹和导航轨迹进行挖掘,确定第一组路段数据集合和第二组路段数据集合;根据第一组路段数据集合和第二组路段数据集合的交集确定多个路段数据。
在该技术方案中,轨迹数据是网约车、出租车辆、私家车辆等历史出行数据,其中,轨迹数据包括两种情况,轨迹数据是导航轨迹或者轨迹数据是实走轨迹。因此,在确定多个路段数据时,首先根据轨迹数据是实走轨迹确定第一组路段数据集合,根据轨迹数据是导航轨迹确定第二组路段数据集合,第一组路段数据集合和第二组路段数据集合的交集确定多个路段数据;或者首先根据轨迹数据是实走轨迹确定第二组路段数据集合,根据轨迹数据是导航轨迹确定第一组路段数据集合,第一组路段数据集合和第二组路段数据集合的交集确定多个路段数据,根据具有偏航的历史订单筛选路段数据,进而进行偏航原因的分析。
在上述任一技术方案中,进一步地,第一组路段数据和第二组路段数据的支持度大于预设阈值;或多个路段数据的支持度大于预设阈值。
在该技术方案中,为了进一步提高路段数据的筛选速度,在确定多个路段数据的同时,通过设定序列挖掘算法的支持度,滤除掉支持度小于预设阈值的路段数据,只针对支持度大于预设阈值的路段数据来筛选,进而降低了多个路段数据的数量,降低了数据处理的数据量,减少了能源的消耗。
在上述任一技术方案中,进一步地,序列挖掘算法为二元的PrefixSpan算法。
在该技术方案中,PrefixSpan(Prefix-Projected Pattern Growth,即前缀投影的挖掘算法),在具体使用过程中还可以选取其它数据挖掘算法。
在本发明的第三方面的实施例中,在于提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行上述任一项路段数据筛选方法。
本发明提供的一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项路段数据筛选方法的步骤,因此具有上述任一项使用路段数据筛选方法的全部技术效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了根据本发明的一个实施例的路段数据筛选方法的流程示意图;
图2示出了根据本发明的另一个实施例的路段数据筛选方法的流程示意图;
图3示出了根据本发明的再一个实施例的路段数据筛选方法的流程示意图;
图4示出了根据本发明的又一个实施例的路段数据筛选方法的流程示意图;
图5示出了根据本发明的一个实施例中在不包含第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据的流程示意图;
图6示出了根据本发明的又一个实施例的路段数据筛选方法的流程示意图;
图7示出了根据本发明的一个实施例中确认已选路段数据组建的无序集合存在的流程示意图;
图8示出了根据本发明的又一个实施例的路段数据筛选方法的流程示意图;
图9示出了根据本发明的一个实施例中使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据的流程示意图;
图10示出了根据本发明的一个实施例中决策树的结构示意图;
图11示出了根据本发明的一个实施例的路段数据筛选***的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。
在本发明第一方面的实施例中,如图1所示,路段数据筛选方法,包括:
步骤S102,获取历史订单的轨迹数据;
步骤S104,使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据;
步骤S106,确定多个路段数据中任一路段数据下历史订单的偏航率;
步骤S108,根据偏航率筛选路段数据。
在该实施例中,获取历史订单的轨迹数据,其中,历史订单是网约车、出租车辆、私家车辆等历史出行数据,通过使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据,从轨迹数据中选择具有一定支持度的多个路段,其中多个路段中每一路段具有关键的OD(Origin Destination,出发地点和出行目的地),但需要说明的是OD仅是历史订单的轨迹数据中每一路段的出发地点和出行目的地,而非整个历史订单路线的出发地和目的地,确定多个路段数据中每一个路段数据下历史订单的偏航率,根据偏航率从多个路段数据中筛选得到路段数据,其中,偏航率是经过该路段数据的历史订单中的偏航订单数与历史订单的比值,使用偏航率对多个路段数据进行筛选,将能够反应偏航问题的关键路段数据筛选出来,避免了只通过道路流量选取关键路段进行偏航问题研究存在的不准确,通过筛选得到路段数据进行研究,进而提高了针对路段研究结果的准确性,其中,通过使用本申请的技术方案,相对于相关技术方案中仅通过流量确定关键路段数据的方法,无需针对根据流量筛选的路段数据逐一进行处理,降低了需要处理的数据量,进而降低了对算力的需求,可以选择算力较低的处理硬件来实现硬件方面的支持,同时,由于处理量的降低,能够有效降低了能源消耗。
在本发明的一个实施例中,如图2所示,路段数据筛选方法,包括:
步骤S202,获取历史订单的轨迹数据;
步骤S204,使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据;
步骤S206,确定多个路段数据中任一路段数据下历史订单的偏航率;
步骤S208,根据偏航率对多个路段数据进行排序,选取偏航率最大所对应的路段数据作为第一路段数据。
在该实施例中,通过偏航率对多个路段进行筛选,因此,在筛选过程中使用偏航率对多个路段进行排序,由于第一路段数据是选择偏航率最大所对应的路段数据,在进行偏航问题的研究过程中相对于其他的路段数据更能反应偏航原因,故能够根据第一路段数据判断道路是否出现异常。选取偏航率最大的路段数据作为第一路段数据,避免了针对多个路段数据分析偏航原因,降低了偏航原因分析所需要处理的数据量,在降低了算力的占用和能源消耗的同时,提高了异常路段数据确定的速度。
在本发明的一个实施例中,如图3所示,路段数据筛选方法,包括:
步骤S302,获取历史订单的轨迹数据;
步骤S304,使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据;
步骤S306,确定多个路段数据中任一路段数据下历史订单的偏航率;
步骤S308,根据偏航率对多个路段数据进行排序,选取偏航率最大所对应的路段数据作为第一路段数据;
步骤S310,根据第一路段数据对历史订单进行分类;
步骤S312,在轨迹数据不包含第一路段数据的历史订单的偏航率大于第一偏航数值的情况下,或在轨迹数据不包含第一路段数据的历史订单数大于第一订单数值的情况下:在不包含第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据。
在该实施例中,在确定第一路段数据之后,使用第一路段数据对历史订单进行分类,得到包含第一路段数据的历史订单和不包含第一路段数据的历史订单,为了消除第一路段数据对后期路段数据的筛选,选择不包含第一路段数据的历史订单进行新一轮的路段数据的筛选,在此之前,判断不包含第一路段数据的历史订单是否满足再次筛选路段数据的条件,具体地,在轨迹数据不包含第一路段数据的历史订单的偏航率小于第一偏航数值的情况下,即不包含第一路段数据的历史订单出现偏航的几率较低,为了降低对算力的占用和能源的消耗,不再进行新一轮的路段数据的筛选,同理,在轨迹数据不包含第一路段数据的历史订单数小于第一订单数值的情况下,轨迹数据不包含第一路段数据的历史订单的数量过小,为了降低对算力的占用和能源的消耗,不再进行新一轮的路段数据的筛选,只有在轨迹数据不包含第一路段数据的历史订单的偏航率大于第一偏航数值的情况下,或在轨迹数据不包含第一路段数据的历史订单数大于第一订单数值的情况下,在不包含第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据,进而筛选得到反应偏航原因的路段数据进行分析。本技术方案的上述步骤能够将消除第一路段数据对第二路段数据筛选的影响,进而得到的第二路段数据能够真正反应出偏航原因,便于发现异常路段。
在本发明的一个实施例中,如图4所示,路段数据筛选方法,包括:
步骤S402,获取历史订单的轨迹数据;
步骤S404,使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据;
步骤S406,确定多个路段数据中任一路段数据下历史订单的偏航率;
步骤S408,根据偏航率对多个路段数据进行排序,选取偏航率最大所对应的路段数据作为第一路段数据;
步骤S410,根据第一路段数据对历史订单进行分类;
步骤S412,在轨迹数据不包含第一路段数据的历史订单的偏航率大于第一偏航数值的情况下,或在轨迹数据不包含第一路段数据的历史订单数大于第一订单数值的情况下:在不包含第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据;
步骤S414,将不包含第一路段数据的历史订单作为更新后历史订单;根据第二路段数据对更新后历史订单进行分类,直至更新后历史订单的偏航率小于第一偏航数值或更新后历史订单数小于第一订单数值。
在该实施例中,通过将不包含第一路段数据的历史订单作为更新后的历史订单,进而在进行新一轮的判断过程中,还能使用上一次的判断标准,由于判断是否需要进行新一轮的路段数据的筛选的判断条件相同,进而在进行路段数据筛选过程可以多次进行,直至不满足进一步筛选的条件。上述过程应用决策树的思想进行分类,通过执行就可以筛选得到互不影响路段数据,以便进行偏航原因的分析,避免了现阶段需要多次重复对同一历史订单进行分析,进而需要大量处理数据的问题,同时避免了筛选得到的路段数据彼此关联,影响偏航原因的分析。
在本发明的一个实施例中,如图5所示,在不包含第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据的步骤具体包括:
步骤S502,基于偏航率对不包含第一路段数据的多个路段数据进行排序以得到排序结果,根据排序结果选取预设数量的路段数据;
步骤S504,从预设数量的路段数据中任选一个路段数据作为第二路段数据。
在该实施例中,为了提高路段数据的筛选速度,在进行新一轮的路段数据筛选过程中限定多个路段数据的数量,进一步地,基于偏航率对不包含第一路段数据的多个路段数据进行排序,根据排序结果选择预设数量的路段数据作为候选的路段数据,基于候选的路段数据筛选出第二路段数据,进一步地,在预设数量是多次实验的结果,筛选得到的候选的路段数据是在排序结果中由高至低选取预设数量后的得到的路段数据。
在本发明的一个实施例中,如图6所示,路段数据筛选方法,包括:
步骤S602,获取历史订单的轨迹数据;
步骤S604,使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据;
步骤S606,确定多个路段数据中任一路段数据下历史订单的偏航率;
步骤S608,根据偏航率对多个路段数据进行排序,选取偏航率最大所对应的路段数据作为第一路段数据;
步骤S610,根据第一路段数据对历史订单进行分类;
步骤S612,在轨迹数据不包含第一路段数据的历史订单的偏航率大于第一偏航数值的情况下,或在轨迹数据不包含第一路段数据的历史订单数大于第一订单数值的情况下:在不包含第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据;
步骤S614,在确认根据偏航率筛选得到的路段数据组成的无序集合存在的情况下,停止对历史订单的分类。
在该实施例中,为了进一步降低路段数据的筛选过程花费的时间,判断根据偏航率筛选得到的路段数据组成的无序集合是否存在,若确定的无序集合存在,则停止对历史订单的分类。通过判断无序集合是否存在,若确定的多个路段数据对应的无序集合之前已经存在,即提前停止了历史订单的分类,进而避免对路段数据的筛选,降低了需要处理的数据量和能源的消耗。
在本发明的一个实施例中,如图7所示,确认已选路段数据组建的无序集合存在的步骤具体包括:
步骤S702,查找根据偏航率筛选得到的路段数据对应的唯一编码;
步骤S704,在唯一编码组成的无序集合存在的情况下,则判定根据偏航率筛选得到的路段数据组成的无序集合存在。
在该实施例中,通过查找与路段数据的唯一编码,利用编码构建无序集合,通过判定由唯一编码组建的无序集合是否存在。具体地,唯一编码组建的无序集合确定的方式简单,相对于直接使用已选路段数据组建的无序集合需要的算力低,处理的数据量小,进而在得到相同的判定结果下,需要的时间更少,进而提高了判定速度。
在本发明的一个实施例中,如图8所示,路段数据筛选方法,包括:
步骤S802,获取历史订单的轨迹数据;
步骤S804,使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据;
步骤S806,确定多个路段数据中任一路段数据下历史订单的偏航率;
步骤S808,根据偏航率对多个路段数据进行排序,选取偏航率最大所对应的路段数据作为第一路段数据;
步骤S810,根据第一路段数据对历史订单进行分类;
步骤S812,在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单与历史订单的数量比值小于低于第三预设阈值的情况下,停止对历史订单的分类或在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单的数量小于第四预设阈值,停止对历史订单的分类。
在该实施例中,为了进一步提高路段数据的筛选速度,需要对历史订单进行分类提出新的剪枝条件,如在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单与历史订单的数量比值小于低于第三预设阈值的情况下,停止对历史订单的分类,或在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单的数量小于第四预设阈值,停止对历史订单的分类,进而降低对历史订单进行分类过程中对算力的需求和能源的消耗。
在本发明的一个实施例中,轨迹数据包括实走轨迹和导航轨迹,如图9所示,使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据的步骤,具体包括:
步骤S902,使用序列挖掘算法对实走轨迹和导航轨迹进行挖掘,确定第一组路段数据集合和第二组路段数据集合;
步骤S904,根据第一组路段数据集合和第二组路段数据集合的交集确定多个路段数据。
在该实施例中,轨迹数据是网约车、出租车辆、私家车辆等历史出行数据,其中,轨迹数据包括两种情况,轨迹数据是导航轨迹或者轨迹数据是实走轨迹。因此,在确定多个路段数据时,首先根据轨迹数据是实走轨迹确定第一组路段数据集合,根据轨迹数据是导航轨迹确定第二组路段数据集合,第一组路段数据集合和第二组路段数据集合的交集确定多个路段数据;或者首先根据轨迹数据是实走轨迹确定第二组路段数据集合,根据轨迹数据是导航轨迹确定第一组路段数据集合,第一组路段数据集合和第二组路段数据集合的交集确定多个路段数据,根据具有偏航的历史订单筛选路段数据,进而进行偏航原因的分析。
在本发明的一个实施例中,第一组路段数据和第二组路段数据的支持度大于预设阈值;或多个路段数据的支持度大于预设阈值。
在该实施例中,为了进一步提高路段数据的筛选速度,在确定多个路段数据的同时,通过设定序列挖掘算法的支持度,滤除掉支持度小于预设阈值的路段数据,只针对支持度大于预设阈值的路段数据来筛选,进而降低了多个路段数据的数量,降低了数据处理的数据量,减少了能源的消耗。
在本发明的一个实施例中,序列挖掘算法为二元的PrefixSpan算法。
在本发明的一个实施例中,路段数据筛选方法包括:候选OD集合产生和关键OD选取。
其中,本发明实施例中的术语定义包括:
路段r:道路网中的一个有向边,路段r的两个端点分别是r.s和r.e,道路网中的车辆从r.s到r.e,道路网结构由路段及路段间拓扑关系表达。
轨迹traj:轨迹由连续的路段表示,是一个连续路段的序列,例如:traj=r1→r2→r3→...→rn,r(k+1).s=rk.e,r(k+1).s=rk.e,k∈[1,n-1]。本实施例中的轨迹分为导航轨迹和实际轨迹。轨迹集合TRAJ={traj1,traj2,...,trajm}。
OD:所研究的轨迹集合TRAJ中,任意一个在轨迹中出现的长度为2的路段子序列<rO,rD>。OD的支持度:sup<rO,rD>为轨迹集合中子序列<rO,rD>出现的次数。
Hot OD:支持度大于某一阈值的OD,目前设为10。相当于长度为2,支持度阈值为10的频繁子序列。
偏航:指订单轨迹在目标路段发生实走轨迹和导航轨迹不一致的行为。
偏航率:在订单轨迹集合中,偏航订单数/总订单数。
首先,候选OD集合产生具体包括:
采用二元的PrefixSpan算法,对历史订单的轨迹数据进行频繁子序列挖掘,仅挖掘长度为2的频繁序列,具体方法如下:从长度为1的前缀开始挖掘序列模式,搜索对应的投影数据库(后缀数据库)得到长度为1的前缀对应的频繁序列,然后递归的挖掘长度为2的频繁序列。
频繁序列:支持度大于某一阈值的子序列。
前缀prefix是序列数据前面部分的子序列。数学描述如下:
对于序列A={a1,a2,...an}和序列B={b1,b2,...bm},n≤m,满足a1=b1,a2=b2,...an=bn,则称A是B的前缀。
在PrefixSpan算法中,相同前缀对应的所有后缀的结合称为前缀对应的投影数据库。
具体地,如表1和表2所示,其中,a、b、c、d、e是序列中的元素。
表1
ID(序列的唯一编号) Sequence(序列)
0 <abcd>
1 <bacd>
2 <eacba>
3 <bdaeb>
4 <dba>
表2
长度为1的前缀 a b c d e
支持度 5 5 3 4 2
设支持度为3,则d和e不符合要求,在接下来的后缀数据库中,将其删除,不再考虑,例如序列3的<bdaeb>变更为<bdab>,得到的投影数据库如表3所示。
表3
前缀 后缀
a <bcd>,<cd>,<cba>,<b>
b <cd>,<acd>,<a>,<ab>,<a>
c <d>,<d>,<ba>
d <aeb>,<ba>
其次,关键OD选取包括:
利用决策树中将所有样本集合切割的原理,通过构建多棵决策树,搜索符合条件的关键OD组合。
构建一个决策树结构,树的结构如图10所示,非叶节点由关键OD(如<O1,D1>,<O2,D2>,<O3,D3>)组成,叶子节点则有订单集合({orders})组成,具体地,每个非叶节点的左侧为叶子节点,表示经过该OD的所有订单的集合,右侧为另一个非叶节点或者未经过该OD的订单集合组成。
其中,树结构构建过程包括:
1)在当前所有订单轨迹集合中经过的OD集合中,选择一个关键OD,将所有经过其OD的订单构成一个集合放入左节点,未经过OD的订单集合放入右节点。
订单实走轨迹集合:通过一定的筛选条件筛选订单(目前在实验中使用的是经过某一路段的所有订单)得到订单轨迹集合,订单集合中所有的轨迹即我们所关注的轨迹数据,包括实走轨迹数据和导航轨迹数据,订单即本申请中的历史订单。
2)检测右节点的是否满足以下条件:偏航率小于0.1或订单集合的数量小于10,如果满足,组合树构建完成,如不满足,对右节点重复1)的过程。
剪枝策略:
1)如果当前所有路径上的所有节点构成的无序集合,在之前的构造过程中曾经出现过,则不再进行树的构造;具体地,对于每个已经经过的OD序列,将序列中的OD的序号通过二进制编码为一个唯一的整数进行存储,对于每一个OD序列,进行编码并查找是否在编码后的集合中,若在则停止树的生长。
2)如果经过当前节点的订单集合满足条件:偏航订单小于或等于5或偏航率小于或等于0.5,则进行判断,如果当前订单集合中的偏航订单小于15,则完成一棵树的构建,否则舍弃当前组合,不再进行树的构造。
OD选择过程:
对于当前订单所有经过的OD集合,针对每一个OD,计算集合中所有经过该OD的订单的偏航率和偏航订单数,按照偏航订单数和偏航率进行排序,选择前n(实验时针对n的数目进行了多组实验)的OD作为节点的候选集合。
在本发明的第二方面的实施例中,如图11所示,路段数据筛选***1000包括:存储器1002,配置为存储可执行指令;处理器1004,配置为执行存储的指令以:获取历史订单的轨迹数据;使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据;确定多个路段数据中任一路段数据下历史订单的偏航率;根据偏航率筛选路段数据。
在该实施例中,处理器1004,配置为执行存储在存储器1002中的可执行指令以:获取历史订单的轨迹数据,其中,历史订单是网约车、出租车辆、私家车辆等历史出行数据,通过使用序列挖掘算法对轨迹数据进行挖掘,确定多个路段数据,从轨迹数据中选择具有一定支持度的多个路段,其中多个路段中每一路段具有关键的OD(Origin Destination,出发地点和出行目的地),但需要说明的是OD仅是历史订单的轨迹数据中每一路段的出发地点和出行目的地,而非整个历史订单路线的出发地和目的地,确定多个路段数据中每一个路段数据下历史订单的偏航率,根据偏航率从多个路段数据中筛选得到路段数据,其中,偏航率是经过该路段数据的历史订单中的偏航订单数与历史订单的比值,使用偏航率对多个路段数据进行筛选,将能够反应偏航问题的关键路段数据筛选出来,避免了只通过道路流量选取关键路段进行偏航问题研究存在的不准确,通过筛选得到路段数据进行研究,进而提高了针对路段研究结果的准确性,其中,通过使用本申请的技术方案,相对于相关技术方案中,仅通过流量确定关键路段数据的方法,无需针对根据流量筛选的路段数据逐一进行处理,降低了需要处理的数据量,进而降低了对算力的需求,可以选择算力较低的处理硬件来实现硬件方面的支持,同时,由于处理量的降低,能够有效降低了能源消耗。
在本发明的一个实施例中,如图11所示,处理器1004,配置为执行存储在存储器1002中的可执行指令以:根据偏航率对多个路段数据进行排序,选取偏航率最大所对应的路段数据作为第一路段数据。
在该实施例中,处理器1004,配置为执行存储在存储器1002中的可执行指令以:通过偏航率对多个路段进行筛选,因此,在筛选过程中使用偏航率对多个路段进行排序,由于第一路段数据是选择偏航率最大所对应的路段数据,在进行偏航问题的研究过程中相对于其他的路段数据更能反应偏航原因,故能够根据第一路段数据判断道路是否出现异常。选取偏航率最大的路段数据作为第一路段数据,避免了针对多个路段数据分析偏航原因,降低了偏航原因分析所需要处理的数据量,在降低了算力的占用和能源消耗的同时,提高了异常路段数据确定的速度。
在本发明的一个实施例中,如图11所示,处理器1004还被配置为执行存储在存储器1002中的可执行指令以:根据第一路段数据对历史订单进行分类;在轨迹数据不包含第一路段数据的历史订单的偏航率大于第一偏航数值的情况下,或在轨迹数据不包含第一路段数据的历史订单数大于第一订单数值的情况下:在不包含第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据。
在该技术方案中,处理器1004还被配置为执行存储在存储器1002中的可执行指令以:在确定第一路段数据之后,使用第一路段数据对历史订单进行分类,得到包含第一路段数据的历史订单和不包含第一路段数据的历史订单,为了消除第一路段数据对后期路段数据的筛选,选择不包含第一路段数据的历史订单进行新一轮的路段数据的筛选,在此之前,判断不包含第一路段数据的历史订单是否满足再次筛选路段数据的条件,具体地,在轨迹数据不包含第一路段数据的历史订单的偏航率小于第一偏航数值的情况下,即不包含第一路段数据的历史订单出现偏航的几率较低,为了降低对算力的占用和能源的消耗,不再进行新一轮的路段数据的筛选,同理,在轨迹数据不包含第一路段数据的历史订单数小于第一订单数值的情况下,轨迹数据不包含第一路段数据的历史订单的数量过小,为了降低对算力的占用和能源的消耗,不再进行新一轮的路段数据的筛选,只有在轨迹数据不包含第一路段数据的历史订单的偏航率大于第一偏航数值的情况下,或在轨迹数据不包含第一路段数据的历史订单数大于第一订单数值的情况下,在不包含第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据,进而筛选得到反应偏航原因的路段数据进行分析。本技术方案的上述步骤能够将消除第一路段数据对第二路段数据筛选的影响,进而得到的第二路段数据能够真正反应出偏航原因,便于发现异常路段。
在本发明的一个实施例中,如图11所示,处理器1004还被配置为执行存储在存储器1002中的可执行指令以:将不包含第一路段数据的历史订单作为更新后历史订单;根据第二路段数据对更新后历史订单进行分类,直至更新后历史订单的偏航率小于第一偏航数值或更新后历史订单数小于第一订单数值。
在该实施例中,处理器1004还被配置为执行存储在存储器1002中的可执行指令以:通过将不包含第一路段数据的历史订单作为更新后的历史订单,进而在进行新一轮的判断过程中,还能使用上一次的判断标准,由于判断是否需要进行新一轮的路段数据的筛选的判断条件相同,进而在进行路段数据筛选过程可以多次进行,直至不满足进一步筛选的条件。上述过程应用决策树的思想进行分类,通过执行就可以筛选得到互不影响路段数据,以便进行偏航原因的分析,避免了现阶段需要多次重复对同一历史订单进行分析,进而需要大量处理数据的问题,同时避免了筛选得到的路段数据彼此关联,影响偏航原因的分析。
在本发明的一个实施例中,如图11所示,处理器1004被配置为执行存储在存储器1002中的可执行指令以:基于偏航率对不包含第一路段数据的多个路段数据进行排序以得到排序结果,根据排序结果选取预设数量的路段数据;从预设数量的路段数据中任选一个路段数据作为第二路段数据。
在该实施例中,为了提高路段数据的筛选速度,在进行新一轮的路段数据筛选过程中限定多个路段数据的数量,处理器1004被配置为执行存储在存储器1002中的可执行指令以:基于偏航率对不包含第一路段数据的多个路段数据进行排序,根据排序结果选择预设数量的路段数据作为候选的路段数据,基于候选的路段数据筛选出第二路段数据,进一步地,在预设数量是多次实验的结果,筛选得到的候选的路段数据是在排序结果中由高至低选取预设数量后的得到的路段数据。
在本发明的一个实施例中,如图11所示,处理器1004还配置为执行存储在存储器1002中的可执行指令以:在确认根据偏航率筛选得到的路段数据组成的无序集合存在的情况下,停止对历史订单的分类。
在该实施例中,为了进一步降低路段数据的筛选过程花费的时间,处理器1004还配置为执行存储在存储器1002中的可执行指令以:判断根据偏航率筛选得到的路段数据组成的无序集合是否存在,若确定的无序集合存在,则停止对历史订单的分类。通过判断无序集合是否存在,若确定的多个路段数据对应的无序集合之前已经存在,即提前停止了历史订单的分类,进而避免对路段数据的筛选,降低了需要处理的数据量和能源的消耗。
在本发明的一个实施例中,如图11所示,处理器1004配置为执行存储在存储器1002中的可执行指令以:查找根据偏航率筛选得到的路段数据对应的唯一编码;在唯一编码组成的无序集合存在的情况下,则判定根据偏航率筛选得到的路段数据组成的无序集合存在。
在该实施例中,处理器1004配置为执行存储在存储器1002中的可执行指令以:通过查找与路段数据的唯一编码,利用编码构建无序集合,通过判定由唯一编码组建的无序集合是否存在。具体地,唯一编码组建的无序集合确定的方式简单,相对于直接使用已选路段数据组建的无序集合需要的算力低,处理的数据量小,进而在得到相同的判定结果下,需要的时间更少,进而提高了判定速度。
在本发明的一个实施例中,如图11所示,处理器1004还配置为执行存储在存储器1002中的可执行指令以:在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单与历史订单的数量比值小于低于第三预设阈值的情况下,停止对历史订单的分类或在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单的数量小于第四预设阈值,停止对历史订单的分类。
在该实施例中,为了进一步提高路段数据的筛选速度,需要对历史订单进行分类提出新的剪枝条件,处理器1004还配置为执行存储在存储器1002中的可执行指令以:在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单与历史订单的数量比值小于低于第三预设阈值的情况下,停止对历史订单的分类,或在轨迹数据不包含根据偏航率筛选得到的路段数据的历史订单的数量小于第四预设阈值,停止对历史订单的分类,进而降低对历史订单进行分类过程中对算力的需求和能源的消耗。
在本发明的一个实施例中,如图11所示,轨迹数据包括实走轨迹和导航轨迹,处理器1004配置为执行存储在存储器1002中的可执行指令以:使用序列挖掘算法对实走轨迹和导航轨迹进行挖掘,确定第一组路段数据集合和第二组路段数据集合;根据第一组路段数据集合和第二组路段数据集合的交集确定多个路段数据。
在该实施例中,轨迹数据是网约车、出租车辆、私家车辆等历史出行数据,其中,轨迹数据包括两种情况,轨迹数据是导航轨迹或者轨迹数据是实走轨迹。处理器1004配置为执行存储在存储器1002中的可执行指令以:在确定多个路段数据时,首先根据轨迹数据是实走轨迹确定第一组路段数据集合,根据轨迹数据是导航轨迹确定第二组路段数据集合,第一组路段数据集合和第二组路段数据集合的交集确定多个路段数据;或者首先根据轨迹数据是实走轨迹确定第二组路段数据集合,根据轨迹数据是导航轨迹确定第一组路段数据集合,第一组路段数据集合和第二组路段数据集合的交集确定多个路段数据,根据具有偏航的历史订单筛选路段数据,进而进行偏航原因的分析。
在本发明的一个实施例中,如图11所示,第一组路段数据和第二组路段数据的支持度大于预设阈值;或多个路段数据的支持度大于预设阈值。
在该实施例中,为了进一步提高路段数据的筛选速度,在确定多个路段数据的同时,通过设定序列挖掘算法的支持度,滤除掉支持度小于预设阈值的路段数据,只针对支持度大于预设阈值的路段数据来筛选,进而降低了多个路段数据的数量,降低了数据处理的数据量,减少了能源的消耗。
在本发明的一个实施例中,序列挖掘算法为二元的PrefixSpan算法。
在本发明的第三方面的实施例中,在于提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行上述任一项路段数据筛选方法。
本发明提供的一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项路段数据筛选方法的步骤,因此具有上述任一项使用路段数据筛选方法的全部技术效果,在此不再赘述。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种路段数据筛选方法,其特征在于,包括:
获取历史订单的轨迹数据;
使用序列挖掘算法对所述轨迹数据进行挖掘,确定多个路段数据;
确定所述多个路段数据中任一路段数据下所述历史订单的偏航率;
根据所述偏航率筛选所述路段数据。
2.根据权利要求1所述的路段数据筛选方法,其特征在于,
所述根据所述偏航率筛选所述路段数据的步骤,具体包括:
根据所述偏航率对所述多个路段数据进行排序,选取偏航率最大所对应的路段数据作为第一路段数据。
3.根据权利要求2所述的路段数据筛选方法,其特征在于,还包括:
根据所述第一路段数据对所述历史订单进行分类;
在所述轨迹数据不包含所述第一路段数据的历史订单的偏航率大于第一偏航数值的情况下,或在所述轨迹数据不包含所述第一路段数据的历史订单数大于第一订单数值的情况下:
在不包含所述第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据。
4.根据权利要求3所述的路段数据筛选方法,其特征在于,所述在不包含所述第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据的步骤之后,还包括:
将不包含所述第一路段数据的历史订单作为更新后历史订单;
根据所述第二路段数据对所述更新后所述历史订单进行分类,直至所述更新后所述历史订单的偏航率小于所述第一偏航数值或更所述新后所述历史订单数小于所述第一订单数值。
5.根据权利要求3所述的路段数据筛选方法,其特征在于,所述在不包含所述第一路段数据的多个路段数据中任选一个路段数据作为第二路段数据的步骤,具体包括:
基于所述偏航率对不包含所述第一路段数据的所述多个路段数据进行排序以得到排序结果,根据所述排序结果选取预设数量的路段数据;
从所述预设数量的路段数据中任选一个路段数据作为所述第二路段数据。
6.根据权利要求3所述的路段数据筛选方法,其特征在于,还包括:在确认根据所述偏航率筛选得到的所述路段数据组成的无序集合存在的情况下,停止对所述历史订单的分类。
7.根据权利要求6所述的路段数据筛选方法,其特征在于,所述在确认已选路段数据组建的无序集合存在的步骤,具体包括:
查找根据所述偏航率筛选得到的所述路段数据对应的唯一编码;
在所述唯一编码组成的无序集合存在的情况下,则判定所述根据所述偏航率筛选得到的所述路段数据组成的无序集合存在。
8.根据权利要求3或6所述的路段数据筛选方法,其特征在于,还包括:
在所述轨迹数据不包含根据所述偏航率筛选得到的所述路段数据的历史订单与所述历史订单的数量比值小于低于第三预设阈值的情况下,停止对所述历史订单的分类或
在所述轨迹数据不包含根据所述偏航率筛选得到的所述路段数据的历史订单的数量小于第四预设阈值,停止对所述历史订单的分类。
9.根据权利要求1所述的路段数据筛选方法,其特征在于,
所述轨迹数据包括实走轨迹和导航轨迹,所述使用序列挖掘算法对所述轨迹数据进行挖掘,确定多个路段数据的步骤,具体包括:
使用所述序列挖掘算法对所述实走轨迹和所述导航轨迹进行挖掘,确定第一组路段数据集合和第二组路段数据集合;
根据所述第一组路段数据集合和所述第二组路段数据集合的交集确定所述多个路段数据。
10.根据权利要求9所述的路段数据筛选方法,其特征在于,所述第一组路段数据和所述第二组路段数据的支持度大于预设阈值;或所述多个路段数据的支持度大于预设阈值。
11.根据权利要求1所述的路段数据筛选方法,其特征在于,所述序列挖掘算法为二元的PrefixSpan算法。
12.一种路段数据筛选***,其特征在于,包括:
存储器,配置为存储可执行指令;
处理器,配置为执行存储的指令以实现如权利要求1至11中任一项所述路段数据筛选方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述路段数据筛选方法的步骤。
CN201911266014.7A 2019-12-11 2019-12-11 路段数据筛选方法、***和存储介质 Pending CN111858695A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911266014.7A CN111858695A (zh) 2019-12-11 2019-12-11 路段数据筛选方法、***和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911266014.7A CN111858695A (zh) 2019-12-11 2019-12-11 路段数据筛选方法、***和存储介质

Publications (1)

Publication Number Publication Date
CN111858695A true CN111858695A (zh) 2020-10-30

Family

ID=72970898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911266014.7A Pending CN111858695A (zh) 2019-12-11 2019-12-11 路段数据筛选方法、***和存储介质

Country Status (1)

Country Link
CN (1) CN111858695A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408787A (zh) * 2023-12-15 2024-01-16 江西求是高等研究院 一种基于决策树的根因挖掘分析方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408787A (zh) * 2023-12-15 2024-01-16 江西求是高等研究院 一种基于决策树的根因挖掘分析方法及***
CN117408787B (zh) * 2023-12-15 2024-03-05 江西求是高等研究院 一种基于决策树的根因挖掘分析方法及***

Similar Documents

Publication Publication Date Title
Brzinsky-Fay et al. New developments in sequence analysis
CN104978420B (zh) 行车路线匹配方法和装置
JP5070574B2 (ja) 局所交通量予測プログラム生成装置、局所交通量予測装置、局所交通量予測プログラム生成方法、局所交通量予測方法及びプログラム
CN105550171A (zh) 一种垂直搜索引擎的查询信息纠错方法和***
CN106289287B (zh) 一种基于选线经验的车载端多目标最短路径计算方法
CN111292356B (zh) 运动轨迹与道路的匹配方法及装置
CN111815432A (zh) 金融服务风险预测方法及装置
CN110895879A (zh) 同行车的检测方法及装置、存储介质、电子装置
JP7059781B2 (ja) 最適化装置、最適化方法、及びプログラム
CN111860858A (zh) 一种模型更新参数的确定方法、确定装置及可读存储介质
CN107133335B (zh) 一种基于分词与索引技术的重复记录检测方法
CN111858695A (zh) 路段数据筛选方法、***和存储介质
CN113609240B (zh) 基于海量卡口数据的车辆出行轨迹重构方法
CN112748452B (zh) 一种基于路网数据的gps轨迹清洗方法
CN114253975A (zh) 一种负载感知的路网最短路径距离计算方法及装置
CN112988797A (zh) 基于p-stable lsh的时空伴随查询方法
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
CN116151107B (zh) 一种岩浆型镍钴成矿潜力的识别方法、***及电子设备
Haunert et al. Propagating updates between linked datasets of different scales
Anderson et al. A proposed measure of environmental complexity for robotic applications
CN107564289B (zh) 一种合并交通节点的道路网预处理方法
Zhou et al. MBFP generalized association rule mining and classification in traffic volume prediction
CN113515674A (zh) 时序图随机游走的采样方法及装置
CN112530520A (zh) 一种基于评分机制与LightGBM的CircRNA功能预测方法
CN111488903A (zh) 基于特征权重的决策树特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination