CN112328728A - 挖掘出行者轨迹的聚类方法、装置、电子装置和存储介质 - Google Patents

挖掘出行者轨迹的聚类方法、装置、电子装置和存储介质 Download PDF

Info

Publication number
CN112328728A
CN112328728A CN202011371345.XA CN202011371345A CN112328728A CN 112328728 A CN112328728 A CN 112328728A CN 202011371345 A CN202011371345 A CN 202011371345A CN 112328728 A CN112328728 A CN 112328728A
Authority
CN
China
Prior art keywords
clustering
optimal
traveler
index
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011371345.XA
Other languages
English (en)
Inventor
张欣环
刘宏杰
吴金洪
施俊庆
毛程远
孟国连
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN202011371345.XA priority Critical patent/CN112328728A/zh
Publication of CN112328728A publication Critical patent/CN112328728A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种挖掘出行者轨迹的聚类方法、装置、电子装置和存储介质。其中,该挖掘出行者轨迹的聚类方法包括:获取出行者轨迹数据;确定出行者轨迹数据的聚类参数,其中,聚类参数包括:最优邻域半径和最小邻域点数;根据聚类参数,确定出行者轨迹数据的聚类结果;根据预设评价指标对聚类结果进行评价,得到最优聚类参数,其中,预设评价指标包括:内外占空比指数评价指标,内外占空比指数评价指标的评价结果包括:任意两类别的类内密度之和除以两聚类合并密度的最大值的算术平均值;根据最优聚类参数,确定出行者轨迹数据的最优聚类结果。通过本申请,解决了相关技术中聚类参数精确度低的问题,提高了聚类参数的精确度。

Description

挖掘出行者轨迹的聚类方法、装置、电子装置和存储介质
技术领域
本申请涉及城市交通领域,特别是涉及挖掘出行者轨迹的聚类方法、装置、电子装置和存储介质。
背景技术
轨迹挖掘是指以出行者长期的活动轨迹为基础,将出行者的活动轨迹点聚类成一个个合适的区域。在城市公共交通***中,出行者的轨迹数据的挖掘是构建定制公交网络的关键技术之一,也是公交站点优化选址的基础。目前,公交线路及站点的轨迹聚类设置大多以运营成本最低为目标,较少考虑出行者的距离和时间成本。
例如,在一些相关技术中通过将轨迹划分为子轨迹段,然后再应用基于密度的聚类算法对子轨迹进行聚类,挖掘出热点。又例如,在一些相关技术中提出了基于网格的移动轨迹挖掘算法,首先基于网格划分数据,然后使用DBSCAN对每个网格进行聚类。但是由于集群的数量是FCM集群所需的输入,所以指定了三个数字作为聚类参数。然而上述两种方式只对轨迹数据进行切片或网格化,然后将聚类算法应用到实际的轨迹聚类场景中。在研究过程中发现,上述相关技术中的由于聚类算法本身没有改进,因此存在聚类参数精确度低问题,导致获取的聚类结果差的问题。
目前针对相关技术中聚类参数精确度低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种挖掘出行者轨迹的聚类方法、装置、电子装置和存储介质,以至少解决相关技术中聚类参数精确度低的问题。
第一方面,本申请实施例提供了挖掘出行者轨迹的聚类方法,所述方法包括:
获取所述出行者轨迹数据;
确定所述出行者轨迹数据的聚类参数,其中,所述聚类参数包括:最优邻域半径和最小邻域点数;
根据所述聚类参数,确定所述出行者轨迹数据的聚类结果;
根据预设评价指标对所述聚类结果进行评价,得到最优聚类参数,其中,所述预设评价指标包括:内外占空比指数评价指标,所述内外占空比指数评价指标的评价结果包括:任意两类别的类内密度之和除以两聚类合并密度的最大值的算术平均值;
根据所述最优聚类参数,确定所述出行者轨迹数据的最优聚类结果。
在其中一些实施例中,确定所述出行者轨迹数据的聚类参数之前,所述方法还包括:
对所述出行者轨迹数据进行预处理,其中,所述预处理包括以下至少之一:数据清洗处理、数据ETL处理。
在其中一些实施例中,确定所述出行者轨迹数据的聚类参数包括:
确定预设时间段内出行者的行走距离区间,以及确定在所述预设时间段内在预设区域内的停留次数区间;
根据所述行走距离区间,确定所述最优邻域半径,以及根据所述停留次数区间,确定所述最小邻域点数。
在其中一些实施例中,根据所述聚类参数,确定所述出行者轨迹数据的聚类结果包括:
将所述聚类参数作为预设聚类模型的输入参数,进行循环密度聚类计算,得到所述聚类结果。
在其中一些实施例中,根据预设评价指标对所述聚类结果进行评价,得到最优聚类参数包括:
根据内外占空比指数指标对所述聚类结果进行评价,得到内外占空比指数的三维曲面图,其中,所述三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示内外占空比指数;
在所述内外占空比指数的三维曲面图的Z坐标上的值最小的情况下,确定所述最优聚类参数,其中,所述最优聚类参数包括:最优内外占空比指数。
在其中一些实施例中,根据所述最优聚类参数,确定所述出行者轨迹数据的最优聚类结果之后,所述方法还包括:
对所述最优聚类结果进行紧实度评价、分离度评价以及DBI指数评价,确定所述最优聚类结果的聚类效果。
在其中一些实施例中,所述预设评价指标还包括:轮廓系数评价指标和DBI指数评价指标;根据预设评价指标对所述聚类结果进行评价,得到最优聚类参数包括:
根据轮廓系数评价指标对所述聚类结果进行评价,得到轮廓系数评价指标输入参数的三维曲面图,其中,所述三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示轮廓系数;
根据DBI指数评价指标对所述聚类结果进行评价,得到DBI指数评价指标输入参数的三维曲面图,其中,所述三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示DBI指数;
根据内外占空比指数指标对所述聚类结果进行评价,得到内外占空比指数的三维曲面图,其中,所述三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示内外占空比指数;
根据所述轮廓系数评价指标输入参数的三维曲面图、DBI指数评价指标输入参数和轮廓系数评价指标输入参数,确定所述最优聚类参数,其中,所述最优聚类参数包括以下之一:最优轮廓系数评价指标输入参数、最优DBI指数评价指标输入参数、最优轮廓系数评价指标输入参数。
第二方面,本申请实施例还提供了一种挖掘出行者轨迹的聚类装置,所述装置包括:
获取模块,用于获取所述出行者轨迹数据;
第一确定模块,用于确定所述出行者轨迹数据的聚类参数,其中,所述聚类参数包括:最优邻域半径和最小邻域点数;
第二确定模块,用于根据所述聚类参数,确定所述出行者轨迹数据的聚类结果;
评价模块,用于根据预设评价指标对所述聚类结果进行评价,得到最优聚类参数,其中,所述预设评价指标包括:内外占空比指数评价指标,所述内外占空比指数评价指标的评价结果包括:任意两类别的类内密度之和除以两聚类合并密度的最大值的算术平均值;
第三确定模块,用于根据所述最优聚类参数,确定所述出行者轨迹数据的最优聚类结果。
第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的挖掘出行者轨迹的聚类方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的挖掘出行者轨迹的聚类方法。
相比于相关技术,本申请实施例提供的挖掘出行者轨迹的聚类方法、装置、电子装置和存储介质,通过获取出行者轨迹数据;确定出行者轨迹数据的聚类参数,其中,聚类参数包括:最优邻域半径和最小邻域点数;根据聚类参数,确定出行者轨迹数据的聚类结果;根据预设评价指标对聚类结果进行评价,得到最优聚类参数,其中,预设评价指标包括:内外占空比指数评价指标,内外占空比指数评价指标的评价结果包括:任意两类别的类内密度之和除以两聚类合并密度的最大值的算术平均值;根据最优聚类参数,确定出行者轨迹数据的最优聚类结果的方式,解决了相关技术中聚类参数精确度低的问题,提高了聚类参数的精确度。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明实施例的挖掘出行者轨迹的聚类方法的终端的硬件结构框图;
图2是根据本申请实施例的挖掘出行者轨迹的聚类方法的流程图;
图3是根据本申请实施例的内外占空比区域的示意图;
图4是根据本申请实施例的二维合成数据集的示意图;
图5是根据本申请实施例的聚类结果的直方图;
图6是根据本申请实施例的不同性能指标的三维曲面的示意图;
图7是根据本申请实施例的不同性能指标的聚类结果示意图;
图8是根据本申请实施例的挖掘出行者轨迹的聚类装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。以运行在终端上为例,图1是本发明实施例的挖掘出行者轨迹的聚类方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的挖掘出行者轨迹的聚类方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本实施例提供了一种挖掘出行者轨迹的聚类方法,图2是根据本申请实施例的挖掘出行者轨迹的聚类方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取出行者轨迹数据。
在本步骤中,出行者轨迹数据的获取方式可以是从存储有出行者轨迹数据的历史数据库中获取,也可以是通过实时获取用户终端的APP采集到的出行者轨迹数据的方式,该出行者轨迹数据可以是用户预设的某一段时间内的出行者的轨迹数据。
步骤S202,确定出行者轨迹数据的聚类参数,其中,聚类参数包括:最优邻域半径和最小邻域点数。
需要说明的是,邻域半径可以是指出行者的行走距离,最小邻域点数可以是指出行者在一定区域内停留的次数。
在本实施例中,可以根据出行者在一定时间内的行走距离来确定最优邻域半径,以及可以根据出行者在一定区域内停留的次数来确定最小邻域点数,以实现对聚类参数的取值。
步骤S203,根据聚类参数,确定出行者轨迹数据的聚类结果。
在本步骤中,可以将步骤S202中的聚类参数进行循环密度聚类,然后得到相应的出行者轨迹数据的聚类结果,其中,该聚类的方式可以是通过聚类算法(Density-BasedSpatial Clustering of Applications with Noise,简称为DBSCAN)。
步骤S204,根据预设评价指标对聚类结果进行评价,得到最优聚类参数,其中,预设评价指标包括:内外占空比指数评价指标,内外占空比指数评价指标的评价结果包括:任意两类别的类内密度之和除以两聚类合并密度的最大值的算术平均值。
在相关技术中,在进行聚类时只考虑了聚类的内聚程度和聚类间距等系数,在轨迹聚类方面存在一定的局限性。例如在进行聚类凝聚度评价时,没有考虑聚类内密度,忽略了聚类内部个数与聚类大小的关系,进而会导致聚类结果的精确度低的问题。而在本步骤中,通过内外占空比指数评价指标来进行评价的方式,实现了对聚类算法的改进,同时结合了内外占空比指数评价指标,避免了聚类内密度对聚类结果的影响,提高了聚类结果的精确度。
需要说明的是,本实施例中的内外占空比指数的值越低,聚类参数越好,即聚类效果越好。
步骤S205,根据最优聚类参数,确定出行者轨迹数据的最优聚类结果。
基于上述步骤S201至步骤S205,通过根据出行者的轨迹数据来确定聚类参数,进而再根据聚类参数,确定出行者轨迹数据的聚类结果,最后再通过内外占空比指数评价指标对聚类结果进行评价得到最优聚类参数的方式,实现了对聚类算法的改进,避免了相关技术中在计算聚类参数时未考虑到聚类内密度的问题,提高了聚类参数的精确度。
在其中一些实施例中,在确定出行者轨迹数据的聚类参数之前,还可以对出行者轨迹数据进行预处理,其中,预处理包括以下至少之一:数据清洗处理、数据ETL处理。
在本实施例中,由于获取到的出行者轨迹数据可能存在损坏数据、重复数据、无效数据等情况,因此在本实施例中,通过对该出行者轨迹数据进行预处理可以避免步骤S202中在确定所述出行者轨迹数据的聚类参数时,因出行者轨迹数据可能存在损坏数据、重复数据、无效数据而导致聚类参数的精确度低的问题。
需要说明的是,数据清洗:可以是对出行者轨迹数据进行删除不相关的数据和重复的数据,以及对有噪声的出行者轨迹数据进行平滑处理。
数据ETL(Extract-Transform-Load):可以是指以用户唯一识别编码,从数据实例中抽取用户的所有行为轨迹,构建一个用户的单体数据集,循环遍历所有用户,最终形成多个用户的单体数据集,作为整个聚类集合的候选集。最后再从候选集合中抽取若干候选人作为实验对象,确保单一用户轨迹数据大于预设值(例如1000),构建聚类集合。
在不同的应用场景中,最佳的聚类输入参数值在一定范围内波动。由于输入参数的范围决定了聚类算法执行的效率和找到最优聚类参数的可能性,因此在聚类算法执行之前建立一个合适的输入参数范围就显得尤为重要。聚类次数过多,数据集可能无法形成有效的聚类;聚类次数过少,聚类过于分散,不实用。此外,聚类点之间的距离会影响聚类内的紧实度。如果距离度量太大,聚类太离散,无法有效区分不同的聚类。如果距离度量太小,则聚类距离太近,可能会产生太多琐碎、无价值的聚类结果。
因此,为了避免上述问题,在其中一些实施例中,确定出行者轨迹数据的聚类参数可以包括如下步骤:确定预设时间段内出行者的行走距离区间,以及确定在预设时间段内在预设区域内的停留次数区间;根据行走距离区间,确定最优邻域半径,以及根据停留次数区间,确定最小邻域点数。
在本实施例中,可以通过将行走距离区间作为邻域半径区间,以及将停留次数区间作为最小邻域点数区间,进而再根据邻域半径区间确定最优邻域半径,以及根据最小邻域点数区间确定最小邻域点数的方式,实现了对最优邻域半径和最小邻域点数的确定,避免了上述问题,提高了聚类参数的精确度。
在其中一些实施例中,根据聚类参数,确定出行者轨迹数据的聚类结果可以包括如下步骤:将聚类参数作为预设聚类模型的输入参数,进行循环密度聚类计算,得到聚类结果。在本实施例中,通过将聚类参数作为预设聚类模型的输入参数,进行循环密度聚类计算,得到聚类结果的方式,实现了对聚类结果的获取。
需要说明的是,预设聚类模块可以由用户配置。
在其中一些实施例中,根据预设评价指标对聚类结果进行评价,得到最优聚类参数可以包括如下步骤:根据内外占空比指数指标对聚类结果进行评价,得到内外占空比指数的三维曲面图,其中,三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示内外占空比指数;在内外占空比指数的三维曲面图的Z坐标上的值最小的情况下,确定最优聚类参数,其中,最优聚类参数包括:最优内外占空比指数。
在本实施例中,通过获取到的内外占空比指数的三维曲面图,进而根据该内外占空比指数的三维曲面图来确定最优聚类参数的方式,实现对最优聚类参数的自动获取,无需人工参与,减少了人工参与的繁琐流程。
在其中一些实施例中,在根据最优聚类参数,确定出行者轨迹数据的最优聚类结果之后,还可以对最优聚类结果进行紧实度评价、分离度评价以及DBI指数评价,确定最优聚类结果的聚类效果。
在本实施例中,通过对最优聚类结果进行紧实度评价、分离度评价以及DBI指数评价,实现了对最优聚类结果的聚类效果,同时可以反映出聚类结果的内聚值和聚类间距,以便于用户确定聚类效果。
除了上述实施例中,通过内外占空比指数评价指标来对聚类结果进行评价外,在其中一些实施例中,预设评价指标还可以包括:轮廓系数评价指标和DBI指数评价指标;根据预设评价指标对聚类结果进行评价,得到最优聚类参数还可以包括如下步骤:根据轮廓系数评价指标对聚类结果进行评价,得到轮廓系数评价指标输入参数的三维曲面图,其中,三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示轮廓系数;根据DBI指数评价指标对聚类结果进行评价,得到DBI指数评价指标输入参数的三维曲面图,其中,三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示DBI指数;根据内外占空比指数指标对聚类结果进行评价,得到内外占空比指数的三维曲面图,其中,三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示内外占空比指数;根据轮廓系数评价指标输入参数的三维曲面图、DBI指数评价指标输入参数和轮廓系数评价指标输入参数,确定最优聚类参数,其中,最优聚类参数包括以下之一:最优轮廓系数评价指标输入参数、最优DBI指数评价指标输入参数、最优轮廓系数评价指标输入参数。
在本实施例中,通过结合轮廓系数评价指标、DBI指数评价指标以及内外占空比指数评价指标来对聚类结果进行聚类,进而分别得到对应的指标的三维曲面图,最后再根据各个指标对应的三维曲面图来得到最优聚类参数的方式,可以进一步的提高聚类参数的精确度。
下面通过优选实施例对本申请实施例进行描述和说明。
在相关技术中,DBSCAN算法的应用程序需要两个重要参数:给定点在邻域内成为核心对象的最小邻域点数MinPts,以及邻域半径Eps。同时BSCAN由于其简单性和检测不同大小、形状的集群的能力,在许多领域得到了广泛的应用。由于传统的DBSCAN算法在选择聚类参数时严重依赖于用户的手工经验,如果用户没有足够的实践经验来确定适当的聚类参数值,则输入参数的取值不当可能会影响聚类结果的质量。为了克服上述缺陷,一方面,一些相关技术中将K-近邻算法和DBSCAN算法结合起来确定聚类参数,实现无参数聚类技术;或者混合Dsets(优势集)与DBSCAN算法自动查找取值,但是上述方式需要至少两次处理数据,而复杂的步骤并不适合大规模的数据。另一方面,有的通过改进聚类算法的有效性指标(例如,Duun index(邓恩指数)、DBI(Davies-Bouldin指数和轮廓(Silhouette)系数是评价无标记聚类算法的三个基本指标。),也可以有效地选择聚类参数,提高聚类效果;例如,在一些相关技术中设计了一个新的聚类有效性指标,称为紧-分离比例(compact-separateproportion,简称为CSP)指数,以评估AHC算法产生的聚类结果,并确定最优的聚类数目。又例如,一些相关技术中还提出了一种利用多边形不相似度函数(Polygon Dissimilarityfunction,简称为PDF)对Davies Bouldin指数进行修正的空间区域聚类有效性指标。再例如,在一些相关技术中通过在已知的聚类效度指标的定义中引入了一种新的基于线对称的距离效度指标;用圆柱距离代替了欧几里德距离,该距离尝试捕获沿连接均值线段的数据密度,以估计聚类均值之间的距离。还例如,在一些相关技术中,为挖掘AIS数据中有关船舶运动规律有效的、潜在的信息,利用类似DBSCAN算法对轨迹段进行聚类,得出船舶运动典型轨迹,但是该方式往往侧重于检测轨迹的空域异常,忽略了对轨迹时域异常的检测,并且存在检测精确度不高等问题。
同时上述现有技术中的聚类参数的有效性指标一般都是针对二维人工数据集,只关注聚类凝聚度、聚类间距,却忽略了聚类内密度。这导致通过相关技术中的方式进行聚类的聚类结果可能会变成长条聚类结果,而该聚类结果并不是实际需要的。因此针对相关技术中与聚类参数相关的指标的缺陷,有必要对DBSCAN算法及其有效性指标同时进行改进,以正确找出出行者位置信息数据集的最优聚类参数,从而提高聚类参数的精确度。
而在本申请实施例中实现了对DBSCAN的改进,通过使用改进的DBSCAN聚类算法对数据进行聚类,可以自动确定输入参数,避免了根据用户的实践经验来确定聚类参数,而导致聚类参数精确度低的问题。
本申请实施例提出的改进DBSCAN算法中,将聚类过程产生的聚类结果作为评价函数的输入参数,然后得到评价结果,如表1所示。
表1 DBSCAN聚类算法的改进数据表
Figure BDA0002806809540000111
其中,表1中的输入参数包括如下:
(1)D是当前输入数据集,例如,D1(x1,y1)表示集合中平面坐标的x和y。
(2)MaxEps是两个平面坐标点之间的最大距离,可以根据实际意义灵活确定。
(3)MinEps是两个平面坐标点之间的最小距离,可以根据实际意义灵活确定。
(4)E表示集合中任意两点之间的距离,取值范围为MinEps和MaxEps之间。
(5)MaxNum设置了聚类阈值的上限,因为如果聚类的数量太大,数据集可能无法形成有效的聚类。
(6)MinNum设置集群阈值的下限。如果聚类的数量太少,可能会导致聚类太多,甚至一个点变成一个类,没有最终计算结果。
(7)M确定了某个集群的最优数量阈值,其值范围在MaxNum和MinNum之间。
表1中的输出参数包括如下:
(1)ResultC是聚类结果,使用不同的输入参数可以得到不同的聚类结果。
(2)MinIedci是最小占空比,最初设置为无穷大。
(3)BestEps是E的最佳值,最初设置为0。
(4)BestminPts是M的最佳值,初始值为0。
需要说明的是,不同的输入参数(聚类参数)会产生不同的聚类结果。为了防止参数的丢失,本申请实施例中改进的DBSCAN算法给出了输入参数(聚类参数)的范围,遍历该范围内的所有参数值,然后生成聚类结果。通过对聚类结果的评价和计算,最后得到最优的评价值,再基于反向传播法计算出最优的输入参数(最优聚类参数)。
其中,该改进的DBSCAN算法流程说明包括如下步骤:
步骤1,构建输入参数范围。
在不同的应用场景中,最佳的聚类输入参数值在一定范围内波动。由于输入参数的范围决定了算法执行的效率和找到最优值的可能性,因此在算法执行之前建立一个合适的输入参数范围就显得尤为重要。聚类次数过多,数据集可能无法形成有效的聚类;聚类次数过少,聚类过于分散,不实用。此外,聚类点之间的距离会影响聚类内的紧实度。如果距离度量太大,聚类太离散,无法有效区分不同的聚类。如果距离度量太小,则聚类距离太近,可能会产生太多琐碎、无价值的聚类结果。因此,在聚类的前期,首先要确定Eps和MinPts的最大值和最小值,从而构建聚类参数的有效范围。
步骤2,生成聚类结果。
以步骤1的邻域半径范围为输入参数,进行循环密度聚类,完成所有出行者6个月轨迹点的聚类计算,并保存各聚类结果(resultC)。
步骤3,评价聚类结果。
利用轮廓系数、DBI(DAVID-BOULDIN指数)、及本文提出的内外占空比指数IEDCI(internal and external duty cycle index)等评价指标对各聚类结果进行评价。并将最佳聚类参数BestEps和BestMinPts保存到评价指标中。
步骤4,获得最优聚类结果。
以步骤3中的BestEps和BestMinPts为输入参数,计算最佳聚类结果。本文的聚类结果是出行者实际活动轨迹的聚类,是后续研究中出行者所有可能出行的起点、终点。
其中,步骤2中的基于占空比的聚类评价指标可以通过以下方式实现:
在一些实施例中,选择聚类参数的评价指标来评价聚类结果的质量,也可以称为聚类有效性分析。而一个好的集群划分应一般具有以下特点:不同集群中的样本尽可能地不同,同一集群中的样本尽可能地相似。
因此,通过对出行者历史轨迹的研究,发现影响聚类结果的因素不仅包括聚类的内聚程度和聚类之间的边界距离,还包括聚类中轨迹点的数量。而传统的评价指标由于只考虑了聚类的内聚程度和聚类间距等系数,所以在轨迹聚类方面存在一定的局限性。且在进行聚类凝聚度评价时,没有考虑聚类内密度,忽略了聚类内部个数与聚类大小的关系。而在不规则聚类中,单个变量的影响程度往往过大,聚类结果往往停留在边界点上,导致无法实现聚类参数的最优选择的问题。
针对现有的评价指标不适合基于密度的地理位置信息聚类问题,本申请实施例提出了基于聚类内外占空比的有效性评价指标IEDCI(internal and external duty cycleindex)。其中,内外占空比的公式如下:
Figure BDA0002806809540000131
根据公式(1),内外占空比涉及三个区域,如图3所示,Si、Sj和Si+j,其中,Si可以代表第i类中最外层点围成的区域,Sj可以代表第j类中最外层点围成的区域,Si+j可以表示两个类合并后最外层点围成的区域。在本申请实施例中通过利用占空比平衡类内距离和类间距离的关系,可以解决单点成类或所有点成类的不适当情况。需要说明的是,面积是一个二维的标准,可以用来评估两个类的离散程度,从而有效地避免两个类中的点可能存在的线性极值距离。
在确定了内外部占空比后,可以基于内外占空比提出了基于内外部占空比的评价指标IEDCI(internal and external duty cycle index),公式如下:
Figure BDA0002806809540000132
其中,ni、nj表示第i、j个聚类中点的个数,k表示当前集群的数量。
Figure BDA0002806809540000141
表示任意两个不同聚类集合比值的最大值,F(k)是基于占空比的评价指标的结果:任意两类别的类内密度之和除以两聚类合并密度的最大值的算术平均值,F(k)越小意味着分类结果越好。聚类数目的不同可能导致不同的结果。当F(k)的值最小时,聚类参数的效果最好(聚类阈值MinPts和邻域半径Eps)。
为寻找最优的输入参数和最优聚类结果,本申请实施例通过基于聚类点和聚类占空比的有效性评价指标,用于评估不同输入参数所产生的聚类结果,并根据之前的反馈确定当前的最佳输入参数(最优聚类参数),提高了聚类参数的精确度。
下面结合一些实验实施例对本申请实施例进行描述和说明。
在一些实施例中,可以先确定进行实验的数据集(实验的出行者轨迹数据集),包括以下至少之一:仿真数据集、案例数据集。
其中,仿真数据集的获取可以通过以下方式:
仿真数据集为计算机模拟生成的随机数,每个数据集可以有1200个点,每个点都以坐标的形式表示并划分为一个簇。如图4所示,该数据集可以是a清晰簇、b模糊簇、c晕簇和d非簇,在这些数据集中,清晰簇和模糊簇的结构可以是凸的,晕簇的结构可以是环形的,而非簇的结构可以是飞溅的。
其中,案例数据集的获取可以通过以下方式:
本申请实施例中使用的案例出行者轨迹数据可以用来自用户终端的APP(例如YiBus手机APP),其中,Yi Bus是一款手机app,可以查询车站、线路换乘、实时到达预测等交通信息。在本申请实施例中,使用了G市近6个月(例如2020年1月至2020年6月)的500名用户的位置信息数据。该500名用户对应有500个TXT格式的文件,每个文件代表每位出行者在这6个月的所有位置信息。每位出行者的轨迹数据可以由轨迹点y坐标和x坐标表示,此外,由于数据集代表的是真实的出行者的轨迹点,因此与计算机生成的仿真数据集相比,数据的结构是多种多样的,例如,数据的结构可以包括但不限于线性、环形、凸形和飞溅形等。本实施例中的案例数据集的数据结构如表2所示,其中,UID为用户SIM卡的唯一标识,LNG为当前用户位置的经度,LAT为当前用户位置的维数,UP_TIME为坐标上传时间。
表2 G市公交出行数据结构表
Figure BDA0002806809540000151
由于APP采集的数据存在损坏数据、重复数据、无效数据等情况,需要对这些数据进行预处理。本申请实施例中可以采用以下两种方式对数据进行预处理:
方式一:数据清洗:本文对数据的预处理主要是删除不相关的数据和重复的数据,对有噪声的数据进行平滑处理。
方式二:数据ETL(Extract-Transform-Load):可以是指以用户唯一识别编码,从数据实例中抽取用户的所有行为轨迹,构建一个用户的单体数据集,循环遍历所有用户,最终形成多个用户的单体数据集,作为整个聚类集合的候选集。最后再从候选集合中抽取若干候选人作为实验对象,确保单一用户轨迹数据大于预设值(例如1000),构建聚类集合。
在选择完实验数据集之后,还可以将不同实验方式进行聚类参数对比,其对比方式可以包括如下:
在上述实施例中的出行者轨迹挖掘中,Eps是出行者的行走距离,MinPts是出行者在一定区域停留的次数,两者都有实际意义。因此,可以根据实际意义来划定参数范围。通过对现有数据的统计,例如,可以得出出行者的行走半径大部分在20米到110米之间。因此,本申请实施例中的实验可以将Eps阈值设定在(20,110)以内,且后续的实验测试也可以基于此范围。
在聚类太少点或太多点都没有实际意义,因为聚类坐标阈值太小可能是一个噪声点,很难找到阈值较大的聚类。因此,在申请实施例中的实验中,MinPts的阈值可以设置在(8,13)以内,后续的实验测试也可以基于此范围。
为了验证改进的DBSCAN算法自动选择的参数的性能,本申请实施例中可以通过使用了案例数据集并生成聚类结果,并与其他参数进行比较,例如相关技术中的经验值和统计值。
对所有输入参数的结果进行统计,获取最常见的聚类参数,如图5所示,图5中clustering statistics histogra表示聚类统计直方图,Number of clusters表示聚类数量,Frequency of clusters表示聚类数量出现的频率,存在统计的输入参数,可以取当前输入参数的中位数(60,12)作为统计输入参数(Eps值为60,MinPts值为12)。而通过用户经验值获得的Eps和MinPts值分别为85和10。通过本申请实施例改进的DBSCAN算法得到的Eps和MinPts分别为65和12。
案例数据集共有500个个体的定位点信息。还可以使用紧实度、分离度和DBI来评价聚类结果。紧实度和DBI代表类的内聚度,分离度代表类之间的距离,紧实度和DBI值越小,分离值越高,聚类效果越好。从表3可以看出,本申请实施例中自动生成的聚类参数在分离度和DBI上取得了更好的聚类效果。与相关技术中通过用户的实践经验来进行输入相比,通过本申请实施例中的方式,聚类效果得到了提高。
表3不同性能参数实验结果
Figure BDA0002806809540000161
然而,为了验证IEDCI的性能,本申请实施例可以分别使用仿真数据集、案例数据集来生成聚类结果,并将其与其他有效性指标进行比较,包括DBI和轮廓系数评价。
本实施例中使用仿真数据集来评估不同算法的性能,该评估过程包括如下:
本申请实施例中通过使用紧实度和分离来评估多个仿真数据集的聚类结果。表4为三个评价指标的紧实度评价结果,从表4中的结果可以看出,IEDCI对数据集清晰簇、模糊簇和非簇的评价值更好。表5为三个评价函数的分离度评价结果,从结果可以看出,IEDCI对于清晰簇和非簇的数据集有更好的评价值。
表4不同性能指标的紧实度评价结果表
Figure BDA0002806809540000162
表5不同性能指标的分离度评价结果表
Figure BDA0002806809540000171
本实施例中可以使用案例数据集来评估算法的性能,该评估过程如下:
一、最优输入(最优聚类参数)选择:利用轮廓系数、DBI和IEDCI这三个评价指标来执行上述表1中的聚类算法。遍历参数范围内所有可能的值后,算法可以得到三个评价函数对应的最优输入参数,如表6所示,在该实施例中可以使用三维曲面图来说明获得最优输入参数的过程,如图6所示。图6中x
轴表示Eps的所有可能值,y坐标表示MinPts的所有可能值,z坐标表示相应的值。当值最小时,Eps和MinPts的值最好。在相同的输入范围内进行参数选择后,由轮廓系数产生的最优参数值将在边界点处产生,DBI和IEDCI都将在该范围内获得最优参数值,从而使评价指标的值最小化。
表6最佳MinPts和Eps值表
Figure BDA0002806809540000172
二、聚类结果:使用三个评价指标的最优输入值(最优聚类参数)生成三个不同的聚类结果。如图7所示,从图7中可以看出,对于相同范围内的聚类点,由轮廓系数评价指标产生的结果将红色椭圆内的离散点聚集成一个类。然而,从出行者轨迹的实际情况来看,由于出行者活动过多,聚类结果较差。在DBI聚类结果中,将红色椭圆分为两部分。同理,图7中A点到B点的距离在图7中(b)远远超出了人类活动的范围(例如500米)。在通过本申请实施例中改进的算法进行聚类结果中,出行者活动的范围小于居民轨迹的半径。因此,该改进的聚类算法在实际应用中的精确度更高,效果更好。
三、最优聚类结果评价:对生成的最优聚类结果进行紧实度和分离度评价,评价结果如表7所示。在充分考虑聚类密度和聚类间距影响的基础上,本申请实施例中得到的最优聚类结果具有更高的分离性和更小的紧致性,这更符合轨迹聚类中人类活动的实际情况,具有更高的精确度。
表7分离度和紧实度评价结果表
Figure BDA0002806809540000181
本申请实施例中基于改进的评价指标(内外占空比指标)对聚类算法(DBSCAN)的输入参数进行评价,该评价指标平衡了类内距离和类间距离,从而获得了出行者位置信息聚类的最优输入参数,避免了人工经验导致的参数不准确的问题。其次,基于公交出行数据,对本申请实施例中提出的方案进行了验证,实验表明,本文提出的算法能够在弹道数据集上找到最优的输入参数值。通过对聚类结果的紧实度和分离度的计算,以及与DBI(Davies-Bouldin)指数和轮廓系数相比,得到IEDCI评价指标得到的最优参数值具有较小的内聚值和较大的聚类间距值。因此,本申请实施例中提出的改进聚类算法在挖掘出行者轨迹数据聚类的起点方面具有良好的性能。
本申请实施例中提出的方案不仅可以用于出行者位置信息的聚类,以获取出行起点和终点,在一些实施例中,还可以推广到物流与供应链管理、汽车动态路由、加油站规划等路由问题。
由于人或车辆有一定的运动范围,集群的大小受到限制。因此,在其中一些实施例中,还可以将用户的SIM卡定位信息添加到实验数据中,以丰富数据多样性,由于APP的使用频率直接决定了当前集群的集群密度。其次,还可以通过将计算步长引入到计算过程中,以提高整体的计算效率等。
本实施例还提供了一种挖掘出行者轨迹的聚类装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图8是根据本申请实施例的挖掘出行者轨迹的聚类装置的结构框图,如图8所示,该装置包括:
获取模块81,用于获取出行者轨迹数据;
第一确定模块82,耦合至获取模块81,用于确定出行者轨迹数据的聚类参数,其中,聚类参数包括:最优邻域半径和最小邻域点数;
第二确定模块83,耦合至第一确定模块82,用于根据聚类参数,确定出行者轨迹数据的聚类结果;
评价模块84,耦合至第二确定模块83,用于根据预设评价指标对聚类结果进行评价,得到最优聚类参数,其中,预设评价指标包括:内外占空比指数评价指标,内外占空比指数评价指标的评价结果包括:任意两类别的类内密度之和除以两聚类合并密度的最大值的算术平均值;
第三确定模块85,耦合至评价模块84,用于根据最优聚类参数,确定出行者轨迹数据的最优聚类结果。
在其中一些实施例中,该装置还包括:预处理模块,用于对出行者轨迹数据进行预处理,其中,预处理包括以下至少之一:数据清洗处理、数据ETL处理。
在其中一些实施例中,第一确定模块82包括:第一确定单元,用于确定预设时间段内出行者的行走距离区间,以及用于确定在预设时间段内在预设区域内的停留次数区间;第二确定单元,用于根据行走距离区间,确定最优邻域半径,以及根据停留次数区间,确定最小邻域点数。
在其中一些实施例中,第二确定模块83包括:计算单元,用于将聚类参数作为预设聚类模型的输入参数,进行循环密度聚类计算,得到聚类结果。
在其中一些实施例中,评价模块84包括:第一评价单元,用于根据内外占空比指数指标对聚类结果进行评价,得到内外占空比指数的三维曲面图,其中,三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示内外占空比指数;第三确定单元,用于在内外占空比指数的三维曲面图的Z坐标上的值最小的情况下,确定最优聚类参数,其中,最优聚类参数包括:最优内外占空比指数。
在其中一些实施例中,该装置还包括:第四确定模块,用于对最优聚类结果进行紧实度评价、分离度评价以及DBI指数评价,确定最优聚类结果的聚类效果。
在其中一些实施例中,评价模块84还包括:第二评价单元,用于根据轮廓系数评价指标对聚类结果进行评价,得到轮廓系数评价指标输入参数的三维曲面图,其中,三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示轮廓系数;第三评价单元,用于根据DBI指数评价指标对聚类结果进行评价,得到DBI指数评价指标输入参数的三维曲面图,其中,三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示DBI指数;第四评价单元,用于根据内外占空比指数指标对聚类结果进行评价,得到内外占空比指数的三维曲面图,其中,三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示内外占空比指数;第四确定单元,用于根据轮廓系数评价指标输入参数的三维曲面图、DBI指数评价指标输入参数和轮廓系数评价指标输入参数,确定最优聚类参数,其中,最优聚类参数包括:最优轮廓系数评价指标输入参数、最优DBI指数评价指标输入参数、最优轮廓系数评价指标输入参数。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
步骤S201,获取出行者轨迹数据。
步骤S202,确定出行者轨迹数据的聚类参数,其中,聚类参数包括:最优邻域半径和最小邻域点数。
步骤S203,根据聚类参数,确定出行者轨迹数据的聚类结果。
步骤S204,根据预设评价指标对聚类结果进行评价,得到最优聚类参数,其中,预设评价指标包括:内外占空比指数评价指标,内外占空比指数评价指标的评价结果包括:任意两类别的类内密度之和除以两聚类合并密度的最大值的算术平均值。
步骤S205,根据最优聚类参数,确定出行者轨迹数据的最优聚类结果。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的挖掘出行者轨迹的聚类方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种挖掘出行者轨迹的聚类方法。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种挖掘出行者轨迹的聚类方法,其特征在于,所述方法包括:
获取所述出行者轨迹数据;
确定所述出行者轨迹数据的聚类参数,其中,所述聚类参数包括:最优邻域半径和最小邻域点数;
根据所述聚类参数,确定所述出行者轨迹数据的聚类结果;
根据预设评价指标对所述聚类结果进行评价,得到最优聚类参数,其中,所述预设评价指标包括:内外占空比指数评价指标,所述内外占空比指数评价指标的评价结果包括:任意两类别的类内密度之和除以两聚类合并密度的最大值的算术平均值;
根据所述最优聚类参数,确定所述出行者轨迹数据的最优聚类结果。
2.根据权利要求1所述的挖掘出行者轨迹的聚类方法,其特征在于,确定所述出行者轨迹数据的聚类参数之前,所述方法还包括:
对所述出行者轨迹数据进行预处理,其中,所述预处理包括以下至少之一:数据清洗处理、数据ETL处理。
3.根据权利要求1所述的挖掘出行者轨迹的聚类方法,其特征在于,确定所述出行者轨迹数据的聚类参数包括:
确定预设时间段内出行者的行走距离区间,以及确定在所述预设时间段内在预设区域内的停留次数区间;
根据所述行走距离区间,确定所述最优邻域半径,以及根据所述停留次数区间,确定所述最小邻域点数。
4.根据权利要求1所述的挖掘出行者轨迹的聚类方法,其特征在于,根据所述聚类参数,确定所述出行者轨迹数据的聚类结果包括:
将所述聚类参数作为预设聚类模型的输入参数,进行循环密度聚类计算,得到所述聚类结果。
5.根据权利要求1所述的挖掘出行者轨迹的聚类方法,其特征在于,根据预设评价指标对所述聚类结果进行评价,得到最优聚类参数包括:
根据内外占空比指数指标对所述聚类结果进行评价,得到内外占空比指数的三维曲面图,其中,所述三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示内外占空比指数;
在所述内外占空比指数的三维曲面图的Z坐标上的值最小的情况下,确定所述最优聚类参数,其中,所述最优聚类参数包括:最优内外占空比指数。
6.根据权利要求1所述的挖掘出行者轨迹的聚类方法,其特征在于,根据所述最优聚类参数,确定所述出行者轨迹数据的最优聚类结果之后,所述方法还包括:
对所述最优聚类结果进行紧实度评价、分离度评价以及DBI指数评价,确定所述最优聚类结果的聚类效果。
7.根据权利要求1所述的挖掘出行者轨迹的聚类方法,其特征在于,所述预设评价指标还包括:轮廓系数评价指标和DBI指数评价指标;根据预设评价指标对所述聚类结果进行评价,得到最优聚类参数包括:
根据轮廓系数评价指标对所述聚类结果进行评价,得到轮廓系数评价指标输入参数的三维曲面图,其中,所述三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示轮廓系数;
根据DBI指数评价指标对所述聚类结果进行评价,得到DBI指数评价指标输入参数的三维曲面图,其中,所述三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示DBI指数;
根据内外占空比指数指标对所述聚类结果进行评价,得到内外占空比指数的三维曲面图,其中,所述三维曲面图的X坐标用于表示邻域半径,Y坐标用于表示最小邻域点数,Z坐标用于表示内外占空比指数;
根据所述轮廓系数评价指标输入参数的三维曲面图、DBI指数评价指标输入参数和轮廓系数评价指标输入参数,确定所述最优聚类参数,其中,所述最优聚类参数包括以下之一:最优轮廓系数评价指标输入参数、最优DBI指数评价指标输入参数、最优轮廓系数评价指标输入参数。
8.一种挖掘出行者轨迹的聚类装置,其特征在于,所述装置包括:
获取模块,用于获取所述出行者轨迹数据;
第一确定模块,用于确定所述出行者轨迹数据的聚类参数,其中,所述聚类参数包括:最优邻域半径和最小邻域点数;
第二确定模块,用于根据所述聚类参数,确定所述出行者轨迹数据的聚类结果;
评价模块,用于根据预设评价指标对所述聚类结果进行评价,得到最优聚类参数,其中,所述预设评价指标包括:内外占空比指数评价指标,所述内外占空比指数评价指标的评价结果包括:任意两类别的类内密度之和除以两聚类合并密度的最大值的算术平均值;
第三确定模块,用于根据所述最优聚类参数,确定所述出行者轨迹数据的最优聚类结果。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的挖掘出行者轨迹的聚类方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至7中任一项所述的挖掘出行者轨迹的聚类方法。
CN202011371345.XA 2020-11-30 2020-11-30 挖掘出行者轨迹的聚类方法、装置、电子装置和存储介质 Withdrawn CN112328728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011371345.XA CN112328728A (zh) 2020-11-30 2020-11-30 挖掘出行者轨迹的聚类方法、装置、电子装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011371345.XA CN112328728A (zh) 2020-11-30 2020-11-30 挖掘出行者轨迹的聚类方法、装置、电子装置和存储介质

Publications (1)

Publication Number Publication Date
CN112328728A true CN112328728A (zh) 2021-02-05

Family

ID=74309252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011371345.XA Withdrawn CN112328728A (zh) 2020-11-30 2020-11-30 挖掘出行者轨迹的聚类方法、装置、电子装置和存储介质

Country Status (1)

Country Link
CN (1) CN112328728A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011472A (zh) * 2021-02-26 2021-06-22 广东电网有限责任公司电力调度控制中心 一种多段电力报价曲线相似性判断方法及装置
CN113610307A (zh) * 2021-08-12 2021-11-05 中国民用航空飞行学院 一种航班计划管理***
CN116383264A (zh) * 2022-12-26 2023-07-04 北京码牛科技股份有限公司 基于时空行为延续挖掘刻意隐藏的关联行为的方法及***
CN116562598A (zh) * 2023-07-07 2023-08-08 成都花娃网络科技有限公司 一种分销调度方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138779A (zh) * 2015-08-31 2015-12-09 武汉大学 车载gps时空轨迹大数据优选方法及***
CN109033011A (zh) * 2018-06-19 2018-12-18 东软集团股份有限公司 计算轨迹频繁度的方法、装置、存储介质及电子设备
CN110188803A (zh) * 2019-05-16 2019-08-30 南京图申图信息科技有限公司 基于出租车轨迹数据的出行时空模式识别方法与***
CN111382765A (zh) * 2018-12-29 2020-07-07 ***通信集团四川有限公司 投诉热点区域聚类方法、装置、设备、介质
CN111881243A (zh) * 2020-07-30 2020-11-03 河北工程大学 一种出租车轨迹热点区域分析方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138779A (zh) * 2015-08-31 2015-12-09 武汉大学 车载gps时空轨迹大数据优选方法及***
CN109033011A (zh) * 2018-06-19 2018-12-18 东软集团股份有限公司 计算轨迹频繁度的方法、装置、存储介质及电子设备
CN111382765A (zh) * 2018-12-29 2020-07-07 ***通信集团四川有限公司 投诉热点区域聚类方法、装置、设备、介质
CN110188803A (zh) * 2019-05-16 2019-08-30 南京图申图信息科技有限公司 基于出租车轨迹数据的出行时空模式识别方法与***
CN111881243A (zh) * 2020-07-30 2020-11-03 河北工程大学 一种出租车轨迹热点区域分析方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HONG JIE LIU等: ""Research on Evaluation Function of Clustering Algorithm Based on Duty Cycle"", 《2019 IEEE 43RD ANNUAL COMPUTER SOFTWARE AND APPLICATIONS CONFERENCE (COMPSAC)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011472A (zh) * 2021-02-26 2021-06-22 广东电网有限责任公司电力调度控制中心 一种多段电力报价曲线相似性判断方法及装置
CN113011472B (zh) * 2021-02-26 2023-09-01 广东电网有限责任公司电力调度控制中心 一种多段电力报价曲线相似性判断方法及装置
CN113610307A (zh) * 2021-08-12 2021-11-05 中国民用航空飞行学院 一种航班计划管理***
CN113610307B (zh) * 2021-08-12 2023-06-20 中国民用航空飞行学院 一种航班计划管理***
CN116383264A (zh) * 2022-12-26 2023-07-04 北京码牛科技股份有限公司 基于时空行为延续挖掘刻意隐藏的关联行为的方法及***
CN116383264B (zh) * 2022-12-26 2023-12-01 北京码牛科技股份有限公司 基于时空行为延续挖掘刻意隐藏的关联行为的方法及***
CN116562598A (zh) * 2023-07-07 2023-08-08 成都花娃网络科技有限公司 一种分销调度方法、装置及存储介质
CN116562598B (zh) * 2023-07-07 2023-09-19 成都花娃网络科技有限公司 一种分销调度方法、装置及存储介质

Similar Documents

Publication Publication Date Title
Song et al. A novel convolutional neural network based indoor localization framework with WiFi fingerprinting
CN112328728A (zh) 挖掘出行者轨迹的聚类方法、装置、电子装置和存储介质
CN107547633B (zh) 一种用户常驻点的处理方法、装置和存储介质
Lee et al. Trajectory clustering: a partition-and-group framework
CN104462190B (zh) 一种基于海量空间轨迹挖掘的在线的位置预测方法
CN105718465B (zh) 地理围栏生成方法及装置
CN108540929B (zh) 基于rssi信号强度排序的室内指纹定位方法
CN102111872B (zh) 基于指纹定位技术的定位方法及装置
CN103533501A (zh) 一种地理围栏生成方法
WO2020215783A1 (zh) 定位方法、装置及存储介质
CN108520023A (zh) 一种基于混合聚类算法的雷暴核识别及追踪方法
CN106488400B (zh) 生成地理围栏的方法及装置
CN104965913A (zh) 一种基于gps地理位置数据挖掘的用户分类方法
US8830909B1 (en) Methods and systems to determine user relationships, events and spaces using wireless fingerprints
CN107392245A (zh) 一种出租车载客轨迹聚类算法Tr‑OPTICS
CN105120433A (zh) 基于连续采样及模糊聚类处理的wlan室内定位方法
CN109688532A (zh) 一种划分城市功能区域的方法及装置
CN105307121A (zh) 一种信息处理方法及装置
CN105916202A (zh) 一种概率性的WiFi室内定位指纹库构建方法
CN106470435B (zh) 识别WiFi群的方法及***
CN110719602A (zh) 指纹定位方法和装置
CN112287247B (zh) 基于Meanshift和K-means聚类的社交网络用户位置特征提取方法和装置
CN103905993A (zh) 一种基于室内定位的区域误判解决方法
Chandio et al. An approach for map-matching strategy of GPS-trajectories based on the locality of road networks
CN108519579A (zh) 基于区间重叠度分析优选AP的WiFi指纹定位技术

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210205