CN107229940A - 数据伴随分析方法及装置 - Google Patents

数据伴随分析方法及装置 Download PDF

Info

Publication number
CN107229940A
CN107229940A CN201610179784.8A CN201610179784A CN107229940A CN 107229940 A CN107229940 A CN 107229940A CN 201610179784 A CN201610179784 A CN 201610179784A CN 107229940 A CN107229940 A CN 107229940A
Authority
CN
China
Prior art keywords
destination number
data
track
dimensional space
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610179784.8A
Other languages
English (en)
Inventor
丁先树
罗毅
韩陆
勃朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610179784.8A priority Critical patent/CN107229940A/zh
Priority to TW106105359A priority patent/TW201734872A/zh
Priority to US16/078,278 priority patent/US20190056423A1/en
Priority to PCT/CN2017/076875 priority patent/WO2017162084A1/zh
Publication of CN107229940A publication Critical patent/CN107229940A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01PMEASURING LINEAR OR ANGULAR SPEED, ACCELERATION, DECELERATION, OR SHOCK; INDICATING PRESENCE, ABSENCE, OR DIRECTION, OF MOVEMENT
    • G01P13/00Indicating or recording presence, absence, or direction, of movement
    • G01P13/02Indicating direction only, e.g. by weather vane

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据伴随分析方法及装置,通过将目标号码原始数据中二维空间数据进行降维处理成目标号码的一维空间数据,将目标号码的一维空间数据和原始数据中的时间数据转换成可比较的目标号码的轨迹队列,基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。本发明中,通过降维处理简化原始数据,不再通过数学模型进行拟合处理,降低复杂度,提高伴随分析的时效性。

Description

数据伴随分析方法及装置
技术领域
本发明属于数据处理分析计算领域,尤其涉及一种数据伴随分析方法及装置。
背景技术
在移动大数据中,有很多有用的定位数据。为从移动大数据中挖掘这些有用的定位数据,可以通过号码伴随分析获取某时间段内目标号码经历的地点组成的一段轨迹,然后将该目标号码的轨迹与其他号码的轨迹进行比较,计算出这些号码之间的伴随相似度,该伴随相似度可以为号码间的亲密度判断提高十分有利的依据。
移动大数据的数据密度非常高,而在交互应用中对于号码伴随分析的时效性要求较高。目前先拟合轨迹再计算号码之间的伴随相似度,由于用于描述号码的轨迹的原始数据的离散偏离幅度大,需要构建复杂的非线性数学模型进行拟合处理,复杂度较高且耗时较长。
发明内容
本发明提供一种数据伴随分析方法及装置,用于解决现有通过先拟合轨迹再计算伴随相似度存在复杂度高耗时长的问题。
为了实现上述目的,本发明提供了一种数据伴随分析方法,包括:
对目标号码的原始数据中二维空间数据进行降维处理以得到所述目标号码的一维空间数据;
将所述目标号码的一维空间数据和时间数据转换成可比较的所述目标号码的轨迹队列;
基于所述目标号码的轨迹队列计算与其他号码之间的伴随相似度。
为了实现上述目的,本发明提供了一种数据伴随分析装置,包括:
降维模块,用于对目标号码的原始数据中二维空间数据进行降维处理以得到所述目标号码的一维空间数据;
数据转换模块,用于将所述目标号码的一维空间数据和时间数据转换成可比较的所述目标号码的轨迹队列;
计算模块,用于基于所述目标号码的轨迹队列计算与其他号码之间的伴随相似度。
本发明提供的数据伴随分析方法及装置,通过将目标号码原始数据中二维空间数据进行降维处理成目标号码的一维空间数据,将目标号码的一维空间数据和原始数据中的时间数据转换成可比较的目标号码的轨迹队列,基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。本发明中,通过降维处理简化原始数据,不再通过数学模型进行拟合处理,降低复杂度,提高伴随分析的时效性。
附图说明
图1为本发明实施例一的数据伴随分析方法的流程示意图;
图2为本发明实施例二的数据伴随分析方法的流程示意图;
图3为本发明实施例三的数据伴随分析方法的流程示意图;
图4为本发明实施例四的数据伴随分析方法的流程示意图;
图5为本发明实施例四的数据伴随分析装置的结构示意图;
图6为本发明实施例五的数据伴随分析装置的结构示意图。
具体实施方式
下面结合附图对本发明实施例提供的数据伴随分析方法及装置进行详细描述。
实施例一
如图1所示,其为本发明实施例一的数据伴随分析方法的流程示意图。该数据伴随分析方法包括以下步骤:
S101、对目标号码的原始数据中二维空间数据进行降维处理以得到目标号码的一维空间数据。
在号码移动的过程中,会产生很多的定位数据,一般情况下,这些定位数据包括用于表示位置信息的空间维度的数据和用于表示时间的时间维度的数据,其中,空间维度的数据由经度和纬度数据构成。本实施例中,将号码移动过程中产生的定位数据定义为原始数据,通过原始数据可以表示该号码在不同时刻所处的位置。
为了减低原始数据的维度,来简化定位数据,本实施例中,将目标号码的原始数据中二维空间数据降维成一维空间数据,具体地,对目标数据的二维空间数据即经纬度数据进行空间hash化处理,将二维空间数据映射成一元的geohash编码,即将经纬度依次迭代映射成32进制的编码中。本实施例中,该一元geohash编码就是该目标号码的一维空间数据,此时就可以通过该geohash编码表示目标号码所处的位置。
S102、将目标号码的一维空间数据和时间数据转换成可比较的目标号码的轨迹队列。
原始数据中的二维空间数据转换成一维空间数据后,其对应的时间数据不会发生变化。在获取到目标号码的一维空间数据后,与原始数据中与该一维空间数据对应的时间数据结合,就能够构成该目标号码的轨迹记录。本实施例中,该目标号码的轨迹记录能够表示出该目标号码在不同时间点所处的位置,时间点对应原始数据中的时间数据。所处位置用一位空间数据表示。
目标号码的轨迹记录是一种时间点的记录,为了能够将目标号码的数据进行比较,进一步地,需要对目标号码的轨迹记录进行数据规整,以得到目标号码的轨迹队列,即将目标号码的轨迹记录从时间点的记录方式转换成时间段的记录方式。
S103、基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。
在获取到目标号码的轨迹队列后,可以用相同的过程获取其他号码的轨迹队列,然后将基于目标号码的轨迹队列和其他号码的轨迹队列进行比较,基于预设的伴随相似度策略获取目标号码和其他号码之间的伴随相似度,本实施例中,其他号码可以为一个也可以是多个。可选地,其他号码可以用户输入,也可以根据目标号码查询到的轨迹相似的号码。
本实施例提供的数据伴随分析方法,通过将目标号码原始数据中二维空间数据进行降维处理成目标号码的一维空间数据,将目标号码的一维空间数据和原始数据中的时间数据转换成可比较的目标轨迹队列,基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。本实施例中,通过降维处理简化原始数据,不再通过数学模型进行拟合处理,降低复杂度,提高伴随分析的时效性。
实施例二
如图2所示,其为本发明实施例二的数据伴随分析方法的流程示意图。该数据伴随分析方法包括以下步骤:
S201、对目标号码的原始数据中二维空间数据进行降维处理以得到目标号码的一维空间数据。
为了减低原始数据的维度,来简化定位数据,本实施例中,将目标号码的原始数据中二维空间数据降维成一维空间数据,具体地,对目标数据的二维空间数据即经纬度数据进行空间hash化处理,将二维空间数据映射成一元的geohash编码,即将经纬度依次迭代映射成32进制的编码中。本实施例中,该一元geohash编码就是该目标号码的一维空间数据,此时就可以通过该geohash编码表示目标号码所处的位置。
S202、利用目标号码的一维空间数据和原始数据中的时间数据生成目标号码的轨迹记录。
原始数据中的二维空间数据转换成一维空间数据后,其对应的时间数据不会发生变化。在获取到目标号码的一维空间数据后,与原始数据中与该一维空间数据对应的时间数据结合,就能够构成该目标号码的轨迹记录。本实施例中,该目标号码的轨迹记录能够表示出该目标号码在不同时间点所处的位置,时间点对应原始数据中的时间数据。所处位置用一位空间数据表示。
S203、对目标号码的轨迹记录进行数据规整,以得到目标号码的轨迹队列。
目标号码的轨迹记录是一种时间点的记录,为了能够将目标号码的数据进行比较,进一步地,需要对目标号码的轨迹记录进行数据规整,以得到目标号码的轨迹队列,即将目标号码的轨迹记录从时间点的记录方式转换成时间段的记录方式。
具体地,针对目标号码的轨迹记录中连续时间点处在相同位置的记录,将表示最早时间的时间点作为该相同位置的开始时间,将表示最晚时间的时间点作为该相同位置的结束时间,得到该相同位置对应的轨迹。其中,目标号码连续时间点处在相同位置,说明目标号码在一段时间内处于该相同位置上,并未在该时间段内离开该相同位置。实际应用中,原始数据的数据密度大,不宜直接处理,本实施例中将位置相同的记录基于时间点进行合并后,可以先去除重复的记录,能够起到简化数据的作用。
针对目标号码的轨迹记录中不同时间点处在不同位置的记录,将时间点作为该不同位置的开始时间和结束时间,得到该不同位置对应的轨迹。
在完成从时间点的记录格式转换到时间段的记录格式后,各轨迹的时间段之间是不连续的。为了能够将目标号码的轨迹进行比较,需要将不连续的时间段进行连续化处理。具体地,将轨迹队列中每条记录中的geohash编码的位数调整到预设的位数,然后需要对轨迹的时间段的端点进行调整,以构建可进行比较的目标号码的轨迹队列。首先,将目标号码的所有轨迹按照开始时间从早到晚进行排序,按序对目标号码中相邻的轨迹的时间段的端点进行调整,以使相邻的轨迹的时间段的端点重合,在完成所有的轨迹的时间段端点的调整后,得到目标号码的轨迹队列。其中,本实施例中,时间段的端点就是时间段的开始时间和结束时间。例如,当前轨迹的时间段的上端点即开始时间为上一个轨迹的结束时间和自身开始时间的中间值,当前轨迹的时间段的下端点即结束时间为自身的结束时间与下一个轨迹的开始时间的中间值。例如,将当前轨迹的时间段的下端点维持不变,而将下一个轨迹的时间段的上端点值调整为当前轨迹的时间段的上端点值,使得相邻的轨迹的时间段的端点重合。
下面举例对S101~S103进行解释说明:
目标号码为155****2623,该号码的原始数据如下:
经过S101和S102之后得到目标号码的轨迹记录如下:
在S103的处理过程中,目标号码的轨迹如下:
在对目标号码需要对第一队列进规整,按照预设位数对geohash编码的部分位数进行舍弃,然后将对相邻记录的时段段的端点进行调整,使相邻的记录在时间段上连续:目标号码的轨迹队列如下:
S204、基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。
在获取到目标号码的轨迹队列后,可以用相同的过程获取其他号码的轨迹队列,然后将基于目标号码的轨迹队列和其他号码的轨迹队列进行比较,基于预设的伴随相似度策略获取目标号码和其他号码之间的伴随相似度,本实施例中,其他号码可以为一个也可以是多个。可选地,其他号码可以用户输入,也可以根据目标号码查询到的轨迹相似的号码。
基于预设的伴随相似度计算策略获取目标号码和其他号码之间的伴随相似度的过程包括:
首先对预设位数的Geohash编码进行地理分层,并且预设为每个层次设置不同的权重。将目标号码轨迹队列中每一条记录与其他号码中每一条记录进行比较,判断相互比较的两条记录的时间段在时间上是否存在交集,存在交集说明两者的时间段存在时间重叠,例如,目标号码的一条记录的起始时间在其他号码的一条记录的时间段范围内,说明两者在时间上存在交集。
本实施例中,当存在交集时,获取相互比较的两条记录中的表示位置的geohash编码之间的重复的层次,获取与该重复的层次对应的预设的权重,将预设的权重和预设的交集基数相乘得到一个交集数值。将所有在时间上存在交集的次数,以及每次交集时获取到的交集数值,将所有交集数值相加后与交集的次数做比值,该比值作为目标号码与其他号码之间的伴随相似度。本实施例中,不再利用三维欧式距离来获取伴随相似度,而是基于上述预设的伴随分析策略获取伴随相似度的方式,减少计算难度,提高伴随分析的效率。
例如,可以将geohash编码选择保留7位,其中,设定该编码中第5位、第6位和第7位参与伴随相似度的计算。权重的设置规则:存在交集时的基数设为1。Geohash 7位全相同,权重为1,Geohash前6位相同,第7位不同,权重为0.5,Geohash前5位相同,第6位不同,权重为0.25,Geohash前5位都不同,或者时间上无交集权重都为0。伴随相似度的计算公式:所有的交集数据之和/时间上有交集的次数。
本实施例提供的数据伴随分析方法,通过将目标号码原始数据中二维空间数据进行降维处理成目标号码的一维空间数据,利用目标号码的一维空间数据和原始数据中的时间数据构成目标号码的轨迹记录,通过数据规则处理将目标号码的轨迹记录转换成可比较的目标轨迹队列,基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。本实施例中,通过降维处理简化原始数据,不再通过数学模型进行拟合处理,降低复杂度,提高伴随分析的时效性。
实施例三
如图3所示,其为本发明实施例三的数据伴随分析方法的流程示意图。该数据伴随分析方法包括以下步骤:
S300、接收用户输入的查询信息。
其中查询信息中包括查询号码和查询时间段,其中,查询号码个数为1,将查询号码作为目标号码。
当用户试图对目标号码进行伴随分析时,可以通过查询界面输入查询信息,其中,查询信息包括查询号码和查询时间段。查询号码的个数可以为1个也可以为多个,本实施例中,以已知目标号码和与该目标号码进行比较的其他号码作为一种应用场景进行说明,在该应用场景下查询号码中的一个作为目标号码,剩余的查询号码作为其他号码,其他号码均与目标号码进行比较,目标号码之间不进行相互比较。
S301、对目标号码的原始数据中二维空间数据进行降维处理以得到目标号码的一维空间数据。
在接收到用户输入的查询信息后执行S301,S301的具体内容可参见上述实施例一S101中的记载,此次不再赘述。
S302、利用目标号码的一维空间数据和原始数据中的时间数据生成目标号码的轨迹记录。
其中,目标号码的轨迹记录用于记录目标号码在不同时间点上所处的位置,时间点对应原始数据中的时间数据;所处的位置用一维空间数据表示。
S303、对目标号码的轨迹记录进行数据规整,以得到目标号码的轨迹队列。
其中,目标号码的轨迹队列用于记录目标号码在不同时间段内所处的位置,所述时间段由目标号码的轨迹记录中的时间点生成。
S304、对其他号码原始数据中二维空间数据进行降维处理以得到其他号码的一维空间数据。
S305、利用其他号码的一维空间数据和原始数据中的时间数据生成其他号码的轨迹记录。
S306、对其他号码的轨迹记录进行数据规整,以得到其他号码的轨迹队列。
采用目标号码S301~S303的处理过程对其他号码进行操作,以得到其他号码的轨迹队列。具体处理过程参见上述实施例中相关内容的记载,此次不再赘述。其中S301~S303与可以同步进行,也可以先执行S301~S303,再执行S304~S306。
S307、基于预设的伴随相似度计算策略以及目标号码的轨迹队列和其他号码的轨迹队列,计算目标号码与每个其他号码之间的伴随相似度。
将目标号码的轨迹队列中每一条记录分别与每个其他号码的轨迹队列中每一条记录进行比较,然后基于预设的伴随相似度计算策略,计算目标号码与每个其他号码之间的伴随相似度。其中,伴随相似度计算策略,参见上述实施例一中相关内容的记载,此次不再赘述。
为了更好地理解本实施例提供的数据伴随分析方法,下面一个具体的例子进行解释说明:
用户输入的查询信息包括查询号码,其中查询号码中包括目标号码和与该目标号码进行比较的其他号码。在该示例中查询信息中携带两个查询,目标号码为查询号码1(ID1),待比较的其他号码为查询号码2(ID2),ID1:155****2623,ID2:150****8803;查询时间段(Time):2015-04-01_00:00:00——2015-04-06_23:59:59
ID1在2015-04-01_00:00:00——2015-04-06_23:59:59内的所有的原始数据:
ID2在2015-04-01_00:00:00——2015-04-06_23:59:59内的所有原始数据:
对查询号码原始数据中的二维数据进行降维处理以得到一维空间数据,然后利用一维空间数据与原始数据中的时间数据生成查询号码的轨迹记录。
ID1的轨迹记录如下:
ID2的轨迹记录如下:
对查询号码的轨迹记录进行数据去重和稀疏处理后,得到查询号码的轨迹。具体地,对查询号码的轨迹记录进行数据去重和稀疏处理的过程:将连续时间点处在位置相同的记录合并,将表示最早时间的时间点作为该位置的开始时间,将表示最晚时间的时间点作为该位置的结束时间,对于不同位置的记录,以该位置对应的时间点作为对应时间段的开始时间和结束时间,也就是说,时间段的开始和结束时间可以相同。
对ID1的轨迹记录进行相同的数据去重和稀疏处理过程,得到ID1的轨迹如下:
对ID2的轨迹记录进行相同的数据去重和稀疏处理过程,得到ID2的轨迹如下:
对目标号码中每条轨迹的geohash编码调整到预设位数,对目标号码的轨迹进行排序,调整轨迹的时间段的端点,使得相邻的两条轨迹的时间段的端点能够重合,得到查询号码的轨迹队列。具体地,按照开始时间从早到晚进行排序,排序后按照顺序对相邻的轨迹的时间段的端点进行调整,例如,将前一段的结束时间与后一段的开始时间的中间值分别作为前一段的结束时间和后一段的开始时间,使得相邻的轨迹的时间段的端点重合,使得时间上可以对接起来,构成一个可比较的轨迹队列。
ID1的轨迹队列如下:
ID2的轨迹队列如下:
根据预设的伴随相似度计算策略,计算两个查询号码之间的伴随相似度。
Geohash选择保留7位,其中第5、6、7三位参与伴随相似度的计算。首先判断时间上有无交集,时间段是否有重叠,如1con1的起始时间在2conN的时间段范围内,那1con1与2conN有时间交集。
不同的重复位对应不同的权重:设置的交集基数为1。Geohash 7位全相同,权重为1,Geohash前6位相同,第7位不同,权重为0.5,Geohash前5位相同,第6位不同,权重为0.25,Geohash前5位都不同,或者时间上无交集权重都为为0。
将1con1分别与2con1~2con5相比较,其中,1con1与2con1、2con2、2con3以及2con5在时间上无交集;1con1与2con4时间上有交集,Geohash前5位相同,第6位不同,交集数值=1*0.25;
类似地,将1con2分别与2con1~2con5相比较,其中,1con2与2con1、2con2、2con3以及2con5在时间上无交集,1con2与2con4时间上有交集,Geohash前5位相同,第6位不同,交集数值=1*0.25;
将1con3与2con1~2con5相比较,其中,1con3与2con1、2con2、2con3以及2con5在时间上无交集,1con3与2con4时间上有交集,Geohash前5位相同,第6位不同,交集数值=1*0.25;
将1con4分别与2con1~2con5相比较,其中,1con4与2con1、2con2、2con3以及2con5在时间上无交集,1con4与2con4时间上有交集,Geohash前5位相同,第6位不同,交集数值=1*0.25;
1con5分别与2con1~2con5相比较,其中,1con4与2con1、2con2、2con3以及2con5在时间上无交集,1con5与2con4时间上有交集,Geohash前5位相同,第6位不同,交集数值=1*0.25;
则目标号码与其他号码之间的伴随相似度为:(+1*0.25+….+1*0.25)/(时间上有交集的次数)=0.25。
在上述示例中,用户可以指定两个号码进行比较,在经过将二维空间数据降维后获取到一维空间数据,然后基于一维空间数据和时间数据构成可比较的轨迹序列,使用预设的伴随相似度计算策略,获取两个号码之间的伴随相似度。
实施例四
如图4所示,其为本发明实施例四的数据伴随分析方法的流程示意图。该数据伴随分析方法包括以下步骤:
S400、接收用户输入的查询信息。
其中查询信息中包括查询号码和查询时间段,其中,查询号码个数为1,将查询号码作为目标号码。
当用户试图对目标号码进行伴随分析时,可以通过查询界面输入查询信息,其中,查询信息包括查询号码、查询时间段和返回与目标号码相似的潜在号码的个数。本实施例中,以通过目标号码获取与该目标号码相似轨迹的潜在号码作为一种应用场景,此时查询号码的个数为1,在该应用场景下,将查询号码作为目标号码。
S401、对目标号码的原始数据中二维空间数据进行降维处理以得到目标号码的一维空间数据。
在接收到用户输入的查询信息后执行S401,S401的具体内容可参见上述实施例一S101中的记载,此次不再赘述。
S402、利用目标号码的一维空间数据和原始数据中的时间数据生成目标号码的轨迹记录。
其中,目标号码的轨迹记录用于记录目标号码在不同时间点上所处的位置,时间点对应原始数据中的时间数据;所处的位置用一维空间数据表示。
S403、对目标号码的轨迹记录进行数据规整,以得到目标号码的轨迹队列。
其中,目标号码的轨迹队列用于记录目标号码在不同时间段内所处的位置,所述时间段由目标号码的轨迹记录中的时间点生成。
S302~S303的具体内容可参见上述实施例一S102~S103中的记载,此次不再赘述。
S404、从目标号码的轨迹队列中获取目标号码的可信区间。
本实施例中,目标号码的轨迹队列用于记录目标号码在不同时间段内所处的位置,根据目标号码的轨迹队列,可以获取到该目标号码的可信区间,其中,可信区间包括可信时间域和可信空间域,其中可信时间阈为轨迹队列中每条记录中的时间段,可信空间域的具体过程:将轨迹队列中每条记录中所处位置进行阈值的修正,将修正后的位置作为可信空间域。例如,将每一个位置的geohash编码中相同的前5位可以作为可信空间域。例如,geohash编码中前五位表示北京,在前五位的基础上加上四位可以表示到所处北京的具体区/县。为了保证空间的可信度,将geohash编码中的前5位作为可信空间域。
S405、根据可信区间获取与目标号码的轨迹记录相似的潜在号码。
在获取到可信区间,根据该目标号码的可信区间在查询时间段内,查找与该目标号码的轨迹记录相似的潜在号码。
S406、对潜在号码的原始数据中二维空间数据进行降维处理以得到潜在号码的一维空间数据。
S407、利用潜在号码的一维空间数据和原始数据中的时间数据生成潜在号码的轨迹记录。
S408、对潜在号码的轨迹记录进行数据规整,以得到潜在号码的轨迹队列。
采用目标号码S401~S403的处理过程对潜在号码进行操作,以得到潜在号码的轨迹队列。具体处理过程参见上述实施例中相关内容的记载,此次不再赘述。
S409、将潜在号码作为其他号码,基于预设的伴随相似度计算策略以及目标号码的轨迹队列和其他号码的轨迹队列,计算目标号码与每个其他号码之间的伴随相似度。
在获取到潜在号码后,将潜在号码作为其他号码,将目标号码的轨迹队列中每一条记录分别与每个其他号码的轨迹队列中每一条记录进行比较,然后基于预设的伴随相似度计算策略,计算目标号码与每个其他号码之间的伴随相似度。
其中,伴随相似度计算策略,参见上述实施例一中相关内容的记载,此次不再赘述。
S410、将目标号码与每个潜在号码之间的伴随相似度进行排序,以得到目标号码的伴随相似度列表。
在获取到目标号码与每个潜在号码之间的伴随相似度后,可以将这些伴随相似度按照从大到小的顺序进行排序,按照顺序生成该目标号码的伴随相似度列表。本实施例中,从排序后的所有伴随相似度中选取前几位生成该目标号码的伴随相似度列表。
为了更好地理解本实施例提供的数据伴随分析方法,下面一个具体的例子进行解释说明:
用户输入的查询信息包括查询号码:155****2623;查询时间段:Time:2015-04-01_00:00:00——2015-04-06_23:59:59;返回与目标号码相似的潜在号码个数:TopN:3;其中,查询号码即目标号码。
目标号码在查询时间段内的原始数据记录:
目标号码经过降维处理以及数据规整后,得到目标号码ID的轨迹队列如下。其中关于对目标号码降维处理以及数据规整的过程,可参见上述实施例二中相关示例中的记载,此处不再赘述。
从目标号码的轨迹队列中获取可信区间,该可信区间包括时间可信区间和空间可信区间;即目标号码轨迹队列中包括的时间段以及位置。
根据可信区间获取与目标号码的轨迹记录相似的潜在号码。具体地,.查询与目标号码轨迹队列中每一个记录1coni(i=1,2,3,…5)相似轨迹记录:查找相似轨迹,从原始数据中找出与1coni有时间交集并且geohash前5位全部相同的记录。
在查找完成后,将与目标号码每一条记录命中的个数取3个号码作为潜在号码,其中,潜在号码中不包括目标号码本身。
潜在号码按照命中次数排序为:
则选取151****1306、152****8808和152****3889作为潜在号码,然后分别计算目标号码与选中的三个潜在号码的伴随相似度,计算过程与上述实施例二中计算两个已知查询号码的伴随相似度类似,此次不再赘述。
对目标号码的伴随相似度进行排序后,取前三位潜在号码以及伴随相似度生成目标号码的伴随相似度列表,该列表如下所示:
号码相似度
151****1306 0.72
152****8808 0.62
152****3889 0.33
在该示例中个,用户可以指定一个目标号码,然后基于目标号码的轨迹查找到轨迹相似的潜在号码作为其他号码,基于目标号码与潜在号码的轨迹序列,使用预设的伴随相似度计算策略,获取两个号码之间的伴随相似度。
实施例五
如图5所示,其为本发明实施例五的数据伴随分析方法的流程示意图。该数据伴随分析装置包括:降维模块11、数据转换模块12和计算模块13。
其中,降维模块11,用于对目标号码的原始数据中二维空间数据进行降维处理以得到所述目标号码的一维空间数据。
在号码移动的过程中,会产生很多的定位数据,一般情况下,这些定位数据包括用于表示位置信息的空间维度的数据和用于表示时间的时间维度的数据,其中,空间维度的数据由经度和纬度数据构成。本实施例中,将号码移动过程中产生的定位数据定义为原始数据,通过原始数据可以表示该号码在不同时刻所处的位置。
为了减低原始数据的维度,来简化定位数据,本实施例中,降维模块11将目标号码的原始数据中二维空间数据降维成一维空间数据,具体地,降维模块11对目标数据的二维空间数据即经纬度数据进行空间hash化处理,将二维空间数据映射成一元的geohash编码,即将经纬度依次迭代映射成32进制的编码中。本实施例中,该一元geohash编码就是该目标号码的一维空间数据,此时就可以通过该geohash编码表示目标号码所处的位置。
数据转换模块12,用于将目标号码的一维空间数据和时间数据转换成可比较的目标号码的轨迹队列。
具体地,数据转换模块12利用所述目标号码的一维空间数据和所述原始数据中的时间数据生成所述目标号码的轨迹记录。
其中所述目标号码的轨迹记录用于记录所述目标号码在不同时间点上所处的位置,时间点对应原始数据中的时间数据;所处的位置用一维空间数据表示。
原始数据中的二维空间数据转换成一维空间数据后,其对应的时间数据不会发生变化。在获取到目标号码的一维空间数据后,数据转换模块12将该一维空间数据与原始数据中与该一维空间数据对应的时间数据结合,就能够构成该目标号码的轨迹记录。本实施例中,该目标号码的轨迹记录能够表示出该目标号码在不同时间点所处的位置,时间点对应原始数据中的时间数据。所处位置用一位空间数据表示。
进一步地,数据转换模块12对所述目标号码的轨迹记录进行数据规整,以得到所述目标号码的轨迹队列。
其中,所述目标号码的轨迹队列用于记录所述目标号码在不同时间段内所处的位置,其中,所述时间段由所述目标号码的轨迹记录中的时间点生成。
目标号码的轨迹记录是一种时间点的记录,进一步地,数据转换模块12对目标号码的轨迹记录进行数据规整,将目标号码的轨迹记录从时间点的记录方式转换成时间段的记录方式。具体地,针对目标号码的轨迹记录中不同时间点处在相同位置的记录,将表示最早时间的时间点作为该相同位置的开始时间,将表示最晚时间的时间点作为该相同位置的结束时间,得到该相同位置对应的轨迹。实际应用中,原始数据的数据密度大,不宜直接处理,本实施例中将位置相同的记录基于时间点进行合并后,可以先去除重复的记录,能够起到简化数据的作用。
数据转换模块12对所述目标号码的轨迹记录进行数据规整,以得到所述目标号码的轨迹队列的具体地过程如下:
针对目标号码的轨迹记录中不同时间点处在不同位置的记录,将时间点作为该不同位置的开始时间和结束时间,得到该不同位置对应的轨迹。
在完成从时间点的记录格式转换到时间段的记录格式后,各轨迹的时间段之间是不连续的。为了能够将目标号码的轨迹进行比较,需要将不连续的时间段进行连续化处理。具体地,首先将目标号码的所有轨迹中geohash编码调整成预设位置,然后需要对轨迹的时间段的端点进行调整,以构建可进行比较的目标号码的轨迹队列。首先,将目标号码的所有轨迹按照开始时间从早到晚进行排序,按序对目标号码中相邻的轨迹的时间段的端点进行调整,以使相邻的轨迹的时间段的端点重合,在完成所有的轨迹的时间段端点的调整后,得到目标号码的轨迹队列。其中,本实施例中,时间段的端点就是时间段的开始时间和结束时间。例如,当前轨迹的时间段的上端点即开始时间为上一个轨迹的结束时间和自身开始时间的中间值,当前轨迹的时间段的下端点即结束时间为自身的结束时间与下一个轨迹的开始时间的中间值。例如,将当前轨迹的时间段的下端点维持不变,而将下一个轨迹的时间段的上端点值调整为当前轨迹的时间段的上端点值,使得相邻的轨迹的时间段的端点重合。
计算模块13,用于基于所述目标号码的轨迹队列计算与其他号码之间的伴随相似度。
在获取到目标号码的轨迹队列后,可以用相同的过程获取其他号码的轨迹队列,计算模块13将基于目标号码的轨迹队列和其他号码的轨迹队列进行比较,基于预设的伴随相似度策略获取目标号码和其他号码之间的伴随相似度,本实施例中,其他号码可以为一个也可以是多个。可选地,其他号码可以用户输入,也可以根据目标号码查询到的轨迹相似的号码。
关于预设的伴随相似度计算策略可参见上述实施例中相关内容的记载,此处不再赘述。
本实施例提供的数据伴随分析装置,通过将目标号码原始数据中二维空间数据进行降维处理成目标号码的一维空间数据,利用目标号码的一维空间数据和原始数据中的时间数据构成目标号码的轨迹记录,通过数据规则处理将目标号码的轨迹记录转换成可比较的目标轨迹队列,基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。本实施例中,通过降维处理简化原始数据,不再通过数学模型进行拟合处理,降低复杂度,提高伴随分析的时效性。
实施例六
如图6所示,其为本发明实施例五的数据伴随分析方法的流程示意图。该数据伴随分析装置除了包括上述实例四中的降维模块11、数据转换模块12和计算模块13之外,还包括接收模块14、可信区间获取模块15和查找模块16。
其中,降维模块11,具体用于对所述目标号码的原始数据中二维空间数据进行二维空间哈希Hash化,以得到一元Geohash编码作为所述目标号码的一维空间数据。
本实施例中,数据转换模块12的一种可选地结构方式,包括:轨迹记录单元121和轨迹队列单元122。
轨迹记录单元121,用于利用所述目标号码的一维空间数据和所述原始数据中的时间数据生成所述目标号码的轨迹记录;其中所述目标号码的轨迹记录用于记录所述目标号码在不同时间点上所处的位置,时间点对应原始数据中的时间数据;所处的位置用一维空间数据表示。
轨迹队列单元122,用于对所述目标号码的轨迹记录进行数据规整,以得到所述目标号码的轨迹队列;其中,所述目标号码的轨迹队列用于记录所述目标号码在不同时间段内所处的位置,其中,所述时间段由所述目标号码的轨迹记录中的时间点生成。
本实施例中,轨迹队列单元122的一种可选地结构方法,包括:获取子单元1221、位数调整子单元1222、排序子单元1223和时间调整子单元1224。
获取子单元1221,用于针对所述目标号码的轨迹记录中不同时间点处在相同位置的记录,将表示最早时间的时间点作为所述相同位置的开始时间,将表示最晚时间的时间点作为所述相同位置的结束时间,得到所述相同位置对应的轨迹,以及针对所述目标号码的轨迹记录中不同时间点处在不同位置的记录,将时间点作为所述不同位置的开始时间和结束时间,得到所述不同位置对应的轨迹。
位数调整子单元1222,用于将所述目标号码中每条轨迹中所述geohash编码的位数调整到预设位数。
排序子单元1223,用于将所述目标号码的所有轨迹按照开始时间从早到晚进行排序。
时间调整子单元1224,用于对所述目标号码中相邻的轨迹的时间段的端点进行调整,以使相邻的轨迹的时间段的端点重合,得到所述目标号码的轨迹队列。
接收模块14,用于接收用户输入的查询信息,所述查询信息中包括查询号码和查询时间段,其中,所述查询号码个数为1,将所述查询号码作为所述目标号码。
可信区间获取模块15,用于根据所述目标号码的轨迹队列获取所述目标号码的可信区间。
查找模块16,用于根据所述可信区间获取与所述目标号码的轨迹记录相似的潜在号码。
进一步地,降维模块11,还用于对所述潜在号码的原始数据中二维空间数据进行降维处理以得到所述潜在号码的一维空间数据。
轨迹记录单元121,还用于利用所述潜在号码的一维空间数据和所述原始数据中的时间数据生成所述潜在号码的轨迹记录。
轨迹队列单元122,还用于对所述潜在号码的轨迹记录进行数据规整,以得到所述潜在号码的轨迹队列。
计算模块13,具体用于将所述潜在号码作为所述其他号码,基于预设的伴随相似度计算策略,计算所述目标号码与每个所述其他号码之间的伴随相似度。
计算模块13,还用于将所述目标号码与每个所述潜在号码之间的伴随相似度进行排序,以得到所述目标号码的伴随相似度列表。
进一步地,接收模块15,还用于接收用户输入的查询信息,所述查询信息中包括查询号码和查询时间段,其中,所述查询号码个数至少为2,将其中一个查询号码作为所述目标号码,剩余查询号码作为所述其他号码。
进一步地,降维模块11,还用于对所述潜在号码的原始数据中二维空间数据进行降维处理以得到所述潜在号码的一维空间数据;
轨迹记录单元121,还用于利用所述潜在号码的一维空间数据和所述原始数据中的时间数据生成所述潜在号码的轨迹记录;
轨迹队列单元122,还用于对所述潜在号码的轨迹记录进行数据规整,以得到所述潜在号码的轨迹队列。
计算模块13,具体用于基于预设的伴随相似度计算策略,计算所述目标号码与每个所述其他号码之间的伴随相似度。
本实施例中,计算模块13的一种可选地结构方法,包括:地理分层单元131、预设单元132、比较单元133、判断单元134和权重计算单元135、相似度计算单元136。
其中,地理分层单元131,用于对预设位数的所述geohash编码进行地理分层。
预设单元132,用于为所述geohash编码的每个层次设置不同的权重。
比较单元133,用于将目标号码轨迹队列中每一条记录与其他号码中每一条记录进行比较。
判断单元134,用于判断相互比较的两条记录在时间上是否存在交集。
权重计算单元135,用于如果判断存在交集,获取相互比较的两条记录中所述geohash编码之间的重复的层次,以及根据与所述重复的层次对应的权重以及预设的交集基数获取交集数值。
相似度计算单元136,用于将所有交集数值相加后与交集的次数做比值,将所述比值作为所述目标号码与所述其他号码之间的伴随相似度。
本实施例提供的数据伴随分析装置,通过将目标号码原始数据中二维空间数据进行降维处理成目标号码的一维空间数据,利用目标号码的一维空间数据和原始数据中的时间数据构成目标号码的轨迹记录,通过数据规则处理将目标号码的轨迹记录转换成可比较的目标轨迹队列,基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。本实施例中,通过降维处理简化原始数据,不再通过数学模型进行拟合处理,降低复杂度,提高伴随分析的时效性。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (24)

1.一种数据伴随分析方法,其特征在于,包括:
对目标号码的原始数据中二维空间数据进行降维处理以得到所述目标号码的一维空间数据;
将所述目标号码的一维空间数据和时间数据转换成可比较的所述目标号码的轨迹队列;
基于所述目标号码的轨迹队列计算与其他号码之间的伴随相似度。
2.根据权利要求1所述的方法,其特征在于,所述对目标号码的原始数据中二维空间数据进行降维处理以得到所述目标号码的一维空间数据,包括:
对所述目标号码的原始数据中二维空间数据进行二维空间哈希Hash化,以得到一元Geohash编码作为所述目标号码的一维空间数据。
3.根据权利要求1所述的方法,其特征在于,所述将所述目标号码的一维空间数据和时间数据转换成可比较的所述目标号码的轨迹队列,包括:
利用所述目标号码的一维空间数据和所述原始数据中的时间数据生成所述目标号码的轨迹记录;其中所述目标号码的轨迹记录用于记录所述目标号码在不同时间点上所处的位置,时间点对应原始数据中的时间数据;所处的位置用一维空间数据表示;
对所述目标号码的轨迹记录进行数据规整,以得到所述目标号码的轨迹队列;其中,所述目标号码的轨迹队列用于记录所述目标号码在不同时间段内所处的位置,其中,所述时间段由所述目标号码的轨迹记录中的时间点生成。
4.根据权利要求3所述的方法,其特征在于,所述对所述目标号码的轨迹记录进行数据规整,以得到所述目标号码的轨迹队列,包括:
针对所述目标号码的轨迹记录中连续时间点处在相同位置的记录,将表示最早时间的时间点作为所述相同位置的开始时间,将表示最晚时间的时间点作为所述相同位置的结束时间,得到所述相同位置对应的轨迹;
针对所述目标号码的轨迹记录中不同时间点处在不同位置的记录,将时间点作为所述不同位置的开始时间和结束时间,得到所述不同位置对应的轨迹;
将所述目标号码的所有轨迹按照开始时间从早到晚进行排序;
将所述目标号码中每条轨迹中所述geohash编码的位数调整到预设位数;
对所述目标号码中相邻的轨迹的时间段的端点进行调整,以使相邻的轨迹的时间段的端点重合,得到所述目标号码的轨迹队列。
5.根据权利要求4所述的方法,其特征在于,所述对目标号码的原始数据进行降维处理以得到降维数据之前,包括:
接收用户输入的查询信息,所述查询信息中包括查询号码和查询时间段,其中,所述查询号码个数为1,将所述查询号码作为所述目标号码。
6.根据权利要求5所述的方法,其特征在于,所述基于所述目标号码的轨迹序列计算与其他号码之间的伴随相似度之前,还包括:
根据所述目标号码的轨迹队列获取所述目标号码的可信区间;
根据所述可信区间获取与所述目标号码的轨迹记录相似的潜在号码;
对所述潜在号码的原始数据中二维空间数据进行降维处理以得到所述潜在号码的一维空间数据;
利用所述潜在号码的一维空间数据和所述原始数据中的时间数据生成所述潜在号码的轨迹记录;
对所述潜在号码的轨迹记录进行数据规整,以得到所述潜在号码的轨迹队列。
7.根据权利要求6所述的方法,其特征在于,所述基于所述目标号码的轨迹序列计算与其他号码之间的伴随相似度,包括:
将所述潜在号码作为所述其他号码;
基于预设的伴随相似度计算策略,计算所述目标号码与每个所述其他号码之间的伴随相似度。
8.根据权利要求7所述的方法,其特征在于,所述基于预设的伴随相似度计算策略,计算所述目标号码与每个所述潜在号码之间的伴随相似度之后,包括:
将所述目标号码与每个所述潜在号码之间的伴随相似度进行排序,以得到所述目标号码的伴随相似度列表。
9.根据权利要求4所述的方法,其特征在于,所述对目标号码的原始数据中二维空间数据进行降维处理以得到所述目标号码的一维空间数据之前,包括:
接收用户输入的查询信息,所述查询信息中包括查询号码和查询时间段,其中,所述查询号码个数至少为2,将其中一个查询号码作为所述目标号码,剩余查询号码作为所述其他号码。
10.根据权利要求9所述的方法,其特征在于,所述基于所述目标号码的轨迹队列计算与其他号码之间的伴随相似度之前,还包括:
对所述潜在号码的原始数据中二维空间数据进行降维处理以得到所述潜在号码的一维空间数据;
利用所述潜在号码的一维空间数据和所述原始数据中的时间数据生成所述潜在号码的轨迹记录;
对所述潜在号码的轨迹记录进行数据规整,以得到所述潜在号码的轨迹队列。
11.根据权利要求10所述的方法,其特征在于,所述基于所述目标号码的轨迹序列计算与其他号码之间的伴随相似度,包括:
基于预设的伴随相似度计算策略,计算所述目标号码与每个所述其他号码之间的伴随相似度。
12.根据权利要求7或11所述的方法,其特征在于,所述基于预设的伴随相似度计算策略,计算所述目标号码与每个所述其他号码之间的伴随相似度,包括:
对预设位数的所述geohash编码进行地理分层;
为所述geohash编码的每个层次设置不同的权重;
将目标号码轨迹队列中每一条记录与其他号码中每一条记录进行比较;
判断相互比较的两条记录在时间上是否存在交集;
如果判断存在交集,获取相互比较的两条记录中所述geohash编码之间的重复的层次;
根据与所述重复的层次对应的权重以及预设的交集基数获取交集数值;
将所有交集数值相加后与交集的次数做比值,将所述比值作为所述目标号码与所述其他号码之间的伴随相似度。
13.一种数据伴随分析装置,其特征在于,包括:
降维模块,用于对目标号码的原始数据中二维空间数据进行降维处理以得到所述目标号码的一维空间数据;
数据转换模块,用于将所述目标号码的一维空间数据和时间数据转换成可比较的所述目标号码的轨迹队列;
计算模块,用于基于所述目标号码的轨迹队列计算与其他号码之间的伴随相似度。
14.根据权利要求13所述的装置,其特征在于,所述降维模块,具体用于对所述目标号码的原始数据中二维空间数据进行二维空间哈希Hash化,以得到一元Geohash编码作为所述目标号码的一维空间数据。
15.根据权利要求14所述的装置,其特征在于,所述数据转换模块,包括:
轨迹记录单元,用于利用所述目标号码的一维空间数据和所述原始数据中的时间数据生成所述目标号码的轨迹记录;其中所述目标号码的轨迹记录用于记录所述目标号码在不同时间点上所处的位置,时间点对应原始数据中的时间数据;所处的位置用一维空间数据表示;
轨迹队列单元,用于对所述目标号码的轨迹记录进行数据规整,以得到所述目标号码的轨迹队列;其中,所述目标号码的轨迹队列用于记录所述目标号码在不同时间段内所处的位置,其中,所述时间段由所述目标号码的轨迹记录中的时间点生成。
16.根据权利要求15所述的装置,其特征在于,所述轨迹队列单元,包括:
获取子单元,用于针对所述目标号码的轨迹记录中连续时间点处在相同位置的记录,将表示最早时间的时间点作为所述相同位置的开始时间,将表示最晚时间的时间点作为所述相同位置的结束时间,以得到所述相同位置对应的轨迹,以及针对所述目标号码的轨迹记录中不同时间点处在不同位置的记录,将时间点作为所述不同位置的开始时间和结束时间,得到所述不同位置对应的轨迹;
位数调整子单元,用于将所述目标号码中每条轨迹中所述geohash编码的位数调整到预设位数;
排序子单元,用于将所述目标号码的所有轨迹按照开始时间从早到晚进行排序;
时间调整子单元,用于对所述目标号码中相邻的轨迹的时间段的端点进行调整,以使相邻的轨迹的时间段的端点重合,得到所述目标号码的轨迹队列。
17.根据权利要求16所述的装置,其特征在于,还包括:
接收模块,用于接收用户输入的查询信息,所述查询信息中包括查询号码和查询时间段,其中,所述查询号码个数为1,将所述查询号码作为所述目标号码。
18.根据权利要求17所述的装置,其特征在于,还包括:
可信区间获取模块,用于根据所述目标号码的轨迹队列获取所述目标号码的可信区间;
查找模块,用于根据所述可信区间获取与所述目标号码的轨迹记录相似的潜在号码;
所述降维模块,还用于对所述潜在号码的原始数据中二维空间数据进行降维处理以得到所述潜在号码的一维空间数据;
所述轨迹记录单元,还用于利用所述潜在号码的一维空间数据和所述原始数据中的时间数据生成所述潜在号码的轨迹记录;
所述轨迹队列单元,还用于对所述潜在号码的轨迹记录进行数据规整,以得到所述潜在号码的轨迹队列。
19.根据权利要求18所述的装置,其特征在于,所述计算模块,具体用于将所述潜在号码作为所述其他号码,基于预设的伴随相似度计算策略,计算所述目标号码与每个所述其他号码之间的伴随相似度。
20.根据权利要求19所述的装置,其特征在于,所述计算模块,还用于将所述目标号码与每个所述潜在号码之间的伴随相似度进行排序,以得到所述目标号码的伴随相似度列表。
21.根据权利要求16所述的装置,其特征在于,所述接收模块,还用于接收用户输入的查询信息,所述查询信息中包括查询号码和查询时间段,其中,所述查询号码个数至少为2,将其中一个查询号码作为所述目标号码,剩余查询号码作为所述其他号码。
22.根据权利要求21所述的装置,其特征在于,所述降维模块,还用于对所述潜在号码的原始数据中二维空间数据进行降维处理以得到所述潜在号码的一维空间数据;
所述轨迹记录单元,还用于利用所述潜在号码的一维空间数据和所述原始数据中的时间数据生成所述潜在号码的轨迹记录;
所述轨迹记录单元,还用于对所述潜在号码的轨迹记录进行数据规整,以得到所述潜在号码的轨迹队列。
23.根据权利要求22所述的装置,其特征在于,所述计算模块,具体用于基于预设的伴随相似度计算策略,计算所述目标号码与每个所述其他号码之间的伴随相似度。
24.根据权利要求22所述的装置,其特征在于,所述所述计算模块包括:
地理分层单元,用于对预设位数的所述geohash编码进行地理分层;
预设单元,用于为所述geohash编码的每个层次设置不同的权重;
比较单元,用于将目标号码轨迹队列中每一条记录与其他号码中每一条记录进行比较;
判断单元,用于判断相互比较的两条记录在时间上是否存在交集;
权重计算单元,用于如果判断存在交集,获取相互比较的两条记录中所述geohash编码之间的重复的层次,以及根据与所述重复的层次对应的权重以及预设的交集基数获取交集数值;
相似度计算单元,用于将所有交集数值相加后与交集的次数做比值,将所述比值作为所述目标号码与所述其他号码之间的伴随相似度。
CN201610179784.8A 2016-03-25 2016-03-25 数据伴随分析方法及装置 Pending CN107229940A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610179784.8A CN107229940A (zh) 2016-03-25 2016-03-25 数据伴随分析方法及装置
TW106105359A TW201734872A (zh) 2016-03-25 2017-02-17 資料伴隨分析方法及裝置
US16/078,278 US20190056423A1 (en) 2016-03-25 2017-03-16 Adjoint analysis method and apparatus for data
PCT/CN2017/076875 WO2017162084A1 (zh) 2016-03-25 2017-03-16 数据伴随分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610179784.8A CN107229940A (zh) 2016-03-25 2016-03-25 数据伴随分析方法及装置

Publications (1)

Publication Number Publication Date
CN107229940A true CN107229940A (zh) 2017-10-03

Family

ID=59899224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610179784.8A Pending CN107229940A (zh) 2016-03-25 2016-03-25 数据伴随分析方法及装置

Country Status (4)

Country Link
US (1) US20190056423A1 (zh)
CN (1) CN107229940A (zh)
TW (1) TW201734872A (zh)
WO (1) WO2017162084A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947793A (zh) * 2019-03-20 2019-06-28 深圳市北斗智能科技有限公司 伴随关系的分析方法、装置和存储介质
CN110334171A (zh) * 2019-07-05 2019-10-15 南京邮电大学 一种基于Geohash的时空伴随对象挖掘方法
CN110796494A (zh) * 2019-10-30 2020-02-14 北京爱笔科技有限公司 一种客群识别方法及装置
CN110944296A (zh) * 2019-11-27 2020-03-31 智慧足迹数据科技有限公司 运动轨迹的伴随确定方法、装置和服务器
CN111300417A (zh) * 2020-03-12 2020-06-19 李佳庆 焊接机器人的焊接路径控制方法及装置
CN111666358A (zh) * 2019-03-05 2020-09-15 上海光启智城网络科技有限公司 一种轨迹碰撞方法及***
CN112000736A (zh) * 2020-08-14 2020-11-27 济南浪潮数据技术有限公司 时空轨迹伴随分析方法、***及电子设备和存储介质
CN113704342A (zh) * 2021-07-30 2021-11-26 济南浪潮数据技术有限公司 一种轨迹伴随分析的方法、***、设备和存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110352414B (zh) * 2017-12-29 2022-11-11 北京嘀嘀无限科技发展有限公司 为大数据添加索引的***和方法
CN109657703B (zh) * 2018-11-26 2023-04-07 浙江大学城市学院 基于时空数据轨迹特征的人群分类方法
CN112689238A (zh) * 2019-10-18 2021-04-20 西安光启未来技术研究院 一种基于区域的轨迹碰撞方法、***、存储介质及处理器
CN110909009B (zh) * 2019-11-20 2022-07-15 厦门市美亚柏科信息股份有限公司 基于话单的轨迹伴随行为分析方法、终端设备及存储介质
CN111294742B (zh) * 2020-02-10 2020-11-10 邑客得(上海)信息技术有限公司 基于信令cdr数据识别伴随手机号码的方法与***
CN112040414B (zh) * 2020-08-06 2023-04-07 杭州数梦工场科技有限公司 相似轨迹计算方法、装置及电子设备
CN112561948B (zh) * 2020-12-22 2023-11-21 中国联合网络通信集团有限公司 基于时空轨迹的伴随轨迹识别方法、设备及存储介质
CN113449158A (zh) * 2021-06-22 2021-09-28 中国电子进出口有限公司 一种多源数据间的伴随分析方法和***
CN113607170B (zh) * 2021-07-31 2023-12-12 西南电子技术研究所(中国电子科技集团公司第十研究所) 空海目标航迹偏离行为实时检测方法
CN113704378A (zh) * 2021-09-02 2021-11-26 北京锐安科技有限公司 一种伴随信息的确定方法、装置、设备及存储介质
CN113780407B (zh) * 2021-09-09 2024-06-11 恒安嘉新(北京)科技股份公司 一种数据检测方法、装置、电子设备及存储介质
CN115017247B (zh) * 2022-06-02 2024-07-26 河南信安通信技术股份有限公司 移动对象伴随关系分析用动态时间片划分方法及***
CN117177185B (zh) * 2023-11-02 2024-03-26 中国信息通信研究院 一种基于手机通信数据的号码伴随辅助识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571591A (zh) * 2009-06-01 2009-11-04 民航数据通信有限责任公司 基于雷达航迹的拟合分析方法
US8462987B2 (en) * 2009-06-23 2013-06-11 Ut-Battelle, Llc Detecting multiple moving objects in crowded environments with coherent motion regions
CN103237201A (zh) * 2013-04-28 2013-08-07 江苏物联网研究发展中心 一种基于社会化标注的案件视频研判方法
CN103593361A (zh) * 2012-08-14 2014-02-19 中国科学院沈阳自动化研究所 感应网络环境下移动时空轨迹分析方法
CN104778245A (zh) * 2015-04-09 2015-07-15 北方工业大学 基于海量车牌识别数据的相似轨迹挖掘方法及装置
US20150286666A1 (en) * 2014-03-31 2015-10-08 International Business Machines Corporation Track reconciliation from multiple data sources
CN105243148A (zh) * 2015-10-25 2016-01-13 西华大学 一种基于签到数据的时空轨迹相似性度量方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944292B (zh) * 2010-09-16 2012-05-23 公安部交通管理科学研究所 基于轨迹碰撞的嫌疑车辆分析方法
CN104462236A (zh) * 2014-11-14 2015-03-25 浪潮(北京)电子信息产业有限公司 一种基于大数据的伴随车辆识别方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571591A (zh) * 2009-06-01 2009-11-04 民航数据通信有限责任公司 基于雷达航迹的拟合分析方法
US8462987B2 (en) * 2009-06-23 2013-06-11 Ut-Battelle, Llc Detecting multiple moving objects in crowded environments with coherent motion regions
CN103593361A (zh) * 2012-08-14 2014-02-19 中国科学院沈阳自动化研究所 感应网络环境下移动时空轨迹分析方法
CN103237201A (zh) * 2013-04-28 2013-08-07 江苏物联网研究发展中心 一种基于社会化标注的案件视频研判方法
US20150286666A1 (en) * 2014-03-31 2015-10-08 International Business Machines Corporation Track reconciliation from multiple data sources
CN104778245A (zh) * 2015-04-09 2015-07-15 北方工业大学 基于海量车牌识别数据的相似轨迹挖掘方法及装置
CN105243148A (zh) * 2015-10-25 2016-01-13 西华大学 一种基于签到数据的时空轨迹相似性度量方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
卢帅等: "《一种车辆移动对象相似轨迹查询算法》", 《计算机与数字工程》 *
左飞等: "《轻松学通C语言》", 30 September 2013, 中国铁道出版社 *
徐晓慧等: "《道路交通控制教程》", 31 January 2005, 中国人民公安大学出版社 *
王翔等: "《基于Geohash的出租车汽车轨迹的存储与应用研究》", 《科技资讯》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666358A (zh) * 2019-03-05 2020-09-15 上海光启智城网络科技有限公司 一种轨迹碰撞方法及***
CN109947793A (zh) * 2019-03-20 2019-06-28 深圳市北斗智能科技有限公司 伴随关系的分析方法、装置和存储介质
CN110334171A (zh) * 2019-07-05 2019-10-15 南京邮电大学 一种基于Geohash的时空伴随对象挖掘方法
CN110796494A (zh) * 2019-10-30 2020-02-14 北京爱笔科技有限公司 一种客群识别方法及装置
CN110796494B (zh) * 2019-10-30 2022-09-27 北京爱笔科技有限公司 一种客群识别方法及装置
CN110944296A (zh) * 2019-11-27 2020-03-31 智慧足迹数据科技有限公司 运动轨迹的伴随确定方法、装置和服务器
CN111300417A (zh) * 2020-03-12 2020-06-19 李佳庆 焊接机器人的焊接路径控制方法及装置
CN111300417B (zh) * 2020-03-12 2021-12-10 福建永越智能科技股份有限公司 焊接机器人的焊接路径控制方法及装置
CN112000736A (zh) * 2020-08-14 2020-11-27 济南浪潮数据技术有限公司 时空轨迹伴随分析方法、***及电子设备和存储介质
CN113704342A (zh) * 2021-07-30 2021-11-26 济南浪潮数据技术有限公司 一种轨迹伴随分析的方法、***、设备和存储介质

Also Published As

Publication number Publication date
US20190056423A1 (en) 2019-02-21
WO2017162084A1 (zh) 2017-09-28
TW201734872A (zh) 2017-10-01

Similar Documents

Publication Publication Date Title
CN107229940A (zh) 数据伴随分析方法及装置
CN104462190B (zh) 一种基于海量空间轨迹挖掘的在线的位置预测方法
Xu et al. Taxi-RS: Taxi-hunting recommendation system based on taxi GPS data
Eklund Data mining and soil salinity analysis
CN103425772A (zh) 一种具有多维信息的海量数据查询方法
CN103106280A (zh) 一种道路网络环境下不确定时空轨迹数据的范围查询方法
CN107766433A (zh) 一种基于Geo‑BTree的范围查询方法及装置
CN102646164A (zh) 一种结合空间滤波的土地利用变化建模方法及其***
Manzano-Agugliaro et al. Pareto-based evolutionary algorithms for the calculation of transformation parameters and accuracy assessment of historical maps
CN108627798A (zh) 基于线性判别分析和梯度提升树的wlan室内定位算法
CN111339230A (zh) 一种车辆信息显示方法、装置、电子设备和存储介质
Ruiz-Lendínez et al. Automatic positional accuracy assessment of geospatial databases using line-based methods
Türk Multi-criteria decision-making for greenways: The case of Trabzon, Turkey
Walker et al. Rescuing valuable Arctic vegetation data for biodiversity models, ecosystem models and a panarctic vegetation classification
Aljohani et al. A real-time energy consumption minimization framework for electric vehicles routing optimization based on SARSA reinforcement learning
CN109885638B (zh) 一种三维立体空间索引方法及***
Durán-Meza et al. The self-similarity properties and multifractal analysis of DNA sequences
Chen et al. An effective path planning of intelligent mobile robot using improved genetic algorithm
CN107798215B (zh) 基于ppi网络层次结构预测功能模块及作用的方法
CN106649425A (zh) 一种顾及空间邻近性的矢量空间数据编码方法
CN107491841A (zh) 非线性优化方法及存储介质
CN116703008A (zh) 一种用于新建公路的交通出行量预测方法、设备及介质
Yang et al. High‐Performance Computing Analysis and Location Selection of Logistics Distribution Center Space Based on Whale Optimization Algorithm
Wu et al. STKST-I: An Efficient Semantic Trajectory Search by Temporal and Semantic Keywords
Min et al. Data mining and economic forecasting in DW-based economical decision support system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171003

RJ01 Rejection of invention patent application after publication