CN110895535B

CN110895535B - 数据处理方法、装置及电子设备

Info

Publication number: CN110895535B
Application number: CN201811062685.7A
Authority: CN
Inventors: 罗净; 朱洪波
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2023-06-20
Anticipated expiration: 2038-09-12
Also published as: CN110895535A

Abstract

本申请实施例提供一种数据处理方法、装置及电子设备，其中方法包括：查找与第一分析目标共同出现的第二分析目标；统计第一分析目标与第二分析目标的共现指标，其中，所述共现指标包括下述至少一项：共同出现的次数、共同出现的时长、共同出现的位置的数量；根据所述共现指标，确定所述第一分析目标与所述第二分析目标的关联程度。本申请实施例提供的数据处理方法、装置及电子设备，通过共现次数等指标来确定关联程度更加符合分析目标的实际使用情况，有效提高了分析目标之间关联关系确定的效率和准确率。

Description

数据处理方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、装置及电子设备。

背景技术

随着计算机科技的不断发展，在越来越多的领域需要获取两个分析目标之间的关联关系。例如，在智能交通领域，为了能够更好地对车辆和用户行为进行分析，需要获得车辆的车牌号码和用户的手机号码之间的对应关系。指定一个车牌号码，需要快速找到与其关联的手机号码，该手机号码可能是车辆的经常性驾驶人也可能是经常性的乘客；类似的，指定一个手机号码，需要快速找到与其关联的车牌号码，该车牌号码可能是用户经常乘坐的车辆的车牌号码。

现有技术中，往往通过用户登记的方式实现车牌号码和手机号码的关联，效率低下、容易出现差错，并且不能准确地反映车辆与用户的关联关系或关联程度。

发明内容

有鉴于此，本申请实施例提供一种数据处理方法、装置及电子设备，以快速、准确地确定分析目标之间的关联程度。

第一方面，本申请实施例提供一种数据处理方法，包括：

查找与第一分析目标共同出现的第二分析目标；

统计第一分析目标与第二分析目标的共现指标，其中，所述共现指标包括下述至少一项：共同出现的次数、共同出现的时长、共同出现的位置的数量；

根据所述共现指标，确定所述第一分析目标与所述第二分析目标的关联程度。

第二方面，本申请实施例提供一种数据处理方法，包括：

查找共同出现的交通工具ID与通信设备ID；

统计所述交通工具ID与所述通信设备ID的共现指标，其中，所述共现指标包括下述至少一项：共同出现的次数、共同出现的时长、共同出现的位置的数量；

根据所述共现指标，确定所述交通工具ID与所述通信设备ID的关联程度。

第三方面，本申请实施例提供一种数据处理装置，包括：

第一查找模块，用于查找与第一分析目标共同出现的第二分析目标；

第一统计模块，用于统计第一分析目标与第二分析目标的共现指标，其中，所述共现指标包括下述至少一项：共同出现的次数、共同出现的时长、共同出现的位置的数量；

第一确定模块，用于根据所述共现指标，确定所述第一分析目标与所述第二分析目标的关联程度。

第四方面，本申请实施例提供一种数据处理装置，包括：

第二查找模块，用于查找共同出现的交通工具ID与通信设备ID；

第二统计模块，用于统计所述交通工具ID与所述通信设备ID的共现指标，其中，所述共现指标包括下述至少一项：共同出现的次数、共同出现的时长、共同出现的位置的数量；

第二确定模块，用于根据所述共现指标，确定所述交通工具ID与所述通信设备ID的关联程度。

第五方面，本申请实施例提供一种电子设备，包括第一处理器和第一存储器，所述第一存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第一处理器执行时实现上述第一方面中的数据处理方法。该电子设备还可以包括第一通信接口，用于与其他设备或通信网络通信。

第六方面，本申请实施例提供一种电子设备，包括第二处理器和第二存储器，所述第二存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第二处理器执行时实现上述第二方面中的数据处理方法。该电子设备还可以包括第二通信接口，用于与其他设备或通信网络通信。

本申请实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第一方面或第二方面中的数据处理方法。

本申请实施例提供的数据处理方法、装置及电子设备，在第一分析目标出现在某一位置时，查找与所述第一分析目标共同出现的第二分析目标，记为第一分析目标和第二分析目标共同出现一次，统计第一分析目标与第二分析目标的共现指标，例如共同出现的次数、共同出现的时长、共同出现的位置的数量等，根据所述共现指标，能够快速、准确地确定所述第一分析目标与所述第二分析目标的关联程度，通过共现次数等指标来确定关联程度更加符合分析目标的实际使用情况，有效提高了分析目标之间关联关系确定的效率和准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的数据处理方法的一种应用场景示意图；

图2为本申请实施例提供的数据处理方法实施例一的流程示意图；

图3为本申请实施例提供的数据处理方法实施例二的流程示意图；

图4为本申请实施例提供的数据处理方法实施例三的流程示意图；

图5为本申请实施例提供的一种确定对应关系的方法的流程示意图；

图6为本申请实施例提供的一种数据处理方法的原理示意图；

图7为本申请实施例提供的一种计算共现组合关联程度的方法的流程示意图；

图8为本申请实施例提供的数据处理方法实施例四的流程示意图；

图9为本申请实施例提供的一种关联程度的显示示意图；

图10为本申请实施例提供的另一种关联程度的显示示意图；

图11为本申请实施例提供的一种数据处理装置的结构示意图；

图12为本申请实施例提供的另一种数据处理装置的结构示意图；

图13为本申请实施例提供的一种电子设备的结构示意图；

图14为本申请实施例提供的另一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者***中还存在另外的相同要素。

本申请实施例提供的数据分析方法，能够根据第一分析目标与第二分析目标的共同出现的指标如共同出现的次数、共同出现的时长、共同出现的位置的数量等，来确定所述第一分析目标与所述第二分析目标的关联程度。

其中，本申请实施例中的分析目标可以是任意需要进行关联程度分析的对象，例如，可以是手机号码、车牌号码、mac地址(物理地址)、RFID(Radio FrequencyIdentification，射频识别)标签等等。第一分析目标和第二分析目标可以根据实际需要来进行选择。

可选的，所述第一分析目标可以为交通工具ID，所述第二分析目标可以为通信设备ID，例如，所述第一分析目标可以为车牌号码，所述第二分析目标可以为手机号码，通过本申请实施例提供的数据处理方法，可以实现车牌号码与手机号码的关联程度分析。

图1为本申请实施例提供的数据处理方法的一种应用场景示意图。如图1所示，交通卡口可以采集车流量数据并发送给数据处理设备，所述车流量数据为经过交通卡口的车辆数据，其中包含了车辆的车牌号码；基站可以与用户的手机进行心跳连接，并将手机信令数据发送给数据处理设备，所述手机信令数据中包含有手机号码，以此可以得知一个手机号码在何时出现在了哪个基站旁；数据处理设备可以根据本申请实施例提供的方法对车牌号码和手机号码的关联程度进行计算。

所述数据处理设备可以是面向消费者或企业或者其它平台或***的设备。在一种可选的实施方式中，数据处理设备可以在分析得到手机号码与车牌号码的关联关系后，通过与用户的交互来输出用户期望查询的关联程度信息，例如，用户可以输入一车牌号码，数据处理设备可以向用户反馈与该车牌号码关联程度最大的手机号码。

在另一种可选的实施方式中，数据处理设备可以用于为企业提供查询关联程度的功能，例如，企业可以通过相关的接口查询与某一车牌号码关联程度最大的手机号码，或者，数据处理设备可以在分析得到手机号码与车牌号码的关联关系后，将关联关系打包输出给企业，由企业进行进一步的处理。

在又一种可选的实施方式中，数据处理设备也可以为其它平台或***提供关联程度查询的功能，例如，可以将分析得到的手机号码与车牌号码的关联关系发送给智能交通***，由智能交通***根据每个车牌号码对应的手机号码实现智能交通的各项功能。

下面结合如下的方法实施例以及附图对本申请实施例提供的数据处理方法的实现过程进行介绍。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

图2为本申请实施例提供的数据处理方法实施例一的流程示意图。如图2所示，本实施例中的数据处理方法，可以包括：

步骤201、查找与第一分析目标共同出现的第二分析目标。

其中，所述第一分析目标和所述第二分析目标可以是同一种类型的分析目标，也可以是不同类型的分析目标。

例如，第一分析目标可以为车牌号码，第二分析目标可以为手机号码，通过本申请实施例中的方法可以实现手机号码和车牌号码的关联分析；或者，第一分析目标可以为手机号码、第二分析目标也可以为手机号码，通过本申请实施例中的方法可以实现两个手机号码之间的关联分析。

可选的，步骤201中的查找与第一分析目标共同出现的第二分析目标，可以包括：获取第一分析目标的数据和第二分析目标的数据，所述数据包括出现的时间和位置；根据第一分析目标的数据和第二分析目标的数据，查找与第一分析目标共同出现的第二分析目标。

可选的，本申请实施例中，第一分析目标与第二分析目标共同出现可以是指：第一分析目标与第二分析目标同一时间出现在同一位置。

所述位置可以是任意能够检测到分析目标出现的地点。例如，可以通过地理围栏或其它方式将待分析的区域划分为多个位置，第一分析目标和第二分析目标在某一个位置同时出现，记为第一分析目标和第二分析目标共同出现。

考虑到时间和位置的确定具有一定的间隔性和不准确性，可选的，第一分析目标与第二分析目标共同出现也可以是指：第一分析目标出现在某一位置，第二分析目标同时出现在所述位置周围的预设范围内。

或者，第一分析目标与第二分析目标共同出现也可以是指：若第一分析目标在T时刻出现在某一位置，第二分析目标在[T-t,T+t]期间出现在所述位置周围预设范围内，则认为第一分析目标与第二分析目标共同出现一次。

也就是说，与所述第一分析目标共同出现的第二分析目标可以是指，当第一分析目标在T时刻出现在某一位置时，在T时刻前后预设时段内出现在所述位置的预设范围内的第二分析目标。所述预设时段和预设范围可以根据实际需要来取值。

当需要特定的设备来检测分析目标是否出现时，所述位置可以是设置有所述特定的设备的地点，记为检测地点。

例如，所述第一分析目标可以为车牌号码，交通卡口设置有拍摄装置，能够拍摄过往的车辆并得到对应的车牌号码，那么所述检测地点可以是设置有交通卡口的地点。

步骤202、统计第一分析目标与第二分析目标的共现指标。

其中，所述共现指标可以包括下述至少一项：共同出现的次数、共同出现的时长、共同出现的位置的数量。

其中，共同出现的时长可以是指共同出现的时间的长短，共同出现的时间的长短可以通过小时数、天数、月数、季度数、年数等来表示，可选的，所述共同出现的时长可以包括下述至少一项：共同出现的小时数、共同出现的天数、共同出现的月数、共同出现的季度数、共同出现的年数等。

共同出现的位置的数量可以是指第一分析目标和第二分析目标一共在多少个位置共同出现过，例如，可以通过地理围栏的方式将待分析的区域划分为多个位置，第一分析目标和第二分析目标每在一个新的位置共同出现，记为共同出现的位置的数量加一。又例如，可以在待分析的区域内设置多个检测地点，第一分析目标和第二分析目标每在一个新的检测地点共同出现，记为共同出现的位置的数量加一。

为了便于描述，本申请各实施例中，以共同出现的时长为共同出现的天数、共同出现的位置的数量为共同出现的检测地点的数量为例来进行说明。假设共统计M天的共现指标，则共同出现的天数≤M；假设共有N个检测地点，则共同出现的检测地点的数量≤N。

每当第一分析目标与第二分析目标共同出现一次，就可以记录下共同出现的时间和共同出现的位置。根据第一分析目标与第二分析目标共同出现的时间，可以确定所述第一分析目标与第二分析目标共同出现的天数；根据第一分析目标与第二分析目标共同出现的位置，可以确定所述第一分析目标与第二分析目标共同出现的位置的数量。

例如，某辆车在T时刻经过交通卡口A，则在时间段[T-t,T+t]期间，所有与交通卡口A对应的基站建立连接的手机号码，都与该车的车牌号码具有一次且仅有一次共现，以此可以确定共现日志数据。

根据统计得到的共现日志数据，可以确定每一个<车牌号码，手机号码>的共同出现的次数、共同出现的天数、共同出现的检测地点的数量。

例如，城市内共有三个检测地点，A街口、B街口、C街口，每个街口都设置一交通卡口；统计8月份的共现日志数据如表1所示。

表1共现日志数据示例

共现组合	共现时间	共现地点
			<车牌号码1，手机号码1>	8月1日17点	A街口
<车牌号码1，手机号码1>	8月11日13点	A街口
			<车牌号码1，手机号码1>	8月12日12点	A街口
<车牌号码1，手机号码1>	8月12日18点	C街口

如表1所示，对于<车牌号码1，手机号码1>来说，在8月份共同出现了4次，因此共同出现次数为4；共在8月1日、8月11日、8月12日这3天共同出现过，因此共同出现的天数为3；只在A街口和C街口这2个检测地点共同出现过，所以共同出现的检测地点的数量为2。

可选的，可以每隔一段时间，例如每隔3个月，统计第一分析目标与第二分析目标的共现指标。

步骤203、根据所述共现指标，确定所述第一分析目标与所述第二分析目标的关联程度。

可以理解的是，第一分析目标与第二分析目标的共现指标越高，对应的关联程度越大。

以共现次数作为共现指标为例，在统计期间内，第一分析目标A与第二分析目标B1的共现次数为100次，第一分析目标A与第二分析目标B2的共现次数为10次，则第一分析目标与第二分析目标B1的关联程度高于第一分析目标A与第二分析目标B2的关联程度。

在实际应用中，当需要确定两个分析目标之间的关联程度时，可以首先获取两个分析目标的共同出现的指标，例如两个分析目标共同出现的次数、共同出现的天数、共同在几个检测地点出现过等等，然后，根据共现指标来确定两个分析目标之间的关联程度。

在获得分析目标之间的关联程度后，可以输出所述关联程度，或者，根据关联程度确定分析目标之间的对应关系。

可选的，针对第一分析目标，可以从多个与其共同出现过的第二分析目标中，选取与所述第一分析目标的关联程度最高的作为与所述第一分析目标有对应关系的第二分析目标。

例如，针对一个车牌号码，可以从多个与该车牌号码共同出现过的手机号码中，选取关联程度最高的手机号码，作为该车牌号码对应的手机号码，从而实现车辆和用户的对应。

综上，本实施例提供的数据处理方法，在第一分析目标出现在某一位置时，查找与所述第一分析目标共同出现的第二分析目标，记为第一分析目标和第二分析目标共同出现一次，统计第一分析目标与第二分析目标的共现指标，例如共同出现的次数、共同出现的时长、共同出现的位置的数量等，根据所述共现指标，能够快速、准确地确定所述第一分析目标与所述第二分析目标的关联程度，通过共现次数等指标来确定关联程度更加符合分析目标的实际使用情况，有效提高了分析目标之间关联关系确定的效率和准确率。

图3为本申请实施例提供的数据处理方法实施例二的流程示意图。本实施例是在上述实施例提供的技术方案的基础上，通过采集设备来获取分析目标的数据，从而确定分析目标是否共同出现。如图3所示，本实施例中的数据处理方法，可以包括：

步骤301、从设置在检测地点的第一采集设备获取第一分析目标出现的时间，从与所述第一采集设备对应的第二采集设备获取第二分析目标出现的时间。

步骤302、根据获取到的第一分析目标和第二分析目标出现的时间，查找与第一分析目标共同出现的第二分析目标。

其中，所述第一采集设备对应的第二采集设备为与所述第一采集设备距离最近的第二采集设备。

本实施例中，第一分析目标可以由第一采集设备检测得到，第二分析目标可以由第二采集设备检测得到。因为第一采集设备和第二采集设备在地点上已经具有了关联关系，因此直接根据第一分析目标出现的时间和第二分析目标出现的时间，可以确定第一分析目标与第二分析目标是否共同出现以及共同出现的时间和地点。

在实际应用中，若第一分析目标在T时刻被第一采集设备检测到，第二分析目标在[T-t,T+t]期间出现被第一采集设备对应的第二采集设备检测到，则认为第一分析目标与第二分析目标共同出现一次。

步骤303、统计第一分析目标与第二分析目标的共现指标。

其中，所述共现指标包括下述至少一项：共同出现的次数、共同出现的时长、共同出现的检测地点的数量。

步骤304、根据所述共现指标，确定所述第一分析目标与所述第二分析目标的关联程度。

综上，本实施例提供的数据处理方法，可以通过第一采集设备检测第一分析目标，通过第二采集设备检测第二分析目标，若第一分析目标被第一采集设备检测到时，第二分析目标被距离所述第一采集设备最近的第二采集设备检测到，那么记为第一分析设备和第二分析设备共同出现一次，能够根据第一采集设备和第二采集设备发送的数据来确定共现指标，步骤简单，易于实现，并且具有很高的准确性。

图4为本申请实施例提供的数据处理方法实施例三的流程示意图。本实施例是在上述实施例提供的技术方案的基础上，通过交通工具ID和通信设备ID的共现指标确定对应的关联程度。如图4所示，本实施例中的数据处理方法，可以包括：

步骤401、查找共同出现的交通工具ID与通信设备ID。

步骤402、统计交通工具ID与通信设备ID的共现指标。

其中，所述共现指标包括下述至少一项：共同出现的次数、共同出现的时长、共同出现的位置的数量。

步骤403、根据所述共现指标，确定所述交通工具ID与通信设备ID的关联程度。

具体地，所述交通工具可以为任意交通工具，如车、船、飞行器等，所述交通工具ID可以包括任意能够标识交通工具身份的信息，如车牌号码等；所述通信设备可以为任意类型的通信设备，所述通信设备ID可以包括任意能够标识通信设备身份的信息，如手机号码等。

本实施例中方法的实现过程和原理可以参照前述任一实施例，具体地，前述各实施例中的第一分析目标可以为交通工具ID，第二分析目标可以为通信设备ID，第一采集设备可以为设置在所述检测地点的交通卡口，第二采集设备可以为信号覆盖所述交通卡口的基站；或者，第一分析目标可以为通信设备ID，第二分析目标可以为交通工具ID，第一采集设备可以为基站，第二采集设备可以为与基站对应的交通卡口。

可选的，查找共同出现的交通工具ID与通信设备ID，可以包括：获取交通卡口发送的交通流量数据以及与所述交通卡口对应的基站发送的通信信令数据；根据获取到的交通流量数据和通信信令数据，查找共同出现的交通工具ID与通信设备ID。

其中，所述交通流量数据可以包括车流量数据，所述通信信令数据可以包括手机信令数据。

可选的，与所述交通工具ID共同出现的通信设备ID为当交通工具ID在T时刻出现在交通卡口时，在T时刻前后预设时段内与所述交通卡口对应的基站建立连接的通信设备ID。

可选的，在根据所述共现指标，确定所述交通工具ID与所述通信设备ID的关联程度之后，还可以：展示第一分析目标与第二分析目标的关联程度，和/或展示与第一分析目标具有关联关系的第二分析目标。

具体地，可以获取用户输入的交通工具ID或通信设备ID；查找与用户输入的交通工具ID共同出现过的至少一个通信设备ID，将所述至少一个通信设备ID按照与所述交通工具ID的关联程度排序，并按照排序展示至少一个通信设备ID；或者，查找与用户输入的通信设备ID共同出现过的至少一个交通工具ID，将所述至少一个交通工具ID按照与所述通信设备ID的关联程度排序，并按照排序展示至少一个交通工具ID。

可选的，所述方法还可以包括：获取多个样本数据，所述样本数据包括交通工具ID和对应的通信设备ID；根据所述多个样本数据，确定交通卡口与基站的对应关系。

综上，本实施例提供的数据处理方法，通过交通卡口可以采集车流量数据，从而确定车辆的交通工具ID及出现的时间，通过基站的手机信令数据可以确定与基站连接的通信设备ID以及连接时间，这样，就可以计算出交通工具ID和通信设备ID的共现指标，并根据共现指标确定交通工具ID与通信设备ID的关联程度，还可以将关联程度最高的交通工具ID和通信设备ID绑定起来，实现人车合一，应用于智能交通的各个项目中。

在上述实施例提供的技术方案的基础上，可选的是，还可以获取待查询的交通工具ID；查找与所述交通工具ID关联程度最大的通信设备ID；根据所述关联程度最大的通信设备ID所在的地理位置信息，确定所述交通工具ID所在的地理位置信息；输出所述交通工具ID所在的地理位置信息；其中，地理位置信息包括下述至少一项：当前地理位置信息、历史地理位置信息、预设时段内的轨迹信息。

其中，所述待查询的交通工具ID可以由用户输入，或者，可以响应于其它外部事件来获取待查询的交通工具ID，例如，当检测某一交通工具涉嫌违规时，可以获取对应的交通工具ID作为所述待查询的交通工具ID，从而查询其所在的地理位置信息。

以交通工具ID为车牌号码、通信设备ID为手机号码为例，当用户需要查询某一车辆的位置时，可以输入对应的车牌号码，或者，当检测到某车辆涉嫌违规时，可以获取对应的车牌号码进行查询。

获取到待查询的车牌号码后，可以查找与所述车牌号码关联程度最大的手机号码；根据所述关联程度最大的手机号码所在的地理位置信息，可以确定所述车牌号码所在的地理位置信息，即对应的车辆所在的地理位置信息，然后，可以输出所述车辆所在的地理位置信息。

输出的方式可以有很多种，例如，可以将地理位置信息通过地图或文字的方式展示给用户。

所述地理位置信息可以包括下述至少一项：当前地理位置信息、历史地理位置信息、预设时段内的轨迹信息。

可以理解的是，由于手机号码与车牌号码的关联程度最大，可以认为两者的关联最紧密，因此，可以将手机号码的当前地理位置信息作为对应的车牌号码的当前地理位置信息，也可以将手机号码的历史地理位置信息作为对应的车牌号码的历史地理位置信息，还可以将手机号码在预设时段内的移动轨迹信息作为对应的车牌号码在预设时段内的移动轨迹信息，从而实现根据手机号码来定位车辆。

其中，所述预设时段可以预先设置好，也可以由用户输入，例如，用户想要查询某段时间某个车辆的移动轨迹，则可以输入相应的时间段和车牌号码，从而得到该车牌号码在该时间段内的移动轨迹。

本申请实施例实质上提出的是一种通过分析目标的时空数据将分析目标进行映射的技术方案。这里的两种分析目标分别用车牌号码与手机号码替代。

除此之外，本申请实施例还可以适用于任何其它需要计算分析目标关联程度的场景。例如，计算车牌号码与mac地址的关联程度，手机号码与mac地址的关联程度，手机号码与手机号码的关联程度，某一类型的设备与另一类型的设备的关联程度，等等。

在一个可选的实施方式中，可以利用本申请实施例提供的方法计算车牌号码与mac地址的关联程度。在城市的各个区域可以设置有mac地址识别设备，当手机经过mac地址识别设备时，设备可以识别出手机的mac地址并上报。

在有多个mac地址识别设备和多个交通卡口存在时，mac地址识别设备与交通卡口可以具有映射关系，例如，与交通卡口距离最近的mac地址识别设备可以作为该交通卡口对应的mac地址识别设备，通过交通卡口上传的车流量数据和对应的mac地址识别设备上传的mac地址数据，可以确定车牌号码与mac地址的共现指标，从而计算车牌号码与mac地址的关联程度。

在另一个可选的实施方式中，可以利用本申请实施例提供的方法计算电动车标识与手机号码的关联程度。电动车在出厂时会设置一个记录有电动车标识的芯片例如RFID芯片，在城市中的街道旁边或各个路口可以设置有用于识别电动车标识的识别设备，当电动车经过识别设备时，会被识别设备检测到并上报电动车标识。

在有多个识别设备和多个基站存在时，识别设备与基站可以具有映射关系，例如，与识别设备距离最近的一个基站可以作为该识别设备对应的基站，从而根据识别设备和基站发送的数据可以确定电动车标识与手机号码的关联程度。

在其它可选的实施方式中，还可以计算车与车、手机与手机之间的关联程度。此外，除了利用采集设备所在的地点来确定分析目标出现的地点以外，还可以通过其他方式确定分析目标出现的地点，例如，可以根据手机的定位模块上传的地理位置信息确定手机号码出现的地点，假设T时刻车辆经过交通卡口，查找T时刻在所述交通卡口周围预设范围内的手机，可以确定与车辆的车牌号码共同出现的手机号码。

无论计算哪两种分析目标的关联程度，只要是需要从第一采集设备和第二采集设备获取分析目标的数据，就需要知道第一采集设备和第二采集设备的映射关系，也就是说，在多个第二采集设备中，需要知道哪一个才是第一采集设备对应的(与第一采集设备距离最近的)的第二采集设备。

具体地，在所述第一采集设备和所述第二采集设备均为多个时，在从设置在检测地点的第一采集设备获取第一分析目标出现的时间，从与所述第一采集设备对应的第二采集设备获取第二分析目标出现的时间之前，还可以：确定第一采集设备与第二采集设备的对应关系。

图5为本申请实施例提供的一种确定对应关系的方法的流程示意图。如图5所示，确定第一采集设备与第二采集设备的对应关系，可以包括：

步骤501、获取多个样本数据，所述样本数据包括第一分析目标和对应的第二分析目标。

步骤502、针对每个第一采集设备，当所述第一采集设备检测到样本数据中的第一分析目标出现时，检测到对应的第二分析目标出现的第二采集设备增加一票。

步骤503、根据多个第二采集设备对应的票数，确定所述第一采集设备对应的第二采集设备。

为了便于描述，以第一分析目标和第二分析目标为车牌号码和手机号码为例进行说明。

图6为本申请实施例提供的一种数据处理方法的原理示意图。如图6所示，根据车流量数据、手机信令数据、车牌号码与手机号码的样本数据，可以确定交通卡口和基站的对应关系，根据交通卡口和基站的对应关系，可以确定车牌号码与手机号码的共现指标，从而计算关联程度。

首先，需要获取多个样本数据，所述样本数据包括车牌号码和对应的手机号码。所述样本数据可以从车辆登记信息中获取，用户在登记车辆信息时，会输入自己的手机号码，由此可以获取车牌号码与对应的手机号码的样本。

假定车牌号码与手机号码的样本数据中存在一定概率(如30％)的正确的<车牌号码，手机号码>关系对，那么当其中一辆车在T时刻经过卡口A时，如果该车辆对应的手机号码是正确的，那么该手机号就会在[T-t，T+t]时间段极大概率连接到卡口A附近的基站，否则可能会随机连接到其它不同位置的基站。

然后，针对每个交通卡口，当该交通卡口检测到样本数据中的车牌号码出现时，检测到对应的手机号码出现的基站增加一票。

具体地，如果把样本数据中每一个<车牌号码，手机号码>关系对看做一张选票，当车牌号码在T时刻经过卡口A时，其对应的手机号码就会给在[T-t，T+t]出现的基站投一票。

根据大数定律，如果汽车登记信息中的<车牌号码，手机号码>的准确性越高并且数量越多，那么最后卡口A实际所对应的基站得到的投票就会越高。

可选的，为了避免某个样本无限制地为某个基站投票(禁止刷票)，一个样本只能对一个基站投一次票。

最后，根据多个基站对应的票数，可以确定所述交通卡口对应的基站。例如，可以将票数最高的一个基站作为所述交通卡口对应的基站。

或者，一个交通卡口也可以对应有至少两个基站，可以将票数最高的多个基站作为交通卡口对应的基站。可选的，步骤503中的根据多个第二采集设备对应的票数，确定所述第一采集设备对应的第二采集设备，可以包括：

确定票数最高的N个第二采集设备；在所述N个第二采集设备中，判断每个第二采集设备的票数与最高票数之间的差距；若所述差距小于预设阈值，则确认所述第二采集设备为所述第一采集设备对应的第二采集设备。其中N为正整数，所述预设阈值可以根据实际需要设置，例如可以为10％。

假设N为3，根据多个基站对应的票数，可以确定票数最高的前3个基站，票数排名第一(票数最高)的基站可以作为交通卡口对应的基站。如果票数排名第二的基站与票数排名第一的基站之间的票数差距较小，那么排名第二的基站也可以作为交通卡口对应的基站，否则，排名第二的基站不能作为该交通卡口对应的基站。

类似的，如果票数排名第三的基站与票数排名第一的基站之间的票数差距较小，那么排名第三的基站也可以作为交通卡口对应的基站。

如果一个交通卡口对应的基站有多个，那么在车牌号码被交通卡口检测到时，手机号码与其中一个基站建立了连接，就算是车牌号码与手机号码共现了一次。可以理解的是，即使手机号码与对应的多个基站都建立了连接，那么也仅仅算所述车牌号码与所述手机号码共现了一次，而不能算作共现多次。

由于设备间通信具有一定的间隔性，本申请实施例中所指的共同出现，可以是指一个时间段内共同出现，例如车牌号码和手机号码在[T-t，T+t]时间段内共同出现，这一时间段的长度可以大于基站与手机之间的心跳连接的时间间隔。

在实际应用中，要计算车牌号码与手机号码的共现指标的前提是知道交通卡口与基站的对应关系。在一种比较简单的实施方案中，可以直接基于两者的经纬度来计算两者的距离，只要距离小于某个既定阈值则认为两者具有对应关系，这种方案的缺陷是依赖交通卡口和基站的数据准确性以及实时性，而且由于直接通过阈值判断取舍，可能会带来不少的噪音或者丢失重要映射关系。

而在步骤501至步骤503提供的解决方案中，直接使用真实的车流量数据、手机信令数据和一些样本数据计算出卡口和基站的映射关系，相比普通的解决方案，该方案的优点是基于实际的流量数据进行自适应计算，映射关系与实际情况一致，同时可以在一定程度上去掉一些冗余的映射关系。

综上，本实施例提供的数据处理方法，在有多个第一采集设备和多个第二采集设备时，可以获取多个样本数据，根据样本数据的出现情况来确定第一采集设备与第二采集设备的对应关系，不依赖于设备提供商提供的设备位置数据，能够快速、准确地计算出第一采集设备与第二采集设备的映射关系，为后续计算第一分析目标与第二分析目标的关联程度做好铺垫；应用到智能交通领域时，可以基于实际的样本数据的流量情况和样本数据通过民主选举的方式来得到交通卡口与基站的映射关系，这种方法得到的交通卡口与基站的映射关系更加符合实际情况，而且能够避免一些干扰因素。

上述实施例提到通过实际的流量数据来计算第一采集设备与第二采集设备的映射关系，当样本量不足的时候，可能会存在映射关系召回不足的情况。为了解决这个问题，可以先使用传统的通过经纬度计算距离的方式来计算第一采集设备与第二采集设备的映射关系，然后根据该映射关系计算出第一分析目标与第二分析目标的关联程度，并将其中关联程度高的第一分析目标与第二分析目标作为样本，以便丰富样本的数量，克服样本量不足的缺点。

在上述各实施例提供的技术方案的基础上，可选的是，当需要计算某一第一分析目标与某一第二分析目标的关联程度时，直接根据两者的共现指标来进行计算，可以理解的是，共现指标(如共现次数越大)，关联程度越大。共现指标与关联程度的对应关系可以根据大数据分析来确定，也可以根据实际需要自行设置。

或者，也可以将共同出现过的第一分析目标和第二分析目标组成共现组合，根据各个共现组合的共现指标，计算每个共现组合对应的关联程度。

可选的，统计第一分析目标与第二分析目标的共现指标，可以包括：统计各个共现组合对应的共现指标，其中，每个共现组合包括一个第一分析目标以及一个与该第一分析目标共同出现过的第二分析目标。

相应的，根据所述共现指标，确定所述第一分析目标与所述第二分析目标的关联程度，可以包括：针对每个共现组合，根据所述共现组合中的第一分析目标和第二分析目标的共现指标，计算所述共现组合中的第一分析目标与所述第二分析目标的关联程度。

图7为本申请实施例提供的一种计算共现组合关联程度的方法的流程示意图。如图7所示，根据所述共现组合中的第一分析目标和第二分析目标的共现指标，计算所述共现组合中的第一分析目标与所述第二分析目标的关联程度，可以包括：

步骤701、根据所述第一分析目标与所述第二分析目标的共现指标，计算共现指标对应的置信度。

步骤702、根据共现指标对应的置信度，确定所述第一分析目标与所述第二分析目标的关联程度。

其中，所述共现指标对应的置信度包括下述至少一项：共同出现的次数对应的置信度、共同出现的时长对应的置信度、共同出现的位置的数量对应的置信度。

可选的，可以定义置信度公式confidence(x,c)＝1.0/(1.0+exp(6.0-12.0/c*x))，其中x是变量，c是常量，当x接近于0的时候，该公式的值趋近于0，当x接近于c的时候，该公式的值接近于1，当x超过c后，该公式的值还会随着x的增加而增加，但是增加幅度会大幅减小。

上述置信度公式的优势在于：公式的输出在0和1之间，能够实现置信度的归一化，方便用户了解关联关系的可信度。并且，只要x达到c以后，就认为是足够可信的，即使x再增加，置信度的涨幅也不会增加太多。

在其它可选的实施方式中，公式中的常数可以根据实际需要进行选择，例如，6.0和12.0可以用其它数值代替。或者，也可以用其它的公式代替上述置信度公式，只要是满足x越大，置信度越大的要求即可。

以车牌号码和手机号码为例，基于共现日志数据可以计算<车牌号码，手机号码>组成的共现组合的共现次数、共现天数以及共现卡口数(共同出现的位置的数量，也可以用共现基站数代替)三个维度的置信度分数，取值0～1。

其中，共现次数对应的置信度＝confidence(共现次数，c1)，c1是根据实际情况取的次数阈值；共现天数对应的置信度＝confidence(共现天数，c2)，c2是根据实际情况取的天数阈值；共现卡口数对应的置信度＝confidence(共现卡口数，c3)，c3是根据实际情况取的卡口数阈值。

c1、c2和c3的值可以根据经验来确定，一般来说，统计30天的数据的话，c1、c2和c3的值可以分别为15、7、5。或者，可以根据样本数据的平均值来确定c1、c2、c3。例如，关联较强的<车牌号码，手机号码>的平均共现次数为100，则c1可以为100。

在计算出各个共现指标对应的置信度之后，可以根据各个共现指标对应的置信度来确定关联程度。可选的，可以将各个指标对应的置信度相乘，得到所述关联程度。

可选的，<车牌号码，手机号码>的基本关联分数＝共现次数对应的置信度*共现天数对应的置信度*共现卡口数对应的置信度。所述基本关联分数可以反映关联程度，分数越高，关联程度越大。

进一步地，为了提高关联程度的准确性，还可以计算第一分析目标和第二分析目标对共现组合的支持度，并根据支持度对关联分数进行修正。

具体地，根据共现指标对应的置信度，确定所述第一分析目标与所述第二分析目标的关联程度，可以包括：

确定所述共现组合中的第一分析目标对所述共现组合的支持度和/或第二分析目标对所述共现组合的支持度；根据所述共现组合中的第一分析目标对所述共现组合的支持度和/或第二分析目标对所述共现组合的支持度以及共现指标对应的置信度，确定所述第一分析目标与所述第二分析目标的关联程度。

可选的，确定所述共现组合中的第一分析目标对所述共现组合的支持度，可以包括：将与所述共现组合中的第一分析目标共同出现过的各个第二分析目标按照共现指标进行排序；根据所述共现组合中的第二分析目标对应的序号，确定所述共现组合中的第一分析目标对所述共现组合的支持度。

类似地，确定所述共现组合中的第二分析目标对所述共现组合的支持度，可以包括：将与所述共现组合中的第二分析目标共同出现过的各个第一分析目标按照共现指标进行排序；根据所述共现组合中的第一分析目标对应的序号，确定所述共现组合中的第二分析目标对所述共现组合的支持度。

其中，按照共现指标进行排序，可以包括：按照共现次数、共现时长、共同出现的位置的数量中的任意一项进行排序；或者，按照共现次数、共现时长和共同出现的位置的数量的加权和进行排序。

下面以车牌号码与手机号码为例来说明本实施例的具体实现过程。可选的，可以基于共现日志数据计算车牌号码和手机号码分别对<车牌号码，手机号码>共现组合的支持度，支持度取值0～1。

具体地，车牌号码A对共现组合<车牌号码A，手机号B>的支持度可以通过以下方式进行计算。

对于与车牌号码A有过共现的所有手机号码集合S，根据共现次数将集合S中的手机号码从高到低进行排名，定义对于排名第n位手机号码，车牌号码A对其支持度为0.975^(n-1)，即0.975的n-1次方，其中0.975是一个衰减因子，也可以用其它的值代替，可选的，衰减因子可以在0.95-0.99之间取值，不能超过1。

如果集合S中的某个手机号码的排名为1，那么车牌号码A对其支持度为0.975^0＝1.0；如果集合S中的某个手机号码的排名为100，那么车牌号码A对其支持度为0.975^99＝0.081。

类似地，手机号码B对<车牌号码A，手机号码B>的支持度可以通过如下方式计算。

对于与手机号B有过共现的所有车牌号码集合O，根据共现次数将集合O中的手机号码从高到低进行排名，定义对于排名第m位的车牌号码，手机号B对其支持度为0.975^(m-1)。

如果集合O中的某个车牌号码的排名为1，那么手机号码B对其支持度为0.975^0＝1.0；如果集合O中的某个车牌号码的排名为100，那么手机号码B对其支持度为0.975^99＝0.081。

在确定支持度以后，可以根据所述共现组合中的第一分析目标对共现组合的支持度和/或第二分析目标对共现组合的支持度以及共现指标对应的置信度，确定所述第一分析目标与所述第二分析目标的关联程度。

可选的，最终关联分数可以等于第一分析目标对共现组合的支持度和/或第二分析目标对共现组合的支持度以及基本关联分数的乘积，例如，最终关联分数＝基本关联分数*0.975^(n-1)*0.975^(m-1)。可以用最终关联分数来表示关联程度。

下面通过一个简单的例子说明增加支持度的优势。假设用户使用手机号码B，用户的私家车的车牌号码为A1，公司的公用车的车牌号码为A2，经常乘坐的公交车的车牌号码为A3，如果某个月，用户乘坐自己的私家车、公用车和公交车的次数差不多，例如，<车牌号码A1，手机号码B>的共现次数、<车牌号码A2，手机号码B>的共现次数、<车牌号码A3，手机号码B>的共现次数均为30次，那么三者的共现次数对应的置信度可能都是相同的。

如果仅仅使用置信度来表征关联程度，难免会得到<车牌号码A1，手机号码B>的关联程度等于<车牌号码A2，手机号码B>的关联程度等于<车牌号码A3，手机号码B>的关联程度，不利于分辨究竟哪一个才是与手机号码B最相关的车牌号码。

在加入支持度后，对于私家车A1来说，由于用户的私家车A1一般只有自己使用，很少被别人使用，因此，与私家车A1共现过的手机号码集合S中，只有很少的手机号码，而且用户的手机号码B排在第一位，支持度自然最高。对于公司的公用车A2来说，假设公司共有五个人使用公用车A2，那么用户可能会排在第三、第四，支持度相对于私家车自然会降低。对于公交车来说，乘坐的乘客更多，那么支持度更小。

因此，从最终得到的关联程度来看，应该是<车牌号码A1，手机号码B>的关联程度大于<车牌号码A2，手机号码B>的关联程度大于<车牌号码A3，手机号码B>的关联程度，这也与实际情况一致，因为用户与自己的私家车的关系肯定更加紧密一些，而与公交车的关系基本很浅。

综上，本实施例提供的计算共现组合关联程度的方法，将共现指标转化成了有表达意义的分数，同时加入支持度与置信度的设计，既有效地将关联强度进行了分数归一化，而且该分数也具有非常强的解释意义，并且还能有效的降低噪声数据。

在其它可选的实施方式中，也可以通过其它公式来计算置信度和支持度，只要保证共同出现的次数/共同出现的时长/共同出现的位置的数量越大，共同出现的次数对应的置信度/共同出现的时长对应的置信度/共同出现的位置的数量对应的置信度越大，共现组合中的第一分析目标/第二分析目标对应的序号越大，第二分析目标/第一分析目标对共现组合的支持度越小即可。

为了便于描述，以上以车牌号码和手机号码为例对本申请实施例的方法进行了说明。本领域技术人员可以理解的是，本申请实施例中的方法可以适用于任意两个分析目标的关联程度的计算。简单来说，采集设备A与采集设备B对应，A用于采集x的数据，B用于采集y的数据，通过A与B采集到的数据，可以计算x与y的映射关系：首先，根据样本里的x与y的关系，计算A与B的对应关系；然后，当x经过A时，确定对应的B采集到的y的数据，记为x与y共现一次；最后，根据x与y的共现指标，计算置信度和支持度，从而确定x与y的关联程度。

在本申请各实施例提供的方案中，在查找与第一分析目标共同出现的第二分析目标时，可以首先排除掉干扰数据。所述干扰数据是指，大部分时间(例如80％及以上的时间)都出现在检测地点预设范围内的第二检测目标。

例如，在获取到基站发送的手机信令数据时，如果某一手机号码大部分时间都与该基站连接，说明该手机号码的用户可能住在基站旁边，在统计车牌号码与手机号码的关联程度时，该手机号码就是可能引起干扰的数据，不应该被纳入统计中。因此，可以在获取到车流量数据和手机信令数据后，先清洗掉车流量数据与手机信令数据中的干扰数据，然后再从中选择共同出现的车牌号码和手机号码。

在上述各实施例提供的技术方案的基础上，可选的，还可以输出第一分析目标与第二分析目标的关联程度，和/或输出与第一分析目标具有关联关系的第二分析目标。

其中，所述输出可以是指向消费者或企业级用户输出，如向用户展示关联程度或关联关系等，也可以是指向其它平台或***输出。下面以展示为例进行说明。

图8为本申请实施例提供的数据处理方法实施例四的流程示意图。本实施例是在上述各实施例提供的技术方案的基础上，增加了向用户展示关联关系或关联程度的功能。如图8所示，本实施例中的方法，可以包括：

步骤801、查找与第一分析目标共同出现的第二分析目标。

步骤802、统计第一分析目标与第二分析目标的共现指标，其中，所述共现指标包括下述至少一项：共同出现的次数、共同出现的时长、共同出现的位置的数量。

步骤803、根据所述共现指标，确定所述第一分析目标与所述第二分析目标的关联程度。

本实施例中，步骤801至步骤803的具体实现方法可以参见前述任一实施例，此处不再赘述。

步骤804、展示第一分析目标与第二分析目标的关联程度，和/或展示与第一分析目标具有关联关系的第二分析目标。

可选的，可以展示至少一个第一分析目标与至少一个第二分析目标各自对应的关联程度，例如，在对100个车牌号码和1000个手机号码进行分析后，可以展示每个<车牌号码、手机号码>对的关联程度，由用户或者其它设备或平台来根据关联程度进行进一步处理。

或者，可以向用户提供查询关联程度或者查询关联关系的功能。提供查询功能的实现方式可以有很多种。在一种可选的实施方式中，可以获取获取用户输入的第一分析目标，根据所述第一分析目标，展示与所述第一分析目标关联程度最高的第二分析目标。

图9为本申请实施例提供的一种关联程度的显示示意图。如图9所示，用户想要查询车牌号码“京A8888”对应的手机号码，可以在输入框中输入该车牌号码，经查询，与其关联程度最高的手机号码为138XXXXXXXX，可以向用户显示该手机号码，进一步地，还可以显示关联程度，方便用户了解车牌号码与手机号码的关联程度。

具体地，可以向用户显示“您要查询的车牌号码京A8888，对应的手机号码为138XXXXXXXX，关联程度为0.9”。

在另一种可选的实施方式中，可以获取用户输入的第一分析目标；查找与所述第一分析目标共同出现过的至少一个第二分析目标，将所述至少一个第二分析目标按照与第一分析目标的关联程度排序；按照排序展示至少一个第二分析目标，例如，可以按照排序展示与第一分析目标有关联关系的全部第二分析目标，或者，也可以仅展示排序在前N位的第二分析目标。

以车牌号码和手机号码为例，可以获取用户输入的车牌号码或手机号码，查找与用户输入的车牌号码共同出现过的至少一个手机号码，将所述至少一个手机号码按照与所述车牌号码的关联程度排序，并按照排序展示至少一个手机号码；或者，查找与用户输入的手机号码共同出现过的至少一个车牌号码，将所述至少一个车牌号码按照与所述手机号码的关联程度排序，并按照排序展示至少一个车牌号码。

图10为本申请实施例提供的另一种关联程度的显示示意图。如图10所示，与“京A8888”共同出现过的手机号码有多个，可以按照关联程度进行排序并显示，方便用户了解各个手机号码与该车牌号码的关联程度。

当然，也可以输入手机号码，根据手机号码查询对应的车牌号码。其实现原理类似，此处不再赘述。

在其它可选的实施方式中，也可以获取用户输入的第一分析目标和第二分析目标，查找与所述用户输入的第一分析目标和第二分析目标的关联程度，并展示所述关联程度。例如，可以获取用户输入的<车牌号码、手机号码>对，查询所述<车牌号码、手机号码>对的关联程度并显示给用户。

可选的，获取用户输入的信息，可以是在确定关联程度之前获取，也可以在确定关联关系之后获取，本实施例对此不作限制。

本实施例提供的数据处理方法，可以展示第一分析目标与第二分析目标的关联程度，和/或，展示与第一分析目标具有关联关系的第二分析目标，使得用户能够方便、快捷地了解第一分析目标与第二分析目标的关联情况，为用户提供了便利。

以下将详细描述本申请的一个或多个实施例的数据处理装置。本领域技术人员可以理解，这些数据处理装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图11为本申请实施例提供的一种数据处理装置的结构示意图。如图11所示，该装置可以包括：

第一查找模块11，用于查找与第一分析目标共同出现的第二分析目标；

第一统计模块12，用于统计第一分析目标与第二分析目标的共现指标，其中，所述共现指标包括下述至少一项：共同出现的次数、共同出现的时长、共同出现的位置的数量；

第一确定模块13，用于根据所述共现指标，确定所述第一分析目标与所述第二分析目标的关联程度。

可选的，所述第一查找模块11具体可以用于：获取第一分析目标的数据和第二分析目标的数据，所述数据包括出现的时间和位置；根据第一分析目标的数据和第二分析目标的数据，查找与第一分析目标共同出现的第二分析目标。

可选的，与所述第一分析目标共同出现的第二分析目标为当第一分析目标在T时刻出现在某一位置时，在T时刻前后预设时段内出现在所述位置的预设范围内的第二分析目标。

可选的，所述第一查找模块11具体可以用于：从设置在检测地点的第一采集设备获取第一分析目标出现的时间，从与所述第一采集设备对应的第二采集设备获取第二分析目标出现的时间；根据获取到的第一分析目标和第二分析目标出现的时间，查找与第一分析目标共同出现的第二分析目标；其中，所述第一采集设备对应的第二采集设备为与所述第一采集设备距离最近的第二采集设备。

可选的，所述第一分析目标为车牌号码，所述第二分析目标为手机号码；所述第一采集设备为设置在所述检测地点的交通卡口，所述第二采集设备为信号覆盖所述交通卡口的基站。

可选的，所述第一统计模块12具体可以用于：根据第一分析目标与第二分析目标共同出现的时间，确定所述第一分析目标与第二分析目标共同出现的时长；和/或，根据第一分析目标与第二分析目标共同出现的位置，确定所述第一分析目标与第二分析目标共同出现的位置的数量。

可选的，所述第一统计模块12具体可以用于：统计各个共现组合对应的共现指标，每个共现组合包括一个第一分析目标以及一个与该第一分析目标共同出现过的第二分析目标。相应的，所述确定模块13具体可以用于：针对每个共现组合，根据所述共现组合中的第一分析目标和第二分析目标的共现指标，计算所述共现组合中的第一分析目标与所述第二分析目标的关联程度。

可选的，所述第一确定模块13具体可以用于：根据所述第一分析目标与所述第二分析目标的共现指标，计算共现指标对应的置信度；根据共现指标对应的置信度，确定所述第一分析目标与所述第二分析目标的关联程度；其中，所述共现指标对应的置信度包括下述至少一项：共同出现的次数对应的置信度、共同出现的时长对应的置信度、共同出现的位置的数量对应的置信度。

可选的，所述第一确定模块13具体可以包括：置信度计算单元，用于根据所述第一分析目标与所述第二分析目标的共现指标，计算共现指标对应的置信度；支持度计算单元，用于确定所述共现组合中的第一分析目标对所述共现组合的支持度和/或第二分析目标对所述共现组合的支持度；确定单元，用于根据所述共现组合中的第一分析目标对所述共现组合的支持度和/或第二分析目标对所述共现组合的支持度以及共现指标对应的置信度，确定所述第一分析目标与所述第二分析目标的关联程度。

可选的，所述支持度计算单元具体可以用于：将与所述共现组合中的第一分析目标共同出现过的各个第二分析目标按照共现指标进行排序；根据所述共现组合中的第二分析目标对应的序号，确定所述共现组合中的第一分析目标对所述共现组合的支持度；和/或，将与所述共现组合中的第二分析目标共同出现过的各个第一分析目标按照共现指标进行排序；根据所述共现组合中的第一分析目标对应的序号，确定所述共现组合中的第二分析目标对所述共现组合的支持度。

可选的，共同出现的次数/共同出现的时长/共同出现的位置的数量越大，共同出现的次数对应的置信度/共同出现的时长对应的置信度/共同出现的位置的数量对应的置信度越大；共现组合中的第一分析目标/第二分析目标对应的序号越大，第二分析目标/第一分析目标对共现组合的支持度越小。

可选的，所述第一确定模块13还可以用于：展示第一分析目标与第二分析目标的关联程度，和/或展示与第一分析目标具有关联关系的第二分析目标。

可选的，所述第一确定模块13还可以用于：获取用户输入的第一分析目标；查找与所述用户输入的第一分析目标共同出现过的至少一个第二分析目标，将所述至少一个第二分析目标按照与第一分析目标的关联程度排序；按照排序展示至少一个第二分析目标。

可选的，所述第一确定模块13还可以用于：获取用户输入的第一分析目标和第二分析目标；查找所述用户输入的第一分析目标和第二分析目标的关联程度；展示所述用户输入的第一分析目标和第二分析目标的关联程度。

可选的，所述第一采集设备和所述第二采集设备均为多个；相应的，所述装置还可以包括：对应模块，用于确定第一采集设备与第二采集设备的对应关系。

可选的，所述对应模块具体可以包括：获取单元，用于获取多个样本数据，所述样本数据包括第一分析目标和对应的第二分析目标；投票单元，用于针对每个第一采集设备，当所述第一采集设备检测到样本数据中的第一分析目标出现时，检测到对应的第二分析目标出现的第二采集设备增加一票；对应单元，用于根据多个第二采集设备对应的票数，确定所述第一采集设备对应的第二采集设备。

可选的，所述对应单元具体可以用于：确定票数最高的N个第二采集设备；在所述N个第二采集设备中，判断每个第二采集设备的票数与最高票数之间的差距；若所述差距小于预设阈值，则确认所述第二采集设备为所述第一采集设备对应的第二采集设备。

图11所示装置可以执行前述任一实施例提供的数据处理方法，本实施例未详细描述的部分，可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

图12为本申请实施例提供的另一种数据处理装置的结构示意图。如图12所示，该装置可以包括：

第二查找模块14，用于查找共同出现的交通工具ID与通信设备ID；

第二统计模块15，用于统计所述交通工具ID与所述通信设备ID的共现指标，其中，所述共现指标包括下述至少一项：共同出现的次数、共同出现的时长、共同出现的位置的数量；

第二确定模块16，用于根据所述共现指标，确定所述交通工具ID与所述通信设备ID的关联程度。

可选的，所述第二查找模块14具体可以用于：获取交通卡口发送的交通流量数据以及与所述交通卡口对应的基站发送的通信信令数据；根据获取到的交通流量数据和通信信令数据，查找共同出现的交通工具ID与通信设备ID。

可选的，所述第二确定模块16还可以用于：获取多个样本数据，所述样本数据包括交通工具ID和对应的通信设备ID；根据所述多个样本数据，确定交通卡口与基站的对应关系。

可选的，所述第二确定模块16还可以用于：在根据所述共现指标，确定所述交通工具ID与所述通信设备ID的关联程度之后，展示所述交通工具ID与通信设备ID的关联程度，和/或展示与所述交通工具ID具有关联关系的通信设备ID。

可选的，所述第二确定模块16还可以用于：获取待查询的交通工具ID；查找与所述交通工具ID关联程度最大的通信设备ID；根据所述关联程度最大的通信设备ID所在的地理位置信息，确定所述交通工具ID所在的地理位置信息；输出所述交通工具ID所在的地理位置信息；其中，地理位置信息包括下述至少一项：当前地理位置信息、历史地理位置信息、预设时段内的移动轨迹信息。

图12所示装置可以执行前述实施例三提供的数据处理方法，本实施例未详细描述的部分，可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

图13为本申请实施例提供的一种电子设备的结构示意图。该电子设备可以为任意具有数据处理功能的设备如数据处理服务器等。如图13所示，该电子设备可以包括：第一处理器21和第一存储器22。其中，所述第一存储器22用于存储支持电子设备执行前述任一实施例提供的数据处理方法的程序，所述第一处理器21被配置为用于执行所述第一存储器22中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第一处理器21执行时能够实现如下步骤：

查找与第一分析目标共同出现的第二分析目标；

可选地，所述第一处理器21还用于执行前述图1-图10所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括第一通信接口23，用于电子设备与其他设备或通信网络通信。

图14为本申请实施例提供的另一种电子设备的结构示意图。如图14所示，该电子设备可以包括：第二处理器24和第二存储器25。其中，所述第二存储器25用于存储支持电子设备执行前述任一实施例提供的数据处理方法的程序，所述第二处理器24被配置为用于执行所述第二存储器25中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第二处理器24执行时能够实现如下步骤：

查找共同出现的交通工具ID与通信设备ID；

可选地，所述第二处理器24还用于执行前述图4所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括第二通信接口26，用于电子设备与其他设备或通信网络通信。

另外，本申请实施例提供了一种存储计算机指令的计算机可读存储介质，当所述计算机指令被处理器执行时，致使所述处理器执行包括以下的动作：

查找与第一分析目标共同出现的第二分析目标；

当所述计算机指令被处理器执行时，还可以致使所述处理器执行实施例一至四中的数据处理方法所涉及的全部或部分步骤。

另外，本申请实施例提供了另一种存储计算机指令的计算机可读存储介质，当所述计算机指令被处理器执行时，致使所述处理器执行包括以下的动作：

查找共同出现的交通工具ID与通信设备ID；

当所述计算机指令被处理器执行时，还可以致使所述处理器执行实施例五中的数据处理方法所涉及的全部或部分步骤。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式楼层的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，包括：

查找与第一分析目标共同出现的第二分析目标；

针对每个共现组合，根据所述第一分析目标与所述第二分析目标的共现指标，计算共现指标对应的置信度；其中，所述共现指标对应的置信度包括下述至少一项：共同出现的次数对应的置信度、共同出现的时长对应的置信度、共同出现的位置的数量对应的置信度；

确定所述共现组合中的第一分析目标对所述共现组合的支持度和/或第二分析目标对所述共现组合的支持度；

根据所述共现组合中的第一分析目标对所述共现组合的支持度和/或第二分析目标对所述共现组合的支持度以及共现指标对应的置信度，确定所述第一分析目标与所述第二分析目标的关联程度。

2.根据权利要求1所述的方法，其特征在于，查找与第一分析目标共同出现的第二分析目标，包括：

获取第一分析目标的数据和第二分析目标的数据，所述数据包括出现的时间和位置；

根据第一分析目标的数据和第二分析目标的数据，查找与第一分析目标共同出现的第二分析目标。

3.根据权利要求1所述的方法，其特征在于，与所述第一分析目标共同出现的第二分析目标为当第一分析目标在T时刻出现在某一位置时，在T时刻前后预设时段内出现在所述位置的预设范围内的第二分析目标。

4.根据权利要求1所述的方法，其特征在于，查找与第一分析目标共同出现的第二分析目标，包括：

从设置在检测地点的第一采集设备获取第一分析目标出现的时间，从与所述第一采集设备对应的第二采集设备获取第二分析目标出现的时间；

根据获取到的第一分析目标和第二分析目标出现的时间，查找与第一分析目标共同出现的第二分析目标；

5.根据权利要求4所述的方法，其特征在于，所述第一分析目标为车牌号码，所述第二分析目标为手机号码；所述第一采集设备为设置在所述检测地点的交通卡口，所述第二采集设备为信号覆盖所述交通卡口的基站。

6.根据权利要求1所述的方法，其特征在于，统计第一分析目标与第二分析目标的共现指标，包括：

根据第一分析目标与第二分析目标共同出现的时间，确定所述第一分析目标与第二分析目标共同出现的时长；

和/或，根据第一分析目标与第二分析目标共同出现的位置，确定所述第一分析目标与第二分析目标共同出现的位置的数量。

7.根据权利要求1所述的方法，其特征在于，统计第一分析目标与第二分析目标的共现指标，包括：

统计各个共现组合对应的共现指标，每个共现组合包括一个第一分析目标以及一个与该第一分析目标共同出现过的第二分析目标。

8.根据权利要求1所述的方法，其特征在于，确定所述共现组合中的第一分析目标对所述共现组合的支持度，包括：

将与所述共现组合中的第一分析目标共同出现过的各个第二分析目标按照共现指标进行排序；根据所述共现组合中的第二分析目标对应的序号，确定所述共现组合中的第一分析目标对所述共现组合的支持度；

相应的，确定所述共现组合中的第二分析目标对所述共现组合的支持度，包括：

将与所述共现组合中的第二分析目标共同出现过的各个第一分析目标按照共现指标进行排序；根据所述共现组合中的第一分析目标对应的序号，确定所述共现组合中的第二分析目标对所述共现组合的支持度。

9.根据权利要求8所述的方法，其特征在于，

共同出现的次数的数量越大,共同出现的次数对应的置信度越大；

共同出现的时长的数量越大,共同出现的时长对应的置信度越大；

共同出现的位置的数量越大，共同出现的位置的数量对应的置信度越大；

共现组合中的第一分析目标对应的序号越大，第二分析目标对共现组合的支持度越小；

共现组合中的第二分析目标对应的序号越大，第一分析目标对共现组合的支持度越小。

10.根据权利要求1-9中任一项所述的方法，其特征在于，还包括：

展示第一分析目标与第二分析目标的关联程度，和/或展示与第一分析目标具有关联关系的第二分析目标。

11.根据权利要求10所述的方法，其特征在于，展示与第一分析目标具有关联关系的第二分析目标，包括：

获取用户输入的第一分析目标；

查找与所述用户输入的第一分析目标共同出现过的至少一个第二分析目标，将所述至少一个第二分析目标按照与第一分析目标的关联程度排序；

按照排序展示至少一个第二分析目标。

12.根据权利要求10所述的方法，其特征在于，展示第一分析目标与第二分析目标的关联程度，包括：

获取用户输入的第一分析目标和第二分析目标；

查找所述用户输入的第一分析目标和第二分析目标的关联程度；

展示所述用户输入的第一分析目标和第二分析目标的关联程度。

13.根据权利要求4所述的方法，其特征在于，所述第一采集设备和所述第二采集设备均为多个；

相应的，在从设置在检测地点的第一采集设备获取第一分析目标出现的时间，从与所述第一采集设备对应的第二采集设备获取第二分析目标出现的时间之前，还包括：

确定第一采集设备与第二采集设备的对应关系。

14.根据权利要求13所述的方法，其特征在于，确定第一采集设备与第二采集设备的对应关系，包括：

获取多个样本数据，所述样本数据包括第一分析目标和对应的第二分析目标；

针对每个第一采集设备，当所述第一采集设备检测到样本数据中的第一分析目标出现时，检测到对应的第二分析目标出现的第二采集设备增加一票；

根据多个第二采集设备对应的票数，确定所述第一采集设备对应的第二采集设备。

15.根据权利要求14所述的方法，其特征在于，根据多个第二采集设备对应的票数，确定所述第一采集设备对应的第二采集设备，包括：

确定票数最高的N个第二采集设备；

在所述N个第二采集设备中，判断每个第二采集设备的票数与最高票数之间的差距；

若所述差距小于预设阈值，则确认所述第二采集设备为所述第一采集设备对应的第二采集设备。

16.一种数据处理方法，其特征在于，包括：

查找共同出现的交通工具ID与通信设备ID；

针对每个共现组合，根据所述交通工具ID与所述通信设备ID的共现指标，计算共现指标对应的置信度；其中，所述共现指标对应的置信度包括下述至少一项：共同出现的次数对应的置信度、共同出现的时长对应的置信度、共同出现的位置的数量对应的置信度；

确定所述共现组合中的交通工具ID对所述共现组合的支持度和/或通信设备ID对所述共现组合的支持度；

根据所述共现组合中的交通工具ID对所述共现组合的支持度和/或通信设备ID对所述共现组合的支持度以及共现指标对应的置信度，确定所述交通工具ID与所述通信设备ID的关联程度。

17.根据权利要求16所述的方法，其特征在于，

所述交通工具ID包括车牌号码；

所述通信设备ID包括手机号码。

18.根据权利要求16所述的方法，其特征在于，查找共同出现的交通工具ID与通信设备ID，包括：

获取交通卡口发送的交通流量数据以及与所述交通卡口对应的基站发送的通信信令数据；

根据获取到的交通流量数据和通信信令数据，查找共同出现的交通工具ID与通信设备ID。

19.根据权利要求18所述的方法，其特征在于，与所述交通工具ID共同出现的通信设备ID为当交通工具ID在T时刻出现在交通卡口时，在T时刻前后预设时段内与所述交通卡口对应的基站建立连接的通信设备ID。

20.根据权利要求18所述的方法，其特征在于，还包括：

获取多个样本数据，所述样本数据包括交通工具ID和对应的通信设备ID；

根据所述多个样本数据，确定交通卡口与基站的对应关系。

21.根据权利要求16至20中任一项所述的方法，其特征在于，在根据所述共现指标，确定所述交通工具ID与所述通信设备ID的关联程度之后，还包括：

展示所述交通工具ID与通信设备ID的关联程度，和/或展示与所述交通工具ID具有关联关系的通信设备ID。

22.根据权利要求16至20中任一项所述的方法，其特征在于，还包括：

获取待查询的交通工具ID；

查找与所述交通工具ID关联程度最大的通信设备ID；

根据所述关联程度最大的通信设备ID所在的地理位置信息，确定所述交通工具ID所在的地理位置信息；

输出所述交通工具ID所在的地理位置信息；

其中，地理位置信息包括下述至少一项：当前地理位置信息、历史地理位置信息、预设时段内的移动轨迹信息。

23.一种数据处理装置，其特征在于，包括：

第一确定模块，用于针对每个共现组合，根据所述第一分析目标与所述第二分析目标的共现指标，计算共现指标对应的置信度；其中，所述共现指标对应的置信度包括下述至少一项：共同出现的次数对应的置信度、共同出现的时长对应的置信度、共同出现的位置的数量对应的置信度；确定所述共现组合中的第一分析目标对所述共现组合的支持度和/或第二分析目标对所述共现组合的支持度；根据所述共现组合中的第一分析目标对所述共现组合的支持度和/或第二分析目标对所述共现组合的支持度以及共现指标对应的置信度，确定所述第一分析目标与所述第二分析目标的关联程度。

24.一种数据处理装置，其特征在于，包括：

第二确定模块，用于针对每个共现组合，根据所述交通工具ID与所述通信设备ID的共现指标，计算共现指标对应的置信度；其中，所述共现指标对应的置信度包括下述至少一项：共同出现的次数对应的置信度、共同出现的时长对应的置信度、共同出现的位置的数量对应的置信度；确定所述共现组合中的交通工具ID对所述共现组合的支持度和/或通信设备ID对所述共现组合的支持度；根据所述共现组合中的交通工具ID对所述共现组合的支持度和/或通信设备ID对所述共现组合的支持度以及共现指标对应的置信度，确定所述交通工具ID与所述通信设备ID的关联程度。

25.一种电子设备，其特征在于，包括：第一存储器和第一处理器；其中，

所述第一存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第一处理器执行时实现如权利要求1至15中任一项所述的数据处理方法。

26.一种电子设备，其特征在于，包括：第二存储器和第二处理器；其中，

所述第二存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第二处理器执行时实现如权利要求16至22中任一项所述的数据处理方法。