CN110019180A - 多源数据账号关联和装置 - Google Patents
多源数据账号关联和装置 Download PDFInfo
- Publication number
- CN110019180A CN110019180A CN201710678545.1A CN201710678545A CN110019180A CN 110019180 A CN110019180 A CN 110019180A CN 201710678545 A CN201710678545 A CN 201710678545A CN 110019180 A CN110019180 A CN 110019180A
- Authority
- CN
- China
- Prior art keywords
- account
- probability
- place
- data source
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种多源数据账号关联和装置。该方法包括:将不同类型数据源的用户数据均转换成三元组数据,其中,所述三元组数据包括地点、时间和出现次数;根据所述三元组数据确定第一账号和第二账号属于同一用户的联合概率,其中,第一账号为第一数据源的账号,第二账号为第二数据源的账号,第一数据源和第二数据源为不同类型的数据源;若所述联合概率大于预定值,则将第一账号和第二账号进行关联。本发明使用联合概率模型、对不同数据源中的账号在时间和空间中的分布情况进行建模,从而计算账号间的相似程度。本发明不依赖于用户信息,适用于广泛的数据源,特别是能够实现线上、线下数据的用户账号关联。
Description
技术领域
本发明涉及大数据技术领域,特别涉及一种多源数据账号关联和装置。
背景技术
在大数据行业里,将不同领域的数据(即多源数据)相互融合,往往能创造出更大的价值,例如银行在做个人信用评估时,如果能结合这个人平时是否经常有拖欠水电汽暖费用、是否有违法记录等情况,就可以更加全面的做出风险评估。
数据孤岛是大数据行业面临难题之一,在技术上这个问题核心是不同数据源的用户账号通常不同,当需要进行跨业务的数据合作时,往往会发现数据无法联系。
现有的解决账号关联的技术主要有以下2种:
第一、通过计算2个账号的注册信息的相似度,若大于某个数值,则认为2个账号属于同一个人。这种方法无法解决有些用户没有注册信息、或者用户填写信息有误等情况,因此这种方法仅能分析部分账号的关联情况。
第二、使用社交关系,即计算2个账号的好友重合度来判断2个不同账号是否属于同一个人。这种方法的问题在于不是所有的数据都有用户的社交关系,特别是线下的数据,如超市里会员的购物数据,饭店的会员数据等。因此种方法不具有普遍性。
发明内容
鉴于以上技术问题,本发明提供了一种多源数据账号关联和装置,能够实现线上、线下数据的用户账号关联。
根据本发明的一个方面,提供一种多源数据账号关联方法,包括:
将不同类型数据源的用户数据均转换成三元组数据,其中,所述三元组数据包括地点、时间和出现次数;
根据所述三元组数据确定第一账号和第二账号属于同一用户的联合概率,其中,第一账号为第一数据源的账号,第二账号为第二数据源的账号,第一数据源和第二数据源为不同类型的数据源;
若所述联合概率大于预定值,则将第一账号和第二账号进行关联。
在本发明的一个实施例中,所述根据所述三元组数据确定第一账号和第二账号属于同一用户的联合概率包括:
获取第一账号和第二账号同时同地出现的条件概率,其中,第一账号和第二账号属于同一用户,第一账号为第一数据源的账号,第二账号为第二数据源的账号,第一数据源和第二数据源为不同类型的数据源;
分别获取第一账号和第二账号的边缘条件概率;
根据所述条件概率和边缘条件概率确定所述联合概率。
在本发明的一个实施例中,所述获取第一账号和第二账号同时同地出现的条件概率包括:
确定第一集合,其中,所述第一集合为第一账号在第一时间和第一地点的出现次数达到第一次数的集合,所述第一次数为大于等于1的自然数;
确定第二集合,其中,所述第二集合为第二账号在第一时间和第一地点的出现次数达到第二次数的集合,所述第二次数为大于等于1的自然数;
针对第一集合和第二集合的交集,获取第一账号和第二账号同时同地出现的条件概率。
在本发明的一个实施例中,所述获取第一账号和第二账号同时同地出现的条件概率包括:
获取第一账号在第一时间和第一地点出现过的第一概率;
获取第二账号在第一时间和第一地点出现过的第二概率;
获取平均每个账号在第一时间和第一地点出现的第三概率;
根据所述第一概率、第二概率和第三概率获取所述条件概率。
在本发明的一个实施例中,所述获取平均每个账号在第一时间和第一地点出现的第三概率包括:
获取第一账号在第一地点的出现次数;
获取第二账号在第一地点的出现次数;
获取第一数据源的账号数量和第二数据源的账号数量;
获取所使用的时间段数量;
根据第一账号在第一地点的出现次数、第二账号在第一地点的出现次数、第一数据源的账号数量、第二数据源的账号数量、所使用的时间段数量、所述第一概率和所述第二概率获取所述第三概率。
在本发明的一个实施例中,所述分别获取第一账号和第二账号的边缘条件概率包括:
获取第一账号在第一时间和第一地点的出现次数达到第一次数的边缘条件概率,其中所述第一次数为大于等于1的自然数;
获取第二账号在第一时间和第一地点的出现次数达到第二次数的边缘条件概率,其中所述第二次数为大于等于1的自然数。
根据本发明的另一方面,提供一种多源数据账号关联装置包括:
三元组构建模块,用于将不同类型数据源的用户数据均转换成三元组数据,其中,所述三元组数据包括地点、时间和出现次数;
联合概率确定模块,用于根据所述三元组数据确定第一账号和第二账号属于同一用户的联合概率,其中,第一账号为第一数据源的账号,第二账号为第二数据源的账号,第一数据源和第二数据源为不同类型的数据源;
账号关联模块,用于在所述联合概率大于预定值的情况下,将第一账号和第二账号进行关联。
在本发明的一个实施例中,联合概率确定模块包括:
条件概率获取单元,用于获取第一账号和第二账号同时同地出现的条件概率,其中,第一账号和第二账号属于同一用户,第一账号为第一数据源的账号,第二账号为第二数据源的账号,第一数据源和第二数据源为不同类型的数据源;
边缘概率获取单元,用于分别获取第一账号和第二账号的边缘条件概率;
联合概率确定单元,用于根据所述条件概率和边缘条件概率确定所述联合概率。
在本发明的一个实施例中,条件概率获取单元包括:
第一集合确定子模块,用于确定第一集合,其中,所述第一集合为第一账号在第一时间和第一地点的出现次数达到第一次数的集合,所述第一次数为大于等于1的自然数;
第二集合确定子模块,用于确定第二集合,其中,所述第二集合为第二账号在第一时间和第一地点的出现次数达到第二次数的集合,所述第二次数为大于等于1的自然数;
条件概率获取子模块,用于针对第一集合和第二集合的交集,获取第一账号和第二账号同时同地出现的条件概率。
在本发明的一个实施例中,条件概率获取子模块包括:
第一概率获取子单元,用于获取第一账号在第一时间和第一地点出现过的第一概率;
第二概率获取子单元,用于获取第二账号在第一时间和第一地点出现过的第二概率;
第三概率获取子单元,用于获取平均每个账号在第一时间和第一地点出现的第三概率;
条件概率获取子单元,用于根据所述第一概率、第二概率和第三概率获取所述条件概率。
在本发明的一个实施例中,第三概率获取子单元用于获取第一账号在第一地点的出现次数;获取第二账号在第一地点的出现次数;获取第一数据源的账号数量和第二数据源的账号数量;获取所使用的时间段数量;并根据第一账号在第一地点的出现次数、第二账号在第一地点的出现次数、第一数据源的账号数量、第二数据源的账号数量、所使用的时间段数量、所述第一概率和所述第二概率获取所述第三概率。
在本发明的一个实施例中,边缘概率获取单元包括:
第一边缘概率获取子模块,用于获取第一账号在第一时间和第一地点的出现次数达到第一次数的边缘条件概率,其中所述第一次数为大于等于1的自然数;
第二边缘概率获取子模块,用于获取第二账号在第一时间和第一地点的出现次数达到第二次数的边缘条件概率,其中所述第二次数为大于等于1的自然数。
本发明通过使用联合概率模型、对不同数据源中的账号在时间和空间中的分布情况进行建模,从而计算账号间的相似程度。本发明不依赖于用户信息,适用于广泛的数据源,特别是能够实现线上、线下数据的用户账号关联。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明多源数据账号关联方法第一实施例的示意图。
图2为本发明多源数据账号关联方法第二实施例的示意图。
图3为本发明多源数据账号关联装置一个实施例的示意图。
图4为本发明一个实施例中联合概率确定模块的示意图。
图5为本发明一个实施例中条件概率获取单元的示意图。
图6为本发明一个实施例中条件概率获取子模块的示意图。
图7为本发明一个实施例中边缘概率获取单元的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本发明多源数据账号关联方法第一实施例的示意图。优选的,本实施例可由多源数据账号关联装置执行。该方法包括以下步骤:
步骤101,构建账号的三元组(地点location,时间time,出现次数count),使用相同的时间、空间划分准则,将不同类型数据源的用户数据均转换成三元组数据。
其中,location表示地点,这里的“地点”是一个抽象概念,含义是在物理空间中相邻的一片地区。因此既可以使用如经纬度,也可以使用用户上网所在IP地址、连接的基站等。time表示时间,这里的时间通常使用时间段,比如“2017年4月13日上午9点至上午11点”。count表示用户在这段时间、地点下,在数据源中出现的次数。
在本发明的一个实施例中,步骤101具体可以包括:根据上述定义,将第一数据源A和第二数据源B的用户数据都转换成上述三元组,并使两类数据源转换后,相同的location和time代表相同的物理空间和时间段,其中,第一数据源A和第二数据源B为不同类型的数据源。
步骤102,根据所述三元组数据确定第一账号u和第二账号v属于同一用户的联合概率,其中,第一账号u为第一数据源A的账号,第二账号v为第二数据源B的账号。
步骤103,判断所述联合概率是否大于预定值;若所述联合概率大于预定值,则将第一账号u和第二账号v进行关联。
基于本发明上述实施例提供的使用时间和空间模型实现多源数据账号关联的方法,通过使用联合概率模型、对不同数据源中的账号在时间和空间中的分布情况进行建模,从而计算账号间的相似程度。本发明不依赖于用户信息,适用于广泛的数据源,特别是能够实现线上、线下数据的用户账号关联。
图2为本发明多源数据账号关联方法第二实施例的示意图。优选的,本实施例可由多源数据账号关联装置执行。该方法包括以下步骤:
步骤1,构建账号的三元组(地点location,时间time,出现次数count),使用相同的时间、空间划分准则,将不同类型数据源的用户数据均转换成三元组数据。
步骤2,若第一账号u和第二账号v属于同一用户,获取第一账号u和第二账号v同时同地(即三元组中location/time的值都相等)出现的条件概率,其中,第一账号u为来自第一数据源A的账号,第二账号v为来自第二数据源B的账号,第一数据源A和第二数据源B为不同类型的数据源。
在本发明的一个实施例中,步骤2可以包括:
步骤21,获取第一账号u在第一时间t和第一地点l出现过的第一概率PA。其中,第一概率PA表示第一账号u代表的用户在某个时间t、某个地点l(这里用(l,t)表示)出现过的概率。
在本发明的一个具体实施例中,步骤21可以包括:根据公式(1)或(2)获取第一概率PA。
其中,au为a(u,l,t)的缩写,表示第一账号u在(l,t)下出现过的次数;av为a(v,l,t)的缩写,表示第二账号v在(l,t)下出现过的次数;
公式(1)中的分母表示对数据源A所有账号在(l,t)下出现的次数au进行求和;公式(1)中的分子表示对数据源A所有账号在(l,t)下出现的次数au和av的最小值进行求和。
优选地,公式(1)可以更完整地表示为公式(2)。
其中,σ(u)=v表示第一账号u、第二账号v属于同一个人。σ表示这样的一种映射关系:第一账号u代表的人,在数据源B中的账号是v。
同理,σ(v)=u,表示第二账号v代表的人,在数据源A中的账号是u。
步骤22,获取第二账号v在第一时间t和第一地点l出现过的第二概率PB。
在本发明的一个具体实施例中,步骤21可以包括:根据公式(3)或(4)获取第二概率PB。
其中,公式(3)中的分母表示对数据源B所有账号在(l,t)下出现的次数av进行求和;公式(3)中的分子表示对数据源B所有账号在(l,t)下出现的次数au和av的最小值进行求和。
优选地,公式(3)可以更完整地表示为公式(4)。
步骤23,获取平均每个账号在第一时间t和第一地点l出现的第三概率Pl。
在本发明的一个实施例中,步骤23可以包括:
步骤231,获取第一账号u在第一地点l的出现次数A(l,u)。
在本发明的一个具体实施例中,步骤21可以包括:根据公式(5)获取A(l,u)。
步骤232,同理可以获取第二账号v在第一地点l的出现次数A(l,v)。
步骤233,获取第一数据源A的账号数量|U|和第二数据源B的账号数量|V|。
步骤234,获取所使用的时间段数量|T|。
比如:对于一天(24小时)的数据,采用每2个小时作为一个时间段,则|T|=12。
步骤235,根据第一账号u在第一地点l的出现次数A(l,u)、第二账号v在第一地点l的出现次数A(l,v)、第一数据源A的账号数量|U|、第二数据源B的账号数量|V|、所使用的时间段数量|T|、所述第一概率和所述第二概率PB获取所述第三概率Pl。
在本发明的一个具体实施例中,步骤235可以包括:根据公式(6)获取第三概率Pl。
步骤24,根据所述第一概率PA、第二概率PB和第三概率Pl获取所述条件概率。
在本发明的一个具体实施例中,步骤235可以包括:根据公式(7)获取条件概率。
步骤3,分别获取第一账号u和第二账号v的边缘条件概率。
在本发明的一个实施例中,步骤3可以包括:
步骤31,根据第一概率PA,获取第一账号u在第一时间t和第一地点l的出现次数达到第一次数a1的边缘条件概率,其中所述第一次数为大于等于1的自然数。
在本发明的一个具体实施例中,步骤31可以包括:根据公式(8)获取第一账号u的边缘条件概率P[A1(u,l,t)=a1]。
步骤32,根据第二概率PB,获取第二账号v在第一时间t和第一地点l的出现次数达到第二次数a2的边缘条件概率,其中所述第二次数为大于等于1的自然数。
在本发明的一个具体实施例中,步骤32可以包括:根据公式(9)获取第一账号u的边缘条件概率P[A2(v,l,t)=a2]。
步骤4,根据所述条件概率和边缘条件概率确定第一账号u和第二账号v属于同一用户的联合概率P(u,v)。
在本发明的一个实施例中,步骤4可以包括:
步骤41,确定第一集合A1(u,l,t)=a1,其中,所述第一集A1(u,l,t)=a1合为第一账号u在第一时间t和第一地点l的出现次数达到第一次数的集合,所述第一次数为大于等于1的自然数。
步骤42,确定第二集合A2(v,l,t)=a2,其中,所述第二集合A2(v,l,t)=a2为第二账号v在第一时间t和第一地点l的出现次数达到第二次数的集合,所述第二次数为大于等于1的自然数。
步骤43,针对第一集合A1(u,l,t)=a1和第二集合A2(v,l,t)=a2的交集,获取第一账号u和第二账号v同时同地出现的条件概率P[A1(u,l,t)=a1∩A2(v,l,t)=a2|σ(u)=v]。
在本发明的一个具体实施例中,步骤43可以包括:根据公式(7)获取第一账号u和第二账号v同时同地出现的条件概率P[A1(u,l,t)=a1∩A2(v,l,t)=a2|σ(u)=v]。
步骤44,根据步骤43确定的条件概率和步骤3确定的边缘条件概率计算第一账号u和第二账号v属于同一用户的联合概率P(u,v)。
在本发明的一个具体实施例中,步骤44可以包括:根据公式(10)获取联合概率P(u,v)。
本发明上述实施例提出了一种新的数据模型用于关联多源数据的账号——即“何时、何地,何人”,只要可以从数据源中提取这三种信息,都可以使用本专利的方法关联账号。本发明上述实施例使用的联合概率分布对数据模型进行建模,并计算不同账号属于同一个用户的概率值。
下面通过一个具体实施例对本发明多源数据账号关联方法进行说明。
如用于银联卡的消费数据和运营商的手机通话数据的用户账号进行关联。
银联卡消费数据,用户账号是银联卡的***,位置信息是刷卡POS机的地址,时间信息是用户的刷卡时间。运营商的通话数据,用户账号是主叫号码,位置信息是连接的基站,时间信息是用户的通话时间。
第一步,将POS机的装机地址、基站位置转换为经纬度,在把经纬度映射到1km*1km的网格中,每个网格用一个唯一id表示,记为l。然后,以每天凌晨零点为起点,2小时为单位,将两个数据源中的时间映射到时间段内,每个时间段用一个唯一id表示,记为t,并统计相同时间段内,用户的行为次数——对于银联消费数据是用户消费次数,通话数据则是通话次数,次数记为n。这样,就构造出三元组(l,t,n)。
第二步,根据图2实施例的第二步,计算若银联卡u和手机号v属于同一个用户,计算它们的概率值P(u,v|σ(u)=v)。
第三步,根据图2实施例的第三步,计算若银联卡u和手机号v的边缘概率分布。
第四步,根据图2实施例的第四步,计算若银联卡u和手机号v属于同一个用户的联合概率分布,记为P(u,v)。
第五步,找出联合概率值最大的手机号v和银联卡u,其中概率值最大的手机号v和银联卡u最可能属于同一个用户。
例如:第五步可以包括:判断所述联合概率值是否大于预定值;将联合概率值大于预定值的手机号v和银联卡u进行关联。由此本发明上述实施例实现了将两类数据源的用户账号相关联。
本发明上述实施例提出了一种计算多源数据用户账号相似度的方法,本发明上述实施例具有不依赖用户信息(如注册信息、好友信息等)、可以适用的数据源广的特点,尤其适合如移动互联网行业、运营商这类有丰富的位置信息的数据源。
图3为本发明多源数据账号关联装置一个实施例的示意图。如图3所示,所述多源数据账号关联装置可以包括三元组构建模块1、联合概率确定模块2和账号关联模块3,其中:
三元组构建模块1,用于将不同类型数据源的用户数据均转换成三元组数据,其中,所述三元组数据包括地点、时间和出现次数;
联合概率确定模块2,用于根据所述三元组数据确定第一账号u和第二账号v属于同一用户的联合概率,其中,第一账号u为第一数据源A的账号,第二账号v为第二数据源B的账号,第一数据源A和第二数据源B为不同类型的数据源;
账号关联模块3,用于判断所述联合概率是否大于预定值;在所述联合概率大于预定值的情况下,将联合概率大于预定值的第一账号u和第二账号v进行关联。
基于本发明上述实施例提供的使用时间和空间模型实现多源数据账号关联的装置,通过使用联合概率模型、对不同数据源中的账号在时间和空间中的分布情况进行建模,从而计算账号间的相似程度。本发明不依赖于用户信息,适用于广泛的数据源,特别是能够实现线上、线下数据的用户账号关联。
图4为本发明一个实施例中联合概率确定模块的示意图。如图4所示,图3实施例的联合概率确定模块2可以包括条件概率获取单元21、边缘概率获取单元22和联合概率确定单元23,其中:
条件概率获取单元21,用于获取第一账号u和第二账号v同时同地出现的条件概率,其中,第一账号u和第二账号v属于同一用户,第一账号u为第一数据源A的账号,第二账号v为第二数据源B的账号,第一数据源A和第二数据源B为不同类型的数据源。
边缘概率获取单元22,用于分别获取第一账号u和第二账号v的边缘条件概率。
联合概率确定单元23,用于根据所述条件概率和边缘条件概率确定所述联合概率。
图5为本发明一个实施例中条件概率获取单元的示意图。如图5所示,图4实施例的条件概率获取单元21可以包括第一集合确定子模块211、第二集合确定子模块212和条件概率获取子模块213,其中:
第一集合确定子模块211,用于确定第一集合,其中,所述第一集合为第一账号u在第一时间t和第一地点l的出现次数达到第一次数的集合,所述第一次数为大于等于1的自然数。
第二集合确定子模块212,用于确定第二集合,其中,所述第二集合为第二账号v在第一时间t和第一地点l的出现次数达到第二次数的集合,所述第二次数为大于等于1的自然数。
条件概率获取子模块213,用于针对第一集合和第二集合的交集,获取第一账号u和第二账号v同时同地出现的条件概率。
图6为本发明一个实施例中条件概率获取子模块的示意图。如图6所示,图5实施例的条件概率获取子模块213可以包括第一概率获取子单元2131、第二概率获取子单元2132、第三概率获取子单元2133和条件概率获取子单元2134,其中:
第一概率获取子单元2131,用于获取第一账号u在第一时间t和第一地点l出现过的第一概率。
第二概率获取子单元2132,用于获取第二账号v在第一时间t和第一地点l出现过的第二概率。
第三概率获取子单元2133,用于获取平均每个账号在第一时间t和第一地点l出现的第三概率。
在本发明的一个具体实施例中,第三概率获取子单元2133可以用于获取第一账号u在第一地点l的出现次数;获取第二账号v在第一地点l的出现次数;获取第一数据源A的账号数量|U|和第二数据源B的账号数量|V|;获取所使用的时间段数量|T|;并根据第一账号u在第一地点l的出现次数、第二账号v在第一地点l的出现次数、第一数据源A的账号数量|U|、第二数据源B的账号数量|V|、所使用的时间段数量|T|、所述第一概率和所述第二概率获取所述第三概率。
条件概率获取子单元2134,用于根据所述第一概率、第二概率和第三概率获取所述条件概率。
图7为本发明一个实施例中边缘概率获取单元的示意图。如图7所示,图4实施例的边缘概率获取单元22可以包括第一边缘概率获取子模块221和第二边缘概率获取子模块222,其中:
第一边缘概率获取子模块221,用于获取第一账号u在第一时间t和第一地点l的出现次数达到第一次数的边缘条件概率,其中所述第一次数为大于等于1的自然数。
第二边缘概率获取子模块222,用于获取第二账号v在第一时间t和第一地点l的出现次数达到第二次数的边缘条件概率,其中所述第二次数为大于等于1的自然数。
本发明上述实施例提出了一种新的数据模型用于关联多源数据的账号——即“何时、何地,何人”,只要可以从数据源中提取这三种信息,都可以使用本专利的方法关联账号。本发明上述实施例使用的联合概率分布对数据模型进行建模,并计算不同账号属于同一个用户的概率值。
本发明上述实施例提出了一种计算多源数据用户账号相似度的装置,本发明上述实施例具有不依赖用户信息(如注册信息、好友信息等)、可以适用的数据源广的特点,尤其适合如移动互联网行业、运营商这类有丰富的位置信息的数据源。
在上面所描述的多源数据账号关联装置可以实现为用于执行本申请所描述功能的通用处理器、可编程逻辑控制器(PLC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
至此,已经详细描述了本发明。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (12)
1.一种多源数据账号关联方法,其特征在于,包括:
将不同类型数据源的用户数据均转换成三元组数据,其中,所述三元组数据包括地点、时间和出现次数;
根据所述三元组数据确定第一账号和第二账号属于同一用户的联合概率,其中,第一账号为第一数据源的账号,第二账号为第二数据源的账号,第一数据源和第二数据源为不同类型的数据源;
若所述联合概率大于预定值,则将第一账号和第二账号进行关联。
2.根据权利要求1所述的方法,其特征在于,所述根据所述三元组数据确定第一账号和第二账号属于同一用户的联合概率包括:
获取第一账号和第二账号同时同地出现的条件概率,其中,第一账号和第二账号属于同一用户,第一账号为第一数据源的账号,第二账号为第二数据源的账号,第一数据源和第二数据源为不同类型的数据源;
分别获取第一账号和第二账号的边缘条件概率;
根据所述条件概率和边缘条件概率确定所述联合概率。
3.根据权利要求2所述的方法,其特征在于,所述获取第一账号和第二账号同时同地出现的条件概率包括:
确定第一集合,其中,所述第一集合为第一账号在第一时间和第一地点的出现次数达到第一次数的集合,所述第一次数为大于等于1的自然数;
确定第二集合,其中,所述第二集合为第二账号在第一时间和第一地点的出现次数达到第二次数的集合,所述第二次数为大于等于1的自然数;
针对第一集合和第二集合的交集,获取第一账号和第二账号同时同地出现的条件概率。
4.根据权利要求2或3所述的方法,其特征在于,所述获取第一账号和第二账号同时同地出现的条件概率包括:
获取第一账号在第一时间和第一地点出现过的第一概率;
获取第二账号在第一时间和第一地点出现过的第二概率;
获取平均每个账号在第一时间和第一地点出现的第三概率;
根据所述第一概率、第二概率和第三概率获取所述条件概率。
5.根据权利要求4所述的方法,其特征在于,所述获取平均每个账号在第一时间和第一地点出现的第三概率包括:
获取第一账号在第一地点的出现次数;
获取第二账号在第一地点的出现次数;
获取第一数据源的账号数量和第二数据源的账号数量;
获取所使用的时间段数量;
根据第一账号在第一地点的出现次数、第二账号在第一地点的出现次数、第一数据源的账号数量、第二数据源的账号数量、所使用的时间段数量、所述第一概率和所述第二概率获取所述第三概率。
6.根据权利要求2或3所述的方法,其特征在于,所述分别获取第一账号和第二账号的边缘条件概率包括:
获取第一账号在第一时间和第一地点的出现次数达到第一次数的边缘条件概率,其中所述第一次数为大于等于1的自然数;
获取第二账号在第一时间和第一地点的出现次数达到第二次数的边缘条件概率,其中所述第二次数为大于等于1的自然数。
7.一种多源数据账号关联装置,其特征在于,包括:
三元组构建模块,用于将不同类型数据源的用户数据均转换成三元组数据,其中,所述三元组数据包括地点、时间和出现次数;
联合概率确定模块,用于根据所述三元组数据确定第一账号和第二账号属于同一用户的联合概率,其中,第一账号为第一数据源的账号,第二账号为第二数据源的账号,第一数据源和第二数据源为不同类型的数据源;
账号关联模块,用于在所述联合概率大于预定值的情况下,将第一账号和第二账号进行关联。
8.根据权利要求7所述的装置,其特征在于,联合概率确定模块包括:
条件概率获取单元,用于获取第一账号和第二账号同时同地出现的条件概率,其中,第一账号和第二账号属于同一用户,第一账号为第一数据源的账号,第二账号为第二数据源的账号,第一数据源和第二数据源为不同类型的数据源;
边缘概率获取单元,用于分别获取第一账号和第二账号的边缘条件概率;
联合概率确定单元,用于根据所述条件概率和边缘条件概率确定所述联合概率。
9.根据权利要求8所述的装置,其特征在于,条件概率获取单元包括:
第一集合确定子模块,用于确定第一集合,其中,所述第一集合为第一账号在第一时间和第一地点的出现次数达到第一次数的集合,所述第一次数为大于等于1的自然数;
第二集合确定子模块,用于确定第二集合,其中,所述第二集合为第二账号在第一时间和第一地点的出现次数达到第二次数的集合,所述第二次数为大于等于1的自然数;
条件概率获取子模块,用于针对第一集合和第二集合的交集,获取第一账号和第二账号同时同地出现的条件概率。
10.根据权利要求9所述的装置,其特征在于,条件概率获取子模块包括:
第一概率获取子单元,用于获取第一账号在第一时间和第一地点出现过的第一概率;
第二概率获取子单元,用于获取第二账号在第一时间和第一地点出现过的第二概率;
第三概率获取子单元,用于获取平均每个账号在第一时间和第一地点出现的第三概率;
条件概率获取子单元,用于根据所述第一概率、第二概率和第三概率获取所述条件概率。
11.根据权利要求10所述的装置,其特征在于,
第三概率获取子单元用于获取第一账号在第一地点的出现次数;获取第二账号在第一地点的出现次数;获取第一数据源的账号数量和第二数据源的账号数量;获取所使用的时间段数量;并根据第一账号在第一地点的出现次数、第二账号在第一地点的出现次数、第一数据源的账号数量、第二数据源的账号数量、所使用的时间段数量、所述第一概率和所述第二概率获取所述第三概率。
12.根据权利要求8-11中任一项所述的装置,其特征在于,边缘概率获取单元包括:
第一边缘概率获取子模块,用于获取第一账号在第一时间和第一地点的出现次数达到第一次数的边缘条件概率,其中所述第一次数为大于等于1的自然数;
第二边缘概率获取子模块,用于获取第二账号在第一时间和第一地点的出现次数达到第二次数的边缘条件概率,其中所述第二次数为大于等于1的自然数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710678545.1A CN110019180B (zh) | 2017-08-10 | 2017-08-10 | 多源数据账号关联和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710678545.1A CN110019180B (zh) | 2017-08-10 | 2017-08-10 | 多源数据账号关联和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019180A true CN110019180A (zh) | 2019-07-16 |
CN110019180B CN110019180B (zh) | 2021-04-30 |
Family
ID=67186055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710678545.1A Active CN110019180B (zh) | 2017-08-10 | 2017-08-10 | 多源数据账号关联和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019180B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968785A (zh) * | 2019-11-26 | 2020-04-07 | 腾讯科技(深圳)有限公司 | 目标帐号的识别方法和装置、存储介质及电子装置 |
CN111177670A (zh) * | 2019-12-17 | 2020-05-19 | 腾讯云计算(北京)有限责任公司 | 一种异源账号关联方法、装置、设备及存储介质 |
CN111695019A (zh) * | 2020-06-11 | 2020-09-22 | 腾讯科技(深圳)有限公司 | 一种识别关联账号的方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080147654A1 (en) * | 2006-12-15 | 2008-06-19 | Microsoft Corporation | Mining latent associations of objects using a typed mixture model |
CN104992075A (zh) * | 2015-07-30 | 2015-10-21 | 浙江宇视科技有限公司 | 一种基于大数据的多源信息关联方法 |
CN105320666A (zh) * | 2014-06-16 | 2016-02-10 | ***股份有限公司 | 多数据集的数据聚合方法 |
CN105389354A (zh) * | 2015-11-02 | 2016-03-09 | 东南大学 | 面向社交媒体文本的无监督的事件抽取和分类方法 |
CN106855857A (zh) * | 2015-12-08 | 2017-06-16 | 北京亿阳信通科技有限公司 | 数据关联方法与*** |
US20170178113A1 (en) * | 2015-12-16 | 2017-06-22 | Capital One Services, Llc | Systems and methods for allocating transactions across sources |
-
2017
- 2017-08-10 CN CN201710678545.1A patent/CN110019180B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080147654A1 (en) * | 2006-12-15 | 2008-06-19 | Microsoft Corporation | Mining latent associations of objects using a typed mixture model |
CN105320666A (zh) * | 2014-06-16 | 2016-02-10 | ***股份有限公司 | 多数据集的数据聚合方法 |
CN104992075A (zh) * | 2015-07-30 | 2015-10-21 | 浙江宇视科技有限公司 | 一种基于大数据的多源信息关联方法 |
CN105389354A (zh) * | 2015-11-02 | 2016-03-09 | 东南大学 | 面向社交媒体文本的无监督的事件抽取和分类方法 |
CN106855857A (zh) * | 2015-12-08 | 2017-06-16 | 北京亿阳信通科技有限公司 | 数据关联方法与*** |
US20170178113A1 (en) * | 2015-12-16 | 2017-06-22 | Capital One Services, Llc | Systems and methods for allocating transactions across sources |
Non-Patent Citations (1)
Title |
---|
孙琛琛等: "面向关联数据的联合式实体识别方法", 《计算机学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968785A (zh) * | 2019-11-26 | 2020-04-07 | 腾讯科技(深圳)有限公司 | 目标帐号的识别方法和装置、存储介质及电子装置 |
CN111177670A (zh) * | 2019-12-17 | 2020-05-19 | 腾讯云计算(北京)有限责任公司 | 一种异源账号关联方法、装置、设备及存储介质 |
CN111695019A (zh) * | 2020-06-11 | 2020-09-22 | 腾讯科技(深圳)有限公司 | 一种识别关联账号的方法及装置 |
CN111695019B (zh) * | 2020-06-11 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 一种识别关联账号的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110019180B (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109658192A (zh) | 一种房源推荐方法及服务器 | |
Zhai et al. | Mapping the popularity of urban restaurants using social media data | |
KR102189065B1 (ko) | 모바일 애플리케이션 사용자의 관심 프로파일 | |
US20160027055A1 (en) | Combining attributes from multiple sources | |
CN103176982A (zh) | 一种电子图书推荐的方法及*** | |
CN109670113A (zh) | 一种房源推荐方法、装置及服务器 | |
CN110516967A (zh) | 一种信息评估的方法以及相关装置 | |
CN110019180A (zh) | 多源数据账号关联和装置 | |
CN108269087A (zh) | 位置信息的处理方法及装置 | |
WO2017157184A1 (zh) | 一种确定地理位置的属性信息的方法及装置 | |
Makhanya et al. | Ethnicity, body shape differences and female consumers' apparel fit problems | |
CN108876465B (zh) | 一种对商户进行经营模式分群的方法、装置和服务器 | |
CN108009719A (zh) | 一种基于托管平台的用户评价方法、服务器及终端 | |
Xu et al. | From central place to central flow theory: An exploration of urban catering | |
WO2020063114A1 (zh) | 一种用户安全意识检测方法和装置 | |
US20140129334A1 (en) | Method and system for modeling consumer activity areas based on social media and mobile data | |
CN105450598A (zh) | 信息识别方法、信息识别设备及用户终端 | |
Qin et al. | Combination of big and small data: Empirical study on the distribution and factors of catering space popularity in Nanjing, China | |
CN106030627A (zh) | 真实世界位置的基于位置的评级 | |
CN106657062A (zh) | 用户识别的方法和装置 | |
Zhou et al. | Multiple attribute decision making based on hesitant fuzzy Einstein geometric aggregation operators | |
CN107563588A (zh) | 一种个人信用的获取方法和获取*** | |
CN103778551B (zh) | 商品信息提示方法及装置 | |
Ertemel et al. | An exploratory analysis of online shopping behavior in Turkey | |
CN106067129A (zh) | 推送信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |