CN104166719B

CN104166719B - 基于泛化双向相似连接技术的匹配方法

Info

Publication number: CN104166719B
Application number: CN201410407666.9A
Authority: CN
Inventors: 王朝坤; 王萌; 汪浩
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2014-08-19
Filing date: 2014-08-19
Publication date: 2018-02-16
Anticipated expiration: 2034-08-19
Also published as: CN104166719A

Abstract

本发明公开了一种基于泛化双向相似连接技术的匹配方法，涉及计算机网络技术领域，包括：获取双方待匹配的数据及给出的对于匹配程度进行限制的阀值；对匹配双方每一方的事实数据和对方的期望数据进行双向匹配；按照所述双向匹配的结果过滤大量不符合匹配条件的记录；对过滤后的候选集合进行快速判断，获得能够匹配成功的记录对。本发明提供的基于泛化双向相似连接技术的匹配方法，基于映射‑过滤‑验证(MFV)进行泛化双向相似连接更适用于现实世界中较为广泛的应用场景。

Description

基于泛化双向相似连接技术的匹配方法

技术领域

本发明涉及计算机网络技术领域，特别是涉及一种基于泛化双向相似连接技术的匹配方法。

背景技术

双向相似连接旨在从两个或一个给定数据集中找出满足预定连接条件的所有数据记录对，是数据库应用中的一个重要操作。然而，传统的匹配方法在多样化的数据类型上具有较高的局限性，已经不能很好地满足现实世界中不断增长的客观需求。并且，在双向匹配的过程中，双方的角色可能是不同的，而匹配的对象来自一方对对方的期望数据和对方的事实数据，如何将期望数据与事实数据进行交叉比较是当下需要解决的一大关键技术问题。此外，在现实世界中，个体对于匹配程度的要求是不同的，有的人需要找到100％满意的匹配对象，有的人的心理预期则没有那么高，那么如何根据对匹配程度的限定来设计双相连接的比较方法也是亟待解决的重要技术问题。

因此，目前需要本领域技术人员迫切解决的一个技术问题就是：如何能够创新地提出一种更为有效的匹配方法，以满足实际应用中的更多需求。

发明内容

本发明所要解决的技术问题是提供一种基于泛化双向相似连接技术的匹配方法，基于映射-过滤-验证(MFV)进行泛化双向相似连接更适用于现实世界中较为广泛的应用场景。

为了解决上述技术问题，本发明实施例公开了一种基于泛化双向相似连接技术的匹配方法，包括：

获取匹配双方待匹配的数据数据中的每条记录都包含了自身的事实数据、对对方的期望数据，以及各自对于匹配程度进行限制的阀值；

对匹配双方每一方的事实数据通过全局符号映射的方式进行双向匹配；

按照映射的结果进行预处理，建立倒排索引，通过对索引的剪枝进行双向过滤，获得匹配成功的候选集合。

优选的，所述映射的方式包括单射转、等步长映射转和启发式映射。

本发明的基于泛化双向相似连接技术的匹配方法，基于映射-过滤-验证(MFV)进行泛化双向相似连接，更适用于现实世界中较为广泛的应用场景，例如，求职招聘和交友等。这些应用场景中需要进行匹配的数据类型多样，匹配双方中的每个个体对于匹配程度的限定都存在差异，本发明通过映射-过滤-验证方法在进行双向连接时能够基于这些问题将一方的事实数据同另一方的期望数据进行有效地交叉匹配，这样的交友过程能够同时符合双方的预期，在求职招聘中能够促使招聘方与求职者迅速找到满意的员工与企业，增加求职招聘过程中的成功率，在其他社交网络中也具有广泛的应用场景。

同时，本技术所提出的泛化双向相似连接方法在匹配过程中不产生错误结果也不漏掉正确结果，具有正确性和完备性。并且，较之前的方法来说，本技术所发明的方法效率更高、适用范围更广、更符合现实需求。

附图说明

图1是本发明的一种基于泛化双向相似连接技术的匹配方法实施例的流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参见图1，本方案所述的一种基于泛化双向相似连接技术的匹配方法，具体包括：

步骤S101，获取双方待匹配的数据及给出的对于匹配程度进行限制的阀值；

步骤S102，对匹配双方每一方的事实数据和对方的期望数据进行双向匹配；

步骤S103，按照所述双向匹配的结果过滤大量不符合匹配条件的记录；

步骤S104，对过滤后的候选集合进行快速判断，获得能够匹配成功的记录对。

在实际应用中的具体实现：

1.获取待匹配的数据集R和S。R和S中的每条记录r和s都包含了自身的事实数据、对对方的期望数据、匹配的满意度阀值t以及一切其他数据。

2.对数据集R和S中的每条记录中的事实与期望数据进行映射(参见算法1步骤2)。

a)根据所选择的数值映射方式进行数值映射，单射转2.2，等步长映射转2.3，启发式映射转2.4。

b)单射映射，将各个属性的每个数值被映射到一个唯一的全局符号上。转2.5。

c)等步长映射，通过固定的步长来均匀分割数值范围数据,将多个值映射到同样的符号上。转2.5。

d)通过启发式映射，寻找近似最优的映射方案。

i.设置某个数值范围所接受的最大划分块的数目k₀。

ii.找到计算某个数值范围内的最优划分的优化目标。

按照以下最优子结构，通过动态规划方法获得最优划分∏。

P_i,j,k表示将数值范围i～j划分为k个划分块的一个划分，其中i≤j,k>0。P_i,j,k的代价c[i,j,k]被定义为该划分导致的所有期望数据的延展大小之和。对于一个给定的划分块P_i＝a_i～b_i，若原始的期望数值范围c_i～d_i是P_i的一个部分若，有c_i≥a_i且d_i<b_i，则c_i-a_i与b_i-d_i之和为该划分块对该项期望数据的延展大小。

e)通过统计和排序得到一个全局的按照出现次数递增排序的符号顺序O_t。

f)每条记录被映射成为一条由全局符号集合中的符号组成的生成记录，这些记录组成了映射后的数据集，记作R_m和S_m。

3.对映射后的生成记录进行预处理。

a)对于R_m和S_m中的生成记录依照O_t进行排序(参见算法1步骤3)。

b)采用全局符号作为关键词，分别对R_m和S_m中记录的期望部分建立倒排索引I_r和I_s。对于排序后的R_m和S_m中的全局符号记录，根据记录的阀值t索引其前L–t*L+1个期望符号(参见算法1步骤4)。

4.在映射后产生的符号记录上进行双向过滤获得候选集合(参见算法1步骤5-12)。

a)枚举R_m数据集中的生成记录r，找到那些r的事实全局符号在索引I_s中对应的S_m中的记录s，并将初始候选对(r,s)放入初始候选集和CR₁中(参见算法1步骤5-8)。

b)遍历CR₁中所有的初始候选对(r,s)，判定s的事实全局符号在索引I_r的倒排表中是否存在记录r。如果存在，转4.3，如果不存在，转4.4。

c)将其放入最终候选结果集CR₂中。转5。

d)进行剪枝(参见算法1步骤9-12)。

5.检验最终候选结果集CR₂中的每个候选对，将符合条件的作为最终结果输出(参见算法1步骤13-15)。

算法1.映射-过滤-验证算法(MFV)

输入：R、S—数据集

输出：RS—查询结果数据集

1.

/*映射步骤，将数据映射为全局符号*/

2.R_m←MAP(R),S_m←MAP(S)；

/*过滤步骤：预处理阶段—在R_m和S_m的期望符号上建立倒排索引*/

3.Sort(R_m,S_m)

4.I_r←IndexBuilding(R_m),I_s←IndexBuilding(S_m)

/*过滤步骤：在映射后产生的符号记录上进行双向过滤获得候选集合*/

5.FOR EACH r∈R_m DO

6.FOR EACH w∈F(r)DO

7.FOR EACH(s,w)∈I_s DO

8.CR₁←CR₁∪{(r,s)}

9.FOR EACH(r,s)∈CR₁DO

10.FOR EACH w∈F(s)DO

11.IF(r,w)∈I_r DO

12.CR₂←CR₂∪{(r,s)}；BREAK；

/*验证阶段：对最终候选结果集执行双向验证获得最后的匹配结果*/

13.FOR EACH(r,s)∈CR₁DO

14.IF ExSim(s,r)≥T(s)∧ExSim(r,s)≥T(r)THEN

15.RS←RS∪{(r,s)}；

RETURN RS；

为使本领域技术人员更好地理解本发明，以下结合实际应用，更为详尽的对本方案做具体介绍。

【步骤】

1、定义泛化双向相似连接

定义1.“满足”(∝)操作符定义在事实和对应的期望上。对于不同类型的数据，“∝”的判定标准不尽相同。举例来说，如果事实f是一个数值类型的数据而期望e＝a～b是一个数值范围类型的数据，那么f∝e当且仅当f≥a∧f≤b；若事实f是集合中的一个元素而期望e＝{e₁,e₂,…,e_n}为一个集合，则f∝e当且仅当f∈e。

定义2.假设数据集R和S中的每条记录都包含事实数据、期望数据、一个阀值数据和其它的无关数据，

形式化描述为：S其中u+v≤q且u+v≤w，＝1,…,u)代表r的u个事实数据；代表r的v个期望数据；r_i(i＝u+v+1,…,q)代表r的其它数据；T(r)是r的阀值数据。同样的，代表s的v个事实数据；代表s的u个期望数据；s_i(i＝u+v+1,u+v+2,…,w)代表s的其它数据；T(s)是s的阀值数据。R和S的泛化双向相似连接定义为：其中：(1) (2)

2、映射-过滤-验证方法

基于上述定义，提出解决泛化双向相似连接问题的方法，它包含映射、过滤和验证三个步骤，简称为映射-过滤-验证方法。

算法1.映射-过滤-验证算法

输入：R、S—数据集

输出：RS—查询结果数据集

16.

/*映射步骤，将数据映射为全局符号*/

17.R_m←MAP(R),S_m←MAP(S)；

18.Sort(R_m,S_m)

19.I_r←IndexBuilding(R_m),I_s←IndexBuilding(S_m)

RETURN RS；

算法1详细描述了三个具体步骤：

第一步：映射。

1)根据所选择的数值映射方式进行数值映射，单射转2)，等步长映射转3)，启发式映射转4)。

2)单射映射，将各个属性的每个数值被映射到一个唯一的全局符号上。转5)。

3)等步长映射，通过固定的步长来均匀分割数值范围数据,将多个值映射到同样的符号上。转5)。

4)通过启发式映射，寻找近似最优的映射方案。

a)设置某个数值范围所接受的最大划分块的数目k₀。

b)找到计算某个数值范围内的最优划分的优化目标。

c)按照以下最优子结构，通过动态规划方法获得最优划分∏。

5)通过统计和排序得到一个全局的按照出现次数递增排序的符号顺序O_t。

6)每条记录被映射成为一条由全局符号集合中的符号组成的生成记录，这些记录组成了映射后的数据集，记作R_m和S_m(步骤2)。

第二步：过滤。

1)对于R_m和S_m中的生成记录依照O_t进行排序(步骤3)。

2)采用全局符号作为关键词分别对R_m和S_m中记录的期望部分建立倒排索引I_r和I_s(步骤4)。对于排序后的R_m和S_m中的全局符号记录，索引其前L–t*L+1个期望符号，其中，t代表这条记录的阀值。

3)依据过滤原则生成候选结果对(步骤5-12)。

a)枚举R_m数据集中的生成记录r，找到那些r的事实全局符号在索引I_s中对应的S_m中的记录s，并将初始候选对(r,s)放入初始候选集和CR₁中(步骤5-8)。

b)遍历CR₁中所有的初始候选对(r,s)，判定s的事实全局符号在索引I_r的倒排表中是否存在记录r。如果存在，转c)，如果不存在，转d)。

c)将其放入最终候选结果集CR₂中。转第三步。

d)进行剪枝(步骤9-12)。

第三步：验证。

检验最终候选结果集CR₂中的每个候选对，将符合条件的作为最终结果输出(步骤13-15)。

以上对本发明所提供的一种基于泛化双向相似连接技术的匹配方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于泛化双向相似连接技术的匹配方法，其特征在于，包括：

获取双方待匹配的数据集和数据集R中的每条记录r都包含了自身的u个事实数据r_i ^f(i＝1,…,u)、对对方的v个期望数据r_i ^e(i＝u+1,…,u+v)和其它的无关数据r_i(i＝u+v+1,…,q)，以及各自对于匹配程度进行限制的阀值T(r)，数据集S中的每条记录s都包含了自身的v个事实数据对对方的u个期望数据和其它的无关数据s(i＝v+u+1,…,w)，以及各自对于匹配程度进行限制的阀值T(s)；

针对匹配双方每条数据记录中，每一方的事实数据和对方的期望数据中的每个具体属性数据，覆盖数值、数值范围、枚举、布尔、字符串多种类型，通过启发式方式进行统一的全局符号映射：设置某个数值范围所接受的最大划分块的数目k_＝，按如下优化目标找到计算某个数值范围内的近似最优划分：

<mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <munder> <mo>&Sigma;</mo> <mrow> <mi>r</mi> <mo>&Element;</mo> <mi>R</mi> </mrow> </munder> <mi>f</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>(</mo> <mi>r</mi> <mo>)</mo> <mo>,</mo> <mo>&Pi;</mo> <mo>)</mo> </mrow> <mo>,</mo> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mo>.</mo> <mi>t</mi> <mi>o</mi> <mo>|</mo> <mo>&Pi;</mo> <mo>|</mo> <mo>&le;</mo> <msub> <mi>k</mi> <mn>0</mn> </msub> <mo>,</mo> <mo>&Pi;</mo> <mo>&Element;</mo> <msup> <mn>2</mn> <mo>&Pi;</mo> </msup> </mrow>

假设P_i,j,k表示将数值范围i～j划分为k个划分块的一个划分，其中i≤j,k>0；P_i,j,k的代价c[i,j,k]被定义为该划分导致的所有期望数据的延展大小之和；对于一个给定的划分块P_i＝a_i～b_i，若原始的期望数值范围c_i～d_i是P_i的一个部分，若有c_i≥a_i且d_i<b_i，则c_i-a_i与b_i-d_i之和为该划分块对该项期望数据的延展大小；通过动态规划方法可以根据以下最优子结构获得最优划分∏：

在映射结束后，通过统计和排序得到一个全局的按照出现次数递增排序的符号顺序O_t，每条记录被映射成为一条由全局符号集合中的符号组成的生成记录，采用全局符号作为关键词，针对映射后的数据集R_m和S_m建立倒排索引I_r和I_s，对于排序后的R_m和S_m中的全局符号记录，根据记录的阈值t索引其前L–t*L+1个期望符号，其中L为期望数据的属性个数，先枚举R_m数据集中的生成记录r，找到那些r的事实全局符号在索引I_s中对应的S_m中的记录s，并将初始候选对(r,s)放入初始候选集和CR₁中，然后遍历CR₁中所有的初始候选对(r,s)，判定s的事实全局符号在索引I_r的倒排表中是否存在记录r，如果存在，则将其放入最终候选结果集CR₂中，如果不存在，则进行剪枝；通过对索引的剪枝进行双向过滤后，对CR₂中的每个候选对进行验证，得到最终匹配成功的候选集合。

2.如权利要求1所述的基于泛化双向相似连接技术的匹配方法，其特征在于，所述映射的方式包括单射转、等步长映射转和启发式映射。