CN104166719B - 基于泛化双向相似连接技术的匹配方法 - Google Patents

基于泛化双向相似连接技术的匹配方法 Download PDF

Info

Publication number
CN104166719B
CN104166719B CN201410407666.9A CN201410407666A CN104166719B CN 104166719 B CN104166719 B CN 104166719B CN 201410407666 A CN201410407666 A CN 201410407666A CN 104166719 B CN104166719 B CN 104166719B
Authority
CN
China
Prior art keywords
data
matching
mapping
record
partition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410407666.9A
Other languages
English (en)
Other versions
CN104166719A (zh
Inventor
王朝坤
王萌
汪浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201410407666.9A priority Critical patent/CN104166719B/zh
Publication of CN104166719A publication Critical patent/CN104166719A/zh
Application granted granted Critical
Publication of CN104166719B publication Critical patent/CN104166719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • G06F16/2456Join operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于泛化双向相似连接技术的匹配方法,涉及计算机网络技术领域,包括:获取双方待匹配的数据及给出的对于匹配程度进行限制的阀值;对匹配双方每一方的事实数据和对方的期望数据进行双向匹配;按照所述双向匹配的结果过滤大量不符合匹配条件的记录;对过滤后的候选集合进行快速判断,获得能够匹配成功的记录对。本发明提供的基于泛化双向相似连接技术的匹配方法,基于映射‑过滤‑验证(MFV)进行泛化双向相似连接更适用于现实世界中较为广泛的应用场景。

Description

基于泛化双向相似连接技术的匹配方法
技术领域
本发明涉及计算机网络技术领域,特别是涉及一种基于泛化双向相似连接技术的匹配方法。
背景技术
双向相似连接旨在从两个或一个给定数据集中找出满足预定连接条件的所有数据记录对,是数据库应用中的一个重要操作。然而,传统的匹配方法在多样化的数据类型上具有较高的局限性,已经不能很好地满足现实世界中不断增长的客观需求。并且,在双向匹配的过程中,双方的角色可能是不同的,而匹配的对象来自一方对对方的期望数据和对方的事实数据,如何将期望数据与事实数据进行交叉比较是当下需要解决的一大关键技术问题。此外,在现实世界中,个体对于匹配程度的要求是不同的,有的人需要找到100%满意的匹配对象,有的人的心理预期则没有那么高,那么如何根据对匹配程度的限定来设计双相连接的比较方法也是亟待解决的重要技术问题。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如何能够创新地提出一种更为有效的匹配方法,以满足实际应用中的更多需求。
发明内容
本发明所要解决的技术问题是提供一种基于泛化双向相似连接技术的匹配方法,基于映射-过滤-验证(MFV)进行泛化双向相似连接更适用于现实世界中较为广泛的应用场景。
为了解决上述技术问题,本发明实施例公开了一种基于泛化双向相似连接技术的匹配方法,包括:
获取匹配双方待匹配的数据数据中的每条记录都包含了自身的事实数据、对对方的期望数据,以及各自对于匹配程度进行限制的阀值;
对匹配双方每一方的事实数据通过全局符号映射的方式进行双向匹配;
按照映射的结果进行预处理,建立倒排索引,通过对索引的剪枝进行双向过滤,获得匹配成功的候选集合。
优选的,所述映射的方式包括单射转、等步长映射转和启发式映射。
本发明的基于泛化双向相似连接技术的匹配方法,基于映射-过滤-验证(MFV)进行泛化双向相似连接,更适用于现实世界中较为广泛的应用场景,例如,求职招聘和交友等。这些应用场景中需要进行匹配的数据类型多样,匹配双方中的每个个体对于匹配程度的限定都存在差异,本发明通过映射-过滤-验证方法在进行双向连接时能够基于这些问题将一方的事实数据同另一方的期望数据进行有效地交叉匹配,这样的交友过程能够同时符合双方的预期,在求职招聘中能够促使招聘方与求职者迅速找到满意的员工与企业,增加求职招聘过程中的成功率,在其他社交网络中也具有广泛的应用场景。
同时,本技术所提出的泛化双向相似连接方法在匹配过程中不产生错误结果也不漏掉正确结果,具有正确性和完备性。并且,较之前的方法来说,本技术所发明的方法效率更高、适用范围更广、更符合现实需求。
附图说明
图1是本发明的一种基于泛化双向相似连接技术的匹配方法实施例的流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参见图1,本方案所述的一种基于泛化双向相似连接技术的匹配方法,具体包括:
步骤S101,获取双方待匹配的数据及给出的对于匹配程度进行限制的阀值;
步骤S102,对匹配双方每一方的事实数据和对方的期望数据进行双向匹配;
步骤S103,按照所述双向匹配的结果过滤大量不符合匹配条件的记录;
步骤S104,对过滤后的候选集合进行快速判断,获得能够匹配成功的记录对。
在实际应用中的具体实现:
1.获取待匹配的数据集R和S。R和S中的每条记录r和s都包含了自身的事实数据、对对方的期望数据、匹配的满意度阀值t以及一切其他数据。
2.对数据集R和S中的每条记录中的事实与期望数据进行映射(参见算法1步骤2)。
a)根据所选择的数值映射方式进行数值映射,单射转2.2,等步长映射转2.3,启发式映射转2.4。
b)单射映射,将各个属性的每个数值被映射到一个唯一的全局符号上。转2.5。
c)等步长映射,通过固定的步长来均匀分割数值范围数据,将多个值映射到同样的符号上。转2.5。
d)通过启发式映射,寻找近似最优的映射方案。
i.设置某个数值范围所接受的最大划分块的数目k0
ii.找到计算某个数值范围内的最优划分的优化目标。
其中e(r)=a~b为一个期望的数值范围,Ext(e(r))为一个划分∏对于e(r)的延展,即Ext(e(r))=aj~bk,aj=Max(ai|ai≤a),bk=Min(bi|bi≥b),2表示所有的划分数值范围的划分组成的集合,|∏|是划分∏中的块数,f是一个计算在划分∏情况下Ext(e(r))的势|Ext(e(r))|和e(r)的势|e(r)|之差的函数。
按照以下最优子结构,通过动态规划方法获得最优划分∏。
Pi,j,k表示将数值范围i~j划分为k个划分块的一个划分,其中i≤j,k>0。Pi,j,k的代价c[i,j,k]被定义为该划分导致的所有期望数据的延展大小之和。对于一个给定的划分块Pi=ai~bi,若原始的期望数值范围ci~di是Pi的一个部分若,有ci≥ai且di<bi,则ci-ai与bi-di之和为该划分块对该项期望数据的延展大小。
e)通过统计和排序得到一个全局的按照出现次数递增排序的符号顺序Ot
f)每条记录被映射成为一条由全局符号集合中的符号组成的生成记录,这些记录组成了映射后的数据集,记作Rm和Sm
3.对映射后的生成记录进行预处理。
a)对于Rm和Sm中的生成记录依照Ot进行排序(参见算法1步骤3)。
b)采用全局符号作为关键词,分别对Rm和Sm中记录的期望部分建立倒排索引Ir和Is。对于排序后的Rm和Sm中的全局符号记录,根据记录的阀值t索引其前L–t*L+1个期望符号(参见算法1步骤4)。
4.在映射后产生的符号记录上进行双向过滤获得候选集合(参见算法1步骤5-12)。
a)枚举Rm数据集中的生成记录r,找到那些r的事实全局符号在索引Is中对应的Sm中的记录s,并将初始候选对(r,s)放入初始候选集和CR1中(参见算法1步骤5-8)。
b)遍历CR1中所有的初始候选对(r,s),判定s的事实全局符号在索引Ir的倒排表中是否存在记录r。如果存在,转4.3,如果不存在,转4.4。
c)将其放入最终候选结果集CR2中。转5。
d)进行剪枝(参见算法1步骤9-12)。
5.检验最终候选结果集CR2中的每个候选对,将符合条件的作为最终结果输出(参见算法1步骤13-15)。
算法1.映射-过滤-验证算法(MFV)
输入:R、S—数据集
输出:RS—查询结果数据集
1.
/*映射步骤,将数据映射为全局符号*/
2.Rm←MAP(R),Sm←MAP(S);
/*过滤步骤:预处理阶段—在Rm和Sm的期望符号上建立倒排索引*/
3.Sort(Rm,Sm)
4.Ir←IndexBuilding(Rm),Is←IndexBuilding(Sm)
/*过滤步骤:在映射后产生的符号记录上进行双向过滤获得候选集合*/
5.FOR EACH r∈Rm DO
6.FOR EACH w∈F(r)DO
7.FOR EACH(s,w)∈Is DO
8.CR1←CR1∪{(r,s)}
9.FOR EACH(r,s)∈CR1DO
10.FOR EACH w∈F(s)DO
11.IF(r,w)∈Ir DO
12.CR2←CR2∪{(r,s)};BREAK;
/*验证阶段:对最终候选结果集执行双向验证获得最后的匹配结果*/
13.FOR EACH(r,s)∈CR1DO
14.IF ExSim(s,r)≥T(s)∧ExSim(r,s)≥T(r)THEN
15.RS←RS∪{(r,s)};
RETURN RS;
为使本领域技术人员更好地理解本发明,以下结合实际应用,更为详尽的对本方案做具体介绍。
【步骤】
1、定义泛化双向相似连接
定义1.“满足”(∝)操作符定义在事实和对应的期望上。对于不同类型的数据,“∝”的判定标准不尽相同。举例来说,如果事实f是一个数值类型的数据而期望e=a~b是一个数值范围类型的数据,那么f∝e当且仅当f≥a∧f≤b;若事实f是集合中的一个元素而期望e={e1,e2,…,en}为一个集合,则f∝e当且仅当f∈e。
定义2.假设数据集R和S中的每条记录都包含事实数据、期望数据、一个阀值数据和其它的无关数据,
形式化描述为:S其中u+v≤q且u+v≤w,=1,…,u)代表r的u个事实数据;代表r的v个期望数据;ri(i=u+v+1,…,q)代表r的其它数据;T(r)是r的阀值数据。同样的,代表s的v个事实数据;代表s的u个期望数据;si(i=u+v+1,u+v+2,…,w)代表s的其它数据;T(s)是s的阀值数据。R和S的泛化双向相似连接定义为: 其中:(1) (2)
2、映射-过滤-验证方法
基于上述定义,提出解决泛化双向相似连接问题的方法,它包含映射、过滤和验证三个步骤,简称为映射-过滤-验证方法。
算法1.映射-过滤-验证算法
输入:R、S—数据集
输出:RS—查询结果数据集
16.
/*映射步骤,将数据映射为全局符号*/
17.Rm←MAP(R),Sm←MAP(S);
/*过滤步骤:预处理阶段—在Rm和Sm的期望符号上建立倒排索引*/
18.Sort(Rm,Sm)
19.Ir←IndexBuilding(Rm),Is←IndexBuilding(Sm)
/*过滤步骤:在映射后产生的符号记录上进行双向过滤获得候选集合*/
RETURN RS;
算法1详细描述了三个具体步骤:
第一步:映射。
1)根据所选择的数值映射方式进行数值映射,单射转2),等步长映射转3),启发式映射转4)。
2)单射映射,将各个属性的每个数值被映射到一个唯一的全局符号上。转5)。
3)等步长映射,通过固定的步长来均匀分割数值范围数据,将多个值映射到同样的符号上。转5)。
4)通过启发式映射,寻找近似最优的映射方案。
a)设置某个数值范围所接受的最大划分块的数目k0
b)找到计算某个数值范围内的最优划分的优化目标。
其中e(r)=a~b为一个期望的数值范围,Ext(e(r))为一个划分∏对于e(r)的延展,即Ext(e(r))=aj~bk,aj=Max(ai|ai≤a),bk=Min(bi|bi≥b),2∏表示所有的划分数值范围的划分组成的集合,|∏|是划分∏中的块数,f是一个计算在划分∏情况下Ext(e(r))的势|Ext(e(r))|和e(r)的势|e(r)|之差的函数。
c)按照以下最优子结构,通过动态规划方法获得最优划分∏。
Pi,j,k表示将数值范围i~j划分为k个划分块的一个划分,其中i≤j,k>0。Pi,j,k的代价c[i,j,k]被定义为该划分导致的所有期望数据的延展大小之和。对于一个给定的划分块Pi=ai~bi,若原始的期望数值范围ci~di是Pi的一个部分若,有ci≥ai且di<bi,则ci-ai与bi-di之和为该划分块对该项期望数据的延展大小。
5)通过统计和排序得到一个全局的按照出现次数递增排序的符号顺序Ot
6)每条记录被映射成为一条由全局符号集合中的符号组成的生成记录,这些记录组成了映射后的数据集,记作Rm和Sm(步骤2)。
第二步:过滤。
1)对于Rm和Sm中的生成记录依照Ot进行排序(步骤3)。
2)采用全局符号作为关键词分别对Rm和Sm中记录的期望部分建立倒排索引Ir和Is(步骤4)。对于排序后的Rm和Sm中的全局符号记录,索引其前L–t*L+1个期望符号,其中,t代表这条记录的阀值。
3)依据过滤原则生成候选结果对(步骤5-12)。
a)枚举Rm数据集中的生成记录r,找到那些r的事实全局符号在索引Is中对应的Sm中的记录s,并将初始候选对(r,s)放入初始候选集和CR1中(步骤5-8)。
b)遍历CR1中所有的初始候选对(r,s),判定s的事实全局符号在索引Ir的倒排表中是否存在记录r。如果存在,转c),如果不存在,转d)。
c)将其放入最终候选结果集CR2中。转第三步。
d)进行剪枝(步骤9-12)。
第三步:验证。
检验最终候选结果集CR2中的每个候选对,将符合条件的作为最终结果输出(步骤13-15)。
以上对本发明所提供的一种基于泛化双向相似连接技术的匹配方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (2)

1.一种基于泛化双向相似连接技术的匹配方法,其特征在于,包括:
获取双方待匹配的数据集 数据集R中的每条记录r都包含了自身的u个事实数据ri f(i=1,…,u)、对对方的v个期望数据ri e(i=u+1,…,u+v)和其它的无关数据ri(i=u+v+1,…,q),以及各自对于匹配程度进行限制的阀值T(r),数据集S中的每条记录s都包含了自身的v个事实数据对对方的u个期望数据和其它的无关数据s(i=v+u+1,…,w),以及各自对于匹配程度进行限制的阀值T(s);
针对匹配双方每条数据记录中,每一方的事实数据和对方的期望数据中的每个具体属性数据,覆盖数值、数值范围、枚举、布尔、字符串多种类型,通过启发式方式进行统一的全局符号映射:设置某个数值范围所接受的最大划分块的数目k,按如下优化目标找到计算某个数值范围内的近似最优划分:
<mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>r</mi> <mo>&amp;Element;</mo> <mi>R</mi> </mrow> </munder> <mi>f</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>(</mo> <mi>r</mi> <mo>)</mo> <mo>,</mo> <mo>&amp;Pi;</mo> <mo>)</mo> </mrow> <mo>,</mo> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mo>.</mo> <mi>t</mi> <mi>o</mi> <mo>|</mo> <mo>&amp;Pi;</mo> <mo>|</mo> <mo>&amp;le;</mo> <msub> <mi>k</mi> <mn>0</mn> </msub> <mo>,</mo> <mo>&amp;Pi;</mo> <mo>&amp;Element;</mo> <msup> <mn>2</mn> <mo>&amp;Pi;</mo> </msup> </mrow>
其中e(r)=a~b为一个期望从最小值到最大值的数值范围,Ext(e(r))为一个划分∏对于e(r)的延展,即Ext(e(r))=aj~bk,aj=Max(ai|ai≤a),bk=Min(bi|bi≥b),2表示所有的划分数值范围的划分组成的集合,|∏|是划分∏中的块数,f是一个计算在划分∏情况下Ext(e(r))的势|Ext(e(r))|和e(r)的势|e(r)|之差的函数;
假设Pi,j,k表示将数值范围i~j划分为k个划分块的一个划分,其中i≤j,k>0;Pi,j,k的代价c[i,j,k]被定义为该划分导致的所有期望数据的延展大小之和;对于一个给定的划分块Pi=ai~bi,若原始的期望数值范围ci~di是Pi的一个部分,若有ci≥ai且di<bi,则ci-ai与bi-di之和为该划分块对该项期望数据的延展大小;通过动态规划方法可以根据以下最优子结构获得最优划分∏:
<mrow> <mi>c</mi> <mo>&amp;lsqb;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>&amp;rsqb;</mo> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>i</mi> <mo>=</mo> <mi>j</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>c</mi> <mo>&amp;lsqb;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mn>1</mn> <mo>&amp;rsqb;</mo> </mrow> </mtd> <mtd> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>i</mi> <mo>&lt;</mo> <mi>j</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <munder> <mi>min</mi> <mrow> <mi>i</mi> <mo>&amp;le;</mo> <mi>m</mi> <mo>&lt;</mo> <mi>j</mi> </mrow> </munder> <mo>{</mo> <mi>c</mi> <mo>&amp;lsqb;</mo> <mi>i</mi> <mo>,</mo> <mi>m</mi> <mo>,</mo> <mn>1</mn> <mo>&amp;rsqb;</mo> <mo>+</mo> <mi>c</mi> <mo>&amp;lsqb;</mo> <mi>m</mi> <mo>+</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> <mo>&amp;rsqb;</mo> <mo>}</mo> </mrow> </mtd> <mtd> <mrow> <mi>k</mi> <mo>&gt;</mo> <mn>1</mn> <mo>,</mo> <mi>i</mi> <mo>&lt;</mo> <mi>j</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>
在映射结束后,通过统计和排序得到一个全局的按照出现次数递增排序的符号顺序Ot,每条记录被映射成为一条由全局符号集合中的符号组成的生成记录,采用全局符号作为关键词,针对映射后的数据集Rm和Sm建立倒排索引Ir和Is,对于排序后的Rm和Sm中的全局符号记录,根据记录的阈值t索引其前L–t*L+1个期望符号,其中L为期望数据的属性个数,先枚举Rm数据集中的生成记录r,找到那些r的事实全局符号在索引Is中对应的Sm中的记录s,并将初始候选对(r,s)放入初始候选集和CR1中,然后遍历CR1中所有的初始候选对(r,s),判定s的事实全局符号在索引Ir的倒排表中是否存在记录r,如果存在,则将其放入最终候选结果集CR2中,如果不存在,则进行剪枝;通过对索引的剪枝进行双向过滤后,对CR2中的每个候选对进行验证,得到最终匹配成功的候选集合。
2.如权利要求1所述的基于泛化双向相似连接技术的匹配方法,其特征在于,所述映射的方式包括单射转、等步长映射转和启发式映射。
CN201410407666.9A 2014-08-19 2014-08-19 基于泛化双向相似连接技术的匹配方法 Active CN104166719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410407666.9A CN104166719B (zh) 2014-08-19 2014-08-19 基于泛化双向相似连接技术的匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410407666.9A CN104166719B (zh) 2014-08-19 2014-08-19 基于泛化双向相似连接技术的匹配方法

Publications (2)

Publication Number Publication Date
CN104166719A CN104166719A (zh) 2014-11-26
CN104166719B true CN104166719B (zh) 2018-02-16

Family

ID=51910532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410407666.9A Active CN104166719B (zh) 2014-08-19 2014-08-19 基于泛化双向相似连接技术的匹配方法

Country Status (1)

Country Link
CN (1) CN104166719B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021493A (zh) * 2016-05-19 2016-10-12 天津工业大学 非一致性约束的相似连接方法及装置
CN108573052B (zh) * 2018-04-23 2019-09-10 南京大学 一种阈值自适应的集合相似连接方法
CN108846067A (zh) * 2018-06-05 2018-11-20 洛阳师范学院 基于映射空间划分的高维数据相似性连接查询方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101180645A (zh) * 2004-12-07 2008-05-14 毕库德股份有限公司 一种电子商务***、方法和装置
CN101453398A (zh) * 2007-12-06 2009-06-10 怀特威盛软件公司 一种新型分布式网格超级计算***及方法
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘***及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8626693B2 (en) * 2011-01-14 2014-01-07 Hewlett-Packard Development Company, L.P. Node similarity for component substitution
US9514167B2 (en) * 2011-08-01 2016-12-06 Qatar Foundation Behavior based record linkage

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101180645A (zh) * 2004-12-07 2008-05-14 毕库德股份有限公司 一种电子商务***、方法和装置
CN103218732A (zh) * 2004-12-07 2013-07-24 毕库德股份有限公司 一种电子商务***、方法和装置
CN101453398A (zh) * 2007-12-06 2009-06-10 怀特威盛软件公司 一种新型分布式网格超级计算***及方法
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘***及方法

Also Published As

Publication number Publication date
CN104166719A (zh) 2014-11-26

Similar Documents

Publication Publication Date Title
CN110688495B (zh) 一种事件信息的知识图谱模型构建方法、装置、存储介质
CN112434169B (zh) 一种知识图谱的构建方法及其***和计算机设备
US20230334089A1 (en) Entity recognition from an image
CN107330798B (zh) 一种基于种子节点传播的社交网络间用户身份识别方法
WO2017167069A1 (zh) 简历评估方法和装置
US10552471B1 (en) Determining identities of multiple people in a digital image
CN111383005B (zh) 数字货币流向追踪方法及装置
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
CN111400452B (zh) 文本信息分类处理方法、电子设备及计算机可读存储介质
CN107908645B (zh) 一种基于渗流分析的在线社交平台谣言传播的免疫方法
CN104166719B (zh) 基于泛化双向相似连接技术的匹配方法
CN106649612A (zh) 一种自动问答模板匹配的方法及装置
CN107368540A (zh) 基于用户自相似度的多模型相结合的电影推荐方法
CN110162637B (zh) 信息图谱构建方法、装置及设备
CN104182422B (zh) 统一通讯录信息处理方法和***
CN111144831B (zh) 一种适用于人员招聘的人选精准甄别***及其甄别方法
CN106021556A (zh) 地址信息处理方法及装置
CN107679053B (zh) 地点推荐方法、装置、计算机设备及存储介质
KR20180089479A (ko) 사용자 데이터 공유 방법 및 디바이스
CN104536984A (zh) 一种外包数据库中的空间文本Top-k查询的验证方法及***
CN112365139A (zh) 一种图卷积神经网络下的人群危险程度分析方法
CN115328883A (zh) 一种数据仓库建模方法和***
CN108597172B (zh) 一种森林火灾识别方法、装置、电子设备及存储介质
JPWO2019234827A1 (ja) 情報処理装置、判定方法、及びプログラム
CN108829833B (zh) 一种基于社交关系碎片数据的模糊搜索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant