CN106844338B - 基于属性间依赖关系的网络表格的实体列的检测方法 - Google Patents
基于属性间依赖关系的网络表格的实体列的检测方法 Download PDFInfo
- Publication number
- CN106844338B CN106844338B CN201710002389.7A CN201710002389A CN106844338B CN 106844338 B CN106844338 B CN 106844338B CN 201710002389 A CN201710002389 A CN 201710002389A CN 106844338 B CN106844338 B CN 106844338B
- Authority
- CN
- China
- Prior art keywords
- column
- network table
- function
- dependence
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于属性间依赖关系的网络表格的实体列的检测方法。针对一个网络表格,根据列值间的函数依赖关系计算任意两列间的近似函数依赖概率,根据所述近似函数依赖概率获取候选函数依赖集;根据网络表格的特点,删减候选函数依赖集中的噪声函数依赖得到近似函数依赖集;对近似函数依赖集进行3NF规范化,将3NF规范化后产生的主键集合作为网络表格的实体列。本发明提供的方法能更加准确地表达属性间内在的函数依赖关系;在计算近似函数依赖时基于一致性数据和不一致性数据对函数依赖的支持度,该算法具有明显的抗噪声能力,该方法不仅适用于单实体列的网络表格,还可用于多实体列的表格。
Description
技术领域
本发明涉及网络信息处理技术领域,尤其涉及一种基于属性间依赖关系的网络表格的实体列的检测方法。
背景技术
随着信息技术的发展,互联网上的资源越来越丰富,除了非结构化数据外,还有大量的网络表格存在,这些网络表格较文本而言,具有更好的结构化特性,因此受到人们的极大关注。如何让机器更好地理解网络表格的语义成为提高表格搜索覆盖率和准确率的重大挑战。实体列能够标识网络表格所描述的实体,其列标签描述了整张网络表格的主题,通过它可以确定网络表格的语义信息。如果准确地探测网络表格的实体列,就可以大大提升机器对网络表格语义的理解程度。
现有技术中的一种实体列发现算法是由Wang等人提出的基于证据的实体列发现算法。该算法尝试将Probase作为知识库,依赖两个证据实现网络表格的实体列发现。他们依据的证据是:首先,实体列中的所有实体描述的是同一个概念;其次,实体列表达的概念与其他非实体列表达的概念之间存在概念属性关系。
在基于证据的实体列发现算法中,对于一张网络表格的每一个候选模式s,当选择其中一列col为实体列时,其余列为该实体列的属性,计算所有候选实体列的评分,选择评分最高的候选实体列作为该网络表格的实体列。目标函数如下:
其中,SCA是属性集合A的所有可能的概念属性关系集合,ci是属性集合Ai描述的概念,sai表示属性集合A是概念ci的属性的可信度;SCE是实体集合E的所有可能的概念实体关系集合,ci是实体集Ei所属的概念,sei表示实体集E属于概念ci的可信度;Acol表示候选模式s中,除了col列的所有属性集合;Ecol表示col列中除了表头的所有列值集合。
上述现有技术中的实体列发现算法的缺点为:首先,该方法依赖于网络表格的表头和知识库,需要很大的计算开销。知识库确实涵盖了许多实体、属性、概念以及它们之间的关系,但是知识库很难覆盖网络上全部的实体、属性、概念以及它们之间的关系。同时,网络表格常常缺乏表头信息,仅靠知识库很难准确恢复其表头,特别是数字、日期等列的标签。因此,基于证据的实体列发现算法的召回率和准确率较低。其次,基于证据的实体列发现方法只能对单实体列的网络表格进行实体列发现,而忽略了多实体列网络表格的存在。网络上的许多表格不止一个实体列,该算法具有一定的局限性。
发明内容
本发明的实施例提供了一种基于属性间依赖关系的网络表格的实体列的检测方法,以实现有效地发现网络表格的实体列。
为了实现上述目的,本发明采取了如下技术方案。
一种基于属性间依赖关系的网络表格的实体列检测方法,进一步地,包括:
针对一个网络表格,根据列值间的函数依赖关系计算任意两列间的近似函数依赖概率,根据所述近似函数依赖概率获取候选函数依赖集;
根据网络表格的特点,删减候选函数依赖集中的噪声函数依赖得到近似函数依赖集;
对近似函数依赖集进行3NF规范化,将3NF规范化后产生的主键集合作为网络表格的实体列。
进一步地,所述的针对一个网络表格,根据列值间的函数依赖关系计算任意两列间的近似函数依赖概率,根据所述近似函数依赖概率获取候选函数依赖集,包括:
设X是网络表格T中的某个属性,A是T中不同于X的属性,当T中存在部分元组的(X,A)属性值对,使得X→A成立,则称X近似函数确定A或A近似函数依赖于X,记作 表示X→A在T上成立的近似函数依赖概率,(X,A)属性值对中使得X→A成立的数据称为一致性数据,其余称为不一致性数据;
在网络表格T中,对于X属性值为vx的元组,其A属性列中可能存在不同的值,假设该不同值的集合为VA。
如果集合VA中个数最多的值唯一,则将该值作为一致性数据,如果个数最多的值不唯一,则将这些个数最多的值分别作为类中心,计算其他值和类中心值相似度的和,选择和最大时的类中心值va作为一致性数据。具体计算方法如公式(1)所示。
对于任意类中心值vj。
X中值为vx的所有元组,其中的一致性数据va对X→A成立的支持度Sc(X→A,VX,VA')由公式(2)计算;
其中:
VX={X.r|X.r=vx}
VA'={A.r|X.r=vx&A.r=va}
|VX,VA'|=|{<X.r,A.r>|X.r=vx&A.r=va}|
VA'就是当X列取vx时,所对应A列中一致性数据的集合,X.r为X列r行单元格的值,A.r为A列r行单元格的值;
不一致性数据对X→A成立的支持度Snc(X→A,VX,VA*)的计算公式由公式(3)计算;
集合VX对X→A成立的支持度通过一致性数据和不一致性数据对X→A成立的支持度的加权平均和表示,由公式(5)计算:
其中ω1+ω2=1;
取X中所有不同元组的支持度,将它们的平均值作为网络表格T中X→A成立的概率,由公式(6)计算:
其中|DX|表示X中有区别的VX的个数;
表示网络表格T中的一种近似函数依赖成立的概率,候选函数依赖集中包含网络表格T中所有可能的近似函数依赖。
进一步地,所述的根据网络表格的特点,删减候选函数依赖集中的噪声函数依赖得到近似函数依赖集,包括:
如果候选函数依赖集中的近似函数依赖关系满足以下3条规则中的任一条,则将从候选近似函数依赖集中删去:
规则1:若X列的属性值的类型为日期类型、浮点类型或者布尔类型:
规则2:若在网络表格T中存在属性列Y,使得成立;
规则3:若在候选近似函数依赖集中,存在这样的属性列X和A,使得且
进一步地,所述的对近似函数依赖集进行3NF规范化,将3NF规范化后产生的主键集合作为网络表格的实体列,包括:
将近似函数依赖集中的近似函数依赖关系映射到关系矩阵FD[m][n]中,将决定属性间的近似函数依赖关系映射到关系矩阵KK[m][m]中,其中m是位于近似函数依赖蕴含左边的属性数目,即决定属性数,n为网络表格中所有属性列的数目:
(1)FD[m][n]的元素产生如下:
设α∈{决定属性集},β∈{所有列属性集}
4)如果α=β,则FD[α][β]:=2;
5)如果则FD[α][β]:=1;
6)其他情况,则FD[α][β]:=0;
(2)KK[m][m]的元素产生如下:
设α,γ∈{决定属性集}
3)如果α=γ或者则KK[α][γ]:=1;
4)其他情况,则KK[α][γ]:=-1;
定义在网络表格T中,如果则称Z对X近似传递函数依赖,记为其中Y为近似传递函数依赖的中介键;
根据所述关系矩阵FD[m][n]、关系矩阵KK[m][m]确定近似函数依赖集闭包DC[m][n],根据所述近似函数依赖集闭包DC[m][n]确定只存在直接近似函数依赖中的决定属性和中介键,将所述只存在直接近似函数依赖中的决定属性和所述中介键作为网络表格的实体列输出。
进一步地,所述的根据所述关系矩阵FD[m][n]、关系矩阵KK[m][m]确定近似函数依赖集闭包DC[m][n],包括:
步骤1、将FD[m][n]中的元素复制到DC[m][n];i:=0;i表示KK[m][m]中第i个近似函数依赖;
步骤2、i:=1;
步骤3:判断是否在KK[m][m]中存在,且在DC[m][n]中存在,如果是,则DC[m][n]:=βi并且执行步骤4;否则,直接执行步骤4;
步骤4:判断KK[m][m]中是否存在第i+1个近似函数依赖,如果存在,则执行步骤5;否则,直接执行步骤6;
步骤5:i:=i+1,返回步骤3;
步骤6:判断DC[m][n]是否发生变化,如果发生变化,则返回步骤2;否则,输出DC[m][n],流程结束。
进一步地,所述的根据所述近似函数依赖集闭包DC[m][n]确定只存在直接近似函数依赖中的决定属性和中介键,包括:
步骤1:输入DC[m][n],FD[m][n];
步骤2:i:=0,j:=0;i,j表示DC[m][n]的行号和列号;
步骤3:判断DC[i][j]!={0,1,2}&&FD[i][j]=1&&FD[j][i]=1是否成立,如果成立,则DC[i][j]:=1,并且执行步骤4;否则,执行步骤4;
步骤4:判断是否已全部遍历结束,如果已经全部遍历,则设置i:=0,j:=0,并且执行步骤5;否则,取下一个DC[i][j],并且执行步骤3;
步骤5:判断DC[i][j]!={0,1,2}是否成立,如果成立,则Entity{}:=DC[i][j],并且执行步骤7;否则,执行步骤6;
步骤6:判断DC[i][j]=1&&i!=j是否成立,如果成立,将i行的决定属性赋值给Entity集合,并且执行步骤7;否则,直接执行步骤7;
步骤7:判断是否已全部遍历结束,如果全部遍历结束,则输出Entity集合,流程结束;否则,取下一个DC[i][j],继续执行步骤5。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例提供的适应网络表格特点的近似函数依赖检测方法能更加准确地表达属性间内在的函数依赖关系;在计算近似函数依赖时基于一致性数据和不一致性数据对函数依赖的支持度,该算法具有明显的抗噪声能力;可以在更多场景下发现实体列,该方法不仅适用于单实体列的网络表格,还可用于多实体列的表格,不仅适用于有表头的网络表格,而且适用于没有表头或者利用语义恢复技术也无法恢复出完整表头的网络表格。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于属性间依赖关系的网络表格的实体列的检测方法的处理流程图;
图2为本发明实施例提供的一种获取候选依赖集的处理流程图;
图3为本发明实施例提供的一种根据近似函数依赖集寻找近似函数依赖集闭包的过程示意图;
图4为本发明实施例提供的一种利用三范式获取实体列的流程图;
图5为本发明实施例提供的AFD_Model算法与PFD_Model算法、基于证据的方法(ED_Model)针对单实体列表的实体列检测精度、覆盖率、F-值以及时间效率的对比示意图;
图6为本发明实施例提供的AFD_Model算法与PFD_Model算法在多实体列发现算法的有效性对比示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
为了解决上述现有的实体列检测算法的技术问题,本发明设计了一种计算开销小、不依赖于表头和知识库,且适用于多实体列网络表格的实体列检测算法。本发明解决了传统算法依赖网络表格的表头和知识库以及不能进行多实体列发现的问题,通过引进近似函数依赖的概念,提高方法的抗噪声能力,同时获得高质量的实体列发现结果。
本发明实施例提供的一种基于属性间依赖关系的网络表格的实体列检测方法的处理流程如图1所示,包括如下的处理步骤:
步骤1、根据网络表格的列值间的近似函数依赖概率,获取候选函数依赖集。
对于一张网络表格,如果其中的一列或者多列能标识网络表格所描述的实体,则将这一列或者多列定义为实体列,实体列以外的其他列定义为属性列。
本发明对每一张表格,根据列值间的函数依赖关系计算任意两列间的近似函数依赖概率。这里考虑到表格中存在噪声,我们引入一致性数据和不一致性数据的支持度。
定义1设X是网络表格T中的某个属性列,A是T中不同于X的属性列。当T中存在部分元组的(X,A)属性值对,使得X→A成立,则称X近似函数确定A或A近似函数依赖于X,记作 表示X→A在T上成立的可能性,即近似函数依赖概率。(X,A)属性值对中使得X→A成立的数据称为一致性数据,其余称为不一致性数据。
在网络表格T中,对于X属性值为vx的元组,其A属性列中可能存在不同的值,假设该不同值的集合为VA。
如果集合VA中个数最多的值唯一,则将该值作为一致性数据,如果个数最多的值不唯一,则将这些个数最多的值分别作为类中心,计算其他值和类中心值相似度的和,选择和最大时的类中心值va作为一致性数据。具体计算方法如公式(1)所示。
对于任意类中心值vj。
网络表格的列值存在误写的可能,综合一致性数据和不一致性数据对函数依赖成立的支持度,计算任意两列间的近似函数依赖概率,获得候选函数依赖集。
图2为本发明实施例提供的一种获取候选依赖集的处理流程图,具体处理过程包括:首先,一致性数据所占比例越大,说明X→A成立的可能性越大,即一致性数据对X→A成立的支持度越高,同时一致性数据所占比例越大,说明该一致性数据为真正一致性数据的可能性越大。X中值为vx的所有元组,其中的一致性数据va对X→A成立的支持度和一致性数据的可靠性均由公式(2)所计算。
其中:
VX={X.r|X.r=vx}
VA'={A.r|X.r=vx&A.r=va}
|VX,VA'|=|{<X.r,A.r>|X.r=vx&A.r=va}|
VA'就是当X列取vx时,所对应A列中一致性数据的集合,X.r为X列r行单元格的值,A.r为A列r行单元格的值。
其次,不一致性数据和一致性数据越相似,且一致性数据的可靠性越大,则不一致性数据对X→A成立的支持度越大,计算公式如(3)所示。
其中VA*={A.r|X.r=vx&A.r≠va}。
集合VX对X→A成立的支持度可以通过一致性数据和不一致性数据对X→A成立的支持度的加权平均和表示,记为如公式(5)所示。
其中ω1+ω2=1。
最后,取X中所有不同元组的支持度,将它们的平均值作为网络表格T中X→A成立的概率,由公式(6)计算:
其中|DX|表示X中有区别的VX的个数。
公式(6)表示表格T中X→A成立的概率,将T中所有可能的近似函数依赖包含在候选函数依赖集中,这些近似函数依赖成立的概率是根据公式(6)计算的。
若则X称为这个近似函数依赖的决定属性。近似函数依赖集中的所有决定属性组成决定属性集合,决定属性集合的元素个数就是决定属性数,即m。
步骤2、根据网络表格的特点,删减候选函数依赖集中的噪声函数依赖,得到近似函数依赖集。
删除噪声函数依赖主要是为了获得更准确的函数依赖集,为下一步获取实体列打下基础。具体删减规则如下:
如果满足以下3条规则中的任一条,就将从候选近似函数依赖集中删去。
规则1:若X列的属性值的类型为日期类型、浮点类型或者布尔类型。
规则2:若在T中存在属性列Y,使得成立;
规则3:若在候选近似函数依赖集中,存在这样的属性列X和A,使得且
按照上述删减规则,删减候选函数依赖集中的噪声函数依赖后,得到近似函数依赖集。
步骤3、依据规范化的思想,获取实体列。
网络表格中属性列近似函数依赖于它所描述的实体列,根据关系数据库理论的规范化原理,对近似函数依赖集进行3NF规范化,3NF规范化后产生的主键集合就是所要的网络表格的实体列。
上述对近似函数依赖集进行3NF规范化的过程包括:
将近似函数依赖集的依赖关系映射到关系矩阵FD[m][n];将决定属性间的近似函数依赖关系映射到关系矩阵KK[m][m]。其中m是位于近似函数依赖蕴含左边的属性数目,即决定属性数,n为网络表格中所有属性列的数目。为了方便,用不同的数字来表示属性间的不同关系,矩阵中元素产生如下:
(1)FD[m][n]的元素产生如下:
设α∈{决定属性集},β∈{所有列属性集}
7)如果α=β,则FD[α][β]:=2;
8)如果则FD[α][β]:=1;
9)其他情况,则FD[α][β]:=0;
(2)KK[m][m]的元素产生如下:
设α,γ∈{决定属性集}
5)如果α=γ或者则KK[α][γ]:=1;
6)其他情况,则KK[α][γ]:=-1;
为方便描述,定义3给出近似传递函数依赖的定义如下:
定义3在网络表格T中,如果则称Z对X近似传递函数依赖,记为其中Y为近似传递函数依赖的中介键。
图3为根据近似函数依赖集寻找近似函数依赖集闭包DC[m][n]的过程示意图,根据FD[m][n]和KK[m][m]确定DC[m][n].具体处理过程包括:
步骤1、将FD[m][n]中的元素复制到DC[m][n];i:=0;i表示KK[m][m]中第i个近似函数依赖;
步骤2、i:=1;
步骤3:判断是否在KK[m][m]中存在,
且在DC[m][n]中存在,如果是,则DC[m][n]:=βi,并且执行步骤4;否则,直接执行步骤4;
步骤4:判断KK[m][m]中是否存在第i+1个近似函数依赖,如果存在,则执行步骤5;否则,直接执行步骤6;
步骤5:i:=i+1,返回步骤3。
步骤6:判断DC[m][n]是否发生变化,如果发生变化,则返回步骤2;否则,输出DC[m][n],流程结束。
图4为利用三范式获取实体列的流程图,根据上述近似函数依赖集闭包DC[m][n]修正被误标记的近似传递依赖。最后,将中介键和只存在直接近似函数依赖中的决定属性作为实体列输出,上述只存在直接近似函数依赖中的决定属性和中介键的寻找过程包括:
步骤1:输入DC[m][n],FD[m][n];
步骤2:i:=0,j:=0;i,j表示DC[m][n]的行号和列号;
步骤3:判断DC[i][j]!={0,1,2}&&FD[i][j]=1&&FD[j][i]=1是否成立,如果成立,则DC[i][j]:=1,并且执行步骤4;否则,执行步骤4;
步骤4:判断是否已全部遍历结束,如果已经全部遍历,则设置i:=0,j:=0,并且执行步骤5;否则,取下一个DC[i][j],并且执行步骤3;
步骤5:判断DC[i][j]!={0,1,2}是否成立,如果成立,则Entity{}:=DC[i][j],并且执行步骤7;否则,执行步骤6;
步骤6:判断DC[i][j]=1&&i!=j是否成立,如果成立,将i行的决定属性赋值给Entity集合,并且执行步骤7;否则,直接执行步骤7;
步骤7:判断是否已全部遍历结束,如果全部遍历结束,则输出Entity集合,流程结束;否则,取下一个DC[i][j],继续执行步骤5。
综上所述,本发明实施例提供的适应网络表格特点的近似函数依赖检测方法能更加准确地表达属性间内在的函数依赖关系;在计算近似函数依赖时基于一致性数据和不一致性数据对函数依赖的支持度,该算法具有明显的抗噪声能力;
本发明实施例提供的基于近似函数依赖和规范化的实体列发现算法,可以在更多场景下发现实体列。该方法不仅适用于单实体列的网络表格,还可用于多实体列的表格;不仅适用于有表头的网络表格,而且适用于没有表头或者利用语义恢复技术也无法恢复出完整表头的网络表格。
与现有的技术相比,本发明的方法具有实体列发现质量高和能够进行多实体列发现的优点。为验证以上的优点,我们做了大量实验,实验数据来自两个数据源:一个为开源的Wiki Table数据集,另一个为我们从网络上爬取的网络表格,我们称之为Web Table数据集。我们将搜集来的网络表格按照行数的多少分为大表数据集(100行以上),简称L数据集,和小表数据集(100行以下),简称S数据集。为方便进行单实体列和多实体列发现的实验验证,我们将L数据集分成L单实体集(WiKi_LS和Web_LS)和L多实体集(WiKi_LM和Web_LM);S数据集分成S单实体集(WiKi_SS和Web_SS)和S多实体集(WiKi_SM和Web_SM)。
本发明基于列值间的函数依赖关系来发现实体列,不依赖表头和知识库信息,提高了实体列发现的质量。为了验证本发明实施例的算法(AFD_Model)在降噪方面的有效性,特地实现了PFD_Model算法,该算法除了没有考虑表格噪声外其余均与AFD_Model算法一样。图3给出了AFD_Model、PFD_Model以及基于证据的方法(ED_Model)针对单实体列表的实体列检测精度、覆盖率、F-值以及时间效率的对比。图5显示,本发明的算法AFD_Model整体上优于ED_Model和PFD_Model。在准确率方面,ED_Model算法要求网络表格的表头在Probase库中存在概念属性关系,表头的质量和知识库的覆盖程度都会影响ED_Model算法的准确度,而AFD_Model算法不依赖任何表头信息和知识库,因此准确度较高。由于AFD_Model算法考虑到了网络表格的特点,具有一定的噪声过滤能力,因此实体检测的精确度也高于PFD_Model算法。在召回率方面,AFD_Model算法高于ED_Model算法和PFD_Model算法。因为AFD_Model算法不要求网络表格必须存在表头,不要求表中的实体列与非实体列存在属性关系,也不要求这种概念-属性关系在Probase库中存在,同时具有一定的噪声过滤能力,因此算法的适应性更强。F-measure从整体上衡量算法的质量,本发明的算法具有明显的优势。在运行时间方面,ED_Model算法的时间花费明显大于AFD_Model算法和PFD_Model算法,因为ED_Model算法需要利用Probase库将表格的表头或者语义恢复出来的表头的概念属性关系确定下来,进而确定实体列,而AFD_Model算法和PFD_Model算法的时间复杂度仅与表格的大小有关。
本发明的方法适用于多实体列的表格,适用性显著增强。ED_Model算法不能进行多实体列的发现,本发明的方法只与PFD_Model进行对比。图6为本发明实施例提供的AFD_Model算法与PFD_Model算法在多实体列发现算法的有效性对比示意图。图6显示,无论精度、召回率、还是F值,AFD_Model算法都比PFD_Model算法表现优秀,这是因为AFD_Model算法在计算属性间的近似函数依赖时,考虑了噪声数据的影响。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (4)
1.一种基于属性间依赖关系的网络表格的实体列检测方法,其特征在于,包括:
针对一个网络表格,根据列值间的函数依赖关系计算任意两列间的近似函数依赖概率,根据所述近似函数依赖概率获取候选函数依赖集;
根据网络表格的特点,删减候选函数依赖集中的噪声函数依赖得到近似函数依赖集;
对近似函数依赖集进行3NF规范化,将3NF规范化后产生的主键集合作为网络表格的实体列;
所述的针对一个网络表格,根据列值间的函数依赖关系计算任意两列间的近似函数依赖概率,根据所述近似函数依赖概率获取候选函数依赖集,包括:
设X是网络表格T中的某个属性,A是T中不同于X的属性,当T中存在部分元组的(X,A)属性值对,使得X→A成立,则称X近似函数确定A或A近似函数依赖于X,记作表示X→A在T上成立的近似函数依赖概率,(X,A)属性值对中使得X→A成立的数据称为一致性数据,其余称为不一致性数据;
在网络表格T中,对于X属性值为vx的元组,其A属性列中可能存在不同的值,假设该不同值的集合为VA;
如果集合VA中个数最多的值唯一,则将该值作为一致性数据,如果个数最多的值不唯一,则将这些个数最多的值分别作为类中心,计算其他值和类中心值相似度的和,选择和最大时的类中心值va作为一致性数据,具体计算方法如公式1所示;
对于任意类中心值vj;
X中值为vx的所有元组,其中的一致性数据va对X→A成立的支持度Sc(X→A,VX,VA')由公式2计算,其中VA'就是当X列取vx时,所对应A列中一致性数据的集合;
其中:
VX={X.r|X.r=vx}
VA'={A.r|X.r=vx&A.r=va}
|VX,VA'|=|{<X.r,A.r>|X.r=vx&A.r=va}|
X.r为X列r行单元格的值,A.r为A列r行单元格的值;
不一致性数据对X→A成立的支持度的计算公式由公式3计算,其中
集合VX对X→A成立的支持度通过一致性数据和不一致性数据对X→A成立的支持度的加权平均和表示,由公式5计算:
其中ω1+ω2=1;
取X中所有不同元组的支持度,它们的平均值作为网络表格T中X→A成立的概率,由公式6计算:
其中|DX|表示X中有区别的VX的个数;
表示网络表格T中的一种近似函数依赖成立的概率,候选函数依赖集中包含网络表格T中所有可能的近似函数依赖;
所述的对近似函数依赖集进行3NF规范化,将3NF规范化后产生的主键集合作为网络表格的实体列,包括:
将近似函数依赖集中的近似函数依赖关系映射到关系矩阵FD[m][n]中,将决定属性间的近似函数依赖关系映射到关系矩阵KK[m][m]中,其中m是位于近似函数依赖蕴含左边的属性数目,即决定属性数,n为网络表格中所有属性列的数目:
(1)FD[m][n]的元素产生如下:
设α∈{决定属性集},β∈{所有列属性集}
1)如果α=β,则FD[α][β]:=2;
2)如果则FD[α][β]:=1;
3)其他情况,则FD[α][β]:=0;
(2)KK[m][m]的元素产生如下:
设α,γ∈{决定属性集}
1)如果α=γ或者则KK[α][γ]:=1;
2)其他情况,则KK[α][γ]:=-1;
定义在网络表格T中,如果则称Z对X近似传递函数依赖,记为其中Y为近似传递函数依赖的中介键;
根据所述关系矩阵FD[m][n]、关系矩阵KK[m][m]确定近似函数依赖集闭包DC[m][n],根据所述近似函数依赖集闭包DC[m][n]确定只存在直接近似函数依赖中的决定属性和中介键,将所述只存在直接近似函数依赖中的决定属性和所述中介键作为网络表格的实体列输出。
2.根据权利要求1所述的方法,其特征在于,所述的根据网络表格的特点,删减候选函数依赖集中的噪声函数依赖得到近似函数依赖集,包括:
如果候选函数依赖集中的近似函数依赖关系满足以下3条规则中的任一条,则将从候选近似函数依赖集中删去:
规则1:若X列的属性值的类型为日期类型、浮点类型或者布尔类型:
规则2:若在网络表格T中存在属性列Y,使得成立;
规则3:若在候选近似函数依赖集中,存在这样的属性列X和A,使得且
3.根据权利要求1所述的方法,其特征在于,所述的根据所述关系矩阵FD[m][n]、关系矩阵KK[m][m]确定近似函数依赖集闭包DC[m][n],包括:
步骤1、将FD[m][n]中的元素复制到DC[m][n];i:=0;i表示KK[m][m]中第i个近似函数依赖;
步骤2、i:=1;
步骤3:判断是否在KK[m][m]中存在,且在DC[m][n]中存在,如果是,则DC[m][n]:=βi并且执行步骤4;否则,直接执行步骤4;
步骤4:判断KK[m][m]中是否存在第i+1个近似函数依赖,如果存在,则执行步骤5;否则,直接执行步骤6;
步骤5:i:=i+1,返回步骤3;
步骤6:判断DC[m][n]是否发生变化,如果发生变化,则返回步骤2;否则,输出DC[m][n],流程结束。
4.根据权利要求3所述的方法,其特征在于,所述的根据所述近似函数依赖集闭包DC[m][n]确定只存在直接近似函数依赖中的决定属性和中介键,包括:
步骤1:输入DC[m][n],FD[m][n];
步骤2:i:=0,j:=0;i,j表示DC[m][n]的行号和列号;
步骤3:判断DC[i][j]!={0,1,2}&&FD[i][j]=1&&FD[j][i]=1是否成立,如果成立,则DC[i][j]:=1,并且执行步骤4;否则,执行步骤4;
步骤4:判断是否已全部遍历结束,如果已经全部遍历,则设置i:=0,j:=0,并且执行步骤5;否则,取下一个DC[i][j],并且执行步骤3;
步骤5:判断DC[i][j]!={0,1,2}是否成立,如果成立,则Entity{}:=DC[i][j],并且执行步骤7;否则,执行步骤6;
步骤6:判断DC[i][j]=1&&i!=j是否成立,如果成立,将i行的决定属性赋值给Entity集合,并且执行步骤7;否则,直接执行步骤7;
步骤7:判断是否已全部遍历结束,如果全部遍历结束,则输出Entity集合,流程结束;否则,取下一个DC[i][j],继续执行步骤5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710002389.7A CN106844338B (zh) | 2017-01-03 | 2017-01-03 | 基于属性间依赖关系的网络表格的实体列的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710002389.7A CN106844338B (zh) | 2017-01-03 | 2017-01-03 | 基于属性间依赖关系的网络表格的实体列的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106844338A CN106844338A (zh) | 2017-06-13 |
CN106844338B true CN106844338B (zh) | 2019-12-10 |
Family
ID=59117509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710002389.7A Expired - Fee Related CN106844338B (zh) | 2017-01-03 | 2017-01-03 | 基于属性间依赖关系的网络表格的实体列的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106844338B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595624A (zh) * | 2018-04-23 | 2018-09-28 | 南京大学 | 一种大规模分布式函数依赖发现方法 |
CN109472013B (zh) * | 2018-10-25 | 2020-06-16 | 北京交通大学 | 基于分布拟合的网络表格间的外键关系检测方法 |
CN111061923B (zh) * | 2019-12-13 | 2022-08-02 | 北京航空航天大学 | 一种基于图依赖规则和监督学习的图数据实体识别*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077181A (zh) * | 2012-11-20 | 2013-05-01 | 深圳市华傲数据技术有限公司 | 一种自动生成近似函数依赖规则的方法 |
CN104281563A (zh) * | 2013-07-01 | 2015-01-14 | 国际商业机器公司 | 用于发现表格数据中的关系的方法和*** |
CN104794222A (zh) * | 2015-04-29 | 2015-07-22 | 北京交通大学 | 网络表格语义恢复方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014074873A1 (en) * | 2012-11-09 | 2014-05-15 | Kla-Tencor Corporation | Reducing algorithmic inaccuracy in scatterometry overlay metrology |
-
2017
- 2017-01-03 CN CN201710002389.7A patent/CN106844338B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077181A (zh) * | 2012-11-20 | 2013-05-01 | 深圳市华傲数据技术有限公司 | 一种自动生成近似函数依赖规则的方法 |
CN104281563A (zh) * | 2013-07-01 | 2015-01-14 | 国际商业机器公司 | 用于发现表格数据中的关系的方法和*** |
CN104794222A (zh) * | 2015-04-29 | 2015-07-22 | 北京交通大学 | 网络表格语义恢复方法 |
Non-Patent Citations (3)
Title |
---|
Functional Dependency Generation and Applications in Pay-as-You-Go data Integration Systems;WANG D G 等;《Proceedings of the 12th International Workshop on the Web and Databases》;20091231;第1654-1655页 * |
基于函数依赖的导出关系候选码计算;黎章海 等;《计算机工程》;20160531;第42卷(第5期);第60-65页 * |
网络表格的实体列发现与标识;任向冉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20151015(第10期);第I138-606页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106844338A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Attentive relational networks for mapping images to scene graphs | |
TWI729472B (zh) | 特徵詞的確定方法、裝置和伺服器 | |
CN110880019B (zh) | 通过无监督域适应训练目标域分类模型的方法 | |
CN110704743B (zh) | 一种基于知识图谱的语义搜索方法及装置 | |
US9110985B2 (en) | Generating a conceptual association graph from large-scale loosely-grouped content | |
Zhang et al. | Feature reintegration over differential treatment: A top-down and adaptive fusion network for RGB-D salient object detection | |
JP2017123168A (ja) | セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法及び装置 | |
Li et al. | Protein contact map prediction based on ResNet and DenseNet | |
WO2016205286A1 (en) | Automatic entity resolution with rules detection and generation system | |
JP2009282980A (ja) | 画像学習、自動注釈、検索方法及び装置 | |
CN102902821A (zh) | 基于网络热点话题的图像高级语义标注、检索方法及装置 | |
Xie et al. | Fast and accurate near-duplicate image search with affinity propagation on the ImageWeb | |
CN111612041A (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
US10135723B2 (en) | System and method for supervised network clustering | |
Papadopoulos et al. | Image clustering through community detection on hybrid image similarity graphs | |
CN111563192A (zh) | 实体对齐方法、装置、电子设备及存储介质 | |
CN106844338B (zh) | 基于属性间依赖关系的网络表格的实体列的检测方法 | |
KR20180137386A (ko) | 커뮤니티 검출 방법 및 커뮤니티 검출 프레임워크 장치 | |
Zhang et al. | Unsupervised entity resolution with blocking and graph algorithms | |
US11562133B2 (en) | System and method for detecting incorrect triple | |
CN112883736A (zh) | 医疗实体关系抽取方法和装置 | |
CN115438274A (zh) | 基于异质图卷积网络的虚假新闻识别方法 | |
WO2021253938A1 (zh) | 一种神经网络的训练方法、视频识别方法及装置 | |
CN111125329B (zh) | 一种文本信息筛选方法、装置及设备 | |
CN104463864B (zh) | 多级并行关键帧云提取方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191210 Termination date: 20210103 |
|
CF01 | Termination of patent right due to non-payment of annual fee |