CN107391584B - 基于形式概念格的分面搜索方法及*** - Google Patents
基于形式概念格的分面搜索方法及*** Download PDFInfo
- Publication number
- CN107391584B CN107391584B CN201710483747.0A CN201710483747A CN107391584B CN 107391584 B CN107391584 B CN 107391584B CN 201710483747 A CN201710483747 A CN 201710483747A CN 107391584 B CN107391584 B CN 107391584B
- Authority
- CN
- China
- Prior art keywords
- concept
- lattice
- formal
- concepts
- connotation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24575—Query processing with adaptation to user needs using context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机搜索技术领域,公开一种基于形式概念格的分面搜索方法及***,以基于形式概念分析理论针对原始信息预构造形式概念格,并在形式概念格的基础上建立索引,从而建立分面搜索***。本发明方法包括:构造形式概念格,在构造过程中,形式概念格使用伪造属性fake_attribute初始化最小概念Bottom;在形式概念格中建立叶子概念的索引;在查询过程中,概念的内涵对应查询语句,概念的外延对应结果集;在获取用户查询的分面值集后,在所构造的形式概念格中利用叶子概念自底向上匹配包含属性集的最小内涵以找到与分面值集对应的目标概念,并返回该目标概念所对应的外延。
Description
技术领域
本发明涉及计算机搜索技术领域,尤其涉及一种基于形式概念格的分面搜索方法及***。
背景技术
分面搜索(Faceted Search)是一种在关键词搜索的基础上,根据当前搜索结果提供上下文相关的分面信息(Facet Information)的信息检索技术。用户可以脱离***设计人员既定的类别树,从各种各样的角度自定义感兴趣的类别。在用户指定某个分面值(Facet Value)后,***根据该分面值对应的结果集中动态获取更细化的信息,新的细化结果能够从多个分面对结果集进行划分,帮助用户进一步了解他们感兴趣的数据信息。在整个搜索过程中,用户可以灵活地切换分面值,从而快速获取相关内容。
形式概念分析(Formal Concept Analysis)理论是一种针对结构化数据进行知识挖掘与分析的方法,被广泛应用于知识发现、软件工程等领域。形式概念分析的核心数据结构即为形式概念格,概念格通过哈斯图(Hasse Diagram)来表示概念与概念之间的层次结构。
目前流行的分面搜索技术主要建立在传统的关系型数据库之上,要快速检索这些内容并提供相应的分面信息是一个亟待解决的难题。
发明内容
本发明目的在于公开一种基于形式概念格的分面搜索方法及***,以基于形式概念分析理论针对原始信息预构造形式概念格,并在形式概念格的基础上建立索引,从而建立分面搜索***。
为实现上述目的,本发明公开了一种基于形式概念格的分面搜索方法,包括:
构造形式概念格,所述形式概念格使用伪造属性fake_attribute初始化最小概念Bottom,并在每次更新概念格结构时,将输入对象Obj的属性集添加到Bottom的内涵中,最后再将fake_attribute剔除得到完整且正确的形式概念格;同时,在形式概念格中增加新对象的过程中,在输入属性集Y后,首先获取Y所唯一对应的标准生成器,如果概念格已有概念的内涵与Y相等,则Y不产生新概念,并将该新对象添加到其相等内涵所关联概念的外延中,以及将该新对象添加到此概念所有父概念的外延中;如果概念格不存在已有概念的内涵与Y相等,则创建新概念,并根据标准生成器的直接父概念计算新概念的所有候选直接父概念并筛选出真正的直接父概念,然后更新概念之间的父子关系,同时将该新对象添加到新概念所有父概念的外延中;
在所述形式概念格中建立叶子概念的索引,所述叶子概念是指形式概念格中最小概念的直接父概念;
在查询过程中,概念的内涵对应查询语句,概念的外延对应结果集;在获取用户查询的分面值集后,在所构造的形式概念格中利用叶子概念自底向上匹配包含属性集的最小内涵以找到与所述分面值集对应的目标概念,并返回该目标概念所对应的外延。
与上述方法相对应的,本发明还公开一种基于形式概念格的分面搜索***,包括:
子***一,用于构造形式概念格,所述形式概念格使用伪造属性fake_attribute初始化最小概念Bottom,并在每次更新概念格结构时,将输入对象Obj的属性集添加到Bottom的内涵中,最后再将fake_attribute剔除得到完整且正确的形式概念格;同时,在形式概念格中增加新对象的过程中,在输入属性集Y后,首先获取Y所唯一对应的标准生成器,如果概念格已有概念的内涵与Y相等,则Y不产生新概念,并将该新对象添加到其相等内涵所关联概念的外延中,以及将该新对象添加到此概念所有父概念的外延中;如果概念格不存在已有概念的内涵与Y相等,则创建新概念,并根据标准生成器的直接父概念计算新概念的所有候选直接父概念并筛选出真正的直接父概念,然后更新概念之间的父子关系,同时将该新对象添加到新概念所有父概念的外延中;
其中,所述子***一还用于在所述形式概念格中建立叶子概念的索引,所述叶子概念是指形式概念格中最小概念的直接父概念;
子***二,用于在查询过程中,概念的内涵对应查询语句,概念的外延对应结果集;在获取用户查询的分面值集后,在所构造的形式概念格中利用叶子概念自底向上匹配包含属性集的最小内涵以找到与所述分面值集对应的目标概念,并返回该目标概念所对应的外延。
本发明具有以下有益效果:
一方面,在构造形式概念格的过程中,动态更新最小概念,而避免提前载入完整的形式背景,提高了算法的灵活性。
又一方面,每添加一个对象都会在原有概念格的基础上基于标准生成器进行更新操作以得到新的概念格,实现简单、快捷、可靠,更进一步地,还可以通过对概念的内涵进行哈希值计算作为索引,将所有概念保存在哈希表中,以供在确定标准生成器的过程中,结合所计算的属性集Y的哈希值自底向上搜索标准生成器以有效提高标准生成器的查询速度,避免冗余计算。
再一方面,本发明还将查询条件解析成属性集合,利用叶子概念自底向上匹配包含属性集的最小内涵,可以快速排除不可能的线路,找到目标概念。
此外,本发明于形式概念格的分面搜索技术能够实现在用户进行检索之前预先计算结果集的上下文关系及分面信息,或者在检索的同时快速计算出结果对应的分面信息,缩短了***响应时间,提升了用户体验同时降低了用户浏览成本。
下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1本发明实施例公开的一种形式概念格的示例图;
图2本发明实施例公开的基于形式概念格的分面搜索方法流程图;
图3为本发明实施例公开的一种形式概念格构造过程示意图。
具体实施方式
为便于本领域技术人员对本发明做充分理解,对本发明相关术语、定理及推论详述如下:
定义1.1:设U是对象的集合,M是属性的集合,I是两个集合U和M间的关系,则称三元组为一个形式背景(简称背景)。(u,m)∈I(或写作uIm)表示对象u具有属性m。背景可以用一个矩形的表来表示,它的每一行是一个对象,每一列是一个属性。若u行m列的交叉处是×,则表示对象u具有属性m。如表1给出示例。
及
如果A,B满足f(A)=B,g(B)=A则称二元组(A,B)是一个概念(Concept)。A是概念(A,B)的外延(Extent),B是概念(A,B)的内涵(Intent)。用或表示背景上的所有概念的集合。
(2)必要性:因为A是一个外延,所以二元组(A,f(A))是一个概念,则A=g(f(A))。
这里证明外延部分,对于内涵同理可证。
定理2.1:设(U,M,I)是一个背景,A,A1,A2∈U,B,B1,B2∈M,则有:
一、
(3)f(A)=f(g(f(A)))
(4)f(A1)∩f(A2)=f(A1∪A2)
(6)g(f(A))=g(f(g(f(A))))
二、
(3`)g(B)=g(f(g(B)))
(4`)g(B1)∩g(B2)=g(B1UB2)
(6`)f(g(B))=f(g(f(g(B))))
定理2.2:对任何U的子集A,f(A)一定是内涵,因为形如(g(f(A)),f(A))一定是概念;同样有对任何M的子集B,g(B)一定是外延,因为(g(B),f(g(B))一定是概念。
推论2.2:内涵的交仍是内涵,外延的交仍是外延。
证明:对于任意两个概念(A1,B1),(A2,B2),根据定理2.1(4)、2.1(4`)得B1∩B2=f(A1)∩f(A2)=f(A1∪A2),根据定理2.2对于f(A1∪A2)一定是内涵,同理有A1∩A2=g(B1)∩g(B2)=g(B1∪B2),易证g(B1∪B2)一定是外延。证毕。
定义2.3:若(A1,B1),(A2,B2)是某个背景上的两个概念。而且(由定理2.1(1),易知等价于),则我们称(A1,B1)是(A2,B2)的子概念,(A2,B2)是(A1,B1)的父概念,并记作(A1,B1)≤(A2,B2)。如果且不存在概念(A3,B3)使得则称(A1,B1)是(A2,B2)的直接子概念,(A2,B2)是(A1,B1)的直接父概念,记作(A1,B1)<(A2,B2)。由此得到一个半序集其中表示(U,M,I)的所有概念。
定义2.4:形式概念格中直接子概念是形式概念格中最小概念的概念被称为叶子概念。叶子概念有且仅有最小概念作为子概念。例如图1中,概念(1,abef)和概念(4,abcdf)是叶子概念。
定义2.5:在形式概念格中,某一属性m的支持数等于内涵蕴含该属性的最大概念的外延的集合基数;某一概念的支持数等于其外延的集合基数。如图1中,属性f的支持数为4,概念(1,abef)的支持数为1。
(1)(A,B)是一个新概念当且仅当B不是L中任何概念的内涵。
(3)(A,B)如果在L中已存在,则称之为旧概念。
(4)对于任意一个新概念(X,Y),如果B∩f`(o)=Y≠B,则称概念(A,B)为(X,Y)的一个生成器。最小概念是任意其他概念的生成器。
(5)一般情况下,一个新概念(X,Y)会有多个生成器(至少有一个生成器),其中标准生成器是其他所有生成器的父概念,即为所有生成器的上确界。
推论3.1:对于任意新概念(X,Y)有且仅有一个标准生成器。证明:
(1)如果(X,Y)只有一个生成器,则其为标准生成器。
(2)如果(X,Y)有多个标准生成器,这与定义相违背,不必讨论。
(3)如果不存在生成器,则有反证。假设这些生成器中有两个极大概念(A1,B1),(A2,B2),则有那么根据推论2.2,B1∩B2一定是一个内涵,那么一定存在概念(g(B1∩B2),B1∩B2)也是(X,Y)的一个生成器,因为这与(A1,B1),(A2,B2)是极大概念相矛盾。故该假设不成立。
综上,(X,Y)有且仅有一个标准生成器。
标准生成器是一个很重要的概念,在算法构造概念格的过程中,首先需要找到新概念(X,Y)的标准生成器。实际上标准生成器是当前生成概念格中新概念的直接子概念。那么新概念又是从何而来呢?我们知道在一个已知形式概念格L中添加一个新的对象o可以得到新的形式概念格L`,说明o是导致L更新的因素。对此有如下结论:
推论3.2:根据定义3.1在概念格L加入新对象o,则有:
(1)对象o所对应的属性集f`(o)在新概念格L`中一定是一个内涵。如果f`(o)不是L中任何概念的内涵,则(g`(f`(o)),f`(o))是一个新概念;否则,L`中没有新概念。
(2)如果产生了新概念(A,B),L中所有内涵与B的非空交集也有可能产生新内涵(推论2.2),由此产生更多新概念。
(3)新概念的直接子概念是其标准生成器。
(4)新概念的直接父概念可能是标准生成器的直接父概念,或是新概念与标准生成器的直接父概念内涵交集所对应的概念。
(5)对象o的加入一定会导致改良概念的产生,具体而言(g`(f`(o)),f`(o))的所有父概念都需要将对象o加入其外延。
综上,形式背景由三元组(U,M,I)表示,其中U表示对象的集合,M表示属性集合,I表示对象和属性之间的关系。分面搜索中也有对象和属性的概念,并通过分面对属性进行了划分,这是分面搜索与形式概念分析的共通点。如果用F表示分面的集合,FV表示分面对应的所有分面值,则可以使用二元组(F,FV)表示属性集M。这样就得到了形式背景的新的表达式(U,(F,FV),I)或者四元组(U,F,M,I)。根据形式背景(U,F,M,I)可以得到相应的形式概念格其中表示所有的概念。新增的分面丰富了属性的语义,同时对于形式概念格原有的结构没有影响。分面搜索与形式概念分析在逻辑概念上有良好的契合度,形式概念分析可以对分面搜索的所有操作,包括语义相关的操作提供支持。
根据以上定义、定理及推论,以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例1
本实施例公开一种基于形式概念格的分面搜索方法,如图2所示,包括:
步骤S1、构造形式概念格,该形式概念格使用伪造属性fake_attribute初始化最小概念Bottom,并在每次更新概念格结构时,将输入对象Obj的属性集添加到Bottom的内涵中,最后再将fake_attribute剔除得到完整且正确的形式概念格;同时,在形式概念格中增加新对象的过程中,在输入属性集Y后,首先获取Y所唯一对应的标准生成器,如果概念格已有概念的内涵与Y相等,则Y不产生新概念,并将该新对象添加到其相等内涵所关联概念的外延中,以及将该新对象添加到此概念所有父概念的外延中;如果概念格不存在已有概念的内涵与Y相等,则创建新概念,并根据标准生成器的直接父概念计算新概念的所有候选直接父概念并筛选出真正的直接父概念,然后更新概念之间的父子关系,同时将该新对象添加到新概念所有父概念的外延中。
在该步骤中,形式概念格可采用静态构造模式、动态构造模式或基于构造时间预测的混合式构造模式;其中,混合式构造模式是根据分面值集预测概念构造耗时,如果小于预设的时间阈值,则采用动态模式构造形式概念格,若大于预设的时间阈值,则采用静态模式构造形式概念格。
与上述步骤相对的,现有的最小概念需要获知形式背景(U,M,I)中所有的属性组成的集合M,必须预先载入整个背景,导致闲置的背景数据浪费了有限的内存资源,数据量过于庞大甚至会导致算法无法正常运行。
为了方便表达构造过程,本实施例使用[对象编号,对象属性集]表示对象实体,二元组(外延,内涵)表示概念,简略形式表示集合,如abc={a,b,c},123={1,2,3}。如图3所示,展示了向已经加入对象[1,abef]和对象[2,bcf]的概念格中加入对象[3,cdf]的过程,省略了外延更新的过程。图中实心圆表示预构造的最小概念(伪造属性被省略),虚线圆表示新构造的概念,实线圆表示概念格中旧概念。图3(a)表示未加入对象[3,cdf]的概念格结构。图3(b)表示加入了对象[3,cdf]生成了新概念(3,cdf),其对应的标准生成器为更新内涵后的最小概念此时还未计算新概念的直接父概念。图3(c)表示根据标准生成器的直接父概念(1,abef)计算出概念(3,cdf)的一个候选直接父概念为新概念(123,f),而(123,f)的直接子概念为其标准生成器(12,bf)。图3(d)表示根据的直接父概念(2,bcf)计算出(3,cdf)的另一个候选直接父概念为新概念(23,cf)。这里要说明的是(23,cf)的标准生成器(2,bcf)还有其他直接父概念(12,bf),所以还需要根据(12,cf)为新概念(23,cf)计算其直接父概念,恰好是已存在的(123,f),故这个步骤没有新概念生成。最后在(3,cdf)的候选直接父概念中选出真正的直接父概念(23,cf),更新概念之间父子关系,概念格构造完成。
可选的,本实施例以改进的AddIntent算法实现上述对象添加的伪代码如下表2:
表2:
如表2所示,函数AddIntent有三个参数:属性集合Y,Y对应的一个生成器canonical_generator,形式概念格L。在输入属性集Y后,算法第1行至第4行首先获取Y所对应的标准生成器,如果概念格L已有概念的内涵等于Y,则Y不会产生新概念,直接返回找到的概念,算法结束;否则,算法第5至第14行进一步根据标准生成器的直接父概念计算新概念的所有候选直接父概念;第15行至第16行生成一个新概念;第17行至第30行排除候选直接父概念中不符合要求的概念,然后删除可能存在的旧关联,设置新概念与直接父概念的关联;第31行至第32行更新新概念与标准生成器之间的父子关系并返回新概念,算法结束。其中,调用的函数GetCanonicalGenerator用来获取Y相应的标准生成器。
优选地,在该步骤S1中,通过对概念的内涵进行哈希值计算作为索引,将所有概念保存在哈希表中;在确定标准生成器的过程中,结合所计算的属性集Y的哈希值自底向上搜索标准生成器;藉此,以有效提高标准生成器的查询速度,避免冗余计算。作为一种变劣的实现:也可以通过自底向上的方式将属性集Y与概念的内涵逐一比较,直到找到某一概念的所有父概念都不是属性Y对应概念的生成器,则该概念为标准生成器。
步骤S2、在形式概念格中建立叶子概念的索引,叶子概念是指形式概念格中最小概念的直接父概念。
步骤S3、在查询过程中,概念的内涵对应查询语句,概念的外延对应结果集;在获取用户查询的分面值集后,在所构造的形式概念格中利用叶子概念自底向上匹配包含属性集的最小内涵以找到与分面值集对应的目标概念,并返回该目标概念所对应的外延。
在该步骤中,分面搜索通过分面的方式,对事物进行归纳检索,常用于专业领域的垂直搜索引擎当中。分面搜索的操作规范没有规定,典型的分面搜索操作分为两个部分,关键词搜索和交互式细化搜索。关键词搜索是传统的信息检索技术,分面搜索技术在此基础之上让用户可以进行交互式的探索,对现有的关键词搜索结果进行进一步的细化分解,提高了搜索结果的准确率,剔除了大多数无关结果集,从而可以获得良好的用户体验。
分面搜索具体而言有以下几个步骤:
(1)在通过某一次关键词搜索后得到关于关键词的结果集,并计算出结果集的分面信息,同时展示出来。
(2)用户根据展示的结果集及分面选择感兴趣的分面值进一步细化结果。
(3)重新搜索相关结果集。
这样可以交互式循环查询直到用户获得满意的结果或者结果集为空为止。
进一步地,本实施例还包括:
在找到目标概念后,根据形式概念格的上下文计算与所述目标概念对应的分面值支持数,该分面值支持数是指分面值对应的对象的个数。比如:针对NBA球员可以有如下分面:姓名、年龄、身高、体重、球员类型及所属球队,每一个分面都包含许多属性,如分面——“球员类型”包括中锋、大前锋、小前锋等等,假设NBA联盟中有中锋球员150名,那么可以用(‘球员类型’,‘中锋’,150)表示。
进一步地,本实施例还包括:
记录用户的查询记录,返回多个历史查询结果的最大公共父概念和最小公共子概念作为查询推荐;或者根据概念相似度进行查询推荐。其中:获取最大公共父概念的分两个步骤:
(1)、求所有历史查询对应概念的内涵的交集;
(2)、使用(1)的结果进行查询,匹配的概念即为最大公共父概念。
同理,获取最大公共子概念的方法包括:
(1)、求所有历史查询对应概念的内涵的并集;
(2)、使用(1)的结果进行查询,匹配的概念即为最小公共子概念。
可选的,本实施例比较概念相似性的定义如下。
设定当前概念为C,Jaccard相似度为k,泛化操作为当前概念搜索相似度不小于k的最大父概念,细化操作为当前概念搜索相似度不小于k的最小子概念。对于泛化操作,算法从C出发以广度优先遍历的方式访问其父概念,直到某一父概念的所有父概念与C的相似度均小于k,该概念为泛化目标概念;对于细化操作,算法从C出发以广度优先遍历的方式访问其子概念,直到某一子概念的所有子概念与C的相似度均小于k,该概念为细化目标概念。
综上,本实施例公开的基于形式概念格的分面搜索方法,具有以下有益效果:
一方面,在构造形式概念格的过程中,动态更新最小概念,而避免提前载入完整的形式背景,提高了算法的灵活性。
又一方面,每添加一个对象都会在原有概念格的基础上基于标准生成器进行更新操作以得到新的概念格,实现简单、快捷、可靠,更进一步地,还可以通过对概念的内涵进行哈希值计算作为索引,将所有概念保存在哈希表中,以供在确定标准生成器的过程中,结合所计算的属性集Y的哈希值自底向上搜索标准生成器以有效提高标准生成器的查询速度,避免冗余计算。
再一方面,本发明还将查询条件解析成属性集合,利用叶子概念自底向上匹配包含属性集的最小内涵,可以快速排除不可能的线路,找到目标概念。
此外,本发明于形式概念格的分面搜索技术能够实现在用户进行检索之前预先计算结果集的上下文关系及分面信息,或者在检索的同时快速计算出结果对应的分面信息,缩短了***响应时间,提升了用户体验同时降低了用户浏览成本。
实施例2
与上述方法实施例相对应的,本实施例公开一种基于形式概念格的分面搜索***,至少包括下述子***一及子***二,优选地,还可以进一步包括后续的子***三和/或子***四。
子***一,用于构造形式概念格,所述形式概念格使用伪造属性fake_attribute初始化最小概念Bottom,并在每次更新概念格结构时,将输入对象Obj的属性集添加到Bottom的内涵中,最后再将fake_attribute剔除得到完整且正确的形式概念格;同时,在形式概念格中增加新对象的过程中,在输入属性集Y后,首先获取Y所唯一对应的标准生成器,如果概念格已有概念的内涵与Y相等,则Y不产生新概念,并将该新对象添加到其相等内涵所关联概念的外延中,以及将该新对象添加到此概念所有父概念的外延中;如果概念格不存在已有概念的内涵与Y相等,则创建新概念,并根据标准生成器的直接父概念计算新概念的所有候选直接父概念并筛选出真正的直接父概念,然后更新概念之间的父子关系,同时将该新对象添加到新概念所有父概念的外延中。
其中,上述子***一还用于在所述形式概念格中建立叶子概念的索引,所述叶子概念是指形式概念格中最小概念的直接父概念。进一步地,本实施例的子***一还用于:通过对概念的内涵进行哈希值计算作为索引,将所有概念保存在哈希表中;在确定标准生成器的过程中,结合所计算的属性集Y的哈希值自底向上搜索标准生成器。
子***二,用于在查询过程中,概念的内涵对应查询语句,概念的外延对应结果集;在获取用户查询的分面值集后,在所构造的形式概念格中利用叶子概念自底向上匹配包含属性集的最小内涵以找到与所述分面值集对应的目标概念,并返回该目标概念所对应的外延。
子***三,用于在找到目标概念后,根据形式概念格的上下文计算与所述目标概念对应的分面值支持数,所述分面值支持数是指分面值对应的对象的个数。
子***四,用于记录用户的查询记录,返回多个历史查询结果的最大公共父概念和最小公共子概念作为查询推荐;或者根据概念相似度进行查询推荐。
本***中,形式概念格采用静态构造模式、动态构造模式或基于构造时间预测的混合式构造模式;所述混合式构造模式根据分面值集预测概念构造耗时,如果小于预设的时间阈值,则采用动态模式构造形式概念格,若大于预设的时间阈值,则采用静态模式构造形式概念格。
同理,本实施例公开的基于形式概念格的分面搜索***,具有以下有益效果:
一方面,在构造形式概念格的过程中,动态更新最小概念,而避免提前载入完整的形式背景,提高了算法的灵活性。
又一方面,每添加一个对象都会在原有概念格的基础上基于标准生成器进行更新操作以得到新的概念格,实现简单、快捷、可靠,更进一步地,还可以通过对概念的内涵进行哈希值计算作为索引,将所有概念保存在哈希表中,以供在确定标准生成器的过程中,结合所计算的属性集Y的哈希值自底向上搜索标准生成器以有效提高标准生成器的查询速度,避免冗余计算。
再一方面,本发明还将查询条件解析成属性集合,利用叶子概念自底向上匹配包含属性集的最小内涵,可以快速排除不可能的线路,找到目标概念。
此外,本发明于形式概念格的分面搜索技术能够实现在用户进行检索之前预先计算结果集的上下文关系及分面信息,或者在检索的同时快速计算出结果对应的分面信息,缩短了***响应时间,提升了用户体验同时降低了用户浏览成本。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于形式概念格的分面搜索方法,其特征在于,包括:
构造形式概念格,所述形式概念格使用伪造属性fake_attribute初始化最小概念Bottom,并在每次更新概念格结构时,将输入对象Obj的属性集添加到Bottom的内涵中,最后再将fake_attribute剔除得到完整且正确的形式概念格;同时,在形式概念格中增加新对象的过程中,在输入属性集Y后,首先获取Y所唯一对应的标准生成器,如果概念格已有概念的内涵与Y相等,则Y不产生新概念,并将该新对象添加到其相等内涵所关联概念的外延中,以及将该新对象添加到所述已有概念所有父概念的外延中;如果概念格不存在已有概念的内涵与Y相等,则创建新概念,并根据标准生成器的直接父概念计算新概念的所有候选直接父概念并筛选出真正的直接父概念,然后更新概念之间的父子关系,同时将该新对象添加到新概念所有父概念的外延中;
在所述形式概念格中建立叶子概念的索引,所述叶子概念是指形式概念格中最小概念的直接父概念;
在查询过程中,概念的内涵对应查询语句,概念的外延对应结果集;在获取用户查询的分面值集后,在所构造的形式概念格中利用叶子概念自底向上匹配包含属性集的最小内涵以找到与所述分面值集对应的目标概念,并返回该目标概念所对应的外延。
2.根据权利要求1所述的基于形式概念格的分面搜索方法,其特征在于,还包括:
通过对概念的内涵进行哈希值计算作为索引,将所有概念保存在哈希表中;在确定标准生成器的过程中,结合所计算的属性集Y的哈希值自底向上搜索标准生成器。
3.根据权利要求1或2所述的基于形式概念格的分面搜索方法,其特征在于,所述形式概念格采用静态构造模式、动态构造模式或基于构造时间预测的混合式构造模式;所述混合式构造模式根据分面值集预测概念构造耗时,如果小于预设的时间阈值,则采用动态模式构造形式概念格,若大于预设的时间阈值,则采用静态模式构造形式概念格。
4.根据权利要求3所述的基于形式概念格的分面搜索方法,其特征在于,还包括:
在找到目标概念后,根据形式概念格的上下文计算与所述目标概念对应的分面值支持数,所述分面值支持数是指分面值对应的对象的个数。
5.根据权利要求4所述的基于形式概念格的分面搜索方法,其特征在于,还包括:
记录用户的查询记录,返回多个历史查询结果的最大公共父概念和最小公共子概念作为查询推荐;或者根据概念相似度进行查询推荐。
6.一种基于形式概念格的分面搜索***,其特征在于,包括:
子***一,用于构造形式概念格,所述形式概念格使用伪造属性fake_attribute初始化最小概念Bottom,并在每次更新概念格结构时,将输入对象Obj的属性集添加到Bottom的内涵中,最后再将fake_attribute剔除得到完整且正确的形式概念格;同时,在形式概念格中增加新对象的过程中,在输入属性集Y后,首先获取Y所唯一对应的标准生成器,如果概念格已有概念的内涵与Y相等,则Y不产生新概念,并将该新对象添加到其相等内涵所关联概念的外延中,以及将该新对象添加到所述已有概念所有父概念的外延中;如果概念格不存在已有概念的内涵与Y相等,则创建新概念,并根据标准生成器的直接父概念计算新概念的所有候选直接父概念并筛选出真正的直接父概念,然后更新概念之间的父子关系,同时将该新对象添加到新概念所有父概念的外延中;
其中,所述子***一还用于在所述形式概念格中建立叶子概念的索引,所述叶子概念是指形式概念格中最小概念的直接父概念;
子***二,用于在查询过程中,概念的内涵对应查询语句,概念的外延对应结果集;在获取用户查询的分面值集后,在所构造的形式概念格中利用叶子概念自底向上匹配包含属性集的最小内涵以找到与所述分面值集对应的目标概念,并返回该目标概念所对应的外延。
7.根据权利要求6所述的基于形式概念格的分面搜索***,其特征在于,所述子***一还用于:通过对概念的内涵进行哈希值计算作为索引,将所有概念保存在哈希表中;在确定标准生成器的过程中,结合所计算的属性集Y的哈希值自底向上搜索标准生成器。
8.根据权利要求6或7所述的基于形式概念格的分面搜索***,其特征在于,所述形式概念格采用静态构造模式、动态构造模式或基于构造时间预测的混合式构造模式;所述混合式构造模式根据分面值集预测概念构造耗时,如果小于预设的时间阈值,则采用动态模式构造形式概念格,若大于预设的时间阈值,则采用静态模式构造形式概念格。
9.根据权利要求8所述的基于形式概念格的分面搜索***,其特征在于,还包括:
子***三,用于在找到目标概念后,根据形式概念格的上下文计算与所述目标概念对应的分面值支持数,所述分面值支持数是指分面值对应的对象的个数。
10.根据权利要求9所述的基于形式概念格的分面搜索***,其特征在于,还包括:
子***四,用于记录用户的查询记录,返回多个历史查询结果的最大公共父概念和最小公共子概念作为查询推荐;或者根据概念相似度进行查询推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710483747.0A CN107391584B (zh) | 2017-06-22 | 2017-06-22 | 基于形式概念格的分面搜索方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710483747.0A CN107391584B (zh) | 2017-06-22 | 2017-06-22 | 基于形式概念格的分面搜索方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107391584A CN107391584A (zh) | 2017-11-24 |
CN107391584B true CN107391584B (zh) | 2020-12-11 |
Family
ID=60332700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710483747.0A Active CN107391584B (zh) | 2017-06-22 | 2017-06-22 | 基于形式概念格的分面搜索方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107391584B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094456B (zh) * | 2021-04-09 | 2022-09-13 | 郑州大学 | 一种机器人行走路径生成方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101504746A (zh) * | 2008-02-04 | 2009-08-12 | 株式会社普罗菲德 | 信息处理装置、信息处理方法及程序 |
CN101595476A (zh) * | 2006-08-31 | 2009-12-02 | 启创互联公司 | 用于客户定义信息架构的***、方法和计算机程序 |
CN102495844A (zh) * | 2011-11-15 | 2012-06-13 | 河海大学 | 用于构建用户模型的改进的GuTao法 |
CN103782250A (zh) * | 2011-05-26 | 2014-05-07 | 电气银普股份有限公司 | 实现对其他设备的网络控制与传感的模块化控制*** |
CN104036046A (zh) * | 2014-07-02 | 2014-09-10 | 重庆大学 | 基于属性共现模式的Deep Web查询接口模式匹配方法 |
JP5725623B2 (ja) * | 2012-05-08 | 2015-05-27 | 日本電信電話株式会社 | プログラム分析装置及び方法及びプログラム |
CN105474166A (zh) * | 2013-03-15 | 2016-04-06 | 先进元素科技公司 | 用于有目的计算的方法和*** |
CN106227805A (zh) * | 2016-07-17 | 2016-12-14 | 河南理工大学 | 一种基于形式概念分析理论的术语定义方法及*** |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130198599A1 (en) * | 2012-01-30 | 2013-08-01 | Formcept Technologies and Solutions Pvt Ltd | System and method for analyzing a resume and displaying a summary of the resume |
IN2013CH05503A (zh) * | 2013-11-29 | 2015-06-12 | Kalyanaraman Raghava |
-
2017
- 2017-06-22 CN CN201710483747.0A patent/CN107391584B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101595476A (zh) * | 2006-08-31 | 2009-12-02 | 启创互联公司 | 用于客户定义信息架构的***、方法和计算机程序 |
CN101504746A (zh) * | 2008-02-04 | 2009-08-12 | 株式会社普罗菲德 | 信息处理装置、信息处理方法及程序 |
CN103782250A (zh) * | 2011-05-26 | 2014-05-07 | 电气银普股份有限公司 | 实现对其他设备的网络控制与传感的模块化控制*** |
CN102495844A (zh) * | 2011-11-15 | 2012-06-13 | 河海大学 | 用于构建用户模型的改进的GuTao法 |
JP5725623B2 (ja) * | 2012-05-08 | 2015-05-27 | 日本電信電話株式会社 | プログラム分析装置及び方法及びプログラム |
CN105474166A (zh) * | 2013-03-15 | 2016-04-06 | 先进元素科技公司 | 用于有目的计算的方法和*** |
CN104036046A (zh) * | 2014-07-02 | 2014-09-10 | 重庆大学 | 基于属性共现模式的Deep Web查询接口模式匹配方法 |
CN106227805A (zh) * | 2016-07-17 | 2016-12-14 | 河南理工大学 | 一种基于形式概念分析理论的术语定义方法及*** |
Non-Patent Citations (2)
Title |
---|
Ligeng Zou等.An efficient algorithm for increasing the granularity levels of attributes in formal concept analysis.《Expert Systems With Applications》.2016,(第46期), * |
近似概念格及其增量构造算法研究;林春杰等;《计算机应用研究》;20120131;第29卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107391584A (zh) | 2017-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106484875B (zh) | 基于molap的数据处理方法及装置 | |
US7143107B1 (en) | Reporting engine for data warehouse | |
US7493319B1 (en) | Computer automated discovery of interestingness in faceted search | |
US20190129898A1 (en) | Progressive spatial searching using augmented structures | |
KR101793222B1 (ko) | 어플리케이션 검색들을 가능하게 하기 위해 사용되는 검색 인덱스의 업데이트 | |
US7827181B2 (en) | Click distance determination | |
US9576011B2 (en) | Indexing hierarchical data | |
US8190595B2 (en) | Flexible query hints in a relational database | |
US7567962B2 (en) | Generating a labeled hierarchy of mutually disjoint categories from a set of query results | |
US20050091188A1 (en) | Indexing XML datatype content system and method | |
US20160103858A1 (en) | Data management system comprising a trie data structure, integrated circuits and methods therefor | |
Silva-Coira et al. | Efficient processing of raster and vector data | |
JP2007317189A (ja) | 3要素モデルに基づく検索情報加工方法 | |
Park et al. | Efficient processing of keyword queries over graph databases for finding effective answers | |
Rodríguez-Arauz et al. | Design of a multimedia data management system that uses horizontal fragmentation to optimize content-based queries | |
CN107391584B (zh) | 基于形式概念格的分面搜索方法及*** | |
Gao et al. | Efficient algorithms for finding the most desirable skyline objects | |
García | A Keyword-based Query Processing Method for Datasets with Schemas | |
Kargar et al. | Efficient top-k keyword search in graphs with polynomial delay | |
Drosou et al. | ReDRIVE: result-driven database exploration through recommendations | |
Medina et al. | Evaluation of indexing strategies for possibilistic queries based on indexing techniques available in traditional RDBMS | |
Brucato et al. | A scalable execution engine for package queries | |
Calazans Campelo et al. | Geographic scope modeling for web documents | |
Cappellari et al. | Path-oriented keyword search over graph-modeled Web data | |
WO2014177181A1 (en) | A method of processing a ratings dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |