CN107391584B - 基于形式概念格的分面搜索方法及*** - Google Patents

基于形式概念格的分面搜索方法及*** Download PDF

Info

Publication number
CN107391584B
CN107391584B CN201710483747.0A CN201710483747A CN107391584B CN 107391584 B CN107391584 B CN 107391584B CN 201710483747 A CN201710483747 A CN 201710483747A CN 107391584 B CN107391584 B CN 107391584B
Authority
CN
China
Prior art keywords
concept
lattice
formal
concepts
connotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710483747.0A
Other languages
English (en)
Other versions
CN107391584A (zh
Inventor
杨柳
蒋实知
胡志刚
龙军
白非非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201710483747.0A priority Critical patent/CN107391584B/zh
Publication of CN107391584A publication Critical patent/CN107391584A/zh
Application granted granted Critical
Publication of CN107391584B publication Critical patent/CN107391584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机搜索技术领域,公开一种基于形式概念格的分面搜索方法及***,以基于形式概念分析理论针对原始信息预构造形式概念格,并在形式概念格的基础上建立索引,从而建立分面搜索***。本发明方法包括:构造形式概念格,在构造过程中,形式概念格使用伪造属性fake_attribute初始化最小概念Bottom;在形式概念格中建立叶子概念的索引;在查询过程中,概念的内涵对应查询语句,概念的外延对应结果集;在获取用户查询的分面值集后,在所构造的形式概念格中利用叶子概念自底向上匹配包含属性集的最小内涵以找到与分面值集对应的目标概念,并返回该目标概念所对应的外延。

Description

基于形式概念格的分面搜索方法及***
技术领域
本发明涉及计算机搜索技术领域,尤其涉及一种基于形式概念格的分面搜索方法及***。
背景技术
分面搜索(Faceted Search)是一种在关键词搜索的基础上,根据当前搜索结果提供上下文相关的分面信息(Facet Information)的信息检索技术。用户可以脱离***设计人员既定的类别树,从各种各样的角度自定义感兴趣的类别。在用户指定某个分面值(Facet Value)后,***根据该分面值对应的结果集中动态获取更细化的信息,新的细化结果能够从多个分面对结果集进行划分,帮助用户进一步了解他们感兴趣的数据信息。在整个搜索过程中,用户可以灵活地切换分面值,从而快速获取相关内容。
形式概念分析(Formal Concept Analysis)理论是一种针对结构化数据进行知识挖掘与分析的方法,被广泛应用于知识发现、软件工程等领域。形式概念分析的核心数据结构即为形式概念格,概念格通过哈斯图(Hasse Diagram)来表示概念与概念之间的层次结构。
目前流行的分面搜索技术主要建立在传统的关系型数据库之上,要快速检索这些内容并提供相应的分面信息是一个亟待解决的难题。
发明内容
本发明目的在于公开一种基于形式概念格的分面搜索方法及***,以基于形式概念分析理论针对原始信息预构造形式概念格,并在形式概念格的基础上建立索引,从而建立分面搜索***。
为实现上述目的,本发明公开了一种基于形式概念格的分面搜索方法,包括:
构造形式概念格,所述形式概念格使用伪造属性fake_attribute初始化最小概念Bottom,并在每次更新概念格结构时,将输入对象Obj的属性集添加到Bottom的内涵中,最后再将fake_attribute剔除得到完整且正确的形式概念格;同时,在形式概念格中增加新对象的过程中,在输入属性集Y后,首先获取Y所唯一对应的标准生成器,如果概念格已有概念的内涵与Y相等,则Y不产生新概念,并将该新对象添加到其相等内涵所关联概念的外延中,以及将该新对象添加到此概念所有父概念的外延中;如果概念格不存在已有概念的内涵与Y相等,则创建新概念,并根据标准生成器的直接父概念计算新概念的所有候选直接父概念并筛选出真正的直接父概念,然后更新概念之间的父子关系,同时将该新对象添加到新概念所有父概念的外延中;
在所述形式概念格中建立叶子概念的索引,所述叶子概念是指形式概念格中最小概念的直接父概念;
在查询过程中,概念的内涵对应查询语句,概念的外延对应结果集;在获取用户查询的分面值集后,在所构造的形式概念格中利用叶子概念自底向上匹配包含属性集的最小内涵以找到与所述分面值集对应的目标概念,并返回该目标概念所对应的外延。
与上述方法相对应的,本发明还公开一种基于形式概念格的分面搜索***,包括:
子***一,用于构造形式概念格,所述形式概念格使用伪造属性fake_attribute初始化最小概念Bottom,并在每次更新概念格结构时,将输入对象Obj的属性集添加到Bottom的内涵中,最后再将fake_attribute剔除得到完整且正确的形式概念格;同时,在形式概念格中增加新对象的过程中,在输入属性集Y后,首先获取Y所唯一对应的标准生成器,如果概念格已有概念的内涵与Y相等,则Y不产生新概念,并将该新对象添加到其相等内涵所关联概念的外延中,以及将该新对象添加到此概念所有父概念的外延中;如果概念格不存在已有概念的内涵与Y相等,则创建新概念,并根据标准生成器的直接父概念计算新概念的所有候选直接父概念并筛选出真正的直接父概念,然后更新概念之间的父子关系,同时将该新对象添加到新概念所有父概念的外延中;
其中,所述子***一还用于在所述形式概念格中建立叶子概念的索引,所述叶子概念是指形式概念格中最小概念的直接父概念;
子***二,用于在查询过程中,概念的内涵对应查询语句,概念的外延对应结果集;在获取用户查询的分面值集后,在所构造的形式概念格中利用叶子概念自底向上匹配包含属性集的最小内涵以找到与所述分面值集对应的目标概念,并返回该目标概念所对应的外延。
本发明具有以下有益效果:
一方面,在构造形式概念格的过程中,动态更新最小概念,而避免提前载入完整的形式背景,提高了算法的灵活性。
又一方面,每添加一个对象都会在原有概念格的基础上基于标准生成器进行更新操作以得到新的概念格,实现简单、快捷、可靠,更进一步地,还可以通过对概念的内涵进行哈希值计算作为索引,将所有概念保存在哈希表中,以供在确定标准生成器的过程中,结合所计算的属性集Y的哈希值自底向上搜索标准生成器以有效提高标准生成器的查询速度,避免冗余计算。
再一方面,本发明还将查询条件解析成属性集合,利用叶子概念自底向上匹配包含属性集的最小内涵,可以快速排除不可能的线路,找到目标概念。
此外,本发明于形式概念格的分面搜索技术能够实现在用户进行检索之前预先计算结果集的上下文关系及分面信息,或者在检索的同时快速计算出结果对应的分面信息,缩短了***响应时间,提升了用户体验同时降低了用户浏览成本。
下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1本发明实施例公开的一种形式概念格的示例图;
图2本发明实施例公开的基于形式概念格的分面搜索方法流程图;
图3为本发明实施例公开的一种形式概念格构造过程示意图。
具体实施方式
为便于本领域技术人员对本发明做充分理解,对本发明相关术语、定理及推论详述如下:
定义1.1:设U是对象的集合,M是属性的集合,I是两个集合U和M间的关系,则称三元组
Figure BDA0001329181920000031
为一个形式背景(简称背景)。(u,m)∈I(或写作uIm)表示对象u具有属性m。背景可以用一个矩形的表来表示,它的每一行是一个对象,每一列是一个属性。若u行m列的交叉处是×,则表示对象u具有属性m。如表1给出示例。
表1示例背景
Figure BDA0001329181920000032
Figure BDA0001329181920000033
定义1.2:设
Figure BDA0001329181920000034
是一个背景,若
Figure BDA0001329181920000035
Figure BDA0001329181920000036
Figure BDA0001329181920000037
如果A,B满足f(A)=B,g(B)=A则称二元组(A,B)是一个概念(Concept)。A是概念(A,B)的外延(Extent),B是概念(A,B)的内涵(Intent)。用
Figure BDA0001329181920000038
Figure BDA0001329181920000039
表示背景
Figure BDA00013291819200000310
上的所有概念的集合。
推论1.1:对于任意
Figure BDA0001329181920000041
A是一个外延当且仅当A=g(f(A));对于任意
Figure BDA0001329181920000042
B是一个内涵当且仅当B=f(g(B))。
证明:(1)充分性:对于任意
Figure BDA0001329181920000043
存在二元组(A,f(A)),明显有f(A)=f(A),又因为g(f(A))=A,所以二元组(A,f(A))是一个概念(定义2.2),则A是一个外延。
(2)必要性:因为A是一个外延,所以二元组(A,f(A))是一个概念,则A=g(f(A))。
这里证明外延部分,对于内涵同理可证。
定理2.1:设(U,M,I)是一个背景,A,A1,A2∈U,B,B1,B2∈M,则有:
一、
(1)
Figure BDA0001329181920000044
(2)
Figure BDA0001329181920000045
(3)f(A)=f(g(f(A)))
(4)f(A1)∩f(A2)=f(A1∪A2)
(5)
Figure BDA0001329181920000046
(6)g(f(A))=g(f(g(f(A))))
(7)
Figure BDA0001329181920000047
二、
(1`)
Figure BDA0001329181920000048
(2`)
Figure BDA0001329181920000049
(3`)g(B)=g(f(g(B)))
(4`)g(B1)∩g(B2)=g(B1UB2)
(5`)
Figure BDA00013291819200000410
(6`)f(g(B))=f(g(f(g(B))))
定理2.2:对任何U的子集A,f(A)一定是内涵,因为形如(g(f(A)),f(A))一定是概念;同样有对任何M的子集B,g(B)一定是外延,因为(g(B),f(g(B))一定是概念。
推论2.2:内涵的交仍是内涵,外延的交仍是外延。
证明:对于任意两个概念(A1,B1),(A2,B2),根据定理2.1(4)、2.1(4`)得B1∩B2=f(A1)∩f(A2)=f(A1∪A2),根据定理2.2对于
Figure BDA00013291819200000411
f(A1∪A2)一定是内涵,同理有A1∩A2=g(B1)∩g(B2)=g(B1∪B2),易证g(B1∪B2)一定是外延。证毕。
定义2.3:若(A1,B1),(A2,B2)是某个背景
Figure BDA0001329181920000051
上的两个概念。而且
Figure BDA0001329181920000052
(由定理2.1(1),易知等价于
Figure BDA0001329181920000053
),则我们称(A1,B1)是(A2,B2)的子概念,(A2,B2)是(A1,B1)的父概念,并记作(A1,B1)≤(A2,B2)。如果
Figure BDA0001329181920000054
且不存在概念(A3,B3)使得
Figure BDA0001329181920000055
则称(A1,B1)是(A2,B2)的直接子概念,(A2,B2)是(A1,B1)的直接父概念,记作(A1,B1)<(A2,B2)。由此得到一个半序集
Figure BDA0001329181920000056
其中
Figure BDA0001329181920000057
表示(U,M,I)的所有概念。
上述定义2.3中得到的半序集
Figure BDA0001329181920000058
被称为形式概念格。其中令
Figure BDA0001329181920000059
Figure BDA00013291819200000510
则称图(V,E)为形式概念格的哈斯图。根据形式背景示例表1可以画出其对应形式概念格如图1。
定义2.4:形式概念格中直接子概念是形式概念格中最小概念的概念被称为叶子概念。叶子概念有且仅有最小概念作为子概念。例如图1中,概念(1,abef)和概念(4,abcdf)是叶子概念。
定义2.5:在形式概念格中,某一属性m的支持数等于内涵蕴含该属性的最大概念的外延的集合基数;某一概念的支持数等于其外延的集合基数。如图1中,属性f的支持数为4,概念(1,abef)的支持数为1。
定义3.1:设L是对应形式背景
Figure BDA00013291819200000511
形式概念格,在形式背景
Figure BDA00013291819200000512
中加入一个新对象o后得到新的形式背景
Figure BDA00013291819200000513
所对应的形式概念格为L,其中用f`(o)表示o所拥有的属性。令(A,B)为L`中任意一个概念,则
(1)(A,B)是一个新概念当且仅当B不是L中任何概念的内涵。
(2)(A,B)是一个改良(Modified)概念当且仅当
Figure BDA00013291819200000514
(3)(A,B)如果在L中已存在,则称之为旧概念。
(4)对于任意一个新概念(X,Y),如果B∩f`(o)=Y≠B,则称概念(A,B)为(X,Y)的一个生成器。最小概念是任意其他概念的生成器。
(5)一般情况下,一个新概念(X,Y)会有多个生成器(至少有一个生成器),其中标准生成器是其他所有生成器的父概念,即为所有生成器的上确界。
推论3.1:对于任意新概念(X,Y)有且仅有一个标准生成器。证明:
(1)如果(X,Y)只有一个生成器,则其为标准生成器。
(2)如果(X,Y)有多个标准生成器,这与定义相违背,不必讨论。
(3)如果不存在生成器,则有反证。假设这些生成器中有两个极大概念(A1,B1),(A2,B2),则有
Figure BDA00013291819200000515
那么
Figure BDA00013291819200000516
根据推论2.2,B1∩B2一定是一个内涵,那么一定存在概念(g(B1∩B2),B1∩B2)也是(X,Y)的一个生成器,因为
Figure BDA0001329181920000061
这与(A1,B1),(A2,B2)是极大概念相矛盾。故该假设不成立。
综上,(X,Y)有且仅有一个标准生成器。
标准生成器是一个很重要的概念,在算法构造概念格的过程中,首先需要找到新概念(X,Y)的标准生成器。实际上标准生成器是当前生成概念格中新概念的直接子概念。那么新概念又是从何而来呢?我们知道在一个已知形式概念格L中添加一个新的对象o可以得到新的形式概念格L`,说明o是导致L更新的因素。对此有如下结论:
推论3.2:根据定义3.1在概念格L加入新对象o,则有:
(1)对象o所对应的属性集f`(o)在新概念格L`中一定是一个内涵。如果f`(o)不是L中任何概念的内涵,则(g`(f`(o)),f`(o))是一个新概念;否则,L`中没有新概念。
(2)如果产生了新概念(A,B),L中所有内涵与B的非空交集也有可能产生新内涵(推论2.2),由此产生更多新概念。
(3)新概念的直接子概念是其标准生成器。
(4)新概念的直接父概念可能是标准生成器的直接父概念,或是新概念与标准生成器的直接父概念内涵交集所对应的概念。
(5)对象o的加入一定会导致改良概念的产生,具体而言(g`(f`(o)),f`(o))的所有父概念都需要将对象o加入其外延。
综上,形式背景由三元组(U,M,I)表示,其中U表示对象的集合,M表示属性集合,I表示对象和属性之间的关系。分面搜索中也有对象和属性的概念,并通过分面对属性进行了划分,这是分面搜索与形式概念分析的共通点。如果用F表示分面的集合,FV表示分面对应的所有分面值,则可以使用二元组(F,FV)表示属性集M。这样就得到了形式背景的新的表达式(U,(F,FV),I)或者四元组(U,F,M,I)。根据形式背景(U,F,M,I)可以得到相应的形式概念格
Figure BDA0001329181920000062
其中
Figure BDA0001329181920000063
表示所有的概念。新增的分面丰富了属性的语义,同时对于形式概念格原有的结构没有影响。分面搜索与形式概念分析在逻辑概念上有良好的契合度,形式概念分析可以对分面搜索的所有操作,包括语义相关的操作提供支持。
根据以上定义、定理及推论,以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例1
本实施例公开一种基于形式概念格的分面搜索方法,如图2所示,包括:
步骤S1、构造形式概念格,该形式概念格使用伪造属性fake_attribute初始化最小概念Bottom,并在每次更新概念格结构时,将输入对象Obj的属性集添加到Bottom的内涵中,最后再将fake_attribute剔除得到完整且正确的形式概念格;同时,在形式概念格中增加新对象的过程中,在输入属性集Y后,首先获取Y所唯一对应的标准生成器,如果概念格已有概念的内涵与Y相等,则Y不产生新概念,并将该新对象添加到其相等内涵所关联概念的外延中,以及将该新对象添加到此概念所有父概念的外延中;如果概念格不存在已有概念的内涵与Y相等,则创建新概念,并根据标准生成器的直接父概念计算新概念的所有候选直接父概念并筛选出真正的直接父概念,然后更新概念之间的父子关系,同时将该新对象添加到新概念所有父概念的外延中。
在该步骤中,形式概念格可采用静态构造模式、动态构造模式或基于构造时间预测的混合式构造模式;其中,混合式构造模式是根据分面值集预测概念构造耗时,如果小于预设的时间阈值,则采用动态模式构造形式概念格,若大于预设的时间阈值,则采用静态模式构造形式概念格。
与上述步骤相对的,现有的最小概念需要获知形式背景(U,M,I)中所有的属性组成的集合M,必须预先载入整个背景,导致闲置的背景数据浪费了有限的内存资源,数据量过于庞大甚至会导致算法无法正常运行。
为了方便表达构造过程,本实施例使用[对象编号,对象属性集]表示对象实体,二元组(外延,内涵)表示概念,简略形式表示集合,如abc={a,b,c},123={1,2,3}。如图3所示,展示了向已经加入对象[1,abef]和对象[2,bcf]的概念格中加入对象[3,cdf]的过程,省略了外延更新的过程。图中实心圆表示预构造的最小概念(伪造属性被省略),虚线圆表示新构造的概念,实线圆表示概念格中旧概念。图3(a)表示未加入对象[3,cdf]的概念格结构。图3(b)表示加入了对象[3,cdf]生成了新概念(3,cdf),其对应的标准生成器为更新内涵后的最小概念
Figure BDA0001329181920000071
此时还未计算新概念的直接父概念。图3(c)表示根据标准生成器的直接父概念(1,abef)计算出概念(3,cdf)的一个候选直接父概念为新概念(123,f),而(123,f)的直接子概念为其标准生成器(12,bf)。图3(d)表示根据
Figure BDA0001329181920000072
的直接父概念(2,bcf)计算出(3,cdf)的另一个候选直接父概念为新概念(23,cf)。这里要说明的是(23,cf)的标准生成器(2,bcf)还有其他直接父概念(12,bf),所以还需要根据(12,cf)为新概念(23,cf)计算其直接父概念,恰好是已存在的(123,f),故这个步骤没有新概念生成。最后在(3,cdf)的候选直接父概念中选出真正的直接父概念(23,cf),更新概念之间父子关系,概念格构造完成。
可选的,本实施例以改进的AddIntent算法实现上述对象添加的伪代码如下表2:
表2:
Figure BDA0001329181920000081
如表2所示,函数AddIntent有三个参数:属性集合Y,Y对应的一个生成器canonical_generator,形式概念格L。在输入属性集Y后,算法第1行至第4行首先获取Y所对应的标准生成器,如果概念格L已有概念的内涵等于Y,则Y不会产生新概念,直接返回找到的概念,算法结束;否则,算法第5至第14行进一步根据标准生成器的直接父概念计算新概念的所有候选直接父概念;第15行至第16行生成一个新概念;第17行至第30行排除候选直接父概念中不符合要求的概念,然后删除可能存在的旧关联,设置新概念与直接父概念的关联;第31行至第32行更新新概念与标准生成器之间的父子关系并返回新概念,算法结束。其中,调用的函数GetCanonicalGenerator用来获取Y相应的标准生成器。
优选地,在该步骤S1中,通过对概念的内涵进行哈希值计算作为索引,将所有概念保存在哈希表中;在确定标准生成器的过程中,结合所计算的属性集Y的哈希值自底向上搜索标准生成器;藉此,以有效提高标准生成器的查询速度,避免冗余计算。作为一种变劣的实现:也可以通过自底向上的方式将属性集Y与概念的内涵逐一比较,直到找到某一概念的所有父概念都不是属性Y对应概念的生成器,则该概念为标准生成器。
步骤S2、在形式概念格中建立叶子概念的索引,叶子概念是指形式概念格中最小概念的直接父概念。
步骤S3、在查询过程中,概念的内涵对应查询语句,概念的外延对应结果集;在获取用户查询的分面值集后,在所构造的形式概念格中利用叶子概念自底向上匹配包含属性集的最小内涵以找到与分面值集对应的目标概念,并返回该目标概念所对应的外延。
在该步骤中,分面搜索通过分面的方式,对事物进行归纳检索,常用于专业领域的垂直搜索引擎当中。分面搜索的操作规范没有规定,典型的分面搜索操作分为两个部分,关键词搜索和交互式细化搜索。关键词搜索是传统的信息检索技术,分面搜索技术在此基础之上让用户可以进行交互式的探索,对现有的关键词搜索结果进行进一步的细化分解,提高了搜索结果的准确率,剔除了大多数无关结果集,从而可以获得良好的用户体验。
分面搜索具体而言有以下几个步骤:
(1)在通过某一次关键词搜索后得到关于关键词的结果集,并计算出结果集的分面信息,同时展示出来。
(2)用户根据展示的结果集及分面选择感兴趣的分面值进一步细化结果。
(3)重新搜索相关结果集。
这样可以交互式循环查询直到用户获得满意的结果或者结果集为空为止。
进一步地,本实施例还包括:
在找到目标概念后,根据形式概念格的上下文计算与所述目标概念对应的分面值支持数,该分面值支持数是指分面值对应的对象的个数。比如:针对NBA球员可以有如下分面:姓名、年龄、身高、体重、球员类型及所属球队,每一个分面都包含许多属性,如分面——“球员类型”包括中锋、大前锋、小前锋等等,假设NBA联盟中有中锋球员150名,那么可以用(‘球员类型’,‘中锋’,150)表示。
进一步地,本实施例还包括:
记录用户的查询记录,返回多个历史查询结果的最大公共父概念和最小公共子概念作为查询推荐;或者根据概念相似度进行查询推荐。其中:获取最大公共父概念的分两个步骤:
(1)、求所有历史查询对应概念的内涵的交集;
(2)、使用(1)的结果进行查询,匹配的概念即为最大公共父概念。
同理,获取最大公共子概念的方法包括:
(1)、求所有历史查询对应概念的内涵的并集;
(2)、使用(1)的结果进行查询,匹配的概念即为最小公共子概念。
可选的,本实施例比较概念相似性的定义如下。
定义4.1:对于形式概念格
Figure BDA0001329181920000101
中任意两个概念A,B,使用extent表示外延,则Jaccard系数为:
Figure BDA0001329181920000102
设定当前概念为C,Jaccard相似度为k,泛化操作为当前概念搜索相似度不小于k的最大父概念,细化操作为当前概念搜索相似度不小于k的最小子概念。对于泛化操作,算法从C出发以广度优先遍历的方式访问其父概念,直到某一父概念的所有父概念与C的相似度均小于k,该概念为泛化目标概念;对于细化操作,算法从C出发以广度优先遍历的方式访问其子概念,直到某一子概念的所有子概念与C的相似度均小于k,该概念为细化目标概念。
综上,本实施例公开的基于形式概念格的分面搜索方法,具有以下有益效果:
一方面,在构造形式概念格的过程中,动态更新最小概念,而避免提前载入完整的形式背景,提高了算法的灵活性。
又一方面,每添加一个对象都会在原有概念格的基础上基于标准生成器进行更新操作以得到新的概念格,实现简单、快捷、可靠,更进一步地,还可以通过对概念的内涵进行哈希值计算作为索引,将所有概念保存在哈希表中,以供在确定标准生成器的过程中,结合所计算的属性集Y的哈希值自底向上搜索标准生成器以有效提高标准生成器的查询速度,避免冗余计算。
再一方面,本发明还将查询条件解析成属性集合,利用叶子概念自底向上匹配包含属性集的最小内涵,可以快速排除不可能的线路,找到目标概念。
此外,本发明于形式概念格的分面搜索技术能够实现在用户进行检索之前预先计算结果集的上下文关系及分面信息,或者在检索的同时快速计算出结果对应的分面信息,缩短了***响应时间,提升了用户体验同时降低了用户浏览成本。
实施例2
与上述方法实施例相对应的,本实施例公开一种基于形式概念格的分面搜索***,至少包括下述子***一及子***二,优选地,还可以进一步包括后续的子***三和/或子***四。
子***一,用于构造形式概念格,所述形式概念格使用伪造属性fake_attribute初始化最小概念Bottom,并在每次更新概念格结构时,将输入对象Obj的属性集添加到Bottom的内涵中,最后再将fake_attribute剔除得到完整且正确的形式概念格;同时,在形式概念格中增加新对象的过程中,在输入属性集Y后,首先获取Y所唯一对应的标准生成器,如果概念格已有概念的内涵与Y相等,则Y不产生新概念,并将该新对象添加到其相等内涵所关联概念的外延中,以及将该新对象添加到此概念所有父概念的外延中;如果概念格不存在已有概念的内涵与Y相等,则创建新概念,并根据标准生成器的直接父概念计算新概念的所有候选直接父概念并筛选出真正的直接父概念,然后更新概念之间的父子关系,同时将该新对象添加到新概念所有父概念的外延中。
其中,上述子***一还用于在所述形式概念格中建立叶子概念的索引,所述叶子概念是指形式概念格中最小概念的直接父概念。进一步地,本实施例的子***一还用于:通过对概念的内涵进行哈希值计算作为索引,将所有概念保存在哈希表中;在确定标准生成器的过程中,结合所计算的属性集Y的哈希值自底向上搜索标准生成器。
子***二,用于在查询过程中,概念的内涵对应查询语句,概念的外延对应结果集;在获取用户查询的分面值集后,在所构造的形式概念格中利用叶子概念自底向上匹配包含属性集的最小内涵以找到与所述分面值集对应的目标概念,并返回该目标概念所对应的外延。
子***三,用于在找到目标概念后,根据形式概念格的上下文计算与所述目标概念对应的分面值支持数,所述分面值支持数是指分面值对应的对象的个数。
子***四,用于记录用户的查询记录,返回多个历史查询结果的最大公共父概念和最小公共子概念作为查询推荐;或者根据概念相似度进行查询推荐。
本***中,形式概念格采用静态构造模式、动态构造模式或基于构造时间预测的混合式构造模式;所述混合式构造模式根据分面值集预测概念构造耗时,如果小于预设的时间阈值,则采用动态模式构造形式概念格,若大于预设的时间阈值,则采用静态模式构造形式概念格。
同理,本实施例公开的基于形式概念格的分面搜索***,具有以下有益效果:
一方面,在构造形式概念格的过程中,动态更新最小概念,而避免提前载入完整的形式背景,提高了算法的灵活性。
又一方面,每添加一个对象都会在原有概念格的基础上基于标准生成器进行更新操作以得到新的概念格,实现简单、快捷、可靠,更进一步地,还可以通过对概念的内涵进行哈希值计算作为索引,将所有概念保存在哈希表中,以供在确定标准生成器的过程中,结合所计算的属性集Y的哈希值自底向上搜索标准生成器以有效提高标准生成器的查询速度,避免冗余计算。
再一方面,本发明还将查询条件解析成属性集合,利用叶子概念自底向上匹配包含属性集的最小内涵,可以快速排除不可能的线路,找到目标概念。
此外,本发明于形式概念格的分面搜索技术能够实现在用户进行检索之前预先计算结果集的上下文关系及分面信息,或者在检索的同时快速计算出结果对应的分面信息,缩短了***响应时间,提升了用户体验同时降低了用户浏览成本。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于形式概念格的分面搜索方法,其特征在于,包括:
构造形式概念格,所述形式概念格使用伪造属性fake_attribute初始化最小概念Bottom,并在每次更新概念格结构时,将输入对象Obj的属性集添加到Bottom的内涵中,最后再将fake_attribute剔除得到完整且正确的形式概念格;同时,在形式概念格中增加新对象的过程中,在输入属性集Y后,首先获取Y所唯一对应的标准生成器,如果概念格已有概念的内涵与Y相等,则Y不产生新概念,并将该新对象添加到其相等内涵所关联概念的外延中,以及将该新对象添加到所述已有概念所有父概念的外延中;如果概念格不存在已有概念的内涵与Y相等,则创建新概念,并根据标准生成器的直接父概念计算新概念的所有候选直接父概念并筛选出真正的直接父概念,然后更新概念之间的父子关系,同时将该新对象添加到新概念所有父概念的外延中;
在所述形式概念格中建立叶子概念的索引,所述叶子概念是指形式概念格中最小概念的直接父概念;
在查询过程中,概念的内涵对应查询语句,概念的外延对应结果集;在获取用户查询的分面值集后,在所构造的形式概念格中利用叶子概念自底向上匹配包含属性集的最小内涵以找到与所述分面值集对应的目标概念,并返回该目标概念所对应的外延。
2.根据权利要求1所述的基于形式概念格的分面搜索方法,其特征在于,还包括:
通过对概念的内涵进行哈希值计算作为索引,将所有概念保存在哈希表中;在确定标准生成器的过程中,结合所计算的属性集Y的哈希值自底向上搜索标准生成器。
3.根据权利要求1或2所述的基于形式概念格的分面搜索方法,其特征在于,所述形式概念格采用静态构造模式、动态构造模式或基于构造时间预测的混合式构造模式;所述混合式构造模式根据分面值集预测概念构造耗时,如果小于预设的时间阈值,则采用动态模式构造形式概念格,若大于预设的时间阈值,则采用静态模式构造形式概念格。
4.根据权利要求3所述的基于形式概念格的分面搜索方法,其特征在于,还包括:
在找到目标概念后,根据形式概念格的上下文计算与所述目标概念对应的分面值支持数,所述分面值支持数是指分面值对应的对象的个数。
5.根据权利要求4所述的基于形式概念格的分面搜索方法,其特征在于,还包括:
记录用户的查询记录,返回多个历史查询结果的最大公共父概念和最小公共子概念作为查询推荐;或者根据概念相似度进行查询推荐。
6.一种基于形式概念格的分面搜索***,其特征在于,包括:
子***一,用于构造形式概念格,所述形式概念格使用伪造属性fake_attribute初始化最小概念Bottom,并在每次更新概念格结构时,将输入对象Obj的属性集添加到Bottom的内涵中,最后再将fake_attribute剔除得到完整且正确的形式概念格;同时,在形式概念格中增加新对象的过程中,在输入属性集Y后,首先获取Y所唯一对应的标准生成器,如果概念格已有概念的内涵与Y相等,则Y不产生新概念,并将该新对象添加到其相等内涵所关联概念的外延中,以及将该新对象添加到所述已有概念所有父概念的外延中;如果概念格不存在已有概念的内涵与Y相等,则创建新概念,并根据标准生成器的直接父概念计算新概念的所有候选直接父概念并筛选出真正的直接父概念,然后更新概念之间的父子关系,同时将该新对象添加到新概念所有父概念的外延中;
其中,所述子***一还用于在所述形式概念格中建立叶子概念的索引,所述叶子概念是指形式概念格中最小概念的直接父概念;
子***二,用于在查询过程中,概念的内涵对应查询语句,概念的外延对应结果集;在获取用户查询的分面值集后,在所构造的形式概念格中利用叶子概念自底向上匹配包含属性集的最小内涵以找到与所述分面值集对应的目标概念,并返回该目标概念所对应的外延。
7.根据权利要求6所述的基于形式概念格的分面搜索***,其特征在于,所述子***一还用于:通过对概念的内涵进行哈希值计算作为索引,将所有概念保存在哈希表中;在确定标准生成器的过程中,结合所计算的属性集Y的哈希值自底向上搜索标准生成器。
8.根据权利要求6或7所述的基于形式概念格的分面搜索***,其特征在于,所述形式概念格采用静态构造模式、动态构造模式或基于构造时间预测的混合式构造模式;所述混合式构造模式根据分面值集预测概念构造耗时,如果小于预设的时间阈值,则采用动态模式构造形式概念格,若大于预设的时间阈值,则采用静态模式构造形式概念格。
9.根据权利要求8所述的基于形式概念格的分面搜索***,其特征在于,还包括:
子***三,用于在找到目标概念后,根据形式概念格的上下文计算与所述目标概念对应的分面值支持数,所述分面值支持数是指分面值对应的对象的个数。
10.根据权利要求9所述的基于形式概念格的分面搜索***,其特征在于,还包括:
子***四,用于记录用户的查询记录,返回多个历史查询结果的最大公共父概念和最小公共子概念作为查询推荐;或者根据概念相似度进行查询推荐。
CN201710483747.0A 2017-06-22 2017-06-22 基于形式概念格的分面搜索方法及*** Active CN107391584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710483747.0A CN107391584B (zh) 2017-06-22 2017-06-22 基于形式概念格的分面搜索方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710483747.0A CN107391584B (zh) 2017-06-22 2017-06-22 基于形式概念格的分面搜索方法及***

Publications (2)

Publication Number Publication Date
CN107391584A CN107391584A (zh) 2017-11-24
CN107391584B true CN107391584B (zh) 2020-12-11

Family

ID=60332700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710483747.0A Active CN107391584B (zh) 2017-06-22 2017-06-22 基于形式概念格的分面搜索方法及***

Country Status (1)

Country Link
CN (1) CN107391584B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094456B (zh) * 2021-04-09 2022-09-13 郑州大学 一种机器人行走路径生成方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504746A (zh) * 2008-02-04 2009-08-12 株式会社普罗菲德 信息处理装置、信息处理方法及程序
CN101595476A (zh) * 2006-08-31 2009-12-02 启创互联公司 用于客户定义信息架构的***、方法和计算机程序
CN102495844A (zh) * 2011-11-15 2012-06-13 河海大学 用于构建用户模型的改进的GuTao法
CN103782250A (zh) * 2011-05-26 2014-05-07 电气银普股份有限公司 实现对其他设备的网络控制与传感的模块化控制***
CN104036046A (zh) * 2014-07-02 2014-09-10 重庆大学 基于属性共现模式的Deep Web查询接口模式匹配方法
JP5725623B2 (ja) * 2012-05-08 2015-05-27 日本電信電話株式会社 プログラム分析装置及び方法及びプログラム
CN105474166A (zh) * 2013-03-15 2016-04-06 先进元素科技公司 用于有目的计算的方法和***
CN106227805A (zh) * 2016-07-17 2016-12-14 河南理工大学 一种基于形式概念分析理论的术语定义方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130198599A1 (en) * 2012-01-30 2013-08-01 Formcept Technologies and Solutions Pvt Ltd System and method for analyzing a resume and displaying a summary of the resume
IN2013CH05503A (zh) * 2013-11-29 2015-06-12 Kalyanaraman Raghava

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101595476A (zh) * 2006-08-31 2009-12-02 启创互联公司 用于客户定义信息架构的***、方法和计算机程序
CN101504746A (zh) * 2008-02-04 2009-08-12 株式会社普罗菲德 信息处理装置、信息处理方法及程序
CN103782250A (zh) * 2011-05-26 2014-05-07 电气银普股份有限公司 实现对其他设备的网络控制与传感的模块化控制***
CN102495844A (zh) * 2011-11-15 2012-06-13 河海大学 用于构建用户模型的改进的GuTao法
JP5725623B2 (ja) * 2012-05-08 2015-05-27 日本電信電話株式会社 プログラム分析装置及び方法及びプログラム
CN105474166A (zh) * 2013-03-15 2016-04-06 先进元素科技公司 用于有目的计算的方法和***
CN104036046A (zh) * 2014-07-02 2014-09-10 重庆大学 基于属性共现模式的Deep Web查询接口模式匹配方法
CN106227805A (zh) * 2016-07-17 2016-12-14 河南理工大学 一种基于形式概念分析理论的术语定义方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ligeng Zou等.An efficient algorithm for increasing the granularity levels of attributes in formal concept analysis.《Expert Systems With Applications》.2016,(第46期), *
近似概念格及其增量构造算法研究;林春杰等;《计算机应用研究》;20120131;第29卷(第1期);全文 *

Also Published As

Publication number Publication date
CN107391584A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN106484875B (zh) 基于molap的数据处理方法及装置
US7143107B1 (en) Reporting engine for data warehouse
US7493319B1 (en) Computer automated discovery of interestingness in faceted search
US20190129898A1 (en) Progressive spatial searching using augmented structures
KR101793222B1 (ko) 어플리케이션 검색들을 가능하게 하기 위해 사용되는 검색 인덱스의 업데이트
US7827181B2 (en) Click distance determination
US9576011B2 (en) Indexing hierarchical data
US8190595B2 (en) Flexible query hints in a relational database
US7567962B2 (en) Generating a labeled hierarchy of mutually disjoint categories from a set of query results
US20050091188A1 (en) Indexing XML datatype content system and method
US20160103858A1 (en) Data management system comprising a trie data structure, integrated circuits and methods therefor
Silva-Coira et al. Efficient processing of raster and vector data
JP2007317189A (ja) 3要素モデルに基づく検索情報加工方法
Park et al. Efficient processing of keyword queries over graph databases for finding effective answers
Rodríguez-Arauz et al. Design of a multimedia data management system that uses horizontal fragmentation to optimize content-based queries
CN107391584B (zh) 基于形式概念格的分面搜索方法及***
Gao et al. Efficient algorithms for finding the most desirable skyline objects
García A Keyword-based Query Processing Method for Datasets with Schemas
Kargar et al. Efficient top-k keyword search in graphs with polynomial delay
Drosou et al. ReDRIVE: result-driven database exploration through recommendations
Medina et al. Evaluation of indexing strategies for possibilistic queries based on indexing techniques available in traditional RDBMS
Brucato et al. A scalable execution engine for package queries
Calazans Campelo et al. Geographic scope modeling for web documents
Cappellari et al. Path-oriented keyword search over graph-modeled Web data
WO2014177181A1 (en) A method of processing a ratings dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant