CN101408882B - 一种授权文档的检索方法和*** - Google Patents

一种授权文档的检索方法和*** Download PDF

Info

Publication number
CN101408882B
CN101408882B CN2008101352623A CN200810135262A CN101408882B CN 101408882 B CN101408882 B CN 101408882B CN 2008101352623 A CN2008101352623 A CN 2008101352623A CN 200810135262 A CN200810135262 A CN 200810135262A CN 101408882 B CN101408882 B CN 101408882B
Authority
CN
China
Prior art keywords
document
role
database
classification
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101352623A
Other languages
English (en)
Other versions
CN101408882A (zh
Inventor
孙肖峰
王绪胜
吴於茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd
Peking University
Peking University Founder Group Co Ltd
Original Assignee
BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd, Peking University, Peking University Founder Group Co Ltd filed Critical BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd
Priority to CN2008101352623A priority Critical patent/CN101408882B/zh
Publication of CN101408882A publication Critical patent/CN101408882A/zh
Application granted granted Critical
Publication of CN101408882B publication Critical patent/CN101408882B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种授权文档的检索方法,在该方法中:将文档与角色的关联以关联媒介标识作为关联媒介,不再直接将文档与角色关联起来;且,将进行了文档信息修改的文档ID记录在增量表中,全文检索***只新建、或重建所述文档ID对应文档的索引。本发明同时公开了一种授权文档的检索***,该方法和***检索效率高,授权生效的延迟时间短,且具有实用性。

Description

一种授权文档的检索方法和***
技术领域
本发明涉及企业非结构化文档的检索技术,尤其涉及一种授权文档的检索方法和***。
背景技术
目前,各个企业都拥有大量的非结构化文档资源,例如word、pdf、ppt等类型的文档,这些非结构化文档资源是企业资产很重要的一部分,所以越来越多的企业采用了内容管理***,实现对企业文档资源的有序管理,高效的检索并再利用已有文档资源。
企业的文档资源有着自身的一些特点,包括:
(1)文档的数量相对较大,达到百万甚至千万。
(2)拥有比较规范的元数据信息,例如创建的部门、企业内的文档分类等。但企业既希望通过这些元数据信息进行检索,同时又希望通过文档内容的关键词进行检索。
(3)需要进行访问控制,不允许检索到没有授权的文档。
(4)文档资源的授权,往往要求比较灵活,多数情况下,是按照例如某种文档分类等元数据进行授权的,但在一些特殊情况下,也允许对文档直接进行单独授权。
访问文档资源,首先要通过文档的某个属性检索到相应的文档。描述文档的属性可以分为两部分:结构化的元数据和非结构化的文本内容。对结构化的元数据信息进行管理是数据库擅长的领域,而对非结构化的文本内容进行检索是全文检索擅长的领域,二者各有自己的优势,所以,企业中所使用的内容管理***普遍采用数据库和全文检索相结合的技术,可以同时支持基于元数据和文档内容对文档进行检索。
授权信息,作为元数据的一种,一般是存放在数据库中的,当基于内容检索文档时,就需要结合数据库和全文检索***,获取检索结果。数据库和全文检索***目前有以下三种结合方式:
A、分解文档查询请求为元数据(包含授权信息)和文档内容两部分,同时向数据库和全文检索***发送检索请求,之后,合并两个检索结果取交集。这种方式的优点在于授权信息完全存放于数据库中,可以立即生效,但当两个检索结果集都很大时,合并检索结果的效率较低,实用性也较低。
B、利用数据库本身的原生支持。一般大的数据库都提供了全文检索功能,可以通过结构化查询语言(SQL)的扩充语言支持对元数据和文档内容的同时检索,这种结合方式比方式A中外部合并结果要高效很多。但数据库自带的全文检索功能的检索效率通常低于专用全文检索***的效率,对中文支持也不够。
C、将元数据(包括授权信息)直接保存于全文检索***中。在这种方式下,对文档内容的检索效率是最高的。这种方式的具体实现过程一般为:将授权信息保存在数据库中,建立索引时将授权信息转换为每个文档的授权,对其进行全文索引,这样,检索文档内容时只要在全文检索***中完成即可,不必像方式A那样需要合并结果。但这种方式的缺点是:授权无法立即生效,需要延迟一定的时间,同时,由于授权信息是不稳定数据,授权信息的改变将导致大量的索引重建,降低了***的实用性。
基于以上的三种结合方式,对非结构化的文档进行检索时,使用方式C检索效率是最高的,但是,方式C同样具有大量索引重建、以及实用性差的缺点。
发明内容
本发明的主要目的在于提供一种授权文档的检索方法和***,检索效率高,授权生效的延迟时间短,且具有实用性。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种授权文档的检索方法,该方法包括:
A、在数据库中确定各个文档的至少包括文档标识ID、文档分类、关联媒介标识的文档信息,文档分类与角色的关联,角色与用户的关联以及关联媒介标识与角色的关联;全文检索***从数据库中获取相应的文档信息,根据所述文档信息建立各个文档对应的索引;
B、当在数据库中修改一文档对应的、所建立索引中包含的文档信息时,在增量表中记录所述文档对应的文档ID;
C、全文检索***读取增量表中的文档ID,根据文档ID读取数据库中对应文档的文档信息,新建、或重建该文档ID对应文档的索引。
其中,步骤C之后该方法进一步包括:
D、当通过关键词检索文档时,根据用户与角色、角色与文档分类以及角色与关联媒介标识的关联从数据库中获取当前用户有权限的文档分类与关联媒介标识;
E、将从数据库中获取的文档分类与关联媒介标识、以及关键词作为全文检索的查询条件,在全文检索***中进行检索。
所述文档信息进一步包括:文档名称、文档大小、以及文档内容。
步骤C中所述读取以一定的时间段为间隔周期性进行。
所述索引至少包括:文档ID、文档分类以及关联媒介标识。
本发明还提供了一种授权文档的检索***,该***包括:增量表读取模块、以及索引建立模块,其中,
增量表读取模块,用于读取增量表中的文档ID,并将所述文档ID发送给索引建立模块;
索引建立模块,用于根据所述文档ID从数据库中读取对应文档的文档信息,根据所述文档信息建立该文档ID对应文档的索引。
其中,该***进一步包括:
权限信息获取模块,用于当进行文档检索时,从数据库获取当前用户有权限的文档分类与关联媒介标识,并将获取的上述信息发送给检索模块;
检索模块,用于以所述文档分类、关联媒介标识、以及关键词作为全文检索的查询条件,到索引建立模块所建立的索引中进行全文检索,并获得检索结果;
相应的,索引建立模块进一步用于:根据文档分类、关联媒介标识、以及关键词进行全文检索,并向检索模块返回检索结果。
本发明所提供的授权文档的检索方法和***,将文档与角色的关联以关联媒介标识作为关联媒介,不再直接将文档与角色关联起来,从而,当进行检索时,只需得到文档与关联媒介标识的关联关系,授权信息量减少,提高了检索效率,缩短了授权的生效时间;另外,通过增量表记录进行了文档信息修改的文档对应的文档标识(ID),全文检索***周期性读取增量表,对其中文档ID对应的文档进行索引的建立、或重建,无需每次重建所有文档对应的索引,减少了全文检索***的数据处理量,提高了***性能、以及实用性。
另外,当数据库中角色与用户的关联、文档分类与角色的关联、以及关联媒介标识与角色的关联进行改变时,由于全文检索***所建立的索引中并不包含上述关联信息,因此全文检索***无须进行文档ID对应文档索引的重建,减少了全文检索***的信息处理量,提高了***性能,并且,无须重建索引,授权即可立即生效。
附图说明
图1为本发明授权文档检索方法流程示意图;
图2为本发明授权文档检索***结构示意图。
具体实施方式
本发明的基本思想是:将文档与角色的关联以关联媒介标识作为关联媒介,不再直接将文档与角色关联起来;且,将进行了文档信息修改的文档ID记录在增量表中,全文检索***只新建、或重建所述文档ID对应的索引。
其中,本发明中所述关联媒介标识在以下实施例中以ACL_ID表示。
以下,通过具体实施例结合附图详细说明本发明授权文档检索方法和***的实现。
图1为本发明授权文档检索方法流程示意图,如图1所示,该方法包括:
步骤101:在数据库中确定各个文档的文档ID、文档分类、ACL_ID等文档信息、角色与用户的关联、文档分类与角色的关联、以及ACL_ID与角色的关联。
文档信息还可以包括:文档内容、文档大小、文档名称等,但是至少需包括文档ID、文档分类、以及ACL_ID,其中,
文档ID,用于唯一标识每个文档。
文档分类,用于授权的分类,在不同的企业中可能有不同的文档分类,且可以根据实际应用情况设定文档的分类,例如,可以根据部门将文档分为合作部、研发部、秘书部等。每个分类根据步骤102中与角色的关联,确定文档的授权。
ACL_ID,即为所述关联媒介标识,用于作为文档与角色的关联媒介。
其中,本步骤可以以数据表的方式实现,即:文档内容、文档大小、文档名称、文档ID、文档分类、以及ACL_ID等均作为数据表中的字段,以文档ID作为主字段,每个文档ID对应一条记录,将该数据表名称设为数据表1。其中,文档内容很大时,文档内容所对应字段中可以只记录文档文件的访问地址。
角色与用户的关联关系类型、以及文档分类与角色的关联关系类型一般为多对多。
其中,ACL_ID与角色的关联用于最终确定文档与角色的关联,文档与角色的关联可以由两个步骤来建立:
首先,确定ACL_ID与角色的关联关系,关系类型一般为一对多;
之后,根据确定的文档与ACL_ID的关联关系,最终确定文档与角色的关联关系,关联关系类型一般为多对一。
或者,也可以先确定文档与ACL_ID的关联关系,之后,再确定ACL_ID与角色的关联关系,确定两种关联关系的执行顺序不限制。
同样的,角色与用户的关联、文档分类与角色的关联、以及ACL_ID与角色的关联关系也可以以数据表的方式实现,角色与用户的关联、文档分类与角色的关联、以及ACL_ID与角色的关联分别创建相应的以角色和用户、文档分类和角色、ACL_ID和角色为字段的三个数据表,相应设为数据表2、数据表3、以及数据表4。
步骤102:全文检索***从数据库中获取相应的文档信息,并根据所述文档信息建立各个文档的索引。
其中,本步骤中所述获取相应的文档信息是指:全文检索***可以只从数据库中获取建立索引所需要的文档信息。
其中,所述索引至少包含文档ID、文档分类、以及ACL_ID,这样,当在数据库中进行角色与用户的关联、文档分类与角色的关联、ACL_ID与角色的关联等关联关系的改变时,无需重建全文检索***中的对应索引。
另外,只要步骤101中数据库确定各个文档的文档ID、文档分类、ACL_ID等文档信息后,步骤102即可执行,并非一定要步骤101中确定完所有的关联关系后才可执行步骤102。
步骤103:当修改某一文档对应的、所建立索引中包含的文档信息时,在增量表中记录该修改的文档对应的文档ID。
所述增量表可以是数据表的形式,存储于数据库中,或者,也可以放置于全文检索***中。
假设步骤102中所建立索引中只包含文档ID、文档分类、以及ACL_ID,则,本步骤中所述所建立索引中包含的文档信息是指文档ID、文档分类、以及ACL_ID,此时,当修改某一文档对应的文档分类时,则需要在增量表中记录该文档的文档ID。
本步骤的主要目的在于:当在数据库中修改某一文档的文档信息时,如果全文检索***的索引中包含该文档信息,比如文档分类,此时,在增量表中记录文档的文档ID,以便在后续步骤中全文检索***可以读取增量表中的文档ID,进行索引的重建;而当全文检索***的索引中不包含该文档信息时,只需在数据库中进行修改,无须修改全文检索***中的索引,因此也无须在增量表中记录文档ID。
步骤104:全文检索***周期性读取增量表中的文档ID,根据文档ID读取数据库中对应文档的文档信息,建立该文档ID对应文档的索引。
所述读取文档信息具体为:读取数据表1中该文档ID对应的记录,获得文档分类、以及ACL_ID等文档信息。
其中,所建立的索引中至少包括文档ID、文档分类、ACL_ID,还可以包括文档名称、以及文档大小等,可以自主设置。
其中,当文档与文档分类、或者文档与ACL_ID是一对多的关系时,全文检索***在建立索引前,可能存在某一文档信息为多个参数值的情况,这时,需要将所述某一文档信息对应的多个参数值合并成单值,即用全文检索***可以分辨的分词字符分割所述多个参数值,但是,作为索引中的一个参数。
步骤105:当通过关键词检索文档时,根据用户与角色、角色与文档分类以及角色与ACL_ID的关联从数据库中获取当前用户有权限的文档分类与ACL_ID。
同样的,本步骤中所述从数据库中获取也为相应查找各个数据表,从而获取相应的数据的过程。
步骤106:将从数据库中获取的文档分类与ACL_ID、以及关键词作为全文检索的查询条件,进行全文检索。
其中,所述查询条件一般为:某个文档分类、以及ACL_ID的几个取值范围内。
图2为本发明授权文档的检索***结构示意图,该***可以作为所述全文检索***。如图2所示,该***包括:增量表读取模块210、索引建立模块220、权限信息获取模块230、以及检索模块240,其中,
增量表读取模块210,用于读取增量表中的文档ID,并将所述文档ID发送给索引建立模块220。
索引建立模块220,用于根据所述文档ID从数据库中读取对应文档的文档信息,根据所述文档信息建立该文档ID对应文档的索引;还用于根据文档分类、ACL_ID、以及关键词进行全文检索,并将检索结果返回检索模块240。
权限信息获取模块230,用于当进行文档检索时,从数据库获取当前用户有权限的文档分类与ACL_ID,并将获取的上述信息发送给检索模块240。
检索模块240,用于以所述文档分类、ACL_ID、以及关键词作为全文检索的查询条件,到索引建立模块220所建立的索引中进行全文检索,并获得检索结果。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (4)

1.一种授权文档的检索方法,其特征在于,该方法包括:
A、在数据库中确定各个文档的至少包括文档ID、文档分类、关联媒介标识的文档信息,文档分类与角色的关联,角色与用户的关联以及关联媒介标识与角色的关联;全文检索***从数据库中获取相应的文档信息,根据所述文档信息建立各个文档对应的索引;
B、当在数据库中修改一文档对应的、所建立索引中包含的文档信息时,在增量表中记录所述文档对应的文档ID;
C、全文检索***读取增量表中的文档ID,根据文档ID读取数据库中对应文档的文档信息,新建、或重建该文档ID对应文档的索引;
D、当通过关键词检索文档时,根据用户与角色、角色与文档分类以及角色与关联媒介标识的关联从数据库中获取当前用户有权限的文档分类与关联媒介标识;
E、将从数据库中获取的文档分类与关联媒介标识、以及关键词作为全文检索的查询条件,在全文检索***中进行检索;
其中,所述索引至少包括:文档ID、文档分类、以及关联媒介标识,关联媒介标识是文档与角色的关联媒介。
2.根据权利要求1所述的方法,其特征在于,所述文档信息进一步包括:文档名称、文档大小、以及文档内容。
3.根据权利要求1所述的方法,其特征在于,步骤C中所述读取以一定的时间段为间隔周期性进行。
4.一种授权文档的检索***,其特征在于,该***包括:
模块一,用于在数据库中确定各个文档的至少包括文档ID、文档分类、关联媒介标识的文档信息,文档分类与角色的关联,角色与用户的关联以及关联媒介标识与角色的关联;全文检索***从数据库中获取相应的文档信息,根据所述文档信息建立各个文档对应的索引;
模块二,用于当在数据库中修改一文档对应的、所建立索引中包含的文档信息时,在增量表中记录所述文档对应的文档ID;
模块三,用于全文检索***读取增量表中的文档ID,根据文档ID读取数据库中对应文档的文档信息,新建、或重建该文档ID对应文档的索引;
模块四,用于当通过关键词检索文档时,根据用户与角色、角色与文档分类以及角色与关联媒介标识的关联从数据库中获取当前用户有权限的文档分类与关联媒介标识;
模块五,用于将从数据库中获取的文档分类与关联媒介标识、以及关键词作为全文检索的查询条件,在全文检索***中进行检索;
其中,所述索引至少包括:文档ID、文档分类、以及关联媒介标识,关联媒介标识是文档与角色的关联媒介。
CN2008101352623A 2008-08-05 2008-08-05 一种授权文档的检索方法和*** Expired - Fee Related CN101408882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101352623A CN101408882B (zh) 2008-08-05 2008-08-05 一种授权文档的检索方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101352623A CN101408882B (zh) 2008-08-05 2008-08-05 一种授权文档的检索方法和***

Publications (2)

Publication Number Publication Date
CN101408882A CN101408882A (zh) 2009-04-15
CN101408882B true CN101408882B (zh) 2012-10-31

Family

ID=40571895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101352623A Expired - Fee Related CN101408882B (zh) 2008-08-05 2008-08-05 一种授权文档的检索方法和***

Country Status (1)

Country Link
CN (1) CN101408882B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140122121A1 (en) * 2012-10-31 2014-05-01 Oracle International Corporation Interoperable case series system
CN103914488B (zh) * 2013-01-08 2016-12-28 邓寅生 文档的采集、标识、关联、搜索及展现的***
CN109952570B (zh) * 2016-09-23 2024-04-05 亚马逊技术有限公司 媒体资产访问控制***
CN106777140B (zh) * 2016-12-19 2020-04-10 北京天广汇通科技有限公司 用于非结构化文档搜索的方法及装置
CN108288147A (zh) * 2018-01-08 2018-07-17 东莞嘉泰钟表有限公司 一种用于生产管理的快速检索及输入控制方法
CN110781189B (zh) * 2019-10-25 2022-08-26 北京达佳互联信息技术有限公司 文档平台构建方法、装置、电子设备及存储介质
CN115080684B (zh) * 2022-07-28 2023-01-06 天津联想协同科技有限公司 网盘文档索引方法、装置、网盘及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1310388A (zh) * 2000-02-21 2001-08-29 英业达股份有限公司 借由增量的方式来使数据文件升级的方法
CN1811759A (zh) * 2005-01-26 2006-08-02 华为技术有限公司 一种对信息建增量索引的方法
CN1877583A (zh) * 2006-07-12 2006-12-13 百度在线网络技术(北京)有限公司 访问标识索引***及访问标识索引库生成方法
CN1988535A (zh) * 2005-12-23 2007-06-27 腾讯科技(深圳)有限公司 文件存储同步方法、***及客户端
CN101127034A (zh) * 2006-08-18 2008-02-20 国际商业机器公司 面向变化的电子表格应用
CN101136013A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种在全文检索***中快速更新数据域的方法
CN101136016A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种全文检索***的索引在线更新方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1310388A (zh) * 2000-02-21 2001-08-29 英业达股份有限公司 借由增量的方式来使数据文件升级的方法
CN1811759A (zh) * 2005-01-26 2006-08-02 华为技术有限公司 一种对信息建增量索引的方法
CN1988535A (zh) * 2005-12-23 2007-06-27 腾讯科技(深圳)有限公司 文件存储同步方法、***及客户端
CN1877583A (zh) * 2006-07-12 2006-12-13 百度在线网络技术(北京)有限公司 访问标识索引***及访问标识索引库生成方法
CN101127034A (zh) * 2006-08-18 2008-02-20 国际商业机器公司 面向变化的电子表格应用
CN101136013A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种在全文检索***中快速更新数据域的方法
CN101136016A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种全文检索***的索引在线更新方法

Also Published As

Publication number Publication date
CN101408882A (zh) 2009-04-15

Similar Documents

Publication Publication Date Title
CN107402995B (zh) 一种分布式newSQL数据库***及方法
CN101408882B (zh) 一种授权文档的检索方法和***
US10545981B2 (en) Virtual repository management
US8924373B2 (en) Query plans with parameter markers in place of object identifiers
CN102930060B (zh) 一种数据库快速索引的方法及装置
TW201530328A (zh) 爲半結構化資料構建NoSQL資料庫索引的方法及裝置
US20070124277A1 (en) Index and Method for Extending and Querying Index
CN107491487A (zh) 一种全文数据库架构及位图索引创建、数据查询方法、服务器及介质
MX2009000589A (es) Procesamiento de datos a traves de bases de datos muy grandes.
CN109284273B (zh) 一种采用后缀数组索引的海量小文件查询方法及***
Narang Database management systems
CN102955792A (zh) 一种实时全文搜索引擎事务处理的实现方法
KR20130049111A (ko) 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
CN102880541A (zh) 日志信息的获取***和获取方法
CN105117433A (zh) 一种基于Hive解析HFile统计查询HBase的方法和***
CN101789027A (zh) 一种基于dbms的元数据管理方法和元数据服务器
CN103473324A (zh) 基于非结构化数据存储的多维业务属性检索装置及方法
CN101963993B (zh) 一种数据库单表记录快速查找的方法
Weintraub et al. Needle in a haystack queries in cloud data lakes.
CN111680043A (zh) 一种针对海量数据进行快速检索方法
CN102597969A (zh) 带属性的键值存储的数据库管理装置及其键值存储结构的高速缓存装置
TW420777B (en) A query method of dynamitic attribute database management
CN114218347A (zh) 多个文件内容的快速索引查找方法
Halevy Structures, semantics and statistics
CN112800100A (zh) 一种数据资产标签管理***及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121031

Termination date: 20170805