CN104750845A - 一种基于Apriori算法的图书电子资源联合编目方法 - Google Patents
一种基于Apriori算法的图书电子资源联合编目方法 Download PDFInfo
- Publication number
- CN104750845A CN104750845A CN201510166306.9A CN201510166306A CN104750845A CN 104750845 A CN104750845 A CN 104750845A CN 201510166306 A CN201510166306 A CN 201510166306A CN 104750845 A CN104750845 A CN 104750845A
- Authority
- CN
- China
- Prior art keywords
- cataloguing
- copy
- books
- apriori algorithm
- sourcing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明请求保护一种基于Apriori算法的图书电子资源联合编目方法,主要利用各个高校图书电子资源数据库提供接口,实现将图书电子资源的各种数据库资源整合到图书电子资源联合检索平台上,编目包括两个部分,第一部分是Apriori算法生成分级副本编目,即通过挖掘数据之间的关联规则生成分级副本编目。第二部分是Apriori算法生成中心副本编目,即在分级副本编目的基础上再利用Apriori算法进行关联规则的挖掘,获取最终的中心副本编目,通过数据资源的联合编目,进而提高数据资源检索和查询的效率。
Description
技术领域
本发明属于图书电子资源管理方法领域、具体为一种基于Apriori算法的图书电子资源联合编目方法。
背景技术
由于图书电子资源来自不同平台,如何更好管理海量数据资源,如何从庞大的数据库中发掘有价值的信息,提高图书馆管理水平,更好地为读者服务,是值得深思的问题。而数据挖掘(Data Mining,DM)技术为人们从海量的数据存储中抽取模式、找出数据变化的规律和数据之间的相互关系提供了方法。其中关联规则是数据挖掘领域一个重要的研究任务,就是发现数据项之间潜在的关联,找出大量数据之间未知的依赖关系。
但是从检索的结果来看,现在对于图书电子资源的数据挖掘的相关研究还比较少。图书电子资源的图书馆管理水平还处于原始的数据标签利用阶段,数据资源检索慢和查询的效率低,如何利用数据挖掘技术,提高数据资源检索和查询的效率就成为一个亟待解决的问题。
在本专利申请中,首先利用各个高校图书电子资源数据库提供接口,实现将图书电子资源的各种数据库资源整合到图书电子资源联合检索平台上,解决图书电子资源的各个应用***分割的局势,将来源不同,结构不同,用法不同的各种数据库资源集中到统一平台上。再利用数据挖掘算法挖掘数据资源的关联规则,生成分级副本编目和中心副本编目,通过数据资源的联合编目,进而提高数据资源检索和查询的效率。
发明内容
针对现有技术中图书馆数据资源检索慢和查询的效率低的问题,本发明提供了一种数据资源检索快和提高查询的效率的基于Apriori算法的图书电子资源联合编目方法,本发明的技术方案如下:一种基于Apriori算法的图书电子资源联合编目方法,其包括以下步骤:
101、利用各个高校图书电子资源数据库提供接口,实现将图书电子资源的各种数据库资源整合到图书电子资源联合检索平台上;
102、将步骤101整合的事务数据库资源采用Apriori算法生成分级副本编目,即通过挖掘数据之间的关联规则生成分级副本编目,具体步骤为:
A、预先设定最小支持数mincount,扫描事务数据库DB并计数得到C1,找出满足最小支持计数的1-频繁项集,记为L1;
B、重新组合L1中的项集产生候选集C2,再次扫描事务数据库,找出满足最小支持计数的2-频繁项集L2,得到分级副本编目的频繁项集L2;
103、根据步骤102中得到的分级副本编目L2,由Apriori_gen(L2)重新组合L2中的项集产生候选集C3,删除候选集C3中不属于L2的候选项集;如此循环下去,直到不能找到新的频繁k-项集,即扫描事务数据库,发现Li为空集,则算法结束,最后得到的频集作为中心副本编目,然后利用所得到的分级副本编目及中心副本编目进行联合编目,通过联合编目进行图书电子资源资源检索。
本发明的优点及有益效果如下:
本发明提出了一种基于Apriori算法的图书电子资源联合编目方法。通过对图书电子资源整合,利用Apriori算法生成中心副本编目和分级副本编目,在进行图书电子资源检索时,直接从分级副本编目和中心副本编目里面进行查找检索,极大的提高了图书电子资源检索速度和效率。
附图说明
图1是本发明优选实施例的总体生成编目方案示意图;
图2是本发明优选实施例的的Apriori算法流程图;
图3是本发明优选实施例的Apriori算法生成分级副本编目示意图;
图4是本发明优选实施例的Apriori算法生成分级副本编目结果图;
图5是本发明优选实施例的Apriori算法生成中心副本编目示意图;
图6是本发明优选实施例的Apriori算法生成中心副本编目结果图;
具体实施方式
以下结合附图,对本发明作进一步说明:
本发明包括两个部分,第一部分是Apriori算法生成分级副本编目,即通过挖掘数据之间的关联规则生成分级副本编目。第二部分是Apriori算法生成中心副本编目,即在分级副本编目的基础上再利用Apriori算法进行关联规则的挖掘,获取最终的中心副本编目,其总体设计方案如图1所示。
详细方案描述
1)Apriori算法生成分级副本编目
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
Apriori算法使用层次顺序搜索的循环方法产生频繁项集,即用频繁k-项集探索产生(k+1)-项集。首先,找出长度为1的频繁项集,记为L1,用于产生频繁2-项集L2的集合,而L2用于产生频繁3-项集L3的,如此循环下去,直到不能找到新的频繁k-项集。找每个Lk需要扫描数据库一次,算法流程图如图2所示。
在这里我们假设图书电子资源事务数据库DB中包含4个事务,即|DB|=4,最小支持数mincount=2,即最小支持度minsup=2/4=50%。挖掘频繁项目集的具体过程如下所述:
(1)数据过滤
首先对事务数据库DB进行扫描并且计数,得到C1,此时取出计数大于最小支持数的项集(其中项集{D}的支持数为1小于最小支持数2,因此删除{D}项集),产生L1={{A},{B},{C},{F}}。由于第一次数据库扫描产生的关联规则会产生冗余数据,所以继续对数据库进行第二次扫描。
(2)分级副本编目的生成
此时由Apriori_gen(L1)(产生相应的候选项集)生成C2,扫描数据库DB,对C2中的每个项集进行计数(其中{A,B},{A,C}支持数为1,小于最小支持数2,因此删除{A,B},{A,C}两个项集),计算C2中每个候选集得到L2,此时所得到L2的中的频繁项集{A,C},{B,C},{B,F},{C,F}作为事物数据库的分级副本编目,生成过程如图3所示,以图书电子资源数据为基础数据所抽取的频集数据项分级副本编目结果如图4所示。
2)Apriori算法生成中心副本编目
根据生成的分级副本编目L2,由Apriori_gen(L2)生成C3,扫描事务数据库D,对C3中的每个项目进行计数,取出C3中大于最小支持数的项集(其中{A,B,C},{A,B,F},{A,C,F}三个项集的支持数为1,小于最小支持数2,因此删除这三项,留下计数大于最小支持数的项集),最终得到L3,其中{B,C,F}是最后得到的频集作为中心副本编目,生成过程如图4所示,以图书电子资源数据为基础数据生成的中心副本编目结果如图6所示(筛选了丛书编者,卷数,等非频繁项集字段)。
本发明已经通过实验得到分级副本编目和中心副本编目,并已用于图书电子资源联合检索平台,检索效果理想,和设计的预期一致。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (1)
1.一种基于Apriori算法的图书电子资源联合编目方法,其特征在于,包括以下步骤:
101、利用各个高校图书电子资源数据库提供接口,实现将图书电子资源的各种数据库资源整合到图书电子资源联合检索平台上;
102、将步骤101整合的事务数据库资源采用Apriori算法生成分级副本编目,即通过挖掘数据之间的关联规则生成分级副本编目,具体步骤为:
A、预先设定最小支持数mincount,扫描事务数据库DB并计数得到C1,找出满足最小支持计数的1-频繁项集,记为L1;
B、重新组合L1中的项集产生候选集C2,再次扫描事务数据库,找出满足最小支持计数的2-频繁项集L2,得到分级副本编目的频繁项集L2;
103、根据步骤102中得到的分级副本编目L2,由Apriori_gen(L2)重新组合L2中的项集产生候选集C3,删除候选集C3中不属于L2的候选项集;如此循环下去,直到不能找到新的频繁k-项集,即扫描事务数据库,发现Li为空集,则算法结束,最后得到的频集作为中心副本编目,然后利用所得到的分级副本编目及中心副本编目进行联合编目,通过联合编目进行图书电子资源资源检索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510166306.9A CN104750845A (zh) | 2015-04-09 | 2015-04-09 | 一种基于Apriori算法的图书电子资源联合编目方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510166306.9A CN104750845A (zh) | 2015-04-09 | 2015-04-09 | 一种基于Apriori算法的图书电子资源联合编目方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104750845A true CN104750845A (zh) | 2015-07-01 |
Family
ID=53590529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510166306.9A Pending CN104750845A (zh) | 2015-04-09 | 2015-04-09 | 一种基于Apriori算法的图书电子资源联合编目方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104750845A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149751A (zh) * | 2007-10-29 | 2008-03-26 | 浙江大学 | 用于分析中医方剂药物组配规律的泛化关联规则挖掘方法 |
US20150052101A1 (en) * | 2013-08-16 | 2015-02-19 | Hon Hai Precision Industry Co., Ltd. | Electronic device and method for transmitting files |
-
2015
- 2015-04-09 CN CN201510166306.9A patent/CN104750845A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149751A (zh) * | 2007-10-29 | 2008-03-26 | 浙江大学 | 用于分析中医方剂药物组配规律的泛化关联规则挖掘方法 |
US20150052101A1 (en) * | 2013-08-16 | 2015-02-19 | Hon Hai Precision Industry Co., Ltd. | Electronic device and method for transmitting files |
Non-Patent Citations (3)
Title |
---|
张海燕: ""数据挖掘技术应用于大学图书馆***研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
林郎碟: ""Apriori算法在图书推荐服务中的应用与研究"", 《计算机技术与发展》 * |
梁子乐,等: ""基于Apriori算法的图书信息管理***"", 《微计算机信息》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103631909B (zh) | 对大规模结构化和非结构化数据联合处理的***及方法 | |
CN106126543B (zh) | 一种关系型数据库到MongoDB的模型转换和数据迁移方法 | |
CN103617217B (zh) | 一种基于层次索引的图像检索方法及*** | |
CN104133867A (zh) | 分布式顺序表片内二级索引方法及*** | |
CN103970853A (zh) | 优化搜索引擎的方法及装置 | |
CN111382226A (zh) | 一种数据库查询检索方法、装置和电子设备 | |
CN103020281A (zh) | 一种基于空间数据数值索引的数据存储与检索方法 | |
CN105550375A (zh) | 一种异构数据的整合方法及*** | |
CN111506621A (zh) | 一种数据统计方法及装置 | |
JP2019512125A (ja) | データベースのアーカイビング方法及び装置、アーカイビングされたデータベースの検索方法及び装置 | |
CN104834650A (zh) | 一种有效查询任务生成方法及*** | |
Kricke et al. | Graph data transformations in Gradoop | |
CN106294792A (zh) | 关联查询***的建立方法及建立*** | |
CN113704248B (zh) | 一种基于外置索引的区块链查询优化方法 | |
CN106462591A (zh) | 使用存储器中的智能索引的分区过滤 | |
CN101894161B (zh) | 一种用于实时监控的循环事件存取方法和装置 | |
CN103870489A (zh) | 基于搜索日志的中文人名自扩展识别方法 | |
CN104714956A (zh) | 一种异构记录集对比方法及装置 | |
CN110825792A (zh) | 基于golang中间件协程模式下的高并发分布式数据检索方法 | |
CN104750845A (zh) | 一种基于Apriori算法的图书电子资源联合编目方法 | |
CN107577690B (zh) | 海量信息数据的推荐方法及推荐装置 | |
CN105512161A (zh) | 一种唐卡图像感兴趣区域语义标注和检索*** | |
Olawumi et al. | Scientometric review and analysis: A case example of smart buildings and smart cities | |
CN106952198A (zh) | 一种基于Apriori算法的学生就业数据分析方法 | |
CN111107493B (zh) | 一种移动用户位置预测方法与*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150701 |
|
RJ01 | Rejection of invention patent application after publication |