CN104750845A

CN104750845A - 一种基于Apriori算法的图书电子资源联合编目方法

Info

Publication number: CN104750845A
Application number: CN201510166306.9A
Authority: CN
Inventors: 葛君伟; 顾小龙; 方义秋; 贺茜
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2015-04-09
Filing date: 2015-04-09
Publication date: 2015-07-01

Abstract

本发明请求保护一种基于Apriori算法的图书电子资源联合编目方法，主要利用各个高校图书电子资源数据库提供接口，实现将图书电子资源的各种数据库资源整合到图书电子资源联合检索平台上，编目包括两个部分，第一部分是Apriori算法生成分级副本编目，即通过挖掘数据之间的关联规则生成分级副本编目。第二部分是Apriori算法生成中心副本编目，即在分级副本编目的基础上再利用Apriori算法进行关联规则的挖掘，获取最终的中心副本编目，通过数据资源的联合编目，进而提高数据资源检索和查询的效率。

Description

一种基于Apriori算法的图书电子资源联合编目方法

技术领域

本发明属于图书电子资源管理方法领域、具体为一种基于Apriori算法的图书电子资源联合编目方法。

背景技术

由于图书电子资源来自不同平台，如何更好管理海量数据资源，如何从庞大的数据库中发掘有价值的信息，提高图书馆管理水平，更好地为读者服务，是值得深思的问题。而数据挖掘(Data Mining，DM)技术为人们从海量的数据存储中抽取模式、找出数据变化的规律和数据之间的相互关系提供了方法。其中关联规则是数据挖掘领域一个重要的研究任务，就是发现数据项之间潜在的关联，找出大量数据之间未知的依赖关系。

但是从检索的结果来看，现在对于图书电子资源的数据挖掘的相关研究还比较少。图书电子资源的图书馆管理水平还处于原始的数据标签利用阶段，数据资源检索慢和查询的效率低，如何利用数据挖掘技术，提高数据资源检索和查询的效率就成为一个亟待解决的问题。

在本专利申请中，首先利用各个高校图书电子资源数据库提供接口，实现将图书电子资源的各种数据库资源整合到图书电子资源联合检索平台上，解决图书电子资源的各个应用***分割的局势，将来源不同，结构不同，用法不同的各种数据库资源集中到统一平台上。再利用数据挖掘算法挖掘数据资源的关联规则，生成分级副本编目和中心副本编目，通过数据资源的联合编目，进而提高数据资源检索和查询的效率。

发明内容

针对现有技术中图书馆数据资源检索慢和查询的效率低的问题，本发明提供了一种数据资源检索快和提高查询的效率的基于Apriori算法的图书电子资源联合编目方法,本发明的技术方案如下：一种基于Apriori算法的图书电子资源联合编目方法，其包括以下步骤：

101、利用各个高校图书电子资源数据库提供接口，实现将图书电子资源的各种数据库资源整合到图书电子资源联合检索平台上；

102、将步骤101整合的事务数据库资源采用Apriori算法生成分级副本编目，即通过挖掘数据之间的关联规则生成分级副本编目，具体步骤为：

A、预先设定最小支持数mincount，扫描事务数据库DB并计数得到C1，找出满足最小支持计数的1-频繁项集,记为L₁；

B、重新组合L₁中的项集产生候选集C₂，再次扫描事务数据库，找出满足最小支持计数的2-频繁项集L₂，得到分级副本编目的频繁项集L₂；

103、根据步骤102中得到的分级副本编目L₂，由Apriori_gen(L2)重新组合L₂中的项集产生候选集C₃，删除候选集C₃中不属于L₂的候选项集；如此循环下去，直到不能找到新的频繁k-项集，即扫描事务数据库，发现L_i为空集，则算法结束，最后得到的频集作为中心副本编目，然后利用所得到的分级副本编目及中心副本编目进行联合编目，通过联合编目进行图书电子资源资源检索。

本发明的优点及有益效果如下：

本发明提出了一种基于Apriori算法的图书电子资源联合编目方法。通过对图书电子资源整合，利用Apriori算法生成中心副本编目和分级副本编目，在进行图书电子资源检索时，直接从分级副本编目和中心副本编目里面进行查找检索，极大的提高了图书电子资源检索速度和效率。

附图说明

图1是本发明优选实施例的总体生成编目方案示意图；

图2是本发明优选实施例的的Apriori算法流程图；

图3是本发明优选实施例的Apriori算法生成分级副本编目示意图；

图4是本发明优选实施例的Apriori算法生成分级副本编目结果图；

图5是本发明优选实施例的Apriori算法生成中心副本编目示意图；

图6是本发明优选实施例的Apriori算法生成中心副本编目结果图；

具体实施方式

以下结合附图，对本发明作进一步说明：

本发明包括两个部分，第一部分是Apriori算法生成分级副本编目，即通过挖掘数据之间的关联规则生成分级副本编目。第二部分是Apriori算法生成中心副本编目，即在分级副本编目的基础上再利用Apriori算法进行关联规则的挖掘，获取最终的中心副本编目，其总体设计方案如图1所示。

详细方案描述

1)Apriori算法生成分级副本编目

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

Apriori算法使用层次顺序搜索的循环方法产生频繁项集，即用频繁k-项集探索产生(k+1)-项集。首先，找出长度为1的频繁项集，记为L₁，用于产生频繁2-项集L₂的集合，而L₂用于产生频繁3-项集L₃的，如此循环下去，直到不能找到新的频繁k-项集。找每个L_k需要扫描数据库一次,算法流程图如图2所示。

在这里我们假设图书电子资源事务数据库DB中包含4个事务，即|DB|＝4，最小支持数mincount＝2，即最小支持度minsup＝2/4＝50％。挖掘频繁项目集的具体过程如下所述：

(1)数据过滤

首先对事务数据库DB进行扫描并且计数，得到C1，此时取出计数大于最小支持数的项集(其中项集{D}的支持数为1小于最小支持数2，因此删除{D}项集)，产生L1＝{{A},{B},{C},{F}}。由于第一次数据库扫描产生的关联规则会产生冗余数据，所以继续对数据库进行第二次扫描。

(2)分级副本编目的生成

此时由Apriori_gen(L1)(产生相应的候选项集)生成C2，扫描数据库DB，对C2中的每个项集进行计数(其中{A，B}，{A，C}支持数为1，小于最小支持数2，因此删除{A，B}，{A，C}两个项集)，计算C2中每个候选集得到L2，此时所得到L2的中的频繁项集{A，C}，{B，C},{B，F}，{C，F}作为事物数据库的分级副本编目，生成过程如图3所示，以图书电子资源数据为基础数据所抽取的频集数据项分级副本编目结果如图4所示。

2)Apriori算法生成中心副本编目

根据生成的分级副本编目L2，由Apriori_gen(L2)生成C3，扫描事务数据库D，对C3中的每个项目进行计数，取出C3中大于最小支持数的项集(其中{A，B，C}，{A，B，F}，{A，C，F}三个项集的支持数为1，小于最小支持数2，因此删除这三项，留下计数大于最小支持数的项集)，最终得到L3，其中{B，C，F}是最后得到的频集作为中心副本编目，生成过程如图4所示，以图书电子资源数据为基础数据生成的中心副本编目结果如图6所示(筛选了丛书编者，卷数，等非频繁项集字段)。

本发明已经通过实验得到分级副本编目和中心副本编目，并已用于图书电子资源联合检索平台，检索效果理想，和设计的预期一致。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于Apriori算法的图书电子资源联合编目方法，其特征在于，包括以下步骤：