CN104537116B

CN104537116B - 一种基于标签的图书搜索方法

Info

Publication number: CN104537116B
Application number: CN201510035855.2A
Authority: CN
Inventors: 张寅�; 张鹏
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-01-23
Filing date: 2015-01-23
Publication date: 2017-10-31
Anticipated expiration: 2035-01-23
Also published as: CN104537116A

Abstract

本发明公开了一种基于标签的图书搜索方法。采用标签来描述图书的主题内容，并将标签加入图书搜索***的索引文件中。用户可以将标签作为搜索关键词从而利用传统的文本搜索技术获得相对广泛的搜索结果，或者利用标签作为搜索限定条件进行搜索结果过滤，从而可以方便用户更快、更准的找到所需图书。此外，本***还依据标签与搜索语句的相关程度向用户进行搜索意图推荐，并且支持多维度、搜索语句模糊/精确匹配等功能。本发明可以较好的满足图书搜索这一场景，提供了更友好的人机交互方式，大幅提高***的可用性。

Description

一种基于标签的图书搜索方法

技术领域

本发明涉及数字图书馆的数字资源搜索领域，尤其涉及一种基于标签的图书搜索方法。

背景技术

近年来互联网上涌入了海量的信息内容，为了方便管理和检索信息，业界提出了许多高效的基于文本的信息检索技术。

与此同时，随着数字图书馆的兴起，它在数字资源检索领域呈现出与文本检索不同的特点，例如搜索限制条件更加严格、元数据文本信息少等。

在图书搜索这一场景中，用户在搜索图书时，往往处于以下几种状态之一：

(1)知道自己需要的书是哪一类书，但是不知道这个类别的书下面具体有哪些图书，也不知道哪一本所述能容更适合自己；

(2)知道自己想要某一本书，但是记不清完整的书名、出版社等信息；

(3)明确知道自己需要的图书书名、出版社、版次等信息。

传统的图书搜索***往往更关注场景2和3，提供了完整的搜索限制条件，包括书名、作者、出版社、出版时间、馆藏位置等多维度条件。但是这种搜索方式在面对场景1时，无法对用户提供有效的搜索指引，并且由于过多的查询限制条件，使得人机交互界面趋于复杂，因此难以使用，用户体验较差。

而在传统的文本搜索领域，则更关注场景1和2。因为在全文搜索领域，文本没有统一的结构，因此搜索的维度只限于关键词匹配、限制条件较少，导致搜素结果往往很宽泛，难以支持场景3。

为了提高对数字资源的检索、管理能力，我们需要在通用文本检索技术上做出改进，提出一种新的图书搜索模式，能够有效支持数字资源的特点，并支持上述图书搜索场景下的3种需求。

发明内容

本发明的目的是为了在通用文本检索技术上做出改进，提出一种适用于数字图书检索特点的搜索方法，该方法具有更友好的人机交互方式，提供更完善的搜索功能，能够满足数字资源搜索限制条件更加严格、元数据文本信息少等特点。

基于标签的图书搜索方法包括以下步骤：

1)获取图书的元数据文本信息，包括由都柏林核心规范(Dublin Core Metadata)指定的15项数字资源元数据条目以及图书的章节目录，采用关键词提取算法生成图书的标签；

2)将图书的元数据和标签一起写入搜索***的索引文件***中，其中索引文件的生成和检索功能采用Lucene全文检索引擎工具包实现，索引文件的具体结构包括5个域：图书名称、图书作者、图书主题、出版社名称、图书标签，用户在进行图书检索时，会在上述五个域中进行文本匹配以获取搜索结果；

3)构建图书搜索的前端***，提供用户使用本***的图形界面。本***采用B/S模式构建，前台***采用基于WEB浏览器的图形用户界面，主要功能是提供图书搜索的界面以及搜索结果展示界面；为了支撑数字图书搜索场景的需求，前端***的用户交互途径分为2个部分：第一步是统一搜索，通过键入关键词进行搜索，获得相对广泛的搜索结果；第二步是添加标签、类型、出版社等约束条件进行更精确的查询。

4)构建图书搜索的后台***，并以Web Service的形式对外暴露服务接口。后台***的核心功能是提供图书搜索服务，图书搜索功能采用Lucene全文检索引擎工具包实现，并且采用RestLet框架以REST的方式暴露服务接口，前端***的搜索请求会调用图书搜索接口。

5)进行搜索意图推荐，利用图书和搜索语句的关联度、标签与图书的关联度信息计算出标签与搜索语句的关联度，获得关联度排名较高的标签，并随着搜索结果一起返回给用户；

本发明与现有技术相比具有的有益效果：

1.该***针对图书搜索的特点进行了人机交互方式优化，提供更友好的用户使用方式；

2.该***除了能够支持关键词搜索功能，还提供基于标签形式的搜索意图推荐功能；

3.该***支持多维度、多限制条件、搜索语句精确/模糊匹配等功能，更满足图书搜索的特点；

4.在搜索***中引入了标签，以标签来描述数字资源的主题内容，能够更好的向用户展示数字资源，帮助用户更好的了解搜索结果。

附图说明

图1是基于标签的搜索***中前端***的统一搜索界面；

图2是基于标签的搜索***中前端***的基于标签的二次搜索界面；

图3是基于标签的多维度限制条件搜索；

图4是基于标签的搜索***整体架构图。

具体实施方式

首先需要获取图书的元数据文本信息，图书的元数据信息往往存储在分布式文件***或者数据库中，因此我们需要从文件***或者数据库中读入元数据文件。本***应该获取的元数据包括由都柏林核心规范(Dublin Core Metadata)指定的15项数字资源元数据条目以及图书的章节目录文本信息，都柏林核心规范以XML的形式存储，因此需要解析XML文件，从中提取出相应的文本字段。此外，本***还采用了图书的章节目录文本信息，应尽可能包括：全文内容摘要、章节内容摘要、章节小结、目录中一级、二级、三级章节标题。

之后需要对上述文本字段进行分词、去停用词、词干化处理，接着采用TextRank关键词提取算法计算出词与图书之间的关联度，选取关联度较高的词作为图书的标签；

在获取到图书的标签之后，将图书的元数据和标签一起写入图书搜索***的索引文件中，其中索引文件的生成和检索功能采用Lucene全文检索引擎工具包实现。

索引文件的具体结构包括5个域：图书名称(Title)、图书作者(Creator)、图书主题(Subject)、出版社名称(Publisher)、图书标签，前4项在都柏林核心规范中有定义，第5项由本***生成。前4项在索引文件中应该存储两部分，第一部分是将域中文本分词后的单词集合，第二部分是域中文本未分词的一整段文本；第5项则只需要存储图书的标签集合。上述5个域在索引文件中均以压缩的方式存储。用户在进行图书检索时，本***满足会在上述五个域中进行文本匹配以获取搜索结果。

为了让用户方便的使用本***，需要构建图书搜索的前端***，***采用B/S模式构建，前台***采用基于WEB浏览器的图形用户界面，主要功能是提供图书搜索的界面以及搜索结果展示界面，本***的用户交互途径分为2个部分：

(1)统一搜索，通过键入关键词进行搜索，获得相对广泛的搜索结果；

(2)基于标签的搜索,通过添加标签、类型、出版社等约束条件进行更精确的查询。

之后构建图书搜索的后台***，后台***的核心功能是提供图书搜索服务，图书搜索功能采用Lucene全文检索引擎工具包实现，并且采用RestLet框架以REST WebService的方式暴露服务接口，前端***的搜索请求会调用图书搜索接口，经过后台图书搜索***的计算处理之后，再将搜索结果返回给前台***并展示。

后台***提供了多种方式来具体化用户的搜索意图,列举如下：

(1)用户通过点击类型、标签、出版社等信息可以缩小查询的范围，具体实现方式为在索引文件的图书标签域中进行基于布尔逻辑的搜索结果过滤，布尔逻辑规则可以根据具体的场景进行制定，不同的功能点可能具有不同的布尔逻辑；

(2)通过限制仅搜书名、作者可以限制查询维度，具体实现方式为在索引文件中选择只在图书名称或图书作者域中搜索；

(3)通过选择搜索词完全匹配可以实现精确搜索，具体实现方式为在索引文件的图书名称或者图书作者域中选择未分词的文本段进行搜索。

最后，为了帮助用户了解搜索结果的主题内容，***需要进行搜索意图推荐。当用户进行搜索操作时，得到Top N条搜索结果，每条结果都有多个标签。为了找出与搜索语句最相关的标签，需要对每个标签计算它与搜索语句的相关度评分，计算公式如下：

公式(1)的计算主要包括2个部分：计算图书与搜索语句之间的关联度S_i和计算标签与图书之间的关联度Relation(Tag,S_i)，并且需要对这两个值进行归一化处理，使得分值分布于区间[0,1]之间。归一化的目的是让文档与查询语句的相似度与标签与文档的相似度拥有用相同的量纲。其中S_i的计算方式可以采用Lucene全文检索引擎工具包中的查询语句和文档的相似度评分公式。Relation(Tag,S_i)的值在生成图书的标签时由TextRank方法计算得出，也可以使用CBTR算法计算。

在根据公式(1)算出标签与搜索语句的关联度之后，按关联度的数值大小降序排序，获得关联度排名Top N的标签，并随着搜索结果一起返回给用户界面并展示。N的取值范围需要结合前台界面的展示空间大小以及标签的数量决定，在本***中的推荐值为20，如果标签数量不够20则全部返回。

Claims

1.一种基于标签的图书搜索方法，其特征在于包括以下步骤：

1）获取图书的元数据文本信息，包括都柏林核心规范定义的15项数字资源元数据段以及图书的章节目录文本信息，再针对元数据文本信息采用关键词提取算法生成图书的标签；

2）将图书的元数据文本信息和步骤1）生成的标签一起写入搜索***的索引文件***中，索引文件的具体结构包括5个域：图书名称、图书作者、图书主题、出版社名称、图书标签，用户在进行图书检索时，会在上述五个域中进行文本匹配以获取搜索结果；

3）构建图书搜索的前端***，采用B/S模式，前端***是基于WEB浏览器的图形用户界面，功能是提供图书搜索的界面以及搜索结果展示界面；

4）构建图书搜索的后台***，并以Restful Web Service的形式对外暴露服务接口，后台***的功能是提供图书搜索服务，包括基于关键词的图书检索、多维度搜索条件约束、搜索语句精确/模糊匹配、搜索意图推荐功能，前端***的搜索请求会调用后台***的图书搜索接口；

5）进行搜索意图推荐，利用图书和搜索语句的关联度、标签与图书的关联度信息计算出标签与搜索语句的关联度，获得标签与搜索语句的关联度排名较高的标签，并随着搜索结果一起返回给用户。

2.根据权利要求1所述的基于标签的图书搜索方法，其特征在于：所述的步骤1）为：获取图书的元数据文本信息，图书的元数据文本信息存储在分布式文件***或者数据库中，图书搜索***获取的元数据文本信息包括由都柏林核心规范指定的15项数字资源元数据条目以及图书的章节文本信息，之后需要对元数据文本信息进行分词、去停用词、词干化处理，之后采用TextRank关键词提取算法计算出词与图书之间的关联度，选取关联度较高的词作为图书的标签。

3.根据权利要求1所述的基于标签的图书搜索方法，其特征在于：所述的步骤2）为：将图书的元数据文本信息和步骤1）生成的标签一起写入搜索***的索引文件***中，其中索引文件的生成和检索功能采用Lucene全文检索引擎工具包实现，索引文件的具体结构包括5个域：图书名称、图书作者、图书主题、出版社名称、图书标签，前4项在都柏林核心规范中有定义，第5项由步骤1）生成，前4项在索引文件中存储两部分，第一部分是将域中文本分词后的单词集合，第二部分是域中文本未分词的一整段文本；第5项则只需要存储图书的标签集合，上述5个域在索引文件中均以压缩的方式存储，用户在进行图书检索时，图书搜索***会在上述五个域中进行文本匹配以获取搜索结果。

4.根据权利要求1所述的基于标签的图书搜索方法，其特征在于:所述的步骤3）为：构建图书搜索的前端***，***采用B/S模式构建，前端***采用基于WEB浏览器的图形用户界面，功能是提供图书搜索的界面以及搜索结果展示界面，图书搜索***的用户交互途径分为2个部分：第一步是统一搜索，通过键入关键词进行搜索，获得相对广泛的搜索结果；第二步是添加标签、类型、出版社约束条件进行更精确的查询。

5.根据权利要求1所述的基于标签的图书搜索方法，其特征在于：所述的步骤4）为：构建图书搜索的后台***，后台***的功能是提供图书搜索服务，图书搜索功能采用Lucene全文检索引擎工具包实现，并且采用RestLet框架以Restful Web Service的方式暴露服务接口，前端***的搜索请求会调用图书搜索接口，后台***提供了三种方式来具体化用户的搜索意图：

(1)用户通过点击类型、标签、出版社信息缩小查询的范围，具体实现方式为在索引文件的图书标签域中进行基于布尔逻辑的搜索结果过滤；

(2)通过限制仅搜书名、作者限制查询维度，具体实现方式为在索引文件中选择只在图书名称或图书作者域中搜索；

(3)通过选择搜索词完全匹配实现精确搜索，具体实现方式为在索引文件的图书名称或者图书作者域中选择未分词的文本段进行搜索。

6.根据权利要求1所述的基于标签的图书搜索方法，其特征在于：所述的步骤5）为：进行搜索意图推荐，利用Lucene全文检索引擎工具包获取图书和搜索语句的关联度、再利用CBTR标签排序算法算出标签与图书的关联度，之后将两者相乘并累加，计算出标签与搜索语句的关联度，获得标签与搜索语句的关联度排名较高的标签，并随着搜索结果一起返回给用户。