CN103049454B

CN103049454B - 一种基于多标签分类的中英文搜索结果可视化***

Info

Publication number: CN103049454B
Application number: CN201110312662.9A
Authority: CN
Inventors: 卫志华; 苗夺谦
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2011-10-16
Filing date: 2011-10-16
Publication date: 2016-04-20
Anticipated expiration: 2031-10-16
Also published as: CN103049454A

Abstract

本发明涉及一种基于多标签分类的中英文搜索结果可视化***，该***包括：显示模块，用于显示用户界面及搜索结果；搜索模块，用于根据用户查询语句调用搜索引擎API进行搜索，并获取搜索结果，分别整合中文和英文的搜索结果；分类模块，用于对搜索模块获取的结果进行中英文多标签分类，并对分类结果进行整合；可视化模块，用于对整合后的分类结果实现Web用户界面设计，并通过显示模块输出。与现有技术相比，本发明借鉴粒计算细想，通过采用基于贝叶斯理论的多标签分类方法，可对搜索结果进行有效的多标签分类和整合，通过采用该方法设计可视化***，能够根据用户的需求按类别显示搜索结果，同时尽量做到不丢失搜索结果，提高用户浏览效率，改善用户浏览体验。

Description

一种基于多标签分类的中英文搜索结果可视化***

技术领域

本发明涉及信息技术领域，尤其是涉及一种基于多标签分类的中英文搜索结果可视化***。

背景技术

目前，网上电子文档迅猛增长，每天都有大量的文档上传到网上。搜索引擎，作为获取网络知识的一种重要方法，得到了越来越广泛的应用。然而，搜索引擎往往返回大量的搜索结果，这使用户常常被淹没在信息的海洋中。当前主流的搜索引擎返回根据用户关键字排序的搜索结果。为了找到感兴趣的信息，用户需要逐条浏览搜索结果。

针对以上问题，一些人开始探索更先进的信息检索方法。通常来说，有两种方式：一种是基于语义的信息检索方法，即力求采用语义分析技术理解文档和用户的查询语句；另一种是基于机器学习的方法，即运用从历史数据中学习到的模型对搜索结果中的文档进行分类或者聚类。本发明关注基于机器学习的方法来改进信息检索结果的问题。

网页搜索结果可视化指根据搜索结果的内容，将搜索结果以一种更清晰、更条理的方式展示给用户的过程。其目的在于提高查询效率，改善用户浏览体验。对于该任务，目前多数研究工作采用基于文本聚类的技术，即将可视化任务看作一个非监督的分类问题。根据模式分类的方法体系，我们首先从文本中抽取特征来表示文本，然后将文本分配到与其相似度最高的类簇中。基于聚类技术的搜索引擎有Vivisimo和Groker。在这种方法中，类簇的名称通常由***根据特征词自动给出。然而，这种自动获取的类簇名称往往很难表达类簇的主要内容。这就使用户很难根据***给定的类簇名来定位自己感兴趣的信息的位置，这种可视化过程的作用就不明显了。

与传统的模式分类任务中一个对象对应一个类别标签不同，在多标签分类中，一个对象可能与多个标签相关联，比如一篇文档可能与经济相关，同时还可能与计算机相关，因此该文档与经济和计算机两个类别相关。多标签分类起源于文本分类任务的需求，其中训练集中每篇文档与一个标签集合相关联，分类的任务就是训练文档与已知标签集合之间关系的模型，并根据该模型为每篇标签未知的文档输出一个标签集合。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多标签的中英文搜索结果信息分类方法以及应用该信息分类方法的中英文搜索结果可视化***，借鉴粒计算思想，能够根据用户的需求按类别显示搜索结果，提高用户浏览效率，改善用户浏览体验。

本发明的目的可以通过以下技术方案来实现：

一种基于多标签分类的中英文搜索结果可视化***，该***包括：

显示模块，用于显示用户界面及搜索结果；搜索模块，用于根据用户查询语句调用搜索引擎API进行搜索，并获取搜索结果，分别整合中文和英文的搜索结果；分类模块，用于对搜索模块获取的结果进行中英文多标签分类，并对分类结果进行整合；可视化模块，用于对整合后的分类结果实现Web用户界面设计，并通过显示模块输出。

所述的分类模块包括：分类器，用于对搜索模块获取的结果进行中英文多标签分类，并进行分类结果整合；分类语料库，该分类语料库为不平衡语料库，包括若干个类别的多标签语料库，用于训练分类器。

所述的分类语料库包括中文分类语料库和英文分类语料库。

所述的分类模块采用基于贝叶斯理论的中英文多标签分类方法进行分类，该方法具体包括以下步骤：

1)构建中文和英文分类语料库；

2)分类器通过分类语料库进行离线学习；

3)分类器分别对中文和英文的搜索结果进行分类，同时进行在线学习；

4)对分类结果进行整合。

所述的步骤2)具体包括以下步骤：

A)遍历分类语料库中的训练文本；

B)对训练文本进行预处理；

C)扫描训练文本，记录每个特征词的词频信息，加入HashMap中；

D)根据HashMap中词频统计信息计算每个特征词的条件概率，并且将所得结果保存至文件中。

所述的步骤3)具体包括以下步骤：

a)从训练过程生成文件中读入特征词及其统计信息，并加入HashMap中；

b)对未知文本进行预处理，生成特征词集合；

c)遍历所有特征词，并在步骤a)中生成的HashMap中查找每个特征词对每个类别的条件概率；

d)根据每个特征词对于每个类别的条件概率，计算出该未知文本对于所有类别的联合概率；

e)根据所有得到的联合概率，计算出概率阈值；

f)为该未知文本分配所有联合概率不小于概率阈值的类别标签，并输出标签；

g)在HashMap中修改该未知文本中特征词对应于分类结果给出的类别中的条件概率；

h)分类过程结束。

所述的概率阈值P_thres为未知文本d_i对于所有已知类别的后验概率的算术平均数：

P_{thres} = \frac{1}{n} Σ_{j = 1}^{n} P (C_{j} | d_{i})

P(C_j|d_i)为未知文本d_i属于某类别C_j的概率，n为类别个数，若P(C_j|d_i)≥P_thres，d_i赋予类别C_j的标签，d_i的标签数量n_d满足1≤n_d≤n。

与现有技术相比，本发明借鉴粒计算细想，通过采用基于贝叶斯理论的多标签分类方法，可对搜索结果进行有效分类和整合，通过采用该方法设计可视化***，能够根据用户的需求按类别显示搜索结果，提高用户浏览效率，改善用户浏览体验。

附图说明

图1为本发明的结构示意图；

图2为本发明分类算法的示意图；

图3为本发明的分类模块所采用的基于贝叶斯理论的中英文多标签分类方法的流程图；

图4为基于贝叶斯理论的中英文多标签分类方法中离线学习的流程图；

图5为基于贝叶斯理论的中英文多标签分类方法中分类和在线学习的流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种基于多标签分类的中英文搜索结果可视化***，包括显示模块1、搜索模块2、分类模块3和可视化模块4。其中显示模块1用于显示用户界面及搜索结果；搜索模块2用于根据用户查询语句调用搜索引擎API进行搜索，并获取搜索结果，分别整合中文和英文的搜索结果；分类模块3用于对搜索模块获取的结果进行中英文多标签分类，并对分类结果进行整合；可视化模块4用于对整合后的分类结果实现Web用户界面设计，并通过显示模块1输出。

首先在显示模块1用户输入搜索查询语句，搜索模块2调用搜索引擎进行搜索，并获取搜索结果，分别整合中文和英文的搜索结果，然后分类模块3通过上述的信息分类方法对搜索模块2获取的结果进行中英文多标签分类，并对分类结果进行整合。最后可视化模块4用于对整合后的分类结果进行Web用户界面设计，并通过显示模块1输出给用户，可采用Struts2作为MVC视图的架构，容器选择了ApacheGeronimo2.x+Jetty6的组合，这保证了在满足使用需求的同时，减少了部署时在软件方面的开支。在网页前端采用AJAX的技术，实现了对用户选择分类下的搜索结果的动态更新。整个***的算法如图2所示。

本发明的分类模块采用基于贝叶斯理论的中英文多标签分类方法进行分类，该方法包括以下步骤：1)构建分类语料库；2)分类器通过分类语料库进行离线学习；3)分类器分别对中文和英文的搜索结果进行分类，同时进行在线学习；4)对分类结果进行整合，如图3所示。

为实现该方法需要构建中英文多标签分类语料库，先建立中文新闻语料库，并利用已有的英文Reuters语料库，用于训练分类器。此处采用新闻语料库为基础，人工筛选并标注其中部分新闻文本，构建了一个9个类别的多类多标签语料库。该语料库包含经济，军事，体育，娱乐，科技，社会，商务，教育，旅游9个类别共5084篇文本，该语料库为不平衡语料库，每一类别中的文本数量分配是在考虑实际生活中各类别信息量的情况下得到的。

分类器采用离线学习和在线学习相结合的方法来训练，首先建立一个新闻类的语料库进行离线学习，即训练Bayes多类多标签分类器，然后，在***的实际运行中有新的搜索结果(文本)到来时，不断修正和改善之前的学习模型。

离线学习实现步骤如图4所示，包括以下步骤：A)遍历分类语料库中的训练文本；B)对训练文本进行预处理；C)扫描训练文本，记录每个特征词的词频信息，加入HashMap中；D)根据HashMap中词频统计信息计算每个特征词的条件概率，并且将所得结果保存至文件中。

其中，HashMap用于存放训练文本的特征词及其统计信息，使用HashMap的可以在一定的时间复杂度内完成特征词的查询或某特征词统计信息的修改操作。

分类器的在线学习和分类同时进行，具体步骤如图5所示，包括：a)从训练过程生成文件中读入特征词及其统计信息，并加入HashMap中；b)对未知文本进行预处理，生成特征词集合；c)遍历所有特征词，并在步骤a)中生成的HashMap中查找每个特征词对每个类别的条件概率；d)根据每个特征词对于每个类别的条件概率，计算出该未知文本对于所有类别的联合概率；e)根据所有得到的联合概率，计算出概率阈值；f)为该未知文本分配所有联合概率不小于概率阈值的类别标签，并输出标签；g)在HashMap中修改该未知文本中特征词对应于分类结果给出的类别中的条件概率；h)分类过程结束。

其中，概率阈值P_thres为未知文本d_i对于所有已知类别的后验概率的算术平均数：

P_{thres} = \frac{1}{n} Σ_{j = 1}^{n} P (C_{j} | d_{i})

Claims

1.一种基于多标签分类的中英文搜索结果可视化***，其特征在于，该***包括：

显示模块，用于显示用户界面及搜索结果；

搜索模块，用于根据用户查询语句调用搜索引擎API进行搜索，并获取搜索结果，分别整合中文和英文的搜索结果；

分类模块，用于对搜索模块获取的结果进行中英文多标签分类，并对分类结果进行整合；

可视化模块，用于对整合后的分类结果实现Web用户界面设计，并通过显示模块输出，所述可视化模块采用Struts2作为MVC视图的架构，容器选择ApacheGeronimo2.x+Jetty6的组合；

1)构建中文和英文分类语料库，所述中文和英文分类语料库均为多类多标签语料库；

2)分类器通过分类语料库进行离线学习；

4)对分类结果进行整合。

2.根据权利要求1所述的一种基于多标签分类的中英文搜索结果可视化***，其特征在于，所述的分类模块包括：

分类器，用于对搜索模块获取的结果进行中英文多标签分类，并进行分类结果整合；

分类语料库，该分类语料库为不平衡语料库，包括若干个类别的多标签语料库，用于训练分类器。

3.根据权利要求2所述的一种基于多标签分类的中英文搜索结果可视化***，其特征在于，所述的分类语料库包括中文分类语料库和英文分类语料库。

4.根据权利要求1所述的一种基于多标签分类的中英文搜索结果可视化***，其特征在于，所述的步骤3)具体包括以下步骤：

b)对未知文本进行预处理，生成特征词集合；

e)根据所有得到的联合概率，计算出概率阈值；

h)分类过程结束。

5.根据权利要求4所述的一种基于多标签分类的中英文搜索结果可视化***，其特征在于，所述的概率阈值P_thres为未知文本d_i对于所有已知类别的后验概率的算术平均数：

P_{t h r e s} = \frac{1}{n} Σ_{j = 1}^{n} P (C_{j} | d_{i})