CN103049454B - 一种基于多标签分类的中英文搜索结果可视化*** - Google Patents

一种基于多标签分类的中英文搜索结果可视化*** Download PDF

Info

Publication number
CN103049454B
CN103049454B CN201110312662.9A CN201110312662A CN103049454B CN 103049454 B CN103049454 B CN 103049454B CN 201110312662 A CN201110312662 A CN 201110312662A CN 103049454 B CN103049454 B CN 103049454B
Authority
CN
China
Prior art keywords
classification
chinese
english
search results
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110312662.9A
Other languages
English (en)
Other versions
CN103049454A (zh
Inventor
卫志华
苗夺谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201110312662.9A priority Critical patent/CN103049454B/zh
Publication of CN103049454A publication Critical patent/CN103049454A/zh
Application granted granted Critical
Publication of CN103049454B publication Critical patent/CN103049454B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于多标签分类的中英文搜索结果可视化***,该***包括:显示模块,用于显示用户界面及搜索结果;搜索模块,用于根据用户查询语句调用搜索引擎API进行搜索,并获取搜索结果,分别整合中文和英文的搜索结果;分类模块,用于对搜索模块获取的结果进行中英文多标签分类,并对分类结果进行整合;可视化模块,用于对整合后的分类结果实现Web用户界面设计,并通过显示模块输出。与现有技术相比,本发明借鉴粒计算细想,通过采用基于贝叶斯理论的多标签分类方法,可对搜索结果进行有效的多标签分类和整合,通过采用该方法设计可视化***,能够根据用户的需求按类别显示搜索结果,同时尽量做到不丢失搜索结果,提高用户浏览效率,改善用户浏览体验。

Description

一种基于多标签分类的中英文搜索结果可视化***
技术领域
本发明涉及信息技术领域,尤其是涉及一种基于多标签分类的中英文搜索结果可视化***。
背景技术
目前,网上电子文档迅猛增长,每天都有大量的文档上传到网上。搜索引擎,作为获取网络知识的一种重要方法,得到了越来越广泛的应用。然而,搜索引擎往往返回大量的搜索结果,这使用户常常被淹没在信息的海洋中。当前主流的搜索引擎返回根据用户关键字排序的搜索结果。为了找到感兴趣的信息,用户需要逐条浏览搜索结果。
针对以上问题,一些人开始探索更先进的信息检索方法。通常来说,有两种方式:一种是基于语义的信息检索方法,即力求采用语义分析技术理解文档和用户的查询语句;另一种是基于机器学习的方法,即运用从历史数据中学习到的模型对搜索结果中的文档进行分类或者聚类。本发明关注基于机器学习的方法来改进信息检索结果的问题。
网页搜索结果可视化指根据搜索结果的内容,将搜索结果以一种更清晰、更条理的方式展示给用户的过程。其目的在于提高查询效率,改善用户浏览体验。对于该任务,目前多数研究工作采用基于文本聚类的技术,即将可视化任务看作一个非监督的分类问题。根据模式分类的方法体系,我们首先从文本中抽取特征来表示文本,然后将文本分配到与其相似度最高的类簇中。基于聚类技术的搜索引擎有Vivisimo和Groker。在这种方法中,类簇的名称通常由***根据特征词自动给出。然而,这种自动获取的类簇名称往往很难表达类簇的主要内容。这就使用户很难根据***给定的类簇名来定位自己感兴趣的信息的位置,这种可视化过程的作用就不明显了。
与传统的模式分类任务中一个对象对应一个类别标签不同,在多标签分类中,一个对象可能与多个标签相关联,比如一篇文档可能与经济相关,同时还可能与计算机相关,因此该文档与经济和计算机两个类别相关。多标签分类起源于文本分类任务的需求,其中训练集中每篇文档与一个标签集合相关联,分类的任务就是训练文档与已知标签集合之间关系的模型,并根据该模型为每篇标签未知的文档输出一个标签集合。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多标签的中英文搜索结果信息分类方法以及应用该信息分类方法的中英文搜索结果可视化***,借鉴粒计算思想,能够根据用户的需求按类别显示搜索结果,提高用户浏览效率,改善用户浏览体验。
本发明的目的可以通过以下技术方案来实现:
一种基于多标签分类的中英文搜索结果可视化***,该***包括:
显示模块,用于显示用户界面及搜索结果;搜索模块,用于根据用户查询语句调用搜索引擎API进行搜索,并获取搜索结果,分别整合中文和英文的搜索结果;分类模块,用于对搜索模块获取的结果进行中英文多标签分类,并对分类结果进行整合;可视化模块,用于对整合后的分类结果实现Web用户界面设计,并通过显示模块输出。
所述的分类模块包括:分类器,用于对搜索模块获取的结果进行中英文多标签分类,并进行分类结果整合;分类语料库,该分类语料库为不平衡语料库,包括若干个类别的多标签语料库,用于训练分类器。
所述的分类语料库包括中文分类语料库和英文分类语料库。
所述的分类模块采用基于贝叶斯理论的中英文多标签分类方法进行分类,该方法具体包括以下步骤:
1)构建中文和英文分类语料库;
2)分类器通过分类语料库进行离线学习;
3)分类器分别对中文和英文的搜索结果进行分类,同时进行在线学习;
4)对分类结果进行整合。
所述的步骤2)具体包括以下步骤:
A)遍历分类语料库中的训练文本;
B)对训练文本进行预处理;
C)扫描训练文本,记录每个特征词的词频信息,加入HashMap中;
D)根据HashMap中词频统计信息计算每个特征词的条件概率,并且将所得结果保存至文件中。
所述的步骤3)具体包括以下步骤:
a)从训练过程生成文件中读入特征词及其统计信息,并加入HashMap中;
b)对未知文本进行预处理,生成特征词集合;
c)遍历所有特征词,并在步骤a)中生成的HashMap中查找每个特征词对每个类别的条件概率;
d)根据每个特征词对于每个类别的条件概率,计算出该未知文本对于所有类别的联合概率;
e)根据所有得到的联合概率,计算出概率阈值;
f)为该未知文本分配所有联合概率不小于概率阈值的类别标签,并输出标签;
g)在HashMap中修改该未知文本中特征词对应于分类结果给出的类别中的条件概率;
h)分类过程结束。
所述的概率阈值Pthres为未知文本di对于所有已知类别的后验概率的算术平均数:
P thres = 1 n Σ j = 1 n P ( C j | d i )
P(Cj|di)为未知文本di属于某类别Cj的概率,n为类别个数,若P(Cj|di)≥Pthres,di赋予类别Cj的标签,di的标签数量nd满足1≤nd≤n。
与现有技术相比,本发明借鉴粒计算细想,通过采用基于贝叶斯理论的多标签分类方法,可对搜索结果进行有效分类和整合,通过采用该方法设计可视化***,能够根据用户的需求按类别显示搜索结果,提高用户浏览效率,改善用户浏览体验。
附图说明
图1为本发明的结构示意图;
图2为本发明分类算法的示意图;
图3为本发明的分类模块所采用的基于贝叶斯理论的中英文多标签分类方法的流程图;
图4为基于贝叶斯理论的中英文多标签分类方法中离线学习的流程图;
图5为基于贝叶斯理论的中英文多标签分类方法中分类和在线学习的流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于多标签分类的中英文搜索结果可视化***,包括显示模块1、搜索模块2、分类模块3和可视化模块4。其中显示模块1用于显示用户界面及搜索结果;搜索模块2用于根据用户查询语句调用搜索引擎API进行搜索,并获取搜索结果,分别整合中文和英文的搜索结果;分类模块3用于对搜索模块获取的结果进行中英文多标签分类,并对分类结果进行整合;可视化模块4用于对整合后的分类结果实现Web用户界面设计,并通过显示模块1输出。
首先在显示模块1用户输入搜索查询语句,搜索模块2调用搜索引擎进行搜索,并获取搜索结果,分别整合中文和英文的搜索结果,然后分类模块3通过上述的信息分类方法对搜索模块2获取的结果进行中英文多标签分类,并对分类结果进行整合。最后可视化模块4用于对整合后的分类结果进行Web用户界面设计,并通过显示模块1输出给用户,可采用Struts2作为MVC视图的架构,容器选择了ApacheGeronimo2.x+Jetty6的组合,这保证了在满足使用需求的同时,减少了部署时在软件方面的开支。在网页前端采用AJAX的技术,实现了对用户选择分类下的搜索结果的动态更新。整个***的算法如图2所示。
本发明的分类模块采用基于贝叶斯理论的中英文多标签分类方法进行分类,该方法包括以下步骤:1)构建分类语料库;2)分类器通过分类语料库进行离线学习;3)分类器分别对中文和英文的搜索结果进行分类,同时进行在线学习;4)对分类结果进行整合,如图3所示。
为实现该方法需要构建中英文多标签分类语料库,先建立中文新闻语料库,并利用已有的英文Reuters语料库,用于训练分类器。此处采用新闻语料库为基础,人工筛选并标注其中部分新闻文本,构建了一个9个类别的多类多标签语料库。该语料库包含经济,军事,体育,娱乐,科技,社会,商务,教育,旅游9个类别共5084篇文本,该语料库为不平衡语料库,每一类别中的文本数量分配是在考虑实际生活中各类别信息量的情况下得到的。
分类器采用离线学习和在线学习相结合的方法来训练,首先建立一个新闻类的语料库进行离线学习,即训练Bayes多类多标签分类器,然后,在***的实际运行中有新的搜索结果(文本)到来时,不断修正和改善之前的学习模型。
离线学习实现步骤如图4所示,包括以下步骤:A)遍历分类语料库中的训练文本;B)对训练文本进行预处理;C)扫描训练文本,记录每个特征词的词频信息,加入HashMap中;D)根据HashMap中词频统计信息计算每个特征词的条件概率,并且将所得结果保存至文件中。
其中,HashMap用于存放训练文本的特征词及其统计信息,使用HashMap的可以在一定的时间复杂度内完成特征词的查询或某特征词统计信息的修改操作。
分类器的在线学习和分类同时进行,具体步骤如图5所示,包括:a)从训练过程生成文件中读入特征词及其统计信息,并加入HashMap中;b)对未知文本进行预处理,生成特征词集合;c)遍历所有特征词,并在步骤a)中生成的HashMap中查找每个特征词对每个类别的条件概率;d)根据每个特征词对于每个类别的条件概率,计算出该未知文本对于所有类别的联合概率;e)根据所有得到的联合概率,计算出概率阈值;f)为该未知文本分配所有联合概率不小于概率阈值的类别标签,并输出标签;g)在HashMap中修改该未知文本中特征词对应于分类结果给出的类别中的条件概率;h)分类过程结束。
其中,概率阈值Pthres为未知文本di对于所有已知类别的后验概率的算术平均数:
P thres = 1 n Σ j = 1 n P ( C j | d i )
P(Cj|di)为未知文本di属于某类别Cj的概率,n为类别个数,若P(Cj|di)≥Pthres,di赋予类别Cj的标签,di的标签数量nd满足1≤nd≤n。

Claims (5)

1.一种基于多标签分类的中英文搜索结果可视化***,其特征在于,该***包括:
显示模块,用于显示用户界面及搜索结果;
搜索模块,用于根据用户查询语句调用搜索引擎API进行搜索,并获取搜索结果,分别整合中文和英文的搜索结果;
分类模块,用于对搜索模块获取的结果进行中英文多标签分类,并对分类结果进行整合;
可视化模块,用于对整合后的分类结果实现Web用户界面设计,并通过显示模块输出,所述可视化模块采用Struts2作为MVC视图的架构,容器选择ApacheGeronimo2.x+Jetty6的组合;
所述的分类模块采用基于贝叶斯理论的中英文多标签分类方法进行分类,该方法具体包括以下步骤:
1)构建中文和英文分类语料库,所述中文和英文分类语料库均为多类多标签语料库;
2)分类器通过分类语料库进行离线学习;
3)分类器分别对中文和英文的搜索结果进行分类,同时进行在线学习;
4)对分类结果进行整合。
2.根据权利要求1所述的一种基于多标签分类的中英文搜索结果可视化***,其特征在于,所述的分类模块包括:
分类器,用于对搜索模块获取的结果进行中英文多标签分类,并进行分类结果整合;
分类语料库,该分类语料库为不平衡语料库,包括若干个类别的多标签语料库,用于训练分类器。
3.根据权利要求2所述的一种基于多标签分类的中英文搜索结果可视化***,其特征在于,所述的分类语料库包括中文分类语料库和英文分类语料库。
4.根据权利要求1所述的一种基于多标签分类的中英文搜索结果可视化***,其特征在于,所述的步骤3)具体包括以下步骤:
a)从训练过程生成文件中读入特征词及其统计信息,并加入HashMap中;
b)对未知文本进行预处理,生成特征词集合;
c)遍历所有特征词,并在步骤a)中生成的HashMap中查找每个特征词对每个类别的条件概率;
d)根据每个特征词对于每个类别的条件概率,计算出该未知文本对于所有类别的联合概率;
e)根据所有得到的联合概率,计算出概率阈值;
f)为该未知文本分配所有联合概率不小于概率阈值的类别标签,并输出标签;
g)在HashMap中修改该未知文本中特征词对应于分类结果给出的类别中的条件概率;
h)分类过程结束。
5.根据权利要求4所述的一种基于多标签分类的中英文搜索结果可视化***,其特征在于,所述的概率阈值Pthres为未知文本di对于所有已知类别的后验概率的算术平均数:
P t h r e s = 1 n Σ j = 1 n P ( C j | d i )
P(Cj|di)为未知文本di属于某类别Cj的概率,n为类别个数,若P(Cj|di)≥Pthres,di赋予类别Cj的标签,di的标签数量nd满足1≤nd≤n。
CN201110312662.9A 2011-10-16 2011-10-16 一种基于多标签分类的中英文搜索结果可视化*** Expired - Fee Related CN103049454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110312662.9A CN103049454B (zh) 2011-10-16 2011-10-16 一种基于多标签分类的中英文搜索结果可视化***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110312662.9A CN103049454B (zh) 2011-10-16 2011-10-16 一种基于多标签分类的中英文搜索结果可视化***

Publications (2)

Publication Number Publication Date
CN103049454A CN103049454A (zh) 2013-04-17
CN103049454B true CN103049454B (zh) 2016-04-20

Family

ID=48062097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110312662.9A Expired - Fee Related CN103049454B (zh) 2011-10-16 2011-10-16 一种基于多标签分类的中英文搜索结果可视化***

Country Status (1)

Country Link
CN (1) CN103049454B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611015A (zh) * 2015-10-27 2017-05-03 北京百度网讯科技有限公司 标签的处理方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287848B (zh) * 2017-01-10 2020-09-04 ***通信集团贵州有限公司 用于语义解析的方法和***
CN108287911B (zh) * 2018-02-01 2020-04-24 浙江大学 一种基于约束化远程监督的关系抽取方法
CN109388479A (zh) * 2018-11-01 2019-02-26 郑州云海信息技术有限公司 mxnet***中深度学习数据的输出方法和装置
CN110633365A (zh) * 2019-07-25 2019-12-31 北京国信利斯特科技有限公司 一种基于词向量的层次多标签文本分类方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079048A (zh) * 2006-05-24 2007-11-28 上海万纬信息技术有限公司 基于软件机器人排除标准的互联网信息搜索引擎及方法
CN101763424A (zh) * 2009-12-14 2010-06-30 刘二中 根据文件内容确定特征词并用于检索的方法
CN101903878A (zh) * 2007-10-11 2010-12-01 谷歌公司 用于分类搜索结果以确定页面元素的方法和***
CN101963966A (zh) * 2009-07-24 2011-02-02 李占胜 一种为搜索结果添加标签的搜索结果分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101784022A (zh) * 2009-01-16 2010-07-21 北京炎黄新星网络科技有限公司 短信过滤、分类方法及***
CN101908071B (zh) * 2010-08-10 2012-09-05 厦门市美亚柏科信息股份有限公司 一种提高搜索引擎搜索效率的方法及其***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079048A (zh) * 2006-05-24 2007-11-28 上海万纬信息技术有限公司 基于软件机器人排除标准的互联网信息搜索引擎及方法
CN101903878A (zh) * 2007-10-11 2010-12-01 谷歌公司 用于分类搜索结果以确定页面元素的方法和***
CN101963966A (zh) * 2009-07-24 2011-02-02 李占胜 一种为搜索结果添加标签的搜索结果分类方法
CN101763424A (zh) * 2009-12-14 2010-06-30 刘二中 根据文件内容确定特征词并用于检索的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于贝叶斯算法的垃圾邮件过滤***的研究与开发》;赵毅;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20101115(第11期);第I139-69页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611015A (zh) * 2015-10-27 2017-05-03 北京百度网讯科技有限公司 标签的处理方法及装置

Also Published As

Publication number Publication date
CN103049454A (zh) 2013-04-17

Similar Documents

Publication Publication Date Title
Weismayer et al. Identifying emerging research fields: a longitudinal latent semantic keyword analysis
US10565233B2 (en) Suffix tree similarity measure for document clustering
CN102508859B (zh) 一种基于网页特征的广告分类方法及装置
CN107169001A (zh) 一种基于众包反馈和主动学习的文本分类模型优化方法
CN105095187A (zh) 一种搜索意图识别方法及装置
CN110059181A (zh) 面向大规模分类体系的短文本标签方法、***、装置
CN102194013A (zh) 一种基于领域知识的短文本分类方法及文本分类***
CN103123633A (zh) 评价参数的生成方法以及基于评价参数的信息搜索方法
CN104199857A (zh) 一种基于多标签分类的税务文档层次分类方法
CN106874410A (zh) 基于卷积神经网络的中文微博文本情绪分类方法及其***
CN103049454B (zh) 一种基于多标签分类的中英文搜索结果可视化***
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
WO2013049529A1 (en) Method and apparatus for unsupervised learning of multi-resolution user profile from text analysis
CN110990670B (zh) 一种成长激励型图书推荐方法及推荐***
CN102428467A (zh) 用于分类的基于相似度的特征集补充
CN103778206A (zh) 一种网络服务资源的提供方法
CN112199508A (zh) 一种基于远程监督的参数自适应农业知识图谱推荐方法
MidhunChakkaravarthy Evolutionary and incremental text document classifier using deep learning
Aung et al. Random forest classifier for multi-category classification of web pages
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN117539996A (zh) 一种基于用户画像的咨询问答方法及***
Liao et al. Improving farm management optimization: Application of text data analysis and semantic networks
CN113239179B (zh) 科研技术兴趣领域识别模型训练方法、科技资源查询方法及装置
CN115510269A (zh) 视频推荐的方法、装置、设备和存储介质
CN106202116A (zh) 一种基于粗糙集与knn的文本分类方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160420

Termination date: 20171016