CN108334573A - 基于聚类信息的高相关微博检索方法 - Google Patents

基于聚类信息的高相关微博检索方法 Download PDF

Info

Publication number
CN108334573A
CN108334573A CN201810057738.XA CN201810057738A CN108334573A CN 108334573 A CN108334573 A CN 108334573A CN 201810057738 A CN201810057738 A CN 201810057738A CN 108334573 A CN108334573 A CN 108334573A
Authority
CN
China
Prior art keywords
document
microblogging
query
word
class cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810057738.XA
Other languages
English (en)
Other versions
CN108334573B (zh
Inventor
杨震
王凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201810057738.XA priority Critical patent/CN108334573B/zh
Publication of CN108334573A publication Critical patent/CN108334573A/zh
Application granted granted Critical
Publication of CN108334573B publication Critical patent/CN108334573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于聚类信息的高相关微博检索方法,属于数据挖掘领域。微博检索旨在找出相关,有价值且及时的内容。但微博的检索受到短文本问题的影响,导致模型不可靠。为解决这一问题,本文提出了一种新的方法。人们认为,短文本和查询之间的语言鸿沟使分类任务不满意。在此基础上,提出了一种基于聚类信息的检索模型。我们进行了一系列的实验,以评估提出的框架在语料库中的有效性。实验结果表明,与基线标准相比,该方法在微博检索中是有效的。

Description

基于聚类信息的高相关微博检索方法
技术领域
本发明涉及一种基于聚类信息的高相关微博检索方法,属于数据挖掘领域。
背景技术
互联网的广泛使用快速的增加了信息存储量和网络访问量,而社交媒体(例如Twitter,Weibo,Facebook)的出现更深刻地改变了人们的生产和消费信息的方式,他和主流新闻媒体网站(如CNN或nytimes。com)最大的不同是社交网络中的人即是信息的消费者也是信息的生产者,这使得社交网络中的信息不仅来源多样并且杂乱无章,用词口语化,增加了用户获取信息的难度。家庭用户用电数据分解是通过非侵入的方式,基于对电源总接口处测得的总用电数据的细节分析,确定单独的电器的具体工作情况。目前相关研究已取得了一定进展,主要实现方法包括以用电功率变化量为特征在二维特征空间进行聚类、利用数据建立隐马尔科夫模型进行用电状态预测、基于非负矩阵分解的稀疏编码等。但是传统的这些技术难以适用于组成越来越复杂的用电数据,对用电数据分解结果的误差较大,准确性难以为用户所接受。
历史研究表明微博信息过滤的性能不能达到人们预期效果的主要原因是,用户输入的检索词不能精确表达用户的真实查询意图。因此,本文提出一个检索模型框架用于提高推特检索性能,它基于聚类信息,能对一般检索结果进行重新排序,使得检索结果更符合用户需求。实验结果表明,与传统的检索模型相比,该模型的性能有所提高。
发明内容
1.用BM25检索模型得到微博的初步检索结果。BM25算法是一种用来评价检索词和文档之间相关性的算法,它是一种基与概率检索模型提出的算法。再来具体描述下BM25算法,假设我们有一个query和一批文档,现在要计算query和每篇文档之间的相关性分数,我们的做法是,先对query进行切分,得到词向qi,然后query的相关性分数由两部分组成:
(1).词向qi和文档之间的相关性
(2).每个词向qi的权重
最后对于各个词向的相关性分数累加,就得到了query和文档之间的分数:
其中IDF(qi)表示词向qi的逆文档频率,该指标用于表示每个词向qi的权重,计算方法如下:
N表示文档数,n(qi)表示包含qi的文档,|D|表示文档中的词数,f(qi,D)表示词向qi在文档D的频率,k1和b表示经验常量,在这里k1取2,b取0.75,avgdl表示文档平均长度,经计算avgdl取14。
因此,根据BM25检索算法我们可以得到一个初步的微博检索结果。
2.用NMF实现微博文本聚类,将类簇提取出来辅助检索结果排序,核心思想是如果两个文档的检索相关度基本相同,那么属于较重要类簇的文档就应该具有更高的相关度。最终优化公式如下:
s.t.U≥0,H≥0
其中,||*||F代表2范数。W代表词文档矩阵,V矩阵聚类结果矩阵。U矩阵代表每个文档属于每个类簇的程度。α和β代表矩阵权值,最小化目标函数F代表W矩阵正确分解为U矩阵和V矩阵。
对目标函数分别对U,V两个矩阵求导:
针对此优化目标我们应用KKT(Karush-Kuhn-Tucker)条件,在保证矩阵非负的情况下,得到等式结果如下:
-2WV+UVTV+2αU=0
-2WTU+VTU+2βV=0
根据恒等式,可以得出U和V矩阵的迭代公式如下:
其中U(i,k)代表迭代过程中的U矩阵,V(i,k)代表迭代过程中的V矩阵。在两个迭代公式下,当F收敛时求得U矩阵和V矩阵。U矩阵每行表示对应行微博的聚类结果,属于行最大元素的所对应的类簇。
3.根据聚类结果类簇,把类簇文本集作为一个文本来处理,计算类簇的BM25值,再根据类簇BM25值对步骤1.得到的结果进行修正:
rescore(D,Q)=score(D,Q)·score(Clui,Q)
其中,score(D,Q)表示微博的BM25值,score(Clui,Q)表示该微博所对应类簇的BM25值,修正后的rescore(D,Q)代表最后的排序分数。
附图说明
图1:BM25算法示意图
图2:NMF聚类分解示意图
图3:***结构示意图
图4:实验结果性能比较
具体实施方式
1.数据预处理:
过滤掉非英文微博,并去除长度小于两个单词的微博,作为检索文档集D。将原始用户兴趣文件的title字段去除特殊符号,首字母小写后作为原始查询Q。
2.查询扩展:
将原始查询Q最为查询词,用谷歌镜像网站作为外部数据源,搜索查询词Q,将得到的前50结果提取关键词,作为查询Q的扩展查询。以此计算每个查询词与每篇微博的相关度。
3.NMF聚类
将全部微博作为数据集做NMF聚类,提取类簇,计算类簇的BM25值。
4.结果重排
根据算法框架中的步骤3公式计算结果,得到最后的检索排序。计算性能。

Claims (3)

1.基于聚类信息的高相关微博检索方法,其特征在于,包括以下步骤:
1).用BM25检索模型得到微博的初步检索结果;
2).用NMF实现微博文本聚类,将类簇提取出来辅助检索结果排序:如果两个文档的检索相关度基本相同,那么属于较重要类簇的文档就应该具有更高的相关度;最终优化公式如下:
s.t.U≥0,H≥0
其中,||*||F代表2范数;W代表词文档矩阵,V矩阵聚类结果矩阵;U矩阵代表每个文档属于每个类簇的程度;α和β代表矩阵权值,最小化目标函数F代表W矩阵正确分解为U矩阵和V矩阵;
对目标函数分别对U,V两个矩阵求导:
针对此优化目标应用KKT条件,在保证矩阵非负的情况下,得到等式结果如下:
2WV+UVTV+2αU=0
-2WTU+VTU+2βV=0
根据恒等式,得出U和V矩阵的迭代公式如下:
其中U(i,k)代表迭代过程中的U矩阵,V(i,k)代表迭代过程中的V矩阵;
在两个迭代公式下,当F收敛时求得U矩阵和V矩阵;U矩阵每行表示对应行微博的聚类结果,属于行最大元素的所对应的类簇;
3).根据聚类结果类簇,把类簇文本集作为一个文本来处理,计算类簇的BM25值,再根据类簇BM25值对步骤1).得到的结果进行修正:
rescore(D,Q)=score(D,Q)·score(Clui,Q)
其中,score(D,Q)表示微博的BM25值,score(Chui,Q)表示该微博所对应类簇的BM25值,修正后的rescore(D,Q)代表最后的排序分数。
2.根据权利要求1所述方法,其特征在于,用BM25检索模型得到微博的初步检索结果具体为:
假设有一个query和一批文档,现在要计算query和每篇文档之间的相关性分数,先对query进行切分,得到词向qi,然后query的相关性分数由两部分组成:
(1).词向qi和文档之间的相关性
(2).每个词向qi的权重
最后对于各个词向的相关性分数累加,就得到了query和文档之间的分数:
其中IDF(qi)表示词向qi的逆文档频率,该指标用于表示每个词向qi的权重,计算方法如下:
N表示文档数,n(qi)表示包含qi的文档,|D|表示文档中的词数,f(qi,D)表示词向qi在文档D的频率,k1和b表示经验常量,在这里k1取2,b取0.75,avgdl表示文档平均长度,经计算avgdl取14。
3.根据权利要求1所述方法,其特征在于,检索***框架如下:
(1).过滤掉非英文微博,并去除长度小于两个单词的微博,作为检索文档集D;将原始用户兴趣文件的title字段去除特殊符号,首字母小写后作为原始查询Q;
(2).将原始查询Q最为查询词,用镜像网站作为外部数据源,搜索查询词Q,将得到的前50结果提取关键词,作为查询Q的扩展查询;以此计算每个查询词与每篇微博的相关度;
(3).将全部微博作为数据集做NMF聚类,提取类簇,计算类簇的BM25值;
(4).根据算法框架中的步骤3)公式计算结果,得到最后的检索排序,计算性能。
CN201810057738.XA 2018-01-22 2018-01-22 基于聚类信息的高相关微博检索方法 Active CN108334573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810057738.XA CN108334573B (zh) 2018-01-22 2018-01-22 基于聚类信息的高相关微博检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810057738.XA CN108334573B (zh) 2018-01-22 2018-01-22 基于聚类信息的高相关微博检索方法

Publications (2)

Publication Number Publication Date
CN108334573A true CN108334573A (zh) 2018-07-27
CN108334573B CN108334573B (zh) 2021-02-26

Family

ID=62926404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810057738.XA Active CN108334573B (zh) 2018-01-22 2018-01-22 基于聚类信息的高相关微博检索方法

Country Status (1)

Country Link
CN (1) CN108334573B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271514A (zh) * 2018-09-14 2019-01-25 华南师范大学 短文本分类模型的生成方法、分类方法、装置及存储介质
CN112966177A (zh) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 咨询意图的识别方法、装置、设备以及存储介质
CN115659047A (zh) * 2022-11-11 2023-01-31 南京汇宁桀信息科技有限公司 基于混合算法的医疗文献检索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763404A (zh) * 2009-12-10 2010-06-30 陕西鼎泰科技发展有限责任公司 基于模糊聚类的网络文本数据检测方法
US20120059820A1 (en) * 2010-09-07 2012-03-08 International Business Machines Corporation Aggregation, Organization and Provision of Professional and Social Information
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763404A (zh) * 2009-12-10 2010-06-30 陕西鼎泰科技发展有限责任公司 基于模糊聚类的网络文本数据检测方法
US20120059820A1 (en) * 2010-09-07 2012-03-08 International Business Machines Corporation Aggregation, Organization and Provision of Professional and Social Information
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LEE K S ET AL.: "A cluster-based resampling method for pseudo-relevance feedback", 《INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271514A (zh) * 2018-09-14 2019-01-25 华南师范大学 短文本分类模型的生成方法、分类方法、装置及存储介质
CN109271514B (zh) * 2018-09-14 2022-03-15 华南师范大学 短文本分类模型的生成方法、分类方法、装置及存储介质
CN112966177A (zh) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 咨询意图的识别方法、装置、设备以及存储介质
CN115659047A (zh) * 2022-11-11 2023-01-31 南京汇宁桀信息科技有限公司 基于混合算法的医疗文献检索方法
CN115659047B (zh) * 2022-11-11 2023-07-28 南京汇宁桀信息科技有限公司 基于混合算法的医疗文献检索方法

Also Published As

Publication number Publication date
CN108334573B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
US9176969B2 (en) Integrating and extracting topics from content of heterogeneous sources
CN104750798B (zh) 一种应用程序的推荐方法和装置
CN103455487B (zh) 一种搜索词的提取方法及装置
CN106547864B (zh) 一种基于查询扩展的个性化信息检索方法
CN103049470A (zh) 基于情感相关度的观点检索方法
CN104778276A (zh) 一种基于改进tf-idf的多索引合并排序算法
CN108334573A (zh) 基于聚类信息的高相关微博检索方法
Liu et al. Improving ranking-based recommendation by social information and negative similarity
Xiao A Survey of Document Clustering Techniques & Comparison of LDA and moVMF
CN108509449B (zh) 一种信息处理的方法及服务器
CN107066585B (zh) 一种概率主题计算与匹配的舆情监测方法及***
Liu et al. Service matchmaking for Internet of Things based on probabilistic topic model
Liu et al. A Chinese question answering system based on web search
CN113705217A (zh) 一种面向电力领域知识学习的文献推荐方法及装置
Niu et al. Microblog user interest mining based on improved textrank model
Yang et al. Mining hidden concepts: Using short text clustering and wikipedia knowledge
Ahmed et al. K-means based algorithm for islamic document clustering
Lu et al. Influence model of paper citation networks with integrated pagerank and HITS
Zhang et al. Research and implementation of keyword extraction algorithm based on professional background knowledge
Jiang et al. A personalized search engine model based on RSS User's interest
Chen et al. A PLSA-based approach for building user profile and implementing personalized recommendation
Marcin et al. Extracting topic trends and connections: semantic analysis and topic linking in Twitter and Wikipedia datasets
Liu et al. Tag dispatch model with social network regularization for microblog user tag suggestion
Fu et al. Group detection for specific topic on micro-blog

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant