CN108334573A

CN108334573A - 基于聚类信息的高相关微博检索方法

Info

Publication number: CN108334573A
Application number: CN201810057738.XA
Authority: CN
Inventors: 杨震; 王凯
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-01-22
Filing date: 2018-01-22
Publication date: 2018-07-27
Anticipated expiration: 2038-01-22
Also published as: CN108334573B

Abstract

基于聚类信息的高相关微博检索方法，属于数据挖掘领域。微博检索旨在找出相关，有价值且及时的内容。但微博的检索受到短文本问题的影响,导致模型不可靠。为解决这一问题,本文提出了一种新的方法。人们认为,短文本和查询之间的语言鸿沟使分类任务不满意。在此基础上,提出了一种基于聚类信息的检索模型。我们进行了一系列的实验,以评估提出的框架在语料库中的有效性。实验结果表明,与基线标准相比,该方法在微博检索中是有效的。

Description

基于聚类信息的高相关微博检索方法

技术领域

本发明涉及一种基于聚类信息的高相关微博检索方法，属于数据挖掘领域。

背景技术

互联网的广泛使用快速的增加了信息存储量和网络访问量，而社交媒体(例如Twitter，Weibo，Facebook)的出现更深刻地改变了人们的生产和消费信息的方式，他和主流新闻媒体网站(如CNN或nytimes。com)最大的不同是社交网络中的人即是信息的消费者也是信息的生产者，这使得社交网络中的信息不仅来源多样并且杂乱无章，用词口语化，增加了用户获取信息的难度。家庭用户用电数据分解是通过非侵入的方式，基于对电源总接口处测得的总用电数据的细节分析，确定单独的电器的具体工作情况。目前相关研究已取得了一定进展，主要实现方法包括以用电功率变化量为特征在二维特征空间进行聚类、利用数据建立隐马尔科夫模型进行用电状态预测、基于非负矩阵分解的稀疏编码等。但是传统的这些技术难以适用于组成越来越复杂的用电数据，对用电数据分解结果的误差较大，准确性难以为用户所接受。

历史研究表明微博信息过滤的性能不能达到人们预期效果的主要原因是，用户输入的检索词不能精确表达用户的真实查询意图。因此，本文提出一个检索模型框架用于提高推特检索性能，它基于聚类信息，能对一般检索结果进行重新排序，使得检索结果更符合用户需求。实验结果表明，与传统的检索模型相比，该模型的性能有所提高。

发明内容

1.用BM25检索模型得到微博的初步检索结果。BM25算法是一种用来评价检索词和文档之间相关性的算法，它是一种基与概率检索模型提出的算法。再来具体描述下BM25算法，假设我们有一个query和一批文档，现在要计算query和每篇文档之间的相关性分数，我们的做法是，先对query进行切分，得到词向qi，然后query的相关性分数由两部分组成：

(1).词向qi和文档之间的相关性

(2).每个词向qi的权重

最后对于各个词向的相关性分数累加，就得到了query和文档之间的分数：

其中IDF(qi)表示词向qi的逆文档频率，该指标用于表示每个词向qi的权重，计算方法如下：

N表示文档数，n(qi)表示包含qi的文档，|D|表示文档中的词数，f(qi，D)表示词向qi在文档D的频率，k1和b表示经验常量，在这里k1取2，b取0.75，avgdl表示文档平均长度，经计算avgdl取14。

因此，根据BM25检索算法我们可以得到一个初步的微博检索结果。

2.用NMF实现微博文本聚类，将类簇提取出来辅助检索结果排序，核心思想是如果两个文档的检索相关度基本相同，那么属于较重要类簇的文档就应该具有更高的相关度。最终优化公式如下：

s.t.U≥0，H≥0

其中，||*||_F代表2范数。W代表词文档矩阵，V矩阵聚类结果矩阵。U矩阵代表每个文档属于每个类簇的程度。α和β代表矩阵权值，最小化目标函数F代表W矩阵正确分解为U矩阵和V矩阵。

对目标函数分别对U，V两个矩阵求导：

针对此优化目标我们应用KKT(Karush-Kuhn-Tucker)条件，在保证矩阵非负的情况下，得到等式结果如下：

-2WV+UV^TV+2αU＝0

-2W^TU+V^TU+2βV＝0

根据恒等式，可以得出U和V矩阵的迭代公式如下：

其中U(i，k)代表迭代过程中的U矩阵，V(i，k)代表迭代过程中的V矩阵。在两个迭代公式下，当F收敛时求得U矩阵和V矩阵。U矩阵每行表示对应行微博的聚类结果，属于行最大元素的所对应的类簇。

3.根据聚类结果类簇，把类簇文本集作为一个文本来处理，计算类簇的BM25值，再根据类簇BM25值对步骤1.得到的结果进行修正：

rescore(D，Q)＝score(D，Q)·score(Clu_i，Q)

其中，score(D，Q)表示微博的BM25值，score(Clu_i,Q)表示该微博所对应类簇的BM25值，修正后的rescore(D，Q)代表最后的排序分数。

附图说明

图1：BM25算法示意图

图2：NMF聚类分解示意图

图3：***结构示意图

图4：实验结果性能比较

具体实施方式

1.数据预处理：

过滤掉非英文微博，并去除长度小于两个单词的微博，作为检索文档集D。将原始用户兴趣文件的title字段去除特殊符号，首字母小写后作为原始查询Q。

2.查询扩展：

将原始查询Q最为查询词，用谷歌镜像网站作为外部数据源，搜索查询词Q，将得到的前50结果提取关键词，作为查询Q的扩展查询。以此计算每个查询词与每篇微博的相关度。

3.NMF聚类

将全部微博作为数据集做NMF聚类，提取类簇，计算类簇的BM25值。

4.结果重排

根据算法框架中的步骤3公式计算结果，得到最后的检索排序。计算性能。

Claims

1.基于聚类信息的高相关微博检索方法，其特征在于，包括以下步骤：

1).用BM25检索模型得到微博的初步检索结果；

2).用NMF实现微博文本聚类，将类簇提取出来辅助检索结果排序：如果两个文档的检索相关度基本相同，那么属于较重要类簇的文档就应该具有更高的相关度；最终优化公式如下：

s.t.U≥0，H≥0

其中，||*||_F代表2范数；W代表词文档矩阵，V矩阵聚类结果矩阵；U矩阵代表每个文档属于每个类簇的程度；α和β代表矩阵权值，最小化目标函数F代表W矩阵正确分解为U矩阵和V矩阵；

对目标函数分别对U，V两个矩阵求导：

针对此优化目标应用KKT条件，在保证矩阵非负的情况下，得到等式结果如下：

2WV+UV^TV+2αU＝0

-2W^TU+V^TU+2βV＝0

根据恒等式，得出U和V矩阵的迭代公式如下：

其中U(i，k)代表迭代过程中的U矩阵，V(i，k)代表迭代过程中的V矩阵；

在两个迭代公式下，当F收敛时求得U矩阵和V矩阵；U矩阵每行表示对应行微博的聚类结果，属于行最大元素的所对应的类簇；

3).根据聚类结果类簇，把类簇文本集作为一个文本来处理，计算类簇的BM25值，再根据类簇BM25值对步骤1).得到的结果进行修正：

rescore(D，Q)＝score(D，Q)·score(Clu_i，Q)

其中，score(D，Q)表示微博的BM25值，score(Chu_i,Q)表示该微博所对应类簇的BM25值，修正后的rescore(D，Q)代表最后的排序分数。

2.根据权利要求1所述方法，其特征在于，用BM25检索模型得到微博的初步检索结果具体为：

假设有一个query和一批文档，现在要计算query和每篇文档之间的相关性分数，先对query进行切分，得到词向qi，然后query的相关性分数由两部分组成：

(1).词向qi和文档之间的相关性

(2).每个词向qi的权重

3.根据权利要求1所述方法，其特征在于，检索***框架如下：

(1).过滤掉非英文微博，并去除长度小于两个单词的微博，作为检索文档集D；将原始用户兴趣文件的title字段去除特殊符号，首字母小写后作为原始查询Q；

(2).将原始查询Q最为查询词，用镜像网站作为外部数据源，搜索查询词Q，将得到的前50结果提取关键词，作为查询Q的扩展查询；以此计算每个查询词与每篇微博的相关度；

(3).将全部微博作为数据集做NMF聚类，提取类簇，计算类簇的BM25值；

(4).根据算法框架中的步骤3)公式计算结果，得到最后的检索排序，计算性能。