CN109284379A

CN109284379A - 基于双向量模型的自适应微博话题追踪方法

Info

Publication number: CN109284379A
Application number: CN201811106923.XA
Authority: CN
Inventors: 郭文忠; 黄畅; 郭昆; 陈羽中
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2019-01-29
Anticipated expiration: 2038-09-21
Also published as: CN109284379B

Abstract

本发明涉及一种基于双向量模型的自适应微博话题追踪方法,包括S1:微博分片，将微博按天分片；S2:构建话题双向量模型；S3:微博双向量模型，将话题和微博表示成向量；S4:计算话题与微博的余弦相似度，余弦相似值越大表示话题与微博越相似；S5:相似度阈值的自适应学习和阈值比较，克服相似度阈值不变性带来的话题漂移问题；S6:话题模型更新，克服话题模型不变性带来的话题漂移问题；S7:判断时隙是否都已处理，否，则进入下一个时隙，重复步骤4‑7；否则，结束算法。本发明可以实时地跟踪话题并降低了话题相关微博的漏检率和误检率。

Description

基于双向量模型的自适应微博话题追踪方法

技术领域

本发明涉及涉及自然语言处理的中文文本处理技术领域，具体涉及一种基于双向量模型的自适应微博话题追踪方法。

背景技术

微博作为社交媒体的代表受到了大众的广泛关注，每天都会产生海量的数据信息。微博用户往往更加关注热点话题的进展，从而，微博的实时信息流中，用户对于话题的动态更新有着迫切的需求。话题跟踪技术作为话题检测与跟踪技术的子任务之一，为互联网的信息过载问题提供了良好的解决途径。话题跟踪技术，主要是对已知的某话题进行后续文本的持续跟踪，为用户提取话题的演化过程，对用户个性化推荐的生成、观点的总结以及突发事件应急监测等实际应用都有着重要的指导作用。

微博话题追踪方法总体可以分为基于分类的方法和基于查询向量的方法。基于分类的方法是利用大量已知话题的微博语料训练分类器，实现对后续文档的分类。基于查询向量的方法是根据先验数据集构建一个查询向量，然后计算后续微博与该查询向量的相似度，并根据相似度阈值进行判决，从而完成话题追踪。目前，微博话题追踪存在特征稀疏、话题漂移，微博向量化导致微博部分信息丢失等问题。针对特征稀疏问题，已提出多种扩展特征的方法；为了应对话题漂移问题，反馈迭代、词概率等方法被提出；针对微博向量化问题，通常采用VSM或者词嵌入向量化方法，保留微博的新词或者语义信息。但仍存在微博向量化后丢失了微博语义或者忽略了微博中的新词，以及无法完全克服话题漂移等不足。

发明内容

有鉴于此，本发明的目的在于提供一种基于双向量模型的自适应微博话题追踪方法，可以实时地跟踪话题并降低了话题相关微博的漏检率和误检率。

为实现上述目的，本发明采用如下技术方案：

一种基于双向量模型的自适应微博话题追踪方法，包括以下步骤：

步骤S1：将待追踪的微博按日期进行时隙分片，同一天的微博归属于同个时隙；

步骤S2：构建初始话题双向量模型；

步骤S3:构建微博双向量模型；

步骤S4：根据初始话题双向量模型和微博双向量模型，计算得到话题与微博的相似度；

步骤S5：根据得到的话题与微博的相似度，进行相似度阈值的自适应学习和阈值比较；

步骤S6：话题模型更新；

步骤S7：判断时隙是否都已处理，否，进入下一个时隙；否则，结束算法，完成微博话题追踪。

进一步的，所述初始话题双向量模型构建具体为：

步骤S21：采用BTM主题模型从随机选择的初始话题微博中挖掘潜在的主题词分布，选择概率分布高的m个词以及对应的归一化后的概率分布值，作为特征表示初始话题；

步骤S22：采用VSM向量化方法和词嵌入向量化方法将特征集分别表示成向量,双向量模型由Word2Vec向量和VSM向量组成；其中Word2Vec向量是指利用其特征词的词向量转化成的向量，等于最有代表性的m个特征词的词向量与其特征权重相乘的和，如公式(2)所示：

k＝{k₁,k₂,…,k_n} (1)

其中，k表示向量，n表示向量维度，k_i表示向量k第i维的值，m表示特征词数目，w_ij代表第j个特征词的词向量第i维的值，rate_j表示第j个特征词的特征权重；VSM向量采用向量空间模型的方式表示成向量，一个特征表示成向量中的一维，向量中的值为对应特征的权重值，如果文本中不存在该特征，赋值为0。

进一步的，所述初始话题微博双向量模型构建具体为：

步骤S31：采用TFIDF算法从微博中抽取TFIDF值大的m个词以及对应的归一化后的TFIDF值为特征权重来表示,TFIDF值的计算公式如公式(3)所示:

TFIDF_w＝tf_w×lg(M/M_w+0.01) (3)

其中，TFIDF_w表示词w的TFIDF值，tf_w表示词w在当前微博中的出现次数，M表示总微博数目，M_w表示含有词w的文本数。

步骤S32:采用VSM向量化方法和词嵌入向量化方法将特征集分别表示成向量,双向量模型由Word2Vec向量和VSM向量组成；其中Word2Vec向量是指利用其特征词的词向量转化成的向量，等于最有代表性的m个特征词的词向量与其特征权重相乘的和，如公式(5)所示：

p＝{p₁,p₂,…,p_n} (4)

其中，p表示向量，n表示向量维度，pi表示向量p第i维的值，m表示特征词数目，wij代表第j个特征词的词向量第i维的值，ratej表示第j个特征词的特征权重；VSM向量采用向量空间模型的方式表示成向量，一个特征表示成向量中的一维，向量中的值为对应特征的权重值，如果文本中不存在该特征，赋值为0。

进一步的，所述步骤S4具体为：

步骤S41:话题双向量模型中VSM向量与微博双向量模型中VSM向量的余弦相似度，余弦相似度的计算公式(6)如下：

其中，Sim_kd表示向量k和向量d的余弦相似度，k_i表示向量k第i维上的值，d_i表示向量d第i维上的值；

步骤S42：话题双向量模型中Word2Vec向量与微博双向量模型中Word2Vec向量的余弦相似度；

步骤S43：综合VSM向量间的余弦相似度与Word2Vec向量之间的相似度作为话题与微博的相似度，计算方法如公式(7)所示：

其中Sim表示话题与微博的相似度，sim_vsm表示双向量模型中的VSM向量之间的相似度，sim_word2vec表示双向量模型中的Word2Vec向量之间的相似度，值越大，说明话题与微博越相似。

进一步的，所述步骤S5具体为：

步骤S51:相似度阈值分为相似度最低阈值ε和反馈阈值δ，对于每一个话题的初始反馈阈值，用初始话题与初始话题相关微博的相似度的平均值表示；而追踪过程中反馈阈值则与前s个时隙的反馈微博与话题的相似度的平均值相关，时间间隔越近相关性越强,阈值ε和δ的计算如公式(8)-(9)所示:

ε_t＝δ_t-C (9)

其中，t表示第t个时隙，t表示第t时隙的反馈阈值，feedsimi表示第i个时隙的反馈微博与话题相似度的平均值，t表示第t时隙的最小阈值，C表示话题容忍度，最低阈值与反馈阈值相关，其值等于反馈阈值减话题容忍度C；

步骤S52:若微博与话题的相似度大于反馈阈值，则微博与话题高度相关，将其加入反馈微博集，用于生成新的话题模型；若微博与话题的相似度大于最低阈值，则判定微博为话题相关微博；反之，若微博与话题的相似度不大于最低阈值，则将微博判定为话题不相关微博。

进一步的，所述步骤S6具体为：

步骤S61:采用BTM主题模型从初始话题微博集中选择话题特征生成初始话题模型；

步骤S62:采用BTM主题模型的从反馈微博集中选择话题特征，生成动态话题模型；

步骤S63:原话题模型加入初始话题模型和动态话题模型的特征，若原话题模型中已经存在某个特征，用三个模型中该特征的最大权重值更新原话题模型特征的权重值，并将原话题模型的特征按权重值降序排列，选择靠前的T个特征及其权重值作为新话题模型更新原话题模型。

进一步的，所述步骤S7具体为：

步骤S71:判断时隙是否都已处理，若未处理完，进入下一个时隙执行步骤S72；否则，结束算法,完成微博话题追踪；

步骤S72：将微博用步骤S22所述的构建微博双向量模型的方法表示成向量；

步骤S73：将新的话题模型的话题特征采用步骤S21中所述的向量化方法表示成向量；

步骤S74：重复步骤S4-S7。

本发明与现有技术相比具有以下有益效果：

本发明提出双向量模型表示话题和微博，采用词嵌入的方式保留了文本的语义特性，同时利用VSM向量化的方式保留新词信息；引入时间属性，提出一种自适应学习相似度阈值的策略，降低话题相关微博的漏检率，提高话题追踪算法的性能；在话题追踪过程中动态更新话题模型，应对话题演化过程中的话题漂移，降低话题相关微博的漏检率和误检率。

附图说明

图1是本发明一实施例中的实现流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于双向量模型的自适应微博话题追踪方法，包括以下步骤：

步骤S2：构建初始话题双向量模型；

k＝{k₁,k₂,…,k_n} (1)

步骤S3:构建微博双向量模型；

TFIDF_w＝tf_w×lg(M/M_w+0.01) (3)

p＝{p₁,p₂,…,p_n} (4)

ε_t＝δ_t-C (9)

步骤S52:若微博与话题的相似度大于反馈阈值，则微博与话题高度相关，将其加入反馈微博集，用于生成新的话题模型；若微博与话题的相似度大于最低阈值，则判定微博为话题相关微博；反之，若微博与话题的相似度不大于最低阈值，则将微博判定为话题不相关微博。反馈阈值用于挑选与话题高度相关的微博作为反馈微博，更新话题模型。而相似度最低阈值是微博属于话题的最小边界，反馈阈值大于最低阈值。

步骤S6：话题模型更新；

步骤S63:原话题模型加入初始话题模型和动态话题模型的特征，若原话题模型中已经存在某个特征，用三个模型中该特征的最大权重值更新原话题模型特征的权重值，并将原话题模型的特征按权重值降序排列，选择靠前的T个特征及其权重值作为新话题模型更新原话题模型。为了提高话题追踪方法的效率，话题模型更新设置了时间条件和反馈微博数阈值feed(feed取值为10)。如果只要有反馈微博加入就更新话题，则会使话题更新次数过于频繁，影响追踪效率。并且，如果该时隙内加入的反馈微博数太少，则可能是噪音微博，所以不更新话题。因此，一个时隙结束后，如果新加入的反馈微博数大于feed，则更新话题。否则，不更新话题。一般来说，20个特征即可以表示一个话题，所以T取20。

步骤S7：判断时隙是否都已处理，否，进入下一个时隙；否则，结束算法，完成微博话题追踪，

步骤S71:判断时隙是否都已处理，若未处理完，进入下一个时隙执行步骤S62；否则，结束算法,完成微博话题追踪；

步骤S74：重复步骤S4-S7。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于双向量模型的自适应微博话题追踪方法，其特征在于，包括以下步骤：

步骤S2：构建初始话题双向量模型；

步骤S3:构建微博双向量模型；

步骤S6：话题模型更新；

2.根据权利要求1所述的基于双向量模型的自适应微博话题追踪方法，其特征在于：所述初始话题双向量模型构建具体为：

k＝{k₁,k₂,…,k_n} (1)

3.根据权利要求1所述的基于双向量模型的自适应微博话题追踪方法，其特征在于：所述初始话题微博双向量模型构建具体为：

TFIDF_w＝tf_w×lg(M/M_w+0.01) (3)

其中，TFIDF_w表示词w的TFIDF值，tf_w表示词w在当前微博中的出现次数，M表示总微博数目，M_w表示含有词w的文本数；

p＝{p₁,p₂,…,p_n} (4)

4.根据权利要求1所述的基于双向量模型的自适应微博话题追踪方法，其特征在于：所述步骤S4具体为：

5.根据权利要求1所述的基于双向量模型的自适应微博话题追踪方法，其特征在于：所述步骤S5具体为：

ε_t＝δ_t-C (9)

6.根据权利要求1所述的基于双向量模型的自适应微博话题追踪方法，其特征在于：所述步骤S6具体为：

7.根据权利要求2所述的基于双向量模型的自适应微博话题追踪方法，其特征在于：所述步骤S7具体为：

步骤S74：重复步骤S4-S7。