CN109284379A - 基于双向量模型的自适应微博话题追踪方法 - Google Patents
基于双向量模型的自适应微博话题追踪方法 Download PDFInfo
- Publication number
- CN109284379A CN109284379A CN201811106923.XA CN201811106923A CN109284379A CN 109284379 A CN109284379 A CN 109284379A CN 201811106923 A CN201811106923 A CN 201811106923A CN 109284379 A CN109284379 A CN 109284379A
- Authority
- CN
- China
- Prior art keywords
- topic
- vector
- microblogging
- value
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 19
- 239000012634 fragment Substances 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000003780 insertion Methods 0.000 claims description 7
- 230000037431 insertion Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 2
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 3
- 206010028916 Neologism Diseases 0.000 description 2
- 230000010429 evolutionary process Effects 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于双向量模型的自适应微博话题追踪方法,包括S1:微博分片,将微博按天分片;S2:构建话题双向量模型;S3:微博双向量模型,将话题和微博表示成向量;S4:计算话题与微博的余弦相似度,余弦相似值越大表示话题与微博越相似;S5:相似度阈值的自适应学习和阈值比较,克服相似度阈值不变性带来的话题漂移问题;S6:话题模型更新,克服话题模型不变性带来的话题漂移问题;S7:判断时隙是否都已处理,否,则进入下一个时隙,重复步骤4‑7;否则,结束算法。本发明可以实时地跟踪话题并降低了话题相关微博的漏检率和误检率。
Description
技术领域
本发明涉及涉及自然语言处理的中文文本处理技术领域,具体涉及一种基于双向量模型的自适应微博话题追踪方法。
背景技术
微博作为社交媒体的代表受到了大众的广泛关注,每天都会产生海量的数据信息。微博用户往往更加关注热点话题的进展,从而,微博的实时信息流中,用户对于话题的动态更新有着迫切的需求。话题跟踪技术作为话题检测与跟踪技术的子任务之一,为互联网的信息过载问题提供了良好的解决途径。话题跟踪技术,主要是对已知的某话题进行后续文本的持续跟踪,为用户提取话题的演化过程,对用户个性化推荐的生成、观点的总结以及突发事件应急监测等实际应用都有着重要的指导作用。
微博话题追踪方法总体可以分为基于分类的方法和基于查询向量的方法。基于分类的方法是利用大量已知话题的微博语料训练分类器,实现对后续文档的分类。基于查询向量的方法是根据先验数据集构建一个查询向量,然后计算后续微博与该查询向量的相似度,并根据相似度阈值进行判决,从而完成话题追踪。目前,微博话题追踪存在特征稀疏、话题漂移,微博向量化导致微博部分信息丢失等问题。针对特征稀疏问题,已提出多种扩展特征的方法;为了应对话题漂移问题,反馈迭代、词概率等方法被提出;针对微博向量化问题,通常采用VSM或者词嵌入向量化方法,保留微博的新词或者语义信息。但仍存在微博向量化后丢失了微博语义或者忽略了微博中的新词,以及无法完全克服话题漂移等不足。
发明内容
有鉴于此,本发明的目的在于提供一种基于双向量模型的自适应微博话题追踪方法,可以实时地跟踪话题并降低了话题相关微博的漏检率和误检率。
为实现上述目的,本发明采用如下技术方案:
一种基于双向量模型的自适应微博话题追踪方法,包括以下步骤:
步骤S1:将待追踪的微博按日期进行时隙分片,同一天的微博归属于同个时隙;
步骤S2:构建初始话题双向量模型;
步骤S3:构建微博双向量模型;
步骤S4:根据初始话题双向量模型和微博双向量模型,计算得到话题与微博的相似度;
步骤S5:根据得到的话题与微博的相似度,进行相似度阈值的自适应学习和阈值比较;
步骤S6:话题模型更新;
步骤S7:判断时隙是否都已处理,否,进入下一个时隙;否则,结束算法,完成微博话题追踪。
进一步的,所述初始话题双向量模型构建具体为:
步骤S21:采用BTM主题模型从随机选择的初始话题微博中挖掘潜在的主题词分布,选择概率分布高的m个词以及对应的归一化后的概率分布值,作为特征表示初始话题;
步骤S22:采用VSM向量化方法和词嵌入向量化方法将特征集分别表示成向量,双向量模型由Word2Vec向量和VSM向量组成;其中Word2Vec向量是指利用其特征词的词向量转化成的向量,等于最有代表性的m个特征词的词向量与其特征权重相乘的和,如公式(2)所示:
k={k1,k2,…,kn} (1)
其中,k表示向量,n表示向量维度,ki表示向量k第i维的值,m表示特征词数目,wij代表第j个特征词的词向量第i维的值,ratej表示第j个特征词的特征权重;VSM向量采用向量空间模型的方式表示成向量,一个特征表示成向量中的一维,向量中的值为对应特征的权重值,如果文本中不存在该特征,赋值为0。
进一步的,所述初始话题微博双向量模型构建具体为:
步骤S31:采用TFIDF算法从微博中抽取TFIDF值大的m个词以及对应的归一化后的TFIDF值为特征权重来表示,TFIDF值的计算公式如公式(3)所示:
TFIDFw=tfw×lg(M/Mw+0.01) (3)
其中,TFIDFw表示词w的TFIDF值,tfw表示词w在当前微博中的出现次数,M表示总微博数目,Mw表示含有词w的文本数。
步骤S32:采用VSM向量化方法和词嵌入向量化方法将特征集分别表示成向量,双向量模型由Word2Vec向量和VSM向量组成;其中Word2Vec向量是指利用其特征词的词向量转化成的向量,等于最有代表性的m个特征词的词向量与其特征权重相乘的和,如公式(5)所示:
p={p1,p2,…,pn} (4)
其中,p表示向量,n表示向量维度,pi表示向量p第i维的值,m表示特征词数目,wij代表第j个特征词的词向量第i维的值,ratej表示第j个特征词的特征权重;VSM向量采用向量空间模型的方式表示成向量,一个特征表示成向量中的一维,向量中的值为对应特征的权重值,如果文本中不存在该特征,赋值为0。
进一步的,所述步骤S4具体为:
步骤S41:话题双向量模型中VSM向量与微博双向量模型中VSM向量的余弦相似度,余弦相似度的计算公式(6)如下:
其中,Simkd表示向量k和向量d的余弦相似度,ki表示向量k第i维上的值,di表示向量d第i维上的值;
步骤S42:话题双向量模型中Word2Vec向量与微博双向量模型中Word2Vec向量的余弦相似度;
步骤S43:综合VSM向量间的余弦相似度与Word2Vec向量之间的相似度作为话题与微博的相似度,计算方法如公式(7)所示:
其中Sim表示话题与微博的相似度,simvsm表示双向量模型中的VSM向量之间的相似度,simword2vec表示双向量模型中的Word2Vec向量之间的相似度,值越大,说明话题与微博越相似。
进一步的,所述步骤S5具体为:
步骤S51:相似度阈值分为相似度最低阈值ε和反馈阈值δ,对于每一个话题的初始反馈阈值,用初始话题与初始话题相关微博的相似度的平均值表示;而追踪过程中反馈阈值则与前s个时隙的反馈微博与话题的相似度的平均值相关,时间间隔越近相关性越强,阈值ε和δ的计算如公式(8)-(9)所示:
εt=δt-C (9)
其中,t表示第t个时隙,t表示第t时隙的反馈阈值,feedsimi表示第i个时隙的反馈微博与话题相似度的平均值,t表示第t时隙的最小阈值,C表示话题容忍度,最低阈值与反馈阈值相关,其值等于反馈阈值减话题容忍度C;
步骤S52:若微博与话题的相似度大于反馈阈值,则微博与话题高度相关,将其加入反馈微博集,用于生成新的话题模型;若微博与话题的相似度大于最低阈值,则判定微博为话题相关微博;反之,若微博与话题的相似度不大于最低阈值,则将微博判定为话题不相关微博。
进一步的,所述步骤S6具体为:
步骤S61:采用BTM主题模型从初始话题微博集中选择话题特征生成初始话题模型;
步骤S62:采用BTM主题模型的从反馈微博集中选择话题特征,生成动态话题模型;
步骤S63:原话题模型加入初始话题模型和动态话题模型的特征,若原话题模型中已经存在某个特征,用三个模型中该特征的最大权重值更新原话题模型特征的权重值,并将原话题模型的特征按权重值降序排列,选择靠前的T个特征及其权重值作为新话题模型更新原话题模型。
进一步的,所述步骤S7具体为:
步骤S71:判断时隙是否都已处理,若未处理完,进入下一个时隙执行步骤S72;否则,结束算法,完成微博话题追踪;
步骤S72:将微博用步骤S22所述的构建微博双向量模型的方法表示成向量;
步骤S73:将新的话题模型的话题特征采用步骤S21中所述的向量化方法表示成向量;
步骤S74:重复步骤S4-S7。
本发明与现有技术相比具有以下有益效果:
本发明提出双向量模型表示话题和微博,采用词嵌入的方式保留了文本的语义特性,同时利用VSM向量化的方式保留新词信息;引入时间属性,提出一种自适应学习相似度阈值的策略,降低话题相关微博的漏检率,提高话题追踪算法的性能;在话题追踪过程中动态更新话题模型,应对话题演化过程中的话题漂移,降低话题相关微博的漏检率和误检率。
附图说明
图1是本发明一实施例中的实现流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于双向量模型的自适应微博话题追踪方法,包括以下步骤:
步骤S1:将待追踪的微博按日期进行时隙分片,同一天的微博归属于同个时隙;
步骤S2:构建初始话题双向量模型;
步骤S21:采用BTM主题模型从随机选择的初始话题微博中挖掘潜在的主题词分布,选择概率分布高的m个词以及对应的归一化后的概率分布值,作为特征表示初始话题;
步骤S22:采用VSM向量化方法和词嵌入向量化方法将特征集分别表示成向量,双向量模型由Word2Vec向量和VSM向量组成;其中Word2Vec向量是指利用其特征词的词向量转化成的向量,等于最有代表性的m个特征词的词向量与其特征权重相乘的和,如公式(2)所示:
k={k1,k2,…,kn} (1)
其中,k表示向量,n表示向量维度,ki表示向量k第i维的值,m表示特征词数目,wij代表第j个特征词的词向量第i维的值,ratej表示第j个特征词的特征权重;VSM向量采用向量空间模型的方式表示成向量,一个特征表示成向量中的一维,向量中的值为对应特征的权重值,如果文本中不存在该特征,赋值为0。
步骤S3:构建微博双向量模型;
步骤S31:采用TFIDF算法从微博中抽取TFIDF值大的m个词以及对应的归一化后的TFIDF值为特征权重来表示,TFIDF值的计算公式如公式(3)所示:
TFIDFw=tfw×lg(M/Mw+0.01) (3)
其中,TFIDFw表示词w的TFIDF值,tfw表示词w在当前微博中的出现次数,M表示总微博数目,Mw表示含有词w的文本数。
步骤S32:采用VSM向量化方法和词嵌入向量化方法将特征集分别表示成向量,双向量模型由Word2Vec向量和VSM向量组成;其中Word2Vec向量是指利用其特征词的词向量转化成的向量,等于最有代表性的m个特征词的词向量与其特征权重相乘的和,如公式(5)所示:
p={p1,p2,…,pn} (4)
其中,p表示向量,n表示向量维度,pi表示向量p第i维的值,m表示特征词数目,wij代表第j个特征词的词向量第i维的值,ratej表示第j个特征词的特征权重;VSM向量采用向量空间模型的方式表示成向量,一个特征表示成向量中的一维,向量中的值为对应特征的权重值,如果文本中不存在该特征,赋值为0。
步骤S4:根据初始话题双向量模型和微博双向量模型,计算得到话题与微博的相似度;
步骤S41:话题双向量模型中VSM向量与微博双向量模型中VSM向量的余弦相似度,余弦相似度的计算公式(6)如下:
其中,Simkd表示向量k和向量d的余弦相似度,ki表示向量k第i维上的值,di表示向量d第i维上的值;
步骤S42:话题双向量模型中Word2Vec向量与微博双向量模型中Word2Vec向量的余弦相似度;
步骤S43:综合VSM向量间的余弦相似度与Word2Vec向量之间的相似度作为话题与微博的相似度,计算方法如公式(7)所示:
其中Sim表示话题与微博的相似度,simvsm表示双向量模型中的VSM向量之间的相似度,simword2vec表示双向量模型中的Word2Vec向量之间的相似度,值越大,说明话题与微博越相似。
步骤S5:根据得到的话题与微博的相似度,进行相似度阈值的自适应学习和阈值比较;
步骤S51:相似度阈值分为相似度最低阈值ε和反馈阈值δ,对于每一个话题的初始反馈阈值,用初始话题与初始话题相关微博的相似度的平均值表示;而追踪过程中反馈阈值则与前s个时隙的反馈微博与话题的相似度的平均值相关,时间间隔越近相关性越强,阈值ε和δ的计算如公式(8)-(9)所示:
εt=δt-C (9)
其中,t表示第t个时隙,t表示第t时隙的反馈阈值,feedsimi表示第i个时隙的反馈微博与话题相似度的平均值,t表示第t时隙的最小阈值,C表示话题容忍度,最低阈值与反馈阈值相关,其值等于反馈阈值减话题容忍度C;
步骤S52:若微博与话题的相似度大于反馈阈值,则微博与话题高度相关,将其加入反馈微博集,用于生成新的话题模型;若微博与话题的相似度大于最低阈值,则判定微博为话题相关微博;反之,若微博与话题的相似度不大于最低阈值,则将微博判定为话题不相关微博。反馈阈值用于挑选与话题高度相关的微博作为反馈微博,更新话题模型。而相似度最低阈值是微博属于话题的最小边界,反馈阈值大于最低阈值。
步骤S6:话题模型更新;
步骤S61:采用BTM主题模型从初始话题微博集中选择话题特征生成初始话题模型;
步骤S62:采用BTM主题模型的从反馈微博集中选择话题特征,生成动态话题模型;
步骤S63:原话题模型加入初始话题模型和动态话题模型的特征,若原话题模型中已经存在某个特征,用三个模型中该特征的最大权重值更新原话题模型特征的权重值,并将原话题模型的特征按权重值降序排列,选择靠前的T个特征及其权重值作为新话题模型更新原话题模型。为了提高话题追踪方法的效率,话题模型更新设置了时间条件和反馈微博数阈值feed(feed取值为10)。如果只要有反馈微博加入就更新话题,则会使话题更新次数过于频繁,影响追踪效率。并且,如果该时隙内加入的反馈微博数太少,则可能是噪音微博,所以不更新话题。因此,一个时隙结束后,如果新加入的反馈微博数大于feed,则更新话题。否则,不更新话题。一般来说,20个特征即可以表示一个话题,所以T取20。
步骤S7:判断时隙是否都已处理,否,进入下一个时隙;否则,结束算法,完成微博话题追踪,
步骤S71:判断时隙是否都已处理,若未处理完,进入下一个时隙执行步骤S62;否则,结束算法,完成微博话题追踪;
步骤S72:将微博用步骤S22所述的构建微博双向量模型的方法表示成向量;
步骤S73:将新的话题模型的话题特征采用步骤S21中所述的向量化方法表示成向量;
步骤S74:重复步骤S4-S7。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (7)
1.一种基于双向量模型的自适应微博话题追踪方法,其特征在于,包括以下步骤:
步骤S1:将待追踪的微博按日期进行时隙分片,同一天的微博归属于同个时隙;
步骤S2:构建初始话题双向量模型;
步骤S3:构建微博双向量模型;
步骤S4:根据初始话题双向量模型和微博双向量模型,计算得到话题与微博的相似度;
步骤S5:根据得到的话题与微博的相似度,进行相似度阈值的自适应学习和阈值比较;
步骤S6:话题模型更新;
步骤S7:判断时隙是否都已处理,否,进入下一个时隙;否则,结束算法,完成微博话题追踪。
2.根据权利要求1所述的基于双向量模型的自适应微博话题追踪方法,其特征在于:所述初始话题双向量模型构建具体为:
步骤S21:采用BTM主题模型从随机选择的初始话题微博中挖掘潜在的主题词分布,选择概率分布高的m个词以及对应的归一化后的概率分布值,作为特征表示初始话题;
步骤S22:采用VSM向量化方法和词嵌入向量化方法将特征集分别表示成向量,双向量模型由Word2Vec向量和VSM向量组成;其中Word2Vec向量是指利用其特征词的词向量转化成的向量,等于最有代表性的m个特征词的词向量与其特征权重相乘的和,如公式(2)所示:
k={k1,k2,…,kn} (1)
其中,k表示向量,n表示向量维度,ki表示向量k第i维的值,m表示特征词数目,wij代表第j个特征词的词向量第i维的值,ratej表示第j个特征词的特征权重;VSM向量采用向量空间模型的方式表示成向量,一个特征表示成向量中的一维,向量中的值为对应特征的权重值,如果文本中不存在该特征,赋值为0。
3.根据权利要求1所述的基于双向量模型的自适应微博话题追踪方法,其特征在于:所述初始话题微博双向量模型构建具体为:
步骤S31:采用TFIDF算法从微博中抽取TFIDF值大的m个词以及对应的归一化后的TFIDF值为特征权重来表示,TFIDF值的计算公式如公式(3)所示:
TFIDFw=tfw×lg(M/Mw+0.01) (3)
其中,TFIDFw表示词w的TFIDF值,tfw表示词w在当前微博中的出现次数,M表示总微博数目,Mw表示含有词w的文本数;
步骤S32:采用VSM向量化方法和词嵌入向量化方法将特征集分别表示成向量,双向量模型由Word2Vec向量和VSM向量组成;其中Word2Vec向量是指利用其特征词的词向量转化成的向量,等于最有代表性的m个特征词的词向量与其特征权重相乘的和,如公式(5)所示:
p={p1,p2,…,pn} (4)
其中,p表示向量,n表示向量维度,pi表示向量p第i维的值,m表示特征词数目,wij代表第j个特征词的词向量第i维的值,ratej表示第j个特征词的特征权重;VSM向量采用向量空间模型的方式表示成向量,一个特征表示成向量中的一维,向量中的值为对应特征的权重值,如果文本中不存在该特征,赋值为0。
4.根据权利要求1所述的基于双向量模型的自适应微博话题追踪方法,其特征在于:所述步骤S4具体为:
步骤S41:话题双向量模型中VSM向量与微博双向量模型中VSM向量的余弦相似度,余弦相似度的计算公式(6)如下:
其中,Simkd表示向量k和向量d的余弦相似度,ki表示向量k第i维上的值,di表示向量d第i维上的值;
步骤S42:话题双向量模型中Word2Vec向量与微博双向量模型中Word2Vec向量的余弦相似度;
步骤S43:综合VSM向量间的余弦相似度与Word2Vec向量之间的相似度作为话题与微博的相似度,计算方法如公式(7)所示:
其中Sim表示话题与微博的相似度,simvsm表示双向量模型中的VSM向量之间的相似度,simword2vec表示双向量模型中的Word2Vec向量之间的相似度,值越大,说明话题与微博越相似。
5.根据权利要求1所述的基于双向量模型的自适应微博话题追踪方法,其特征在于:所述步骤S5具体为:
步骤S51:相似度阈值分为相似度最低阈值ε和反馈阈值δ,对于每一个话题的初始反馈阈值,用初始话题与初始话题相关微博的相似度的平均值表示;而追踪过程中反馈阈值则与前s个时隙的反馈微博与话题的相似度的平均值相关,时间间隔越近相关性越强,阈值ε和δ的计算如公式(8)-(9)所示:
εt=δt-C (9)
其中,t表示第t个时隙,t表示第t时隙的反馈阈值,feedsimi表示第i个时隙的反馈微博与话题相似度的平均值,t表示第t时隙的最小阈值,C表示话题容忍度,最低阈值与反馈阈值相关,其值等于反馈阈值减话题容忍度C;
步骤S52:若微博与话题的相似度大于反馈阈值,则微博与话题高度相关,将其加入反馈微博集,用于生成新的话题模型;若微博与话题的相似度大于最低阈值,则判定微博为话题相关微博;反之,若微博与话题的相似度不大于最低阈值,则将微博判定为话题不相关微博。
6.根据权利要求1所述的基于双向量模型的自适应微博话题追踪方法,其特征在于:所述步骤S6具体为:
步骤S61:采用BTM主题模型从初始话题微博集中选择话题特征生成初始话题模型;
步骤S62:采用BTM主题模型的从反馈微博集中选择话题特征,生成动态话题模型;
步骤S63:原话题模型加入初始话题模型和动态话题模型的特征,若原话题模型中已经存在某个特征,用三个模型中该特征的最大权重值更新原话题模型特征的权重值,并将原话题模型的特征按权重值降序排列,选择靠前的T个特征及其权重值作为新话题模型更新原话题模型。
7.根据权利要求2所述的基于双向量模型的自适应微博话题追踪方法,其特征在于:所述步骤S7具体为:
步骤S71:判断时隙是否都已处理,若未处理完,进入下一个时隙执行步骤S72;否则,结束算法,完成微博话题追踪;
步骤S72:将微博用步骤S22所述的构建微博双向量模型的方法表示成向量;
步骤S73:将新的话题模型的话题特征采用步骤S21中所述的向量化方法表示成向量;
步骤S74:重复步骤S4-S7。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811106923.XA CN109284379B (zh) | 2018-09-21 | 2018-09-21 | 基于双向量模型的自适应微博话题追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811106923.XA CN109284379B (zh) | 2018-09-21 | 2018-09-21 | 基于双向量模型的自适应微博话题追踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109284379A true CN109284379A (zh) | 2019-01-29 |
CN109284379B CN109284379B (zh) | 2022-01-04 |
Family
ID=65181961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811106923.XA Active CN109284379B (zh) | 2018-09-21 | 2018-09-21 | 基于双向量模型的自适应微博话题追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109284379B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562919A (zh) * | 2017-09-13 | 2018-01-09 | 云南大学 | 一种基于信息检索的多索引集成软件构件检索方法及*** |
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
US20180032606A1 (en) * | 2016-07-26 | 2018-02-01 | Qualtrics, Llc | Recommending topic clusters for unstructured text documents |
US20180068371A1 (en) * | 2016-09-08 | 2018-03-08 | Adobe Systems Incorporated | Learning Vector-Space Representations of Items for Recommendations using Word Embedding Models |
CN108062307A (zh) * | 2018-01-04 | 2018-05-22 | 中国科学技术大学 | 基于词嵌入模型的文本语义隐写分析方法 |
-
2018
- 2018-09-21 CN CN201811106923.XA patent/CN109284379B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032606A1 (en) * | 2016-07-26 | 2018-02-01 | Qualtrics, Llc | Recommending topic clusters for unstructured text documents |
US20180068371A1 (en) * | 2016-09-08 | 2018-03-08 | Adobe Systems Incorporated | Learning Vector-Space Representations of Items for Recommendations using Word Embedding Models |
CN107562919A (zh) * | 2017-09-13 | 2018-01-09 | 云南大学 | 一种基于信息检索的多索引集成软件构件检索方法及*** |
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
CN108062307A (zh) * | 2018-01-04 | 2018-05-22 | 中国科学技术大学 | 基于词嵌入模型的文本语义隐写分析方法 |
Non-Patent Citations (4)
Title |
---|
DANIEL MORARIU ET AL.: "An Extension of the VSM Documents Representation using Word Embedding", 《PROCEEDINGS OF THE BRCEBE-ICEBE’17 CONFERENCE, SIBIU, ROMANIA》 * |
唐明等: "基于Word2Vec的一种文档向量表示", 《计算机科学》 * |
武军娜: "自适应话题跟踪技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
程林骏: "基于多源数据的话题检测与追踪研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109284379B (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN112926303B (zh) | 一种基于BERT-BiGRU的恶意URL检测方法 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN111191466B (zh) | 一种基于网络表征和语义表征的同名作者消歧方法 | |
CN102411611B (zh) | 一种面向即时交互文本的事件识别与跟踪方法 | |
CN101980199A (zh) | 基于态势评估的网络热点话题发现方法及*** | |
CN106815310A (zh) | 一种对海量文档集的层次聚类方法及*** | |
CN109492776B (zh) | 基于主动学习的微博流行度预测方法 | |
CN106294618A (zh) | 搜索方法及装置 | |
CN111027595A (zh) | 双阶段语义词向量生成方法 | |
CN110580281A (zh) | 一种基于语义相似度的相似案件匹配方法 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN113051397A (zh) | 一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法 | |
CN103761286A (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN103095849A (zh) | 基于QoS属性预测和纠错的有监督Web服务发现方法及*** | |
US7895206B2 (en) | Search query categrization into verticals | |
Sun et al. | A hybrid approach to news recommendation based on knowledge graph and long short-term user preferences | |
Zhang et al. | Extractive Document Summarization based on hierarchical GRU | |
CN109284379A (zh) | 基于双向量模型的自适应微博话题追踪方法 | |
CN105653686A (zh) | 一种域名网址活跃度统计方法及*** | |
CN113362034B (zh) | 一种职位推荐方法 | |
Li et al. | Short text sentiment analysis based on convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |