CN108427769A - 一种基于社交网络的人物兴趣标签提取方法 - Google Patents

一种基于社交网络的人物兴趣标签提取方法 Download PDF

Info

Publication number
CN108427769A
CN108427769A CN201810271591.4A CN201810271591A CN108427769A CN 108427769 A CN108427769 A CN 108427769A CN 201810271591 A CN201810271591 A CN 201810271591A CN 108427769 A CN108427769 A CN 108427769A
Authority
CN
China
Prior art keywords
candidate
label
word
interest tags
personage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810271591.4A
Other languages
English (en)
Other versions
CN108427769B (zh
Inventor
韩月辉
赵雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201810271591.4A priority Critical patent/CN108427769B/zh
Publication of CN108427769A publication Critical patent/CN108427769A/zh
Application granted granted Critical
Publication of CN108427769B publication Critical patent/CN108427769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于社交网络的人物兴趣标签提取方法,包括以下步骤:步骤A:数据预处理,用于对人物的社交网络数据进行清洗、筛选和替换,形成包括多个单词的集合;步骤B:候选标签的导出,依次对所述集合内的单词进行读入并判断,形成包括话题标签、单词候选标签和词组候选标签的候选标签集;步骤C:兴趣标签的提取,包括候选标签TF值的确定;候选标签IDF值的计算;根据候选标签的TFIDF值进行排序,导出部分话题标签至兴趣标签集中;候选标签之间的权值计算;候选标签的得分计算;兴趣标签集的获取。本发明至少具有以下优点:既考虑了兴趣标签在文档库和文档中的频率,又考虑了文档结构对兴趣标签的影响,可以得到更精确的效果。

Description

一种基于社交网络的人物兴趣标签提取方法
技术领域
本发明涉及标签提取技术领域,尤其涉及一种基于社交网络的人物兴趣标签提取方法。
背景技术
随着互联网应用的迅猛发展,社交网络对用户的影响力越来越大。人们越来越依赖社交网络进行信息的交流与共享,带来了互联网数据的***式增长,同时用户对个性化的需求也越来越强烈,例如推荐用户喜欢的商品、游戏、音乐、电影或者新闻资讯等等。人物兴趣标签通常用于描述人物的身份属性、兴趣属性,对于人物检索与推荐、人物行为分析、发现人物兴趣爱好和建立人物画像模型都有很大的帮助。
常用的兴趣标签提取技术有TFIDF、TextRank等。TFIDF是一种用于信息检索与数据挖掘的常用加权技术。其中,TF(term-frequency)指词频,表示某个词在文档中出现的频率。IDF(inverse-document-frequency)指逆文档频率,由文档库中的所有文件总数除以包含某个词的文件数并取对数计算得到。可以看出,某个词在其他文档中出现的次数越多,其IDF的值越小。TFIDF的值由TF乘以IDF得到,其含义是如果某个词在一篇文档中出现的次数越多,并且在其它文档中出现的次数越少,则这个词越能反映该文档的主题,对应到社交网络,就是指社交网络中人物的兴趣标签。
TextRank算法是一种关键词提取算法(Mihalcea R,Tarau P.TextRank:Bringingorder into texts[C].Association for Computational Linguistics,2004.),可以提取文本中的关键词或摘要。其基本思想是将每个候选词看作图中的一个节点,出现在同一段文本中的词之间建立边,同时出现的次数为节点之间的边上的权重。以Twitter为例,如果a和b两个单词出现在同一条tweet中,那么节点a和节点b之间就存在一条边,边上的权值为a、b两个单词同时出现的tweet条数。然后我们初始化每个候选词的得分为1,根据候选词之间的关系迭代计算每个候选词的得分直至收敛,得分越高的词越能反映出文档的主题。
现有的兴趣标签提取算法,大多将单个词作为兴趣标签,而忽略了词组以及社交网络中特有的话题标签。另外,前面讲到的TFIDF算法仅仅考虑了单词在文档和文档库中的频率,而没有考虑文档的文本结构。相反的,TextRank算法仅仅考虑了候选词在文档结构中的作用,而忽略了候选词在整个语料库中的代表性,这样容易受无意义词(例如停用词等)的影响。
发明内容
本发明要解决的技术问题是提供一种基于社交网络的人物兴趣标签提取方法,其既考虑了兴趣标签在语料库和该文档中的频率,又考虑了文档结构对兴趣标签的影响,可以得到更加精确的效果。另外,将词组和社交网络话题标签作为兴趣标签提取结果,能够更加准确地反映人物的兴趣爱好。
为了解决上述技术问题,本发明提供了一种基于社交网络的人物兴趣标签提取方法,包括以下步骤:
步骤A:数据预处理,用于对人物的社交网络数据进行清洗、筛选和替换,形成包括多个单词的集合;
步骤B:候选标签的导出,依次对所述集合内的单词进行读入并判断,形成包括话题标签、单词候选标签和词组候选标签的候选标签集;
步骤C:兴趣标签的提取,包括以下步骤,
-C1:候选标签TF值的确定:依次对每个所述话题标签、单词候选标签和词组候选标签进行读入并统计相同候选标签出现的次数,作为该候选标签的TF值;
-C2:候选标签IDF值的计算:读入文档库,设文档库中有n篇文档,对于每个候选标签w,文档库中有m篇文档包含候选标签w,则候选标签w的IDF值为:IDF=log(n/m+1);候选标签w的TFIDF值为:TFIDF=TF×IDF;
-C3:根据候选标签的TFIDF值进行排序,若TFIDF值最高的前H个候选标签中有h个话题标签,则将该h个话题标签导出至兴趣标签集中;(H为需提取的兴趣标签数量);
-C4:候选标签之间的权值计算:计算出候选标签之间的权值矩阵;
-C5:候选标签的得分计算:初始化每个所述候选标签w的得分S(w)为1,根据以下公式迭代计算每个候选标签的得分,直至收敛,
O(j)=∑e(j,k)∈Ew(j,k)
其中,表示w(i,j)候选标签i和j之间的权值,O(j)表示以节点j为端点的边的权值和;λ为阻尼系数,一般取值0.85;e(i,j)表示以节点i和节点j为端点的边;E为边集;TFIDF(i)表示节点i代表的候选标签的TFIDF值;
-C6:兴趣标签集的获取:对每个所述候选标签的S(i)进行降序排列,并将前H-h个所述候选标签导出至兴趣标签集,与所述h个话题标签形成完成的兴趣标签集。
进一步地,所述步骤A中的数据预处理,依次包括大小写转换、分词、词性打标、删除停用词、删除俚语、删除链接、删除表情词、删除转发标识。
进一步地,所述大小写转换包括:统一将所述人物的社交网络数据转换成小写;所述分词包括:将输入的所述人物的社交网络数据分割成多个单词;所述词性打标包括:用于对每个所述单词进行词性打标,便于选择指定词性的所述单词作为候选标签;所述停用词包括:没有实际含义的词;所述俚语包括:非正式、较口语的语句。
进一步地,所述步骤B中的候选标签导出,具体包括以下步骤:步骤B1:若第一个读入的单词或词组为话题标签(Twitter中以#开头),则将所述话题标签导出至候选标签集中;步骤B2:若第一个读入的单词为名词,则将所述单词导出至所述候选标签集中;步骤B3:B31:若第一个读入的单词为动词或形容词,则继续判断后端相邻的第二个单词属性,反之则删除该单词;B32:若第二个读入的单词为名词,则将所述第一个单词和第二个单词形成的词组导入候选标签集中;若第二个读入的单词为形容词,则继续判断后端相邻的第三个单词;反之则删除所述第一个单词和第二个单词;B33:若第三个读入的单词为名词,则判断该名词是否在候选标签集中存在,若存在,则删除候选标签集中的该名词,并将所述第一个单词、第二个单词和第三个单词形成的词组导入候选标签集中;若不存在,则直接将所述词组导入候选标签集中;反之,则删除所述第一个单词、第二个单词和第三个单词。
进一步地,所述B32中还包括:判断该名词是否在候选标签集中存在,若存在,则删除标签集中的该名词,再将所述第一个单词和第二个单词形成的词组导入候选标签集中;若不存在,则将所述词组直接导入候选标签集中。
进一步地,所述词组包括:动词-名词、形容词-名词、动词-形容词-名词。
进一步地,其中步骤C4:候选标签之间的权值计算包括:将所述候选标签集作为一张无向有权图,每个所述候选标签看做图中的一个节点,若两个候选标签出现在同一条tweet中,则在两个候选标签代表的节点之间建立边,边上的权值为两个候选标签同时出现的tweet的条数。
借由上述技术方案,本发明的融合了现有的两种社交网络兴趣标签提取方法,提取的兴趣标签包含社交网络话题标签、单词、词组。融合后的算法既考虑了兴趣标签在文档库和文档中的频率,又考虑了文档结构对兴趣标签的影响,可以得到更加精确的效果。另外,将词组和社交网络话题标签作为兴趣标签提取结果,能够更加准确地反映人物的兴趣爱好。
附图说明
图1是本发明的整体流程框图;
图2是本发明兴趣标签的提取的流程框图;
图3是本发明数据预处理的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
结合图1至图3所示,本发明公开了一种基于社交网络的人物兴趣标签提取方法,包括以下步骤:步骤A:数据预处理;步骤B:候选标签的导出;步骤C:兴趣标签的提取。
所述步骤A:数据预处理,用于对人物的社交网络数据进行清洗、筛选和替换,形成包括多个单词的集合;所述数据预处理依次包括大小写转换、分词、词性打标、删除停用词、删除俚语、删除链接、删除表情词、删除转发标识。其中,所述大小写转换包括:统一将所述人物的社交网络数据转换成小写。所述分词包括:将输入的所述人物的社交网络数据分割成多个单词。所述词性打标包括:用于对每个所述单词进行词性打标,打标的目的是对每个所述单词和词组标注词性,便于选择指定词性的所述单词作为候选标签。所述停用词包括:没有实际含义的词。所述俚语包括:在社交网络中出现的非正式、较口语的语句,这样的语句不能作为候选标签。此外,采集的所述人物的社交网络数据中可能会包含链接(例如用户发布的图片)、表情词、转发标识等,上述的数据对候选标签的提取没有任何作用,因而在候选标签确定时,首先将上述数据进行删除。
步骤B:候选标签的导出,依次对所述集合内的单词和词组进行读入并判断,形成包括话题标签、单词候选标签和词组候选标签的候选标签集。本发明中,优选地所述词组包括动词-名词、形容词-名词、动词-形容词-名词三种形式。结合图3,所述候选标签的导出具体包括以下步骤:步骤B1:若第一个读入的单词为话题标签(Twitter中以#开头),则将所述话题标签导出至候选标签集中;步骤B2:若第一个读入的单词为名词,则将所述单词导出至所述候选标签集中;步骤B3:B31:若第一个读入的单词为动词或形容词,则继续判断后端相邻的第二个单词属性,反之则删除该单词;B32:若第二个读入的单词为名词,判断该名词是否在候选标签集中存在,若存在,则删除标签集中的该名词,再将所述第一个单词和第二个单词形成的词组导入候选标签集中;若不存在,则将所述词组直接导入候选标签集中;若第二个读入的单词为形容词,则继续判断后端相邻的第三个单词;反之则删除所述第一个单词和第二个单词;B33:若第三个读入的单词为名词,则判断该名词是否在候选标签集中存在,若存在,则删除候选标签集中的该名词,并将所述第一个单词、第二个单词和第三个单词形成的词组导入候选标签集中;若不存在,则直接将所述词组导入候选标签集中;反之,则删除所述第一个单词、第二个单词和第三个单词。
结合图2,步骤C:兴趣标签的提取,包括以下步骤,
C1:候选标签TF值的确定:依次对每个所述单词候选标签和词组候选标签进行读入并统计相同候选标签出现的次数,作为该候选标签的TF值。
C2:候选标签IDF值的计算:读入文档库,设文档库中有n篇文档,对于每个候选标签w,文档库中有m篇文档包含候选标签w,则候选标签w的IDF值为:IDF=log(n/m+1);候选标签w的TFIDF值为:TFIDF=TF×IDF。
C3:根据候选标签的TFIDF值进行排序,若TFIDF值最高的前H个候选标签中有h个话题标签,则将该h个话题标签导出至兴趣标签集中;(H为需提取的兴趣标签数量)。
C4:候选标签之间的权值计算:计算出候选标签之间权值矩阵。具体包括:将所述候选标签集作为一张无向有权图,每个所述候选标签看做图中的一个节点,若两个候选标签出现在同一条tweet中(以Twitter为例),则在两个候选标签代表的节点之间建立边,边上的权值为两个候选标签同时出现的tweet的条数。
C5:候选标签的得分计算:初始化每个所述候选标签w的得分S(w)为1,根据以下公式迭代计算每个候选标签的得分,直至收敛,
O(j)=∑e(j,k)∈Ew(j,k)
其中,表示w(i,j)候选标签i和j之间的权值,O(j)表示以节点j为端点的边的权值和;λ为阻尼系数,一般取值0.85;e(i,j)表示以节点i和节点j为端点的边;E为边集;TFIDF(i)表示节点i代表的候选标签的TFIDF值。
C6:兴趣标签集的获取:对每个所述候选标签的S(i)进行降序排列,并将前H-h个所述候选标签导出至兴趣标签集,与所述h个话题标签形成完成的兴趣标签集。
通过上述公开的技术方案,本发明的融合了现有的两种社交网络兴趣标签提取方法,提取的兴趣标签包含社交网络话题标签、单词、词组。融合后的算法既考虑了兴趣标签在文档库和文档中的频率,又考虑了文档结构对兴趣标签的影响,可以得到更加精确的效果。另外,将词组和社交网络话题标签作为兴趣标签提取结果,能够更加准确地反映人物的兴趣爱好。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (7)

1.一种基于社交网络的人物兴趣标签提取方法,其特征在于,包括以下步骤:
步骤A:数据预处理,用于对人物的社交网络数据进行清洗、筛选和替换,形成包括多个单词的集合;
步骤B:候选标签的导出,依次对所述集合内的单词进行读入并判断,形成包括话题标签、单词候选标签和词组候选标签的候选标签集;
步骤C:兴趣标签的提取,包括以下步骤,
-C1:候选标签TF值的确定:依次对每个所述话题标签、单词候选标签和词组候选标签进行读入并统计相同候选标签出现的次数,作为该候选标签的TF值;
-C2:候选标签IDF值的计算:读入文档库,设文档库中有n篇文档,对于每个候选标签w,文档库中有m篇文档包含候选标签w,则候选标签w的IDF值为:IDF=log(n/m+1);候选标签w的TFIDF值为:TFIDF=TF×IDF;
-C3:根据候选标签的TFIDF值进行排序,若TFIDF值最高的前H个候选标签中有h个话题标签,则将该h个话题标签导出至兴趣标签集中;(H为需提取的兴趣标签数量);
-C4:候选标签之间的权值计算:计算出候选标签之间的权值矩阵;
-C5:候选标签的得分计算:初始化每个所述候选标签w的得分S(w)为1,根据以下公式迭代计算每个候选标签的得分,直至收敛,
O(j)=∑e(j,k)∈Ew(j,k)
其中,表示w(i,j)候选标签i和j之间的权值,O(j)表示以节点j为端点的边的权值和;λ为阻尼系数,一般取值0.85;e(i,j)表示以节点i和节点j为端点的边;E为边集;TFIDF(i)表示节点i代表的候选标签的TFIDF值;
-C6:兴趣标签集的获取:对每个所述候选标签的S(i)进行降序排列,并将前H-h个所述候选标签导出至兴趣标签集,与所述h个话题标签形成完成的兴趣标签集。
2.如权利要求1所述的基于社交网络的人物兴趣标签提取方法,其特征在于,所述步骤A中的数据预处理,依次包括大小写转换、分词、词性打标、删除停用词、删除俚语、删除链接、删除表情词、删除转发标识。
3.如权利要求2所述的基于社交网络的人物兴趣标签提取方法,其特征在于,所述大小写转换包括:统一将所述人物的社交网络数据转换成小写;所述分词包括:将输入的所述人物的社交网络数据分割成多个单词;所述词性打标包括:用于对每个所述单词进行词性打标,便于选择指定词性的所述单词作为候选标签;所述停用词包括:没有实际含义的词;所述俚语包括:非正式、较口语的语句。
4.如权利要求1所述的基于社交网络的人物兴趣标签提取方法,其特征在于:所述步骤B中的候选标签导出,具体包括以下步骤:
步骤B1:若第一个读入的单词为话题标签(Twitter中以#开头),则将所述话题标签导出至候选标签集中;
步骤B2:若第一个读入的单词为名词,则将所述单词导出至所述候选标签集中;
步骤B3:B31:若第一个读入的单词为动词或形容词,则继续判断后端相邻的第二个单词属性,反之则删除该单词;B32:若第二个读入的单词为名词,则将所述第一个单词和第二个单词形成的词组导入候选标签集中;若第二个读入的单词为形容词,则继续判断后端相邻的第三个单词;反之则删除所述第一个单词和第二个单词;B33:若第三个读入的单词为名词,则判断该名词是否在候选标签集中存在,若存在,则删除候选标签集中的该名词,并将所述第一个单词、第二个单词和第三个单词形成的词组导入候选标签集中;若不存在,则直接将所述词组导入候选标签集中;反之,则删除所述第一个单词、第二个单词和第三个单词。
5.如权利要求4所述的基于社交网络的人物兴趣标签提取方法,其特征在于,所述B32中还包括:判断该名词是否在候选标签集中存在,若存在,则删除标签集中的该名词,再将所述第一个单词和第二个单词形成的词组导入候选标签集中;若不存在,则将所述词组直接导入候选标签集中。
6.如权利要求4所述的基于社交网络的人物兴趣标签提取方法,其特征在于,所述词组包括:动词-名词、形容词-名词、动词-形容词-名词。
7.如权利要求1所述的基于社交网络的人物兴趣标签提取方法,其特征在于,其中步骤C4:候选标签之间的权值计算包括:将所述候选标签集作为一张无向有权图,每个所述候选标签看做图中的一个节点,若两个候选标签出现在同一条tweet中,则在两个候选标签代表的节点之间建立边,边上的权值为两个候选标签同时出现的tweet的条数。
CN201810271591.4A 2018-03-29 2018-03-29 一种基于社交网络的人物兴趣标签提取方法 Active CN108427769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810271591.4A CN108427769B (zh) 2018-03-29 2018-03-29 一种基于社交网络的人物兴趣标签提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810271591.4A CN108427769B (zh) 2018-03-29 2018-03-29 一种基于社交网络的人物兴趣标签提取方法

Publications (2)

Publication Number Publication Date
CN108427769A true CN108427769A (zh) 2018-08-21
CN108427769B CN108427769B (zh) 2021-10-08

Family

ID=63160025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810271591.4A Active CN108427769B (zh) 2018-03-29 2018-03-29 一种基于社交网络的人物兴趣标签提取方法

Country Status (1)

Country Link
CN (1) CN108427769B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710916A (zh) * 2018-11-02 2019-05-03 武汉斗鱼网络科技有限公司 一种标签提取方法、装置、电子设备及存储介质
CN109815495A (zh) * 2019-01-16 2019-05-28 西安交通大学 一种通过标签传播算法进行主题分面挖掘的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法
CN104077417A (zh) * 2014-07-18 2014-10-01 中国科学院计算技术研究所 社交网络中的人物标签推荐方法和***
CN104598588A (zh) * 2015-01-19 2015-05-06 河海大学 基于双聚类的微博用户标签自动生成算法
CN108228771A (zh) * 2017-12-26 2018-06-29 爱品克科技(武汉)股份有限公司 一种基于用户标签算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法
CN104077417A (zh) * 2014-07-18 2014-10-01 中国科学院计算技术研究所 社交网络中的人物标签推荐方法和***
CN104598588A (zh) * 2015-01-19 2015-05-06 河海大学 基于双聚类的微博用户标签自动生成算法
CN108228771A (zh) * 2017-12-26 2018-06-29 爱品克科技(武汉)股份有限公司 一种基于用户标签算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈渊等: "一种面向微博用户的标签推荐方法", 《智能计算机与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710916A (zh) * 2018-11-02 2019-05-03 武汉斗鱼网络科技有限公司 一种标签提取方法、装置、电子设备及存储介质
CN109710916B (zh) * 2018-11-02 2024-02-23 广州财盟科技有限公司 一种标签提取方法、装置、电子设备及存储介质
CN109815495A (zh) * 2019-01-16 2019-05-28 西安交通大学 一种通过标签传播算法进行主题分面挖掘的方法
CN109815495B (zh) * 2019-01-16 2020-06-05 西安交通大学 一种通过标签传播算法进行主题分面挖掘的方法

Also Published As

Publication number Publication date
CN108427769B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
Tong et al. A text mining research based on LDA topic modelling
CN105786991B (zh) 结合用户情感表达方式的中文情感新词识别方法和***
CN105426360B (zh) 一种关键词抽取方法及装置
Zhao et al. Topical keyphrase extraction from twitter
Chuang et al. “Without the clutter of unimportant words” Descriptive keyphrases for text visualization
Korenek et al. Sentiment analysis on microblog utilizing appraisal theory
US8402036B2 (en) Phrase based snippet generation
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
CN108763213A (zh) 主题特征文本关键词提取方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
RU2686000C1 (ru) Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки
Sharifi et al. Summarization of twitter microblogs
CN108804701A (zh) 基于社交网络大数据的人物画像模型构建方法
CN104102681B (zh) 一种微博关键事件获取方法和装置
WO2017157200A1 (zh) 特征词汇提取方法及装置
CN109214454B (zh) 一种面向微博的情感社区分类方法
Albishre et al. Effective 20 newsgroups dataset cleaning
CN109918556B (zh) 一种综合微博用户社交关系和文本特征抑郁情绪识别方法
CN108280689A (zh) 基于搜索引擎的广告投放方法、装置以及搜索引擎***
CN103577405A (zh) 基于兴趣分析的微博博主社区分类方法
CN104239490A (zh) 一种用于ugc网站平台的多账户检测方法及装置
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
Bayot et al. Age and gender classification of tweets using convolutional neural networks
Alkhodair et al. Improving interpretations of topic modeling in microblogs
Al-Saqqa et al. Stemming effects on sentiment analysis using large arabic multi-domain resources

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant