CN110738047A - 基于图文数据与时间效应的微博用户兴趣挖掘方法及*** - Google Patents

基于图文数据与时间效应的微博用户兴趣挖掘方法及*** Download PDF

Info

Publication number
CN110738047A
CN110738047A CN201910828734.1A CN201910828734A CN110738047A CN 110738047 A CN110738047 A CN 110738047A CN 201910828734 A CN201910828734 A CN 201910828734A CN 110738047 A CN110738047 A CN 110738047A
Authority
CN
China
Prior art keywords
microblog
cluster
microblogs
vocabulary
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910828734.1A
Other languages
English (en)
Other versions
CN110738047B (zh
Inventor
袁凌
琚泽平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910828734.1A priority Critical patent/CN110738047B/zh
Publication of CN110738047A publication Critical patent/CN110738047A/zh
Application granted granted Critical
Publication of CN110738047B publication Critical patent/CN110738047B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图文数据与时间效应的微博用户兴趣挖掘方法及***,属于数据挖掘领域,包括:对于任意一个用户u,获得待分析的历史微博集合;每一条历史微博,提取其中的文本和图片后,从文本提取词汇特征向量,从图片提取图片语义特征向量,并组合为该微博的微博特征向量;利用基于Single‑Pass的多阶段不完全聚类方法对历史微博集合进行聚类,得到多个微博簇;根据聚类结果生成微博簇‑词汇矩阵,并利用已训练好的主题模型将其分解为微博簇‑主题概率分布矩阵和主题‑词汇概率分布矩阵,同时得到K个主题;利用拟合时间函数对微博簇‑主题概率分布矩阵进行降维,以得到用户u在各主题上的倾向概率。本发明能够全面、准确地表达微博用户的兴趣倾向。

Description

基于图文数据与时间效应的微博用户兴趣挖掘方法及***
技术领域
本发明属于数据挖掘领域,更具体地,涉及一种基于图文数据与时间效应的微波用户兴趣挖掘方法及***。
背景技术
当前社交网络中的数据呈现指数式增长,网络中的用户可以充分利用社交网络平台获取自己感兴趣的内容,了解用户兴趣倾向能够提升用户在平台的使用体验,同时为企业提供极大的商业价值。例如,当发生自然灾害时,相比于其他以往感兴趣的内容,用户当前可能更期望在这一段时间中一直得到与灾害情况相关的消息。在当今大数据的背景下,企业活动计划的一个重要部分是从大数据中准确地挖掘用户特定的兴趣偏好。微博平台拥有广泛的垂直细分领域信息及强大的信息传播能力,各种特定领域内容和实时性话题都能够在微博平台上及时广泛地传播,因此,大量用户愿意使用微博平台来分享他们对各个领域的兴趣。
然而微博信息更新速度极快,同时微博多为短文本,碎片化严重,存在着“信息过载”的问题,用户基于这样的场景,难以自主高效地在海量信息中获取自己感兴趣的内容。因此,为了解决用户“信息需求”与平台“信息过载”的问题,分析挖掘微博用户的兴趣倾向,为用户精准提供高质量、用户感兴趣的个性化信息推送服务,对平台及用户都有着重要的实际意义。
现有的挖掘微博用户兴趣的方法,多是分别用微博中的文本和图片对用户兴趣进行挖掘,忽略了单条微博中文本和图片之间的关联关系,而且并没有考虑到用户的兴趣倾向会随着时间发生变化,因此,挖掘得到的用户兴趣倾向准确度较低。此外,现有的微博用户兴趣挖掘方法,往往将单个用户单一地归为某一个兴趣类别,过于片面,无法充分对用户进行兴趣分析。总的来说,利用现有的微博用户兴趣挖掘方法所得到的分析结果,无法全面、准确地表达微博用户的兴趣倾向。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于图文数据和时间效应的微博用户兴趣挖掘方法,其目的在于,全面、准确地表达微博用户的兴趣倾向。
为实现上述目的,按照本发明的一个方面,提供了一种基于图文数据与时间效应的微博用户兴趣挖掘方法,包括:
(1)对于任意一个用户u,获得待分析的历史微博集合;历史微博集合中,每条微博均带有时间标记;
(2)对历史微博集合中的每一条微博,提取其中的文本和图片后,对文本进行预处理以得到相应的词汇,并对词汇和图片分别进行特征提取,从而得到词汇特征向量和图片语义特征向量,并组合为该微博的微博特征向量;
(3)利用流式数据聚类算法,根据微博特征向量对历史微博集合进行聚类,从而得到多个微博簇;每个微博簇均带有时间标记;
(4)根据聚类结果生成用户u的微博簇-词汇矩阵,并利用已训练好的主题模型将其分解为微博簇-主题概率分布矩阵和主题-词汇概率分布矩阵,同时得到K个主题;微博簇-词汇矩阵用于通过词汇集合表示微博簇,微博簇-主题概率分布矩阵用于描述微博簇属于各主题的概率,主题-词汇模型用于通过词汇集合表示主题;
(5)利用拟合时间函数对微博簇-主题概率分布矩阵进行降维,以得到用户u在K个主题中每一个主题上的倾向概率;拟合时间函数用于描述微博簇在当前时间对微博用户兴趣倾向的影响权重。
本发明在分别针对微博中的文本和图片提取特征后,由所提取的词汇特征向量和图片语义特征向量共同表达微博的特征,由此能够利用微博中文本与图片之间的关联关系,充分挖掘出用户产生的微博数据信息,从而提高对微博用户兴趣挖掘的准确度;根据微博簇在当前时间对微博用户兴趣倾向的影响权重,对通过主题分析得到的微博簇-主题概率分布矩阵进行降维,由此能够准确捕捉到微博用户兴趣倾向随时间的变化,从而不仅能够兼顾用户长期时间内保持的兴趣,也能关注到用户短期的兴趣倾向;通过对微博簇-主题概率分布矩阵进行降维,得到了用户对各主题的兴趣倾向,从而能够全面的表示出微博用户的兴趣倾向。总体而言,本发明能够全面、准确地表达微博用户的兴趣倾向。
进一步地,步骤(1)包括:
对于任意一个用户u,获得其发布的历史微博,并按照微博话题标识将其中属于同一话题的微博合并为一条微博,在合并的过程中,将最新发布的微博的发布时间作为合并所得微博的时间标记;对于未参与合并的微博,将其发布时间作为时间标记;
由所有合并所得的微博以及未参与合并的微博构成待分析的历史微博集合。
微博文本存在着高稀疏性、噪音大、文本短等特征,传统的微博用户兴趣挖掘方法直接利用原始微博进行建模,效果较差;本发明通过对相同话题的微博进行合并,能够扩充单条微博的信息量,由此能够提高建模分析的效果。
进一步地,步骤(2)中,对文本进行预处理以得到相应的词汇,包括:过滤掉文本中的噪音数据;对于去噪后的文本进行分词,得到相应的词汇后,过滤掉其中的停用词。
本发明通过去噪、分词和过滤停用词的操作,能够有效去除文本中无意义地,甚至是影响分析结果的内容,得到有效的词汇集合,从而保证后续挖掘分析的准确性。
进一步地,步骤(2)中,对图片进行特征提取之前,还会对图片做如下预处理操作:
将图片的短边随机缩放至预设范围内,同时对图片的长边进行等比缩放;
对于缩放后的图片,在其正中间和四个角上分别裁剪出一块子图;各子图的大小相同;
对各子图进行归一化操作,并将归一化之后的子图作为图片语义特征提取的对象。
通过缩放、裁剪的操作,能够保证进行特征提取时,图片大小符合输入要求;具体裁剪时,选择图片正中间和四个角上的子图进行裁剪,能够尽可能完整地保留原始图片的语义信息;因为在对图片提取语义特征向量时,更多关注的是图片内容而不是亮度信息,通过归一化操作,能够移除图片的平均亮度值,有利于准确提取到图片的语义特征信息。
进一步地,步骤(3)包括:第一阶段聚类和第二阶段聚类;
第一阶段聚类包括:
按照时间由远及近的顺序对历史微博集合中的微博进行排序,并按顺序遍历排序后的微博;
对于当前遍历到的微博b,获得前m个时间最近的微博簇中与微博b的相似度最大的第一微博簇Cluster1;若微博b与第一微博簇Cluster1的相似度
Figure BDA0002189951200000041
则将微博b加入第一微博簇Cluster1中;否则,将微博b作为一个新的第一微博簇;
遍历完成后,将所获得的所有第一微博簇作为第一阶段聚类结果;
第二阶段聚类包括:
获得第一阶段聚类结果中的非孤点簇,并对按照时间由近及远的顺序对所有非孤点簇进行排序,按顺序遍历排序后的非孤点簇;
对于当前遍历到的非孤点簇c,获得与其相似度最大的第二微博簇Cluster2,若非孤点簇c与第二微博簇Cluster2的相似度则将非孤点簇c加入第二微博簇Cluster2中;否则,将作为一个新的第二微博簇;
遍历完成后,将所获得的所有第二微博簇作为第二阶段聚类结果;
将第二阶段聚类结果与第一阶段聚类结果中的孤点簇合并,作为最终的聚类结果;
其中,
Figure BDA0002189951200000052
Figure BDA0002189951200000053
均为预设的相似度阈值,孤点簇为所包含微博数为1的微博簇,非孤点簇为所包含微博数大于1的微博簇。
本发明将微博聚类分为两个阶段;由于用户发表的微博在一定时间内具有内聚性,在某段时间内的短期兴趣倾向可能极为相似,并且不容易发生改变,因此在第一阶段,只将遍历到的微博与前面时间标记最近的m个微博簇进行相似度比较;由于微博聚类时孤点簇的比例较大,很容易影响聚类效率和精度,故在第二阶段聚类时,只对第一阶段中的非孤点簇中的微博进行聚类计算,并且在聚类开始前,将所有微博簇的时间标记进行倒转,这样可以有效解决数据的次序依赖问题;本发明对微博进行聚类的方法具体为MIC-SP算法,使得对微博进行聚类时,可以有效降低聚类的时间代价,解决孤点簇对聚类的影响,同时两个阶段相结合的聚类可以防止由于次序依赖导致的问题,有效避免早期出现的微博没有被正确地聚类,从而保证聚类的准确度。
进一步地,对于任意两条微博b1和b2,其相似度的计算方式为:分别获得两条微博的词汇特征向量之间的相似度Simw,以及图片语义特征向量之间的相似度Simp,并根据相似度Simw和相似度Simp计算微博之间的相似度为:Sim(b1,b2)=rw·Simw+rp·Simp
对于任意微博b1与任意微博簇c1,其相似度的计算方式为:分别获得微博b1与微博簇c1中每一条微博之间的相似度后,计算平均值,作为微博b1与微博簇c1之间的相似度;
对于两个任意微博簇c1和c2,其相似度的计算方式为:分别获的微博簇c1中每一条微博与微博簇c2中每一条微博之间的相似度后,计算平均值,作为微博簇c1和c2之间的相似度;
其中,rw和rp分别表示文本和图片在总相似度中所占的权重,rw∈[0,1],rp∈[0,1]且rw+rp=1。
本发明根据文本和图片对用户兴趣倾向的影响程度,通过加权的方式计算微博之间的相似度,能够更加准确地利用微博中的文本特征信息和图片特征信息,从而提高聚类的准确度。
进一步地,步骤(3)还包括:
按照包含微博数量从多到少的顺序对最终聚类结果中的微博簇进行排序;
根据预设的占比阈值确定数目K,使得排序后,前K个微博簇所包含的微博数量总和与所有微博的数量之比为占比阈值;
将数目K作为主题分析的主题数目。
主题建模的输入要求确定主题数目,主题数目的确定与最终建模效果有较大关系,传统的兴趣挖掘方法通过不同的主题数目多次建模来进行选取最优的主题数目,但是微博用户数量庞大,如果对每个用户都进行多次主题建模,会降低方法的整体效率;本发明在进行聚类的同时,利用微博聚类长尾分布的特征选取阈值计算K值作为主题分析的主题数目,降低了整体的***开销、提升了方法的整体性能。
进一步地,步骤(5)中,拟合时间函数为:
Figure BDA0002189951200000071
其中,tuc表示所有微博中最新发布的微博的发布时间,
Figure BDA0002189951200000072
表示用户u的第q个微博簇,tuq表示微博簇
Figure BDA0002189951200000073
的时间标记,λ为调节参数且λ>0,
Figure BDA0002189951200000074
表示微博簇在当前时间对微博用户兴趣倾向的影响权重,q∈{1,2,…,Q},Q为用户的微博簇总数。
当用户产生新的兴趣时,其旧的兴趣点会随着时间过去的越久而被遗忘得越多,在当前信息纷杂,更迭迅速的环境下,用户兴趣变化的时间规律与德国心理学家艾宾浩斯(H.Ebbinghaus)提出的遗忘曲线极为相似;本发明中的拟合时间函数与艾宾浩斯的遗忘曲线相一致,利用拟合时间函数描述微博簇在当前时间对微博用户兴趣倾向的影响权重,能够准确捕捉到用户的兴趣倾向随时间所发生的变化,从而提高对微博用户兴趣挖掘的准确度。
进一步地,步骤(5)中,用户u在任意第k个主题Tuk上的倾向概率P(Tuk)为:
Figure BDA0002189951200000076
其中,pqk表示微博簇属于第k个主题的概率。
按照本发明的另一个方面,提供了一种基于图文数据和时间效应的微博用户兴趣挖掘***,包括:微博收集模块、特征提取模块、聚类模块、主题分析模块以及兴趣挖掘模块;
微博收集模块,用于对于任意一个用户u,获得待分析的历史微博集合;历史微博集合中,每条微博均带有时间标记;
特征提取模块,用于对历史微博集合中的每一条微博,提取其中的文本和图片后,对文本进行预处理以得到相应的词汇,并对词汇和图片分别进行特征提取,从而得到词汇特征向量和图片语义特征向量,并组合为该微博的微博特征向量;
聚类模块,用于利用流式数据聚类算法,根据微博特征向量对历史微博集合进行聚类,从而得到多个微博簇;每个微博簇均带有时间标记;
主题分析模块,用于根据聚类结果生成用户u的微博簇-词汇矩阵,并利用已训练好的主题模型将其分解为微博簇-主题概率分布矩阵和主题-词汇概率分布矩阵,同时得到K个主题;微博簇-词汇矩阵用于通过词汇集合表示微博簇,微博簇-主题概率分布矩阵用于描述微博簇属于各主题的概率,主题-词汇模型用于通过词汇集合表示主题;
兴趣挖掘模块,用于利用拟合时间函数对微博簇-主题概率分布矩阵进行降维,以得到用户u在K个主题中每一个主题上的倾向概率;拟合时间函数用于描述微博簇在当前时间对微博用户兴趣倾向的影响权重。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明所提供的基于图文数据和时间效应的微博用户兴趣挖掘方法及***,在分别针对微博中的文本和图片提取特征后,由所提取的词汇特征向量和图片语义特征向量共同表达微博的特征,由此能够利用微博中文本与图片之间的关联关系,充分挖掘出用户产生的微博数据信息,从而提高对微博用户兴趣挖掘的准确度;根据微博簇在当前时间对微博用户兴趣倾向的影响权重,对通过主题分析得到的微博簇-主题概率分布矩阵进行降维,由此能够准确捕捉到微博用户兴趣倾向随时间的变化,从而不仅能够兼顾用户长期时间内保持的兴趣,也能关注到用户短期的兴趣倾向;通过对微博簇-主题概率分布矩阵进行降维,得到了用户对各主题的兴趣倾向,从而能够全面的表示出微博用户的兴趣倾向。总体而言,本发明能够全面、准确地表达微博用户的兴趣倾向。
(2)本发明所提供的基于图文数据和时间效应的微博用户兴趣挖掘方法及***,将微博聚类分为两个阶段;在第一阶段,只将遍历到的微博与前面时间标记最近的m个微博簇进行相似度比较;在第二阶段聚类时,只对第一阶段中的非孤点簇中的微博进行聚类计算,并且在聚类开始前,将所有微博簇的时间标记进行倒转,这样可以有效解决数据的次序依赖问题;采用MIC-SP算法对微博进行聚簇,可以有效降低聚类的时间代价,解决孤点簇对聚类的影响,同时两个阶段相结合的聚类可以防止由于次序依赖导致的问题,有效避免早期出现的微博没有被正确地聚类,从而保证聚类的准确度。
(3)本发明所提供的基于图文数据和时间效应的微博用户兴趣挖掘方法及***,在其优选方案中,在进行聚类的同时,利用微博聚类长尾分布的特征选取阈值计算K值作为主题分析的主题数目,降低了整体的***开销、提升了方法的整体性能。
(4)本发明所提供的基于图文数据和时间效应的微博用户兴趣挖掘方法及***,通过对相同话题的微博进行合并,能够扩充单条微博的信息量,由此能够提高建模分析的效果。
(5)本发明所提供的基于图文数据和时间效应的微博用户兴趣挖掘方法及***,通过对遗忘曲线进行拟合,得到用于描述微博簇在当前时间对微博用户兴趣倾向的影响权重的拟合时间函数,能够准确捕捉到用户的兴趣倾向随时间所发生的变化,从而提高对微博用户兴趣挖掘的准确度。
附图说明
图1为本发明实施例提供的基于图文数据与时间效应的微博用户兴趣挖掘方法流程图;
图2为本发明实施例提供的微博聚类方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为了全面、准确地挖掘微博用户的兴趣倾向,本发明所提供的基于图文数据与时间效应的微博用户兴趣挖掘方法,如图1所示,包括:
(1)对于任意一个用户u,获得待分析的历史微博集合;历史微博集合中,每条微博均带有时间标记;
在一个优选的实施方式中,步骤(1)具体包括:
对于任意一个用户u,获得其发布的历史微博,并按照微博话题标识(#…#)将其中属于同一话题的微博合并为一条微博,在合并的过程中,将最新发布的微博的发布时间作为合并所得微博的时间标记;对于未参与合并的微博,将其发布时间作为时间标记;
由所有合并所得的微博以及未参与合并的微博构成待分析的历史微博集合;
微博文本存在着高稀疏性、噪音大、文本短等特征,传统的微博用户兴趣挖掘方法直接利用原始微博进行建模,效果较差;通过对相同话题的微博进行合并,能够扩充单条微博的信息量,由此能够提高建模分析的效果;
(2)对历史微博集合中的每一条微博,提取其中的文本和图片后,对文本进行预处理以得到相应的词汇,并对词汇和图片分别进行特征提取,从而得到词汇特征向量和图片语义特征向量,并组合为该微博的微博特征向量;
在一个可选的实施方式中,步骤(2)中,对文本进行预处理以得到相应的词汇,具体包括:
过滤掉文本中的噪音数据;微博文本中经常含有一些无意义甚至影响实验分析的噪音数据,需要进行去除;去除文本中的噪音数据包括去除无意义符号、emoji表情和http链接,去除带有网页标签格式的非微博文本数据,去除已经被删除或者被***屏蔽、内容显示为异常的微博等;
对于去噪后的文本进行分词,得到相应的词汇;中文与英文不同,英文以每个单词为单位,而中文以字为单位,单个的字没有意义,每句话需要划分成表达语句含义的词汇;jieba分词是目前较为经典的中文分词工具,在本实施例中,具体采用jieba分词进行全模式分词,以得到相应的词汇;应当理解的是,其他中文分词工具同样可用于本发明中;
在分词得到相应的词汇后,过滤掉其中的停用词;分词完成的词汇数据中会包含一些常用、对于表达语义、兴趣没有帮助的词,比如所有的标点符号,以及“的”、“在”等,这些即为停用词;停用词对于后续分析意义不大,所以需要将词汇中的停用词过滤掉,以保证分析效率;
通过去噪、分词和过滤停用词的操作,能够有效去除文本中无意义地,甚至是影响分析结果的内容,得到有效的词汇集合,从而保证后续挖掘分析的准确性;
在本发明实施例中,采用在搜狗新闻及百度百科上预训练好的Word2Vec模型对词汇进行特征提取,得到词汇的100维特征向量;采用在ImageNet数据集上经训练好的ResNet-50模型,提取图片语义特征信息,生成1000维高维特征向量;应当理解的是,此处词汇特征向量及图片语义特征向量的具体提取方法,仅为示例性描述,不应理解为对本发明的唯一限定;
为了对图片进行语义特征提取,需要保证图片的大小满足特定的输入要求,在发明实施例中,用于提取图片语义特性向量的ResNet-50模型只支持224*224*3的图片输入;
相应地,步骤(2)中,对图片进行特征提取之前,还会对图片做如下预处理操作:
将图片的短边随机缩放至预设范围内,同时对图片的长边进行等比缩放;其中,短边缩放的预设范围是[256,480],一个随机缩放的例子是,原始图片的尺寸为[1000,800,3],假设图片短边缩放到256,由于是等比缩放,那么此时图片的尺寸即为[320,256,3],即图片的长宽比例是不变的;
对于缩放后的图片,在其正中间和四个角上分别裁剪出一块子图;各子图的大小相同;在本实施例中,裁剪的子图大小具体为224*224,具体裁剪时,选择图片正中间和四个角上的子图进行裁剪,能够尽可能完整地保留原始图片的语义信息;
对各子图进行归一化操作,并将归一化之后的子图作为图片语义特征提取的对象;因为在对图片提取语义特征向量时,更多关注的是图片内容而不是亮度信息,通过归一化操作,能够移除图片的平均亮度值,有利于准确提取到图片的语义特征信息;
(3)利用流式数据聚类算法,根据微博特征向量对历史微博集合进行聚类,从而得到多个微博簇;每个微博簇均带有时间标记,在本发明中,微博簇的时间标记为其中最新发布的微博的发布时间;
由于微博用户兴趣随时间呈一定变化规律,并且兴趣倾向具有一定内聚性,流式数据聚类算法按顺序聚类的思想与微博用户兴趣的时间效应相符;
在一个可选的实施方式中,步骤(3)可采用Single-Pass算法对历史微博集合进行聚类;
Single-Pass算法又称单通道法,是一种经典的流式数据聚类方法。算法的思想是:按顺序输入数据,每次输入的数和已有的簇或其中的数据进行比较,根据规则,如果某个簇符合相似级别,则加入到该簇,否则将该数据作为一个新的簇;如此反复,直到所有数据全部遍历完毕;Single-Pass算法对所有数据总共只进行一次遍历;
应当理解的是,其他流式数据聚类算法同样可以用于本发明中;
(4)根据聚类结果生成用户u的微博簇-词汇矩阵,并利用已训练好的主题模型将其分解为微博簇-主题概率分布矩阵和主题-词汇概率分布矩阵,同时得到K个主题;微博簇-词汇矩阵用于通过词汇集合表示微博簇,微博簇-主题概率分布矩阵用于描述微博簇属于各主题的概率,主题-词汇模型用于通过词汇集合表示主题;
主题模型可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布出来后,便可以根据主题分布进行主题聚类或文本分类;
在本实施例中,所采用的主题模型具体为LDA主题模型,应当理解的是,其他主题模型也可用于本发明中;
使用LDA主题模型用于用户兴趣挖掘时,需要输入先验参数和最终生成的主题个数;
作为一种优选的实施方式,本实施例中,在步骤(3)中,对微博聚类完成后,还会执行以下操作:
按照包含微博数量从多到少的顺序对最终聚类结果中的微博簇进行排序;
根据预设的占比阈值确定数目K,使得排序后,前K个微博簇所包含的微博数量总和与所有微博的数量之比为占比阈值;其中,占比阈值可根据经验设定为0.2;
将数目K作为主题分析的主题数目;
在进行聚类的同时,利用微博聚类长尾分布的特征选取阈值计算K值作为主题分析的主题数目,降低了整体的***开销、提升了方法的整体性能;
(5)利用拟合时间函数对微博簇-主题概率分布矩阵进行降维,以得到用户u在K个主题中每一个主题上的倾向概率;拟合时间函数用于描述微博簇在当前时间对微博用户兴趣倾向的影响权重;
在一个可选的实施方式中,步骤(5)中,拟合时间函数为:
Figure BDA0002189951200000141
其中,tuc表示所有微博中最新发布的微博的发布时间,表示用户u的第q个微博簇,tuq表示微博簇
Figure BDA0002189951200000143
的时间标记,λ为调节参数且λ>0,
Figure BDA0002189951200000144
表示微博簇
Figure BDA0002189951200000145
在当前时间对微博用户兴趣倾向的影响权重,q∈{1,2,…,Q},Q为用户的微博簇总数;
当用户产生新的兴趣时,其旧的兴趣点会随着时间过去的越久而被遗忘得越多,在当前信息纷杂,更迭迅速的环境下,用户兴趣变化的时间规律与德国心理学家艾宾浩斯(H.Ebbinghaus)提出的遗忘曲线极为相似;上述拟合时间函数与艾宾浩斯的遗忘曲线相一致,利用拟合时间函数描述微博簇在当前时间对微博用户兴趣倾向的影响权重,能够准确捕捉到用户的兴趣倾向随时间所发生的变化,从而提高对微博用户兴趣挖掘的准确度;
基于上述拟合时间函数,步骤(5)中,用户u在任意第k个主题Tuk上的倾向概率P(Tuk)为:
Figure BDA0002189951200000146
其中,pqk表示微博簇
Figure BDA0002189951200000147
属于第k个主题的概率,可根据步骤(4)得到的微博簇-主题概率分布矩阵获得;
获得用户u在各主题上的倾向概率之后,可构造出用户-主题概率分布矩阵θu=(P(Tu1),P(Tu2),…,P(Tuk)),通过用户-主题概率分布矩阵θu可全面的描述微博用户的兴趣倾向。
上述基于图文数据与时间效应的微博用户兴趣挖掘方法,在分别针对微博中的文本和图片提取特征后,由所提取的词汇特征向量和图片语义特征向量共同表达微博的特征,由此能够利用微博中文本与图片之间的关联关系,充分挖掘出用户产生的微博数据信息,从而提高对微博用户兴趣挖掘的准确度;根据微博簇在当前时间对微博用户兴趣倾向的影响权重,对通过主题分析得到的微博簇-主题概率分布矩阵进行降维,由此能够准确捕捉到微博用户兴趣倾向随时间的变化,从而不仅能够兼顾用户长期时间内保持的兴趣,也能关注到用户短期的兴趣倾向;通过对微博簇-主题概率分布矩阵进行降维,得到了用户对各主题的兴趣倾向,从而能够全面的表示出微博用户的兴趣倾向。总体而言,上述基于图文数据与时间效应的微博用户兴趣挖掘方法能够全面、准确地表达微博用户的兴趣倾向。
传统的流式数据聚类算法在进行聚类时,往往存在某些缺陷,例如,Single-Pass算法随着数据的不断增多,后期计算相似度时需要与之前每一个簇进行比较,最终导致时间代价非常大,而且聚类数据有次序依赖问题,如果早期输入的微博信息不丰富,没有正确聚类到同一个微博簇,那么最终会导致聚类结果与实际有所偏差;
针对上述问题,在本发明的一个优选实施方式中,如图2所示,步骤(3)对微博进行聚类的方式,具体包括:第一阶段聚类和第二阶段聚类;
第一阶段聚类包括:
按照时间由远及近的顺序对历史微博集合中的微博进行排序,并按顺序遍历排序后的微博;
对于当前遍历到的微博b,获得前m个时间最近的微博簇中与微博b的相似度最大的第一微博簇Cluster1;若微博b与第一微博簇Cluster1的相似度
Figure BDA0002189951200000151
则将微博b加入第一微博簇Cluster1中;否则,将微博b作为一个新的第一微博簇;
遍历完成后,将所获得的所有第一微博簇作为第一阶段聚类结果;
第二阶段聚类包括:
获得第一阶段聚类结果中的非孤点簇,并对按照时间由近及远的顺序对所有非孤点簇进行排序,按顺序遍历排序后的非孤点簇;
对于当前遍历到的非孤点簇c,获得与其相似度最大的第二微博簇Cluster2,若非孤点簇c与第二微博簇Cluster2的相似度
Figure BDA0002189951200000161
则将非孤点簇c加入第二微博簇Cluster2中;否则,将作为一个新的第二微博簇;
遍历完成后,将所获得的所有第二微博簇作为第二阶段聚类结果;
将第二阶段聚类结果与第一阶段聚类结果中的孤点簇合并,作为最终的聚类结果;
其中,
Figure BDA0002189951200000162
Figure BDA0002189951200000163
均为预设的相似度阈值,孤点簇为所包含微博数为1的微博簇,非孤点簇为所包含微博数大于1的微博簇;相似度阈值
Figure BDA0002189951200000164
Figure BDA0002189951200000165
可根据经验设定在0.2~0.4的范围内,例如,在本实施例中,具体设定
Figure BDA0002189951200000166
上述聚类方法可视为一种基于Single-Pass的多阶段不完全聚类方法,具体将微博聚类分为两个阶段;由于用户发表的微博在一定时间内具有内聚性,在某段时间内的短期兴趣倾向可能极为相似,并且不容易发生改变,因此在第一阶段,只将遍历到的微博与前面时间标记最近的m个微博簇进行相似度比较;由于微博聚类时孤点簇的比例较大,很容易影响聚类效率和精度,故在第二阶段聚类时,只对第一阶段中的非孤点簇中的微博进行聚类计算,并且在聚类开始前,将所有微博簇的时间标记进行倒转,这样可以有效解决数据的次序依赖问题;本发明对微博进行聚类的方法具体为MIC-SP算法,使得对微博进行聚类时,可以有效降低聚类的时间代价,解决孤点簇对聚类的影响,同时两个阶段相结合的聚类可以防止由于次序依赖导致的问题,有效避免早期出现的微博没有被正确地聚类,从而保证聚类的准确度;
在上述聚类方法中,对于任意两条微博b1和b2,其相似度的计算方式为:分别获得两条微博的词汇特征向量之间的相似度Simw,以及图片语义特征向量之间的相似度Simp,并根据相似度Simw和相似度Simp计算微博之间的相似度为:Sim(b1,b2)=rw·Simw+rp·Simp;特征向量之间的相似度,具体可通过计算余弦相似度获得;
对于任意微博b1与任意微博簇c1,其相似度的计算方式为:分别获得微博b1与微博簇c1中每一条微博之间的相似度后,计算平均值,作为微博b1与微博簇c1之间的相似度;
对于两个任意微博簇c1和c2,其相似度的计算方式为:分别获的微博簇c1中每一条微博与微博簇c2中每一条微博之间的相似度后,计算平均值,作为微博簇c1和c2之间的相似度;
其中,rw和rp分别表示文本和图片在总相似度中所占的权重,rw∈[0,1],rp∈[0,1]且rw+rp=1;
根据文本和图片对用户兴趣倾向的影响程度,通过加权的方式计算微博之间的相似度,能够更加准确地利用微博中的文本特征信息和图片特征信息,从而提高聚类的准确度。
本发明还提供了一种基于图文数据和时间效应的微博用户兴趣挖掘***,用于执行上述基于图文数据和时间效应的微博用户兴趣挖掘方法的各步骤;该***包括:微博收集模块、特征提取模块、聚类模块、主题分析模块以及兴趣挖掘模块;
微博收集模块,用于对于任意一个用户u,获得待分析的历史微博集合;历史微博集合中,每条微博均带有时间标记;
特征提取模块,用于对历史微博集合中的每一条微博,提取其中的文本和图片后,对文本进行预处理以得到相应的词汇,并对词汇和图片分别进行特征提取,从而得到词汇特征向量和图片语义特征向量,并组合为该微博的微博特征向量;
聚类模块,用于利用流式数据聚类算法,根据微博特征向量对历史微博集合进行聚类,从而得到多个微博簇;每个微博簇均带有时间标记;
主题分析模块,用于根据聚类结果生成用户u的微博簇-词汇矩阵,并利用已训练好的主题模型将其分解为微博簇-主题概率分布矩阵和主题-词汇概率分布矩阵,同时得到K个主题;微博簇-词汇矩阵用于通过词汇集合表示微博簇,微博簇-主题概率分布矩阵用于描述微博簇属于各主题的概率,主题-词汇模型用于通过词汇集合表示主题;
兴趣挖掘模块,用于利用拟合时间函数对微博簇-主题概率分布矩阵进行降维,以得到用户u在K个主题中每一个主题上的倾向概率;拟合时间函数用于描述微博簇在当前时间对微博用户兴趣倾向的影响权重;
在本发明实施例中,各模块的具体实施方式可参考上述方法实施例中的描述,在此将不作复述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于图文数据与时间效应的微博用户兴趣挖掘方法,其特征在于,包括:
(1)对于任意一个用户u,获得待分析的历史微博集合;所述历史微博集合中,每条微博均带有时间标记;
(2)对所述历史微博集合中的每一条微博,提取其中的文本和图片后,对文本进行预处理以得到相应的词汇,并对词汇和图片分别进行特征提取,从而得到词汇特征向量和图片语义特征向量,并组合为该微博的微博特征向量;
(3)利用流式数据聚类算法,根据微博特征向量对所述历史微博集合进行聚类,从而得到多个微博簇;每个微博簇均带有时间标记;
(4)根据聚类结果生成所述用户u的微博簇-词汇矩阵,并利用已训练好的主题模型将其分解为微博簇-主题概率分布矩阵和主题-词汇概率分布矩阵,同时得到K个主题;所述微博簇-词汇矩阵用于通过词汇集合表示微博簇,所述微博簇-主题概率分布矩阵用于描述微博簇属于各主题的概率,所述主题-词汇模型用于通过词汇集合表示主题;
(5)利用拟合时间函数对所述微博簇-主题概率分布矩阵进行降维,以得到所述用户u在所述K个主题中每一个主题上的倾向概率;所述拟合时间函数用于描述微博簇在当前时间对微博用户兴趣倾向的影响权重。
2.如权利要求1所述的基于图文数据与时间效应的微博用户兴趣挖掘方法,其特征在于,所述步骤(1)包括:
对于任意一个用户u,获得其发布的历史微博,并按照微博话题标识将其中属于同一话题的微博合并为一条微博,在合并的过程中,将最新发布的微博的发布时间作为合并所得微博的时间标记;对于未参与合并的微博,将其发布时间作为时间标记;
由所有合并所得的微博以及未参与合并的微博构成待分析的历史微博集合。
3.如权利要求1所述的基于图文数据和时间效应的微博用户兴趣挖掘方法,其特征在于,所述步骤(2)中,对文本进行预处理以得到相应的词汇,包括:过滤掉文本中的噪音数据;对于去噪后的文本进行分词,得到相应的词汇后,过滤掉其中的停用词。
4.如权利要求1所述的基于图文数据和时间效应的微博用户兴趣挖掘方法,其特征在于,所述步骤(2)中,对图片进行特征提取之前,还会对图片做如下预处理操作:
将图片的短边随机缩放至预设范围内,同时对图片的长边进行等比缩放;
对于缩放后的图片,在其正中间和四个角上分别裁剪出一块子图;各子图的大小相同;
对各子图进行归一化操作,并将归一化之后的子图作为图片语义特征提取的对象。
5.如权利要求1所述的基于图文数据和时间效应的微博用户兴趣挖掘方法,其特征在于,所述步骤(3)包括:第一阶段聚类和第二阶段聚类;
所述第一阶段聚类包括:
按照时间由远及近的顺序对所述历史微博集合中的微博进行排序,并按顺序遍历排序后的微博;
对于当前遍历到的微博b,获得前m个时间最近的微博簇中与所述微博b的相似度最大的第一微博簇Cluster1;若所述微博b与所述第一微博簇Cluster1的相似度
Figure FDA0002189951190000021
则将所述微博b加入所述第一微博簇Cluster1中;否则,将所述微博b作为一个新的第一微博簇;
遍历完成后,将所获得的所有第一微博簇作为第一阶段聚类结果;
所述第二阶段聚类包括:
获得所述第一阶段聚类结果中的非孤点簇,并对按照时间由近及远的顺序对所有非孤点簇进行排序,按顺序遍历排序后的非孤点簇;
对于当前遍历到的非孤点簇c,获得与其相似度最大的第二微博簇Cluster2,若所述非孤点簇c与所述第二微博簇Cluster2的相似度
Figure FDA0002189951190000031
则将所述非孤点簇c加入所述第二微博簇Cluster2中;否则,将所述作为一个新的第二微博簇;
遍历完成后,将所获得的所有第二微博簇作为第二阶段聚类结果;
将所述第二阶段聚类结果与所述第一阶段聚类结果中的孤点簇合并,作为最终的聚类结果;
其中,
Figure FDA0002189951190000032
Figure FDA0002189951190000033
均为预设的相似度阈值,孤点簇为所包含微博数为1的微博簇,非孤点簇为所包含微博数大于1的微博簇。
6.如权利要求5所述的基于图文数据和时间效应的微博用户兴趣挖掘方法,其特征在于,对于任意两条微博b1和b2,其相似度的计算方式为:分别获得两条微博的词汇特征向量之间的相似度Simw,以及图片语义特征向量之间的相似度Simp,并根据所述相似度Simw和所述相似度Simp计算微博之间的相似度为:Sim(b1,b2)=rw·Simw+rp·Simp
对于任意微博b1与任意微博簇c1,其相似度的计算方式为:分别获得所述微博b1与所述微博簇c1中每一条微博之间的相似度后,计算平均值,作为所述微博b1与所述微博簇c1之间的相似度;
对于两个任意微博簇c1和c2,其相似度的计算方式为:分别获的所述微博簇c1中每一条微博与所述微博簇c2中每一条微博之间的相似度后,计算平均值,作为所述微博簇c1和c2之间的相似度;
其中,rw和rp分别表示文本和图片在总相似度中所占的权重,rw∈[0,1],rp∈[0,1],且rw+rp=1。
7.如权利要求5或6所述的基于图文数据和时间效应的微博用户兴趣挖掘方法,其特征在于,所述步骤(3)还包括:
按照包含微博数量从多到少的顺序对最终聚类结果中的微博簇进行排序;
根据预设的占比阈值确定数目K,使得排序后,前K个微博簇所包含的微博数量总和与所有微博的数量之比为所述占比阈值;
将所述数目K作为主题分析的主题数目。
8.如权利要求1所述的基于图文数据和时间效应的微博用户兴趣挖掘方法,其特征在于,所述步骤(5)中,所述拟合时间函数为:
Figure FDA0002189951190000041
其中,tuc表示所有微博中最新发布的微博的发布时间,
Figure FDA0002189951190000042
表示所述用户u的第q个微博簇,tuq表示所述微博簇
Figure FDA0002189951190000043
的时间标记,λ为调节参数且λ>0,
Figure FDA0002189951190000044
表示所述微博簇
Figure FDA0002189951190000045
在当前时间对微博用户兴趣倾向的影响权重,q∈{1,2,…,Q},Q为所述用户的微博簇总数。
9.如权利要求8所述的基于图文数据和时间效应的微博用户兴趣挖掘方法,其特征在于,所述步骤(5)中,所述用户u在任意第k个主题Tuk上的倾向概率P(Tuk)为:
Figure FDA0002189951190000046
其中,pqk表示所述微博簇
Figure FDA0002189951190000047
属于第k个主题的概率。
10.一种基于图文数据和时间效应的微博用户兴趣挖掘***,其特征在于,包括:微博收集模块、特征提取模块、聚类模块、主题分析模块以及兴趣挖掘模块;
所述微博收集模块,用于对于任意一个用户u,获得待分析的历史微博集合;所述历史微博集合中,每条微博均带有时间标记;
所述特征提取模块,用于对所述历史微博集合中的每一条微博,提取其中的文本和图片后,对文本进行预处理以得到相应的词汇,并对词汇和图片分别进行特征提取,从而得到词汇特征向量和图片语义特征向量,并组合为该微博的微博特征向量;
所述聚类模块,用于利用流式数据聚类算法,根据微博特征向量对所述历史微博集合进行聚类,从而得到多个微博簇;每个微博簇均带有时间标记;
所述主题分析模块,用于根据聚类结果生成所述用户u的微博簇-词汇矩阵,并利用已训练好的主题模型将其分解为微博簇-主题概率分布矩阵和主题-词汇概率分布矩阵,同时得到K个主题;所述微博簇-词汇矩阵用于通过词汇集合表示微博簇,所述微博簇-主题概率分布矩阵用于描述微博簇属于各主题的概率,所述主题-词汇模型用于通过词汇集合表示主题;
所述兴趣挖掘模块,用于利用拟合时间函数对所述微博簇-主题概率分布矩阵进行降维,以得到所述用户u在所述K个主题中每一个主题上的倾向概率;所述拟合时间函数用于描述微博簇在当前时间对微博用户兴趣倾向的影响权重。
CN201910828734.1A 2019-09-03 2019-09-03 基于图文数据与时间效应的微博用户兴趣挖掘方法及*** Expired - Fee Related CN110738047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910828734.1A CN110738047B (zh) 2019-09-03 2019-09-03 基于图文数据与时间效应的微博用户兴趣挖掘方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910828734.1A CN110738047B (zh) 2019-09-03 2019-09-03 基于图文数据与时间效应的微博用户兴趣挖掘方法及***

Publications (2)

Publication Number Publication Date
CN110738047A true CN110738047A (zh) 2020-01-31
CN110738047B CN110738047B (zh) 2021-04-20

Family

ID=69267476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910828734.1A Expired - Fee Related CN110738047B (zh) 2019-09-03 2019-09-03 基于图文数据与时间效应的微博用户兴趣挖掘方法及***

Country Status (1)

Country Link
CN (1) CN110738047B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010643A (zh) * 2021-03-22 2021-06-22 平安科技(深圳)有限公司 佛学领域词汇的处理方法、装置、设备及存储介质
CN115082720A (zh) * 2022-07-22 2022-09-20 国网江西省电力有限公司信息通信分公司 基于离群点检测的差分隐私直方图发布方法及装置
CN115619041A (zh) * 2022-11-09 2023-01-17 哈尔滨工业大学 基于lda主题模型与固定效应模型的直播效果的预测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980199A (zh) * 2010-10-28 2011-02-23 北京交通大学 基于态势评估的网络热点话题发现方法及***
US20130346424A1 (en) * 2012-06-21 2013-12-26 Microsoft Corporation Computing tf-idf values for terms in documents in a large document corpus
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
WO2017142953A1 (en) * 2016-02-16 2017-08-24 Board Of Regents, University Of Texas System Mechanisms for constructing spline surfaces to provide inter-surface continuity
CN107832467A (zh) * 2017-11-29 2018-03-23 北京工业大学 一种基于改进的Single‑pass聚类算法的微博话题检测方法
CN108572984A (zh) * 2017-03-13 2018-09-25 阿里巴巴集团控股有限公司 一种实时用户兴趣识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980199A (zh) * 2010-10-28 2011-02-23 北京交通大学 基于态势评估的网络热点话题发现方法及***
US20130346424A1 (en) * 2012-06-21 2013-12-26 Microsoft Corporation Computing tf-idf values for terms in documents in a large document corpus
CN103793503A (zh) * 2014-01-24 2014-05-14 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
WO2017142953A1 (en) * 2016-02-16 2017-08-24 Board Of Regents, University Of Texas System Mechanisms for constructing spline surfaces to provide inter-surface continuity
CN108572984A (zh) * 2017-03-13 2018-09-25 阿里巴巴集团控股有限公司 一种实时用户兴趣识别方法及装置
CN107832467A (zh) * 2017-11-29 2018-03-23 北京工业大学 一种基于改进的Single‑pass聚类算法的微博话题检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
琚泽平: "基于图文数据与时间效应的微博用户兴趣挖掘研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010643A (zh) * 2021-03-22 2021-06-22 平安科技(深圳)有限公司 佛学领域词汇的处理方法、装置、设备及存储介质
CN113010643B (zh) * 2021-03-22 2023-07-21 平安科技(深圳)有限公司 佛学领域词汇的处理方法、装置、设备及存储介质
CN115082720A (zh) * 2022-07-22 2022-09-20 国网江西省电力有限公司信息通信分公司 基于离群点检测的差分隐私直方图发布方法及装置
CN115619041A (zh) * 2022-11-09 2023-01-17 哈尔滨工业大学 基于lda主题模型与固定效应模型的直播效果的预测方法
CN115619041B (zh) * 2022-11-09 2023-11-21 哈尔滨工业大学 基于lda主题模型与固定效应模型的直播效果的预测方法

Also Published As

Publication number Publication date
CN110738047B (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN107169049B (zh) 应用的标签信息生成方法及装置
CN110674881B (zh) 商标图像检索模型训练方法、***、存储介质及计算机设备
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
CN110175158B (zh) 一种基于向量化的日志模板提取方法和***
CN106874292B (zh) 话题处理方法及装置
CN107977363B (zh) 标题生成方法、装置和电子设备
CN110738047B (zh) 基于图文数据与时间效应的微博用户兴趣挖掘方法及***
CN108027814B (zh) 停用词识别方法与装置
CN105279277A (zh) 知识数据的处理方法和装置
CN106909669B (zh) 一种推广信息的检测方法及装置
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN108280164B (zh) 一种基于类别相关单词的短文本过滤与分类方法
CN112465020B (zh) 训练数据集的生成方法及装置、电子设备、存储介质
CN107729520B (zh) 文件分类方法、装置、计算机设备及计算机可读介质
CN112464036B (zh) 一种违规数据的审核方法及装置
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
CN103218368B (zh) 一种挖掘热词的方法与装置
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN105631033B (zh) 一种视频数据的挖掘方法和装置
CN106446051A (zh) Eagle媒资深度搜索方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN107463554B (zh) 短语挖掘方法及装置
CN101673263B (zh) 视频内容的搜索方法
CN104899310B (zh) 信息排序方法、用于生成信息排序模型的方法及装置
CN108475265B (zh) 获取未登录词的方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210420