CN105719189B - 一种社交网络中有效提高标签多样性的标签推荐方法 - Google Patents
一种社交网络中有效提高标签多样性的标签推荐方法 Download PDFInfo
- Publication number
- CN105719189B CN105719189B CN201610026973.1A CN201610026973A CN105719189B CN 105719189 B CN105719189 B CN 105719189B CN 201610026973 A CN201610026973 A CN 201610026973A CN 105719189 B CN105719189 B CN 105719189B
- Authority
- CN
- China
- Prior art keywords
- user
- item set
- frequent item
- tag
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 9
- 238000012163 sequencing technique Methods 0.000 claims abstract description 3
- 238000007781 pre-processing Methods 0.000 claims abstract 2
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 241000408529 Libra Species 0.000 description 1
- 241000219098 Parthenocissus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种社交网络中有效提高标签多样性的标签推荐方法,包括:结合微博用户标签的特点,首先对已有用户标签数据进行预处理,去除至多有一项标签的用户数据,生成多项标签子集;对该集合选择Apriori算法中1‑频繁项集及2‑频繁项集的生成,用1‑频繁项集来生成微博个性标签语料库;利用2‑频繁项集的支持度来挖掘个性标签间的线性选择关系,即为用户提供备选标签时仅考虑用户之前选择的标签,以保证用户个性标签的多样性;按照2‑频繁项集中标签支持度的高低进行Top‑N项排序。本发明可以提高标签推荐的效率,同时保证了推荐的多样性。
Description
技术领域
本发明涉及一种社交网络中有效提高标签多样性的标签推荐方法。
背景技术
社交网络自20世纪90年代兴起,此后逐渐成为了新的信息发现、分享以及传播途径,随着时间的推进,这些社交网络中的用户日益增长,由此社交网络中的每天发布的信息量也以几何倍数增长,社交网络的数据挖掘成为了新兴的研究热点。近年来,微博成为了新兴的社交网络平台,标签也成为了微博当中划分各个社群的参考标准。基于标签的个性化推荐,作为标签***的组成部分,已经成为新的研究热点。个性化推荐是标签***的重要功能,对这一功能的改进无疑可以产生出巨大的经济和社会效益。
当下对于标签推荐的研究主要集中在基于社会标签的聚类算法研究以及用户发现和资源推荐上,同时结合协同过滤算法或LDA模型进行标签推荐,而在基于社会标签改善推荐效果上对于聚类的依赖性很强,且无法解决新加入网络用户的冷启动问题。
发明内容
针对已有的个性化标签推荐模型在实际运用到微博场景时存在的不足,本发明提出一种基于选取度关联规则的用户标签推荐方法,不但可以提高标签推荐的效率,而且大大保证了推荐的多样性。为了达到上述目的,本发明采用如下的技术方案:
一种社交网络中有效提高标签多样性的标签推荐方法,包括下列步骤:
(1)结合微博用户标签的特点,首先对已有用户标签数据进行预处理,去除至多有一项标签的用户数据,生成多项标签子集。
(2)对该集合选择Apriori算法中1-频繁项集及2-频繁项集的生成,用1-频繁项集来生成微博个性标签语料库。
(3)利用2-频繁项集的支持度来挖掘个性标签间的线性选择关系,即为用户提供备选标签时仅考虑用户之前选择的标签,以保证用户个性标签的多样性。
(4)按照2-频繁项集中标签支持度的高低进行Top-N项排序。当Top-N项的项数为M且M<N时,随机补充N-M项的备选项,可以从1-频繁项集中支持度排名较高的项进行随机选择。
本发明提出的基于选取度关联规则的推荐方法,对微博用户标签进行选取度分析,计算用户标签的关联度,对标签词汇进行重新挖掘,最终为用户推荐具有关联的个性化标签。通过该方法可以提高标签推荐的效率,同时保证了推荐的多样性。
附图说明
图1是用户个性标签2-频繁项集Top-N排序图
具体实施方式
本发明的技术方案是:
(1)首先采集微博数据,例如可以采用中国爬盟(该组织由清华大学博士梁斌发起,其所在清华大学智能技术与***国家重点实验室信息检索组由马少平教授带队,是国内最为重要的智能信息处理实验室之一,该组织通过众包方式爬取微博数据)的新浪微博爬虫采集,得到足够的用户标签集。
(2)筛查掉标签数至多为1的用户得到剩余用户的信息集合A,然后对集合A进行个性标签语料库生成,得到用户个性标签集合B。
(3)利用集合B选择Apriori算法得到1-频繁项集和2-频繁项集,用1-频繁项集来生成微博个性标签语料库,利用2-频繁项集的支持度来挖掘个性标签间的线性选择关系,对于用户的首次选取,由于含有权重的标签排序制度会对于主题较为单一的标签***产生局限性,使得推荐给用户的东西越来越相似。为了保证***中用户生态的多样性,将支持度不低于阈值k的标签项进行随机提供,丰富用户的视野。鉴于用户数据量非常大,在这里可以取支持度不小于0.5%,以保证用户个性标签的多样性。
(4)按照2-频繁项集中的支持度高低进行Top-N项排序,这样可以以线性关联关系为用户推荐相应的标签组合,为日后做同类型标签组合的陌生用户推荐,提高社群的活跃度,增加在微博中群组的组合可能性奠定基础,推荐项形如图1所示。
(5)因为新浪微博可以提供多达10项的备选标签项,当经过Top-N项排序后得到标签的项数M小于10时,可以随机补充10-M项作为备选项,其范围可以从1频繁项集中支持度排名较高的项进行随机选择,以提高被用户选择的可能性。
Claims (1)
1.一种社交网络中有效提高标签多样性的标签推荐方法,包括下列步骤:
(1)结合微博用户标签的特点,首先对已有用户标签数据进行预处理,去除至多有一项标签的用户数据,生成多项标签子集;
(2)对该子集选择Apriori算法中1-频繁项集及2-频繁项集的生成,用1-频繁项集来生成微博个性标签语料库;
(3)利用2-频繁项集的支持度来挖掘个性标签间的线性选择关系,为用户提供备选标签时仅考虑用户之前选择的标签,以保证用户个性标签的多样性;
(4)按照2-频繁项集中标签支持度的高低进行Top-N项排序,当Top-N项的项数为M且M<N时,随机补充N-M项的备选项,从1-频繁项集中支持度排名较高的项进行随机选择。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610026973.1A CN105719189B (zh) | 2016-01-15 | 2016-01-15 | 一种社交网络中有效提高标签多样性的标签推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610026973.1A CN105719189B (zh) | 2016-01-15 | 2016-01-15 | 一种社交网络中有效提高标签多样性的标签推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105719189A CN105719189A (zh) | 2016-06-29 |
CN105719189B true CN105719189B (zh) | 2019-12-27 |
Family
ID=56147165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610026973.1A Expired - Fee Related CN105719189B (zh) | 2016-01-15 | 2016-01-15 | 一种社交网络中有效提高标签多样性的标签推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105719189B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682190B (zh) * | 2016-12-29 | 2020-12-15 | 北京奇虎科技有限公司 | 标签知识库的构建方法、装置、应用搜索方法和服务器 |
CN109885674B (zh) * | 2019-02-14 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 一种主题标签的确定、信息推荐方法及装置 |
CN111932342B (zh) * | 2020-08-12 | 2023-08-18 | 中国银行股份有限公司 | 基于Apriori算法的用户冷启动产品推荐方法及*** |
CN113076472B (zh) * | 2021-03-16 | 2022-09-16 | 合肥工业大学 | 基于用户需求和标签关联度的电影推荐方法和*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577549A (zh) * | 2013-10-16 | 2014-02-12 | 复旦大学 | 一种基于微博标签的人群画像***和方法 |
CN104268292A (zh) * | 2014-10-23 | 2015-01-07 | 广州索答信息科技有限公司 | 画像***的标签词库更新方法 |
CN105224687A (zh) * | 2015-10-30 | 2016-01-06 | 宁波大学 | 一种低消耗的Apriori方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070244747A1 (en) * | 2006-04-14 | 2007-10-18 | Nikovski Daniel N | Method and system for recommending products to consumers by induction of decision trees |
-
2016
- 2016-01-15 CN CN201610026973.1A patent/CN105719189B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577549A (zh) * | 2013-10-16 | 2014-02-12 | 复旦大学 | 一种基于微博标签的人群画像***和方法 |
CN104268292A (zh) * | 2014-10-23 | 2015-01-07 | 广州索答信息科技有限公司 | 画像***的标签词库更新方法 |
CN105224687A (zh) * | 2015-10-30 | 2016-01-06 | 宁波大学 | 一种低消耗的Apriori方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105719189A (zh) | 2016-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105719189B (zh) | 一种社交网络中有效提高标签多样性的标签推荐方法 | |
CN103812872B (zh) | 一种基于混合狄利克雷过程的网络水军行为检测方法及*** | |
US11514063B2 (en) | Method and apparatus of recommending information based on fused relationship network, and device and medium | |
CN106951498A (zh) | 文本聚类方法 | |
CN105068661A (zh) | 基于人工智能的人机交互方法和*** | |
CN104536953B (zh) | 一种文本情绪极性的识别方法及装置 | |
CN103020303A (zh) | 基于互联网跨媒体地标的历史事件提取及相关图片的搜索方法 | |
CN107818105A (zh) | 应用程序的推荐方法及服务器 | |
CN103106262B (zh) | 文档分类、支持向量机模型生成的方法和装置 | |
CN103389988A (zh) | 一种引导用户进行信息搜索的方法及装置 | |
Ntoutsi et al. | grecs: A group recommendation system based on user clustering | |
CN106844786A (zh) | 一种基于文本相似度的舆情地域热点发现方法 | |
CN103823844A (zh) | 社区问答服务中基于主客观上下文的问题转发***和方法 | |
CN105653668A (zh) | 云环境中基于DOMTree的网页内容分析提取优化方法 | |
CN111191044A (zh) | 一种基于大数据的知识抽取与融合方法 | |
CN101944109A (zh) | 一种基于页面分块的图片摘要提取***及方法 | |
KR101757900B1 (ko) | 지식 베이스의 구축 방법 및 장치 | |
Burridge | Unifying models of dialect spread and extinction using surface tension dynamics | |
CN105183718A (zh) | 一种用于出版行业的热点选题获取方法及其*** | |
CN105160097B (zh) | 一种利用人口迁移算法的三值fprm电路面积优化方法 | |
CN107977370B (zh) | 一种歌手推荐方法及*** | |
CN106708829A (zh) | 一种数据推荐方法及推荐*** | |
CN102708157A (zh) | 利用技术生命周期的阶段判断装置及方法 | |
CN103309851A (zh) | 短文本的垃圾识别方法及*** | |
Mishra et al. | Clustering web logs using similarity upper approximation with different similarity measures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191227 Termination date: 20210115 |
|
CF01 | Termination of patent right due to non-payment of annual fee |