CN107798141A - 一种基于统计指标的迭代运算的确定用户标签方法 - Google Patents

一种基于统计指标的迭代运算的确定用户标签方法 Download PDF

Info

Publication number
CN107798141A
CN107798141A CN201711187534.XA CN201711187534A CN107798141A CN 107798141 A CN107798141 A CN 107798141A CN 201711187534 A CN201711187534 A CN 201711187534A CN 107798141 A CN107798141 A CN 107798141A
Authority
CN
China
Prior art keywords
user
label
mrow
targeted customer
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711187534.XA
Other languages
English (en)
Other versions
CN107798141B (zh
Inventor
牟昊
杨飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Said Number Of Stories Of Mdt Infotech Ltd
Original Assignee
Guangzhou Said Number Of Stories Of Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Said Number Of Stories Of Mdt Infotech Ltd filed Critical Guangzhou Said Number Of Stories Of Mdt Infotech Ltd
Priority to CN201711187534.XA priority Critical patent/CN107798141B/zh
Publication of CN107798141A publication Critical patent/CN107798141A/zh
Application granted granted Critical
Publication of CN107798141B publication Critical patent/CN107798141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的一种基于统计指标的迭代运算的确定用户标签方法,包括如下步骤:S1:沿目标用户的关注方向,选取若干层用户作为潜在的影响目标用户的群体;S2:预设粉丝数量范围;筛选出粉丝数量符合预设范围的用户作为对目标用户标签存在影响的群体,获取该群体的博文以及标签;S3:计算最外层用户的博文内容对标签的贡献值;S4:预设贡献值阈值;筛选出贡献值大于阈值的标签,设定为内层用户的标签;判断该内层用户是否为目标用户;若否,排除原最外层用户,以该内层用户为最外层用户,并重新进行步骤S3、S4的运算;若是,则得出目标用户标签,并结束运算。本发明通过多次迭代用户标签重新确认用户标签,使及时更新的用户标签更贴合其喜好。

Description

一种基于统计指标的迭代运算的确定用户标签方法
技术领域
本发明涉及语言文字信息处理领域,具体涉及一种确定用户标签的方法。
背景技术
随着互联网进行了web 2.0时代,以微博、博客等为主体的社交网络的兴起带来了大量的非正式的文本,截止2015年10月为止,微博的月活跃人数已经达到了2.12亿人,发送的推文数以亿记。微博已经成为中文互联网世界里产生数据最多的平台,如何通过微博的内容给用户“正确”的标签,以使用户获得其感兴趣的信息,是当前的研究重点。
在原有方法中,使用用户自定义标签来作为用户的标签存在用户标签不准确问题以及用户爱好转换但没有修改标签的问题,会极大的降低标签的准确性。
发明内容
针对上述现有技术不足,本发明要解决的技术问题是,提供一种用户标签确定方法,用以及时调整用户标签,以使推荐内容更贴合用户兴趣。
为解决上述技术问题,本发明采用的技术方案为,一种基于统计指标的迭代运算的确定用户标签方法,包括如下步骤:
S1:沿目标用户的关注方向,选取若干层用户作为潜在的影响目标用户的群体;
S2:预设粉丝数量范围;筛选出潜在的影响目标用户的群体中粉丝数量符合预设范围的用户作为对目标用户标签存在影响的群体,获取该群体的博文以及标签;
S3:计算最外层用户的博文内容对标签的贡献值;
S4:预设贡献值阈值;筛选出贡献值大于阈值的标签,设定为内层用户的标签;判断该内层用户是否为目标用户;若不是,排除原最外层用户,以该内层用户为最外层用户,并重新进行步骤S3、S4的运算;若是,则得出目标用户标签,并结束运算。
这样的方案通过目标用户多层的关注,适时调整目标用户标签。
进一步的技术方案为,所述步骤S3中,计算贡献值的公式为:
其中,xi表示存在标签i的微博文本数量,k表示该用户的标签数量,表示该用户出现标签的文本数量,n表示用户微博文本总数,α表示光滑系数,BDC(xi)表示该用户的外层用户的微博对于标签i的贡献值,BDC(xi)初始值取0。
这样的方案使标签内容出现的频率与贡献值相关,进而使标签更贴合用户。
优选的技术方案为,所述光滑系数取值范围为1-5。
优选的技术方案为,所述阈值取值范围为0.01-0.05。
优选的技术方案为,所述步骤S2中,所述粉丝数量范围为1000至50000。
优选的技术方案为,所述步骤S1中,所述潜在的影响目标用户的群体的层数为5层。
本发明的一种基于统计指标的迭代运算的确定用户标签方法的有益效果在于:从最外层向内层计算微博内容对标签的贡献值和内层用户的微博内容对标签的贡献值,选取贡献值高于阈值的标签作为内层用户的标签,多次迭代用户标签重新确认用户标签,使及时更新的用户标签更贴合其喜好。
附图说明
图1是本发明一种基于统计指标的迭代运算的确定用户标签方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细描述。
如图1所示,本发明的一种基于统计指标的迭代运算的确定用户标签方法,包括如下步骤:
S1:沿目标用户的关注方向,选取若干层用户作为潜在的影响目标用户的群体。
具体地,所述的沿目标用户的关注方向是指,若目标用户为A,用户A关注用户B,用户B关注用户C,即A、B、C方向为所述用户关注方向,用户B为A的一层外层用户,用户B、C皆为所述潜在的影响目标用户的群体。
考虑到相关性,优选地为选取5层用户为潜在的影响目标用户的群体,实际中根据计算量等需求,可以选取3层、6层或更多。
S2:预设粉丝数量范围;筛选出潜在的影响目标用户的群体中粉丝数量符合预设范围的用户作为对目标用户标签存在影响的群体,获取该群体的博文以及标签。
其中,所述粉丝数量范围优选为1000至50000。即选取该5层用户中,粉丝数量在1000至50000之间的用户,作为对目标用户标签存在影响的群体。根据微博客、社交媒体统计数据,粉丝数量少的用户与粉丝数量极多的用户,一般都不是目标用户因为兴趣而关注的,因而选取一定范围的用户作为该群体的用户。
S3:计算最外层用户的博文内容对标签的贡献值;
计算贡献值的公式为:
其中,xi表示存在标签i的微博文本数量,k表示该用户的标签数量,表示该用户出现标签的文本数量,n表示用户微博文本总数,α表示光滑系数(默认取值为1,根据网络环境,可设成2、3、4、5等),BDC(xi)表示该用户的外层用户的微博对于标签i的贡献值,BDC(xi)初始值取0。
示例性的,A用户的自定义标签有“金融”,“IT”,且A用户一共发布了50条微博,其中微博中含有“金融”的微博有10条,含有“IT”的微博,20条,A用户一共关注了B用户和C用户,B用户的自定义标签有“金融”,“体育”,B用户一共发布了100条微博,其中包含“金融”的有10条,包含“体育”的有20条。C用户发布了200条微博,自定义标签“体育”,其中包含“体育”的微博一共有50条,可以计算出A用户“金融”标签的贡献度为0.309。
S4:预设贡献值阈值,优选地,所述贡献值阈值设为0.01,也可以根据实际网络环境调整该贡献值阈值,如设为0.03、0.05等。
筛选出贡献值大于阈值的标签,设定为内层用户的标签。
判断该内层用户是否为目标用户;若不是,排除原最外层用户,以该内层用户为最外层用户,并重新进行步骤S3、S4的运算;即从外层向内层进行迭代。
若是,则得出目标用户标签,并结束运算。
本发明的一种基于统计指标的迭代运算的确定用户标签方法的有益效果在于:从最外层向内层计算微博内容对标签的贡献值和内层用户的微博内容对标签的贡献值,选取贡献值高于阈值的标签作为内层用户的标签,多次迭代用户标签重新确认用户标签,使及时更新的用户标签更贴合其喜好。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (6)

1.一种基于统计指标的迭代运算的确定用户标签方法,其特征在于,包括如下步骤:
S1:沿目标用户的关注方向,选取若干层用户作为潜在的影响目标用户的群体;
S2:预设粉丝数量范围;筛选出潜在的影响目标用户的群体中粉丝数量符合预设范围的用户作为对目标用户标签存在影响的群体,获取该群体的博文以及标签;
S3:计算最外层用户的博文内容对标签的贡献值;
S4:预设贡献值阈值;筛选出贡献值大于阈值的标签,设定为内层用户的标签;判断该内层用户是否为目标用户;若不是,排除原最外层用户,以该内层用户为最外层用户,并重新进行步骤S3、S4的运算;若是,则得出目标用户标签,并结束运算。
2.根据权利要求1所述的基于统计指标的用户标签确定方法,其特征在于,
所述步骤S3中,计算贡献值的公式为:
<mrow> <mi>B</mi> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mfrac> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> <mi>n</mi> </mfrac> <mo>&amp;times;</mo> <mrow> <mo>(</mo> <mi>&amp;alpha;</mi> <mo>+</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>&amp;alpha;</mi> <mo>&amp;times;</mo> <mi>k</mi> <mo>+</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>+</mo> <mi>B</mi> <mi>D</mi> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>
其中,xi表示存在标签i的微博文本数量,k表示该用户的标签数量,表示该用户出现标签的文本数量,n表示用户微博文本总数,α表示光滑系数,BDC(xi)表示该用户的外层用户的微博对于标签i的贡献值,BDC(xi)初始值取0。
3.根据权利要求2所述的基于统计指标的用户标签确定方法,其特征在于,所述光滑系数取值范围为1-5。
4.根据权利要求2或3所述的基于统计指标的用户标签确定方法,其特征在于,所述阈值取值范围为0.01-0.05。
5.根据权利要求1所述的基于统计指标的用户标签确定方法,其特征在于,所述步骤S2中,所述粉丝数量范围为1000至50000。
6.根据权利要求1所述的基于统计指标的用户标签确定方法,其特征在于,所述步骤S1中,所述潜在的影响目标用户的群体的层数为5层。
CN201711187534.XA 2017-11-24 2017-11-24 一种基于统计指标的迭代运算的确定用户标签方法 Active CN107798141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711187534.XA CN107798141B (zh) 2017-11-24 2017-11-24 一种基于统计指标的迭代运算的确定用户标签方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711187534.XA CN107798141B (zh) 2017-11-24 2017-11-24 一种基于统计指标的迭代运算的确定用户标签方法

Publications (2)

Publication Number Publication Date
CN107798141A true CN107798141A (zh) 2018-03-13
CN107798141B CN107798141B (zh) 2021-07-20

Family

ID=61536541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711187534.XA Active CN107798141B (zh) 2017-11-24 2017-11-24 一种基于统计指标的迭代运算的确定用户标签方法

Country Status (1)

Country Link
CN (1) CN107798141B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8175339B1 (en) * 2006-01-13 2012-05-08 Google Inc. Scoring items
CN102880644A (zh) * 2012-08-24 2013-01-16 电子科技大学 社区发现方法
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像***和方法
CN104598588A (zh) * 2015-01-19 2015-05-06 河海大学 基于双聚类的微博用户标签自动生成算法
CN105069172A (zh) * 2015-09-09 2015-11-18 中国人民大学 兴趣标签生成方法
CN105938608A (zh) * 2016-04-12 2016-09-14 福建师范大学 一种基于标签影响力的半同步社区发现方法
CN106202053A (zh) * 2016-07-22 2016-12-07 福建师范大学 一种社交关系驱动的微博主题情感分析方法
CN106991160A (zh) * 2017-03-30 2017-07-28 武汉大学 一种基于用户影响力以及内容的微博传播预测方法
CN107341270A (zh) * 2017-07-28 2017-11-10 东北大学 面向社交平台的用户情感影响力分析方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8175339B1 (en) * 2006-01-13 2012-05-08 Google Inc. Scoring items
CN102880644A (zh) * 2012-08-24 2013-01-16 电子科技大学 社区发现方法
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像***和方法
CN104598588A (zh) * 2015-01-19 2015-05-06 河海大学 基于双聚类的微博用户标签自动生成算法
CN105069172A (zh) * 2015-09-09 2015-11-18 中国人民大学 兴趣标签生成方法
CN105938608A (zh) * 2016-04-12 2016-09-14 福建师范大学 一种基于标签影响力的半同步社区发现方法
CN106202053A (zh) * 2016-07-22 2016-12-07 福建师范大学 一种社交关系驱动的微博主题情感分析方法
CN106991160A (zh) * 2017-03-30 2017-07-28 武汉大学 一种基于用户影响力以及内容的微博传播预测方法
CN107341270A (zh) * 2017-07-28 2017-11-10 东北大学 面向社交平台的用户情感影响力分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马慧芳 等: "融合标签关联关系与用户社交关系的微博推荐方法", 《电子学报》 *

Also Published As

Publication number Publication date
CN107798141B (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
Chen et al. Through a gender lens: Learning usage patterns of emojis from large-scale android users
Abiad et al. The economic impact of the COVID-19 outbreak on developing Asia
Li et al. Impact of information timeliness and richness on public engagement on social media during COVID-19 pandemic: An empirical investigation based on NLP and machine learning
Beutel et al. Regular and problematic leisure-time Internet use in the community: results from a German population-based survey
CN105426514B (zh) 个性化的移动应用app推荐方法
von Hoffen et al. Leveraging social media to gain insights into service delivery: a study on Airbnb
CN104035968B (zh) 基于社交网络的训练语料集的构建方法和装置
CN105630884B (zh) 一种微博热点事件的地理位置发现方法
Risius et al. Differential emotions and the stock market-the case of company-specific trading
CN106095841A (zh) 一种基于协同过滤的移动互联网广告推荐方法
US20130218887A1 (en) Method and apparatus for generating and using an interest graph
CN107146112A (zh) 一种移动互联网广告投放方法
CN106776873A (zh) 一种推荐结果生成方法以及装置
CN107590558A (zh) 一种基于多层集成学习的微博转发预测方法
CN106202053A (zh) 一种社交关系驱动的微博主题情感分析方法
CN105808786A (zh) 一种基于内容互信的协同主题回归标签推荐方法
CN105045865A (zh) 一种基于核的协同主题回归标签推荐方法
Kaviya et al. Sentiment analysis for restaurant rating
Gigli et al. Recommender Systems for Banking and Financial Services.
Grzeça et al. Drink2Vec: Improving the classification of alcohol-related tweets using distributional semantics and external contextual enrichment
Ghosh Feminist ethnography
CN107798141A (zh) 一种基于统计指标的迭代运算的确定用户标签方法
JP5323896B2 (ja) 関係性作成装置及び方法
Song et al. Zebra: Extending context window with layerwise grouped local-global attention
CN109146644A (zh) 一种电子商务***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant