CN106354818A - 基于社交媒体的动态用户属性提取方法 - Google Patents

基于社交媒体的动态用户属性提取方法 Download PDF

Info

Publication number
CN106354818A
CN106354818A CN201610767430.5A CN201610767430A CN106354818A CN 106354818 A CN106354818 A CN 106354818A CN 201610767430 A CN201610767430 A CN 201610767430A CN 106354818 A CN106354818 A CN 106354818A
Authority
CN
China
Prior art keywords
user
time
text
theme
social media
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610767430.5A
Other languages
English (en)
Other versions
CN106354818B (zh
Inventor
黄秀
杨阳
胡玥
沈复民
邵杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201610767430.5A priority Critical patent/CN106354818B/zh
Publication of CN106354818A publication Critical patent/CN106354818A/zh
Application granted granted Critical
Publication of CN106354818B publication Critical patent/CN106354818B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于社交媒体的动态用户属性提取方法。本发明首先对采集的训练样本集进行文本预处理后,进行主题词提取,得到K个主题以及各主题的m个主题词。再提取待处理用户的短文本并进行时间子段的划分,通过时间滑窗进行数据填充得到各时间子段的文本数据,并进行文本预处理后,统计各主题的主题词的出现频率,得到各主题的属性权重信息,再引入时间衰减系数,以时间顺序依次得到关联时间属性的用户属性特征,取最近时间子段的用户属性特征作为用户当前属性特征并输出。本发明在不需要利用外部知识的前提下,通过文本中无序的词实现对社交媒体的短文本的语义扩充,且可以从用户发布或者转发的微博文本中提取出用户的动态属性。

Description

基于社交媒体的动态用户属性提取方法
技术领域
本发明属于计算机领域,具体涉及一种基于社交媒体的动态用户属性提取方法。
背景技术
社交媒体服务定义了一种全新的用户在网络上相互沟通、自我表达和分享的方式。随着社交媒体的不断发展,越来越多的人在社交媒体平台上发表、分享即时消息,常见的社交媒体如新浪微博、Twitter、Facebook和LinkedIn等。例如:在新浪微博平台上,用户可以发表140字符以内的微博信息,这些微博可以由中英文、自定义字符、外部链接等组成。因此,有效地分析微博短文本流检测出用户的动态属性,对其相关领域的研究和应用都具有重要意义,例如社交推荐,个性化检索,在线推广等。
用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活***台上表现自己,研究社交媒体环境下的用户画像是很有意义的。目前,基于社交媒体的用户画像还存在很多有待改进的地方,如用户属性描述不深入、不全面,没有做到及时更新等,更需要我们进行深入研究,解决发现的问题,构建深入全面的用户画像,为个性化的推荐***、信息检索等服务提供较全面详细的信息。
由于社交媒体平台上短文本的特殊性,在兴趣画像时需要解决短文本的稀疏性,惯用的处理方式为:利用外部知识扩充短文本语义,例如通过连接用户在社交媒体上发表的内容和相关的新闻文章来扩充短文本的内容以便更有效的分析用户在社交媒体上的活动;或者利用***以及为相关兴趣赋权重值的方法将社交媒体上的用户兴趣进行自动分类;亦或者利用社交媒体上用户的自传来提取兴趣标签以扩充短文本的信息。上述三种通过外部知识解决短文本稀疏的问题的处理方式,需要严重依赖外部数据的可用性和原始数据的相关性,如果外部数据有误或不充足,则会导致得到的兴趣可能与用户真实兴趣不符合的技术缺陷。
此外,目前还有大量关于跨平台的用户画像建模,通过两个或多个社交媒体平台上的数据来实现对用户更精确的建模分析。如利用用户在社交媒体平台注册时填写的基本信息来对用户兴趣进行画像,以及社交媒体平台为用户设置的用户标签对其进行画像。或者是利用用户在不同社交媒体平台同时有关联账户的用户数据来研究分析用户的行为和兴趣。然而,上述通过扩充语义来解决短文本稀疏的问题,最后得到的用户属性都是一个静态用户属性,并没有考虑用户属性随时间变化的情况。
发明内容
本发明的发明目的在于:为了解决短文本的稀疏性问题,克服现有技术的用户属性挖掘不精确和不能及时更新等缺点,本发明基于所构建的新的动态用户属性模型(能够自动从文本中挖掘用户的动态属性,展现用户属性的变化),在不需要利用外部知识的前提下,通过文本中无序的词实现对社交媒体的短文本的语义扩充,以及通过时间窗口来平滑数据,引入衰减函数来表示过去属性对当前属性的影响。
本发明的基于社交媒体的动态用户属性提取方法,包括下列步骤:
步骤1:主题提取:
101:采集训练样本集:
提取用户在社交媒体上发表的短文本,筛选短文本数大于或等于阈值θ1(例如200)的用户作为样本用户;
由不同样本用户的各短文本构成训练样本集,并对训练样本(即短文本)进行文本预处理:包括去除短文本中的链接、非中文字符、自定义词后,对短文本进行分词操作,并过滤掉停用词和无意义高频词,去除自定义词可以通过将短文本与预设的自定义词库进行匹配,将相匹配的自定义词去除,过滤掉停用词和无意义高频词,也可以基于同样的方式,即预构建关于停用词、无意义高频词的词库,然后将分词操作后得到的词与构建的词库进行匹配,将相匹配的词过滤掉;
102:对训练样本集进行文本主题提取处理,得到K个主题,本步骤中,采用BTM模型(Biterm Topic Model)提取主题。该方法的优势在于利用语料库中无序的共现词对来扩充短文本的语义,从而解决文本稀疏的问题。在主题提取处理后,可以得到K个主题,每个主题包括一系列关键词,同时会得到各关键词的权重信息,如BTM模型的文档-主题分布矩阵。从每个主题的关键词中选择权重最大的前m个作为主题词,同时记录各主题词的权重信息,例如表1所示,其涉及10个主题,每个主题包括5个主题词,各主题词后的括号中的数值为其对应的权值。
表1
步骤2:用户动态属性提取:
201:提取待处理用户在时间段T(比如最近一年内)在社交媒体上发表的短文本,将时间段T分为q个时间子段,得到各时间子段发表的短文本;对短文本进行文本预处理,得到对应各时间子段的文本数据;
通过滑动时间窗,将与当前时间子段最近的p个时间子段文本数据扩充到当前时间子段的文本数据;
步骤202:基于步骤102得到的各主题的m个主题词,分别对各时间子段的文本数据进行主题词的词频统计并计算各主题权重其中nki表示主题k的第i个主题词的词频,wki表示主题k的第i个主题词在主题下的权重,k=1,2,…,K,kt的下标t=0,1,…,q为时间子段标识符;由同一时间子段的K个主题权重得到各时间子段的主题权重信息At
步骤203:根据公式计算用户属性特征其中衰减系数λ(Tj)=1-μTj v,Tj表示各时间子段的时间间隔,且0<μ<1,v>0。对于步骤202得到的权重信息At,相当于是用户各个时间子段的静态属性。但是每个时间子段的用户属性都局限于该时间子段,而那些用户本身拥有但是在当前时间子段没有提及的属性就会被忽略。用户属性是一个连贯的变化过程,之前的属性还是拥有的,只是在随着时间以一个趋势进行变化,因此,本发明引入衰减系数对用户之前的属性进行一定的衰减,即据公式计算用户属性特征参数μ、v需要通过实验来进行调整以确定其值。即将当前时间子段(t)及其之前时间子段的主题权重信息{A0,A1,…,At}分别与衰减系数{T0,T1,…,Tt}相乘后,累加求和得到当前时间子段的用户属性特征A′t。这样当前时间子段的用户属性特征是结合用户之前的属性特征,符合用户真实的属性变化趋势。步骤204:将第q个时间子段的用户属性特征A′q作为用户当前属性特征并输出。
由于采用了上述技术方案,本发明的有益效果是:可以从用户发布或者转发的微博文本中挖掘出用户的动态属性,并且可以展示用户属性的变化趋势,从而预测用户在将来一段时间的属性,结果证明比用户静态属性发现方法效果更好,更符合用户当前状态的兴趣。
附图说明
图1是具体实施方式的实现模型框架图。
图2是具体实施方式中,某用户10个属性变化图。
图3是具体实施方式中,3个用户的属性分布图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
参见图1,本发明的基于社交媒体的动态用户属性提取方法主要涉及三个部分:文本数据预处理(简称文本预处理),主题提取和用户动态属性挖掘。
通过爬虫得到新浪微博用户的短文本,由于存在很多噪声信息,经过分词、去除无意义字符等预处理手段可得到噪声较低的文本信息。利用BTM主题模型提取出10个主题(分别是健身、美食、数码、体育、美妆、旅游、军事、音乐、萌宠和游戏)及其对应的前20个带权重的高频关键词,并从提取出的高频关键词中再提取前5个带权重的高频关键词作为各主题的主题词,如表1所示。
提取待处理用户(单个)的在一年内的短文本,再将提取的短文本按照不同的时间子段划分为多个子集,设置大小为3个月的时间窗口,通过滑动该时间窗口将距当前时间子段最近的几个(如3)时间子段的短文本扩充到当前时间子段。
对各时间子段的短文本进行文本预处理后,基于BTM主题模型提取的10(即K=10)个主题,可得到各主题权重进而由同一时间子段的10个主题权重得到各时间子段的主题权重信息At,即其中下标t(t=0,1,…,q)为时间子段标识符。如图2所示,是某个随机选择的用户的主题权重信息关于时间段的变化图,可以看出每个属性随时间的变化趋势。
最后,将第11个时间子段的用户属性特征A′11作为用户当前属性特征并输出,如图3所示的三个随机用户的当前属性分布图,从图中可以看出各用户不同的喜好。
进一步的,还可以对用户当前属性特征(最近的时间子段所对应的A′11)进行归一化处理,即取单个主题与10个主题的和的比值作为归一化结果,并基于预设阈值θ2判定每个主题的属性是否存在:若大于或等于阈值θ2,则判断当前主题的存在,否则不存在。对每个主题,若存在则用1表示,否则用0表示,从而得到向量Lt,从而可以更直观的得到用户的属性分布。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (3)

1.基于社交媒体的动态用户属性提取方法,其特征在于,包括下列步骤:
步骤1:主题提取:
101:采集训练样本集:
提取用户在社交媒体上发表的短文本,筛选短文本数大于或等于阈值θ1的用户作为样本用户;
由不同样本用户的各短文本构成训练样本集,并对训练样本进行文本预处理:包括去除短文本中的链接、非中文字符、自定义词后,对短文本进行分词操作,并过滤掉停用词和无意义高频词;
102:对训练样本集进行文本主题提取处理,得到K个主题,并从每个主题的关键词中选择权重最大的前m个作为主题词;
步骤2:用户动态属性提取:
201:提取待处理用户在时间段T在社交媒体上发表的短文本,将时间段T分为q个时间子段,得到各时间子段发表的短文本;对短文本进行文本预处理,得到对应各时间子段的文本数据;
通过滑动时间窗,将与当前时间子段最近的p个时间子段文本数据扩充到当前时间子段的文本数据;
步骤202:基于步骤102得到的各主题的m个主题词,分别对各时间子段的文本数据进行主题词的词频统计并计算各主题权重其中nki表示主题k的第i个主题词的词频,wki表示主题k的第i个主题词在主题下的权重,k=1,2,…,K;由同一时间子段的K个主题权重ak得到各时间子段的主题权重信息At,下标t=0,1,…,q为时间子段标识符;
步骤203:根据公式计算用户属性特征其中衰减系数λ(Tj)=1-μTj v,Tj表示时间子段j的时间间隔,且0<μ<1,v>0;
步骤204:将第q个时间子段的用户属性特征Aq′作为用户当前属性特征并输出。
2.如权利要求1所述的方法,其特征在于,衰减系数参数μ的优选取值为0.56,参数v的优选值为0.06。
3.如权利要求1或2所述的方法,其特征在于,步骤102中,采用BTM模型对训练样本集进行文本主题提取处理,得到K个主题,其中BTM模型表示Biterm Topic Model。
CN201610767430.5A 2016-08-30 2016-08-30 基于社交媒体的动态用户属性提取方法 Expired - Fee Related CN106354818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610767430.5A CN106354818B (zh) 2016-08-30 2016-08-30 基于社交媒体的动态用户属性提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610767430.5A CN106354818B (zh) 2016-08-30 2016-08-30 基于社交媒体的动态用户属性提取方法

Publications (2)

Publication Number Publication Date
CN106354818A true CN106354818A (zh) 2017-01-25
CN106354818B CN106354818B (zh) 2020-01-10

Family

ID=57856620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610767430.5A Expired - Fee Related CN106354818B (zh) 2016-08-30 2016-08-30 基于社交媒体的动态用户属性提取方法

Country Status (1)

Country Link
CN (1) CN106354818B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984555A (zh) * 2017-06-01 2018-12-11 腾讯科技(深圳)有限公司 用户状态挖掘和信息推荐方法、装置以及设备
CN109377401A (zh) * 2018-08-24 2019-02-22 腾讯科技(武汉)有限公司 一种数据处理方法、装置、***、服务器及存储介质
CN109993570A (zh) * 2019-01-14 2019-07-09 深圳市东信时代信息技术有限公司 一种定向投放移动广告的方法及***
CN110209316A (zh) * 2019-06-11 2019-09-06 北京达佳互联信息技术有限公司 类别标签显示方法、装置、终端及存储介质
CN110297887A (zh) * 2019-06-26 2019-10-01 山东大学 基于云平台的服务机器人个性化对话***及方法
CN111694949A (zh) * 2019-03-14 2020-09-22 京东数字科技控股有限公司 一种多文本分类方法和装置
CN112541792A (zh) * 2020-12-22 2021-03-23 作业帮教育科技(北京)有限公司 一种挖掘用户需求的数据处理方法、装置及电子设备
CN116541527A (zh) * 2023-07-05 2023-08-04 国网北京市电力公司 一种基于模型集成和数据扩充的公文分类方法
CN117336539A (zh) * 2023-09-28 2024-01-02 北京风平智能科技有限公司 一种用于短视频ip打造的视频脚本生产方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN104102648A (zh) * 2013-04-07 2014-10-15 腾讯科技(深圳)有限公司 基于用户行为数据的兴趣推荐方法及装置
CN105608192A (zh) * 2015-12-23 2016-05-25 南京大学 一种基于用户双词主题模型的短文本推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102648A (zh) * 2013-04-07 2014-10-15 腾讯科技(深圳)有限公司 基于用户行为数据的兴趣推荐方法及装置
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN105608192A (zh) * 2015-12-23 2016-05-25 南京大学 一种基于用户双词主题模型的短文本推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHIFUMI NISHIOKA等: "Profiling vs. Time vs. Content: What does Matter for Top-k Publication Recommendation based on Twitter Profiles?", 《PROCEEDINGS OF THE 16TH ACM/IEEE-CS ON JOINT CONFERENCE ON DIGITAL LIBRARIES》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984555A (zh) * 2017-06-01 2018-12-11 腾讯科技(深圳)有限公司 用户状态挖掘和信息推荐方法、装置以及设备
CN108984555B (zh) * 2017-06-01 2021-09-28 腾讯科技(深圳)有限公司 用户状态挖掘和信息推荐方法、装置以及设备
CN109377401A (zh) * 2018-08-24 2019-02-22 腾讯科技(武汉)有限公司 一种数据处理方法、装置、***、服务器及存储介质
CN109993570B (zh) * 2019-01-14 2023-09-01 深圳市东信时代信息技术有限公司 一种定向投放移动广告的方法及***
CN109993570A (zh) * 2019-01-14 2019-07-09 深圳市东信时代信息技术有限公司 一种定向投放移动广告的方法及***
CN111694949A (zh) * 2019-03-14 2020-09-22 京东数字科技控股有限公司 一种多文本分类方法和装置
CN111694949B (zh) * 2019-03-14 2023-12-05 京东科技控股股份有限公司 一种多文本分类方法和装置
CN110209316A (zh) * 2019-06-11 2019-09-06 北京达佳互联信息技术有限公司 类别标签显示方法、装置、终端及存储介质
CN110297887A (zh) * 2019-06-26 2019-10-01 山东大学 基于云平台的服务机器人个性化对话***及方法
CN110297887B (zh) * 2019-06-26 2021-07-27 山东大学 基于云平台的服务机器人个性化对话***及方法
CN112541792A (zh) * 2020-12-22 2021-03-23 作业帮教育科技(北京)有限公司 一种挖掘用户需求的数据处理方法、装置及电子设备
CN116541527B (zh) * 2023-07-05 2023-09-29 国网北京市电力公司 一种基于模型集成和数据扩充的公文分类方法
CN116541527A (zh) * 2023-07-05 2023-08-04 国网北京市电力公司 一种基于模型集成和数据扩充的公文分类方法
CN117336539A (zh) * 2023-09-28 2024-01-02 北京风平智能科技有限公司 一种用于短视频ip打造的视频脚本生产方法及***
CN117336539B (zh) * 2023-09-28 2024-05-14 北京风平智能科技有限公司 一种用于短视频ip打造的视频脚本生产方法及***

Also Published As

Publication number Publication date
CN106354818B (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN106354818A (zh) 基于社交媒体的动态用户属性提取方法
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
CN105786991B (zh) 结合用户情感表达方式的中文情感新词识别方法和***
US11531834B2 (en) Moderator tool for moderating acceptable and unacceptable contents and training of moderator model
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN105183717B (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
WO2017107805A1 (zh) 确定商品对象标题文本的方法及装置
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
CN104076944A (zh) 一种聊天表情输入的方法和装置
CN108305180B (zh) 一种好友推荐方法及装置
US10949418B2 (en) Method and system for retrieval of data
US9785705B1 (en) Generating and applying data extraction templates
CN102779114A (zh) 利用自动规则生成的非结构化数据支持
CN111079029A (zh) 敏感账号的检测方法、存储介质和计算机设备
CN108269122A (zh) 广告的相似度处理方法和装置
CN108536868A (zh) 社交网络上短文本数据的数据处理方法及应用
CN112163081A (zh) 标签确定方法、装置、介质及电子设备
Chumwatana Using sentiment analysis technique for analyzing Thai customer satisfaction from social media
CN111309864A (zh) 一种微博热点话题的用户群体情感倾向迁移动态分析方法
CN111061838B (zh) 文本特征关键词确定方法、装置和存储介质
CN106569996A (zh) 一种面向中文微博的情感倾向分析方法
CN109672586A (zh) 一种dpi业务流量识别方法、装置与计算机可读存储介质
CN106294346A (zh) 一种论坛帖子识别方法及装置
CN115204123B (zh) 协同编辑文档的分析方法、分析装置以及存储介质
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yang Yang

Inventor after: Huang Xiu

Inventor after: Hu Yue

Inventor after: Shen Fumin

Inventor after: Shao Jie

Inventor before: Huang Xiu

Inventor before: Yang Yang

Inventor before: Hu Yue

Inventor before: Shen Fumin

Inventor before: Shao Jie

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200110