CN106354818A

CN106354818A - 基于社交媒体的动态用户属性提取方法

Info

Publication number: CN106354818A
Application number: CN201610767430.5A
Authority: CN
Inventors: 黄秀; 杨阳; 胡玥; 沈复民; 邵杰
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2017-01-25
Anticipated expiration: 2036-08-30
Also published as: CN106354818B

Abstract

本发明公开了一种基于社交媒体的动态用户属性提取方法。本发明首先对采集的训练样本集进行文本预处理后，进行主题词提取，得到K个主题以及各主题的m个主题词。再提取待处理用户的短文本并进行时间子段的划分，通过时间滑窗进行数据填充得到各时间子段的文本数据，并进行文本预处理后，统计各主题的主题词的出现频率，得到各主题的属性权重信息，再引入时间衰减系数，以时间顺序依次得到关联时间属性的用户属性特征，取最近时间子段的用户属性特征作为用户当前属性特征并输出。本发明在不需要利用外部知识的前提下，通过文本中无序的词实现对社交媒体的短文本的语义扩充，且可以从用户发布或者转发的微博文本中提取出用户的动态属性。

Description

基于社交媒体的动态用户属性提取方法

技术领域

本发明属于计算机领域，具体涉及一种基于社交媒体的动态用户属性提取方法。

背景技术

社交媒体服务定义了一种全新的用户在网络上相互沟通、自我表达和分享的方式。随着社交媒体的不断发展，越来越多的人在社交媒体平台上发表、分享即时消息，常见的社交媒体如新浪微博、Twitter、Facebook和LinkedIn等。例如：在新浪微博平台上，用户可以发表140字符以内的微博信息，这些微博可以由中英文、自定义字符、外部链接等组成。因此，有效地分析微博短文本流检测出用户的动态属性，对其相关领域的研究和应用都具有重要意义，例如社交推荐，个性化检索，在线推广等。

用户画像，即用户信息标签化，就是企业通过收集与分析消费者社会属性、生活***台上表现自己，研究社交媒体环境下的用户画像是很有意义的。目前，基于社交媒体的用户画像还存在很多有待改进的地方，如用户属性描述不深入、不全面，没有做到及时更新等，更需要我们进行深入研究，解决发现的问题，构建深入全面的用户画像，为个性化的推荐***、信息检索等服务提供较全面详细的信息。

由于社交媒体平台上短文本的特殊性，在兴趣画像时需要解决短文本的稀疏性，惯用的处理方式为：利用外部知识扩充短文本语义，例如通过连接用户在社交媒体上发表的内容和相关的新闻文章来扩充短文本的内容以便更有效的分析用户在社交媒体上的活动；或者利用***以及为相关兴趣赋权重值的方法将社交媒体上的用户兴趣进行自动分类；亦或者利用社交媒体上用户的自传来提取兴趣标签以扩充短文本的信息。上述三种通过外部知识解决短文本稀疏的问题的处理方式，需要严重依赖外部数据的可用性和原始数据的相关性，如果外部数据有误或不充足，则会导致得到的兴趣可能与用户真实兴趣不符合的技术缺陷。

此外，目前还有大量关于跨平台的用户画像建模，通过两个或多个社交媒体平台上的数据来实现对用户更精确的建模分析。如利用用户在社交媒体平台注册时填写的基本信息来对用户兴趣进行画像，以及社交媒体平台为用户设置的用户标签对其进行画像。或者是利用用户在不同社交媒体平台同时有关联账户的用户数据来研究分析用户的行为和兴趣。然而，上述通过扩充语义来解决短文本稀疏的问题，最后得到的用户属性都是一个静态用户属性，并没有考虑用户属性随时间变化的情况。

发明内容

本发明的发明目的在于：为了解决短文本的稀疏性问题，克服现有技术的用户属性挖掘不精确和不能及时更新等缺点，本发明基于所构建的新的动态用户属性模型(能够自动从文本中挖掘用户的动态属性，展现用户属性的变化)，在不需要利用外部知识的前提下，通过文本中无序的词实现对社交媒体的短文本的语义扩充，以及通过时间窗口来平滑数据，引入衰减函数来表示过去属性对当前属性的影响。

本发明的基于社交媒体的动态用户属性提取方法，包括下列步骤：

步骤1：主题提取：

101：采集训练样本集：

提取用户在社交媒体上发表的短文本，筛选短文本数大于或等于阈值θ1(例如200)的用户作为样本用户；

由不同样本用户的各短文本构成训练样本集，并对训练样本(即短文本)进行文本预处理：包括去除短文本中的链接、非中文字符、自定义词后，对短文本进行分词操作，并过滤掉停用词和无意义高频词，去除自定义词可以通过将短文本与预设的自定义词库进行匹配，将相匹配的自定义词去除，过滤掉停用词和无意义高频词，也可以基于同样的方式，即预构建关于停用词、无意义高频词的词库，然后将分词操作后得到的词与构建的词库进行匹配，将相匹配的词过滤掉；

102：对训练样本集进行文本主题提取处理，得到K个主题，本步骤中，采用BTM模型(Biterm Topic Model)提取主题。该方法的优势在于利用语料库中无序的共现词对来扩充短文本的语义，从而解决文本稀疏的问题。在主题提取处理后，可以得到K个主题，每个主题包括一系列关键词，同时会得到各关键词的权重信息，如BTM模型的文档-主题分布矩阵。从每个主题的关键词中选择权重最大的前m个作为主题词，同时记录各主题词的权重信息，例如表1所示，其涉及10个主题，每个主题包括5个主题词，各主题词后的括号中的数值为其对应的权值。

表1

步骤2：用户动态属性提取：

201：提取待处理用户在时间段T(比如最近一年内)在社交媒体上发表的短文本，将时间段T分为q个时间子段，得到各时间子段发表的短文本；对短文本进行文本预处理，得到对应各时间子段的文本数据；

通过滑动时间窗，将与当前时间子段最近的p个时间子段文本数据扩充到当前时间子段的文本数据；

步骤202：基于步骤102得到的各主题的m个主题词，分别对各时间子段的文本数据进行主题词的词频统计并计算各主题权重其中n_ki表示主题k的第i个主题词的词频，w_ki表示主题k的第i个主题词在主题下的权重，k＝1,2,…,K，k_t的下标t＝0,1,…,q为时间子段标识符；由同一时间子段的K个主题权重得到各时间子段的主题权重信息A_t；

步骤203：根据公式计算用户属性特征其中衰减系数λ(T_j)＝1-μT_j ^v，T_j表示各时间子段的时间间隔，且0＜μ＜1，v＞0。对于步骤202得到的权重信息A_t，相当于是用户各个时间子段的静态属性。但是每个时间子段的用户属性都局限于该时间子段，而那些用户本身拥有但是在当前时间子段没有提及的属性就会被忽略。用户属性是一个连贯的变化过程，之前的属性还是拥有的，只是在随着时间以一个趋势进行变化，因此，本发明引入衰减系数对用户之前的属性进行一定的衰减，即据公式计算用户属性特征参数μ、v需要通过实验来进行调整以确定其值。即将当前时间子段(t)及其之前时间子段的主题权重信息{A₀,A₁,…,A_t}分别与衰减系数{T₀,T₁,…,T_t}相乘后，累加求和得到当前时间子段的用户属性特征A′_t。这样当前时间子段的用户属性特征是结合用户之前的属性特征，符合用户真实的属性变化趋势。步骤204：将第q个时间子段的用户属性特征A′_q作为用户当前属性特征并输出。

由于采用了上述技术方案，本发明的有益效果是：可以从用户发布或者转发的微博文本中挖掘出用户的动态属性，并且可以展示用户属性的变化趋势，从而预测用户在将来一段时间的属性，结果证明比用户静态属性发现方法效果更好，更符合用户当前状态的兴趣。

附图说明

图1是具体实施方式的实现模型框架图。

图2是具体实施方式中，某用户10个属性变化图。

图3是具体实施方式中，3个用户的属性分布图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

参见图1，本发明的基于社交媒体的动态用户属性提取方法主要涉及三个部分：文本数据预处理(简称文本预处理)，主题提取和用户动态属性挖掘。

通过爬虫得到新浪微博用户的短文本，由于存在很多噪声信息，经过分词、去除无意义字符等预处理手段可得到噪声较低的文本信息。利用BTM主题模型提取出10个主题(分别是健身、美食、数码、体育、美妆、旅游、军事、音乐、萌宠和游戏)及其对应的前20个带权重的高频关键词，并从提取出的高频关键词中再提取前5个带权重的高频关键词作为各主题的主题词，如表1所示。

提取待处理用户(单个)的在一年内的短文本，再将提取的短文本按照不同的时间子段划分为多个子集，设置大小为3个月的时间窗口，通过滑动该时间窗口将距当前时间子段最近的几个(如3)时间子段的短文本扩充到当前时间子段。

对各时间子段的短文本进行文本预处理后，基于BTM主题模型提取的10(即K＝10)个主题，可得到各主题权重进而由同一时间子段的10个主题权重得到各时间子段的主题权重信息A_t，即其中下标t(t＝0,1,…,q)为时间子段标识符。如图2所示，是某个随机选择的用户的主题权重信息关于时间段的变化图，可以看出每个属性随时间的变化趋势。

最后，将第11个时间子段的用户属性特征A′₁₁作为用户当前属性特征并输出，如图3所示的三个随机用户的当前属性分布图，从图中可以看出各用户不同的喜好。

进一步的，还可以对用户当前属性特征(最近的时间子段所对应的A′₁₁)进行归一化处理，即取单个主题与10个主题的和的比值作为归一化结果，并基于预设阈值θ2判定每个主题的属性是否存在：若大于或等于阈值θ2，则判断当前主题的存在，否则不存在。对每个主题，若存在则用1表示，否则用0表示，从而得到向量L_t，从而可以更直观的得到用户的属性分布。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.基于社交媒体的动态用户属性提取方法，其特征在于，包括下列步骤：

步骤1：主题提取：

101：采集训练样本集：

提取用户在社交媒体上发表的短文本，筛选短文本数大于或等于阈值θ1的用户作为样本用户；

由不同样本用户的各短文本构成训练样本集，并对训练样本进行文本预处理：包括去除短文本中的链接、非中文字符、自定义词后，对短文本进行分词操作，并过滤掉停用词和无意义高频词；

102：对训练样本集进行文本主题提取处理，得到K个主题，并从每个主题的关键词中选择权重最大的前m个作为主题词；

步骤2：用户动态属性提取：

201：提取待处理用户在时间段T在社交媒体上发表的短文本，将时间段T分为q个时间子段，得到各时间子段发表的短文本；对短文本进行文本预处理，得到对应各时间子段的文本数据；

步骤202：基于步骤102得到的各主题的m个主题词，分别对各时间子段的文本数据进行主题词的词频统计并计算各主题权重其中n_ki表示主题k的第i个主题词的词频，w_ki表示主题k的第i个主题词在主题下的权重，k＝1,2,…,K；由同一时间子段的K个主题权重a_k得到各时间子段的主题权重信息A_t，下标t＝0,1,…,q为时间子段标识符；

步骤203：根据公式计算用户属性特征其中衰减系数λ(T_j)＝1-μT_j ^v，T_j表示时间子段j的时间间隔，且0＜μ＜1，v＞0；

步骤204：将第q个时间子段的用户属性特征A_q′作为用户当前属性特征并输出。

2.如权利要求1所述的方法，其特征在于，衰减系数参数μ的优选取值为0.56，参数v的优选值为0.06。

3.如权利要求1或2所述的方法，其特征在于，步骤102中，采用BTM模型对训练样本集进行文本主题提取处理，得到K个主题，其中BTM模型表示Biterm Topic Model。