CN109949175B

CN109949175B - 一种基于协同过滤和相似性度量的用户属性推断方法

Info

Publication number: CN109949175B
Application number: CN201910233096.9A
Authority: CN
Inventors: 孙希延; 刘莉慧; 汪华登; 罗笑南
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2023-05-05
Anticipated expiration: 2039-03-26
Also published as: CN109949175A

Abstract

本发明公开了一种基于协同过滤和相似性度量的用户属性推断方法，先使用Python中的Scrapy框架，构建一个微博爬虫***，使用分布式爬虫算法来自动收集微博用户帐户信息；然后清除无效数据，使用NLP预处理数据；然后使用可视化分析工具Tableau来分析收集到的用户数据；再通过遵循三步法对现有的用户账号数据进行挖掘分析，使得能根据用户现有属性信息，推断用户未知的属性值；最后将模型与岭回归模型，决策树模型和多元线性回归模型进行比较，获得预测结果情况。本发明推断未知属性准确率更高。

Description

一种基于协同过滤和相似性度量的用户属性推断方法

技术领域

本发明涉及社交网络中用户缺失属性推断技术领域，具体涉及一种基于协同过滤和相似性度量的用户属性推断方法。

背景技术

近年来，随着网络应用的迅速普及，中国互联网用户数量已经跃居全球首位，特别是微信、微博等社交媒体的使用，使整个社会深度跨入“网络大数据”时代。互联网及移动技术的快速发展,不仅改变着人们的生活方式，同时也产生了海量数据资源。如何从繁杂无序的文本中挖掘出有价值的用户信息，已成为业界广泛关注的问题，因此用户属性推断应运而生。

用户属性推断，旨在通过一段时间内用户的已有数据推断用户属性，具体属性包括：性别、年龄和受教育程度等。推断这些用户属性可以使用户分析，信息检索，个性化和推荐中的许多应用受益。然而推断用户属性对于用户分析、检索和个性化非常重要，所以如何充分利用社交媒体平台的信息来加强用户个性化建模，实现用户画像构建、用户意图检测、用户群体状态统计以及面向特定用户的精准信息推荐等，并通过数据挖掘方法获取社交网络中的大量其它有价值的信息，已成为非常值得研究的问题。

用户画像在个性化推荐以及精准营销中起到了重要作用，而如今在大数据背景下，传统的浅层学习方法并不能深入挖掘特征之间的关系，尤其是在高维特征基础上预测用户画像标签时，面临巨大挑战。

发明内容

针对现有技术的不足，本发明所解决的问题是如何根据用户已知属性数据，推断出用户未知的属性值并使其准确率较高，运行效果良好。

为解决上述技术问题，本发明采用的技术方案是一种基于协同过滤和相似性度量的用户属性推断方法，具体包括如下步骤：

(1)数据采集，使用Python中的Scrapy框架，构建一个微博爬虫***，使用分布式爬虫算法来自动收集微博用户帐户信息，具体工作过程如下：

1)账号的自动登录与验证，从数据库获取事先准备的多个微博账号和密码，使用selenium+phantomjs模拟登录微博平台，进行***登录；

2)验证码的自动识别与验证，在登录过程中，获取验证码图片后，调用云打码平台提供的接口，提供验证码，接收云打码返回的验证码字符串，再在phantomjs中模拟登录；

3)微博用户帐户信息的判别和自动获取，登录过程中获取cookie，建立cookie池，通过爬虫框架中间件请求设计好的基于flask框架的接口，随机从数据库中返回json格式的新cookie，提供给scrapy使用，解决更换cookie的问题，数据爬取和策略上，将尽可能排除营销号、广告账号以及垃圾账号类型账号数据，综合考虑用户认证级别、受关注度、活跃度因素，设定过滤条件，设计分布式爬虫算法，部署于多终端和服务器，进行数据获取；在数据存储方面，针对微博用户数据及其结构特征，采用类JSON格式和NoSQL类型的MongoDB数据库进行数据存储；对于含有用户原创数据的页面，研究网页内容和链接结构，设计评价策略，设计相关算法，实现对用户发表的社交网络数据的判别和自动获取；

(2)数据预处理，具体过程如下：

进行查重处理，解析每一个HTML格式的网页，提取用户个人及其所发表的关键文本信息，通过MD5算法进行文本的哈希运算，进行文本信息的重复性判断和去重处理无效数据；

(3)使用NLP预处理数据；

(4)数据分析，使用可视化分析工具Tableau来分析收集到的用户数据，以了解用户在性别，年龄，地区，职业方面的基本分布情况以及他们之间的一些相关性；

(5)算法设计，通过遵循三步法对现有的用户账号数据进行挖掘分析，具体应用过程如下：

用户账号数据用特征向量化来表示，设R是一个n×m的用户属性矩阵，其中包含m个属性的n个用户的已填写属性信息，在该矩阵中，如果第i个用户填写了第j个属性，则r_i， _jr_i，j为1，否则为0；设U是想要计算前N个推荐值的用户已填写的属性集，将此客户称为活跃用户，假设活跃用户不属于存储在矩阵R中的n个用户；

第一步，识别数据库中与活跃用户最相似的k个用户；第二步，计算k个用户已填写的属性的并集C，活跃用户已填写的属性集合U；第三步，从集合中选择并推荐权重最高且尚未被活跃用户填写的N个属性；

假设用户i记为User_iUser_i有20个特征，则其值表示为一个20维的向量；

F_i，jF_i，j|j＝1，2，...20j＝1，2，...20，即用户User_i的第j个特征值用F_i，jF_i，j这样来标记；

User_iUser_i＝{F_i，1F_i，1，F_i，2F_i，2，……，F_i，20F_i，20}

从用户相似度的角度考虑，假设用户User_iUser_i有m个最相似用户，那么要求解用户User_iUser_i的第j个特征值F_i，jF_i，j，考虑用m个最相似用户对应的同样的第j个特征值分别乘以其与User_iUser_i的第j个特征的“相似度”，求出累加和，然后除以User_iUser_i的m个最相似用户的对应属性与User_iUser_i的对应属性的相似度之和，即：

用户s和t的特征j的相似度可表达为：

其中，

然后上面的ω_jω_j其实也是未知的，通过机器学习，寻找优化算法来得到ωω值作为初始值；

(6)获得结果，具体过程如下：在pandas中使用DataFrame.corr来计算变量和预测值之间的相关系数，用权重表示属性，使用此模型来推断性别，水平坐标是选定的用户，显示前50位用户；垂直坐标是用户的性别，女性为1，男性为2；真实线是真实值的预测值，Meanline是一个预先设定的判断线，可以理解为超过1.5表示男性，而不到1.5表示女性；平均误差即RMSE也称为标准误差，它是平方的平方根和观察到的观测数，RMSE表示预测值的离散程度，RMSE的值越小，模型越好。

与现有技术相比，本发明的模型更好，推断未知属性准确率更高。

附图说明

图1为本发明的用户属性矩阵示意图；

图2为本发明流程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的说明，但不是对本发明的限定。

图1为本发明的用户属性矩阵示意图；

图2示出了本发明流程，一种基于协同过滤和相似性度量的用户属性推断方法，具体包括如下步骤：

(2)数据预处理，具体过程如下：

(3)使用NLP预处理数据；

User_iUser_i＝{F_i，1F_i，1，F_i，2F_i，2，……，F_i，20F_i，20}

用户s和t的特征j的相似度可表达为：

其中，

本发明使用此模型来训练和测试大约6万个用户帐户的数据，将模型与其他一些经典模型进行比较，如岭回归模型，决策树模型和多元线性回归模型，结果表明本发明的模型更好，推断未知属性准确率更高。

以上结合附图对本发明的实施方式做出了详细说明，但本发明不局限于所描述的实施方式。对于本领域技术人员而言，在不脱离本发明的原理和精神的情况下，对这些实施方式进行各种变化、修改、替换和变型仍落入本发明的保护范围内。

Claims

1.一种基于协同过滤和相似性度量的用户属性推断方法，其特征在于，包括如下步骤：

(1)数据采集，使用Python中的Scrapy框架，构建一个微博爬虫***，使用分布式爬虫算法来自动收集微博用户帐户信息；

(2)数据预处理；

(3)使用NLP预处理数据；

(5)算法设计，通过遵循三步法对现有的用户账号数据进行挖掘分析，具体过程如下：

用户账号数据用特征向量化来表示，设R是一个n×m的用户属性矩阵，其中包含m个属性的n个用户的已填写属性信息，在该矩阵中，如果第i个用户填写了第j个属性，则r_i，jr_i，j为1，否则为0；设U是想要计算前N个推荐值的用户已填写的属性集，将此客户称为活跃用户，假设活跃用户不属于存储在矩阵R中的n个用户；

User_iUser_i＝{F_i，1F_i，1，F_i，2F_i，2，……，F_i，20F_i，20}

用户s和t的特征j的相似度可表达为：

其中，

(6)获得结果。

2.根据权利要求1所述的基于协同过滤和相似性度量的用户属性推断方法，其特征在于，步骤(1)具体工作过程如下：

3)微博用户帐户信息的判别和自动获取，登录过程中获取cookie，建立cookie池，通过爬虫框架中间件请求设计好的基于flask框架的接口，随机从数据库中返回json格式的新cookie，提供给scrapy使用，解决更换cookie的问题，数据爬取和策略上，将尽可能排除营销号、广告账号以及垃圾账号类型账号数据，综合考虑用户认证级别、受关注度、活跃度因素，设定过滤条件，设计分布式爬虫算法，部署于多终端和服务器，进行数据获取；在数据存储方面，针对微博用户数据及其结构特征，采用类JSON格式和NoSQL类型的MongoDB数据库进行数据存储；对于含有用户原创数据的页面，研究网页内容和链接结构，设计评价策略，设计相关算法，实现对用户发表的社交网络数据的判别和自动获取。

3.根据权利要求1所述的基于协同过滤和相似性度量的用户属性推断方法，其特征在于，步骤(2)具体工作过程如下：进行查重处理，解析每一个HTML格式的网页，提取用户个人及其所发表的关键文本信息，通过MD5算法进行文本的哈希运算，进行文本信息的重复性判断和去重处理无效数据。

4.根据权利要求1所述的基于协同过滤和相似性度量的用户属性推断方法，其特征在于，步骤(6)具体工作过程如下：

在pandas中使用DataFrame.corr来计算变量和预测值之间的相关系数，用权重表示属性，使用此模型来推断性别，水平坐标是选定的用户，显示前50位用户；垂直坐标是用户的性别，女性为1，男性为2；真实线是真实值的预测值，Meanline是一个预先设定的判断线，可以理解为超过1.5表示男性，而不到1.5表示女性；平均误差即RMSE也称为标准误差，它是平方的平方根和观察到的观测数，RMSE表示预测值的离散程度，RMSE的值越小，模型越好。