CN111859135B

CN111859135B - 适应于新学术平台的匿名用户行为挖掘与资源推荐方法

Info

Publication number: CN111859135B
Application number: CN202010712811.XA
Authority: CN
Inventors: 赵亮; 陶余会
Original assignee: SHANGHAI CHUWA SOFTWARE CO Ltd; Fudan University Press Co ltd
Current assignee: SHANGHAI CHUWA SOFTWARE CO Ltd; Fudan University Press Co ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2022-08-02
Anticipated expiration: 2040-07-22
Also published as: CN111859135A

Abstract

本发明属于数据挖掘与分析、人工智能技术领域，具体为一种适应于新学术平台的匿名用户行为挖掘与资源推荐方法。本发明包括两个部分：（一）适应于新学术平台的匿名用户行为挖掘，以便全面刻画平台用户画像，便于后续为其推荐有用平台资源；（二）基于项集相似性计算的协同过滤个性化推荐，实现精准学术推荐，帮助各类用户从平台获得最大收益。本发明针对实际平台采用行之有效的措施挖掘匿名用户行为特征，对平台用户全方位画像，采用维数简化和项集相似性计算两个过程，在提高精确度的同时减少计算耗费，解决应用协同过滤技术的推荐***所存在的稀疏性和扩展性问题，从而实现高效推荐。

Description

适应于新学术平台的匿名用户行为挖掘与资源推荐方法

技术领域

本发明属于数据挖掘与分析、人工智能技术领域，具体涉及一种适应于新学术平台的匿名用户行为挖掘与个性化推荐方法。

背景技术

新学术平台是自主开发建设的平台(http://fae.shchuwa.cn/)，平台提供论文首发***、期刊数字化采编出版***、新世纪人文社科类图书数据库和评价***、学术入门推荐***等功能。涉及的主要技术有：基于领域本体的知识挖掘技术、知识挖掘与知识元自动抽取技术、基于全文内容的分析技术；自然语言处理技术、大数据治理技术等等；句法分析技术、文本分类技术、数据挖掘技术、语义分析技术、机器学***台的建设，首先，是营造出公开透明的科技成果交流共享空间，有助于科研人员公平竞争；其次，是保障优秀科研成果首发权认定，有助于扩大中国科技工作者的国际影响力，促进原创成果涌现；第三，是缩短科技成果发布周期，有助于推动科技成果快速流转、有效转化；第四，打造多维科技论文集成创作平台，突破传统科技论文发表周期长、表达方式单一等诸多限制，实现作者、读者、编审人员的跨时空沟通和零距离管理；第五，与传统学术期刊建立全面合作，有助于出版社自身业务的扩展和深化，打造全新数字出版以及按需出版新业态；第六，在全面、权威学术大数据基础上，建立科学学术评价指标体系，为学术界提供最有价值的分析服务，社会效益显著。

本项目平台既是论文数字出版与科研成果共享平台，也是数字出版业务平台。既能为作者、期刊和其他出版商、普通商业公司提供数字化出版发行服务；又能在平台上销售按需印刷的图书或电子书，实现网络出版和网络营销一体化，为平台拥有者带来直接的经济利益。

平台的大部分***功能深入使用时，要求用户必须成为注册用户，才能使用；但是，不可避免地会存在大量未注册用户浏览和阅读平台文章。对于注册用户，由于填写了必要的信息，针对其特点的推荐比较容易实现；但是大量未注册用户，必须先通过其平台浏览行为，挖掘分析其特点，得出用户画像后，才能实施个性化推荐，从而实现平台更多的经济效益。

本发明提出了一种适应于新学术平台的匿名用户行为挖掘与个性化推荐方法，实现平台各类用户画像，帮助各类用户从平台获得各自的最大收益。

发明内容

本发明的目的在于提供一种能够全面刻画平台用户画像，实现精准学术推荐、帮助各类用户从平台获得最大收益的适应于新学术平台的匿名用户行为挖掘与个性化推荐方法。

本发明方法包括两个部分：(一)适应于新学术平台的匿名用户行为挖掘，以便全面刻画平台用户画像，便于后续为其推荐有用平台资源；(二)基于项集相似性计算的协同过滤个性化推荐，实现精准学术推荐，帮助各类用户从平台获得最大收益。具体步骤为：

为实现上述目的，本发明采用以下技术方案：

(一)适应于新学术平台的匿名用户行为挖掘，包括以下步骤：

步骤1、获取匿名用户在新学术平台的浏览行为数据：

新学术平台自主开发有程序ce.js文件，使得平台具备获取访客行为数据的能力，用户访问新学术平台时，ce.js文件将抓取访客行为信息，访客的运行环境信息等，通过Ajax发送给平台的ce.php处理，ce.php将ce.js发过来的信息处理之后，分配保存到数据库相应的数据表中，便于下一步分析预处理。

步骤2、用户行为数据预处理：

获取的用户行为数据经分别处理后存储到相关的下述3个表中：log_visit,log_action,log_link_visit_action。ce.js可以记录用户、页面浏览、数据转化信息，部分跟踪数据来源于浏览器端Javascript直接获取，如屏幕分辨率、操作***，有些数据来源于服务器PHP解析，如IP地址、user agent。每个独立访客都在cookie中分配一个独立的id。每一次访问都会在log_visit表中创建一行数据。

步骤3抽取用户行为数据特征：

会话是一个用户在一个特定的时间间隔内的路径，路径是用户按时间顺序访问的URL序列，相同的URL可以在一条路径中多次出现；会话的特征分为时间和空间两方面，时间特征包括每页的浏览时间，一段有向路径的浏览时间等；空间特征包括页面的浏览顺序，链接的点击等。如果一个访客两次访问相隔时间超过30分钟，这个访客会在log_visit表中***两条会话数据。每浏览一个页面，log_visit表都会被更新，因为它要储存这个访客的页面访问量、最后页面访问时间等信息。从前述三个预处理获得的表中抽取出与用户行为特征密切相关的特征，便于下一步计算。

本发明主要抽取两个最基本的特征：(1)点击(Hits)：截取不同跨度子路径在会话中出现的次数；(2)访问时间(View times)：截取会话中不同跨度子路径的访问时间。

步骤4、特征聚类计算：

N-hop表示路径跨度为N；

表示两个会话P、Q在跨度为u的子路径集u-level上的相似性；

对于任意u-hop的子路径(u＝0,1,...,N)，用特征值矩阵H_Hits和H_VT描述其特征，矩阵集由不同跨度子路径的特征矩阵组成。设会话中包含有L个不同的页面，分别是p₁到p_L，则在u-level的特征值矩阵分别为：

每个项是跨度为u的有向子路径。

即相应路径的浏览时间；则：

会话P、Q之间的相似性计算就分解为不同跨度的子路径之间的相似性的计算，将其展开为向量，转化为通过计算向量之间的欧几里得距离比较其相似性，距离越小，则越相似，如下：

根据数据子集相似性，采用挖掘算法对会话数据集合分类。

所述挖掘算法【1】为：

输入：一组会话S；

输出：一组聚集C＝{C₁,C₂,…},C_i∈S；

具体过程为：

(1)C初值为空；

(2)对S中每个会话s；

寻找聚集c，使s和c的质心距离d(s,c)(相似性)最短，记为d_min；

如果d_min小于距离阈值Distance，则将s加入c；

否则，将{s}加入C。

距离阈值Distance通常根据一段时间内的数据分析结果进行选取。

通过用户会话的聚集，可以刻画出用户的行为特征，便于下一步根据其特征为其推荐用户最感兴趣的学术资源(如专著、论文、专家等)。

(二)基于项集相似性计算的协同过滤个性化推荐，具体步骤如下：

步骤1、数据准备与表达：

将输入数据表述为一个m×n的用户-项评估矩阵R，m是用户数，n是项数，r_ij是第i个用户对第j项的评估数值，评估值与项的内容有关，对于本发明针对的新学术平台，项是平台大数据中的图书、论文、专家学者等内容，评估值用数值如1～5等表示感兴趣的级别。

步骤2、计算推荐数据集：

采用推荐算法【2】计算推荐数据集；

所述推荐算法，具体流程为：

输入：用户U、与之对应的已选项集I_u、推荐用户-项评估矩阵R；

对于匿名用户，I_u可以为前述算法获得的一组聚集C；

输出：与I_u最相似的top-N推荐集。

具体过程为：

(1)去掉矩阵R中的稀疏值后规范化，将每行规范化为相同长度，得到矩阵R′；

(2)对矩阵R′进行单值分解，计算相应简化的用户矩阵和项矩阵；

(3)分析用户矩阵，采用向量空间计算方法得到邻居集P；

(4)以邻居集P中的用户为基础，得到矩阵R的大小为m′×n′的子集R_t,m′是邻居集P中的用户数，n′是邻居集P中的项数；

(5)对I_u，在R_t中用条件概率方法计算它的最相似集C′_t，C′_t＝C_t-I_u，C_t是I_u中每个项的相似项(k个)的总和；

(6)将C′中任意项C按sim(C,I_u)排列，最前的N个项作为top-N推荐集。

与现有技术相比，本发明的效益在于：针对实际平台采用行之有效的措施挖掘匿名用户行为特征，对平台用户全方位画像，采用维数简化和项集相似性计算两个过程，提高了精确度的同时减少了计算耗费，解决应用协同过滤技术的推荐***所存在的稀疏性和扩展性问题，从而实现高效推荐。

附图说明

图1为本发明的流程简图。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细描述。

在以本发明技术方案为前提下进行使用，以便相关领域的技术人员能更好地理解本发明的技术特点和功能特点，但本发明的保护范围不限于下述使用案例。

在本使用案例中，编程语言采用JavaScript、PHP、Java语言编写；新学术平台全部是自主开发的包含多个应用***的服务于学术研究的平台，在此平台实现匿名用户行为挖掘与学术资源推荐，具体过程如下：

S1、将一段JavaScript代码ce.js植入新学术平台，完整捕获平台用户行为数据；

S2、对S1获取的数据进行过滤与特征抽取(采用发明(一)中的步骤2和步骤3所述方法)；

S3、采用前述(一)步骤4中的挖掘算法，计算出用户行为特征向量(空间)C，作为下面S4中的已选项集I_u；

S4、按前述(二)中的步骤1准备好数据(新学术平台所有学术资源的向量空间构建)与表达；

S5、按前述(二)中的步骤2提供的推荐算法，计算出推荐数据集。

参考文献

1.名用户的网络浏览特征挖掘.赵亮,张守志,范晓锋.《计算机研究与发展》第39卷第12期,2002年12月.

2.个性化推荐算法设计.赵亮,胡乃静,张守志.《计算机研究与发展》第39卷第8期,2002年12月.。

Claims

1.一种适应于新学术平台的匿名用户行为挖掘与资源推荐方法，其特征在于，包括两个主步骤：(一)适应于新学术平台的匿名用户行为挖掘，以便全面刻画平台用户画像，便于后续为其推荐有用平台资源；(二)基于项集相似性计算的协同过滤个性化推荐，实现精准学术推荐，帮助各类用户从平台获得最大收益；具体步骤为：

(一)适应于新学术平台的匿名用户行为挖掘，具体步骤为：

步骤1、获取匿名用户在新学术平台的浏览行为数据：

新学术平台具有程序ce.js文件，使得平台具备获取访客行为数据的能力，用户访问新学术平台时，ce.js文件将抓取访客行为信息、访客的运行环境信息，通过Ajax发送给平台的ce.php处理，ce.php将ce.js发过来的信息处理之后，分配保存到数据库相应的数据表中，便于下一步分析预处理；

步骤2、用户行为数据预处理：

获取的用户行为数据经分别处理后存储到相关的下述3个表中：log_visit,log_action,log_link_visit_action；ce.js记录用户、页面浏览、数据转化信息，部分跟踪数据包括屏幕分辨率、操作***，来源于浏览器端Javascript直接获取；有些数据包括IP地址、user agent，来源于服务器PHP解析；每个独立访客都在cookie中分配一个独立的id；每一次访问都在log_visit表中创建一行数据；

步骤3抽取用户行为数据特征：

会话是一个用户在一个特定的时间间隔内的路径，路径是用户按时间顺序访问的URL序列，相同的URL可以在一条路径中多次出现；会话的特征分为时间和空间两个方面，时间特征包括每页的浏览时间、一段有向路径的浏览时间；空间特征包括页面的浏览顺序、链接的点击；如果一个访客两次访问相隔时间超过30分钟，这个访客在log_visit表中***两条会话数据；每浏览一个页面、log_visit表都被更新，因为它要储存这个访客的页面访问量、最后页面访问时间信息；从步骤2中所述三个预处理获得的表中抽取出与用户行为特征密切相关的特征，便于下一步计算；

抽取的特征主要为两个：(1)点击：截取不同跨度子路径在会话中出现的次数；(2)访问时间：截取会话中不同跨度子路径的访问时间；

步骤4、特征聚类计算：

设N-hop表示路径跨度为N；