CN113157752B - 一种基于用户画像和情境的科技资源推荐方法及*** - Google Patents

一种基于用户画像和情境的科技资源推荐方法及*** Download PDF

Info

Publication number
CN113157752B
CN113157752B CN202110271266.XA CN202110271266A CN113157752B CN 113157752 B CN113157752 B CN 113157752B CN 202110271266 A CN202110271266 A CN 202110271266A CN 113157752 B CN113157752 B CN 113157752B
Authority
CN
China
Prior art keywords
user
scientific
technological
preference
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110271266.XA
Other languages
English (en)
Other versions
CN113157752A (zh
Inventor
宋文燕
汤宇琦
李姗姗
周才博
郑嘉宁
张辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110271266.XA priority Critical patent/CN113157752B/zh
Publication of CN113157752A publication Critical patent/CN113157752A/zh
Application granted granted Critical
Publication of CN113157752B publication Critical patent/CN113157752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户画像和情境的科技资源推荐方法及***。该方法包括:采集科技资源数据,进行清洗并导入信息数据库;将导入到信息数据库中的科技资源数据进行整合及数据规范;基于用户对科技资源的购买偏好和情境化评分,生成推荐列表;将科技资源推荐列表进行可视化处理后,呈现给用户。本发明实现充分挖掘用户行为数据背后隐藏的用户偏好,解决用户整体购买偏好和情景化评分预测的问题。并且,通过用户对科技资源的购买偏好和情境化评分这两种推荐依据的加权综合,解决了科技资源推荐***中数据稀疏性和冷启动问题,提高了科技资源推荐***的性能,增加了科技资源推荐的精准性和客观性。

Description

一种基于用户画像和情境的科技资源推荐方法及***
技术领域
本发明涉及一种基于用户画像和情境的科技资源推荐方法,同时也涉及相应的科技资源推荐***,属于科技资源数据处理技术领域。
背景技术
科技资源是指从事科技活动的人力、物力、财力以及组织、管理、信息等软硬件要素的资源集合,包括仪器设备与研究实验基地、科技人才、科技文献、科学数据、科技成果、企业资源等。
在知识时代,科技资源在国民经济发展中愈发重要,在科技活动中的共享和利用程度也得到相关部门和企业的高度重视,资源的多维大数据特征得以突显。为改善科技创新环境,为广大科技工作者和科技活动提供强有力的基础条件支撑,需要研究一种科技资源推荐方法,适用于科技服务平台和科技资源推荐***,为科技资源使用者提供便利,并有效提高科技资源的利用率。
专利申请公布号为CN111813918A的发明专利公开了一种科技资源推荐处理方法及装置,其中方法包括:获取科技信息资源并建立科技资源库;基于科技资源库中的科技信息资源构建技术图谱并动态更新;基于用户输入的兴趣类型建立用户的兴趣模型,并根据用户的浏览记录更新用户的兴趣模型;基于兴趣模型在向用户推送包括科技信息资源在内的推荐信息。该方法的缺点是:1、仅考虑到了用户的相关信息及特征而并没有考虑情境带来的用户需求倾向的改变;2、其利用的技术图谱更像是一种主观经验数据,对科技资源的推荐往往会有主观影响,客观性不足。
发明内容
本发明所要解决的首要技术问题在于提供一种基于用户画像和情境的科技资源推荐方法。
本发明所要解决的另一技术问题在于提供一种基于用户画像和情境的科技资源推荐***。
为了实现上述目的,本发明采用下述技术方案:
根据本发明实施例的第一方面,提供一种基于用户画像和情境的科技资源推荐方法,包括如下步骤:
采集科技资源数据,进行清洗并导入信息数据库;
将导入到信息数据库中的科技资源数据进行整合及数据规范;
基于用户对科技资源的购买偏好和情境化评分,生成推荐列表;
将科技资源推荐列表进行可视化处理后,呈现给用户。
其中较优地,生成所述推荐列表包括如下步骤:
基于用户画像预测用户对科技资源的购买偏好;
基于资源评分预测用户对科技资源的情境化评分;
对预测的所述用户对科技资源的购买偏好和情境化评分进行加权计算,得到目标用户在当前情境下对科技资源的综合评分,根据得分高低选取前K项科技资源生成推荐列表。
其中较优地,预测所述用户对所述科技资源的购买偏好包括如下步骤:
构建用户画像;
基于所述用户画像建立至少一个用户对科技资源购买偏好的预测模型;
将所述用户画像的用户标签权重输入到所述用户购买偏好预测模型中,得到用户对科技资源各个属性值的购买偏好权重,并对该购买偏好权重进行加权计算,得到用户对科技资源的购买偏好。
其中较优地,构建用户画像时,包括如下步骤:
设置用户画像标签;
计算用户标签权重。
其中较优地,使用TF-IDF方法计算所述用户标签权重,具体包括如下步骤:
将标签在用户身上出现的次数除以在该用户身上所有标签出现的总次数,得到用户标签的TF值;
将总用户数除以包含所述标签的用户数与1相加的和,其结果再取对数,得到用户标签的IDF值;
将所述用户标签的TF值与IDF值相乘,得到所述标签在所述用户身上的权重。
其中较优地,标签
Figure BDA0002974520340000031
在用户U身上出现的次数
Figure BDA0002974520340000032
根据如下公式得到;
Figure BDA0002974520340000033
上式中,标签
Figure BDA0002974520340000034
表示动态标签的第i个偏好维度下的第j个标签,权重w浏览和w收藏分别表示浏览行为和收藏行为对标签
Figure BDA0002974520340000035
出现次数的影响程度;集合T浏览和T收藏中分别包括用户U对标签
Figure BDA0002974520340000036
在历史记录中产生浏览行为和收藏行为的所有时刻;
Figure BDA0002974520340000037
Figure BDA0002974520340000038
分别表示在历史时刻tf下发生的浏览行为和收藏行为中,不考虑偏好随时间变化,单纯按照出现次数统计出的标签
Figure BDA0002974520340000039
在用户U身上出现的次数;
Figure BDA00029745203400000310
Figure BDA00029745203400000311
分别表示在历史时刻tf下对标签
Figure BDA00029745203400000312
产生浏览和收藏行为后,该标签
Figure BDA00029745203400000313
基于相应的浏览和收藏时间的偏好衰减系数,根据如下公式得到;
Figure BDA00029745203400000314
上式中,tl表示最新的动态标签的浏览或收藏时刻,λ表示衰减参数,λ>0,λ越大,表示历史数据所能体现的偏好程度随时间下降得越快。
其中较优地,每个所述用户购买偏好预测模型通过如下步骤得到:
获取用于训练用户购买偏好预测模型的训练集数据,包括用户的静态标签、动态标签和购买偏好;
采用所述训练集数据对已建立的BP神经网络进行训练,得到所述用户购买偏好预测模型。
其中较优地,预测所述用户对所述科技资源的情境化评分,包括如下步骤:
构建用户-资源-情景评分矩阵;
从所述用户-资源-情景评分矩阵中筛选出符合当前情境的用户-资源评分矩阵,并基于该评分矩阵计算目标用户当前情境下的近邻用户集合;
基于所述目标用户当前情境下的近邻用户集合,预测所述用户对所述科技资源的情境化评分。
其中较优地,基于所述目标用户当前情境下的近邻用户集合,预测用户对科技资源的情境化评分,包括如下步骤;
计算对于近邻用户来讲与目标用户当前情境高度相似的近邻情境;
基于与目标用户当前情境高度相似的近邻情境,预测目标用户在当前情境下对科技资源的情境化评分。
其中较优地,根据如下公式计算对于用户U'来讲,两种不同情境的相似度;
Figure BDA0002974520340000041
上式中,c_simU'(C,C')表示情境C和C'关于用户U'的相似度,SC,C'表示近邻用户U'在两种情境下的共同评分资源集合,rU',I,C和rU',I,C'分别表示近邻用户U'在情境C和情境C'下对科技资源I的评分,
Figure BDA0002974520340000042
Figure BDA0002974520340000043
分别表示用户U'在情境C和情境C'下的平均评分;将计算的多个不同情境对于近邻用户U'来讲与目标用户当前情境C的相似度按照降序排序,选取前K个相似度高的情境作为对于近邻用户U'来讲与情境C高度相似的近邻情境。
其中较优地,目标用户在当前情境下对科技资源的情境化评分根据如下公式得到;
Figure BDA0002974520340000051
上式中,NU和NC分别表示近邻用户集合和近邻情境集合,rU',I',C'表示近邻用户U'在相似情境C'下对资源I'的评分,
Figure BDA0002974520340000052
表示近邻用户U'在相似情境C'下的平均评分,c_simU'(C,C')表示情境C和C'关于用户U'的相似度,u_simC(U,U')表示用户U和U'在情境C下的相似度。
根据本发明实施例的第二方面,提供一种基于用户画像和情境的科技资源推荐***,包括依次连接的信息采集服务器、数据整合存储服务器、核心数据处理服务器和终端服务器;
所述信息采集服务器,用于采集科技资源数据,进行清洗并导入信息数据库;
所述数据整合存储服务器,用于将导入到信息数据库中的科技资源数据进行整合及数据规范;
所述核心数据处理服务器,用于基于用户对科技资源的购买偏好和情境化评分,生成推荐列表;
所述终端服务器,用于将科技资源推荐列表进行可视化处理后,呈现给用户。
本发明所提供的基于用户画像和情境的科技资源推荐方法及***将基于用户画像预测的用户对科技资源的购买偏好和基于资源评分预测的用户对科技资源的情境化评分作为科技资源的两种推荐依据,实现充分挖掘用户行为数据背后隐藏的用户偏好,解决用户整体购买偏好和情景化评分预测的问题。并且,通过两种推荐依据的加权综合,解决了推荐***中数据稀疏性和冷启动问题,提高了推荐***的性能,增加了科技资源推荐的精准性和客观性。
附图说明
图1为科技服务平台业务层的单元业务活动的示意图;
图2为本发明实施例提供的基于用户画像和情境的科技资源推荐方法的流程图;
图3为本发明实施例提供的基于用户画像和情境的科技资源推荐***的结构框图;
图4为本发明实施例提供的基于用户画像和情境的科技资源推荐方法中,用户对科技资源属性值购买偏好预测的神经网络示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术内容做进一步的详细说明。
为了使本领域的技术人员更好的了解本发明,下面对本发明所涉及的部分技术术语解释如下:
科技服务平台:科技服务平台类似于常见的电商平台,不同的是电商平台展示的是商品的分类、分类下包含各种各样广义上的可交换商品;而科技服务平台展示的是科技服务活动的分类、分类下包含的是科技资源。如图1所示,一个地方政府型的科技服务平台中可能包含教育培训、保险服务、金融服务等业务活动,各个业务活动下包含相应的专业的科技资源。在一次完整的服务活动中,客户可能选择了多项业务活动,例如一家中小企业在创业阶段时,可能需要教育培训、保险服务、金融服务等配套的科技服务活动。在本发明中,这类业务活动被定义为“单元业务活动”。单元业务活动是最基础的、不可再分的业务活动,不同单元业务活动的组合可以实现不同的完整的服务活动。
偏好衰减系数:在日常购物行为中,用户的最新浏览、收藏记录往往可以比较准确地反映用户最新的购物偏好,而过去了的甚至很早以前的记录则不太能准确描述用户的偏好,或者说对用户偏好的描述程度较弱,因此假设用户的偏好是随着时间而衰减的。
针对科技资源数据量大、种类繁多等特点,如图2所示,本发明实施例提供基于用户画像和情境的科技资源推荐方法,以实现科技资源情境化精准推荐。该方法包括如下步骤:
步骤S1、采集科技资源数据,进行清洗并导入信息数据库。
如图3所示,采用基于python语言的网络爬虫爬取互联网外部科技资源浏览数据、收藏数据、购买数据等科技资源数据。
如图3所示,将爬取的科技资源数据中数据质量过低或数据完整度过低的数据进行清洗,并将清洗后的数据导入信息数据库暂存。通过爬取互联网外部科技资源数据,解决了科技资源数据量匮乏、数据单一的问题,增加了对科技资源分析的客观性和实用性。
步骤S2、将导入到信息数据库中的科技资源数据进行整合及数据规范。
如图3所示,将导入到信息数据库中的经过清洗的科技资源数据按照标签类型(浏览、收藏、购买)规范存储,并建立索引及缓存机制,方便科技资源数据的导出及调用。通过采用分区存储,建立索引和缓存机制,增强了科技资源数据的适用性以及调用性,解决了科技资源数据的繁杂,不适用于***的问题。
步骤S3、基于用户对科技资源的购买偏好和情境化评分,生成推荐列表。
如图3所示,该步骤包括如下步骤:
步骤S31、基于用户画像预测用户对科技资源的购买偏好。
如图3所示,该步骤包括如下步骤:
步骤S311、构建用户画像。
构建用户画像时,包括如下步骤:
步骤S3111、设置用户画像标签。
用户画像标签可分为静态标签和动态标签两种标签类型。如表1所示,静态标签可用人口统计特征来定义,例如性别、年龄、所在城市、职业等维度;动态标签可以表示用户行为习惯或偏好,可以用价格偏好、外观偏好、型号偏好等维度来衡量。
表1用户画像标签数据框架表
Figure BDA0002974520340000071
在科技服务平台设置用户画像标签类型及维度,这些数据将存储在数据存储服务器上。同时,数据存储服务器上也保存着用户在科技服务平台上的操作记录,例如对单元业务活动的点击查看记录、对科技资源的使用或者购买记录。在设置用户画像标签时,按照表1所示的标签数据框架来规范设置用户画像标签的各项属性。
步骤S3112、计算用户标签权重。
用户标签权重可以表示各个标签在某个具体用户身上体现出的重要程度,即用户对某标签的偏好程度。因此,用户标签权重一般是指动态标签权重。
在计算用户标签权重之前,作为计算基础,首先需要得到各动态标签在用户身上出现的次数,计算方式如公式(1)所示,该公式在计算动态标签出现在用户身上的总次数时,考虑了历史行为随时间产生的偏好衰减效应。
Figure BDA0002974520340000081
上式中,
Figure BDA0002974520340000082
表示动态标签的第i个偏好维度下的第j个标签
Figure BDA0002974520340000083
在用户U身上出现的总次数;权重w浏览和w收藏分别表示浏览行为和收藏行为对动态标签出现次数的影响程度;集合T浏览和T收藏中分别包括用户U对动态标签的第i个偏好维度下的第j个标签
Figure BDA0002974520340000084
在历史记录中产生浏览行为和收藏行为的所有时刻;
Figure BDA0002974520340000085
Figure BDA0002974520340000086
分别表示在历史时刻tf下发生的浏览行为和收藏行为中,不考虑偏好随时间变化,单纯按照出现次数统计出的动态标签的第i个偏好维度下的第j个标签
Figure BDA0002974520340000087
在用户U身上出现的次数。
Figure BDA0002974520340000088
Figure BDA0002974520340000089
分别表示在历史时刻tf下对某动态标签的第i个偏好维度下的第j个标签
Figure BDA00029745203400000810
产生浏览和收藏行为后,该标签
Figure BDA00029745203400000811
基于相应的浏览和收藏时间的偏好衰减系数。例如,任意时刻,用户U浏览了一次资源A,资源A在“使用价格”和“地域”上的取值分别是“700元”和“海淀区”,则对应于表1,资源A的属性所对应的标签,即价格偏好的P2标签和地域偏好的G1标签的次数都加一。收藏行为导致标签出现次数变化的统计方法同理。偏好衰减系数
Figure BDA0002974520340000091
Figure BDA0002974520340000092
的加入,按照时间变化调节了标签
Figure BDA0002974520340000093
在用户U身上出现的次数,合理地刻画出了用户偏好随时间变化的特点。
在本发明中,设置偏好衰减系数用于更加精确的计算用户标签权重。偏好衰减系数的计算方式如下:
假设用户U最近的科技资源浏览或收藏时刻为tl,则最新的动态标签的浏览或收藏时刻也为tl。若用户U在历史的tf时刻对某动态标签的第i个偏好维度下的第j个标签
Figure BDA0002974520340000094
(简称标签
Figure BDA0002974520340000095
)产生了浏览或收藏行为,则用户画像构建时标签
Figure BDA0002974520340000096
基于浏览或收藏时间的偏好衰减系数
Figure BDA0002974520340000097
Figure BDA0002974520340000098
按照下述公式(2)计算:
Figure BDA0002974520340000099
其中,λ表示衰减参数,一般可以设置为0.02,λ>0,λ越大,表示历史数据所能体现的偏好程度随时间下降得越快。时间t的单位为天。根据公式(2)计算用户偏好衰减系数(
Figure BDA00029745203400000910
Figure BDA00029745203400000911
)并存储在数据存储服务器中。
通过公式(1)计算,得到了在用户画像构建时,动态标签在用户身上出现的次数。下面使用TF-IDF((Term Frequency-Inverse Document Frequency,词频-逆文件频率)方法计算用户标签权重,具体计算过程如下。
首先,计算用户标签的TF值,即某标签
Figure BDA00029745203400000912
对某用户的重要程度。用“某标签
Figure BDA00029745203400000913
在某用户U身上出现的次数”除以“在该用户身上所有标签出现的总次数”,计算公式如(3)所示。
Figure BDA0002974520340000101
上式中,
Figure BDA0002974520340000102
表示用户U身上所有标签
Figure BDA0002974520340000103
出现的总次数。
然后,计算用户标签的IDF值,即某标签
Figure BDA0002974520340000104
在用户之间的区分能力。用“总用户数”除以“包含某标签
Figure BDA0002974520340000105
的用户数+1”,其结果再取对数,计算公式如(4)所示。
Figure BDA0002974520340000106
最后,将计算的用户标签的TF值与IDF值相乘得到某标签
Figure BDA0002974520340000107
在该用户U身上的权重,计算公式如(5)所示。
Figure BDA0002974520340000108
上式中,
Figure BDA0002974520340000109
表示标签
Figure BDA00029745203400001010
在用户U身上体现出的重要程度,即所求的用户标签权重,并将所求得的用户标签权重存储在数据存储服务器中。
步骤S312、基于用户画像建立至少一个用户购买偏好预测模型。
一个用户购买偏好预测模型用于预测科技资源一个属性维度下的属性值购买偏好,如果需要预测多个维度的属性值的购买偏好,需要训练多个用户购买偏好预测模型。每个用户购买偏好预测模型通过如下步骤得到:
步骤S3121、获取用于训练用户购买偏好预测模型的训练集数据。
在使用训练集数据训练用户购买偏好预测模型时,采用产生过浏览或者收藏记录,以及购买记录的用户数据。该用户数据可以为在科技服务平台数据库中直接调用的用户浏览、收藏及购买记录的数据。并且,还可以利用科技服务平台数据库中存储的用户注册信息确定用户画像的静态标签,利用浏览或者收藏数据可以计算出用户画像的动态标签的权重,利用购买记录可以得到用户对科技资源属性值的购买偏好。每位用户的静态标签、动态标签、购买偏好三类信息构成用户购买偏好预测模型的训练集数据,训练集数据的记录形式如表2所示,并按照表2格式将数据存储在数据存储服务器中。
表2训练集数据记录形式
Figure BDA0002974520340000111
用户画像部分的构建过程已经在之前进行了阐述,现在需要明确的是购买偏好的数据是如何产生的。用户的购买偏好实际上是指,用户通过购买行为在科技资源的各个属性值上产生的偏好信息。下面采用公式(6)来说明科技资源属性值购买偏好的计算方式。
Figure BDA0002974520340000112
上式中,w(aem,U)表示在用户U的购买记录中,科技资源属性值aem所占的购买偏好权重。
Figure BDA0002974520340000113
表示在用户U的购买记录中,科技资源属性值aem出现的次数。
Figure BDA0002974520340000114
表示在用户U的购买记录中,属性维度ae下所有属性值出现的总次数。购买偏好数据将存储在数据存储服务器中。
步骤S3122、采用训练集数据对已建立的BP神经网络进行训练,得到用户购买偏好预测模型。
如图4所示,用于辨识用户购买偏好预测模型的BP神经网络包括输入层、隐藏层和输出层;所建立的BP神经网络的输出层节点由科技资源某一个属性维度下的所有取值定义,相应的,BP神经网络的输入层节点由用户画像中的静态标签和需要预测的科技资源属性值对应的动态标签定义。例如在预测用户购买价格的神经网络中,输出层节点是各个价格,输入层节点的动态标签就是价格偏好的动态标签;在预测用户购买资源所在地域的神经网络中,输出层节点是各个地域取值,输入层节点的动态标签就只包含地域偏好的动态标签。BP神经网络输入层和输出层的训练数据分别是每位用户的标签权重向量和科技资源属性值购买偏好权重向量。
BP神经网络通过如下公式(7)-(10)建立。
BP神经网络的激活函数采用ReLU函数,函数解析式如公式(7)所示:
ReLU(x)=max(0,x) (7)
上式中,x表示每位用户的标签权重向量。
BP神经网络的隐藏层的输出hv可以用公式(8)表示:
hv=ReLU(Wvhv-1+bv) (8)
上式中,Wv和bv分别表示隐藏层的权重矩阵和置偏向量。如果v=1,则hl表示输入层。
同理,预测输出层的用户的科技资源属性值购买偏好权重yU可使用公式(9)-(10)得到。
yU=ReLU(WLhL-1+bL) (9)
Figure BDA0002974520340000121
上式中,L表示隐藏层的数量,
Figure BDA0002974520340000122
表示通过BP神经网络预测出的用户U对于科技资源属性值aem的购买偏好权重向量。
采用训练集数据对已建立的BP神经网络进行训练前,设置该神经网络的参数,包括网络迭代次(如5000次)、期望误差(如0.00000001)、学习速率(如0.01)。设定完神经网络的参数后,采用训练集数据对已建立的BP神经网络进行训练,得到用户购买偏好预测模型。
步骤S313、将用户画像的用户标签权重输入到用户购买偏好预测模型中,得到用户对科技资源各个属性值的购买偏好权重,并对该购买偏好权重进行加权计算,得到用户对科技资源的购买偏好。
基于用户画像建立至少一个预测用户对科技资源各个属性值的购买偏好的用户购买偏好预测模型,在每个用户购买偏好预测模型中输入用户画像的用户标签权重即可预测用户对于科技资源各个属性值的购买偏好权重。通过加权计算,可以得到用户对科技资源的购买偏好,如公式(11)所示。
Figure BDA0002974520340000123
其中,PU,I表示用户U对科技资源I的购买偏好,z表示所有的科技资源动态标签维度的集合(例如科技资源种类偏好、地域偏好等等);
Figure BDA0002974520340000131
表示科技资源属性维度ae的权重,aem∈I表示科技资源I具有的属性值,
Figure BDA0002974520340000132
表示通过用户购买偏好预测模型预测出的用户U对于科技资源属性值aem的购买偏好权重向量。
由步骤S311-313可知,通过分析用户的多种操作行为(比如用户的浏览、收藏、购买和评分等行为数据来构建用户画像)并通过建立用户对科技资源购买偏好的预测模型详细预测用户对科技资源每个属性维度下的具体属性值的购买偏好权重,最后对属性值的购买偏好权重进行加权求和得到用户对每项科技资源整体的购买偏好,从而作为科技资源推荐依据之一,充分的挖掘用户行为数据背后隐藏的用户偏好,解决用户整体购买偏好预测的问题。
步骤S32、基于资源评分预测用户对科技资源的情境化评分。
该步骤包括如下步骤:
步骤S321、构建用户-资源-情景评分矩阵。
不同于传统的二维评分矩阵,该方法中涉及的评分矩阵是加入了情境维度的用户-资源-情境三维评分矩阵,如表3所示。rg,t,k表示用户Ug在情境Ck下对科技资源It的评分,其中,g=1,2,…,M;t=1,2,…,Q;k=1,2,…,G。评分rg,t,k取1到5的整数值。当用户-资源-情境三维评分矩阵中出现缺失值时,利用同一情境下该资源的所有其他用户的平均打分进行补全。
表3用户-资源-情境评分矩阵
Figure BDA0002974520340000133
在本发明中,情境Ck是指由一组情境实例构成的集合。如表4所示,Cf表示某个情境属性,例如时间、地点等;cfq表示情境属性Cf下的第q个情境实例。通过各情境属性下不同情境实例的组合可表示不同的情境,例如C1=(早上,家)、C2=(上午,办公室)和C3=(晚上,家)表示3个不同的情境。
表4情境描述示例表
情境属性C<sub>f</sub> 情境实例c<sub>fq</sub>
时间 早上,中午,下午,晚上,凌晨
地点 家,办公室,商场
…… ……
步骤S322、从用户-资源-情景评分矩阵中筛选出符合当前情境的用户-资源评分矩阵,并基于该评分矩阵计算目标用户当前情境下的近邻用户集合。
识别目标用户的当前情境C,从补全的用户-资源-情境评分矩阵中筛选出符合当前情境的用户-资源评分矩阵,如表5所示。
表5情境C下的用户-资源评分矩阵
I<sub>1</sub> I<sub>2</sub> I<sub>3</sub> …… I<sub>Q</sub>
U<sub>1</sub>
U<sub>2</sub>
……
U<sub>M</sub>
基于该评分矩阵,根据公式(12)可以计算目标用户当前情境下的近邻用户集合。
Figure BDA0002974520340000141
其中,u_simC(U,U')表示用户U和U'在情境C下的相似度,SU,U'表示两位用户的共同评分资源集合,rU,I,C和rU',I,C分别表示用户U和U'在情境C下对资源I的评分,
Figure BDA0002974520340000142
Figure BDA0002974520340000143
分别表示用户U和U'在情境C下的平均评分。I∈EI表示全部科技资源集合EI中任意的科技资源I,把计算的多个用户与用户U之间在情境C下的相似度按照降序排序,选取前K个相似度高的用户作为用户U的近邻用户。
步骤S323、基于目标用户当前情境下的近邻用户集合,预测用户对科技资源的情境化评分。
该步骤包括如下步骤:
步骤S3231、计算对于近邻用户来讲与目标用户当前情境高度相似的近邻情境。
根据公式(13)可以计算对于用户U'来讲,两种不同情境的相似度。
Figure BDA0002974520340000151
其中,c_simU'(C,C')表示情境C和C'关于用户U'的相似度,SC,C'表示近邻用户U'在两种情境下的共同评分资源集合,rU',I,C和rU',I,C'分别表示近邻用户U'在情境C和情境C'下对科技资源I的评分,
Figure BDA0002974520340000152
Figure BDA0002974520340000153
分别表示用户U'在情境C和情境C'下的平均评分。把计算的多个不同情境对于近邻用户U'来讲与目标用户当前情境C的相似度按照降序排序,选取前K个相似度高的情境作为对于近邻用户U'来讲与情境C高度相似的近邻情境。
步骤S3232、基于与目标用户当前情境高度相似的近邻情境,预测目标用户在当前情境下对科技资源的情境化评分。
采用基于用户的情境化协同过滤推荐,在预测用户评分时加入了情境相似度的影响,如公式(14)所示。
Figure BDA0002974520340000154
上式中,rU,I',C表示目标用户U在情境C下对科技资源I'的情境化评分,NU和NC分别表示近邻用户集合和近邻情境集合,rU',I',C'表示近邻用户U'在相似情境C'下对资源I'的评分,
Figure BDA0002974520340000161
表示近邻用户U'在相似情境C'下的平均评分,c_simU'(C,C')表示情境C和C'关于用户U'的相似度,u_simC(U,U')表示用户U和U'在情境C下的相似度。
步骤S33、对预测的用户对科技资源的购买偏好和情境化评分进行加权计算,得到目标用户在当前情境下对科技资源的综合评分,根据得分高低选取前K项科技资源生成推荐列表。
根据公式(5),对预测的用户对科技资源的购买偏好和情境化评分进行加权计算,得到目标用户在当前情境下对科技资源的综合评分。
RU,I',C=wY×PU,I'+wX×rU,I',C (15)
其中,RU,I',C表示目标用户U在当前情境C下对科技资源I'的综合评分,wY和wX分别表示基于用户画像预测出的用户对科技资源的整体购买偏好PU,I'和基于资源评分预测出的情境化评分rU,I',C的权重(可根据实际情况进行调整)。其中,PU,I'和rU,I',C分别可以根据公式(11)和公式(14)计算得到。
步骤S4、将科技资源推荐列表进行可视化处理后,呈现给用户。
如图3所示,将科技资源推荐列表经由用户终端进行可视化处理后,呈现给用户,实现针对用户的科技资源精准推荐。通过采用用户终端可视化科技资源推荐结果,解决了科技资源过于抽象令人难以理解的问题,使得科技资源应用者更加直观的了解到自己需求所对应的科技资源。
此外,如图3所示,本发明实施例还提供一种基于用户画像和情境的科技资源推荐***,包括信息采集服务器1、数据整合存储服务器2、核心数据处理服务器3和终端服务器4,信息采集服务器1连接数据整合存储服务器2,数据整合存储服务器2连接核心数据处理服务器3,核心数据处理服务器3连接终端服务器4。
信息采集服务器1,用于采集科技资源数据,进行清洗并导入信息数据库。
数据整合存储服务器2,用于将导入到信息数据库中的科技资源数据进行整合及数据规范。
核心数据处理服务器3,用于基于用户对科技资源的购买偏好和情境化评分,生成推荐列表。
终端服务器4,用于将科技资源推荐列表进行可视化处理后,呈现给用户。
该基于用户画像和情境的科技资源推荐***的具体实现方式可以参见上述图2对应的方法实施例,此处不再赘述。
另外,本发明实施例还提供一种电子设备,包括处理器,所述处理器与存储器耦合,用于执行所述存储器中的程序或指令,以使所述电子设备实现如上述图2所述的方法。
另外,本发明实施例还提供一种计算机可读存储介质,所述可读存储介质上存储有指令,当其在计算机上运行时,使得所述计算机执行如上述图2所述的方法。
另外,本发明实施例还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行如上述图2所述的方法。
本发明所提供的基于用户画像和情境的科技资源推荐方法及***将基于用户画像预测的用户对科技资源的购买偏好和基于资源评分预测的用户对科技资源的情境化评分作为科技资源的两种推荐依据,实现充分挖掘用户行为数据背后隐藏的用户偏好,解决用户整体购买偏好和情景化评分预测的问题。并且,通过两种推荐依据的加权综合,解决了推荐***中数据稀疏性和冷启动问题,提高了推荐***的性能,增加了科技资源推荐的精准性和客观性。
以上对本发明所提供的基于用户画像和情境的科技资源推荐方法及***进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质内容的前提下对它所做的任何显而易见的改动,都将属于本发明专利权的保护范围。

Claims (8)

1.一种基于用户画像和情境的科技资源推荐方法,其特征在于包括如下步骤:
采集科技资源数据,进行清洗并导入信息数据库;
将导入到信息数据库中的科技资源数据进行整合及数据规范;
基于用户对科技资源的购买偏好和情境化评分,生成推荐列表;其中,生成所述推荐列表包括如下步骤:构建用户画像;基于所述用户画像建立至少一个用户对科技资源购买偏好的预测模型;将所述用户画像的用户标签权重输入到所述用户购买偏好预测模型中,得到用户对科技资源各个属性值的购买偏好权重,并对该购买偏好权重进行加权计算,得到用户对科技资源的购买偏好;构建用户-资源-情境评分矩阵;从所述用户-资源-情境评分矩阵中筛选出符合当前情境的用户-资源评分矩阵,并基于所述用户-资源评分矩阵计算目标用户当前情境下的近邻用户集合;计算对于近邻用户来讲与目标用户当前情境高度相似的近邻情境;基于与目标用户当前情境高度相似的近邻情境,预测目标用户在当前情境下对科技资源的情境化评分;对预测的所述用户对科技资源的购买偏好和情境化评分进行加权计算,得到目标用户在当前情境下对科技资源的综合评分,根据得分高低生成所述推荐列表;
将科技资源的所述推荐列表进行可视化处理后,呈现给用户。
2.如权利要求1所述的基于用户画像和情境的科技资源推荐方法,其特征在于构建用户画像时,包括如下步骤:
设置用户画像标签;
计算用户标签权重。
3.如权利要求1所述的基于用户画像和情境的科技资源推荐方法,其特征在于使用TF-IDF方法计算所述用户标签权重,具体包括如下步骤:
将标签在用户身上出现的次数除以在该用户身上所有标签出现的总次数,得到用户标签的TF值;
将总用户数除以包含所述标签的用户数与1相加的和,其结果再取对数,得到用户标签的IDF值;
将所述用户标签的TF值与IDF值相乘,得到所述标签在所述用户身上的权重。
4.如权利要求3所述的基于用户画像和情境的科技资源推荐方法,其特征在于:
标签
Figure 59110DEST_PATH_IMAGE001
在用户
Figure 553546DEST_PATH_IMAGE002
身上出现的次数
Figure 816379DEST_PATH_IMAGE003
,根据如下公式得到;
Figure 206910DEST_PATH_IMAGE005
上式中,标签
Figure 973002DEST_PATH_IMAGE001
表示动态标签的第i个偏好维度下的第j个标签,权重
Figure 802287DEST_PATH_IMAGE006
Figure 829280DEST_PATH_IMAGE007
分 别表示浏览行为和收藏行为对标签
Figure 751231DEST_PATH_IMAGE001
出现次数的影响程度;集合
Figure 4620DEST_PATH_IMAGE008
Figure 637595DEST_PATH_IMAGE009
中分别包括 用户
Figure 660040DEST_PATH_IMAGE002
对标签
Figure 923531DEST_PATH_IMAGE001
在历史记录中产生浏览行为和收藏行为的所有时刻;
Figure 133058DEST_PATH_IMAGE010
Figure 710670DEST_PATH_IMAGE011
分别表 示在历史时刻
Figure 790884DEST_PATH_IMAGE012
下发生的浏览行为和收藏行为中,不考虑偏好随时间变化,单纯按照出现 次数统计出的标签
Figure 225276DEST_PATH_IMAGE001
在用户
Figure 379222DEST_PATH_IMAGE002
身上出现的次数;
Figure 26104DEST_PATH_IMAGE013
Figure 459359DEST_PATH_IMAGE014
分别表示在历史时刻
Figure 831697DEST_PATH_IMAGE012
下对标签
Figure 779930DEST_PATH_IMAGE001
产生浏览和收藏行为后,该标签
Figure 325443DEST_PATH_IMAGE001
基于相应的浏览和 收藏时间的偏好衰减系数,根据如下公式得到;
Figure 176987DEST_PATH_IMAGE015
上式中,
Figure 625286DEST_PATH_IMAGE016
表示最新的动态标签的浏览或收藏时刻,
Figure 529657DEST_PATH_IMAGE017
表示衰减参数,
Figure 488648DEST_PATH_IMAGE018
Figure 99758DEST_PATH_IMAGE017
越大,表 示历史数据所能体现的偏好程度随时间下降得越快。
5.如权利要求1所述的基于用户画像和情境的科技资源推荐方法,其特征在于所述用户购买偏好预测模型通过如下步骤得到:
获取用于训练用户购买偏好预测模型的训练集数据,包括用户的静态标签、动态标签和购买偏好;
采用所述训练集数据对已建立的BP神经网络进行训练,得到所述用户购买偏好预测模型。
6.如权利要求1所述的基于用户画像和情境的科技资源推荐方法,其特征在于:
根据如下公式计算对于用户
Figure 250116DEST_PATH_IMAGE019
来讲,两种不同情境的相似度;
Figure DEST_PATH_IMAGE021A
上式中,
Figure 799040DEST_PATH_IMAGE022
表示情境C和
Figure 92881DEST_PATH_IMAGE023
关于用户
Figure 558497DEST_PATH_IMAGE019
的相似度,
Figure 879757DEST_PATH_IMAGE024
表示近邻用户
Figure 696403DEST_PATH_IMAGE019
在 两种情境下的共同评分资源集合,
Figure 997197DEST_PATH_IMAGE025
Figure 317320DEST_PATH_IMAGE026
分别表示近邻用户
Figure 606219DEST_PATH_IMAGE019
在情境C和情境
Figure 157765DEST_PATH_IMAGE023
下对科技资源I的评分,
Figure 760785DEST_PATH_IMAGE027
Figure 200994DEST_PATH_IMAGE028
分别表示用户
Figure 598477DEST_PATH_IMAGE019
在情境C和情境
Figure 687918DEST_PATH_IMAGE023
下的平均评分;将 计算的多个不同情境对于近邻用户
Figure 829049DEST_PATH_IMAGE019
来讲与目标用户当前情境C的相似度按照降序排序, 选取前K个相似度高的情境作为对于近邻用户
Figure 389344DEST_PATH_IMAGE019
来讲与情境C高度相似的近邻情境。
7.如权利要求6所述的基于用户画像和情境的科技资源推荐方法,其特征在于:
目标用户在当前情境下对科技资源的情境化评分根据如下公式得到;
Figure 957728DEST_PATH_IMAGE030
上式中,
Figure 3307DEST_PATH_IMAGE031
Figure 948129DEST_PATH_IMAGE032
分别表示近邻用户集合和近邻情境集合,
Figure 159668DEST_PATH_IMAGE033
表示近邻用户
Figure 197156DEST_PATH_IMAGE019
在 相似情境
Figure 697408DEST_PATH_IMAGE023
下对资源
Figure 180341DEST_PATH_IMAGE034
的评分,
Figure 747851DEST_PATH_IMAGE028
表示近邻用户
Figure 658038DEST_PATH_IMAGE019
在相似情境
Figure 645586DEST_PATH_IMAGE023
下的平均评分,
Figure 932211DEST_PATH_IMAGE022
表示情境C和
Figure 823069DEST_PATH_IMAGE023
关于用户
Figure 904157DEST_PATH_IMAGE019
的相似度,
Figure DEST_PATH_IMAGE035
表示用户U和
Figure 441318DEST_PATH_IMAGE019
在情境C 下的相似度。
8.一种基于用户画像和情境的科技资源推荐***,其特征在于包括依次连接的信息采集服务器、数据整合存储服务器、核心数据处理服务器和终端服务器;
所述信息采集服务器,用于采集科技资源数据,进行清洗并导入信息数据库;
所述数据整合存储服务器,用于将导入到信息数据库中的科技资源数据进行整合及数据规范;
所述核心数据处理服务器,用于基于用户对科技资源的购买偏好和情境化评分,生成推荐列表;其中,生成所述推荐列表包括如下步骤:构建用户画像;基于所述用户画像建立至少一个用户对科技资源购买偏好的预测模型;将所述用户画像的用户标签权重输入到所述用户购买偏好预测模型中,得到用户对科技资源各个属性值的购买偏好权重,并对该购买偏好权重进行加权计算,得到用户对科技资源的购买偏好;构建用户-资源-情境评分矩阵;从所述用户-资源-情境评分矩阵中筛选出符合当前情境的用户-资源评分矩阵,并基于所述用户-资源评分矩阵计算目标用户当前情境下的近邻用户集合;计算对于近邻用户来讲与目标用户当前情境高度相似的近邻情境;基于与目标用户当前情境高度相似的近邻情境,预测目标用户在当前情境下对科技资源的情境化评分;对预测的所述用户对科技资源的购买偏好和情境化评分进行加权计算,得到目标用户在当前情境下对科技资源的综合评分,根据得分高低生成所述推荐列表;
所述终端服务器,用于将科技资源的所述推荐列表进行可视化处理后,呈现给用户。
CN202110271266.XA 2021-03-12 2021-03-12 一种基于用户画像和情境的科技资源推荐方法及*** Active CN113157752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110271266.XA CN113157752B (zh) 2021-03-12 2021-03-12 一种基于用户画像和情境的科技资源推荐方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110271266.XA CN113157752B (zh) 2021-03-12 2021-03-12 一种基于用户画像和情境的科技资源推荐方法及***

Publications (2)

Publication Number Publication Date
CN113157752A CN113157752A (zh) 2021-07-23
CN113157752B true CN113157752B (zh) 2022-10-28

Family

ID=76887044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110271266.XA Active CN113157752B (zh) 2021-03-12 2021-03-12 一种基于用户画像和情境的科技资源推荐方法及***

Country Status (1)

Country Link
CN (1) CN113157752B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626695B (zh) * 2021-08-03 2022-06-10 华中师范大学 一种基于情境测试的中小学校长信息素养画像构建方法及***
CN113806638B (zh) * 2021-09-29 2023-12-08 中国平安人寿保险股份有限公司 基于用户画像的个性化推荐方法及相关设备
CN114693368A (zh) * 2022-04-14 2022-07-01 荃豆数字科技有限公司 一种基于行为数据的客户维护方法、装置及存储介质
CN115146155B (zh) * 2022-06-28 2023-08-25 广东圣火传媒科技股份有限公司 动态用户画像管理***
CN116881574B (zh) * 2023-09-07 2023-11-28 中科数创(北京)数字传媒有限公司 一种基于用户画像的定向科普推送方法及***
CN118246964A (zh) * 2024-05-30 2024-06-25 青岛益生康健科技股份有限公司 用户画像标签的生成方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751448A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 一种基于情景信息的个性化资源信息的推荐方法
CN107944007A (zh) * 2018-02-06 2018-04-20 中山大学 一种结合情境信息的个性化餐厅推荐方法
CN112182416A (zh) * 2020-09-10 2021-01-05 北京市科学技术情报研究所 一种基于用户群体偏好的科技资源动态协同过滤推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2463818A1 (en) * 2010-12-07 2012-06-13 Digital Foodie Oy A method for creating computer generated shopping list

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751448A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 一种基于情景信息的个性化资源信息的推荐方法
CN107944007A (zh) * 2018-02-06 2018-04-20 中山大学 一种结合情境信息的个性化餐厅推荐方法
CN112182416A (zh) * 2020-09-10 2021-01-05 北京市科学技术情报研究所 一种基于用户群体偏好的科技资源动态协同过滤推荐方法

Also Published As

Publication number Publication date
CN113157752A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN113157752B (zh) 一种基于用户画像和情境的科技资源推荐方法及***
Ghose et al. Modeling consumer footprints on search engines: An interplay with social media
Abdullah et al. Developing a causal relationship among factors of e-commerce: A decision making approach
US10129274B2 (en) Identifying significant anomalous segments of a metrics dataset
Cattin et al. Commercial use of conjoint analysis: A survey
Hill et al. Network-based marketing: Identifying likely adopters via consumer networks
US20160189210A1 (en) System and method for appying data modeling to improve predictive outcomes
US20190213194A1 (en) System and method for information recommendation
JP2004538535A (ja) 以前の調査質問事項への回答の分析結果に基づく調査質問事項の自動生成
JP2002279279A (ja) 商品推薦装置、商品推薦方法、及び商品推薦プログラム
US10552996B2 (en) Systems and techniques for determining associations between multiple types of data in large data sets
CN104715003A (zh) 使用数据传播功能输入数据的方法和***
Denguir-Rekik et al. A possibilistic-valued multi-criteria decision-making support for marketing activities in e-commerce: Feedback Based Diagnosis System
Choudhary et al. Evaluation Set Size and Purchase: Evidence from a Product Search Engine☆
Orogun et al. Predicting consumer behaviour in digital market: a machine learning approach
Law A fuzzy multiple criteria decision-making model for evaluating travel websites
CN111429161A (zh) 特征提取方法、特征提取装置、存储介质及电子设备
US8478702B1 (en) Tools and methods for determining semantic relationship indexes
CN116051241A (zh) 一种基于大数据的电商管理平台
Zhang et al. Investigating participants’ attributes for participant estimation in knowledge-intensive crowdsourcing: a fuzzy DEMATEL based approach
Jansen et al. Persona analytics: Analyzing the stability of online segments and content interests over time using non-negative matrix factorization
Collins et al. The influence of varying information load on inferred attribute non-attendance
JP6357435B2 (ja) 選択行動モデル化装置、選択行動予測装置、方法、及びプログラム
MacEachern Measuring the added value of library and information services: the New Zealand approach
Serrano-Cinca et al. A structural model for sales in the e-retailing industry

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant