CN111859165A - 一种基于用户行为的实时个性化信息流推荐方法 - Google Patents

一种基于用户行为的实时个性化信息流推荐方法 Download PDF

Info

Publication number
CN111859165A
CN111859165A CN202010558811.9A CN202010558811A CN111859165A CN 111859165 A CN111859165 A CN 111859165A CN 202010558811 A CN202010558811 A CN 202010558811A CN 111859165 A CN111859165 A CN 111859165A
Authority
CN
China
Prior art keywords
user
content
behavior
behaviors
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010558811.9A
Other languages
English (en)
Inventor
柳凯
陈运文
于敬
刘文海
陈雨
赵圆方
纪达麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datagrand Tech Inc
Original Assignee
Datagrand Tech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datagrand Tech Inc filed Critical Datagrand Tech Inc
Priority to CN202010558811.9A priority Critical patent/CN111859165A/zh
Publication of CN111859165A publication Critical patent/CN111859165A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户行为的实时个性化信息流推荐方法,其特征在于,所述推荐方法包括如下步骤:收集针对内容的用户行为;将所述用户行为分类为正向行为和负向行为;获取与用户点击过的内容相似的内容,并按照相似度进行排序获得初步推荐结果;基于所述正向行为和负向行为对所述初步推荐结果中的内容排序做加权处理获得最终推荐结果。本发明能够提高推荐的效果,改善用户体验。

Description

一种基于用户行为的实时个性化信息流推荐方法
技术领域
本发明属于智能推荐领域,具体涉及一种基于用户行为的实时个性化信 息流推荐方法。
背景技术
随着互联网的发展和智能手机的普及,人们已经从纸质阅读时代步 入了电子化阅读时代,人们更多的是利用智能手机通过互联网从各大信 息流软件上获得各种资讯,用户会在软件上进行点击、订阅、分享、评 论等操作,产生大量的用户行为。各大软件,也会利用这些行为,对用 户进行个性化推荐。
用户在和这一类信息流软件交互的时候会产生很多行为,例如点赞、 分享、喜欢、评论等。这些行为从用户的情感可以分为正向行为和负向 行为。那些能体现出用户喜欢该内容的行为即为正向行为,而一些行为 进行分析后,会反应出用户并不喜欢该内容。例如用户的评论,评论反 应了用户的主观感受,有的评论是积极的,积极的评论是正向行为,而有些评论是消极,这些消极的评论则是负向行为,表明用户不喜欢,甚 至是讨厌这个内容。因此这一类的内容不应该再给用户推荐。
但是大多数软件和主流的信息流推荐算法只会从这些行为中挑选一 小部分或者将所有的用户行为都视为正向行为,导致了很多推荐出来的 内容,用户并不喜欢,影响了用户体验。
发明内容
针对现有技术中存在的问题,本发明提供一种基于用户行为的实时 个性化信息流推荐方法,本发明的部分实施例能够提高推荐的效果,改 善用户体验。
为实现上述目的,本发明采用以下技术方案:
一种基于用户行为的实时个性化信息流推荐方法,所述推荐方法包 括如下步骤:收集针对内容的用户行为;将所述用户行为分类为正向行 为和负向行为;获取与用户点击过的内容相似的内容,并按照相似度进 行排序获得初步推荐结果;基于所述正向行为和负向行为对所述初步推 荐结果中的内容排序做加权处理获得最终推荐结果。
优选地,所述用户行为包括评论,将评论分类为正向行为和负向行 为基于利用Word2vec词向量和长短期记忆模型所搭建的评论情感分类 模型。
优选地,所述评论情感分类模型的搭建方法包括如下步骤:通过分 词工具jieba将评论预处理为多个词语的有序组合;将所述有序组合放入 Word2vec模型中,采用skip-gram方法进行词向量的训练;将评论中包 含的词语的词向量进行累加,得到评论的句向量;将向量化后的评论和 预先标注的结果放入LSTM模型中,进行有监督的训练。
优选地,所述用户行为包括点击,将点击分类为正向行为和负向行 为包括:基于点击后用户停留在所点击的内容页面的时间,所述时间大 于等于预定值,所述点击分类为正向行为;所述时间小于预定值,所述 点击分类为负向行为。
优选地,所述获取与用户点击过的内容相似的内容包括:采用基于 物品的协同过滤算法来计算内容与内容之间的相似度。
优选地,利用Jaccard系数来判断内容的相似度,系数值越大,则表 明越相似,Jaccard系数的公式为:
Figure BDA0002545511960000021
其中N(i)表示喜欢内容i的用户的集合,N(j)表示喜欢内容j的用户 集合。
一种电子设备,包括:处理器;存储器,所述存储器中设置有可供 所述处理器执行的可执行指令,所述可执行指令被执行后实现所述推荐 方法。
一种计算机可读存储介质,存储有计算机指令,所述计算机指令被 处理器执行后实现所述推荐方法的步骤。
一种基于用户行为的实时个性化信息流推荐***,所述推荐***包 括:收集模块,所述收集模块收集针对内容的用户行为;分类模块,所 述分类模块将所述用户行为分类为正向行为和负向行为;召回模块,所 述召回模块获取与用户点击过的内容相似的内容,并按照相似度进行排 序获得初步推荐结果;以及
加权模块,所述加权模块基于所述正向行为和负向行为对所述推荐 池中的内容排序做加权处理获得最终推荐结果。
与现有技术相比,本发明的有益效果为:
1.能充分挖掘用户行为背后隐藏的信息,显著提高推荐质量;
2.推荐结果更加智能,明显改善用户的体验;
3.也可以从负向行为中找到一部分劣质内容,帮助平台进行内容质 量的把控。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将 对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见 地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技 术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得 其他的附图。
图1为本发明实施例的流程示意图。
图2为本发明实施例的LSTM模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案 进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实 施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本 发明保护的范围。
如图1-2所示,本实施例提供如下技术方案:
1.收集用户的行为:
通过数据收集模块,将软件中用户产生的行为收集存储起来,这些 行为包括点击、评论、点赞、喜欢、订阅等。还需要记录用户点击每个 内容的时间和评论的内容。并取出一部分用户的评论,按照情感的不同, 对用户的评论进行人工标注,分为积极评论和消极评论。
2.对用户的行为进行分类:
大部分用户行为可以直接归到正向行为中,例如点赞、喜欢、订阅 等。也有些用户行为可以直接归到负向行为中,例如不喜欢、删除等。 但是对于点击和评论行为则需要进行一定的分析后再进行分类。
3.对点击行为进行分类:
需要结合用户点击的时间,计算出用户点击之后停留在该内容上的 时长。如果停留时间很短,说明用户可能只是被标题吸引过来,对这个 内容不感兴趣,则视为负向行为。如果停留时间较长,则说明用户很有 可能阅读完了整个内容,对推荐的内容很感兴趣,则可视为正向行为。
4.对评论行为进行分类:
对于评论行为:利用Word2vec词向量和长短期记忆模型(long-short termmemory)搭建评论情感分类模型,对用户的评论进行分类,分为积 极评论和消极评论,积极评论对应正向行为,消极评论对应负向行为。
将用户所有的评论进行预处理,利用开源的分词工具jieba,对所 有的评论进行分词和去除“的”、“地”等无意义的单个词,即每条评论 都变成多个词语的有序组合。将处理好的评论放入Word2vec模型中, 采用skip-gram方法进行词向量的训练,其中W表示一个整个词汇表,
Figure BDA0002545511960000051
wi为一个给定词,wj为上下文词语。
Figure BDA0002545511960000052
Figure BDA0002545511960000053
是对应于目标单词wi∈W及其周围的上下文单词的潜在 向量表示。
Word2vec中skip-gram公式:
Figure BDA0002545511960000054
其中,
Figure RE-GDA0002620565150000055
训练好后,每个词语都可以用一个高维的向量进行表示。将评论中 包含的词语的词向量进行累加,即可得到这条评论的句向量。
将向量化后的评论和标注好的结果放入LSTM模型中,进行有监督 的训练。可得到一个适用于该场景下的用户评论的情感分类模型。即输 入一条评论,可得到该评论属于积极评论还是消极评论。
LSTM模型公式:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure BDA0002545511960000056
Figure BDA0002545511960000057
其中,
Figure RE-GDA0002620565150000061
xt为当前输入,ht-1为上一个节点传递下来 的状态,Wz、Wr、W均为权重。
5.对内容进行召回
召回是找到与用户点击过的内容最相似的内容,并根据相似度进 行排序,越相似,排序越靠前。这里采用基于物品的协同过滤算法 (Item-basedCollaboratIveFiltering)来计算内容与内容之间的相似度。 利用Jaccard系数来判断相似度,系数值越大,则表明越相似。
Jaccard系数的公式为:
Figure BDA0002545511960000061
其中N(i)表示喜欢内容i的用户的集合,N(j)表示喜欢内容j的用户 集合。
6.重新排序生成推荐结果
分类好用户的行为,对于有用户正向行为的内容,在召回结果中找 到与这些内容相关的召回结果,对这些结果进行加权处理,让它们排名 更靠前。对于有用户负向行为的内容,在召回结果中找到与这些内容相 关的召回结果,对这些结果进行降权或者从召回结果中删除。分析用户 的行为后,实时生成最终的推荐结果。
尽管上述实施例已对本发明作出具体描述,但是对于本领域的普通 技术人员来说,应该理解为可以在不脱离本发明的精神以及范围之内基 于本发明公开的内容进行修改或改进,这些修改和改进都在本发明的精 神以及范围之内。

Claims (9)

1.一种基于用户行为的实时个性化信息流推荐方法,其特征在于,所述推荐方法包括如下步骤:
收集针对内容的用户行为;
将所述用户行为分类为正向行为和负向行为;
获取与用户点击过的内容相似的内容,并按照相似度进行排序获得初步推荐结果;
基于所述正向行为和负向行为对所述初步推荐结果中的内容排序做加权处理获得最终推荐结果。
2.根据权利要求1所述的基于用户行为的实时个性化信息流推荐方法,其特征在于,所述用户行为包括评论,将评论分类为正向行为和负向行为基于利用Word2vec词向量和长短期记忆模型所搭建的评论情感分类模型。
3.根据权利要求2所述的基于用户行为的实时个性化信息流推荐方法,其特征在于,所述评论情感分类模型的搭建方法包括如下步骤:
通过分词工具jieba将评论预处理为多个词语的有序组合;
将所述有序组合放入Word2vec模型中,采用skip-gram方法进行词向量的训练;
将评论中包含的词语的词向量进行累加,得到评论的句向量;
将向量化后的评论和预先标注的结果放入LSTM模型中,进行有监督的训练。
4.根据权利要求1所述的基于用户行为的实时个性化信息流推荐方法,其特征在于,所述用户行为包括点击,将点击分类为正向行为和负向行为包括:
基于点击后用户停留在所点击的内容页面的时间,所述时间大于等于预定值,所述点击分类为正向行为;所述时间小于预定值,所述点击分类为负向行为。
5.根据权利要求1所述的基于用户行为的实时个性化信息流推荐方法,其特征在于,所述获取与用户点击过的内容相似的内容包括:
采用基于物品的协同过滤算法来计算内容与内容之间的相似度。
6.根据权利要求5所述的基于用户行为的实时个性化信息流推荐方法,其特征在于,利用Jaccard系数来判断内容的相似度,系数值越大,则表明越相似,Jaccard系数的公式为:
Figure FDA0002545511950000021
其中N(i)表示喜欢内容i的用户的集合,N(j)表示喜欢内容j的用户集合。
7.一种电子设备,其特征在于,包括:
处理器;
存储器,所述存储器中设置有可供所述处理器执行的可执行指令,所述可执行指令被执行后实现所述权利要求1-6中任一所述推荐方法。
8.一种计算机可读存储介质,其特征在于,存储有计算机指令,所述计算机指令被处理器执行后实现所述权利要求1-6中任一所述推荐方法的步骤。
9.一种基于用户行为的实时个性化信息流推荐***,其特征在于,所述推荐***包括:
收集模块,所述收集模块收集针对内容的用户行为;
分类模块,所述分类模块将所述用户行为分类为正向行为和负向行为;
召回模块,所述召回模块获取与用户点击过的内容相似的内容,并按照相似度进行排序获得初步推荐结果;以及
加权模块,所述加权模块基于所述正向行为和负向行为对所述推荐池中的内容排序做加权处理获得最终推荐结果。
CN202010558811.9A 2020-06-18 2020-06-18 一种基于用户行为的实时个性化信息流推荐方法 Pending CN111859165A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010558811.9A CN111859165A (zh) 2020-06-18 2020-06-18 一种基于用户行为的实时个性化信息流推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010558811.9A CN111859165A (zh) 2020-06-18 2020-06-18 一种基于用户行为的实时个性化信息流推荐方法

Publications (1)

Publication Number Publication Date
CN111859165A true CN111859165A (zh) 2020-10-30

Family

ID=72986233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010558811.9A Pending CN111859165A (zh) 2020-06-18 2020-06-18 一种基于用户行为的实时个性化信息流推荐方法

Country Status (1)

Country Link
CN (1) CN111859165A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117709914A (zh) * 2024-02-05 2024-03-15 天津徙木科技有限公司 一种岗位的匹配方法和***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573411A (zh) * 2018-04-17 2018-09-25 重庆理工大学 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573411A (zh) * 2018-04-17 2018-09-25 重庆理工大学 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张宜浩 朱小飞等: ""基于用户评论的深度情感分析和多视图协同融合的混合推荐方法"", 《计算机学报》, vol. 42, no. 6, pages 1316 - 1333 *
邓宁,牛宇: "《旅游大数据》", 31 August 2019, 旅游教育出版社, pages: 124 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117709914A (zh) * 2024-02-05 2024-03-15 天津徙木科技有限公司 一种岗位的匹配方法和***
CN117709914B (zh) * 2024-02-05 2024-05-10 台州徙木数字服务有限公司 一种岗位的匹配方法和***

Similar Documents

Publication Publication Date Title
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN111008278B (zh) 内容推荐方法及装置
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN108563722B (zh) 文本信息的行业分类方法、***、计算机设备和存储介质
CN111767403B (zh) 一种文本分类方法和装置
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN106599022B (zh) 基于用户访问数据的用户画像形成方法
WO2022116536A1 (zh) 信息服务提供方法、装置、电子设备和存储介质
CN109918539B (zh) 一种基于用户点击行为的音、视频互相检索方法
CN110827129A (zh) 一种商品推荐方法及装置
CN113254637B (zh) 一种融合语法的方面级文本情感分类方法及***
CN111368075A (zh) 文章质量预测方法、装置、电子设备及存储介质
CN111382361A (zh) 信息推送方法、装置、存储介质和计算机设备
CN111353044B (zh) 一种基于评论的情感分析方法及***
CN112347787A (zh) 方面级别情感分类方法、装置、设备及可读存储介质
CN109960791A (zh) 判断文本情感的方法及存储介质、终端
CN117972206A (zh) 一种基于人工智能的内容推荐***、电子设备及存储介质
CN111859165A (zh) 一种基于用户行为的实时个性化信息流推荐方法
CN113407776A (zh) 标签推荐方法、装置、标签推荐模型的训练方法和介质
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN111966946A (zh) 一种页面权威值的识别方法、装置、设备和存储介质
CN111798217B (zh) 数据分析***及方法
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN114238798A (zh) 基于神经网络的搜索排序方法、***、设备及存储介质
CN114372202A (zh) 一种内容推荐方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination