CN104008203A - 一种融入本体情境的用户兴趣挖掘方法 - Google Patents
一种融入本体情境的用户兴趣挖掘方法 Download PDFInfo
- Publication number
- CN104008203A CN104008203A CN201410269562.6A CN201410269562A CN104008203A CN 104008203 A CN104008203 A CN 104008203A CN 201410269562 A CN201410269562 A CN 201410269562A CN 104008203 A CN104008203 A CN 104008203A
- Authority
- CN
- China
- Prior art keywords
- user
- interest
- state
- model
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 claims abstract description 5
- 230000006399 behavior Effects 0.000 claims description 53
- 238000000605 extraction Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 18
- 238000005065 mining Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 9
- 230000003542 behavioural effect Effects 0.000 claims description 7
- 210000001072 colon Anatomy 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 4
- 238000009412 basement excavation Methods 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 241001269238 Data Species 0.000 claims description 2
- 238000007418 data mining Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种融入本体情境的用户兴趣挖掘方法,首先针对电子商务网站中复杂多维的Web用户兴趣行为特征数据,构建基于二阶隐马尔可夫模型的用户兴趣特征提取模型;其次分析了能反映用户兴趣的情境信息,包括用户的个体信息、环境信息以及设备信息等;再次构建了基于情境本体的用户兴趣模型,同时采用逻辑模糊的思想对用户个体信息的兴趣度进行了度量与表达,最后基于隐半马尔可夫模型的用户兴趣漂移检测方法,根据用户浏览路径构建模型,将序列的平均对数或然概率的均值作为阈值点,用以判断兴趣是否发生了漂移。本发明构建了能够满足用户需求的兴趣模型以提供个性化推荐服务,提高用户满意度的有效手段,具有良好的应用价值。
Description
技术领域
本发明涉及数据挖掘与本体技术领域,尤其是一种用户兴趣挖掘方法,特别适用于用户个性化信息服务的问题。
背景技术
网络应用越来越复杂,数据量也越来越大,一些如电子商务、web站点设计等工作变得更加复杂与繁重,这需要在用户现有信息的基础上,从用户访问兴趣、访问时间、访问频度等行为方面动态调整网页结构,有针对性的开展电子商务来满足用户需求,提供个性化服务。Internet的个性化信息服务就是根据用户不同的特点,以及用户兴趣爱好进行自动的信息组织与调整的服务,以一种快速,高效,准确的信息获取方式来解决用户信息迷向等问题。基于此,如何从迅速膨胀的信息中准确理解用户的信息需求,构建表征网络用户特征、兴趣、目标和行为偏好的用户模型并据此来预测用户行为、更好地为用户提供个性化服务已成为一个难题。同时如何及时并且准确地发现用户兴趣漂移,构建动态更新的用户兴趣模型,以满足不同用户的个性化信息需求服务,已经成为个性化信息服务的关键问题。
发明内容
为了克服现有的数据挖掘方式的无法满足用户需求的兴趣模型以提供个性化推荐服的不足,本发明构建能够满足用户需求的兴趣模型以提供个性化推荐服务,提高用户满意度的有效手段,提供了一种融入本体情境的用户兴趣挖掘方法。
本发明解决其技术问题所采用的技术方案是:
一种融入本体情境的用户兴趣挖掘方法,所述用户兴趣挖掘方法包括以下步骤:
1)建立基于二阶隐马尔可夫模型的用户兴趣特征提取模型:
首先需要收集得到那些能够反映用户兴趣的数据,过程如下:从客户端、服务器端、代理服务器端获得用户源数据,这些源数据获取之后,将它们进行预处理并以设定的格式进行保存,供以后用户兴趣的挖掘。
其次,采用二阶隐马尔可夫模型对用户兴趣特征提取,包括训练部分与提取部分;
训练部分包括将用户兴趣的特征信息先后顺序进行预处理,形成文本文档,然后对文本经过扫描后,利用分隔符、空格、换行、冒号排版将已标记文本序列转换为标记的文本分块序列,最后用二阶HMM模型对其计算以下模型参数,其参数的确定算法如公式所示:
①初始概率分布矢量
其中,Init(i)指已标记的整个训练样本中,以状态Si为开始状态序列的个数,则指以所有状态为开始状态序列的个数总和;
②初始状态转移概率
其中,Cij和Cijk分别表示从状态Si到Sj的转移次数,以及t-1时刻的状态Si,t时刻状态Sj,转移到t+1时刻状态为Sk的次数。和分别表示从状态Si到所有状态的转移次数之和,以及t-1时刻的状态Si,t时刻状态Sj,转移到所有状态的次数之和;
③观察值释放概率
其中,Ej(Ok)和Eij(Ok)分别表示状态Sj时释放观察值Ok的次数,以及t-1时刻的状态Si,t时刻状态Sj,释放观察值Ok的次数。和分别表示状态Sj时释放所有观察值的次数之和,以及t-1时刻的状态Si,t时刻状态Sj,释放所有观察值的次数之和;
提取部分包括两个步骤,即:(a)对待提取特征的文本进行预处理,对文本经过扫描后,利用分隔符、空格、换行、冒号排版将已标记文本序列转换为标记的文本分块序列;(b)结合训练部分输出的二阶HMM模型,利用Viterbi算法进行计算,应用已建立好的HMM模型进行用户兴趣特征提取,将处理得到后的状态输出观察值O=O1O2...OT作为模型输入,从中找出状态标签序列中概率最大的,用户特征提取的内容就是被标记为目标状态标签的观察文本;
2)分析反映用户兴趣的情境信息:通过对用户的搜索、浏览行为与购买记录信息的分析,推导出一段时间内用户的真实兴趣;
3)融入情境的用户兴趣本体模型构建:先将地域、性别、年龄、婚姻、教育背景和收入几个影响用户兴趣的关键作为背景因素指标,并结合用户的历史购买信息以及用户行为特征进行模糊处理以得到其兴趣度值;然后采用本体情境的表示方法,通过多粒度划分,构建用户兴趣本体模型;
4)基于隐半马尔可夫模型的用户兴趣漂移检测方法:
选取两个观察值来描述用户的浏览行为:a)用户访问网页的浏览路径序列;b)从一个网页到达另一个网页的时间间隔;所有状态集合表示为S={S1,S2,...,SN},相对应的观察值集合表示为V={v1,v2,...,vN},时间间隔表示为集合I={1,2,...};对于用户的某一浏览行为,其浏览路径链接的个数是一个随机变量,在给定状态下输出的观察值的个数可将该浏览行为表示成集合{1,...,D}。把用户浏览路径序列即二维观察值序列表示成O={(r1,τ1),...,(rT,τT)},其中:rt∈V表示用户浏览网页内容的对象;τt∈I表示用户从一个页面跳转到另一个页面rt与rt-1之间的时间间隔;模型的输出概率矩阵用B={bi(v,q)}表示,对于给定状态i∈S,bi(v,q)表示用户在一个页面rt=v∈V且与前一个页面的时间间隔为τt=q∈I的概率,且满足∑v,qbi(v,q)=1;用P={pi(d)}表示在给定状态i下输出观察值个数为d∈{1,...,D}的概率,是隐半马尔可夫模型中状态驻留时间的概率矩阵,且满足∑dpi(d)=1;状态转移概率矩阵通过A={aij}进行表示,aij表示从i∈S向j∈S转移的概率;初始概率向量用π={πi}表示,πi表示初始状态在i∈S时的概率;
将用户的一条重要的兴趣行为记录定义为:Uinterest={user,background,history,behavior,timestamp,content},其中,user用户表示,如ID;background表示用户具体背景因素;history表示用户的历史购买记录;behavior标识具体兴趣行为操作结果;timestamp表示用户行为的执行时间;content表示兴趣主题内容;
在用户访问事务中,任意两个行为操作之间存在着访问转移概率P(qi→qj),表示兴趣权重如下:
对于每个qj及其相对应的概念都存在一个观察值概率分布即u对qj的所有访问中,对的兴趣概率,可由ati所包含被访问节点的集合为Qi={q′1,...,q'f|q'∈IC},则Qi,j表示ati中在qj之后的所有被访问节点的集合,表示Qi,j中含有节点的集合:
将u在qj上观察值概率分布定义为:
然后在用户u根据的所有可能访问序列中寻找一个状态序列,建立用户兴趣行为的隐半马尔可夫模型,使其具有最大的访问概率:
在对用户兴趣漂移进行检测的过程中,首先需要采集HSMM模型中的观察序列,并且在模型进行训练之前对数据进行预处理,确定模型参数后,然后通过调用HSMM算法,得到用户兴趣不变的概率值,其概率值用平均对数或然概率进行计算,当用户的兴趣值处在正常范围内,则将用户数据加入到训练数据集中,以更新隐半马尔可夫模型的参数;否则,该用户将被认为是兴趣漂移。
进一步,所述步骤1)中,获取用户个性化信息的途径有两种:(a)通过网络调查,用户自己参与的方式进行收集;(b)通过跟踪用户行为来获取用户的兴趣信息,采用用户行为数据的特征提取方法。
更进一步,所述步骤2)中,用户的行为信息包括用户搜索关键词、用户历史购买记录和用户历史浏览行为。
再进一步,所述步骤3)中,根据用户的兴趣情境信息,在构建用户本体情境中,将用户情境划分为用户个体情境、用户环境情境以及用户设备情境,。本体采用层次概念树的形式,用户情境的某一元素就是通过树中的每个节点来表示的,即构建情境本体树。
本发明的技术构思为:面向用户的个性化服务领域,根据方法所涉及的概念漂移和情境问题,提出了融入本体情境的用户兴趣挖掘方法,构建了能够满足用户需求的兴趣模型以提供个性化推荐服务,提高了用户满意度的有效手段。
基于此,本发明以用户个性化信息服务为研究对象,引入数据挖掘、本体技术,充分考虑用户个性化特征,提出一种融入本体情境的用户兴趣挖掘方法,有效实现用户个性化服务需求。
引入数据挖掘、本体技术,充分考虑用户个性化特征,首先针对电子商务网站中复杂多维的Web用户兴趣行为特征数据,构建基于二阶隐马尔可夫模型(Second-Order Hidden Markov Model)的用户兴趣特征提取模型;其次分析了能反映用户兴趣的情境信息,包括用户的个体信息、环境信息以及设备信息等;再次构建了基于情境本体的用户兴趣模型,同时采用逻辑模糊的思想对用户个体信息的兴趣度进行了度量与表达,最后基于隐半马尔可夫模型(Hidden Semi-MarkovModel,HSMM)的用户兴趣漂移检测方法,根据用户浏览路径构建模型,将序列的平均对数或然概率的均值作为阈值点,用以判断兴趣是否发生了漂移。
本发明的有益效果在于:本发明构建了能够满足用户需求的兴趣模型以提供个性化推荐服务,提高用户满意度的有效手段,具有良好的应用价值。
附图说明
图1是基于二阶HMM的兴趣特征提取的算法流程图。
图2是用户情境本体的构建流程。
图3兴趣漂移检测框图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1、图2和图3,一种融入本体情境的用户兴趣挖掘方法,所述用户兴趣挖掘方法包括以下步骤:
5)建立基于二阶隐马尔可夫模型的用户兴趣特征提取模型:Web信息抽取(Web Information Extraction)属于Web内容挖掘的范畴,是从半结构化的Web文档中抽取数据,将Web作为信息源的一类信息抽取方法。本步骤包括用户数据的收集以及用户兴趣特征提取模型的建立。
为了构建用户兴趣模型,首先需要收集得到那些能够反映用户兴趣的数据。通常情况下,用户的数据往往很多,包括用户注册的信息,日志信息,文本页面内容数据,站点拓扑结构,用户的行为数据,以及页面超链结信息等。这些数据可以从客户端、服务器端、代理服务器端等数据源获得,这些元数据获取之后,可将它们进行预处理并以适当的格式进行保存,供以后用户兴趣的挖掘。归纳起来,获取用户个性化信息的途径主要有两种:(a)通过网络调查,用户自己参与的方式进行收集。这种方法可以直接获取用户的兴趣与信息需求倾向,但是必须要有用户的积极配合;(b)通过跟踪用户行为来获取用户的兴趣信息。由于第一种获取用户数据的途径,例如注册信息,直接由用户以表单的方式提供,传入后台数据库,其用户兴趣特征的提取比较方便,而通过跟踪用户的隐式行为来推断用户兴趣的数据却无法直接获得,所以这里主要采用用户行为数据的特征提取方法。
其次,用户兴趣的特征提取属于文本信息抽取范畴,而信息抽取已经成为自然语言处理的一个重要方向,理论研究不断得到发展。目前有关信息抽取的模型主要有3类:一种是基于字典的模型;一种是基于规则的模型,如本体;一种是基于统计的模型,如隐马尔可夫模型(HMM)。由于HMM有非常适合自然语言处理的统计学基础,加上其抽取鲁棒性强、精度高、易于建立而且适应性强等优点,越来越受到研究者的关注。这里采用二阶隐马尔可夫模型对用户兴趣特征提取,流程图如图1所示。主要包括两大部分,即训练部分与提取部分。
训练部分包括将用户兴趣的一些特征信息先后顺序进行预处理,形成文本文档,然后对文本经过扫描后,利用分隔符、空格、换行、冒号等排版将已标记文本序列转换为标记的文本分块序列,最后用二阶HMM模型对其计算以下模型参数,其参数的确定算法如公式所示:
①初始概率分布矢量
其中,Init(i)指已标记的整个训练样本中,以状态Si为开始状态序列的个数,则指以所有状态为开始状态序列的个数总和。
②初始状态转移概率
其中,Cij和Cijk分别表示从状态Si到Sj的转移次数,以及t-1时刻的状态Si,t时刻状态Sj,转移到t+1时刻状态为Sk的次数。和分别表示从状态Si到所有状态的转移次数之和,以及t-1时刻的状态Si,t时刻状态Sj,转移到所有状态的次数之和。
③观察值释放概率
其中,Ej(Ok)和Eij(Ok)分别表示状态Sj时释放观察值Ok的次数,以及t-1时刻的状态Si,t时刻状态Sj,释放观察值Ok的次数。和分别表示状态Sj时释放所有观察值的次数之和,以及t-1时刻的状态Si,t时刻状态Sj,释放所有观察值的次数之和。
提取部分包括两个步骤,即:(a)对待提取特征的文本进行预处理,对文本经过扫描后,利用分隔符、空格、换行、冒号等排版将已标记文本序列转换为标记的文本分块序列;(b)结合训练部分输出的二阶HMM模型,利用Viterbi算法进行计算。应用已建立好的HMM模型进行用户兴趣特征提取。将处理得到后的状态输出观察值O=O1O2...OT作为模型输入,从中找出状态标签序列中概率最大的,用户特征提取的内容就是被标记为目标状态标签的观察文本。
6)分析反映用户兴趣的情境信息:网络用户的兴趣特征主要是由与用户兴趣相关的内在因素和外在因素影响的。内在因素有性别、年龄、职业、性格、教育、收入等方面,外在因素则包括了文化背景、社会环境、家庭情况等方面,内在和外在的多方面因素导致了网络用户不同行为的产生。正因为这种原因,使得不同的用户存在多方面的差异,对商品的兴趣程度与偏向也有所不同。
用户的兴趣常常能在自身的行为中得到反映,当他们对某种东西有兴趣就会产生一定的倾向性,用户的需求与兴趣会被记录在他们的行为信息中,因此可以通过对用户的搜索、浏览行为与购买记录等信息的分析,推导出一段时间内用户的真实兴趣。这里,用户的行为信息主要包括以下几个方面:用户搜索关键词、用户历史购买记录、用户历史浏览行为等。
7)融入情境的用户兴趣本体模型构建:先将地域、性别、年龄、婚姻、教育背景和收入几个影响用户兴趣的关键作为背景因素指标,并结合用户的历史购买信息以及用户行为特征进行模糊处理以得到其兴趣度值;然后采用本体情境的表示方法,通过多粒度划分,构建用户兴趣本体模型。构建用户情境本体模型的流程图如图2所示。
根据用户的兴趣情境信息,在构建用户本体情境中,将用户情境划分为用户个体情境、用户环境情境以及用户设备情境。本体通常是采用层次概念树的形式,用户情境的某一元素就是通过树中的每个节点来表示的,即构建情境本体树。
8)基于隐半马尔可夫模型的用户兴趣漂移检测方法:网上用户在浏览中的购物行为过程是受浏览目的、文化背景、兴趣爱好等多种个体因素影响的复杂过程,通过对背景因素、用户行为以及兴趣内容来综合考虑用户的兴趣,并建立隐半马尔可夫模型(HSMM)来检测用户兴趣是否发生漂移。
假设用户在浏览网页的过程中,其浏览行为符合马尔可夫性,则本文选取以下两个观察值来描述用户的浏览行为:a)用户访问网页的浏览路径序列;b)从一个网页到达另一个网页的时间间隔。所有状态集合表示为S={S1,S2,...,SN},相对应的观察值集合表示为V={v1,v2,...,vN},时间间隔表示为集合I={1,2,...};对于用户的某一浏览行为,其浏览路径链接的个数是一个随机变量,在给定状态下输出的观察值的个数可将该浏览行为表示成集合{1,...,D}。把用户浏览路径序列即二维观察值序列表示成O={(r1,τ1),...,(rT,τT)},其中:rt∈V表示用户浏览网页内容的对象;τt∈I表示用户从一个页面跳转到另一个页面rt与rt-1之间的时间间隔。模型的输出概率矩阵用B={bi(v,q)}表示,对于给定状态i∈S,bi(v,q)表示用户在一个页面rt=v∈V且与前一个页面的时间间隔为τt=q∈I的概率,且满足∑v,qbi(v,q)=1。用P={pi(d)}表示在给定状态i下输出观察值个数为d∈{1,...,D}的概率,是隐半马尔可夫模型中状态驻留时间的概率矩阵,且满足∑dpi(d)=1。状态转移概率矩阵通过A={aij}进行表示,aij表示从i∈S向j∈S转移的概率。初始概率向量用π={πi}表示,πi表示初始状态在i∈S时的概率。
将用户的一条重要的兴趣行为记录定义为:Uinterest={user,background,history,behavior,timestamp,content}。其中,user用户表示,如ID;background表示用户具体背景因素;history表示用户的历史购买记录;behavior标识具体兴趣行为操作结果;timestamp表示用户行为的执行时间;content表示兴趣主题内容。
在用户访问事务中,任意两个行为操作之间存在着访问转移概率P(qi→qj),可表示兴趣权重如下:
对于每个qj及其相对应的概念都存在一个观察值概率分布即u对qj的所有访问中。对的兴趣概率,可由ati所包含被访问节点的集合为Qi={q′1,...,q'f|q'∈IC},则Qi,j表示ati中在qj之后的所有被访问节点的集合,表示Qi,j中含有节点的集合:
将u在qj上观察值概率分布定义为:
然后在用户u根据的所有可能访问序列中寻找一个状态序列,建立用户兴趣行为的隐半马尔可夫模型,使其具有最大的访问概率:
在对用户兴趣漂移进行检测的过程中,首先需要采集HSMM模型中的观察序列,这里主要是将用户的浏览行为数据用作观察值序列,并且在模型进行训练之前对数据进行预处理,确定模型参数后,然后通过调用HSMM算法,得到用户兴趣不变的概率值,其概率值用平均对数或然概率进行计算。当用户的兴趣值处在正常范围内,则将用户数据加入到训练数据集中,以更新隐半马尔可夫模型的参数;否则,该用户将被认为是兴趣漂移。漂移检测的实现方法如图3所示。
Claims (4)
1.一种融入本体情境的用户兴趣挖掘方法,其特征在于:所述用户兴趣挖掘方法包括以下步骤:
1)建立基于二阶隐马尔可夫模型的用户兴趣特征提取模型:
首先需要收集得到那些能够反映用户兴趣的数据,过程如下:从客户端、服务器端、代理服务器端获得用户源数据,这些源数据获取之后,将它们进行预处理并以设定的格式进行保存,供以后用户兴趣的挖掘。
其次,采用二阶隐马尔可夫模型对用户兴趣特征提取,包括训练部分与提取部分;
训练部分包括将用户兴趣的特征信息先后顺序进行预处理,形成文本文档,然后对文本经过扫描后,利用分隔符、空格、换行、冒号排版将已标记文本序列转换为标记的文本分块序列,最后用二阶HMM模型对其计算以下模型参数,其参数的确定算法如公式所示:
①初始概率分布矢量
其中,Init(i)指已标记的整个训练样本中,以状态Si为开始状态序列的个数,则指以所有状态为开始状态序列的个数总和;
②初始状态转移概率
其中,Cij和Cijk分别表示从状态Si到Sj的转移次数,以及t-1时刻的状态Si,t时刻状态Sj,转移到t+1时刻状态为Sk的次数。和分别表示从状态Si到所有状态的转移次数之和,以及t-1时刻的状态Si,t时刻状态Sj,转移到所有状态的次数之和;
③观察值释放概率
其中,Ej(Ok)和Eij(Ok)分别表示状态Sj时释放观察值Ok的次数,以及t-1时刻的状态Si,t时刻状态Sj,释放观察值Ok的次数。和分别表示状态Sj时释放所有观察值的次数之和,以及t-1时刻的状态Si,t时刻状态Sj,释放所有观察值的次数之和;
提取部分包括两个步骤,即:(a)对待提取特征的文本进行预处理,对文本经过扫描后,利用分隔符、空格、换行、冒号排版将已标记文本序列转换为标记的文本分块序列;(b)结合训练部分输出的二阶HMM模型,利用Viterbi算法进行计算,应用已建立好的HMM模型进行用户兴趣特征提取,将处理得到后的状态输出观察值O=O1O2...OT作为模型输入,从中找出状态标签序列中概率最大的,用户特征提取的内容就是被标记为目标状态标签的观察文本;
2)分析反映用户兴趣的情境信息:通过对用户的搜索、浏览行为与购买记录信息的分析,推导出一段时间内用户的真实兴趣;
3)融入情境的用户兴趣本体模型构建:先将地域、性别、年龄、婚姻、教育背景和收入几个影响用户兴趣的关键作为背景因素指标,并结合用户的历史购买信息以及用户行为特征进行模糊处理以得到其兴趣度值;然后采用本体情境的表示方法,通过多粒度划分,构建用户兴趣本体模型;
4)基于隐半马尔可夫模型的用户兴趣漂移检测方法:
选取两个观察值来描述用户的浏览行为:a)用户访问网页的浏览路径序列;b)从一个网页到达另一个网页的时间间隔;所有状态集合表示为S={S1,S2,...,SN},相对应的观察值集合表示为V={v1,v2,...,vN},时间间隔表示为集合I={1,2,...};对于用户的某一浏览行为,其浏览路径链接的个数是一个随机变量,在给定状态下输出的观察值的个数可将该浏览行为表示成集合{1,...,D}。把用户浏览路径序列即二维观察值序列表示成O={(r1,τ1),...,(rT,τT)},其中:rt∈V表示用户浏览网页内容的对象;τt∈I表示用户从一个页面跳转到另一个页面rt与rt-1之间的时间间隔;模型的输出概率矩阵用B={bi(v,q)}表示,对于给定状态i∈S,bi(v,q)表示用户在一个页面rt=v∈V且与前一个页面的时间间隔为τt=q∈I的概率,且满足∑v,qbi(v,q)=1;用P={pi(d)}表示在给定状态i下输出观察值个数为d∈{1,...,D}的概率,是隐半马尔可夫模型中状态驻留时间的概率矩阵,且满足∑dpi(d)=1;状态转移概率矩阵通过A={aij}进行表示,aij表示从i∈S向j∈S转移的概率;初始概率向量用π={πi}表示,πi表示初始状态在i∈S时的概率;
将用户的一条重要的兴趣行为记录定义为:Uinterest={user,background,history,behavior,timestamp,content},其中,user用户表示,如ID;background表示用户具体背景因素;history表示用户的历史购买记录;behavior标识具体兴趣行为操作结果;timestamp表示用户行为的执行时间;content表示兴趣主题内容;
在用户访问事务中,任意两个行为操作之间存在着访问转移概率P(qi→qj),表示兴趣权重如下:
对于每个qj及其相对应的概念都存在一个观察值概率分布即u对qj的所有访问中,对的兴趣概率,可由ati所包含被访问节点的集合为Qi={q′1,...,q'f|q'∈IC},则Qi,j表示ati中在qj之后的所有被访问节点的集合,表示Qi,j中含有节点的集合:
将u在qj上观察值概率分布定义为:
然后在用户u根据的所有可能访问序列中寻找一个状态序列,建立用户兴趣行为的隐半马尔可夫模型,使其具有最大的访问概率:
在对用户兴趣漂移进行检测的过程中,首先需要采集HSMM模型中的观察序列,并且在模型进行训练之前对数据进行预处理,确定模型参数后,然后通过调用HSMM算法,得到用户兴趣不变的概率值,其概率值用平均对数或然概率进行计算,当用户的兴趣值处在正常范围内,则将用户数据加入到训练数据集中,以更新隐半马尔可夫模型的参数;否则,该用户将被认为是兴趣漂移。
2.如权利要求1所述的一种融入本体情境的用户兴趣挖掘方法,其特征在于:所述步骤1)中,获取用户个性化信息的途径有两种:(a)通过网络调查,用户自己参与的方式进行收集;(b)通过跟踪用户行为来获取用户的兴趣信息,采用用户行为数据的特征提取方法。
3.如权利要求1或2所述的一种融入本体情境的用户兴趣挖掘方法,其特征在于:所述步骤2)中,用户的行为信息包括用户搜索关键词、用户历史购买记录和用户历史浏览行为。
4.如权利要求1或2所述的一种融入本体情境的用户兴趣挖掘方法,其特征在于:所述步骤3)中,根据用户的兴趣情境信息,在构建用户本体情境中,将用户情境划分为用户个体情境、用户环境情境以及用户设备情境,。本体采用层次概念树的形式,用户情境的某一元素就是通过树中的每个节点来表示的,即构建情境本体树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410269562.6A CN104008203B (zh) | 2014-06-17 | 2014-06-17 | 一种融入本体情境的用户兴趣挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410269562.6A CN104008203B (zh) | 2014-06-17 | 2014-06-17 | 一种融入本体情境的用户兴趣挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104008203A true CN104008203A (zh) | 2014-08-27 |
CN104008203B CN104008203B (zh) | 2018-04-17 |
Family
ID=51368860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410269562.6A Expired - Fee Related CN104008203B (zh) | 2014-06-17 | 2014-06-17 | 一种融入本体情境的用户兴趣挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104008203B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718471A (zh) * | 2014-12-03 | 2016-06-29 | 中国科学院声学研究所 | 用户偏好建模方法、***及用户偏好评估方法、*** |
CN106055661A (zh) * | 2016-06-02 | 2016-10-26 | 福州大学 | 基于多Markov链模型的多兴趣资源推荐方法 |
CN106651517A (zh) * | 2016-12-20 | 2017-05-10 | 广东技术师范学院 | 一种基于隐半马尔可夫模型的药品推荐方法 |
CN106776757A (zh) * | 2016-11-15 | 2017-05-31 | 中国银行股份有限公司 | 用户完成网银操作的指示方法及装置 |
CN107609063A (zh) * | 2017-08-29 | 2018-01-19 | 重庆邮电大学 | 一种多标签分类的手机应用推荐***及其方法 |
CN108038222A (zh) * | 2017-12-22 | 2018-05-15 | 冶金自动化研究设计院 | 用于信息***建模和数据访问的实体-属性框架的*** |
CN108596205A (zh) * | 2018-03-20 | 2018-09-28 | 重庆邮电大学 | 基于地域相关因子与稀疏表示的微博转发行为预测方法 |
CN108809955A (zh) * | 2018-05-22 | 2018-11-13 | 南瑞集团有限公司 | 一种基于隐马尔可夫模型的电力用户行为深度分析方法 |
CN109741146A (zh) * | 2019-01-04 | 2019-05-10 | 平安科技(深圳)有限公司 | 基于用户行为的产品推荐方法、装置、设备及存储介质 |
CN109933741A (zh) * | 2019-02-27 | 2019-06-25 | 京东数字科技控股有限公司 | 用户网络行为特征提取方法、装置及存储介质 |
WO2019120037A1 (zh) * | 2017-12-18 | 2019-06-27 | Oppo广东移动通信有限公司 | 模型构建方法、网络资源预加载方法、装置、介质及终端 |
CN110162553A (zh) * | 2019-05-21 | 2019-08-23 | 南京邮电大学 | 基于attention-RNN的用户兴趣挖掘方法 |
CN110297817A (zh) * | 2019-06-25 | 2019-10-01 | 哈尔滨工业大学 | 一种基于个性化贝叶斯知识追踪模型构建知识结构的方法 |
CN110866542A (zh) * | 2019-10-17 | 2020-03-06 | 西安交通大学 | 一种基于特征可控融合的深度表示学习方法 |
CN109388661B (zh) * | 2017-08-02 | 2020-04-21 | 创新先进技术有限公司 | 一种基于共享数据的模型训练方法及装置 |
CN112948672A (zh) * | 2015-05-26 | 2021-06-11 | 谷歌有限责任公司 | 针对特定场境预测用户需求 |
CN114169869A (zh) * | 2022-02-14 | 2022-03-11 | 北京大学 | 一种基于注意力机制的岗位推荐方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100257131A1 (en) * | 2007-12-28 | 2010-10-07 | Kun-Oh Kim | Apparatus and method for controlling hybrid motor |
CN102043793A (zh) * | 2009-10-09 | 2011-05-04 | 卢健华 | 一种面向知识服务的推荐方法 |
CN103514289A (zh) * | 2013-10-08 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种兴趣本体库构建方法及装置 |
-
2014
- 2014-06-17 CN CN201410269562.6A patent/CN104008203B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100257131A1 (en) * | 2007-12-28 | 2010-10-07 | Kun-Oh Kim | Apparatus and method for controlling hybrid motor |
CN102043793A (zh) * | 2009-10-09 | 2011-05-04 | 卢健华 | 一种面向知识服务的推荐方法 |
CN103514289A (zh) * | 2013-10-08 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种兴趣本体库构建方法及装置 |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718471A (zh) * | 2014-12-03 | 2016-06-29 | 中国科学院声学研究所 | 用户偏好建模方法、***及用户偏好评估方法、*** |
CN112948672A (zh) * | 2015-05-26 | 2021-06-11 | 谷歌有限责任公司 | 针对特定场境预测用户需求 |
CN106055661B (zh) * | 2016-06-02 | 2017-11-17 | 福州大学 | 基于多Markov链模型的多兴趣资源推荐方法 |
CN106055661A (zh) * | 2016-06-02 | 2016-10-26 | 福州大学 | 基于多Markov链模型的多兴趣资源推荐方法 |
CN106776757B (zh) * | 2016-11-15 | 2020-03-27 | 中国银行股份有限公司 | 用户完成网银操作的指示方法及装置 |
CN106776757A (zh) * | 2016-11-15 | 2017-05-31 | 中国银行股份有限公司 | 用户完成网银操作的指示方法及装置 |
CN106651517A (zh) * | 2016-12-20 | 2017-05-10 | 广东技术师范学院 | 一种基于隐半马尔可夫模型的药品推荐方法 |
CN106651517B (zh) * | 2016-12-20 | 2021-11-30 | 广东技术师范大学 | 一种基于隐半马尔可夫模型的药品推荐方法 |
CN109388661B (zh) * | 2017-08-02 | 2020-04-21 | 创新先进技术有限公司 | 一种基于共享数据的模型训练方法及装置 |
US11106802B2 (en) | 2017-08-02 | 2021-08-31 | Advanced New Technologies Co., Ltd. | Model training method and apparatus based on data sharing |
US11106804B2 (en) | 2017-08-02 | 2021-08-31 | Advanced New Technologies Co., Ltd. | Model training method and apparatus based on data sharing |
CN107609063A (zh) * | 2017-08-29 | 2018-01-19 | 重庆邮电大学 | 一种多标签分类的手机应用推荐***及其方法 |
CN107609063B (zh) * | 2017-08-29 | 2020-03-17 | 重庆邮电大学 | 一种多标签分类的手机应用推荐***及其方法 |
WO2019120037A1 (zh) * | 2017-12-18 | 2019-06-27 | Oppo广东移动通信有限公司 | 模型构建方法、网络资源预加载方法、装置、介质及终端 |
CN108038222B (zh) * | 2017-12-22 | 2022-01-11 | 冶金自动化研究设计院 | 用于信息***建模和数据访问的实体-属性框架的*** |
CN108038222A (zh) * | 2017-12-22 | 2018-05-15 | 冶金自动化研究设计院 | 用于信息***建模和数据访问的实体-属性框架的*** |
CN108596205A (zh) * | 2018-03-20 | 2018-09-28 | 重庆邮电大学 | 基于地域相关因子与稀疏表示的微博转发行为预测方法 |
CN108596205B (zh) * | 2018-03-20 | 2022-02-11 | 重庆邮电大学 | 基于地域相关因子与稀疏表示的微博转发行为预测方法 |
CN108809955B (zh) * | 2018-05-22 | 2019-05-24 | 南瑞集团有限公司 | 一种基于隐马尔可夫模型的电力用户行为深度分析方法 |
CN108809955A (zh) * | 2018-05-22 | 2018-11-13 | 南瑞集团有限公司 | 一种基于隐马尔可夫模型的电力用户行为深度分析方法 |
CN109741146A (zh) * | 2019-01-04 | 2019-05-10 | 平安科技(深圳)有限公司 | 基于用户行为的产品推荐方法、装置、设备及存储介质 |
CN109933741B (zh) * | 2019-02-27 | 2020-06-23 | 京东数字科技控股有限公司 | 用户网络行为特征提取方法、装置及存储介质 |
CN109933741A (zh) * | 2019-02-27 | 2019-06-25 | 京东数字科技控股有限公司 | 用户网络行为特征提取方法、装置及存储介质 |
CN110162553A (zh) * | 2019-05-21 | 2019-08-23 | 南京邮电大学 | 基于attention-RNN的用户兴趣挖掘方法 |
CN110297817A (zh) * | 2019-06-25 | 2019-10-01 | 哈尔滨工业大学 | 一种基于个性化贝叶斯知识追踪模型构建知识结构的方法 |
CN110866542A (zh) * | 2019-10-17 | 2020-03-06 | 西安交通大学 | 一种基于特征可控融合的深度表示学习方法 |
CN110866542B (zh) * | 2019-10-17 | 2021-11-19 | 西安交通大学 | 一种基于特征可控融合的深度表示学习方法 |
CN114169869A (zh) * | 2022-02-14 | 2022-03-11 | 北京大学 | 一种基于注意力机制的岗位推荐方法及装置 |
CN114169869B (zh) * | 2022-02-14 | 2022-06-07 | 北京大学 | 一种基于注意力机制的岗位推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104008203B (zh) | 2018-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104008203A (zh) | 一种融入本体情境的用户兴趣挖掘方法 | |
Ozsoy | From word embeddings to item recommendation | |
Chandra et al. | Estimating twitter user location using social interactions--a content based approach | |
Deng et al. | Exploring user emotion in microblogs for music recommendation | |
CN102004774B (zh) | 基于统一概率模型的个性化用户标签建模与推荐方法 | |
Li et al. | Community detection using hierarchical clustering based on edge-weighted similarity in cloud environment | |
CN101216825B (zh) | 标引关键词提取/预测方法 | |
CN102254038B (zh) | 一种分析网络评论相关度的***及其分析方法 | |
CN105045931A (zh) | 一种基于Web挖掘的视频推荐方法和*** | |
Abebe et al. | Generic metadata representation framework for social-based event detection, description, and linkage | |
US20200026759A1 (en) | Artificial intelligence engine for generating semantic directions for websites for automated entity targeting to mapped identities | |
CN104008109A (zh) | 基于用户兴趣的Web信息推送服务*** | |
CN104376406A (zh) | 一种基于大数据的企业创新资源管理与分析***和方法 | |
CN106484764A (zh) | 基于人群画像技术的用户相似度计算方法 | |
CN105045901A (zh) | 搜索关键词的推送方法和装置 | |
CN104268271A (zh) | 一种兴趣和网络结构双内聚的社交网络社区发现方法 | |
CN105718579A (zh) | 一种基于上网日志挖掘和用户活动识别的信息推送方法 | |
CN104484431A (zh) | 一种基于领域本体的多源个性化新闻网页推荐方法 | |
CN104462253A (zh) | 一种面向网络文本大数据的话题检测或跟踪方法 | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
CN104750789A (zh) | 标签的推荐方法及装置 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN105159930A (zh) | 搜索关键词的推送方法和装置 | |
CN103544188A (zh) | 移动互联网内容的用户偏好推送方法与装置 | |
CN103678531A (zh) | 好友推荐方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180417 |