CN104008203A - 一种融入本体情境的用户兴趣挖掘方法 - Google Patents

一种融入本体情境的用户兴趣挖掘方法 Download PDF

Info

Publication number
CN104008203A
CN104008203A CN201410269562.6A CN201410269562A CN104008203A CN 104008203 A CN104008203 A CN 104008203A CN 201410269562 A CN201410269562 A CN 201410269562A CN 104008203 A CN104008203 A CN 104008203A
Authority
CN
China
Prior art keywords
user
interest
state
model
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410269562.6A
Other languages
English (en)
Other versions
CN104008203B (zh
Inventor
陈庭贵
周广澜
许翀寰
封毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201410269562.6A priority Critical patent/CN104008203B/zh
Publication of CN104008203A publication Critical patent/CN104008203A/zh
Application granted granted Critical
Publication of CN104008203B publication Critical patent/CN104008203B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种融入本体情境的用户兴趣挖掘方法,首先针对电子商务网站中复杂多维的Web用户兴趣行为特征数据,构建基于二阶隐马尔可夫模型的用户兴趣特征提取模型;其次分析了能反映用户兴趣的情境信息,包括用户的个体信息、环境信息以及设备信息等;再次构建了基于情境本体的用户兴趣模型,同时采用逻辑模糊的思想对用户个体信息的兴趣度进行了度量与表达,最后基于隐半马尔可夫模型的用户兴趣漂移检测方法,根据用户浏览路径构建模型,将序列的平均对数或然概率的均值作为阈值点,用以判断兴趣是否发生了漂移。本发明构建了能够满足用户需求的兴趣模型以提供个性化推荐服务,提高用户满意度的有效手段,具有良好的应用价值。

Description

一种融入本体情境的用户兴趣挖掘方法
技术领域
本发明涉及数据挖掘与本体技术领域,尤其是一种用户兴趣挖掘方法,特别适用于用户个性化信息服务的问题。
背景技术
网络应用越来越复杂,数据量也越来越大,一些如电子商务、web站点设计等工作变得更加复杂与繁重,这需要在用户现有信息的基础上,从用户访问兴趣、访问时间、访问频度等行为方面动态调整网页结构,有针对性的开展电子商务来满足用户需求,提供个性化服务。Internet的个性化信息服务就是根据用户不同的特点,以及用户兴趣爱好进行自动的信息组织与调整的服务,以一种快速,高效,准确的信息获取方式来解决用户信息迷向等问题。基于此,如何从迅速膨胀的信息中准确理解用户的信息需求,构建表征网络用户特征、兴趣、目标和行为偏好的用户模型并据此来预测用户行为、更好地为用户提供个性化服务已成为一个难题。同时如何及时并且准确地发现用户兴趣漂移,构建动态更新的用户兴趣模型,以满足不同用户的个性化信息需求服务,已经成为个性化信息服务的关键问题。
发明内容
为了克服现有的数据挖掘方式的无法满足用户需求的兴趣模型以提供个性化推荐服的不足,本发明构建能够满足用户需求的兴趣模型以提供个性化推荐服务,提高用户满意度的有效手段,提供了一种融入本体情境的用户兴趣挖掘方法。
本发明解决其技术问题所采用的技术方案是:
一种融入本体情境的用户兴趣挖掘方法,所述用户兴趣挖掘方法包括以下步骤:
1)建立基于二阶隐马尔可夫模型的用户兴趣特征提取模型:
首先需要收集得到那些能够反映用户兴趣的数据,过程如下:从客户端、服务器端、代理服务器端获得用户源数据,这些源数据获取之后,将它们进行预处理并以设定的格式进行保存,供以后用户兴趣的挖掘。
其次,采用二阶隐马尔可夫模型对用户兴趣特征提取,包括训练部分与提取部分;
训练部分包括将用户兴趣的特征信息先后顺序进行预处理,形成文本文档,然后对文本经过扫描后,利用分隔符、空格、换行、冒号排版将已标记文本序列转换为标记的文本分块序列,最后用二阶HMM模型对其计算以下模型参数,其参数的确定算法如公式所示:
①初始概率分布矢量
π i = Init ( i ) Σ j = 1 N Init ( j ) , 1 ≤ i ≤ N - - - ( 1 )
其中,Init(i)指已标记的整个训练样本中,以状态Si为开始状态序列的个数,则指以所有状态为开始状态序列的个数总和;
②初始状态转移概率
a ij = C ij Σ k = 1 N C ik , 1 ≤ i , j ≤ N - - - ( 2 )
a ijk = C ijk Σ u = 1 N C iju , 1 ≤ i , j , k ≤ N - - - ( 3 )
其中,Cij和Cijk分别表示从状态Si到Sj的转移次数,以及t-1时刻的状态Si,t时刻状态Sj,转移到t+1时刻状态为Sk的次数。分别表示从状态Si到所有状态的转移次数之和,以及t-1时刻的状态Si,t时刻状态Sj,转移到所有状态的次数之和;
③观察值释放概率
b j ( O k ) = E j ( O k ) Σ i = 1 M E j ( O i ) , 1 ≤ j ≤ N - - - ( 4 )
b ij ( O k ) = E ij ( O k ) Σ i = 1 M E ij ( O u ) , 1 ≤ i , j ≤ N , 1 ≤ k ≤ M - - - ( 5 )
其中,Ej(Ok)和Eij(Ok)分别表示状态Sj时释放观察值Ok的次数,以及t-1时刻的状态Si,t时刻状态Sj,释放观察值Ok的次数。分别表示状态Sj时释放所有观察值的次数之和,以及t-1时刻的状态Si,t时刻状态Sj,释放所有观察值的次数之和;
提取部分包括两个步骤,即:(a)对待提取特征的文本进行预处理,对文本经过扫描后,利用分隔符、空格、换行、冒号排版将已标记文本序列转换为标记的文本分块序列;(b)结合训练部分输出的二阶HMM模型,利用Viterbi算法进行计算,应用已建立好的HMM模型进行用户兴趣特征提取,将处理得到后的状态输出观察值O=O1O2...OT作为模型输入,从中找出状态标签序列中概率最大的,用户特征提取的内容就是被标记为目标状态标签的观察文本;
2)分析反映用户兴趣的情境信息:通过对用户的搜索、浏览行为与购买记录信息的分析,推导出一段时间内用户的真实兴趣;
3)融入情境的用户兴趣本体模型构建:先将地域、性别、年龄、婚姻、教育背景和收入几个影响用户兴趣的关键作为背景因素指标,并结合用户的历史购买信息以及用户行为特征进行模糊处理以得到其兴趣度值;然后采用本体情境的表示方法,通过多粒度划分,构建用户兴趣本体模型;
4)基于隐半马尔可夫模型的用户兴趣漂移检测方法:
选取两个观察值来描述用户的浏览行为:a)用户访问网页的浏览路径序列;b)从一个网页到达另一个网页的时间间隔;所有状态集合表示为S={S1,S2,...,SN},相对应的观察值集合表示为V={v1,v2,...,vN},时间间隔表示为集合I={1,2,...};对于用户的某一浏览行为,其浏览路径链接的个数是一个随机变量,在给定状态下输出的观察值的个数可将该浏览行为表示成集合{1,...,D}。把用户浏览路径序列即二维观察值序列表示成O={(r11),...,(rTT)},其中:rt∈V表示用户浏览网页内容的对象;τt∈I表示用户从一个页面跳转到另一个页面rt与rt-1之间的时间间隔;模型的输出概率矩阵用B={bi(v,q)}表示,对于给定状态i∈S,bi(v,q)表示用户在一个页面rt=v∈V且与前一个页面的时间间隔为τt=q∈I的概率,且满足∑v,qbi(v,q)=1;用P={pi(d)}表示在给定状态i下输出观察值个数为d∈{1,...,D}的概率,是隐半马尔可夫模型中状态驻留时间的概率矩阵,且满足∑dpi(d)=1;状态转移概率矩阵通过A={aij}进行表示,aij表示从i∈S向j∈S转移的概率;初始概率向量用π={πi}表示,πi表示初始状态在i∈S时的概率;
将用户的一条重要的兴趣行为记录定义为:Uinterest={user,background,history,behavior,timestamp,content},其中,user用户表示,如ID;background表示用户具体背景因素;history表示用户的历史购买记录;behavior标识具体兴趣行为操作结果;timestamp表示用户行为的执行时间;content表示兴趣主题内容;
在用户访问事务中,任意两个行为操作之间存在着访问转移概率P(qi→qj),表示兴趣权重如下:
P ( q i → q j ) = P ( q j | q i ) = P ( q i q j ) P ( q i ) = θ 1 W B ( q i , q j ) + θ 2 W HI ( q i , q j ) + θ 3 W IB ( q i , q j ) + θ 4 W L ( q i , q j ) θ 1 W B ( q i ) + θ 2 W HI ( q i ) + θ 3 W IB ( q i ) + θ 4 W L ( q i ) , i ≠ j 0 , i = j - - - ( 6 )
对于每个qj及其相对应的概念都存在一个观察值概率分布即u对qj的所有访问中,对的兴趣概率,可由ati所包含被访问节点的集合为Qi={q′1,...,q'f|q'∈IC},则Qi,j表示ati中在qj之后的所有被访问节点的集合,表示Qi,j中含有节点的集合:
Q i , j = { q k + l ′ | q k ′ = q j , l = 0 , . . . , ( f - k ) } , q j ∈ Q i Null - - - ( 7 )
将u在qj上观察值概率分布定义为:
然后在用户u根据的所有可能访问序列中寻找一个状态序列,建立用户兴趣行为的隐半马尔可夫模型,使其具有最大的访问概率:
P max ( σ z k ) = arg max ΠP ( q k → q k + 1 ) P ( σ z k | q k ) - - - ( 9 )
在对用户兴趣漂移进行检测的过程中,首先需要采集HSMM模型中的观察序列,并且在模型进行训练之前对数据进行预处理,确定模型参数后,然后通过调用HSMM算法,得到用户兴趣不变的概率值,其概率值用平均对数或然概率进行计算,当用户的兴趣值处在正常范围内,则将用户数据加入到训练数据集中,以更新隐半马尔可夫模型的参数;否则,该用户将被认为是兴趣漂移。
进一步,所述步骤1)中,获取用户个性化信息的途径有两种:(a)通过网络调查,用户自己参与的方式进行收集;(b)通过跟踪用户行为来获取用户的兴趣信息,采用用户行为数据的特征提取方法。
更进一步,所述步骤2)中,用户的行为信息包括用户搜索关键词、用户历史购买记录和用户历史浏览行为。
再进一步,所述步骤3)中,根据用户的兴趣情境信息,在构建用户本体情境中,将用户情境划分为用户个体情境、用户环境情境以及用户设备情境,。本体采用层次概念树的形式,用户情境的某一元素就是通过树中的每个节点来表示的,即构建情境本体树。
本发明的技术构思为:面向用户的个性化服务领域,根据方法所涉及的概念漂移和情境问题,提出了融入本体情境的用户兴趣挖掘方法,构建了能够满足用户需求的兴趣模型以提供个性化推荐服务,提高了用户满意度的有效手段。
基于此,本发明以用户个性化信息服务为研究对象,引入数据挖掘、本体技术,充分考虑用户个性化特征,提出一种融入本体情境的用户兴趣挖掘方法,有效实现用户个性化服务需求。
引入数据挖掘、本体技术,充分考虑用户个性化特征,首先针对电子商务网站中复杂多维的Web用户兴趣行为特征数据,构建基于二阶隐马尔可夫模型(Second-Order Hidden Markov Model)的用户兴趣特征提取模型;其次分析了能反映用户兴趣的情境信息,包括用户的个体信息、环境信息以及设备信息等;再次构建了基于情境本体的用户兴趣模型,同时采用逻辑模糊的思想对用户个体信息的兴趣度进行了度量与表达,最后基于隐半马尔可夫模型(Hidden Semi-MarkovModel,HSMM)的用户兴趣漂移检测方法,根据用户浏览路径构建模型,将序列的平均对数或然概率的均值作为阈值点,用以判断兴趣是否发生了漂移。
本发明的有益效果在于:本发明构建了能够满足用户需求的兴趣模型以提供个性化推荐服务,提高用户满意度的有效手段,具有良好的应用价值。
附图说明
图1是基于二阶HMM的兴趣特征提取的算法流程图。
图2是用户情境本体的构建流程。
图3兴趣漂移检测框图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1、图2和图3,一种融入本体情境的用户兴趣挖掘方法,所述用户兴趣挖掘方法包括以下步骤:
5)建立基于二阶隐马尔可夫模型的用户兴趣特征提取模型:Web信息抽取(Web Information Extraction)属于Web内容挖掘的范畴,是从半结构化的Web文档中抽取数据,将Web作为信息源的一类信息抽取方法。本步骤包括用户数据的收集以及用户兴趣特征提取模型的建立。
为了构建用户兴趣模型,首先需要收集得到那些能够反映用户兴趣的数据。通常情况下,用户的数据往往很多,包括用户注册的信息,日志信息,文本页面内容数据,站点拓扑结构,用户的行为数据,以及页面超链结信息等。这些数据可以从客户端、服务器端、代理服务器端等数据源获得,这些元数据获取之后,可将它们进行预处理并以适当的格式进行保存,供以后用户兴趣的挖掘。归纳起来,获取用户个性化信息的途径主要有两种:(a)通过网络调查,用户自己参与的方式进行收集。这种方法可以直接获取用户的兴趣与信息需求倾向,但是必须要有用户的积极配合;(b)通过跟踪用户行为来获取用户的兴趣信息。由于第一种获取用户数据的途径,例如注册信息,直接由用户以表单的方式提供,传入后台数据库,其用户兴趣特征的提取比较方便,而通过跟踪用户的隐式行为来推断用户兴趣的数据却无法直接获得,所以这里主要采用用户行为数据的特征提取方法。
其次,用户兴趣的特征提取属于文本信息抽取范畴,而信息抽取已经成为自然语言处理的一个重要方向,理论研究不断得到发展。目前有关信息抽取的模型主要有3类:一种是基于字典的模型;一种是基于规则的模型,如本体;一种是基于统计的模型,如隐马尔可夫模型(HMM)。由于HMM有非常适合自然语言处理的统计学基础,加上其抽取鲁棒性强、精度高、易于建立而且适应性强等优点,越来越受到研究者的关注。这里采用二阶隐马尔可夫模型对用户兴趣特征提取,流程图如图1所示。主要包括两大部分,即训练部分与提取部分。
训练部分包括将用户兴趣的一些特征信息先后顺序进行预处理,形成文本文档,然后对文本经过扫描后,利用分隔符、空格、换行、冒号等排版将已标记文本序列转换为标记的文本分块序列,最后用二阶HMM模型对其计算以下模型参数,其参数的确定算法如公式所示:
①初始概率分布矢量
π i = Init ( i ) Σ j = 1 N Init ( j ) , 1 ≤ i ≤ N - - - ( 10 )
其中,Init(i)指已标记的整个训练样本中,以状态Si为开始状态序列的个数,则指以所有状态为开始状态序列的个数总和。
②初始状态转移概率
a ij = C ij Σ k = 1 N C ik , 1 ≤ i , j ≤ N - - - ( 11 )
a ijk = C ijk Σ u = 1 N C iju , 1 ≤ i , j , k ≤ N - - - ( 12 )
其中,Cij和Cijk分别表示从状态Si到Sj的转移次数,以及t-1时刻的状态Si,t时刻状态Sj,转移到t+1时刻状态为Sk的次数。分别表示从状态Si到所有状态的转移次数之和,以及t-1时刻的状态Si,t时刻状态Sj,转移到所有状态的次数之和。
③观察值释放概率
b j ( O k ) = E j ( O k ) Σ i = 1 M E j ( O i ) , 1 ≤ j ≤ N - - - ( 13 )
b ij ( O k ) = E ij ( O k ) Σ i = 1 M E ij ( O u ) , 1 ≤ i , j ≤ N , 1 ≤ k ≤ M - - - ( 14 )
其中,Ej(Ok)和Eij(Ok)分别表示状态Sj时释放观察值Ok的次数,以及t-1时刻的状态Si,t时刻状态Sj,释放观察值Ok的次数。分别表示状态Sj时释放所有观察值的次数之和,以及t-1时刻的状态Si,t时刻状态Sj,释放所有观察值的次数之和。
提取部分包括两个步骤,即:(a)对待提取特征的文本进行预处理,对文本经过扫描后,利用分隔符、空格、换行、冒号等排版将已标记文本序列转换为标记的文本分块序列;(b)结合训练部分输出的二阶HMM模型,利用Viterbi算法进行计算。应用已建立好的HMM模型进行用户兴趣特征提取。将处理得到后的状态输出观察值O=O1O2...OT作为模型输入,从中找出状态标签序列中概率最大的,用户特征提取的内容就是被标记为目标状态标签的观察文本。
6)分析反映用户兴趣的情境信息:网络用户的兴趣特征主要是由与用户兴趣相关的内在因素和外在因素影响的。内在因素有性别、年龄、职业、性格、教育、收入等方面,外在因素则包括了文化背景、社会环境、家庭情况等方面,内在和外在的多方面因素导致了网络用户不同行为的产生。正因为这种原因,使得不同的用户存在多方面的差异,对商品的兴趣程度与偏向也有所不同。
用户的兴趣常常能在自身的行为中得到反映,当他们对某种东西有兴趣就会产生一定的倾向性,用户的需求与兴趣会被记录在他们的行为信息中,因此可以通过对用户的搜索、浏览行为与购买记录等信息的分析,推导出一段时间内用户的真实兴趣。这里,用户的行为信息主要包括以下几个方面:用户搜索关键词、用户历史购买记录、用户历史浏览行为等。
7)融入情境的用户兴趣本体模型构建:先将地域、性别、年龄、婚姻、教育背景和收入几个影响用户兴趣的关键作为背景因素指标,并结合用户的历史购买信息以及用户行为特征进行模糊处理以得到其兴趣度值;然后采用本体情境的表示方法,通过多粒度划分,构建用户兴趣本体模型。构建用户情境本体模型的流程图如图2所示。
根据用户的兴趣情境信息,在构建用户本体情境中,将用户情境划分为用户个体情境、用户环境情境以及用户设备情境。本体通常是采用层次概念树的形式,用户情境的某一元素就是通过树中的每个节点来表示的,即构建情境本体树。
8)基于隐半马尔可夫模型的用户兴趣漂移检测方法:网上用户在浏览中的购物行为过程是受浏览目的、文化背景、兴趣爱好等多种个体因素影响的复杂过程,通过对背景因素、用户行为以及兴趣内容来综合考虑用户的兴趣,并建立隐半马尔可夫模型(HSMM)来检测用户兴趣是否发生漂移。
假设用户在浏览网页的过程中,其浏览行为符合马尔可夫性,则本文选取以下两个观察值来描述用户的浏览行为:a)用户访问网页的浏览路径序列;b)从一个网页到达另一个网页的时间间隔。所有状态集合表示为S={S1,S2,...,SN},相对应的观察值集合表示为V={v1,v2,...,vN},时间间隔表示为集合I={1,2,...};对于用户的某一浏览行为,其浏览路径链接的个数是一个随机变量,在给定状态下输出的观察值的个数可将该浏览行为表示成集合{1,...,D}。把用户浏览路径序列即二维观察值序列表示成O={(r11),...,(rTT)},其中:rt∈V表示用户浏览网页内容的对象;τt∈I表示用户从一个页面跳转到另一个页面rt与rt-1之间的时间间隔。模型的输出概率矩阵用B={bi(v,q)}表示,对于给定状态i∈S,bi(v,q)表示用户在一个页面rt=v∈V且与前一个页面的时间间隔为τt=q∈I的概率,且满足∑v,qbi(v,q)=1。用P={pi(d)}表示在给定状态i下输出观察值个数为d∈{1,...,D}的概率,是隐半马尔可夫模型中状态驻留时间的概率矩阵,且满足∑dpi(d)=1。状态转移概率矩阵通过A={aij}进行表示,aij表示从i∈S向j∈S转移的概率。初始概率向量用π={πi}表示,πi表示初始状态在i∈S时的概率。
将用户的一条重要的兴趣行为记录定义为:Uinterest={user,background,history,behavior,timestamp,content}。其中,user用户表示,如ID;background表示用户具体背景因素;history表示用户的历史购买记录;behavior标识具体兴趣行为操作结果;timestamp表示用户行为的执行时间;content表示兴趣主题内容。
在用户访问事务中,任意两个行为操作之间存在着访问转移概率P(qi→qj),可表示兴趣权重如下:
P ( q i → q j ) = P ( q j | q i ) = P ( q i q j ) P ( q i ) = θ 1 W B ( q i , q j ) + θ 2 W HI ( q i , q j ) + θ 3 W IB ( q i , q j ) + θ 4 W L ( q i , q j ) θ 1 W B ( q i ) + θ 2 W HI ( q i ) + θ 3 W IB ( q i ) + θ 4 W L ( q i ) , i ≠ j 0 , i = j - - - ( 15 )
对于每个qj及其相对应的概念都存在一个观察值概率分布即u对qj的所有访问中。对的兴趣概率,可由ati所包含被访问节点的集合为Qi={q′1,...,q'f|q'∈IC},则Qi,j表示ati中在qj之后的所有被访问节点的集合,表示Qi,j中含有节点的集合:
Q i , j = { q k + l ′ | q k ′ = q j , l = 0 , . . . , ( f - k ) } , q j ∈ Q i Null - - - ( 16 )
将u在qj上观察值概率分布定义为:
然后在用户u根据的所有可能访问序列中寻找一个状态序列,建立用户兴趣行为的隐半马尔可夫模型,使其具有最大的访问概率:
P max ( σ z k ) = arg max ΠP ( q k → q k + 1 ) P ( σ z k | q k ) - - - ( 18 )
在对用户兴趣漂移进行检测的过程中,首先需要采集HSMM模型中的观察序列,这里主要是将用户的浏览行为数据用作观察值序列,并且在模型进行训练之前对数据进行预处理,确定模型参数后,然后通过调用HSMM算法,得到用户兴趣不变的概率值,其概率值用平均对数或然概率进行计算。当用户的兴趣值处在正常范围内,则将用户数据加入到训练数据集中,以更新隐半马尔可夫模型的参数;否则,该用户将被认为是兴趣漂移。漂移检测的实现方法如图3所示。

Claims (4)

1.一种融入本体情境的用户兴趣挖掘方法,其特征在于:所述用户兴趣挖掘方法包括以下步骤:
1)建立基于二阶隐马尔可夫模型的用户兴趣特征提取模型:
首先需要收集得到那些能够反映用户兴趣的数据,过程如下:从客户端、服务器端、代理服务器端获得用户源数据,这些源数据获取之后,将它们进行预处理并以设定的格式进行保存,供以后用户兴趣的挖掘。
其次,采用二阶隐马尔可夫模型对用户兴趣特征提取,包括训练部分与提取部分;
训练部分包括将用户兴趣的特征信息先后顺序进行预处理,形成文本文档,然后对文本经过扫描后,利用分隔符、空格、换行、冒号排版将已标记文本序列转换为标记的文本分块序列,最后用二阶HMM模型对其计算以下模型参数,其参数的确定算法如公式所示:
①初始概率分布矢量
π i = Init ( i ) Σ j = 1 N Init ( j ) , 1 ≤ i ≤ N - - - ( 1 )
其中,Init(i)指已标记的整个训练样本中,以状态Si为开始状态序列的个数,则指以所有状态为开始状态序列的个数总和;
②初始状态转移概率
a ij = C ij Σ k = 1 N C ik , 1 ≤ i , j ≤ N - - - ( 2 )
a ijk = C ijk Σ u = 1 N C iju , 1 ≤ i , j , k ≤ N - - - ( 3 )
其中,Cij和Cijk分别表示从状态Si到Sj的转移次数,以及t-1时刻的状态Si,t时刻状态Sj,转移到t+1时刻状态为Sk的次数。分别表示从状态Si到所有状态的转移次数之和,以及t-1时刻的状态Si,t时刻状态Sj,转移到所有状态的次数之和;
③观察值释放概率
b j ( O k ) = E j ( O k ) Σ i = 1 M E j ( O i ) , 1 ≤ j ≤ N - - - ( 4 )
b ij ( O k ) = E ij ( O k ) Σ i = 1 M E ij ( O u ) , 1 ≤ i , j ≤ N , 1 ≤ k ≤ M - - - ( 5 )
其中,Ej(Ok)和Eij(Ok)分别表示状态Sj时释放观察值Ok的次数,以及t-1时刻的状态Si,t时刻状态Sj,释放观察值Ok的次数。分别表示状态Sj时释放所有观察值的次数之和,以及t-1时刻的状态Si,t时刻状态Sj,释放所有观察值的次数之和;
提取部分包括两个步骤,即:(a)对待提取特征的文本进行预处理,对文本经过扫描后,利用分隔符、空格、换行、冒号排版将已标记文本序列转换为标记的文本分块序列;(b)结合训练部分输出的二阶HMM模型,利用Viterbi算法进行计算,应用已建立好的HMM模型进行用户兴趣特征提取,将处理得到后的状态输出观察值O=O1O2...OT作为模型输入,从中找出状态标签序列中概率最大的,用户特征提取的内容就是被标记为目标状态标签的观察文本;
2)分析反映用户兴趣的情境信息:通过对用户的搜索、浏览行为与购买记录信息的分析,推导出一段时间内用户的真实兴趣;
3)融入情境的用户兴趣本体模型构建:先将地域、性别、年龄、婚姻、教育背景和收入几个影响用户兴趣的关键作为背景因素指标,并结合用户的历史购买信息以及用户行为特征进行模糊处理以得到其兴趣度值;然后采用本体情境的表示方法,通过多粒度划分,构建用户兴趣本体模型;
4)基于隐半马尔可夫模型的用户兴趣漂移检测方法:
选取两个观察值来描述用户的浏览行为:a)用户访问网页的浏览路径序列;b)从一个网页到达另一个网页的时间间隔;所有状态集合表示为S={S1,S2,...,SN},相对应的观察值集合表示为V={v1,v2,...,vN},时间间隔表示为集合I={1,2,...};对于用户的某一浏览行为,其浏览路径链接的个数是一个随机变量,在给定状态下输出的观察值的个数可将该浏览行为表示成集合{1,...,D}。把用户浏览路径序列即二维观察值序列表示成O={(r11),...,(rTT)},其中:rt∈V表示用户浏览网页内容的对象;τt∈I表示用户从一个页面跳转到另一个页面rt与rt-1之间的时间间隔;模型的输出概率矩阵用B={bi(v,q)}表示,对于给定状态i∈S,bi(v,q)表示用户在一个页面rt=v∈V且与前一个页面的时间间隔为τt=q∈I的概率,且满足∑v,qbi(v,q)=1;用P={pi(d)}表示在给定状态i下输出观察值个数为d∈{1,...,D}的概率,是隐半马尔可夫模型中状态驻留时间的概率矩阵,且满足∑dpi(d)=1;状态转移概率矩阵通过A={aij}进行表示,aij表示从i∈S向j∈S转移的概率;初始概率向量用π={πi}表示,πi表示初始状态在i∈S时的概率;
将用户的一条重要的兴趣行为记录定义为:Uinterest={user,background,history,behavior,timestamp,content},其中,user用户表示,如ID;background表示用户具体背景因素;history表示用户的历史购买记录;behavior标识具体兴趣行为操作结果;timestamp表示用户行为的执行时间;content表示兴趣主题内容;
在用户访问事务中,任意两个行为操作之间存在着访问转移概率P(qi→qj),表示兴趣权重如下:
P ( q i → q j ) = P ( q j | q i ) = P ( q i q j ) P ( q i ) = θ 1 W B ( q i , q j ) + θ 2 W HI ( q i , q j ) + θ 3 W IB ( q i , q j ) + θ 4 W L ( q i , q j ) θ 1 W B ( q i ) + θ 2 W HI ( q i ) + θ 3 W IB ( q i ) + θ 4 W L ( q i ) , i ≠ j 0 , i = j - - - ( 6 )
对于每个qj及其相对应的概念都存在一个观察值概率分布即u对qj的所有访问中,对的兴趣概率,可由ati所包含被访问节点的集合为Qi={q′1,...,q'f|q'∈IC},则Qi,j表示ati中在qj之后的所有被访问节点的集合,表示Qi,j中含有节点的集合:
Q i , j = { q k + l ′ | q k ′ = q j , l = 0 , . . . , ( f - k ) } , q j ∈ Q i Null - - - ( 7 )
将u在qj上观察值概率分布定义为:
然后在用户u根据的所有可能访问序列中寻找一个状态序列,建立用户兴趣行为的隐半马尔可夫模型,使其具有最大的访问概率:
P max ( σ z k ) = arg max ΠP ( q k → q k + 1 ) P ( σ z k | q k ) - - - ( 9 )
在对用户兴趣漂移进行检测的过程中,首先需要采集HSMM模型中的观察序列,并且在模型进行训练之前对数据进行预处理,确定模型参数后,然后通过调用HSMM算法,得到用户兴趣不变的概率值,其概率值用平均对数或然概率进行计算,当用户的兴趣值处在正常范围内,则将用户数据加入到训练数据集中,以更新隐半马尔可夫模型的参数;否则,该用户将被认为是兴趣漂移。
2.如权利要求1所述的一种融入本体情境的用户兴趣挖掘方法,其特征在于:所述步骤1)中,获取用户个性化信息的途径有两种:(a)通过网络调查,用户自己参与的方式进行收集;(b)通过跟踪用户行为来获取用户的兴趣信息,采用用户行为数据的特征提取方法。
3.如权利要求1或2所述的一种融入本体情境的用户兴趣挖掘方法,其特征在于:所述步骤2)中,用户的行为信息包括用户搜索关键词、用户历史购买记录和用户历史浏览行为。
4.如权利要求1或2所述的一种融入本体情境的用户兴趣挖掘方法,其特征在于:所述步骤3)中,根据用户的兴趣情境信息,在构建用户本体情境中,将用户情境划分为用户个体情境、用户环境情境以及用户设备情境,。本体采用层次概念树的形式,用户情境的某一元素就是通过树中的每个节点来表示的,即构建情境本体树。
CN201410269562.6A 2014-06-17 2014-06-17 一种融入本体情境的用户兴趣挖掘方法 Expired - Fee Related CN104008203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410269562.6A CN104008203B (zh) 2014-06-17 2014-06-17 一种融入本体情境的用户兴趣挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410269562.6A CN104008203B (zh) 2014-06-17 2014-06-17 一种融入本体情境的用户兴趣挖掘方法

Publications (2)

Publication Number Publication Date
CN104008203A true CN104008203A (zh) 2014-08-27
CN104008203B CN104008203B (zh) 2018-04-17

Family

ID=51368860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410269562.6A Expired - Fee Related CN104008203B (zh) 2014-06-17 2014-06-17 一种融入本体情境的用户兴趣挖掘方法

Country Status (1)

Country Link
CN (1) CN104008203B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718471A (zh) * 2014-12-03 2016-06-29 中国科学院声学研究所 用户偏好建模方法、***及用户偏好评估方法、***
CN106055661A (zh) * 2016-06-02 2016-10-26 福州大学 基于多Markov链模型的多兴趣资源推荐方法
CN106651517A (zh) * 2016-12-20 2017-05-10 广东技术师范学院 一种基于隐半马尔可夫模型的药品推荐方法
CN106776757A (zh) * 2016-11-15 2017-05-31 中国银行股份有限公司 用户完成网银操作的指示方法及装置
CN107609063A (zh) * 2017-08-29 2018-01-19 重庆邮电大学 一种多标签分类的手机应用推荐***及其方法
CN108038222A (zh) * 2017-12-22 2018-05-15 冶金自动化研究设计院 用于信息***建模和数据访问的实体-属性框架的***
CN108596205A (zh) * 2018-03-20 2018-09-28 重庆邮电大学 基于地域相关因子与稀疏表示的微博转发行为预测方法
CN108809955A (zh) * 2018-05-22 2018-11-13 南瑞集团有限公司 一种基于隐马尔可夫模型的电力用户行为深度分析方法
CN109741146A (zh) * 2019-01-04 2019-05-10 平安科技(深圳)有限公司 基于用户行为的产品推荐方法、装置、设备及存储介质
CN109933741A (zh) * 2019-02-27 2019-06-25 京东数字科技控股有限公司 用户网络行为特征提取方法、装置及存储介质
WO2019120037A1 (zh) * 2017-12-18 2019-06-27 Oppo广东移动通信有限公司 模型构建方法、网络资源预加载方法、装置、介质及终端
CN110162553A (zh) * 2019-05-21 2019-08-23 南京邮电大学 基于attention-RNN的用户兴趣挖掘方法
CN110297817A (zh) * 2019-06-25 2019-10-01 哈尔滨工业大学 一种基于个性化贝叶斯知识追踪模型构建知识结构的方法
CN110866542A (zh) * 2019-10-17 2020-03-06 西安交通大学 一种基于特征可控融合的深度表示学习方法
CN109388661B (zh) * 2017-08-02 2020-04-21 创新先进技术有限公司 一种基于共享数据的模型训练方法及装置
CN112948672A (zh) * 2015-05-26 2021-06-11 谷歌有限责任公司 针对特定场境预测用户需求
CN114169869A (zh) * 2022-02-14 2022-03-11 北京大学 一种基于注意力机制的岗位推荐方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100257131A1 (en) * 2007-12-28 2010-10-07 Kun-Oh Kim Apparatus and method for controlling hybrid motor
CN102043793A (zh) * 2009-10-09 2011-05-04 卢健华 一种面向知识服务的推荐方法
CN103514289A (zh) * 2013-10-08 2014-01-15 北京百度网讯科技有限公司 一种兴趣本体库构建方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100257131A1 (en) * 2007-12-28 2010-10-07 Kun-Oh Kim Apparatus and method for controlling hybrid motor
CN102043793A (zh) * 2009-10-09 2011-05-04 卢健华 一种面向知识服务的推荐方法
CN103514289A (zh) * 2013-10-08 2014-01-15 北京百度网讯科技有限公司 一种兴趣本体库构建方法及装置

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718471A (zh) * 2014-12-03 2016-06-29 中国科学院声学研究所 用户偏好建模方法、***及用户偏好评估方法、***
CN112948672A (zh) * 2015-05-26 2021-06-11 谷歌有限责任公司 针对特定场境预测用户需求
CN106055661B (zh) * 2016-06-02 2017-11-17 福州大学 基于多Markov链模型的多兴趣资源推荐方法
CN106055661A (zh) * 2016-06-02 2016-10-26 福州大学 基于多Markov链模型的多兴趣资源推荐方法
CN106776757B (zh) * 2016-11-15 2020-03-27 中国银行股份有限公司 用户完成网银操作的指示方法及装置
CN106776757A (zh) * 2016-11-15 2017-05-31 中国银行股份有限公司 用户完成网银操作的指示方法及装置
CN106651517A (zh) * 2016-12-20 2017-05-10 广东技术师范学院 一种基于隐半马尔可夫模型的药品推荐方法
CN106651517B (zh) * 2016-12-20 2021-11-30 广东技术师范大学 一种基于隐半马尔可夫模型的药品推荐方法
CN109388661B (zh) * 2017-08-02 2020-04-21 创新先进技术有限公司 一种基于共享数据的模型训练方法及装置
US11106802B2 (en) 2017-08-02 2021-08-31 Advanced New Technologies Co., Ltd. Model training method and apparatus based on data sharing
US11106804B2 (en) 2017-08-02 2021-08-31 Advanced New Technologies Co., Ltd. Model training method and apparatus based on data sharing
CN107609063A (zh) * 2017-08-29 2018-01-19 重庆邮电大学 一种多标签分类的手机应用推荐***及其方法
CN107609063B (zh) * 2017-08-29 2020-03-17 重庆邮电大学 一种多标签分类的手机应用推荐***及其方法
WO2019120037A1 (zh) * 2017-12-18 2019-06-27 Oppo广东移动通信有限公司 模型构建方法、网络资源预加载方法、装置、介质及终端
CN108038222B (zh) * 2017-12-22 2022-01-11 冶金自动化研究设计院 用于信息***建模和数据访问的实体-属性框架的***
CN108038222A (zh) * 2017-12-22 2018-05-15 冶金自动化研究设计院 用于信息***建模和数据访问的实体-属性框架的***
CN108596205A (zh) * 2018-03-20 2018-09-28 重庆邮电大学 基于地域相关因子与稀疏表示的微博转发行为预测方法
CN108596205B (zh) * 2018-03-20 2022-02-11 重庆邮电大学 基于地域相关因子与稀疏表示的微博转发行为预测方法
CN108809955B (zh) * 2018-05-22 2019-05-24 南瑞集团有限公司 一种基于隐马尔可夫模型的电力用户行为深度分析方法
CN108809955A (zh) * 2018-05-22 2018-11-13 南瑞集团有限公司 一种基于隐马尔可夫模型的电力用户行为深度分析方法
CN109741146A (zh) * 2019-01-04 2019-05-10 平安科技(深圳)有限公司 基于用户行为的产品推荐方法、装置、设备及存储介质
CN109933741B (zh) * 2019-02-27 2020-06-23 京东数字科技控股有限公司 用户网络行为特征提取方法、装置及存储介质
CN109933741A (zh) * 2019-02-27 2019-06-25 京东数字科技控股有限公司 用户网络行为特征提取方法、装置及存储介质
CN110162553A (zh) * 2019-05-21 2019-08-23 南京邮电大学 基于attention-RNN的用户兴趣挖掘方法
CN110297817A (zh) * 2019-06-25 2019-10-01 哈尔滨工业大学 一种基于个性化贝叶斯知识追踪模型构建知识结构的方法
CN110866542A (zh) * 2019-10-17 2020-03-06 西安交通大学 一种基于特征可控融合的深度表示学习方法
CN110866542B (zh) * 2019-10-17 2021-11-19 西安交通大学 一种基于特征可控融合的深度表示学习方法
CN114169869A (zh) * 2022-02-14 2022-03-11 北京大学 一种基于注意力机制的岗位推荐方法及装置
CN114169869B (zh) * 2022-02-14 2022-06-07 北京大学 一种基于注意力机制的岗位推荐方法及装置

Also Published As

Publication number Publication date
CN104008203B (zh) 2018-04-17

Similar Documents

Publication Publication Date Title
CN104008203A (zh) 一种融入本体情境的用户兴趣挖掘方法
Ozsoy From word embeddings to item recommendation
Chandra et al. Estimating twitter user location using social interactions--a content based approach
Deng et al. Exploring user emotion in microblogs for music recommendation
CN102004774B (zh) 基于统一概率模型的个性化用户标签建模与推荐方法
Li et al. Community detection using hierarchical clustering based on edge-weighted similarity in cloud environment
CN101216825B (zh) 标引关键词提取/预测方法
CN102254038B (zh) 一种分析网络评论相关度的***及其分析方法
CN105045931A (zh) 一种基于Web挖掘的视频推荐方法和***
Abebe et al. Generic metadata representation framework for social-based event detection, description, and linkage
US20200026759A1 (en) Artificial intelligence engine for generating semantic directions for websites for automated entity targeting to mapped identities
CN104008109A (zh) 基于用户兴趣的Web信息推送服务***
CN104376406A (zh) 一种基于大数据的企业创新资源管理与分析***和方法
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN105045901A (zh) 搜索关键词的推送方法和装置
CN104268271A (zh) 一种兴趣和网络结构双内聚的社交网络社区发现方法
CN105718579A (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN104462253A (zh) 一种面向网络文本大数据的话题检测或跟踪方法
CN103838756A (zh) 一种确定推送信息的方法及装置
CN104750789A (zh) 标签的推荐方法及装置
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN105159930A (zh) 搜索关键词的推送方法和装置
CN103544188A (zh) 移动互联网内容的用户偏好推送方法与装置
CN103678531A (zh) 好友推荐方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180417