CN102567392A - 一种基于时间窗口兴趣主题挖掘的控制方法 - Google Patents

一种基于时间窗口兴趣主题挖掘的控制方法 Download PDF

Info

Publication number
CN102567392A
CN102567392A CN201010613845XA CN201010613845A CN102567392A CN 102567392 A CN102567392 A CN 102567392A CN 201010613845X A CN201010613845X A CN 201010613845XA CN 201010613845 A CN201010613845 A CN 201010613845A CN 102567392 A CN102567392 A CN 102567392A
Authority
CN
China
Prior art keywords
user
mark records
window
mark
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201010613845XA
Other languages
English (en)
Inventor
林欣
滕跃
肖洁
何克勤
张波
贺樑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201010613845XA priority Critical patent/CN102567392A/zh
Publication of CN102567392A publication Critical patent/CN102567392A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供基于时间窗口兴趣主题挖掘的控制方法,包括步骤:a.确定用户标注记录和社会标注记录;b.根据所述用户标注记录和社会标注记录确定标准标注记录;c.根据所述标准标注记录生成用户兴趣主题树;d.建立窗口并确定所述窗口与所述主题树的对应关系;e.根据所述对应关系计算所述主题树的权重。还提供相应的控制装置。本发明不需要参考大量用户的比较计算;利用了先验概率公式来建立兴趣主题树,只需要扫描用户的各个项目的标注记录;在协同标注的***中,用户标注的记录具有各自的特征,能够准确反映用户的个性。使得全体用户在不失个性化的前提下,又具有社会性。

Description

一种基于时间窗口兴趣主题挖掘的控制方法
技术领域
本发明涉及用户行为服务推荐的技术领域,具体地说是一种从用户历史行为发掘用户兴趣点实现为用户推荐的算法。
背景技术
Web已成为人们获取信息的一个重要途径,由于Web信息的日益增长,所谓的“信息过载”问题就使得人们不得不花费大量的时间去搜索,浏览自己需要的信息。搜索引擎是最普遍的辅助人们检索信息的工具如Google,Baidu等等。信息检索技术满足了人们一定的需求,但是由于其通用性质,仍不能满足不同背景、不同目的和不同时期的查询请求。尤其在电子商务领域如Amazon,淘宝等,如何让用户方便快捷获得自己需要的产品,对提高企业信誉和盈利的关键,同时用户的体验也是吸引长久用户存在的根本。个性化推荐技术就是针对这个问题而提出的,它为不同用户提供不同的服务,以满足不同的需求。因此个性化的概念和相关研究应运而生。
对推荐***的商业研究和学术研究吸引了非常多研究者的目光,到目前为止也已经提出了很多经典的理论如协同过滤技术(Collaborative Filtering),基于内容的过滤(Content-based Filtering)。协同过滤技术是基于用户对项目的显示评分进行,它的优点是能够对难以表达的概念进行过滤,缺点是需要用户主动显示去对项目进行评分。基于内容的过滤是主要对用户对项目的描述信息,利用文本处理技术来进行分析,它的优点是能比较准确给用户以推荐,同时它的缺陷是对文本处理需要比较高的要求,通常是通过提取关键字来建立相关模型进行分析,所花费时间复杂度比较高。随着Web2.0技术的发展,用户已从传统的网络信息的接收者转变为网络内容的创造者,用户可以给自己感兴趣的项目进行自由标注,产生的标注用户可以在任何地点和任何机器上都可以随时访问到,而不同于传统收藏夹只能在本地进行浏览,这是协同标注***产生和发展的原因。如何在社会关系网(Social Network)和协同标记***(Collaborative Tagging System)中做推荐成为目前推荐***的两个新的热点。首先,推荐***的两个主要的思想和假设就是:1.相似的用户会有相似的喜好,可通过相似用户的记录来为当前用户推荐;2.用户之前喜欢的其之后很可能还是感兴趣的。基于协同标注的方法可以反映用户的兴趣行为,在协同标注***中用户可以简单地通过对其项目进行标注,也可以通过其标注进行搜索自己感兴趣的以及浏览其他用户的与之相关项目。因为用户的标注可以反映用户的兴趣,而且用户可能存在多个兴趣点,所以对用户进行兴趣点的发掘将对用户产生推荐具有很高的价值。对个体用户的标注项目的记录以及社会对项目的标注记录进行分析来发现用户的兴趣,它实时性高、资源开销小,虽然用户的部分标注存在很大的精度,但是结合社会关系网可以改善用户的标注质量,来提升推荐精度和准确度。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于时间窗口兴趣主题挖掘的控制方法以及相应的控制装置。
根据本发明的一个方面,提供基于时间窗口兴趣主题挖掘的控制方法,包括步骤:a.确定用户标注记录和社会标注记录;b.根据所述用户标注记录和社会标注记录确定标准标注记录;c.根据所述标准标注记录生成用户兴趣主题树;d.建立窗口并确定所述窗口与所述主题树的对应关系;e.根据所述对应关系计算所述主题树的权重。
根据本发明的另一个方面,还提供基于时间窗口兴趣主题挖掘的控制装置,包括装置:第一确定装置,其用于确定用户标注记录和社会标注记录;第二确定装置,其用于根据所述用户标注记录和社会标注记录确定标准标注记录;第一生成装置,其用于根据所述标准标注记录生成用户兴趣主题树;第一处理装置,其用于建立窗口并确定所述窗口与所述主题树的对应关系;第一计算装置,其用于根据所述对应关系计算所述主题树的权重。
本发明的目的是提供一种基于时间窗口兴趣主题挖掘算法,该方法是对用户的历史标注记录和社会标注进行分析,对用户的标注建立层次树,每棵树代表用户的一个兴趣点,然后引入时间窗口权重来对兴趣点进行,这样排序后的兴趣点可以准确实时反映用户的兴趣的多样性和偏向性。
本发明的目的是这样实现的:
一种基于时间窗口兴趣主题挖掘算法,该算法需要对用户的历史标注和社会标注记录来进行分析,对用户的个人的历史标注记录中用户频繁使用的标注是用户的基本兴趣层次树的根,社会的历史标注记录来对用户的标注质量进行改善,然后通过兴趣层次树的根和其他标注的关系建立用户兴趣树,最后通过利用兴趣点层次树在协同标注***中进行检索形成推荐。具体操作步骤:
第一步:通过网页分析提取用户标注记录和社会标注记录;
第二步:衡量用户标注记录的质量值;
第三步:根据用户标注记录的质量值来对用户记录进行处理。如果用户的标注记录的质量值高于社会标注记录的质量值,则用用户的个人标注记录作为标准标注记录,否则使用社会标注记录作为标准标注记录,最后将标准标注记录确定为用户的标注记录。
第四步:统计用户关键字的使用频率,并进行排序;
第五步:应用先验概率公式来进行建立用户兴趣主题树;
第六步:对用户使用推荐***时间大小进行分窗口;
第七步:结合所分窗口,计算各窗口的权重;
第八步:对用户兴趣主题树进行遍历,将其映射到各窗口中,形成兴趣主题树和窗口的对应关系;
第九步:计算用户兴趣主题树权重,并对其进行排序
第十步:取TOP-N用户兴趣主题树,进行资源的相关检索和推荐;
本发明进一步特征在于第三步和第七步,使用先验概率来建立层次树,并且将用户个性化标注和社会标注进行结合。
与背景技术相比,本发明有以下优点:
(1)、易行性:不需要参考大量用户的比较计算。只需要对抓取的各个用户进行单独的历史标注记录的分析。不像传统的协同过滤需要进行大量邻居用户的寻找,然后才能进行预测其兴趣爱好。同时不像基于内容的特征提取,需要引进文本和语义的处理
(2)、简单性:本算法根据用户的各标注频率,利用了先验概率公式来建立兴趣主题树,只需要扫描用户的各个项目的标注记录,同样使用社会标注记录可以通过其项目的JSON文件获得,对标注质量比较低的用户即使用社会标注来进行替代,有利于提升搜索时对用户产生的推荐精度。
(3)、个性化和社会化结合。在协同标注的***中,用户标注的记录具有各自的特征,能够准确反映用户的个性,但是由于标注的自由性,用户的标注可能存在质量缺陷。而社会标注则是社会大部分人共同认可的,具有一定的可信性。在对部分用户用社会化的标签代替个人的标签,对推荐准确度会有一定的提升。使得全体用户在不失个性化的前提下,又具有社会性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明的第一实施例的,基于时间窗口兴趣主题挖掘的控制方法的流程图;
图2示出根据本发明的第二实施例的,基于时间窗口兴趣主题挖掘的控制方法的流程图;
图3示出根据本发明的第三实施例的,基于时间窗口兴趣主题挖掘的控制装置的结构图;
图4示出根据本发明的一个具体实施方式的,基于时间窗口兴趣主题挖掘的控制方法的原理示意图;
图5示出根据本发明的另一个具体实施方式的,基于时间窗口兴趣主题挖掘的控制方法的原理示意图;
图6示出根据本发明的一个具体实施方式的,基于用户兴趣主题树的挖掘控制方法的示意图;
图7示出根据本发明的一个具体实施方式的,基于时间窗口划分主题挖掘的控制方法,主要是对挖掘出的用户兴趣主题树进行排序,发现用户的最近真正感兴趣的主题树,这样对最后的用户推荐才能显得更加的准确。首先,将用户使用该***的时间按时间段进行划分,这样用户的时间就被划分成了许多的小的时间窗口,同时对划分的窗口进行编号从1开始一次递增,窗口的编号是遵循这样的原则,用户最近的标注记录是处在小窗口编号中,过去的标注记录建立的主题树必定处在大窗口号的窗口中。然后将用户的挖掘的出的兴趣主题树的支持集映射至刚才划分的窗口中,计算相应主题树在窗口中的权重大小,然后为下面的TOP-N主题树的选取提供依据。
具体实施方式
本发明公开了一种基于时间窗口兴趣主题挖掘算法,本发明需要在一个实际的推荐***环境中,通过对用户项目的历史标注记录和社会对该项目的标注的记录进行抓取和分析,得到用户的兴趣主题树,对其映射到时间窗口中,依此对各其进行排序,然后对其兴趣主题树检索资源。分析过程简单,无需复杂算法;能够实时反应用户兴趣,并给出较准确的预测;将用户个性化与社会化相结合,使得预测兴趣更接近用户真实预测。
参考图4以及图5,本发明需要在一个实际的推荐***环境中,通过对用户项目的历史标注记录和社会对该项目的标注的记录进行抓取和分析,得到用户的兴趣主题树,对其映射到时间窗口中,依此对各其进行排序,
所述的用户兴趣主题树的建立方法,是考虑通过统计用户关键字使用频率,同时引入用户标注记录质量值的概念,对用户的标注记录进行相关的处理来提高用户标注记录的质量,然后,应用先验概率公式来判断各关键字所属层次关系,建立用户兴趣主题树。
所述的窗口大小划分对其用户兴趣主题树进行映射,是考虑用户兴趣主题树对用户的相对重要性,根据协同过滤原理:用户对其过去感兴趣的项目,在将来也有可能同样感兴趣。同时用户的兴趣存在多样性,需对其最近感兴趣的提高相应权重,通过调整各用户兴趣主题树来得到最后的序列进行检索和推荐,这样会提高推荐的准确性
图1示出根据本发明的第一实施例的,基于时间窗口兴趣主题挖掘的控制方法的流程图。具体地,在本实施例中,首先执行步骤S210,确定用户标注记录和社会标注记录。然后执行步骤S211,根据所述用户标注记录和社会标注记录确定标准标注记录。然后执行步骤S212,根据所述标准标注记录生成用户兴趣主题树。然后执行步骤S213,建立窗口并确定所述窗口与所述主题树的对应关系。然后执行步骤S214,根据所述对应关系计算所述主题树的权重。然后执行步骤S215,根据所述权重对所述主题树进行排序。最后执行步骤S216,将与排序位置靠前的若干主题树对应的内容推荐给用户。
在本实施例的一个变化例中,所述步骤S215以及步骤S216可以被省略。
图2示出根据本发明的第二实施例的,基于时间窗口兴趣主题挖掘的控制方法的流程图。本领域技术人员理解,可以将本实施理解为图1所示实施例的一个具体实施方式。具体地,在本实施例中,首先执行步骤S220,从网页中提取所述用户标注记录和社会标注记录。然后执行步骤S221,判断所述用户标注记录的质量值是否大于所述社会标注记录的质量值。进一步地,若所述步骤S221的判断结果是肯定的,即所述用户标注记录的质量值大于所述社会标注记录的质量值,则接下来进入步骤S2221继续执行;若所述步骤S221的判断结果是否定的,即所述用户标注记录的质量值不大于所述社会标注记录的质量值,则接下来进入步骤S2222继续执行。其中,通过执行步骤S2221,将所述用户标注记录确定为所述标准标注记录。其中,通过执行步骤S2222,将所述社会标注记录确定为所述标准标注记录。然后执行步骤S223,根据所述标准标注记录确定关键词。然后执行步骤S224,统计所述关键词的使用频率生成频率排序结果。然后执行步骤S225,根据所述频率排序结果建立所述用户兴趣树。然后执行步骤S226,对用户使用时间大小进行分窗口。然后执行步骤S227,结合所有分窗口,计算各窗口的权重。然后执行步骤S228,对所述用户兴趣树进行遍历,将其映射到各窗口中。最后执行步骤S229,根据所述对应关系计算所述主题树的权重。
本领域技术人员可以将所述步骤S220理解为图1中的所述步骤S210的具体实施方式;将所述步骤S221、步骤S2221以及步骤S2222理解为图1中的所述步骤S211的具体实施方式;将所述步骤S223、步骤S224以及步骤S225理解为图1中的所述步骤S212的具体实施方式;将所述步骤S226、步骤S227以及步骤S228理解为图1中的所述步骤S213的具体实施方式。
在本实施例的一个优选例中,所述步骤S220包括步骤“确定用户中标注记录的质量值”、以及步骤“设定标准标注记录的质量值以及确定标准标注记录”。
在本实施例的另一个优选例中,所述步骤S225包括步骤“应用先验概率公式建立所述用户兴趣树”。
图3示出根据本发明的第三实施例的,基于时间窗口兴趣主题挖掘的控制装置的结构图。具体地,在本实施例中,所述控制装置4包括第一确定装置41,其用于确定用户标注记录和社会标注记录;第二确定装置42,其用于根据所述用户标注记录和社会标注记录确定标准标注记录;第一生成装置43,其用于根据所述标准标注记录生成用户兴趣主题树;第一处理装置44,其用于建立窗口并确定所述窗口与所述主题树的对应关系;第一计算装置45,其用于根据所述对应关系计算所述主题树的权重。优选地,还可以包括第一排序装置46,其用于根据所述权重对所述主题树进行排序;第一推荐装置47,其用于将与排序位置靠前的若干主题树对应的内容推荐给用户。
优选地,所述第一确定装置41包括第一提取装置,其用于从网页中提取所述用户标注记录和社会标注记录。
优选地,所述第二确定装置42包括第一判断装置421,其用于判断所述用户标注记录的质量值是否大于所述社会标注记录的质量值;第三确定装置422,其用于当所述第一判断装置的判断结果是肯定的时,将所述用户标注记录确定为所述标准标注记录;第四确定装置423,其用于当所述第一判断装置的判断结果是否定的时,将所述社会标注记录确定为所述标准标注记录。
优选地,所述第一生成装置43包括第五确定装置431,其用于根据所述标准标注记录确定关键词;第二处理装置432,其用于统计所述关键词的使用频率生成频率排序结果;第一建立装置433,其用于根据所述频率排序结果建立所述用户兴趣树。
优选地,所述第一处理装置44包括第三处理装置441,其用于对用户使用时间大小进行分窗口;第二计算装置442,其用于结合所有分窗口,计算各窗口的权重;第四处理装置443,其用于对所述用户兴趣树进行遍历,将其映射到各窗口中。
在本实施例的一个优选例中,所述第一提取装置411包括第六确定装置,其用于确定用户的标注记录的质量值;第一获取装置,其用于从网页中获取所述用户标注记录和社会标注记录。
在本实施例的另一个优选例中,所述第一建立装置433包括第二建立装置,其用于应用先验概率公式建立所述用户兴趣树。
进一步地,图4示出根据本发明的一个具体实施方式的,基于时间窗口兴趣主题挖掘的控制方法的示意图。首先我们从网页中获取所有用户资源的标注记录和其社会标注记录,从而建立***资源数据库,然后对其用户进行个人数据加载和分析,计算用户标注记录的质量值来确定标准标注记录,如果用户的标注记录的质量值高于社会标注记录的质量值,则用用户的个人标注记录作为标准标注记录,否则使用社会标注记录作为标准标注记录,从而将标准标注记录确定为用户的标注记录。其次,通过确定后的用户标注记录来为用户建立用户兴趣主题树,从而为用户建立模型,最后将兴趣主题树映射至时间窗口,同时计算各窗口的权重,对其用户兴趣主题树排序,选取排名靠前的兴趣主题树到***资源数据库进行资源检索,将其检索结果的TOP-N推荐给用户。
进一步地,图5示出根据本发明的另一个具体实施方式的,基于时间窗口兴趣主题挖掘的控制方法的示意图。本领域技术人员理解,本图5所示实施方式与图2所示实施例可以通过类似的方式予以实现。例如,图5所示步骤1~9可以参考图2所示各步骤予以实现,在此不予赘述。进一步地,图5所示实施方式还包括步骤10,即“计算各兴趣主题树的权重,并对其排序”,然后执行步骤11“取TOP-N用户兴趣主题树,进行资源的相关检索”,最后进入步骤12“推荐资源”。
本领域技术人员理解,上述步骤11可以通过如下方式实现:通过该用户对其资源的标注记录和对应资源的社会标注记录计算用户标注记录的质量值,具体计算如下:首先通过用户某一资源标注记录和相应资源的社会记录进行交集标注数除以其并集的标注数作为该资源的标注记录质量,然后依此同样方法计算出该用户的所有资源的标注记录值,最后通过该用户其所有资源标注记录值的平均值作为该用户的标注记录质量值,通过其和社会标注的记录质量值比较来确定标准标注记录。比如一个用户对一个资源的标注如下:Item_User(tag1,tag2,tag3,tag4)同时该资源的社会标注记录是Item_Social(tag1,tag3,tag5,tag6),则该用户对该资源的标注质量值是:
| Item _ User ∩ Item _ Social | | Item _ User ∪ Item _ Social |
此处的用户的标注质量值就是2/6交集是相同的标注记录有2个tag1,ag3并集是所有的标注记录数是6个tag1,tag2,tag3,tag4,tag5,tag6),社会标注的记录质量值的阈值是α,然后通过计算该用户所有资源质量的平均值和α进行比较,从而确定标准标注记录,如果该用户所有资源的标注质量值高于社会标注记录质量值,则将该用户的标注记录作为标准标注记录,否则用该用户的所有相应资源的社会标注记录作为标准标注记录,最后将确定的标准标注记录作为该用户对应资源的标注记录。进一步地,所述“依频率高低应用先验概率公式建立用户兴趣主题树”可以通过如下方式实现:例如,某一用户U有如下表一所示的一组标注记录,即表一显示了用户标注示例:
  tags
  post1   java,xml,jdom
  post2   java,xml,dom4j
  post3   java,classloader,jvm
  post4   java,classloader
  post5   linux,shell
  post6   linux,ubuntu
其中post代表用户所标注的资源,tags代表用户为对应资源所标注的记录,通过对用户的所有标注记录(这里是tags对应的列)和关联规则中的支持度的概念进行各个所标注的记录进行各标注记录的频率统计得到表2,即标签支持度列表。其中,表中所示support表示标注记录在该用户所有标注记录中出现的次数,支持集SupportSet代表用户的该标注记录在哪些资源的出现:
  Tags   Support   SupportSet
  java   4   post1,post2,post3,post4
  classloader   2   post3,post4
  xml   2   post1,post2
  linux   2   post5,post6
  dom4j   1   post2
  shell   1   post5
  jdom   1   post1
  jvm   1   post3
  ubuntu   1   post6
首先选取频率最高的标注记录作为树的根部,因为他的支持度最高。但是对于标签classloader,xml和linux,他们的支持度同为2,如何让计算机来识别一个标签是一个分支节点还是根节点,这就需要根据标签之间的关系,通过统计的方法来识别。如一个标签同已知的根同时出现的次数非常多,比如java分别和classloader与xml出现了2次,而他们各自支持度为2,也就是在classloader与xml出现的情况下,都是和java共现的,则可判定classloader和xml为一个已知根节点java的孩子节点。而linux则作为一个和已知根节点并无关联的高频标签,可独立作为另一棵兴趣主题树的根节点。这里,判断像classloader和linux节点类型的情况,我们采用先验概率公式来计算,假设SupportSet(ti)和SupportSet(ti)分别表示标注记录ti的支持度和支持集,那么可设定阈值α,若
p ( t 1 | t 2 ) = | SupportSet ( t 1 ) ∩ SupportSet ( t 2 ) | Support ( t 2 ) ≥ α - - - ( 1 )
则可判断t2是隶属于t1的,具体到上例中由于p(java|xml)和p(java|classloader)都为1,所以他们都作为java的孩子节点。类似的,classloader和xml的支持度也是一样的,通过上述方法可以知道他们都是java的孩子节点,但是他们之间的关系如何确定则考虑使用如下的先验概率公式:
p ( t 1 , t 2 , | t 3 ) = | SupportSet ( t 1 ) ∩ SupportSet ( t 2 ) ∩ SupportSet ( t 3 ) | Support ( t 3 ) ≥ α - - - ( 2 )
若满足(2)式,则可判断t3是t2的孩子节点,否则,t3和t2为兄弟节点,且同为t1的孩子节点,这里我只考虑3层兴趣主题树结构,然后按标注记录的频率进行在已经建立的主题树的根节点下依次迭代循环上面步骤,直到所有的标注记录都被访问过为止,为此上例就建立了所有的用户兴趣主题树。
具体地,本领域技术人员可以参考图6对上述过程以及相关内容予以理解。例如,优选地,图6所示实施例显示出根据本发明提供的控制方法,其主要是对用户获取的标注记录进行统计和分析,首先对用户的所有标注记录进行统计频率的出现次数,然后按频率高低进行排序,在进行迭代建立用户兴趣主题树的时候,先从频率最高的标注记录作为第一棵的兴趣主题树,然后用先验概率公司进行判断是不是属于该兴趣主题的孩子节点还是其孩子节点的子节点,如此进行循环,至此所有的标注记录被扫面完,即完成了用户兴趣主题树的建立。本领域技术人员结合上述实施例可以理解图6所示内容,在此不予赘述。
进一步地,所述步骤“将用户兴趣主题树映射至窗口”可以通过如下方式实现:因为用户对相应资源进行标注的同时会记录其标注时间,因此上述的标签支持度列表加入时间,先举如下用户的标注记录(即下表:带时间戳的用户标注记录表)来说明将用户兴趣主题映射至窗口的过程:
  SupportSet   tags   timestamp
  post1,post3   java,xml,jdom   1,3
  post5,post6   java,xml,dom4j   5,7
  post2   java,classloader,jvm   2
  post4   java,classloader   4
  post10,post7   linux,shell   3,7
  post8,post9   linux,ubuntu   8,9
其中时间戳的映射方法如下:从用户第一次开始标注记录的时间点开始至用户最后一次标注记录的时间为时间段,然后将其按时间间隔进行切分,这里举例如下,比如上述用户的标注时间段是10天,然后我们选取3天为时间间隔,然后用户的时间段就被切分成了3段,顺次将时间段编号1~3,用户的时间窗口就有3个,同时用户最后一次标注的是小号窗口也就是窗口1,依次时间递增窗口号。同时按照上述“依频率高低应用先验概率公式建立用户兴趣主题树”的建树方法,我们对其建立了如下的兴趣主题树,同时我们取主题树的根节点和其二层孩子节点的值作为预测主题,得到如图7所示4棵预测主题树。其中,图7中各种不同图案表示不同的内容,具体如下:
(java,Xml)图中为
Figure BSA00000403532200131
状,(java,classloader)图中为
Figure BSA00000403532200132
状;
(linux,shell)图中为
Figure BSA00000403532200133
状,(linux,ubuntu)图中为
Figure BSA00000403532200134
状。
图中的实例即是将其主题映射至时间窗口的情况,然后通过计算各主题在窗口内的权重来对其主题进行排序,主要计算方法如下:
(1)主题树全局权重:计算树的根节点在所有主题树根节点的比例:
globalWeight ( root i ) = | SupportSet ( root i ) | | Σ root i ∈ Topic ( u ) SupportSet ( root i ) |
根据此来衡量用户对一棵主题树的全局喜好,则示例中java和linux的主题树全局权重分别为0.6和0.4(因为主题java在用户标注记录中出现了6次,linux在用户的标注记录中出现了4次)。
(2)窗口权重:赋予每个窗口不同的权重,窗口距离当前时间越近则权重越高,否则,权重会相应降低,假设index为窗口的编号,则距离当前时间最近窗口为1号,并以此类推,则窗口权重定义为如下形式:
Win Weight(index)=e-(γ·WinSize·(index-1)/now-earliest)
其中WinSize为单个窗口大小,算法中可调,γ为调整系数,now和earliest分别为当前时间和用户记录的最早时间,对应到示例中取γ为2的情况下,窗口1的权重为1,窗口2的权重为0.52,窗口3的权重则为0.26。
(3)二层孩子节点相对于根节点权重:在根节点确定权重的情况之下,计算二层节点对根节点的重要性,我们在窗口中根节点出现的情况下,二层节点出现的概率来计算,即:
L 2 Weight ( l 2 j ) = p ( root i _ l 2 j | root i ) = | SupportSet ( root i ) ∩ Support ( l 2 j ) | | Support ( root i ) | - - - ( 4 - 6 )
其中rooti代表一棵兴趣主题树的根节点,rooti_l2j代表该兴趣主题树下的二层孩子节点,定义了以上权重之后,兴趣主题树权重计算过程可描述如下,从index最小的窗口1开始迭代,如根节点root出现在窗口中,则在此窗口中做关于根节点root的计算权重大小,这时会有若干个该根节点root下的二层孩子节点会被计算,兴趣主题树权重采用公式(5)进行,则关于当前窗口中root的兴趣主题树计算终止,继续当前窗口中下一个主题树根节点root的推荐,循环至本窗口中的所有根节点root结束,然后进行下一窗口中兴趣主题树的权重计算,直至所有关于兴趣主题树的权重计算完成,对于上例则关于(linux,ubuntu),(linux,shell)和(java,xml)的预测得分将在窗口1中生成,则关于他们的推荐终止,而对于(java,classloader)的推荐则会在窗口2中终止,这时推荐的过程也就结束了。以下是最终预测得分的计算方法:
score(rooti,l2j)=globalWeight(rooti)·WinWeight(index)·L2Weight(l2j)(5)
在计算出该用户的所有兴趣主题树的权重后,然后对其进行按权重值进行排序,最后选取TOP-N个兴趣主题树到***资源库中进行资源的检索,将检索的结果推荐给用户,至此该用户的推荐完成。
进一步地,本领域技术人员理解,上述图1至图5所示实施例可以通过上述过程以及如下例子予以进一步说明。首先我们从网页中获取所有用户资源的标注记录和其社会标注记录,从而建立***资源数据库,然后对其用户进行个人数据加载和分析,计算用户标注记录的质量值来确定标准标注记录(该计算的方法主要通过该用户对其资源的标注记录和对应资源的社会标注记录计算用户标注记录的质量值,具体计算如下:首先通过用户某一资源标注记录和相应资源的社会记录进行交集标注数除以其并集的标注数作为该资源的标注记录质量,然后依此同样方法计算出该用户的所有资源的标注记录值,最后通过该用户其所有资源标注记录值的平均值作为该用户的标注记录质量值,通过其和社会标注的记录质量值比较来确定标准标注记录。比如一个用户对一个资源的标注如下:Item_User(tag1,tag2,tag3,tag4)同时该资源的社会标注记录是Item_Social(tag1,tag3,tag5,tag6),则该用户对该资源的标注质量值是:
| Item _ User ∩ Item _ Social | | Item _ User ∪ Item _ Social |
此处的用户的标注质量值就是2/6交集是相同的标注记录有2个tag1,tag3并集是所有的标注记录数是6个tag1,tag2,tag3,tag4,tag5,tag6,社会标注的记录质量值的阈值是α,然后通过计算该用户所有资源质量的平均值和α进行比较,从而确定标准标注记录,如果该用户所有资源的标注质量值高于社会标注记录质量值,则将该用户的标注记录作为标准标注记录,否则用该用户的所有相应资源的社会标注记录作为标准标注记录,最后将确定的标准标注记录作为该用户对应资源的标注记录。)其次,通过确定后的用户标注记录来为用户建立用户兴趣主题树(方法是通过上述步骤11中的“依频率高低应用先验概率公式建立用户兴趣主题树”),从而为用户建立模型,最后将兴趣主题树映射至时间窗口(方法是就是上述步骤11中的引入标注记录的时间节点的方法来进行窗口大小的办法),同时计算各窗口的权重(方法是上述步骤11中将其兴趣主题树映射至窗口后的计算权重),对其用户兴趣主题树排序(对其计算出的主题树的窗口权重进行按值从大到小进行的排序),选取排名靠前的兴趣主题树到***资源数据库进行资源检索(将其选取的兴趣主题树到其***资源库中进行以主题树根节点和二层孩子节点组成的关键字搜索),将其检索结果的TOP-N推荐给用户。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (15)

1.一种基于时间窗口兴趣主题挖掘的控制方法,其特征在于,包括如下步骤:
a.确定用户标注记录和社会标注记录;
b.根据所述用户标注记录和社会标注记录确定标准标注记录;
c.根据所述标准标注记录生成用户兴趣主题树;
d.建立窗口并确定所述窗口与所述主题树的对应关系;
e.根据所述对应关系计算所述主题树的权重。
2.根据权利要求1所述的控制方法,其特征在于,所述步骤a包括如下步骤:
a1.从网页中提取所述用户标注记录和社会标注记录。
3.根据权利要求1或2所述的控制方法,其特征在于,所述步骤b包括如下步骤:
b1.判断所述用户标注记录的质量值是否大于所述社会标注记录的质量值;
b2.若所述步骤b1的判断结果是肯定的,则将所述用户标注记录确定为所述标准标注记录;
b2′.若所述步骤b1的判断结果是否定的,则将所述社会标注记录确定为所述标准标注记录。
4.根据权利要求1至3中任一项所述的控制方法,其特征在于,所述步骤c包括如下步骤:
c1.根据所述标准标注记录确定关键词;
c2.统计所述关键词的使用频率生成频率排序结果;
c3.根据所述频率排序结果建立所述用户兴趣树。
5.根据权利要求4所述的控制方法,其特征在于,所述步骤c3包括如下步骤:
c31.应用先验概率公式建立所述用户兴趣树。
6.根据权利要求1至5中任一项所述的控制方法,其特征在于,所述步骤d包括如下步骤:
d1.对用户使用时间大小进行分窗口;
d2.结合所有分窗口,计算各窗口的权重;
d3.对所述用户兴趣树进行遍历,将其映射到各窗口中。
7.根据权利要求1至6中任一项所述的控制方法,其特征在于,还包括如下步骤:
f.根据所述权重对所述主题树进行排序;
g.将与排序位置靠前的若干主题树对应的内容推荐给用户。
8.根据权利要求2至7中任一项所述的控制方法,其特征在于,所述步骤a1包括如下步骤:
a11.从网页中获取个人标注记录;
a12.从网页中获取和用户对应资源的社会标注记录。
9.一种基于时间窗口兴趣主题挖掘的控制装置,其特征在于,包括如下装置:
第一确定装置,其用于确定用户标注记录和社会标注记录;
第二确定装置,其用于根据所述用户标注记录和社会标注记录确定标准标注记录;
第一生成装置,其用于根据所述标准标注记录生成用户兴趣主题树;
第一处理装置,其用于建立窗口并确定所述窗口与所述主题树的对应关系;
第一计算装置,其用于根据所述对应关系计算所述主题树的权重。
10.根据权利要求8所述的控制装置,其特征在于,所述第一确定装置包括如下装置:
第一提取装置,其用于从网页中提取所述用户标注记录和社会标注记录。
11.根据权利要求8或9所述的控制装置,其特征在于,所述第二确定装置包括如下装置:
第一判断装置,其用于判断所述用户标注记录的质量值是否大于所述社会标注记录的质量值;
第三确定装置,其用于当所述第一判断装置的判断结果是肯定的时,将所述用户标注记录确定为所述标准标注记录;
第四确定装置,其用于当所述第一判断装置的判断结果是否定的时,将所述社会标注记录确定为所述标准标注记录。
12.根据权利要求9至11中任一项所述的控制装置,其特征在于,所述第一生成装置包括如下装置:
第五确定装置,其用于根据所述标准标注记录确定关键词;
第二处理装置,其用于统计所述关键词的使用频率生成频率排序结果;
第一建立装置,其用于根据所述频率排序结果建立所述用户兴趣树。
13.根据权利要求12所述的控制装置,其特征在于,所述第一建立装置包括如下装置:
第二建立装置,其用于应用先验概率公式建立所述用户兴趣树。
14.根据权利要求9至13中任一项所述的控制装置,其特征在于,所述第一处理装置包括如下装置:
第三处理装置,其用于对用户使用时间大小进行分窗口;
第二计算装置,其用于结合所有分窗口,计算各窗口的权重;
第四处理装置,其用于对所述用户兴趣树进行遍历,将其映射到各窗口中。
15.根据权利要求9至14中任一项所述的控制装置,其特征在于,还包括如下装置:
第一排序装置,其用于根据所述权重对所述主题树进行排序;
第一推荐装置,其用于将与排序位置靠前的若干主题树对应的内容推荐给用户。
CN201010613845XA 2010-12-24 2010-12-24 一种基于时间窗口兴趣主题挖掘的控制方法 Pending CN102567392A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010613845XA CN102567392A (zh) 2010-12-24 2010-12-24 一种基于时间窗口兴趣主题挖掘的控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010613845XA CN102567392A (zh) 2010-12-24 2010-12-24 一种基于时间窗口兴趣主题挖掘的控制方法

Publications (1)

Publication Number Publication Date
CN102567392A true CN102567392A (zh) 2012-07-11

Family

ID=46412829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010613845XA Pending CN102567392A (zh) 2010-12-24 2010-12-24 一种基于时间窗口兴趣主题挖掘的控制方法

Country Status (1)

Country Link
CN (1) CN102567392A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902538A (zh) * 2012-12-25 2014-07-02 ***股份有限公司 基于决策树的信息推荐装置及方法
CN104035998A (zh) * 2014-06-13 2014-09-10 中国船舶重工集团公司第七二二研究所 一种基于社会标注的服务需求满足及扩展方法
CN104967555A (zh) * 2015-05-19 2015-10-07 小米科技有限责任公司 网络社区信息发表时间的更新方法、装置及服务器
CN105787055A (zh) * 2016-02-26 2016-07-20 合网络技术(北京)有限公司 信息推荐方法及装置
CN106445969A (zh) * 2015-08-11 2017-02-22 北京字节跳动科技有限公司 一种全局兴趣探索推荐方法和装置
CN107133370A (zh) * 2017-06-19 2017-09-05 南京邮电大学 一种基于关联规则的标签推荐方法
WO2017198039A1 (zh) * 2016-05-16 2017-11-23 中兴通讯股份有限公司 标签推荐方法及装置
CN109783628A (zh) * 2019-01-16 2019-05-21 福州大学 结合时间窗口和关联规则挖掘的关键词搜索ksaarm算法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751448A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 一种基于情景信息的个性化资源信息的推荐方法
CN101853470A (zh) * 2010-05-28 2010-10-06 浙江大学 一种基于社会化标签的协同过滤方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751448A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 一种基于情景信息的个性化资源信息的推荐方法
CN101853470A (zh) * 2010-05-28 2010-10-06 浙江大学 一种基于社会化标签的协同过滤方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张坚: "Web挖掘个性化模型研究", 《计算机与信息技术》, no. 1, 31 December 2006 (2006-12-31) *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902538A (zh) * 2012-12-25 2014-07-02 ***股份有限公司 基于决策树的信息推荐装置及方法
CN103902538B (zh) * 2012-12-25 2017-03-15 ***股份有限公司 基于决策树的信息推荐装置及方法
CN104035998A (zh) * 2014-06-13 2014-09-10 中国船舶重工集团公司第七二二研究所 一种基于社会标注的服务需求满足及扩展方法
CN104967555A (zh) * 2015-05-19 2015-10-07 小米科技有限责任公司 网络社区信息发表时间的更新方法、装置及服务器
CN106445969B (zh) * 2015-08-11 2019-03-05 北京字节跳动科技有限公司 一种全局兴趣探索推荐方法和装置
CN106445969A (zh) * 2015-08-11 2017-02-22 北京字节跳动科技有限公司 一种全局兴趣探索推荐方法和装置
CN105787055A (zh) * 2016-02-26 2016-07-20 合网络技术(北京)有限公司 信息推荐方法及装置
CN105787055B (zh) * 2016-02-26 2020-04-21 合一网络技术(北京)有限公司 信息推荐方法及装置
WO2017198039A1 (zh) * 2016-05-16 2017-11-23 中兴通讯股份有限公司 标签推荐方法及装置
CN107391509A (zh) * 2016-05-16 2017-11-24 中兴通讯股份有限公司 标签推荐方法及装置
CN107391509B (zh) * 2016-05-16 2023-06-02 中兴通讯股份有限公司 标签推荐方法及装置
CN107133370A (zh) * 2017-06-19 2017-09-05 南京邮电大学 一种基于关联规则的标签推荐方法
CN109783628A (zh) * 2019-01-16 2019-05-21 福州大学 结合时间窗口和关联规则挖掘的关键词搜索ksaarm算法
CN109783628B (zh) * 2019-01-16 2022-06-21 福州大学 结合时间窗口和关联规则挖掘的关键词搜索ksaarm方法

Similar Documents

Publication Publication Date Title
CN105677844B (zh) 一种移动广告大数据的定向推送及用户跨屏识别方法
CN102708096B (zh) 一种基于语义的网络智能舆情监测***及其工作方法
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的***
CN105718579B (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析***
CN102567392A (zh) 一种基于时间窗口兴趣主题挖掘的控制方法
CN101216825B (zh) 标引关键词提取/预测方法
TWI695277B (zh) 自動化網站資料蒐集方法
US8271495B1 (en) System and method for automating categorization and aggregation of content from network sites
CN101329674A (zh) 一种提供个性化搜索的***和方法
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及***
CN103399891A (zh) 网络内容自动推荐方法、装置和***
CN103226578A (zh) 面向医学领域的网站识别和网页细分类的方法
CN105930469A (zh) 基于Hadoop的个性化旅游推荐***及方法
CN102831199A (zh) 建立兴趣模型的方法及装置
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN105426514A (zh) 个性化的移动应用app推荐方法
Zhou et al. Real world city event extraction from Twitter data streams
CN109800350A (zh) 一种个性化新闻推荐方法及***、存储介质
TW200925970A (en) Customized today module
CN104965931A (zh) 一种基于大数据的舆情分析方法
CN103886020A (zh) 一种房地产信息快速搜索方法
CN105138577A (zh) 一种基于大数据的事件演化分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120711