CN102495844B

CN102495844B - 用于构建用户模型的改进的GuTao法

Info

Publication number: CN102495844B
Application number: CN 201110361047
Authority: CN
Inventors: 许国艳; 于天枢
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2011-11-15
Filing date: 2011-11-15
Publication date: 2013-07-31
Anticipated expiration: 2031-11-15
Also published as: CN102495844A

Abstract

本发明公开一种用于构建用户模型的改进的GuTao法，属于个性化信息服务领域。该方法通过引入兴趣度作为权值，实现形式背景的多值属性向单值属性转变，克服了GuTao法只能处理单值属性的缺陷，该方法主要步骤包括：1）根据推导的复合兴趣度公式对用户信息预处理，获取单值属性背景；2）在单值形式背景基础上基于GuTao法生成用户模型。本发明除了具备GuTao法本身具有的能够从领域概念和关系中自动地获得形式背景，实现半自动地构建领域本体和自动消除分类结构中概念的冗余得到所需概念以外，最大的改进在于能够处理多值属性，有了将多值属性转化成单值属性的依据。

Description

用于构建用户模型的改进的GuTao法

技术领域

本发明涉及一种改进的GuTao法，用于构建用户模型，属于个性化信息服务领域。

背景技术

个性化信息服务包括用户建模、项目匹配和个性化推荐输出三个部分。构建用户模型是个性化信息服务的基础。在个性化信息服务研究早期，用户建模技术并未得到重视。研究工作重点在于个性化信息服务的具体技术上，如用户聚类技术、推荐技术、信息检索技术等，用户建模技术只是这些研究中的附属。随着研究的深入，研究者逐渐意识到：个性化信息服务的质量不仅取决于具体的实现技术，还取决于用户兴趣和偏好的可计算描述，即构建用户模型的质量。

传统的用户模型构建方法主要是基于统计学的，采用主题词或加权的关键词向量等表示用户模型。通过对用户浏览记录、访问历史进行概率分析，获得用户的兴趣模型。这种方法理论成熟，使用相对简单，但存在缺乏语义、兴趣度粒度大的缺点。

随着语义技术地发展，本体作为概念化的模型，具有强大的语义扩展和推理能力。利用本体语义上的优势，将用户建模技术和本体结合起来构建基于本体的用户模型是用户建模技术的主要发展趋势。

发明内容

本发明基于本体构建用户模型，在具体的构建方法上提出了改进的GuTao法。GuTao法能够半自动的构建领域本体，自动生成形式背景并消除概念间的冗余，但存在着不能处理多值属性的缺陷。本发明提出了以兴趣度为权值，作为多种属性向单值属性转换的依据，解决了GuTao法不能处理多值属性的问题，实现了对GuTao法的改进。

本发明提出了将兴趣度作为多值属性向单值属性的转换依据，在基本兴趣度公式的基础上推导出复合的兴趣度公式。下面将介绍兴趣度的基本公式以及根据需要的推导的公式。

1.兴趣度的概念

兴趣度(Interestingness)是用来衡量用户对本体中的某概念的感兴趣程度的一个度量指标。它主要是面向用户模型的使用者的，用户的兴趣描述越具体，越有实际价值。

2.基本的兴趣度公式

兴趣度计算公式主要有以下三种：

(1)I(C_i)：表示对于概念C_i感兴趣程度，形如公式1。

I (C_{i}) = \log \frac{time}{\log \log length} . r (d . C_{i})

公式1

其中，time表示一个用户用于浏览一个给定网页的时间。length指网页的长度(如字节数等)。以r(d，C_i)表示网页与概念的匹配强度，该值是一个页面特征化过程的一个结果。

(2)Frequency(C_i)：通过用户检索过程中与概念C_i相关的检索数Q(C_i)与检索总次数Q的比值来反映用户对概念的感兴趣程度。

Frequency (Ci) = \frac{Q (Ci)}{Q}

公式2

其中Frequency(C_i)反映用户对本体中某个概念C_i的感兴趣程度。Q(C_i)是用户对概念C_i检索的次数，Q表示用户检索的总次数。

(3)Clarity(C_i)：通过清晰度反映了用户提出的检索反映其自身兴趣的准确性，通常当用户对于自己要查询的事物越是不了解，他就越倾向于使用较为抽象的概念。具体公式为：

Clarity (C_{i}) = (numAttr (C_{i}) + 1) . \frac{1}{numSubConcepts (C_{i}) + 1}

公式3

其中numAttr(C_i)为概念C_i的属性数，numSubConcepts(C_i)为其子概念数。

3.公式的总结与推导

上述的三个公式是比较常用的兴趣度计算公式，公式1需要获得检索网页的网页大小，同时需要获得网页与概念的匹配强度，这两个字段信息在本发明基于本体的用户模型构建中是无关信息，因此不选择此公式作为本发明兴趣度的计算公式。公式2和公式3从检索频率和清晰度两个不同的方面反映用户的兴趣，并且所需字段信息在本发明的构建方法下都可以获得，因此，本发明使用公式2和3作为兴趣度公式，并借助概率论乘法公式的思想得到复合的兴趣度公式。

(1)本发明提出了复合的兴趣度计算公式，即本发明的兴趣度公式是检索频率和清晰度公式的乘积，形如公式4。

Irate(C_i)＝Frequency(C_i).Clarity(C_i) 公式4

(2)同时根据本发明中具体的数据需要，对公式2进行推导，用户检索的频率定义为用户检索某一网页的URL次数与用户检索URL总次数的比值，形如公式5。

Frequency (C_{i}) = Σ_{i = 1}^{n} Frequency ({URL}_{i}) = Σ_{i = 1}^{n} \frac{Q ({URL}_{i})}{Q (URL)}

公式5

本发明采用的技术方案包括以下步骤：

■根据推导的复合兴趣度公式对用户信息预处理，获取单值属性背景；

■在单值属性背景基础上基于GuTao法生成用户模型。

获得单值属性背景采用以下方法：

首先，用爬虫工具收集用户信息；

其次，计算概念的清晰度、概念的访问频率，然后计算兴趣度值；

最后，对所获得的所有的兴趣度值进行排序，获得布尔关系，最终获得单值属性背景。

本发明在获得单值属性背景下，基于GuTao法生成用户模型，采用以下方法：

首先，将URLS(网址)作为对象、ATTRS(关键字)作为属性构建领域本体。URLS表示成本体中的类(Classes)、ATTRS表示成本体中的槽(Slots)；

其次，使用GuTao开发的插件半自动的对形式背景完善、扩充，转化成概念格工具ConExp所要求的形式背景输入格式。形式概念分析中的Context(上下文)、Objects(对象)、Attributes(属性)分别与领域本体的Ontology(本体)、Classes(类)、Slots(槽)相对应；

最后，通过ConExp建立概念格D-Ontology＝(CS(C)，Ships)，其中CS(C)表示所有形式概念C的合集，Ships表示所有形式概念C的偏序关系的集合，并用OWL(网络本体语言)语言存储该用户模型的信息。

本发明继承了GuTao法原有的优点，在自动化程度、本体的形式化程度和可视化程度上仍具有优势。通过引入兴趣度作为权值，实现形式背景的多值属性向单值属性转变，克服了GuTao法只能处理单值属性的缺陷。

附图说明

图1为本体的用户模型构建流程

图2为GuTao法流程图

图3为本发明的改进的GuTao算法框架图

图4为本发明的改进的GuTao法与GuTao法的比较

具体实施方式

下面根据说明书附图并结合实施对本发明的技术方案特点作进一步阐述。

本发明的技术方案主要有以下主要步骤：

1、用户信息的获取与预处理

●通过爬虫工具Web-IA获取用户信息，包括：搜索的关键字、进入/离开网页时间、网页的浏览数、网页的停留时间与用户的访问轨迹等。

●预处理信息，根据本发明中提出的复合兴趣度公式4对获取的用户信息数据进行预处理，确定网页是否含有用户感兴趣的关键字。

2、构建领域本体

对获取的用户信息采用发明内容中提出的初始的单值属性背景的获得方法进行预处理，通过本体建模工具Protégé进行本体构建。

3、改进的GuTao法构建形式背景与概念格

●生成初始形式背景C_ontology：在步骤2构建的领域本体的基础上，利用形式背景生成工具FCAView插件半自动的生成初始的形式背景C_ontology＝(O，A，R)。

●完善形式背景：根据步骤1所得数据和步骤2所进行的处理的基础上，对初始的形式背景进行扩充。

●生成概念格：在前两步的基础上利用GuTao自行开发的插件ConExp(将形式背景转换成概念格的工具)自动生成概念格，即所要得到的用户模型的领域本体D-Ontology＝(CS(C)，Ships)。

4、加入包含用户信息的头结点

将通过网络爬虫Web-IA收集到的能够标识用户唯一性的信息，如用户的IP地址、网站用户的用户名等信息，以及为了用户模型更新需要的用户对网站最后浏览时间等信息存入头结点Head-Node中。在本发明的本体用户模型中头结点包含了用户浏览的所有网络URL资源的合集。

5、用网络本体语言OWL描述用户模型。

图1是本发明用于构建本体的用户模型流程，本体的用户模型的构建又包括个性化信息收集、本体的模型表示、用户模型更新和模型使用这样几个流程，本发明将用户模型表示成形式背景下衍生的概念格的形式，构建成的概念格采用本体描述语言OWL表示。

具体实施方式中涉及概念说明：

1、用户模型领域本体的形式背景C_ontology

用户模型的形式背景是一个包含用户浏览网页信息、检索关键字信息和网页与关键字布尔关系的三元组，记作C_ontology＝(O，A，R)，其中O代表对象的集合，这里表示用户浏览网址的URL。A代表网页的属性，即通过数据挖掘技术提取的网页的关键字。R代表网页与关键字的关系，在本发明中，R必须是布尔型的，即保证属性必须是单值的。

对形式背景的三个要素作具体的说明。

(1)O是信息资源的所有对象集合

O＝{URL₁，URL₂，...URL_n}。URL(Uniform Resource Locator)称为统一资源定位符，它是因特网上描述信息资源的字符串，用于各种Web客户程序和服务器上。URL以统一的格式描述各种信息资源，包括文件、服务器的地址和目录等。URL的格式由三部分组成：协议或服务方式、资源所在的主机IP地址、资源的具体地址。其中第一部分和第二部分用“://”隔开，第二部分和第三部分以“/”隔开。第一部分和第二部分不可缺少，而第三部分可以省略。URL的缺点是当信息资源的存放地点发生改变时，必须对URL做出相应的改变。

(2)A是网页属性的集合

A＝(Attr₁，Attr₂，...Attr_n)，Attr是英文属性Attribute的缩写。主要是指网页的关键字信息，表示网页的属性，可以通过Web网页挖掘获取。传统的用户模型在获得关键词的同时，将各个关键词孤立的处理，词语间的关系是正交的，不含语义信息。本发明基于本体的用户模型充分考虑到了词语间的语义关系，符合个性化信息服务信息找人的要求。例如，用户的兴趣为{足球，篮球，音乐，美食，旅游...}，如果有相关的网页其内容是有关世界杯的，但是用户兴趣模型中并未出现足球这个关键词，因此，传统的用户模型就不会把这个网址推送给用户。但根据常识，世界杯显然是足球的一个子类或者说是一个实例，用户很可能对这个信息有兴趣，所以传统的构建方法是不完善的、不能准确反映用户的信息。基于本体构建用户模型进行检索时，将用户模型表示成形式背景下衍生的概念格，世界杯是足球的一子概念，用户进行检索时，会将包含子概念的网址推送给用户。

(3)R是表示对象和属性的关系

本发明主要是指网页是否具备该关键词，即每个URL_i中是否具备关键字Attr_i(i＝1，...，n)。因本发明是采用改进的GuTao法进行构建用户模型，所以R必须是布尔型的，保证形式背景的属性是单值的。本发明中使用复合的兴趣度公式作为多值属性向单值属性转化的依据。

2、用户模型领域本体的形式概念C

领域本体的形式概念C(Formal Concept)是包含用户共同对象的集合和共同属性集合的二元组，形式化的表示为C＝(URLS，ATTRS)。其中URLS是对象集O的幂集，称为形式概念C的外延，是用户信息所有属性共同对象的集合。ATTRS是属性集A的幂集，称为概念C的内涵，使包含所有对象信息共同属性的集合。

每一个概念C关于关系R是完备的，即满足如下性质：

●

ATTRS = {URL &Element; O / &ForAll; URL &Element; URLS ((ATTR, URL) &Element; R)}

性质(1)

●

URLS = {ATTR &Element; A / &ForAll; ATTR &Element; ATTRS ((ATTR, URL) &Element; R)}

性质(2)

3、形式概念集CS(C)

形式背景C_ontology上所有单概念的集合构成本体的概念集，记作CS(C)。

4、用户模型领域本体的子概念(Sub-Concept)和超概念(Super-Concept)

对于给定的两个概念关系C₁＝(URLS₁，ATTRS₁)和C₂＝(URLS₂，ATTRS₂)，如果

那么这两个词间的概念关系存在偏序关系＜，称C₁是C₂的上位关系，C₂是C₁的下位关系，记作：C₁＜C₂。C₁和C₂间的关系称为泛-特化关系。如果在概念集CS(C)中不存在另外的概念C₃介于C₁和C₂之间，则称C₁和C₂是直接泛化-特化关系，并且称C₁是C₂的超概念，C₂是C₁的子概念。

5、用户模型领域本体的同级概念(Same-Concept)

同级关系对于两个概念C₁＝(URLS₁，ATTRS₁)和C₂＝(URLS₂，ATTRS₂)，如果ATTRS₁不包含于ATTRS₂，ATTRS₂也不包含于ATTRS₁，并且ATTRS₁和ATTRS₂是同级语义，则称C₁和C₂是同级关系。

6、偏序关系的集合Ships

由形式概念集CS(C)中的形式概念C构成的直接泛化-特化关系的合集，称为偏序关系的合集，记作Ships。

7、用户模型领域本体的概念格D-Ontology

用户模型领域本体是由形式背景C_ontology衍生下的概念格，记作D-Ontology＝(CS(C)，Ships)，即本发明定义的用户模型主要由两部分组成，CS(C)：所有形式概念的合集，Ships：所有形式概念的偏序关系的集合。

8、附加头结点的领域本体的用户模型(User-Model)

基于已经构建好的领域本体的基础上，提出将用户模型表示成附加头结点的形式背景下衍生的概念格，即将用户模型表示成由用户基本信息和领域本体概念格的集合。使用领域本体中最为广泛的“直接上下位”关系和“同级关系”，形成一个附加头结点的形式背景下诱导的概念格的用户模型。

具体的实施方法是：在构建好的领域本体的基础上，在用户登录***的时候，为用户提供一个兴趣定点，然后将用户所有的浏览行为属性进行语义分析，用属性中所包含的概念构造初始形式背景下衍生的概念格。最后将所构造的用户模型呈现为用户的个人信息和领域本体概念格的形式。

(1)头结点概念Head-node

Head-node＝(URLS，User{Head-node，IpNumber})

用户模型的头结点是用户模型的顶层结点，用来标识不同的用户信息。其主要有两部分组成，定义头结点的对象是用户访问所有网页URL的合集，用户头结点的属性包括用户头结点信息、用户的IP地址等用户信息。

(2)用户模型的概念集UC

UC＝(URLS，{ATTRS，Irate(C_i)})

用户模型的形式概念集的对象集仍然是用户访问的所有URL信息集。属性集由关键词的属性集和用户对某一关键词概念的兴趣度两部分组成。

(3)领域本体的用户模型(User-Model)

领域本体的用户模型表示成一个附加头结点的领域本体：

User-Model＝(Head-node，D-Ontology，Irate(C_i))

领域本体的用户模型主要有三部分组成：标识用户信息的头结点信息、资源的领域本体和用户对关键词单概念的兴趣度。

具体实施方式中改进的GuTao法的流程和具体算法：

1、改进的GuTao法流程

图2是改进的GuTao法流程图。其具体步骤如下：

(1)手动或应用自然语言处理技术从领域文本中获得领域概念和属性。

(2)用建模工具Protégé进行本体构建，用类(Classes)、槽(Slots)和分面(facets)来表示领域本体。

(3)使用由GuTao开发的Protégé工具插件产生形式背景，该插件可以通过本体与FCA(形式概念分析)的对应关系自动得到形式背景，并将形式背景转化成概念格工具ConExp(将形式背景转换成概念格的工具)所要求的形式背景输入格式。其中，形式概念分析中的上下文(Context)、对象(Objects)、属性(Attributes)、多值属性分别与领域本体的本体(Ontology)、类、槽、分面相对应。

(4)使用ConExp建立概念格，应用ConExp从FcaTab(自动获取形式背景的工具)输出的形式背景建立与该形式背景同构的概念格。领域本体开发人员和领域专家在得到的概念格中可以选择需要的而原先没有的一些概念和关系，将其添加到本体中去。

(5)重复(3)(4)步，直到满意为止。

2、改进的GuTao法算法

图3是本发明的改进的GuTao法的算法框架图。算法主要步骤分成两部分。

步骤一：根据推导的复合兴趣度公式对用户信息预处理，获取单值属性背景。具体算法如下：

输入：网络爬虫收集的用户信息

输出：初始的单值形式背景C_ontology＝(O，A，R)

步骤：

(1)for each C_i∈CS(C)//计算概念的清晰度

(2)Clarity(C_i)＝0

(3)numAttr(C_i)＝Count(A)//C_i属性的个数

(4)numSubConcepts(C_i)＝Sum(SubConcepts(A))//C_i子概念的个数

(5)Clarity(C_i)＝(numAttr(C_i)+1)/(numSubConcepts(C_i)+1)

(6)Frequency(C_i)＝0//计算概念访问频率

(7)for each URL_i∈URLS

(8), Frequency (C_{i}) = Σ_{i = 1}^{n} Frequency ({URL}_{i}) = Σ_{i = 1}^{n} \frac{Q ({URL}_{i})}{Q (URL)}

(9)Irate(C_i)＝Clarity(C_i)*Frequency(C_i)//获得单概念的兴趣

(10)Sort(Irate(C_i))//对所得兴趣度结果排序

(11)IfIrate(C_i)in top(5)

(12)Then(O，A)∈R//获得布尔关系R

(13)C_ontology＝(O，A，R)//获得单值形式背景

步骤二：在单值形式背景基础上基GuTao法生成用户模型。

具体算法如下：

输入：初始的单值形式背景Contology＝(O，A，R)

输出：D-Ontology＝(CS(C)，Ships)

步骤：

(1)将URLS作为对象、ATTRS作为属性构建领域本体。URLS表示成本体中的类、ATTRS表示成本体中的槽。

(2)使用GuTao开发的插件半自动地对形式背景完善、扩充，转化成概念格工具ConExp所要求的形式背景输入格式。形式概念分析中的上下文、对象、属性分别与领域本体的本体、类、槽相对应。

(3)通过ConExp建立概念格D-Ontology＝(CS(C)，Ships)，并用OWL语言存储该用户模型的信息。

3、算法分析

图4为本发明的改进的GuTao法与原来的GuTao法的比较。改进的GuTao法除了具备GuTao法本身具有的能够从领域概念和关系中自动地获得形式背景，实现半自动地构建领域本体和自动消除分类结构中概念的冗余得到所需概念以外，最大的改进在于能够处理多值属性，有了将多值属性转化成单值属性的依据。改进的GuTao法继承GuTao法原有的优点，在自动化程度、本体的形式化程度和可视化程度上仍具有优势。在以下几个方面有所不同：

(1)在形式背景的对象上以URL集合代替了原有的类的集合。

(2)形式背景的属性上，关键字的集合代替了槽的集合。

(3)本体概念模型表示方式上以形式背景下衍生的概念格的形式代替了Protégé模型。

(4)改进的GuTao法与GuTao法的最大的不同在于可以处理多值属性，克服了GuTao法只能处理单值属性的问题。

Claims

1.一种用于构建用户模型的改进的GuTao法，其特征在于包括以下步骤：

1)通过爬虫工具收集用户信息，根据收集的用户信息计算概念的清晰度、概念的检索频率，再根据复合兴趣度公式

Figure 2011103610477100001DEST_PATH_IMAGE001

计算概念的兴趣度值，其中，Irate(C _i)表示对于概念C _i的感兴趣程度，Frequency(C _i)表示对概念C _i的检索频率，Clarity(C_i)表示概念C _i的清晰度；然后对所获得的兴趣度值进行排序，获得布尔关系，最终获得单值属性背景；

2)在单值属性背景基础上基于GuTao法生成用户模型，进一步包含以下步骤：

21)将URLS作为对象、ATTRS作为属性构建领域本体，URLS表示成本体中的类、ATTRS表示成本体中的槽；

22)使用GuTao开发的插件半自动的对形式背景完善、扩充，转化成概念格工具ConExp所要求的形式背景输入格式，形式概念分析中的Context、Objects、Attributes分别与本体的Ontology、Classes、Slots相对应；

23)通过ConExp建立概念格D-Ontology=(CS(C)，Ships)，其中CS（C）表示所有形式概念C的合集，Ships表示所有形式概念C的偏序关系的集合，最终得到附加头结点的领域本体的用户模型，并用OWL语言存储该用户模型的信息。