CN107665208B

CN107665208B - 用户偏好度量方法及装置

Info

Publication number: CN107665208B
Application number: CN201610607241.1A
Authority: CN
Inventors: 王天祎
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-07-28
Filing date: 2016-07-28
Publication date: 2019-12-13
Anticipated expiration: 2036-07-28
Also published as: CN107665208A

Abstract

本发明公开了一种用户偏好度量方法及装置，方法包括：获得目标用户的行为访问向量；其中，行为访问向量中包含对各个预设网页的访问频率；将目标用户的行为访问向量输入至预设的主题模型；主题模型包含预设用户与其行为访问向量及主题向量的对应关系；主题向量中包含有预设用户对预设网页对应的各个主题的偏好程度值；获得主题模型输出的目标主题向量；根据目标主题向量度量目标用户的偏好。应用本发明实施例，能够方便快捷地度量用户偏好。

Description

用户偏好度量方法及装置

技术领域

本发明涉及数据挖掘技术领域，特别是涉及一种用户偏好度量方法及装置。

背景技术

随着网络的发展，各种网站给不同用户提供相同浏览界面的方式，已经不能满足用户的个性化需求。为了满足用户的个性化需求，网站管理员需要充分了解各个用户的偏好，并在此基础上为用户提供个性化服务。

其中，传统获得用户偏好的方法，是通过人工的方式去查看用户所访问的每个网页，并给该用户打上能够反映这些网页页面内容的标注。例如：工作人员查看到目标用户所访问过的网页有篮球、足球等关于体育的网页，也有关于各种品牌的汽车的网页。如果目标用户访问过的关于体育的网页数量比访问关于汽车的网页数量要多，此时工作人员将所访问过的网页抽象为体育和汽车，并将体育标识为第一偏好，将汽车标识为第二偏好。然后将这些偏好信息标注在用户标识之后，这样就可以根据该标注来判断目标用户的偏好，从而进一步为该目标用户提供个性化服务。但是，这种方法操作较为繁琐，且网站数量和用户数量较多，十分耗费人力成本。

因此，亟需提供一种新的用户偏好度量方案，以方便快捷地度量用户偏好。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的用户偏好度量方法及装置。具体技术方案如下：

第一方面，本发明实施例提供了一种用户偏好度量方法，所述方法可以包括：

获得目标用户的行为访问向量；其中，所述行为访问向量中包含对各个预设网页的访问频率；

将所述目标用户的行为访问向量输入至预设的主题模型；所述主题模型是对预设用户的行为访问向量进行训练获得的，其中包含了预设用户与其行为访问向量及主题向量的对应关系；所述主题向量中包含有预设用户对预设网页对应的各个主题的偏好程度值；

获得所述主题模型输出的目标主题向量；

根据所述目标主题向量度量所述目标用户的偏好。

可选地，所述主题模型中包含的预设用户与其行为访问向量及主题向量的对应关系，为：

预设用户的标识信息与其行为访问向量及主题向量的对应关系；

在获得目标用户的行为访问向量之前，还可以包括：

获得目标用户的标识信息；

根据所述标识信息，判断所述目标用户是否为预设用户；

如果否，执行所述获得目标用户的行为访问向量的步骤；

如果是，将所述标识信息输入所述主题模型，获得所述主题模型输出的目标主题向量；执行所述根据所述目标主题向量度量所述目标用户的偏好的步骤。

可选地，所述预设的主题模型为预先构建得到；预先构建所述主题模型可以包括如下步骤：

获得各个预设用户访问所述各个预设网页的访问频率；

利用各个访问频率，构建所述各个预设用户所对应的行为访问向量；

基于所要构建的主题数N和所构建的各个行为访问向量，利用预设主题模型算法构建所述主题模型；

其中，所述主题模型中包括N个主题，还包括所述各个行为访问向量所对应的主题向量，其中，各个主题中均涵盖所述各个预设网页，且所述主题模型中记录有所述各个预设网页在各个主题中所占的权重值，其中，所述各个预设网页在所述各个主题中所占的权重值不完全相同。

可选地，在所述获得各个预设用户访问所述各个预设网页的访问频率前，所述方法还可以包括：

构建各个预设用户所对应的文本，其中，文本中记录有所对应的预定用户所访问过的预设网页；其中，文本中的每个预设网页作为所对应文本中的一个词；

相应地，所述获得各个预设用户访问所述各个预设网页的访问频率，包括：

计算所述各个预设用户所对应的文本中的各个预设网页出现的频率，以得到各个文本中的各个预设网页的访问频率，并将所述各个预设用户所对应的文本中未出现过的各个预设网页的访问频率设置为零。

可选地，所述主题模型中记录有所述各个预设网页在各个主题中所占的权重值，其中，所述各个预设网页在所述各个主题中所占的权重值不完全相同；

所述获得所述主题模型输出的目标主题向量，可以包括：

将所述各个主题中所涵盖的所述各个预设网页所占的权重值，分别与所述目标用户的行为访问向量中对应预设网页的访问频率进行加权求和计算，获得所述目标用户对所述各个主题的偏好程度值；

基于所述偏好程度值，获得所述目标主题向量。

可选地，所述基于所述偏好程度值，获得所述目标主题向量可以为：

(主题1、主题2、……、主题N)＝(X₁、X₂、……、X_N)，其中，所述Xi表示所述目标用户对第i个主题的偏好程度值；

相应地，所述根据所述目标主题向量度量所述目标用户的偏好，包括：

利用所述X₁至X_N所对应的值，度量所述目标用户对各个主题的偏好。

可选地，所述将所述各个主题中所涵盖的所述各个预设网页所占的权重值，分别与所述目标用户的行为访问向量中对应预设网页的访问频率进行加权求和计算的计算公式可以为：

其中，所述A表示所述预设网页，所述k表示第k个主题，所述p(A_i)表示所述目标行为访问向量中第i个预设网页的访问频率，所述p(A_i|主题_k)表示所述主题模型中第k个主题下第i个预设网页所占的权重值，所述v表示所述目标用户的行为访问向量中第v个预设网页，其中，所述i≤v，所述k∈(1，N)。

可选地，在所述利用预设主题模型算法构建所述主题模型后，所述方法还可以包括：

基于对所述主题模型中各个主题所预先设定的阈值，对所述各个预设用户所对应的主题向量进行分类，以对所述各个预设用户进行聚类。

可选地，所述各个预设网页的访问频率，可以为各个预设URL或预设域名的访问频率。

第二方面，本发明实施例提供了一种用户偏好度量装置，所述装置可以包括：第一获取单元、第一输入单元、第一构建单元、第二获取单元和度量单元；

所述第一获取单元，用于获得目标用户的行为访问向量；其中，所述行为访问向量中包含对各个预设网页的访问频率；

所述第一输入单元，用于将所述目标用户的行为访问向量输入至所述第一构建单元预先构建的主题模型；所述主题模型是对预设用户的行为访问向量进行训练获得的，其中包含了预设用户与其行为访问向量及主题向量的对应关系；所述主题向量中包含有预设用户对预设网页对应的各个主题的偏好程度值；

所述第二获取单元，用于获得所述主题模型输出的目标主题向量；

所述度量单元，用于根据所述目标主题向量度量所述目标用户的偏好。

可选地，所述第一构建单元构建的主题模型中包含的预设用户与其行为访问向量及主题向量的对应关系，为：

所述装置还可以包括：第三获取单元、判断单元和第二输入单元；

所述第三获取单元，用于在获得目标用户的行为访问向量之前，获得目标用户的标识信息；

所述判断单元，用于根据所述标识信息，判断所述目标用户是否为预设用户；

如果否，触发所述第一获取单元；

如果是，通过所述第二输入单元将所述标识信息输入所述主题模型，获得所述主题模型输出的目标主题向量；触发所述度量单元。

可选地，所述第一构建单元可以包括：第一获取模块、第一构建模块和第二构建模块；

所述第一获取模块，用于获得各个预设用户访问所述各个预设网页的访问频率；

所述第一构建模块，用于利用各个访问频率，构建所述各个预设用户所对应的行为访问向量；

所述第二构建模块，用于基于所要构建的主题数N和所构建的各个行为访问向量，利用预设主题模型算法构建所述主题模型；

可选地，所述装置还可以包括：第二构建单元；

所述第二构建单元，用于在利用所述第一获取模块获得各个预设用户访问所述各个预设网页的访问频率前，构建各个预设用户所对应的文本，其中，文本中记录有所对应的预定用户所访问过的预设网页；其中，文本中的每个预设网页作为所对应文本中的一个词；

相应地，所述第一获取模块，可以包括：计算子模块；

所述计算子模块，用于计算所述各个预设用户所对应的文本中的各个预设网页出现的频率，以得到各个文本中的各个预设网页的访问频率，并将所述各个预设用户所对应的文本中未出现过的各个预设网页的访问频率设置为零。

可选地，所述第一构建单元所构建的主题模型中记录有所述各个预设网页在各个主题中所占的权重值，其中，所述各个预设网页在所述各个主题中所占的权重值不完全相同；

所述第二获取单元，可以包括：偏好程度值计算子单元和目标主题向量获取子单元；

所述偏好程度值计算子单元，用于将所述各个主题中所涵盖的所述各个预设网页所占的权重值，分别与所述目标用户的行为访问向量中对应预设网页的访问频率进行加权求和计算，获得所述目标用户对所述各个主题的偏好程度值；

所述目标主题向量获取子单元，用于基于所述偏好程度值，获得所述目标主题向量。

可选地，所述目标主题向量获取子单元获得的目标主题向量可以为：

相应地，所述度量单元，可以包括：度量子单元；

所述度量子单元，用于利用所述X₁至X_N所对应的值，度量所述目标用户对各个主题的偏好。

可选地，所述偏好程度值计算子单元计算所述目标用户对所述各个主题的偏好程度值所利用的计算公式可以为：

其中，所述A表示所述预设网页，所述k表示第k个主题，所述p(A_i)表示所述目标行为访问向量中第i个预设网页的访问频率，所述_p(A_i|主题_k)表示所述主题模型中第k个主题下第i个预设网页所占的权重值，所述v表示所述目标用户的行为访问向量中第v个预设网页，其中，所述i≤v，所述k∈(1，N)。

可选地，所述装置还可以包括：分类单元；

所述分类单元，用于所述第二构建模块在利用预设主题模型算法构建所述主题模型后，基于对所述主题模型中各个主题所预先设定的阈值，对所述各个预设用户所对应的主题向量进行分类，以对所述各个预设用户进行聚类。

可选地，所述各个预设网页的访问频率，为各个预设URL或预设域名的访问频率。

借由上述技术方案，本发明提供的用户偏好度量方法及装置，获取目标用户的行为访问向量；将该行为访问向量输入至预先构建的主题模型中，从而可以从该预先构建的主题模型中获得该行为访问向量所对应的目标主题向量；从而能通过该目标主题向量中所记录的目标用户对各个主题的偏好程度值，度量目标用户的偏好，降低了度量目标用户的偏好的繁琐度，提高了度量目标用户偏好的速度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例的一种用户偏好度量方法示意图；

图2示出了本发明实施例的另一种用户偏好度量方法示意图；

图3示出了本发明实施例的用户偏好度量方法中一种预先构建主题模型的流程图；

图4示出了本发明实施例的用户偏好度量方法中另一种预先构建主题模型流程图；

图5示出了本发明实施例的又一种用户偏好度量方法示意图；

图6示出了本发明实施例的一种用户偏好度量装置结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术问题，本发明实施例提供了一种用户偏好度量方法及装置。

下面首先对本发明实施例所提供的用户偏好度量方法进行介绍。

可以理解的是，实现本发明实施例所提供的用户偏好度量方法的功能软件可以为设置于终端中专门的软件，也可以为设置于终端中的现有软件中的功能插件，这都是合理的。其中，该终端可以为计算机或服务器设备。

值得注意的是，本发明实施例可以通过预先构建的主题模型对任意网民的偏好进行度量。其中，该预先构建的主题模型是通过对众多网民访问网页的行为进行训练所得到。该访问网页的行为具体是指众多网民对各个预设网页访问的次数或频率，即本发明所涉及的主题模型是基于对各个预设网页的访问次数或频率组成的语料库构建的，而不是基于对网页的网页内容组成的语料库构建的。

如图1所示，本发明实施例所提供的用户偏好度量方法，可以包括如下步骤：

S101：获得目标用户的行为访问向量；其中，该行为访问向量中包含对各个预设网页的访问频率；

其中，当需要对目标用户进行偏好度量时，先获取能够反映该目标用户对各个预设网页的访问频率的行为访问向量。其中，可以利用获取得到的该目标用户对各个预设网页的访问次数，计算对各个预设网页的访问频率，从而利用该各个访问频率构建该目标用户的行为访问向量。

需要强调的是，任意两个行为访问向量中相同位置的访问频率所对应的预设网页相同。例如行为访问向量a＝(V₁、V₂、……、V_N)，行为访问向量b＝(M₁、M₂、……、M_N)，则V1和M1对应同一个预设网页，V_N和M_N同样对应同一个预设网页，其中，V和M均为访问频率。其中，可预先设定行为访问向量中各个位置所对应的预设网页，且每个行为访问向量中任意两个位置所对应的预设网页不相同。

值得注意的是，该目标用户可以是一个或多个网民，即可以获取一个网民的行为访问向量，也可以同时获取多个网民的行为访问向量。另外，该目标用户所对应的网民数量可根据具体度量需求确定，在此不对目标用户所对应的网民数量做限定。其中，该网民可以理解为存在网页访问行为的网络用户。

可以理解的是，将对预设网页的访问行为形成行为访问向量的表现形式，实际是对该目标用户的网页访问行为抽象为一种特征化的描述，即访问向量体现了该目标用户所访问过哪些预设网页，以及所访问过的各个预设网页的访问频率的特征。

S102：将该目标用户的行为访问向量输入至预设的主题模型；该主题模型是对预设用户的行为访问向量进行训练获得的，其中包含了预设用户与其行为访问向量及主题向量的对应关系；该主题向量中包含有预设用户对预设网页对应的各个主题的偏好程度值；

其中，通过对预设用户的行为访问向量进行训练，获得主题模型。该预先训练得到的主题模型中包括：预设用户与其行为访问向量及主题向量的对应关系。每个主题向量中包含有预设用户对各个主题的偏好程度值，其中，该各个主题下均包含有所有的预设网页，只是在不同主题下各个预设网页所占的权重不同。可以理解的是，该预设用户是指预设的大量的网络用户。

可以理解的是，在现有技术中，主题模型是自然语言处理领域一种流行的通用语义模型，且该模型以词为基本单位，将句子转化为词的向量表示形式，并对许多句子的向量组成的语料库进行建模，也就是根据主题模型算法对语料库进行建模，得到主题模型，且所得到的主题模型中包含若干主题、每个主题下每个词出现的频率和每个句子对应的主题向量。

而本发明所涉及的预先构建的主题模型以每个预设网页作为基本单位，将预设用户的对每个预设网页的访问行为转换为由预设网页访问频率所构建的向量表示形式，即行为访问向量。通过对众多行为访问向量组成的语料库进行建模，得到本发明主题模型。

S103：获得该主题模型输出的目标主题向量；

需要强调的是，本发明对于主题模型算法本身并未进行改进，也就是说，本发明所涉及的构建主题模型的计算方法可利用现有技术中主题模型算法；且由于现有技术中主题模型属于学术界的经典模型，即具有比较成熟的计算框架，在此不对具体主题模型算法进行详述。并且利用预先构建的主题模型获得训练向量所对应的主题向量，同样具有成熟的算法，在此不对获得输入向量所对应的主题向量的算法进行详述。

其中，将目标用户的行为访问向量输入至预设的主题模型中，可利用现有算法计算出该行为访问向量所对应的目标主题向量。

S104：根据该目标主题向量度量该目标用户的偏好。

其中，由于主题向量中包括有预设用户对所训练得到的各个主题的偏好程度值，因此可根据目标主题向量中所对应的数值，度量目标用户的偏好，避免了通过人工的方式去查看该目标用户所访问的每个网页的页面内容，并给该目标用户打上能够反映这些页面内容的标注的繁琐操作，实现方便快捷地度量目标用户的偏好。

在本发明实施例中，获取目标用户的行为访问向量；将该行为访问向量输入至预先构建的主题模型中，从而可以从该预先构建的主题模型中获得该行为访问向量所对应的目标主题向量；从而能通过该目标主题向量中所记录的目标用户对各个主题的偏好程度值，度量目标用户的偏好，降低了度量目标用户的偏好的繁琐度，提高了度量目标用户偏好的速度。

下面结合图2对本发明实施例的另一种用户偏好度量方法进行说明。

如图2所示，在该主题模型中包含的预设用户与其行为访问向量及主题向量的对应关系，为：预设用户的标识信息与其行为访问向量及主题向量的对应关系时，在步骤S101之前，还可以包括步骤：

S105：获得目标用户的标识信息；

S106：根据该标识信息，判断该目标用户是否为预设用户；

如果否，执行S101的步骤；

如果是，执行步骤S107；执行步骤S107后，执行步骤S104；

其中，步骤S107为：将该标识信息输入该主题模型，获得该主题模型输出的目标主题向量。

可以理解的是，在该种实现方式中，可以先获取目标用户的标识信息，从而可以根据标识信息判断该目标用户是否为预设用户。由于模型中已经包含了预设用户的标识信息与其行为访问向量及主题向量的对应关系。所以，当目标用户是预设用户时，可以直接将该目标用户的标识信息输入模型，模型可以根据预设用户的标识信息与其主题向量的对应关系直接输出目标主题向量。

值得注意的是，目标用户的标识信息可为该目标用户的用户名，也可以为其他能够唯一确定该目标用户的编号等。其中，所获取的标识信息可以为一个网民的标识信息，也可以为多个网民的标识信息，这都是可以实现的。

下面结合图3对本发明实施例中一种预先构建主题模型的构建步骤进行介绍。

如图3所示，预先构建该主题模型可以包括如下步骤：

S1：获得各个预设用户访问该各个预设网页的访问频率；

S2：利用各个访问频率，构建该各个预设用户所对应的行为访问向量；

S3：基于所要构建的主题数N和所构建的各个行为访问向量，利用预设主题模型算法构建该主题模型；

其中，该主题模型中包括N个主题，还包括该各个行为访问向量所对应的主题向量，其中，各个主题中均涵盖该各个预设网页，且该主题模型中记录有该各个预设网页在各个主题中所占的权重值，其中，该各个预设网页在该各个主题中所占的权重值不完全相同。

可以理解的是，在该种实现方式中，在利用主题模型获得主题向量之前，需要预先训练相应的主题模型。其中，利用由各个预设网页的访问频率构建的行为访问向量作为训练数据训练主题模型。在指定所要构建的主题数N后，即可训练出N个主题的主题模型。其中，每个主题中均涵盖该各个预设网页，且每个主题下的各个预设网页对应一定的权重值。

其中，利用由各个预设网页的访问频率构建的行为访问向量作为训练数据，即可实现对用户的特征化描述，使得不必根据预设网页中的网页内容(词)出现的概率对该预设网页进行标识，来实现对预设用户所访问网页的标注，提高了特征化描述预设用户的速度。

需要强调的是，该各个预设用户可以是本领域人员根据预设规则所确定的存在网页访问行为的部分网络用户，也可以是存在网页访问行为的所有网络用户。并且该各个预设用户访问过的预设网页可以从记录有网民网页访问行为的数据库中提取得到，当然并不局限于此。

值得注意的是，所要构建的主题数N是本领域技术人员在预先构建主题模型时根据具体需要所确定的主题数，在此不对该N所对应的数值做具体限定。

另外，预设主题模型算法可以为LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)主题模型所对应的算法，也可以是LSA(Latent Semantic Space，潜在语义空间)主题模型所对应的算法，当然并不局限于此。

下面结合图4对本发明实施例中另一种预先构建主题模型的构建步骤进行介绍。

如图4所示，在步骤S1：获得各个预设用户访问该各个预设网页的访问频率前，该方法还可以包括如下步骤：

S4：构建各个预设用户所对应的文本，其中，文本中记录有所对应的预定用户所访问过的预设网页；其中，文本中的每个预设网页作为所对应文本中的一个词；

相应地，步骤S1对应为如下步骤：

S11：计算该各个预设用户所对应的文本中的各个预设网页出现的频率，以得到各个文本中的各个预设网页的访问频率，并将该各个预设用户所对应的文本中未出现过的各个预设网页的访问频率设置为零。

可以理解的是，在该种实现方式中，可以将每个预设用户访问过的所有预设网页保存成一个文本。并将每个文本中的每个预设网页看作一个虚拟的词。计算该文本中每个虚拟的词出现的频率，即得到该文本所对应的预设用户访问过的每个预设网页的访问频率。其中，该文本所对应的预设用户未访问过的各个预设网页的访问频率设置为零。

也就是说，在训练主题模型过程中，为了获得每个预设用户的行为访问向量，本实施例先将每个预设用户访问过的所有预设网页保存成一个文本，然后根据每个预设用户的文本中记录的历史访问信息，计算每个文本中所记录的各个预设网页出现的频率，从而获得该预设用户的行为访问向量。

另外，每个预设用户的文本可以被保存在主题模型中，这样能够方便的查询预设用户的历史访问信息。

下面结合图5对本发明实施例的又一种用户偏好度量方法进行说明。

图5所示，在预先构建的主题模型中记录有该各个预设网页在各个主题中所占的权重值时，其中，该各个预设网页在该各个主题中所占的权重值不完全相同；

相应地，步骤S103：该获得该主题模型输出的目标主题向量，可以包括：

S1031：将该各个主题中所涵盖的该各个预设网页所占的权重值，分别与该目标用户的行为访问向量中对应预设网页的访问频率进行加权求和计算，获得该目标用户对该各个主题的偏好程度值；

S1032：基于该偏好程度值，获得该目标主题向量。

可以理解的是，在该种实现方式中，可以将该各个主题中所涵盖的该各个预设网页所占的权重值，分别与该目标用户的行为访问向量中对应的预设网页的访问频率进行加权求和计算，从而获得该目标用户对该各个主题的偏好程度值。利用所计算得到的各个偏好程度值，构建该目标主题向量。

需要强调的是，利用预先构建的主题模型计算该目标用户所对应的主题向量的方法并不局限于此。

可选地，该基于该偏好程度值，获得该目标主题向量可以为：

(主题1、主题2、……、主题N)＝(X₁、X₂、……、X_N)，其中，该Xi表示该目标用户对第i个主题的偏好程度值；

相应地，该根据该目标主题向量度量该目标用户的偏好，包括：

利用该X₁至X_N所对应的值，度量该目标用户对各个主题的偏好。

可以理解的是，在该种实现方式中，可以根据主题向量中的各个值，度量目标用户对各个主题的偏好。

例如：假设预先构建的主题模型预先训练了3个主题，且目标用户所对应的主题向量为(主题1、主题2、主题3)＝(0.6、0.3、0.1)，也就是说，该目标用户在为主题1类型的网页的访问行为较多，其次是主题2类型的网页，因此可以根据该主题向量度量出该目标用户最喜欢主题1，主题2次之，然后才是主题3。

需要强调的是，以上假设仅仅作为示例，并不应该构成对本发明实施例的限定。

可选地，该将该各个主题中所涵盖的该各个预设网页所占的权重值，分别与该目标用户的行为访问向量中对应预设网页的访问频率进行加权求和计算的计算公式可以为：

其中，该A表示该预设网页，该k表示第k个主题，该p(A_i)表示该目标行为访问向量中第i个预设网页的访问频率，该_p(A_i|主题_k)表示该主题模型中第k个主题下第i个预设网页所占的权重值，该v表示该目标用户的行为访问向量中第v个预设网页，其中，该i≤v，该k∈(1，N)。

例如：主题模型中包含2个主题，分别为主题1和主题2，每个主题下包含2个预设网页为预设网页1和预设网页2。在主题1下预设网页1占的权重为1，预设网页2占的权重为0。在主题2下预设网页1占的权重为0，预设网页2占的权重为1。

计算得到目标用户的行为访问向量为(预设网页1，预设网页2)＝(0.7,0.3)。则计算得到该目标用户对主题1的偏好程度值为：0.7*1+0.3*0＝0.7；计算得到该目标用户对主题2的偏好程度值为：0.7*0+0.3*1＝0.3。也就是说，所得到的该目标用户的目标主题向量为(0.7,0.3)。

需要强调的是，上述举例仅为示例，并不应该构成对本发明实施例的限定。

可以理解的是，在该种实现方式中，可以利用上述计算公式计算目标行为访问向量所对应的各个主题的偏好程度值。从而可根据各个偏好程度值构建该目标行为访问向量所对应的目标主题向量，当然并不局限该种计算方式。

可选地，作为本发明的一种实施例，在该利用预设主题模型算法构建该主题模型后，该方法还包括：

基于对该主题模型中各个主题所预先设定的阈值，对该各个预设用户所对应的主题向量进行分类，以对该各个预设用户进行聚类。

可以理解的是，在该种实现方式中，在训练得到主题模型后，该主题模型中包括多个主题向量，可以根据对各个主题预先设定的阈值对各个主题向量进行分类，从而可以实现对各个预设用户进行聚类。且可以将该主题向量分类结果存储在所训练的主题模型中，从而可以根据对某一预设用户度量用户偏好后，即可以获得该某一预设用户所在聚类的其他预设用户的偏好，提高了偏好度量结果。

当然，也可以将该主题向量分类结果存储至预设的存储器，以供本领域技术人员可以方便地提取该主题向量分类结果，进而对处于同一聚类的用户提供关于偏好主题程度高的网页链接推荐，以满足用户的个性化需求，当然并不局限于此。

举例而言，可将主题向量中主题1所对应的偏好程度值大于0.5的所有用户都划分为一类，当然并不局限于此。

需要强调的是，该对各个主题预先设定的阈值可以是一个确定的值，也可以对应一个取值范围，并且该预先设定的阈值可由本领域技术人员根据局限需求进行设定，在此不做详述。

可选地，该各个预设网页的访问频率，为各个预设URL或预设域名的访问频率。

可以理解的是，在该种实现方式中，当构建本发明主题模型的各个行为访问向量由各个预设URL的访问频率构成时，可以由该各个预设URL的访问频率所构建的各个行为访问向量进行主题训练，进而得到该各个行为访问向量所对应的主题向量。

当构建本发明主题模型的各个行为访问向量由各个预设域名的访问频率构成时，可以由该各个预设域名的访问频率所构建的各个行为访问向量进行主题训练，进而得到该各个行为访问向量所对应的主题向量。该种方式，由于同一域名下可包含成千上万个URL，也就是说，域名的数量要远小于URL的数量，因此可以极大的降低主题训练的计算量。

需要强调的是，URL和域名都属于现有概念，在此不对URL和域名做具体描述。

下面对本发明实施例所提供的用户偏好度量装置进行介绍。

相应于上述方法实施例，如图6所示，本发明实施例还提供了一种用户偏好度量装置，该装置可以包括：第一获取单元601、第一输入单元602、第一构建单元603、第二获取单元604和度量单元605；

该第一获取单元601，用于获得目标用户的行为访问向量；其中，该行为访问向量中包含对各个预设网页的访问频率；

该第一输入单元602，用于将该目标用户的行为访问向量输入至该第一构建单元预先构建的主题模型；该主题模型是对预设用户的行为访问向量进行训练获得的，其中包含了预设用户与其行为访问向量及主题向量的对应关系；该主题向量中包含有预设用户对预设网页对应的各个主题的偏好程度值；

该第二获取单元604，用于获得该主题模型输出的目标主题向量；

该度量单元605，用于根据该目标主题向量度量该目标用户的偏好。

可选地，作为本发明的一种实施例，该第一构建单元603构建的主题模型中包含的预设用户与其行为访问向量及主题向量的对应关系，为：预设用户的标识信息与其行为访问向量及主题向量的对应关系；

该装置还可以包括：第三获取单元、判断单元和第二输入单元；

该第三获取单元，用于在获得目标用户的行为访问向量之前，获得目标用户的标识信息；

该判断单元，用于根据该标识信息，判断该目标用户是否为预设用户；

如果否，触发该第一获取单元601；

如果是，通过该第二输入单元将该标识信息输入该主题模型，获得该主题模型输出的目标主题向量；触发该度量单元605。

可选地，作为本发明的一种实施例，该第一构建单元603包括：第一获取模块、第一构建模块和第二构建模块；

该第一获取模块，用于获得各个预设用户访问该各个预设网页的访问频率；

该第一构建模块，用于利用各个访问频率，构建该各个预设用户所对应的行为访问向量；

该第二构建模块，用于基于所要构建的主题数N和所构建的各个行为访问向量，利用预设主题模型算法构建该主题模型；

可选地，作为本发明的一种实施例，该装置还可以包括：第二构建单元；

该第二构建单元，用于在利用该第一获取模块获得各个预设用户访问该各个预设网页的访问频率前，构建各个预设用户所对应的文本，其中，文本中记录有所对应的预定用户所访问过的预设网页；其中，文本中的每个预设网页作为所对应文本中的一个词；

相应地，该第一获取模块，包括：计算子模块；

该计算子模块，用于计算该各个预设用户所对应的文本中的各个预设网页出现的频率，以得到各个文本中的各个预设网页的访问频率，并将该各个预设用户所对应的文本中未出现过的各个预设网页的访问频率设置为零。

可选地，作为本发明的一种实施例，该第一构建单元603所构建的主题模型中记录有该各个预设网页在各个主题中所占的权重值，其中，该各个预设网页在该各个主题中所占的权重值不完全相同；

该第二获取单元604，包括：偏好程度值计算子单元和目标主题向量获取子单元；

该偏好程度值计算子单元，用于将该各个主题中所涵盖的该各个预设网页所占的权重值，分别与该目标用户的行为访问向量中对应预设网页的访问频率进行加权求和计算，获得该目标用户对该各个主题的偏好程度值；

该目标主题向量获取子单元，用于基于该偏好程度值，获得该目标主题向量。

可选地，该目标主题向量获取子单元获得的目标主题向量可以为：

相应地，该度量单元605，包括：度量子单元；

该度量子单元，用于利用该X₁至X_N所对应的值，度量该目标用户对各个主题的偏好。

可选地，该偏好程度值计算子单元计算该目标用户对该各个主题的偏好程度值所利用的计算公式为：

其中，该A表示该预设网页，该k表示第k个主题，该p(A_i)表示该目标行为访问向量中第i个预设网页的访问频率，该p(A_i|主题_k)表示该主题模型中第k个主题下第i个预设网页所占的权重值，该v表示该目标用户的行为访问向量中第v个预设网页，其中，该i≤v，该k∈(1，N)。

可选地，作为本发明的一种实施例，该装置还包括：分类单元；

分类单元，用于该第二构建模块在利用预设主题模型算法构建该主题模型后，基于对该主题模型中各个主题所预先设定的阈值，对该各个预设用户所对应的主题向量进行分类，以对该各个预设用户进行聚类。

可选地，作为本发明的一种实施例，该各个预设网页的访问频率，为各个预设URL或预设域名的访问频率。

所述用户偏好度量装置包括处理器和存储器，上述第一获取单元601、第一输入单元602、第一构建单元603、第二获取单元604和度量单元605等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来方便快捷地度量用户偏好。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：

步骤一：获得目标用户的行为访问向量；其中，该行为访问向量中包含对各个预设网页的访问频率；

步骤二：将该目标用户的行为访问向量输入至预设的主题模型；该主题模型是对预设用户的行为访问向量进行训练获得的，其中包含了预设用户与其行为访问向量及主题向量的对应关系；该主题向量中包含有预设用户对预设网页对应的各个主题的偏好程度值；

步骤三：获得该主题模型输出的目标主题向量；

步骤四：根据该目标主题向量度量该目标用户的偏好。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用户偏好度量方法，其特征在于，包括：

将所述目标用户的行为访问向量输入至预设的主题模型；所述主题模型包含预设用户与其行为访问向量及主题向量的对应关系；所述主题向量中包含有预设用户对预设网页对应的各个主题的偏好程度值；

获得所述主题模型输出的目标主题向量；

根据所述目标主题向量度量所述目标用户的偏好；

所述预设的主题模型为预先构建得到；

预先构建所述主题模型包括如下步骤：

获得各个预设用户访问所述各个预设网页的访问频率；

其中，所述主题模型中包括N个主题，以及与所述各个行为访问向量所对应的主题向量；其中，各个主题中均涵盖所述各个预设网页，且所述主题模型中记录有所述各个预设网页在各个主题中所占的权重值，其中，所述各个预设网页在所述各个主题中所占的权重值不完全相同。

2.根据权利要求1所述的方法，其特征在于，在所述获得目标用户的行为访问向量之前，还包括：

获得目标用户的标识信息；

根据所述标识信息，判断所述目标用户是否为预设用户；

如果否，执行所述获得目标用户的行为访问向量的步骤；

3.根据权利要求1所述的方法，其特征在于，在所述获得各个预设用户访问所述各个预设网页的访问频率前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述获得所述主题模型输出的目标主题向量，包括：

基于所述偏好程度值，获得所述目标主题向量。

5.根据权利要求4所述的方法，其特征在于，所述基于所述偏好程度值，获得所述目标主题向量为：

6.根据权利要求4或5所述的方法，其特征在于，所述将所述各个主题中所涵盖的所述各个预设网页所占的权重值，分别与所述目标用户的行为访问向量中对应预设网页的访问频率进行加权求和计算的计算公式为：

7.根据权利要求1或3所述的方法，其特征在于，在所述利用预设主题模型算法构建所述主题模型后，所述方法还包括：

8.一种用户偏好度量装置，其特征在于，包括：

第一获取单元，用于获得目标用户的行为访问向量；其中，所述行为访问向量中包含对各个预设网页的访问频率；

第一输入单元，用于将所述目标用户的行为访问向量输入至第一构建单元预先构建的主题模型；所述主题模型包含预设用户与其行为访问向量及主题向量的对应关系；所述主题向量中包含有预设用户对预设网页对应的各个主题的偏好程度值；

第二获取单元，用于获得所述主题模型输出的目标主题向量；

度量单元，用于根据所述目标主题向量度量所述目标用户的偏好；

所述第一构建单元可以包括：第一获取模块、第一构建模块和第二构建模块；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第三获取单元，用于在获得目标用户的行为访问向量之前，获得目标用户的标识信息；

判断单元，用于根据所述标识信息，判断所述目标用户是否为预设用户；

如果否，触发所述第一获取单元；

如果是，通过第二输入单元将所述标识信息输入所述主题模型，获得所述主题模型输出的目标主题向量；触发所述度量单元。