CN104217031A

CN104217031A - 一种根据服务器搜索日志数据进行用户分类的方法和装置

Info

Publication number: CN104217031A
Application number: CN201410508424.9A
Authority: CN
Inventors: 孙鹏飞; 王艳辉
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2014-09-28
Filing date: 2014-09-28
Publication date: 2014-12-17
Anticipated expiration: 2034-09-28
Also published as: CN104217031B

Abstract

本发明公开了一种根据服务器的搜索日志数据进行用户分类的方法和装置。所述方法包括步骤：从服务器的搜索日志数据中获取用户搜索时使用的a个查询词、以及根据每个查询词搜索到的并且被用户访问过的b个访问页面；分别对每个查询词和对应于每个查询词的所述b个访问页面进行分词处理，以获得相应于每个查询词的c个关键词；根据所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重；从对应于所述a个查询词的关键词中选择权重最高的d个关键词，作为用户标签；将所述用户标签分别与预先设定的类别库中的e个类别相匹配，以将用户分类。

Description

一种根据服务器搜索日志数据进行用户分类的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种根据服务器的搜索日志数据进行用户分类的方法和装置。

背景技术

随着计算机技术的发展和普及，通过搜索服务器来获取各种信息的需求也日益增加。目前，主要通过输入查询词来触发相关网页，并由服务器将包括相关网页页面的显示在搜索结果中提供给用户，以允许用户获取相关信息。然而，服务器向用户提供包括相关网页页面的搜索结果时，并不能预先确定用户的兴趣或使用习惯，无法预测搜索结果里面到底有多少是用户想要的信息，相关度怎样，从而无法有针对性地向用户提供搜索结果。而用户可能需要逐个访问搜索结果中显示的多个网页，然后再进行筛选，才能获得其所需要的信息，效率不高，因而实际结果情况并不满足用户需求。此外，目前的主流搜索引擎服务器都有点击反馈机制，最终使得这些并不满足用户需求的网页排位总是很高，实际与用户需求有偏差，导致信息搜索效率不高。

发明内容

鉴于上述问题，提出了本发明，以便提供一种克服上述问题或者至少部分地解决上述问题的根据服务器的搜索日志数据进行用户分类的方法和装置。

依据本发明的第一方面，提供了一种根据服务器的搜索日志数据进行用户分类的方法，包括步骤：从服务器的搜索日志数据中获取用户搜索时使用的a个查询词、以及根据每个查询词搜索到的并且被用户访问过的b个访问页面；分别对每个查询词和对应于每个查询词的所述b个访问页面进行分词处理，以获得相应于每个查询词的c个关键词；根据所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重；从对应于所述a个查询词的关键词中选择权重最高的d个关键词，作为用户标签；将所述用户标签分别与预先设定的类别库中的e个类别相匹配，以将用户分类。

可选地，在根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的方法中，其中从服务器的搜索日志数据获取用户搜索时使用的a个查询词以及根据每个查询词搜索到的并且用户访问过的b个访问页面还包括：从服务器的搜索日志数据中获取用户的cookie标识，以识别用户；以及分别获取每个用户搜索时使用的a个查询词以及根据每个查询词搜索到的并且用户访问过的b个访问页面。

可选地，在根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的方法中，其中从服务器的搜索日志数据获取用户搜索时使用的a个查询词以及根据每个查询词搜索到的并且用户访问过的b个访问页面还包括：从服务器的搜索日志数据中获取用户的IP地址、用户访问每个访问页面的时间、所述b个访问页面的URL、显示所述b个访问页面中的每一个页面的搜索结果页在搜索结果中所在的页码、所述b个访问页面中的每一个页面在所述搜索结果页中的位置。

可选地，在根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的方法中，其中从服务器的搜索日志数据中获取用户搜索时使用的a个查询词以及根据每个查询词搜索到的并且用户访问过的b个访问页面包括：从服务器的搜索日志数据中获取用于标识用户会话的f个用户会话标识，所述用户会话是用户在预定时间间隔内访问的一组访问页面的序列，其中f为大于等于1的正整数；将每个用户会话标识与对应于所述a个查询词访问页面相关联；将对应于所述a个查询词的访问页面中对应于每个用户会话标识的一组访问页面按照用户访问每个访问页面的时间进行排序，以形成对应于每个用户会话标识的访问页面的序列；以及获取所述预定时间间隔内对应于所述每个用户会话标识的访问页面的序列。

可选地，在根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的方法中，其中分别对每个查询词和所述b个访问页面进行分词处理，以获得相应于每个查询词的c个关键词包括：获取所述b个访问页面的b个标题；以及分别对每个查询词和所述b个标题进行分词处理，以获得相应于每个查询词的c个关键词。

可选地，在根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的方法中，其中根据所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重还包括：根据用户访问所述b个访问页面的次数、显示所述b个访问页面中的每个页面的搜索结果页在搜索结果中所在的页码和/或所述b个访问页面在所述搜索结果页中的位置，以及所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重。

可选地，在根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的方法中，其中将所述用户标签与预先设定的e个类别相匹配，以将用户分类包括：从所述预先设定的e个类别中的每个类别中提取分类规则；将所述用户标签与对应于每个类别的分类规则相比较；以及如果所述用户标签符合所述分类规则，将所述用户分配为所述类别。

根据本发明的第二方面，提供了一种根据服务器的搜索日志数据进行用户分类的装置，包括：查询词及访问页面获取模块，适于从服务器的搜索日志数据中获取用户搜索时使用的a个查询词、以及根据每个查询词搜索到的并且被用户访问过的b个访问页面；分词处理模块，适于分别对每个查询词和对应于每个查询词的所述b个访问页面进行分词处理，以获得相应于每个查询词的c个关键词；权重计算模块，适于根据所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重；用户标签模块，适于从对应于所述a个查询词的关键词中选择权重最高的d个关键词，作为用户标签；类别匹配模块，适于将所述用户标签分别与预先设定的类别库中的e个类别相匹配，以将用户分类。

可选地，在根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的装置中，其中所述查询词及访问页面获取模块还适于从服务器的搜索日志数据中获取用户的cookie标识，以识别用户；以及分别获取每个用户搜索时使用的a个查询词以及根据每个查询词搜索到的并且用户访问过的b个访问页面。

可选地，在根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的装置中，其中所述查询词及访问页面获取模块还适于从服务器的搜索日志数据中获取用户的IP地址、用户访问每个访问页面的时间、所述b个访问页面的URL、显示所述b个访问页面中的每一个页面的搜索结果页在搜索结果中所在的页码、所述b个访问页面中的每一个页面在所述搜索结果页中的位置。

可选地，在根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的装置中，其中所述查询词及访问页面获取模块适于从服务器的搜索日志数据中获取用于标识用户会话的f个用户会话标识，所述用户会话是用户在预定时间间隔内访问的一组访问页面的序列，其中f为大于等于1的正整数；将每个用户会话标识与对应于所述a个查询词的访问页面相关联；将对应于所述a个查询词的访问页面中对应于每个用户会话标识的一组访问页面按照用户访问每个访问页面的时间进行排序，以形成对应于每个用户会话标识的访问页面的序列；以及获取所述预定时间间隔内对应于所述每个用户会话标识的访问页面的序列。

可选地，在根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的装置中，其中所述分词处理模块适于获取所述b个访问页面的b个标题；以及分别对每个查询词和所述b个标题进行分词处理，以获得相应于每个查询词的c个关键词。

可选地，在根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的装置中，其中所述权重计算模块还适于根据用户访问所述b个访问页面的次数、显示所述b个访问页面中的每个页面的搜索结果页在搜索结果中所在的页码和/或所述b个访问页面在所述搜索结果页中的位置，以及所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重。

可选地，在根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的装置中，其中类别匹配模块适于从所述预先设定的e个类别中的每个类别中提取分类规则；将所述用户标签与对应于每个类别的分类规则相比较；以及如果所述用户标签符合所述分类规则，将所述用户分配为所述类别。

本发明提供了上述根据服务器的搜索日志数据进行用户分类的方法和装置。根据本发明的实施例，根据服务器的搜索日志数据进行用户分类方法和装置，对服务器的搜索日志数据进行处理，并根据该数据自身的一个或多个参数，对用户进行分类，可以更有效地分析、记录、统计、发掘用户的兴趣点以及兴趣点的分布，进而对服务器的搜索日志数据进行***性管理、提高了服务器的搜索效率、有助于为用户提供个性化服务，提高了进行各种针对性的广告推送或其他服务的效率。此外，根据本发明的示例性实施例，先是通过服务器的搜索日志数据中的用户会话标识将会话存活期内的用户访问记录与相应的用户会话标识关联起来，然后再可选地采用会话持续时间阈值划分，减少了对同一会话里记录的错误划分，使数据处理的准确性更高，从而解决了仅基于时间划分用户会话导致较大误差的技术问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的方法的流程图；以及

图2是根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本发明的第一方面，提供了一种根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的方法100。

图1示出了根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的方法100的流程图。

在本发明的实施例中，服务器可以是一个或多个服务器计算机，可设置为提供某种服务器功能，例如数据库管理和搜索引擎。服务器可以包括至少一个处理器，其与存储器以及多个其它模块协同操作。所述处理器可以包括多个核心，以用于多线程或并行处理。所述存储器可以包括一个或多个存储设备，存储器或者其中的存储设备包括非易失性计算机可读记录/存储介质。

在本发明的实施例中，用户可使用用户端，例如桌面计算机、笔记本计算机、服务器、工作站、平板电脑、智能手机等运行操作***的各种终端设备，通过通信网络与服务器进行信息交换，例如发送/接收标识信息、发送/接收数据文件，如图片等。所述服务器可以通过有线方式(例如，USB电缆)与用户端，也可以通过无线方式(例如，蓝牙或无线局域网)与用户端通信。

以上服务器和用户端的实施例仅为示例，本发明的范围并不局限于此，而是可以应用于各种服务器和用户端。

如图1所示，根据服务器的搜索日志数据进行用户分类的方法100始于步骤S101：从服务器的搜索日志数据中获取用户搜索时使用的a个查询词、以及根据每个查询词搜索到的并且被用户访问过的b个访问页面。可选地，a和b是大于0的正整数，a可以等于b，也可以不等于b。

在本发明的实施例中，服务器的搜索日志数据可以包括用户的IP地址，用户的cookie标识、用户会话标识、用户搜索时使用的查询词、根据每个查询词搜索到的并且用户访问过的访问页面的URL、用户访问每个访问页面的时间、用户代理等信息。

在本发明的实施例中，可选地，服务器的搜索日志数据可对应于用户和/或服务器的以下行为：用户在用户端的查询界面中输入搜索时使用的查询词，服务器根据所述查询词搜索到搜索结果并向用户展现该搜索结果。可选地，该服务器的搜索日志数据可包括用户进行搜索的时间、日期、用户的IP地址、用户搜索时使用的查询词等，如表1所示。例如，用户在2014年3月18日的17:29:50，使用查询词“天天向上”进行搜索，该用户的IP地址为220.181.19.177；另一用户在2014年3月18日的18:30:50，使用查询词“天下足球”进行搜索，该用户的IP地址为121.13.53.89。对应于上述两个用户的搜索行为，可获得如表1所示的服务器的搜索日志数据。

表1服务器的搜索日志数据

在本发明的实施例中，可选地，服务器的搜索日志数据还可对应于用户和/或服务器的以下行为：用户在用户端的查询界面中输入搜索时使用的查询词，服务器根据所述查询词搜索到搜索结果并向用户展现该搜索结果，如果用户对服务器根据该查询词搜索到的搜索结果比较满意，则访问相应的搜索结果的页面。可选地，该服务器的日志数据可包括用户的IP地址、用户搜索时使用的a个查询词、根据每个查询词搜索到的并且用户访问过的b个访问页面、用户访问每个访问页面的时间、所述b个访问页面的URL、显示所述b个访问页面中的每一个页面的搜索结果页在搜索结果中所在的页码、所述b个访问页面中的每一个页面在所述搜索结果页中的位置，如表2所示。例如，用户使用查询词“天天向上”进行搜索，该用户的IP地址为220.181.19.177，服务器根据用户的查询词向用户提供展现搜索结果，用户在搜索结果页上点击他所感兴趣的搜索结果，即，点击展现在搜索结果的第1页的第2位置的页面，从而访问该页面，该访问页面的URL为http://www.iqiyi.com/v_19rrhtxdv8.html；另一用户使用查询词“天下足球”进行搜索，该用户的IP地址为121.13.53.89，服务器根据用户的查询词向用户提供展现搜索结果，用户在搜索结果页上点击他所感兴趣的搜索结果，即，点击展现在搜索结果的第1页的第2位置的页面，从而访问该页面，该访问页面的URL为http://cctv.cntv.cn/lm/tianxiazuqiu/。对应于上述两个用户的搜索行为，可获得如表2所示的服务器的搜索日志数据。

以上用户、查询词和访问页面的数量的实施例仅为示例，本发明的范围并不局限于此，可选地，每个用户可使用多个查询词，且针对每个查询词，每个用户可以访问多个搜索结果页面。

表2服务器的搜索日志数据

在本发明的实施例中，以表2所示的服务器的搜索日志数据为例，方法100的步骤S101可以是：从服务器的搜索日志数据中获取用户搜索时使用的2个查询词“天天向上”和“天下足球”，以及根据每个查询词搜索到的并且被用户访问过的1个访问页面，即，根据查询词“天天向上”搜索到的并且被用户访问过的1个访问页面http://www.iqiyi.com/v_19rrhtxdv8.html，以及根据查询词“天下足球”搜索到的并且被用户访问过的1个访问页面http://cctv.cntv.cn/lm/tianxiazuqiu。以上用户、查询词和访问页面的数量的实施例仅为示例，本发明的范围并不局限于此，可选地，每个用户可使用多个查询词，且针对每个查询词，每个用户可以访问多个搜索结果页面。

在本发明的一个示例性实施例中，步骤S101还可包括：从服务器的搜索日志数据中获取用户的cookie标识，以识别用户；以及分别获取每个用户搜索时使用的a个查询词以及根据每个查询词搜索到的并且用户访问过的b个访问页面。

在本发明的实施例中，服务器的搜索日志数据中的用户的cookie标识可用于分辨用户，用户的cookie标识是站点根据用户的浏览器写入其本地的一个唯一标识，当用户再次向服务器请求访问页面时，该标识被附加在请求中返回给服务器，故此可以用于客户身份识别。由此，服务器的搜索日志数据可如表3所示。根据如表3所示的服务器的搜索日志数据，可获取用户的cookie标识，以识别用户，可选地，为每个用户分配一个用户ID，可根据用户的ID，分别获取每个用户搜索时使用的a个查询词以及根据每个查询词搜索到的并且用户访问过的b个访问页面。例如，可根据服务器搜索日志数据中获取用户的cookie标识，并根据该cookie标识识别用户，可选地，为使用该服务器进行搜索的两个用户分别分配用户ID“1”和“2”。对于用户ID为“1”和“2”的用户，分别从服务器的搜索日志数据中获取搜索时使用的查询词、根据该查询词搜索到的并且用户访问过的访问页面、访问该页面的日期和时间等。

表3具有用户识别结果的服务器的搜索日志数据

在本发明的一个示例性实施例中，步骤S101还可包括：从服务器的搜索日志数据中获取用户的IP地址、用户访问每个访问页面的时间、所述b个访问页面的URL、显示所述b个访问页面中的每一个页面的搜索结果页在搜索结果中所在的页码、所述b个访问页面中的每一个页面在所述搜索结果页中的位置。可选地，可首先从服务器的搜索日志数据中获取用户的cookie标识，以识别用户；再针对每个用户，分别获取用户上述数据。可选地，也可以不识别用户，而是从服务器的搜索日志数据中获取所有或部分用户的上述数据。

如表2所示，可选地，从表2所示的服务器的搜索日志数据中，对于用户ID为“1”的用户，除了可以获取用户使用的查询词“天天向上”以及根据该查询词搜索到的并且被用户访问过的1个访问页面，还可以获取该用户的IP地址“220.181.19.177”、用户访问该访问页面的日期“20140318”和时间“17:29:50”、该访问页面的URL“http://www.iqiyi.com/v_19rrhtxdv8.html”、显示该访问页面的搜索结果页在搜索结果中所在的页码“1”、该访问页面在所述搜索结果页中的位置“2”等数据。

在本发明的一个示例性实施例中，步骤S101可包括：步骤S111：从服务器的搜索日志数据中获取用于标识用户会话的f个用户会话标识，所述用户会话是用户在预定时间间隔内访问的一组访问页面的序列，其中f为大于等于1的正整数；步骤S121：将每个用户会话标识与对应于所述a个查询词的访问页面相关联；步骤S131：将对应于所述a个查询词的访问页面中对应于每个用户会话标识的一组访问页面按照用户访问每个访问页面的时间进行排序，以形成对应于每个用户会话标识的访问页面的序列；以及步骤S141：获取所述预定时间间隔内对应于所述每个用户会话标识的访问页面的序列。

根据本发明的实施例，用户会话可以是指用户对服务器的一次有效访问，是用户在预定时间间隔内访问的一组访问页面的序列。一次用户会话就是单个用户在搜索结果页上浏览的点击流。但由于搜索日志中存储大量的访问信息，时间跨度也比较大，用户可能在此期间多次访问站点，通过会话识别可以将用户多次访问的页面划分成多次用户会话。

表4是根据本发明的实施例的从服务器的搜索日志数据中所获取的用户会话表。

在步骤S111中，参考表4，可从服务器的搜索日志数据中获取用于标识用户会话的f个用户会话标识，所述用户会话是用户在预定时间间隔内访问的一组访问页面的序列，其中f为大于等于1的正整数，f可以等于也可以不等于a或b。可选地，可将用户在预定时间间隔，例如30分钟，访问服务器的点击流分为多个用户会话，且可从服务器的搜索日志数据中获取用于标识用户会话的用户会话标识，如表4中所示的2个用户会话标识“1”和“2”。可选地，每个用户会话中，用户可以使用多个查询词进行搜索并访问对应于所述多个查询词的搜索结果中的页面。可选地，在用户使用每个查询词进行搜索时，可在多个用户会话中访问对应于所述多个查询词的搜索结果中的页面。

在步骤S121中，将每个用户会话标识与对应于所述a个查询词的访问页面相关联。例如，服务器的搜索日志数据可包括查询词“天天向上”和“天下足球”，以及对应于这两个查询词的访问页面P1,P2，…以及P3,P4,…。其中，在用户会话标识为“1”的用户会话中，用户使用查询词“天天向上”搜索到且访问过访问页面P1、P2…，则将用户会话标识“1”与对应于查询词“天天向上”的访问页面P1、P2…相关联，如表4所示。同理，将用户会话标识“2”与对应于查询词“天下足球”的访问页面P3、P4…相关联。

应理解，表4仅示出了在用户会话标识为“1”的用户会话中，用户ID为“1”的用户使用一个查询词“天天向上”进行搜索的示例性实施例。可选地，在一个用户会话中，例如用户会话标识为“1”的用户会话中，用户可使用多个查询词，例如3个查询词A、B和C进行搜索，并且根据该查询词A、B、C分别搜索到并且被用户访问过m、n、p个访问页面；即，在用户会话标识为“1”的用户会话中，用户搜索时使用3个查询词A、B、C，对应于这3个查询词的访问页面为(m+n+p)个访问页面，则将用户会话标识“1”与对应3个查询词的(m+n+p)个访问页面相关联。可选地，在多个用户会话中，例如在多个用户会话D、E、F中，用户可仅使用一个查询词进行搜索，并分别访问搜索到的r、s、t个页面，则将用户会话标识D与r个访问页面相关联，将用户会话标识E与s个访问页面相关联，将用户会话标识F与t个访问页面相关联。

在步骤S131中，将对应于所述a个查询词的访问页面中对应于每个用户会话标识的一组访问页面按照用户访问每个访问页面的时间进行排序，以形成对应于每个用户会话标识的访问页面的序列。例如，参考表4，将对应于查询词“天天向上”中对应于用户会话标识“1”的一组访问页面按照用户访问每个访问页面的时间进行排序，以形成对应于每个用户会话标识的访问页面的序列“P1,P2，…”。可选地，在用户使用一个查询词进行搜索，并在多个用户会话D、E、F中分别访问搜索到的r、s、t个页面的情况下，将用户会话标识D与r个访问界面相关联并将r个访问页面按照用户访问每个访问页面的时间进行排序，以形成对应于每个用户会话标识的访问页面的序列，以此类推。

在步骤S141中，获取所述预定时间间隔内对应于所述每个用户会话标识的访问页面的序列。参考表4，分别获取预定时间间隔内对应于用户会话标识“1”的访问页面的序列“P1,P2，…”，以及对应于用户会话标识“2”的访问页面的序列“P3,P4，…”。

表4用户会话表

根据上述本发明的示例性实施例，首先将单个用户访问页面的服务器搜索日志数据按用户会话标识进行关联，再按时间排序，形成用户访问页面序列，可选地再依据时间阈值进行划分，每一会话可通过用户ID和访问页面的时间进行标识，将按时间顺序对所有会话序列组织在一起。

而传统的会话识别仅仅是基于时间的划分，通过设置用户访问页面的持续时间或页面的停留时间阈值来识别用户会话；如果相邻的两个页面的时间差超过预定时间阈值，则认为两个页面分属两个不同的会话序列。但该方法可能使原本在同一个会话里的记录被划分到不同的会话中，导致较大的会话识别误差。

根据本发明的示例性实施例，先是通过服务器的搜索日志数据中的用户会话标识将会话存活期内的用户访问记录与相应的用户会话标识关联起来，然后再可选地采用会话持续时间阈值划分，减少了对同一会话里记录的错误划分，使数据处理的准确性更高，从而解决了仅基于时间划分用户会话导致较大误差的技术问题。

再次参考图1，步骤S101之后，进行步骤S103：分别对每个查询词和对应于每个查询词的所述b个访问页面进行分词处理，以获得相应于每个查询词的c个关键词。在本发明的示例性实施例中，分词处理可以是将字符序列切分成一个或多个单独的词的过程，可以是将连续的字符序列按照一定的规范重新组合成词序列的过程。可选地，可通过基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法或者其他方法，对每个查询词和对应于每个查询词的所述b个访问页面进行分词处理。

根据本发明的示例性实施例，步骤S103可包括：获取所述b个访问页面的b个标题；以及分别对每个查询词和所述b个标题进行分词处理，以获得相应于每个查询词的c个关键词。可选地，也可以对b个访问页面的全部文本或部分文本进行分词处理，以获得相应于每个查询词的c个关键词。

为了便于说明，将访问页面的标题用“T”表示，将用户搜索时使用的查询词用“Q”表示，并且将分词处理后所获得的关键词用“t”表示。对于用户标识为u的用户，以下称“用户u”，该用户搜索时使用查询词Q₁、Q₂…，根据每个查询词搜索到的并且被用户访问过的访问页面的标题分别为(T₁、T₂、T₃…)、(T₄、T₅、T₆…)…。而每个查询词Q和对应该查询词Q的访问页面的标题T都是由一些关键词t组成，则对每个查询词Q和访问页面的标题T进行分词处理，获得相应于每个查询词的关键词，将这些关键词表征为集合k，则有

t¹＝<(k(Q)₁,k(T)₁,k(T)₂,k(T)₃,…)>

t²＝<(k(Q)₂,k(T)₄,k(T)₅,k(T)₆,…)>…(1)

而对于用户u，在用户会话内所有查询词Q和对应于每个查询词的访问页面所对应的关键词为：

t^u＝<((k(Q)₁,k(T)₁,k(T)₂,k(T)₃,…),((k(Q)₂,k(T)₄,k(T)₅,k(T)₆,…)),…>(2)

应理解，在仅对访问页面的标题进行处理时，可用T表示访问页面的标题。当对访问页面的其他部分或全部进行分词处理时，T可用来表示使用某一查询词Q进行搜索时根据该查询词搜索到并被用户u访问某一访问页面。以上用户、查询词、访问页面和关键词的数量的实施例仅为示例，本发明的范围并不局限于此，可选地，每个用户可使用其他数量的查询词、访问页面和关键词。

再次参考图1，步骤S103之后，进行步骤S105：根据所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重。

当用户u在使用某一查询词Q进行搜索时，根据该查询词搜索到并被用户u访问某一访问页面T，则关键词t在该查询词Q和该访问页面的标题T中出现的次数为：

TF_t(Q,T)＝sum(t∈k(Q)∪t∈k(T)) (3)

则在用户会话内，对应于用户搜索时使用的所有查询词Q以及根据每个查询词搜索到的并且被用户访问过的访问页面T，关键词t的权重为：

{score}^{u} (t) = Σ_{Q, T &Element; t^{u}} {TF}_{t} (Q, T) \times β - - - (4)

其中β为权重因子，可根据实际需要预先设定。

根据本发明的示例性实施例，根据所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重还包括：根据用户访问所述b个访问页面的次数、显示所述b个访问页面中的每个页面的搜索结果页在搜索结果中所在的页码和/或所述b个访问页面在所述搜索结果页中的位置，以及所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重。

可选地，用户u在使用某一查询词Q时，访问某一页面T的次数为：

PV^u(Q,T)＝sum(T(Q,T)) (5)

可选地，用户u在使用某一查询词Q时，将显示其所访问的某一页面T的搜索结果页在搜索结果中所在的页码pg(Q,T)的倒数作为该访问页面T的排名：

{PG}^{u} (Q, T) = \frac{1}{pg (Q, T)} - - - (6)

可选地，用户u在使用某一查询词Q时，将其所访问的某一访问页面T在所述搜索结果页中的位置pos(Q,T)的倒数作为该访问页面T的相似性：

{SM}^{u} (Q, T) = \frac{1}{pos (Q, T)} - - - (7)

其中β为权重因子，可根据实际需要预先设定。

应理解，当用户并未对服务器所提供的搜索结果进行点击时，即无点击行为，可以仅根据关键词t在该查询词Q和该访问页面的标题T中出现的次数TF_t(Q,T)来计算关键词t的权重。

参考图1，方法100还包括步骤S107，从对应于所述a个查询词的关键词中选择权重最高的d个关键词，作为用户标签。

根据对应于a个查询词以及根据每个查询词搜索到的且被用户访问过的b个访问页面，并根据所计算的关键词t的权重score^u(t)，获得用户u的访问兴趣集I^u：

I^u＝{(t₁,score^u(t₁)),(t₂,score^u(t₂)),...,(t_n,score^u(t_n))} (8)

I^u是由在用户u的用户会话中包含的所有关键词t及关键词的权重score^u(t)构成的集合组成。

可选地，利用TOPN算法，将权重最高的d个关键词，作为用户u的用户标签。表5示出5名用户的用户标签。可选地，也可以利用其它类似的算法，来获得权重最高的d个关键词。

表5用户标签

如图1所示，方法100还包括步骤S109：将所述用户标签分别与预先设定的类别库中的e个类别相匹配，以将用户分类。

可选地，在根据服务器的搜索日志数据进行用户行为分类过程中，可预先设定类别库，该类别库可以是依照用户的兴趣点及兴趣点所处的行业的类别库，例如可包括45个大类(汽车、保险、综艺等)，每个大类划分为多个子类，共e个类别，每个子类中包含多个关键字；然后，基于该预先设定的类别库，将所述用户标签分别与预先设定的类别库中的类别相匹配，以将用户分类。

根据本发明的示例性实施例，步骤S109可包括：从所述预先设定的e个类别中的每个类别中提取分类规则；将所述用户标签与对应于每个类别的分类规则相比较；以及如果所述用户标签符合所述分类规则，将所述用户分配为所述类别。

可选地，从预先设定的e个类别中的每个类别中提取分类规则可以通过以下方式进行：利用预先设定的类别库，直接从类别库提取规则，规则以贪心的方式增长，从包含e个类别的类别库中一次提取一个类别的规则。在提取规则时，类x的所有训练记录被看作是正例，而其他类别的训练记录则被看作是反例。如果一个规则覆盖了大多数正例，没有覆盖反例，那么该规则是可取的；但是由于类别库中某些词是包含关系，如移动和移动电源，使得一个规则覆盖了大多数正例，也覆盖了少数的反例，因此，在建立规则时，通过分析共现词，在规则的前件中引入正例和极少数反例，避免歧义的发生，这样该规则也是可取的。例如，规则r：(移动)^！(移动电源)->运营商，其中，“->”左边称为规则的前件或前提，“->”右边称为规则的后件或结论；只要记录满足前件，则该规则被触发。可选地，提取上述的规则后，可删除掉它所覆盖的训练记录，并把该规则追加到规则库中。

提取规则后，则将所述用户标签与对应于每个类别的分类规则相比较。可选地，将所述用户标签与对应于每个类别的分类规则相比较可通过以下方式进行：基于规则的分类可使用一组if...then规则来进行，它是由合取条件表示的，如规则r：条件1^条件2->结论，其中，“->”左边称为规则的前件或前提，“->”右边称为规则的后件或结论；只要用户标签满足前件，则该规则被触发。

如果所述用户标签符合所述分类规则，将所述用户分配为所述类别。可选地，如果对于每个待分类的用户标签和规则库中的每条规则进行比较，如果满足某条规则，该用户就被分类了。

表6示出了表5中的5名用户的用户分类结果。

表6用户分类

总之，本发明的实施方式提供的根据服务器的搜索日志数据进行用户分类的方法100，对服务器的搜索日志数据进行处理，并根据该数据自身的一个或多个参数，对用户进行分类，可以更有效地分析、记录、统计、发掘用户的兴趣点以及兴趣点的分布，进而对服务器的搜索日志数据进行***性管理、提高了服务器的搜索效率、有助于为用户提供个性化服务，提高了进行各种针对性的广告推送或其他服务的效率。此外，根据本发明的示例性实施例，先是通过服务器的搜索日志数据中的用户会话标识将会话存活期内的用户访问记录与相应的用户会话标识关联起来，然后再可选地采用会话持续时间阈值划分，减少了对同一会话里记录的错误划分，使数据处理的准确性更高，从而解决了仅基于时间划分用户会话导致较大误差的技术问题。

根据本发明的第二方面，提供了一种根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的方法200。

图2示出了根据本发明的实施例的根据服务器的搜索日志数据进行用户分类的装置200的示意图。

如图2所示，根据服务器的搜索日志数据进行用户分类的装置200可包括查询词及访问页面获取模块201、分词处理模块203、权重计算模块205、用户标签模块207和类别匹配模块209。

查询词及访问页面获取模块201适于从服务器的搜索日志数据中获取用户搜索时使用的a个查询词、以及根据每个查询词搜索到的并且被用户访问过的b个访问页面。可选地，a和b是大于0的正整数，a可以等于b，也可以不等于b。可选地，查询词及访问页面获取模块201适于执行方法100中的步骤S101。

在本发明的实施例中，以表2所示的服务器的搜索日志数据为例，查询词及访问页面获取模块201适于从服务器的搜索日志数据中获取用户搜索时使用的2个查询词“天天向上”和“天下足球”，以及根据每个查询词搜索到的并且被用户访问过的1个访问页面，即，根据查询词“天天向上”搜索到的并且被用户访问过的1个访问页面http://www.iqiyi.com/v_19rrhtxdv8.html，以及根据查询词“天下足球”搜索到的并且被用户访问过的1个访问页面http://cctv.cntv.cn/lm/tianxiazuqiu。以上用户、查询词和访问页面的数量的实施例仅为示例，本发明的范围并不局限于此，可选地，每个用户可使用多个查询词，且针对每个查询词，每个用户可以访问多个搜索结果页面。

在本发明的一个示例性实施例中，查询词及访问页面获取模块201还适于：从服务器的搜索日志数据中获取用户的cookie标识，以识别用户；以及分别获取每个用户搜索时使用的a个查询词以及根据每个查询词搜索到的并且用户访问过的b个访问页面。

在本发明的实施例中，服务器的搜索日志数据中的用户的cookie标识可用于分辨用户，用户的cookie标识是站点根据用户的浏览器写入其本地的一个唯一标识，当用户再次向服务器请求访问页面时，该标识被附加在请求中返回给服务器，故此可以用于客户身份识别。由此，服务器的搜索日志数据可如表3所示。查询词及访问页面获取模块201可适于根据如表3所示的服务器的搜索日志数据，获取用户的cookie标识，以识别用户，可选地，为每个用户分配一个用户ID，查询词及访问页面获取模块201可根据用户的ID，分别获取每个用户搜索时使用的a个查询词以及根据每个查询词搜索到的并且用户访问过的b个访问页面。例如，查询词及访问页面获取模块201可根据服务器搜索日志数据中获取用户的cookie标识，并根据该cookie标识识别用户，可选地，为使用该服务器进行搜索的两个用户分别分配用户ID“1”和“2”。对于用户ID为“1”和“2”的用户，查询词及访问页面获取模块201适于分别从服务器的搜索日志数据中获取搜索时使用的查询词、根据该查询词搜索到的并且用户访问过的访问页面、访问该页面的日期和时间等。

在本发明的一个示例性实施例中，查询词及访问页面获取模块201还适于：从服务器的搜索日志数据中获取用户的IP地址、用户访问每个访问页面的时间、所述b个访问页面的URL、显示所述b个访问页面中的每一个页面的搜索结果页在搜索结果中所在的页码、所述b个访问页面中的每一个页面在所述搜索结果页中的位置。可选地，查询词及访问页面获取模块201可首先从服务器的搜索日志数据中获取用户的cookie标识，以识别用户；再针对每个用户，分别获取用户上述数据。可选地，查询词及访问页面获取模块201也可以不识别用户，而是从服务器的搜索日志数据中获取全部用户的上述数据。

如表2所示，可选地，从表2所示的服务器的搜索日志数据中，对于用户ID为“1”的用户，查询词及访问页面获取模块201除了可以获取用户使用的查询词“天天向上”以及根据该查询词搜索到的并且被用户访问过的1个访问页面，还可以获取该用户的IP地址“220.181.19.177”、用户访问该访问页面的日期“20140318”和时间“17:29:50”、该访问页面的URL“http://www.iqiyi.com/v_19rrhtxdv8.html”、显示该访问页面的搜索结果页在搜索结果中所在的页码“1”、该访问页面在所述搜索结果页中的位置“2”等数据。

在本发明的一个示例性实施例中，查询词及访问页面获取模块201适于从服务器的搜索日志数据中获取用于标识用户会话的f个用户会话标识，所述用户会话是用户在预定时间间隔内访问的一组访问页面的序列，其中f为大于等于1的正整数；将每个用户会话标识与对应于所述a个查询词的访问页面相关联；将对应于所述a个查询词的访问页面中对应于每个用户会话标识的一组访问页面按照用户访问每个访问页面的时间进行排序，以形成对应于每个用户会话标识的访问页面的序列；以及获取所述预定时间间隔内对应于所述每个用户会话标识的访问页面的序列。

参考表4，查询词及访问页面获取模块201可从服务器的搜索日志数据中获取用于标识用户会话的f个用户会话标识，所述用户会话是用户在预定时间间隔内访问的一组访问页面的序列，其中f为大于等于1的正整数，f可以等于也可以不等于a或b。可选地，查询词及访问页面获取模块201可将用户在预定时间间隔，例如30分钟，访问服务器的点击流分为多个用户会话，且可从服务器的搜索日志数据中获取用于标识用户会话的用户会话标识，如表4中所示的2个用户会话标识“1”和“2”。可选地，每个用户会话中，用户可以使用多个查询词进行搜索并访问对应于所述多个查询词的搜索结果中的页面。可选地，在用户使用每个查询词进行搜索时，可在多个用户会话中访问对应于所述多个查询词的搜索结果中的页面。

查询词及访问页面获取模块201适于将每个用户会话标识与对应于所述a个查询词的访问页面相关联。例如，服务器的搜索日志数据可包括查询词“天天向上”和“天下足球”，以及对应于这两个查询词的访问页面P1,P2，…以及P3,P4,…。其中，在用户会话标识为“1”的用户会话中，用户使用查询词“天天向上”搜索到且访问过访问页面P1、P2…，则查询词及访问页面获取模块201适于将用户会话标识“1”与对应于查询词“天天向上”的访问页面P1、P2…相关联，如表4所示。同理，查询词及访问页面获取模块201适于将用户会话标识“2”与对应于查询词“天下足球”的访问页面P3、P4…相关联。

应理解，表4仅示出了在用户会话标识为“1”的用户会话中，用户ID为“1”的用户使用一个查询词“天天向上”进行搜索的示例性实施例。可选地，在一个用户会话中，例如用户会话标识为“1”的用户会话中，用户可使用多个查询词，例如3个查询词A、B和C进行搜索，并且根据该查询词A、B、C分别搜索到并且被用户访问过m、n、p个访问页面；即，在用户会话标识为“1”的用户会话中，用户搜索时使用3个查询词A、B、C，对应于这3个查询词的访问页面为(m+n+p)个访问页面，则查询词及访问页面获取模块201适于将用户会话标识“1”与对应3个查询词的(m+n+p)个访问页面相关联。可选地，在多个用户会话中，例如在多个用户会话D、E、F中，用户可仅使用一个查询词进行搜索，并分别访问搜索到的r、s、t个页面，则查询词及访问页面获取模块201适于将用户会话标识D与r个访问页面相关联，将用户会话标识E与s个访问页面相关联，将用户会话标识F与t个访问页面相关联。

查询词及访问页面获取模块201适于将对应于所述a个查询词的访问页面中对应于每个用户会话标识的一组访问页面按照用户访问每个访问页面的时间进行排序，以形成对应于每个用户会话标识的访问页面的序列。例如，参考表4，查询词及访问页面获取模块201适于将对应于查询词“天天向上”中对应于用户会话标识“1”的一组访问页面按照用户访问每个访问页面的时间进行排序，以形成对应于每个用户会话标识的访问页面的序列“P1,P2，…”。可选地，在用户使用一个查询词进行搜索，并在多个用户会话D、E、F中分别访问搜索到的r、s、t个页面的情况下，查询词及访问页面获取模块201适于将用户会话标识D与r个访问界面相关联并将r个访问页面按照用户访问每个访问页面的时间进行排序，以形成对应于每个用户会话标识的访问页面的序列，以此类推。

查询词及访问页面获取模块201适于获取所述预定时间间隔内对应于所述每个用户会话标识的访问页面的序列。参考表4，查询词及访问页面获取模块201适于分别获取预定时间间隔内对应于用户会话标识“1”的访问页面的序列“P1,P2，…”，以及对应于用户会话标识“2”的访问页面的序列“P3,P4，…”。

根据上述本发明的示例性实施例，装置200可通过查询词及访问页面获取模块201首先将单个用户访问页面的服务器搜索日志数据按用户会话标识进行关联，再按时间排序，形成用户访问页面序列，可选地再依据时间阈值进行划分，每一会话可通过用户ID和访问页面的时间进行标识，将按时间顺序对所有会话序列组织在一起。

根据本发明的示例性实施例，装置200可通过查询词及访问页面获取模块201先是利用服务器的搜索日志数据中的用户会话标识将会话存活期内的用户访问记录与相应的用户会话标识关联起来，然后再可选地采用会话持续时间阈值划分，减少了对同一会话里记录的错误划分，使数据处理的准确性更高，从而解决了仅基于时间划分用户会话导致较大误差的技术问题。

再次参考图2，装置200还包括分词处理模块203，适于分别对每个查询词和对应于每个查询词的所述b个访问页面进行分词处理，以获得相应于每个查询词的c个关键词。可选地，分词处理模块203适于执行方法100中的步骤S103。

在本发明的示例性实施例中，分词处理可以是将字符序列切分成一个或多个单独的词的过程，可以是将连续的字符序列按照一定的规范重新组合成词序列的过程。可选地，分词处理模块203可通过基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法或者其他方法，对每个查询词和对应于每个查询词的所述b个访问页面进行分词处理。

根据本发明的示例性实施例，分词处理模块203适于获取所述b个访问页面的b个标题；以及分别对每个查询词和所述b个标题进行分词处理，以获得相应于每个查询词的c个关键词。可选地，分词处理模块203也可以对b个访问页面的全部文本或部分文本进行分词处理，以获得相应于每个查询词的c个关键词。

为了便于说明，将访问页面的标题用“T”表示，将用户搜索时使用的查询词用“Q”表示，并且将分词处理后所获得的关键词用“t”表示。对于用户标识为u的用户，以下称“用户u”，该用户搜索时使用查询词Q₁、Q₂…，根据每个查询词搜索到的并且被用户访问过的访问页面的标题分别为(T₁、T₂、T₃…)、(T₄、T₅、T₆…)…。而每个查询词Q和对应该查询词Q的访问页面的标题T都是由一些关键词t组成，则分词处理模块203适于对每个查询词Q和访问页面的标题T进行分词处理，获得相应于每个查询词的关键词，将这些关键词表征为集合k，则有

t¹＝<(k(Q)₁,k(T)₁,k(T)₂,k(T)₃,…)>

t²＝<(k(Q)₂,k(T)₄,k(T)₅,k(T)₆,…)>…(1)

应理解，在分词处理模块203仅对访问页面的标题进行处理时，可用T表示访问页面的标题。当分词处理模块203对访问页面的其他部分进行分词处理时，T可用来表示使用某一查询词Q进行搜索时根据该查询词搜索到并被用户u访问某一访问页面。以上用户、查询词、访问页面和关键词的数量的实施例仅为示例，本发明的范围并不局限于此，可选地，每个用户可使用其他数量的查询词、访问页面和关键词。

再次参考图2，装置200还包括权重计算模块205，适于根据所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重。可选地，权重计算模块205适于执行方法100中的步骤S105。

TF_t(Q,T)＝sum(t∈k(Q)∪t∈k(T)) (3)

则在用户会话内，对应于用户搜索时使用的所有查询词Q以及根据每个查询词搜索到的并且被用户访问过的访问页面T，权重计算模块205计算关键词t的权重为：

{score}^{u} (t) = Σ_{Q, T &Element; t^{u}} {TF}_{t} (Q, T) \times β - - - (4)

其中β为权重因子，可根据实际需要预先设定。

根据本发明的示例性实施例，权重计算模块205适于根据用户访问所述b个访问页面的次数、显示所述b个访问页面中的每个页面的搜索结果页在搜索结果中所在的页码和/或所述b个访问页面在所述搜索结果页中的位置，以及所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重。

PV^u(Q,T)＝sum(T(Q,T)) (5)

{PG}^{u} (Q, T) = \frac{1}{pg (Q, T)} - - - (6)

{SM}^{u} (Q, T) = \frac{1}{pos (Q, T)} - - - (7)

其中β为权重因子，可根据实际需要预先设定。

应理解，当用户并未对服务器所提供的搜索结果进行点击时，即无点击行为，权重计算模块205仅根据关键词t在该查询词Q和该访问页面的标题T中出现的次数TF_t(Q,T)来计算关键词t的权重。

参考图2，装置200还包括用户标签模块207，适于从对应于所述a个查询词的关键词中选择权重最高的d个关键词，作为用户标签。可选地，用户标签模块207适于执行方法100的步骤S107。

用户标签模块207适于根据对应于a个查询词以及根据每个查询词搜索到的且被用户访问过的b个访问页面，并根据所计算的关键词t的权重score^u(t)，获得用户u的访问兴趣集I^u：

I^u＝{(t₁,score^u(t₁)),(t₂,score^u(t₂)),...,(t_n,score^u(t_n))}(8)

可选地，用户标签模块207利用TOPN算法，将权重最高的d个关键词，作为用户u的用户标签。表5示出5名用户的用户标签。可选地，也可以利用其它类似的算法，来获得权重最高的d个关键词。

如图2所示，装置200还包括类别匹配模块209，适于将所述用户标签分别与预先设定的类别库中的e个类别相匹配，以将用户分类。可选地，类别匹配模块209适于执行方法100的步骤S109。

可选地，在根据服务器的搜索日志数据进行用户行为分类过程中，类别匹配模块209可预先设定类别库，该类别库可以是依照用户的兴趣点及兴趣点所处的行业的类别库，例如可包括45个大类(汽车、保险、综艺等)，每个大类划分为多个子类，共e个类别，每个子类中包含多个关键字；然后，类别匹配模块209基于该预先设定的类别库，将所述用户标签分别与预先设定的类别库中的类别相匹配，以将用户分类。

根据本发明的示例性实施例，类别匹配模块209适于从所述预先设定的e个类别中的每个类别中提取分类规则；将所述用户标签与对应于每个类别的分类规则相比较；以及如果所述用户标签符合所述分类规则，将所述用户分配为所述类别。

可选地，类别匹配模块209可以通过以下方式从预先设定的e个类别中的每个类别中提取分类规则：利用预先设定的类别库，直接从类别库提取规则，规则以贪心的方式增长，从包含e个类别的类别库中一次提取一个类别的规则。在类别匹配模块209提取规则时，类x的所有训练记录被看作是正例，而其他类别的训练记录则被看作是反例。如果一个规则覆盖了大多数正例，没有覆盖反例，那么该规则是可取的；但是由于类别库中某些词是包含关系，如移动和移动电源，使得一个规则覆盖了大多数正例，也覆盖了少数的反例，因此，在建立规则时，通过分析共现词，在规则的前件中引入正例和极少数反例，避免歧义的发生，这样该规则也是可取的。例如，规则r：(移动)^！(移动电源)->运营商，其中，“->”左边称为规则的前件或前提，“->”右边称为规则的后件或结论；只要记录满足前件，则该规则被触发。可选地，类别匹配模块209提取上述的规则后，可删除掉它所覆盖的训练记录，并把该规则追加到规则库中。

类别匹配模块209提取规则后，则将所述用户标签与对应于每个类别的分类规则相比较。可选地，类别匹配模块209可通过以下方式将所述用户标签与对应于每个类别的分类规则相比较：基于规则的分类可使用一组if...then规则来进行，它是由合取条件表示的，如规则r：条件1^条件2->结论，其中，“->”左边称为规则的前件或前提，“->”右边称为规则的后件或结论；只要用户标签满足前件，则该规则被触发。

如果所述用户标签符合所述分类规则，类别匹配模块209将所述用户分配为所述类别。可选地，如果对于每个待分类的用户标签和规则库中的每条规则进行比较，如果满足某条规则，该用户就被分类了。

表6示出了表5中的5名用户的用户分类结果。

总之，本发明的实施方式提供的根据服务器的搜索日志数据进行用户分类的装置200，对服务器的搜索日志数据进行处理，并根据该数据自身的一个或多个参数，对用户进行分类，可以更有效地分析、记录、统计、发掘用户的兴趣点以及兴趣点的分布，进而对服务器的搜索日志数据进行***性管理、提高了服务器的搜索效率、有助于为用户提供个性化服务，提高了进行各种针对性的广告推送或其他服务的效率。此外，根据本发明的示例性实施例，先是通过服务器的搜索日志数据中的用户会话标识将会话存活期内的用户访问记录与相应的用户会话标识关联起来，然后再可选地采用会话持续时间阈值划分，减少了对同一会话里记录的错误划分，使数据处理的准确性更高，从而解决了仅基于时间划分用户会话导致较大误差的技术问题。

本发明的实施例公开了：

B11.如权利要求B10所述的装置，其中所述查询词及访问页面获取模块适于从服务器的搜索日志数据中获取用于标识用户会话的f个用户会话标识，所述用户会话是用户在预定时间间隔内访问的一组访问页面的序列，其中f为大于等于1的正整数；将每个用户会话标识与对应于所述a个查询词的访问页面相关联；将对应于所述a个查询词的访问页面中对应于每个用户会话标识的一组访问页面按照用户访问每个访问页面的时间进行排序，以形成对应于每个用户会话标识的访问页面的序列；以及获取所述预定时间间隔内对应于所述每个用户会话标识的访问页面的序列。

B12.如权利要求B8所述的装置，其中所述分词处理模块适于获取所述b个访问页面的b个标题；以及分别对每个查询词和所述b个标题进行分词处理，以获得相应于每个查询词的c个关键词。

B13.如权利要求B10所述的装置，其中所述权重计算模块还适于根据用户访问所述b个访问页面的次数、显示所述b个访问页面中的每个页面的搜索结果页在搜索结果中所在的页码和/或所述b个访问页面在所述搜索结果页中的位置，以及所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重。

B14.如权利要求B8所述的装置，其中类别匹配模块适于从所述预先设定的e个类别中的每个类别中提取分类规则；将所述用户标签与对应于每个类别的分类规则相比较；以及如果所述用户标签符合所述分类规则，将所述用户分配为所述类别。

在此提供的方法和装置不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的若干模块组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者模块中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个装置实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种根据服务器的搜索日志数据进行用户分类的方法，包括步骤：

从服务器的搜索日志数据中获取用户搜索时使用的a个查询词、以及根据每个查询词搜索到的并且被用户访问过的b个访问页面；

分别对每个查询词和对应于每个查询词的所述b个访问页面进行分词处理，以获得相应于每个查询词的c个关键词；

根据所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重；

从对应于所述a个查询词的关键词中选择权重最高的d个关键词，作为用户标签；

将所述用户标签分别与预先设定的类别库中的e个类别相匹配，以将用户分类。

2.如权利要求1所述的方法，其中从服务器的搜索日志数据获取用户搜索时使用的a个查询词以及根据每个查询词搜索到的并且用户访问过的b个访问页面还包括：

从服务器的搜索日志数据中获取用户的cookie标识，以识别用户；以及

分别获取每个用户搜索时使用的a个查询词以及根据每个查询词搜索到的并且用户访问过的b个访问页面。

3.如权利要求1或2所述的方法，其中从服务器的搜索日志数据获取用户搜索时使用的a个查询词以及根据每个查询词搜索到的并且用户访问过的b个访问页面还包括：

从服务器的搜索日志数据中获取用户的IP地址、用户访问每个访问页面的时间、所述b个访问页面的URL、显示所述b个访问页面中的每一个页面的搜索结果页在搜索结果中所在的页码、所述b个访问页面中的每一个页面在所述搜索结果页中的位置。

4.如权利要求3所述的方法，其中从服务器的搜索日志数据中获取用户搜索时使用的a个查询词以及根据每个查询词搜索到的并且用户访问过的b个访问页面包括：

从服务器的搜索日志数据中获取用于标识用户会话的f个用户会话标识，所述用户会话是用户在预定时间间隔内访问的一组访问页面的序列，其中f为大于等于1的正整数；

将每个用户会话标识与对应于所述a个查询词访问页面相关联；

将对应于所述a个查询词的访问页面中对应于每个用户会话标识的一组访问页面按照用户访问每个访问页面的时间进行排序，以形成对应于每个用户会话标识的访问页面的序列；以及

获取所述预定时间间隔内对应于所述每个用户会话标识的访问页面的序列。

5.如权利要求1所述的方法，其中分别对每个查询词和所述b个访问页面进行分词处理，以获得相应于每个查询词的c个关键词包括：

获取所述b个访问页面的b个标题；以及

分别对每个查询词和所述b个标题进行分词处理，以获得相应于每个查询词的c个关键词。

6.如权利要求3所述的方法，其中根据所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重还包括：

根据用户访问所述b个访问页面的次数、显示所述b个访问页面中的每个页面的搜索结果页在搜索结果中所在的页码和/或所述b个访问页面在所述搜索结果页中的位置，以及所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重。

7.如权利要求1所述的方法，其中将所述用户标签与预先设定的e个类别相匹配，以将用户分类包括：

从所述预先设定的e个类别中的每个类别中提取分类规则；

将所述用户标签与对应于每个类别的分类规则相比较；以及

如果所述用户标签符合所述分类规则，将所述用户分配为所述类别。

8.一种根据服务器的搜索日志数据进行用户分类的装置，包括：

查询词及访问页面获取模块，适于从服务器的搜索日志数据中获取用户搜索时使用的a个查询词、以及根据每个查询词搜索到的并且被用户访问过的b个访问页面；

分词处理模块，适于分别对每个查询词和对应于每个查询词的所述b个访问页面进行分词处理，以获得相应于每个查询词的c个关键词；

权重计算模块，适于根据所述c个关键词在所述每个查询词和所述b个访问页面中出现的次数，计算所述c个关键词的权重；

用户标签模块，适于从对应于所述a个查询词的关键词中选择权重最高的d个关键词，作为用户标签；

类别匹配模块，适于将所述用户标签分别与预先设定的类别库中的e个类别相匹配，以将用户分类。

9.如权利要求1所述的装置，其中所述查询词及访问页面获取模块还适于从服务器的搜索日志数据中获取用户的cookie标识，以识别用户；以及分别获取每个用户搜索时使用的a个查询词以及根据每个查询词搜索到的并且用户访问过的b个访问页面。

10.如权利要求8或9所述的装置，其中所述查询词及访问页面获取模块还适于从服务器的搜索日志数据中获取用户的IP地址、用户访问每个访问页面的时间、所述b个访问页面的URL、显示所述b个访问页面中的每一个页面的搜索结果页在搜索结果中所在的页码、所述b个访问页面中的每一个页面在所述搜索结果页中的位置。