CN101420313A

CN101420313A - 一种针对客户端用户群进行聚类的方法和***

Info

Publication number: CN101420313A
Application number: CNA2007101761781A
Authority: CN
Inventors: 苏雪峰
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2007-10-22
Filing date: 2007-10-22
Publication date: 2009-04-29
Anticipated expiration: 2027-10-22
Also published as: CN101420313B

Abstract

本发明提供了一种针对客户端用户群进行聚类的方法，包括：收集多个输入法客户端用户的用户词库，并记录用户与其用户词库的对应关系；所述用户词库包括词及词频；针对各用户的用户词库，计算得到该用户的特征参数；计算各用户特征参数之间的相似度，完成对各个用户的聚类。进而，本发明还可以包括依据一用户的类别信息，向该用户提供个性化信息服务的步骤。本发明通过汇集多个用户的输入信息(包括输入内容和/或输入习惯)，通过准确度较高的聚类策略完成对用户的类别识别，可以提高对输入法客户端用户群聚类的准确度，从而可以实现对用户个性化信息服务的提供，并能够保证相当的准确度。

Description

一种针对客户端用户群进行聚类的方法和***

技术领域

本发明涉及互联网信息处理领域，特别是涉及一种针对客户端用户群进行聚类的方法和***，以及一种基于上述聚类结果向用户提供个性化信息服务的方法和***。

背景技术

向用户提供各种个性化的信息服务是互联网信息技术发展的下一个方向，例如，个性化搜索，相关信息的个性化发布(例如，新闻信息、娱乐信息、广告信息)等。但是，为了实现个性化信息服务的提供，就必须大量的收集用户的个性信息，并加以分析处理，找出该用户的类别信息，进而针对该用户提供相应类别的个性化信息服务。

然而，在传统实现的众多技术中，由于方法和资源限制，对于用户个性信息的收集，存在着获取信息不准确、不完备的问题，这样使得后续进行的用户群体分析结果偏差较大。

例如，一般用于收集用户个性信息的数据源包括以下三种：

(1)用户的搜索历史记录

用户的搜索历史记录，可以包括：所使用过的查询词记录、选取点击过的搜索结果、被点击文档的内容以及分类信息等等。但是这些信息都存在着不能准确描述用户个人兴趣，进而无法准确识别用户类别的问题。原因如下：

首先，一般用户搜索的目的，往往是为了发现一个问题的正确答案或者寻找一些事物的相关信息；而这种未知信息的获取，并不能完整的反映出用户的兴趣爱好所在，只能完成用户信息的部分收集，只能从一定角度反映该用户的个人属性。

其次，由于搜索结果列表中的名称信息或者摘要信息，并不能准确反映该搜索结果的内容，所以导致接下来产生的用户点击行为中有很大一部分属于无效点击行为，故使得该数据的可参考性大大降低。

因此对用户搜索历史记录进行分析并不能准确识别用户类别。

(2)用户在浏览网页中表现出来的信息

此类信息主要包括用户浏览过的网页等信息，但是此类数据源同样存在不能准确反映用户个人兴趣，进而无法准确识别用户类别的问题。

因为，首先，用户在上网冲浪、浏览网页的过程中，很容易受到门户网站的舆论导向引导，用户往往经常浏览的一些信息都是网站所主推的热门、焦点新闻，这类新闻更多的是反映了一种大众的行为，而不是用户的个人兴趣。其次，用户浏览的网页中，往往包含论坛、社区、博客等网民互动参与的内容，而这一类内容很可能代表了其他用户、其他网民的观点，而并不能反映该用户的个人属性(例如，浏览同一个博客文章的用户中，有人非常赞同，有人非常反对)，反而会给用户个性信息的收集带来噪音干扰。再者，用户搜索和浏览的信息都很容易受到网页中嵌套、弹出广告的干扰，这样获得的用户信息更加不准确。

(3)用户在网上注册的个人信息

由于在现有的网络环境下，网络用户出于安全性和隐私性的考虑，很少会在网上留下自己的真实信息。用户在网上注册的个人信息，往往都是虚假捏造出来的。所以，用户注册信息对于用户类别的正确识别意义有限。

因此，现阶段需要本领域技术人员迫切解决的一个技术问题就是：为了实现为用户提供个性化的信息服务，如何能够创新性的提出一种收集用户个性信息并加以分析处理的方法，实现更准确的用户类别识别，从而提高面向用户提供个性化信息服务时的个性化程度和准确度。

发明内容

本发明所要解决的技术问题是提供一种针对客户端用户群进行聚类的方法和***，能够收集用户的输入内容和/或输入习惯，获得更加准确、丰富的用户个性信息，从而可以实现更准确的用户类别识别。

相应的，本发明还提供了一种输入法***，用于实现用户个性输入内容和/或输入习惯的采集，甚至个性化信息服务的提供。

相应的，本发明还提供了一种基于上述聚类结果向用户提供个性化信息服务的方法和***，能够在准确对用户类别进行识别的基础上，实现富有效率和准确度的个性化信息服务的提供。

为了解决上述问题，本发明公开了一种针对客户端用户群进行聚类的方法，包括：收集多个输入法客户端用户的用户词库，并记录用户与其用户词库的对应关系；所述用户词库包括词及词频；针对各用户的用户词库，计算得到该用户的特征参数；计算各用户特征参数之间的相似度，完成对各个用户的聚类。

优选的，所述用户词库还包括：应用软件及其使用信息；和/或，表征字词之间关联关系的二元或者N元信息；和/或，用户注册信息；和/或，依据输入历史记录分析得到的用户隐性属性信息；和/或，依据用户注册信息分析得到的用户隐性属性信息。

优选的，所述用户特征参数的计算过程进一步包括：针对用户词库进行预处理的步骤。其中，所述预处理步骤可以包括：直接针对用户词库中的信息进行处理得到所需的用户属性信息；或者，从输入法客户端获得其他信息，与用户词库一起进行处理得到所需用户属性信息。

依据本发明的另一实施例，还公开了一种针对客户端用户群进行聚类的***，包括：

词库存储模块，用于汇集多个输入法客户端用户的用户词库，并记录用户与其用户词库的对应关系；所述用户词库包括词及词频；

特征参数计算模块，用于针对各用户的用户词库，计算得到该用户的特征参数；

聚类模块，用于计算各用户特征参数之间的相似度，完成对各个用户的聚类。

优选的，所述用户词库还可以包括：应用软件及其使用信息；和/或，表征字词之间关联关系的二元或者N元信息；和/或，用户注册信息；和/或，依据输入历史记录分析得到的用户隐性属性信息；和/或，依据用户注册信息分析得到的用户隐性属性信息。

优选的，所述特征参数计算模块进一步包括预处理子模块，用于针对用户词库进行预处理。其中，所述预处理过程可以包括：直接针对用户词库中的信息进行处理得到所需的用户属性信息；或者，从输入法客户端获得其他信息，与用户词库一起进行处理得到所需用户属性信息。

依据本发明的另一实施例，还公开了一种针对客户端用户群提供个性化信息服务的方法，包括：收集多个输入法客户端用户的用户词库，并记录用户与其用户词库的对应关系；所述用户词库包括词及词频；针对各用户的用户词库，计算得到该用户的特征参数；计算各用户特征参数之间的相似度，完成对各个用户的聚类并记录；依据一用户的类别信息，向该用户提供个性化信息服务。

优选的，所述个性化信息服务可以包括：推荐与当前用户所属类别相关的辅助词库；和/或，提供个性化搜索结果；和/或，推荐与当前用户所属类别相关的特定信息。

当所述个性化信息服务包括提供个性化搜索结果时，所述个性化搜索结果可以包括：针对该用户的个性化结果排序和/或结果过滤；和/或，针对该用户的其他类型的信息搜索结果；和/或，针对该用户的相关搜索关键元素推荐。

依据本发明的另一实施例，还公开了一种针对客户端用户群提供个性化信息服务的***，包括：

聚类模块，用于计算各用户特征参数之间的相似度，完成对各个用户的聚类并记录；

类别信息应用模块，用于依据一用户的类别信息，向该用户提供个性化信息服务。

优选的，所述特征参数计算模块进一步包括：预处理子模块，用于针对用户词库进行预处理。其中，所述预处理过程可以包括：直接针对用户词库中的信息进行处理得到所需的用户属性信息；或者，从输入法客户端获得其他信息，与用户词库一起进行处理得到所需用户属性信息。

依据本发明的另一实施例，还公开了一种输入法***，包括输入接口单元、词库和匹配显示单元，所述输入法***还可以包括：

记录单元，用于记录该用户的输入信息；所述输入信息包括词及词频；

预处理单元，用于针对该用户的输入信息进行分析，获得该用户的隐性属性信息；

用户词库构建模块，用于生成用户词库，所述用户词库包括词及词频、该用户的隐性属性信息；

通信单元，用于传送该用户标识及所述用户词库至服务器端。

优选的，所述用户词库还可以包括：应用软件及其使用信息；和/或，用户注册信息。

优选的，所述的输入法***还可以包括：

用户类别信息存储单元，用于获取服务器端依据多个用户词库分析得到的当前用户的类别信息并存储；

类别信息应用单元，用于依据该用户的类别信息，向该用户提供个性化信息服务。

与现有技术相比，本发明具有以下优点：

由于用户在使用电脑进行日常的文档办公，上网冲浪聊天，游戏娱乐的过程中，都会频繁的通过输入法向电脑输入文字信息，完成与电脑的交互过程。这种用户原始输入文字信息在一定程度上透露了用户的兴趣爱好，行业归属，使用习惯等个性信息，并且这种用户主动输入的信息相对于背景技术部分提及的三个信息源来说，更加准确、完备的反映了用户的个人特点。

因此，本发明通过对用户输入信息的记录、分析提取，可以得到用户准确的个性信息。本发明相对于传统手段来说，由于是用户的主动输入，非被动接受，因而所收集的个性信息更加准确，完备。

进而汇集多个用户的输入信息(包括输入内容和/或输入习惯)，通过准确度较高的聚类策略完成对用户的类别识别，可以提高对输入法客户端用户群聚类的准确度，从而可以实现对用户个性化信息服务的提供，并能够保证相当的准确度。

附图说明

图1是本发明一种针对客户端用户群进行聚类的方法实施例的步骤流程图；

图2是本发明一种针对客户端用户群进行聚类的***实施例的结构框图；

图3是本发明一种针对客户端用户群提供个性化信息服务的方法实施例的步骤流程图；

图4是本发明一种针对客户端用户群提供个性化信息服务的***实施例的结构框图；

图5是本发明一种输入法***实施例的结构框图；

图6是本发明另一种输入法***实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明所实现的个性化信息服务的提供方案可用于众多通用或专用的计算***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明的核心思想之一在于：用户在使用输入法的过程中，会逐渐积累起输入历史记录，这些用户原始输入文字信息在一定程度上反映了用户的兴趣爱好，行业归属，使用习惯等个人信息。因此，本发明可以根据用户词库对用户进行自动的分类，将用户划分为不同的群体；而同一用户群内部的用户，可能具有共同的兴趣爱好、更多的共同语言、相似的语言风格等等。进而，得到用户的群体信息之后，就可以向用户推荐群体词库，实现个性化搜索等个性化的信息服务，从而更好的方便用户使用。

参照图1，示出了本发明一种针对客户端用户群进行聚类的方法实施例，可以包括以下步骤：

步骤101、收集多个输入法客户端用户的用户词库，并记录用户与其用户词库的对应关系；所述用户词库包括词及词频；

步骤102、针对各用户的用户词库，计算得到该用户的特征参数；

步骤103、计算各用户特征参数之间的相似度，完成对各个用户的聚类。

本实施例步骤102中所采用的词频信息一词是输入法领域常用的词汇，其除了表示词汇的输入频率信息以外，还包括单字的输入频率信息；其中的输入频率信息可以为绝对值，也可以为相对值，还可以为经过一定策略或者算法处理过的间接表示输入频率的其他数值，例如，权重排序信息等。

本发明所述的用户词库，可以采用各种可行的数据存储形式，例如数据表或者记事本等等，一般的，都需要包括词和词频信息。

所述用户词库的收集方式可以为：输入法客户端实时或者定时的将用户词库发送至字词收集计算设备中(优选的，所述收集计算设备以服务器的形式存在)，即优选的，输入法计算设备具有一个自动发送用户词库的模块。

所述用户词库的收集还可以为：输入法用户定时或者不定时的将自己的用户词库发送至收集端，即所述发送由用户人工发起，例如，各用户将自己的个性字词发送至统一的邮件地址或者统一的服务器端实现收集。

再者，对于网络输入法(仅仅提供给用户输入接口和显示接口，通过连接服务器完成整个输入过程)而言，其用户词库的收集就更简单了，因为此时用户使用的输入法***本身就是一个服务器，用户词库可以直接存储在服务器端。实际上，本发明采用任何能够实现信息收集的方式都是可行的，不再一一列举说明。

需要说明的是，本发明所采用的服务器端是一个逻辑概念，并不限定在实体的服务器上，因为在现有技术条件下，普通的计算设备终端也有可能在逻辑上作为服务器端进行信息传输，例如，P2P技术等。

步骤101中记录用户与其用户词库的对应关系时，需要用户标识信息，一般的可以采用户注册ID作为用户标识信息，或者以输入法客户端的ID作为用户标识信息等等，在此不予详述。

步骤103实际上完成的就是一聚类过程，其中的“聚类”一词属于本领域的技术术语，一般是指：在没有样本所属类别信息的情况下，依据样本集数据的内在结构，将多个样本元素根据相关性合并成多个集合，每个集合称为一个类，每个类中的元素应当具有一定的共性(所述共性可以通过参数阈值加以控制)。在同一类别中，个体之间的距离较小，而不同类别上的个体之间的距离偏大。所述的距离用于表示相似程度，距离越小则表示越相似，例如，在网页的自动聚类技术中，一般常用距离函数来表示网页间的相似程度。由于在人工智能、数据挖掘等领域已有大量关于聚类算法的研究，因此，在此对聚类算法本身不再进行详述。

依据预置的聚类策略的不同，通过步骤103可以获得各种粒度大小的用户类别(即比较宽泛的用户大类或者比较精细的用户小类)，以满足各种后续应用的需求。

本实施例所述的用户词库，除了词和词频，还可以包括：应用软件及其使用信息，例如，某个应用程序的使用次数、大致的使用时间等等。因为软件的使用情况也能从一定程度上反映出用户的个性信息，例如经常使用office办公软件的用户，很可能是一个商务人士，这样在搜索结果中更多的推广一些商业，财经信息，对于他来说，是一个不错的个性化需求；频繁使用excel的用户可能是一个文档办公人员；而经常使用即时通讯工具的人，则可能更加偏向于互动内容的参与，包括博客、社区、论坛等等；经常使用音乐播放器的人可能对时尚的内容更加感兴趣；经常使用网页浏览器(browser)的用户，可能更加关心新闻，娱乐，八卦等内容。

在本发明的另一优选实施例中，所述的用户词库还可以包括二元信息。所述的二元信息实际上是指表示文本前后词之间的连接关系，一般也可以称为二元统计(或者，Bigram)，其中的“二元”特指两两相邻关系的统计。例如，输入信息为“不到长城非好汉”，如果我们以字作为最小的拆分单位时，我们可以拆分出“不”“到”“长”“城”“非”“好”“汉”7个单字，而其中的二元包括“不到”，“到长”，“长城”，“城非”，“非好”，“好汉”。所收集的输入信息中的词频和二元组合关系可以反映该用户在日常输入过程中常用的一些词汇和语言使用风格，从而经过分析可以获得该用户的一些个性信息。

当然，本发明并不限定仅仅收集二元信息，实际上从效果而言，能够收集n元(n≥2)的关系信息是更佳的，只是限于目前用户终端的计算能力，仅仅收集二元信息是一个比较优选的方案。

在本发明的另一优选实施例中，所述的用户词库还可以包括用户注册信息，例如，年龄、地址、职业等信息；这些信息直接可以作为用户词库的一个或者多个特征维度，也可以由输入法客户端按照预置算法对这些信息进行分析得到该用户的隐性属性信息，再将得到的隐性属性作为用户词库的一个或者多个特征维度。

在本发明的另一优选实施例中，所述的用户词库还可以包括依据输入历史记录分析得到的用户隐性属性信息。所述的输入历史记录简单而言，就是词及词频，进一步也可以包括二元信息。当然，如果客户端设备计算能力和存储能力允许的情况下，也可以全部记录用户的输入历史文本，可以更全面的分析该用户的个性化属性信息。对于仅仅包括词和词频的输入历史记录，通过各个角度的分析，可以得到该用户的多个隐性属性。

例如，通过分析感情色彩度得到该用户的属于快乐情感倾向还是属于消极情感倾向。所述感情色彩度可以通过统计预置的各种带有感情色彩的词汇在文本中的分布而得到，一般在文本中，名词往往带有不同的感情色彩，如“宝剑”带有刚健的色彩，“暗夜”带有压抑的色彩，等等，可以通过统计文本中这些词的分布，对文本所表现出的感情色彩进行考量。如，对于诗词文本而言，“枯藤老树昏鸦，小桥流水人家”带有强烈的感情色彩；诗词中一提到“杜鹃”，就带有一种哀伤的气氛，如“望帝春心托杜鹃”；而“金戈铁马”这样的词则表现出慷慨激昂的色彩；“杨柳”、“兰舟”则会表现出婉约的色彩。通过统计上述词汇在文本中的分布情况就可以标识出各个文本的感情色彩度，进而得到该用户的情感倾向。

同理，也可以通过统计其他角度的词汇属性，得到该用户的另一些隐性属性，如，用户分类信息、语言风格等。

上面对本发明的用户词库进行了详解介绍，当用户词库中所包含的内容越来越丰富时，实际上此时的用户词库就成为了从多个特征维度对该用户进行表征的用户模型了。在上面的用户词库的形成过程中，可能需要输入法客户端的计算设备完成一定的数据处理工作(如，用户属性信息的计算获取等等)。而实际上，这部分工作也可以由收集用户词库的服务器端执行。即，所述用户特征参数的计算过程进一步包括：针对用户词库进行预处理的步骤。

所述预处理的过程可以分为两种情况：一是直接针对用户词库中的信息进行处理得到所需的特征维度，例如，依据输入历史记录分析得到用户隐性属性信息；二是，从输入法客户端获得更多的其他信息(如，用户注册信息等)，与用户词库一起进行处理得到所需的特征维度。

即，在本发明中，输入法客户端可以仅仅采集原始信息，并将其传送至服务器端，服务器端对这些原始信息进行预处理后，再计算得到面向多个维度的特征参数；也可以由输入法客户端采集并进行一定的预处理，将所得的包含用户属性信息的用户词库发送至服务器端，服务器端直接针对该用户词库计算得到多个维度的特征参数即可。

下面针对用户词库进行聚类的具体过程进行详细描述。

在本例中，用户词库的基本数据是词到词频的对应关系，其次还包含软件使用信息、用户分类信息、用户语言风格、用户情感因素等用户隐性属性信息。

表1描述了所收集的一个用户的原始用户词库。

表1

然后将这些信息进行抽象、离散化为特征向量的形式，表2描述了抽象后的特征向量形式。例如，采用如下的编码映射：

(1)词->termid映射：搜狐->t11周杰伦->t18

(2)软件->软件id映射：Word->t21msn->t23

(3)分类->分类id映射：娱乐->t31体育->t32

(4)语言风格->语言风格id：武侠->t41言情->t42

(5)用户情感->情感id：快乐->t51消极->t52

这样完成编码映射之后，需要将原始词频、软件次数、分类标识、风格标识、情感因素转换为权值分数。例如，转换后的形式为：

表2

这样用户可以表示为：(W11，w12，w13...，w21，w22，w23...，w31，w32，w33...，w41，w42，w33，...，w51，w52，w53...)

其中，权重需要根据数据的类型采用不用的归一化方法：

W1x系列，表示词频信息，可以采用统计学领域种常用的tf&idf方法进行归一化处理。其中tf表示文档中term(词汇)的出现次数，它表示文档中出现次数越多，归一化后的权重越大；idf表示term在一个语料集合中出现的总次数的倒数，在语料集合中出现次数越大，idf越小，归一化后的权重越小。例如，“北京”是一个比“搜狐”更加常见的词语，因而“北京”的idf比“搜狐”小。

W2x系列，表示软件使用信息，可以直接采用软件使用次数表示；

W3x系列，表示分类信息，用0、1表示用户是否属于该类别；

W4x系列，表示语言风格信息，用0、1表示用户是否具有该类语言风格；

W5x系列，表示用户情感信息，用0、1表示用户是否属于该种情感倾向。

在得到用户的特征化表示之后，可以采用聚类方法对其聚类，聚类的方法可以***的分为***法、层次法、基于密度的方法、基于网格的方法、基于模型的方法等等。通过聚类粒度的调整，可以达到不同的聚类要求。

下面以***法中的代表k-means算法为例，描述一下聚类算法的工作流程，k-means算法是一种典型基于样本间相似性度的动态聚类方法，属于非监督学习方法。

算法运行步骤如下：

输入：聚类个数k，n个数据对象。

输出：满足方差最小标准的k个聚类。

处理流程：

(1)从n个数据对象任意选择k个对象作为初始聚类中心；

(2)循环(3)到(4)直到每个聚类不再发生变化为止；

(3)根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；

(4)重新计算每个(有变化)聚类的均值(中心对象)

k-means算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类；然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值)；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

聚类过程中的基本操作是需要比较两个对象是否相似，这里通常采用的是相似度比较的方法。首先，利用一定的相似度计算公式得到两两对象的相似度，相似度越大表示两对象越相似，相似度越小表示两对象越不相似。这样，可以认为相似度大于一定阈值的两两对象是相似的。

设有n个用户词库，每个用户词库包括p项termid，特征化向量矩阵为

其中x_ij(i＝1，…，n；j＝1，…，p)为第i个用户词库的第j个term的权重。第i个词库X_i的特征向量为矩阵X的第i行所描述，所以两个用户词库X_K与X_L之间的相似性，可以通过矩阵X中的第K行与第L行的相似程度来计算。

常用的距离和相似公式有很多，例如：

欧氏距离：欧氏距离越小，两对象越相似

d_{ij} (2) = {(Σ_{a = 1}^{p} {(x_{ia} - x_{ja})}^{2})}^{1 / 2}

余弦公式：余弦值越大，两对象越相似

\cos θ_{ij} = \frac{Σ_{a = 1}^{p} x_{ia} x_{ja}}{\sqrt{Σ_{a = 1}^{p} x_{ia}^{2} \cdot Σ_{a = 1}^{p} x_{ja}^{2}}}

1≤cosθ_ij≤1

最后在这里举一个实例，对聚类过程作进一步的说明。

第一步，收集用户上传的原始用户词库

小张是搜狐车友会成员，他的词库中会包含更多和汽车相关的词语，如表3所示。

表3

小李是新浪车友会的成员，他的词库也会包含一些和汽车相关的词语，如表4所示。

表4

小王是一个网络写手，对于汽车不是很感兴趣，他更多关心八卦信息，如表5所示。

表5

第二步，对上传的用户原始词库进行特征化处理，如表6所示。

T11->搜狐 T12->车友会T13->雷诺T14->周杰伦T15->刘亦菲

T21->Word T22->msn

T31->娱乐 T32->体育

T41->武侠 T42->言情

T51->快乐 T52->消极

表6

T11

T12

T13

T14

T15

T21

T22

T31

T32

T41

T42

T51

T52

小张	8.5	7.3	0	0	1	2	0	0	1	0
小张	8.5	7.3	0	0	1	2	0	0	1	0	小李	0	7.3	7.5	0	0	2	2	0	1	0	0	1	0
小王	0	0	7.5	7.2	2	2	1	1	1	1	小李	0	7.3	7.5	0	0	2	2	0	1	0	0	1	0

这样，得到三个用户的特征向量：

X1(小张)(8.5，7.3，0，0，0，1，2，0，0，0，0，1，0)；

X2(小李)(0，7.3，7.5，0，0，2，2，0，1，0，0，1，0)；

X3(小王)(0，0，0，7.5，7.2，2，2，1，0，0，1，1，1)；

第三步，聚类，以欧氏距离为例

小张和小李的距离为D12＝sqrt[(8.5-0)*(8.5-0)+(7.3-7.3)*(7.3-7.3)+(0-7.5)*(0-7.5)+(0-0)*(0-0)+(0-0)*(0-0)+(1-2)*(1-2)+(2-2)*(2-2)+(0-0)*(0-0)+(0-1)*(0-1)+(0-0)*(0-0)+(0-0)*(0-0)+(1-1)*(1-1)+(0-0)*(0-0)]＝11.4

小张和小王的距离为D13＝sqrt[(8.5-0)*(8.5-0)+(7.3-0)*(7.3-0)+(0-0)*(0-0)+(0-7.5)*(0-7.5)+(0-7.2)*(0-7.2)+(1-2)*(1-2)+(2-2)*(2-2)+(0-1)*(0-1)+(0-0)*(0-0)+(0-0)*(0-0)+(0-1)*(0-1)+(1-1)*(1-1)+(0-1)*(0-1)]＝15.4

由此可见，小张和小李的距离更小，两人更相似。通过这种方式，可以判断出相似的人群，并利用聚类算法将其收集在一起。

参见图2，示出了一种针对客户端用户群进行聚类的***实施例，包括：

词库存储模块201，用于汇集多个输入法客户端用户的用户词库，并记录用户与其用户词库的对应关系；所述用户词库包括词及词频；

特征参数计算模块202，用于针对各用户的用户词库，计算得到该用户的特征参数；

聚类模块203，用于计算各用户特征参数之间的相似度，完成对各个用户的聚类。

在本发明的另一优选实施例中，所述用户词库还可以包括：应用软件及其使用信息；和/或，表征字词之间关联关系的二元或者N元信息；和/或，用户注册信息；和/或，依据输入历史记录分析得到的用户隐性属性信息；和/或，依据用户注册信息分析得到的用户隐性属性信息。即用户词库可以包括上述任意一种附加信息，也可以包含上述任意附加信息的组合，当然，还可以包含其他类型的附加信息，本说明书无法一一涉及。

当输入法客户端仅仅用于提供原始信息，则所述特征参数计算模块202进一步包括预处理子模块，用于针对用户词库进行预处理，预处理之后再用于计算获得其特征参数。例如，直接针对用户词库中的原始信息进行处理得到用户的隐性属性信息，然后再计算得到所需的特征参数；或者，从输入法客户端获得更多的其他信息(如，用户注册信息等)，与用户词库一起进行处理得到所需的特征参数。

参照图3，示出了一种针对客户端用户群提供个性化信息服务的方法实施例，可以包括以下步骤：

步骤301、收集多个输入法客户端用户的用户词库，并记录用户与其用户词库的对应关系；所述用户词库包括词及词频；

步骤302、针对各用户的用户词库，计算得到该用户的特征参数；

步骤303、计算各用户特征参数之间的相似度，完成对各个用户的聚类并记录；

步骤304、依据一用户的类别信息，向该用户提供个性化信息服务。

为了获得更准确的用户聚类结果，所述用户词库还可以包括：应用软件及其使用信息；和/或，表征词之间关联关系的二元或者N元信息；和/或，用户注册信息；和/或，依据输入历史记录分析得到的用户隐性属性信息；和/或，依据用户注册信息分析得到的用户隐性属性信息。即用户词库可以包括上述任意一种附加信息，也可以包含上述任意附加信息的组合。

当输入法客户端仅仅用于提供原始信息，则步骤302进一步可以包括针对用户词库进行预处理的步骤，预处理之后再用于计算获得其特征参数。例如，直接针对用户词库中的词和词频信息进行处理得到所需的特征维度；或者，从输入法客户端获得更多的其他信息(如，用户注册信息等)，与用户词库一起进行处理得到所需的特征维度。

由于更为详细的聚类过程，在本说明书前面已经描述，因此，对该部分不再详述，下面主要针对个性化信息服务的提供进行举例说明。实际上，由于信息服务的类型非常多，本发明并不需要对此加以限定，只要是在利用前述实施例对用户聚类的基础上所提供的个性化信息服务都属于本发明的核心构思之内。

一般的，所述个性化信息服务可以包括：推荐与当前用户所属类别相关的辅助词库。所述的辅助词库可以是采用人工方式或者可行的现有技术处理得到的，当能够依据本发明的聚类结果而判定某个当前用户属于某一类别时，则可以推荐与该类别相关的辅助词库给该用户，以提高该用户的输入效率。

由于辅助词库记录了该类别中多个用户的词汇输入习惯，所以即使有很多词汇，当前用户并没有曾经输入过，也可以从辅助词库中获得，以提高该用户的输入效率，尤其是首次输入词的效率。

本发明所述的辅助词库可以包括各种词库，例如，专业词库。专业词库是基于不同专业领域的用户所用的字词、字词搭配关系、词频信息和/或句法的不同，为各类用户定制对应的专业词库，一般可以按照学科领域将词库分为医学类词库、电子类词库、IT类词库等等。当然，用户也可以自己根据需要进行制作、编辑和使用。专利申请号为200710099474.6，名称为“一种字符输入的方法、输入法***及词库更新的方法”的中国专利申请文件中提及的细胞词库可以作为另一种可行的辅助词库。所述细胞词库，具体含义为某一特定群体、某一个人或一部分人使用的具有某一共性的词库(即每个细胞词库中的字词至少具有一个共同属性)，例如：最新电影词库、最新歌名词库、魔兽世界词库、生物学词库、清华大学所有人名词库、某某公司全体人名词库、海淀区地名词库等。细胞词库可以通过细胞词库网站来提供用户创建、编辑、检索、下载，进而实现更高的个性化。

辅助词库中可以包含词条信息，也可以包含词条的词频或者词序信息。词频信息表达的是用户使用该词条的可能性，其相对大小能够代表词序。词序信息用来表达词条的相对重要性，通常可以反应为词条在候选项中的排序位置。某些情况下，辅助词库中也可以直接指定某词条在候选项中的位置(或者位置范围)。对于中文拼音输入法，辅助词库中的词条通常与对应的拼音信息进行关联。但也可以直接与字母序列进行关联，例如搜狗拼音输入法中的“自定义短语”。

进一步，与该类别相关的辅助词库除了当前用户所属类别的辅助词库，还可以包括类似群体的词库，例如，某用户可能属于超女群体，则可以推荐给其超男的辅助词库(如，包括超男选手姓名词条的辅助词库)。

在另一些情况下，所述个性化信息服务可以包括：推荐与当前用户所属类别相关的特定信息等，所述相关的特定信息可以为信息提供商希望向用户传递的任何个性化的信息，例如：新闻信息、娱乐信息、广告信息、热点话题等；例如，广告、新闻、股票、相关文章、相关商品等等。这些信息可以采用各种各样的发布方式，例如图片、文本、音频、视频以及这些元素中任意一个或者多个的组合等。

所述特定信息的发布方式可以采用以下各种方式：向终端用户在网络中的虚拟空间发布相关信息；所述虚拟空间包括个人网站、博客空间或者电子邮箱等；或者，通过输入法客户端在终端用户的计算设备上发布(当然，所发布的信息可以从服务器端获取)。

本发明对展示的各种方式并不需要加以限定，优选的，可以在本地计算设备通过浏览器窗口进行相关信息的展示，例如弹出广告、浮动广告、淡入淡出广告、纵向横向推拉广告等，这些展示技术在本领域中都是所熟知的。当然，也可以采用各种桌面插件的方式，在计算设备的桌面任意位置进行相关信息的展示，例如，在桌面的一行、一列或者一角进行相关信息的展示。

进一步扩展，也可以通过输入法平台本身的各种位置展现相关信息，例如在输入法候选词窗口、状态栏中或者其周边区域进行展示。例如，还可以通过输入法平台的外观——“皮肤”展示一定的相关信息，通过“皮肤”的颜色、图案、类型等不同而展示不同的相关信息。即输入法平台的“皮肤”不仅仅可以由用户自行设定所喜欢的样式，还可以根据需要展示的相关信息的不同而自动调整以加强相关信息展示的效果。

所述相关信息中也可以加载链接地址，以及本领域技术人员易于根据用户或者商业的需求，对各种展示方法加以改进，以便更好的满足不影响用户体验的相关信息发布。

在另一些情况下，所述个性化信息服务也可以包括：提供个性化搜索结果。为了提供个性化的搜索结果，一种方式是在输入法客户端集成搜索接口，链接到远端的搜索引擎，另一种方式是输入法客户端与搜索引擎共用同一个用户标识***。

其中所涉及的搜索引擎(以网络搜索为例)，可以理解为：以一定的策略搜集互联网上的信息，在对信息进行组织和处理后，为用户提供检索服务的***。例如，搜索引擎提供一个包含搜索框的页面，在搜索框输入词语，通过浏览器提交给搜索引擎后，搜索引擎就会返回跟用户输入的内容相关的信息列表。本发明所希望实现的个性化搜索，可以理解为：搜索引擎根据用户的身份、兴趣爱好、使用习惯等个性信息，提供针对不同用户更加相关检索结果的方法，个性化搜索可以使得搜索结果更加准确，减少用户检索时间，更加满足用户搜索需求。

所得到的个性化搜索结果可以为各种形式，即可以设定各种调整策略。下面对一些可能采用的个性化搜索结果形式进行简单说明：

(1)、所述的个性化搜索结果包括针对该用户的个性化排序和/或结果过滤。即依据该用户的个性信息，将最适合该用户的信息排序在前。当然，进一步，还可以删除一些不符合该用户个性信息的搜索结果，或者对搜索结果进行聚集或者归纳等等。

(2)、所述的个性化搜索结果包括针对该用户的其他类型的信息搜索结果。

例如，通过用户模型得知该用户的图片属性和音乐属性非常高，则在个性化搜索结果中除了提供一般网页的搜索结果之外，还***一些相关的图片搜索结果和音乐搜索结果。也就是说，即使该用户仅仅通过搜索引擎的网页搜索接口进行的搜索，但是可以返回其他类型的搜索结果，例如，图片搜索结果或者音乐搜索结果等等。即在一定程度上，实现了针对该用户的综合搜索接口，避免了该用户完成分类搜索的麻烦。

(3)、所述的个性化搜索结果包括针对该用户的相关搜索关键元素推荐。

例如，假设小张的游戏属性较高，当查询词是“天龙八部”时，可以展示“天龙八部下载”，“天龙八部攻略”等相关搜索关键词；小刘是文学属性较高，当他搜索“天龙八部”时，则会展示“天龙八部小说”，“天龙八部电子版下载”等相关搜索关键词。

当然，这里所述的相关搜索关键元素并不仅仅包括文本形式的关键词，还包括图片、视频或者其他形式的各种相关搜索关键元素。

上面仅仅列出了几种搜索结果个性化的体现方式，本领域技术人员还可以根据实际需要设定其他可行的方式。

一般的，可以通过对通用搜索结果进行调整而获得个性化的搜索结果，例如，搜索引擎的服务器端无需改进，仍然统一给出通用搜索结果，然后由输入法客户端对该结果进行调整。或者由服务器端既完成通用搜索结果的给出，也完成个性化搜索结果的调整过程。

在本发明的另一实施例中，也可以通过针对搜索过程进行调整而获得个性化的搜索结果，如适用特有的搜索策略等。例如，当得知该用户的“女性”属性较强时，则可以在搜索过程中直接过滤某些女性不常关注的信息。过滤的技术实现可以采用主题过滤的方式，例如，当某个网页文档的主题不符合预置条件，则可以跳过该网页，不再对该网页进行详细搜索；过滤的技术实现还可以采用判断信息模型中某些属性值是否符合预置条件的方式，例如，所述信息模型中某个文档的属性值不符合预置条件，则直接跳过该文档，不再对该文档进行详细搜索。上述信息过滤的过程，对于某个信息可以避免进一步的分词检索，在一定程度上节约***资源。

参照图4，示出了一种针对客户端用户群提供个性化信息服务的***实施例，具体可以包括以下部件：

词库存储模块401，用于汇集多个输入法客户端用户的用户词库，并记录用户与其用户词库的对应关系；所述用户词库包括词及词频；

特征参数计算模块402，用于针对各用户的用户词库，计算得到该用户的特征参数；

聚类模块403，用于计算各用户特征参数之间的相似度，完成对各个用户的聚类并记录；

类别信息应用模块404，用于依据一用户的类别信息，向该用户提供个性化信息服务。

所述个性化信息服务可以包括：推荐与当前用户所属类别相关的辅助词库；和/或，提供个性化搜索结果；和/或，推荐与当前用户所属类别相关的特定信息等等。

下面以搜索为例，对如何应用类别信息应用模块404向用户提供个性化信息服务进行简单介绍。

如前所述，向用户提供个性化信息服务的实现方式之一是：类别信息应用模块404位于搜索引擎的服务器端，在输入法客户端集成有搜索接口，链接到远端的搜索引擎，由输入法客户端或者网页浏览器展示个性化搜索结果。当然，类别信息应用模块404也可以位于输入法客户端，例如，完成对通用搜索结果的个性化调整。所述个性化搜索结果可以包括：针对该用户的个性化结果排序和/或结果过滤；和/或，针对该用户的其他类型的信息搜索结果；和/或，针对该用户的相关搜索关键元素推荐。

在本发明的另一优选实施例中，输入法客户端与搜索引擎共用同一个用户标识***，则可以获得在更广的范围上为用户提供个性化的信息服务，任何共用用户标识的搜索引擎链接类别信息应用模块404就可以实现个性化信息服务的提供。

当类别信息应用模块404用于向用户推荐与当前用户所属类别相关的辅助词库时，则类别信息应用模块404可以位于服务器端，通过在辅助词库集合中查询获得相应的辅助词库发送至输入法客户端。对于相关的特定信息的推荐，也能够通过上述方式完成，在此不再详述。

需要说明的是，类别信息应用模块404也可以位于输入法客户端，通过将当前用户所属类别发送至相应的各个应用服务器，从而获得针对当前用户的各种个性化信息服务，例如，向辅助词库应用服务器要求推荐相应的辅助词库，或者向信息发布服务器要求推荐相应的特定信息。

在本发明的优选实施例中，所述用户词库还可以包括：应用软件及其使用信息；和/或，表征字词之间关联关系的二元或者N元信息；和/或，用户注册信息；和/或，依据输入历史记录分析得到的用户隐性属性信息；和/或，依据用户注册信息分析得到的用户隐性属性信息。

在本发明的另一实施例中，所述特征参数计算模块402进一步还包括：预处理子模块，用于针对用户词库进行预处理。该方案适用于输入法客户端的用户词库仅仅提供了一些原始信息，而并没有进一步分析得到用户属性信息的情况。所述的预处理过程可以为：直接针对用户词库中的信息进行处理得到所需的用户属性信息；或者，从输入法客户端获得其他信息，与用户词库一起进行处理得到所需用户属性信息。

例如，用户小王、小李、小张是汽车发烧友组织AA成员，在这个发烧友圈子内部每个人都有一个唯一、个性化的id，例如雪铁龙L1，奇瑞ME等，大家会经常在论坛灌水中使用这些个性化的id称呼对方(即频繁输入这些词汇)；而在这个圈子之外，很少有人知道这些id的含义，更不会频繁的使用。所以，从某些特定词语的使用频度角度出发，本发明能够将这个汽车发烧友团体的人群与其他大众中区别开来，把AA的成员自动分析成一个群体。这样，就可以为该用户群中的各个成员提供如下的个性化信息服务：

(1)、推荐针对该群体的辅助词库给该群体成员使用；

(2)、实现个性化搜索：例如，可以在搜索结果中掺杂更多的和汽车、引擎相关的结果，推销汽车的广告等；

(3)、向该群体内的用户，推荐和汽车相关的热门话题、热门新闻、促销信息等。

参照图5，示出了一种输入法***的实施例，包括输入接口单元501、***词库502和匹配显示单元503，其特征在于，所述输入法***还包括：

记录单元504，用于记录该用户的输入信息；所述输入信息包括词及词频；所述的输入信息还可以包括二元信息；优选的，也可以包括N元信息；

预处理单元505，用于针对该用户的输入信息进行分析，获得该用户的隐性属性信息；

用户词库构建单元506，用于生成用户词库，所述用户词库包括词及词频、该用户的隐性属性信息；

通信单元507，用于传送该用户标识及所述用户词库至服务器端。

图5所示的输入法***实施例可以适用于各种语言，例如，中文、日文、韩文、英文等，由于本发明在各种语言文字中的应用流程都是相似的，所以为了方便说明，下面仅仅对本发明应用在中文的情况进行说明。

图5所示的输入法***实施例可以采用的输入方式可以包括键盘符号、手写信息以及语音输入等等，由于这些输入方式中的信息转换方式都属于公知技术，在此就不详述了。该输入法***可以应用在多种计算设备中，例如，个人电脑或者手机终端。

用户词库构建单元506所得到的用户词库还可以包括：应用软件及其使用信息；和/或，用户注册信息等等。当然，也可以将这些信息独立于所述用户词库，由通信单元507将其发送至服务器端，由服务器对这些信息结合用户词库的信息进行处理，得到针对该用户的特征参数。

参照图6，示出了另一种输入法***的实施例，包括输入接口单元601、***词库602和匹配显示单元603，其特征在于，所述输入法***还包括：

记录单元604，用于记录该用户的输入信息；所述输入信息包括词及词频；所述的输入信息还可以包括二元信息；

预处理单元605，用于针对该用户的输入信息进行分析，获得该用户的隐性属性信息；

用户词库构建单元606，用于生成用户词库，所述用户词库包括词及词频、该用户的隐性属性信息；

通信单元607，用于传送该用户标识及所述用户词库至服务器端；

用户类别信息存储单元608，用于获取服务器端依据多个用户词库分析得到的当前用户的类别信息并存储；

类别信息应用单元609，用于依据该用户的类别信息，向该用户提供个性化信息服务。

其中，所述个性化信息服务可以包括：推荐与当前用户所属类别相关的辅助词库；和/或，提供个性化搜索结果；和/或，推荐与当前用户所属类别相关的特定信息。由于该部分内容在前面已经详述，在此不再重复。

图5所示的输入法***可以用于采集用户输入信息，并通过用户词库的方式传输至服务器端，而图6所示的输入法***还可以用于向用户提供个性化的信息服务。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于***实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种针对客户端用户群进行聚类的方法和***，以及一种基于上述聚类结果向用户提供个性化信息服务的方法和***，以及一种输入法***进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1、一种针对客户端用户群进行聚类的方法，其特征在于，包括：

收集多个输入法客户端用户的用户词库，并记录用户与其用户词库的对应关系；所述用户词库包括词及词频；

针对各用户的用户词库，计算得到该用户的特征参数；

计算各用户特征参数之间的相似度，完成对各个用户的聚类。

2、如权利要求1所述的方法，其特征在于，所述用户词库还包括：

应用软件及其使用信息；

和/或，表征字词之间关联关系的二元或者N元信息；

和/或，用户注册信息；

和/或，依据输入历史记录分析得到的用户隐性属性信息；

和/或，依据用户注册信息分析得到的用户隐性属性信息。

3、如权利要求1所述的方法，其特征在于，所述用户特征参数的计算过程进一步包括：针对用户词库进行预处理的步骤。

4、如权利要求3所述的方法，其特征在于，所述预处理步骤包括：

直接针对用户词库中的信息进行处理得到所需的用户属性信息；

或者，从输入法客户端获得其他信息，与用户词库一起进行处理得到所需用户属性信息。

5、一种针对客户端用户群进行聚类的***，其特征在于，包括：

6、如权利要求5所述的***，其特征在于，所述用户词库还包括：

应用软件及其使用信息；

和/或，表征字词之间关联关系的二元或者N元信息；

和/或，用户注册信息；

和/或，依据输入历史记录分析得到的用户隐性属性信息；

和/或，依据用户注册信息分析得到的用户隐性属性信息。

7、如权利要求5所述的***，其特征在于，所述特征参数计算模块进一步包括预处理子模块，用于针对用户词库进行预处理。

8、如权利要求7所述的***，其特征在于，所述预处理过程包括：

9、一种针对客户端用户群提供个性化信息服务的方法，其特征在于，包括：

针对各用户的用户词库，计算得到该用户的特征参数；

计算各用户特征参数之间的相似度，完成对各个用户的聚类并记录；

依据一用户的类别信息，向该用户提供个性化信息服务。

10、如权利要求9所述的方法，其特征在于，所述用户词库还包括：

应用软件及其使用信息；

和/或，表征字词之间关联关系的二元或者N元信息；

和/或，用户注册信息；

和/或，依据输入历史记录分析得到的用户隐性属性信息；

和/或，依据用户注册信息分析得到的用户隐性属性信息。

11、如权利要求9所述的方法，其特征在于，所述用户特征参数的计算过程进一步包括：针对用户词库进行预处理的步骤。

12、如权利要求11所述的方法，其特征在于，所述预处理步骤包括：

13、如权利要求9所述的方法，其特征在于，所述个性化信息服务包括：

推荐与当前用户所属类别相关的辅助词库；

和/或，提供个性化搜索结果；

和/或，推荐与当前用户所属类别相关的特定信息。

14、如权利要求9所述的方法，其特征在于，所述个性化信息服务包括提供个性化搜索结果，所述个性化搜索结果包括：

针对该用户的个性化结果排序和/或结果过滤；

和/或，针对该用户的其他类型的信息搜索结果；

和/或，针对该用户的相关搜索关键元素推荐。

15、一种针对客户端用户群提供个性化信息服务的***，其特征在于，包括：

16、如权利要求15所述的***，其特征在于，所述用户词库还包括：

应用软件及其使用信息；

和/或，表征字词之间关联关系的二元或者N元信息；

和/或，用户注册信息；

和/或，依据输入历史记录分析得到的用户隐性属性信息；

和/或，依据用户注册信息分析得到的用户隐性属性信息。

17、如权利要求15所述的***，其特征在于，所述特征参数计算模块进一步包括：预处理子模块，用于针对用户词库进行预处理。

18、如权利要求17所述的***，其特征在于，所述预处理过程包括：

19、如权利要求15所述的***，其特征在于，所述个性化信息服务包括：

推荐与当前用户所属类别相关的辅助词库；

和/或，提供个性化搜索结果；

和/或，推荐与当前用户所属类别相关的特定信息。

20、如权利要求15所述的***，其特征在于，所述个性化信息服务包括提供个性化搜索结果，所述个性化搜索结果包括：

针对该用户的个性化结果排序和/或结果过滤；

和/或，针对该用户的其他类型的信息搜索结果；

和/或，针对该用户的相关搜索关键元素推荐。

21、一种输入法***，包括输入接口单元、词库和匹配显示单元，其特征在于，所述输入法***还包括：

22、如权利要求21所述的输入法***，其特征在于，所述用户词库还包括：应用软件及其使用信息；和/或，用户注册信息。

23、如权利要求21所述的输入法***，其特征在于，还包括：

24、如权利要求23所述的输入法***，其特征在于，所述个性化信息服务包括：

推荐与当前用户所属类别相关的辅助词库；

和/或，提供个性化搜索结果；

和/或，推荐与当前用户所属类别相关的特定信息。