CN101989289A

CN101989289A - 数据聚类方法和装置

Info

Publication number: CN101989289A
Application number: CN2009101611586A
Authority: CN
Inventors: 吴科; 夏迎炬; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-08-06
Filing date: 2009-08-06
Publication date: 2011-03-23
Anticipated expiration: 2029-08-06
Also published as: CN101989289B

Abstract

本发明提供了数据聚类方法和装置。所述数据聚类方法可包括：初始聚类步骤：对多个数据样本进行初始聚类；标注对象选取步骤：根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象；标注信息获取步骤：获取针对所述标注对象的标注信息；及二次聚类步骤：将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。

Description

数据聚类方法和装置

技术领域

本发明涉及信息处理领域，具体地，涉及一种数据聚类方法和装置以及一种文本分类方法和装置。

背景技术

随着因特网的迅速发展，电子信息(如电子文档等)呈现***式的增长。如何迅速有效地组织和管理这些电子信息是一个亟待解决的问题。目前，数据聚类(包括文本聚类)的方法在业界倍受关注。

发明内容

在下文中给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据本发明的一个方面，提供了一种数据聚类方法。该数据聚类方法包括：初始聚类步骤：对多个数据样本进行初始聚类；标注对象选取步骤：根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象；标注信息获取步骤：获取针对所述标注对象的标注信息；及二次聚类步骤：将所述标注信息作为约束信息对所述多个数据样本进行二次聚类

根据本发明的另一方面，提供了一种数据聚类装置。该数据聚类装置包括：初始聚类模块，用于对多个数据样本进行初始聚类；标注对象选取模块，用于根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象；标注信息获取模块，用于获取针对所述标注对象的标注信息；及二次聚类模块，用于将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。

根据本发明的另一方面，提供了一种文本分类方法。该文本分类方法包括：统计文本中的特殊字符，并根据统计结果判断所述文本的语言类别。

根据本发明的另一方面，提供了一种文本分类装置。该文本分类装置包括：统计模块，用于统计文本中的特殊字符；以及分类模块，用于根据统计结果来判断所述文本的语言类别。

另外，本发明的实施例还提供了用于实现上述数据聚类方法和/或文本分类方法的计算机程序。

此外，本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述数据聚类方法和/或文本分类方法的计算机程序代码。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1是示出了根据本发明一个实施例的数据聚类方法的示意性流程图；

图2是示出了根据本发明另一实施例的数据聚类方法的示意性流程图；

图3是示出了根据本发明一个实施例的文本分类方法的示意性流程图；

图4是示出了根据本发明另一实施例的数据聚类方法的示意性流程图；

图5-7分别是示出了根据本发明的实施例的文本分类方法的示意性流程图；

图8-10分别是示出了根据本发明的实施例的数据聚类装置的示意性框图；

图11-12分别是示出了根据本发明的实施例的文本分类装置的示意性框图；以及

图13是示出了可用于实施根据本发明的实施例的计算机的示意性框图。

具体实施方式

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

一些数据聚类方法采用完全自动化的手段对信息进行管理，但是由于缺乏人工干预，聚类结果往往不能满足用户的需求。为了解决这个问题，出现了半监督的聚类方法。半监督的聚类方法通常随机地选取数据样本对提供给用户进行标注，并将用户提供的标注信息作为数据聚类的约束条件。但是，在这些方法中，由于数据样本是随机选取的，往往会导致大量的冗余标注信息。另外，由于样本选取的随机性，也容易导致用户标注错误。下面描述根据本发明的实施例的数据聚类方法。

图1示出了根据本发明一个实施例的数据聚类方法的示意性流程图。

在该方法中，首先对待处理的数据样本进行初始聚类，然后根据初始聚类的结果选取一个或多个数据样本作为标注对象供用户标注，从而获得用户输入的标注信息。之后，将所述标注信息作为约束条件对数据样本进行再次聚类。如图1所示，该数据聚类方法可包括以下步骤106-112。

在步骤106中，对多个数据样本进行初始聚类。为了描述方便，下文中也将这一步骤称为初始聚类步骤。

该初始聚类步骤可以采用任何适当的聚类方法对数据样本进行聚类。在一个示例中，出于效率的考虑，可以采用K均值(K-means)法。在其他示例中，还可以采用其他聚类方法，如模糊C均值(Fuzzy C-means)算法、单连接算法(Single Link Algorithm)、完全算法(CompleteAlgorithm)等等，这里不一一列举。

通过所述初始聚类步骤，数据样本被聚类成一个或多个初始簇。

在步骤108中，根据初始聚类的结果选取所述多个数据样本中的一个或多个，作为标注对象，用于提供给用户进行标注。这一步骤也称为标注对象选取步骤。

可以利用多种方法来选择标注对象。作为一个示例，可以在每个初始簇中随机选择一个或多个数据样本作为标注对象。在另一示例中，考虑到通常情况下簇的边缘点(即位于簇的边缘的数据样本)是容易出错的点，因此，可以在每个初始簇中选择距离簇的中心点较远的数据点(数据样本)作为标注对象，从而进一步降低后续步骤中用户标注的出错概率。

下面给出选择簇的边缘点的一个示例性方法。首先，可利用下面的公式(1)来计算簇的中心点的向量：

c_{j} = \frac{s_{j}}{| | s_{j} | |} - - - (1)

其中：

s_{j} = \frac{1}{| π_{j} |} \underset{x_{i} &Element; π_{j}}{Σ} x_{i},

1≤j≤k，1≤i≤n，

||S_j||表示对S_j进行取模运算，π_j表示第j簇，|π_j|表示第j簇中的元素的个数(即该簇中数据样本的个数)，c_j表示第j簇的中心点的向量，x_i表示第j簇中的某个数据点的向量，k表示簇的数目，n表示第j簇中数据样本的数目。

在确定了簇的中心点的向量之后，计算各数据点的向量与中心点的向量的距离。作为一个示例，数据点的向量距离簇的中心点的向量的距离可以通过下面的内积公式(2)来计算：

D_i＝c_j·x_i (2)

其中，c_j表示第j簇的中心点的向量，x_i表示簇中的某个数据点的向量，1≤i≤n。应该理解，上述示例仅仅是示例性的，本发明并不局限于此。在其他示例中，还可以通过欧式距离、KL距离、余弦距离等其他方法来计算所述距离，这里不一一列举。

所计算的各数据点的向量与中心点的向量的距离即可作为各数据点距离中心点的距离。之后，根据所计算的距离值，可选取距离中心点较远的数据点作为标注对象。作为一个示例，可以根据各数据点(即数据样本)与各自中心点的距离值，将所有初始簇中的数据样本排序，选取前M个(M≥1)作为标注对象。作为另一示例，可以根据各数据点距中心点的距离对每个簇中的数据样本分别进行排序，从每个簇中分别选取一个或多个(例如M/k个)作为标注对象。作为一个示例，还可以选取一阈值，将各簇中与中心点的距离大于或等于该阈值的各数据样本作为标注对象。

应该理解，上述选取标注对象的各种方法仅仅是示例性的，本发明不应局限于此。在其他示例中，还可以采用其他适当的方法来选择标注对象，这里不一一列举。

在步骤110中，获取针对所选取的标注对象的标注信息。

具体地，将所选取的标注对象提供给用户，由用户进行标注，从而获得用户提供的标注信息。这一步骤也称为标注信息获取步骤。

在一个示例中，可以通过人机交互技术向用户提供标注对象并获取用户的标注信息。作为一个示例，可以通过人机交互界面(例如Windows界面或其他操作***的界面)将标注对象显示(例如通过机器的显示屏)给用户，并获取用户利用输入装置(例如键盘、鼠标、触摸键/触摸屏等)输入的标注信息。当然，这里的人机交互界面仅仅是示例性的，本发明不应视为局限于此。可以采用任何适当的技术来实现人机交互以向用户提供信息并获取用户输入的信息，这里不一一列举。

在步骤112中，将所获得的标注信息作为约束信息对所述多个数据样本再次进行聚类。这一步骤也称为二次聚类步骤。该二次聚类步骤可以采用任何适当的半监督的聚类方法。如COP K均值(COP K-means)算法、PCK均值(PCKMeans)算法等等，这里不一一列举。

在上述数据聚类方法中，在将数据样本提供给用户进行标注之前，首先对数据样本进行初始聚类，并根据初始聚类的结果在数据样本中选择一个或多个作为标注对象供用户标注。通过初始聚类以及标注对象选取，可减少提供给用户的冗余信息，从而提高用户标注的效率，使得能够使用较少的用户标注信息达到较好的聚类效果。另外，在所有数据样本中随机选取样本供用户标注往往比较枯燥，而在上述实施例中，提供给用户的数据样本是经过初始聚类的，相对于自己提出意见来说，人们往往更喜欢批评已有的意见，因此，这种初始聚类的结果有助于提高用户标注时的警觉度，从而降低用户标注错误的概率。

在一个示例中，为了进一步简化用户的操作从而提高用户标注的效率并降低出错概率，所选择的标注对象可以成对地提供给用户，用户进行简单地判断(例如标注“是”或“否”)即可完成标注。作为另一示例，还可以每次从两个或更多个相邻簇的每个中分别选择一个标注对象同时提供给用户，以便引起用户的警觉，从而进一步降低标注出错的概率，提高聚类的准确度。当然，上述仅仅是示例性的，还可以将标注对象每三个(或更多个)作为一组提供给用户进行标注，这里不一一列举。

图2是示出了根据本发明另一实施例的数据聚类方法的示意性流程图。图2所示的方法与图1类似，不同之处在于，图2所示的方法所针对的数据样本是文本，且在初始聚类步骤之前，还包括将各文本向量化的步骤。

如图2所示，在步骤204中，根据每个文本的语言类别，将每个文本转换为空间向量表示。这一步骤也称为向量化步骤。在后续的初始聚类、标注对象选取以及二次聚类等步骤中，对所述文本的空间向量表示进行处理。步骤206-212分别与图1所示实施例的步骤106-112相似，这里不再赘述。

本领域的普通技术人员应理解，可以采用任何适当的方法对文本进行向量化，这里不一一列举。作为一个示例，所述向量化步骤可以包括如下步骤2041-2043：

在步骤2041中，根据文本的语言类别将各文本分别切分成多个语义单元。

在步骤2042中，对文本进行特征提取。在对各文本进行切分之后，所得到的语义单元会比较多，而很多词对聚类的区分是没有积极作用的。因此，需要对切分得到的语义单元进行特征提取。特征提取的目的在于消除不利于聚类区分的词，另一方面在于降低计算消耗。作为示例，可采取的特征选择方法包括：去除过多或者过少的语义单元、去除在单个文本中出现次数过少的语义单元和出现在过少文本中的语义单元等。例如，可以去除掉出现在少于3个文本中的语义单元。

在步骤2043中，进行特征权重赋值。将每个文本使用向量空间模型来表示。这个表示中的每一维对应一个语义单元，一个文本在每一维上的取值就是该维所对应的语义单元在该文本向量所对应的文本中的权重。文本向量权重可以采用任何适当的方法来计算。作为示例，计算方法可以包括词频(英文全称为Term Frequency，简称TF)、反文档频率(英文全称Inverse Document Frequency，简称IDF)、词频反文档频率(英文全称为Term Frequency Inverse Document Frequency，简称TFIDF)、TFC权重、LTC权重等方法，这里不一一列举。下面的公式(3)是LTC权重方法的一个示例：

W_{ik} = \frac{f_{ik} * \log (\frac{N}{n_{i}})}{\sqrt{{Σ_{j = 1}^{V} [f_{jk} * \log (\frac{N}{n_{j}})]}^{2}}} - - - (3)

其中，N表示文本的数目，V表示语义单元的数目，f_ik表示第i(1≤i≤V)个语义单元在第k个文本中出现的次数，n_i表示含有第个i语义单元的文本的数目，W_ik表示第k个文本中的第i个语义单元的权重，1≤j≤k。

在一个示例中，所述向量化步骤还可以包括对各文本的向量进行归一化的步骤。本领域的普通技术人员应理解，可以采用任何适当的方法对文本的向量进行归一化，这里不一一列举。

在上述实施例中，通过对文本进行向量化，可以大大减少冗余信息，从而进一步提高数据聚类的效率。

本发明的一个实施例还提供了对文本进行分类的方法。图3示出了根据该实施例的文本分类方法的示意性流程。在该实施例中，将文本的语言分为两种，一种是利用特殊符号(如空白字符或标点符号，所述空白字符包括空格、水平制表符、垂直制表符、换页符、回车和换行符等等)隔开的语言(如某些西方语种，诸如英语、法语等等)，另外一种是各字符之间没有特殊符号分隔的语言(如某些东方语种，诸如汉语、日语等)。因此，通过统计文本中的特殊字符(例如空白字符)，即可将文本分类为两种语言类别。如图3所示，所述文本分类方法包括如下步骤303和305。在步骤303中，对文本中的特殊字符进行统计。在步骤305中，根据特殊字符的统计结果来确定该文本的语言类别。

图5示出了所述文本分类方法的一个示例。如图5所示，在步骤503中，可以计算文本中的特殊字符的数量与文本中全部字符的比例，而在步骤305中可以判断所计算的比例是否超过一阈值，如果是则判断所述文本的为第一语言类别，否则判断所述文本为第二语言类别。在实际应用中，所述阈值可以根据对各种语言类别的文本进行大量统计之后来确定。例如，在利用空白字符作为特殊字符的情况下，所述阈值可以设置为10％。换言之，如果文本中空白字符的比例超过10％，则认为所述文本的为第一语言类别(如某些西方语种，诸如英语、法语等等)，否则判断所述文本为第二语言类别(如某些东方语种，诸如汉语、日语等)。

图6示出了所述文本分类方法的另一实施例。图6所示的实施例与图3所示的实施例相似，不同之处在于，图6的实施例在特殊字符统计步骤之前还包括对文本中的特殊字符进行预处理的步骤。作为一个示例，通常情况下一个英文文本中的空格与全部字符的比例会远高于一个汉语文本中的空格与全部字符的比例。但是，在某些情况下，汉语文本中也会包括远高于通常比例的空格，例如，一个包括多个连续的回车换行或空格的汉语文本。在这些情况下，如果按照图3或图5的方法就有可能对该文本的语言类别做出错误的判断。图6的实施例能够避免出现这样的错误判断。如图6所示，在步骤601中，首先将文本中连续出现的多个特殊字符合并为一个特殊字符。然后在步骤603-605中进行特殊字符的统计以及文本语言类别的判断。步骤603和605分别与图3所示的步骤303和305相似，这里不再赘述。

图7示出了图6所示的方法的一个示例。如图7所示，在步骤701中，首先将文本中连续出现的多个特殊字符合并为一个特殊字符。然后，在步骤703中，计算文本中的特殊字符的数量与文本中全部字符的比例。在步骤705中，判断所计算的比例是否超过一阈值，如果是则判断所述文本的为第一语言类别，否则判断所述文本为第二语言类别。如上所述，所述阈值可以根据对各种语言类别的文本进行大量统计之后来确定。例如，在利用空白字符作为特殊字符的情况下，所述阈值可以设置为10％。换言之，如果文本中空白字符的比例超过10％，则认为所述文本的为第一语言类别(如某些西方语种，诸如英语、法语等等)，否则判断所述文本为第二语言类别(如某些东方语种，诸如汉语、日语等)。

在另一示例中，步骤601/701中还可以包括其他处理，例如还可以删除文本中的空行，这里所谓的空行包括含有的字符全部为不可见的字符的行。步骤601/701还可以包括对文本中的回车换行符进行处理，如果回车换行符前后的字符均为字母字符，则将其替换为空格，否则删除掉该回车换行符。

图4是示出了根据本发明另一实施例的数据聚类方法的示意性流程图。图4所示的实施例与图2所示的实施例相似，不同之处在于，图4所示的实施例还包括对文本的语言类别进行判断从而实现跨语种的预处理的步骤。在实现跨语种的预处理时，通常采用n元模型(n-gram)方法。但是，这种方法对基于字的语言(如汉语)是有效的。而对于基于词的语言(如英语)，如果仍然按基于字的n元模型来处理，并不会带来理想的效果。在图4所示的实施例中，利用图3、5-7所示的文本分类方法来确定文本的语言类别，并根据各文本的不同语言类别采取不同的处理策略，从而实现了跨语种的文本预处理。

如图4所示，在步骤402中，首先对待处理的多个文本进行统一编码，即将各文本转换成统一的编码格式。这一步骤主要是为了便于后续的字符统计等，也称为统一编码步骤。在该统一编码步骤中，可以将文本统一成任何适当的编码格式，如UNICODE(如UTF-8，UTF-16和UTF-32等)编码等等，这里不一一列举。

在步骤403中，统计各文本中的特殊字符，并根据统计结果将这些文本分类成至少两个语言类别。这一步骤也称为语言分类步骤。该语言分类步骤可以采用如3、5-7中所示的文本分类方法，这里不再赘述。

步骤404为向量化步骤，在该步骤中，根据每个文本的语言类别，将每个文本转换为空间向量表示。对于不同语言类别的文本可以采取不同的处理策略。例如，对于第一类语言(如某些西方语种，诸如英语、法语等等)可以使用空白符号和标点符号这些分隔符进行语义单元切分，而对于第二类语言(如某些东方语种，诸如汉语、日语等)则可以使用n元模型(例如二元模型)来进行语义单元切分。该向量化步骤的后续的特征提取等处理与前述实施例/示例相似，这里不再赘述。

步骤406-412分别与图2所示实施例的步骤206-212相似，这里不再赘述。

在上述实施例中，首先对文本的语言类别进行判断，然后在向量化步骤中根据语言类别采取不同的策略，从而实现了跨语种的预处理，进一步提高了数据聚类的效率和精度。

图8示出了根据本发明的一个实施例的数据聚类装置的示意性框图。如图8所示，该数据聚类装置可包括初始聚类模块802、标注对象选取模块804、标注信息获取模块806和二次聚类模块808。

初始聚类模块802可用于对多个数据样本进行初始聚类。通过所述初始聚类，初始聚类模块802将多个数据样本聚类成一个或多个初始簇。

标注对象选取模块804可用于根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象，供用户标注。标注对象选取模块804可以利用多种方法来选择标注对象。作为一个示例，标注对象选取模块804可以在每个初始簇中随机选择一个或多个数据样本作为标注对象。在另一示例中，考虑到通常情况下簇的边缘点(即位于簇的边缘的数据样本)是容易出错的点，因此，标注对象选取模块804可以在每个初始簇中选择位于簇的边缘的一个或多个数据样本作为标注对象，从而进一步降低后续步骤中用户标注的出错概率。确定簇的边缘点的方法与前述实施例/示例相同，这里不再赘述。

标注信息获取模块806可用于获取针对所述标注对象的标注信息。具体地，标注信息获取模块806将标注对象选取模块804所选取的标注对象提供给用户，由用户进行标注，并获得用户提供的标注信息。在一个示例中，标注信息获取模块806可以通过人机交互向用户提供标注对象并获取用户的标注信息。例如，可以通过人机交互界面(例如Windows界面或其他操作***的界面)将标注对象显示(例如通过机器的显示屏)给用户，并保存用户利用输入装置(例如键盘、鼠标、触摸键/触摸屏等)输入的标注信息。当然，这里的人机交互示例仅仅是示例性的，本发明不应视为局限于此。可以采用任何适当的技术来实现人机交互以向用户提供信息并获取用户输入信息，这里不一一列举。在一个示例中，为了进一步简化用户的操作从而提高用户标注的效率并降低出错概率，标注信息获取模块806可以将所选择的标注对象成对地提供给用户，用户进行简单地判断(例如标注“是”或“否”)即可完成标注。作为另一示例，还可以每次从两个或更多个相邻簇的每个中分别选择一个标注对象同时提供给用户，以便引起用户的警觉，从而进一步降低标注出错的概率，提高聚类的准确度。当然，这仅仅是示例性的，标注信息获取模块806还可以将标注对象每三个(或更多个)作为一组提供给用户进行标注，这里不一一列举。

二次聚类模块808可用于将标注信息获取模块806获取的标注信息作为约束信息对所述多个数据样本再次进行聚类。

应理解，初始聚类模块802可以采用任何适当的聚类方法对数据样本进行聚类。在一个示例中，出于效率的考虑，可以采用K均值法。在其他示例中，还可以采用其他聚类方法，如模糊C均值算法、单连接算法、完全算法等等，这里不一一列举。二次聚类模块808可以采用任何适当的半监督的聚类方法。如COP K均值算法、PCK均值算法等等，限于篇幅，这里也不一一列举。

在上述数据聚类装置中，通过初始聚类以及标注对象选取，可减少提供给用户的冗余信息，从而提高用户标注的效率，使得能够使用较少的用户标注信息而达到较好的聚类效果。另外，在所有数据样本中随机选取样本供用户标注往往比较枯燥，而在上述实施例中，提供给用户的数据样本是经过初始聚类的，相对于自己提出意见来说，人们往往更喜欢批评已有的意见，因此，这种初始聚类的结果有助于提高用户标注时的警觉度，从而降低用户标注错误的概率。

图9示出了根据本发明的另一实施例的数据聚类装置的示意性框图。图9所示的实施例与图8相似，不同之处在于，图9所示的数据聚类装置还包括向量化模块910。

向量化模块910可以用于根据多个文本的语言类别，将多个文本中的每一个转换为空间向量表示。本领域的普通技术人员应理解，向量化模块910可以采用任何适当的方法(如前述实施例/示例中的向量化方法)对文本进行向量化，这里不一一列举。初始聚类模块902、标注对象选取模块标904、标注信息获取模块906和二次聚类模块908分别与图8所示的模块802-808功能相似，这里不再赘述。

作为一个示例，向量化模块910还可以包括如下功能：(1)根据文本的语言类别采取不同的策略将各文本分别切分成多个语义单元；(2)对文本进行特征提取；(3)进行特征权重赋值。所述语义单元切分、特征提取和特征权重赋值的方法与前述实施例/示例中的方法相同，这里不再赘述。

在另一示例中，向量化模块910还可以用于对各文本的向量进行归一化。本领域的普通技术人员应理解，可以采用任何适当的方法对文本的向量进行归一化，这里不一一列举。

在上述数据聚类装置中，通过对文本进行向量化，可以大大减少冗余信息，从而进一步提高数据聚类的效率。

图10示出了根据本发明的另一实施例的数据聚类装置的示意性框图。图10所示的实施例与图9相似，不同之处在于，图10所示的数据聚类装置还包括统一编码模块1012和语言分类模块1014。

统一编码模块1012可用于将多个文本转换为统一的编码格式。应理解，统一编码模块1012可以将文本统一成任何适当的编码格式，如UNICODE(如UTF-8，UTF-16和UTF-32等)编码等等，这里不一一列举。

语言分类模块1014可用于根据所述统一编码模块输出的经统一编码的文本来统计各文本中的特殊字符，并根据统计结果将所述多个文本分类成至少两个语言类别。语言分类模块1014可以采用如图3、5-7中所示的文本分类方法对文本进行分类，这里不再赘述。

向量化模块1010可用于根据每个文本的语言类别，将每个文本转换为空间向量表示。对于不同语言类别的文本，向量化模块1010可以采取不同的策略。例如，对于第一类语言可以使用空白符号和标点符号这些分隔符进行语义单元切分，而对于第二类语言则可以n元模型(例如二元模型)来进行语义单元切分。向量化模块1010与图9所示的模块910相似，可以采取与前述实施例/示例中的方法对文本进行向量化，这里不再赘述。初始聚类模块1002、标注对象选取模块标1004、标注信息获取模块1006和二次聚类模块1008分别与图9所示的模块902-908功能相似，这里也不再赘述。

在上述数据聚类装置中，首先对文本的语言类别进行判断，使得向量化模块可以根据语言类别采取不同的策略，从而实现了跨语种的预处理，进一步提高了数据聚类的效率和精度。

图11示出了根据本发明的一个实施例的文本分类装置的示意性框图。如图11所示，所述文本分类装置包括统计模块1102和分类模块1104。

在该实施例中，将文本的语言分为两种，一种是利用特殊符号(譬如，空白字符或标点符号，所述空白字符包括空格、水平制表符、垂直制表符、换页符、回车和换行符等等)隔开的语言(如某些西方语种，诸如英语、法语等等)，另外一种是各字符之间没有特殊符号分隔的语言(如某些东方语种，诸如汉语、日语等)。因此，通过统计文本中的特殊字符(例如空白字符)，即可将文本分类为两种语言类别。统计模块1102可用于统计文本中的特殊字符。分类模块1104可用于根据统计结果来判断所述文本的语言类别。在一个示例中，统计模块1102还可被配置用于计算所述文本中特殊字符的数量与全部字符数量的比例；而分类模块1104还可被配置用于判断所计算的比例是否超过一阈值，如果是则将文本归为第一语言类别，否则将所述文本归为第二语言类别。在实际应用中，所述阈值可以根据对各种语言类别的文本进行大量统计之后来确定。例如，在利用空白字符作为特殊字符的情况下，所述阈值可以设置为10％。换言之，如果文本中空白字符的比例超过10％，则认为所述文本的为第一语言类别(如某些西方语种，诸如英语、法语等等)，否则判断所述文本为第二语言类别(如某些东方语种，诸如汉语、日语等)。

图12示出了根据本发明的另一实施例的文本分类装置的示意性框图。图12所示的文本分类装置与图11所示的相似，不同之处在于，图12所示的文本分类装置还包括预处理模块1201。

作为一个示例，通常情况下一个英文文本中的空格与全部字符的比例会远高于一个汉语文本中的空格与全部字符的比例。但是，在某些情况下，汉语文本中也会包括远高于通常比例的空格，例如，一个包括多个连续的回车换行、或空格的汉语文本。在这些情况下，如果利用上述实施例/示例所示的文本分类装置就有可能对该文本的语言类别做出错误的判断。图12的文本分类装置通过利用预处理模块1201对文本进行预处理，能够避免出现这样的错误判断。

预处理模块1201可用于将文本中连续的多个特殊字符合并为一个特殊字符，从而减少对文本进行特殊字符统计、分类时的误判。

作为一个示例，预处理模块1201还可以对文本进行其他处理。例如，预处理模块1201可以包括删除文本中的空行。这里所谓的空行包括含有的字符全部为不可见的字符的情况。预处理模块1201还可以对文本中的回车换行符进行处理，如果回车换行符前后的字符均为字母字符，则将其替换为空格，否则删除掉该回车换行符。

在图12所示的文本分类装置中，统计模块1202和分类模块1204与图11所示的模块1102-1104功能相似，这里不再赘述。

另外，应理解，本文所述的各种示例和实施例均是示例性的，本发明不限于此。在本说明书中，“第一”、“第二”等表述仅仅是为了将所描述的特征在文字上区分开，以清楚地描述本发明。因此，不应将其视为具有任何限定性的含义。

上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图13所示的通用计算机1300)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在图13中，中央处理单元(CPU)1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中，也根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。

下述部件连接到输入/输出接口1305：输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要，驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上，使得从中读出的计算机程序根据需要被安装到存储部分1308中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图13所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

通过以上的描述不难看出，根据本发明的实施例，提供了如下的方案：

附记1.一种数据聚类方法，包括：

初始聚类步骤：对多个数据样本进行初始聚类；

标注对象选取步骤：根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象；

标注信息获取步骤：获取针对所述标注对象的标注信息；及

二次聚类步骤：将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。

附记2.根据附记1所述的数据聚类方法，其中，所述标注对象选取步骤包括：选择在初始聚类步骤中获得的每一个初始簇的边缘的数据样本中的一个或者多个作为所述标注对象。

附记3.根据附记1所述的数据聚类方法，其中，所述标注信息获取步骤包括：

将所述标注对象提供给用户，以得到用户输入的标注信息。

附记4.根据附记1所述的数据聚类方法，其中，所述多个数据样本是多个文本，并且在所述初始聚类步骤之前，所述方法还包括：

向量化步骤：根据所述多个文本的语言类别，将所述多个文本中的每一个转换为空间向量表示。

附记5.根据附记4所述的数据聚类方法，其中，在所述向量化步骤之前，所述方法还包括：

统一编码步骤：将所述多个文本转换为统一的编码格式；

语言分类步骤：统计各文本中的特殊字符，并根据统计结果将所述多个文本分类成至少两个语言类别。

附记6.一种数据聚类装置，包括：

初始聚类模块，用于对多个数据样本进行初始聚类；

标注对象选取模块，用于根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象；

标注信息获取模块，用于获取针对所述标注对象的标注信息；及

二次聚类模块，用于将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。

附记7.根据附记6所述的数据聚类装置，其中，所述标注对象选取模块还被配置用于：

选择在所述初始聚类模块获得的每一个初始簇的边缘的数据样本中的一个或者多个作为所述标注对象。

附记8.根据附记6所述的数据聚类装置，其中，所述标注信息获取模块还被配置用于：

将所述标注对象提供给用户，以得到用户输入的标注信息。

附记9.根据附记6所述的数据聚类装置，其中，所述多个数据样本是多个文本，所述数据聚类装置还包括：

向量化模块，用于根据所述多个文本的语言类别，将所述多个文本中的每一个转换为空间向量表示。

附记10.根据附记9所述的数据聚类装置，还包括：

统一编码模块，用于将所述多个文本转换为统一的编码格式；及

语言分类模块，用于根据所述统一编码模块输出的经统一编码的文本来统计各文本中的特殊字符，并根据统计结果将所述多个文本分类成至少两个语言类别。

附记11.一种程序产品，该程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行如附记1所述的方法。

附记12.一种存储介质，该存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行如附记1所述的方法。

附记13.一种文本分类方法，包括：

统计文本中的特殊字符，并根据统计结果判断所述文本的语言类别。

附记14.根据附记13所述的文本分类方法，其中：

统计文本中的特殊字符包括：计算所述文本中特殊字符的数量与全部字符数量的比例；以及其中：

根据统计结果判断所述文本的语言类别的步骤包括：判断所述比例是否超过一阈值，如果是，则将所述文本归为第一语言类别，否则将所述文本归为第二语言类别。

附记15.根据附记13所述的文本分类方法，其中，在统计文本中的特殊字符之前，所述方法还包括：

将所述文本中的连续的多个特殊字符合并为一个特殊字符。

附记16.根据附记13所述的文本分类方法，其中，所述特殊字符为空白字符。

附记17.一种文本分类装置，包括：

统计模块，用于统计文本中的特殊字符；以及

分类模块，用于根据统计结果来判断所述文本的语言类别。

附记18.根据附记17所述的文本分类装置，其中：

所述统计模块还被配置用于计算所述文本中特殊字符的数量与全部字符数量的比例；

所述分类模块还被配置用于判断所述比例是否超过一阈值，如果是则将所述文本归为第一语言类别，否则将所述文本归为第二语言类别。

附记19.根据附记17所述的文本分类装置，还包括：

预处理模块，用于将所述文本中连续的多个特殊字符合并为一个特殊字符。

附记20.根据附记17所述的文本分类装置，其中，所述特殊字符为空白字符。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

Claims

1.一种数据聚类方法，包括：

初始聚类步骤：对多个数据样本进行初始聚类；

标注信息获取步骤：获取针对所述标注对象的标注信息；及

2.根据权利要求1所述的数据聚类方法，其中，所述标注对象选取步骤包括：选择在初始聚类步骤中获得的每一个初始簇的边缘的数据样本中的一个或者多个作为所述标注对象。

3.根据权利要求1所述的数据聚类方法，其中，所述标注信息获取步骤包括：

将所述标注对象提供给用户，以得到用户输入的标注信息。

4.根据权利要求1所述的数据聚类方法，其中，所述多个数据样本是多个文本，并且在所述初始聚类步骤之前，所述方法还包括：

5.根据权利要求4所述的数据聚类方法，其中，在所述向量化步骤之前，所述方法还包括：

统一编码步骤：将所述多个文本转换为统一的编码格式；

6.一种数据聚类装置，包括：

初始聚类模块，用于对多个数据样本进行初始聚类；

7.根据权利要求6所述的数据聚类装置，其中，所述标注对象选取模块还被配置用于：

8.根据权利要求6所述的数据聚类装置，其中，所述标注信息获取模块还被配置用于：

将所述标注对象提供给用户，以得到用户输入的标注信息。

9.根据权利要求6所述的数据聚类装置，其中，所述多个数据样本是多个文本，所述数据聚类装置还包括：

10.根据权利要求9所述的数据聚类装置，还包括：