CN102750289B

CN102750289B - 基于标签组对数据进行混合的方法和设备

Info

Publication number: CN102750289B
Application number: CN201110101514.2A
Authority: CN
Inventors: 张军; 钟朝亮; 王主龙; 大木宪二; 田中昌弘; 粂照宣; 松尾昭彦
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-04-19
Filing date: 2011-04-19
Publication date: 2015-08-05
Anticipated expiration: 2031-04-19
Also published as: CN102750289A; JP2012226740A; JP5928091B2

Abstract

公开了基于标签组对数据进行混合的方法和设备。该方法包括：在多个同义标签集中确定标签组的每个标签所属的同义标签集；生成与标签组相对应的特征向量，在所生成的特征向量中，每个元素分别与多个同义标签集中的不同同义标签集相对应，每个元素的值为标签组中属于与元素相对应的同义标签集的标签的数目；计算特征向量与至少一个类中每个类的核心特征向量之间的相似度，其中类的核心特征向量的每个元素的值是已经被分类到类中的每个标签组的对应特征向量中的相应元素的值的和；根据所计算出的相似度，将标签组分类到至少一个类中接近的类中；以及将同一类中每个标签组的每个标签分别替换为其所属的同义标签集中的指定标签。

Description

基于标签组对数据进行混合的方法和设备

技术领域

本发明涉及数据处理，更具体地涉及标签组的分类方法和设备，以及数据混合方法和设备。

背景技术

目前，存在用于描述数据的各种数据格式标准，例如XML(eXtensibleMarkup Language，可扩展标记语言)、JSON(JavaScript ObjectNotation，JavaScript对象表示)或CSV(Comma Separated Values，逗号分隔值)等。在每种数据格式标准中，分别定义了用于描述数据内容的含义的标签。例如，对于列表型的数据，例如对于包含若干条新闻的新闻列表，可以定义用于描述新闻内容的一组标签：title(标题)、pubdate(发布时间)、author(作者)等；再例如，对于包括了若干个日程安排的日程安排表，可以定义用于描述日程安排内容的一组标签：starttime(开始时间)、endtime(结束时间)、attendees(参加者)和location(地点)等。因此，利用该组标签，可以方便地发布或访问数据内容。

但是，对于相同或类似含义的数据内容，不同的数据格式标准可能采用不同的标签进行描述。例如，针对数据内容“创建数据的人”，不同的数据格式标准可能采用“author(作者)”、“writer(写作者)”或“creater(创作者)”等不同的标签。因此，存在这样的需求：识别用不同标签描述的相同或相似含义的数据内容，并且用统一的标签来描述上述相同或相似的数据内容，从而完成相同或相似含义的数据内容的混合。

现有技术中，通过直接比较多个数据内容本身来判断多个数据内容之间是否相同或相似。由于数据内容本身的数据量比较大，因此直接比较多个数据内容本身，往往导致计算量大，而且判断的准确性也较差。

另外，现有技术中也存在通过比较两个标签之间是否相同或相似来判断两个标签所描述的数据内容是否相同或相似的技术。但是，实际使用中存在各种不同的数据格式标准，其所采用的标签也千差万别。如果仅仅将标签与标签进行比较，很难综合考虑各种标签的多种特征，导致判断的准确性也较差。

而且，如上所述，例如对于包含若干条新闻的新闻列表，可以定义用于描述一条新闻内容的一组标签(在下文中称为“标签组”)：title(标题)、pubdate(发布时间)、author(作者)等。由此可见，一条数据内容一般是由描述该条数据内容的包含若干个标签的标签组所定义的。因此，判断多条数据内容之间是否具有相同或相似含义，应该综合判断用于描述多条数据内容的多个标签组之间是否相同或相似。如果仅将标签与标签进行比较，则难以判断用包括若干个标签的标签组所描述的数据内容是否具有相同或相似含义。

发明内容

考虑到上述问题，申请人认识到应该通过比较多个标签组是否相同或相似来识别具有相同或相似含义的数据内容。本发明的核心思想在于，为了比较多个标签组是否相同或相似，可以先将相同或相似的标签组划分成同一类，再将新发现的标签组与所划分的标签组的类进行比较。由于同一类中的所有标签组都是相同或相似的，因此标签组的类综合考虑了各种标签组的多种特征。所以，通过将标签组与标签组的类进行比较，可以更准确地判断标签组之间的相同或相似。

根据本发明的一个实施例，提供了一种对标签组进行分类的方法，其中标签组包括至少一个标签和由至少一个标签定义的相应数据，上述方法包括：在多个同义标签集中确定标签组的每个标签所属的同义标签集，其中同义标签集是由具有相同或相似意义的一组标签所构成的集合；生成与标签组相对应的特征向量，在所生成的特征向量中，每个元素分别与多个同义标签集中的不同同义标签集相对应，每个元素的值为标签组中属于与元素相对应的同义标签集的标签的数目；计算特征向量与至少一个类中每个类的核心特征向量之间的相似度，其中类的核心特征向量的每个元素的值是已经被分类到类中的每个标签组的对应特征向量中的相应元素的值的和；根据所计算出的相似度，将标签组分类到至少一个类中接近的类中。

上述分类步骤包括：根据所计算出的标签组与至少一个类中每个类之间的相似度是否超过预定阈值，来确定至少一个类中每个类是否为接近的类；以及如果至少一个类中没有接近的类，则将标签组分类到一个新的类中。

在上述分类步骤中，如果接近的类有多个，则将标签组分类到所计算的最大相似度所对应的类中。

上述相似度包括余弦相似度。

根据本发明的另一实施例，提供了一种对标签组进行分类的设备，其中标签组包括至少一个标签和由至少一个标签定义的相应数据，上述设备包括：同义标签集确定单元，用于在多个同义标签集中确定标签组的每个标签所属的同义标签集，其中同义标签集是由具有相同或相似意义的一组标签所构成的集合；特征向量生成单元，用于生成与标签组相对应的特征向量，在所生成的特征向量中，每个元素分别与多个同义标签集中的不同同义标签集相对应，每个元素的值为标签组中属于与元素相对应的同义标签集的标签的数目；相似度计算单元，用于计算特征向量与至少一个类中每个类的核心特征向量之间的相似度，其中类的核心特征向量的每个元素的值是已经被分类到类中的每个标签组的对应特征向量中的相应元素的值的和；以及标签组分类单元，用于根据所计算出的相似度将标签组分类到至少一个类中接近的类中。

上述标签组分类单元包括：类确定单元，用于根据所计算出的标签组与至少一个类中每个类之间的相似度是否超过预定阈值，来确定至少一个类中每个类是否为接近的类；以及如果至少一个类中没有接近的类，则将标签组分类到一个新的类中。

上述类确定单元还用于：如果接近的类有多个，则将标签组分类到所计算的最大相似度所对应的类中。

上述相似度包括余弦相似度。

根据本发明的另一实施例，提供了一种基于标签组对数据进行混合的方法，上述方法包括：使用上述对标签组进行分类的方法将标签组分类成至少一个类；以及将同一类中每个标签组的每个标签分别替换为其所属的同义标签集中的指定标签。

根据本发明的另一实施例，提供了一种基于标签组对数据进行混合的设备，上述设备包括：分类单元，用于使用上述对标签组进行分类的设备将标签组分类成至少一个类；以及替换单元，用于将同一类中每个标签组的每个标签分别替换为其所属的同义标签集中的指定标签。

本发明通过将标签组的特征向量与标签组的类的核心特征向量之间的相似度进行比较，可以更准确地、更有效地判断标签组之间的相同或相似，进而可以更准确地、更有效地对相同或相似的数据进行混合。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。

图1是示出根据本发明的实施例的对标签组进行分类的方法的流程图；

图2是示出根据本发明的实施例的对标签组进行分类的方法中的分类步骤的具体流程的流程图；

图3是示出根据本发明的另一实施例的对标签组进行分类的设备的方框图；

图4是示出根据本发明的另一实施例的基于标签组对数据进行混合的方法的流程图；

图5是示出根据本发明的另一实施例的基于标签组对数据进行混合的设备的方框图。

图6是示出其中实现本发明的计算机的示例性结构的框图。

具体实施方式

本文中所用的术语，仅仅是为了描述特定的实施例，而不意图限定本发明。本文中所用的单数形式的“一”和“该”，旨在也包括复数形式，除非上下文中明确地另行指出。还要知道，“包含”一词在本说明书中使用时，说明存在所指出的特征、整体、步骤、操作、单元和/或组件，但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件，以及/或者它们的组合。

下面参照附图来说明本发明的实施例。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令，产生实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。

也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上，使得在计算机或其它可编程数据处理装置上执行一系列操作步骤，以产生计算机实现的过程，从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

应当明白，附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

下面参考图1来描述根据本发明的实施例的对标签组进行分类的方法。图1是示出根据本发明的实施例的对标签组进行分类的方法的流程图。

如图1所示，该方法从步骤100开始。接着，在步骤102中，在多个同义标签集中确定标签组的每个标签所属的同义标签集。

同义标签集(S)是由具有相同或相似意义(即同义)的一组标签所构成的集合。作为示例，可以存在以下若干个同义标签集：

S₁：author(作者)、creator(创作者)、writer(写作者)

S₂：pubdate(公布时间)、publishdate(发布时间)

S₃：URL(统一资源***)、link(链接)

S₄：summary(摘要)、description(概述)

S₅：event(事件)、title(标题)、what(什么)

S₆：starttime(开始时间)、when(何时)

S₇：where(何地)、location(地点)

S_n：who(谁)、attendees(参加者)

其中，n为大于或等于1的整数。

上述同义标签集仅仅是示例，还可以根据需要存在其它的同义标签集。可以根据实际使用中的经验来预先确定哪些标签表示相同或相似的意义。另外，也可以在使用过程中不断地将新发现的具有相同或相似意义的标签添加到上述同义标签集中，以动态更新上述同义标签集。可以以例如同义字典的形式来提供上述同义标签集。本领域技术人员可以理解，还可以以例如数据库的其它方式来提供上述同义标签集。

标签组(T)是由分别用于定义一个数据条目中的相应数据的一组标签所构成的集合。作为示例，可以存在以下若干个标签组：

T₁：title(标题)、author(作者)、pubdate(公布时间)、summary(摘要)

T₂：title(标题)、publishdate(发布时间)、creator(创建者)、description(概述)、URL(统一资源***)

T₃：title(标题)、link(链接)、writer(写作者)、description(概述)

T₄：title(标题)、link(链接)、writer(写作者)、description(概述)

T₅：event(事件)、starttime(开始时间)、endtime(结束时间)、location(地点)、attendees(参加者)

T₆：title(标题)、starttime(开始时间)、duration(时长)、where(何地)、attendees(参加者)

T_p：what(什么)、where(何地)、who(谁)、when(何时)

其中，p为大于或等于1的整数。

上述标签组仅仅是示例，实际使用中还可以存在其它的标签组。例如，不同的数据格式标准(例如，XML、JSON或CSV等)可以定义不同的标签组，或者数据的发布者也可以根据自己的需要自定义不同的标签组。

针对一个新的标签组，可以根据上述同义标签集来确定新的标签组中的每个标签所述的同义标签集。例如，针对上述标签组T₁，可以按照标签组T₁中的各个标签的顺序来依次确定：标签组T₁中的标签“title(标题)”属于同义标签集S₅(即标签组T₁中属于同义标签集S₅的标签数量为1个)，标签组T₁中的标签“author(作者)”属于同义标签集S₁(即标签组T₁中属于同义标签集S₁的标签数目是1个)，标签组T₁中的标签“公布时间”属于同义标签集S₂(即标签组T₁中属于同义标签集S₂的标签数目是1个)，以及标签组T₁中的标签“summary(摘要)”属于同义标签集S₄(即标签组T₁中属于同义标签集S₄的标签数目是1个)。另外，针对上述标签组T₁，也可以按照上述同义标签集S₁至同义S_n的顺序来依次确定：标签组T₁中属于同义标签集S₁的标签数目为1个，标签集T₁中属于同义标签集S₂的标签数目为1个，标签集T₁中属于同义标签集S₃的标签数目为0个，标签集T₁中属于同义标签集S₄的标签数目为1个，标签集T₁中属于同义标签集S₅的标签数目为1个，标签集T₁中属于同义标签集S₆的标签数目为0个，以及标签集T₁中属于同义标签集S₇至同义标签集S_n的标签数目均为0个。按照同样的方法可以分别确定上述标签组T₂至标签组T_P中的每个标签组中的每个标签分别属于上述同义标签集S₁至同义标签集S_n中的哪个标签集。

接着，该方法进行到步骤104。在步骤104中，生成与标签组相对应的特征向量，在所生成的特征向量中，每个元素分别与多个同义标签集中的不同同义标签集相对应，每个元素的值为标签组中属于与元素相对应的同义标签集的标签的数目。

根据上述步骤102的确定结果，可以生成与标签组相对应的特征向量。例如，针对标签组T₁，对应于按照标签组T₁中的各个标签的顺序的确定结果，可以生成与标签组T₁相对应的特征向量A：(S₅：1，S₁：1，S₂：1，S₄：1)，其中，每个元素中冒号之前的部分表示该元素所对应的同义标签集，每个元素中冒号之后的部分表示标签组1中属于与该元素相对应的同义标签集的标签的数目。例如，针对特征向量A的第一个元素“S₅：1”，“S₅”表示该第一个元素对应于同义标签集S₅，而“1”表示标签组T₁中属于同义标签集S₅的标签的数目为1个。另外，针对标签组T₁，对应于按照上述同义标签集S₁至同义标签集S_n的顺序的确定结果，可以生成与标签组T₁相对应的特征向量A’：(S₁：1，S₂：1，S₃：0，S₄：1，S₅：1，S₆：0，S₇：0，...，S_n：0)，其中每个元素的各部分的含义与上述特征向量A中的相同，在此不再赘述。按照同样的方法，可以分别生成与上述标签组T₁至标签组T_p中的每个标签组相对应的特征向量。

接着，该方法进行到步骤106。在步骤106中，计算特征向量与至少一个类中每个类的核心特征向量之间的相似度，其中类的核心特征向量的每个元素的值是已经被分类到类中的每个标签组的对应特征向量中的相应元素的值的和。

类是由彼此相同或相似的一组标签组所构成的集合，即属于同一类的各个标签组彼此之间是相同或相似的。可以例如根据标签组之间的余弦距离来判断标签组之间是否相同或相似。下面对计算标签组之间的余弦距离的过程进行说明。

假设根据上述步骤104生成了与标签组T1相对应的特征向量A并且生成了与标签组T₂相对应的特征向量B，其中，特征向量A可表示为(S₁：f_a1，S₂：f_a2，...，S_n：f_an)，可简写为(f_a1，f_a2，...，f_an)；特征向量B可表示为(S₁：f_b1，S₂：f_b2，...，S_n：f_bn)，可简写为(f_b1，f_b2，...，f_bn)。其中，S_n表示特征向量A或特征向量B中第n个元素所对应的同义标签集S_n，f_an表示标签组T₁中属于与特征向量A中第n个元素相对应的同义标签集S_n的标签的数目，f_bn表示标签组T₂中属于与特征向量B中第n个元素相对应的同义标签集S_n的标签的数目。可以用以下的公式(1)来计算对应于标签组T₁的特征向量A与对应于标签组T₂的特征向量B之间的余弦相似度：

相似度(A，B)＝(∑f_ak×f_bk)/sqrt[(∑f_ak×f_ak)×(∑f_bk×f_bk)] 公式(1)

其中，1≤k≤n，n为大于或等于1的整数。

对于由一组标签组所构成的类，可以例如通过累加类中的各个标签组所对应的各个特征向量中的相应元素的方式来获得类所对应的核心特征向量。例如，假设类C中具有已经被分类到类C中的标签组T₁至标签组T_m(m为大于或等于1的整数)，并且标签组T₁至标签组T_m所对应的特征向量分别是特征向量A₁至特征向量A_m，则类C所对应的核心特征向量A_C可以用以下的公式(2)来表示：

A_C＝(∑f_aj1，∑f_aj2，...，∑f_ajn) 公式(2)

其中1≤j≤m，m为大于或等于1的整数。

在根据公式(2)计算出类C所对应的核心特征向量A_C之后，可以使用上述公式(1)来计算一个新的标签组T_NE所对应的特征向量A_NE与类C所对应的核心特征向量A_C之间的相似度。如果存在多个类，则分别计算新的标签组T_NE所对应的特征向量A_NE与多个类中的每个类所对应的核心特征向量之间的相似度。

接着，该方法进行到步骤108。在步骤108中，根据所计算出的相似度将标签组分类到至少一个类中接近的类中。

根据上述公式(1)所计算出的标签组所对应的特征向量与类所对应的核心特征向量之间的余弦相似度的值的大小表示了标签组与类之间的相似程度，并且余弦相似度的值越大，则标签组与类之间越相似。因此，可以根据所计算出的相似度，来判断标签组与类是否相似，从而将标签组分类到接近(即相似)的类中。

最后，该方法进行到步骤110。在步骤110中，该方法结束。

上面描述了根据本发明的实施例的对标签组进行分类的方法的整体流程。下面参考图2来描述在上述对标签组进行分类的方法中的分类步骤的具体流程。图2是示出根据本发明的实施例的对标签组进行分类的方法中的分类步骤的具体流程的流程图。

如图2所示，在根据上述步骤106分别计算出标签组所对应的特征向量与多个类中的每个类所对应的核心特征向量之间的相似度之后，该方法进行到步骤200。在步骤200中，将计算出的标签组与至少一个类中每个类之间的相似度与预定阈值进行比较。该预定阈值可以根据需要预先设定，而且也可以在实际使用过程中根据需要来调整。通过调整阈值的大小，可以控制对标签组进行分类的精度。

假设当前存在3个由标签组组成的类，分别表示为C₁、C₂和C₃。类C₁、C₂和C₃所对应的核心特征向量分别为A₁、A₂和A₃。当发现一个新的标签组T_NE时，确定该新的标签组T_NE所对应的特征向量为A_NE。分别计算特征向量A_NE与核心特征向量A₁、A₂和A₃之间的相似度。例如，在采用余弦相似度的情况下，计算出的相似度的值可分别为0.92、0.85和0.79。在计算出上述相似度的值之后，将上述相似度的值0.92、0.85和0.79分别与预定阈值进行比较。

接着，该方法进行到步骤202。在步骤202中，判断所计算出的标签组与至少一个类中的每个类之间的相似度是否超过预定阈值。如果步骤202的判断结果为“否”，即标签组与所有的类均不相似，则进行到步骤206。在步骤206中，将标签组分类到一个新的类中，使得该新的类中包括该标签组。

在上面的示例中，假设预定阈值为0.93。由于所计算出的上述3个相似度的值0.92、0.85和0.79均未超过预定阈值0.93，因此新的标签组T_NE与当前的类C₁、C₂和C₃均不相似。此时，可建立一个新的类C₄，并将新的标签组T_NE分类到新的类C₄中，使新的类C₄包括新的标签组T_NE。

如果步骤202的判断结果为“是”，则进行到步骤204。在步骤204中，判断是否大于预定阈值的相似度所对应的类有多个，即判断标签组与多个类之间的相似度是否均大于预定阈值。如果步骤204的判断结果为“否”，表示标签组仅与某一个类之间的相似度大于预定阈值，即大于预定阈值的相似度的个数为1个，则进行到步骤210。在步骤210中，将标签组分类到所计算的唯一超过预定阈值的相似度所对应的那个类中。

在上面的示例中，假设预定阈值为0.90。由于在所计算出的上述3个相似度的值0.92、0.85和0.79中，仅有相似度的值0.92超过预定阈值0.90，因此将新的标签组T_NE分类到上述相似度的值0.92所对应的类C₁中。

如果步骤204的判断结果为“是”，表示标签组与多个类之间的相似度大于预定阈值，即大于预定阈值的相似度的个数为多个，则进行到步骤208中。在步骤208中，选择大于预定阈值的多个相似度中最大的相似度，并将标签组分类到所选择的最大相似度所对应的那个类中。

在上面的示例中，假设预定阈值为0.80。由于在所计算出的上述3个相似度的值0.92、0.85和0.79中，相似度的值0.92和0.85均超过预定阈值0.80，因此在超过预定阈值0.80的相似度的值0.92和0.85中选择最大的相似度的值，即相似度的值0.92。然后，将新的标签组T_NE分类到上述最大的相似度的值0.92所对应的类C₁中。

在步骤206、208和210之后，进行到步骤212。在步骤212中，该方法终止。

在上文中，利用余弦相似度来计算标签组与标签组之间的相似度、以及标签组与由标签组构成的类之间的相似度。但是，本领域技术人员可以理解，还可以采用其它的相似度计算方法，只要能够计算出标签组与标签组之间的相似度或标签组与由标签组构成的类之间的相似度即可。

在上文中，类中所包括的标签组的数量是动态增加的。在根据上述对标签组进行分类的方法将标签组分类到某个类中之后，该类中所包括的标签组的数量就增一。优选地，可以在将新标签组分类到某个类中之后，根据该新标签组以及该类中之前已经包括的所有标签组，利用上述公式(2)来重新计算该类所对应的核心特征向量，并将重新计算的核心特征向量作为该类所对应的新的核心特征向量。以后，当对另一标签组进行分类时，将该另一标签组与该类的新的核心特征向量进行相似度的比较。因此，根据本实施例的方法，可以综合考虑各种标签组的多种特征，从而可以更准确地、更有效地判断标签组之间的相同或相似。

下面参考图3来描述根据本发明的另一实施例的对标签组进行分类的设备。图3是示出根据本发明的另一实施例的对标签组进行分类的设备的方框图。

如图3所示，对标签组进行分类的设备312主要包括同义标签集确定单元300、特征向量生成单元302、相似度计算单元304和标签组分类单元306。同义标签集确定单元300，根据同义标签集数据库308中所存储的多个同义标签集来确定所输入的标签组的每个标签所属的同义标签集。特征向量生成单元，用于生成与所输入的标签组相对应的特征向量，在所生成的特征向量中，每个元素分别与多个同义标签集中的不同同义标签集相对应，每个元素的值为标签组中属于与元素相对应的同义标签集的标签的数目。相似度计算单元，用于计算特征向量与类集数据库310中所存储的至少一个类中的每个类的核心特征向量之间的相似度，其中类的核心特征向量的每个元素的值是已经被分类到类中的每个标签组的对应特征向量中的相应元素的值的和。标签组分类单元306，根据所计算出的相似度将所输入的标签组分类到类集数据库310中所存储的至少一个类中的接近的类中。

标签组分类单元306包括类确定单元3062。类确定单元3062根据所计算出的标签组与至少一个类中每个类之间的相似度是否超过预定阈值，来确定至少一个类中每个类是否为所述接近的类。如果至少一个类中没有所述接近的类，则类确定单元3062将所述标签组分类到一个新的类中。如果接近的类有多个，则类确定单元3062将标签组分类到所计算的最大相似度所对应的类中。

本领域技术人员可以理解，还可以以诸如同义标签集字典的其它方式来提供上述的多个同义标签集，也可以以其它方式来提供上述的类。同义标签集数据库308和类集数据库310存储在存储单元314中。存储单元314例如是磁盘、闪速存储器、可移除存储器等。存储单元314可以包括在上述对标签组进行分类的设备312中，或者位于上述对标签组进行分类的设备312之外并且通过有线或无线的方式附加到上述对标签组进行分类的设备312上。

可以利用余弦相似度来计算标签组与标签组之间的相似度、以及标签组与由标签组构成的类之间的相似度。但是，本领域技术人员可以理解，还可以采用其它的相似度计算方法，只要能够计算出标签组与标签组之间的相似度或标签组与由标签组构成的类之间的相似度即可。

上述对标签组进行分类的设备312实际上是与上述对标签组进行分类的方法相对应的设备。因此，此处将省略其详细描述。

下面参考图4来描述基于标签组对数据进行混合的方法。图4是示出基于标签组对数据进行混合的方法的流程图。

如图4所示，该方法从步骤400开始。接着，该方法进行到步骤402。在步骤402中，使用上述对标签组进行分类的方法将标签组分类成至少一个类。因此，使用上述对标签组进行分类的方法，可以将符合不同数据格式标准的标签组或用户自定义的不同标签组等，按照其彼此之间的相似度动态划分成不同的类，并且每个类中的标签组彼此之间是相似的。

接着，该方法进行到步骤404。在步骤404中，将同一类中每个标签组的每个标签分别替换为其所属的同义标签集中的指定标签。在根据上述步骤402将标签组划分成不同的类之后，可以将同一类中每个标签组的每个标签分别替换成统一的标签，从而可以将同一类中相似的各个标签统一成相同的标签组，并用所得到的相同的标签组来重新描述之前用各个相似的标签组所描述的数据，以实现具有相似内容意义的数据的混合。

可以有各种方法来进行上述同一类中每个标签组的每个标签的替换操作。例如，可以将同一类中每个标签组的每个标签替换为其所属的同义标签集中的指定标签，上述指定标签可以例如是同一类中每个标签组的每个标签所属的同义标签集中的第一个标签或最后一个标签。或者，例如可以针对同一类中所有的标签组来统计同一类中每个标签组的每个标签所属的同义标签集中的各个同义标签的使用频率，并将使用频率最高的同义标签作为上述指定标签。本领域技术人员可以理解，还可以采用其它的方法来进行上述同一类中每个标签组的每个标签的替换操作，只要能保证替换后的指定标签可以统一地定义相应的数据即可。

接着，该方法进行到步骤404。在步骤404中，该方法结束。

下面参考图5来描述基于标签组对数据进行混合的设备。图5是示出基于标签组对数据进行混合的设备的方框图。

如图5所示，基于标签组对数据进行混合的设备501主要包括分类单元503和替换单元505。分类单元503使用上述对标签组进行分类的设备将输入数据中的标签组分类成至少一个类。替换单元505将同一类中每个标签组的每个标签分别替换为其所属的同义标签集中的指定标签，从而可以将同一类中相似的各个标签统一成相同的标签组，并且用所得到的相同的标签组来重新描述所输入的数据，以实现具有相似内容意义的数据的混合。

上述基于标签组对数据进行混合的设备501实际上是与上述基于标签组对数据进行混合的方法相对应的设备。因此，此处将省略其详细描述。

图6是示出其中实现本发明的设备和方法的计算机的示例性结构的框图。

在图6中，中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中，也根据需要存储当CPU 601执行各种处理等等时所需的数据。

CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。

下述部件连接到输入/输出接口605：输入部分606，包括键盘、鼠标等等；输出部分607，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等等，和扬声器等等；存储部分608，包括硬盘等等；和通信部分609，包括网络接口卡比如LAN卡、调制解调器等等。通信部分609经由网络比如因特网执行通信处理。

根据需要，驱动器610也连接到输入/输出接口605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上，使得从中读出的计算机程序根据需要被安装到存储部分608中。

在通过软件实现上述步骤和处理的情况下，从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图6所示的其中存储有程序、与方法相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)和半导体存储器。或者，存储介质可以是ROM 602、存储部分608中包含的硬盘等等，其中存有程序，并且与包含它们的方法一起被分发给用户。

在前面的说明书中参照特定实施例描述了本发明。然而本领域的普通技术人员理解，在不偏离如权利要求书限定的本发明的范围的前提下可以进行各种修改和改变。

Claims

1.一种基于标签组对数据进行混合的方法，其中所述标签组包括至少一个标签和由所述至少一个标签定义的相应数据，所述方法包括：

在多个同义标签集中确定所述标签组的每个标签所属的同义标签集，其中所述同义标签集是由具有相同或相似意义的一组标签所构成的集合；

生成与所述标签组相对应的特征向量，在所生成的特征向量中，每个元素分别与所述多个同义标签集中的不同同义标签集相对应，每个元素的值为所述标签组中属于与所述元素相对应的同义标签集的标签的数目；

计算所述特征向量与至少一个类中每个类的核心特征向量之间的相似度，其中所述类的核心特征向量的每个元素的值是已经被分类到所述类中的每个标签组的对应特征向量中的相应元素的值的和；

根据所计算出的相似度，将所述标签组分类到所述至少一个类中接近的类中；以及

将同一类中每个标签组的每个标签分别替换为其所属的同义标签集中的指定标签。

2.根据权利要求1所述的方法，其中，所述分类步骤包括：

根据所计算出的所述标签组与所述至少一个类中每个类之间的相似度是否超过预定阈值，来确定所述至少一个类中每个类是否为所述接近的类；以及

如果所述至少一个类中没有所述接近的类，则将所述标签组分类到一个新的类中。

3.根据权利要求2所述的方法，其中，如果所述接近的类有多个，则将所述标签组分类到所计算的最大相似度所对应的类中。

4.如权利要求1-3中任一项所述的方法，其中，所述相似度包括余弦相似度。

5.一种基于标签组对数据进行混合的设备，其中所述标签组包括至少一个标签和由所述至少一个标签定义的相应数据，所述设备包括：

同义标签集确定单元，用于在多个同义标签集中确定所述标签组的每个标签所属的同义标签集，其中所述同义标签集是由具有相同或相似意义的一组标签所构成的集合；

特征向量生成单元，用于生成与所述标签组相对应的特征向量，在所生成的特征向量中，每个元素分别与所述多个同义标签集中的不同同义标签集相对应，每个元素的值为所述标签组中属于与所述元素相对应的同义标签集的标签的数目；

相似度计算单元，用于计算所述特征向量与至少一个类中每个类的核心特征向量之间的相似度，其中所述类的核心特征向量的每个元素的值是已经被分类到所述类中的每个标签组的对应特征向量中的相应元素的值的和；

标签组分类单元，用于根据所计算出的相似度将所述标签组分类到所述至少一个类中接近的类中；以及

替换单元，用于将同一类中每个标签组的每个标签分别替换为其所属的同义标签集中的指定标签。

6.根据权利要求5所述的设备，其中，所述标签组分类单元包括：

类确定单元，用于根据所计算出的所述标签组与所述至少一个类中每个类之间的相似度是否超过预定阈值，来确定所述至少一个类中每个类是否为所述接近的类；以及如果所述至少一个类中没有所述接近的类，则将所述标签组分类到一个新的类中。

7.根据权利要求6所述的设备，其中，所述类确定单元还用于：如果所述接近的类有多个，则将所述标签组分类到所计算的最大相似度所对应的类中。

8.根据权利要求5-7中任一项所述的设备，其中，所述相似度包括余弦相似度。