CN103946840B

CN103946840B - 非监督检测及在文本数据中字簇集的分类

Info

Publication number: CN103946840B
Application number: CN201280055869.5A
Authority: CN
Inventors: 汤姆斯·拉尔森; 麦斯·林格伦
Original assignee: KAIROS FUTURE GROUP AB
Current assignee: Detzf Analytics
Priority date: 2011-11-15
Filing date: 2012-11-09
Publication date: 2017-09-05
Anticipated expiration: 2032-11-09
Also published as: WO2013072258A1; US9563666B2; TWI544348B; EP2595065B1; CN103946840A; TW201333727A; US20140297659A1; EP2595065A1

Abstract

一种从多个源获得的数据集分类的装置，包括：符号频率确定单元（24），其确定第一数据集集合中的符号的出现频率和第二数据集集合中的符号的出现频率；重要性确定单元（26），其基于第一集合中的出现频率和第二集合中的出现频率确定第二集合中的最高有效符号；分组单元（28），其根据这些最重要的符号在相同数据集中的出现而将这些最重要的符号分组成若干组，以及等级排列单元（30），其根据等级排列方案排列与符号组相关的数据集的等级。

Description

非监督检测及在文本数据中字簇集的分类

技术领域

本发明涉及数据集的分类，特别是涉及一种从多个不同源获得的数据集分类的方法、装置及计算机程序产品。

背景技术

数据集例如电子文件、电子论文、博客及线上讨论论坛中的数据等可存在于各种不同计算机上。这些数据集通常更多的是由公开提供的。随着因特网的引入，从任何一台电脑上获取此类数据集都将成为可能。从而可能从广泛的数据源中获得这些数据集。因此，因特网上存在数量庞大的信息。

该丰富的信息用于许多不同领域将会非常有趣，例如：用来确定社会和消费者的不同需求。然而，信息量如此巨大以至于难以从其获得任何综合及有用的知识。

因此，数据集的组织和分类受到广泛关注以致于高级信息分析可以应用于数据集的处理。

数据集的组织、结构化以及搜索方面存在许多技术。

各种数据集分类的方法因此被提出。例如，US2010/0205525阐述基于文本中品质特性的出现频率，如字符块的出现频率，将文本自动分类。US2009/0094021阐述了从多个文件簇集来确定多个主题。US6094653阐述了将字分类成字簇集。

也存在多种对文件分组的方法。例如EP2045739描述了在文件中选择多个字作为关键字及根据关键字将文件簇集以产生簇集，其中每一个簇集对应于一个主题。US6078913描述将所选文件簇集为层次状树形结构。US7809718阐述了文件中元数据的发现，并且如果字存在于元数据中，那么文件中的字的重要性将会着重提出。US6778995描述了从文件提取多个字词及在文件集合上建立概念空间、识别文件之间相关的字词及用具有归属于特定变异数的文件空间中的角与簇集角之间的差的来填充簇集。US7720848阐述一种概率性簇集***。

此外，在搜寻最佳化条件的领域已经作出贡献。例如，US7483892阐述了从代表特别主题事件的文件中编译一个文字相乘的文本矩阵及形成经加权的字词词典，该特定标的物表示每个文件每个字词的发生频率。US5926812阐述了将字簇集分组以及组合相似的字簇集以便于形成一个单独的字簇集。

在2010年瑞典隆德大学的工业管理与物流、生产管理系的硕士论文“用于商业智能的文本数据挖掘”中，Andreas Ek阐述了如何使用层次聚类、线性回归及基于概率的等级排序来获得信息。

然而，该领域中仍然存在改进的需要。

发明内容

因此，本发明目的在于提供一种数据集集合的改进分类。

本发明的一个目的在于提供一种将从多个源获得的数据集分类的方法，该方法简化了数据集中有用信息的定位。

该目的根据通过从多个源获得的数据集分类的方法得到的本发明的第一类变化形式，这些数据集由符号组成，该方法包括：

确定第一数据集集合中的符号的出现频率；

确定第二数据集集合中的符号的出现频率；

基于第一集合中的出现频率和第二集合中的出现频率确定第二集合中的最重要的符号；

将在相同数据集中出现的最重要的符号分组成若干组，以及

使用等级排列方案排列与符号组相关的数据集的等级。

本发明的另一个目的在于提供一种将从多个源获得的数据集分类的装置，该装置能够定位这些数据集中的有用信息。

该目的根据通过从多个源获得的数据集分类的装置得到的本发明的第二类变化形式，这些数据集由若干符号组成，该装置包括：

符号频率确定单元，其配置为确定第一数据集集合中的符号的出现频率和配置为确定第二数据集集合中的符号的出现频率；

重要性确定单元，其配置为基于第一数据集集合中符号的出现频率和第二数据集集合中符号的出现频率确定第二数据集集合中最重要的符号；

分组单元，其配置为将在相同数据集中出现的最重要的符号分组成若干组，以及

等级排列单元，其配置为根据等级排列方案排列与符号组相关的数据集的等级。

本发明的另一个目的在于提供一种从多个源获得的数据集分类的计算机程序产品，该计算机程序产品简化了数据集中有用信息的定位。

该目的根据通过从多个源获得的数据集分类的计算机程序产品得到的本发明的第三类变化形式，这些数据集由若干符号组成，该计算机程序产品包括计算机可读存储介质和计算机程序代码，计算机程序代码使计算机执行如下操作：

确定第一数据集集合中的符号的出现频率；

确定第二数据集集合中的符号的出现频率；

基于第一集合中符号的出现频率和第二集合中符号的出现频率确定第二集合中的最重要的符号；

将在相同数据集中出现的最重要的符号分组成若干组，以及

使用等级排列方案排列与符号组相关的数据集的等级。

本发明具有许多优点。其能够定位数据集中的有用信息。尤其是，其允许获得与第二次采集中数据集相关的各种符号组的信息，例如：其可能是一种用于分析消费者或者社会的趋势的工具。以这样的方式，本发明通过研究各组的数据集的等级排列来实现数据集各方面的分析。

应该强调，术语“包括(comprises/comprising)”在本说明书中时是被用以规定所描述的特征、整数、步骤或组件的存在，而不排除一个或多个其他特征、整数、步骤或组件或其他组的存在或添加。

附图说明

本发明将详细描述发明附图，其中

图1示意性地表示数据集分类装置。该装置通过数据通信网络与多个计算机相连；

图2示意性地表示数据集集合；

图3表示数据分类装置的方框示意图；

图4示意性地表示一张由装置执行的用于表征数据集的方法的流程图；以及

图5示意性地表示以CD ROM的形式呈现的含有用于数据集分类的计算机代码的计算机程序产品。

具体实施方式

在如下的描述中，出于解释而非限制，为了提供对本发明透彻的理解，将阐述例如特殊构架、界面、技术等特定细节。然而，本领域的技术人员将会清楚，可在脱离这些特定细节的其他实施例中实践本发明。在其他示例中，省略众所周知的装置、电路及方法的详细说明以便不因不必要的细节而使本发明的说明模糊。

图1示意性地表示经由计算机通信网络12连接到多个计算机14、16、18及20的本发明中描述的用于将数据集分类的装置10。这里，计算机14、16、18及20是提供有数据集的信息源。这里，计算机通信网络12通常可以是因特网，其意味着提供数据集的各种源可以是免费获得的源。因此，这些源可以是公开的并且可以由任何连接至因特网的计算机获得。然而，应该认识到，本发明并不限于因特网，而是与计算机通讯网络相关的都可以使用。装置10具有一个或多个计算机或服务器能够连接到网络的优势。

图2示意性地表示多个数据集DS1、DS2、DS3、…、DSn。上文提及的源可以各自具备一个或多个数据集。在该实施例中，数据集是包括原始数据D及元数据MD的数据档案或文件。原始数据D由例如字的符号构成因此可以是文本，并且元数据MD是与原始数据D相关联的数据，例如分类CL。分类可以是文字类型或数据集主题的分类，并且可以包括对作者的标识、文本简短的介绍。该元数据也可以包括指示数据集的生成、上次更改或可用或公开时间信息T。因此，数据集的原始数据D可由多个符号构成。这里第一数据集DS1表示为包括第一符号S1的两个试样、第二符号S2的两个试样及第三符号S3的一个试样。第二数据集DS2表示为包括第一符号S1的两个试样、第二符号S2的一个试样、第三符号S3的一个试样及第m个符号的一个试样。第三数据集DS3表示为包括第一符号S1的一个试样、第三符号S3的一个试样及第m个符号Sm的一个试样。最后，第n个数据集DSn表示为包括第m个符号Sm的一个项目。

这里，符号通常是若干字符例如字母数字字符，这些字符形成为通过分离字符的特殊符号例如空格字符而与其他符号分开的实体。这里已有意限制符号的数目以便提供对本发明更清楚的理解。通常，每个一个数据集包括多个符号，通常是数千个符号。这里，所表示的数据集包括所有所表示的数据集DS1、DS2、DS3及DSn的数据集集合C。这些数据集进一步划分成多个部分，其中一个该分部或子集合SC被表示为包括第一数据集DS1和第二数据集DS2。还应该认识到，子集合SC或整个集合C的部分包括多个更多的数据集。

图3示意性地表示装置10的结构的方框示意图。装置10包括连接到数据集数据库23的数据集收集单元22。还存在符号频率确定单元24。符号频率确定单元24也连接到数据集数据库23和符号频率数据库25。此外，存在重要性确定单元26。重要性确定单元26连接到符号频率数据库25及重要性数据库27。还存在分组单元28，其连接到数据集数据库23、重要性数据库27及组数据库29。还存在连接到数据集数据库23和组数据库29的等级排列单元30。最后，存在连接到数据集数据库23的位置识别符提供单元32。

所有单元存在以与程序记忆体相关的一个或多个处理器的形式的优势，这些程序记忆体包括执行这些单元的功能性的计算机程序代码。这里还应该提及，作为替代方案，可省略数据收集单元22及位置识别符提供单元32。

现在将提供如下本发明的描述，本发明主要是由参考了之前阐述的图1至图3以及图4的装置10组成，图4表示一张用来操作本发明的方法的流程图。

当今在因特网上可以获取大量数目的数据集，例如电子文件、博客、论文、聊天论坛等。通过这些数据集提供的信息是多种多样的，并且可涵盖宽泛范围的主旨。

由于信息的易于获取，对其的分析将会变得很有兴趣，例如调查各个领域中的趋势，如技术趋势及政治趋势。

然而，这在没有得到数据集的分类这一条件下无法实现，其中数据集使分析能够实现。

本发明的目的是处理该情况，也就是，提供一种使得能够进行该分析的用以将数据集结构化并且分类的方式。本发明的一个实施例是针对于数据集集合结构化并且分类以使得能够对该集合的一部分进行分析，例如集合的一部分针对于一个兴趣领域进行分析。

用于实现该过程的本发明的操作以数据集收集单元22从各种信息源14、16、18及20收集数据集(步骤34)开始。这里，所收集数据集构成至少一个数据集集合C，数据集集合C可以然后存储在数据集数据库23中以供进一步分析。在本发明的一个变化形式中，采集了第一数据集集合及第二数据集集合。

如上所述，数据集包括例如基于字母或文字数字符号的字符号。这些符号也可以包括其他类型的字符例如记号，如井号，惊叹号等。在本发明的某些变化形式中，这些符号可通过例如“空格”的分离字符与其它符号分离的十六位数据字符的组合来形成。

为了实现数据集的分类，符号频率确定单元24存取数据集数据库23并且调查所有的数据集。在该第一实施例中，其调查或确定整个集合C中的符号的频率，这里，所有数据集从各种源收集(步骤36)。这意味着确定并且登记每一个符号在整个集合C中存在的次数。此外，可在不使用对数据集的任何先前分类的情况下执行该调查。因此，在无数据集分级或分类的情况下确定频率。因此获得基于分类的符号频率。然后，可将统计数据存储在符号频率数据库25中。如果图2中的集合C用作实例，则这意味着对于第一符号S1而言存在对该符号在所有数据集DS1至DSn中出现多少次的确定。

然而，这并不是所完成的所有操作。符号频率确定单元24也确定数据集集合C中的一部分SC中的符号的出现频率(步骤38)。因此，该部分是整个集合的子集合。这里，还可以在不使用子集合的数据集的任何先前分类的情况下执行该调查。因此，可以在无数据集分级或分类的情况下确定频率。因此可以获得与符号出现频率相关的分类。这意味着可以确定符号在子集合中出现的次数。对于第一符号S1而言，这意味着该符号在由第一数据集DS1和第二数据集DS2例示的子集合SC中出现的次数可以确定，该次数在图2中的简化实例中为3次。

子集合SC可以是专用于特定信息区域的子集合，例如其中已书写如技术、社会科学、运动、亲情或健康等主旨的大量文字的特定区域。子集合SC也可以是这样一般领域一部分，如美国和瑞典的政治。子集合也可以是根据数据集的类型的子集合，例如博客、聊天或电子文件。作为另一种可能性，子集合SC可以基于时间，例如特定时间点如特定一天或时间间隔例如一周、一月或一年。可通过数据集的元数据MD中的分级设定CL来识别子集合，这里该元数据也可以包括与数据集相关联的时间T设定的时间。还应该认识到，子集合SC可基于这些设定和时间的组合，例如分级CL(如政治的分级)。

然后，还可以将子集合中的符号的频率存储于例如符号频率数据库25的数据库中。

一旦完成此，则重要性确定单元26确定基于上文提及的频率的最重要的符号成为可能，上文提及的频率是指整个集合的频率以及部分集合的频率(步骤40)。在本发明的一个变化形式中，这可以如此完成：由集合C的部分即子集合SC内的符号的频率在整个集合中通过相同符号的频率加以区分。这里可能的是，最重要的符号是集合的部分中的频率与整个集合中的频率之间的比率高于特定临界值所针对的那个符号，其中低于该临界值的比率的符号被视为较不重要的。这里还可以采用概率。给定整个集合中的符号的概率，确定子集合中的同一符号的概率。以这样的方式，鉴于符号在整个集合中的发生，其在子集合中比可能情况更频繁发生的符号被视为最高有效的。

这也可用以下的方式来数学地表达：

W_jsc∈Bin(n_sc，p_0j)

其中

n_sc是子集合中的所使用符号的数目，

w_jsc是符号j已在子集合sc中使用的次数，

p_oj是从整个集合取出的特定符号也就是符号j的概率，

(1-p_0j)是所讨论的符号不为符号j的概率，并且

p_1，jsc(k)是在假定符号j发生的次数遵循给定参数的二项式分布的情况下，符号j在子集合sc中出现k次的概率。

然后，在给定了整个集合中相同符号的概率的条件下，子集合sc中的符号的概率确定为p_1，jsc(w_jsc)

此后，可将结果存储在重要性数据库27中。

作为替代方案，可能对第一集合及第二集合执行上文所述的活动，其中第二集合可以是单独的集合。第二集合然后可以与第一集合相关。例如如果第一集合与以第一时间间隔例如特定一年提供的数据集相关，那么然后可能第二集合由以与该第一时间间隔具有一关系的第二时间间隔提供的数据集，例如在下一年中收集的数据，构成。正如第一实施例中一样，第二集合也可以被视为第一集合的子集合或子部分。

此后，步骤42中，分组单元根据最重要的符号在同一数据集中的出现将它们分组成多个组G。这意味着符号的组或簇集的形成。可使用多种不同类型的技术来形成这些组。例如，可能使用主成分分析、例如沃德聚类分析法或多维尺度分析法。还可以通过这些技术中的两者或两者以上的组合来形成这些组。然后，可将这些组存储在组数据库29中。作为实例，通过第一符号S1和第二符号S2来形成一个这种组。

步骤44中，当以上都完成时，等级排列单元30根据等级排列方案排列与符号组相关的数据集的等级。等级排列方案可基于数据集中的组的符号的频率。在第一实施例中所使用的等级排列方案中，一组的较多符号的数据集的等级高于同一组的较少符号的数据集的等级。这意味着作为实例，第一数据集DS1经等级排列后高于第二数据集DS2，这是因为其包括第一符号S1的两个试样及第二符号S2的两个试样且总共四个这种试样，而第二数据集DS2包括第一符号S1的两个试样及第二符号S2的一个试样。因此，符号的绝对频率在第一数据集DS1中比在第二数据集DS2中高。在该等级排列方案的变化形式中，频率是相对的并且与数据集的大小相关。因此，等级排列方案的该变化形式采用绝对频率/符号。仅有一些等级排列方案的实例可以被采用。应该知道，也可以采用其他类型的等级排列方案。

这里，这些排列以数据集的形式存储在数据库23中。

以这样的方式，感兴趣的使用者可能了解数据集集合C中的一部分SC中的哪种数据集对于例如特定分级的特定主旨区域而言是最相关的。

步骤46中，这里还可能是，位置识别符提供单元32为最高等级的数据集提供位置识别符。这可以通过与子集合或整个数据集集合的一部分相关的仅一个这种组或若干个组来完成。位置识别符可以是统一的信息***(URL)或者指向提供数据集的计算机的指针。这些数据以数据集的形式存储于数据集数据库23中。因此，可以提供期望获取最高排列等级数据集的使用者以数据集的位置识别符。

如从先前说明可见，本发明提供非监督检测及包括符号的数据集中字簇集的分类，其中这些符号可以以文本数据的方式提供。表达的非监督检测的另一种分类方法是通过以非监督检测的方式进行分类。本发明提供非监督检测在文本数据以及其上下文联系中突出概念。

通过本发明，可以得到哪种数据集与各种符号组相关，其中符号组与数据集集合中某一特定部分相关，该发明可以作为例如分析社会趋势的工具。因此，可能通过与各符号组相关数据集等级排列的研究来分析特定分类的各个方面，这是在与一个或多个这样领域的信息定位方面做出显著改进。

装置10可以如上所述使用计算机中的软件来实施。此外，该软件可以以计算机程序产品的形式提供，例如，在装入至计算机中并且由该计算机运行时作为数据载体载送用于实施分类装置10的单元的计算机程序代码。在图5中大体勾画出CD ROM盘形式的、具有计算机程序代码50的一个这种数据载体48的轮廓。CD ROM盘是数据载体的仅一个实例。其他数据载体例如记忆棒以及硬盘是可行的。

尽管已经与当前被视为最实际及较佳的实施例一起阐述了本发明，但是应该理解，本发明并不限于公开实施例，而是相反地，本发明意在涵盖各种修改及等同配置。因此，本发明将仅由下面权利要求限定。

Claims

1.一种将从多个源(14、16、18、20)获得数据集DS1、DS2、DS3、…、DSn分类的方法，所述数据集由符号S1、S2、S3、…、Sm组成，该方法包括：

确定第一数据集集合C中的符号的出现频率；

确定第二数据集集合中的符号的出现频率；

基于第一集合中的出现频率和第二集合中的出现频率确定第二集合中的最重要的符号S1、S2；

所述确定第二集合中的最重要的符号基于：

一个符号在第二集合中出现的概率p_1，jsc(w_jsc)，而p_1，jsc(w_jsc)则是在给定了相同符号在第一集合出现的概率的条件下，利用如下公式计算得到，

w_jsc∈Bin(n_sc，p_0j)

其中

n_sc是第二集合中的所使用符号的数目，

w_jsc是符号j已在第二集合中使用的次数，

p_0j是从第一集合取出的特定符号是符号j的概率，

(1-p_0j)是所讨论的符号不为符号j的概率，并且

p_1，jsc(k)是在假定符号j发生的次数遵循具有给定参数的二项式分布的情况下，符号j在第二集合中出现k次的概率，

根据这些最重要的符号在相同数据集中的出现而将这些最重要的符号分组成若干组G，以及

使用等级排列方案排列与符号组相关的数据集的等级，

其中，第一集合中符号频率的确定不需要使用数据集的任意前述分类。

2.根据权利要求1所述的方法，还包括从所述源收集数据集。

3.根据任意前述权利要求所述的方法，还包括针对至少一个组提供排列为最高等级的数据集的位置识别符。

4.根据权利要求1或2所述的方法，其中使用主成分分析法进行符号分组。

5.根据权利要求1或2所述的方法，其中使用例如沃德聚类分析法的聚类分析进行符号分组。

6.根据权利要求1或2所述的方法，其中使用多维尺度法进行符号分组。

7.根据权利要求1或2所述的方法，其中第二集合是第一集合的一部分SC。

8.根据权利要求7所述的方法，其中这些数据集的集合基于时间将划分成多个部分，例如基于特定时间点或时间间隔。

9.根据权利要求7所述的方法，其中基于这些数据集的分级将这些数据集的集合划分成多个部分。

10.根据权利要求9所述的方法，其中这些数据集是文件以及包括主题、作者和/或文件类型的分级。

11.根据权利要求1所述的方法，其中该等级排列方案是基于这些数据集中的符号组中的符号的频率。

12.根据权利要求1所述的方法，其中至少确定该第一数据集集合C中的符号的出现频率是分类独立的。

13.一种用于将从多个源(14、16、18、20)获得的数据集DS1、DS2、DS3、…、DSn分类的装置(10)，所述数据集由符号S1、S2、S3、…、Sm组成，该装置包括：

符号频率确定单元(24)，其配置为确定第一数据集集合C中的符号的出现频率，以及确定第二数据集集合中的符号的出现频率；

重要性确定单元(26)，其配置为基于第一集合中的出现频率和第二集合中的出现频率确定第二集合中的最重要的符号S1、S2；

所述确定第二集合中的最重要的符号基于：

w_jsc∈Bin(n_sc，p_0j)

其中

n_sc是第二集合中的所使用符号的数目，

w_jsc是符号j已在第二集合中使用的次数，

p_0j是从第一集合取出的特定符号是符号j的概率，

(1-p_0j)是所讨论的符号不为符号j的概率，并且

分组单元(28)，其根据这些最重要的符号在相同数据集中的出现而将这些最重要的符号分组成若干组G，以及

等级排列单元(30)，其根据等级排列方案排列与符号组相关的数据集的等级，

其中，通过符号频率确定单元(24)来作出第一集合中符号频率的确定不需要使用数据集的任意前述分类。

14.根据权利要求13所述的装置，还包括数据集收集单元(12)，其配置为从所述源收集数据集。

15.根据权利要求13或14所述的装置，还包括位置识别符提供单元(32)，其配置为针对至少一个组提供排列为最高等级的数据集的位置识别符。

16.根据权利要求13或14所述的装置，其中当符号频率确定单元确定符号出现频率时，至少是为第一集合C中数据集的符号确定出现频率，其中确定的过程与其它数据集的分类是独立的。