CN107273346B

CN107273346B - 从文本中对热门见解的可扩展挖掘

Info

Publication number: CN107273346B
Application number: CN201710199077.XA
Authority: CN
Inventors: 张永正; 赵瑞; 宽之意; 郑毅
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-03-30
Filing date: 2017-03-29
Publication date: 2024-06-11
Anticipated expiration: 2037-03-29
Also published as: US20170286531A1; CN107273346A; US10733221B2

Abstract

提供了一种用于识别文档语料库中的热门话题的***和方法。首先，识别多个话题，其中一些话题可以基于同现而被过滤或移除。然后，对于每个剩余的话题，确定文档语料库中所述话题的频次，确定一个或多个其他文档语料库中所述话题的一个或多个频次，基于所确定的频次生成所述话题的热门分数。最后，基于所生成的热门分数对剩余的话题进行排名。

Description

从文本中对热门见解的可扩展挖掘

技术领域

本公开涉及识别文档语料库中的话题，并且更具体地涉及以可扩展的方式识别热门话题。

背景技术

热门见解是找到最能代表文本语料库中的见解的重要话题的计算研究。一种识别热门见解的有效方法可以揭示：(1)在线论坛中关于特定话题的热门讨论，例如围绕特定品牌、产品或服务；(2)关于什么话题可能在社交媒体上病毒式传播的早期信号；和(3)新兴的观点和驱动因数。识别热门见解的挑战来自于极大量的非结构化数据，该非结构化数据是在线可用的文本形式。数据来自多个渠道，例如产品评论、市场调研、客户关怀对话和社交媒体。虽然文本显然包含有价值的信息，但是如何最好地大规模分析这些数据往往不太清楚。另一个挑战是多书面语言(包括英语)的复杂性，这使得很难有效地找到最重要的话题。

识别热门见解的一些方法大多是统计的，从简单地计算单词的频次到更高级的方法(例如潜在狄利克雷分配(LDA))。然而，这些方法存在几个关键问题：(1)产生过多的噪声或假阳性(例如，诸如“感谢”和“联系我们”的太过通用的短语或者诸如“突发新闻”的太频繁出现的词语)；(2)大量的重复；(3)显著的计算成本；和(4)结果不能直观地解释。

在本节中描述的方法是可以进行的方法，但不一定是先前已经构想或进行的方法。因此，除非另有说明，否则不应仅仅由于它们包括在本部分中就假定本节中描述的任何方法是现有技术。

附图说明

在附图中：

图1是描绘在实施例中用于识别文本语料库中的热门话题的过程的流程图；

图2是描绘在实施例中用于识别文档语料库中的热门话题的***的框图；

图3是示出了可以在其上实现本发明的实施例的计算机***的框图。

具体实施方式

在以下描述中，出于说明的目的，阐述了多个具体细节以便提供对本发明的深入理解。然而，显然可以在没有这些具体细节的情况下实施本发明。在其他实例中，以框图形式示出了公知的结构和装置，以避免不必要地使本发明模糊。

总体概述

提供了一种用于识别文本语料库中的热门话题的***和方法。在一种方法中，话题识别技术用于识别包括多个文档的文本语料库中的多个话题。识别和移除重复的话题。针对所识别的话题的子集中的每个话题生成热门分数。热门分数用于对子集中的话题进行排名。

过程概述

图1是描绘在实施例中用于识别文本语料库中的热门话题的过程100的流程图；

在框110处，分析文档语料库以识别多个文档中的话题集合。一个或多个话题识别技术可以用于识别所述话题集合。

在框120处，移除话题集合中的一个或多个话题。可以基于一个或多个标准来移除话题，诸如用户不期望呈现的已知的、预定义的或预期的话题。预定义的话题可以由用户指定并且与该组中的每个话题进行比较。作为另一示例，移除话题可以涉及比较话题集合中的两个话题的文档位置。如果两个话题出现在特定文档中相同的文档位置处，则两个话题可被合并或两个话题中的一个被删除。在实施例中，框120是可选的。

在框130处，针对剩余的话题集合中的每个话题计算热门分数。可以以多种方式之一计算热门分数。例如，确定多个时间段的每个时间段中的话题的频次，并将其用于计算热门分数。可以将当前时间段中的话题的频次与一个或多个先前时间段中的话题的频次进行比较。

在框140处，基于所计算的热门分数对剩余的话题集合进行排名。在一个实施方式中，热门分数越高，排名越高。

在框150处，基于排名显示剩余的话题集合(或其一部分)。框150可以仅涉及显示其热门分数高于特定阈值的话题。

***概述

图2是示出了在实施例中用于识别文档语料库中的热门话题的***200的框图。***200包括数据库210和热门话题识别器220，所述热门话题识别器220包括话题识别器222、重复数据删除器224、分数生成器226和排名器228。元件222-228中的每一个可以用软件、固件、硬件，或它们的任何组合实现。元件222-228可以在相同的计算装置上或在任何数量的不同计算装置上实现。在一些实施方式中，***200包括元件222-228中的一个或多个的多个实例，例如话题识别器222的多个实例和重复数据删除器224的多个实例。虽然元件222-228被示出为单独的元件，但元件222-228可以被实现为单个部件(无论是软件、固件还是硬件)。

数据库210可以包括单个存储装置或多个存储装置，所述多个储存装置相对于彼此是本地的或者可以相对于彼此是远程的。数据库210通信地耦合到热门话题识别器220。数据库210包括多个文档语料库212和214。虽然仅示出了两个文档语料库，但是数据库210可以包括多个文档语料库，每个文档语料库对应于不同的时间段，例如，特定的月，特定的周，特定的天，特定的周或天的集合，或特定的小时。

每个文档语料库包括多个文档，从所述文档中识别话题。文档语料库的文档可以存储在文件***或数据库(例如关系数据库或对象关系数据库)中。文档语料库中的文档可以是相同类型或不同类型的。文档的示例类型包括新闻文章、在线帖子(例如，Facebook帖子或LinkedIn帖子)、评论(例如，对博客帖子、图片等的评论)，Tweets和客户关怀“票据”。因此，一些文档可以是单个句子或短语，而其他文档可以是多个句子。

每个文档语料库中的文档可以来自单个源或来自多个源，诸如LinkedIn、Facebook和任何第三方发布者。图1中的示例源包括内部文档源216(其是***200的一部分)和外部文档源218(其不是***200的一部分并且可通过网络230访问)。例如，内部文档源216可以包括由社交网络的成员提供给该社交网络的其他成员所提交的不同博客帖子(例如，由LinkedIn提供)的评论，而外部文档源216可以包括来自第三方服务(例如，Twitter)的帖子。

可以在分析话题之前处理来自文档源216和218的文档。例如，来自一些文档的内容可以被过滤掉和/或整个文档可以被一起过滤掉。这样的过滤可以基于文档是否包含某些主题或某些术语(例如，亵渎语言、色情描写、政治观点)和/或文档是否不包含某些主题或某些术语(例如，与科学相关的术语或与车相关的术语)。

网络230可以在为热门话题识别器220和外部文档源218之间提供数据交换的任何介质或机制上实现。网络230的示例包括但不限于：诸如局域网(LAN))、广域网(WAN)、以太网或互联网等网络，或者一个或多个地面、卫星或无线连接。

每个文档内的文本可以是结构化的(例如，使用HTML、XML或另一标准)、非结构化的或部分结构化的。因此，数据库210中的一些文档可以是结构化的，而其他文档可以是非结构化的。

每个文档与时间戳相关联，该时间戳指示了季节、年份、月份、一周中的某一天、特定日期、日期范围、一天中的某一小时、小时范围、分钟和/或秒，和/或任何其它日期或时间指示(无论绝对的还是相对的)。文档的时间戳可以指示文档何时由在线用户创建、发布、选择了特定的次数或何时由***200接收。文档的时间戳可以被用来(例如通过热门话题识别器220)将文档与具有相同或相似时间戳或具有落入相同预定义时间段(例如，特定年份中的特定周)的时间戳的其他文档编组在一起。

文档可以与多个时间戳相关联。例如，一个时间戳可以指示文档何时被发布或发帖以及在线可用，而另一个时间戳可以指示***200何时接收到文档。

在一个实施例中，文档语料库212和214不是固定的，因为每个文档语料库中的文档的数量和/或类型可以改变。例如，文档语料库212可以对应于在第1-3周内在线创建或发帖的文档，并且文档语料库214可以对应于在第4-6周内在线创建或发帖的文档。可以基于文档语料库212和214来识别热门话题。稍后，文档语料库212被分解(无论是物理地还是逻辑地)以创建三个文档语料库：每个文档语料库用于周1-3中的一个。此后，基于三个文档语料库(以及可选地，来自文档语料库214的文档)来识别热门话题。

话题识别

话题识别器222分析文档语料库212(和214)的文档内的文本以识别其中的话题。可以使用用于识别文本语料库中的话题的任何技术。在2014年4月30日提交的序列号为14/266,633的美国专利申请中描述了示例性的技术，该申请通过引用合并于此，就像在本文中充分公开。另一示例话题识别技术是潜在狄利克雷分配(LDA)。

在一个实施例中，每个话题包括关键词条(例如，词或短语)和零个或多个词条的列表。关键词条的示例是人的名字(例如，“John Smith”)，并且相关词条的示例包括“started company XYZ(开创公司XYZ)”，“CEO”，“philanthropist(慈善家)”和“softwaredevelopment(软件开发)”。因此，John Smith与这些词条中的每一个相关联，并且这些词条一起构成话题。其他示例话题包括{content marketing(内容营销)，thought leaders(思想领袖)，how to(如何做)，follow(遵循)}，{Linkedin，new ad targeting feature(新的广告目标特色)，release(发布)，focus on employees(专注于员工)}和{Linkedin CEO，Jeff Weiner，14M Stock Grant(14M股票授予)，passing(传递)，employees(员工)}，每个话题中的第一个词条是关键词条。

在相关实施例中，每个话题包括一个或多个词条的列表，没有关键词的概念，如在LDA中。列表中的每个词条可以与权重相关联，如在LDA中。话题的示例是{Google 0.73，AlphaGo 0.9，Go 0.83，Lee 0.7，best of five0.4}。

在一个实施例中，每个话题与一组文档标识符相关联，每个文档标识符识别发现相应话题的文档。一些话题可以在仅仅几个文档(例如，1)中找到，而其他话题可以在多个文档中找到。一些文档可能包含单个话题，而其他文档可能包含多个话题。

在实施例中，至少一个所识别的话题与文档内的特定位置相关联。因此，话题可以与区段标识符相关联，所述区段标识符识别文档内的区段。区段标识符可以识别段落(例如，段落3)、句子(例如句子4)、文档内的偏移(例如，25字节或35个字符)、字节范围、字符或单词范围(例如，字5-14)或它们的任何组合。话题对的文档标识符和区段标识符可以用于组合或移除话题，如稍后更详细描述的。

前N个话题

在一些情况下，可以使用本文参考的话题识别技术来识别数百、数千或甚至数十万个话题。对这些话题进行复杂的过滤并为每个话题计算热门分数将花费过多的时间。因此，在实施例中，从识别的话题集合(使用话题识别技术)中选择前N个话题。基于一个或多个标准(例如，子集中每个话题的文档频次)来选择这样的话题子集。例如，相对于该集合中所有其他所识别的话题，如果话题“plane crash(飞机失事)”出现在大多数的文档中，则选择“plane crash(飞机失事)”。可以考虑在单个文档中提及的话题的频次(在这种情况下测量话题频次)，或者可以忽略该频次，在这种情况下测量文档频次。

根据所使用的话题识别技术，可以使用不同的方法来确定两个话题是否相同。例如，如果使用的是在序列号为14/266,633的美国专利申请中描述的话题识别技术(其中话题包括关键词条和关联词条的列表)，则如果对应的关键词条是相同的，则两个话题是相同的。另外或替代地，如果相关联的词条的两个对应的列表具有显著的“重叠”，则两个话题是相同的。重叠是指相关词条的两个列表具有的共同词条的范围。例如，如果列表A具有单词w1、w2、w3和w4，并且列表B具有单词w2、w3、w4、w5和w6，则相应的话题可以被认为是相同的话题(即，因为存在三个共同词条)。(在该示例中，仅当相应的关键词条相同时，相应的话题才可以被认为是相同的话题。)“显著重叠”可以用一个或多个阈值来定义，诸如(a)如果两个列表具有特定数量的共同词条，或者(b)如果两个列表具有特定百分比的共同词条，则相应的话题是相同的。例如，如果话题A的列表中的50％的词条在话题B的列表中找到(并且可选地，反之亦然)，则话题A和话题B被认为是相同的话题。

作为另一个示例，如果LDA被用作话题识别技术(其中话题包括词条的列表)，则如果词条的相应列表具有“显着重叠”(其可以类似地如上所定义的)，则两个话题是相同的。

N(如在“前N个话题”中)可以是任何数量，例如100、500或1,000。N可以是可手动或自动改变的可调的数字。例如，***200的用户或管理员指定“5000”。

作为另一示例，话题识别器222(或***200的另一部件)确定在识别热门话题过程中的不同阶段是否识别了一定数量的话题。在该示例中，如果在重复数据删除步骤之后删除了多于一定数量的所识别的话题(或某些百分比的所识别的话题)，则***200可以确定N应该增加。另外地或替代地，如果具有小于特定数的热门分数的热门话题(或一定百分比的热门话题)少于特定数量，则***200可以确定N应该增加。

重复数据删除

一旦识别了前N个话题，则一些话题可以相关联。例如，话题“lawsuit(诉讼)”可以与诸如“user emails(用户电子邮件)”、“money(钱)”、“spam(垃圾邮件)”、“pay$13m tosettle(支付1300万美元结算)”和“annoyed users(懊恼的用户)”的其他话题一起出现，所有这些话题可以大致关于相同主题：与用户电子邮件有关的未决诉讼。如果这些话题真正相关联，则这些话题中的每一个将在文档语料库中以大致相等的频次一起出现。

在实施例中，重复数据删除器224对前N个话题执行重复数据删除。重复数据删除涉及确定话题对是否同现在同一文档位置。文档位置可以在文档级别、段落级别、区段级别或句子级别上定义。例如，如果两个话题出现在同一句子中，则认为两个话题同现(至少相对于两个话题的那些实例)。但是如果两个话题出现在同一文档中，文档内的相同章节中或文档内的同一段落中，则两个话题可以不被视为同现。

可以使用与话题对中的每个话题相关联的文档标识符和/或区段标识符来确定同现。例如，给定两个话题，其中每个话题与不同的文档标识符和区段标识符的集合相关联，识别两组文档标识符中的共同的文档标识符。然后，对于每个共同的文档标识符，如果对应的区段标识符(来自每个话题并且对应于合适的文档)是相同的或者是接近匹配的，则至少相对于所识别的文档中的所识别的区段，认为所述两个话题是同现的。

可以以多种不同的方式定义同现，例如一起出现特定百分比的时间(例如，在同一句子中)或者一起出现特定次数(这里称为“重复数据删除阈值”)。例如，如果两个话题出现在相同文档位置(例如，句子)的情况占每个话题在文档语料库中的所有实例的至少50％，则认为两个话题同现。作为具体示例，在70％的话题B发生的时间中，话题A可能与话题B(例如，在同一句子中)一起出现。但是，只有5％的出现话题A时间中，话题B可能与话题A一起出现。在该特定示例中，话题A和B可以不被认为是重复数据，并且将单独处理。作为另一个具体示例，话题A可以与话题B(例如，在同一句子中)一起出现一百次以上。在该特定示例中，话题A和B可以被认为是重复数据，并且将一起处理。

另外，同现可以被定义为在文档语料库中总体上出现大致相等的次数，诸如彼此之间的30％内或者彼此之间的三百次内(例如，话题A在文档语料库212中出现453次和话题B在文档语料库212中出现697次，这在彼此之间的三百次内)。

与先前描述的N类似，可以手动或自动地调整用于确定两个话题是否同现的一个或多个重复数据删除阈值。例如，如果具有小于S的热门分数的话题小于M个，则重复数据删除阈值被减小例如10％或减小一绝对量。

如果两个话题被认为同现，则这两个话题被“组合”。“组合”两个话题可以涉及将与一个话题相关联的词条(例如，全部或一些)添加到与另一个话题相关联的词条列表中。或者，降低对一个话题的考虑或完全不考虑。任一类型的组合可以或可以不导致组合话题的频次的改变。例如，话题A具有78的文档频次，话题B具有69的文档频次。如果话题B与话题A组合(由于话题B与话题A的同现)，则话题B的文档频次可被忽略或基于话题B的文档频次的量增加话题A的文档频次。

如果存在N个被考虑用于重复数据删除的话题，则重复数据删除可以涉及大约N^2个同现的确定：(N-1)用于相对于话题2至N中的每一个来考虑话题1，(N-2)用于考虑相对于话题3至N的每一个来考虑话题2，...，(N-(N-1))用于相对于话题N来考虑话题N-1。

热门分数

在一个实施例中，分数生成器226生成话题集合中的每个话题的热门分数。话题集合可以包括在执行重复数据删除步骤之后的所有话题，或者可以在执行重复数据删除步骤之后限于前M个话题。M可以手动指定或可以自动确定。例如，如果具有超过特定阈值(T)的分数的热门话题的数量小于特定数量(P)，则M可以增加，例如锁步增加量或基于T和P之间的差值的量。差值越大，M越增加的越多。

基于以下来生成话题的热门分数：(1)话题在一个文档语料库(例如，文档语料库212)中出现的频次，和(2)话题在一个或多个其他文档语料库(例如，文档语料库214)中出现的频次，所述其他文档语料库与不同于与第一文档语料库相关联的时间段的时间段相关联。然后可以将两个频次之间的差值除以一个频次(例如对应于先前时间段的频次)。例如，如果话题A的先前文档频次是19并且话题A的当前文档频次是57，则可以如下计算热门分数：(57-19)/19＝3。

示例时间段包括特定月、特定周、特定日、特定小时和特定分钟。例如，一个文档语料库与2016年3月31日相关联，另一个文档语料库与2016年3月30日相关联。作为另一示例，文档语料库212与2016年3月13日的周相关联，并且文档语料库214与2016年3月20日的周相关联。

在一个实施例中，文档语料库的大小是生成在该文档语料库中识别的话题的热门分数的因素。例如，如果文档语料库212大于文档语料库214，则文档语料库212中的特定话题的频次的权重可以高于文档语料库214中的特定话题的频次。例如，如果话题A的先前文档频次是19并且话题A的当前文档频次是57，但是当前文档语料库的大小是前一文档语料库的大小的两倍，则可以按如下计算热门分数：((57*2)-19)/19＝5。

在相关实施例中，当生成热门分数时，考虑与某些时间段相关联的多个文档语料库，这些时间段在与文档语料库(例如，文档语料库214)相关联的当前时间段之前。例如，不仅考虑当前周的文档，而且考虑前两周的文档。在前两周的文档中识别的话题的文档频次(例如，在第1周中识别13次的话题A和在第2周中识别52次的话题A)可以单独计算，或者可以一次计算(例如，话题A在从第1周和第2周的文档中识别了65次)。

一个示例实现涉及对特定话题的前4周(例如，第1-4周)的文档频次进行平均，并从当前周(例如，第5周)中的特定话题的文档频次中减去该平均。例如，话题A在第1周出现1,243次，在第2周出现1,378次，在第3周出现2,455次，在第4周出现2,139次，在第5周(当前周)中出现5,679次。因此，该示例实现下的话题A的热门分数将是

[5,679-(1,243+1,378+2,455+2,140)/4]/(1,243+1,378+2,455+2,139)/4＝(5,679-1,804)/1,804～2.15。

或者，选择特定话题(多个先前时间段中)的文档频次集合中的中值，并从当前周的文档频次中减去该中值。或者，在确定平均值或中值之前，将权重应用于先前周的文档频次中的一个或多个上。前几个不同周的文档频次的权重可以根据这些周到当前周的时间距离而变化。例如，将0.7应用于(例如乘以)第1周的(特定话题的)文档频次，将0.8应用于第2周的文档频次，将0.9应用于第3周的文档频次，并且不将权重应用于第4周的文档频次，并且所得到的值被平均。从当前文档频次中减去该平均值，并将该差值除以平均值。

平滑系数

在一些情况下，在当前时间段中相对频繁的话题在先前时间段中可能不频繁或不存在。因此，如果通过除以基于一个或多个先前文档频次的值来计算热门分数，则所得到的热门分数可能非常大(如果值相对较小)或非实的(如果值是0)。例如，有多个话题从不(或很少)出现，但在当前时间段具有中等量。除非考虑另外的因素，否则它们各自的归一化增量将支配热门分数。

因此，在一个实施例中，基于“平滑系数”计算热门分数，“平滑系数”是一数字，该数字不仅避免了除以零(其中在先前时间段中没有检测到话题)，而且也降低了归一化差值的灵敏度。以下是示例公式，其中wi指第i周中的话题的文档频次：

[(w5–avg(w1+w2+w3+w4)+平滑系数]/[avg(w1+w2+w3+w4)+平滑系数]

在一个实施例中，平滑系数的精确值根据没有平滑系数的分母的值而变化。例如，如果前四周的数据的平均值小于100，则平滑系数为100；如果该数字在100和500之间，则平滑系数是200；如果该数字大于500，则平滑系数为500。

在一个实施例中，代替使用平滑系数或者除了使用平滑系数之外，确定从时间段到时间段的差值的变化，并将其用于生成话题的热门分数。例如，在第1周(w1)和第2周(w2)之间计算差值(d1)，在w2和w3之间计算差值(d2)，在w3和w4之间计算差值(d3)，在w4和w5(当前周)之间计算差值(d4)。如果d4与d1、d2和/或d3显著不同(例如2x)，则相应的话题可以被认为是热门话题，并且可以被分配热门分数，该热门分数基于d4与一个或多个其他差值之间的差值。

排名

在一个实施例中，所生成的热门分数被用于对话题集合进行排名。热门分数越高，话题集合在话题列表中排名越高。

在实施例中，排名的话题集合自动地显示在计算装置(例如，便携式计算机、平板计算机、台式计算机或智能手机)的屏幕上，而不需要用户输入来明确地请求这样的显示或响应于用户的输入。在确定排名的话题集合之后，用户输入可能已经请求要生成话题集合，或者可能已经请求排名的话题集合被显示。

在一个实施例中，排名的话题集合被连续地生成。可以接收用户输入，指定多长时间对排名的话题集合进行一次计算，诸如每周、每天、每小时或一些其他时间段。或者，排名的集合的生成的周期性是硬编码的或预定义的，例如在与一个或多个部件/一个或多个元件分离的配置文件中(无论是在硬件、软件还是固件中实现))，该一个或多个部件/一个或多个元件参与排名的话题集合的生成。

限制话题分析的范围

在实施例中，用户提供输入以限制文档的范围，该文档被热门话题识别器220使用本文描述的技术进行分析。例如，用户指定文档必须包含的主题或一个或多个词语，以便对其进行分析以对话题进行识别、评分和排名。作为另一示例，输入指示文档类型或文档源类型，通过文档或文档源对话题进行识别、评分和排名。作为具体示例，***200的管理员可以将客户关怀票据指定为文档的类型。作为响应，话题识别器222仅分析在一个或多个时间段内创建或处理的客户关怀票据的一个或多个文档语料库。作为另一个具体示例，用户提供输入，其指示所有外部文档源。作为响应，话题识别器222仅分析来自外部源(例如，外部文档源218)的文档。以这种方式，可以在更加精细的基础上识别热门话题。

反馈

在一个实施例中，一个或多个用户选择排名靠前的热门话题的子集。排名靠前的热门话题可能反映了那些真正热门的话题的粗略估计。用户的选择指示了哪些话题的显示对于排名热门话题的其他消费者来说最重要的更可靠的指示。因此，所选择的话题子集可以被其他用户查看。

在一个实施例中，这种反馈用于调整分数生成器226用来生成热门分数的公式。例如，在先前计算的话题的排名的集合(R)上测试平滑系数的不同值，以得到该话题集合的不同排名(R')，该不同的排名更接近地匹配(或精确匹配)一个或多个用户给出先前计算的排名的集合(R)的排名(R”)。

识别非热门话题

在一个实施例中，识别过去是热门但不再热门的话题。例如，排名器228(或***200的另一部件)识别先前时间段(例如，上周)中的一组热门话题，并且确定这些话题中的任一个是否处在针对当前时间段(例如，当前周)识别的一组热门话题中。这是组差值(A-B)的示例。对于任何这样的话题，那些话题可能仍然是受欢迎的(例如，本周识别到了该话题的一万个实例并且上周识别到了该话题的一万个实例)，但受欢迎度没有显著的增加或减少。或者，那些话题可以变得越来越不受欢迎(例如，本周识别到了话题的一万个实例而上周识别到了话题的二万个实例)。

硬件概述

根据一个实施例，此处所描述的技术由一个或多个专用计算装置来实现。该专用计算装置可以是硬连线的以执行该技术，或者可以包括数字电子装置(诸如一个或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA))，其被永久地编程以执行该技术，或者可以包括被编程为根据固件、存储器、其他存储装置或它们的组合中的程序指令来执行该技术的一个或多个通用硬件处理器。这种专用计算装置还可以将定制的硬连线逻辑、ASIC或FPGA与定制程序进行组合以实现该技术。专用计算装置可以是台式计算机***，便携式计算机***，手持装置，联网装置或并入有硬连线和/或程序逻辑以实现该技术的任何其他装置。

例如，图3是示出了可以在其上实现本发明的实施例的计算机***300的框图。计算机***300包括用于传送信息的总线302或其他通信机制，以及与总线302耦合用于处理信息的硬件处理器304。例如，硬件处理器304可以是通用微处理器。

计算机***300还包括耦合到总线302的主存储器306，例如随机存取存储器(RAM)或其他动态存储装置，该主存储器306用于存储将由处理器304执行的信息和指令。主存储器306还可以在将由处理器304执行的指令的执行期间用于存储临时变量或其他中间信息。当这样的指令存储在处理器304可访问的非暂时性存储介质中时，使得计算机***300成为专用机器，其被定制为执行指令中指定的操作。

计算机***300还包括耦合到总线302的只读存储器(ROM)308或其他静态存储装置，用于存储用于处理器304的静态信息和指令。存储装置310，诸如磁盘、光盘或固态驱动器被提供并耦合到总线302以存储信息和指令。

计算机***300可以经由总线302耦合到显示器312(例如液晶显示器(LCD))，用于向计算机用户显示信息。包括字母数字和其他键的输入装置314耦合到总线302，用于向处理器304传送信息和命令选择。另一种类型的用户输入装置是光标控制器316(例如鼠标、轨迹球或光标方向键)，用于将方向信息和命令选择传送到处理器304并且用于控制显示器312上的光标移动。该输入装置通常具有在两个轴线(第一轴线(例如x)和第二轴线(例如y))上的两个自由度，允许该装置指定平面中的位置。

计算机***300可以使用定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实现本文所述的技术，所述硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑与计算机***结合使计算机***300成为专用机器。根据一个实施例，响应于处理器304执行包含在主存储器306中的一个或多个指令的一个或多个序列，此处的技术由计算机***300来执行。这样的指令可以从另一个存储介质(例如存储装置310)读入到主存储器306中。包含在主存储器306中的指令序列的执行使得处理器304执行此处描述的处理步骤。在替代实施例中，硬连线电路可以代替软件指令或与软件指令组合使用。

如此处所使用的术语“存储介质”是指存储了使得机器以特定方式操作的数据和/或指令的任何非暂时性介质。这样的存储介质可以包括非易失性介质和/或易失性介质。例如，非易失性介质包括光盘、磁盘或诸如存储装置310的固态驱动器。易失性介质包括动态存储器，例如主存储器306。例如，存储介质的常见形式包括软盘，软磁盘、硬盘，固态驱动器，磁带或任何其它磁性数据存储介质，CD-ROM，任何其他光学数据存储介质，具有孔图案的任何物理介质，RAM，PROM和EPROM，FLASH-EPROM，NVRAM，任何其它存储器芯片或储器盒。

存储介质与传输介质不同，但可以与传输介质结合使用。传输介质参与在存储介质之间的信息传输。例如，传输介质包括同轴电缆，铜线和光纤，包括由总线302构成的电缆。传输介质还可以采用声波或光波的形式，例如在无线电波和红外数据通信期间产生的那些。

各种形式的介质可以涉及将一个或多个指令的一个或多个序列携带到处理器304用于执行。例如，指令最初可以承载在远程计算机的磁盘或固态驱动器上。远程计算机可以将指令加载到其动态存储器中，并使用调制解调器通过电话线发送指令。计算机***300本地的调制解调器可以在电话线上接收数据，并使用红外发射器将数据转换成红外信号。红外检测器可以接收红外信号中携带的数据，并且适当的电路可以将数据放置在总线302上。总线302将数据传送到主存储器306，处理器304从主存储器306得到该指令并执行该指令。由主存储器306接收的指令可以可选地在由处理器304执行之前或之后存储在存储装置310上。

计算机***300还包括耦合到总线302的通信接口318。通信接口318提供耦合到网络链路320的双向数据通信，该网络链路320连接到本地网络322。例如，通信接口318可以是综合业务数字网(ISDN)卡，电缆调制解调器，卫星调制解调器，或者向相应类型的电话线提供数据通信连接的调制解调器。作为另一示例，通信接口318可以是局域网(LAN)卡，以向兼容的LAN提供数据通信连接。还可以实现无线链接。在任何这样的实施方式中，通信接口318发送和接收携带表示各种类型的信息的数字数据流的电、电磁或光信号。

网络链路320通常通过一个或多个网络向其他数据装置提供数据通信。例如，网络链路320可以通过本地网络322向主机计算机324或由互联网服务提供商(ISP)326操作的数据装置提供连接。ISP 326又通过全球分组数据通信网络(现在通常称为“互联网”)328提供数据通信服务。本地网络322和互联网328都使用携带数字数据流的电、电磁或光信号。通过各种网络的信号和网络链路320上的信号以及通过通信接口318的信号是传输介质的示例形式，该信号携带去往计算机***300的数字数据和来自计算机***300的数字数据。

计算机***300可以通过网络、网络链路320和通信接口318发送消息和接收数据，包括程序代码。在互联网示例中，服务器330可以通过互联网328、ISP 326、本地网络322和通信接口318发送用于应用程序的所请求的代码。

所接收的代码可以在其被接收时由处理器304执行，和/或存储在存储装置310中或其他非易失性存储器中以供稍后执行。

在前述说明书中，已经参考可以多个具体细节描述了本发明的实施例，此具体细节可在实施方式之间变化。因此，说明书和附图被认为是说明性的而不是限制性的。关于本发明的范围以及申请人意欲本发明是什么的唯一且独有的指示是本申请所发布的权利要求组的字面和等价范围，此类权利要求以特定形式发布，包括任何后续更正。

Claims

1.一种方法，其包括：

在数据存储装置中存储多个文档；

访问所述数据存储装置以识别所述多个文档中的第一多个话题，每个话题包括一个或多个词条，所述一个或多个词条包括或不包括关键词条；

对于所述第一多个话题中的每两个话题，确定所述两个话题是否是相同的，所述确定包括：

如果所述两个话题具有相同的关键词条，则确定所述两个话题是相同的；和/或

如果所述两个话题的共同词条的数量超过阈值，则确定所述两个话题是相同的；

基于所述确定，识别所述多个话题对的子集；

基于所述多个话题对的所述子集，从所述第一多个话题中移除多个话题，以识别第二多个话题，所述第二多个话题包括的话题比所述第一多个话题少；

针对所述第二多个话题中的每个话题：

确定所述每个话题的一个或多个频次，其中，确定所述一个或多个频次包括：针对一个或多个时间段的每个时间段，在所述每个时间段期间确定所述每个话题的频次；

确定在所述一个或多个时间段之后的特定时间段中的所述每个话题的特定频次；

基于所述一个或多个频次和所述特定频次，生成所述每个话题的热门分数；

基于所述第二多个话题中的每个话题的热门分数，生成所述第二多个话题的排名；以及

基于所述第二多个话题的所述排名，使得所述第二多个话题被布置在计算装置的屏幕上，

其中，所述方法由一个或多个计算装置执行。

2.根据权利要求1所述的方法，其还包括：

存储多个文档语料库，其中，所述多个文档语料库中的每个文档语料库与多个时间段的不同时间段相关联，所述多个时间段包括所述一个或多个时间段和所述特定时间段；

针对所述多个文档语料库中的第一文档语料库：

分析所述第一文档语料库以识别第一话题集合，以及

针对所述第一话题集合中的每个话题，确定所述每个话题在所述第一文档语料库中的实例数量；以及

针对所述多个文档语料库中的第二文档语料库：

分析所述第二文档语料库以识别第二话题集合，以及

针对所述第二话题集合中的每个话题，确定所述每个话题在所述第二文档语料库中的实例数量。

3.根据权利要求1所述的方法，其中：

所述一个或多个时间段是多个时间段；

所述一个或多个频次是多个频次；

所述多个频次中的每个频次对应于所述多个时间段中的不同时间段；

生成所述热门分数包括基于所述多个频次和所述特定频次生成所述热门分数。

4.根据权利要求3所述的方法，其中：

生成所述热门分数包括计算所述特定频次与所述多个频次的聚合之间的差值。

5.根据权利要求4所述的方法，其中：

生成所述热门分数包括计算所述差值和所述聚合的比。

6.根据权利要求1所述的方法，其中，生成所述热门分数包括：

基于所述一个或多个频次，选择平滑系数；

基于所述平滑系数，生成所述热门分数。

7.根据权利要求6所述的方法，其中，生成所述热门分数包括：

针对所述多个话题中的第一话题：

确定所述第一话题的一个或多个第一频次，

确定所述第一话题的第一当前频次，

基于所述一个或多个第一频次，选择第一平滑系数，

基于所述第一平滑系数以及所述第一当前频次与第一过去频次之间的差值，生成第一热门分数；以及

针对所述多个话题中与所述第一话题不同的第二话题：

确定所述第二话题的一个或多个第二频次，

确定所述第二话题的第二当前频次，

基于所述一个或多个第二频次，选择不同于所述第一平滑系数的第二平滑系数，

基于所述第二平滑系数以及所述第二当前频次与第二过去频次之间的差值，生成第二热门分数。

8.根据权利要求6所述的方法，其还包括：

基于用户输入，确定选择所述多个话题中的哪些话题；

基于所述用户输入，调整生成所述平滑系数的平滑函数。

9.根据权利要求1所述的方法，还包括：确定所述第一多个话题中的多个话题对中的每个话题对的同现，其中，确定所述第一多个话题中的话题对的同现包括将所述确定限制到同一句子中，其中，只有当两个话题出现在同一句子中时，话题对才会同现。

10.根据权利要求1所述的方法，其中，所述多个文档中的文档是博客帖子、对在线帖子的评论或者tweet。

11.一种***，其包括：

一个或多个处理器；

一个或多个存储指令的存储介质，所述指令在由所述一个或多个指令执行时使得：

执行如权利要求1-10中任一项所述的方法。