CN112334890A

CN112334890A - 主题集细化

Info

Publication number: CN112334890A
Application number: CN201980041803.2A
Authority: CN
Inventors: C·迈塔尼; M·舍利瓦斯塔瓦; P·舒克拉; J·巴克伦德; D·维格努德里; I·C·杜那拉维奇; 张宏安
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-06-22
Filing date: 2019-06-14
Publication date: 2021-02-05
Also published as: US20190392078A1; WO2019245886A1; EP3811236A1; US11157539B2

Abstract

一种包括一个或多个处理器的计算***生成针对领域的主题集。由一个或多个处理器执行分类评估器以基于相关性条件对照领域特定分类树评估从领域特定文本数据生成的一组类别簇，并且标识满足相关性条件的类别簇。领域特定分类树是从与领域相关的文档的层次结构生成的。每个所标识的类别簇利用标签被标记。由一个或多个处理器执行主题集创建器以将所标识的一组类别簇的标签***到针对领域的主题集中。

Description

主题集细化

背景技术

计算***已经被成功编程以理解人类语言的语法。然而，向计算机***提供对人类语言的基本含义的理解和欣赏是另一不同且更具挑战性的目标。例如，计算机***可能在数据集中检测到术语“Tacoma”，但是可能无法区分华盛顿州的城市“Tacoma”和皮卡车模型“Tacoma”。在人类监督技术中，人类领域专家可以提供基本含义，但是无监督计算***无法访问这样的人类提供的含义。这样，无监督计算***在对人类语言的理解上往往不如有监督计算***准确，但是与无监督技术相比，人类监督是昂贵的并且可扩展性较差。但是，计算***无法以接近人类的准确性来识别人类语言的含义会降低数据搜索、web搜索、产品推荐、拼写检查、语音到文本和文本到语音转换、人类语言计算机交互、数据分类和其他计算机化服务的价值。

发明内容

所描述的技术提供了一种包括一个或多个处理器的计算***生成针对领域的主题集。由一个或多个处理器执行分类评估器以基于相关性条件(coherency condition)对照领域特定分类树评估从领域特定文本数据生成的一组类别簇(category cluster)，并且标识满足相关性条件的类别簇。领域特定分类树是从与领域相关的文档的层次结构生成的。每个所标识的类别簇利用标签被标记。由一个或多个处理器执行主题集创建器以将所标识的一组类别簇的标签***到针对领域的主题集中。

提供本“发明内容”以便以简化的形式介绍一些概念，这些概念将在下面的“具体实施方式”中进一步描述。本“发明内容”既不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。

本文中还描述和叙述了其他实现。

附图说明

图1示出了示例主题提取计算***。

图2示出了用于从非结构化文本提取领域的类别的示例类别提取器。

图3示出了用于从结构化web文档提取针对领域的分类树的示例分类树提取器。

图4示出了用于增强从分层web文档结构提取针对领域的统一分类树的准确性的示例类别合并。

图5示出了用于增强与领域相关的主题的准确性的示例主题细化。

图6示出了用于生成针对领域的分类树的示例操作。

图7示出了可以用于实现所描述的技术以生成针对领域的分类树的示例计算设备。

具体实施方式

计算***可以通过构造分类树(类别的结构化集合)(短语被准确分类到为上述分类树中)以自动化或半自动化方式针对领域(例如，行业、研究领域)确定这些短语(例如，主题)的准确含义。从其构造分类树和主题的领域数据本质上可以是结构化的，诸如在web文档的层次结构中(例如，“products.office.com/en-us/business/small-business-solutions”)，或者是非结构化的，诸如在从web搜索中捕获的一组文本项(例如，查询、网页标题、网页的文本上下文、或来自选定搜索结果的文本)中。在所描述的技术中，结构化领域和非结构化领域都可以被组合使用，以获取和细化(refine)领域特定主题，这即使对于大型高度异构文档集(诸如万维网)也是很准确的。

通过生成统一分类树，计算***可以从多个网站或其他文档存储库捕获人类创建的标签和关系。这些人类创建的标签和关系在主题生成过程中替代人类监督，从而使主题提取计算***可以提取术语和文档的大型语料库的主题信息并且省略人类交互。省略人类监督也可以消除可能由单个人类监督者引起的偏见。因此，在所描述的技术中，对在文档汇集中的层次结构中发现的人类创建的标签和关系以及从查询URL单击图中提取的类别的客观评估可以生成非常准确的(例如，接近人类的准确或更好)的主题，而无需人类监督。准确的统一分类树是这样的无监督主题提取的组成部分。

图1示出了示例主题提取计算***100。主题提取计算***100的输出可以包括以无监督方式从大量文档汇集生成的领域特定主题的列表。针对这样的主题提取，诸如特定行业、研究领域、产品市场等领域被标识，并且结果主题在该领域的上下文中被生成。例如，在领域“汽车市场”中，术语“野马”与领域“马”中的含义不同。因此，标识领域并且将领域的上下文应用于主题提取过程可以消除术语的歧义并且提供优于其他无监督方法的改进结果。

一组领域特定的网站种子102被输入到主题提取计算***100中，作为标识特定领域的一个因素。例如，对于领域“汽车市场”，可以提供针对主要汽车供货商的顶级领域作为种子102。示例包括“www.ford.com”、“www.chevrolet.com”和“www.audi.com”可以被提供作为种子102以限定领域的范围和细节。如关于图2和3更详细描述的，种子102可以用于通过被称为领域网站挖掘的过程来标识领域中的其他网站。主题提取过程中使用的网站越多，潜在领域特定主题的数目越多，并且在该过程中实现的准确性越好。

查询URL点击图104被输入到主题提取计算***100。查询URL点击图104包括节点和边的图，其中边表示两个节点之间的关系。在查询URL点击图104中，边指示在用户的网络浏览活动期间文档(例如，由“URL”指定)针对查询被选择(例如，“点击”)。当用户在浏览会话中键入或以其他方式调用查询并且然后选择搜索结果时，将创建查询URL关联。通过日志记录大量点击事件，搜索引擎可以将大量查询URL对累积到查询URL点击图中，其中每个查询与一个或多个URL邻近，并且每个URL与一个或多个查询邻近。因此，查询URL点击图提供将查询关联到文档(例如，由URL标识)的聚合用户活动的描述。在一些实现中，查询URL点击图还可以包括与每个查询相关联的附加元数据，诸如从其执行查询和/或URL点击的地理位置、通过其执行查询和/或URL点击的计算设备等。通常，从查询URL点击图104中提取的文本被认为是“非结构化的”。

web文档索引106也被输入到主题提取计算***100。web文档索引106存储整个万维网上的网站上的网页的层次结构，包括网页内容。层次结构中的示例层次路径包括但不限于“www.microsoft.com/en-us”、“www.microsoft.com/en-us/p/surface-laptop/90fc23dv6snz？activetab＝pivot％3aoverviewtab”和“https://www.microsoft.com/zh-cn/p/surface-book-2/8mcpzjjcc98c？activetab＝pivot％3aoverviewtab”。通常，层次结构及其每个层次级别的关联的标签由web管理员或开发人员指定并且遵循web标准(诸如schema.org)。作为web文档索引创建过程的一部分，通常可以通过编程机制(诸如HTML解析和模式匹配)来提取层次结构及其标签。在“计算设备”领域内可能相关的示例短语可以包括但不限于“surface-膝上型计算机”和“surface-笔记本-2”。应当理解，可以采用其他文档索引，诸如针对私有文档存储库的索引(例如，基于云的文件***、针对企业内部网的索引)。通常，借助于被传送给主题提取计算***100的层次结构，从web文档索引106提取的文本被认为是“结构化的”。

基于来自领域网站种子102、查询URL点击图104和web文档索引106的输入，主题提取计算***100针对非结构化文本使用类别提取器108并且针对结构化文本使用分类树提取器110提取类别。类别提取器108与输入和分类树提取器110一起使用，以针对所标识的领域生成类别簇122并且经由主题细化器116将这些类别簇进一步细化为领域特定主题集114。相反，分类树提取器110与输入和类别提取器108一起使用，以针对所标识的领域生成分类树124，该分类树124表示从web文档索引106提取的类别的统一层次结构。关于图2提供类别提取器108的更多细节，并且关于图3提供分类树提取器110的更多细节。

作为主题提取计算***100的操作的示例，假定“汽车工业”领域，并且假定种子102包括“www.ford.com”、“www.chevrolet.com”和“www.audi.com”。在一种实现中，主题提取计算***100将基于种子102“挖掘”附加领域特定网站，以提供更大的一组领域特定网站用于提取。类别提取器108从查询URL点击图104(并且可能从web文档索引106)提取被确定为与所标识的领域相关的非结构化文本(例如，缺乏层次结构)(例如，由领域网站种子和其他“所挖掘的”网站所表述的)。类别提取器108从该非结构化文本收集包括一个或多个术语的短语。具有相似含义的短语被聚类在一起成为单个类别簇(例如，类别簇122之一)，以使得每个类别簇的含义通常由多个短语表示。类别提取器108向每个类别簇分配代表性标签。每个类别簇表示“候选”主题，该主题由主题细化器116评估。

分类树提取器110从web文档索引106提取被确定与所标识的领域相关的层次结构(例如，由领域网站种子和其他“所挖掘的”网站所表述的)，并且生成分类树124，分类树124统一针对所标识的领域的层次结构和类别标签(例如，在树的每个节点处)。这样，分类树提取器110对结构化数据进行操作，其中文档的层次结构及其在每个层次级别上的关联标签由web管理员或开发人员指定并且提供对人类归结的含义和/或相关标签之间的关系的见解。

主题细化器116包括由一个或多个处理器执行的分类评估器，该分类评估器对照分类树124来评估类别簇122以确定所生成的类别簇122是否满足相关性条件。例如，被主题细化器确定为在分类树124中处于相同层次级别的十个类别的簇在一种实现中可以被视为满足相关性条件，并且因此被输出作为领域特定主题集114。替代地或另外地，被主题细化器确定为在分类树124的同一直接世系中的十个类别的簇可以被视为满足相关性条件，并且因此被输出作为领域特定主题集114。这样，主题细化器116还包括由一个或多个处理器执行的主题集创建器，该主题集创建器将一组类别簇***领域的领域特定主题集114中。相反，如果十个类别的簇被确定为不在分类树124的同一层次级别或同一直接世系中，则确定十个类别的簇不满足相关性条件，并且因此，主题细化器116发信号通知类别提取器108提供不同的一组类别用于评估。在一些实现中，不能满足相关性条件也可以邀请一定程度的人类干预来选择新的经细化的一组类别簇122，尽管在大多数实现中该选择可能是无监督的。

图2示出了用于从非结构化文本提取针对领域的类别的示例类别提取器208。在一种实现中，主题提取计算***的领域网站挖掘器200分析领域特定的网站种子、查询URL点击图和web文档索引，以标识从其提取领域特定信息的附加网站。在其他实现中，提供足够多的领域特定网站作为种子，因此不需要额外的挖掘步骤。

在一种实现中，领域网站挖掘器200接收领域特定网站种子，分析与这些网站种子相关联的层次结构、内容以及相关查询URL点击图数据，以标识具有相似领域主题的其他网站。例如，来自针对领域的种子网站和针对领域的其他候选网站的短语可以作为向量被嵌入多维向量空间中。然后，具有满足与种子网站的领域关系条件的短语的网站被视为领域特定网站202的成员。领域关系条件的一个示例是确定来自另一网站的阈值数目的短语是否被聚类在与种子网站的短语簇相同的短语簇中。其他分组和/或相似性确定可以用于确定领域关系条件是否被满足，诸如余弦相似性。

主题提取计算***的领域特定文本提取器204还接收层次结构、内容和相关查询URL点击图数据、以及领域特定网站202，以从输入提取领域特定文本。可以使用类似的领域关系条件来确定来自这些输入的查询、搜索结果、文本、内容等是否是领域元素的一部分。来自领域特定文本提取器204的文本与主题提取计算***的领域特定嵌入器209中的通用嵌入文本206组合，该领域特定嵌入器209将领域特定文本映射为多维向量空间中的向量。

领域特定文本也被传递到主题提取计算***的类别提取器208的短语提取器210中。短语提取器210从领域特定文本中提取具有一个或多个术语的短语(所提取的短语212)以提供针对短语的顺序和语法上下文。“汽车供货商”领域中的示例短语可以包括但不限于“Toyota Tacoma”、“Tacoma Toyota”和“F-150”。在每个示例中，术语及其在短语中的位置提供针对短语的含义的上下文，当检查个体术语本身时，短语的含义可能不太明显。例如，术语“Tacoma”根据其在术语“Toyota”之前还是之后而具有不同的含义。另外，短语“F-150”的含义超出了其组成部分“F”和“150”，尤其是在与短语“F-250”相比时。

短语嵌入器214然后将所提取的短语212作为向量嵌入在由领域特定嵌入器209提供的领域特定嵌入的领域特定多维向量空间中。领域特定嵌入为所提取的短语212提供附加上下文。例如，“汽车供货商”领域中的术语“Tacoma”更可能具有卡车型号的含义，而不是Washington的城市的含义。因此，领域特定嵌入将所提取的短语映射到领域特定多维向量空间中，以保留该领域特定含义。

短语聚类器216将查询向量分配为相对相似性的群组(“簇”)，以产生短语簇218，作为领域特定多维向量空间中的相似向量的群组。簇包括关于彼此满足相似性条件的向量(例如，在多维向量空间中彼此相距预定距离内)。短语聚类器216可以***作以生成预定数目(“K”)个簇。K是聚类参数，其可以根据类别提取的准确度进行调节以生成更多或更少数目的簇(其中K是所生成的簇的数目)，如下所述。

簇标记器220在每个类别簇中从一组短语簇218选择代表性标签。例如，在包括短语“服装”、“套装”、“男性”和“女性”的类别簇中，可以选择“服装”标签。在一种实现中，主题细化器224对照相关性条件评估所标记的类别簇222，其针对相关领域利用分类树评估类别簇222。如果所标记的类别簇满足相关性条件，则类别簇被视为用于由主题提取计算***输出的令人满意的主题。如果类别簇不满足相关性条件，则类别簇被视为不能令人满意地输出作为主题提取计算***的主题。主题细化器224对照相关性条件评估每个所标记的类别簇，并且输出满足相关性条件的任何类别簇的标签。这样的评估可以继续，直到生成期望数目的领域特定主题。

在一种实现中，主题细化器224迭代通过不同组的所标记的类别簇222。例如，如果主题细化器224处理所标记的类别簇222中的所有并且没有生成足够的领域特定主题(例如，基于预定数目的期望主题)，则主题细化器224可以向短语簇216请求一组新的短语簇218，该组新的短语簇218被标记以产生一组新的(不同的)所标记的类别簇222。在一种实现中，短语聚类器216可以使用不同的聚类参数(例如，K)或聚类技术(如虚线箭头226所示)来生成一组新的短语簇218。在其他实现中，可以至少部分通过合并人类监督输入，调节领域特定嵌入或该组领域特定网站202或者通过某种其他技术来生成一组新的(不同的)所标记的类别簇222。

然后对照相关性条件评估该组新的所标记的类别簇222。主题细化过程可以迭代，直到获取可接受数目的细化主题。

图3示出了用于从结构化文档提取针对领域的分类树的示例分类树提取器310。在一种实现中，主题提取计算***的领域网站挖掘器300分析领域特定网站种子、查询URL点击图和web文档索引，以标识从其提取领域特定信息的其他网站。在其他实现中，提供足够多的领域特定网站作为种子，因此不需要额外的挖掘步骤。在各种实现中，领域网站挖掘器300可以是来自图2的相同的领域网站挖掘器200，或者是单独且不同的领域网站挖掘器。同样地，领域特定网站302可以是来自图2的相同的领域特定网站202，或者是单独且不同的一组领域特定网站。

主题提取计算***的领域特定文本提取器304还接收层次结构、内容和相关查询URL点击图数据、以及领域特定网站302，以从输入提取领域特定文本。可以使用类似的领域关系条件来确定来自这些输入的查询、搜索结果、文本、内容等是否是领域元素的一部分。领域特定文本提取器304可以是来自图2的相同的领域特定文本提取器204，或者是单独且不同的领域特定文本提取器。来自领域特定文本提取器304的文本经由迁移学习与主题提取计算***的领域特定嵌入器309中的通用嵌入文本306组合，该领域特定嵌入器309将领域特定文本映射为多维向量空间中的向量。在各种实现中，通用嵌入文本306和领域特定嵌入器309可以是来自图2的相同的通用嵌入文本206和领域特定嵌入器209，或者是单独且不同的通用嵌入文本和单独且不同的领域特定嵌入器。

分类树提取器310的层级提取器314分析领域特定网站302的层级和语义数据，并且提取每个节点的标签(例如，标记或类别)以及针对层级中的节点的关联的祖先后代关系。针对每个的所得到的网站结构数据和类别316被输入到类别嵌入器326，类别嵌入器326基于由领域特定嵌入器309提供的嵌入而将领域特定文本映射为领域特定多维向量空间中的多维类别向量。例如，目录(catalog)嵌入的一种实现中的因子是针对每个节点的类别和针对每个节点的祖先后代关系。在各种实现中，各种其他类别和语义信息组合可以被包括在目录嵌入中。

考虑到人类可以以其构造网站的层级的合理的方式，每个网站的层次结构传达人类对每个网页中体现的意义的某个级别的理解。因此，有关零售服装的第一网站可以将男式衣服和女式衣服作为网站层级的同胞节点分组在“衣服”节点下，而另一网站可以将男式衣服和女式衣服沿着网站层级的不同分支进行划分，其中“男人”和“女人”是同胞节点，并且“衣服”、“鞋类”和“配件”是每个性别节点下的性别特定的同胞。通过分析大量网站层级，分类树提取器310可以合并具有相似含义的节点，并且然后创建新的统一分类树，该树具有表示含义的继承关系的相关的树世系和共享含义的相似性的同胞组。

因此，类别合并器328接收针对每个层次结构的嵌入式类别，并且将来自不同层次结构的不同级别的类别向量聚类。簇包括关于彼此满足相似性条件的向量(例如，在多维向量空间中彼此相距预定距离内)。以这种方式，类别合并器328生成共享共同含义的类别向量的簇，而与它们与其层次结构中的其他节点的层次关系无关。

分类生成器320从类别合并器328接收经合并的类别向量和层次结构数据。祖先后代分析器330分析与每个节点相关联的层次结构，以确定针对每个节点的祖先后代关系(例如，去往/来自节点的父代、子代或多个子代、祖父代、孙子代或多个孙子代)。示例分析可以提供与网站的层次结构中存在的祖先后代关系有关的分支统计信息。例如，使用从领域特定网站302的层次结构获取的分支统计信息，祖先后代分析器330可以确定网站层级中针对给定经合并的类别簇的最频繁应用的祖先后代关系。每个经合并的类别簇构成针对新分类树318的新“候选”节点。在评估祖先后代关系时还可以采用其他考虑因素(即，除了“最频繁应用的”以外)，包括但不限于导致较深或较浅的树、具有最多或最少节点的树、或具有更多或最少分支的树的因素。基于祖先后代分析器330的确定，分支创建器332针对每个新候选节点创建分支。

分支去重复器334分析每个分支，以在每个层次级别处标识来自同一节点的重复分支。当该节点的子节点被删除时，在分类树生成期间可能会出现来自同一节点的重复分支。例如，如果层次结构包括来自标记为“女人”的节点的“女人→配件→珠宝”路径和“女人→珠宝”路径，则对该层次结构的统计数据可以示出“女人→配件→珠宝”路径比“女人→珠宝”路径少见。因此，分支创建器332可以将来自“配件”节点的所有分支连接到“女人”节点，然后删除“配件”节点。这种优化导致来自“女人”节点有两个“女人→珠宝”分支。分支去重复器334检测这些重复分支，并且将重复分支合并成单个“女人→珠宝”分支。

祖先后代分析器330、分支创建器332和分支去重复器334产生一组新的节点和分支，并且针对每个分支具有相关联的类别。树创建器336将所得到的节点和分支组合到新的统一分类树318中。

图4示出了用于增强从分层web文档结构404至406中提取针对领域的统一分类树402的准确性的示例类别合并400。分层web文档结构404(供货商A)和分层web文档结构406(供货商Z)是该示例中包括的很多个体网站结构中的仅两个。分层web文档结构404包括标记有节点类别“服装”、“女人”、“男人”、“鞋类”和“运动服”的节点，所有这些节点与分层web文档结构406中的节点类别(分别是“衣服”、“女性”、“男性”、“鞋子”和“运动”)具有相似的含义。如前所述，这些含义上的相似性通过对类别向量进行聚类来标识。

聚类被应用于每个层次结构的不同级别处的节点的类别向量。例如，在分层web文档结构404中标记为“男人”的节点与在分层web文档结构406中标记为“鞋子”的节点处于相同的层次级别。相反，针对分层web文档结构404的标记为“男人”的节点的类别向量与针对分层web文档结构406的标记为“男性”的节点的类别向量相比处于不同级别，但是类别合并器将这些节点聚类在一起成为统一分类树402的同一类别节点。对于多个分层web文档结构，在多个类别节点上执行这种合并，其中一些类别节点被合并，而其他类别节点由于缺乏足够的相似性而被删除或忽略(例如，分层web文档结构404中的“珠宝”和分层web文档结构406中的“商务”)。然后，分类生成操作创建统一层次结构，经合并的类别节点被安装到该层次结构中以填写统一分类树402。

分类生成操作还为统一分类树402的每个节点选择类别作为标签。在一种实现中，类别标签是从针对领域特定网站的一组层次结构中的对应节点的最频繁应用的类别标签选择的。例如，在与分层web文档结构404中的“服装”和分层web文档结构406中的“衣服”(以及404和406之间的所有其他分层web文档结构)相对应的类别向量的第一簇中，从所有分层web文档结构选择该簇中最常用的标签作为统一分类树402中针对该节点的对应类别标签(该示例中为“服装”)。在其他实现中，可以应用其他统计和非统计考虑因素，包括但不限于查询URL点击图中的某些适用术语的使用频率和术语频率倒置文档频率(TF-IDF)。

图5示出了在示例相关性条件中应用的分类树500中的节点关系。在所示出的实现中，示例相关性条件的三个示例组件由虚线箭头示出：示例同胞关系504、示例祖先后代关系502和另一示例祖先后代关系506。但是，应当理解，分类树500中示出了其他同胞关系和祖先后代关系。

主题细化器对照相关性条件评估每个所标记的目录簇。如果所标记的类别簇满足相关性条件，则将标签作为细化主题输出到细化主题集中。通过标识分类树500的所标记的类别簇的成员和节点类别的语义匹配来满足参考图5描述的示例相关性条件。语义匹配包括个体短语的文本匹配和使用相似性评估(诸如余弦相似性)的个体短语向量的相似性匹配。在图5的分类树500下方在表508中示出了四个示例评估。

在图5所示的示例评估中，当发现所有类别簇成员与包括具有同胞关系的节点和具有祖先后代关系的节点的相关性集合中的所标记的节点具有语义匹配时，相关性条件满足。当标识所标记的目录簇成员与分类树500之间的语义匹配时，主题细化器可能会发现某些成员与分类树500的任何节点类别或节点标签在语义上不匹配，其中相关性条件不被满足。

第一示例示出了具有成员“服装”、“套装”、“男性”和“女性”的所标记的目录簇以及标签“服装”，该标签是从成员选择的或经由其他机制生成的。在与分类树500相比时，所标记的目录簇成员“服装”、“套装”和“女性”的语义匹配节点处于相同的祖先后代线性关系，而所标记的目录簇成员“女性”和“男性”处于同一同胞关系中(在节点类别“服装”下)。因此，第一示例的所标记的目录簇被认为是“相关的”(其成员处于相同的相关性集合中，并且因此满足相关性条件)。因此，借助于该所标记的目录簇，目录簇的标签“服装”作为细化主题被***细化主题集。

第二示例示出了具有成员“珠宝”、“鞋类”、“男装”和“女性”的所标记的目录簇以及标签“珠宝”，该标签是从成员选择的或经由其他机制生成的。在与分类树500相比时，所标记的目录簇成员“男装”被标识为与分类树500中的节点类别“男性”具有语义匹配。但是，成员的语义匹配节点没有形成相关性集合——尽管“男性”和“女性”处于同胞关系，“珠宝”和“鞋类”不处于祖先后代关系，因此第二示例的所标记的目录簇被视为“非相关”(其成员不在同一相关性集合中并且因此不满足相关性条件)。因此，借助于该标记的目录簇，目录簇的标签“珠宝”不会作为细化主题被***细化主题集。

第三示例示出了具有成员“服装”、“鞋类”和“女装”的所标记的目录簇以及标签“服装”，该标签是从成员选择的或经由其他机制生成的。在与分类树500相比时，所标记的目录簇成员“女装”被标识为与分类树500中的节点类别“女性”具有语义匹配。此外，所标记的目录簇成员“服装”、“鞋类”和“女性”的语义匹配节点具有相同的祖先后代线性关系。因此，第三示例的所标记的目录簇被视为“相关”(其成员处于相同的相关性集合中并且因此满足相关性条件)。因此，目录簇的标签“服装”作为细化主题被***细化主题集。由于该标签在第一示例中已经***细化主题集中，因此无需重新***，或者细化主题在完成时可以去重复。

第四示例示出了具有成员“套装”、“男性”和“男装”的所标记的目录簇以及标签“男性”，该标签是从成员选择的或经由其他机制生成的。在与分类树500相比时，所标记的目录簇成员“男装”被标识为与分类树500中的节点类别“男性”具有语义匹配。但是，成员的语义匹配节点没有形成相关性集合——尽管“男性”和“男装”与同一节点匹配并且因此被视为在节点类别“服装”下处于同胞关系，“套装”与“男性”或“男装”不处于祖先后代关系，因此第四示例的所标记的目录簇被视为“非相关”(其成员不在同一相关性集合中并且因此不满足相关性条件)。因此，借助于该所标记的目录簇，目录簇的标签“男性”不会作为细化主题被***细化主题集中。

图6示出了用于针对领域生成分类树的示例操作600。生成操作602从领域特定文本短语(例如，文本数据)生成一组类别簇。标记操作604利用标签标记每个类别簇。评估操作606基于相关性条件对照领域特定分类树评估每个所标记的类别簇。在一种实现中，通过将领域特定文本短语作为短语向量嵌入多维向量空间中来生成一组类别簇，该多维向量空间基于相似性条件将短语向量聚类为短语簇。可以采用其他类别簇生成技术。

在一种实现中，领域特定分类树包括多个唯一相关集合。领域特定分类树的每个唯一相关集合包括作为领域特定分类树中的同胞的节点类别和共享领域特定分类树的祖先后代关系的节点类别。在一种实现中，评估包括标识每个所标记的类别簇的成员与分类树的节点类别之间的语义匹配。语义匹配包括个体短语的文本匹配和使用相似性评估(诸如余弦相似性)的个体短语向量的相似性匹配。标识操作607标识满足相关性条件的所标记的类别簇。

如果所标记的类别簇被标识为满足相关性条件，则决策操作608将处理路由到***操作610，该***操作610将所标识的类别簇的标签***主题集中，并且将处理路由到决策操作612。如果否，则决策操作608将处理路由到决策操作612，该决策操作612确定是否已经生成足够的主题。如果是，则决策操作612将处理路由到终止操作614，该终止操作614终止主题集细化过程。否则，处理循环回到生成操作602，生成操作602生成一组新的(不同的)类别簇。

图7示出了可以用于实现所描述的技术以针对领域生成分类树的示例计算设备700。示例计算设备700可以用于检测对象关于天线的接近度，诸如应用间上下文播种。计算设备700可以是个人或企业计算设备，诸如膝上型计算机、移动设备、台式机、平板电脑、或服务器/云计算设备。计算设备700包括一个或多个处理器702、和存储器704。存储器704通常包括易失性存储器(例如，RAM)和非易失性存储器(例如，闪存)。操作***710和一个或多个应用740可以驻留在存储器704中，并且由(多个)处理器702执行。

一个或多个模块或段(诸如领域特定文本提取器、短语提取器、短语嵌入器、短语聚类器、簇标记器、领域网站挖掘器、领域特定嵌入器、层级提取器、类别嵌入器、类别合并器、分类生成器、祖先后代分析器、分支创建器、分支去重复器、树创建器和其他组件)被加载到存储器704和/或存储装置720上的操作***710中并且由(多个)处理器702执行。诸如领域特定网站、所提取的短语、短语簇、类别簇、网站结构数据和类别、统一分类树、以及其他数据和对象等数据可以存储在存储器704或存储装置720中并且可以由(多个)处理器702可检索。存储装置720可以在计算设备700本地，也可以在计算设备700远程并且通信地连接到计算设备700。

计算设备700包括电源716，电源716由一个或多个电池或其他电源供电并且向计算设备700的其他组件提供电力。电源716也可以连接到外部电源，该外部电源超越(override)内置电池或其他电源或者为其充电。

计算设备700可以包括一个或多个通信收发器730，通信收发器730可以连接到一个或多个天线732以向一个或多个服务器和/或客户端设备(例如，移动设备、台式计算机或膝上型计算机)提供网络连接(例如，移动电话网络、

)。计算设备700还可以包括通信接口736，通信接口736是一种通信设备。计算设备700可以使用适配器和任何其他类型的通信设备通过广域网(WAN)或局域网(LAN)建立连接。应当理解，所示出的网络连接是示例性的，并且可以使用其他通信设备以及用于在计算设备700与其他设备之间建立通信链路的装置。

计算设备700可以包括一个或多个输入设备734使得用户可以输入命令和信息(例如，键盘或鼠标)。这些和其他输入设备可以通过一个或多个接口738(诸如串行端口接口、并行端口或通用串行总线(USB))耦合到服务器。计算设备700还可以包括显示器722，诸如触摸屏显示器。

计算设备700可以包括各种有形处理器可读存储介质和无形处理器可读通信信号。有形处理器可读存储可以由计算设备700可以访问的任何可用介质来体现，并且包括易失性和非易失性存储介质、可移动和不可移动存储介质。有形处理器可读存储介质不包括无形通信信号，并且包括以用于存储诸如处理器可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动存储介质。有形处理器可读存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、CDROM、数字多功能磁盘(DVD)或其他光盘存储、磁带、磁带、磁盘存储或其他磁性存储设备、或者可以用于存储期望信息并且可以由计算设备700访问的任何其他有形介质。与有形处理器可读存储介质相反，无形处理器可读通信信号可以体现驻留在诸如载波或其他信号传输机制等调制数据信号中的处理器可读指令、数据结构、程序模块或其他数据。术语“调制数据信号”是指一个或多个特性能够以将信息编码在信号中的方式来设置或改变的信号。作为示例而非限制，无形通信信号包括通过诸如有线网络或直接有线连接等有线介质以及诸如声学、RF、红外和其他无线介质等无线介质传播的信号。

一些实现可以包括制品。制品可以包括用于存储逻辑的有形存储介质。存储介质的示例可以包括能够存储电子数据的一种或多种类型的计算机可读存储介质，包括易失性存储器或非易失性存储器、可移除或不可移除存储器、可擦除或不可擦除存储器、可写或可重写存储器等。逻辑的示例可以包括各种软件元素，诸如软件组件、程序、应用、计算机程序、应用程序、***程序、机器程序、操作***软件、中间件、固件、软件模块、例程、子例程、操作段、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、单词、值、符号、或其任何组合。在一种实现中，例如，制品可以存储可执行计算机程序指令，该可执行计算机程序指令在由计算机执行时使计算机执行根据所描述的实施例的方法和/或操作。可执行计算机程序指令可以包括任何合适类型的代码，诸如源代码、编译代码、解释代码、可执行代码、静态代码、动态代码等。可执行计算机程序指令可以根据预定义的计算机语言、方式或语法来实现，以指示计算机执行特定操作段。指令可以使用任何合适的高级、低级、面向对象、可视、编译和/或解释的编程语言来实现。

一种生成针对领域的主题集的示例方法包括：从领域特定文本数据生成一组类别簇；用标签标记每个类别簇；基于相关性条件对照领域特定分类树评估所标记的类别簇；标识满足相关性条件的所标记的类别簇；以及响应于标识满足相关性条件的所标记的类别簇，将所标识的类别簇中的每个类别簇的标签***到针对领域的主题集中。领域特定分类树是从与领域相关的文档的层次结构生成的。

提供了任何前述方法的另一示例方法，其中评估操作包括：标识该组类别簇中的每个所标记的类别簇的每个簇成员与领域特定分类树的节点类别之间的语义匹配。

提供了任何前述方法的另一示例方法，其中领域特定分类树包括多个唯一相关集合。领域特定分类树的每个唯一相关集合包括：是领域特定分类树中的同胞的节点类别和共享领域特定分类树的祖先后代关系的节点类别。

提供了任何前述方法的另一示例方法，其中其所有簇成员在语义上被匹配到领域特定分类树的相同的唯一相关集合中的节点类别的类别簇满足相关性条件。

提供了任何前述方法的另一示例方法，其中评估操作还包括：将领域特定文本数据作为短语向量嵌入多维向量空间中；以及通过基于相似性条件将短语向量聚类为短语簇来从领域特定文本数据生成一组类别簇，该组类别簇是从短语簇选择的。

任何前述方法的另一示例方法还包括：从领域特定文本数据生成不同的一组类别簇；用标签标记不同的一组类别簇中的每个类别簇；基于相关性条件对照领域特定分类树评估不同的一组类别簇的所标记的类别簇；标识满足相关性条件的不同的一组类别簇的所标记的类别簇；以及响应于标识满足相关性条件的所标记的类别簇，将不同的一组类别簇的所标识的类别簇中的每个类别簇的标签***到针对领域的主题集中。

提供了任何前述方法的另一示例方法，其中一组类别簇和不同的一组类别簇是使用不同的聚类参数值生成的。

提供了任何前述方法的另一示例方法，其中领域特定文本数据中的至少一些是从一组领域特定网站提取的。

提供了任何前述方法的另一示例方法，其中领域特定文本数据中的至少一些是从查询URL点击图提取的。

一种用于生成针对领域的主题集的示例计算***包括：一个或多个处理器；分类评估器，由一个或多个处理器执行，并且分类评估器被配置为基于相关性条件对照领域特定分类树评估从领域特定文本数据生成的一组类别簇，并且标识满足相关性条件的类别簇；以及主题集创建器，由一个或多个处理器执行并且主题集创建器被配置为将所标识的类别簇的每个类别簇的标签***到针对领域的主题集中。领域特定分类树是从与领域相关的文档的层次结构生成的。每个所标识的类别簇用标签进行标记。

提供了任何前述计算***的另一示例计算***，其中领域特定分类树包括多个唯一相关集合。领域特定分类树的每个唯一相关集合包括作为领域特定分类树中的同胞的节点类别和共享领域特定分类树的祖先后代关系的节点类别。分类评估器还被配置为标识集合中的每个标记的类别簇的每个簇成员与领域特定分类树的节点类别之间的语义匹配。

提供了任何前述计算***的另一示例计算***，其中其所有簇成员在语义上被匹配到领域特定分类树的相同的唯一相关集合中的节点类别的类别簇满足相关性条件。

提供了任何前述计算***的另一示例计算***，其中分类评估器还被配置为从领域特定文本数据生成不同的一组类别簇，基于相关性条件对照领域特定分类树评估不同的一组类别簇的所标记的类别簇，并且标识满足相关性条件的不同的一组类别簇的所标记的类别簇。不同的一组类别簇的每个所标识的类别簇利用标签被标记。主题集创建器还被配置为响应于满足相关性条件的所标记的类别簇的标识而将不同的一组类别簇的所标识的类别簇中的每个类别簇的标签***针对领域的主题集中。

提供了任何前述计算***的另一示例计算***，其中一组类别簇和不同的一组类别簇是使用不同的聚类参数值生成的。

一种或多种编码处理器可执行指令的有形制品的有形处理器可读存储介质，处理器可执行指令用于在电子计算***上执行生成针对领域的主题集的过程，该过程包括：从领域特定文本数据生成一组类别簇；用标签标记每个类别簇；基于相关性条件对照领域特定分类树评估所标记的类别簇，领域特定分类树是从与领域相关的文档的层次结构生成的；标识满足相关性条件的所标记的类别簇；以及响应于标识满足相关性条件的所标记的类别簇，将所标识的类别簇中的每个类别簇的标签***到针对领域的主题集中。

任何前述介质的一种或多种其他示例有形处理器可读存储介质提供了一种过程，其中领域特定分类树包括多个唯一相关集合。领域特定分类树的每个唯一相关集合包括：是领域特定分类树中的同胞的节点类别和共享领域特定分类树的祖先后代关系的节点类别。评估操作包括标识一组类别簇中的每个所标记的类别簇的每个簇成员与领域特定分类树的节点类别之间的语义匹配。

任何前述介质的一种或多种其他示例有形处理器可读存储介质提供了一种过程，其中其所有簇成员在语义上被匹配到领域特定分类树的相同的唯一相关集合中的节点类别的类别簇满足相关性条件。

任何前述介质的一种或多种其他示例有形处理器可读存储介质提供了一种过程，其中评估操作还包括：将领域特定文本数据作为短语向量嵌入多维向量空间中；以及通过基于相似性条件将短语向量聚类为短语簇来从领域特定文本数据生成一组类别簇，该组类别簇是从短语簇选择的。

任何前述介质的一种或多种其他示例有形处理器可读存储介质提供了一种过程，其中该过程还包括：从领域特定文本数据生成不同的一组类别簇；用标签标记不同的一组类别簇的每个类别簇；基于相关性条件对照领域特定分类树评估不同的一组类别簇的所标记的类别簇；标识不同的一组类别簇中的满足相关性条件的所标记的类别簇；以及响应于标识满足相关性条件的所标记的类别簇，将不同的一组类别簇的所标识的类别簇中的每个类别簇的标签***针对领域的主题集中。

任何前述介质的一种或多种其他示例有形处理器可读存储介质提供了一种过程，其中一组类别簇和不同的一组类别簇是使用不同的聚类参数值生成的。

一种生成针对领域的主题集的示例***包括：用于从领域特定文本数据生成一组类别簇的装置；用于利用标签标记每个类别簇的装置；用于基于相关性条件对照领域特定分类树评估所标记的类别簇的装置；用于标识满足相关性条件的所标记的类别簇的装置；以及用于响应于标识满足相关性条件的所标记的类别簇而将所标识的类别簇中的每个类别簇的标签***针对领域的主题集中的装置。领域特定分类树是从与领域相关的文档的层次结构生成的。

提供了任何前述***的另一示例***，其中用于评估的装置包括用于标识一组类别簇中的每个所标记的类别簇的每个簇成员与领域特定分类树的节点类别之间的语义匹配的装置。

提供了任何前述***的另一示例***，其中领域特定分类树包括多个唯一相关集合。领域特定分类树的每个唯一相关集合包括：是领域特定分类树中的同胞的节点类别和共享领域特定分类树的祖先后代关系的节点类别。

提供了任何前述***的另一示例***，其中其所有簇成员在语义上被匹配到领域特定分类树的相同的唯一相关集合中的节点类别的类别簇满足相关性条件。

提供了任何前述***的另一示例***，其中用于评估的装置还包括：用于将领域特定文本数据作为短语向量嵌入多维向量空间中的装置；以及用于通过基于相似性条件将短语向量聚类为短语簇来从领域特定文本数据生成一组类别簇的装置，该组类别簇是从短语簇选择的。

任何前述***的另一示例***还包括：用于从领域特定文本数据生成不同的一组类别簇的装置；用于用标签标记不同的一组类别簇中的每个类别簇的装置；用于基于相关性条件对照领域特定分类树评估不同的一组类别簇中的所标记的类别簇的装置；用于标识满足相关性条件的不同的一组类别簇中的所标记的类别簇的装置；以及用于响应于标识满足相关性条件的所标记的类别簇而将不同的一组类别簇的所标识的类别簇中的每个类别簇的标签***针对领域的主题集中的装置。

提供了任何前述***的另一示例***，其中一组类别簇和不同的一组类别簇是使用不同的聚类参数值生成的。

提供了任何前述***的另一示例***，其中领域特定文本数据中的至少一些是从领域特定网站集合提取的。

提供了任何前述***的另一示例***，其中领域特定文本数据中的至少一些是从查询URL点击图提取的。

本文中描述的实现被实现为一个或多个计算机***中的逻辑步骤。逻辑操作可以被实现为(1)在一个或多个计算机***中执行的一系列处理器实现的步骤，以及(2)一个或多个计算机***中的互连的机器或电路模块。实现是选择问题，具体取决于所使用的计算机***的性能要求。因此，组成本文中描述的实现的逻辑操作被不同地称为操作、步骤、对象或模块。此外，应当理解，除非另外明确声明或者权利要求语言固有地需要特定顺序，否则逻辑操作可以任何顺序执行。

Claims

1.一种生成针对领域的主题集的方法，所述方法包括：

从领域特定文本数据生成一组类别簇；

利用标签标记每个类别簇；

基于相关性条件对照领域特定分类树来评估所标记的所述类别簇，所述领域特定分类树是从与所述领域相关的文档的层次结构被生成的；

标识满足所述相关性条件的所标记的所述类别簇；以及

响应于标识满足所述相关性条件的所标记的所述类别簇，将所标识的所述类别簇中的每个类别簇的所述标签***到针对所述领域的所述主题集中。

2.根据权利要求1所述的方法，其中评估操作包括：

标识所述一组类别簇中的每个所标记的类别簇的每个簇成员与所述领域特定分类树的节点类别之间的语义匹配。

3.根据权利要求2所述的方法，其中所述领域特定分类树包括多个唯一相关集合，所述领域特定分类树的每个唯一相关集合包括：是所述领域特定分类树中的同胞的节点类别和共享所述领域特定分类树的祖先后代关系的节点类别。

4.根据权利要求3所述的方法，其中所述相关性条件被如下类别簇满足：该类别簇的所有簇成员在语义上被匹配到所述领域特定分类树的相同的所述唯一相关集合中的节点类别。

5.根据权利要求1所述的方法，其中评估操作还包括：

将所述领域特定文本数据作为短语向量嵌入多维向量空间中；以及

通过基于相似性条件将所述短语向量聚类为短语簇，来从所述领域特定文本数据生成所述一组类别簇，所述一组类别簇是从所述短语簇被选择的。

6.根据权利要求1所述的方法，还包括：

从所述领域特定文本数据生成不同的一组类别簇；

利用标签标记所述不同的一组类别簇中的每个类别簇；

基于所述相关性条件对照所述领域特定分类树来评估所述不同的一组类别簇中的所标记的所述类别簇；

标识所述不同的一组类别簇中的满足所述相关性条件的所标记的所述类别簇；以及

响应于标识满足所述相关性条件的所标记的所述类别簇，将所述不同的一组类别簇中的所标识的所述类别簇中的每个类别簇的所述标签***到针对所述领域的所述主题集中。

7.根据权利要求6所述的方法，其中所述一组类别簇和所述不同的一组类别簇是使用不同的聚类参数值被生成的。

8.根据权利要求1所述的方法，其中所述领域特定文本数据中的至少一些领域特定文本数据是从一组领域特定网站被提取的。

9.根据权利要求1所述的方法，其中所述领域特定文本数据中的至少一些领域特定文本数据是从查询URL点击图被提取的。

10.一种用于生成针对领域的主题集的计算***，所述计算***包括：

一个或多个处理器；

分类评估器，由所述一个或多个处理器执行，并且所述分类评估器被配置为：基于相关性条件对照领域特定分类树来评估从领域特定文本数据被生成的一组类别簇，并且被配置为：标识满足所述相关性条件的所述类别簇，所述领域特定分类树是从与所述领域相关的文档的层次结构被生成的，每个所标识的类别簇是利用标签被标记的；

主题集创建器，由所述一个或多个处理器执行，并且所述主题集创建器被配置为：将所标识的所述类别簇中的每个类别簇的所述标签***到针对所述领域的所述主题集中。

11.根据权利要求10所述的计算***，其中所述领域特定分类树包括多个唯一相关集合，所述领域特定分类树的每个唯一相关集合包括：是所述领域特定分类树中的同胞的节点类别和共享所述领域特定分类树的祖先后代关系的节点类别，并且所述分类评估器还被配置为：标识所述一组类别簇中的每个所标记的类别簇的每个簇成员与所述领域特定分类树的节点类别之间的语义匹配。

12.根据权利要求11所述的计算***，其中所述相关性条件被如下类别簇满足：该类别簇的所有簇成员在语义上被匹配到所述领域特定分类树的相同的所述唯一相关集合中的节点类别。

13.根据权利要求10所述的计算***，其中所述分类评估器还被配置为：从所述领域特定文本数据生成不同的一组类别簇、基于所述相关性条件对照所述领域特定分类树来评估所述不同的一组类别簇中的所标记的所述类别簇、以及标识所述不同的一组类别簇中的满足所述相关性条件的所标记的所述类别簇，所述不同的一组类别簇中的每个所标识的类别簇是利用标签被标记的，并且所述主题集创建器还被配置为：响应于满足所述相关性条件的所标记的所述类别簇的标识而将所述不同的一组类别簇中的所标识的所述类别簇中的每个类别簇的所述标签***到针对所述领域的所述主题集中。

14.根据权利要求13所述的计算***，其中所述一组类别簇和所述不同的一组类别簇是使用不同的聚类参数值被生成的。

15.一种或多种有形制品的有形处理器可读存储介质，所述有形处理器可读存储介质编码处理器可执行指令，所述处理器可执行指令用于在电子计算***上执行生成针对领域的主题集的过程，所述过程包括：

从领域特定文本数据生成一组类别簇；

利用标签标记每个类别簇；

标识满足所述相关性条件的所标记的所述类别簇；以及