CN105138538B

CN105138538B - 一种面向跨领域知识发现的主题挖掘方法

Info

Publication number: CN105138538B
Application number: CN201510398749.0A
Authority: CN
Inventors: 靳晓明; 韩春晖
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2015-07-08
Filing date: 2015-07-08
Publication date: 2018-08-03
Anticipated expiration: 2035-07-08
Also published as: CN105138538A

Abstract

本发明公开了一种面向跨领域知识发现的主题挖掘方法，包括：构建源领域文本集合和目标领域集合；从源领域文本集合抽取潜在类别特征信息和潜在的语义信息；从目标领域集合抽取文本的潜在特征信息和潜在语义信息；将目标领域集合中的文本自动聚合在风格潜在组件中；将目标领域集合的语义信息建模在主题潜在组件中；建模目标领域集合的语义信息的主题潜在组件。本发明具有如下优点：自动挖掘源领域文本特征用于目标领域中文本的识别和分类；准确将源领域的文本特征信息迁移到目标领域的文本聚类之中；自动找出目标领域中与源领域不同文本内容。

Description

一种面向跨领域知识发现的主题挖掘方法

技术领域

本发明属于计算机文本挖掘技术领域，涉及主题模型技术，具体涉及一种面向跨领域知识发现的主题挖掘方法。

背景技术

随着互联网的发展，越来越多的网络平台的出现使文本资源成***式的增长，而庞大的数据量和复杂的分析过程往往使用户获取所需要知识的过程变得很困难。例如，当人们想要在社交网络中寻找当地有价值的新闻事件或者热门话题，人们只能通过关键词的搜索来帮助自己找到想要获得的信息，但是，往往这样的检索方式是效率非常低下的，人们常常会尝试大量的搜索关键词，或者，浏览大量的搜索结果才有可能找到自己想要的信息。为了有效地提升用户获取信息的效率，出现了文本挖掘技术，来帮助人们组织和管理文本信息。目前主要的文本挖掘技术有传统的主题模型技术，有监督的主题模型技术和跨领域的主题模型技术等。

这些技术各自存在优缺点，现总结如下：

1.传统的主题挖掘技术基于概率统计的混合模型，对文本信息进行建模，使得模型能够自动挖掘出文本中潜在的语义信息，使用户能够快速的了解文本中所涉及的内容。通过主题模型，不仅能够获得文本集合中主要涉及的信息，而且能够获得每篇文档中的内容信息。常见的主题模型有概率潜在语义分析(Probabilistic Latent SemanticAnalysis,PLSA)模型[1]和潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型[2]。但该类技术仅考虑文本集合中的文本信息，其他有用的信息，如文本的类别信息等，无法被利用起来。

2.有监督的主题挖掘技术在传统的主题挖掘技术上，将文本的类别信息融合到主题挖掘的过程中，使具有相同特征的文本尽量涵盖相同的主题，进而提高主题挖掘的能力。这些具有先验知识的主题模型将先验知识通过不同的方法融合到无监督的主题挖掘中。在文档层面的先验知识融入到主题模型中的工作有Blei提出的有监督的潜在狄利克雷分配(supervised Latent Dirichlet Allocation,sLDA)模型[3]，该模型利用文本的类标，作为相应变量融入到主题模型中，并通过一般线性模型进行建模。其引入的文本类标信息提升了文本的主题特征表示，进而更好地服务于分类和回归问题。Ramage提出了有标签的潜在狄利克雷分配(labeled Latent Dirichlet Allocation,lLDA)模型[4]，该模型在潜在主题与文档类标之间直接建立一一对应的映射关系，有效地解决了多标签文本集合中存在的归属问题。但这类主题挖掘方法对文本数据有较高的要求，有时甚至需要更多的人力资源来提供所需的有监督的信息。

3.跨领域的文本挖掘技术主要解决自动抽取不同领域的文本潜在语义信息中相似性与差异性的问题。主要工作有Zhai提出的跨领域混合模型(Cross-CollectionMixture Model,CCMix)[5]，该模型能够挖掘出在不同领域下，所共同出现的主题信息，同时，针对这些共同出现的主题信息，找出这些信息中的公共部分和每个领域所特殊的部分。Paul在这个工作的基础上，提出了跨领域潜在狄利克雷分配(cross-collection LatentDirichlet Allocation,ccLDA)模型[6]，将ccMix从PLSA的框架下转换到LDA的框架下，这使得模型具有了LDA的优越性，即能够对新到来的文本进行推断。另外，该模型还减少了ccMix中的参数数量，使得，模型参数不会随着文本数据的增加而增加，模型能够更好地根据文本固有的特征进行文本挖掘。但是跨领域主题模型无法利用不同领域的信息帮助用户筛选出所需要的信息。

参考文献

[1]Hofmann T.Probabilistic latent semantic indexing.Proceedings ofthe 22nd annual international ACM SIGIR conference on Research anddevelopment in information retrieval.ACM,1999:50-57。

[2]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation.The Journalof machine Learning research,2003,3:993-1022。

[3]Mcauliffe J D,Blei D M.Supervised topic models.Advances in neuralinformation processing systems.2008:121-128。

[4]Ramage D,Hall D,Nallapati R,et al.Labeled LDA:A supervised topicmodel for credit attribution in multi-labeled corpora.Proceedings of the2009Conference on Empirical Methods in Natural Language Processing:Volume 1-Volume 1.Association for Computational Linguistics,2009:248-256。

[5]Zhai C X,Velivelli A,Yu B.A cross-collection mixture model forcomparative text mining.Proceedings of the tenth ACM SIGKDD internationalconference on Knowledge discovery and data mining.ACM,2004:743-748。

[6]Paul M.Cross-collection topic models:Automatically comparing andcontrasting text.Urbana,2009,51:61801。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的目的在于提出一种面向跨领域知识发现的主题挖掘方法。

为了实现上述目的，本发明一方面的实施例公开了一种面向跨领域知识发现的主题挖掘方法，包括以下步骤：A：对于给定的有类标的文本数据集，构建源领域文本集合；对于给定的没有类标的文本数据集，构建目标领域集合；B：从所述源领域文本集合抽取每个类别下文本的潜在类别特征信息，将所述潜在类别特征信息建模在风格潜在组件中；从所述源领域文本集合抽取文本中潜在语义信息，建模在主题潜在组件中；C：从所述目标领域集合抽取出所有文本的潜在特征信息和潜在语义信息；D：根据所述风格潜在组件和从所述目标领域集合抽取的潜在特征信息，将所述目标领域集合中的所述文本自动聚合在所述风格潜在组件中；根据所述主题潜在组件和从所述目标领域集合中抽取的所述潜在特征信息，将所述目标领域集合的语义信息建模在所述主题潜在组件中；以及E：建模所述目标领域集合的语义信息的主题潜在组件。

根据本发明实施例的一种面向跨领域知识发现的主题挖掘方法，自动挖掘源领域文本特征，这些特征可以用于目标领域中文本的识别和分类；将源领域的文本特征信息有效地迁移到目标领域的文本聚类之中，使得聚类的过程更准确；自动过滤掉目标文本中的与源文本相似的内容，能够对源领域文本和目标领域文本的内容进行建模，并对内容的相似性和不同性进行判别，从而找出目标领域中与源领域不同文本内容。

另外，根据本发明上述实施例的一种面向跨领域知识发现的主题挖掘方法，还可以具有如下附加的技术特征：

进一步地，在步骤A和步骤B之间还包括:AB：对所述源领域文本集合和所述目标领域集合中的文本数据进行预处理。

进一步地，所述预处理包括停用词处理和文本去词根化处理。

进一步地，在步骤D中，所述根据所述主题潜在组件和从所述目标领域集合中抽取的所述潜在特征信息，将从所述目标领域集合的语义信息建模在所述主题潜在组件中进一步包括：D1：过滤所述目标文本集合中与源文本的相似内容，保留所述目标领域集合的独特内容；以及D2：将所述独特内容建模在所述主题潜在组件中。

进一步地，所述步骤B至步骤D是反复迭代的，直到所述风格潜在组件和所述主题潜在组件均收敛为止。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

以下结合附图描述根据本发明实施例的一种面向跨领域知识发现的主题挖掘方法。

图1是本发明一个实施例的流程图，请参考图1。

(1)抽取源领域文本潜在的类别特征

模型在传统主题模型的基础上，为每篇文档引入了一个新的混合模型，用于建模源领域的潜在类别特征，称之为风格。对于所有源领域的文档，其风格混合模型中对应的潜在组件与该文档的类别标签一一对应，在有监督的条件下，进行模型的学习。

(2)抽取源领域文本的潜在语义信息

该模型中仍然保留传统主题模型中文档是与一系列主题的混合相关联的基本假设，针对每个建模类别特征的潜在组件，有一系列主题与该潜在组件相关联，进而将源领域文本中非特征的内容信息用其所在类别对应的主题建模起来。为了将源领域文本的内容与目标领域的内容相区别，对建模源领域文本内容的主题进行标记。

(3)抽取目标领域文本的潜在特征

与源领域文本相似，模型也为目标领域的每篇文档引入了一个新的混合模型，用于建模源领域的潜在特征。与源领域文本相不同的是，目标领域文本在混合模型中对应的潜在组件的分布是在无监督的情况下学习的。

(4)抽取目标领域文本的潜在语义信息

目标领域文本的潜在语义信息的建模与源领域文本的建模方式相同，不同之处在于，目标领域文本内容所分布的主题不需要进行标记。

(5)目标领域文本的聚类

由于在模型中对于源领域和目标领域所引入的新的风格混合模型是统一的，所以可以根据目标领域在风格混合模型中的分布以及风格混合模型中每个潜在组件对应的类别标签，对目标领域文本进行聚类。

(6)筛选新发现的领域知识

对于每个风格混合模型中所对应的主题信息，在第三个步骤中，所有源领域文本涉及的主题均加以标注，这样，所有没有进行标注的主题信息即为仅目标领域文本所涉及的内容，所以这些为标记的主题就是新发现的领域知识。

另外，本发明实施例的一种面向跨领域知识发现的主题挖掘方法的其它构成以及作用对于本领域的技术人员而言都是已知的，为了减少冗余，不做赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同限定。

Claims

1.一种面向跨领域知识发现的主题挖掘方法，其特征在于，包括以下步骤：

A：对于给定的有类标的文本数据集，构建源领域文本集合；对于给定的没有类标的文本数据集，构建目标领域集合；

B：从所述源领域文本集合抽取每个类别下文本的潜在类别特征信息，将所述潜在类别特征信息建模在风格潜在组件中；从所述源领域文本集合抽取文本中潜在语义信息，建模在主题潜在组件中；

C：从所述目标领域集合抽取文本的潜在特征信息和潜在语义信息；

D：根据所述风格潜在组件和从所述目标领域集合抽取的潜在特征信息，将所述目标领域集合中的所述文本自动聚合在所述风格潜在组件中；根据所述主题潜在组件和从所述目标领域集合中抽取的所述潜在特征信息，将所述目标领域集合的潜在语义信息建模在所述主题潜在组件中，其中，在步骤D中，所述根据所述主题潜在组件和从所述目标领域集合中抽取的所述潜在特征信息，将所述目标领域集合的潜在语义信息建模在所述主题潜在组件中进一步包括：D1：过滤所述目标领域集合中与源领域文本的相似内容，保留所述目标领域集合的独特内容；D2：将所述独特内容建模在所述主题潜在组件中；以及

E：建模所述目标领域集合的潜在语义信息的主题潜在组件。

2.根据权利要求1所述的面向跨领域知识发现的主题挖掘方法，其特征在于，在步骤A和步骤B之间还包括:

AB：对所述源领域文本集合和所述目标领域集合中的文本数据进行预处理。

3.根据权利要求2所述的面向跨领域知识发现的主题挖掘方法，其特征在于，所述预处理包括停用词处理和文本去词根化处理。

4.根据权利要求1所述的面向跨领域知识发现的主题挖掘方法，其特征在于，所述步骤B至步骤D是反复迭代的，直到所述风格潜在组件和所述主题潜在组件均收敛为止。