CN111695347A

CN111695347A - 用于主题发现和词嵌入的相互学习的***和方法

Info

Publication number: CN111695347A
Application number: CN202010143822.0A
Authority: CN
Inventors: 李定成; 张婧媛; 李平
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2019-03-15
Filing date: 2020-03-04
Publication date: 2020-09-22
Anticipated expiration: 2040-03-04
Also published as: US20200293902A1; US11568266B2; CN111695347B

Abstract

本文公开用于使用全局主题发现和局部词嵌入的相互机器学习的***和方法的实施例。主题建模和词嵌入都将文档映射到低维空间上，前者将词聚类到全局主题空间中，而后者将词映射到局部连续嵌入空间中。主题建模和稀疏自动编码器(TMSA)框架的实施例通过在基于词共现的主题建模和自动编码器之间构建相互学习机制统一这两个互补模式。在实施例中，使用主题建模生成的词主题被传递到自动编码器中，以对自动编码器施加主题稀疏性以学习主题有关词表示。作为回报，由自动编码器学习的词嵌入被发送回主题建模以改进主题生成的质量。对各种数据集的性能评估证明了公开的TMSA框架在发现主题和嵌入词方面的有效性。

Description

用于主题发现和词嵌入的相互学习的***和方法

技术领域

本发明一般涉及用于机器学习的***和方法。更具体地，本发明涉及用于具有全局主题发现和局部词嵌入的相互机器学习的***和方法。

背景技术

主题模型和词嵌入模型在模拟人类语言中扮演重要角色，并且已经成为用于自然语言处理的必不可少的工具。各种主题建模模型已经使用探索由词共现矩阵表示的模式成功地揭露文档的集合的主题结构。主题建模的优点是其跨文档的全局聚类能力。当语料库足够大时，可以暴露语义关联性和相干主题而无需监督。相反，已经证明词嵌入模型是将稀疏离散词变换成密集和低维连续向量的有效方法。由于词嵌入通常使用局部词搭配模式以构造嵌入链接功能，表示的语义和句法关联性与主题建模相比也更局部。

因此，需要的是可以组合它们各自的优点用于在自然语言处理中进一步改进性能的***和方法。

发明内容

在第一方面中，本发明提供一种用于使用一个或多个处理器进行具有主题发现和词嵌入的相互学习的计算机实现方法，以导致执行以下步骤：

接收输入，所述输入包括狄利克雷先验和具有至少一个文档的文档集；

对于所述文档集中的每个词：

从词嵌入矩阵绘制用于所述词的词嵌入，使用用主题稀疏化的编码器更新所述词嵌入矩阵以反映词的主题分布；

从残差矩阵为对应于所述词的每个词共现绘制残差，每个残差表示所述词与每个文档中的另一词之间的非线性或噪声交互；

从主题嵌入矩阵绘制与所述词对应的一个或多个主题嵌入；

对于所述文档集中的每个文档：

从所述狄利克雷先验，为每个文档绘制表示主题之间的相对比例的混合主题比例；

基于所述混合主题比例，从每个文档中第j个词的主题矩阵绘制至少一个主题，j为正整数；以及

将为所述第j个词绘制的所述至少一个主题传递到所述编码器中用于更新所述词嵌入矩阵。

在第二方面中，本发明提供一种用于使用一个或多个处理器生成词嵌入的计算机实现方法，以导致执行以下步骤：

对于每个文档：

构造包括分别对应于多个词对的多个词共现的词共现矩阵；

使用利用主题信息稀疏化的稀疏自动编码器，通过前馈传播将每个文档中的输入词的至少词共现编码为嵌入表示；

使用解码器将所述输入词的所述嵌入表示解码回重构的表示；

通过最小化合并主题稀疏参数的词损失函数而训练所述稀疏自动编码器。

在第三方面中，本发明提供一种用于使用一个或多个处理器进行具有主题发现和词嵌入的相互学习的计算机实现方法，以导致执行以下步骤：

接收输入，所述输入包括狄利克雷先验、词共现矩阵和具有至少一个文档的文档集；

初始化至少主题矩阵、主题嵌入矩阵、残差矩阵、用于稀疏自动编码器的权重矩阵；

基于所述狄利克雷先验和所述主题嵌入矩阵，生成表示主题间相对比例的混合主题比例；

使用固定的词嵌入矩阵，基于至少所述混合主题比例更新所述主题矩阵中的主题；

使用利用所述更新主题稀疏化的所述稀疏自动编码器，通过前馈传播将所述词共现矩阵中的词共现编码到对应的词嵌入；

计算由主题损失函数和词损失函数组合的总对象函数；以及

使用反向传播更新用于所述稀疏自动编码器的所述权重矩阵。

附图说明

将参考本发明的实施例，其示例可以在附图中示出。这些附图旨在说明而非限制。尽管本发明在这些实施例的上下文中进行了一般性描述，但是应当理解的是，这并不意味着将本发明的范围限制于这些特定实施例。图中的项目不是按比例的。

图1以图形方式描绘根据本发明的一个或多个实施例的主题建模和稀疏自动编码器 (TMSA)框架。在图1中描绘的实施例中，实线部分是关于经由TMSA_topic组件的主题学习过程，长划线-短划线模式部分是关于经由TMSA_word组件的词嵌入，以及点划线模式部分由两个组件共享用于相互学习过程。

图2描绘根据本发明的一个或多个实施例的用于使用稀疏自动编码器增强的主题建模的方法。

图3描绘根据本发明的一个或多个实施例的用于使用利用主题建模稀疏化的稀疏自动编码器(SA)生成词嵌入的方法。

图4描绘根据本发明的一个或多个实施例的用于使用用于主题建模和词嵌入的TMSA 的相互学习的方法。

图5以图形方式描绘根据本发明的一个或多个实施例的词嵌入群集的二维PCA投影。

图6描绘根据本发明的一个或多个实施例的计算设备/信息处理***的简化框图。

具体实施方式

在以下描述中，出于解释的目的，阐述了具体细节以便提供对本发明的理解。然而，对于本领域技术人员来说，显然可以在没有这些细节的情况下实践实施例。此外，本领域技术人员将认识到，以下描述的本发明的实施例可以以各种方式实现，诸如过程、装置、***、设备或有形计算机可读介质上的方法。

图中所示的组件或模块是本发明的示例性实施例的说明，并且旨在避免模糊本发明。还应当理解的是，在整个讨论中，组件可以被描述为分离的功能单元，其可以包括子单元，但是本领域技术人员将认识到，各种组件或其部分可以被划分为单独的组件或者可以被集成在一起，包括集成在单个***或组件内。应当注意的是，本文讨论的功能或操作可以被实现为组件。组件可以用软件、硬件或其组合实现。

此外，附图内的组件或***之间的连接不旨在限于直接连接。相反，这些组件之间的数据可以被中间组件修改、重新格式化或以其他方式改变。此外，可以使用额外的或更少的连接。还应当注意的是，术语“耦合”、“连接”或“通信地耦合”应当被理解为包括直接连接、通过一个或多个中间设备的间接连接以及无线连接。

在说明书中对“一个实施例”、“优选实施例”、“实施例”或“多个实施例”的引用意味着结合该实施例描述的特定特征、结构、特性或功能被包括在本发明的至少一个实施例中，并且可以在多于一个实施例中。而且，在说明书中的各个地方出现的上述短语不必全部指相同的一个或多个实施例。

在说明书中的各个地方使用某些术语是为了说明，而不应被解释为限制。服务、功能或资源不限于单个服务、功能或资源；这些术语的使用可以指有关的服务、功能或资源的分组，其可以是分布式的或聚合的。图像可以是静止图像或来自视频。

术语“包括”、“包含”、“含有”和“具有”应当理解为开放术语，并且其后列出的任何项目是示例并且不意味着限于列出的项目。本文所用的任何标题仅用于组织目的，不应用于限制说明书或权利要求书的范围。在该专利文档中提及的每一篇参考文献在此全文引入作为参考。

此外，本领域技术人员将认识到：(1)可以可选地执行某些步骤；(2)步骤可以不限于本文阐明的特定顺序；(3)某些步骤可以以不同的顺序执行；以及(4)某些步骤可以同时进行。

A.引言

主题模型和词嵌入模型在模拟人类语言中都扮演重要角色，并且已经成为自然语言处理的必不可少的工具。在过去的十年中，诸如概率潜在语义分析(PLSA)或潜在狄利克雷分配(LDA)的主题建模已经使用探索由词共现矩阵表示的模式而成功地揭露文档的集合的主题结构。主题建模的优点是其跨文档的全局聚类能力。当语料库足够大时，可以暴露语义关联性和相干主题而无需监督。相反，已经证明词嵌入模型是将稀疏离散词变换成密集和低维连续向量的有效方法。由于词嵌入通常利用局部词搭配模式以构造嵌入链接功能，表示的语义和句法关联性与主题建模相比也更局部。

由于这两个模型在语言建模中彼此互补，因此，激励追求构建能够充分使用它们各自的优点的集成模型。用于主题建模和词嵌入的两个共同特性是维度推断的性质及其语义关联性。一些工作已经使用词嵌入改进主题建模。协作语言模型(CLM)(Guangxu Xun等人， Collaboratively improving topic discovery and word embeddings bycoordinating global and local contexts.In Proceedings of the 23rd ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining,Halifax,NS,Canada,2017年8月13-17日,第535–543页, 2017)和STE(Bei Shi等人,Jointly learningword embeddings and latent topics.In Proceedings of the 40th InternationalACM SIGIR Conference on Research and Development in Information Retrieval,Shinjuku,Tokyo,Japan,2017年8月7-11日,第375–384页,2017)已经提出了结合主题建模和词嵌入。CLM将非负矩阵分解应用于主题建模和词嵌入。STE使用跳字模型 (skip-gram)以学习不同的主题特定词嵌入以避免多义性。然而，这些现有方法没有明确地考虑学习过程中全局主题和局部上下文的相互影响。因此，全局主题和局部上下文之间的交互可能不能被完全探索以增强性能。

在本专利文档中，公开统一的TMSA框架的实施例以便将全局主题和局部上下文的相互影响明确地结合到学习过程中。在TMSA框架实施例中，局部词嵌入的影响经由被命名为使用稀疏自动编码器增强的主题建模的TMSA_topic组件被集成到主题的发现中。词嵌入的语义信息帮助TMSA_topic以有效的方式学习主题。在一个或多个实施例中，从TMSA_topic学习的主题经由被命名为利用主题建模稀疏化的稀疏自动编码器的TMSA_word组件被进一步集成到词嵌入过程中。主题和上下文都可以在学习的词的嵌入中反映。根据本发明的一个或多个实施例，TMSA框架的完整的架构在图1中示出，并且在D节中详细描述。通过相互学习方案，TMSA具有以下优点。首先，参数调整和推论可以在统一的框架中完成。其次，稀疏自动编码器中的反向传播可以用于微调词嵌入。第三，可以容易地添加额外层以处理其他任务，诸如添加用于分类的softmax层。

总之，本专利文档的一些关键贡献如下：

·公开统一的TMSA框架的实施例，以经由相互学习机制同时改进主题发现和词嵌入。

·引入一种有效的算法以通过利用来自语义词嵌入的局部上下文信息增强主题学习。

·基于唯一主题的稀疏自动编码器被设计为通过将全局主题和局部上下文信息编码到学习的嵌入中改进词表示学习。

·TMSA的有效性通过将其与关于主题建模任务和词嵌入任务的几种现有技术方法进行比较而论证。

B.一些有关的工作

在本节中概述各个方面中的一些有关的工作。如在引言部分中所讨论的，本专利文档的主要主题是协调全局主题和局部上下文以为了更好的主题发现和词嵌入。因此，大多数有关工作涉及主题建模和词嵌入学习。

主题建模及其变型

主题建模是一种从文本语料库中发现潜在语义结构的强大的无人监督的工具。最具代表性的模型是潜在狄利克雷分配(LDA)(David M.Blei,et al.,Latent DirichletAllocation.Journal of Machine Learning Research,3:993–1022,2003)。通常，在每个文档中仅存在少量主题，并且在每个主题中仅少量词具有高概率。这种模式被激发以部署狄利克雷先验以调整主题分布。语义质心具有与LDA中的主题相同的性质。语义关联性存在于连续嵌入空间中，而主题有关词存在于离散空间中。这种相似性导致公共语义质心的探索。例如，Nguyen等人 (Improving Topics Models with latent feature wordrepresentation.TACL，3:299-313，2015) 提出了改进具有潜在特征词表示的主题模型(潜在特征主题建模或简称LFTM)。具体地，它们使用主题到词狄利克雷多项式分量和潜在特征分量的两分量混合来替换从主题生成词的主题到词狄利克雷多项式分量。潜在特征分量是两个矩阵(预训练的词嵌入和更新的主题嵌入)的乘积。相反，作为LDA中的主题嵌入捕捉全局上下文信息，同时反映语义质心。

词嵌入

当前词嵌入有关的工作通常基于Yoshua Bengio等引入的神经概率语言模型(Aneural probabilistic language model.Journal of Machine Learning Research，3:1137-1155，2003)。已经证明能够通过学习使用局部词共现表示的上下文信息捕捉语言中的语义规律。随后，Mnih 和Hinton(Three new graphical models for statisticallanguage modelling.In International conference on Machine learning,第641–648页.ACM,2007)提出了三个不同的嵌入函数对给定其上下文的词的条件分布进行建模(或反之亦然)。然而，由于嵌入之间的交互矩阵，这些方法在大的语料库上是不可伸缩的。Mikolov等人(In Advances in Neural Information Processing Systems 26:27thAnnual Conference on Neural Information Processing Systems 2013. Proceedingsof a meeting held December 5-8,2013,Lake Tahoe,Nevada,United States,第3111–3119页,2013)提出了跳字模型(Skip-Gram)和连续词袋(CBOW)，以经由两个嵌入之间的直接交互改进词嵌入的效率，其可以在大语料库上被有效地训练，并且在各种语言任务上达到良好的性能。特别地，发现用于训练词嵌入的具有负采样的跳字模型以隐式地因式分解局部词共现模式的逐点互信息矩阵。

集成框架

除了上述工作之外，主题词嵌入(TWE)(Yang Liu等人，Topical wordembeddings.In Proceedings of the Twenty Ninth AAAI Conference on ArtificialIntelligence,January 25-30,2015, Austin,Texas,USA.,第2418–2424页,2015)已经被提出以将主题嵌入与词嵌入连接以形成用于每个词的主题词嵌入。Li等(Generativetopic embedding:a continuous representation of documents.In Proceedings ofthe 54th Annual Meeting of the Association for Computational Linguistics,ACL2016,2016年8月7-12日,Berlin,Germany,Volume 1:Long Papers,2016)将 LDA扩展到命名为TopicVec的模型。通过将概率函数定义为传统多项式分布和焦点词与主题的嵌入之间的链接函数的混合，扩展部分地遵循LFTM。此外，TopicVec将预先训练的主题标签作为特殊词来对待，并且通过将主题标签包括在神经架构中学习用于主题的嵌入。沿着该线的另一工作是高斯LDA。它使用从诸如***的大型外部语料库学习的预先训练的词嵌入，然后在词嵌入空间中使用高斯分布对主题建模。此外，还提出了跳字主题词嵌入(STE)以学习不同的主题特定词嵌入以避免多义性的问题。最近，一些模型使用词嵌入作为外部知识来构建信息性和非对称性狄利克雷先验。所有这些都在某种程度上努力在主题建模和词嵌入之间构建通道。即，它们没有在学习过程期间明确地考虑全局主题和局部上下文的相互影响的大部分。

然而，这些复合模型以分离的和启发式的方式组合主题模型和词嵌入。各种研究，诸如协作语言模型(CLM)和使用词嵌入的相关主题建模(Guangxu Xun等人，A CorrelatedTopic Model Using Word Embeddings.In Proceedings of the Twenty-SixthInternational Joint Conference on Artificial Intelligence,IJCAI 2017,Melbourne,Australia,2017年8月19-25,第4207–4213 页,2017)，试图将这两个方面集成到框架中。CLM被建议将主题建模和词嵌入用公式表示为联合因式分解方式。其使用非负矩阵分解(NMF)以获得全局主题矩阵，并使用移位的正逐点相互信息矩阵来生成词嵌入向量。第二个通过借助于词嵌入对主题关联性建模扩展高斯 LDA。同时，由于其主题发现过程从学习具有语义规则的词嵌入开始，所以该模型构建了相互学习机制。然而，这些模型在某种程度上是使用主题建模作为主导而构建的，因此词嵌入扮演不太重要的角色。相反，在本专利文档中呈现的TMSA实施例旨在启动相互学习机制，经由两个紧密相关的组件TMSA_topic和TMSA _word明确地增强全局主题和局部上下文的交互。

C.问题陈述

给定一组文档，文档-词矩阵D表示全局上下文信息。通过明确考虑来自局部上下文的词嵌入信息经由提出的主题建模模块TMSA_topic将有效地发现用于文档的主题。局部上下文信息由从文本窗口内的文档中的词的序列中提取的词共现矩阵X表示。在一个或多个实施例中，文本窗口是固定的，并且在文档之间保持相同。每个词序列具有焦点词及其在以焦点词为中心的文本窗口内的相邻上下文词。x_ij∈X记录词w_j在词w_i的上下文中出现的次数。通过将发现的主题合并到嵌入过程中经由建议的TMSA_word将从X学习词嵌入。据此，词嵌入学习和主题发现形成相互交互的循环，并且继续直到收敛。

D.TMSA方法的实施例

图1图示地描述了根据本发明的一个或多个实施例的TMSA框架。如图1所示，TMSA框架100包括两个组件，即图中具有主题嵌入矩阵V110、残差矩阵A118、狄利克雷先验α 160(以及过程111～116)的主题建模模块TMSA_topic以及图中具有词共现矩阵X120、编码器123和解码器125(以及过程122和124)的词嵌入模块TMSA_word。这两个组件通过具有图中的共享部分(例如，主题z_i 132和词嵌入矩阵V130)的相互学习机制而彼此紧密地交互。这些组件在以下描述中详细阐述。

1.使用稀疏自动编码器增强的主题建模的实施例

在一个或多个实施例中，如图1所示，公开的主题建模模块TMSA_topic使用用于正则化的词嵌入、主题嵌入和残差实现生成过程。与LDA类似，TMSA_topic将来自语料库或文档集 D160的每个文档d 140表示为主题上的概率分布，其中每个主题由固定词汇中的词上的概率分布建模。使用文本语料库，发现的主题可以反映全局语义关联性。词的概率由这样的潜在主题支配。TMSA_topic也是生成模型。在一个或多个实施例中，除了使用狄利克雷先验以生成文档主题分布之外，正态分布被用于校准主题嵌入的生成。

在一个或多个实施例中，生成过程和可能性在图2中定义，其中步骤如下所示：

对于每个词，从词嵌入矩阵V中查找(205)词嵌入

在一个或多个实施例中，该步骤可以对应于图1中所示的过程111。在一个或多个实施例中，使用利用主题稀疏化的编码器更新词嵌入矩阵V以反映词的主题分布。

对于w_i和w_j的每个词共现，从

绘制(210)残差

在一个或多个实施例中，该步骤可以对应于图1中所示的过程112。

对于第k个主题，从主题嵌入矩阵T110中绘制(215)主题嵌入，其可以被表示为半径γ的双曲线，如t_k～Unif(β_γ)。在一个或多个实施例中，主题嵌入是从主题嵌入矩阵T中统一绘制的。在一个或多个实施例中，该步骤可以对应于图1中所示的过程113。

对于每个文档d_i；

(a)从狄利克雷先验Dir(α)生成(220)文档d_i的混合主题比例θ_i。在一个或多个实施例中，该步骤可对应于图1所示的过程114。混合主题比例表示每个文档的主题之间的相对比例。

(b)对于第j个词：

i.基于θ_i从主题矩阵Z绘制(225)至少一个主题z_ij。在一个或多个实施例中，该步骤可以对应于图1中所示的过程115。在一个或多个实施例中，为第j个词绘制的至少一个主题 z_ij被传递到稀疏自动编码器用于更新主题嵌入矩阵。

ii.根据p(w_ij|w_i,j-c：w_i,j-1,z_ij,d_i)，基于至少词嵌入

残差

主题分配z_ij、主题嵌入t_k,从固定词汇表W中绘制(230)词w_ij。在一个或多个实施例中，该步骤可对应于图1所示的过程116。

在一个或多个实施例中，狄利克雷先验Dir(α)也可以由为第j个词绘制的至少一个主题 z_ij更新。在一个或多个实施例中，在这个生成过程中，词嵌入矩阵V在TMSA_word模块中被更新。残差

为二元模型w_i,w_j的规则。

是用于二元模型w_i,w_j的链接函数或概率函数，定义为：

其中

指两个词向量之间的线***互，以及

是表示两个词之间的非线性或噪声交互的残差信息。

等式(1)实际上是两个词向量之间的正则化的逐点相互信息。t_k是第k个主题的主题嵌入，以及β_r是超参数。第四步类似于LDA。然而，用于每个词w_ij的生成过程基于从等式(1)扩展的链接函数p(w_ij|w_i,j-c：w_i,j-1,z_ij,d_i)，其中，添加了词向量和主题嵌入之间的交互函数。对应于图1，上述生成过程可以被概括为用于每个文档的似然函数(或主题损失函数)。

其中，D,A,V,Z,T分别指文档集、残差矩阵、词嵌入矩阵、主题矩阵和主题嵌入矩阵。此外，

和

是用于生成词共现的两个高斯先验。第二项

是用于

的非负单调变换，目的在于惩罚残差

1.1用于TMSA_topic的优化的实施例

在一个或多个实施例中，按照惯例，对正则化最大似然函数

进行优化。基于来自生成过程的分布，语料库D的完整数据似然性可被分解为如下：

在一个或多个实施例中，

中的V可以通过预训练的词嵌入初始化并且在TMSA_word中更新。其中

是归一化项，以及Θ指所有相关参数。类似于LDA，使用变分推理算法更新相应的参数。等式(3)中的最后一项，

是潜在特征向量p(w_d|V,A,t_d,z_d)。w_d是每个文档d中的集体词矩阵。语料库的负对数似然性将逐主题分解为用于每个主题的因子L_t。使用用于主题t的L₂正则化，该项可以被表达为：

在一个或多个实施例中，可以通过最小化正则化负对数似然获得主题向量

的MAP (最大后验概率)估计。关于用于主题z_ij的向量的第j个元素的导数是：

2.利用主题建模稀疏化的稀疏自动编码器(SA)的实施例

在一个或多个实施例中，为了学习词的嵌入，采用使用自重构准则的稀疏自动编码器 (SA)。自动编码器是无监督的前馈神经网络，其通过使用重构的输出拟合输入来应用反向传播。它通常用于处理高维特征和预先训练深度学习模型。词嵌入也可以经由自动编码器被训练。

图3描绘根据本发明的一个或多个实施例的用于使用利用主题建模稀疏化的SA生成词嵌入的方法。在一个或多个实施例中，在训练自动编码器用于词嵌入之前，首先通过对每个上下文词在其焦点词周围出现的次数除以焦点词的频率进行计数构造(305)词共现概率。概率的平方根，表示为X，被认为是自动编码器的输入。

使用词共现信息，SA通过前馈传播将第i个输入词的至少词共现x_i编码(310)为嵌入表示

在一个或多个实施例中，基于第i个输入词的词共现x_i和主题分配z_i两者生成嵌入表示v_i。

是加权矩阵，并且

是嵌入偏置向量。f(·)被称为激活函数，例如sigmoid 函数

在前馈通过之后，v_i被解码(315)回重建的表示

是用于解码器的偏置向量。在一个或多个实施例中，稀疏约束被施加在嵌入表示v_i上以减少SA中的噪声。SA的总成本函数是

其中第一项是所有词共现上的重构损失的平方和的平均值。第二项是正则化项以防止过拟合。λ是正则化参数。第三项是两个伯努利随机变量之间的Kullback-Leibler(KL)散度，两个伯努利随机变量分别具有均值ρ和均值

目的是控制权重和偏置参数Φ和b的稀疏。ρ是指定稀疏级别的稀疏参数。ξ是成本函数中稀疏项的权重。

在一个或多个实施例中，等式(7)用于惩罚偏离稀疏参数ρ的

其中

是第j个嵌入表示的平均激活。v_ij∈v_i是用于第i个词的第j个嵌入值。SA中的词共现仅编码局部上下文信息。在本专利文档的一个或多个实施例中，将全局主题信息结合到SA和 TMSA_word中，并且使用主题建模稀疏化SA以改进词嵌入。在一个或多个实施例中，主题信息被封装到SA的总成本函数中，使得学习的词嵌入也反映词的主题分布。为了达到这个目标，在一个或多个实施例中，添加第四项作为主题引导项以通过最小化以下目标函数(或词损失函数)训练(320)SA和TMSA_word：

其中

是用于嵌入的主题稀疏参数，以及τ是主题引导项在总目标函数

中的权重，

是用于第k个主题的嵌入的平均激活：

其中

是第j个嵌入值在用于第i个词的第k个主题上的主题分布。

是用于嵌入v_i的主题分布，并且h_i∈H(h_i的总集)。主题引导项被设计为帮助学习的嵌入v反映词的全局主题信息。这里KL散度

帮助使用与最有区别的主题有关的激活来重构输入。

3.TMSA架构的实施例

使用从局部上下文绘制的语义词嵌入信息，可以更好地发现来自文本的主题；并且通过开发全局主题信息，主题有关信息将被有效地反映在词嵌入中。这两个过程彼此紧密地交互以增强主题发现和词嵌入的性能。在一个或多个实施例中，总目标函数可以被定义为：

在一个或多个实施例中，TMSA_word中的词嵌入首先被固定以更新主题建模TMSA_topic。然后，使用更新的主题，运行TMSA_word以学习更好的词嵌入。这个迭代过程继续直到达到收敛。整个过程在算法1中示出。公开的TMSA框架实施例具有若干优点。首先，参数调整和推断可以在统一的框架中完成。其次，稀疏自动编码器中的反向传播的机制可以用于微调词嵌入。第三，可以容易地添加额外层以处理其他任务，诸如添加用于分类的softmax层。图4描绘根据本发明的一个或多个实施例的用于使用用于主题建模和词嵌入的TMSA的相互学习的方法。示例性的完整相互学习过程在方法1中概述。接收(405)包括文档集D、词共现矩阵X和主题狄利克雷先验α的输入。在初始化(410)残差矩阵A、主题矩阵Z和主题嵌入矩阵T之后，首先固定TMSA_word中的解码器的偏置向量c、权重矩阵Φ、嵌入偏置向量 b、词嵌入，以更新(415)主题建模TMSA_topic。然后，使用更新的主题更新(420)TMSA_word，以学习更好的词嵌入。然后计算(425)如等式10中的总目标函数。使用总目标函数利用反向传播更新(430)权重矩阵Φ。然后基于更新的权重矩阵Φ更新(435)词嵌入矩阵V。重复这样的更新，直到主题差小于预定义的∈或达到给定的时期(epoch)数量。

方法1

用于主题建模和词嵌入的相互学习算法TMSA

E.一些实验

应当注意的是，这些实验和结果是通过例证的方式提供的，并且是在特定条件下使用一个或多个特定实施例执行的；因此，这些实验和它们的结果都不应被用于限制本专利文档的公开的范围。

在这一节中，评估来自主题发现任务和词嵌入任务的TMSA框架的测试实施例的有效性。

1.数据集的实施例

在这一节中，两个数据集被用于评估。一个是20News组，另一个是Reuters-21578语料库。两个语料库在下文中被称为20News和Reuters。20News具有11,311个用于训练的文档和7,529个用于测试的文档。它具有20个不同的类别。对于Reuters，选择最大的10个类别用于实验，其中5,770个文档用于训练，2,255个文档用于测试。在数据处理步骤期间，停止词被移除，并且所有词被转换为小写。对于用于词嵌入的词共现矩阵的构造，上下文窗口大小被设置为10。对于主题建模，将预定义的主题差E和主题狄利克雷先验α分别设置为 0.01和0.1。总时期数量被设置为100。对于稀疏自动编码器的参数，稀疏水平和主题引导权重τ都被设置为0.1。稀疏参数ρ和主题稀疏参数ξ都被设置为0.05。正则化参数λ是0.01。对于20News和Reuters，主题的数量分别为20和10。嵌入维度被设置为50。

2.文档分类评估的实施例

在一个或多个实验中，首先已经实施了TMSA实施例如何可以使下游应用受益的评估。评估集中于文档分类任务，并且TMSA实施例与以下主题建模基准进行比较：

·LDA:原版潜在狄利克雷分配；

·LFTM:潜在特征主题建模；

·TopicVec:生成主题嵌入方法；

·CLM:协作语言模型

除了上述基准之外，TMSA实施例还与使用学习的词表示用于文档分类的现有技术方法进行比较。方法是：

·PV-DBOW and PV-DM ¹:Doc2Vec模型；

·MeanWV ²:TopicVec模型的平均词嵌入；

·TWE ³:主题词嵌入方法；

·高斯LDA⁴:高斯LDA模型；

·TV+MeanWV ²:TopicVec和MeanWV的连结。

1.Quoc V.Le et al.,Distributed representations of sentences anddocuments.In Proceedings of the 31^th International Conference on MachineLearning,ICML 2014, Beijing,China,2014年6月21-26日,第1188–1196页,2014

2.Shaohua Li,et al.,Generative topic embedding:a continuousrepresentation of documents.In Proceedings of the 54^th Annual Meeting of theAssociation for Computational Linguistics,ACL 2016,2016年8月7-12日,Berlin,Germany, Volume 1:Long Papers,2016

3.Yang Liu,et al.,Topical word embeddings.In Proceedings of the 29^thAAAI Conference on Artificial Intelligence,2015年1月25-30日,Austin,Texas,USA.,第 2418–2424页,2015

4.Rajarshi Das,et al.,Gaussian LDA for topic models with wordembeddings.In Proceedings of the 53^rd Annual Meeting of the Association forComputational Linguistics and the 7^th International Joint Conference onNatural Language Processing of the Asian Federation of Natural LanguageProcessing,ACL 2015年, 7月26-31日

在TWE、高斯LDA和TV+MeanWV中，文档的主题表示和词嵌入都被连结作为用于分类的特征。在一个或多个TMSA实施例中，由于主题信息已经被合并到学***均值被用作文档特征。在实验中，宏观平均精确率、召回率和F1 测量被用作评估度量。对于LDA、LFTM、CLM、PV-DBOW、PV-DM、TWE和高斯LDA，使用CLM中报告的相同结果。对于TopicVec、MeanWV和TV+MeanWV，报告来自TV+ MeanWV5的相同结果。

20News和Reuters的性能分别示于表1和表2。最佳结果以粗体突出显示。观察到TMSA 在两个数据集上都明显优于被比较的方法。与第二最佳方法CLM相比，TMSA分别对20News和Reuters的F分数高出2.5％和4.3％。如Bei Shi等人(Jointly learning wordembeddings and latent topics.In Proceedings of the 40th International ACMSIGIR Conference on Research and Development in Information Retrieval,Shinjuku,Tokyo,Japan,2017年8月7-11 日,第375–384页,2017)所述，提出STE以学习特定主题的词嵌入以避免多义性的问题。据报道，STE在20News上实现了82.5％的精确率、82.3％的召回率和82.5％的F分数。在 Reuters上没有可用的STE结果。可以看出，TMSA实施例在20News上仍然优于STE。总之，TMSA实施例经由相互学习机制结合主题建模和词嵌入组件，并且在两个数据集上达到最佳性能。

表1：在20News数据集上的文档分类 (最佳结果以粗体突出显示)

表2：在Reuters数据集上的文档分类

3.词相似性评估的实施例

在一个或多个实施例中，评估从20News学习的词嵌入的质量，以说明提出的TMSA框架的有效性。由于与最大的在线百科全书***相比，20News是小的语料库，因此收集大量的局部上下文信息是有挑战性的。通过将全局主题信息编码到具有作为一种补充信息的局部上下文的稀疏自动编码器中，即使对于小的语料库，TMSA的实施例可以显著地改进词表示学习过程。

在这一节中，将TMSA的实施例与若干词嵌入基准进行比较，包括跳字模型和CBOW，GloVe(Jeffrey Pennington et al.,Glove:Global vectors for wordrepresentation.In Proceedings of the 2014conference on empirical methods innatural language processing(EMNLP),第1532–1543 页,2014))，SPPIM和SPPIM+SVD(Omer Levy,et al.,Neural word embedding as implicit matrix factorization.InAdvances in Neural Information Processing Systems 27:Annual Conference onNeural Information Processing Systems 2014,December 8-13 2014,Montreal,Quebec,Canada, 第2177–2185页,2014)，DBPV-OW和PV-DM，TWE和CLM。在一个或多个实施例中，从所有这些方法学习的词嵌入被用于评估若干数据集上的词对相似性。这些数据集包括 WordSim353(WS353)(Fabrice Souvannavong,et al.,Improved video contentindexing by multiple latent semantic analysis.In Image and Video Retrieval:Third International Conference,CIVR 2004, Dublin,Ireland,2004年7月21-23日)、WordSim Relateness(WS Rel)(Eneko Agirre et al., A study on similarity andrelatedness using distributional and wordnet-based approaches.In HumanLanguage Technologies:Conference of the North American Chapter of theAssociation of Computational Linguistics,Proceedings,2009年5月31日-6月5日)、Turk(Kira Radinsky et al.,A word at a time:computing word relatedness usingtemporal semantic analysis.In Proceedings of the 20th InternationalConference on World Wide Web,WWW 2011,Hyderabad, India,2011年3月28日-4月1日)、simLex-999(Felix Hill,et al.,Simlex-999:Evaluating semantic models with(genuine)similarity estimation.Computational Linguistics,41(4):665–695,2015)，以及Rare(Tomas Mikolov et al.,Distributed representations of words andphrases and their compositionality.In Advances in Neural InformationProcessing Systems 26:27th Annual Conference on Neural Information ProcessingSystems 2013.Proceedings of a meeting held 2013 年12月5-8日,,Lake Tahoe,Nevada,United States.,第3111–3119页,2013)。在一个或多个实施例中，通过测量词嵌入的余弦相似性和人为指定的相似性的斯皮尔曼相关系数来测试词嵌入的性能。运行用于词相似性评估的代码，以测量TMSA模型的实施例在词相似性任务上的性能。对于所有的基准方法，报告来自CLM的结果。

表3：词相似性结果的比较

表3示出词相似性的结果。较高的值表明学习的嵌入更接近于关于词相似性任务的人为判断。观察到的是，评估的TMSA实施例在所有数据集上优于所有基准方法。尽管CLM也在这些数据集上执行良好，但它不会打败TMSA，因为它没有将主题信息明确地编码到词表示学习过程中。

4.定性分析的实施例

在这一节中，提出两种情况研究以示出生成的主题和词嵌入的质量以及它们之间的关联性。

4.1用于主题建模的定性评定的实施例

本小节提供TMSA框架的实施例如何改进主题相干性的示例。表4比较对于四个主题，由TopicVec(用于主题发现的现有技术方法中的一个)和TMSA实施例产生的热词。在表4中，对于主题1，TopicVec和TMSA实施例产生共享清楚且相似题目(用于主题1的宗教) 的词。但是对于主题2、主题3和主题4，TMSA找到比TopicVec更有意义的词。在TMSA 中，主题2是关于电子邮件通信的，主题3是与语言有关的，以及主题4与行业更有关。相反，TopicVec发现与这三个主题有关的较少的有意义的词。TopicVec中的词不是那么相干的。这表明TMSA具有更强大的产生具有可解释的主题的能力。

表4：TopicVec和TMSA之间生成的主题的比较，对于四个主题，具有最相关的词

4.2词嵌入的定性评定的实施例

在这一节中，从两个角度定性地评定词嵌入。首先，在词类推任务上测试词嵌入的性能。词类推旨在测量词嵌入是否可以将具有相似关系的词/短语对聚集在一起。给定四个词“a”、“b”、“c”和“d”，用于这种类推的通常格式是“a到b”如同“c到d”，其中“d”是隐藏的并且需要从词汇表中推断。“d”可以通过优化3CosAdd(Omer Levy et al.,Linguisticregularities in sparse and explicit word representations.In Proceedings ofthe Eighteenth Conference on Computational Natural Language Learning,CoNLL2014,Baltimore,Maryland, USA,2014年6月26-27日,第171–180页,2014)为argmin_d∈V(cos(d,c-a+b))而被推论。在本小节中，使用包括诸如“good到better如同rich到richer”的语法类推和诸如“king到 queen如同man到woman”的语义类推的数据集，测试在20News上的TMSA实施例学习的词嵌入的质量。

表5通过以降序排列优化的3CosAdd值，示出从20News发现的词类推任务的前五个类推。最后一列是用于每个词类推问题的优化的3CosAdd值。可以看出，TMSA实施例不仅发现了语法类推，诸如“flying到flew如同playing到played”，而且发现了语义类推，诸如“husband到wife如同father到mother”。

除了词类推的示例之外，根据本发明的一个或多个实施例，在图5中还呈现出词嵌入聚类的二维PCA投影的图。选择具有比阈值高的分数的词以表示有关词嵌入的聚类。可以观察到具有不同的题目的五个聚类(表示为不同的形状)，大致如宗教、制造、天文学、计算机有关和电子。此外，这五个题目在嵌入空间中的位置也不是随机的。计算机有关电子靠近并位于上方，而制造、宗教和天文学靠近并位于下方。那些词嵌入聚类明显受到从TMSA_topic生成的主题词的影响或引导。在表4中，可以从TMSA_topic中生成的主题中观察到类似的词。主题1和主题4分别对应于宗教和制造。此外，在TMSA_topic的输出中也可以观察到关于空间科学、天文和计算机的主题。这表明在TMSA实施例中，相互学习是有效的。

表5：用于词类推的来自20News的示例。示出前5个词对。

F.一些结论

在该专利文档中，公开了用于全局主题发现和局部词嵌入的相互学习模型TMSA的实施例。在一个或多个TMSA实施例中，主题发现组件TMSA_topic学习输入词共现的主题。然后，将学习的词主题传递给TMSA_word以增加主题稀疏性以增强基于计数的词嵌入的构造。作为回报，词嵌入被传递回TMSA_topic以改进主题发现。实验结果表明，主题和词嵌入都证明了更好的性能。

在一个或多个实施例中，TMSA实施例可以在各种情况下扩展。TMSA实施例可以通过理论研究被扩展以优化自动编码器、主题建模和词嵌入之间的集成。例如，除了基于LDA的参数模型之外，还可以考虑非参数模型，诸如分层的狄利克雷过程。其次，可以联合学习嵌入和文档的主题以帮助增强文档分类性能。TMSA的实施例可以包括将知识图集成到主题建模中。通过联合学习过程，可以在主题生成、词表示学习和知识图嵌入之间的关联上识别额外的发现。

G.***实施例

在实施例中，本专利文档的方面可以针对一个或多个信息处理***/计算***、可以包括一个或多个信息处理***/计算***或者可以在一个或多个信息处理***/计算***上实现。计算***可以包括任何工具或工具的聚集，其可操作以运算、计算、确定、分类、处理、发送、接收、检索、发起、路由、切换、存储、显示、通信、表明、检测、记录、再现、操作或使用任何形式的信息、情报或数据。例如，计算***可以是或可以包括个人计算机(例如，膝上型计算机)、平板计算机、平板手机、个人数字助理(PDA)、智能电话、智能手表、智能包、服务器(例如，刀片式服务器或机架式服务器)、网络存储设备、照相机或任何其他合适的设备，并且可以在大小、形状、性能、功能和价格上变化。计算***可以包括随机存取存储器(RAM)、一个或多个处理资源，诸如中央处理单元(CPU)或硬件或软件控制逻辑、ROM和/或其它类型的存储器。计算***的额外的组件可以包括一个或多个盘驱动器、用于与外部设备通信的一个或多个网络端口以及各种输入和输出(I/O)设备，诸如键盘、鼠标、触摸屏和/或视频显示器。计算***还可以包括可操作以在各种硬件组件之间传输通信的一个或多个总线。

图6描绘根据本发明的实施例的计算设备/信息处理***(或计算***)的简化框图。应当理解的是，为***600示出的功能可以操作以支持计算***的各种实施例，尽管应当理解，计算***可以被不同地配置并且包括不同的组件，包括具有比如图6中描绘的更少或更多的组件。

如图6所示，计算***600包括一个或多个中央处理单元(CPU)601，其提供计算资源并控制计算机。CPU 601可以用微处理器等实现，并且还可以包括一个或多个图形处理单元(GPU)619和/或用于数学计算的浮点协处理器。***600还可以包括***存储器602，其可以是随机存取存储器(RAM)、只读存储器(ROM)或两者的形式。

如图6所示，还可以提供多个控制器和***设备。输入控制器603表示到诸如键盘、鼠标、触摸屏和/或指示笔等各种输入设备604的接口。计算***600还可以包括用于与一个或多个存储设备608接口的存储控制器607，每个存储设备608包括诸如磁带或磁盘的存储介质，或者可以用于记录用于操作***、实用程序和应用的指令程序的光学介质，所述指令程序可以包括实现本发明的各个方面的程序的实施例。存储设备608也可以用于存储处理过的数据或根据本发明要处理的数据。***600还可以包括显示控制器609，用于提供到显示设备611的接口，显示设备611可以是阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或其他类型的显示器。计算***600还可以包括用于一个或多个***设备606的一个或多个***控制器或接口605。***设备的示例可以包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器614可以与一个或多个通信设备615进行接口连接，这使得***600能够通过包括因特网、云资源(例如，以太网云、以太网光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网(SAN)的多种网络中的任何一种或通过包括红外信号的任何适当的电磁载波信号连接到远程设备。

在所示***中，所有主要***组件可连接到总线616，总线616可表示多于一个物理总线。然而，各种***组件可以彼此物理接近或可以不彼此物理接近。例如，输入数据和/或输出数据可以从一个物理位置远程地发送到另一个物理位置。另外，实现本发明的各方面的程序可通过网络从远程位置(例如，服务器)访问。这样的数据和/或程序可以通过多种机器可读介质中的任何一种传达，所述机器可读介质包括但不限于：磁介质，诸如硬盘、软盘和磁带；光学介质，诸如CD-ROM和全息设备；磁光介质；以及专门配置为存储或存储并执行程序代码的硬件设备，诸如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备以及ROM和RAM设备。

本发明的各方面可被编码在一个或多个非瞬态计算机可读介质上，该介质具有用于一个或多个处理器或处理单元的指令以使得步骤被执行。应当注意的是，一个或多个非瞬态计算机可读介质应当包括易失性和非易失性存储器。应当注意的是，可替换的实施方式是可能的，包括硬件实现或软件/硬件实现。硬件实现的功能可以使用ASIC、可编程阵列、数字信号处理电路等来实现。因此，任何权利要求中的“装置”术语旨在覆盖软件和硬件实现。类似地，如本文所使用的术语“计算机可读介质”包括具有在其上实施的指令程序的软件和/或硬件，或其组合。考虑到这些实现替换，应当理解的是，附图和所附描述提供了本领域技术人员将需要编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理的功能信息。

应当注意的是，本发明的实施例还可以涉及具有非暂时性有形计算机可读介质的计算机产品，该计算机产品具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为本发明的目的而专门设计和构造的，或者它们可以是相关领域的技术人员已知或可获得的类型。有形计算机可读介质的示例包括，但不限于：磁介质，例如硬盘、软盘和磁带；光学介质，例如CD-ROM和全息设备；磁光介质；以及专门配置为存储或存储并执行程序代码的硬件设备，诸如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备以及ROM和RAM设备。计算机代码的示例包括诸如由编译器产生的机器代码，以及包含由计算机使用解释器执行的高级代码的文件。本发明的实施例可以全部或部分地实现为机器可执行指令，其可以在由处理设备执行的程序模块中。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布式计算环境中，程序模块可以物理地位于本地、远程或两者的设置中。

本领域技术人员将认识到，计算***或编程语言对于本发明的实践不是关键的。本领域技术人员还将认识到，上述多个元件可以在物理上和/或功能上分离成子模块或组合在一起。

本领域技术人员将理解，前述示例和实施例是示例性的，并且不限制本发明的范围。在阅读说明书和研究附图之后，本领域技术人员显而易见的所有置换、增强、等同物、组合和改进都包括在本发明的真实精神和范围内。还应注意的是，任何权利要求的元素可以不同地布置，包括具有多个相依性、配置和组合。

Claims

1.一种用于使用一个或多个处理器进行具有主题发现和词嵌入的相互学习的计算机实现方法，以导致执行以下步骤：

对于所述文档集中的每个词：

从主题嵌入矩阵绘制与所述词对应的一个或多个主题嵌入；对于所述文档集中的每个文档：

2.如权利要求1所述的计算机实现方法，其中所述词嵌入矩阵通过预训练的词嵌入被初始化。

3.如权利要求1所述的计算机实现方法，还包括：

为所述文档集配置主题损失函数以优化所述步骤。

4.如权利要求1所述的计算机实现方法，其中所述编码器是使用包括至少主题稀疏参数的词损失函数训练的稀疏自动编码器。

5.如权利要求4所述的计算机实现方法，其中使用所述稀疏自动编码器，通过利用前馈传播编码所述词的词共现，生成所述词嵌入矩阵中的所述词嵌入。

6.如权利要求5所述的计算机实现方法，其中所述前馈传播包括权重矩阵和嵌入偏置向量的参数。

7.如权利要求4所述的计算机实现方法，其中所述词损失函数包括与所述主题稀疏参数有关的Kullback-Leibler(KL)散度。

8.一种用于使用一个或多个处理器生成词嵌入的计算机实现方法，以导致执行以下步骤：

对于每个文档：

构造包括分别对应于多个词对的多个词共现的词共现矩阵；

9.如权利要求8所述的计算机实现方法，其中所述前馈传播包括权重矩阵和嵌入偏置向量的参数。

10.如权利要求9所述的计算机实现方法，其中所述词损失函数还包括Kullback-Leibler(KL)散度以控制权重矩阵以及嵌入偏置向量参数的稀疏性。

11.如权利要求8所述的计算机实现方法，其中从文本窗口中所述文档集的每个文档中的词序列提取所述词共现矩阵。

12.如权利要求11所述的计算机实现方法，其中所述文本窗口是固定的并且跨文档保持相同。

13.如权利要求11所述的计算机实现方法，其中每个词序列具有焦点词及其在以焦点词为中心的文本窗口内的相邻上下文词。

14.如权利要求8所述的计算机实现方法，其中所述词损失函数包括所述主题稀疏参数与主题嵌入的平均激活之间的Kullback-Leibler(KL)散度的项。

15.如权利要求8所述的计算机实现的方法，其中基于混合主题比例从主题矩阵绘制所述主题信息，从所述狄利克雷先验生成所述混合主题比例。

16.一种用于使用一个或多个处理器进行具有主题发现和词嵌入的相互学习的计算机实现方法，以导致执行以下步骤：

计算由主题损失函数和词损失函数组合的总对象函数；以及

17.如权利要求16所述的计算机实现方法，还包括：

使用具有更新的权重矩阵的稀疏自动编码器更新所述词嵌入矩阵。

18.如权利要求16所述的计算机实现方法，其中所述词损失函数包括主题稀疏参数与主题嵌入的平均激活之间的Kullback-Leibler(KL)散度的项。

19.如权利要求16所述的计算机实现方法，还包括：

使用解码器将所述输入词的所述嵌入表示解码回重构的表示。

20.如权利要求19所述的计算机实现方法，其中所述词损失函数包括表示通过所述前馈传播的词嵌入和所述重构的表示之间的重构损失的平均值的项。