CN110914827B

CN110914827B - 生成多语言语义解析器的***和计算机实现方法

Info

Publication number: CN110914827B
Application number: CN201880026388.9A
Authority: CN
Inventors: L·东; H·阿夫沙尔; D·艾斯提沃尔; G·品客; P·科恩; M·E·约翰逊
Original assignee: Serenes Operations
Current assignee: Serenes Operations
Priority date: 2017-04-23
Filing date: 2018-04-23
Publication date: 2024-02-09
Anticipated expiration: 2038-04-23
Also published as: CN110914827A; WO2018203147A3; US20180307679A1; WO2018203147A2; EP3616083A4; EP3616083A2; US10460036B2

Abstract

本申请涉及生成多语言语义解析器的***和计算机实现方法。本公开涉及从第一语言(例如，已经规定了语义解析器的源语言)到第二语言(例如，尚未规定语义解析器的目标语言)的转移学习。一种***可以使用来自一种语言的经训练的模型的知识来对另一种语言进行建模。例如，所述***可以将语义解析器的知识从第一(例如，源)语言转移成第二(例如，目标)语言。当第一语言具有足够训练数据而第二语言具有不足训练数据时，这种知识转移可能会发生并且很有用。前述知识转移可以将语义解析器扩展用于多种语言(例如，第一语言和第二语言)。

Description

生成多语言语义解析器的***和计算机实现方法

相关申请的交叉引用

本申请要求保护2017年4月23日提交的题为“Multi-Lingual Semantic ParserBased on Transferred Learning”的美国临时专利申请系列No.62/488.838的权益，其全部内容通过引用而并入于此。

技术领域

本发明涉及一种用于生成、验证以及使用能够解析多种语言并基于多语言训练进行代码转换的语义解析器的***和方法，该***和方法包括将一种语言的语义解析器的知识转移成另一种语言，用于在自然语言处理中使用。

背景技术

语义解析是将自然语言输入(例如，自然语言话语或其它输入)映射到逻辑形式(诸如Prolog或lambda演算)的任务，这对于计算机更容易理解。通常，可以直接通过数据库查询执行该逻辑形式。语义解析需要应用或域特定的训练数据，因此常规方法是针对语言和应用域的每种组合来制作训练数据。语义解析多半是仅针对某些语言(例如，所谓的高资源语言)开发的，这是因为其构建成本高且耗时。

尽管已经开发了跨域转移学习的技术，但常规***尚未将这种转移学习用于尚未开发语义解析的语言。例如，各种迁移学习方法可能不适用于跨语言转移学习(即，从一种语言到另一种语言的转移)，这是因为这两种语言之间可能没有太多共用特征。

在为多种语言开发语义解析器(包括用于跨不同语言的转移学习的语义解析器)时，存在这些以及其它问题。

发明内容

致力于解决这些和其它缺点的本发明涉及一种用于生成、验证以及使用能够解析多种语言并基于多语言训练进行代码转换的语义解析器的***和方法，用于在自然语言处理中使用。所述***可以生成能够理解采用诸如第一语言和第二语言的多种语言的输入的语义解析器。如本文所用，术语“语言(language)”和类似的术语(诸如“语言学(linguistic)”和“语言(lingual)”)是指诸如英语、德语、日语等的传达含义的单词或符号的结构。

本文所公开的各种***和方法使得在一种语言下的应用域特定的训练数据能够改进性能并且减少在另一种语言下对相同应用域的训练数据的需求。这样的应用(尤其)可以解决必须同时针对多种语言开发单个应用的情况。基于本文的公开，其它用途和优点将是显而易见的。

在一些实现中，所述***执行从第一语言(例如，已经规定了语义解析器的源语言)到第二语言(例如，尚未规定语义解析器的目标语言)的跨语言学习。在一些情况下，可以同时将来自多种语言的数据用于训练，以便生成多语言语义解析器。在一些情况下，所述***可以使用来自一种语言的经训练的模型的知识来对另一种语言进行建模。例如，所述***可以将语义解析器的知识从第一(例如，源)语言转移成第二(例如，目标)语言。当第一语言具有足够训练数据而第二语言具有不足训练数据时，这种知识转移可能会发生并且很有用。前述知识转移可以将语义解析器扩展用于多种语言(例如，第一语言和第二语言)。扩展的语义解析器在本文中可以被称为多语言语义解析器。

在一些实现中，所述***可以生成跨语言单词特征(诸如单词嵌入)作为语言之间的通用链接，同时训练用于语义解析的语言学模型。可以将预处理的***单一语言转储用于训练单词嵌入。可以将第一语言和第二语言两者的翻译词典、机器翻译器或其它翻译源用于生成这样的跨语言单词特征。在一些实现中，可以将跨语言特征并入应用于语义解析的序列到序列模型(“seq2seq模型”)中，以便将该跨语言特征扩展到目标语言。

在一些实现中，在自适应一种或更多种不同的语言之前，多语言语义解析器使用的逻辑形式可以使用与语义解析器相同的逻辑形式。

除了用于对低资源语言进行建模的扩展的语义解析器之外，对模型进行联合训练的一个好处是该模型具有理解两种语言的能力，这还使多语言语义能执行其中自然语言输入包含两种语言的混合的代码转换。因此，例如，可以由多语言语义解析器解析和理解来自以两种语言(例如，一部分或单词采用英语而另一部分或单词采用德语)说话的用户的多语言输入。

可以在各种语境中使用多语言解析器。例如并且无限制地，多语言解析器可以在服务器装置上进行操作，该服务器装置通过网络与从用户接收自然语言话语的终端用户装置(未例示)进行通信。自然语言话语可以是许多语言中的一种(或者在自然语言话语中包括多种语言)。终端用户装置可以通过网络将自然语言话语(例如，话语的音频编码和/或话语的文本转录)发送至服务器，以供该服务器使用多语言语义解析器对所述话语执行自然语言处理。另选地或另外，最终用户装置可以使用多语言语义解析器对话语执行自然语言处理。另外，可以在终端用户装置上本地处理所述话语的全部或一些，同时也可以在服务器处远程处理所述话语的全部或一些。

多语言语义解析器可以解析自然语言话语以确定其意图，只要所述话语包括已经直接训练或者已经扩展了多语言语义解析器的语言即可。在一些情况下，一旦确定了意图，服务器和/或终端用户装置就可以生成响应。所述响应可以采用与输入语言相同的语言(或者与占主导的语言相同的语言，即，输入话语的大部分单词所采用的语言)。另选地，基于意图，可以采用恰当的语言来进行输出(例如，针对诸如“怎么用德语说“洗手间在哪里”的请求)。

当考虑下面的描述和所附权利要求时，在此公开的***和/或方法的这些和其它目的、特征以及特性，和结构与组合部分的相关部件的操作与功能的方法以及制造的经济性将变得更清楚。如在本说明书和权利要求中使用的，单数形式也包括多个指示物，除非上下文另外清楚地规定。

具体实施方式

本发明涉及一种用于生成、验证以及使用能够解析多种语言并基于多语言训练进行代码转换的语义解析器的***和方法，用于在自然语言处理中使用。所述***可以生成能够理解采用诸如第一语言和第二语言的多种语言的输入的语义解析器。如本文所用，术语“语言(language)”和类似的术语(诸如“语言学(linguistic)”和“语言(lingual)”)是指诸如英语、德语、日语等的传达含义的单词或符号的结构。

在一些实现中，***执行从第一语言(例如，已经规定了语义解析器的源语言)到第二语言(例如，尚未规定语义解析器的目标语言)的跨语言学习。在一些情况下，可以同时使用来自多种语言的数据用于训练，以便生成多语言语义解析器。在一些情况下，***可以使用来自一种语言的经训练的模型的知识来对另一种语言进行建模。例如，***可以将语义解析器的知识从第一(例如，源)语言转移成第二(例如，目标)语言。当第一语言具有足够训练数据而第二语言具有不足训练数据时，这种知识转移可能会发生并且很有用。前述知识转移可以将语义解析器扩展用于多种语言(例如，第一语言和第二语言)。扩展的语义解析器在本文中可以被称为多语言语义解析器。

在一些实现中，所述***可以生成跨语言单词特征(诸如单词嵌入)作为语言之间的通用链接，同时训练用于语义解析的语言学模型。可以将第一语言和第二语言两者的翻译词典、机器翻译器或其它翻译源用于生成这样的跨语言单词特征。在一些实现中，可以将跨语言特征并入应用于语义解析的序列到序列模型(“seq2seq模型”)中，以便将该跨语言特征扩展到目标语言。seq2seq模型已经在Dzmitry Bahdanau、Kyunghyun Cho以及YoshuaBengio的“Neural machine translation by jointly learning to align andtranslate”(2014)[CoRR abs/1409.0473.http://arxiv.org/abs/1409.0473]中进行了描述，其内容通过引用而全部并入于此。

下面例示了根据本发明的实现的用于在自然语言处理中使用的基于多语言训练来生成多语言语义解析器的***。在实现中，***可以包括：计算机***、数据库和/或其它组件。***的每个组件可以通过一个或更多个计算机网络以通信方式彼此联结。数据库可以被配置成存储与本文所述的特征和功能有关的信息。例如并且无限制地，数据库可以被配置成存储本文所述的各种信息，诸如各种训练数据、词典、机器翻译说明和/或其它信息。

计算机***

计算机***可以被配置为服务器、台式计算机、膝上型计算机和/或如本文所述的可以被编程以收集和验证用于自然语言处理的数据并且生成用于自然语言处理的语义解析器的其它装置。计算机***可以包括一个或更多个处理器(为方便起见，在本文中也可互换地称为多个处理器、(多个)处理器、处理器)、一个或更多个存储装置(其可以存储本文所述的各种指令)和/或其它组件。处理器可以由一个或更多个计算机程序指令来进行编程。例如，处理器可以由多语言语义解析器生成器进行编程。

多语言语义解析器生成器可以包括：单词特征生成器、模型生成器和/或对计算机***进行编程以执行各种操作的其它指令。如本文所用，为方便起见，当实际上各种指令对处理器(并因此对计算机***)进行编程以执行操作时，所述各种指令将被描述为执行所述操作。

生成跨语言单词特征

在实现中，单词特征生成器可以跨第一(例如，源)语言和第二(例如，目标)语言生成跨语言单词特征(诸如跨语言单词嵌入)。为此，单词特征生成器可以使用采用一种语言的语境来预测采用另一种语言的目标单词。另一种语言的候选单词可以由诸如双语词典、机器翻译器或其它翻译来源的翻译源给出。单词嵌入在Long Duong、Hiroshi Kanayama、Tengfei Ma、Steven Bird以及Trevor Cohn的“Learning crosslingual word embeddingswithout bilingual corpora”In Proceedings of the 2016Conference on EmpiricalMethods in Natural Language Processing.Association for ComputationalLinguistics,Austin,Texas,pages 1285–1295(2016)中进行了描述，其内容通过引用而全部并入于此。

在实现中，可以对具有跨语言单词嵌入的两种语言的源嵌入进行初始化。然而，在一些实现中，不同于上面引入的Duong(2016)，***停止针对这些嵌入的梯度更新。否则，它们可能不会留在相同的空间中，并因此可能无法进行比较。***可以将跨语言单词嵌入(+XlingEmb)应用于下面描述的“所有模型”和“双编码器模型”，并且针对源语言和目标语言加以联合训练。

根据多语言训练数据进行学习的模型

在实现中，模型生成器可以生成具有注意的seq2seq模型。该模型将源输入编码为矢量序列，并且通过对这些序列解码来生成输出。按每个解码时间步，模型对所编码的序列的不同部分加以“注意”。将源话语表示为矢量S₁、S₂、…、S_m的序列。每个矢量S是嵌入查找的输出。该模型可以包括编码器和解码器。编码器可以包括具有门控递归单元(GRU)的双向递归神经网络(RNN)。具有GRU的RNN在Mohammad Pezeshki的“Sequence modeling usinggated recurrent neural networks”[CoRR abs/1501.00299][http://arxiv.org/abs/1501.00299](2015)中进行了描述，其内容通过引用而全部并入于此。

可以将源话语编码为矢量HS＝H_s ¹、H_s ²、…、H_s ^m的序列，其中，每个矢量H_s ^j(1≤j≤m)是在时间j处向前和向后的GRU的隐藏状态的级联。将该注意机制通过对齐矩阵添加至模型：

其中，n是采用逻辑形式的目标令牌的数量。

模型生成器可以添加开始定界符和结束定界符(例如，“<s>”和“</s>”)以标记目标句子的开始和结束。在生成w_i时所述源的“瞥见(glimpse)”矢量c_i由下式给出：

解码器可以包括具有GRU单元的另一RNN。在每个时间步，解码器长短期记忆(“LSTM”)除了先前输出的单词以外还接收c_i。因此，解码器在时间i的隐藏状态可以规定为：

其被用于预测单词w_i：

其中，g是仿射变换。

模型生成器可以将70个维用于源GRU中的隐藏状态和存储器单元两者，并将60个维用于目标GRU。模型生成器可以针对使用小批量256个并在开发数据上提早停止的负对数似然，来使用RMSprop对该模型进行训练。RMSprop在Tieleman和Hinton的“Lecture 6.5—RmsProp:Divide the gradient by a running average of its recent magnitude”[COURSERA:Neural Networks for Machine Learning](2012)中进行了描述，其内容通过引用而全部并入于此。如果在1000次迭代后未观察到改进，则初始学习率可以为0.002，并且可以以0.1的衰减率衰减。如果梯度的l2范数大于10，则可以将该梯度重新缩放。源GRU单元和目标GRU单元两者的辍学(dropout)可以分别以40％的输入辍学率和和25％的输出辍学率实现。源GRU的初始状态是可训练的，并且目标GRU的初始状态是利用源GRU的最后状态进行初始化的。非嵌入权重利用Xavier初始化来进行初始，这在Glorot和Bengio的“Understanding the difficulty of training deep feedforward neural networks”Proceedings of the Thirteenth International Conference on ArtificialIntelligence and Statistics.PMLR,Chia Laguna Resort,Sardinia,Italy,volume 9of Proceedings of Machine Learning Research,pages 249–256.(2010)中进行了描述，其内容通过引用而全部并入于此。

在一些实现中，模型生成器可以通过生成不同的配置(这些不同的配置是不同的优化器、源RNN大小和目标RNN大小、RNN单元类型3、辍学率以及小批量大小的置换)来调整针对开发数据的基础注意模型。

在一些实现中，模型生成器可以利用在***转储上使用word2vec训练的预训练的单一语言单词嵌入来初始化所述模型中的单词嵌入。Word2vec在Tomas Mikolov、Wen-tau Yih以及Geoffrey Zweig的“Linguistic regularities in continuous space wordrepresentations”In Proceedings of the 2013 Conference of the North AmericanChapter of the Association for Computational Linguistics:Human LanguageTechnologies.Association for Computational Linguistics,Atlanta,Georgia,pages746–751,[http://www.aclweb.org/anthology/N13-1090](2013)中进行了描述，其内容通过引用而全部并入于此。

在一些实现中，模型生成器可以利用简单的方法来处理未知的单词。在训练期间，可以用诸如“UNK”的符号替换频度较低且大写的所有单词。也可以使用其它符号。有效地，可以将数据集中的低频度命名的实体作为目标。另选地或另外，可以使用命名实体识别。然而，与常规***不同，保留了训练数据中的原始句子(或其它数据)。在测试时间期间，用源话语中的对应单词替换(从左到右)采用逻辑形式的UNK符号。

转移学习

双模型

所述***可以将上述基本注意模型扩展成双编码器，其中一个编码器用于第一(例如，源)语言，另一个编码器用于第二(例如，目标)语言。例如，可以按两个方向(取决于模型)将英语用作源语言，而将德语用作目标语言。该解码器是跨语言共用的。前述可以被称为“双模型”。使用源RNN编码器或者目标RNN编码器来计算出瞥见矢量c_i，因为源语言和目标语言都可以使用相同的目标逻辑形式。可以针对源语言和目标语言两者的组合的数据来所述模型进行训练。对于每个小批量，可以装入(fetched)源语言数据或目标语言数据，并且可以使用对应的RNN编码器来对矢量进行编码。

全模型

在一些实现中，模型生成器可以创建新的训练数据集

D_all＝D_s∪D_t

其中，D_s和D_t分别是针对源语言和目标语言的训练数据。这可以称为“全模型(Allmodel)”。该全模型可以理解为双模型，但不是只有目标RNN而是源RNN和目标RNN两者都是共用的，在源语言与目标语言之间仅嵌入矩阵是不同的。

验证和评估

在实现中，将NLmaps语料库(这是英语和德语两者的语义解析语料库)用于训练本文所述的模型。下表1中给出了成对的话语和逻辑形式的示例。

表1。针对英语(en)和德语(de)的NLmaps语料库中的成对的自然话语和逻辑形式的训练数据示例。

话语使用不同的语言，但逻辑形式采用相同的格式。在一些实现中，语料库的条目可以通过例如并且无限制地去除引号、在“(”和“)”周围添加空格以及在话语结尾处分隔任何问号来进行标记化。对于每种语言，语料库包含1500对的自然语言和用于进行训练的对应逻辑形式、以及用于测试的880对。在一些情况下，将训练集的大约10％用作提早停止和超参数调整的开发数据。为了评估，可以将精确匹配准确度用于逻辑形式。

下面描述双向转移学习的学习曲线。利用有英语与德语之间的双语词典，针对经过预处理的***单一语言转储来训练跨语言单词嵌入。机器翻译***可以包括一个或更多个机器翻译***。

TGT Only单独将基本注意模式应用于目标语言数据。Dual使用双编码器。全部与TGT Only相似，但是针对两种语言的组合数据进行了训练。All+XlingEmb另外使用跨语言单词嵌入。翻译的模型使用机器翻译***。在1500个句子的情况下，由于开发数据可能无法提早停止，因此可能对所述模型进行10,000次的迭代训练。

请注意，仅针对目标(TGT Only)训练的基线注意模型对于高资源场景是鲁棒的，但在低资源场景中表现不佳。Dual模型的表现与英语的基线注意模型相似，而对于德语来说，Dual模型的表现稍差。组合数据的简单方法(全模型)的表现惊人，尤其是在低资源场景的情况下，该模型比两种语言的基线注意模型都要好20％。引入跨语言单词嵌入(+XlingEmb)持续改进所有数据大小的性能。对于en！de方向来说，这种改进更加显著。最后，如果使用机器翻译***，那么通过利用来自源语言的翻译对所述数据进行扩充，可以进一步改进目标语言的性能。尤其是在低资源的情况下，该技术可以大大改进有关目标语言的性能。如果未使用目标语言数据，并且所述***针对Dtrans＝translate(Ds)来进行训练，那么所述***对于英语和德语的准确度可能分别达到61.3％和48.2％。这对应于远侧的监督基线，在该监督基线上，训练数据是由机器翻译***赋予的“银色”。这个基线相当于分别针对有关英语的600个金句和德语的450个金句的监督学习。

通过联合训练有关英语和德语两者的模型，所述***还可以处理其中自然语言话语是两种或更多种语言(诸如英语和德语)的混合的代码转换数据。(代码转换的典型示例是“How many hospitals gibt es in Paris？”)。即使在各种实现中，这些模型是在它们的输入中没有代码转换训练示例的情况下，仅针对“纯”英语话语和德语话语来进行训练的，也可以获得处理前述和其它代码转换数据的能力。

在一些实现中，一个流利的双语者创建了代码转换测试数据集，他生成了NLmaps测试集中的880个示例的代码转换话语。有大约一半的话语是“Denglish”(即，嵌入英语矩阵句子中的德语短语)，而另一半话语是“Gamerican”(嵌入德语矩阵句子中的英语短语)。NLmaps语料库包括每个测试示例的英语话语和德语发音，并且在可能的情况下，我们的代码转换话语是这些的组合(如果可以改进流利度，那么我们的一些代码转换示例将与对应的英语话语以及德语话语有所不同)。然后，使用如本文所述生成的模型和多语言解析器来对代码转换测试数据集进行分析。

表2例示了有关代码转换数据集的模型的结果。结果表明，即使在所述模型中任何模型的训练集中都没有代码转换示例，针对所述代码转换测试示例，All+XlingEmb模型的表现也明显优于基线单语言模型。

下面例示用于基于自动生成的运算符以及与用于在自然语言处理中使用的这些运算符有关的用户指定的话语来生成语义解析器的过程，并且对可以被编程成执行所述过程的***组件的示例进行说明。

下面例示根据本发明的实现的用于在自然语言处理中使用的用于基于多语言训练来生成多语言语义解析器的过程。

生成跨语言单词功能(例如，用于初始化具有注意的seq2seq模型的单词嵌入)。例如，可以将英语方面的诸如预处理的***数据转储的特征训练数据集用于确定诸如德语之类的目标语言方面的源单词(例如，英语)的含义。每个单词嵌入可以传达给定的单词的含义(在语境中)。例如，可以将特征训练数据集的句子中的给定单词的语境用于确定其翻译(例如，英语中的“bank”可能对应于金融银行或河堤。在另一语言中，金融“银行(bank)”和河“堤(bank)”可能是不同的词。将英语句子中的在前的单词的语境用于区分哪个单词适用)。为了根据语境查找此类翻译，可以使用翻译源，诸如目标语言和源语言两者的双语词典或机器翻译***。在一些情况下，对于目标语言方面的特征训练数据集，可以重复前述步骤。在一些情况下，可以执行联合训练，其中，对每种语言中的单词的含义进行预测(例如，即使训练数据显示“bank”，也要预测英语单词“bank”的含义，然后使用词典或机器学习来确定该单词在德语中的含义)。

可以生成一个或更多个编码器。在一些情况下，可以生成至少两个编码器-一个编码器用于源语言，一个编码器用于目标语言。源编码器可以采用源语言对话语输入进行编码，并将这些话语输入编码成矢量，每个矢量均对应于基于源语言的单词(包括该单词的基于单词嵌入的目标语言对应物)。目标编码器也是如此，但是针对目标语言的。每个编码器可以表示被用于对给定话语中的一系列输入单词进行分析的RNN。

可以生成解码器。在一些情况下，可以生成单个解码器，该单个解码器可以将源编码器和目标编码器两者的输出作为输入。该解码器可以确定每个矢量的单词的含义。

可以使语义解析器适于基于编码器、解码器以及跨语言单词特征来对源语言进行处理。例如，该过程可以获取多语言训练数据(例如，英语和德语两者的NLMaps语料库。该训练集采用英语和德语两者来进行有关地图/导航的查询)。可以将所述编码器和解码器用于分析多语言训练数据以对语言模型进行训练，用于生成能够处理采用多种语言的自然语言话语的语义解析器。例如，可以基于所确定的单词的含义以及这些单词的相关翻译来生成逻辑形式。逻辑形式是话语的含义的机器可读版本。一旦进行了适应，多语言语义解析器就可以解释自然语言的话语，这些话语中的一些或全部可以使用源语言来制作。

一个或更多个处理器都可以包括由计算机程序指令编程的一个或更多个物理处理器。本文所述的各种指令仅是示例性的。可以使用其它配置和指令数量，只要处理器被编程成执行本文所述的功能即可。

此外，应当清楚，尽管各种指令被例示为共同位于单一处理单元内，但在处理器包括多个处理单元的实现中，一个或更多个指令可以与其它指令相对远程地加以执行。

本文所述的对由不同指令提供的功能的描述是出于例示性目的，而不是进行限制，因为指令中的任一个都可以提供比所述的指令更多或更少的功能。例如，可以消除指令中的一个或更多个，并且该指令的功能中的一些或全部功能可以由所述指令的其它功能来提供。作为另一示例，处理器可以由一个或更多个附加指令来进行编程，这些附加指令可以执行本文中归因于所述指令中的一个指令的功能中的一些或全部。

本文所述的各种指令可以存储在存储装置中，该存储装置可以包括随机存取存储器(RAM)、只读存储器(ROM)和/或其它存储器。存储装置可以存储要由处理器执行的计算机程序指令(例如，前述指令)以及可以由处理器操纵的数据。该存储装置可以包括软盘、硬盘、硬盘、光盘、磁带或者用于存储计算机可执行指令和/或数据的其它存储介质。

本文所述的各种数据库可以是、包括或者连接至例如由Oracle Corporation市售的Oracle^TM关系数据库。还可以使用、并入或访问其它数据库，诸如Informix^TM、DB2(数据库2)或其它数据存储(包括基于文件的格式或查询格式、平台或资源(诸如OLAP(在线分析处理)、SQL(结构化查询语言)、SAN(存储区域网络)、Microsoft Access^TM或其它资源)。所述数据库可以包括驻留在一个或更多个物理装置中以及一个或更多个物理位置中的一个或更多个这样的数据库。所述数据库可以存储多种类型的数据和/或文件以及关联的数据或文件描述、管理信息或任何其它数据。

各种组件可以经由网络联结至至少一个其它组件，该网络可以包括例如以下网络中的任一种或更多种：互联网、企业内联网、PAN(个人局域网)、LAN(局域网)、WAN(广域网)，SAN(存储区域网络)、MAN(城域网)、无线网络、蜂窝通信网络、公共交换电话网络和/或其它网络。可以使用与所描绘的实体在数量上不同的实体。此外，根据各种实现，可以采用硬件和/或配置硬件的软件来实现本文所述的组件。

本文对各种处理操作和/或数据流进行了更详细描述。可以使用上面详细描述的***组件中的一些或全部来完成所述操作，并且在一些实现中，可以以不同的顺序执行各种操作，并且可以省略各种操作。可以与操作中的一些或全部一起来执行附加操作。可以同时执行一个或更多个操作。因此，如所示(并在上面更详细地描述)的操作本质上是示例性的，从而不应被视为限制。

通过考虑本文所公开的发明的说明书和实践，本发明的其它实现、用途以及优点对于本领域技术人员将是显而易见的。

Claims

1.一种基于从具有足够训练数据的第一语言到具有不足训练数据的第二语言的转移学习来生成多语言语义解析器的***，所述***包括：

计算机***，所述计算机***被编程成：

获取采用所述第一语言的单词语料库；

基于所述单词语料库中的语境信息以及从所述第一语言到所述第二语言对所述单词语料库中的相应源单词的翻译来生成多个跨语言单词特征，所述多个跨语言单词特征中的每一个预测与所述相应源单词相对应的采用所述第二语言的目标单词；

至少获取采用所述第一语言的第一预定话语；

至少使用第一编码器将所述第一预定话语编码为多个第一矢量，其中，每个第一矢量是基于使用所述第一预定话语中的相应单词对所述多个跨语言单词特征的查找；

使用解码器对所述多个第一矢量解码，以生成与采用所述第一语言的所述第一预定话语相对应的采用所述第二语言的一个或更多个单词；以及

至少基于经解码的多个第一矢量来自适应针对所述第一语言训练的语义解析器，以生成对具有采用所述第二语言的一个或更多个单词的话语进行解析的所述多语言语义解析器，

其中，所述计算机***还被编程成：

至少获取采用所述第二语言的第一预定话语，其中，采用所述第一语言的第一预定话语和采用所述第二语言的第一预定话语是从预定训练数据集获取的；

至少使用第二编码器将采用所述第二语言的第一预定话语编码为多个第二矢量，其中，每个第二矢量是基于使用第二预定话语中的相应单词对所述多个跨语言单词特征的查找；

使用解码器对所述多个第二矢量解码，以生成与采用所述第二语言的第一预定话语相对应的采用所述第一语言的一个或更多个单词；并且

其中，所述多语言语义解析器还基于经解码的多个第二矢量进行自适应。

2.根据权利要求1所述的***，其中，为了生成所述多个跨语言单词特征，所述计算机***被编程成：

基于所述单词语料库中的与所述单词语料库的第一单词相邻的一个或更多个单词来确定所述单词语料库的所述第一单词的语境。

3.根据权利要求1所述的***，其中，所述计算机***还被编程成：

针对采用所述第一语言的第一预定话语以及采用所述第二语言的第一预定话语两者规定和使用具有单一格式的逻辑形式。

4.根据权利要求1所述的***，其中，从所述第一语言到所述第二语言对所述相应源单词的翻译是经由词典或机器翻译来进行的。

5.根据权利要求1所述的***，其中，为了对所述多个第一矢量解码，所述计算机***被编程成：

至少针对所述多个第一矢量当中的第一矢量，注意所述多个第一矢量的不同部分以对所述第一矢量解码，以使用生成的单词嵌入来确定采用所述第二语言的单词的含义。

6.根据权利要求1所述的***，其中，所述计算机***还被编程成：

利用针对采用所述第一语言的第二单词语料库训练的、预先训练的单词嵌入来初始化所述多个跨语言单词特征。

7.根据权利要求1所述的***，其中，所述计算机***还被编程成：

标识所述单词语料库中的低频度单词；

用符号替换所述低频度单词；以及

在训练期间以所述符号为目标以消除所述低频度单词的歧义。

8.根据权利要求1所述的***，其中，所述计算机***还被编程成：

标识所述单词语料库中的低频度单词；

用符号替换所述低频度单词；以及

基于命名的实体识别输入来获取与所述低频度单词相关联的实体的标识。

9.根据权利要求1所述的***，其中，所述计算机***还被编程成：

接收包括采用所述第二语言的一个或更多个单词的自然语言话语；并且

使用所述多语言语义解析器来对所述自然语言话语进行解析。

10.根据权利要求9所述的***，其中，所述自然语言话语还包括采用所述第一语言的一个或更多个单词，并且其中，所述多语言语义解析器被配置为对所述自然语言话语中的采用所述第一语言的所述一个或更多个单词进行解析。

11.根据权利要求10所述的***，其中，所述计算机***还被编程成：

标识在所述自然语言话语中所述第一语言或所述第二语言中的占主导的语言；并且

采用在所述自然语言话语中所述第一语言或所述第二语言中的所述占主导的语言来生成对所述自然语言话语的响应。

12.根据权利要求10所述的***，其中，所述计算机***还被编程成：

标识从所述自然语言话语输出的请求的语言；并且

采用所述请求的语言来生成对所述自然语言话语的响应。

13.根据权利要求1所述的***，其中，所述单词语料库涉及单一信息域。

14.一种基于从具有足够训练数据的第一语言到具有不足训练数据的第二语言的转移学习来生成多语言语义解析器的计算机实现方法，所述方法在计算机***上实现，所述方法包括以下步骤：

获取采用所述第一语言的单词语料库；

至少获取采用所述第一语言的第一预定话语；

其中，所述方法还包括：

15.根据权利要求14所述的计算机实现方法，其中，生成所述多个跨语言单词特征的步骤包括：