CN116745773A - 跨语言装置和方法 - Google Patents
跨语言装置和方法 Download PDFInfo
- Publication number
- CN116745773A CN116745773A CN202180091313.0A CN202180091313A CN116745773A CN 116745773 A CN116745773 A CN 116745773A CN 202180091313 A CN202180091313 A CN 202180091313A CN 116745773 A CN116745773 A CN 116745773A
- Authority
- CN
- China
- Prior art keywords
- language
- neural network
- network model
- expression
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000014509 gene expression Effects 0.000 claims abstract description 96
- 238000003062 neural network model Methods 0.000 claims abstract description 74
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 9
- 239000003550 marker Substances 0.000 claims description 5
- 230000001052 transient effect Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000007786 learning performance Effects 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- DRBJAKLMKNARRC-UHFFFAOYSA-N 5-(5-methylthiophen-3-yl)oxy-1h-pyrimidin-2-one Chemical compound S1C(C)=CC(OC2=CNC(=O)N=C2)=C1 DRBJAKLMKNARRC-UHFFFAOYSA-N 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 229910015234 MoCo Inorganic materials 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003071 parasitic effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
描述了一种用于在源语言与至少一种目标语言之间进行跨语言训练的装置(500)和方法(400)。所述方法包括:接收(401)多个输入数据元素,所述多个输入数据元素中的每一个包括所述源语言的第一语言表达式(204)和所述目标语言的第二语言表达式(205),所述第一语言表达式和所述第二语言表达式在各自语言中具有对应的含义;通过重复执行以下步骤来训练神经网络模型(208):i.选择(402)所述多个输入数据元素中的一个;ii.通过所述神经网络模型获得(403)所述选择的输入数据元素的所述第一语言表达式的第一表示;iii.通过所述神经网络模型获得(404)所述选择的输入数据元素的所述第二语言表达式的第二表示;iv.根据所述神经网络模型对所述第一语言表达式的性能,形成(405)第一损失;v.形成(406)指示所述第一表示与所述第二表示之间的相似性的第二损失;vi.根据所述第一损失和所述第二损失,自适应(407)所述神经网络模型。这可以提高模型在跨语言自然语言理解和分类任务中的性能。
Description
技术领域
本发明涉及使用跨语言预训练语言模型将任务知识从一种语言转移到另一种语言。
背景技术
跨语言转换器是一种预训练语言模型,在许多自然语言处理(Natural LanguageProcessing,NLP)中充当主导方法。这些大型模型能够使用多种语言进行计算,因为它们的多语言词汇表涵盖100多种语言,并且已经在大型数据集上(有时通过并行数据)进行预训练。
在监督学习中,每种语言和每个任务的模型训练都需要带标签的数据。但是,对于大多数语言,这并不可用。通常,通过转换为需要涵盖的语言并对一种或两种语言进行训练,或者通过将转换数据用作预训练任务(大规模训练)或多任务(仅使用任务特定数据)对齐模型来解决该问题。
一种现有技术方法是转换+训练。该方法采用传统的监督方式对模型进行训练,其中训练数据通常从英语转换为资源不足的目标语言。测试+转换变体相似,但测试数据从目标语言转换为源语言(通常转换回英语),并使用以资源充足的语言训练的模型。此外,命名实体识别等任务还需要标签对齐,因为一旦转换为其它语言,单词的顺序就会发生变化。Dyer等人在“IBM模型2的简单、快速、有效的重新参数化(A simple,fast,and effectivereparameterization of ibm model 2)”(《计算语言学协会北美分会2013年会议汇刊:人类语言技术》,第644-648页,2013年)中描述的快速对齐是一种常用的方法,用于将句子中的每个单词(一种语言)与其在所转换句子中的对应单词进行匹配,但对零样本学习性能的改进有限。
另一种已知的方法是Becker等人在“在随机点立体图中发现表面的自组织神经网络(Self organizing neural network that discovers surfaces in random-dotstereograms)”(《自然》第335卷第6356期,第161-163页,1992年)中描述的对比学习(Contrastive Learning,CL)。NLP中的CL旨在通过最大化正样本(具有相同的句子含义)的相似性和最小化否定句(具有不同的句子含义)的相似性来改进不同语言的句子表示。
Chen等人在“视觉表示对比学***均池化也可用作句子表示。该方法在很大程度上依赖于负样本的质量,负样本质量的产生并非易事。CL通常与大量数据一起使用,不是特定于任务的。
在其它方法中,如Cao等人在“上下文单词表示的多语言对齐(Multilingualalignment of contextual word representations)”(arXiv预印本网站arXiv:2002.03518,2020年)中所描述的,数据和模型对齐的组合使用单独的单词表示,来将模型与注意力矩阵(句子对齐结果劣于转换-训练,但优于单词对齐)或重建注意力矩阵(如Xu等人在“跨语言NLU的端到端时隙对齐和识别(End-to-End Slot Alignment andRecognition for Cross-Lingual NLU)”(arXiv预印本网站arXiv:2004.14353,2020年)中所描述的)对齐。Feng等人在“与语言无关的BERT句子嵌入(Language-agnostic bertsentence embedding)”(arXiv预印本网站arXiv:2007.01852,2020年)中描述的LaBSe使用CLS令牌,但针对经过大量数据训练的通用任务多语言句子嵌入进行了优化。
需要开发一种跨语言应用的模型训练方法,以克服现有技术的问题。
发明内容
根据一个方面,提供了一种用于在源语言与至少一种目标语言之间进行跨语言训练的装置,所述装置包括一个或多个处理器,所述一个或多个处理器用于执行以下步骤:接收多个输入数据元素,所述多个输入数据元素中的每一个包括所述源语言的第一语言表达式和所述目标语言的第二语言表达式,所述第一语言表达式和所述第二语言表达式在各自语言中具有对应的含义;通过重复执行以下步骤来训练神经网络模型:i.选择所述多个输入数据元素中的一个;ii.通过所述神经网络模型获得所述选择的输入数据元素的所述第一语言表达式的第一表示;iii.通过所述神经网络模型获得所述选择的输入数据元素的所述第二语言表达式的第二表示;iv.根据所述神经网络模型对所述第一语言表达式的性能,形成第一损失;v.形成指示所述第一表示与所述第二表示之间的相似性的第二损失;vi.根据所述第一损失和所述第二损失,自适应所述神经网络模型。
通过这种方式训练所述神经网络模型可以进一步提高现有模型在跨语言自然语言理解和分类任务中的性能。
所述神经网络模型的性能可以基于所述神经网络模型的预期输出与实际输出之间的差值确定。这可以方便地确定所述模型的性能。
所述神经网络模型可以根据语言表达式的含义形成所述语言表达式的表示。这可以允许对所述输入数据元素进行分类。
所述语言表达式中的至少一些可以是句子。这可以方便地允许形成可以用于训练所述模型的会话短语或教学短语的表示。
在所述训练步骤之前,与所述第二语言的语言表达式相比,所述神经网络模型更能对所述第一语言的语言表达式进行分类。例如,所述第一语言可以是英语(随时提供可用的带标签数据)。在所述训练步骤之后,相比在所述训练步骤之前,所述神经网络模型更能对所述第二语言的语言表达式进行分类。因此,所述训练步骤可以提高所述模型对所述第二语言的语言表达式进行分类的性能。
所述神经网络模型可以包括通过权重链接的多个节点,自适应所述神经网络模型的所述步骤包括将所述第一损失和所述第二损失反向传播到所述神经网络模型的节点以调整所述权重。这可以是一种用于更新所述神经网络模型的便捷方法。
所述第二损失可以根据相似性函数形成,所述相似性函数表示通过所述神经网络模型获得的所述选择的输入数据元素的所述第一语言表达式的所述表示与所述第二语言表达式的所述表示之间的所述相似性。所述相似性函数可以是将两个嵌入/向量作为输入并计算它们之间的距离的任意函数(例如,MSE、MAE、点积、余弦等)。这可以有助于确保所述嵌入在两种语言中相似(对齐),从而可以提高零样本学习性能。
所述神经网络模型能够根据语言表达式形成输出,所述训练步骤包括:至少响应于所述选择的数据元素的所述第一语言表达式,根据所述神经网络模型的进一步输出形成第三损失;响应于所述第三损失,自适应所述神经网络模型。对于主任务/主要任务,可能会增加进一步的损失。
所述输出可以表示所述第一语言表达式的序列标记。因此,所述主任务可以包括序列标记任务,例如时隙标记,其中,所述序列中的每个令牌根据实体类型进行分类。
所述输出可以表示预测所述第一语言表达式的单个类标签或类标签序列。任何附加损失可能来自其它任务,例如问答任务或文本分类任务。
可以在没有直接指示所述第二语言的语言表达式的分类的数据的情况下执行所述训练步骤。使用零样本学习可以允许将以一种语言表示为注释或标签的任务知识转移到没有任何训练数据的语言。这可以降低所述训练的计算复杂性。
所述装置还可以包括所述神经网络模型。所述模型可以存储在所述装置中。
根据第二方面,提供了一种数据载体,所述数据载体以非瞬时形式存储数据,所述数据定义神经网络分类器模型,所述神经网络分类器模型能够对多种语言的语言表达式进行分类,并且所述神经网络分类器模型用于输出相同的分类,以响应于彼此具有相同含义的所述第一语言和所述第二语言的语言表达式。
所述神经网络分类器模型可以由上述装置训练。这可以允许在电子设备(例如,智能手机)中实现所述训练的神经网络模型,以用于实际应用。
根据另一方面,提供了一种语言分析设备,所述语言分析设备包括如上所述的数据载体、音频输入设备和一个或多个处理器,用于:从所述音频输入设备接收输入音频数据;将所述输入音频数据作为输入应用于存储在所述数据载体上的所述神经网络分类器模型以形成输出;根据所述输出执行控制动作。例如,这可以允许使用语音输入来控制电子设备。
所述语言分析设备可以用于通过存储在所述数据载体上的所述神经网络分类器模型实现语音助手功能。这可能是智能手机和扬声器等现代电子设备所需要的。其它应用也是可能的。
所述音频输入设备可以是包含在所述设备中的麦克风。所述音频输入设备可以是无线接收器,所述无线接收器用于从所述设备本地的耳机接收数据。这些实现方式可以允许在语音助手应用中使用所述设备。
根据另一方面,提供了一种用于在源语言与至少一种目标语言之间进行跨语言训练的方法,所述方法包括执行以下步骤:接收多个输入数据元素,所述多个输入数据元素中的每一个包括所述源语言的第一语言表达式和所述目标语言的第二语言表达式,所述第一语言表达式和所述第二语言表达式在各自语言中具有对应的含义;通过重复执行以下步骤来训练神经网络模型:i.选择所述多个输入数据元素中的一个;ii.通过所述神经网络模型获得所述选择的输入数据元素的所述第一语言表达式的第一表示;iii.通过所述神经网络模型获得所述选择的输入数据元素的所述第二语言表达式的第二表示;iv.根据所述神经网络模型对所述第一语言表达式的性能,形成第一损失;v.形成指示所述第一表示与所述第二表示之间的相似性的第二损失;vi.根据所述第一损失和所述第二损失,自适应所述神经网络模型。
这种训练所述神经网络模型的方法可以进一步提高现有模型在跨语言自然语言理解和分类任务中的性能。
所述方法还可以应用于通过音频信号以外的方法获得的原始文本,例如,爬网获取数据。
附图说明
现在将结合附图通过示例的方式描述本发明,其中:
图1示出了跨语言NLU多任务架构的示意图;
图2示出了使用集成在图1所示XNLU架构中的对齐任务的方法的示意图;
图3示出了本文所述方法的对齐算法的示例的简要描述;
图4总结了用于在源语言与至少一种目标语言之间进行跨语言训练的方法的示例;
图5示出了包括语言分析设备的装置的示例;
图6(a)和图6(b)示出了图6(a)(XLM-RA实施例)中使用对齐损失的本发明方法与图6(b)中对比对齐损失的先验方法之间的比较;
图7示出了一些已知方法与本文所述方法的实施例之间的差异;
图8涉及本文所述方法的一些实施例与一些已知方法之间的方法差异;
图9概述了本文所述方法的一些实施例中使用的损失函数与对比损失之间的差异。
具体实施方式
本发明的实施例涉及使用跨语言预训练语言模型(pretrained language model,PXLM)将任务知识从一种语言转移到另一种语言。
优选地,本发明的实施例使用零样本学习,旨在将以一种语言表示为注释或标签的任务知识转移到没有任何训练数据的语言。所述零样本学习是指所述PXLM能够将所述任务知识从一种语言泛化到另一种语言(不提供可用的带标签数据)。
所述模型可以以一种语言(或多种语言)(例如,英语(带有可用标签))进行训练,并以一种语言(或多种语言)(不提供可用的带标签数据)进行测试。这是因为,通常,PXLM不能充分泛化,即无法以没有明确注释数据的语言实现相同的任务性能。
本文所述方法旨在提高PXLM在不带标签语言(大多数语言)中的零样本学习任务性能。因此,可以在没有直接指示所述第二语言的语言表达式的分类的数据(可以是不带标签数据)的情况下执行所述训练步骤。
在本文所述方法中,在训练期间,接收多个输入数据元素,所述多个输入数据元素用作训练数据以训练神经网络。所述多个输入数据元素中的每一个包括所述源语言(例如,英语)的第一语言表达式和所述目标语言(例如,泰语)的第二语言表达式。所述第一语言表达式和所述第二语言表达式在各自语言中具有对应的(即,相似)含义。
所述训练数据用于训练所述神经网络模型。所述神经网络模型可以根据语言表达式的含义形成所述语言表达式的表示。优选地,所述语言表达式中的至少一些是句子。
选择所述多个输入数据元素中的一个,并通过所述神经网络模型获得所述选择的输入数据元素的所述第一语言表达式的第一表示。此外,通过所述神经网络模型获得所述选择的输入数据元素的所述第二语言表达式的第二表示。根据所述神经网络模型对所述第一语言表达式的性能,形成第一损失。所述神经网络模型的性能可以基于所述神经网络模型的预期输出与实际输出之间的差值确定。形成指示所述第一表示与所述第二表示之间的相似性的第二损失。然后,根据所述第一损失和所述第二损失,自适应所述神经网络模型直到收敛。所述神经网络模型可以包括通过权重链接的多个节点,自适应所述神经网络模型的所述步骤包括将所述第一损失和所述第二损失反向传播到所述神经网络模型的节点以调整所述权重。
在所述训练步骤之前,与所述第二语言的语言表达式相比,所述神经网络模型更能对所述第一语言的语言表达式进行分类。所述模型的所述训练可以提高所述模型对所述第二语言的所述输入语言表达式进行分类的性能。
所述神经网络模型能够根据语言表达式形成输出。所述训练步骤可以包括:至少响应于所述选择的数据元素的所述第一语言表达式,根据所述神经网络模型的进一步输出形成第三损失;响应于所述第三损失,自适应所述神经网络模型。对于主要任务,可能会增加进一步的损失。
在一些实现方式中,所述输出可以表示所述第一语言表达式的序列标记。在其它情况下,所述输出表示预测所述第一语言表达式的单个类标签或类标签序列。
在一优选实现方式中,所述模型是转换器模型。所述转换器模型基于预训练语言模型。在本文所述示例中,所述PXLM模型是XLM-Roberta(XLM-Roberta,XLM-R),如Conneau等人在“大规模无监督跨语言表示学习(Unsupervised cross-lingual representationlearning at scale)”(arXiv预印本网站arXiv:1911.02116,2019年)中所描述的。XLM-R是Huggingface(https://huggingface.co/)团队公开提供的预训练模型。可以使用其它模型。
图1示意性地示出了主任务的示例。在一些实施例中,可以使用多任务(例如,Li等人在“MTOP:一种面向任务的综合性多语言语义分析基准”(MTOP:A ComprehensiveMultilingual Task-Oriented Semantic Parsing Benchmark)(arXiv预印本网站arXiv:2008.09335,2020年)中以及Schuster等人在“面向多语言任务对话的跨语言迁移学习(Cross-lingual transfer learning for multilingual task oriented dialog)”(arXiv预印本网站arXiv:1810.13327,2018年)中描述的MTOP)。
例如,在图1的示例中,跨语言自然语言理解(cross-lingual natural languageunderstanding,XNLU)是两个相关任务(任务A和任务B)的组合实例。所述XNLU需要优化两个子任务:意图分类和时隙标记。
此外,还可以使用其它NLP任务。例如,情感分析为文本输入分配“积极”、“消极”或“中性”标签。多选问答也可以表述为分类任务。可能有多个主要任务损失。例如,在个人助手应用中,同时学习两个任务,但其它应用可能不是这样。
存在所述源语言(语言S)的某个NPL任务(任务A101)(如果是多任务,还包括一个或多个其它任务B、C等)的带标签数据。在该示例中,目的是仅使用转换/并行训练数据(从语言S到语言T)最大化对所述目标语言(语言T)的任务A(如果是多任务,还包括一个或多个其它任务)的零样本学习性能,但不提供语言T的任何带标签数据。
在图1的示例中,101处所示的任务A是文本分类任务。在该任务中,给定句子/段落或某个其它令牌序列,目的是确定所述输入文本的类别/类型/关系。这可以使用任何便捷方法来实现,包括本领域已知的方法,例如对话式人工智能中的意图分类(参见Li等人的“MTOP:一种面向任务的综合性多语言语义分析基准(MTOP:A ComprehensiveMultilingual Task-Oriented Semantic Parsing Benchmark)”(arXiv预印本网站arXiv:2008.09335,2020年)以及Schuster等人的“面向多语言任务对话的跨语言迁移学习(Cross-lingual transfer learning for multilingual task oriented dialog)”(arXiv预印本网站arXiv:1810.13327,2018年))。
CLS是一个句子/输入嵌入/表示(所述句子或输入的含义)。102处所示的CLS_X是语言X的句子/输入嵌入/表示。
在图1的示例中,103处所示的任务B是序列标记任务。所述时隙标记是所述序列标记的一个示例,其中所述序列中的每个令牌需要根据实体类型进行分类(令牌也没有实体类型)。
104处示出的X向量是用于语言X的输入文本的令牌嵌入,例如用于NER、XNLU(Li等人,2020年)。
105处示出的是所述转换器模型XLM-R。在其它实现方式中,所述转换器不需要是XLM-R,但可以是不同类型的模型。
图2示出了本文所述方法的示例图,所述方法与所述XLM-R转换器(如Conneau等人在“大规模无监督跨语言表示学习(Unsupervised cross-lingual representationlearning at scale)”(arXiv预印本网站arXiv:1911.02116,2019年)中所描述的)集成在XNLU任务训练中。
在该示例中,使用多任务,其中所述主任务包括任务A和任务B,分别在201和202处示出。然而,在其它示例中,所述主任务可以仅包括一个任务(即,任务A)。
添加额外的对齐任务,如203处所示。在所述主任务训练中添加对齐损失函数。(使用任务数据和转换任务数据)将所述损失计算为具有相同含义(但单独编码)的两个句子的句子表示/嵌入(可以称为CLS令牌)之间的差异。因此,这些嵌入是从单个模型(图2中的208)生成的上下文化令牌表示获得的输入/语句表示。
S和T分别表示语言S和语言T(也称为源S和目标T)。语言S的输入数据元素可以包括带标签的数据。语言T的输入数据元素可以基于语言S的所述输入数据元素创建。在该示例中,所述输入是语言S的一个或多个句子X(在204处示出)以及从S转换为T的X(在205处示出)。
CLS_S 206和CLS_T 207分别是从语言S和T的所述输入数据元素获得的嵌入或表示。CLS_S和CLS_T是从同一模型208但在不同的时间步长(具有单独的编码)处获得的。
所述对齐任务203与任务A 201和/或任务B 202联合训练。CLS_T 207不用于所述主任务,仅用于对齐。
在该示例中,任务A和任务B以传统方式进行训练,而无需仅使用CLS_S作为输入进行修改。添加额外的任务损失,例如,使用均方误差(Mean Squared Error,MSE)作为计算CLS_S与CLS_T之间的距离的相似性函数。这会训练所述模型,以为从同一句子转换的不同语言生成相似嵌入。本文中描述的整体对齐模型可以称为XLM-RA(A表示对齐)。在训练变得与CLS_S更相似之后,任务A的分类器可以重新用作CLS_T。这可以实现以零样本学习方式传输任务“知识”。
优选地,所述对齐任务的所述损失函数利用相似性函数。所述相似性函数可以表示通过所述神经网络模型获得的所述选择的输入数据元素的所述第一语言表达式的所述表示与所述第二语言表达式的所述表示之间的所述相似性。优选地,所述损失函数中使用的所述相似性函数是MSE,但也可以是其它函数。所述相似性函数可以是将两个嵌入/向量作为输入并计算它们之间的距离的任意函数(例如,MSE、MAE、点积、余弦等)。这可确保所述嵌入在两种语言中相似(对齐),从而可以提高零样本学习性能。
所述损失函数不需要负样本(与所述第一语言的所述语言表达式具有不同含义的句子,所述第一语言的所述语言表达式用于计算相异性)。
对所述转换器模型进行训练,以最大化对语言S的任务A(如果是多任务,还包括任务B、C等)的性能。此外,还对所述模型进行训练,以对齐所述转换器,从而生成语言S和T的相似句子嵌入(用于并行句子/输入)。
因此,基于语言S的所述输入数据元素和所述对齐任务的所述损失函数来优化所述主任务。
对齐的多任务训练可以使所述转换器模型在生成多语言表示时与自身保持一致。语言S和T的具有相同含义的两个句子应具有相同或相似的嵌入。所述方法可确保所述嵌入在两种语言中相似(对齐),从而提高零样本学习性能。
有利地,当S和T的句子嵌入在训练之后高度相似时,可以将更多任务A(B、C等)性能从语言S转移到语言T,而不需要语言T的任何训练数据。
因此,对所述PXLM模型进行训练,以最大化对语言S的任务的性能,同时对齐所述转换器,以使用并行句子(从S转换为T)生成语言S和T的相似句子嵌入。当所述S和T的句子嵌入在训练之后高度相似时,可以将更多任务性能从语言S转移到语言T,而不需要语言T的任何训练数据。更直观地,对齐的多任务训练迫使所述转换器生成比未对齐模型更相似的多语言表示。换言之,如果句子含义在语言S和T中相同,则所述嵌入也应相同。这可以提高具有所转换训练数据的预训练语言模型的零样本学习性能。
图3总结了所述对齐算法的示例,示出了在所述主任务损失中添加所述对齐损失并反向传播所有损失之前训练循环中的示例性步骤。
通常,图4示出了用于在源语言与至少一种目标语言之间进行跨语言训练的计算机实现方法400的示例。所述方法包括执行401至407处示出的步骤。
在步骤401中,所述方法包括:接收多个输入数据元素,所述多个输入数据元素中的每一个包括所述源语言的第一语言表达式和所述目标语言的第二语言表达式,所述第一语言表达式和所述第二语言表达式在各自语言中具有对应的含义。在步骤402至步骤407中,所述方法包括:通过重复执行这些步骤来训练神经网络。在步骤402中,所述方法包括:选择所述多个输入数据元素中的一个。在步骤403中,所述方法包括:通过所述神经网络模型获得所述选择的输入数据元素的所述第一语言表达式的第一表示。在步骤404中,所述方法包括:通过所述神经网络模型获得所述选择的输入数据元素的所述第二语言表达式的第二表示。在步骤405中,所述方法包括:根据所述神经网络模型对所述第一语言表达式的性能,形成第一损失。在步骤406中,所述方法包括:形成指示所述第一表示与所述第二表示之间的相似性的第二损失。在步骤407中,所述方法包括:根据所述第一损失与所述第二损失,自适应所述神经网络模型。
可以执行步骤402至步骤407,直到所述模型收敛。该方法可以用于训练神经网络分类器模型,以用于语言分析设备,例如,所述语言分析设备可以作为智能手机等电子设备中的语音助手。
图5示出了包括语言分析设备501的装置500的示例的示意图。在一些实施例中,所述设备501还可以用于执行本文所述训练方法。替代地,所述模型的所述训练可以由所述语言分析设备外部的装置执行,一旦训练完成,所述训练的模型可以存储在所述设备中。所述设备501可以在笔记本电脑、平板电脑、智能手机或电视等电子设备上实现。
所述装置500包括处理器502。例如,所述处理器502可以实现为在中央处理器(Central Processing Unit,CPU)等可编程设备上运行的计算机程序。所述装置500还包括存储器503,所述存储器用于与所述处理器502通信。所述存储器503可以是非易失性存储器。所述处理器502还可以包括缓存(图5中未示出),所述缓存可以用于临时存储来自所述存储器503的数据。所述***可以包括多个处理器和多个存储器。所述存储器可以存储可由所述处理器执行的数据。所述处理器可以用于根据以非瞬时形式存储在机器可读存储介质上的计算机程序运行。所述计算机程序可以存储用于使所述处理器按照本文描述的方式执行其方法的指令。
所述存储器503以非瞬时形式存储数据,所述数据定义所述神经网络分类器模型,所述神经网络分类器模型能够对多种语言的语言表达式进行分类,并且所述神经网络分类器模型用于输出相同的分类,以响应于彼此具有相同含义的所述第一语言和所述第二语言的语言表达式。所述设备501还包括至少一个音频输入设备。所述音频输入设备可以是包含在所述设备中的麦克风,如504处示出。替代地或附加地,所述设备可以包括无线接收器505,所述无线接收器用于从所述设备501本地的耳机506接收数据。
所述处理器502用于:从所述音频输入设备接收输入音频数据;将所述输入音频数据作为输入应用于存储在所述数据载体上的所述神经网络分类器模型以形成输出;根据所述输出执行控制动作。
所述语言分析设备501可以用于通过存储在所述数据载体503上的所述神经网络分类器模型实现语音助手功能。其它应用也是可能的。
所述处理器502不从音频信号中获取输入文本,而是可以替代地以原始文本的形式向所述神经网络分类器模型输入数据,所述原始文本已通过以下方式获取,例如,爬网获取数据。
图6(a)和图6(b)示出了图6(a)中的本发明方法(称为XLM-RA对齐损失)与图6(b)中对比对齐损失的已知方法之间的比较。
如图6(a)所示,在本发明的实施例中,使用资源充足的语言的带标签数据的所述主任务601的训练不变。在所述主任务训练中添加所述对齐任务602损失函数,从而以多任务方式优化所述模型。将所述对齐损失计算为所述源语言CLS_S 603的句子嵌入与所述目标语言CLS_T 604的转换句子嵌入之间的差异。从诸如XLM-R的单个模型605获得这些嵌入,从而将所述第一令牌(通常称为CLS)作为整个输入的嵌入。
对于图6(b)中的对比损失,针对所述对齐任务608中的所述损失,需要两个模型606和607,所述两个模型在所述主任务之前进行训练。需要负样本,并使用CLS或平均池化,如609和610处示出。
图7所示的表格示出了本文所述损失函数与所述对比损失之间的差异。如参考图6(b)所讨论的,在对比损失中,针对所述损失,需要两个模型,所述两个模型在所述主任务之前进行训练。需要负样本,并使用CLS令牌或平均池化。相比之下,在本文所述方法中,针对所述损失,仅需要一个模型,所述模型与所述主任务一起进行训练。不需要负样本,只使用CLS令牌。替代地,可以使用平均池化来代替CLS令牌。
图8所示的表格示出了一些实施例(实现为XLM-RA)提供的现有技术方法(转换+训练和对比学习)相对于本文所述方法的特征。如上所述,在该实现方式中,本文所述方法仅使用语言S和T的任务数据、转换器任务损失和对齐损失以及任务得分。
图9所示的表格涉及本文所述方法与现有技术(转换+训练和对比学习)之间的方法差异。虽然在一些实现方式中,本发明方法在计算时间方面比转换+训练慢,但是在所述训练中添加的简单对齐损失大大降低了所述方法的复杂性。
在复杂性方面,所述方法不使用任何负样本,与CL相比更高效、更简单。所述方法训练所述主任务和所述对齐损失/任务,而不是像CL那样按顺序进行训练。Cl可能不会利用特定于域的对齐,从而降低零样本学习性能。
与需要多个GB的并行数据的CL相比,本发明方法更高效。本发明方法仅使用一个转换器模型,而CL使用两个模型,使得所述训练的计算量更大。在性能和泛化方面,本发明方法的域内(in-domain,I.I.D)性能优于转换+训练和CL。
因此,本文所述方法可以改进跨语言自然语言理解和分类任务(例如,对抗性释义)方面的现有技术模型。
所述概念可以扩展到具有多种语言的多个任务。
申请人在此单独公开了本文中描述的每个单独特征以及两个或多个此类特征的任何组合,在某种程度上,这样的特征或组合能够根据本领域技术人员的公知常识基于本说明书作为一个整体来执行,无论这些特征或特征的组合是否解决了本文公开的任何问题,并且不限制权利要求的范围。申请人指出,本发明的方面可以包括任何这样的单独特征或特征的组合。鉴于上述描述,本领域技术人员将明显地看到,在本发明的范围内可以进行各种修改。
Claims (19)
1.一种用于在源语言与至少一种目标语言之间进行跨语言训练的装置(500),其特征在于,所述装置包括一个或多个处理器(502),所述一个或多个处理器用于执行以下步骤:
接收(401)多个输入数据元素(204、205),所述多个输入数据元素中的每一个包括所述源语言的第一语言表达式(204)和所述目标语言的第二语言表达式(205),所述第一语言表达式和所述第二语言表达式在各自语言中具有对应的含义;
通过重复执行以下步骤来训练神经网络模型(208):
i.选择(402)所述多个输入数据元素中的一个;
ii.通过所述神经网络模型获得(403)所述选择的输入数据元素的所述第一语言表达式的第一表示;
iii.通过所述神经网络模型获得(404)所述选择的输入数据元素的所述第二语言表达式的第二表示;
iv.根据所述神经网络模型对所述第一语言表达式的性能,形成(405)第一损失;
v.形成(406)指示所述第一表示与所述第二表示之间的相似性的第二损失;
vi.根据所述第一损失和所述第二损失,自适应(407)所述神经网络模型。
2.根据权利要求1所述的装置(500),其特征在于,所述神经网络模型(208)的性能基于所述神经网络模型的预期输出与实际输出之间的差值确定。
3.根据权利要求1或2所述的装置(500),其特征在于,所述神经网络模型(208)根据所述第一语言表达式和所述第一语言表达式的含义形成所述第一语言表达式和所述第二语言表达式的表示。
4.根据上述权利要求中任一项所述的装置(500),其特征在于,所述第一语言表达式(204)和所述第二语言表达式(205)中的至少一些是句子。
5.根据上述权利要求中任一项所述的装置(500),其特征在于,在所述训练步骤之前,与所述第二语言的语言表达式相比,所述神经网络模型(208)更能对所述第一语言的语言表达式进行分类。
6.根据上述权利要求中任一项所述的装置(500),其特征在于,所述神经网络模型(208)包括通过权重链接的多个节点,自适应所述神经网络模型的所述步骤包括将所述第一损失和所述第二损失反向传播到所述神经网络模型的节点以调整所述权重。
7.根据上述权利要求中任一项所述的装置(500),其特征在于,所述第二损失根据相似性函数形成,所述相似性函数表示通过所述神经网络模型获得的所述选择的输入数据元素的所述第一语言表达式的所述表示与所述第二语言表达式的所述表示之间的所述相似性。
8.根据上述权利要求中任一项所述的装置(500),其特征在于,所述神经网络模型(208)能够根据语言表达式形成输出,所述训练步骤包括:至少响应于所述选择的数据元素的所述第一语言表达式,根据所述神经网络模型的进一步输出形成第三损失;响应于所述第三损失,自适应所述神经网络模型。
9.根据权利要求8所述的装置(500),其特征在于,所述输出表示所述第一语言表达式的序列标记。
10.根据权利要求8所述的装置(500),其特征在于,所述输出表示预测所述第一语言表达式的单个类标签或类标签序列。
11.根据上述权利要求中任一项所述的装置(500),其特征在于,在没有直接指示所述第二语言的语言表达式的分类的数据的情况下执行所述训练步骤。
12.根据上述权利要求中任一项所述的装置(500),其特征在于,所述装置还包括所述神经网络模型(208)。
13.一种数据载体(503),其特征在于,以非瞬时形式存储数据,所述数据定义神经网络分类器模型,所述神经网络分类器模型能够对多种语言的语言表达式进行分类,并且所述神经网络分类器模型用于输出相同的分类,以响应于彼此具有相同含义的所述第一语言和所述第二语言的语言表达式。
14.根据权利要求13所述的数据载体(503),其特征在于,所述神经网络分类器模型由根据权利要求1至12中任一项所述的装置(500)训练。
15.一种语言分析设备(501),其特征在于,包括根据权利要求13或14所述的数据载体(503)、音频输入设备(504、505)和一个或多个处理器(502),用于:
从所述音频输入设备接收输入音频数据;
将所述输入音频数据作为输入应用于存储在所述数据载体上的所述神经网络分类器模型以形成输出;根据所述输出执行控制动作。
16.根据权利要求15所述的语言分析设备(501),其特征在于,所述语言分析设备用于通过存储在所述数据载体(503)上的所述神经网络分类器模型实现语音助手功能。
17.根据权利要求15或16所述的语言分析设备(501),其特征在于,所述音频输入设备是包含在所述设备中的麦克风(504)。
18.根据权利要求15或16所述的语言分析设备(501),其特征在于,所述音频输入设备是无线接收器(505),所述无线接收器用于从所述设备本地的耳机(506)接收数据。
19.一种用于在源语言与至少一种目标语言之间进行跨语言训练的方法(400),其特征在于,所述方法包括执行以下步骤:
接收(401)多个输入数据元素,所述多个输入数据元素中的每一个包括所述源语言的第一语言表达式(204)和所述目标语言的第二语言表达式(205),所述第一语言表达式和所述第二语言表达式在各自语言中具有对应的含义;
通过重复执行以下步骤来训练神经网络模型(208):
i.选择(402)所述多个输入数据元素中的一个;
ii.通过所述神经网络模型获得(403)所述选择的输入数据元素的所述第一语言表达式的第一表示;
iii.通过所述神经网络模型获得(404)所述选择的输入数据元素的所述第二语言表达式的第二表示;
iv.根据所述神经网络模型对所述第一语言表达式的性能,形成(405)第一损失;
v.形成(406)指示所述第一表示与所述第二表示之间的相似性的第二损失;
vi.根据所述第一损失和所述第二损失,自适应(407)所述神经网络模型。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2021/052047 WO2022161613A1 (en) | 2021-01-29 | 2021-01-29 | Cross-lingual apparatus and method |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116745773A true CN116745773A (zh) | 2023-09-12 |
Family
ID=74505220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180091313.0A Pending CN116745773A (zh) | 2021-01-29 | 2021-01-29 | 跨语言装置和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230367978A1 (zh) |
EP (1) | EP4272109A1 (zh) |
CN (1) | CN116745773A (zh) |
WO (1) | WO2022161613A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230281399A1 (en) * | 2022-03-03 | 2023-09-07 | Intuit Inc. | Language agnostic routing prediction for text queries |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11151334B2 (en) * | 2018-09-26 | 2021-10-19 | Huawei Technologies Co., Ltd. | Systems and methods for multilingual text generation field |
-
2021
- 2021-01-29 WO PCT/EP2021/052047 patent/WO2022161613A1/en active Application Filing
- 2021-01-29 CN CN202180091313.0A patent/CN116745773A/zh active Pending
- 2021-01-29 EP EP21702931.3A patent/EP4272109A1/en active Pending
-
2023
- 2023-07-28 US US18/360,964 patent/US20230367978A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230367978A1 (en) | 2023-11-16 |
WO2022161613A1 (en) | 2022-08-04 |
EP4272109A1 (en) | 2023-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
US10388284B2 (en) | Speech recognition apparatus and method | |
US10817650B2 (en) | Natural language processing using context specific word vectors | |
JP7066349B2 (ja) | 翻訳方法、翻訳装置及びコンピュータプログラム | |
Yao et al. | An improved LSTM structure for natural language processing | |
CN110490213B (zh) | 图像识别方法、装置及存储介质 | |
WO2019200923A1 (zh) | 基于拼音的语义识别方法、装置以及人机对话*** | |
Vashisht et al. | Speech recognition using machine learning | |
WO2020140487A1 (zh) | 用于智能设备的人机交互语音识别方法及*** | |
WO2022057776A1 (zh) | 一种模型压缩方法及装置 | |
Lin et al. | Improving speech recognition models with small samples for air traffic control systems | |
KR20200129639A (ko) | 모델 학습 방법 및 장치 | |
CN112037773B (zh) | 一种n最优口语语义识别方法、装置及电子设备 | |
KR102315830B1 (ko) | 반지도 학습 기반 단어 단위 감정 임베딩과 lstm 모델을 이용한 대화 내에서 발화의 감정 분류 방법 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN111597342B (zh) | 一种多任务意图分类方法、装置、设备及存储介质 | |
WO2023137911A1 (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
RU2712101C2 (ru) | Предсказание вероятности появления строки с использованием последовательности векторов | |
CN112101044A (zh) | 一种意图识别方法、装置及电子设备 | |
CN113761883A (zh) | 一种文本信息识别方法、装置、电子设备及存储介质 | |
US20230367978A1 (en) | Cross-lingual apparatus and method | |
CN113823259B (zh) | 将文本数据转换为音素序列的方法及设备 | |
Park et al. | Natural language generation using dependency tree decoding for spoken dialog systems | |
CN112183062B (zh) | 一种基于交替解码的口语理解方法、电子设备和存储介质 | |
CN116306653A (zh) | 一种正则化领域知识辅助的命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |