CN108491380B - 用于口语理解的对抗多任务训练方法 - Google Patents

用于口语理解的对抗多任务训练方法 Download PDF

Info

Publication number
CN108491380B
CN108491380B CN201810200343.0A CN201810200343A CN108491380B CN 108491380 B CN108491380 B CN 108491380B CN 201810200343 A CN201810200343 A CN 201810200343A CN 108491380 B CN108491380 B CN 108491380B
Authority
CN
China
Prior art keywords
model
task
training
shared space
spoken language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810200343.0A
Other languages
English (en)
Other versions
CN108491380A (zh
Inventor
俞凯
兰鸥羽
朱苏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201810200343.0A priority Critical patent/CN108491380B/zh
Publication of CN108491380A publication Critical patent/CN108491380A/zh
Application granted granted Critical
Publication of CN108491380B publication Critical patent/CN108491380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种用于口语理解的对抗多任务训练方法,包括从未标注数据和标注数据中取样以训练更新语言模型和共享空间,并将共享空间所获取的第一公有特征标注为语言模型任务以训练更新任务鉴别器和所述共享空间;从标注数据中取样以训练更新口语理解模型和共享空间,并将共享空间所获取的第二公有特征标注为口语理解模型任务以训练更新所述任务鉴别器和所述共享空间。本发明实施例中的用于口语理解的对抗多任务训练方法能够同时基于未标注数据和标注数据来训练口语理解模型,从而避免了传统的用于训练口语理解模型的方法对标注数据的严重依赖,降低了大量使用标注数据所导致的成本开销。

Description

用于口语理解的对抗多任务训练方法
技术领域
本发明涉及人工智能技术领域,尤其涉及一种用于口语理解的对抗多任务训练方法。
背景技术
口语理解(SLU,spoken language understanding)模块是面向目标的口语对话***(SDS,spoken dialogue system)的关键组件,将用户的话语解析为相应的语义概念。例如,“显示我从波士顿到纽约的航班”这句话可以被解析为(出发城市=波士顿,到达城市=纽约)。一般来说,它被认为是一个时隙填充任务,为话语中的每个单词分配一个预定义的语义时隙标签。
最近有关SLU中统计时隙填充的研究集中在循环神经网络(RNN)及其扩展,如长短记忆网络(LSTM)、编解码器模型等。这些传统方法需要大量的标记数据才能获得良好的性能。然而,由于数据标注是劳动密集型且耗时的,因此难以获得足够的用于训练的域内标记数据。
发明内容
本发明实施例提供一种用于口语理解的对抗多任务训练方法,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种用于口语理解的对抗多任务训练方法,应用于对抗多任务训练模型,所述对抗多任务训练模型包括口语理解模型、任务鉴别器和语言模型,所述口语理解模型与所述语言模型通过共享空间连接,所述口语理解模型配置有第一私有空间,所述语言模型配置有第二私有空间,所述方法包括:
从未标注数据和标注数据中取样以训练更新所述语言模型和共享空间,并将所述共享空间所获取的第一公有特征标注为语言模型任务以训练更新所述任务鉴别器和所述共享空间;
从标注数据中取样以训练更新所述口语理解模型和所述共享空间,并将所述共享空间所获取的第二公有特征标注为口语理解模型任务以训练更新所述任务鉴别器和所述共享空间。
第二方面,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项用于口语理解的对抗多任务训练方法。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项用于口语理解的对抗多任务训练方法。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项用于口语理解的对抗多任务训练方法。
本发明实施例的有益效果在于:本发明实施例中的用于口语理解的对抗多任务训练方法能够同时基于未标注数据和标注数据来训练口语理解模型,从而避免了传统的用于训练口语理解模型的方法对标注数据的严重依赖,降低了大量使用标注数据所导致的成本开销。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的用于口语理解的对抗多任务训练方法的一实施例的流程图;
图2为本发明的用于口语理解的对抗多任务训练方法中的对抗多任务模型;
图3为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“***”等等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地***、分布式***中另一元件交互的,和/或在因特网的网络通过信号与其它***交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
受共享私有模式的成功的启发,申请人提出了一种针对SLU(Spoken languageunderstanding)的对抗多任务学习方法,该方法学习一般和无监督知识,并调整时隙标签模型。其动机是通过整合来自未标记数据的一般语言信息来调整时隙标签模型。
如图1所示,本发明实施例提供一种用于口语理解的对抗多任务训练方法,应用于对抗多任务训练模型,所述对抗多任务训练模型包括口语理解模型、任务鉴别器和语言模型,所述口语理解模型与所述语言模型通过共享空间连接,所述口语理解模型配置有第一私有空间,所述语言模型配置有第二私有空间,所述方法包括:
S11、从未标注数据和标注数据中取样以训练更新所述语言模型和共享空间,并将所述共享空间所获取的第一公有特征标注为语言模型任务以训练更新所述任务鉴别器和所述共享空间;
S12、从标注数据中取样以训练更新所述口语理解模型和所述共享空间,并将所述共享空间所获取的第二公有特征标注为口语理解模型任务以训练更新所述任务鉴别器和所述共享空间。其中,所述任务鉴别器包括单词级鉴别器和句子级鉴别器,用于完成对每个单词进行一次预测,或对每个句子进行一次预测。
本发明实施例中的用于口语理解的对抗多任务训练方法能够同时基于未标注数据和标注数据的来训练口语理解模型,从而避免了传统的用于训练口语理解模型的方法对标注数据的严重依赖,降低了大量使用标注数据所导致的成本开销。通过采用未标注数据和标注数据来训练更新语言模型和共享空间,并进一步训练更新任务鉴别器和共享空间,然后再基于更新训练后的任务鉴别器和共享空间采用标注数据实现对口语理解模型的更新训练,从而达到了采用未标注数据辅助训练口语理解模型的目的。因此,采用本发明的方法能够在标注数据有限的情况下,结合未标注数据来进行口语理解模型的训练。
在一些实施例中,所述任务鉴别器用于鉴别所述第一公有特征和/或第二公有特征是否为任务无关特征,以进行所述任务鉴别器与所述共享空间之间的对抗学习。通过任务鉴别器和共享空间之间的对抗学习使得训练得到的共享空间和任务鉴别器在训练口语理解模型时能够提升口语理解模型的鲁棒性。
本发明实施例中,提出对抗任务鉴别器作为共享空间的对手。任务鉴别器的目的是找出每次训练的共享特征对应于哪个任务。为了混淆任务鉴别器,共享空间被迫提取任务不变知识并抛弃任务特定信息。任务鉴别器适用于单词级或句子级。不同于现有相关技术通过监督学习在具有相同的数据源的多个分割标准上仅对中文单词分割任务进行训练,本发明实施例中为每个任务采用独特的训练目标、方法和数据源。
在一些实施例中,训练更新所述口语理解模型和共享空间包括:最小化训练更新后的所述口语理解模型的预测分布与实际语义标签之间的交叉熵损失对所述口语理解模型进行优化训练。
在一些实施例中,训练更新所述语言模型和共享空间包括:最小化训练更新后的所述语言模型的预测分布与实际单词之间的交叉熵损失对所述语言模型进行优化训练。
在一些实施例中,训练更新所述任务鉴别器和共享空间包括:最小化训练更新后的所述任务鉴别器的预测分布与实际任务之间的交叉熵损失对所述任务鉴别器进行优化训练。
如图2所示,在一些实施例中,语言模型可以采用单向语言模型或者双向语言模型(BLM,bidirectional language model),语言模型和口语理解模型(即,时隙标签模型STM,slot tagging model)由共享空间和两个任务相关私有空间(第一私有空间和第二私有空间)结合在一起。BLM利用丰富的无监督数据来学习语义和句法成分的潜在的一般模式,而STM通过有限的标记数据获得监督知识。为这两个任务进行共享空间的训练。其中,所述共享空间、第一私有空间和第二私有空间采用双向长短期记忆神经网络。
在一些实施例的对抗多任务学习中,时隙标签模型的时隙填充实际上是序列标记问题。给定一个有n个单词的输入序列w={w1,w2,...,wn},时隙填充预测输出(时隙标签)序列t={t1,t2,...,tn}。
传统的时隙标签模型只是根据标记的基本事实进行优化。由于输入中的每个单词的数量不大于1,并且标记数据的大小是有限的,所以对于一般的SLU模型,时隙标签贡献很小且有局限性。受到语言建模作为补充目标的启发,我们将单向或双向语言模型与时隙标签模型集成。LM可以学习语义和句法组份的更多一般模式,而不需要任何额外的标记数据。单向LM(ULM)预测下一个单词,而双向LM(BLM)由两个单独的ULM组成,预测下一个单词和前一个单词,而没有共享权重。
如图2所示,本发明实施例中使用共享-私有框架来提出了一种对抗多任务模型。每个任务都有自己的私有空间(STM私有空间,LM私有空间),并且还共享联合空间(共享空间)。第一步是将当前单词wi映射到分布式词嵌入ei。采用BLSTM(双向长短期记忆神经网络)作为共享空间、STM(时隙标签模型)私有空间和BLM私有空间的隐藏层,以及ULM特定空间的LSTM(长短期记忆神经网络)。每个LSTM将前一时间步骤的隐藏状态和当前步骤i的词向量作为输入:
Figure BDA0001594291970000061
Figure BDA0001594291970000062
其中k∈{t,l,s},t是时隙标签空间,l是语言建模空间,s是指共享空间。
任务特定的输出层在时间帧i处分别估计时隙标签或单词的概率:
Figure BDA0001594291970000063
Figure BDA0001594291970000064
其中,[·]是连结运算符,
Figure BDA0001594291970000071
是独立加权矩阵,σ表示softmax层,它预测所有可能标签或单词上的归一化分布。然后,模型可以通过最小化预测分布与真实情况标记(时隙标签ti,下一个单词wi+1或者前一个单词wi-1)之间的交叉熵损失来进行训练。
此外,发明人提出了一个任务鉴别器来确保共享空间只包含任务无关特征。具体来说,任务鉴别器将共享特征作为输入,并预测输入是被训练用于时隙标签任务还是语言建模任务。为了混淆任务鉴别器,共享空间用于提取任务无关特征。为了成为共享模型的一个强有力的对手,在单词级别和句子级别分析了任务鉴别器。
单词级鉴别器D(w)计算共享特征
Figure BDA0001594291970000072
在线性变换后在每个时间帧处的平均值,而在句子级鉴别器D(s)从共享特征序列Hs中选择最显著的特征。然后它们预测任务指示y的概率,当针对STM训练Hs时此概率等于1,针对LM训练时此概率等于0。
Figure BDA0001594291970000073
其中,Wd是任务鉴别器空间中的权重矩阵,θd和θs分别是任务鉴别器和共享空间中的参数。
在一些实施例中可以采用以下方法实施用于口语理解的对抗多任务训练方法:提出每个组件的训练目标,然后展示整体训练算法。D的训练目标是最大化正确区分输入特征训练的任务的概率,而STM中的共享空间试图混淆任务鉴别器:
Figure BDA0001594291970000074
Figure BDA0001594291970000075
其中E[·]表示对数据集数据的期望,包括标记数据和未标记数据。
对于时隙标签任务和语言建模任务,目标函数可以计算为:
Figure BDA0001594291970000081
Figure BDA0001594291970000082
Figure BDA0001594291970000083
其中datal是数据的标记部分,其中每个单词wi用时隙标签ti注释。Pt(·|wi)是时隙标签的概率,而Pl(·|wi)是词汇表上的概率。
算法1:针对SLU的对抗多任务学习
输入:标记的训练数据{(wl,tl)}
未标记的数据{wu}
输出:对抗增强的时隙标记模型
1.随机初始化参数{θs,θt,θl,θd}
2.重复以下3-6
/*从{(wl,tl)}中采样*/
3.训练STM和共享模型(8)
4.根据等式(6)或等式(7)训练任务鉴别器和共享模型作为时隙标签任务(设y=1)
/*从{wl}和{wu}中采样*/
5.根据等式(9)(和等式(10)用于BLM)训练语言模型和共享模型
6.等式(6)或等式(7)训练任务鉴别器和共享模型作为语言建模任务(设y=0)
7.直到建模结果收敛。
上述算法显示了整个对抗训练过程。任务鉴别器和共享模型通过等式(6)和等式(7)进行极小化极大竞争,这两个等式都改进了这两个任务,直到两个任务的特征表示足够接近。共享模型用于从丰富的未标记话语中提取广义特征。另外,等式(9)和等式(10)学习基本的语义和句法语言知识。等式(8)作为传统的监督学习目标驱使时隙标记模型在标记数据上表现良好,并将监督信息转换用于未标记数据。
本发明实施例中所提出的模型和其他传统方法首先在航空旅行信息***(ATIS,Air Travel Information System)基准上进行评估。并证明了所提出的模型在从大规模数据集中标注不同数量的标记话语的情况下进行半监督学习中的有效性。实验结果表明,本发明的方法在时隙填充任务中相对于传统的半监督方法有了很大的改进。
在本发明的一些实施例的具体实验中进行了如下实验设置:
对于所有体系结构,词嵌入和BLSTM(双向长短期记忆神经网络)隐藏单元的维度设置为100。在每个时间帧,SLU模型将当前单词作为输入,而没有任何上下文单词。对于训练,网络参数按照均匀分布(-0.2,0.2)随机初始化,并通过随机梯度下降(SGD)更新。将概率为0.5的丢弃率应用于非循环连接的正则化。本发明在[0.008,0.03]范围内通过网格搜索尝试不同的学习率,并保持100个周期。报告相应模型在验证中效果最好的测试集上的时隙填充的F1分数。
对于对抗训练,任务鉴别器和共享私有模型都是以10的小批量进行优化的。在每次迭代中,基于标记数据通过监督算法来训练时隙标签模型,通过自我监督训练语言模型,并且共享模型和任务鉴别器由极小化极大博弈。
在ATIS数据库上的实验
ATIS包括来自唯一的航空旅行领域的4978个训练句子和893个测试句子。因为一个时隙可以被映射到几个连续的单词,所以我们遵循流行的输入/输出/开始(IOB)表示。不同时隙标签的数量是84(如果使用IOB前缀,则为127)。我们从训练句子中随机选取80%作为训练集,其余为测试集。本发明提出以下方法:
STM:这是一个简单的监督模型,其使用了BLSTM作为时隙填充任务的隐藏层。
STM+LMe:它首先用大量无标注数据训练一个语言模型,然后通过训练好的语言模型初始化STM的词向量,词向量在SLU的训练过程中被更新。
MTLe:它利用STM和LM的多任务学习,这两个任务共享词嵌入层。
MTLe+h:STM和LM共享词嵌入和隐藏层。
SPM:它使用共享-私有模式进行多任务学习。与MTLE相比,它增加了共享空间来提高性能。每个任务的输出层输入共享和各自的私有特征。单向SPM(USPM)包含一个STM和一个正向LM,而双向SPM(BSPM)有一个附加的反向LM(图2中的虚线块)。
SPM+D:与SPM相比,框架中添加了任务鉴别器。
SPM1+D:与SPM+D相比,它消除了LM私有空间并保持其他不变。
表1.ATIS数据集的实验结果(F1分数%)
Figure BDA0001594291970000101
表1显示了这些方法在ATIS语料库上的表现。其中,F1的上标表示模型中的LM是单向的(F1U)或双向的(F1B)。与其他方法相比,BSPM+D(w)达到了95.94%的最高水平。另外,配备BLM的模型大多比ULM模型的表现要好。这意味着考虑到语境的双方有利于更好地了解广义特征并提供更多有用的信息。此外,本发明提出任务鉴别器的另一种更新方法。共享特征的任务指示被随机分配以混淆任务鉴别器,此时,BSPM+D(w)上的测试F1评分从95.94%下降到95.28%,这证明了在算法1中描述的方法的有效性。
在LARGE数据库上的实验
考虑到ATIS的规模有限以及需要为多个领域建立时隙填充模型,本发明实施例中将MIT餐厅语料库、MIT电影语料库和ATIS语料库集成为一个单一的大规模数据集,记为LARGE。这个合并的数据集包含来自三个不同领域的30229个训练句子和6810个测试句子。单词由116个不同的时隙标签(191个带有IOB前缀)分配。
对于半监督学习,我们随机选择训练数据的{5k,10k,15k}句子作为标记,并将其余的作为未标记的。对于每个标记集,我们随机选择80%作为训练集,其余为验证。所有实验都在同一个测试集上进行评估。例如,5k集(包含5000个句子的集合)有4000个标记的训练句子,1000个标记的发展句子,25299个未标记的训练句子和6810个测试句子。
表2.LARGE数据集上的实验结果(F1-score%)
Figure BDA0001594291970000111
{5k,10k,15k,全部}从训练集中选择5000、10000、15000和30229个句子作为标记。实验结果如表2所示,由于双向方法(双向语言模型)已被证明比ATIS语料库的单向方法更有效,因此只显示双向方法。PSEUDO分三个阶段执行:用标记数据训练SLU模型,通过预训练的SLU模型为未标记数据生成标记,用有实际标记和伪标记数据训练新的SLU模型。
显然,所提出的BSPM和BSPM+D相比于其他方法,十分显著地提升了性能。特别是在5k标记数据情况下,BSPM+D(w)优于STM 3.89%,优于PSEUDO 1.69%。当标记数据相对充足时,BSPM比方法表现出更好的性能。这些实验表明,BLM有助于利用无监督知识,共享-私有模型和对抗训练使得时隙标记模型更为泛化,并在未见样本上表现更好。
本发明实施例的方法比STM在所有数据集上具有显著的提升(99.9%)。与MTLe相比,本发明的方法在5k数据集上具有99.9%的显著水平的提升,在10k数据集上具有99.5%的显著水平的提升。然而,这种提升在15k数据集上却并不显著。类似地,本发明的方法分别在5k和10k数据集上取得了显著提升(99.8%),但在15k数据集上的提升却并不十分显著(超过95%)。
在发明中,我们提出了一种针对SLU的半监督训练的对抗多任务学习方法,减轻了对标记数据的依赖。双向语言模型通过共享联合空间和垄断私有LM空间而与时隙标签模型相结合。因此,时隙标签模型从共享空间获取广义语言知识,并从其私有STM空间获取监督信息。另外,本发明提出任务鉴别器强制共享空间丢弃任务相关信息。所提出的方法实现了ATIS基准的最新性能,并且在大规模数据集上的性能明显优于以前的模型。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项用于口语理解的对抗多任务训练方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项用于口语理解的对抗多任务训练方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行用于口语理解的对抗多任务训练方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时用于口语理解的对抗多任务训练方法。
如图3所示,为本申请另一实施例提供的执行用于口语理解的对抗多任务训练方法的电子设备的硬件结构示意图,如图3所示,该设备包括:
一个或多个处理器310以及存储器320,图3中以一个处理器310为例。
执行用于口语理解的对抗多任务训练方法的设备还可以包括:输入装置330和输出装置340。
处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器320作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的用于口语理解的对抗多任务训练方法对应的程序指令/模块。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用于口语理解的对抗多任务训练方法。
存储器320可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据用于口语理解的对抗多任务训练装置的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器320可选包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至用于口语理解的对抗多任务训练装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置330可接收输入的数字或字符信息,以及产生与用于口语理解的对抗多任务训练装置的用户设置以及功能控制有关的信号。输出装置340可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器320中,当被所述一个或者多个处理器310执行时,执行上述任意方法实施例中的用于口语理解的对抗多任务训练方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、***总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (9)

1.一种用于口语理解的对抗多任务训练方法,应用于对抗多任务训练模型,所述对抗多任务训练模型包括口语理解模型、任务鉴别器和语言模型,所述口语理解模型与所述语言模型通过共享空间连接,所述口语理解模型配置有第一私有空间,所述语言模型配置有第二私有空间,所述方法包括:
从未标注数据和标注数据中取样以训练更新所述语言模型和共享空间,并将所述共享空间所获取的第一公有特征标注为语言模型任务以训练更新所述任务鉴别器和所述共享空间;
从标注数据中取样以训练更新所述口语理解模型和所述共享空间,并将所述共享空间所获取的第二公有特征标注为口语理解模型任务以训练更新所述任务鉴别器和所述共享空间;
其中,所述语言模型采用双向语言模型,所述口语理解模型采用时隙标签模型。
2.根据权利要求1所述的方法,其中,所述任务鉴别器用于鉴别所述第一公有特征和/或第二公有特征是否为任务无关特征,以进行所述任务鉴别器与所述共享空间之间的对抗学习。
3.根据权利要求1所述的方法,其中,所述训练更新所述口语理解模型和共享空间包括:最小化训练更新后的所述口语理解模型的预测分布与实际语义标签之间的交叉熵损失对所述口语理解模型进行优化训练。
4.根据权利要求1所述的方法,其中,所述训练更新所述语言模型和共享空间包括:最小化训练更新后的所述语言模型的预测分布与实际单词之间的交叉熵损失对所述语言模型进行优化训练。
5.根据权利要求1所述的方法,其中,所述训练更新所述任务鉴别器和共享空间包括:最小化训练更新后的所述任务鉴别器的预测分布与实际任务之间的交叉熵损失对所述任务鉴别器进行优化训练。
6.根据权利要求1-5中任一项所述的方法,其中,所述任务鉴别器包括单词级鉴别器和句子级鉴别器。
7.根据权利要求1所述的方法,其中,所述共享空间、第一私有空间和第二私有空间采用长短期记忆神经网络。
8.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任意一项所述方法的步骤。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任意一项所述方法的步骤。
CN201810200343.0A 2018-03-12 2018-03-12 用于口语理解的对抗多任务训练方法 Active CN108491380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810200343.0A CN108491380B (zh) 2018-03-12 2018-03-12 用于口语理解的对抗多任务训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810200343.0A CN108491380B (zh) 2018-03-12 2018-03-12 用于口语理解的对抗多任务训练方法

Publications (2)

Publication Number Publication Date
CN108491380A CN108491380A (zh) 2018-09-04
CN108491380B true CN108491380B (zh) 2021-11-23

Family

ID=63338789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810200343.0A Active CN108491380B (zh) 2018-03-12 2018-03-12 用于口语理解的对抗多任务训练方法

Country Status (1)

Country Link
CN (1) CN108491380B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523952B (zh) * 2019-01-17 2023-05-05 阿里巴巴集团控股有限公司 信息提取的方法及装置、存储介质和处理器
CN109947931B (zh) * 2019-03-20 2021-05-14 华南理工大学 基于无监督学习的文本自动摘要方法、***、设备及介质
CN110795945B (zh) * 2019-10-30 2023-11-14 腾讯科技(深圳)有限公司 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN113743111B (zh) * 2020-08-25 2024-06-04 国家计算机网络与信息安全管理中心 基于文本预训练和多任务学习的金融风险预测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1326567A (zh) * 1998-11-16 2001-12-12 艾利森电话股份有限公司 处理***调度
CN107197475A (zh) * 2016-03-14 2017-09-22 重庆邮电大学 一种基于多线程的传感节点标识符解析测试方法及***
CN107341146A (zh) * 2017-06-23 2017-11-10 上海交通大学 基于语义槽内部结构的可迁移口语语义解析***及其实现方法
CN107357838A (zh) * 2017-06-23 2017-11-17 上海交通大学 基于多任务学习的对话策略在线实现方法
WO2017223009A1 (en) * 2016-06-23 2017-12-28 Microsoft Technology Licensing, Llc Multi-domain joint semantic frame parsing

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844346B (zh) * 2017-02-09 2020-08-25 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和***
CN107085716B (zh) * 2017-05-24 2021-06-04 复旦大学 基于多任务生成对抗网络的跨视角步态识别方法
CN107230401A (zh) * 2017-06-02 2017-10-03 孟昕 利用互联网和语音技术的写作教学交互***以及实现方法
CN107240395B (zh) * 2017-06-16 2020-04-28 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
CN107463951A (zh) * 2017-07-19 2017-12-12 清华大学 一种提高深度学习模型鲁棒性的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1326567A (zh) * 1998-11-16 2001-12-12 艾利森电话股份有限公司 处理***调度
CN107197475A (zh) * 2016-03-14 2017-09-22 重庆邮电大学 一种基于多线程的传感节点标识符解析测试方法及***
WO2017223009A1 (en) * 2016-06-23 2017-12-28 Microsoft Technology Licensing, Llc Multi-domain joint semantic frame parsing
CN107341146A (zh) * 2017-06-23 2017-11-10 上海交通大学 基于语义槽内部结构的可迁移口语语义解析***及其实现方法
CN107357838A (zh) * 2017-06-23 2017-11-17 上海交通大学 基于多任务学习的对话策略在线实现方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Adversarial Multi-Criteria Learning for Chinese Word Segmentation;Xinchi Chen等;《Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics》;20170804;1193-1203 *
Semi-supervised sequence tagging with bidirectional language models;Matthew E. Peters等;《http://export.arxiv.org/abs/1705.00108》;20170429;1-10 *
SEMI-SUPERVISED TRAINING USING ADVERSARIAL MULTI-TASK LEARNING FOR SPOKEN LANGUAGE UNDERSTANDING;Ouyu Lan等;《ICASSP 2018》;20180420;6049-6053 *
统计中文口语理解执行策略的研究;李艳玲等;《计算机科学与探索》;20160408;980-987 *

Also Published As

Publication number Publication date
CN108491380A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN109637546B (zh) 知识蒸馏方法和装置
CN108962224B (zh) 口语理解和语言模型联合建模方法、对话方法及***
CN108920666B (zh) 基于语义理解的搜索方法、***、电子设备及存储介质
EP3516591B1 (en) Neural machine translation systems
Cohn-Gordon et al. Pragmatically informative image captioning with character-level inference
US11568000B2 (en) System and method for automatic task-oriented dialog system
CN108491380B (zh) 用于口语理解的对抗多任务训练方法
US10268671B2 (en) Generating parse trees of text segments using neural networks
CN107680580B (zh) 文本转换模型训练方法和装置、文本转换方法和装置
CN108417205B (zh) 语义理解训练方法和***
EP3218854B1 (en) Generating natural language descriptions of images
US9818409B2 (en) Context-dependent modeling of phonemes
CN110516253B (zh) 中文口语语义理解方法及***
US10083169B1 (en) Topic-based sequence modeling neural networks
JP2021524623A (ja) 質問応答としてのマルチタスク学習
US20160180215A1 (en) Generating parse trees of text segments using neural networks
CN109074517B (zh) 全局归一化神经网络
CN110534087A (zh) 一种文本韵律层级结构预测方法、装置、设备及存储介质
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN110349572A (zh) 一种语音关键词识别方法、装置、终端及服务器
CN111816160A (zh) 普通话和粤语混合语音识别模型训练方法及***
Nguyen et al. From film to video: Multi-turn question answering with multi-modal context
CN111667728B (zh) 语音后处理模块训练方法和装置
US20230034414A1 (en) Dialogue processing apparatus, learning apparatus, dialogue processing method, learning method and program
CN110457674B (zh) 一种主题指导的文本预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200618

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Co.,Ltd.

Applicant after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Co.,Ltd.

Applicant before: SHANGHAI JIAO TONG University

TA01 Transfer of patent application right
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201026

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Co.,Ltd.

Applicant before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Adversarial multitasking training method for oral comprehension

Effective date of registration: 20230726

Granted publication date: 20211123

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433

PE01 Entry into force of the registration of the contract for pledge of patent right