CN111724767B - 基于狄利克雷变分自编码器的口语理解方法及相关设备 - Google Patents
基于狄利克雷变分自编码器的口语理解方法及相关设备 Download PDFInfo
- Publication number
- CN111724767B CN111724767B CN201911247568.2A CN201911247568A CN111724767B CN 111724767 B CN111724767 B CN 111724767B CN 201911247568 A CN201911247568 A CN 201911247568A CN 111724767 B CN111724767 B CN 111724767B
- Authority
- CN
- China
- Prior art keywords
- corpus
- sampling
- dirichlet
- encoder
- spoken language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000005070 sampling Methods 0.000 claims abstract description 85
- 238000012549 training Methods 0.000 claims abstract description 52
- 230000008859 change Effects 0.000 claims description 23
- 238000009826 distribution Methods 0.000 claims description 21
- 238000005315 distribution function Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 abstract description 20
- 238000002372 labelling Methods 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 238000004590 computer program Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 21
- 230000015654 memory Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000003860 storage Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于狄利克雷变分自编码器的口语理解方法,属于计算机技术领域,该方法包括:利用狄利克雷变分自编码器对训练语料进行采样,生成采样语料集;依据所述采样语料集,进行数据增强;生成训练语料。本发明实现了将基于狄利克雷变分自编码器的半监督学习方法引入到口语理解的建模过程中,学习原始数据潜在的语义特征并生成高质量的新数据,降低了标注成本,达到了提升口语理解模型的有益效果。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于狄利克雷变分自编码器的 口语理解方法及相关设备。
背景技术
任务型对话***是通过多轮对话帮助用户完成特定任务的人机交互***, 这是一个受到广泛关注且应用前景广阔的研究方向。当前,已有众多研究机构 和科技公司涉足于任务型对话***这一领域,如阿里巴巴的天猫精灵、苹果的 Siri、微软的小娜等。口语理解是构建任务型对话***的一项核心技术,用于 将用户原始输入的自然语言解析为计算机可以理解的结构化语义表达。该表达 包含了最能代表用户意图的语义单元,对于人机交互***的开发至关重要。
近年来,基于深度神经网络的口语理解模型取得了较大进展,特别是语义 槽填充(Slot Filling)和意图识别(Intent Classifier)的联合学习模型。这种模 型的基本思想是使用神经网络来学习输入语句的语义信息,而后输出整个句子 的意图类别和每个词语对应的语义槽标签。在这种模型中,意图类别和语义槽 标签的生成过程可以相互学习,共同提升性能。相较于传统机器学习与基于规 则方法的方法,联合学习模型除了准确率更高之外,还有着无需手写模板、适 应性强等优点。
但是,联合学习模型和大多数自然语言处理任务类似,面临着严重地数据 稀缺性的问题。此外,口语理解数据集中接近无限的域空间与消耗大量人力的 标注任务使得稀疏性问题愈加严重。而传统的数据增强与生成方法依赖于增强 /生成函数,生成的语句通常鲁棒性与多样性较差。这将导致联合学习模型存在 过拟合和泛化能力欠缺等问题,从而影响口语理解效果,这也是本发明要解决 的关键问题。
发明内容
本发明提供一种基于狄利克雷变分自编码器的口语理解方法及相关设备, 用以解决现有技术中的上述技术问题。
第一方面,本发明实施例提供了一种基于狄利克雷变分自编码器的口语理 解方法,所述方法包括:利用狄利克雷变分自编码器对训练语料进行采样,生 成采样语料集;依据所述采样语料集,进行数据增强,生成训练语料。
进一步地,在第一方面中,所述利用狄利克雷变分自编码器对训练语料进 行采样,生成采样语料集具体包括:给定采样语料数量n,初始化空语料集M; 当所述M中的语料数量小于n时,循环S1121-S1124:S1121选取一个真实词序 列w;S1122通过逆伽马分布函数近似方法推断近似后验参数S1123通过 变分分布qφ(w|z)采样/>S1124将采样语料加入M中;生成所述采样语料 集。
进一步地,在第一方面中,所述生成训练语料具体包括如下步骤:首先采 样z~qφ(z),然后利用狄利克雷变分自编码器近似估计pη(w|z);利用pη(w|z)采 样得到生成词序列利用生成词生成词序列/>训练口语理解联合模型,推断 />生成槽填充与意图识别结果/>将/>和/>一起组成新的训练 语料/>并添加至生成语料集中。
第二方面,本发明实施例提供了一种基于狄利克雷变分自编码器的口语理 解***,所述***包括:采样语料集生成模块,被配置为利用狄利克雷变分自 编码器对训练语料进行采样,生成采样语料集;数据增强模块,被配置为依据 所述采样语料集,进行数据增强;训练语料生成模块,被配置为生成训练语料。
进一步地,在第二方面中,所述采样语料集生成模块具体包括:第一子模 块,被配置为给定采样语料数量n,初始化空语料集M;第二子模块,被配置为 当所述M中的语料数量小于n时,循环S1121-S1124:选取一个真实词序列w; S1122、通过逆伽马分布函数近似方法推断近似后验参数S1123、通过变分 分布qφ(w|z)采样/>S1124、将采样语料/>加入M中;第三子模块,被配置为 生成所述采样语料集。
进一步地,在第二方面中,所述训练语料生成模块具体包括:第一子单元, 被配置为首先采样z~qφ(z),然后利用狄利克雷变分自编码器近似估计pη(w|z); 第二子单元,被配置为利用pη(w|z)采样得到生成词序列第三子单元,被配 置为利用生成词生成词序列/>训练口语理解联合模型,推断/>第四 子单元,被配置为生成槽填充与意图识别结果/>第五子单元,被配置为将 />和/>一起组成新的训练语料/>并添加至生成语料集中。
第三方面,本发明还提供了一种基于狄利克雷变分自编码器的口语理解的 装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程 序,所述处理器执行所述程序时实现以下步骤:利用狄利克雷变分自编码器对 训练语料进行采样,生成采样语料集;依据所述采样语料集,进行数据增强; 生成训练语料。
第四方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机 程序,该程序被处理器执行时实现以下步骤:利用狄利克雷变分自编码器对训 练语料进行采样,生成采样语料集;依据所述采样语料集,进行数据增强;生 成训练语料。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优 点:
本发明提供的一种基于狄利克雷变分自编码器的口语理解方法,首先利用 狄利克雷变分自编码器对训练语料进行采样,生成采样语料集;然后依据所述 采样语料集,进行数据增强;最后生成训练语料,实现了将基于狄利克雷变分 自编码器的半监督学习方法引入到口语理解的建模过程中,学习原始数据潜在 的语义特征并生成高质量的新数据,降低了标注成本,达到了提升口语理解模 型的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术 手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、 特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的 一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图1为本申请实施例中基于狄利克雷变分自编码器的口语理解方法的流程 图;
图2为本申请实施例中DirVAE-SLU模型的结构示意图;
图3为本申请实施例中又一结构示意图;
图4为本申请实施例中计算机可读存储介质的结构示意图。
具体实施方式
本发明提供的一种基于狄利克雷变分自编码器的口语理解方法,实现了将 基于狄利克雷变分自编码器的半监督学习方法引入到口语理解的建模过程中, 学习原始数据潜在的语义特征并生成高质量的新数据,降低了标注成本,达到 了提升口语理解模型的有益效果。
本发明实施例中的技术方案,请参阅图1-2,总体思路如下:
S11、利用狄利克雷变分自编码器对训练语料进行采样,生成采样语料集;
S12、依据所述采样语料集,进行数据增强;
S13、生成训练语料。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明 实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然, 所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中 的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其 他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第 三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的 顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里 描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术 语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例 如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚 地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方 法、产品或设备固有的其它步骤或单元。
本发明的说明书和权利要求书及上述附图中的术语“和/或”,仅仅是一种 描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表 示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字 符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
本发明实施例一提供一种基于狄利克雷变分自编码器的口语理解方法,请 参考图1,所述方法包括:
S11、利用狄利克雷变分自编码器对训练语料进行采样,生成采样语料集;
S12、依据所述采样语料集,进行数据增强;
S13、生成训练语料。
据发明人研究发现,联合学习模型和大多数自然语言处理任务类似,面临 着严重地数据稀缺性的问题。此外,口语理解数据集中接近无限的域空间与消 耗大量人力的标注任务使得稀疏性问题愈加严重。而传统的数据增强与生成方 法依赖于增强/生成函数,生成的语句通常鲁棒性与多样性较差。这将导致联合 学习模型存在过拟合和泛化能力欠缺等问题,从而影响口语理解效果。基于此, 本发明提供一种基于狄利克雷变分自编码器的口语理解方法及相关设备,用以 解决上述技术问题。
下面,结合图1对本发明实施例一提供的基于狄利克雷变分自编码器的口 语理解方法进行详细介绍:
S11、利用狄利克雷变分自编码器对训练语料进行采样,生成采样语料集;
其中,标准的口语理解模型是一个与数据集高度相关的判别模型,一个口 语理解的数据集至少应该含有输入的词序列w,语义槽填充的标签序列s,意 图识别的标签y。对于训练数据集(w,s,y),损失函数如公式(1)所示:
L(θ;w,s,y)=-logpθ(s,y|w) (1)
采样过程是狄利克雷变分自编码器的一个关键步骤,通过采样过程可以对 训练语料进行采样,从而获得句子或词汇的语义特征。一个良好的采样过程能 够有效提升数据增强后的口语理解模型性能。假设从一个真实但未知的概率分 布p(x)∈P中采样得到训练语料x,探索性采样过程是通过引入一个潜在变量z 来逼近真实分布p(x)的采样过程。具体来说,狄利克雷变分自编码器利用变分 后验分布q(z|x)和参数(h,f)来逼近真实分布p(x),并通过KL散度(KL divergence) 来衡量变分后验分布q(z|x)与真实后验分布p(z|x)之间差异,该模型的损失函 数如公式(3)所示:
将公式(3)应用到口语理解任务中进行数据增强,则:
传统的变分自编码假设潜在变量的先验分布是连续随机变量,而狄利克雷 变分自编码器使用与多项式分布共轭的狄利克雷分布作为潜在变量的先验分 布,更适合口语理解模型,如公式(6)所示:
z~p(z)=Dirichlet(α),w~pη(w|z) (6)
其中,α表示狄利克雷超参数。编码器中的近似变分后验分布qφ(z|w)采样 至近似后验参数/>可由训练语料w和狄利克雷变分自编码器模型训 练得到。本发明并不直接从狄利克雷分布采样z,而是利用狄利克雷分布可由 多个独立的伽马分布组成这一特性,使用伽马合成的方法采样潜在变量。首先, 采样v~MultiGamma(a,β,1K),其中MultiGamma(a,β,1K)表示K个服从伽马分布的 随机变量。然后,利用v的求和项∑vi对v归一化。损失函数为:
其中,ψ是双伽马函数。对于公式(7),逆伽马分布函数近似(Approximation withInverse Gamma Cumulative Distribution Function)方法可以使反向传播流能够通过随机梯度方法流向输入,从而推断模型参数。逆伽马分布函数近似方法指出如 果X~Gamma(α,β),并且F(x;α,β)是随机变量X的累积分布函数,则累积分布 函数的逆可被近似表示为F-1(u;α,β)≈β-1(uaΓ(α))1/α。因此,本发明通过引入辅助 变量u~Uniform(0,1)代替v的随机性,并将Gamma采样的v作为α和β的确定值。 DirVAE-SLU的探索性采样过程具体可包括如下步骤:
S111、给定采样语料数量n,初始化空语料集M;
S112、当所述M中的语料数量小于n时,循环S1121-S1124:
S1121、选取一个真实词序列w;
S13、生成所述采样语料集。
然后在执行S12、依据所述采样语料集,进行数据增强;
从结构上看,DirVAE-SLU模型可以划分两个部分,一个是利用狄利克雷 变分自编码器进行潜在变量推断并生成采样语料的数据增强部分,另一个是通 过采样语料实现口语理解的部分。其中数据增强部分属于编码器,口语理解属 于解码器部分,其模型结果如附图1所示。DirVAE-SLU模型编码器部分使用 一个双向长短期记忆(Long Short-TermMemory,LSTM)网络,解码器部分 使用三个单向LSTM网络。模型的训练过程是通过最小化损失函数(公式(9)) 来求解最优参数(η*,φ*,ζ*)
η*,φ*,ζ*=argminL(η,φ,ζ;w,s,y) (10)
最后,执行S13、生成训练语料。
详细而言,在DirVAE-SLU模型生成训练语料的过程中,利用逆伽马分布 函数近似方法进行采样。这一方法能够综合考虑真实数据集中的语料平衡程度、 计算资源开销等因素选取数据。当选取数据后,DirVAE-SLU使用以下过程来 生成足够的训练语料:
1.首先采样z~qφ(z),然后利用狄利克雷变分自编码器近似估计pη(w|z);
本发明所提出的方法通过对基准模型进行数据增强的实验比较可以验证 本发明方法的高效性。本发明使用两个开源评测数据集:航空信息***数据集 ATIS(AirlineTravel Information Systems)与虚拟助手语料库Snips作为实验所 用的数据集。在实验中,a=0.99·1100,β=1,输入层使用Glove 300维词向量, 编码器中双向LSTM的隐藏层维度为256,解码器中三个单向LSTM的隐藏层 维度为1024,使用Slot-Gated模型作为基准模型。
表1不同数据集上的数据增强效果对比
从表1的实验结果可以看出,使用DirVAE-SLU进行数据增强后,在两个 数据集上基准模型的口语理解性能均有所提升,从而验证本发明的先进性。
也即,本发明实施例实现了将基于狄利克雷变分自编码器的半监督学习方 法引入到口语理解的建模过程中,学习原始数据潜在的语义特征并生成高质量 的新数据,降低了标注成本,达到了提升口语理解模型的有益效果。
基于同一发明构思,本发明实施例还提供了与实施例一中方法对应的装置, 见实施例二。
实施例二
本发明实施例二提供了一种***,所述***包括:
采样语料集生成模块,被配置为利用狄利克雷变分自编码器对训练语料进 行采样,生成采样语料集;
数据增强模块,被配置为依据所述采样语料集,进行数据增强;
训练语料生成模块,被配置为生成训练语料。
在本发明实施例二中,所述采样语料集生成模块具体包括:
第一子模块,被配置为给定采样语料数量n,初始化空语料集M;第二子模 块,被配置为当所述M中的语料数量小于n时,循环S1121-S1124:S1121、选 取一个真实词序列w;S1122、通过逆伽马分布函数近似方法推断近似后验参 数S1123、通过变分分布qφ(w|z)采样/>S1124、将采样语料/>加入M中; 第三子模块,被配置为生成所述采样语料集。
在本发明实施例二中,所述训练语料生成模块具体包括:第一子单元,被 配置为首先采样z~qφ(z),然后利用狄利克雷变分自编码器近似估计pη(w|z); 第二子单元,被配置为利用pη(w|z)采样得到生成词序列第三子单元,被配 置为利用生成词生成词序列/>训练口语理解联合模型,推断/>第四 子单元,被配置为生成槽填充与意图识别结果/>第五子单元,被配置为将 />和/>一起组成新的训练语料/>并添加至生成语料集中。
由于本发明实施例二所介绍的***,为实施本发明实施例一的方法所采用 的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该 装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采 用的装置都属于本发明所欲保护的范围。
实施例三
需要说明的是,基于上述实施例一、实施例二同样的发明沟通,本发明实 施例三提供了一种装置,包括:射频(Radio Frequency,RF)电路310、存储 器320、输入单元330、显示单元340、音频电路350、WiFi模块360、处理器 370、以及电源380等部件。其中,存储器320上存储有可在处理器370上运 行的计算机程序,处理器370执行所述计算机程序时实现实施例一中所述的步 骤S110、步骤S120、步骤S130、步骤S140和步骤S150;或者实现实施例二中所述的步骤S210、步骤S220、步骤S230、步骤S240、步骤S250和步骤S260; 或者实现实施例三中所述的步骤S301、步骤S302、步骤S303和步骤S304。
在具体实施过程中,处理器执行计算机程序时,可以实现实施例一、二中 的任一实施方式。
本领域技术人员可以理解,图3中示出的装置结构并不构成对装置本身的 限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部 件布置。
下面结合图3对计算机设备的各个构成部件进行具体的介绍:
RF电路310可用于信号的接收和发送,特别地,将基站的下行信息接收 后,给处理器370处理。通常,RF电路310包括但不限于至少一个放大器、 收发信机、耦合器、低噪声放大器(Low Noise Amplifier,LNA)、双工器等。
存储器320可用于存储软件程序以及模块,处理器370通过运行存储在存 储器320的软件程序以及模块,从而执行计算机设备的各种功能应用以及数据 处理。存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可 存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据计算 机设备的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储 器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或 其他易失性固态存储器件。
输入单元330可用于接收输入的数字或字符信息,以及产生与计算机设备 的用户设置以及功能控制有关的键信号输入。具体地,输入单元330可包括键 盘331以及其他输入设备332。键盘331,可收集用户在其上的输入操作,并 根据预先设定的程式驱动相应的连接装置。键盘331采集到输出信息后再送给 处理器370。除了键盘331,输入单元330还可以包括其他输入设备332。具体 地,其他输入设备332可以包括但不限于触控面板、功能键(比如音量控制按 键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元340可用于显示由用户输入的信息或提供给用户的信息以及计算 机设备的各种菜单。显示单元340可包括显示面板341,可选的,可以采用液 晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板341。进一步的,键盘331 可覆盖显示面板341,当键盘331检测到在其上或附近的触摸操作后,传送给 处理器370以确定触摸事件的类型,随后处理器370根据输入事件的类型在显 示面板341上提供相应的视觉输出。虽然在图3中键盘331与显示面板341是作为两个独立的部件来实现计算机设备的输入和输入功能,但是在某些实施例 中,可以将键盘331与显示面板341集成而实现计算机设备的输入和输出功能。
音频电路350、扬声器351,传声器352可提供用户与计算机设备之间的 音频接口。音频电路350可将接收到的音频数据转换后的电信号,传输到扬声 器351,由扬声器351转换为声音信号输出;
WiFi属于短距离无线传输技术,计算机设备通过WiFi模块360可以帮助 用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带 互联网访问。虽然图3示出了WiFi模块360,但是可以理解的是,其并不属于 计算机设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省 略。
处理器370是计算机设备的控制中心,利用各种接口和线路连接整个计算 机设备的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块, 以及调用存储在存储器320内的数据,执行计算机设备的各种功能和处理数据, 从而对计算机设备进行整体监控。可选的,处理器370可包括一个或多个处理 单元;优选的,处理器370可集成应用处理器,其中,应用处理器主要处理操 作***、用户界面和应用程序等。
计算机设备还包括给各个部件供电的电源380(比如电源适配器),优选的, 电源可以通过电源管理***与处理器370逻辑相连。
实施例四
基于同一发明构思,如图4所示,本实施例五提供了一种计算机可读存储 介质400,其上存储有计算机程序411,该计算机程序411被处理器执行时实 现实施例一中所述的步骤S110、步骤S120、步骤S130、步骤S140和步骤S150; 或者实现实施例二中所述的步骤S210、步骤S220、步骤S230、步骤S240、步 骤S250和步骤S260;或者实现实施例三中所述的步骤S301、步骤S302、步 骤S303和步骤S304。
在具体实施过程中,该计算机程序411被处理器执行时,可以实现实施例 一、二和三中的任一实施方式。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计 算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入 式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算 机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明实施例中提供的技术方案,至少具有如下技术效果或优点:
实现了将基于狄利克雷变分自编码器的半监督学习方法引入到口语理解 的建模过程中,学习原始数据潜在的语义特征并生成高质量的新数据,降低了 标注成本,达到了提升口语理解模型的有益效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计 算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入 式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算 机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基 本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要 求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱 离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属 于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和 变型在内。
Claims (4)
1.一种基于狄利克雷变分自编码器的口语理解方法,其特征在于,所述方法包括:
S11、利用狄利克雷变分自编码器对训练语料进行采样,生成采样语料集;
S12、依据所述采样语料集,进行数据增强;
S13、生成训练语料;
所述利用狄利克雷变分自编码器对训练语料进行采样,生成采样语料集具体包括:
S111、给定采样语料数量n,初始化空语料集M;
S112、当所述M中的语料数量小于n时,循环S1121-S1124:
S1121、选取一个真实词序列w;
S13、生成所述采样语料集;
所述生成训练语料具体包括如下步骤:
S131、首先采样z~qφ(z),然后利用狄利克雷变分自编码器近似估计pη(w|z);
3.一种基于狄利克雷变分自编码器的口语理解***,其特征在于,所述***包括:
采样语料集生成模块,被配置为利用狄利克雷变分自编码器对训练语料进行采样,生成采样语料集;
数据增强模块,被配置为依据所述采样语料集,进行数据增强;
训练语料生成模块,被配置为生成训练语料;
所述采样语料集生成模块具体包括:
第一子模块,被配置为给定采样语料数量n,初始化空语料集M;
第二子模块,被配置为当所述M中的语料数量小于n时,循环S1121-S1124:
S1121、选取一个真实词序列w;
第三子模块,被配置为生成所述采样语料集;
所述训练语料生成模块具体包括:
第一子单元,被配置为首先采样z~qφ(z),然后利用狄利克雷变分自编码器近似估计pη(w|z);
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911247568.2A CN111724767B (zh) | 2019-12-09 | 2019-12-09 | 基于狄利克雷变分自编码器的口语理解方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911247568.2A CN111724767B (zh) | 2019-12-09 | 2019-12-09 | 基于狄利克雷变分自编码器的口语理解方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111724767A CN111724767A (zh) | 2020-09-29 |
CN111724767B true CN111724767B (zh) | 2023-06-02 |
Family
ID=72563990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911247568.2A Active CN111724767B (zh) | 2019-12-09 | 2019-12-09 | 基于狄利克雷变分自编码器的口语理解方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111724767B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597769B (zh) * | 2020-12-15 | 2022-06-03 | 中山大学 | 一种基于狄利克雷变分自编码器的短文本主题识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886388A (zh) * | 2019-01-09 | 2019-06-14 | 平安科技(深圳)有限公司 | 一种基于变分自编码器的训练样本数据扩充方法和装置 |
US10373055B1 (en) * | 2016-05-20 | 2019-08-06 | Deepmind Technologies Limited | Training variational autoencoders to generate disentangled latent factors |
CN110134951A (zh) * | 2019-04-29 | 2019-08-16 | 淮阴工学院 | 一种分析文本数据潜在主题短语的方法及*** |
CN110211575A (zh) * | 2019-06-13 | 2019-09-06 | 苏州思必驰信息科技有限公司 | 用于数据增强的语音加噪方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3520037B1 (en) * | 2016-11-04 | 2024-01-03 | Google LLC | Training neural networks using a variational information bottleneck |
-
2019
- 2019-12-09 CN CN201911247568.2A patent/CN111724767B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10373055B1 (en) * | 2016-05-20 | 2019-08-06 | Deepmind Technologies Limited | Training variational autoencoders to generate disentangled latent factors |
CN109886388A (zh) * | 2019-01-09 | 2019-06-14 | 平安科技(深圳)有限公司 | 一种基于变分自编码器的训练样本数据扩充方法和装置 |
CN110134951A (zh) * | 2019-04-29 | 2019-08-16 | 淮阴工学院 | 一种分析文本数据潜在主题短语的方法及*** |
CN110211575A (zh) * | 2019-06-13 | 2019-09-06 | 苏州思必驰信息科技有限公司 | 用于数据增强的语音加噪方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN111724767A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3320490B1 (en) | Transfer learning techniques for disparate label sets | |
US10629193B2 (en) | Advancing word-based speech recognition processing | |
US9715498B2 (en) | Distributed server system for language understanding | |
US20190361977A1 (en) | Training data expansion for natural language classification | |
US11189269B2 (en) | Adversarial training data augmentation for generating related responses | |
Xu et al. | Exploiting shared information for multi-intent natural language sentence classification. | |
CN111708869B (zh) | 人机对话的处理方法及装置 | |
Nagamanjula et al. | A novel framework based on bi-objective optimization and LAN2FIS for Twitter sentiment analysis | |
CN111428010A (zh) | 人机智能问答的方法和装置 | |
US20210248498A1 (en) | Method and apparatus for training pre-trained knowledge model, and electronic device | |
CN111435362B (zh) | 用于生成相关响应的对抗性训练数据增强 | |
CN112784589B (zh) | 一种训练样本的生成方法、装置及电子设备 | |
CN113641830B (zh) | 模型预训练方法、装置、电子设备和存储介质 | |
CN112528654A (zh) | 自然语言处理方法、装置及电子设备 | |
Kaliappan et al. | Sentiment Analysis of News Headlines Based on Sentiment Lexicon and Deep Learning | |
CN115688920A (zh) | 知识抽取方法、模型的训练方法、装置、设备和介质 | |
US20220198153A1 (en) | Model training | |
Bondielli et al. | On the use of summarization and transformer architectures for profiling résumés | |
US11361031B2 (en) | Dynamic linguistic assessment and measurement | |
US20230032208A1 (en) | Augmenting data sets for machine learning models | |
CN111724767B (zh) | 基于狄利克雷变分自编码器的口语理解方法及相关设备 | |
CN113673235A (zh) | 基于能量的语言模型 | |
CN113569578B (zh) | 一种用户意图识别方法、装置和计算机设备 | |
CN114239583B (zh) | 实体链指模型的训练及实体链指方法、装置、设备及介质 | |
US20220207384A1 (en) | Extracting Facts from Unstructured Text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |