CN111243578A - 一种基于自注意力机制的中文普通话字音转换方法 - Google Patents
一种基于自注意力机制的中文普通话字音转换方法 Download PDFInfo
- Publication number
- CN111243578A CN111243578A CN202010027248.2A CN202010027248A CN111243578A CN 111243578 A CN111243578 A CN 111243578A CN 202010027248 A CN202010027248 A CN 202010027248A CN 111243578 A CN111243578 A CN 111243578A
- Authority
- CN
- China
- Prior art keywords
- attention
- layer
- classification
- output
- binding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 title claims description 18
- 238000006243 chemical reaction Methods 0.000 title description 4
- 241001672694 Citrus reticulata Species 0.000 title description 2
- 238000013507 mapping Methods 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 19
- 238000003062 neural network model Methods 0.000 claims description 12
- 230000014509 gene expression Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 238000005457 optimization Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 208000013409 limited attention Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种时限自注意力联结主义分类的端到端语音识别算法,将位置相关注意力机制分类和联结主义分类进行融合,其中根据不同的注意力窗长对识别结果的影响取注意力窗长,并且进一步提出了自注意力联结主义分类准则,通过将自注意力机制和联结主义分类准则进行结合从而解决了联结主义分类带来的帧相互独立的假设不成立的问题,提高了端到端语音识别***性能。
Description
技术领域
本发明涉及语音合成领域,特别涉及一种基于时限自注意力联结主义分类的端到端语音识别方法。
背景技术
语音识别技术是将输入的语音转换成文本的重要技术,其中端到端语音识别框架以其结构简洁、通用性强、不依赖语言学知识、推理速度快等优点已经成为重要的研究方向。
传统的基于隐氏马尔科夫和深度神经网络的语音识别算法虽然已经达到了很高的识别正确率,但是存在流程复杂、非一致优化、帧之间条件独立、解码复杂以及需要专家知识等缺点。为此,端到端语音识别变成了研究热点,该方法通过一个统一的神经网络完成语音到文字的转换。目前主流的端到端识别框架主要包括:基于联结主义分类的端到端语音识别和基于注意力机制编解码网络的端到端语音识别。
基于注意力机制的编解码网络的端到端架构将语音识别视为序列映射的问题,即将输入特征映射成相应的文字。其中,解码网络利用注意力机制来找到输出的每一个词和编码器状态之间的对应关系。对于输出的每一个词,通过解码器的状态和编码器状态信息计算出主意力权重的分布,并对编码器的状态进行加权求和作为解码器的输入。虽然上述结构的优点是端到端的语音识别而且并未进行任何条件独立的假设,但是对注意力系数约束不够,在实际训练过程中会学习到非连续的注意力权重。因此为了更好地对注意力权重进行约束,研究人员将联结主义分类准则加入训练中进行联合优,从而大量减少了不规则的注意力系数的出现。
然而基于联结主义分类准则的端到端建模框架存在帧之间相互独立的假设,实际语音是一个连续时间序列不满足该假设。
发明内容
为此本发明提出一种时限自注意力联结主义分类的端到端语音识别算法,将位置相关注意力机制分类和联结主义分类进行融合,其中根据不同的注意力窗长对识别结果的影响取注意力窗长,并且进一步提出了自注意力联结主义分类准则,通过将自注意力机制和联结主义分类准则进行结合从而解决了联结主义分类带来的帧相互独立的假设不成立的问题,提高了端到端语音识别***性能。。
本发明为解决上述技术问题采用的技术方案为,提供一种端到端语音识别方法,所述端到端语音识别通过神经网络模型,所述神经网络模型包括编码层、解码层、注意力联结主义分类层,所述方法包括:
将语音特征输入所述神经网络模型的编码层,所述编码层将所述语音序列转化为语音特征;
所述解码层对所述高维度向量计入注意力分配概率,并将所述高维度向量转化为表示文字的第一输出符号序列;
所述注意力联结主义分类层利用注意力机制,使用联结主义分类器,将所述高维度向量转化为表示文字的第二输出符号序列;
结合所述第一输出符号序列和所述第二输出符号序列得到所述神经网络模型的表示文字的输出符号序列。
优选地,所述神经网络模型的分类准则的数学表达式为:
LMTL=λLctc+(1-λ)Lattention
其中,λ是插值系数,Lctc和Lattention分别是所述解码层和所述注意力联结主义分类层的分类准则。
具体地,所述注意力联结主义分类层的分类准则的数学表达式为:
LCTC=-ln P(y|phu),
phu=Wprojcu+b
aut=Attend(phu-1,au-1,ht)
其中,Wproj和b分别表示联结主义分类准则输出映射层的权重和偏置矩阵,phu代表u时刻联结主义分类准则输出映射层的输出,aut代表了注意力权重,cu代表隐含层的加权求和结果,τ代表了注意力的窗长,
Attend()是注意力函数,注意力权重aut计算如下:
eut=Score(su-1,au-1,ht)
其中,Score()是基于内容的注意力,或基于位置的注意力,上式可为:
eut=vTtanh(Ksu-1+Q(F*au-1)+Wht)
具体地,所述注意力联结主义分类层的分类准则的数学表达式为:
LCTC=-lnP(y|phu),
phu=Wprojcu+b
其中,Wproj和b分别表示联结主义分类准则输出映射层的权重和偏置矩阵,phu代表u时刻联结主义分类准则输出映射层的输出,aut代表了注意力权重,cu代表隐含层的加权求和结果,τ代表了注意力的窗长,
其中,
qt=Qbt,t=u
kt=Kbt,t=u-τ,...,u+τ
vt=Vbt,t=u-τ,...,u+τ
bt=Wembdht,t=u-τ,...,u+τ
bt为通过输入映射矩阵Wembd将编码网络的输入ht映射成注意力机制的输入向量,k、v、q为键、值、查询,K、V、Q为参数矩阵。
附图说明
为了更清楚说明本发明实施例的技术方案,下面将对实施例描述中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种端到端语音识别神经网络模型的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一、端到端语音识别神经网络的结构:
图1本发明实施例提供的一种端到端语音识别神经网络模型的结构图:如图所示,其包括编码层(Shared Encoder)、解码层(Decoder)、注意力联结主义分类层(CTC attetion)。
编码层,将输入特征映射成高维向量。
解码网络,将高维度解码成输出符号序列。
注意力联结主义分类层
编码层,接受输入的语音特征,并将其转化为高维度向量;
解码层,将高维度向量转化为表示文字的第一输出符号序列,转化中计入对语音特征的注意力分配概率;
注意力联结主义分类层,使用联结主义分类器以及注意力机制,将高维度向量转化为表示文字的第二输出符号序列;
结合表示文字的第一输出符号序列和第二输出符号序列,获取神经网络模型的表示文字的输出符号序列。
二、模型的详细论述和实施例:
为了解决基于注意力编解码网络端到端语音识别算法对注意力系数约束不够,在实际训练过程中会学习到非连续的注意力权重的问题。本发明提出多任务学习机制,即对联结主义分类准则和编解码网络的准则进行联合优化。
具体的,在训练过程中,利用联结主义分类准则的前后向算法来强制输入语音特征和输出标签之间的单调对齐。
在一个实施例中,联合优化准则的数学表达式为:
LMTL=λLctc+(1-λ)Lattention (1)
其中,λ是插值系数,Lctc和Lattention分别是联结主义分类准则和基于注意力编解码器准则(例如图1中CTC attention层和Decoder层分别使用了分类准则)。
对于联结主义分类准则而言,为了解决输出序列长度小于输入序列长度的问题,在输出符号集中加入一个blank符号,并允许blank符号的重复出现。
在另一个实施例中,联结主义分类准则预测整个输出序列的条件概率为:
通过帧之间相互独立的假设,上述公式可以分解成:
其中x代表输入语音特征,y代表输出序列。L代表输出符号集合,T代表语音总帧数。π1:T=(π1,...,πT)代表每一帧的输出符号,πt∈L'并且L'=L∪blank。P(πt|x)是t时刻的条件概率。B是映射函数,完成输出路径到输出符号序列的映射。
对于基于注意力机制的编码解码网络而言,它并未有任何条件独立的假设直接估计最终的后验概率,它使用了两个网络:编码网络(例如图1中Encoder层)和解码网络(例如图1中Decoder层),编码网络的作用是将输入特征x映射成隐含层向量h(高维向量),解码网络的作用是将隐含层向量h解码成输出符号序列y。
在一个实施例中,其中后验概率可以表示为:
其中,cu是输入特征x的函数,U是输出序列的长度和输入帧长不相等,P(yu|y1:u-1,cu)可以表示为:
P(yu|y1:u-1,cu)=Decoder(yu-1,su-1,cu) (5)
ht=Encoder(x) (7)
aut=Attend(su-1,au-1,ht) (8)
其中,Encoder()和Decoder()分别表示编码网络和解码网络,s是解码网络的隐含状态向量,h是编码网络的隐含状态向量,Attend()是注意力网络,注意力权重aut计算如下:
eut=Score(su-1,au-1,ht) (10)
其中,Score()既可以是基于内容的注意力也可以是基于位置的注意力,在另一个实施例中,
eut=vTtanh(Ksu-1+Wht) (11)
在又一个实施例中,
eut=vTtanh(Ksu-1+Q(F*au-1)+Wht) (12)
根据以上叙述,加入联结主义分类准则进行联合优化能有效地约束注意力权重的学习,使得学习出来的注意力权重保持单调的特性,然而对于联结主义分类准则而言,它通过帧条件独立的假设将联合概率分解成一系列概率之积,然而实际的语音不满足帧相互独立的假设。
为解决这个问题,本发明提出基于时限自注意力联结主义分类的端到端语音识别算法如图1所示,在联结主义分类准则之前加入时限注意力模块,从而使得输出不仅依赖当前时刻编码网络输出,而且和一段时间内编码网络输出有关。
在一个实施例中,所述LCTC可表示为:
ph=Wprojh+b (14)
其中,Wproj和b分别表示联结主义分类准则输出映射层的权重和偏置矩阵,ph代表联结主义分类准则的输入。
在另一个实施例中,在联结主义分类准则中加入注意力权重,其数学表达式变为:
LCTC=-ln P(y|phu) (15)
phu=Wprojcu+b (16)
aut=Attend(phu-1,au-1,ht) (18)
其中,phu代表u时刻联结主义分类准则输出映射层的输出,aut代表了注意力权重,cu代表隐含层(分类层中内含,分类层为具有分类作用的网络层如图1中CTC attention和解码层)的加权求和结果,τ代表了注意力的窗长。
在一个实施例中,注意力权重为基于位置的注意力权重,其数学表达式为公式(9)、(10)、(12)所示,然而,该注意力机制需要学习序列之间的依赖关系,一定程度上增大了建模难度。为缓解这个问题,
在另一个实施例中,提出一种基于自注意力机制的联结主义分类准则。
首先,通过输入映射矩阵将编码网络的输入映射成注意力机制的输入向量:
bt=Wembdht,t=u-τ,...,u+τ (16)
其次,通过线性映射层将公式(16)中的bt映射成键、值、查询即:
qt=Qbt,t=u (20)
kt=Kbt,t=u-τ,...,u+τ (21)
vt=Vbt,t=u-τ,...,u+τ (22)
最后,获得自注意力的注意力系数以及的结果可表示为:
从以上实施例可以看出,本发明实施例提供了一种时限自注意力联结主义分类的端到端语音识别算法,将位置相关注意力机制分类和联结主义分类进行融合,其中根据不同的注意力窗长对识别结果的影响取注意力窗长,并且进一步提出了自注意力联结主义分类准则,通过将自注意力机制和联结主义分类准则进行结合从而解决了联结主义分类带来的帧相互独立的假设不成立的问题,可以提高端到端语音识别***性能。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种端到端语音识别方法,所述端到端语音识别通过神经网络模型,所述神经网络模型包括编码层、解码层、注意力联结主义分类层,所述方法包括:
将语音特征输入所述神经网络模型的编码层,所述编码层将所述语音序列转化为高维度向量;
所述解码层对所述高维度向量计入注意力分配概率,并将所述高维度向量转化为表示文字的第一输出符号序列;
所述注意力联结主义分类层利用注意力机制,使用联结主义分类器,将所述高维度向量转化为表示文字的第二输出符号序列;
结合所述第一输出符号序列和所述第二输出符号序列得到所述神经网络模型的表示文字的输出符号序列。
2.根据权利要求1所述的方法,其特征在于,所述神经网络模型的分类准则的数学表达式为:
LMTL=λLctc+(1-λ)Lattention
其中,λ是插值系数,Lctc和Lattention分别是所述解码层和所述注意力联结主义分类层的分类准则。
3.根据权利要求2所述的方法,所述注意力联结主义分类层的分类准则的数学表达式为:
phu=Wprojcu+b
aut=Attend(phu-1,au-1,ht)
其中,Wproj和b分别表示联结主义分类准则输出映射层的权重和偏置矩阵, phu代表u时刻联结主义分类准则输出映射层的输出,aut代表了注意力权重,cu代表隐含层的加权求和结果,τ代表了注意力的窗长,
Attend()是注意力函数,注意力权重aut计算如下:
eut=Score(su-1,au-1,ht)
其中,Score()是基于内容的注意力,或基于位置的注意力,上式可为:
eut=vTtanh(Ksu-1+Q(F*au-1)+Wht)。
4.根据权利要求2所述的方法,所述注意力联结主义分类层的分类准则的数学表达式为:
phu=Wprojcu+b
其中,Wproj和b分别表示联结主义分类准则输出映射层的权重和偏置矩阵,phu代表u时刻联结主义分类准则输出映射层的输出,aut代表了注意力权重,cu代表隐含层的加权求和结果,τ代表了注意力的窗长,
其中,
qt=Qbt,t=u
kt=Kbt,t=u-τ,...,u+τ
vt=Vbt,t=u-τ,...,u+τ
bt=Wembdht,t=u-τ,...,u+τ
bt为通过输入映射矩阵Wembd将编码网络的输入ht映射成注意力机制的输入向量,k、v、q为键、值、查询,K、V、Q为参数矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010027248.2A CN111243578A (zh) | 2020-01-10 | 2020-01-10 | 一种基于自注意力机制的中文普通话字音转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010027248.2A CN111243578A (zh) | 2020-01-10 | 2020-01-10 | 一种基于自注意力机制的中文普通话字音转换方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111243578A true CN111243578A (zh) | 2020-06-05 |
Family
ID=70864134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010027248.2A Pending CN111243578A (zh) | 2020-01-10 | 2020-01-10 | 一种基于自注意力机制的中文普通话字音转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243578A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113450761A (zh) * | 2021-06-17 | 2021-09-28 | 清华大学深圳国际研究生院 | 一种基于变分自编码器的并行语音合成方法和装置 |
CN113763933A (zh) * | 2021-05-06 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 语音识别方法、语音识别模型的训练方法、装置和设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107293291A (zh) * | 2016-03-30 | 2017-10-24 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
US20170372200A1 (en) * | 2016-06-23 | 2017-12-28 | Microsoft Technology Licensing, Llc | End-to-end memory networks for contextual language understanding |
US20180330718A1 (en) * | 2017-05-11 | 2018-11-15 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for End-to-End speech recognition |
US20180374486A1 (en) * | 2017-06-23 | 2018-12-27 | Microsoft Technology Licensing, Llc | Speaker recognition |
CN109272990A (zh) * | 2018-09-25 | 2019-01-25 | 江南大学 | 基于卷积神经网络的语音识别方法 |
US20190189115A1 (en) * | 2017-12-15 | 2019-06-20 | Mitsubishi Electric Research Laboratories, Inc. | Method and Apparatus for Open-Vocabulary End-to-End Speech Recognition |
CN110211574A (zh) * | 2019-06-03 | 2019-09-06 | 哈尔滨工业大学 | 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 |
-
2020
- 2020-01-10 CN CN202010027248.2A patent/CN111243578A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107293291A (zh) * | 2016-03-30 | 2017-10-24 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
US20170372200A1 (en) * | 2016-06-23 | 2017-12-28 | Microsoft Technology Licensing, Llc | End-to-end memory networks for contextual language understanding |
US20180330718A1 (en) * | 2017-05-11 | 2018-11-15 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for End-to-End speech recognition |
US20180374486A1 (en) * | 2017-06-23 | 2018-12-27 | Microsoft Technology Licensing, Llc | Speaker recognition |
US20190189115A1 (en) * | 2017-12-15 | 2019-06-20 | Mitsubishi Electric Research Laboratories, Inc. | Method and Apparatus for Open-Vocabulary End-to-End Speech Recognition |
CN109272990A (zh) * | 2018-09-25 | 2019-01-25 | 江南大学 | 基于卷积神经网络的语音识别方法 |
CN110211574A (zh) * | 2019-06-03 | 2019-09-06 | 哈尔滨工业大学 | 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 |
Non-Patent Citations (2)
Title |
---|
WATANABE, S.; HORI, T. ET AL.: "ESPnet: End-to-End Speech Processing Toolkit", 《IN PROCEEDINGS OF THE INTERSPEECH 2018》 * |
WU LONG,ET AL.: "Improving Hybrid CTCAttention Architecture with Time-Restricted Self-Attention CTC for End-to-End Speech Recognition", 《APPLIED SCIENCES》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763933A (zh) * | 2021-05-06 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 语音识别方法、语音识别模型的训练方法、装置和设备 |
CN113763933B (zh) * | 2021-05-06 | 2024-01-05 | 腾讯科技(深圳)有限公司 | 语音识别方法、语音识别模型的训练方法、装置和设备 |
CN113450761A (zh) * | 2021-06-17 | 2021-09-28 | 清华大学深圳国际研究生院 | 一种基于变分自编码器的并行语音合成方法和装置 |
CN113450761B (zh) * | 2021-06-17 | 2023-09-22 | 清华大学深圳国际研究生院 | 一种基于变分自编码器的并行语音合成方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263323B (zh) | 基于栅栏式长短时记忆神经网络的关键词抽取方法及*** | |
CN111382582B (zh) | 一种基于非自回归的神经机器翻译解码加速方法 | |
CN109284506B (zh) | 一种基于注意力卷积神经网络的用户评论情感分析***及方法 | |
CN108763284B (zh) | 一种基于深度学习和主题模型的问答***实现方法 | |
CN110059324B (zh) | 基于依存信息监督的神经网络机器翻译方法及装置 | |
CN113158665A (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN112926303A (zh) | 一种基于BERT-BiGRU的恶意URL检测方法 | |
CN113190656B (zh) | 一种基于多标注框架与融合特征的中文命名实体抽取方法 | |
CN112906397B (zh) | 一种短文本实体消歧方法 | |
CN109933773B (zh) | 一种多重语义语句解析***及方法 | |
CN111581970B (zh) | 一种网络语境的文本识别方法、装置及存储介质 | |
CN112612881B (zh) | 基于Transformer的中文智能对话方法 | |
CN111930952A (zh) | 一种长文本级联分类方法、***、设备及存储介质 | |
CN111243578A (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
CN112560456A (zh) | 一种基于改进神经网络的生成式摘要生成方法和*** | |
Duan et al. | A study of pre-trained language models in natural language processing | |
CN115906815B (zh) | 一种用于修改一种或多种类型错误句子的纠错方法及装置 | |
WO2023231513A1 (zh) | 对话内容的生成方法及装置、存储介质、终端 | |
CN108363685B (zh) | 基于递归变分自编码模型的自媒体数据文本表示方法 | |
CN113177113B (zh) | 任务型对话模型预训练方法、装置、设备及存储介质 | |
CN113297374B (zh) | 一种基于bert和字词特征融合的文本分类方法 | |
CN113535902A (zh) | 一种融合对抗训练的生成式对话*** | |
CN112182162A (zh) | 一种基于记忆神经网络的个性化对话方法和*** | |
CN114254108B (zh) | 一种中文文本对抗样本生成的方法、***及介质 | |
CN114580376A (zh) | 基于成分句法分析的中文摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200605 |
|
WD01 | Invention patent application deemed withdrawn after publication |