CN111354333A - 一种基于自注意力的汉语韵律层级预测方法及*** - Google Patents

一种基于自注意力的汉语韵律层级预测方法及*** Download PDF

Info

Publication number
CN111354333A
CN111354333A CN201811571546.7A CN201811571546A CN111354333A CN 111354333 A CN111354333 A CN 111354333A CN 201811571546 A CN201811571546 A CN 201811571546A CN 111354333 A CN111354333 A CN 111354333A
Authority
CN
China
Prior art keywords
word
prosody
prosodic
sequence
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811571546.7A
Other languages
English (en)
Other versions
CN111354333B (zh
Inventor
张鹏远
卢春晖
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201811571546.7A priority Critical patent/CN111354333B/zh
Publication of CN111354333A publication Critical patent/CN111354333A/zh
Application granted granted Critical
Publication of CN111354333B publication Critical patent/CN111354333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自注意力的汉语韵律层级预测方法,所述方法包括:对大量无标注文本进行学习获得单字的字向量,利用字向量将待预测的文本转换为字向量序列,将字向量序列输入训练好的韵律层级预测模型,输出文本的词位和韵律层级。本发明的方法利用韵律层级预测模型进行汉语韵律层级预测,在保证预测性能的同时以字粒度的特征作为输入,避免了对于分词***的依赖及其可能造成的负面影响,该模型利用自注意力机制,直接对文本中任意两个字间的关系建模,可实现并行化计算;并利用额外数据进行预训练提高模型性能,实现对待处理文本各韵律层级同时准确的预测,避免了错误的传递。

Description

一种基于自注意力的汉语韵律层级预测方法及***
技术领域
本发明涉及语音合成技术领域,具体涉及一种基于自注意力的汉语韵律层级预测方法及***。
背景技术
在语音合成***中,根据输入待合成文本预测韵律层级结构一直是至关重要的一步,其预测结果将作为语言学特征的一部分用于声学特征及时长的建模。因此韵律层级预测的准确性在很大程度上决定了合成语音的自然度,实现准确的韵律层级预测有重要意义。
目前主流的方法为使用双向长短时记忆网络BLSTM,以词向量作为输入对不同的韵律层级分别进行建模,即对韵律词、韵律短语、语调短语分别训练一个模型,并将低层级的预测结果作为高层级的输入实现韵律的逐级预测。
但是,上述方法存在以下问题:1)LSTM作为一种RNN结构,每次预测当前时刻输出值时需要利用前一时刻的输出值,这种顺序的计算阻碍了它的并行化而且使任意两个字间的距离为O(n);2)在词粒度上进行韵律预测模型的训练与预测意味着必须对输入文本先进行分词处理,而分词的结果将会直接影响韵律层级预测的性能。另外,汉语词条数目巨大,存储这些词向量将占用很大的存储空间与计算资源,这对于离线语音合成来说显然是不实用的;3)逐级的韵律预测会使错误的结果不断传递,导致后续的预测错误。
实现对文本的韵律层级预测是语音合成***中必不可少的一步,但目前主流的方法利用词级别的特征依赖分词***的性能,而且逐级的韵律预测会造成错误结果的不断传递。
发明内容
本发明旨在至少在一定程度上解决现有相关技术中存在的上述问题,提出一种韵律层级预测方法,该方法以字作为模型的基本单元,在避免对分词***依赖的同时,减小对存储空间的需求;并且利用一个模型实现对多级韵律的同时预测,解决错误传递的问题。
为了实现上述目的,本发明提出了一种基于自注意力的汉语韵律层级预测方法,所述方法包括:
对大量无标注文本进行学习获得单字的字向量,利用字向量将待预测的文本转换为字向量序列,将字向量序列输入训练好的韵律层级预测模型,输出文本的词位和韵律层级。
作为上述方法的一种改进,所述韵律层级预测模型的训练步骤包括:
步骤1)对大量无标注文本进行学习获得单字的字向量;
步骤2)利用步骤1)得到的字向量将分词数据对应的文本转换为字向量序列,并根据分词结果得到其词位标记序列;
步骤3)基于自注意力机制构建韵律层级预测模型,分别以步骤2)中得到的分词数据的字向量序列及词位标记序列作为输入和输出,对该预测模型进行预训练;
步骤4)利用步骤1)得到的字向量将韵律标注数据对应的文本转换为字向量序列,根据其对应分词结果得到词位标记序列,并根据韵律标注获得各韵律层级对应的标注序列;
步骤5)在步骤3)的预训练得到的模型基础上,根据步骤4)得到的韵律数据的字向量序列、词位标记序列、韵律标注序列,再次训练韵律层级预测模型,得到训练好的韵律层级预测模型。
作为上述方法的一种改进,所述步骤1)具体为:基于连续词袋模型CBOW,设定字向量维度为d,利用大量无标注文本进行训练得到文本中所有单字的字向量初始值,以字-字向量初始值构建字表。
作为上述方法的一种改进,所述步骤2)进一步包括:
步骤2-1)根据所述分词数据的文本信息,通过查找字表的方式查到对应字的字向量,从而确定对应文本的字向量特征序列;
步骤2-2)根据字在词中的位置确定分词数据文本对应的词位标记序列,分别以B、M、E、S表示字在词的开头、字在词的中间、字在词的结尾、单字词。
作为上述方法的一种改进,所述步骤3)进一步包括:
步骤3-1)构建一个N层的韵律层级预测模型,每层包含一个前馈神经网络子层和一个自注意力子层,在每两个子层间采用残差连接,如下式:
Y=X+SubLayer(X)
其中X、Y分别表示子层的输入和输出;该预测模型共有四个输出层,其中三个输出层分别预测韵律词边界、韵律短语边界和语调短语边界;还有一个输出层预测词位,实现对文本的分词;
所述前馈神经网络子层由两个线性投影组成,中间由修正线性单元作为激活函数进行连接,公式如下:
FFN(X)=max(XW1+b1,0)W2+b2
其中W1、W2为两个线性投影的权重矩阵,维度分别为d×df和df×d;b1、b2为偏置向量;
所述自注意力子层采用多头自注意力,对于每个头,先对输入矩阵进行线性投影,得到三个矩阵Q、K、V,然后对这三个矩阵进行缩放点积注意力操作,得到向量M,将所有头的M拼接并做线性投影得到该子层的输出;M由下式计算:
Figure BDA0001915655890000031
其中,Softmax()为归一化指数函数;
步骤3-2)使用不同频率的正弦和余弦函数对输入序列的不同位置进行编码,编码函数如下:
PE(t,2i)=sin(t/100002i/d)
PE(t,2i+1)=sin(t/100002i/d)
其中,t为位置,i为维度;位置编码与输入字向量维度同为d,将两者相加一起作为韵律层级预测模型的输入;
步骤3-3)对韵律层级预测模型进行预训练;
以最小化分词任务实际的输出与期望的输出间的交叉熵为准则进行迭代,其代价函数为:
Figure BDA0001915655890000032
其中,y为期望输出,y={0,1},a是实际的输出值,满足a∈[0,1],x对应输出层的每个节点,n为输出层的节点数量;模型的参数通过随机梯度下降的反向传播算法进行更新。
作为上述方法的一种改进,所述步骤4)进一步包括:
步骤4-1)根据所述韵律标注数据的文本信息,通过查找字表的方式查到对应字的字向量,从而确定对应文本的字向量特征序列;
步骤4-2)根据韵律数据对应分词结果,确定韵律数据文本对应的词位标记序列;分别以B、M、E、S表示字在词的开头、字在词的中间、字在词的结尾、单字词;
步骤4-3)根据韵律数据的标注确定韵律词、韵律短语、语调短语各韵律层级的标注序列;分别以B表示该字为韵律边界,以NB表示该字不是韵律边界。
作为上述方法的一种改进,所述步骤5)具体为:在步骤3)的预训练得到的模型基础上,以韵律数据的字向量序列作为模型的输入,以词位标记序列、各层级的韵律标注序列作为模型的输出;以最小化各个输出层实际的输出与期望的输出间的交叉熵之和作为模型训练准则,采用随机梯度下降的反向传播算法对模型参数进行更新,得到训练好的韵律层级预测模型。
此外,本发明还提供了一种基于自注意力的汉语韵律层级预测***,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求上述方法的步骤。
本发明的优点在于:
1、本发明的韵律层级预测模型在保证预测性能的同时以字粒度的特征作为输入,避免了对于分词***的依赖及其可能造成的负面影响,同时缩减了模型大小;
2、本发明的韵律层级预测模型利用自注意力机制,直接对文本中任意两个字间的关系建模,可实现并行化计算;并利用额外数据进行预训练提高模型性能,实现对待处理文本韵律层级的准确预测;
3、本发明的方法采用一个模型同时对多个韵律层级进行预测,避免了错误的传递。
附图说明
图1是本发明的基于自注意力的汉语韵律层级预测方法的流程图。
具体实施方式
下面结合附图对本发明作进一步的描述。
本发明提出了—种基于自注意力的汉语韵律预测方法。该方法以字向量为输入特征,通过自注意力机制对文本中字间的依赖关系建模,对每级韵律设置其独立的输出层,实现对韵律各个层级的同时预测。该方法在避免对分词***依赖的同时实现了对文本韵律层级的准确预测。
本发明提出一种基于自注意力的汉语韵律层级预测模型构建方法,包括:对大量无标注文本进行学习获得单字的字向量;根据字向量及分词数据获取该数据对应文本的字向量序列及词位标记序列;基于自注意力机制构建韵律预测模型,根据分词数据的字向量序列及词位标记序列对模型进行预训练;根据字向量及带分词信息的韵律标注数据得到其对应文本的字向量序列、词位标记序列及各韵律层级标注序列;根据韵律数据的字向量序列、词位标记序列及各韵律层级标注序列,在预训练韵律层级预测模型基础上继续训练。该方法基于字级别的特征,通过自注意力机制对文本中任意两个字间的关系的直接建模,并利用额外数据进行预训练提高模型性能,实现对待处理文本韵律层级的准确预测。
本发明的方法包括以下步骤:
步骤1)构建并训练韵律层级预测模型,如图1所示,该步骤具体包括:
步骤101)、对大量无标注文本进行学习获得单字的字向量。
其中无标注文本从各领域预料文本收集而来,以文本中的字作为基本训练单元,基于连续词袋模型CBOW,设每个字向量维度为d,训练得到每个字的初始字向量。以字-字向量初始值构建字表。
步骤102)、根据所述字向量及分词数据获取其对应文本的字向量序列及词位标记序列。
其中字向量特征序列通过对分词文本中的每个字进行查找字表的操作查到对应字的字向量的方式获得。
词位标记序列根据分词数据文本对应的字在词中的位置确定。分别以B、M、E、S表示字在词的开头、字在词的中间、字在词的结尾、单字词。
具体地,对于分词文本“阿里巴巴与沃尔玛完全不同”其词位标记序列为:[B,M,M,E,S,B,M,E,B,E,S,S]。
步骤103)、构建基于自注意力机制的韵律层级预测模型,并利用步骤102)中得到的分词数据的字向量特征序列及词位标记序列,对模型进行预训练。
构建的韵律层级预测模型由N层构成,每层包含一个前馈神经网络子层和一个自注意力子层,在每两个子层间采用残差连接,如下式:
Y=X+SubLayer(X)
其中X、Y分别表示子层的输入和输出。模型共有四个输出层,其中的三个进行韵律层级的预测,即分别预测韵律词边界、韵律短语边界和语调短语边界,实现在一个模型内对多级韵律的同时预测;另外一个输出层进行分词任务,因为韵律层级边界建立在语法词基础上,引入分词任务可以获得词级别信息以提升韵律层级预测的准确性。
具体地,前馈神经网络子层由两个线性投影组成,中间由修正线性单元作为激活函数进行连接,公式如下:
FFN(X)=max(XW1+b1,0)W2+b2
其中W1、W2为两个线性投影的权重矩阵,维度分别为d×df和df×d;b1、b2为偏置向量。
自注意力子层采用多头自注意力,对于每个头,先对输入矩阵进行线性投影,得到三个矩阵Q、K、V,然后对这三个矩阵进行缩放点积注意力(scaled dot-productattention)操作,得到向量M,将所有头的M拼接并做线性投影得到该子层的输出。M由下式计算:
Figure BDA0001915655890000061
其中Softmax()为归一化指数函数。
该模型未使用RNN等序列模型,不能考虑到时序信息,因此使用不同频率的正弦和余弦函数对输入序列的不同位置进行编码,以在一定程度上引入字间的顺序关系,编码函数如下:
PE(t,2i)=sin(t/100002i/d)
PE(t,2i+1)=sin(t/100002i/d)
其中t为位置,i为维度。位置编码与输入字向量维度同为d,将两者相加一起作为模型输入。
对模型进行预训练时以最小化分词任务实际的输出与期望的输出间的交叉熵为准则进行迭代,其代价函数为:
Figure BDA0001915655890000062
其中,y为期望输出,y={0,1},a是网络实际的输出值,满足a∈[0,1],x对应输出层的每个节点,n为输出层的节点数量。神经网络的参数通过随机梯度下降的反向传播算法进行更新。
步骤104)、根据所述字向量及带分词信息的韵律标注数据得到其对应文本的字向量序列、词位标记序列及各层级韵律标注序列。
其中字向量序列和词位标记序列获得方法与步骤102)相同。韵律词、韵律短语、语调短语各韵律层级的标注序列由韵律标注确定。分别以B表示该字为韵律边界,以NB表示该字不是韵律边界。
具体地,对于韵律标注文本“阿里巴巴#1与#1沃尔玛#2完全#1不同#3”其韵律词标注序列为[NB,NB,NB,B,B,NB,NB,B,NB,B,NB,B],韵律短语标注序列为[NB,NB,NB,NB,NB,NB,NB,B,NB,NB,NB,B],语调短语标注序列为[NB,NB,NB,NB,NB,NB,NB,NB,NB,NB,NB,B]。
步骤105)、利用步骤104)得到的字向量序列、词位标记序列及各层级韵律标注序列,在步骤103)预训练韵律层级预测模型的基础上继续训练。
其中字向量序列为模型输入,词位标记序列及各层级韵律标注序列为模型输出,训练时以最小化各个输出层实际的输出与期望的输出间的交叉熵之和为准则。
步骤2)利用步骤101)的字向量将待预测的文本转换为字向量序列,将字向量序列输入训练好的韵律层级预测模型,输出文本的词位和韵律层级。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于自注意力的汉语韵律层级预测方法,所述方法包括:
对大量无标注文本进行学习获得单字的字向量,利用字向量将待预测的文本转换为字向量序列,将字向量序列输入训练好的韵律层级预测模型,输出文本的词位和韵律层级。
2.根据权利要求1所述的基于自注意力的汉语韵律层级预测方法,其特征在于,所述韵律层级预测模型的训练步骤包括:
步骤1)对大量无标注文本进行学习获得单字的字向量;
步骤2)利用步骤1)得到的字向量将分词数据对应的文本转换为字向量序列,并根据分词结果得到其词位标记序列;
步骤3)基于自注意力机制构建韵律层级预测模型,分别以步骤2)中得到的分词数据的字向量序列及词位标记序列作为输入和输出,对该预测模型进行预训练;
步骤4)利用步骤1)得到的字向量将韵律标注数据对应的文本转换为字向量序列,根据其对应分词结果得到词位标记序列,并根据韵律标注获得各韵律层级对应的标注序列;
步骤5)在步骤3)的预训练得到的模型基础上,根据步骤4)得到的韵律数据的字向量序列、词位标记序列、韵律标注序列,再次训练韵律层级预测模型,得到训练好的韵律层级预测模型。
3.根据权利要求2所述的基于自注意力的汉语韵律层级预测方法,其特征在于,所述步骤1)具体为:基于连续词袋模型CBOW,设定字向量维度为d,利用大量无标注文本进行训练得到文本中所有单字的字向量初始值,以字-字向量初始值构建字表。
4.根据权利要求3所述的基于自注意力的汉语韵律层级预测方法,其特征在于,所述步骤2)进一步包括:
步骤2-1)根据所述分词数据的文本信息,通过查找字表的方式查到对应字的字向量,从而确定对应文本的字向量特征序列;
步骤2-2)根据字在词中的位置确定分词数据文本对应的词位标记序列,分别以B、M、E、S表示字在词的开头、字在词的中间、字在词的结尾、单字词。
5.根据权利要求4所述的基于自注意力的汉语韵律层级预测方法,其特征在于,所述步骤3)进一步包括:
步骤3-1)构建一个N层的韵律层级预测模型,每层包含一个前馈神经网络子层和一个自注意力子层,在每两个子层间采用残差连接,如下式:
Y=X+SubLayer(X)
其中X、Y分别表示子层的输入和输出;该预测模型共有四个输出层,其中三个输出层分别预测韵律词边界、韵律短语边界和语调短语边界;还有一个输出层预测词位,实现对文本的分词;
所述前馈神经网络子层由两个线性投影组成,中间由修正线性单元作为激活函数进行连接,公式如下:
FFN(X)=max(XW1+b1,0)W2+b2
其中W1、W2为两个线性投影的权重矩阵,维度分别为d×df和df×d;b1、b2为偏置向量;
所述自注意力子层采用多头自注意力,对于每个头,先对输入矩阵进行线性投影,得到三个矩阵Q、K、V,然后对这三个矩阵进行缩放点积注意力操作,得到向量M,将所有头的M拼接并做线性投影得到该子层的输出;M由下式计算:
Figure FDA0001915655880000021
其中,Softmax()为归一化指数函数;
步骤3-2)使用不同频率的正弦和余弦函数对输入序列的不同位置进行编码,编码函数如下:
PE(t,2i)=sin(t/100002i/d)
PE(t,2i+1)=sin(t/100002i/d)
其中,t为位置,i为维度;位置编码与输入字向量维度同为d,将两者相加一起作为韵律层级预测模型的输入;
步骤3-3)对韵律层级预测模型进行预训练;
以最小化分词任务实际的输出与期望的输出间的交叉熵为准则进行迭代,其代价函数为:
Figure FDA0001915655880000022
其中,y为期望输出,y={0,1},a是实际的输出值,满足a∈[0,1],x对应输出层的每个节点,n为输出层的节点数量;模型的参数通过随机梯度下降的反向传播算法进行更新。
6.根据权利要求5所述的基于自注意力的汉语韵律层级预测方法,其特征在于,所述步骤4)进一步包括:
步骤4-1)根据所述韵律标注数据的文本信息,通过查找字表的方式查到对应字的字向量,从而确定对应文本的字向量特征序列;
步骤4-2)根据韵律数据对应分词结果,确定韵律数据文本对应的词位标记序列;分别以B、M、E、S表示字在词的开头、字在词的中间、字在词的结尾、单字词;
步骤4-3)根据韵律数据的标注确定韵律词、韵律短语、语调短语各韵律层级的标注序列;分别以B表示该字为韵律边界,以NB表示该字不是韵律边界。
7.根据权利要求6所述的基于自注意力的汉语韵律层级预测方法,其特征在于,所述步骤5)具体为:在步骤3)的预训练得到的模型基础上,以韵律数据的字向量序列作为模型的输入,以词位标记序列、各层级的韵律标注序列作为模型的输出;以最小化各个输出层实际的输出与期望的输出间的交叉熵之和作为模型训练准则,采用随机梯度下降的反向传播算法对模型参数进行更新,得到训练好的韵律层级预测模型。
8.一种基于自注意力的汉语韵律层级预测***,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~7之一所述方法的步骤。
CN201811571546.7A 2018-12-21 2018-12-21 一种基于自注意力的汉语韵律层级预测方法及*** Active CN111354333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811571546.7A CN111354333B (zh) 2018-12-21 2018-12-21 一种基于自注意力的汉语韵律层级预测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811571546.7A CN111354333B (zh) 2018-12-21 2018-12-21 一种基于自注意力的汉语韵律层级预测方法及***

Publications (2)

Publication Number Publication Date
CN111354333A true CN111354333A (zh) 2020-06-30
CN111354333B CN111354333B (zh) 2023-11-10

Family

ID=71195629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811571546.7A Active CN111354333B (zh) 2018-12-21 2018-12-21 一种基于自注意力的汉语韵律层级预测方法及***

Country Status (1)

Country Link
CN (1) CN111354333B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914551A (zh) * 2020-07-29 2020-11-10 北京字节跳动网络技术有限公司 语言表示模型***、预训练方法、装置、设备及介质
CN112309368A (zh) * 2020-11-23 2021-02-02 北京有竹居网络技术有限公司 韵律预测方法、装置、设备以及存储介质
CN112580361A (zh) * 2020-12-18 2021-03-30 蓝舰信息科技南京有限公司 基于统一注意力机制的公式及文字识别模型方法
CN112863484A (zh) * 2021-01-25 2021-05-28 中国科学技术大学 韵律短语边界预测模型训练方法和韵律短语边界预测方法
CN113129862A (zh) * 2021-04-22 2021-07-16 合肥工业大学 一种基于world-tacotron的语音合成方法、***及服务器
CN113421550A (zh) * 2021-06-25 2021-09-21 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN113657118A (zh) * 2021-08-16 2021-11-16 北京好欣晴移动医疗科技有限公司 基于通话文本的语义分析方法、装置和***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030149558A1 (en) * 2000-04-12 2003-08-07 Martin Holsapfel Method and device for determination of prosodic markers
US20080147405A1 (en) * 2006-12-13 2008-06-19 Fujitsu Limited Chinese prosodic words forming method and apparatus
CN105185374A (zh) * 2015-09-11 2015-12-23 百度在线网络技术(北京)有限公司 韵律层级标注方法和装置
CN105244020A (zh) * 2015-09-24 2016-01-13 百度在线网络技术(北京)有限公司 韵律层级模型训练方法、语音合成方法及装置
CN107451115A (zh) * 2017-07-11 2017-12-08 中国科学院自动化研究所 端到端的汉语韵律层级结构预测模型的构建方法及***
CN107464559A (zh) * 2017-07-11 2017-12-12 中国科学院自动化研究所 基于汉语韵律结构和重音的联合预测模型构建方法及***
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN108874790A (zh) * 2018-06-29 2018-11-23 中译语通科技股份有限公司 一种基于语言模型和翻译模型的清洗平行语料方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030149558A1 (en) * 2000-04-12 2003-08-07 Martin Holsapfel Method and device for determination of prosodic markers
US20080147405A1 (en) * 2006-12-13 2008-06-19 Fujitsu Limited Chinese prosodic words forming method and apparatus
CN105185374A (zh) * 2015-09-11 2015-12-23 百度在线网络技术(北京)有限公司 韵律层级标注方法和装置
CN105244020A (zh) * 2015-09-24 2016-01-13 百度在线网络技术(北京)有限公司 韵律层级模型训练方法、语音合成方法及装置
CN107451115A (zh) * 2017-07-11 2017-12-08 中国科学院自动化研究所 端到端的汉语韵律层级结构预测模型的构建方法及***
CN107464559A (zh) * 2017-07-11 2017-12-12 中国科学院自动化研究所 基于汉语韵律结构和重音的联合预测模型构建方法及***
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN108874790A (zh) * 2018-06-29 2018-11-23 中译语通科技股份有限公司 一种基于语言模型和翻译模型的清洗平行语料方法及***

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914551A (zh) * 2020-07-29 2020-11-10 北京字节跳动网络技术有限公司 语言表示模型***、预训练方法、装置、设备及介质
CN112309368A (zh) * 2020-11-23 2021-02-02 北京有竹居网络技术有限公司 韵律预测方法、装置、设备以及存储介质
CN112580361A (zh) * 2020-12-18 2021-03-30 蓝舰信息科技南京有限公司 基于统一注意力机制的公式及文字识别模型方法
CN112863484A (zh) * 2021-01-25 2021-05-28 中国科学技术大学 韵律短语边界预测模型训练方法和韵律短语边界预测方法
CN112863484B (zh) * 2021-01-25 2024-04-09 中国科学技术大学 韵律短语边界预测模型训练方法和韵律短语边界预测方法
CN113129862A (zh) * 2021-04-22 2021-07-16 合肥工业大学 一种基于world-tacotron的语音合成方法、***及服务器
CN113129862B (zh) * 2021-04-22 2024-03-12 合肥工业大学 一种基于world-tacotron的语音合成方法、***及服务器
CN113421550A (zh) * 2021-06-25 2021-09-21 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN113657118A (zh) * 2021-08-16 2021-11-16 北京好欣晴移动医疗科技有限公司 基于通话文本的语义分析方法、装置和***
CN113657118B (zh) * 2021-08-16 2024-05-14 好心情健康产业集团有限公司 基于通话文本的语义分析方法、装置和***

Also Published As

Publication number Publication date
CN111354333B (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
CN111354333B (zh) 一种基于自注意力的汉语韵律层级预测方法及***
CN112329465B (zh) 一种命名实体识别方法、装置及计算机可读存储介质
US11797822B2 (en) Neural network having input and hidden layers of equal units
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
US11210306B2 (en) Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system
US11113479B2 (en) Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query
KR101950985B1 (ko) 휴먼 인스파이어드된 간단한 질문 응답(hisqa)을 위한 시스템 및 방법
KR102116518B1 (ko) 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법
US20190266246A1 (en) Sequence modeling via segmentations
BR112019004524B1 (pt) Sistema de redes neurais, um ou mais meios de armazenamento legíveis por computador não transitório e método para gerar autorregressivamente uma sequência de saída de dados de áudio
CN108153864A (zh) 基于神经网络生成文本摘要的方法
US11886813B2 (en) Efficient automatic punctuation with robust inference
CN111145718A (zh) 一种基于自注意力机制的中文普通话字音转换方法
CN110162789A (zh) 一种基于汉语拼音的词表征方法及装置
CN114860915A (zh) 一种模型提示学习方法、装置、电子设备及存储介质
CN111178036B (zh) 一种知识蒸馏的文本相似度匹配模型压缩方法及***
US20220383119A1 (en) Granular neural network architecture search over low-level primitives
US20220164536A1 (en) Method and apparatus for sequence labeling on entity text, and non-transitory computer-readable recording medium
US20230153522A1 (en) Image captioning
US20240005131A1 (en) Attention neural networks with tree attention mechanisms
CN111026848B (zh) 一种基于相似上下文和强化学习的中文词向量生成方法
CN109117471A (zh) 一种词语相关度的计算方法及终端
CN113468883A (zh) 位置信息的融合方法、装置及计算机可读存储介质
CN111259673A (zh) 一种基于反馈序列多任务学习的法律判决预测方法及***
Heymann et al. Improving CTC using stimulated learning for sequence modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant