CN112802451A - 韵律边界预测方法及计算机存储介质 - Google Patents
韵律边界预测方法及计算机存储介质 Download PDFInfo
- Publication number
- CN112802451A CN112802451A CN202110337155.4A CN202110337155A CN112802451A CN 112802451 A CN112802451 A CN 112802451A CN 202110337155 A CN202110337155 A CN 202110337155A CN 112802451 A CN112802451 A CN 112802451A
- Authority
- CN
- China
- Prior art keywords
- prosodic
- characters
- feature data
- phrase
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000009826 distribution Methods 0.000 claims description 81
- 238000012512 characterization method Methods 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 12
- 239000000203 mixture Substances 0.000 claims 1
- 239000013598 vector Substances 0.000 description 32
- 238000013528 artificial neural network Methods 0.000 description 26
- 230000002457 bidirectional effect Effects 0.000 description 12
- 230000015654 memory Effects 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 230000003042 antagnostic effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000007787 long-term memory Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种韵律边界预测方法及计算机存储介质。其中,所述方法包括:基于待预测的说话人文本中的字符的特征数据,对字符的韵律词特征进行编码,并基于韵律词特征数据,对字符的韵律词边界标签进行解码;基于字符的特征数据和韵律词边界标签数据,对字符的韵律短语特征进行编码,并基于韵律短语特征数据,对字符的韵律短语边界标签进行解码;基于字符的特征数据、韵律词边界标签数据,以及韵律短语边界标签数据,对字符的语调短语特征进行编码,并基于字符的语调短语特征数据,对字符的语调短语边界标签进行解码,获得字符的语调短语边界标签数据。本实施例提高说话人文本的韵律边界的准确度,进而提升说话人合成语音的韵律表达。
Description
技术领域
本发明实施例涉及人工智能领域,尤其涉及一种韵律边界预测方法及计算机存储介质。
背景技术
语音合成***的流水线通常由前端、声学模型和声码器三个部分构成。前端又包括文本分析、注音、多音字消歧和韵律边界预测等子模块。韵律边界预测子模块是语音合成***的一个重要组成部分,韵律边界的预测结果将对最终合成语音的韵律表达有着直接影响。通常文本的韵律边界由韵律词(Prosodic Word,PW)、韵律短语(Prosodic Phrase,PPH)和语调短语(Intonational Phrase,IPH)的边界构成。韵律边界预测是通过标注了韵律边界的文本样本进行建模,识别出韵律词、韵律短语和语调短语的边界。通常,韵律词的边界预测、韵律短语的边界预测和语调短语的边界预测分别是一个独立的子任务进行建模。韵律词边界预测模型的输出被输入到韵律短语边界预测模型中,而韵律短语边界预测模型的输出被输入到语调短语边界预测模型中预测语调短语的边界。
然而,现有的语音合成***的合成语音和自然语音在韵律表达上还存在着一定的差距,影响了合成语音的节奏,进而影响了合成语音的自然度和表现力。具体地,声学模型的训练文本中标注了韵律边界,但受限于训练数据集的规模,声学模型难以学习到比较鲁棒的韵律边界信息,导致文本合成语音的韵律表达较差。此外,前端中的韵律边界预测模型通常使用大量带韵律边界标注的文本语料训练,模型预测出来的韵律边界信息与声学模型从训练文本中学习到的韵律边界信息存在使用文本不匹配而导致韵律边界信息不一致的问题。由此可见,如何有效提高说话人文本的韵律边界信息的准确度,进而有效提升语音合成***中说话人合成语音的韵律表达成为当前亟待解决的技术问题。
发明内容
有鉴于此,本发明实施例所解决的技术问题之一在于提供一种韵律边界预测方法及计算机存储介质,用以解决上述技术问题至少之一。
本发明实施例提供一种韵律边界预测方法。所述方法包括:通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据;通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据;通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质存储有可读程序,所述可读程序包括:用于通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据的指令;用于通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据的指令;用于通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据的指令。
根据本发明实施例提供的韵律边界预测方案,通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,能够准确地获得所述字符的韵律词边界标签数据;通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,能够准确地获得所述字符的韵律短语边界标签数据;通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,能够准确地获得所述字符的语调短语边界标签数据。由于所述说话人文本的韵律边界由韵律词、韵律短语和语调短语的边界构成,并且能够准确地获得所述字符的韵律词边界标签数据、韵律短语边界标签数据,以及语调短语边界标签数据,因此,能够有效提高说话人文本的韵律边界信息的准确度,进而有效提升语音合成***中说话人合成语音的韵律表达。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的韵律边界预测方法的步骤流程图;
图2示出了根据本发明实施例的韵律结构的示意图;
图3示出了根据本发明实施例的第二编码器的结构示意图;
图4示出了根据本发明实施例的韵律边界预测模型的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
实施例一
参照图1,示出了根据本发明实施例的韵律边界预测方法的步骤流程图。
具体地,本发明实施例提供的韵律边界预测方法包括以下步骤:
在步骤S101中,通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据。
在本实施例中,所述韵律边界预测模型可理解为用于韵律边界预测的神经网络模型。所述韵律边界预测模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络、深度神经网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等等。所述韵律边界由韵律词(PW)、韵律短语(PPH)和语调短语(IPH)的边界构成。所述韵律词是一组在实际语流中联系密切、经常联在一起发音的音节。音节是人们听觉上最容易分辨出来的语音单位,也是语流中最自然的语音单位。韵律短语是介于韵律词和语调短语之间的中等节奏组块。它可能小于句法上的短语。内部各个韵律词之间可能出现韵律上的节奏边界,具有相对稳定的短语模式和短语重音配置模式。韵律短语是指组成韵律短语的几个韵律词听起来是共用一个节奏群。语调短语就是将几个韵律短语按照一定的句调模式连接起来,一般对应句法上的句子。如图2所示,文本“使用程序节省了时间且提高了数据的准确性”中的“使”、“用”、“程”、“序”、“节”、“省”、“了”、“时”、“间”、“且”、“提”、“高”、“了”、“数”、“据”、“的”、“准”、“确”、“性”为音节,文本“使用程序节省了时间且提高了数据的准确性”中的“使用”、“程序”、“节省了”、“时间”、“且”、“提高了”、“数据的”、“准确性”为韵律词,文本“使用程序节省了时间且提高了数据的准确性”中的“使用程序节省了时间”、“且提高了数据的准确性”为韵律短语,文本“使用程序节省了时间且提高了数据的准确性”为语调短语。所述韵律词边界预测子模型可理解为用于韵律词边界预测的神经网络子模型。所述韵律词边界预测子模型可以是任意适当的可实现特征提取或目标对象检测的神经网络子模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络、深度神经网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等等。所述待预测的说话人文本中的字符的特征数据可为所述待预测的说话人文本中的字符的字符特征向量。所述字符的韵律词特征数据可为所述字符的韵律词特征向量。
在本实施例中,所述字符的韵律词边界标签可理解为标记所述字符的韵律词边界的标签。所述字符的韵律词边界标签数据可为所述字符的韵律词边界标签向量,例如,用于表征所述字符的韵律词边界标签的one-hot编码。如果总共有四种韵律词边界标签,并且所述字符对应一种韵律词边界标签,那么one-hot编码的维度为四维,表示所述字符对应的韵律词边界标签的位置置1,表示其它韵律词边界标签的位置置0。
在一些可选实施例中,在通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码时,通过所述韵律词边界预测子模型中的第一编码模块,基于所述字符的特征数据,对所述字符的语义特征和韵律词特征进行编码,以获得所述字符的语义特征数据和韵律词特征数据。其中,所述字符的语义特征数据可为所述字符的语义特征向量。籍此,通过所述韵律词边界预测子模型中的第一编码模块,基于所述字符的特征数据,对所述字符的语义特征和韵律词特征进行编码,能够准确地获得所述字符的语义特征数据和韵律词特征数据。
在一些可选实施例中,在通过所述韵律词边界预测子模型中的第一编码模块,基于所述字符的特征数据,对所述字符的语义特征和韵律词特征进行编码时,通过所述第一编码模块包括的第一编码器,基于所述字符的特征数据,对所述字符的语义特征进行编码,以获得所述字符的语义特征数据;通过所述第一编码模块包括的第二编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据。籍此,通过所述第一编码模块包括的第一编码器,基于所述字符的特征数据,对所述字符的语义特征进行编码,能够准确地获得所述字符的语义特征数据。此外,通过所述第一编码模块包括的第二编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,能够准确地获得所述字符的韵律词特征数据。
在一个具体的例子中,所述第一编码器是由多层BiLSTM(Bidirectional longand short time memory network,双向长短时记忆网络)网络构成。双向长短时记忆网络能够利用文本的字符序列过去和未来的信息,分别从两个相反的方向得到正向的输出和反向的输出,并把它们拼在一起作为双向长短时记忆网络的输出。双向长短时记忆网络的每个方向的隐藏单元数目为128。所述第二编码器可为变分自动编码器(Variational Autoencoder,VAE)。
在一些可选实施例中,在通过所述第一编码模块包括的第二编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码时,通过所述第二编码器包括的韵律词特征编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据;通过所述第二编码器包括的第一线性层,基于所述字符的韵律词特征数据,计算所述字符的韵律词特征数据的正态分布的均值;通过所述第二编码器包括的第二线性层,基于所述字符的韵律词特征数据,计算所述字符的韵律词特征数据的正态分布的方差;基于所述字符的韵律词特征数据的正态分布的均值和方差,对所述字符的韵律词特征数据进行采样,以获得所述字符的韵律词特征表征数据。籍此,通过所述字符的韵律词特征数据的正态分布的均值和方差,对所述字符的韵律词特征数据进行采样,能够准确地获得所述字符的韵律词特征表征数据。
在一个具体的例子中,所述第二编码器可为变分自动编码器。所述变分自动编码器可由所述韵律词特征编码器、所述第一线性层和所述第二线性层构成。所述韵律词特征编码器可由多层的卷积网络和一层递归神经网络构成。所述第一线性层和所述第二线性层可均为全连接层。如图3所示,所述韵律词特征编码器的输出端分别与所述第一线性层和所述第二线性层的输入端连接。所述第一线性层和所述第二线性层的输出端分别输出所述字符的韵律词特征数据的正态分布的均值和方差。所述第二编码器基于所述字符的韵律词特征数据的正态分布的均值和方差,对所述字符的韵律词特征数据进行采样,能够准确地获得所述字符的韵律词特征表征数据。其中,所述字符的韵律词特征表征数据可为所述字符的韵律词特征表征向量。
在一个具体的例子中,所述变分自动编码器希望构建一个从隐变量Z生成目标数据X的模型,所述变分自动编码器假设Z服从某些常见的分布(比如正态分布或均匀分布),然后希望训练一个模型,该模型能够将原来的概率分布映射到训练集的概率分布,也就是说,其目的是进行分布之间的变换。
具体来说,给定一个真实样本,根据后验分布服从标准正态分布的假设,希望能从分布中采样得到的还原。为了拟合出的正态分布的均值和方差,需要构建两个神经网络,来拟合它们。为了让达到标准正态分布使得二者尽量差异接近于0,可以计算KL散度作为额外的损失优化。本质上,所述变分自动编码器学习是希望KL散度值达到最小。
其中,X表示的是韵律词特征数据,Z表示的是韵律词特征表征数据。在韵律边界预测阶段,基于所述字符的韵律词特征数据X的正态分布的均值和方差,对所述字符的韵律词特征数据X进行采样,获得所述字符的韵律词特征表征数据Z。
在一些可选实施例中,在基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码时,通过所述韵律词边界预测子模型中的第一解码模块,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据。籍此,通过所述韵律词边界预测子模型中的第一解码模块,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,能够准确地获得所述字符的韵律词边界标签数据。
在一些可选实施例中,在通过所述韵律词边界预测子模型中的第一解码模块,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码时,通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签的特征数据;通过所述第一解码模块包括的第三线性层,对所述字符的韵律词边界标签的特征数据进行映射处理,以获得所述字符的韵律词边界标签的概率分布数据;通过所述第一解码模块包括的第一计算层,根据所述字符的韵律词边界标签的概率分布数据,确定所述字符的韵律词边界标签数据。其中,所述字符的韵律词边界标签的特征数据可为所述字符的韵律词边界标签的特征向量。籍此,通过所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,能够准确地获得所述字符的韵律词边界标签数据。
在一个具体的例子中,所述第一解码器可由一层单向GRU(Gated RecurrentUnit,循环门单元)网络构成。GRU的隐藏单元数目为256。所述第三线性层可为全连接层。所述第一计算层可为argmax层。所述第一解码器输出的所述字符的韵律词边界标签的特征数据经过一个线性层的映射,得到所述字符的韵律词边界标签的概率分布数据,再经过argmax层处理,得到每一个解码时间步的概率输出,概率最大的韵律词边界标签作为当前解码时间步的韵律词边界标签的分类结果,根据韵律词边界标签的分类结果得到对应的韵律词边界标签数据。
在一些可选实施例中,在通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码之前,所述方法还包括:通过所述韵律词边界预测子模型中的第一注意力层,确定所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性;通过所述第一注意力层,基于所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第一解码器当前的输入特征数据,所述通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,包括:通过所述第一解码器,基于所述第一解码器当前的输入特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签的特征数据。其中,所述第一解码器当前的输入特征数据可为所述第一解码器当前的输入特征向量,所述字符的韵律词边界标签的特征数据可为所述字符的韵律词边界标签的特征向量。籍此,通过所述韵律词边界预测子模型中的第一注意力层,确定所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性,并基于所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,能够准确地获得所述第一解码器当前的输入特征数据。此外,通过所述第一解码器,基于所述第一解码器当前的输入特征数据,对所述字符的韵律词边界标签进行解码,能够准确地获得所述字符的韵律词边界标签的特征数据。
在一个具体的例子中,注意力机制可以使得所述第一解码器具备专注于其输入的某个子集的能力,即可以选择特定的输入。所述第一注意力层通过计算所述第一解码器的隐藏状态与所述说话人文本中的每个字符的语义特征向量和韵律词特征向量的拼接特征向量之间的相关性,使所述第一解码器在解码输出的某一时刻,将注意力集中在输入序列的某一部分,从而使学习更容易。
其中,是一种相关性的加和计算:,和分别表示第一注意力层的待学习权重参数,表示第一注意力层的映射参数。关联性经过归一化得到注意力权重分布,利用加权求和得到相应的上下文向量(第一解码器当前的输入特征向量),借助上下文向量计算第一解码器的下一个隐藏状态以及第一解码器在该时刻的解码输出。其中,表示第一解码器在上一个时刻的解码输出,表示第一解码器在该时刻的解码输出。
在步骤S102中,通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据。
在本实施例中,所述韵律短语边界预测子模型可理解为用于韵律短语边界预测的神经网络子模型。所述韵律短语边界预测子模型可以是任意适当的可实现特征提取或目标对象检测的神经网络子模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络、深度神经网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等。所述字符的特征数据可为所述字符的字符特征向量。所述字符的韵律词边界标签数据可为所述字符的韵律词边界标签向量。所述字符的韵律短语特征数据可为所述字符的韵律短语特征向量。
在本实施例中,所述字符的韵律短语边界标签可理解为标记所述字符的韵律短语边界的标签。所述字符的韵律短语边界标签数据可为所述字符的韵律短语边界标签向量,例如,用于表征所述字符的韵律短语边界标签的one-hot编码。如果总共有四种韵律短语边界标签,并且所述字符对应一种韵律短语边界标签,那么one-hot编码的维度为四维,表示所述字符对应的韵律短语边界标签的位置置1,表示其它韵律短语边界标签的位置置0。
在一些可选实施例中,在通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码时,通过所述韵律短语边界预测子模型中的第二编码模块,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征和韵律短语特征进行编码,以获得所述字符的第一混合特征数据和韵律短语特征数据。其中,所述第一混合特征数据为所述字符的包含有所述韵律词边界标签数据的语义特征数据,所述第一混合特征数据可为所述第一混合特征向量。籍此,通过所述韵律短语边界预测子模型中的第二编码模块,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征和韵律短语特征进行编码,能够准确地获得所述字符的第一混合特征数据和韵律短语特征数据。
在一些可选实施例中,在通过所述韵律短语边界预测子模型中的第二编码模块,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征和韵律短语特征进行编码时,通过所述第二编码模块包括的第三编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征进行编码,以获得所述字符的第一混合特征数据;通过所述第二编码模块包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据。籍此,通过所述第二编码模块包括的第三编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征进行编码,能够准确地获得所述字符的第一混合特征数据。此外,通过所述第二编码模块包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,能够准确地获得所述字符的韵律短语特征数据。
在一个具体的例子中,所述第三编码器是由多层BiLSTM(Bidirectional longand short time memory network,双向长短时记忆网络)网络构成。双向长短时记忆网络能够利用文本的字符序列过去和未来的信息,分别从两个相反的方向得到正向的输出和反向的输出,并把它们拼在一起作为双向长短时记忆网络的输出。双向长短时记忆网络的每个方向的隐藏单元数目为128。所述第四编码器可为变分自动编码器(Variational Autoencoder,VAE)。
在一些可选实施例中,在通过所述第二编码模块包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码时,通过所述第四编码器包括的韵律短语特征编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据;通过所述第四编码器包括的第四线性层,基于所述字符的韵律短语特征数据,计算所述字符的韵律短语特征数据的正态分布的均值;通过所述第四编码器包括的第五线性层,基于所述字符的韵律短语特征数据,计算所述字符的韵律短语特征数据的正态分布的方差;基于所述字符的韵律短语特征数据的正态分布的均值和方差,对所述字符的韵律短语特征数据进行采样,以获得所述字符的韵律短语特征表征数据。籍此,通过所述字符的韵律短语特征数据的正态分布的均值和方差,对所述字符的韵律短语特征数据进行采样,能够准确地获得所述字符的韵律短语特征表征数据。
在一个具体的例子中,所述第四编码器可为变分自动编码器。所述变分自动编码器可由所述韵律短语特征编码器、所述第四线性层和所述第五线性层构成。所述韵律短语特征编码器可由多层的卷积网络和一层递归神经网络构成。所述第四线性层和所述第五线性层可均为全连接层。所述韵律短语特征编码器的输出端分别与所述第四线性层和所述第五线性层的输入端连接。所述第四线性层和所述第五线性层的输出端分别输出所述字符的韵律短语特征数据的正态分布的均值和方差。所述第四编码器基于所述字符的韵律短语特征数据的正态分布的均值和方差,对所述字符的韵律短语特征数据进行采样,能够准确地获得所述字符的韵律短语特征表征数据。其中,所述字符的韵律短语特征表征数据可为所述字符的韵律短语特征表征向量。
在一个具体的例子中,所述第四编码器的原理与所述第二编码器的原理类似,在此不再赘述。
在一些可选实施例中,在基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码时,通过所述韵律短语边界预测子模型中的第二解码模块,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据。籍此,通过所述韵律短语边界预测子模型中的第二解码模块,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,能够准确地获得所述字符的韵律短语边界标签数据。
在一些可选实施例中,在通过所述韵律短语边界预测子模型中的第二解码模块,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码时,通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签的特征数据;通过所述第二解码模块包括的第六线性层,对所述字符的韵律短语边界标签的特征数据进行映射处理,以获得所述字符的韵律短语边界标签的概率分布数据;通过所述第二解码模块包括的第二计算层,根据所述字符的韵律短语边界标签的概率分布数据,确定所述字符的韵律短语边界标签数据。其中,所述字符的韵律短语边界标签的特征数据可为所述字符的韵律短语边界标签的特征向量。籍此,通过所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,能够准确地获得所述字符的韵律短语边界标签数据。
在一个具体的例子中,所述第二解码器可由一层单向GRU(Gated RecurrentUnit,循环门单元)网络构成。GRU的隐藏单元数目为256。所述第六线性层可为全连接层。所述第二计算层可为argmax层。所述第二解码器输出的所述字符的韵律短语边界标签的特征数据经过一个线性层的映射,得到所述字符的韵律短语边界标签的概率分布数据,再经过argmax层处理,得到每一个解码时间步的概率输出,概率最大的韵律短语边界标签作为当前解码时间步的韵律短语边界标签的分类结果,根据韵律短语边界标签的分类结果得到对应的韵律短语边界标签数据。
在一些可选实施例中,在通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码之前,所述方法还包括:通过所述韵律短语边界预测子模型中的第二注意力层,确定所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性;通过所述第二注意力层,基于所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第二解码器当前的输入特征数据,所述通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,包括:通过所述第二解码器,基于所述第二解码器当前的输入特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签的特征数据。籍此,通过所述韵律短语边界预测子模型中的第二注意力层,确定所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性,并基于所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,能够准确地获得所述第二解码器当前的输入特征数据。此外,通过所述第二解码器,基于所述第二解码器当前的输入特征数据,对所述字符的韵律短语边界标签进行解码,能够准确地获得所述字符的韵律短语边界标签的特征数据。
在一个具体的例子中,所述第二注意力层的原理与所述第一注意力层的原理类似,在此不再赘述。
在步骤S103中,通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据。
在本实施例中,所述语调短语边界预测子模型可理解为用于语调短语边界预测的神经网络子模型。所述语调短语边界预测子模型可以是任意适当的可实现特征提取或目标对象检测的神经网络子模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络、深度神经网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等。所述字符的特征数据可为所述字符的字符特征向量。所述字符的韵律词边界标签数据可为所述字符的韵律词边界标签向量。所述字符的韵律短语边界标签数据可为所述字符的韵律短语边界标签向量,所述字符的语调短语特征数据可为所述字符的语调短语特征向量。
在本实施例中,所述字符的语调短语边界标签可理解为标记所述字符的语调短语边界的标签。所述字符的语调短语边界标签数据可为所述字符的语调短语边界标签向量,例如,用于表征所述字符的语调短语边界标签的one-hot编码。如果总共有四种语调短语边界标签,并且所述字符对应一种语调短语边界标签,那么one-hot编码的维度为四维,表示所述字符对应的语调短语边界标签的位置置1,表示其它语调短语边界标签的位置置0。
在一些可选实施例中,在通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码时,通过所述语调短语边界预测子模型中的第三编码模块,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征和语调短语特征进行编码,以获得所述字符的第二混合特征数据和语调短语特征数据,其中,所述第二混合特征数据为所述字符的包含有所述韵律词边界标签数据和所述韵律短语边界标签数据的语义特征数据,所述第二混合特征数据可为所述第二混合特征向量。籍此,通过所述语调短语边界预测子模型中的第三编码模块,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征和语调短语特征进行编码,能够准确地获得所述字符的第二混合特征数据和语调短语特征数据。
在一些可选实施例中,在通过所述语调短语边界预测子模型中的第三编码模块,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征和语调短语特征进行编码时,通过所述第三编码模块包括的第五编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征进行编码,以获得所述字符的第二混合特征数据;通过所述第三编码模块包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据。籍此,通过所述第三编码模块包括的第五编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征进行编码,能够准确地获得所述字符的第二混合特征数据。此外,通过所述第三编码模块包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,能够准确地获得所述字符的语调短语特征数据。
在一个具体的例子中,所述第五编码器是由多层BiLSTM(Bidirectional longand short time memory network,双向长短时记忆网络)网络构成。双向长短时记忆网络能够利用文本的字符序列过去和未来的信息,分别从两个相反的方向得到正向的输出和反向的输出,并把它们拼在一起作为双向长短时记忆网络的输出。双向长短时记忆网络的每个方向的隐藏单元数目为128。所述第六编码器可为变分自动编码器(Variational Autoencoder,VAE)。
在一些可选实施例中,在通过所述第三编码模块包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码时,通过所述第六编码器包括的语调短语特征编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据;通过所述第六编码器包括的第七线性层,基于所述字符的语调短语特征数据,计算所述字符的语调短语特征数据的正态分布的均值;通过所述第六编码器包括的第八线性层,基于所述字符的语调短语特征数据,计算所述字符的语调短语特征数据的正态分布的方差;基于所述字符的语调短语特征数据的正态分布的均值和方差,对所述字符的语调短语特征数据进行采样,以获得所述字符的语调短语特征表征数据。籍此,通过所述字符的语调短语特征数据的正态分布的均值和方差,对所述字符的语调短语特征数据进行采样,能够准确地获得所述字符的语调短语特征表征数据。
在一个具体的例子中,所述第六编码器可为变分自动编码器。所述变分自动编码器可由所述语调短语特征编码器、所述第七线性层和所述第八线性层构成。所述语调短语特征编码器可由多层的卷积网络和一层递归神经网络构成。所述第七线性层和所述第八线性层可均为全连接层。所述语调短语特征编码器的输出端分别与所述第七线性层和所述第八线性层的输入端连接。所述第七线性层和所述第八线性层的输出端分别输出所述字符的语调短语特征数据的正态分布的均值和方差。所述第六编码器基于所述字符的语调短语特征数据的正态分布的均值和方差,对所述字符的语调短语特征数据进行采样,能够准确地获得所述字符的语调短语特征表征数据。其中,所述字符的语调短语特征表征数据可为所述字符的语调短语特征表征向量。
在一个具体的例子中,所述第六编码器的原理与所述第二编码器的原理类似,在此不再赘述。
在一些可选实施例中,在基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码时,通过所述语调短语边界预测子模型中的第三解码模块,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据。籍此,通过所述语调短语边界预测子模型中的第三解码模块,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,能够准确地获得所述字符的语调短语边界标签数据。
在一些可选实施例中,在通过所述语调短语边界预测子模型中的第三解码模块,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码时,通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签的特征数据;通过所述第三解码模块包括的第九线性层,对所述字符的语调短语边界标签的特征数据进行映射处理,以获得所述字符的语调短语边界标签的概率分布数据;通过所述第三解码模块包括的第三计算层,根据所述字符的语调短语边界标签的概率分布数据,确定所述字符的语调短语边界标签数据。其中,所述字符的语调短语边界标签的特征数据可为所述字符的语调短语边界标签的特征向量。籍此,通过所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,能够准确地获得所述字符的语调短语边界标签数据。
在一个具体的例子中,所述第三解码器可由一层单向GRU(Gated RecurrentUnit,循环门单元)网络构成。GRU的隐藏单元数目为256。所述第九线性层可为全连接层。所述第三计算层可为argmax层。所述第三解码器输出的所述字符的语调短语边界标签的特征数据经过一个线性层的映射,得到所述字符的语调短语边界标签的概率分布数据,再经过argmax层处理,得到每一个解码时间步的概率输出,概率最大的语调短语边界标签作为当前解码时间步的语调短语边界标签的分类结果,根据语调短语边界标签的分类结果得到对应的语调短语边界标签数据。
在一些可选实施例中,在通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码之前,所述方法还包括:通过所述语调短语边界预测子模型中的第三注意力层,确定所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性;通过所述第三注意力层,基于所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第三解码器当前的输入特征数据,所述通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,包括:通过所述第三解码器,基于所述第三解码器当前的输入特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签的特征数据。籍此,通过所述语调短语边界预测子模型中的第三注意力层,确定所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性,并基于所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,能够准确地获得所述第三解码器当前的输入特征数据。此外,通过所述第三解码器,基于所述第三解码器当前的输入特征数据,对所述字符的语调短语边界标签进行解码,能够准确地获得所述字符的语调短语边界标签的特征数据。
在一个具体的例子中,所述第三注意力层的原理与所述第一注意力层的原理类似,在此不再赘述。
在一个具体的例子中,如图4所示,通过所述韵律词边界预测子模型包括的第一编码器,基于所述说话人文本中的字符的特征数据,对所述字符的语义特征进行编码,以获得所述字符的语义特征数据;通过所述韵律词边界预测子模型包括的第二编码器,基于所述说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据。通过所述韵律词边界预测子模型包括的第一注意力层,确定所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性;通过所述第一注意力层,基于所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第一解码器当前的输入特征数据。通过所述第一解码器,基于所述第一解码器当前的输入特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签的特征数据;通过所述第三线性层,对所述字符的韵律词边界标签的特征数据进行映射处理,以获得所述字符的韵律词边界标签的概率分布数据;通过所述第一计算层,根据所述字符的韵律词边界标签的概率分布数据,确定所述字符的韵律词边界标签数据。通过所述韵律短语边界预测子模型包括的第三编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征进行编码,以获得所述字符的第一混合特征数据;通过所述韵律短语边界预测子模型包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据。通过所述韵律短语边界预测子模型包括的第二注意力层,确定所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性;通过所述第二注意力层,基于所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第二解码器当前的输入特征数据。通过所述第二解码器,基于所述第二解码器当前的输入特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签的特征数据;通过所述第六线性层,对所述字符的韵律短语边界标签的特征数据进行映射处理,以获得所述字符的韵律短语边界标签的概率分布数据;通过所述第二计算层,根据所述字符的韵律短语边界标签的概率分布数据,确定所述字符的韵律短语边界标签数据。通过所述语调短语边界预测子模型包括的第五编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征进行编码,以获得所述字符的第二混合特征数据;通过所述语调短语边界预测子模型包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据。通过所述语调短语边界预测子模型中的第三注意力层,确定所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性;通过所述第三注意力层,基于所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第三解码器当前的输入特征数据。通过所述第三解码器,基于所述第三解码器当前的输入特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签的特征数据;通过所述第九线性层,对所述字符的语调短语边界标签的特征数据进行映射处理,以获得所述字符的语调短语边界标签的概率分布数据;通过所述第三计算层,根据所述字符的语调短语边界标签的概率分布数据,确定所述字符的语调短语边界标签数据。
根据本发明实施例提供的韵律边界预测方案,通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,能够准确地获得所述字符的韵律词边界标签数据;通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,能够准确地获得所述字符的韵律短语边界标签数据;通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,能够准确地获得所述字符的语调短语边界标签数据。由于所述说话人文本的韵律边界由韵律词、韵律短语和语调短语的边界构成,并且能够准确地获得所述字符的韵律词边界标签数据、韵律短语边界标签数据,以及语调短语边界标签数据,因此,能够有效提高说话人文本的韵律边界信息的准确度,进而有效提升语音合成***中说话人合成语音的韵律表达。
本实施例提供的韵律边界预测方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。
实施例二
本发明实施例还提供一种计算机存储介质,所述计算机存储介质存储有可读程序,所述可读程序包括:用于通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据的指令;用于通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据的指令;用于通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据的指令。
可选地,所述用于通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据的指令,包括:用于通过所述韵律词边界预测子模型中的第一编码模块,基于所述字符的特征数据,对所述字符的语义特征和韵律词特征进行编码,以获得所述字符的语义特征数据和韵律词特征数据的指令。
可选地,所述用于通过所述韵律词边界预测子模型中的第一编码模块,基于所述字符的特征数据,对所述字符的语义特征和韵律词特征进行编码的指令,包括:用于通过所述第一编码模块包括的第一编码器,基于所述字符的特征数据,对所述字符的语义特征进行编码,以获得所述字符的语义特征数据的指令;用于通过所述第一编码模块包括的第二编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据的指令。
可选地,所述用于通过所述第一编码模块包括的第二编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码的指令,包括:用于通过所述第二编码器包括的韵律词特征编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据的指令;用于通过所述第二编码器包括的第一线性层,基于所述字符的韵律词特征数据,计算所述字符的韵律词特征数据的正态分布的均值的指令;用于通过所述第二编码器包括的第二线性层,基于所述字符的韵律词特征数据,计算所述字符的韵律词特征数据的正态分布的方差的指令;用于基于所述字符的韵律词特征数据的正态分布的均值和方差,对所述字符的韵律词特征数据进行采样,以获得所述字符的韵律词特征表征数据的指令。
可选地,所述用于基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据的指令,包括:用于通过所述韵律词边界预测子模型中的第一解码模块,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据的指令。
可选地,所述用于通过所述韵律词边界预测子模型中的第一解码模块,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码的指令,包括:用于通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签的特征数据的指令;用于通过所述第一解码模块包括的第三线性层,对所述字符的韵律词边界标签的特征数据进行映射处理,以获得所述字符的韵律词边界标签的概率分布数据的指令;用于通过所述第一解码模块包括的第一计算层,根据所述字符的韵律词边界标签的概率分布数据,确定所述字符的韵律词边界标签数据的指令。
可选地,所述用于通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码的指令之前,所述可读程序还包括:用于通过所述韵律词边界预测子模型中的第一注意力层,确定所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性的指令;用于通过所述第一注意力层,基于所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第一解码器当前的输入特征数据的指令,所述用于通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码的指令,包括:用于通过所述第一解码器,基于所述第一解码器当前的输入特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签的特征数据的指令。
可选地,所述用于通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据的指令,包括:用于通过所述韵律短语边界预测子模型中的第二编码模块,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征和韵律短语特征进行编码,以获得所述字符的第一混合特征数据和韵律短语特征数据的指令,其中,所述第一混合特征数据为所述字符的包含有所述韵律词边界标签数据的语义特征数据。
可选地,所述用于通过所述韵律短语边界预测子模型中的第二编码模块,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征和韵律短语特征进行编码的指令,包括:用于通过所述第二编码模块包括的第三编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征进行编码,以获得所述字符的第一混合特征数据的指令;用于通过所述第二编码模块包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据的指令。
可选地,所述用于通过所述第二编码模块包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码的指令,包括:用于通过所述第四编码器包括的韵律短语特征编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据的指令;用于通过所述第四编码器包括的第四线性层,基于所述字符的韵律短语特征数据,计算所述字符的韵律短语特征数据的正态分布的均值的指令;用于通过所述第四编码器包括的第五线性层,基于所述字符的韵律短语特征数据,计算所述字符的韵律短语特征数据的正态分布的方差的指令;用于基于所述字符的韵律短语特征数据的正态分布的均值和方差,对所述字符的韵律短语特征数据进行采样,以获得所述字符的韵律短语特征表征数据的指令。
可选地,所述用于基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据的指令,包括:用于通过所述韵律短语边界预测子模型中的第二解码模块,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据的指令。
可选地,所述用于通过所述韵律短语边界预测子模型中的第二解码模块,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码的指令,包括:用于通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签的特征数据的指令;用于通过所述第二解码模块包括的第六线性层,对所述字符的韵律短语边界标签的特征数据进行映射处理,以获得所述字符的韵律短语边界标签的概率分布数据的指令;用于通过所述第二解码模块包括的第二计算层,根据所述字符的韵律短语边界标签的概率分布数据,确定所述字符的韵律短语边界标签数据的指令。
可选地,所述用于通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码的指令之前,所述可读程序还包括:用于通过所述韵律短语边界预测子模型中的第二注意力层,确定所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性的指令;用于通过所述第二注意力层,基于所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第二解码器当前的输入特征数据的指令,所述用于通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码的指令,包括:用于通过所述第二解码器,基于所述第二解码器当前的输入特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签的特征数据的指令。
可选地,所述用于通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据的指令,包括:用于通过所述语调短语边界预测子模型中的第三编码模块,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征和语调短语特征进行编码,以获得所述字符的第二混合特征数据和语调短语特征数据的指令,其中,所述第二混合特征数据为所述字符的包含有所述韵律词边界标签数据和所述韵律短语边界标签数据的语义特征数据。
可选地,所述用于通过所述语调短语边界预测子模型中的第三编码模块,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征和语调短语特征进行编码的指令,包括:用于通过所述第三编码模块包括的第五编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征进行编码,以获得所述字符的第二混合特征数据的指令;用于通过所述第三编码模块包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据的指令。
可选地,所述用于通过所述第三编码模块包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码的指令,包括:用于通过所述第六编码器包括的语调短语特征编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据的指令;用于通过所述第六编码器包括的第七线性层,基于所述字符的语调短语特征数据,计算所述字符的语调短语特征数据的正态分布的均值的指令;用于通过所述第六编码器包括的第八线性层,基于所述字符的语调短语特征数据,计算所述字符的语调短语特征数据的正态分布的方差的指令;用于基于所述字符的语调短语特征数据的正态分布的均值和方差,对所述字符的语调短语特征数据进行采样,以获得所述字符的语调短语特征表征数据的指令。
可选地,所述用于基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据的指令,包括:用于通过所述语调短语边界预测子模型中的第三解码模块,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据的指令。
可选地,所述用于通过所述语调短语边界预测子模型中的第三解码模块,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码的指令,包括:用于通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签的特征数据的指令;用于通过所述第三解码模块包括的第九线性层,对所述字符的语调短语边界标签的特征数据进行映射处理,以获得所述字符的语调短语边界标签的概率分布数据的指令;用于通过所述第三解码模块包括的第三计算层,根据所述字符的语调短语边界标签的概率分布数据,确定所述字符的语调短语边界标签数据的指令。
可选地,所述用于通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码的指令之前,所述可读程序还包括:用于通过所述语调短语边界预测子模型中的第三注意力层,确定所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性的指令;用于通过所述第三注意力层,基于所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第三解码器当前的输入特征数据的指令,所述用于通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码的指令,包括:用于通过所述第三解码器,基于所述第三解码器当前的输入特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签的特征数据的指令。
根据本申请实施例提供的计算机存储介质,通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,能够准确地获得所述字符的韵律词边界标签数据;通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,能够准确地获得所述字符的韵律短语边界标签数据;通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,能够准确地获得所述字符的语调短语边界标签数据。由于所述说话人文本的韵律边界由韵律词、韵律短语和语调短语的边界构成,并且能够准确地获得所述字符的韵律词边界标签数据、韵律短语边界标签数据,以及语调短语边界标签数据,因此,能够有效提高说话人文本的韵律边界信息的准确度,进而有效提升语音合成***中说话人合成语音的韵律表达。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的教师风格预测模型的训练方法。此外,当通用计算机访问用于实现在此示出的教师风格预测模型的训练方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的教师风格预测模型的训练方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
Claims (20)
1.一种韵律边界预测方法,其特征在于,所述方法包括:
通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据;
通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据;
通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据。
2.根据权利要求1所述的韵律边界预测方法,其特征在于,所述通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,包括:
通过所述韵律词边界预测子模型中的第一编码模块,基于所述字符的特征数据,对所述字符的语义特征和韵律词特征进行编码,以获得所述字符的语义特征数据和韵律词特征数据。
3.根据权利要求2所述的韵律边界预测方法,其特征在于,所述通过所述韵律词边界预测子模型中的第一编码模块,基于所述字符的特征数据,对所述字符的语义特征和韵律词特征进行编码,包括:
通过所述第一编码模块包括的第一编码器,基于所述字符的特征数据,对所述字符的语义特征进行编码,以获得所述字符的语义特征数据;
通过所述第一编码模块包括的第二编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据。
4.根据权利要求3所述的韵律边界预测方法,其特征在于,所述通过所述第一编码模块包括的第二编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,包括:
通过所述第二编码器包括的韵律词特征编码器,基于所述字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据;
通过所述第二编码器包括的第一线性层,基于所述字符的韵律词特征数据,计算所述字符的韵律词特征数据的正态分布的均值;
通过所述第二编码器包括的第二线性层,基于所述字符的韵律词特征数据,计算所述字符的韵律词特征数据的正态分布的方差;
基于所述字符的韵律词特征数据的正态分布的均值和方差,对所述字符的韵律词特征数据进行采样,以获得所述字符的韵律词特征表征数据。
5.根据权利要求2所述的韵律边界预测方法,其特征在于,所述基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据,包括:
通过所述韵律词边界预测子模型中的第一解码模块,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据。
6.根据权利要求5所述的韵律边界预测方法,其特征在于,所述通过所述韵律词边界预测子模型中的第一解码模块,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,包括:
通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签的特征数据;
通过所述第一解码模块包括的第三线性层,对所述字符的韵律词边界标签的特征数据进行映射处理,以获得所述字符的韵律词边界标签的概率分布数据;
通过所述第一解码模块包括的第一计算层,根据所述字符的韵律词边界标签的概率分布数据,确定所述字符的韵律词边界标签数据。
7.根据权利要求6所述的韵律边界预测方法,其特征在于,所述通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码之前,所述方法还包括:
通过所述韵律词边界预测子模型中的第一注意力层,确定所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性;
通过所述第一注意力层,基于所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第一解码器当前的输入特征数据,
所述通过所述第一解码模块包括的第一解码器,基于所述语义特征数据和所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,包括:
通过所述第一解码器,基于所述第一解码器当前的输入特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签的特征数据。
8.根据权利要求1所述的韵律边界预测方法,其特征在于,所述通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,包括:
通过所述韵律短语边界预测子模型中的第二编码模块,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征和韵律短语特征进行编码,以获得所述字符的第一混合特征数据和韵律短语特征数据,其中,所述第一混合特征数据为所述字符的包含有所述韵律词边界标签数据的语义特征数据。
9.根据权利要求8所述的韵律边界预测方法,其特征在于,所述通过所述韵律短语边界预测子模型中的第二编码模块,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征和韵律短语特征进行编码,包括:
通过所述第二编码模块包括的第三编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的第一混合特征进行编码,以获得所述字符的第一混合特征数据;
通过所述第二编码模块包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据。
10.根据权利要求9所述的韵律边界预测方法,其特征在于,所述通过所述第二编码模块包括的第四编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,包括:
通过所述第四编码器包括的韵律短语特征编码器,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据;
通过所述第四编码器包括的第四线性层,基于所述字符的韵律短语特征数据,计算所述字符的韵律短语特征数据的正态分布的均值;
通过所述第四编码器包括的第五线性层,基于所述字符的韵律短语特征数据,计算所述字符的韵律短语特征数据的正态分布的方差;
基于所述字符的韵律短语特征数据的正态分布的均值和方差,对所述字符的韵律短语特征数据进行采样,以获得所述字符的韵律短语特征表征数据。
11.根据权利要求8所述的韵律边界预测方法,其特征在于,所述基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据,包括:
通过所述韵律短语边界预测子模型中的第二解码模块,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据。
12.根据权利要求11所述的韵律边界预测方法,其特征在于,所述通过所述韵律短语边界预测子模型中的第二解码模块,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,包括:
通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签的特征数据;
通过所述第二解码模块包括的第六线性层,对所述字符的韵律短语边界标签的特征数据进行映射处理,以获得所述字符的韵律短语边界标签的概率分布数据;
通过所述第二解码模块包括的第二计算层,根据所述字符的韵律短语边界标签的概率分布数据,确定所述字符的韵律短语边界标签数据。
13.根据权利要求12所述的韵律边界预测方法,其特征在于,所述通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码之前,所述方法还包括:
通过所述韵律短语边界预测子模型中的第二注意力层,确定所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性;
通过所述第二注意力层,基于所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第二解码器当前的输入特征数据,
所述通过所述第二解码模块包括的第二解码器,基于所述字符的第一混合特征数据和韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,包括:
通过所述第二解码器,基于所述第二解码器当前的输入特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签的特征数据。
14.根据权利要求1所述的韵律边界预测方法,其特征在于,所述通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,包括:
通过所述语调短语边界预测子模型中的第三编码模块,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征和语调短语特征进行编码,以获得所述字符的第二混合特征数据和语调短语特征数据,其中,所述第二混合特征数据为所述字符的包含有所述韵律词边界标签数据和所述韵律短语边界标签数据的语义特征数据。
15.根据权利要求14所述的韵律边界预测方法,其特征在于,所述通过所述语调短语边界预测子模型中的第三编码模块,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征和语调短语特征进行编码,包括:
通过所述第三编码模块包括的第五编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的第二混合特征进行编码,以获得所述字符的第二混合特征数据;
通过所述第三编码模块包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据。
16.根据权利要求15所述的韵律边界预测方法,其特征在于,所述通过所述第三编码模块包括的第六编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,包括:
通过所述第六编码器包括的语调短语特征编码器,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据;
通过所述第六编码器包括的第七线性层,基于所述字符的语调短语特征数据,计算所述字符的语调短语特征数据的正态分布的均值;
通过所述第六编码器包括的第八线性层,基于所述字符的语调短语特征数据,计算所述字符的语调短语特征数据的正态分布的方差;
基于所述字符的语调短语特征数据的正态分布的均值和方差,对所述字符的语调短语特征数据进行采样,以获得所述字符的语调短语特征表征数据。
17.根据权利要求14所述的韵律边界预测方法,其特征在于,所述基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据,包括:
通过所述语调短语边界预测子模型中的第三解码模块,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据。
18.根据权利要求17所述的韵律边界预测方法,其特征在于,所述通过所述语调短语边界预测子模型中的第三解码模块,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,包括:
通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签的特征数据;
通过所述第三解码模块包括的第九线性层,对所述字符的语调短语边界标签的特征数据进行映射处理,以获得所述字符的语调短语边界标签的概率分布数据;
通过所述第三解码模块包括的第三计算层,根据所述字符的语调短语边界标签的概率分布数据,确定所述字符的语调短语边界标签数据。
19.根据权利要求18所述的韵律边界预测方法,其特征在于,所述通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码之前,所述方法还包括:
通过所述语调短语边界预测子模型中的第三注意力层,确定所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性;
通过所述第三注意力层,基于所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性,对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和,以获得所述第三解码器当前的输入特征数据,
所述通过所述第三解码模块包括的第三解码器,基于所述字符的第二混合特征数据和语调短语特征数据,对所述字符的语调短语边界标签进行解码,包括:
通过所述第三解码器,基于所述第三解码器当前的输入特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签的特征数据。
20.一种计算机存储介质,其特征在于,所述计算机存储介质存储有可读程序,所述可读程序包括:
用于通过韵律边界预测模型中的韵律词边界预测子模型,基于待预测的说话人文本中的字符的特征数据,对所述字符的韵律词特征进行编码,以获得所述字符的韵律词特征数据,并基于所述韵律词特征数据,对所述字符的韵律词边界标签进行解码,以获得所述字符的韵律词边界标签数据的指令;
用于通过所述韵律边界预测模型中的韵律短语边界预测子模型,基于所述字符的特征数据和所述字符的韵律词边界标签数据,对所述字符的韵律短语特征进行编码,以获得所述字符的韵律短语特征数据,并基于所述韵律短语特征数据,对所述字符的韵律短语边界标签进行解码,以获得所述字符的韵律短语边界标签数据的指令;
用于通过所述韵律边界预测模型中的语调短语边界预测子模型,基于所述字符的特征数据、所述字符的韵律词边界标签数据,以及所述字符的韵律短语边界标签数据,对所述字符的语调短语特征进行编码,以获得所述字符的语调短语特征数据,并基于所述字符的语调短语特征数据,对所述字符的语调短语边界标签进行解码,以获得所述字符的语调短语边界标签数据的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110337155.4A CN112802451B (zh) | 2021-03-30 | 2021-03-30 | 韵律边界预测方法及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110337155.4A CN112802451B (zh) | 2021-03-30 | 2021-03-30 | 韵律边界预测方法及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112802451A true CN112802451A (zh) | 2021-05-14 |
CN112802451B CN112802451B (zh) | 2021-07-09 |
Family
ID=75815854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110337155.4A Active CN112802451B (zh) | 2021-03-30 | 2021-03-30 | 韵律边界预测方法及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112802451B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421550A (zh) * | 2021-06-25 | 2021-09-21 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
US20110046958A1 (en) * | 2009-08-21 | 2011-02-24 | Sony Corporation | Method and apparatus for extracting prosodic feature of speech signal |
US20140222421A1 (en) * | 2013-02-05 | 2014-08-07 | National Chiao Tung University | Streaming encoder, prosody information encoding device, prosody-analyzing device, and device and method for speech synthesizing |
CN107039034A (zh) * | 2016-02-04 | 2017-08-11 | 科大讯飞股份有限公司 | 一种韵律预测方法及*** |
CN110223671A (zh) * | 2019-06-06 | 2019-09-10 | 标贝(深圳)科技有限公司 | 语言韵律边界预测方法、装置、***和存储介质 |
CN111339771A (zh) * | 2020-03-09 | 2020-06-26 | 广州深声科技有限公司 | 一种基于多任务多层级模型的文本韵律预测方法 |
CN112289305A (zh) * | 2020-11-23 | 2021-01-29 | 北京有竹居网络技术有限公司 | 韵律预测方法、装置、设备以及存储介质 |
-
2021
- 2021-03-30 CN CN202110337155.4A patent/CN112802451B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
US20110046958A1 (en) * | 2009-08-21 | 2011-02-24 | Sony Corporation | Method and apparatus for extracting prosodic feature of speech signal |
US20140222421A1 (en) * | 2013-02-05 | 2014-08-07 | National Chiao Tung University | Streaming encoder, prosody information encoding device, prosody-analyzing device, and device and method for speech synthesizing |
CN107039034A (zh) * | 2016-02-04 | 2017-08-11 | 科大讯飞股份有限公司 | 一种韵律预测方法及*** |
CN110223671A (zh) * | 2019-06-06 | 2019-09-10 | 标贝(深圳)科技有限公司 | 语言韵律边界预测方法、装置、***和存储介质 |
CN111339771A (zh) * | 2020-03-09 | 2020-06-26 | 广州深声科技有限公司 | 一种基于多任务多层级模型的文本韵律预测方法 |
CN112289305A (zh) * | 2020-11-23 | 2021-01-29 | 北京有竹居网络技术有限公司 | 韵律预测方法、装置、设备以及存储介质 |
Non-Patent Citations (2)
Title |
---|
CHUNHUI LU;PENGYUAN ZHANG;YONGHONG YAN: "Self-attention Based Prosodic Boundary Prediction for Chinese Speech Synthesis", 《ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
郝东亮等: "面向汉语统计参数语音合成的标注生成方法", 《计算机工程与应用》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421550A (zh) * | 2021-06-25 | 2021-09-21 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112802451B (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11881205B2 (en) | Speech synthesis method, device and computer readable storage medium | |
CN110782870B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
US11929059B2 (en) | Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature | |
JP7504188B2 (ja) | エンドツーエンド音声合成システムにおける表現度の制御 | |
CN110288972B (zh) | 语音合成模型训练方法、语音合成方法及装置 | |
KR20230043084A (ko) | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN111930900B (zh) | 标准发音生成方法及相关装置 | |
CN113593520B (zh) | 歌声合成方法及装置、电子设备及存储介质 | |
CN114387946A (zh) | 语音合成模型的训练方法和语音合成方法 | |
US11322133B2 (en) | Expressive text-to-speech utilizing contextual word-level style tokens | |
CN114360492B (zh) | 音频合成方法、装置、计算机设备和存储介质 | |
CN113823259B (zh) | 将文本数据转换为音素序列的方法及设备 | |
CN112802451B (zh) | 韵律边界预测方法及计算机存储介质 | |
CN114999447B (zh) | 一种基于对抗生成网络的语音合成模型及语音合成方法 | |
CN116597809A (zh) | 多音字消歧方法、装置、电子设备及可读存储介质 | |
CN114333760B (zh) | 一种信息预测模块的构建方法、信息预测方法及相关设备 | |
CN116129856A (zh) | 语音合成模型的训练方法、语音合成方法及相关设备 | |
CN114242038A (zh) | 一种语音合成方法及*** | |
CN113571037A (zh) | 一种汉语盲文语音合成方法及*** | |
CN113555000A (zh) | 声学特征转换及模型训练方法、装置、设备、介质 | |
CN117133270B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN115346510A (zh) | 一种语音合成方法、装置、电子设备及存储介质 | |
Eirini | End-to-End Neural based Greek Text-to-Speech Synthesis | |
CN114267330A (zh) | 语音合成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |