CN110808027A

CN110808027A - 语音合成方法、装置以及新闻播报方法、***

Info

Publication number: CN110808027A
Application number: CN201911069478.9A
Authority: CN
Inventors: 李广之; 刘朋; 陀得意; 康世胤
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-02-18
Anticipated expiration: 2039-11-05
Also published as: CN110808027B

Abstract

本申请涉及一种语音合成方法、装置、计算机可读存储介质和计算机设备，方法包括：获取输入字符，通过语音合成模型的编码器将输入字符编码为字符特征向量；按照解码步次序确定当前解码步的目标输入字符；获取当前解码步的注意力向量，拼接注意力向量以及目标输入字符的字符特征向量，得到目标注意力向量；获取前序解码步的解码信息，将目标注意力向量以及前序解码步的解码信息输入至语音合成模型的解码器中，得到解码器输出的目标输入字符在当前解码步的频谱信息以及当前解码步的字符停止符；在当前解码步的字符停止符为结束标识时，根据目标输入字符在各解码步的频谱信息生成目标输入字符的语音数据。本申请提供的方案可以提高语音合成的准确率。

Description

语音合成方法、装置以及新闻播报方法、***

技术领域

本申请涉及语音合成技术领域，特别是涉及一种语音合成方法、装置、计算机可读存储介质和计算机设备，以及新闻播报方法、***。

背景技术

随着计算机技术的不断发展，将文字信息转化为可听的声音信息的语音合成技术可应用于越来越多的应用场景中，例如人机对话、新闻播报、有声读物等。

然而，目前的语音合成技术往往会存在遗漏字符、出现重复字符等问题，例如，输入文字为“这是一个例子”，通过语音合成***合成的语音结果容易出现“这是个例子”的遗漏字符情况，或者出现“这是一一个例子”的重复字符情况，这导致语音合成的准确度降低。

发明内容

基于此，有必要针对传统的语音合成技术准确度低的技术问题，提供一种语音合成方法、装置、计算机可读存储介质和计算机设备，以及新闻播报方法、***。

一种语音合成方法，包括：

获取输入字符，通过语音合成模型的编码器将所述输入字符编码为字符特征向量；

按照解码步次序确定当前解码步的目标输入字符；

获取当前解码步的注意力向量，拼接所述注意力向量以及所述目标输入字符的字符特征向量，得到目标注意力向量；

获取前序解码步的解码信息，将所述目标注意力向量以及前序解码步的解码信息输入至所述语音合成模型的解码器中，得到所述解码器输出的所述目标输入字符在当前解码步的频谱信息以及当前解码步的字符停止符；

在当前解码步的字符停止符为结束标识时，根据所述目标输入字符在各解码步的频谱信息生成所述目标输入字符的语音数据。

一种语音合成装置，其特征在于，所述装置包括：

字符向量获取模块，用于获取输入字符，通过语音合成模型的编码器将所述输入字符编码为字符特征向量；

输入字符确定模块，用于按照解码步次序确定当前解码步的目标输入字符按照解码步次序确定当前解码步的目标输入字符；

注意力向量获取模块，用于获取当前解码步的注意力向量，拼接所述注意力向量以及所述目标输入字符的字符特征向量，得到目标注意力向量；

频谱信息获取模块，用于获取前序解码步的解码信息，将所述目标注意力向量以及前序解码步的解码信息输入至所述语音合成模型的解码器中，得到所述解码器输出的所述目标输入字符在当前解码步的频谱信息以及当前解码步的字符停止符；

语音数据获取模块，用于在当前解码步的字符停止符为结束标识时，根据所述目标输入字符在各解码步的频谱信息生成所述目标输入字符的语音数据。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

按照解码步次序确定当前解码步的目标输入字符；

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

按照解码步次序确定当前解码步的目标输入字符；

一种新闻播报方法，包括：

获取待播报的新闻文本，通过语音合成模型的编码器将所述新闻文本中的各个字符编码为字符特征；

按照解码步次序在所述新闻文本中确定当前解码步的目标字符；

获取当前解码步的注意力向量，拼接所述注意力向量以及所述目标字符的字符特征向量，得到目标注意力向量；

获取前序解码步的解码信息，将所述目标注意力向量以及前序解码步的解码信息输入至所述语音合成模型的解码器中，得到所述解码器输出的所述目标字符在当前解码步的频谱信息以及当前解码步的字符停止符；

在当前解码步的字符停止符为结束标识时，根据所述目标字符在各解码步的频谱信息生成所述目标字符的语音数据；

在得到所述新闻文本所有字符的语音数据后，根据所述新闻文本所有字符的语音数据进行新闻播报。

一种新闻播报***，所述***包括：

文本采集器，用于采集待播报新闻；

存储器，所述存储器中存储有计算机可读指令；

处理器，所述计算机可读指令被所述处理器执行是，使得所述处理器执行以下步骤：通过语音合成模型的编码器将所述新闻文本中的各个字符编码为字符特征；按照解码步次序在所述新闻文本中确定当前解码步的目标字符；获取当前解码步的注意力向量，拼接所述注意力向量以及所述目标字符的字符特征向量，得到目标注意力向量；获取前序解码步的解码信息，将所述目标注意力向量以及前序解码步的解码信息输入至所述语音合成模型的解码器中，得到所述解码器输出的所述目标字符在当前解码步的频谱信息以及当前解码步的字符停止符；在当前解码步的字符停止符为结束标识时，根据所述目标字符在各解码步的频谱信息生成所述目标字符的语音数据；

扬声器，用于在得到所述新闻文本所有字符的语音数据后，根据所述新闻文本所有字符的语音数据进行新闻播报。

上述语音合成方法、装置、计算机可读存储介质和计算机设备，获取输入字符，通过语音合成模型的编码器将输入字符编码为字符特征向量；按照解码步次序确定当前解码步的目标输入字符；获取当前解码步的注意力向量，拼接注意力向量以及目标输入字符的字符特征向量，得到目标注意力向量；获取前序解码步的解码信息，将目标注意力向量以及前序解码步的解码信息输入至语音合成模型的解码器中，得到解码器输出的目标输入字符在当前解码步的频谱信息以及当前解码步的字符停止符；在当前解码步的字符停止符为结束标识时，根据目标输入字符在各解码步的频谱信息生成目标输入字符的语音数据。在获取到输入字符后，通过确定当前解码步的目标输入字符，并拼接当前解码步的注意力向量以及目标输入字符的字符特征向量得到目标注意力向量，引入当前解码步的目标输入字符的信息，避免语音合成模型在进行频谱信息的预测时注意力注意到其他输入字符中，实现在后续根据前序解码步的解码信息以及目标注意力向量预测当前解码步的频谱信息时，有效减少漏字或者重复字符的发生，提高语音合成的准确率。

附图说明

图1为一个实施例中语音合成方法的应用环境图；

图2为一个实施例中语音合成方法的流程示意图；

图3为一个实施例中通过编码器将输入字符编码为字符特征向量步骤的流程示意图；

图4为一个实施例中语音合成方法的***原理图；

图5为一个实施例中获取当前解码步的注意力向量步骤的流程示意图；

图6为一个实施例中获取前序解码步的解码信息步骤的流程示意图；

图7为一个实施例中将目标注意力向量以及前序解码步的解码信息输入至语音合成模型的解码器中，得到解码器输出的目标输入字符在当前解码步的频谱信息步骤的流程示意图；

图8为一个实施例中语音合成模型的训练步骤的流程示意图；

图9为另一个实施例中语音合成模型的训练步骤的流程示意图；

图10A为一个实施例中新闻播报方法的流程示意图；

图10B为一个实施例中新闻播报***的的结构框图；

图11为一个实施例中语音合成装置的结构框图；

图12为一个实施例中字符向量获取模块的结构示意图；

图13为一个实施例中注意力向量获取模块的结构示意图；

图14为一个实施例中频谱信息获取模块的结构示意图；

图15为另一个实施例中语音合成装置的结构框图；

图16为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

其中，语音合成，是指通过机械的、电子的方法产生人造声音的技术，又称作文语转换(Text to Speech，TTS)技术，其解决的主要问题就是如何将文字信息转化为可听的声音信息，是将计算机自己产生的、或外部输入的文字信息转变为可以听得到的语音信息并输出的技术。

图1为一个实施例中语音合成方法的应用环境图。参照图1，该语音合成方法应用于一种计算机设备。该计算机设备可以是包括终端或服务器。如图1所示，以该计算机设备是服务器102为例，服务器102获取输入字符，通过语音合成模型的编码器将输入字符编码为字符特征向量；按照解码步次序确定当前解码步的目标输入字符；获取当前解码步的注意力向量，拼接注意力向量以及目标输入字符的字符特征向量，得到目标注意力向量；获取前序解码步的解码信息，将目标注意力向量以及前序解码步的解码信息输入至语音合成模型的解码器中，得到解码器输出的目标输入字符在当前解码步的频谱信息以及当前解码步的字符停止符；在当前解码步的字符停止符为结束标识时，根据目标输入字符在各解码步的频谱信息生成目标输入字符的语音数据。服务器102在获取所有输入字符的语音数据后，通过语音输出装置播放该语音数据。

如图2所示，在一个实施例中，提供了一种语音合成方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2，该语音合成方法具体包括如下步骤：

步骤S202，获取输入字符，通过语音合成模型的编码器将输入字符编码为字符特征向量。

其中，输入字符是指待转换为语音音频的文本信息中的多个字符，可以是由终端生成的，也可以是由外部输入。例如，在新闻播报的应用场景中，输入字符是指待播报的新闻文本中的各个字符，在人机对话的问答应用***中，输入字符是指终端所生成的、与用户输入问题对应的答案文本的各个字符。

其中，字符特征向量是指表征输入字符的语义信息的向量，应该理解的是，字符特征向量可以与输入字符中的各个字符一一对应的。

其中，语音合成模型是用于将输入字符转化为之可听的语音数据的模型。这里的语音合成模型是已训练好的网络模型，可直接用来将输入字符转化为对应的语音数据。在语音合成模型中包括但不限于编码器以及解码器，编码器用于对各个输入字符进行编码，并通过非线性变化将输入字符的编码转化为表征语义信息的特征向量，得到各个输入字符的字符特征向量，而解码器用于对编码器输出的字符特征向量进行解码获取输入字符对应的语音数据。

在一个实施例中，为了提高语音合成的准确性，语音合成模型可以是利用编码器与包含有注意力机制的解码器构建的端到端语音合成模型，其中，编码器可以包括卷积神经网络(Convolutional Neural Network，CNN)以及长短期记忆网络(Long short-TermMemory，LSTM长短时记忆网络)，解码器可以包括预处理层、注意力网络、解码器网络以及线性投影网络。

具体地，语音合成模型的编码器在获取到输入字符后，可将输入字符转换为字符编码序列，例如独热编码，然后通过非线性变化将字符编码序列转换为可表征上下文信息的字符特征向量。

步骤S204，按照解码步次序确定当前解码步的目标输入字符。

其中，语音合成模型在一个解码步中预测一帧频谱信息，且语音合成模型按照输入字符的次序依次预测各个输入字符的多个频谱信息，而目标输入字符是指在当前解码步编码器所预测的频谱信息所对应的输入字符。

应该理解的是，在对频谱信息进行预测的过程中，初始状态的目标输入字符为所输入的文本信息中的第一个输入字符。

步骤S206，获取当前解码步的注意力向量，拼接注意力向量以及目标输入字符的字符特征向量，得到目标注意力向量。

其中，注意力向量是指对各个输入字符的注意力分配概率分布，可以通过语音合成模型的解码器中的注意力网络计算获得。具体地，注意力网络可以先获取前序解码步的解码信息，然后根据前序解码步的解码信息与各个输入字符的字符特征向量计算前序解码步的解码信息与各个输入字符的匹配度，进而根据与各个输入字符对应的匹配度确定当前解码步频谱信息预测过程中各个输入字符的注意力分配的权值系数，得到在当前解码步中各个输入字符的注意力权重，最后注意力网络对输入字符的注意力权重以及字符特征向量进行加权求和，得到当前解码步的注意力向量。在得到当前解码步的注意力向量后，可将注意力向量与目标输入字符的字符特征向量进行拼接，获得当前解码步的目标注意力向量。

由于语音合成模型中的解码器通常是由自回归网络模型组成，在预测不同解码步的频谱信息的过程中，各个输入字符对当前解码步中频谱信息的预测的影响力大小是不同的，通过引入注意力机制，引入了不同输入字符对频谱信息预测的影响信息，实现从众多的输入字符信息中选择出对当前解码步频谱信息预测的关键信息，有效提高语音合成的准确性，但是，在注意力分析时注意的是目标输入字符的下一个输入字符会导致遗漏字符的情况，在注意力分析时注意的是目标输入字符的上一个输入字符会导致字符的重复出现，语音合成的错误率较高，而通过确定在各个解码步预测的频谱信息所注意的目标输入字符，在目标注意力向量加入目标输入字符的字符特征向量，引入更多的目标输入字符的信息，实现从众多的输入字符信息中选择出对当前解码步频谱信息预测更关键的信息，进一步提高语音合成的准确度，有效降低重复字符或漏字的情况出现，提高语音合成的准确率。

步骤S208，获取前序解码步的解码信息，将目标注意力向量以及前序解码步的解码信息输入至语音合成模型的解码器中，得到解码器输出的目标输入字符在当前解码步的频谱信息以及当前解码步的字符停止符。

其中，前序解码步是指当前解码步之前的所有解码步，例如，假设当前解码步为t时刻的解码步，则前序解码步包括1至(t-1)时刻的解码步。前序解码步的解码信息用于表征前序解码步中获得的频谱信息以及注意力向量，也可以看作为解码器的解码层特征。

其中，语音合成模型的解码器的输出结果包括频谱信息和当前解码步的字符停止符。其中，频谱信息可以包括梅尔频谱和线性谱，频谱信息用于合成输入字符对应的语音数据；字符停止符用于表示当前解码步获得的频谱信息是否为目标输入字符最后一帧的频谱信息。

具体地，解码器可以包括频谱线性投影网络以及停止符线性投影网络，语音合成模型的解码器获得当前解码步的目标注意力向量以及前序解码步的解码信息后，解码器将前序解码步的解码信息以及目标注意力向量进行拼接，并将拼接后的向量信息，分别输入至频谱线性投影网络以及停止符线性投影网络中，频谱线性投影网络对拼接后的向量信息进行线性投影后输出当前解码步的频谱信息，停止符线性投影网络对拼接后的向量信息进行线性投影后输出当前解码步的字符停止符。

进一步的，字符停止符可以包括结束标识以及非结束标识，停止线性投影网络输出当前解码步的字符停止符，具体可以是：将前序解码步的解码信息以及目标注意力向量进行拼接后输入至停止线性投影网络，停止线性投影网络对输入的向量信息进行线性投影，以获取当前解码步的频谱信息为目标输入字符最后一帧的频谱信息的概率，当获得的概率值大于或等于预设阈值，例如预设阈值设置为0.5，则将字符停止符确定为结束标识的字符停止符，当获得的概率值小于预设阈值，则将字符停止符确定为非结束标识的字符停止符。

步骤S210，在当前解码步的字符停止符为结束标识时，根据目标输入字符在各解码步的频谱信息生成目标输入字符的语音数据。

其中，字符停止符包括有结束标识以及非结束标识，若当前解码步的字符停止符为结束标识时，表示当前解码步所对应的目标输入字符的频谱信息已预测完成，当前解码步所预测的频谱信息为目标输入字符的最后一帧频谱信息，若当前解码步的字符停止符为非结束标识，表示当前解码步所对应的目标输入字符的频谱信息仍未预测完成，当前解码步所预测的频谱信息并非目标输入字符的最后一帧频谱信息，下一解码步的目标输入字符仍然为当前解码步的目标输入字符。可以理解的是，在得到的字符停止符为结束标识前，解码器输出的频谱信息为同一输入字符不同帧的频谱信息，

具体地，在得到当前解码步的字符停止符后，判断该字符停止符的是否为结束标识，当当前解码步的字符停止符为结束标识时，当前解码步预测获得的频谱信息为目标输入字符最后一帧的频谱信息，此时可根据目标输入字符在各个解码步的频谱信息获取与目标输入字符对应语音数据。

上述语音合成方法中，获取输入字符，通过语音合成模型的编码器将输入字符编码为字符特征向量；按照解码步次序确定当前解码步的目标输入字符；获取当前解码步的注意力向量，拼接注意力向量以及目标输入字符的字符特征向量，得到目标注意力向量；获取前序解码步的解码信息，将目标注意力向量以及前序解码步的解码信息输入至语音合成模型的解码器中，得到解码器输出的目标输入字符在当前解码步的频谱信息以及当前解码步的字符停止符；在当前解码步的字符停止符为结束标识时，根据目标输入字符在各解码步的频谱信息生成目标输入字符的语音数据。在获取到输入字符后，通过确定当前解码步的目标输入字符，并拼接当前解码步的注意力向量以及目标输入字符的字符特征向量得到目标注意力向量，实现引入当前解码步的目标输入字符的信息，避免语音合成模型在进行频谱信息的预测时注意力注意到其他输入字符中，实现在后续根据前序解码步的解码信息以及目标注意力向量预测当前解码步的频谱信息时，有效减少漏字或者重复字符的发生，提高语音合成的准确率。

在一个实施例中，将目标注意力向量以及前序解码步的解码信息输入至语音合成模型的解码器中，得到解码器输出的目标输入字符在当前解码步的频谱信息以及当前解码步的字符停止符的步骤之后，还包括：在当前解码步的字符停止符为结束标识时，将目标输入字符的下一个输入字符，确定为下一个解码步的目标输入字符；重复执行获取当前解码步的注意力向量，拼接注意力向量以及目标输入字符的字符特征向量，得到目标注意力向量的步骤，直至获得各输入字符在各解码步的频谱信息。

其中，输入字符是指待转换为语音音频的文本信息中的多个字符，各个输入字符间是具备前后次序的。在当前解码步的字符停止符为结束标识时，当前解码步所对应的目标输入字符的频谱信息已预测完成，此时，将目标输入字符的下一个输入字符，确定为下一个解码步的目标输入字符，使得语音合成模型的注意力移动到下一个输入字符中，进行下一个输入字符的频谱信息预测，有效提高语音合成的准确率。

例如，以文本信息为“这是一个例子”为例，各个输入字符分别为“这”、“是”、“一”、“个”、“例”、“子”，假设当前解码步的目标输入字符为“是”，若当前解码步预测得到的字符停止符为结束标识，即输入字符“是”的频谱信息已全部预测完成，此时语音合成模型将输入字符“是”的下一个输入字符“一”确定为下一个解码步的目标输入字符，并将输入字符“一”的字符特征向量与下一解码步的注意力向量进行拼接，获取下一解码步的目标注意力向量，后续解码器根据前序解码步的解码信息以及下一解码步的目标注意力向量，预测下一解码步的频谱信息，如此类推，直至语音合成模块获得“这”、“是”、“一”、“个”、“例”以及“子”的频谱信息。

进一步地，在一个实施例中，在当前解码步的字符停止符为非结束标识时，将当前解码步的目标输入字符，确定为下一个解码步的目标输入字符；重复执行获取当前解码步的注意力向量，拼接注意力向量以及目标输入字符的字符特征向量，得到目标注意力向量的步骤，直至到某一个解码步中字符停止符为结束标识。例如，以文本信息为“这是一个例子”为例，假设当前解码步的目标输入字符为“是”，若当前解码步预测得到的字符停止符为非结束标识，即输入字符“是”的频谱信息未全部预测完成，此时语音合成模型继续将输入字符“是”确定为下一个解码步的目标输入字符，并将输入字符“是”的字符特征向量与下一解码步的注意力向量进行拼接，获取下一解码步的目标注意力向量，后续解码器根据前序解码步的解码信息以及下一解码步的目标注意力向量，预测下一解码步的频谱信息，如此类推，直至到某个解码步(该解码步对应的目标输入字符为“是”)预测得到的字符停止符为结束标识。

在一个实施例中，如图3所示，编码器包括卷积神经网络和第一长短时记忆神经网络；通过语音合成模型的编码器将输入字符编码为字符特征向量的步骤，包括：

步骤S302：获取输入字符的字符编码序列。

其中，字符编码序列是用于唯一标识输入字符的序列，具体可以是一个独热编码，也可以是经过词嵌入(word embedding)生成的编码。具体地，编码器可以事先构建与字符对应的字符编码字典，在获取到输入字符后，从字符编码字典中查找与输入字符对应的字符编码序列。

步骤S304：将字符编码序列输入至卷积神经网络进行特征映射，得到输入字符的上下文信息序列。

其中，卷积神经网络可以是使用卷积层对对输入字符的字符编码序列进行非线性变换，也就是通过卷积层将低维的字符编码序列映射为高维特征，提取输入字符间的上下文信息。

在一个实施例中，卷积神经网络可以包括三层卷积层，具体地，在得到字符编码序列后，编码器可以将字符编码序列输入至包括三层卷积层的卷积神经网络中，通过卷积神经网络对字符编码进行非线性变换，从而得到输入字符的上下文信息序列。

步骤S306：将上下文信息序列输入至第一长短时记忆神经网络，得到输入字符的字符特征向量。

其中，第一长短时记忆神经网络用于获取前后次序的输入字符间语义信息特征，实现将卷积神经网络输出的上下文信息序列映射为编码器隐状态序列，最终第一长短时记忆神经网络输出的编码器隐状态序列作为各个输入字符的字符特征向量。

在一个实施例中，第一长短时记忆神经网络可以选用双向长短时记忆神经网络。具体地，在得到输入字符的上下文信息序列后，将上下文信息序列输入至第一长短时记忆神经网络中，通过第一长短时记忆神经网络的前向递归神经网络隐含层以及后向递归神经网络隐含层分别对输入字符的上下文信息序列进行特征学习，以获取各个输入字符的字符特征向量。

在一个实施例中，如图4所示，图4示出一个实施例中语音合成方法的***原理图。如图4的语音合成模型的框架中所示，首先获取输入字符的字符编码序列，将输入字符输入至语音合成模型的编码器中，通过编码器中的卷积神经网络进行对字符编码进行非线性变换，得到输入字符的上下文信息序列。与卷积神经网络连接的是第一长短时记忆神经网络，将卷积神经网络输出的上下文信息序列输入至第一长短时记忆神经网络中，第一长短时记忆神经网络对上下文信息序列进行特征学习，最后第一长短时记忆神经网络输出各个输入字符的字符特征向量。

在一个实施例中，如图5所示，获取当前解码步的注意力向量的步骤包括：

步骤S502：获取前序解码步的解码信息，计算前序解码步的解码信息与各输入字符的字符特征向量间的匹配度。

由于在预测不同解码步的频谱信息的过程中，各个输入字符对当前解码步中频谱信息的预测的影响力大小是不同的，为了提高频谱信息预测的准确度、语音合成的准确度，因而需要确定当前解码步中各个输入字符对线性频谱的预测的影响权重，实现在进行频谱信息的预测过程中，从输入字符信息中选择出对当前解码步的频谱信息的预测更关键的信息。

其中，前序解码步是指当前解码步之前的所有解码步，前序解码步的解码信息用于表征前序解码步中获得的频谱信息以及注意力向量，也可以看作为解码器的解码层特征。匹配度是指前序解码步的解码信息与各个输入字符的字符特征向量间的相似程度，通过计算前序解码步的解码信息与各个输入字符间的相似程度确定当前解码步预测的频谱信息与各个输入字符的对齐可能性，若前序解码步的解码信息与某个输入字符的字符特征向量间的匹配度越大，即当前解码步预测的频谱信息与该输入字符对齐可能性越大，此时该输入字符对当前解码步中频谱信息的预测的影响力越大，相应的，若前序解码步的解码信息与某个输入字符的字符特征向量间的匹配度越小，即当前解码步预测的频谱信息与该输入字符对齐可能性越小，此时该输入字符对当前解码步中频谱信息的预测的影响力越小。

步骤S504：根据匹配度确定在当前解码步各输入字符的注意力权重。

其中，注意力权重是指在当前解码步中各个输入字符对频谱信息的预测的影响权重，即当前解码步中语音合成模型对各个输入字符的注意力分配的大小。具体地，在得到前序解码步的解码信息与各个输入字符间的匹配度后，通过对各个输入字符对应的匹配度进行归一化，获取符合概率分布取值区间的概率分布数值，进而根据该概率分布数据确定各个输入字符的注意力权重。

步骤S506：根据各输入字符的字符特征向量以及在当前解码步的注意力权重，获取当前解码步的注意力向量。

具体地，在获取在当前解码步的注意力权重后，可将注意力权重与各个输入字符的字符特征向量进行加权求和，获得当前解码步的注意力向量。通过将获得的注意力权重与各个输入字符的字符特征向量进行加权求和，实现在进行频谱信息的预测过程中，使用对更多频谱信息的预测的影响力大的输入字符的信息，提高频谱信息预测准确性，提高语音合成的准确度。

在一个实施例中，如图6所示，获取前序解码步的解码信息的步骤，包括：

步骤S602：获取上一解码步的频谱信息以及上一解码步的注意力向量。

步骤S604：将上一解码步的频谱信息输入至编码器的预处理网络，得到频谱特征向量。

其中，预处理网络用于学习所输入的频谱信息的特征信息。具体地，在获取到上一解码步的频谱信息后，将频谱信息输入至预处理网络中，通过预处理网络对频谱信息进行特征学习以获取上一解码步的频谱特征向量，该频谱特征向量用于后续获取前序解码步复用的频谱信息。

步骤S606：将频谱特征向量与上一解码步的注意力向量拼接后输入至编码器的第二长短时记忆神经网络，得到前序解码步的解码信息。

其中，在得到上一解码步的频谱信息的频谱特征向量以及上一解码步的注意力向量后，拼接频谱特征向量以及上一解码步的注意力向量，得到拼接向量，并将该拼接向量输入至第二长短时记忆神经网络中进行特征学习，以获取前序解码步的解码信息。在一个实施中，第二长短时记忆神经网络可以选用自回归长短时记忆神经网络，该自回归长短时记忆神经网络实现复用前序解码步中的频谱信息。

具体可如图4所示，获取上一解码步的频谱信息，并将上一解码步的频谱信息输入至预处理网络中，预处理网络对上一解码步的频谱信息进行特征学习，得到上一解码步的频谱特征向量。与预处理网络连接的是第二长短时记忆神经网络，将预处理网络输出的频谱特征向量与上一解码步的注意力向量进行拼接后，输入至第二长短时记忆神经网络中，第二长短时记忆神经网络对频谱特征向量与上一解码步的注意力向量拼接的向量进行特征学习，得到前序解码步的解码信息。

在一个实施例中，频谱信息包括梅尔频谱以及频谱信息；解码器包括频谱线性投影网络和频谱后处理网络；如图7所示，将目标注意力向量以及前序解码步的解码信息输入至语音合成模型的解码器中，得到解码器输出的目标输入字符在当前解码步的频谱信息的步骤，包括：

步骤S702：将目标注意力向量以及前序解码步的解码信息输入至解码器的频谱线性投影网络中，得到频谱线性投影网络输出的当前解码步的梅尔频谱。

步骤S704：将目标输入字符当前解码步的梅尔频谱输入至解码器的频谱后处理网络中，得到后处理网络输出的当前解码步的线性谱。

具体可如图4所示，在获取到目标注意力向量以及前序解码步的解码信息后，可以将目标注意力向量与前序解码步的解码信息进行拼接后，将拼接得到的向量信息输入至解码器的频谱线性投影网络中，频谱线性投影网络对输入的向量信息进行线性投影，预测当前解码步的梅尔频谱。在得到当前解码步的梅尔频谱后，解码器将梅尔频谱输入至频谱后处理网络中，频谱后处理网络将梅尔频谱转换为线性谱。

在一个实施例中，如图8所示，语音合成模型的训练步骤包括：

步骤S802：获取训练样本，其中训练样本包括训练字符、与训练字符对应的音频的标准频谱信息。

其中，训练字符是指用于训练语音合成模型的文本信息中的多个字符，标准频谱信息是指用于训练语音合成模型的文本信息对应的音频的频谱信息。其中，用于训练语音合成模型的文本信息对应的音频可以通过专业人员录音获取，标准频谱信息可以是对录取到的音频进行频谱分析而获取的，标准频谱信息中包括有多帧频谱信息，该频谱信息可以是梅尔频谱，也可以是线性谱。

步骤S804：确定在标准频谱信息中与各训练字符对应的频谱帧，根据与各训练字符对应的频谱帧生成与各训练字符对应的时长特征序列。

其中，频谱帧是指标准频谱信息中单帧的频谱信息。其中，时长特征序列是标识各个训练字符对应音频的频谱信息的帧数量，可用于表示训练字符的发音时长信息，具体可以是由0和1组成的序列，例如，某个训练字符的音频数据的包括6帧频谱信息，其时长特征序列为“000001”。

具体地，在获得训练样本中的标准频谱信息后，在标准频谱信息中分别获取与每个训练字符对应的频谱帧，并计算与每个训练字符对应的频谱帧的数量，以确定每个训练字符的发音时长信息，最后根据与各个训练字符对应的频谱帧的数量，生成与各个训练字符对应的时长特征序列。

步骤S806：通过语音合成模型的编码器将训练字符编码为预测字符特征向量。

其中，在获得训练样本后，将训练样本中的训练字符输入至语音合成模型的编码器中，语音合成模型的编码器用于提取各个输入字符的语义特征信息，得到各个输入字符的字符特征向量。

具体地，编码器可以包括但不限于卷积神经网络和第一长短时记忆神经网络，编码器在获取到训练字符后，可将训练字符转换为字符编码序列，然后通过卷积神经网络对训练字符的字符编码进行非线性变换，得到训练字符的上下文信息序列，最后将训练字符的上下文信息序列输入至第一长短时记忆神经网络中，通过第一长短时记忆神经网络对训练字符的上下文信息序列进行特征学习，以获取各个训练字符的预测字符特征向量。

步骤S808：按照解码步次序确定当前解码步的目标训练字符。

步骤S810：获取当前解码步的训练注意力向量，将训练注意力向量以及目标训练字符的预测字符特征向量进行拼接，获得目标训练注意力向量。

其中，训练注意力向量是指对各个训练字符的注意力分配概率分布，可以通过语音合成模型的解码器中的注意力网络计算获得。具体地，注意力网络可以先获取前序解码步的预测解码信息，然后根据前序解码步的预测解码信息与各个训练字符的字符特征向量，计算前序解码步的预测解码信息与各个训练字符的匹配度，进而对与各个训练字符对应的匹配度进行归一化，获取符合概率分布取值区间的概率分布数值，进而根据该概率分布数据确定在当前解码步中语音合成模型对各个训练字符的注意力分配的权值系数，得到在当前解码步中各个训练字符的注意力权重，最后注意力网络对训练字符的注意力权重以及预测字符特征向量进行加权求和，得到当前解码步的训练注意力向量。在得到当前解码步的训练注意力向量后，可将训练注意力向量与目标训练字符的预测字符特征向量进行拼接，获得当前解码步的目标训练注意力向量。

步骤S812：获取前序解码步的预测解码信息，将目标训练注意力向量以及前序解码步的预测解码信息输入至语音合成模型的解码器中，得到解码器输出的目标训练字符在当前解码步的预测频谱信息以及当前解码步的预测字符停止符。

其中，解码器可以包括频谱线性投影网络以及停止符线性投影网络，具体地，语音合成模型的解码器获得当前解码步的目标训练注意力向量以及前序解码步的预测解码信息后，解码器将前序解码步的徐策解码信息以及目标训练注意力向量进行拼接，并将拼接后的向量信息分别输入至频谱线性投影网络以及停止符线性投影网络中进行线性投影，频谱线性投影网络输出当前解码步的预测频谱信息，停止符线性投影网络输出当前解码步的预测字符停止符。

进一步地，在当前解码步的预测字符停止符为结束标识时，当前解码步所对应的目标训练字符的预测频谱信息已预测完成，此时，将目标训练字符的下一个训练字符，确定为下一个解码步的目标训练字符，使得语音合成模型的注意力移动到下一个输入字符中，并进行下一个输入字符的频谱信息的预测，直至获取到训练样本中所有训练字符在各个解码步的预测频谱信息以及预测字符停止符。

步骤S814：当获取到训练字符在各解码步的预测频谱信息以及预测字符停止符后，根据各解码步的预测字符停止符与时长特征序列计算时长特征损失值，并根据各解码步的预测频谱信息与标准频谱信息计算声学特征损失值。

其中，在获取到训练样本中所有训练字符在各个解码步的预测频谱信息以及预测字符停止符后，根据训练字符在各个解码步的字符停止符与时长特征序列进行比较计算，得到时长特征损失值；并根据获得的预测频谱信息与标准频谱信息进行比较计算，得到声学特征损失值。

具体地，当预测字符停止符为停止标识时，预测字符停止符可标识为“1”值，当预测字符停止符为非停止标识时，预测字符停止符可标识为“0”值，在获取到训练样本中所有训练字符在各个解码步的预测字符停止符，可以根据所有解码步的预测字符停止符的标识值生成一个预测停止符的标识值序列，进而根据获得的标识值序列与时长序列进行比较计算，得到时长特征损失值。

步骤S816：根据时长特征损失值以及声学特征损失值确定语音合成模型的目标损失值。

其中，在得到时长特征损失值和声学特征损失值后，根据时长特征损失值和声学特征损失值确定语音合成模型的目标损失值，具体可以是时长特征损失值和声学特征损失值进行加权计算，得到语音合成模型的目标损失值。或者还可以是将时长特征损失值和声学特征损失值进行均值计算，得到对象分类模型的训练目标损失值。

步骤S818：根据目标损失值对语音合成模型进行参数调整，直至满足收敛条件，得到已训练的语音合成模型。

其中，在计算得到对象检测模型的训练损失值后，根据目标损失值对语音合成模型中编码器以及解码器进行参数调整，直至满足收敛条件，得到已训练的语音合成模型。这里的收敛条件可根据实际需要进行调整或设置，例如，当目标损失值达到最小时，则可认为满足收敛条件；或者当目标损失值不再发生变化时，则可认为满足收敛条件。

在一个实施例中，如图9所示，根据时长特征损失值以及声学特征损失值确定语音合成模型的目标损失值的步骤之后，还包括：

步骤S902：获取训练样本中训练字符的字符数量以及标准频谱信息的频谱帧数量。

其中，训练字符的字符数量是指训练样本中的训练文本的总字数，标准频谱信息的频谱帧数量是指训练文本对应语音数据的总帧数。

步骤S904：根据字符数量以及频谱帧数量，计算字符平均帧数量。

其中，字符平均帧数量是指与每个训练字符对应的频谱帧数量的平均值。具体可以根据训练字符的字符数量与标准频谱信息的频谱帧数量的比值计算字符平均帧数，具体公式如下：

其中，dec_len表示频谱帧数量，enc_len表示字符数量，

表示字符平均帧数量。

步骤S906：确定与各训练字符对应的预测频谱信息的预测帧数量。

其中，预测帧数量是指在获得的预测频谱信息中，与训练字符对应的预测频谱信息的帧数量，具体可以根据训练字符被确定为目标训练字符的解码步的数量确定，或者也可以在获取到训练样本中所有训练字符在各个解码步的预测字符停止符后，根据所有解码步的预测字符停止符确定与各个训练字符对应的预测频谱信息的预测帧数量。

步骤S908：根据字符平均帧数量以及预测帧数量，计算句长特征损失值。

其中，在获取各个训练字符对应的预测帧数量后，根据字符平均帧数量与预测帧数量比较计算，得到句长特征损失值。具体地，可以累计各个训练字符的预测帧数量与字符平均帧数量的差平方的和，以获取句长特征损失值，具体公式如下：

其中，

表示字符平均帧数量，∑alignment_i(j)表示与第i个训练字符对应的预测频谱信息的预测帧数量。

从上式可以看到，最理想的情况是∑alignment_i(j)与第i个训练字符的对应音频的频谱信息的帧数量相等，当语音合成结果有遗漏字符的情况，∑alignment_i(j)会远小于平均帧数，相反，当语音合成结果有重复字符的情况，即同一个字符读了多次，∑alignment_i(j)会远大于平均帧数，此时句长特征损失值均会增大，在训练语音合成模型的过程中，在损失函数中加入考虑句长特征损失值，限制合成语音的长度，有效避免遗漏字符或重复字符的发送。

步骤S910：根据句长特征损失值、时长特征损失值以及声学特征损失值确定语音合成模型的目标损失值。

其中，在得到句长特征损失值后，后续确定语音合成模型的目标损失值时，加入考虑句长特征损失值，具体可以是对句长特征损失值、时长特征损失值和声学特征损失值进行加权计算，得到语音合成模型的目标损失值。或者还可以是将句长特征损失值、时长特征损失值和声学特征损失值进行均值计算，得到对象分类模型的训练目标损失值。

在一个实施例中，一种语音合成方法，包括：

1、获取训练样本，其中训练样本包括训练字符、与训练字符对应的音频的标准频谱信息；

2、确定在标准频谱信息中与各训练字符对应的频谱帧，根据与各训练字符对应的频谱帧生成与各训练字符对应的时长特征序列；

3、通过语音合成模型的编码器将训练字符编码为预测字符特征向量；

4、按照解码步次序确定当前解码步的目标训练字符；

5、获取当前解码步的训练注意力向量，将训练注意力向量以及目标训练字符的预测字符特征向量进行拼接，获得目标训练注意力向量；

6、获取前序解码步的预测解码信息，将目标训练注意力向量以及前序解码步的预测解码信息输入至语音合成模型的解码器中，得到解码器输出的目标训练字符在当前解码步的预测频谱信息以及当前解码步的预测字符停止符；

7、当获取到训练字符在各解码步的预测频谱信息以及预测字符停止符后，根据各解码步的预测字符停止符与时长特征序列计算时长特征损失值，并根据各解码步的预测频谱信息与标准频谱信息计算声学特征损失值；

8、获取训练样本中训练字符的字符数量以及标准频谱信息的频谱帧数量。

9、根据字符数量以及频谱帧数量，计算字符平均帧数量。

10、确定与各训练字符对应的预测频谱信息的预测帧数量。

11、根据字符平均帧数量以及预测帧数量，计算句长特征损失值；

12、根据句长特征损失值、时长特征损失值以及声学特征损失值确定语音合成模型的目标损失值。

13、根据目标损失值对语音合成模型进行参数调整，直至满足收敛条件，得到已训练的语音合成模型。

14、获取输入字符，通过语音合成模型的编码器将输入字符编码为字符特征向量；

14-1、获取输入字符的字符编码序列；

14-2、将字符编码序列输入至卷积神经网络进行特征映射，得到输入字符的上下文信息序列；

14-3、将上下文信息序列输入至第一长短时记忆神经网络，得到输入字符的字符特征向量。

15、按照解码步次序确定当前解码步的目标输入字符；

16、获取当前解码步的注意力向量，拼接注意力向量以及目标输入字符的字符特征向量，得到目标注意力向量；

16-1、获取前序解码步的解码信息，计算前序解码步的解码信息与各输入字符的字符特征向量间的匹配度；

16-2、根据匹配度确定在当前解码步各输入字符的注意力权重；

16-3、根据各输入字符的字符特征向量以及在当前解码步的注意力权重，获取当前解码步的注意力向量

17、获取前序解码步的解码信息，将目标注意力向量以及前序解码步的解码信息输入至语音合成模型的解码器中，得到解码器输出的目标输入字符在当前解码步的频谱信息以及当前解码步的字符停止符；

17-1-1、获取上一解码步的频谱信息以及上一解码步的注意力向量；

17-1-2、将上一解码步的频谱信息输入至编码器的预处理网络，得到频谱特征向量；

17-1-3、将频谱特征向量与上一解码步的注意力向量拼接后输入至编码器的第二长短时记忆神经网络，得到前序解码步的解码信息。

17-2-1、将目标注意力向量以及前序解码步的解码信息输入至解码器的频谱线性投影网络中，得到频谱线性投影网络输出的当前解码步的梅尔频谱。

17-2-2、将目标输入字符当前解码步的梅尔频谱输入至解码器的频谱后处理网络中，得到后处理网络输出的当前解码步的线性谱；

18a、在当前解码步的字符停止符为结束标识时，将目标输入字符的下一个输入字符，确定为下一个解码步的目标输入字符；重复执行步骤16至步骤17，直至获得各个输入字符在各解码步的频谱信息；

18b、在当前解码步的字符停止符为结束标识时，根据目标输入字符在各解码步的频谱信息生成目标输入字符的语音数据。

其中，应该理解的是，在当前解码步的字符停止符为非结束标识时，下一解码步的目标输入字符不变，下一解码步的目标输入字符仍然为当前解码步的目标输入字符，然后执行上述步骤16至17，继续获取目标输入字符下一帧的频谱信息，直至到某一解码步获得的字符停止符为结束标识，则当前解码步的目标输入字符获得所有频谱信息。

在一个实施例中，如图10A所示，提供一种新闻语音播报方法。本实施例主要以刚方法应用于上述图1中的服务器120来举例说明，该新闻播报方法具体包括以下步骤：

步骤S1002，获取待播报的新闻文本，通过语音合成模型的编码器将新闻文本中的各个字符编码为字符特征。

其中，新闻文本中包括多个字符，新闻文本可以是由外部输入的新闻稿件，例如是从互联网网页中抓取获得的。

其中，字符特征向量是指表征新闻文本中各个字符的语义信息的向量，应该理解的是，字符特征向量可以与新闻文本中的各个字符一一对应的。

其中，语音合成模型是用于将输入字符转化为之可听的语音数据的模型。这里的语音合成模型是已训练好的网络模型，可直接用来将新闻文本转化为对应的语音数据。在语音合成模型中包括但不限于编码器以及解码器，编码器用于对各个新闻文本的各个字符进行编码，并通过非线性变化将新闻文本中各个字符的编码转化为表征语义信息的特征向量，得到新闻文本中各个字符的字符特征向量，而解码器用于对编码器输出的字符特征向量进行解码获取输入字符对应的语音数据，以获取新闻文本的语音数据，实现新闻播报。

具体地，语音合成模型的编码器在获取到新闻文本的各个字符后，可将各个字符转换为字符编码序列，然后通过非线性变化将字符编码序列转换为可表征上下文信息的上下文信息序列，最后通过第一长短时记忆神经网络将上下文信息序列转换为字符特征向量。

步骤S1004，按照解码步次序在新闻文本中确定当前解码步的目标字符。

其中，语音合成模型在一个解码步中预测一帧频谱信息，且语音合成模型按照输入字符的次序依次预测各个输入字符的多个频谱信息，而目标字符是指当前解码步编码器所预测的频谱信息在新闻文本中所对应的字符。

步骤1006，获取当前解码步的注意力向量，拼接注意力向量以及目标字符的字符特征向量，得到目标注意力向量。

其中，注意力向量是指对新闻文本中各个字符的注意力分配概率分布，可以通过语音合成模型的解码器中的注意力网络计算获得。具体地，注意力网络可以先获取前序解码步的解码信息，然后根据前序解码步的解码信息与新闻文本中各个字符的字符特征向量，计算前序解码步的解码信息与新闻文本中各个字符的匹配度，进而根据与新闻文本中各个字符对应的匹配度，确定在当前解码步频谱信息预测过程中新闻文本中各个字符的注意力分配的权值系数，得到在当前解码步中新闻文本中各个字符的注意力权重，最后注意力网络对新闻文本中的各个字符的注意力权重以及字符特征向量进行加权求和，得到当前解码步的注意力向量。在得到当前解码步的注意力向量后，可将注意力向量与新闻文本中的目标字符的字符特征向量进行拼接，获得当前解码步的目标注意力向量。

步骤S1008，获取前序解码步的解码信息，将目标注意力向量以及前序解码步的解码信息输入至语音合成模型的解码器中，得到解码器输出的目标字符在当前解码步的频谱信息以及当前解码步的字符停止符。

步骤S1010，在当前解码步的字符停止符为结束标识时，根据目标字符在各解码步的频谱信息生成目标字符的语音数据。

其中，字符停止符包括有结束标识以及非结束标识，若当前解码步的字符停止符为结束标识时，表示当前解码步所对应的目标输入字符的频谱信息已预测完成，当前解码步所预测的频谱信息为目标输入字符的最后一帧频谱信息，若当前解码步的字符停止符为非结束标识，表示当前解码步所对应的目标输入字符的频谱信息仍未预测完成，当前解码步所预测的频谱信息并非目标输入字符的最后一帧频谱信息，下一解码步的目标输入字符仍然为当前解码步的目标输入字符。可以理解的是，在得到的字符停止符为结束标识前，解码器输出的频谱信息为同一字符不同帧的频谱信息。

具体地，在得到当前解码步的字符停止符后，判断该字符停止符的是否为结束标识，在当前解码步的字符停止符为结束标识时，当前解码步预测获得的频谱信息为目标输入字符最后一帧的频谱信息，此时可根据目标输入字符在各个解码步的频谱信息获取与目标输入字符对应语音数据。

进一步地，在一个实施例中，在当前解码步的字符停止符为结束标识时，将新闻文本中当前的目标字符的下一个输入字符，确定为下一个解码步的目标字符，重复执行上述步骤，直至获得新闻文本中最后一个字符在各解码步的频谱信息，并将新闻文本中各个字符在对应的各个解码步的频谱信息转换为新闻文本中各个字符对应的语音数据。

步骤S1012，在得到新闻文本所有字符的语音数据后，根据新闻文本所有字符的语音数据进行新闻播报。

其中，在得到新闻文本中所有字符的语音数据后，可以通过扬声器装置对语音数据进行播放，以实现新闻播报。

在一个实施例中，如图10B所示，提供一种新闻播报***，所述***包括：

文本采集器10Ba，用于采集待播报新闻；

存储器10Bb，所述存储器中存储有计算机可读指令；

处理器10Bc，所述计算机可读指令被所述处理器执行是，使得所述处理器执行以下步骤：通过语音合成模型的编码器将所述新闻文本中的各个字符编码为字符特征；按照解码步次序在所述新闻文本中确定当前解码步的目标字符；获取当前解码步的注意力向量，拼接所述注意力向量以及所述目标字符的字符特征向量，得到目标注意力向量；获取前序解码步的解码信息，将所述目标注意力向量以及前序解码步的解码信息输入至所述语音合成模型的解码器中，得到所述解码器输出的所述目标字符在当前解码步的频谱信息以及当前解码步的字符停止符；在当前解码步的字符停止符为结束标识时，根据所述目标字符在各解码步的频谱信息生成所述目标字符的语音数据；

扬声器10Bd，用于在得到所述新闻文本所有字符的语音数据后，根据所述新闻文本所有字符的语音数据进行新闻播报。

其中，新闻播报***可以包括文本采集器10Ba、存储器10Bb、处理器10Bc以及扬声器10Bd。文本采集器10Ba将采集到的新闻文本输入至存储器10Bb，存储区中存储有计算机可读指令，计算机可读指令被处理器10Bc执行时，使得处理器10Bc执行以下步骤通过语音合成模型的编码器将新闻文本中的各个字符编码为字符特征；按照解码步次序在新闻文本中确定当前解码步的目标字符；获取当前解码步的注意力向量，拼接注意力向量以及目标字符的字符特征向量，得到目标注意力向量；获取前序解码步的解码信息，将目标注意力向量以及前序解码步的解码信息输入至语音合成模型的解码器中，得到解码器输出的目标字符在当前解码步的频谱信息以及当前解码步的字符停止符；在当前解码步的字符停止符为结束标识时，根据目标字符在各解码步的频谱信息生成目标字符的语音数据，最后，新闻文本的语音数据通过扬声器进行播放，实现将新闻文本转换为对应的可以听得到的语音信息并输出。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种语音合成装置1100，该装置包括：字符向量获取模块1102、输入字符确定模块1104、注意力向量获取模块1106、频谱信息获取模块1108以及语音数据获取模块1110，其中：

字符向量获取模块1102，用于获取输入字符，通过语音合成模型的编码器将输入字符编码为字符特征向量；

输入字符确定模块1104，用于按照解码步次序确定当前解码步的目标输入字符按照解码步次序确定当前解码步的目标输入字符；

注意力向量获取模块1106，用于获取当前解码步的注意力向量，拼接注意力向量以及目标输入字符的字符特征向量，得到目标注意力向量；

频谱信息获取模块1108，用于获取前序解码步的解码信息，将目标注意力向量以及前序解码步的解码信息输入至语音合成模型的解码器中，得到解码器输出的目标输入字符在当前解码步的频谱信息以及当前解码步的字符停止符；

语音数据获取模块1110，用于在当前解码步的字符停止符为结束标识时，根据目标输入字符在各解码步的频谱信息生成目标输入字符的语音数据。

在一个实施例中，编码器包括卷积神经网络和第一长短时记忆神经网络；如图12所示，字符向量获取模块1102，包括：

字符编码单元1102a，用于获取输入字符的字符编码序列；

特征映射单元1102b，用于将字符编码序列输入至卷积神经网络进行特征映射，得到输入字符的上下文信息序列；

向量获取单元1102c，用于将上下文信息序列输入至第一长短时记忆神经网络，得到输入字符的字符特征向量。

在一个实施例中，如图13所示，注意力向量获取模块1106，包括：

匹配度获取单元1106a，用于获取前序解码步的解码信息，计算前序解码步的解码信息与各输入字符的字符特征向量间的匹配度；

注意力权重获取单元1106b，用于根据匹配度确定在当前解码步各输入字符的注意力权重；

注意力向量获取单元1106c，用于根据各输入字符的字符特征向量以及在当前解码步的注意力权重，获取当前解码步的注意力向量。

在一个实施例中，频谱信息包括梅尔频谱以及频谱信息；解码器包括频谱线性投影网络和频谱后处理网络；如图14所示，频谱信息获取模块1108，包括：

梅尔频谱获取单元1108a，用于将目标注意力向量以及前序解码步的解码信息输入至解码器的频谱线性投影网络中，得到频谱线性投影网络输出的当前解码步的梅尔频谱；

线性谱获取单元1108b，用于将目标输入字符当前解码步的梅尔频谱输入至解码器的频谱后处理网络中，得到后处理网络输出的当前解码步的线性谱。

在一个实施例中，如图15所示，语音合成装置还包括语音合成模型训练模块1112，语音合成模型训练模块1112，用于：获取训练样本，其中训练样本包括训练字符、与训练字符对应的音频的标准频谱信息；确定在标准频谱信息中与各训练字符对应的频谱帧，根据与各训练字符对应的频谱帧生成与各训练字符对应的时长特征序列；通过语音合成模型的编码器将训练字符编码为预测字符特征向量；按照解码步次序确定当前解码步的目标训练字符；获取当前解码步的训练注意力向量，将训练注意力向量以及目标训练字符的预测字符特征向量进行拼接，获得目标训练注意力向量；获取前序解码步的预测解码信息，将目标训练注意力向量以及前序解码步的预测解码信息输入至语音合成模型的解码器中，得到解码器输出的目标训练字符在当前解码步的预测频谱信息以及当前解码步的预测字符停止符；当获取到训练字符在各解码步的预测频谱信息以及预测字符停止符后，根据各解码步的预测字符停止符与时长特征序列计算时长特征损失值，并根据各解码步的预测频谱信息与标准频谱信息计算声学特征损失值；根据时长特征损失值以及声学特征损失值确定语音合成模型的目标损失值；根据目标损失值对语音合成模型进行参数调整，直至满足收敛条件，得到已训练的语音合成模型。

在一个实施例中，语音合成模型训练模块，还用于：获取训练样本中训练字符的字符数量以及标准频谱信息的频谱帧数量；根据字符数量以及频谱帧数量，计算字符平均帧数量；确定与各训练字符对应的预测频谱信息的预测帧数量；根据字符平均帧数量以及预测帧数量，计算句长特征损失值；根据句长特征损失值、时长特征损失值以及声学特征损失值确定语音合成模型的目标损失值。

在一个实施例中，频谱信息获取模块，还具体用于：获取上一解码步的频谱信息以及上一解码步的注意力向量；将上一解码步的频谱信息输入至编码器的预处理网络，得到频谱特征向量；将频谱特征向量与上一解码步的注意力向量拼接后输入至编码器的第二长短时记忆神经网络，得到前序解码步的解码信息。

在一个实施例中，输入字符确定模块，还用于：在当前解码步的字符停止符为结束标识时，将目标输入字符的下一个输入字符，确定为下一个解码步的目标输入字符，使得注意力向量获取模块再次执行获取当前解码步的注意力向量，拼接注意力向量以及目标输入字符的字符特征向量，得到目标注意力向量的步骤，直至获得各输入字符在各解码步的频谱信息。

图16示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图16所示，该计算机设备包括该计算机设备包括通过***总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现语音合成方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行语音合成方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音合成装置可以实现为一种计算机程序的形式，计算机程序可在如图16所示的计算机设备上运行。计算机设备的存储器中可存储组成该语音合成装置的各个程序模块，比如，图11所示的字符向量获取模块1102、输入字符确定模块1104、注意力向量获取模块1106、频谱信息获取模块1108以及语音数据获取模块1110。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的语音合成方法中的步骤。

例如，图16所示的计算机设备可以通过如图11所示的语音合成装置中的字符向量获取模块1102执行步骤202。计算机设备可通过输入字符确定模块1104执行步骤204。计算机设备可通过注意力向量获取模块1106执行步骤206。计算机设备可通过频谱信息获取模块1108执行步骤208。计算机设备可通过语音数据获取模块1110执行步骤210。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述语音合成方法的步骤。此处语音合成方法的步骤可以是上述各个实施例的语音合成方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述语音合成方法的步骤。此处语音合成方法的步骤可以是上述各个实施例的语音合成方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音合成方法，包括：

按照解码步次序确定当前解码步的目标输入字符；

2.根据权利要求1所述的方法，其特征在于，所述编码器包括卷积神经网络和第一长短时记忆神经网络；

所述通过语音合成模型的编码器将所述输入字符编码为字符特征向量的步骤，包括：

获取所述输入字符的字符编码序列；

将所述字符编码序列输入至所述卷积神经网络进行特征映射，得到所述输入字符的上下文信息序列；

将所述上下文信息序列输入至所述第一长短时记忆神经网络，得到所述输入字符的字符特征向量。

3.根据权利要求1所述的方法，其特征在于，所述获取当前解码步的注意力向量的步骤，包括：

获取前序解码步的解码信息，计算所述前序解码步的解码信息与各所述输入字符的字符特征向量间的匹配度；

根据所述匹配度确定在当前解码步各所述输入字符的注意力权重；

根据各所述输入字符的字符特征向量以及在当前解码步的注意力权重，获取当前解码步的注意力向量。

4.根据权利要求1或3所述的方法，其特征在于，所述获取前序解码步的解码信息的步骤，包括：

获取上一解码步的频谱信息以及上一解码步的注意力向量；

将所述上一解码步的频谱信息输入至所述编码器的预处理网络，得到频谱特征向量；

将所述频谱特征向量与上一解码步的注意力向量拼接后输入至所述编码器的第二长短时记忆神经网络，得到前序解码步的解码信息。

5.根据权利要求1所述的方法，其特征在于，所述频谱信息包括梅尔频谱以及线性谱；所述解码器包括频谱线性投影网络和频谱后处理网络；

所述将所述目标注意力向量以及前序解码步的解码信息输入至所述语音合成模型的解码器中，得到所述解码器输出的所述目标输入字符在当前解码步的频谱信息的步骤，包括：

将目标注意力向量以及前序解码步的解码信息输入至所述解码器的频谱线性投影网络中，得到所述频谱线性投影网络输出的当前解码步的梅尔频谱；

将所述目标输入字符当前解码步的梅尔频谱输入至所述解码器的频谱后处理网络中，得到所述后处理网络输出的当前解码步的线性谱。

6.根据权利要求1所述的方法，其特征在于，所述语音合成模型的训练步骤包括：

获取训练样本，其中所述训练样本包括训练字符、与所述训练字符对应的音频的标准频谱信息；

确定在所述标准频谱信息中与各所述训练字符对应的频谱帧，根据所述与各所述训练字符对应的频谱帧生成与各所述训练字符对应的时长特征序列；

通过语音合成模型的编码器将所述训练字符编码为预测字符特征向量；

按照解码步次序确定当前解码步的目标训练字符；

获取当前解码步的训练注意力向量，将所述训练注意力向量以及目标训练字符的预测字符特征向量进行拼接，获得目标训练注意力向量；

获取前序解码步的预测解码信息，将所述目标训练注意力向量以及前序解码步的预测解码信息输入至语音合成模型的解码器中，得到所述解码器输出的所述目标训练字符在当前解码步的预测频谱信息以及当前解码步的预测字符停止符；

当获取到所述训练字符在各解码步的预测频谱信息以及预测字符停止符后，根据各解码步的预测字符停止符与所述时长特征序列计算时长特征损失值，并根据各解码步的预测频谱信息与所述标准频谱信息计算声学特征损失值；

根据所述时长特征损失值以及所述声学特征损失值确定所述语音合成模型的目标损失值；

根据目标损失值对所述语音合成模型进行参数调整，直至满足收敛条件，得到已训练的语音合成模型。

7.根据权利要求6所述的方法，其特征在于，所述根据所述时长特征损失值以及所述声学特征损失值确定所述语音合成模型的目标损失值的步骤之后，还包括：

获取所述训练样本中训练字符的字符数量以及标准频谱信息的频谱帧数量；

根据所述字符数量以及所述频谱帧数量，计算字符平均帧数量；

确定与各所述训练字符对应的预测频谱信息的预测帧数量；

根据所述字符平均帧数量以及所述预测帧数量，计算句长特征损失值；

所述根据所述时长特征损失值以及所述声学特征损失值确定所述语音合成模型的目标损失值的步骤，包括：

根据所述句长特征损失值、所述时长特征损失值以及所述声学特征损失值确定所述语音合成模型的目标损失值。

8.根据权利要求1所述的方法，其特征在于，所述将所述目标注意力向量以及前序解码步的解码信息输入至所述语音合成模型的解码器中，得到所述解码器输出的所述目标输入字符在当前解码步的频谱信息以及当前解码步的字符停止符的步骤之后，还包括：

在当前解码步的字符停止符为结束标识时，将所述目标输入字符的下一个输入字符，确定为下一个解码步的目标输入字符；

重复执行获取当前解码步的注意力向量，拼接所述注意力向量以及所述目标输入字符的字符特征向量，得到目标注意力向量的步骤，直至获得各所述输入字符在各解码步的频谱信息。

9.一种新闻播报方法，其特征在于，包括：

10.一种语音合成装置，其特征在于，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，所述频谱信息包括梅尔频谱以及频谱信息；所述解码器包括频谱线性投影网络和频谱后处理网络；

所述频谱信息获取模块，包括：

梅尔频谱获取单元，用于将目标注意力向量以及前序解码步的解码信息输入至所述解码器的频谱线性投影网络中，得到所述频谱线性投影网络输出的当前解码步的梅尔频谱；

线性谱获取单元，用于将所述目标输入字符当前解码步的梅尔频谱输入至所述解码器的频谱后处理网络中，得到所述后处理网络输出的当前解码步的线性谱。

12.根据权利要求10所述的装置，其特征在于，所述装置还包括语音合成模型训练模块，所述语音合成模型训练模块用于：

按照解码步次序确定当前解码步的目标训练字符；

13.一种新闻播报***，其特征在于，所述***包括：

文本采集器，用于采集待播报新闻；

存储器，所述存储器中存储有计算机可读指令；

14.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。