CN109616094A

CN109616094A - 语音合成方法、装置、***及存储介质

Info

Publication number: CN109616094A
Application number: CN201811648146.1A
Authority: CN
Inventors: 杨杰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-04-12

Abstract

本发明提供一种语音合成方法、装置、***及存储介质，该方法，包括：确定当前场景信息；获取与当前场景信息相符合的所有候选发音人；根据预设的规则，对候选发音人进行排序，得到候选发音人列表；根据候选发音人列表，确定目标发音人；按照目标发音人的声音，将文本信息转换为目标语音。从而实现根据接收到的文本和场景属性，自动选择与场景相符合的发音人，使得合成语音可以根据不同的场景，变换最合适的发音人，使得最终合成的语音更加真实，提升了语音合成效果，用户体验佳。

Description

语音合成方法、装置、***及存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音合成方法、装置、***及存储介质。

背景技术

语音合成(Text to Speech)是人工智能语音领域重要的技术和应用方向之一，是将用户或产品输入的文本转换为语音的过程，通过机器模仿人类“说话”的方式，输出拟人的声音，主要应用在有声阅读、人机对话、智能音箱、智能客服等场景中，是人与机器进行自然交互的主要方式之一。

目前，现有的语音合成是用户(或产品)输入文本进行文本转语音的过程，输入文本，经过事先选定的发音人进行合成，其中发音人音色风格是发音人唯一的选定参考方式。而实现上，随着有声场景的拓展，不同场景下，不同发音人表现效果不同。比如在睡前的场景，可能更适合舒缓温暖的声音；上班公交地铁场景，可能更适合轻快明亮的声音。

但是，现有的语音合成技术无法适应场景的变化，影响语音合成的最终呈现效果，用户体验不佳。

发明内容

本发明提供一种语音合成方法、装置、***及存储介质，可以实现根据接收到的文本和场景属性，自动选择与场景相符合的发音人，使得合成语音可以根据不同的场景，变换最合适的发音人，提升了语音合成效果，用户体验佳。

第一方面，本发明实施例提供一种语音合成方法，包括：

确定当前场景信息；

获取与所述当前场景信息相符合的所有候选发音人；

根据预设的规则，对所述候选发音人进行排序，得到候选发音人列表；

根据所述候选发音人列表，确定目标发音人；

按照所述目标发音人的声音，将文本信息转换为目标语音。

在一种可能的设计中，所述确定当前场景信息，包括：

从接收到的文本信息中获取场景信息，并将获取到的所述场景信息作为当前场景信息；或者

根据预设信息，确定当前场景信息；所述预设信息包括：当前位置信息、时间信息、天气信息、网络信息等等，可以选择预设信息中的一种或者任多种来确定当前场景信息；

其中，所述场景信息包括：睡前场景、夜晚场景、午休场景、阅读场景、地铁场景、公交场景、机场场景。

在一种可能的设计中，获取与所述当前场景信息相符合的所有候选发音人，包括：

从预先存储有发音人语音包，以及发音人与场景信息的映射关系的数据库中，获取符合所述当前场景信息的所有候选发音人。

在一种可能的设计中，还包括：

更新所述数据库中的发音人语音包，以及发音人与场景信息的映射关系。

在一种可能的设计中，根据预设的规则，对所述候选发音人进行排序，得到候选发音人列表，包括：

获取所有候选发音人与所述当前场景信息对应的场景属性权重值；其中，所述场景属性权重值，用于表征发音人与场景的匹配程度；

根据所述场景属性权重值，对所述候选发音人进行排序，得到候选发音人列表。

在一种可能的设计中，根据所述候选发音人列表，确定目标发音人，包括：

显示排名前N位的候选发音人，N为大于0的自然数；

若候选发音人的数量为1，则将所述候选发音人作为目标发音人；

若候选发音人的数量大于1，则根据用户输入的确认信息，从所述候选发音人列表中确定一个候选发音人作为目标发音人；若在预设时间段内，未接收到用户输入的确认信息，则将排在第1位的候选发音人作为目标发音人。

在一种可能的设计中，按照所述目标发音人的声音，将文本信息转换为目标语音，包括：

将文本信息用目标发音人的声音合成初始语音；

接收对初始语音的调节信息，得到调节后的目标语音；其中，所述调节信息用于调整所述初始语音的音频属性，所述音频属性包括：音量、音调、语速以及背景音；

输出所述目标语音。

第二方面，本发明实施例提供一种语音合成装置，包括：

获取模块，用于获取与所述当前场景信息相符合的所有候选发音人；

排序模块，用于根据预设的规则，对所述候选发音人进行排序，得到候选发音人列表；

第二确定模块，用于根据所述候选发音人列表，确定目标发音人；

合成模块，用于按照所述目标发音人的声音，将文本信息转换为目标语音。

在一种可能的设计中，所述第一确定模块，具体用于：

在一种可能的设计中，所述获取模块，具体用于：

在一种可能的设计中，还包括：

更新模块，用于更新所述数据库中的发音人语音包，以及发音人与场景信息的映射关系。

在一种可能的设计中，所述排序模块，具体用于：

在一种可能的设计中，所述第二确定模块，具体用于：

显示排名前N位的候选发音人，N为大于0的自然数；

在一种可能的设计中，所述合成模块，具体用于：

将文本信息用目标发音人的声音合成初始语音；

输出所述目标语音。

第三方面，本发明实施例提供一种语音合成***，包括：存储器和处理器，存储器中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的语音合成方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一项所述的语音合成方法。

第五方面，本发明实施例提供一种程序产品，所述程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，服务器的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得服务器执行第一方面中任一所述的语音合成方法。

本发明提供一种语音合成方法、装置、***及存储介质，通过确定当前场景信息；获取与所述当前场景信息相符合的所有候选发音人；根据预设的规则，对所述候选发音人进行排序，得到候选发音人列表；根据所述候选发音人列表，确定目标发音人；按照所述目标发音人的声音，将文本信息转换为目标语音。从而实现根据接收到的文本和场景属性，自动选择与场景相符合的发音人，使得合成语音可以根据不同的场景，变换最合适的发音人，使得最终合成的语音更加真实，提升了语音合成效果，用户体验佳。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一应用场景的原理示意图；

图2为本发明实施例一提供的语音合成方法的流程图；

图3为本发明实施例二提供的语音合成方法的流程图；

图4为本发明实施例三提供的语音合成装置的结构示意图；

图5为本发明实施例四提供的语音合成装置的结构示意图；

图6为本发明实施例五提供的语音合成***的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

现有的语音合成是用户(或产品)输入文本进行文本转语音的过程，输入文本，经过事先选定的发音人进行合成，其中发音人音色风格是发音人唯一的选定参考方式。目前，市面上提供的语音合成解决方案都是基于文本和发音人音色风格的，并不区分合成使用的场景。在不同的场景下，同样的发音人合成效果没有差别，场景的合成效果表现不佳。本发明将场景信息融合进语音合成技术中，根据当前的场景信息，推荐候选发音人，使得具体合成的语音更加真实，提升用户体验。

图1为本发明一应用场景的原理示意图，如图1所示，本发明根据接收到的文本信息和场景属性11，语音合成装置12识别并确定当前的场景信息，然后根据场景信息推荐合适的发音人，最后根据发音人的音色合成输入文本对应的初始语音，并可以对初始语音的音频属性进行调节，输出目标语音13。在确定场景信息时，可以对输入的文本信息进行语义识别，提取出场景信息。

例如：输入的文本是“赶上地铁了，今天地铁上的人真多，上班可能都要迟到了”，可以识别出当前的场景为上班途中、乘坐的交通工具是地铁、可能的背景声音会比较杂，确定场景信息为地铁场景比较合适。在确定场景时，还可以根据预设信息，确定当前场景信息；预设信息包括：当前位置信息、时间信息、天气信息、网络信息等等，可以选择预设信息中的一种或者任多种来确定当前场景信息。例如：输入的文本是“找了一圈，没找到你要借的书”，根据当前的位置信息为某某大学图书馆，则背景声音应该是一个安静的氛围，确定场景信息为阅读场景比较合适。

在具体应用中，可以按如下步骤进行语音合成：确定当前场景信息；获取与当前场景信息相符合的所有候选发音人；根据预设的规则，对候选发音人进行排序，得到候选发音人列表；根据候选发音人列表，确定目标发音人；按照目标发音人的声音，将文本信息转换为目标语音。

应用上述方法可以实现根据接收到的文本和场景属性，自动选择与场景相符合的发音人，使得合成语音可以根据不同的场景，变换最合适的发音人，使得最终合成的语音更加真实，提升了语音合成效果，用户体验佳。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图2为本发明实施例一提供的语音合成方法的流程图，如图2所示，本实施例中的方法可以包括：

S101、确定当前场景信息。

本实施例中，从接收到的文本信息中获取场景信息，并将获取到的场景信息作为当前场景信息；或者根据预设信息，确定当前场景信息；预设信息包括：当前位置信息、时间信息、天气信息、网络信息等等。可以选择预设信息中的一种或者任多种来确定当前场景信息；其中，场景信息包括：睡前场景、夜晚场景、午休场景、阅读场景、地铁场景、公交场景、机场场景等等。

可选地，在确定场景信息时，可以对输入的文本信息进行语义识别，提取出场景信息。

具体地，例如：输入的文本是“赶上地铁了，今天地铁上的人真多，上班可能都要迟到了”，可以识别出当前的场景为上班途中、乘坐的交通工具是地铁、可能的背景声音会比较杂，确定场景信息为地铁场景比较合适。

可选地，在确定场景时，还可以根据当前位置信息和/或时间信息，确定当前场景信息。例如：输入的文本是“找了一圈，没找到你要借的书”，根据当前的位置信息为某某大学图书馆，则背景声音应该是一个安静的氛围，确定场景信息为阅读场景比较合适。在确定场景时，还可以结合输入文本的语音信息与当前位置信息和/或时间信息，确定当前场景信息。例如：输入的文本是“我在给宝贝女儿讲故事呢”，当前的时间为晚上9点，单纯靠文本信息或者时间信息，很难确定合适的场景信息，而将两者进行结合，可以确定当前的场景信息为睡前场景较为合适。

需要说明的是，本实施例不限定场景信息的类型，本领域的技术人员可以根据实际情况增加或者减少场景信息的类型。

S102、获取与当前场景信息相符合的所有候选发音人。

本实施例中，从预先存储有发音人语音包，以及发音人与场景信息的映射关系的数据库中，获取符合当前场景信息的所有候选发音人。

可选地，发音人语音包由多个不同音色风格的发音人组成，每个发音人包括基础属性和场景属性两大主要的属性。其中，基础属性：包括音色、风格、性别、年龄等信息。

具体地，例如：发音人为郭德纲，基础属性对应的是成熟男性的浑厚声音。发音人为林志玲，基础属性对应的是嗲嗲的女性的声音。场景属性包括当前发音人适合进行合成的使用场景，以及对应的场景属性权重，为0-100，权重表示该发音人在该场景下的推荐程度，值越大，越推荐。主要包括睡前、晚上、午后、看书、地铁、公交、飞机、高铁、午休等主要的语音合成使用场景。

本实施例，从预先存储有发音人语音包，以及发音人与场景信息的映射关系的数据库中，获取符合当前场景信息的所有候选发音人。例如，输入的文本是“哥哥，晚上陪我看逛街嘛！”，可以确定对应的发音人选择林志玲嗲嗲的声音比较合适，如果选择郭德纲的声音将会破坏语境，不够真实。

S103、根据预设的规则，对候选发音人进行排序，得到候选发音人列表。

本实施例中，获取所有候选发音人与当前场景信息对应的场景属性权重值；其中，场景属性权重值，用于表征发音人与场景的匹配程度；根据场景属性权重值，对候选发音人进行排序，得到候选发音人列表。

具体地，基于S101得到的用户使用场景，与发音人适合的场景进行匹配，在S102中匹配出适合进行合成的发音人，并按照发音人的场景属性权重降序排列。

S104、根据候选发音人列表，确定目标发音人。

本实施例中，显示排名前N位的候选发音人，N为大于0的自然数；

若候选发音人的数量为1，则将候选发音人作为目标发音人；若候选发音人的数量大于1，则根据用户输入的确认信息，从候选发音人列表中确定一个候选发音人作为目标发音人；若在预设时间段内，未接收到用户输入的确认信息，则将排在第1位的候选发音人作为目标发音人。

具体地，在根据权重降序排列之后，Top1作为默认的推荐发音人输出。同时，也支持用户在输入场景的发音人列表中指定合成发音人进行输出。

S105、按照目标发音人的声音，将文本信息转换为目标语音。

本实施例中，将文本信息用目标发音人的声音合成初始语音；接收对初始语音的调节信息，得到调节后的目标语音；其中，调节信息用于调整初始语音的音频属性，音频属性包括：音量、音调、语速以及背景音；输出目标语音。

具体地，根据目标发音人音色特点，将文本信息合成初始语音。然后，可以结合场景信息进行对音频属性自动调节，也可以根据用户的输入进行对音频属性手动调节。例如，上班公交地铁场景，可能更适合轻快明亮的声音，背景色应该比较嘈杂。而在睡前的场景，可能更适合舒缓温暖的声音，背景声音应该比较安静。也可以根据场景信息，加入特定的背景音，如雨天场景，可以再背景音中加雨打芭蕉的声音，或者大雨滂沱的声音。

本实施例，通过确定当前场景信息；获取与当前场景信息相符合的所有候选发音人；根据预设的规则，对候选发音人进行排序，得到候选发音人列表；根据候选发音人列表，确定目标发音人；按照目标发音人的声音，将文本信息转换为目标语音。从而实现根据接收到的文本和场景属性，自动选择与场景相符合的发音人，使得合成语音可以根据不同的场景，变换最合适的发音人，使得最终合成的语音更加真实，提升了语音合成效果，用户体验佳。

图3为本发明实施例二提供的语音合成方法的流程图，如图3所示，本实施例中的方法可以包括：

S201、更新数据库中的发音人语音包，以及发音人与场景信息的映射关系。

本实施例中，可以再发音人语音包中，动态增加或者减少发音人的数量。也可以根据用户的选择，对发音人的对应的属性、权重进行调整。例如，根据最近的热点，在发音包中增加发音人为王源的语音。也可以根据用户选择习惯，增加发音人为林志玲的语音包的权重值，进行优先推荐。

S202、确定当前场景信息。

S203、获取与当前场景信息相符合的所有候选发音人。

S204、根据预设的规则，对候选发音人进行排序，得到候选发音人列表。

S205、根据候选发音人列表，确定目标发音人。

S206、按照目标发音人的声音，将文本信息转换为目标语音。

本实施例中，步骤S202～步骤S206的具体实现过程和技术原理请参见图2所示的方法中步骤S101～步骤S105中的相关描述，此处不再赘述。

另外，本实施可以更新数据库中的发音人语音包，以及发音人与场景信息的映射关系，提升用户体验。例如用户可以定期更新数据库中的发音人语音包，或者录制自身声音的语音包。

图4为本发明实施例三提供的语音合成装置的结构示意图，如图4所示，本实施例的语音合成装置可以包括：

第一确定模块31，用于确定当前场景信息；

获取模块32，用于获取与当前场景信息相符合的所有候选发音人；

排序模块33，用于根据预设的规则，对候选发音人进行排序，得到候选发音人列表；

第二确定模块34，用于根据候选发音人列表，确定目标发音人；

合成模块35，用于按照目标发音人的声音，将文本信息转换为目标语音。

在一种可能的设计中，第一确定模块31，具体用于：

从接收到的文本信息中获取场景信息，并将获取到的场景信息作为当前场景信息；或者

根据预设信息，确定当前场景信息；预设信息包括：当前位置信息、时间信息、天气信息、网络信息等等，可以选择预设信息中的一种或者任多种来确定当前场景信息；

其中，场景信息包括：睡前场景、夜晚场景、午休场景、阅读场景、地铁场景、公交场景、机场场景。

在一种可能的设计中，获取模块32，具体用于：

从预先存储有发音人语音包，以及发音人与场景信息的映射关系的数据库中，获取符合当前场景信息的所有候选发音人。

在一种可能的设计中，排序模块33，具体用于：

获取所有候选发音人与当前场景信息对应的场景属性权重值；其中，场景属性权重值，用于表征发音人与场景的匹配程度；

根据场景属性权重值，对候选发音人进行排序，得到候选发音人列表。

在一种可能的设计中，第二确定模块34，具体用于：

显示排名前N位的候选发音人，N为大于0的自然数；

若候选发音人的数量为1，则将候选发音人作为目标发音人；

若候选发音人的数量大于1，则根据用户输入的确认信息，从候选发音人列表中确定一个候选发音人作为目标发音人；若在预设时间段内，未接收到用户输入的确认信息，则将排在第1位的候选发音人作为目标发音人。

在一种可能的设计中，合成模块35，具体用于：

将文本信息用目标发音人的声音合成初始语音；

接收对初始语音的调节信息，得到调节后的目标语音；其中，调节信息用于调整初始语音的音频属性，音频属性包括：音量、音调、语速以及背景音；

输出目标语音。

本实施例的语音合成装置，可以执行图2所示方法中的技术方案，其具体实现过程和技术原理参见图2所示方法中的相关描述，此处不再赘述。

图5为本发明实施例四提供的语音合成装置的结构示意图，如图5所示，本实施例的语音合成装置在图4所示装置的基础上，还可以包括：

更新模块36，用于更新数据库中的发音人语音包，以及发音人与场景信息的映射关系。

本实施例的语音合成装置，可以执行图2、图3所示方法中的技术方案，其具体实现过程和技术原理参见图2、图3所示方法中的相关描述，此处不再赘述。

另外，本实施可以更新数据库中的发音人语音包，以及发音人与场景信息的映射关系，提升用户体验。

图6为本发明实施例五提供的语音合成***的结构示意图，如图6所示，本实施例的语音合成***40可以包括：处理器41和存储器42。

存储器42，用于存储程序；存储器42，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器42用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器42中。并且上述的计算机程序、计算机指令、数据等可以被处理器41调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器42中。并且上述的计算机程序、计算机指令、数据等可以被处理器41调用。

处理器41，用于执行存储器42存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

处理器41和存储器42可以是独立结构，也可以是集成在一起的集成结构。当处理器41和存储器42是独立结构时，存储器42、处理器41可以通过总线43耦合连接。

本实施例的服务器可以执行图2、图3所示方法中的技术方案，其具体实现过程和技术原理参见图2、图3所示方法中的相关描述，此处不再赘述。

此外，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当用户设备的至少一个处理器执行该计算机执行指令时，用户设备执行上述各种可能的方法。

其中，计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于通信设备中。

本申请还提供一种程序产品，程序产品包括计算机程序，计算机程序存储在可读存储介质中，服务器的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得服务器实施上述本发明实施例任一的语音合成方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音合成方法，其特征在于，包括：

确定当前场景信息；

获取与所述当前场景信息相符合的所有候选发音人；

根据所述候选发音人列表，确定目标发音人；

按照所述目标发音人的声音，将文本信息转换为目标语音。

2.根据权利要求1所述的方法，其特征在于，所述确定当前场景信息，包括：

根据预设信息，确定当前场景信息；所述预设信息包括：当前位置信息、时间信息、天气信息、网络信息；

3.根据权利要求1所述的方法，其特征在于，获取与所述当前场景信息相符合的所有候选发音人，包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，根据预设的规则，对所述候选发音人进行排序，得到候选发音人列表，包括：

6.根据权利要求1所述的方法，其特征在于，根据所述候选发音人列表，确定目标发音人，包括：

显示排名前N位的候选发音人，N为大于0的自然数；

7.根据权利要求1-6中任一项所述的方法，其特征在于，按照所述目标发音人的声音，将文本信息转换为目标语音，包括：

将文本信息用目标发音人的声音合成初始语音；

输出所述目标语音。

8.一种语音合成装置，其特征在于，包括：

第一确定模块，用于确定当前场景信息；

9.一种语音合成***，其特征在于，包括：存储器和处理器，存储器中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7所述的语音合成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任一项所述的语音合成方法。