CN113643684A

CN113643684A - 语音合成方法、装置、电子设备及存储介质

Info

Publication number: CN113643684A
Application number: CN202110827082.7A
Authority: CN
Inventors: 郑颖龙; 周昉昉; 叶杭; 赖蔚蔚; 吴广财; 林嘉鑫; 刘佳木; 陈颖璇; 朱泰鹏; 黄彬系
Original assignee: Guangdong Electric Power Information Technology Co Ltd
Current assignee: Guangdong Electric Power Information Technology Co Ltd
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-11-12
Anticipated expiration: 2041-07-21
Also published as: CN113643684B

Abstract

本申请公开了一种语音合成方法、装置、电子设备及存储介质，涉及语音处理技术领域。该方法包括：在语音播报的过程中，当检测到用户的输入语音时，识别所述输入语音的语音特征；根据所述语音特征，确定用于播报语音的语音参数，所述语音参数用于针对待播报的文本信息生成与所述语音参数对应的语音；基于对所述待播报的文本信息的语法分析，将标识信息添加至所述待播报的文本信息中，得到目标文本信息；基于所述语音参数以及目标文本信息，生成用于播报的目标语音。如此，可以根据用户的语音特征，确定对应的语音参数，并基于该语音参数生成与针对该用户的个性化的目标语音，提升了用户的语音交互体验。

Description

语音合成方法、装置、电子设备及存储介质

技术领域

本申请涉及语音处理技术领域，更具体地，涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的发展，人机对话开始广泛进入人们日常生活，常见的场景包括智能客服机器人、智能音箱、聊天机器人等。人机对话的核心在于机器能够在所建的***框架下，根据事先训练或者学习的数据，自动对用户输入的语音进行理解和分析，并给出有意义的语音回复。

但是，在针对待播报的文本信息进行语音合成时，是将输入的文字一一匹配读音库，再将所有字的读音串联起来生成待播报的语音，通过该方式生成的语音较为机械生硬，导致用户的听觉体验较差。

发明内容

有鉴于此，本申请提出了一种语音合成方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种语音合成方法，所述方法包括：在语音播报的过程中，当检测到用户的输入语音时，识别所述输入语音的语音特征；根据所述语音特征，确定用于播报语音的语音参数，所述语音参数用于针对待播报的文本信息生成与所述语音参数对应的语音；基于对所述待播报的文本信息的语法分析，将标识信息添加至所述待播报的文本信息中，得到目标文本信息；基于所述语音参数以及目标文本信息，生成用于播报的目标语音。

第二方面，本申请实施例提供了一种语音合成装置，所述装置包括：语音分析模块、参数确定模块、信息添加模块以及语音生成模块。语音分析模块，用于当检测到用户的输入语音时，识别所述输入语音的语音特征；参数确定模块，用于根据所述语音特征，确定用于播报语音的语音参数，所述语音参数用于针对待播报的文本信息合成用于播报的目标语音；信息添加模块，用于基于对所述待播报的文本信息的语法分析，将标识信息添加至所述待播报文本信息中，得到目标文本信息；语音生成模块，用于基于所述语音参数以及目标文本信息，生成用于播报的目标语音。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行第一方面提供的语音合成方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行第一方面提供的语音合成方法。

本申请提供的方案中，在语音播报的过程中，当检测到用户的输入语音时，识别输入语音的语音特征；根据语音特征，确定用于播报语音的语音参数，其中，语音参数用于针对待播报的文本信息生成与所述语音参数对应的语音；基于对待播报的文本信息的语法分析，将标识信息添加至待播报的文本信息中，得到目标文本信息；基于语音参数以及目标文本信息，生成用于播报的目标语音。如此，可以根据用户的语音特征，确定对应的语音参数，并基于该语音参数生成与针对该用户的个性化的目标语音，提升了用户的语音交互体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的语音合成方法的流程示意图。

图2示出了本申请另一实施例提供的语音合成方法的流程示意图。

图3示出了本申请再一实施例提供的语音合成方法的流程示意图。

图4示出了本申请又一实施例提供的语音合成方法的流程示意图。

图5是根据本申请一实施例提供的一种语音合成装置的框图。

图6是本申请实施例的用于执行根据本申请实施例的语音合成方法的电子设备的框图。

图7是本申请实施例的用于保存或者携带实现根据本申请实施例的语音合成方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在相关语音合成技术中，仅仅是将输入的文字一一匹配读音库，再将所有字的读音串联起来生成待播报的语音，通过该方式生成的语音的语气、语速、音量、音调、音色千篇一律，缺乏变化，很容易被用户察觉出是机器自动播报或回复，听觉体验下降，丧失耐心从而寻求人工服务，如此，导致智能应答机器人失去节省人力的根本作用。

针对上述问题，发明人提出一种语音合成方法、装置、电子设备及存储介质，可以在语音播报的过程中，当检测到用户的输入语音时，基于输入语音的语音特征确定用于播报语音的语音参数，并基于该语音参数以及目标文本信息，生成用于播报的目标语音。下面对该内容进行详细描述。

请参照图1，图1为本申请一实施例提供的一种语音合成方法的流程示意图。下面将结合图1对本申请实施例提供的语音合成方法进行详细阐述。该语音合成方法可以包括以下步骤：

步骤S110：在语音播报的过程中，当检测到用户的输入语音时，识别所述输入语音的语音特征。

在本实施例中，语音播报可以应用于多种场景，例如，智能客服***、智能聊天机器人、智能问答机器人或电话营销场景等，本实施例对此不作限制。用户的输入语音可以是用户对当前使用的支持人机交互的智能设备说出的语音，其中，智能设备可以包括智能机器人、智能手机、智能可穿戴设备(如智能手表、智能耳机等)、平板电脑、笔记本电脑等，本实施例对此不作限制。

可选地，在用户与智能设备之间的人机语音交互过程中，可以是由用户先输入语音，智能设备根据用户的输入语音播报对应的回复，以回答用户想要了解的信息，例如，在智能客服***中，用户输入语音“现在几点了”，对应地，智能设备可以播报对应的回复语音“现在是上午9点，请问还有其他需求吗”；也可以是由智能设备先播报的语音，例如“请问需要办理保险业务吗”，用户可以根据播报的语音，输入针对该语音的回复语音，例如“有需要，请问有哪些类型的保险业务”。

基于此，智能设备可以在上述人机语音交互过程中，即在语音播报过程中，监测用户的输入语音，并且在监测到用户的输入语音时，识别输入语音的语音特征，以便后续根据该用户的语音特征，生成个性化的回复语音，提高用户的听觉体验。其中，语音特征可以包括多种特征，例如，输入语音的音色、音调、音量、声纹特征、语速等，本实施例对此不作限制。

步骤S120：根据所述语音特征，确定用于播报语音的语音参数，所述语音参数用于针对待播报的文本信息生成与所述语音参数对应的语音。

在本实施例中，语音参数可以包括音调、音色、语速等，本实施例对此不作限制，不同的语音特征，可以对应不同的播报语音的语音参数，进而基于语音参数生成的播报语音也不同。

在一些实施方式中，可以将输入语音中的音调、语速等语音特征，作为用于播报语音的语音参数，具体地，若输入语音中的音调较低、语速较慢，对应地，播报语音的语音参数中的音调也可以较低，语速较慢，符合用户的说话习惯。因此，可以将该输入语音中的音调以及语速，作为用于播报语音的语音参数中的音调以及语速。

在另一些实施方式中，可以获取语音特征中语速，并判断该语速所处的语速区间，获取与该语速区间对应的语速，作为用于播报语音的语音参数中的语速。其中，可以预先存储不同的语速区间与该区间对应的语速之间的映射关系，在获取到用户输入语音的语速后，即可以在确定语速输出的语速区间后，基于该映射关系，获取到用于播报语音的语速。可以理解地，确定音调以及音色的过程与确定语速的过程类似，可参照上述实施过程，在此不再赘述。

步骤S130：基于对所述待播报的文本信息的语法分析，将标识信息添加至所述待播报的文本信息中，得到目标文本信息。

在本实施例中，还可以对待播报的文本信息进行语法分析，并在待播报的文本信息中添加标识信息，以使待播报的文本信息更具趣味性和亲和性。其中，语法分析可以是对待播报的文本信息进行主语、谓语、宾语的划分，其中，标识信息可以添加至主语与谓语之间，也可以添加至谓语与宾语之间；若待播报的文本信息包含多个分句，还可以在相邻的分句之间添加标识信息；若待播报的文本信息仅包含一个分句，也可以在分句的前后添加标识信息，本实施例对此不作限制。其中，待播报的文本信息可以是针对用户的输入信息确定的回复文本信息，也就是说，可以根据用户的输入语音确定回复的文本信息，并且也可以在播报当前文本信息时，当监测到用户在预设时间段内打断语音的次数超过预设次数，则判定用户此时对当前播报的文本信息不感兴趣，则将预设询问文本信息作为目标文本信息，该预设询问文本信息可以用于提示用户输入语音，以了解其想要了解的内容；待播报的文本信息也可以是预设的播报文本信息。检测用户在预设时间段内打断语音的次数，可以通过检测用户在的当前语音播报的预设时间段内发言的次数，判断该次数是否大于预设次数，其中，预设次数可以是预先设置的，也可以是根据的当前语音播报中包含的问题个数的数量作为预设次数，即，可以理解为当用户在当前语音播报的过程中，若发言的次数超过了问题的个数，代表用户在打断语音。

在一些实施方式中，标识信息可以是交互性文本，即，在将标识信息添加至待播报的文本信息后，可以增加待播报信息的亲和性以及趣味性，提高交互性。例如，待播报的文本信息为“现在是凌晨3点”，通过语法分析，可以确定“现在”是主语、“是”是谓语、“凌晨3点”是宾语，可以在主语和谓语之间添加“已经”这个词，在待播报的文本信息的最后添加“天色已晚，请早点入睡”，以提示用户早点入睡，增加播报语音过程中的互动性，对应地，最终得到的目标文本信息则是“现在已经是凌晨3点，天色已晚，请早点入睡”。

在另一些实施方式中，标识信息也可以是无意义词组，将无意义词组添加至待播报的文本信息后，生成的对应的语音可以包括停顿或者赘语，如“嗯”、“哦”、“这个”、“那个”等，如此，可以让用户难以察觉与其说话的对象是自动应答机器人或者语音播报。

步骤S140：基于所述语音参数以及目标文本信息，生成用于播报的目标语音。

基于此，在确定语音参数和目标文本信息后，可以按照语音参数将目标文本信息通过从文本到语音(Text To Speech，TTS)技术转换为语音，即为上述用于播报的目标语音。其中，可以基于语音参数，通过参数法来生成目标语音，即通过参数调整生成目标语音的基频、共振峰频等，以使目标语音可以满足上述语音参数，可以理解为使生成的目标语音的语速、音色以及音调等与上述语音参数匹配。

在本实施例中，可以根据用户的语音特征，确定对应的语音参数，并基于该语音参数生成与针对该用户的个性化的目标语音，提升了用户的语音交互体验；同时，在待播报的文本信息中添加标识信息，可以使合成的目标语音包含停顿、赘语、交互性语音等，进而可以使目标语音听起来更具有亲和性以及趣味性，如此，也可以让用户更难以察觉与其说话的对象是自动应答机器人或者语音播报，保证自动语音播报过程的顺利进行，进而减少了人工服务，节省了人力成本。

请参照图2，图2为本申请另一实施例提供的一种语音合成方法的流程示意图。下面将结合图2对本申请实施例提供的语音合成方法进行详细阐述。该语音合成方法可以包括以下步骤：

步骤S210：在语音播报的过程中，当检测到用户的输入语音时，识别所述输入语音的语音特征。

在本实施例中，步骤S210的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

步骤S220：根据所述语音特征，确定所述用户的用户属性信息。

在本实施例中，可以根据输入语音的语音特征，确定用户的用户属性信息，其中，用户属性信息可以包括多种，例如，年龄、性别、所属地区、文化程度等，语音特征也可以包括多种，例如音色、音调、音量、声纹特征、语速、口音等，本实施例对此不作限制。其中，性别是可以根据用户的音色和/或音调确定；年龄可以根据用户的音调和/或声纹特征确定；地区可以根据用户的口音确定；文化程度可以根据用户的年龄以及所属地区确定。

步骤S230：获取与所述用户属性信息对应的语音参数，作为用于播报语音的语音参数。

基于此，在获取到用户的用户属性信息后，进一步地，可以获取与用户属性信息对应的语音参数，作为用于播报语音的语音参数。也就是说，每个用户的用户属性信息不相同，获取到的对应的语音参数也不同，对应生成的用于播报的语音参数也不同，进而使生成的用于播报的目标语音也不同，即，在语音交互过程中，实现了针对每个用户语音生成的个性化。

在一些实施方式中，若用户属性信息为用户年龄，获取用户年龄所处的年龄区间，作为目标年龄区间；获取与目标年龄区间对应的语音参数，作为用于播报语音的语音参数。其中，用户年龄可以通过对输入语音的声纹特征进行识别分写得到；以及可以预先存储多个年龄区间以及每个年龄区间对应的语音参数，即，每个年龄区间与其对应的语音参数存在一个映射关系，当前获取到用户年龄后，判断用户年龄处于预先存储的多个年龄区间的哪一个年龄区间，并将该年龄区间作为目标年龄区间，根据上述映射关系即可获取到该目标年龄区间对应的语音参数，再将该语音参数作为用于播报语音的语音参数。其中，在预先设置多个年龄区间以及每个年龄区间对应的语音参数时，由于年龄较大以及年龄较小的用户文化程度可能不高，并且对事物的理解速度可能也较慢，因此，可以将年龄较小以及年龄较大的年龄区间对应的语音参数中的音量调大一些、以及语速调慢一些，如此，可以保证年龄较小以及年龄较大的用户可以听清楚播报的语音，防止因语速过快或者音量较小，造成用户未能及时获取并理解播报的语音中的内容。

例如，预先存储的多个年龄区间分别包括：[6岁-12岁]、[13岁-50岁]以及[51岁-80岁]，若获取到的用户年龄为20岁，则可以该用户年龄处于[19岁-30岁]这个年龄区间，进一步地，则获取预先存储的与[19岁-30岁]年龄区间对应的语音参数，作为用于播报语音的语音参数。

在另一些实施方式中，若用户属性信息为用户性别，获取与用户性别对应的语音参数，作为用于播报语音的语音参数。其中，通过用户的输入语音的语音特征，来判断用户的性别，具体地，可以通过输入语音的频率高低来判断用户是男性还是女性，由于男性声音的音调相较于女性声音的音调更低，可以理解地，男性声音的频率相较于女性声音的频率也更低，因此，可以获取输入语音的频率，判断该频率属于低频区还是高频区，若输入语音的频率属于高频区则可以判定该用户为女性；若输入语音的频率为低频区，则可以判定该用户为男性。其中，低频区和高频区的频率阈值可以是根据大量男性、女性的声音频率数据统计分析得来的。由于女性和男性说话的方式差异也较大，例如，女性说话语速一般较慢，男性说话一般比较快，因此，可以将女性对应的语音参数和男性对应的语音参数设置得不同，针对女性的语音参数可以设置为语速相对较慢、音色较为温柔，针对男性的语音参数可以设置为语速相对较快、音量较大。当然，针对不同性别对应的语音参数也可以由用户自行根据不同的应用场景进行设置，本实施例对此不作限制。

在又一些实施方式中，若用户属性为用户所属地区，则获取用户所属地区对应的语音参数，作为用于播报语音的语音参数。可以根据用户的语音特征，确定用户的口音对应的地区，即为该用户的用户所属地区，其中，所属地区可以为国家、省份、城市等，不同所属地区对应的语音参数可以预先设置，本实施例对此不作限制。由于不同地区的用户，说话的习惯也不同，因此，可以按照该地区的说话的口音作为用户所属地区对应的语音参数，即将用户所属地区对应的说话的口音作为用于播报语音的语音参数，进而使生成的用于播报的语音的口音也是符合用户所属地区说话口音的，如此，在语音交流过程中，给用户更多的亲切感，使用户更难以察觉到与其说话的对象是自动应答机器人或者语音播报。

例如，若获取到用户的口音为四川话，四川话对应的地区为四川省，因此可以判断用户所属地区为四川省，在将四川话的口音作为用于播报语音的语音参数。

在再一些实施方式中，用户的用户属性信息可以同时包括多种，为进一步提高获取与用户属性信息对应的语音参数的准确性，可以提前针对多种用户属性信息与其对应的预设语音参数建立一个多维映射关系表，在获取到用户的多种用户属性信息之后，基于多维映射关系表以及多种用户属性信息，确定与多种用户属性信息相对应的语音参数作为用于播报语音的语音参数。具体地，若多种用户属性信息同时包括性别、年龄、地区以及文化程度，多维映射关系表中预设语音参数对应预设性别、预设年龄区间、预设地区以及预设文化程度，基于此，在获取得到当前用户的性别、年龄、所属地区以及文化程度后，分别将其与多位映射关系表中的预设性别、预设年龄区间、预设地区以及预设文化程度进行匹配，获取与当前用户性别相同的预设性别作为目标性别，获取当前用户的年龄所处的预设年龄区间作为目标年龄区间，获取与当前用户的所属地区相匹配的地区作为目标地区，获取与当前用户的文化程度相匹配的文化程度作为目标文化程度；再从多维映射表中获取与目标性别、目标年龄区间、目标地区以及目标文化程度对应的语音参数作为用于播报语音的语音参数。

例如，若获取到当前用户的性别为女、年龄为24岁、所属地区为四川省以及文化程度为本科，预设年龄区间包括0岁-19岁，20岁-39岁，40-80岁，所属地区包括中国的23个省，文化程度包括本科及以上和本科以下。基于此基于多维映射表，判定目标性别为女，年龄所处的目标年龄区间为20岁-40岁，目标地区为四川省，目标文化程度为本科及以上，因此，可以从多维映射表中获取与性别为女、目标年龄区间为20岁-40岁、目标地区为四川省且目标文化程度为本科及以上对应的语音参数，作为用于播报语音的语音参数。

步骤S240：基于对所述待播报的文本信息的语法分析，将标识信息添加至所述待播报的文本信息中，得到目标文本信息。

步骤S250：基于所述语音参数以及目标文本信息，生成用于播报的目标语音。

在本实施例中，步骤S240-步骤S250的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

在本实施例中，可以根据用户的输入语音的语音特征，确定用户的用户属性信息，再根据用户属性信息确定对应的语音参数，再基于该语音参数生成用于播报的目标语音。如此，可以根据不同用户属性信息，生成语音参数不同的用于播报的目标语音，即，在语音交互过程中，实现了针对每个用户语音生成的个性化，提高了人机之间语音交流的亲切感，使用户更难以察觉到与其说话的对象是自动应答机器人或者语音播报。

请参照图3，图3为本申请再一实施例提供的一种语音合成方法的流程示意图。下面将结合图3对本申请实施例提供的语音合成方法进行详细阐述。该语音合成方法可以包括以下步骤：

步骤S310：在语音播报的过程中，当检测到用户的输入语音时，识别所述输入语音的语音特征。

在本实施例中，步骤S310的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

步骤S320：根据所述语音特征，确定所述用户的情绪信息。

在本实施例中，用户情绪信息可以为表征用户情绪的信息，用户情绪可以包括欢喜、愤怒、哀伤、惊讶、恐惧、疑惑、专注、走神等，本实施例在此不作限定。

其中，语音特征可以是用户的语气，即，对输入语音进行语音分析，获取用户当前的语气。作为一种具体的实施方式，可以对输入语音进行分析，得到语音音量、音调、语音内容等与说话语气相关的参数信息，根据参数信息的具体参数值确定用户语气，具体分析用户语气的方式可以不作为限定。基于此，可以对用户语气进行进一步分析，可得到用户的用户情绪信息。当然，具体根据用户语气获取用户情绪信息的实施方式可以不作为限定。

在一些实施方式中，若用户的情绪信息包括激动和平静两种情绪，判断输入语音的音量是否大于预设音量阈值，若音量大于预设音量阈值，则判定用户的情绪信息为激动；若音量小于或等于预设音量阈值，则判定用户的情绪为平静。其中，预设音量阈值可以是预先设置的，也可以根据不同的应用场景进行调整，本实施例对此不作限制。

在另一些实施方式中，若用户的情绪信息包括激动和平静两种情绪，判断输入语音的语速是否大于预设语速阈值，若语速大于预设语速阈值，则判定用户的情绪信息为激动；若语速小于或等于预设语速阈值，则判定用户的情绪为平静。其中，预设语速阈值可以是预先设置的，也可以根据不同的应用场景进行调整，本实施例对此不作限制。

在又一些实施方式中，还可以根据多种语音特征参数，来判定用户的情绪。具体地，若用户的情绪信息包括非常激动、较为激动和平静三种情绪，判断输入语音的语速是否大于预设语速阈值，并且输入语音的音量是否大于预设音量阈值，若语速大于预设语速阈值且音量大于预设音量阈值，则可以判定为用户的情绪信息为非常激动；若语速大于预设语速阈值，但音量小于或等于预设音量阈值，或者，音量大于预设音量阈值，但语速小于或等于预设语速阈值，则判定用户的情绪信息为较为激动；若音量小于或等于预设音量阈值，并且语速也小于或等于预设语速阈值，则判定用户的情绪信息为平静。

在再一些实施方式中，还可以将用户的多种语音特征参数输入至预先训练好的情绪打分模型中，得到情绪打分；再将该情绪打分与预设分数阈值进行比较，若情绪打分大于预设分数阈值，则判定该用户的情绪信息为激动；若情绪打分小于或等于预设分数阈值，则判定该用户的情绪信息为平静。其中，预设分数阈值可以是预先设置的，也可以根据不同的应用场景进行调整，本实施例对此不作限制。

步骤S330：获取与所述情绪信息对应的语音参数，作为用于播报语音的语音参数。

基于此，在确定用户的情绪信息后，可以获取与该情绪信息对应的语音参数作为用于播报的语音参数。为提高自动播报的交互性，可以根据用户的情绪变化，改变用于播报语音的语音参数，以使用户感觉自动应答机器人或者智能客服在认真与她进行交流。因此，可以提前预设多种情绪信息，并设置每种情绪信息对应的语音参数，例如，若用户的情绪信息为激动时，此时，可以将语音参数中的音色设置得较为温柔，将音调设置得较低，同时将音量设置得较小，以使基于该语音参数生成的用于播报的目标语音给人听觉上较为温柔的感觉，以安抚当前存在激动情绪的用户。

在一些实施方式中，当所述情绪信息满足设定情绪条件时，获取第一文本信息作为待播报的文本信息，所述第一文本信息用于调整所述用户的情绪。其中，设定情绪条件可以是悲伤情绪、激动情绪等，不同的设定情绪条件，相对应的第一文本信息可以不同。具体地，若设定情绪条件为激动情绪时，第一文本信息可以是安抚用户平静的文本信息，如“别激动，如果您对这个套餐不感兴趣，可以看看另一个套餐……”。

在另一些实施方式中，由于不同用户属性信息的用户在相同情绪信息下的反应可能不同，因此，对应用于语音播报的语音参数也可以不同，例如，男性和女性针对同一件事的反应可能不同，女性的情绪可能感到很开心，但是男性可能表现得比较平常。基于此，可以在确定用户的情绪信息后，再基于语音特征确定用户的用户属性信息，在确定与用户的情绪信息以及用户属性信息同时对应的语音参数，作为用于语音播报的语音参数。具体地，用户属性信息可以包括用户的性别以及年龄，可以针对用户的性别、年龄以及情绪信息提前建立一个多维映射关系表，其中，多维映射关系表包含预设语音参数以及对应的预设性别、预设年龄区间以及预设情绪信息，预设性别包括男性和女性，预设年龄区间可以多个年龄区间段，例如0岁-14岁，15岁-55岁，56岁-80岁等，预设情绪信息也可以包括多种情绪，例如悲伤情绪、激动情绪、开心情绪等；基于此，若获取到当前用户的年龄、性别以及情绪信息后，将其与多维映射表中的预设性别、预设年龄区间以及预设情绪信息进行匹配，将与当前用户的性别相同的预设性别作为目标性别，将当前用户的年龄所处的预设年龄区间作为目标年龄区间，将与当前用户的情绪信息相匹配的预设情绪信息作为目标情绪信息；再从该多维映射表中与目标性别、目标年龄区间以及目标情绪信息对应的语音参数作为用于播报的语音参数。

步骤S340：基于对所述待播报的文本信息的语法分析，将标识信息添加至所述待播报的文本信息中，得到目标文本信息。

步骤S350：基于所述语音参数以及目标文本信息，生成用于播报的目标语音。

在本实施例中，步骤S340-步骤S350的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

在本实施例中，可以根据用户的输入语音的语音特征，确定用户的情绪信息，再根据情绪信息确定对应的语音参数，再基于该语音参数生成用于播报的目标语音。如此，可以根据用户的情绪信息的变化，生成不同语气、不同语速的用于播报的目标语音，即，在语音交互过程中，实现了针对每个用户语音生成的个性化，提高了人机之间语音交流的亲切感，使用户更难以察觉到与其说话的对象是自动应答机器人或者语音播报。

请参照图4，图4为本申请又一实施例提供的一种语音合成方法的流程示意图。下面将结合图4对本申请实施例提供的语音合成方法进行详细阐述。该语音合成方法可以包括以下步骤：

步骤S410：在语音播报的过程中，当检测到用户的输入语音时，识别所述输入语音的语音特征。

步骤S420：根据所述语音特征，确定用于播报语音的语音参数，所述语音参数用于针对待播报的文本信息生成与所述语音参数对应的语音。

在本实施例中，步骤S410-步骤S420的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

步骤S430：识别所述待播报的文本信息中的分句，得到多个分句。

步骤S440：获取所述多个分句中存在的目标分句，所述目标分句中的字数大于第一阈值。

在本实施例中，待播报的文本信息中一些分句的字数可能较多，若直接将字数较多的分句直接转化为语音，则可能会导致转化的语音比较生硬，影响用户的听觉体验。因此，可以对待播报的文本信息中的分句进行识别，得到多个分句，在获取每个分句的字数，判断是否存在分句的字数超过第一阈值，若存在分句的字数超过第一阈值，则判定该分句为长句，并将该分句作为目标分句。其中，第一阈值可以是预先设置的(如10)，也可以根据具体应用场景进行调整。

步骤S450：基于对所述目标分句的语法分析，将所述目标分句划分为多个分句成分。

步骤S460：在相邻的分句成分之间添加所述连接词，得到目标文本信息。

基于此，在确定字数较多的目标分句中后，可以在在目标分句中添加连接词，以使转换后的目标语音更像是真人说的。但是，在添加连接词时，若随意添加可能会导致影响原本的待播报的文本信息想表达的内容，因此，可以对目标分句进行语法分析，将目标分句划分为多个分句成分，其中，分句成分可以包括主语、谓语、宾语、动语，定语、状语、补语和中心语等。进一步地，可以在相邻的分居成分之间添加连接词，得到目标文本信息。其中，连接词可以是“哦”、“嗯”、“额”、“那个”、“嗯嗯”、“啊”、“这”等词组，在此不作限制。

示例性地，若目标分句为“当智能手机的网络不好时智能手机无法识别用户发出的语音”，可以对该目标分句进行语法分析，划分为多个分句成分，如状语“当智能手机的网络不好时”、主语“智能手机”、谓语“无法识别”、宾语“用户发出的语音”；基于此，可以随机在状语、主语、谓语、宾语之间添加连接词；也可以在指定的两个分句成分之间添加连接词，例如，仅在状语与主语之间添加连接词“那个”，添加该连接词后的目标分句则变为“当智能手机的网络不好时那个智能手机无法识别用户发出的语音”，如此，可以使该目标分句转换为目标语音时更加口语化。

在实际应用中，可能会存在多个分句成分中某个分句成分的字数较多，若仅直接转换为目标语音，可能会导致播报目标语音时间较长，但却没有任何停顿，仍会给用户造成该播报语音较为生硬的听觉感受，进而导致用户认为当前与其对话的是应答机器人，从而失去耐心转而寻求人工客服。

基于此，在一些实施方式中，可以获取所述多个分句成分中存在的目标分句成分，所述目标分句成分中的字数大于第二阈值，所述第二阈值小于所述第一阈值；在所述目标分句成分与其相邻的分句成分之间添加停顿标识，所述停顿标识用于在生成所述目标语音时，于所述目标分句成分对应的语音与所述相邻的分句成分对应的语音之间生成指定时长的停顿语音。其中，停顿标识符可以是逗号、句号、分号或顿号等，本实施例对此不作限制，并且不同的停顿标识对应生成的停顿语音的时长也不同。也就是说，在获取到多个分句成分后，再获取每个分句成分的字数，并判断该字数是否大于第二阈值，若该字数大于第二阈值，则判定该分句成分的字数较多，并将该分句成分作为目标分句成分。进一步地，在目标分句成分与其相邻的分句成分之间添加停顿标识，以使在生成目标语音时，于目标分句成分对应的语音与所相邻的分句成分对应的语音之间生成指定时长的停顿语音。如此，也进一步使生成的目标语音更贴近于真人说话时的习惯，在说完字数较多的语音后，会停顿一下，再说下一个内容。

例如，仍以目标分句“当智能手机的网络不好时智能手机无法识别用户发出的语音”为例，其中，状语为“当智能手机的网络不好时”，主语为“智能手机”，由于该状语字数较多，因此，可以在状语与主语之间添加停顿标识符(如：逗号)，添加逗号后的目标分句变为“当智能手机的网络不好时，智能手机无法识别用户发出的语音”，以使在生成状语对应的语音与主语对应的语音之间生成指定时长的停顿语音。

在一些实施方式中，若所述目标文本信息包含多个分句，在所述多个分句中的每两个相邻的分句之间添加指定标识，所述指定标识用于在生成所述目标语音时，在每两个相邻的分句对应的语音之间生成换气语音。可以理解地，为使生成的目标语音更贴近真人说话的语音，真人在说话时，在每个分句之间都会存在换气声，基于此，可以在目标文本信息中多个分句中的每两个相邻的分句之间，添加指定标识，以使在生成目标语音时，在每两个相邻的分句对应的语音之间生成换气语音。

步骤S470：基于所述语音参数以及目标文本信息，生成用于播报的目标语音。

在本实施例中，步骤S470的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

在一些实施方式中，若在指定时长内未完成所述目标语音的生成，获取预设语音，作为用于播报的目标语音。其中，指定时长可以是预先设置的，也可以根据具体应用场景对其进行调整，本实施例对此不作限制。在实际应用中，用户所使用的智能设备的网络可能不好，导致识别用户输入的语音较慢，或者在生成目标语音的速度较慢，因此，导致在指定时长内未完成目标语音的生成；若此时，不进行语音播报，可能会导致语音聊天冷场，进而导致用户结束当前语音交互过程。因此，可以获取预设语音，作为用于播报的目标语音，其中，预设语音可以是“嗯”、“这个”、“我这边想一想”、“您稍等”等避免冷场的语音，以缓解因生成目标语音较长造成用户等待不耐烦等问题的发生，并且，若在播报预设语音后，完成对目标语音的合成，则可以继续播报目标语音，以继续和用户的聊天内容。

在一些实施方式中，还可以分析所述输入语音的语音质量；当所述语音质量低于预设质量阈值时，获取第二文本信息，所述第二文本信息用于提示所述用户重新输入语音质量达到所述预设质量阈值的语音；将第二文本信息作为。其中，可以通过获取输入语音的信噪比确定输入语音的语音质量，当信噪比大于预设数值时，判定该语音质量低于预设质量阈值，进而获取第二文本信息作为目标文本信息。在判定用户语音质量较差时，提示用户增大音量或远离噪声重新输入语音，如此，可以防止因用户语音质量较差导致无法识别用户的语音。

在本实施例中，可以在待播报的文本信息中包含多个分句时，在相邻的分居之间添加指定标识，以在每两个相邻的分句对应的语音之间生成换气语音，从而使生成目标语音更贴近于真人说话时的语音习惯；并且在字数较多的分句成分中添加连接词，以及在字数较多的分句与其相邻的分句之间添加停顿标识，如此，也可以使生成的，目标语音更加自然、更加口语化，提高了人机之间语音交流的亲切感，使用户更难以察觉到与其说话的对象是自动应答机器人或者语音播报。

请参照图5，其中示出了本申请另一实施例提供的一种语音合成装置500的结构框图。该装置500可以包括：语音分析模块510、参数确定模块520、信息添加模块530和语音生成模块540。

语音分析模块510用于当检测到用户的输入语音时，识别所述输入语音的语音特征；

参数确定模块520用于根据所述语音特征，确定用于播报语音的语音参数，所述语音参数用于针对待播报的文本信息合成用于播报的目标语音；

信息添加模块530用于基于对所述待播报的文本信息的语法分析，将标识信息添加至所述待播报文本信息中，得到目标文本信息；

语音生成模块540用于基于所述语音参数以及目标文本信息，生成用于播报的目标语音。

在一些实施方式中，参数确定模块520可以包括：信息确定单元以及参数获取单元。其中，信息确定单元可以用于根据所述语音特征，确定所述用户的用户属性信息。参数获取单元可以用于获取与所述用户属性信息对应的语音参数，作为用于播报语音的语音参数。

在该方式下，所述用户属性信息包括用户年龄，参数获取单元可以包括：区间获取子单元以及参数获取子单元。其中，区间获取子单元可以用于获取所述用户年龄所处的年龄区间，作为目标年龄区间。参数获取子单元可以用于获取与所述目标年龄区间对应的语音参数，作为用于播报语音的语音参数。

在另一些实施方式中，参数确定模块520可以包括：情绪确定单元以及参数获取单元。其中，情绪确定单元可以用于根据所述语音特征，确定所述用户的情绪信息。参数获取单元可以用于获取与所述情绪信息对应的语音参数，作为用于播报语音的语音参数。

在该方式下，语音合成装置500还可以包括：第一获取模块。其中，第一获取模块可以具体用于在所述基于对待播报的文本信息的语法分析，将标识信息添加至所述待播报的文本信息中，得到目标文本信息之前，当所述情绪信息满足设定情绪条件时，获取第一文本信息作为待播报的文本信息，所述第一文本信息用于调整所述用户的情绪。

在一些实施方式中，所述标识信息包括连接词，信息添加模块530可以包括：识别单元、目标分句获取单元、分句划分单元以及信息添加单元。其中，识别单元可以用于识别所述待播报的文本信息中的分句，得到多个分句。目标分句获取单元可以用于获取所述多个分句中存在的目标分句，所述目标分句中的字数大于第一阈值。分句划分单元可以用于基于对所述目标分句的语法分析，将所述目标分句划分为多个分句成分。信息添加单元可以用于在相邻的分句成分之间添加所述连接词。

在该方式下，语音合成装置500还可以包括：目标成分获取模块。其中，目标成分获取模块可以用于在所述基于对所述目标分句的语法分析，将所述目标分句划分为多个分句成分之后，获取所述多个分句成分中存在的目标分句成分，所述目标分句成分中的字数大于第二阈值，所述第二阈值小于所述第一阈值。信息添加单元可以具体用于在所述目标分句成分与其相邻的分句成分之间添加停顿标识，所述停顿标识用于在生成所述目标语音时，于所述目标分句成分对应的语音与所述相邻的分句成分对应的语音之间生成指定时长的停顿语音。

在一些实施方式中，信息添加模块可以具体用于在所述基于所述语音参数以及目标文本信息，生成用于播报的目标语音之前，若所述目标文本信息包含多个分句，在所述多个分句中的每两个相邻的分句之间添加指定标识，所述指定标识用于在生成所述目标语音时，在每两个相邻的分句对应的语音之间生成换气语音。

在一些实施方式中，语音合成装置500还可以包括：语音获取单元。其中，语音获取单元可以用于若在指定时长内未完成所述目标语音的生成，获取预设语音，作为用于播报的目标语音。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上所述，本申请实施例提供的方案中，可以根据用户的语音特征，确定对应的语音参数，并基于该语音参数生成与针对该用户的个性化的目标语音，提升了用户的语音交互体验；同时，在待播报的文本信息中添加标识信息，可以使合成的目标语音包含停顿、赘语、交互性语音等，进而可以使目标语音听起来更具有亲和性以及趣味性，如此，也可以让用户更难以察觉与其说话的对象是自动应答机器人或者语音播报，保证自动语音播报过程的顺利进行，进而减少了人工服务，节省了人力成本。

下面将结合图对本申请提供的一种电子设备进行说明。

参照图6，图6示出了本申请实施例提供的一种电子设备600的结构框图，本申请实施例提供的告警通知方法可以由该电子设备600执行。

本申请实施例中的服务器600可以包括一个或多个如下部件：处理器601、存储器602、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器602中并被配置为由一个或多个处理器601执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器601可以包括一个或者多个处理核。处理器601利用各种接口和线路连接整个电子设备600内的各个部分，通过运行或执行存储在存储器602内的指令、程序、代码集或指令集，以及调用存储在存储器602内的数据，执行电子设备600的各种功能和处理数据。可选地，处理器601可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器601可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以集成到处理器601中，单独通过一块通信芯片进行实现。

存储器602可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器602可用于存储指令、程序、代码、代码集或指令集。存储器602可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备600在使用中所创建的数据(比如上述的各种对应关系)等。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接可以是电性，机械或其它的形式。

请参考图7，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质700中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质700可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质700包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

在语音播报的过程中，当检测到用户的输入语音时，识别所述输入语音的语音特征；

根据所述语音特征，确定用于播报语音的语音参数，所述语音参数用于针对待播报的文本信息生成与所述语音参数对应的语音；

基于对所述待播报的文本信息的语法分析，将标识信息添加至所述待播报的文本信息中，得到目标文本信息；

基于所述语音参数以及目标文本信息，生成用于播报的目标语音。

2.根据权利要求1所述的方法，其特征在于，所述根据所述语音特征，确定用于播报语音的语音参数，包括：

根据所述语音特征，确定所述用户的用户属性信息；

获取与所述用户属性信息对应的语音参数，作为用于播报语音的语音参数。

3.根据权利要求2所述的方法，其特征在于，所述用户属性信息包括用户年龄，所述获取与所述用户属性信息对应的语音参数，包括：

获取所述用户年龄所处的年龄区间，作为目标年龄区间；

获取与所述目标年龄区间对应的语音参数，作为用于播报语音的语音参数。

4.根据权利要求1所述的方法，其特征在于，所述根据所述语音特征，确定用于播报语音的语音参数，包括：

根据所述语音特征，确定所述用户的情绪信息；

获取与所述情绪信息对应的语音参数，作为用于播报语音的语音参数。

5.根据权利要求4所述的方法，其特征在于，在所述基于对待播报的文本信息的语法分析，将标识信息添加至所述待播报的文本信息中，得到目标文本信息之前，所述方法还包括：

当所述情绪信息满足设定情绪条件时，获取第一文本信息作为待播报的文本信息，所述第一文本信息用于调整所述用户的情绪。

6.根据权利要求1所述的方法，其特征在于，所述标识信息包括连接词，所述基于对待播报的文本信息的语法分析，将标识信息添加至所述待播报文本信息中，得到目标文本信息，包括：

识别所述待播报的文本信息中的分句，得到多个分句；

获取所述多个分句中存在的目标分句，所述目标分句中的字数大于第一阈值；

基于对所述目标分句的语法分析，将所述目标分句划分为多个分句成分；

在相邻的分句成分之间添加所述连接词。

7.根据权利要求6所述的方法，其特征在于，在所述基于对所述目标分句的语法分析，将所述目标分句划分为多个分句成分之后，所述方法还包括：

获取所述多个分句成分中存在的目标分句成分，所述目标分句成分中的字数大于第二阈值，所述第二阈值小于所述第一阈值；

在所述目标分句成分与其相邻的分句成分之间添加停顿标识，所述停顿标识用于在生成所述目标语音时，于所述目标分句成分对应的语音与所述相邻的分句成分对应的语音之间生成指定时长的停顿语音。

8.根据权利要求1-7任一项所述的方法，其特征在于，在所述基于所述语音参数以及目标文本信息，生成用于播报的目标语音之前，所述方法还包括：

若所述目标文本信息包含多个分句，在所述多个分句中的每两个相邻的分句之间添加指定标识，所述指定标识用于在生成所述目标语音时，在每两个相邻的分句对应的语音之间生成换气语音。

9.根据权利要求1-7任一项所述的方法，其特征在于，在所述基于所述语音参数以及目标文本信息，生成用于播报的目标语音之前，所述方法还包括：

若在指定时长内未完成所述目标语音的生成，则获取预设语音，作为用于播报的目标语音。

10.一种语音合成装置，其特征在于，所述装置包括：

语音分析模块，用于当检测到用户的输入语音时，识别所述输入语音的语音特征；

参数确定模块，用于根据所述语音特征，确定用于播报语音的语音参数，所述语音参数用于针对待播报的文本信息合成用于播报的目标语音；

信息添加模块，用于基于对所述待播报的文本信息的语法分析，将标识信息添加至所述待播报文本信息中，得到目标文本信息；

语音生成模块，用于基于所述语音参数以及目标文本信息，生成用于播报的目标语音。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-9中任意一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-9中任意一项所述的方法。