CN111667811A

CN111667811A - 语音合成方法、装置、设备和介质

Info

Publication number: CN111667811A
Application number: CN202010544845.2A
Authority: CN
Inventors: 崔璐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-09-15
Anticipated expiration: 2040-06-15
Also published as: CN111667811B

Abstract

本申请实施例公开了一种语音合成方法、装置、设备和介质，涉及语音技术、自然语言处理技术和深度学习技术。其中，该语音合成方法包括：获取目标对白语句，并确定目标对白语句涉及的目标人物角色；基于目标对白语句，确定目标人物角色的描述信息；其中，描述信息包括人设标签、角色关系、角色身份和对话场景中的至少一种；利用目标对白语句和目标人物角色的描述信息，确定目标人物角色的角色情感；如果满足语音合成触发条件，则依据目标人物角色和目标人物角色的角色情感，对目标对白语句进行语音合成。本申请实施例可以提高语音播报的角色代入感、画面感。

Description

语音合成方法、装置、设备和介质

技术领域

本申请实施例涉及计算机技术，具体涉及语音技术、自然语言处理技术和深度学习技术，尤其涉及一种语音合成方法、装置、设备和介质。

背景技术

语音合成技术的发展，不经为人们日常生活带来极大的便利性，例如支持语音交互的智能家电被普遍推广，同时，也改变了人们观看电子书的方式。越来越多的电子书产品支持文本的语音播报，听书成为人们利用碎片时间看书的一种新方式。

然而，目前大多数电子书的语音播报，播报语音较为单一，且语音的情感表现力不足，不能为听众从视觉上带来角色画面感，也无法引起听众对角色的代入感。

发明内容

本申请实施例提供了一种语音合成方法、装置、设备和介质，以提高语音播报的角色代入感、画面感。

根据本申请实施例的一方面，提供了一种语音合成方法，包括：

获取目标对白语句，并确定所述目标对白语句涉及的目标人物角色；

基于所述目标对白语句，确定所述目标人物角色的描述信息；其中，所述描述信息包括人设标签、角色关系、角色身份和对话场景中的至少一种；

利用所述目标对白语句和所述目标人物角色的描述信息，确定所述目标人物角色的角色情感；

如果满足语音合成触发条件，则依据所述目标人物角色和所述目标人物角色的角色情感，对所述目标对白语句进行语音合成。

根据本申请实施例的另一方面，提供了一种语音合成装置，包括：

角色确定模块，用于获取目标对白语句，并确定所述目标对白语句涉及的目标人物角色；

描述信息确定模块，用于基于所述目标对白语句，确定所述目标人物角色的描述信息；其中，所述描述信息包括人设标签、角色关系、角色身份和对话场景中的至少一种；

角色情感确定模块，用于利用所述目标对白语句和所述目标人物角色的描述信息，确定所述目标人物角色的角色情感；

语音合成模块，用于如果满足语音合成触发条件，则依据所述目标人物角色和所述目标人物角色的角色情感，对所述目标对白语句进行语音合成。

根据本申请实施例的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本申请实施例任一所述的语音合成方法。

根据本申请实施例的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如本申请实施例任一所述的语音合成方法。

根据本申请实施例的技术方案，通过确定对白语句涉及人物角色以及人物角色的描述信息，根据对白语句以及人物角色的描述信息综合确定人物角色的角色情感，用于合成富有情感的角色化对白语音，提高了语音播报的角色代入感、画面感。

应当理解，应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例公开的一种语音合成方法的流程图；

图2是根据本申请实施例公开的另一种语音合成方法的流程图；

图3是根据本申请实施例公开的一种语音合成与语音播放的流程示意图；

图4是根据本申请实施例公开的一种语音播放的终端界面示意图；

图5是根据本申请实施例公开的一种语音合成装置的结构示意图；

图6是根据本申请实施例公开的一种电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请实施例公开的一种语音合成方法的流程图，本申请实施例可以适用于电子文本阅读场景中，如何实现针对电子文本内容的情感化、角色化语音播报或诵读的情况。本申请实施例公开的方法可以由语音合成装置来执行，该装置可以采用软件和/或硬件实现，并可集成在任意的具有计算能力的电子设备上，例如服务器等。

如图1所示，本申请实施例公开的语音合成方法可以包括：

S101、获取目标对白语句，并确定目标对白语句涉及的目标人物角色。

通常，在电子文本中，例如小说类电子书，包括对白部分和旁白部分，可以采用现有方案中任意可用的关于对白和旁白的区分方法，预先对电子文本进行处理，区分出对白部分和旁白部分。示例性的，可以通过对电子文本进行文本语句拆分、语句结构识别、语句语义分析等文本处理，区分出对白部分和旁白部分。其中，对白部分的语句结构形式通常由说话者与该说话者所说的话组成。通过对对白部分的语句进行角色化区分，可以在语音播报对白语句时携带上角色特点，给听众带来阅读的沉浸式体验。

目标对白语句可以是电子文本对白部分的任意一句话。当获取目标对白语句后，可以通过对该语句进行语句拆分，例如按照冒号或者引号等特定标点符号对语句进行拆分，区分出语句中的说话者，然后根据该说话者确定目标对白语句涉及的目标人物角色。具体的，在确定目标对白语句涉及的目标人物角色之前，可以针对电子文本的故事情节预先设置多种人物角色，并按照人物名称(或人物标识)与人物角色的对应关系，进行存储，当确定目标对白语句中的说话者后，可以根据该说话者的人物名称(或人物标识)，确定对应的目标人物角色。人物角色按照区分粒度的不同，角色分类可以不同，例如按照性别，人物角色分类包括男性、女性；按照性别与年龄，人物角色分类包括女童、成年女性、男童、成年男性等。

S102、基于目标对白语句，确定目标人物角色的描述信息；其中，描述信息包括人设标签、角色关系、角色身份和对话场景中的至少一种。

目标人物角色的描述信息用于对目标人物角色的特点进行辅助性描述，是确定目标人物角色的角色情感的附加考虑因素。

其中，人设标签用于对目标人物角色进行细粒度的刻画，可以包括但不限于正面角色、恶毒角色、社会精英、霸道总裁、女强人等。基于不同的角色人设，目标对白语句中通常会包括用于确定人设标签的特定词语，可以通过对目标对白语句进行分词处理，得到特定词语，然后根据特定词语与预设人设标签的对应关系，确定目标人物角色的人设标签，其中，特定词语是通过对不同人设进行角色分析而统计得到的每种人设角色说话时的一些惯用词语。进一步地，为了提高角色人设确定的准确性，可以基于目标对白语句，扩展到目标对白语句所属的章节内容，确定目标人物角色的对白语句集合，对白语句集合中包括当前目标对白语句，综合利用该对白语句集合确定目标人物角色的人设标签。当然，还可以根据旁白部分关于目标人物角色的描述文本，确定目标人物角色的人设标签。

角色关系是指目标人物角色涉及的人物关系，例如师生关系、朋友关系、情侣关系、师徒关系、上下级关系等。具体的，可以通过对目标对白语句进行分词，确定语句中是否包括用于表示特定称谓的词语，然后结合目标对白语句的语义，确定目标人物角色涉及的人物关系。例如目标对白语句为“***说：同学们，下午好，学校组织春游”，该语句中包括的表示特定称谓的词语是老师、同学，结合语义可知老师在下发通知，可以确定目标人物角色—***，涉及的人物关系是师生关系。

当角色关系确定之后，结合目标对白语句中的说话者，可以确地目标人物角色在该角色关系中的角色身份，例如上述示例中，目标人物角色涉及的人物关系是师生关系，说话者是***，则目标人物角色在目标对白语句中的角色身份即为老师。

对话场景，根据不同故事情节的发展而不同。通常，属于一个章节的内容，对话场景是统一的。如果目标对白语句中包括可以用于识别对话场景的实体词，则可以根据该语句中实体词确定目标人物角色所处的对话场景；如果目标对白语句中不包括可以用于识别对话场景的实体词，则可以根据目标对白语句所属章节中包括的实体词，确定目标人物角色所处的对话场景。其中，实体词的确定可以利用现有的实体识别技术实现，实体词可以包括但不限于会议室、学校、公寓、景区、餐厅、医院等。

本申请实施例在确定人设标签、角色关系、角色身份和对话场景等描述信息的过程中，会根据文本故事情节为人物角色的每种描述信息确定对应的情感基调(或称为情感风格)，以用于后续综合确定针对目标对白语句，目标人物角色的角色情感。示例性的，为正面角色确定的情感风格为和善、正直，为恶毒角色确定的情感风格为凶狠；为师生关系确定的情感风格为尊敬，为情侣关系确定的情感风格为喜悦；为师生关系中的老师身份确定的情感风格为严肃、和善，为师生关系中的学生身份确定的情感风格为尊重；为景区对话场景确定的情感风格为高兴，为会议室对话场景确定的情感风格为郑重。需要说明的是，前述内容属于一种示例，针对目标人物角色的每种描述信息，所确定的情感风格并不限定，需要结合文本故事情节进行合理性确定。

S103、利用目标对白语句和目标人物角色的描述信息，确定目标人物角色的角色情感。

目标人物角色的角色情感也即语音播报过程中该角色作为说话者的语音中所体现的角色情感。通过综合考虑目标对白语句的语境、语义，可以确定该语句本身传达的角色情感，目标人物角色的描述信息同样对应一定的角色情感，将这两类角色情感进行融合处理，可以针对目标对白语句，更加准确、合理地确定目标人物角色的情感特征，在语音播报对白语音的过程中，更为准确地体现人物角色的情感变化，更好地契合文本故事情节。

S104、如果满足语音合成触发条件，则依据目标人物角色和目标人物角色的角色情感，对目标对白语句进行语音合成。

语音合成触发条件用于定义语音合成的触发时机，可以根据实际业务需求而定。例如，语音合成触发条件可以包括电子文本中所有对白语句涉及的人物角色以及人物角色的角色情感均被确定；或者可以包括在电子文本中，包括目标对白语句在内的预设章节内容所涉及的人物角色以及人物角色的角色情感均被确定；或者，还可以包括接收到针对目标对白语句的语音合成请求，即用户在终端中观看电子文本的过程中，存在对电子文本的语音播报需求，触发了针对目标对白语句的语音合成请求。

以用于执行本申请实施例技术方案的电子设备为服务器为例，服务器依据目标对白语句的目标人物角色和目标人物角色的角色情感，调用语音合成引擎，对目标对白语句进行语音合成，然后将合成的语音发送至用户终端，从而为用户提供沉浸式的阅读体验。也即本申请实施例基于用户的语音合成请求，可以实现针对任意对白语句的实时点播效果，实时合成该对白语句对应的角色化、情感化的语音。

根据本申请实施例的技术方案，通过确定对白语句涉及人物角色以及人物角色的描述信息，根据对白语句以及人物角色的描述信息综合确定人物角色的角色情感，可以更好地契合文本故事情节，提高了角色情感确定的合理性、准确性，然后将确定的角色情感用于合成富有情感的角色化对白语音，提高了语音播报的角色代入感、画面感，解决了现有电子文本的语音播报场景中，角色情感确定准确性低、播报语音较为刻板的问题，从听觉上构建了更为饱满的人物形象，使得电子文本的语音播报效果更加接近真人播报的有声读物效果。

在上述技术方案的基础上，示例性的，关于目标对白语句涉及的目标人物角色的描述信息，可以采用以下方式进行确定：

示例性一，如果描述信息包括人设标签，则基于目标对白语句，确定目标人物角色的描述信息，包括：

根据目标对白语句所属目标章节，确定目标人物角色的对白语句集合；即该对白语句集合与当前目标对白语句对应相同的说话者，对白语句集合中包括当前目标对白语句；

通过对对白语句集合进行分词处理，得到至少一个词语，并将至少一个词语在人设词库中进行匹配；

根据匹配成功的词语，确定目标人物角色的人设标签；

其中，人设词库中定义了词语和人设标签之间的对应关系，该人设词库可以是通过统计每种人设角色说话时的惯用词语而得到。

通过利用目标对白语句所属目标章节中目标人物角色的对白语句集合，确定目标人物角色的人设标签，提高了人设标签确定的准确性，为后续确定目标人物角色的角色情感提供了更为细粒度的考虑因素。

示例性二，如果描述信息包括角色关系，则基于目标对白语句，确定目标人物角色的描述信息，包括：

利用预先训练的角色关系预测模型，对目标对白语句进行处理，确定目标人物角色涉及的角色关系。

具体的，角色关系预测模型是指用于预测对白语句中包含的角色关系的模型，其训练过程可以包括：获取语句样本，并对语句样本中的角色关系进行标注；利用语句样本和角色关系的标注结果，训练得到角色关系预测模型，该预测模型具体采用的算法或者神经网络结构，本申请实施例不作具体限定，可以在实际应用中根据需求而定。通过利用角色关系预测模型确定目标人物角色涉及的角色关系，提高了角色关系确定的智能化以及准确性，为后续确定目标人物角色的角色情感提供了更为细粒度的考虑因素。

示例性三，如果描述信息包括角色身份，则基于目标对白语句，确定目标人物角色的描述信息，包括：

根据目标对白语句的语义识别结果和目标人物角色涉及的角色关系，确定目标人物角色的角色身份。即利用目标对白语句，确定出目标人物角色涉及的角色关系后，可以根据目标对白语句的语义识别结果，确定该角色关系中的具体说话者，从而确定角色身份，为后续确定目标人物角色的角色情感提供更为细粒度的考虑因素，提高角色情感确定的准确性、合理性。

示例性四，如果描述信息包括对话场景，则基于目标对白语句，确定目标人物角色的描述信息，包括：

对目标对白语句所属目标章节文本进行实体识别，确定目标章节文本中的实体词；实体识别可以采用现有任意可用的实体识别技术实现，本申请实施例不作具体限定；

根据实体词，确定目标人物角色所处的对话场景。

通过对目标对白语句所属目标章节文本进行实体识别确定实体词，实现了对目标人物角色所处对话场景的准确确定，为后续确定目标人物角色的角色情感提供了更为细粒度的考虑因素。

图2是根据本申请实施例公开的另一种语音合成方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。如图2所示，该方法可以包括：

S201、获取目标对白语句，并确定目标对白语句涉及的目标人物角色。

S202、基于目标对白语句，确定目标人物角色的描述信息；其中，描述信息包括人设标签、角色关系、角色身份和对话场景中的至少一种。

S203、通过对目标对白语句进行文本分析，确定目标人物角色的基础情感风格。

通过对目标对白语句进行文本分析，例如分词处理、语义分析等，确定该语句本身传达的角色情感，即目标人物角色的基础情感风格。

可选的，通过对目标对白语句进行文本分析，确定目标人物角色的基础情感风格，包括：如果对目标对白语句进行上下文分析，确定出具有感情色彩的关键词，则根据关键词确定目标人物角色的基础情感风格。即如果根据目标对白语句的上下文，能够明确情绪指示词，例如高兴、喜悦、悲伤、激动等，则可以用于确定目标人物角色的基础情感风格。

可选的，通过对目标对白语句进行文本分析，确定目标人物角色的基础情感风格，包括：利用预先训练的文本情感预测模型，对目标对白语句进行处理，确定目标人物角色的基础情感风格。其中，文本情感预测模型是预先训练的用于预测人物角色的角色情感的模型，其训练过程可以包括：获取样本语句，并对样本语句涉及的人物角色的角色情感进行标注；根据样本语句和角色情感的标注结果，训练得到文本情感预测模型，该预测模型具体采用的算法或者神经网络结构，本申请实施例不作具体限定，可以在实际应用中根据需求而定。

进一步的，可以在对目标对白语句进行上下文分析，无法确定出具有感情色彩的关键词之后，借助文本情感预测模型来分析目标对白语句所表达的角色情感，通过两种角色情感确定方式的配合使用，有助于提高角色情感确定的效率。

S204、利用人物角色描述信息与角色情感风格之间的预设映射关系，基于目标人物角色的描述信息，确定目标人物角色的候选情感风格。

即本申请实施例可以预先建立不同角色描述信息与角色情感风格之间的映射关系，当前确定出目标对白语句涉及的目标人物角色的描述信息后，可以利用预先建立的映射关系，便捷确定目标人物角色的候选情感风格，以参与目标人物角色的最终情感确定过程中，确保角色情感确定的准确性、合理性。

需要说明的是，操作S203与操作S204之间并无严格的执行顺序限定，图2所示执行顺序只作为一种示例，不应理解为对本申请实施例的具体限定。

S205、根据基础情感风格和候选情感风格，确定目标人物角色的角色情感。

例如，在综合考虑基础情感风格和候选情感风格的过程中，可以将基础情感风格作为目标人物角色的角色情感的主基调，将候选情感风格作为辅助信息，对基础情感风格进行调整，得到目标对白语句中目标人物角色的最终角色情感。

可选的，在确定基础情感风格和候选情感风格的过程中，本申请实施例公开的方法还可以包括：分别为基础情感风格和候选情感风格分配不同的权重；权重的大小体现了在目标人物角色的角色情感确定过程中不同情感风格所占据的比重；

相应的，根据基础情感风格和候选情感风格，确定目标人物角色的角色情感，包括：根据基础情感风格的权重和候选情感风格的权重进行情感风格融合，得到目标人物角色的角色情感。

其中，权重的分配方式可以针对电子文本而预先设置，具体分配策略本申请实施例不作具体限定。例如，基础情感风格的权重可以大于任一候选情感风格的权重，根据目标人物角色的描述信息的不同，可以为每种描述信息对应的候选情感风格设置相应的权重，例如为基础情感风格设置60％的权重值，为对话场景对应的候选情感风格设置30％的权重值，为角色身份对应的候选情感风格设置10％的权重值等等，针对其他描述信息对应的候选情感风格的权重值，同样可以进行合理化设置，本申请实施例不作具体限定。

S206、如果满足语音合成触发条件，则依据目标人物角色和目标人物角色的角色情感，对目标对白语句进行语音合成。

根据本申请实施例的技术方案，通过利用目标对白语句本身确定目标人物角色的基础情感风格，利用目标人物角色的描述信息确定目标人物角色的候选情感风格，然后将基础情感风格和候选情感风格进行融合，综合确定目标人物角色的角色情感，以用于目标对白语句的语音合成过程中，可以更好地契合文本故事情节，提高了角色情感确定的合理性、准确性，提高了语音播报的角色代入感、画面感，解决了现有电子文本的语音播报场景中，角色情感确定准确性低、播报语音较为刻板的问题，从听觉上构建了更为饱满的人物形象，使得电子文本的语音播报效果更加接近真人播报的有声读物效果。

在上述技术方法的基础上，可选的，在确定目标对白语句涉及的目标人物角色之后，本申请实施例公开的方法还可以包括：

根据目标人物角色的角色属性，为目标人物角色分配目标音色；其中，目标人物角色的角色属性可以是在针对电子文本预先设置多种人物角色的过程中同时确定角色属性，也可以是通过针对目标对白语句所属章节内容进行角色特点分析而确定，角色属性可以包括年龄、性别、职业、爱好等个性化信息。通过为每个目标人物角色分配相匹配的目标音色，提高了角色语音对角色形象的贴合度，提高了对白语音播报过程中对角色的辨识度。

进一步的，本申请实施例公开的方法还可以包括：

建立目标对白语句、目标人物角色、目标人物角色的角色情感和目标音色之间的映射关系；该映射关系可以用于在语音合成过程中便捷确定目标对白语句涉及的目标人物角色、目标人物角色的角色情感和目标音色，并且通过语句粒度的映射关系建立，可以实现针对任意对白语句的实时点播效果，即可以实现针对任意对白语句，实时合成该对白语句对应的角色化、情感化的语音；

相应的，如果满足语音合成触发条件，则依据目标人物角色和目标人物角色的角色情感，对目标对白语句进行语音合成，包括：如果满足语音合成触发条件，则利用建立的映射关系，调用目标对白语句对应的目标人物角色、目标人物角色的角色情感和目标音色，对目标对白语句进行语音合成。

以服务器和用户终端之间的交互为例，用户利用终端看电子书的过程中，可以针对电子书中的任意对白语句，触发语音合成请求并发送至服务器；服务器接收到用户的语音合成请求后，根据该语音合成请求中携带的语句标识，确定用户请求的目标对白语句，然后根据预先建立的目标对白语句、目标人物角色、目标人物角色的角色情感和目标音色之间的映射关系，确定对白语音合成过程中所需的目标人物角色、目标人物角色的角色情感和目标音色，进而进行角色化、情感化的对白语音合成，语音合成之后，发送至用户终端，并在用户终端中进行播报。

需要说明的是，在本申请实施例中，针对电子文本中的旁白部分，同样支持语音合成与播报，与对白部分的区别在于，旁白部分的语音合成过程中，不需要进行角色区分，可以预先为旁白部分设置一种播报音色以及播报情感即可。

图3是根据本申请实施例公开的一种语音合成与语音播放的流程示意图，对本申请实施例的技术方案进行示例性说明，不应理解为对本申请实施例的具体限定。如图3所示，本申请实施例的技术方案可以分为两个阶段：资源生成部分和实时合成部分，其中，资源生成部分可以在离线状态下完成。

1、资源生成部分

1.1获取小说全文资源

在用于语音合成的资源生成过程中，需要提前获取小说的原始文本，以进行离线资源的快速内容生产。为了在线实时合成的时候能够快速定位到请求的语句文本，需要提前获取到资源的书名、书标识(book_id)、章节标识(chapter_id)，作为快速查找的索引。

1.2角色识别预测

快速对文本进行处理，预测出旁白部分和对白部分。然后，预测对白部分每个对白语句涉及的人物角色，同时可以确定角色的属性，角色属性可以包括年龄段(幼年、少年、中年、老年)和性别(男、女)。

1.3说话风格识别预测(即确定角色情感)

根据对白语句，预测出该对白语句所涉及的人物角色的人设标签(如：正面主角，恶毒反面角色等)，角色关系(如：朋友、情侣、师徒等)，对话场景(如：学校、家里等)，角色身份(如：师生关系中的老师，即老师对学生说话；情侣关系中的男朋友，即男朋友对女朋友说话)等描述信息；根据对白语句涉及的故事情节和确定的人物角色的前述描述信息，综合确定人物角色的说话情感(即角色情感)，例如高兴、生气、嘲讽等。

1.4分配音色

可以根据人工总结的现有发音人的年龄段和性别的映射关系，配合当前确定的角色属性，为每个确定的人物角色自动分配不同的音色。针对一种人物角色，若存在多种音色的映射关系，则可以随机选择其中一种音色作为该人物角色的说话音色。

当确定人物角色的音色后，可以基于需要合成的对白语句的情感标签，选择该音色下该情感风格的后端音库进行语音合成。

1.5生成完成，保存资源

最终生成的对白文本与说话人资源格式可以保存为：人物角色+音色+人物角色情感+对白文本。存储生成的资源，以供对白语音实时合成时查找使用。在资源使用过程中，可以输入对白文本，通过资源查找，输出角色+音色+人物角色情感+对白文本。

2、实时合成部分

2.1小说请求

在用户终端，可以使用“对白文本+book_id+chapter_id+offset”的请求方式传输给服务器的文本转语音(Text To Speech，TTS)软件开发工具包(Software DevelopmentKit，SDK)，并由软件开发工具包透传给语音架构。

2.2实时生成

语音架构将请求转发给合成引擎，经过合成引擎查询到请求的对白文本对应的“人物角色+音色+人物角色情感+对白文本”的匹配，并返回相应的字段；语音架构完成对白语音合成后，返回给用户终端，以进行播报。由于本申请实施例是以语句文本为单位的细粒度资源匹配，因此支持点击任意语句文本进行播报，语音和文本强绑定，同时可以向用户终端返回播报进度、语速等语音合成播报的相关参数。

2.3内容消费

用户终端对获取到的音频进行播放，上述流程可以使得用户实现即点即听的效果。

图4是根据本申请实施例公开的一种语音播放的终端界面示意图。如图4所示，界面上半部分可以显示当前正在播报的电子文本信息；界面下半部分可以显示语音播放进度、语速等信息，同时还可以设置多种功能控件，例如音色切换控件、朗读模式控件、语速调整控件以及朗读定时控件等，具体界面设计可以根据业务需求而定，本申请实施例不作具体限定。

图5是根据本申请实施例公开的一种语音合成装置的结构示意图，本申请实施例可以适用于电子文本阅读场景中，如何实现针对电子文本内容的情感化、角色化语音播报或诵读的情况。本申请实施例公开的装置可以采用软件和/或硬件实现，并可集成在任意的具有计算能力的电子设备上，例如服务器等。

如图5所示，本申请实施例公开的语音合成装置300可以包括角色确定模块301、描述信息确定模块302、角色情感确定模块303和语音合成模块304，其中：

角色确定模块301，用于获取目标对白语句，并确定目标对白语句涉及的目标人物角色；

描述信息确定模块302，用于基于目标对白语句，确定目标人物角色的描述信息；其中，描述信息包括人设标签、角色关系、角色身份和对话场景中的至少一种；

角色情感确定模块303，用于利用目标对白语句和目标人物角色的描述信息，确定目标人物角色的角色情感；

语音合成模块304，用于如果满足语音合成触发条件，则依据目标人物角色和目标人物角色的角色情感，对目标对白语句进行语音合成。

可选的，如果描述信息包括人设标签，则描述信息确定模块302包括：

语句集合确定单元，用于根据目标对白语句所属目标章节，确定目标人物角色的对白语句集合；

分词与匹配单元，用于通过对对白语句集合进行分词处理，得到至少一个词语，并将至少一个词语在人设词库中进行匹配；

人设标签确定单元，用于根据匹配成功的词语，确定目标人物角色的人设标签；

其中，人设词库中定义了词语和人设标签之间的对应关系。

可选的，如果描述信息包括角色关系，则描述信息确定模块302包括：

角色关系确定单元，用于利用预先训练的角色关系预测模型，对目标对白语句进行处理，确定目标人物角色涉及的角色关系。

可选的，如果描述信息包括角色身份，则描述信息确定模块302包括：

角色身份确定单元，用于根据目标对白语句的语义识别结果和目标人物角色涉及的角色关系，确定目标人物角色的角色身份。

可选的，如果描述信息包括对话场景，则描述信息确定模块302包括：

实体识别单元，用于对目标对白语句所属目标章节文本进行实体识别，确定目标章节文本中的实体词；

对话场景确定单元，用于根据实体词，确定目标人物角色所处的对话场景。

可选的，角色情感确定模块303包括：

基础情感风格确定单元，用于通过对目标对白语句进行文本分析，确定目标人物角色的基础情感风格；

候选情感风格确定单元，用于利用人物角色描述信息与角色情感风格之间的预设映射关系，基于目标人物角色的描述信息，确定目标人物角色的候选情感风格；

角色情感确定单元，用于根据基础情感风格和候选情感风格，确定目标人物角色的角色情感。

可选的，基础情感风格确定单元具体用于：

如果对目标对白语句进行上下文分析，确定出具有感情色彩的关键词，则根据关键词确定目标人物角色的基础情感风格。

可选的，基础情感风格确定单元具体用于：

利用预先训练的文本情感预测模型，对目标对白语句进行处理，确定目标人物角色的基础情感风格。

可选的，角色情感确定模块303还包括：

权重分配单元，用于在确定基础情感风格和候选情感风格的过程中，分别为基础情感风格和候选情感风格分配不同的权重；

相应的，角色情感确定单元具体用于：

根据基础情感风格的权重和候选情感风格的权重进行情感风格融合，得到目标人物角色的角色情感。

可选的，本申请实施例公开的装置还包括：

音色分配模块，用于在角色确定模块301执行确定目标对白语句涉及的目标人物角色的操作之后，根据目标人物角色的角色属性，为目标人物角色分配目标音色。

可选的，本申请实施例公开的装置还包括：

映射关系建立模块，用于建立目标对白语句、目标人物角色、目标人物角色的角色情感和目标音色之间的映射关系；

相应的，语音合成模块304具体用于：

如果满足语音合成触发条件，则利用建立的映射关系，调用目标对白语句对应的目标人物角色、目标人物角色的角色情感和目标音色，对目标对白语句进行语音合成。

可选的，语音合成触发条件包括：接收到针对目标对白语句的语音合成请求。

本申请实施例所公开的语音合成装置300可执行本申请实施例所公开的任意语音合成方法，具备执行方法相应的功能模块和有益效果。本申请装置实施例中未详尽描述的内容可以参考本申请任意方法实施例中的描述。

根据本申请的实施例，本申请实施例还提供了一种电子设备和一种可读存储介质。

如图6所示，图6是用于实现本申请实施例中语音合成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请实施例的实现。

如图6所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作，例如，作为服务器阵列、一组刀片式服务器、或者多处理器***。图6中以一个处理器401为例。

存储器402即为本申请实施例所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请实施例所提供的语音合成方法。本申请实施例的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请实施例所提供的语音合成方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中语音合成方法对应的程序指令/模块，例如，附图5所示的角色确定模块301、描述信息确定模块302、角色情感确定模块303和语音合成模块304。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例中的语音合成方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至用于实现本实施例中语音合成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用于实现本申请实施例中语音合成方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生与用于实现本实施例中语音合成方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置和触觉反馈装置等，其中，辅助照明装置例如发光二极管(Light Emitting Diode，LED)；触觉反馈装置例如，振动电机等。该显示设备可以包括但不限于，液晶显示器(Liquid Crystal Display，LCD)、LED显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用集成电路(Application Specific Integrated Circuit，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序，也称作程序、软件、软件应用、或者代码，包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置，例如，磁盘、光盘、存储器、可编程逻辑装置(Programmable Logic Device，PLD)，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置，例如，阴极射线管(Cathode Ray Tube，CRT)或者LCD监视器；以及键盘和指向装置，例如，鼠标或者轨迹球，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈，例如，视觉反馈、听觉反馈、或者触觉反馈；并且可以用任何形式，包括声输入、语音输入或者、触觉输入，来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***，例如，作为数据服务器，或者实施在包括中间件部件的计算***，例如，应用服务器，或者实施在包括前端部件的计算***，例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互，或者实施在包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信，例如通信网络，来将***的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、互联网和区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音合成方法，包括：

2.根据权利要求1所述的方法，其中，如果所述描述信息包括人设标签，则所述基于所述目标对白语句，确定所述目标人物角色的描述信息，包括：

根据所述目标对白语句所属目标章节，确定所述目标人物角色的对白语句集合；

通过对所述对白语句集合进行分词处理，得到至少一个词语，并将所述至少一个词语在人设词库中进行匹配；

根据匹配成功的词语，确定所述目标人物角色的人设标签；

其中，所述人设词库中定义了词语和人设标签之间的对应关系。

3.根据权利要求1所述的方法，其中，如果所述描述信息包括角色关系，则所述基于所述目标对白语句，确定所述目标人物角色的描述信息，包括：

利用预先训练的角色关系预测模型，对所述目标对白语句进行处理，确定所述目标人物角色涉及的角色关系。

4.根据权利要求1所述的方法，其中，如果所述描述信息包括角色身份，则所述基于所述目标对白语句，确定所述目标人物角色的描述信息，包括：

根据所述目标对白语句的语义识别结果和所述目标人物角色涉及的角色关系，确定所述目标人物角色的角色身份。

5.根据权利要求1所述的方法，其中，如果所述描述信息包括对话场景，则所述基于所述目标对白语句，确定所述目标人物角色的描述信息，包括：

对所述目标对白语句所属目标章节文本进行实体识别，确定所述目标章节文本中的实体词；

根据所述实体词，确定所述目标人物角色所处的对话场景。

6.根据权利要求1所述的方法，其中，所述利用所述目标对白语句和所述目标人物角色的描述信息，确定所述目标人物角色的角色情感，包括：

通过对所述目标对白语句进行文本分析，确定所述目标人物角色的基础情感风格；

利用人物角色描述信息与角色情感风格之间的预设映射关系，基于所述目标人物角色的描述信息，确定所述目标人物角色的候选情感风格；

根据所述基础情感风格和所述候选情感风格，确定所述目标人物角色的角色情感。

7.根据权利要求6所述的方法，其中，所述通过对所述目标对白语句进行文本分析，确定所述目标人物角色的基础情感风格，包括：

如果对所述目标对白语句进行上下文分析，确定出具有感情色彩的关键词，则根据所述关键词确定所述目标人物角色的基础情感风格。

8.根据权利要求6所述的方法，其中，所述通过对所述目标对白语句进行文本分析，确定所述目标人物角色的基础情感风格，包括：

利用预先训练的文本情感预测模型，对所述目标对白语句进行处理，确定所述目标人物角色的基础情感风格。

9.根据权利要求6所述的方法，其中，在确定所述基础情感风格和所述候选情感风格的过程中，还包括：

分别为所述基础情感风格和所述候选情感风格分配不同的权重；

所述根据所述基础情感风格和所述候选情感风格，确定所述目标人物角色的角色情感，包括：

根据所述基础情感风格的权重和所述候选情感风格的权重进行情感风格融合，得到所述目标人物角色的角色情感。

10.根据权利要求1所述的方法，其中，在所述确定所述目标对白语句涉及的目标人物角色之后，还包括：

根据所述目标人物角色的角色属性，为所述目标人物角色分配目标音色。

11.根据权利要求10所述的方法，其中，还包括：

建立所述目标对白语句、所述目标人物角色、所述目标人物角色的角色情感和所述目标音色之间的映射关系；

所述如果满足语音合成触发条件，则依据所述目标人物角色和所述目标人物角色的角色情感，对所述目标对白语句进行语音合成，包括：

如果满足所述语音合成触发条件，则利用所述建立的映射关系，调用所述目标对白语句对应的目标人物角色、所述目标人物角色的角色情感和所述目标音色，对所述目标对白语句进行语音合成。

12.根据权利要求1-11中任一所述的方法，其中，所述语音合成触发条件包括：接收到针对所述目标对白语句的语音合成请求。

13.一种语音合成装置，包括：

14.根据权利要求13所述的装置，其中，如果所述描述信息包括人设标签，则所述描述信息确定模块包括：

语句集合确定单元，用于根据所述目标对白语句所属目标章节，确定所述目标人物角色的对白语句集合；

分词与匹配单元，用于通过对所述对白语句集合进行分词处理，得到至少一个词语，并将所述至少一个词语在人设词库中进行匹配；

人设标签确定单元，用于根据匹配成功的词语，确定所述目标人物角色的人设标签；

15.根据权利要求13所述的装置，其中，如果所述描述信息包括角色关系，则所述描述信息确定模块包括：

角色关系确定单元，用于利用预先训练的角色关系预测模型，对所述目标对白语句进行处理，确定所述目标人物角色涉及的角色关系。

16.根据权利要求13所述的装置，其中，如果所述描述信息包括角色身份，则所述描述信息确定模块包括：

角色身份确定单元，用于根据所述目标对白语句的语义识别结果和所述目标人物角色涉及的角色关系，确定所述目标人物角色的角色身份。

17.根据权利要求13所述的装置，其中，如果所述描述信息包括对话场景，则所述描述信息确定模块包括：

实体识别单元，用于对所述目标对白语句所属目标章节文本进行实体识别，确定所述目标章节文本中的实体词；

对话场景确定单元，用于根据所述实体词，确定所述目标人物角色所处的对话场景。

18.根据权利要求13所述的装置，其中，所述角色情感确定模块包括：

基础情感风格确定单元，用于通过对所述目标对白语句进行文本分析，确定所述目标人物角色的基础情感风格；

候选情感风格确定单元，用于利用人物角色描述信息与角色情感风格之间的预设映射关系，基于所述目标人物角色的描述信息，确定所述目标人物角色的候选情感风格；

角色情感确定单元，用于根据所述基础情感风格和所述候选情感风格，确定所述目标人物角色的角色情感。

19.根据权利要求18所述的装置，其中，所述基础情感风格确定单元具体用于：

20.根据权利要求18所述的装置，其中，所述基础情感风格确定单元具体用于：

21.根据权利要求18所述的装置，其中，所述角色情感确定模块还包括：

权重分配单元，用于在确定所述基础情感风格和所述候选情感风格的过程中，分别为所述基础情感风格和所述候选情感风格分配不同的权重；

所述角色情感确定单元具体用于：

22.根据权利要求13所述的装置，其中，还包括：

音色分配模块，用于在所述角色确定模块执行所述确定所述目标对白语句涉及的目标人物角色的操作之后，根据所述目标人物角色的角色属性，为所述目标人物角色分配目标音色。

23.根据权利要求22所述的装置，其中，还包括：

映射关系建立模块，用于建立所述目标对白语句、所述目标人物角色、所述目标人物角色的角色情感和所述目标音色之间的映射关系；

所述语音合成模块具体用于：

24.根据权利要求13-23中任一所述的装置，其中，所述语音合成触发条件包括：接收到针对所述目标对白语句的语音合成请求。

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的语音合成方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-12中任一项所述的语音合成方法。