CN114333763A

CN114333763A - 一种基于重音的语音合成方法及相关装置

Info

Publication number: CN114333763A
Application number: CN202210255579.0A
Authority: CN
Inventors: 余勇; 钟少恒; 陈志刚; 王翊; 蔡勇超
Original assignee: Foshan Power Supply Bureau of Guangdong Power Grid Corp
Current assignee: Foshan Power Supply Bureau of Guangdong Power Grid Corp
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-04-12

Abstract

本申请公开了一种基于重音的语音合成方法及相关装置，方法包括：基于人工智能分词技术对目标句子进行词性分类处理，得到类别词性集，类别词性集的类别包括动词、名词和修饰词；根据类别词性集确定目标句子的句子结构，句子结构包括主谓短语和述宾短语；对预置重音词汇集进行重读的重要性排序，得到重读序列；基于预置重读概率、重读序列、预置重读方式和句子结构对目标句子进行重读语音合成，得到目标合成语音，重读方式包括慢读和顿读。本申请能够解决现有语音合成技术得到的语音生硬，不够生动，导致听众体验感较差的技术问题。

Description

一种基于重音的语音合成方法及相关装置

技术领域

本申请涉及语音合成技术领域，尤其涉及一种基于重音的语音合成方法及相关装置。

背景技术

重音是指那些在文本中对于表情达意起重要作用、在朗读中要加以特别强调的字或词或短语。重音的朗读是通过声音的强调来突出意义的，它能给色彩鲜明形象生动的词增加分。因此，在文本转语音，或者语音合成过程中，重音就尤为重要。在语音合成（TTS）中，现有技术只是对语音进行简单的文字转换输出，十分生硬，也不生动，听众体验感较差。

发明内容

本申请提供了一种基于重音的语音合成方法及相关装置，用于解决现有语音合成技术得到的语音生硬，不够生动，导致听众体验感较差的技术问题。

有鉴于此，本申请第一方面提供了一种基于重音的语音合成方法，包括：

基于人工智能分词技术对目标句子进行词性分类处理，得到类别词性集，所述类别词性集的类别包括动词、名词和修饰词；

根据所述类别词性集确定所述目标句子的句子结构，所述句子结构包括主谓短语和述宾短语；

对预置重音词汇集进行重读的重要性排序，得到重读序列；

基于预置重读概率、所述重读序列、预置重读方式和所述句子结构对所述目标句子进行重读语音合成，得到目标合成语音，所述重读方式包括慢读和顿读。

可选的，所述基于人工智能分词技术对目标句子进行词性分类处理，得到类别词性集，所述类别词性集的类别包括动词、名词和修饰词，包括：

基于人工智能分词技术对目标句子进行分词处理，得到分词集合；

根据预置词性库对所述分词集合中的词语进行词性匹配，得到类别词性集。

可选的，所述对预置重音词汇集进行重读的重要性排序，得到重读序列，包括：

根据中文语法规则配置重音词汇，得到预置重音词汇集，所述重音词汇包括谓语、宾语、定语和状语；

对所述预置重音词汇集中的所述重音词汇进行重读的重要性排序，得到重读序列，所述重读序列为谓语优先级高于宾语，宾语优先级高于定语，定语优先级等于状语。

可选的，所述基于预置重读概率、所述重读序列、预置重读方式和所述句子结构对所述目标句子进行重读语音合成，得到目标合成语音，所述重读方式包括慢读和顿读，包括：

基于主谓重读梯度概率、所述重读序列和预置重读方式对所述目标句子中的所述主谓短语进行重读语音合成；

基于述宾重读梯度概率、所述重读序列和所述预置重读方式对所述目标句子中的所述述宾短语进行重读语音合成，得到目标合成语音；

所述预置重读概率包括主谓重读梯度概率和述宾重读梯度概率，所述重读方式包括慢读和顿读。

本申请第二方面提供了一种基于重音的语音合成装置，包括：

词性分类模块，用于基于人工智能分词技术对目标句子进行词性分类处理，得到类别词性集，所述类别词性集的类别包括动词、名词和修饰词；

结构分析模块，用于根据所述类别词性集确定所述目标句子的句子结构，所述句子结构包括主谓短语和述宾短语；

重读排序模块，用于对预置重音词汇集进行重读的重要性排序，得到重读序列；

重读合成模块，用于基于预置重读概率、所述重读序列、预置重读方式和所述句子结构对所述目标句子进行重读语音合成，得到目标合成语音，所述重读方式包括慢读和顿读。

可选的，所述词性分类模块，具体用于：

可选的，所述重读排序模块，具体用于：

可选的，所述重读合成模块，具体用于：

本申请第三方面提供了一种基于重音的语音合成设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的基于重音的语音合成方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的基于重音的语音合成方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，提供了一种基于重音的语音合成方法，包括：基于人工智能分词技术对目标句子进行词性分类处理，得到类别词性集，类别词性集的类别包括动词、名词和修饰词；根据类别词性集确定目标句子的句子结构，句子结构包括主谓短语和述宾短语；对预置重音词汇集进行重读的重要性排序，得到重读序列；基于预置重读概率、重读序列、预置重读方式和句子结构对目标句子进行重读语音合成，得到目标合成语音，重读方式包括慢读和顿读。

本申请提供的基于重音的语音合成方法，采用词性分析的方式将目标句子划分为不同的短语结构；然后根据词性不同，重读的重要性差别，以及句子结构对目标句子进行不同程度的重读处理，使得目标合成语音更加符合听众的常规需求，更能传递不同语境的情绪和情感，更加生动，从而提升听众的体验感。因此，本申请能够解决现有语音合成技术得到的语音生硬，不够生动，导致听众体验感较差的技术问题。

附图说明

图1为本申请实施例提供的一种基于重音的语音合成方法的流程示意图；

图2为本申请实施例提供的一种基于重音的语音合成装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种基于重音的语音合成方法的实施例，包括：

步骤101、基于人工智能分词技术对目标句子进行词性分类处理，得到类别词性集，类别词性集的类别包括动词、名词和修饰词。

进一步地，步骤101，包括：

根据预置词性库对分词集合中的词语进行词性匹配，得到类别词性集。

关于中文分词处理技术，现有的中文分词算法有五大类：基于词典的方法，基于统计的方法，基于规则的方法，基于字标注的方法，基于人工智能技术（也称作基于理解）的方法。而文本信息处理的三个层次是：词法分析，句法分析，语义分析；其中，中文分词是词法分析的第一步，非常重要。中文分词是大部分下游应用的基础，这些下游应用小到POS词性标注、NER命名实体识别，大到自动分类、自动摘要、自动校对、语言模型、机器翻译、搜索引擎、语音合成等等。

而本实施例中选择的基于人工智能分词技术的分词原理是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。基于人工智能分词技术涉及的方法主要有神经网络分词法和专家***分词等方法，具体可以根据实际文本情况进行选择，在此不作限定。

为了便于对划分的词语进行规划和管理，本实施例依据文本语法对词语进行分类处理，主要类别包括动词、名词、修饰词等，还可以对这些词语进行更加详细的类别划分，例如修饰词中包括形容词和程度副词等，具体的划分的类别数量不作限定。可以按照划分的类别将词语整理成类别词性集，用于后续的语音合成。

步骤102、根据类别词性集确定目标句子的句子结构，句子结构包括主谓短语和述宾短语。

类别词性集中的每个词语都有其具体的所属句子，且有明确的位置，根据词语在句子中出现的顺序或者位置确定句子的主谓宾成分，继而确定定状补等成分，从而得到句子的整体结构，即包括主谓短语、述宾短语成分的句子结构；其中，主谓短语中包括主语、谓语和宾语等成分，述宾短语包括宾语、定语和状语等成分。本实施例中句子结构的确定方法是机器学习训练特定模型完成的句子分析，还可以通过其他方法实现，具体的不作限定，可以完成句子结构分析即可。

步骤103、对预置重音词汇集进行重读的重要性排序，得到重读序列。

进一步地，步骤103，包括：

根据中文语法规则配置重音词汇，得到预置重音词汇集，重音词汇包括谓语、宾语、定语和状语；

对预置重音词汇集中的重音词汇进行重读的重要性排序，得到重读序列，重读序列为谓语优先级高于宾语，宾语优先级高于定语，定语优先级等于状语。

预置重音词汇集是预先配置得到的，依据是中文语法规则，具体的可以描述为：规定在主谓短语中重读谓语，在述宾短语中重读宾语，定语和状语等修饰语均需要重读。此外在规定了重读词语的情况下还需要设置重读重要性，也就是优先级，或者重音程度梯度；例如在主谓短语中，谓语>宾语>定状语；在述宾短语中，宾语>定状补；根据这样的规则进行重要性排序，就可以将重读词汇排列成序列，得到重读序列。所有的文本整理出了句子结构后，都可以依据重读序列进行重读。

步骤104、基于预置重读概率、重读序列、预置重读方式和句子结构对目标句子进行重读语音合成，得到目标合成语音，重读方式包括慢读和顿读。

进一步地，步骤104，包括：

基于主谓重读梯度概率、重读序列和预置重读方式对目标句子中的主谓短语进行重读语音合成；

基于述宾重读梯度概率、重读序列和预置重读方式对目标句子中的述宾短语进行重读语音合成，得到目标合成语音；

预置重读概率包括主谓重读梯度概率和述宾重读梯度概率，重读方式包括慢读和顿读。

预置重读概率是指在每个句子中每个重读词汇的重读程度不同，最高重读词汇的概率最大，后面依次降低，例如最高重读词语的预置重读概率设置为75%，该句子中其他的重读词语的概率可以依次递减，递减步长为10%。重读概率根据句子结构成分的不同，可以设置不同的概率分布，即主谓重读梯度概率和述宾重读梯度概率，具体还可以根据需要设置其他概率分布，原理相同，在此不作赘述。

重读序列可以查找出每个句子需要重读的词语，以及这些词语的重读重要性。

预置重读方式包括慢读和顿读，即重音慢读和重音顿读；其中，重音慢读即为延长音长，对包含特殊情感的词语具有较好的表达效果，而重音顿读则是在被强调的词语之前或者之后稍微停顿，使情感更加充分表达出来。对词语重读就是增加发音力度，使音量增强，可以表达出高亢、激昂的情绪。

得到的目标合成语音中能够明确体现出关键词的重读，能够提高语音合成的生动性，可听性，能有效的避免文字转语音的生硬问题。

本申请实施例提供的基于重音的语音合成方法，采用词性分析的方式将目标句子划分为不同的短语结构；然后根据词性不同，重读的重要性差别，以及句子结构对目标句子进行不同程度的重读处理，使得目标合成语音更加符合听众的常规需求，更能传递不同语境的情绪和情感，更加生动，从而提升听众的体验感。因此，本申请实施例能够解决现有语音合成技术得到的语音生硬，不够生动，导致听众体验感较差的技术问题。

为了便于理解，请参阅图2，本申请提供了一种基于重音的语音合成装置的实施例，包括：

词性分类模块201，用于基于人工智能分词技术对目标句子进行词性分类处理，得到类别词性集，类别词性集的类别包括动词、名词和修饰词；

结构分析模块202，用于根据类别词性集确定目标句子的句子结构，句子结构包括主谓短语和述宾短语；

重读排序模块203，用于对预置重音词汇集进行重读的重要性排序，得到重读序列；

重读合成模块204，用于基于预置重读概率、重读序列、预置重读方式和句子结构对目标句子进行重读语音合成，得到目标合成语音，重读方式包括慢读和顿读。

进一步地，词性分类模块201，具体用于：

进一步地，重读排序模块203，具体用于：

进一步地，重读合成模块204，具体用于：

本申请还提供了一种基于重音的语音合成设备，设备包括处理器以及存储器；

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行上述方法实施例中的基于重音的语音合成方法。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行上述方法实施例中的基于重音的语音合成方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（英文全称：Read-OnlyMemory，英文缩写：ROM）、随机存取存储器（英文全称：Random Access Memory，英文缩写：RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于重音的语音合成方法，其特征在于，包括：

对预置重音词汇集进行重读的重要性排序，得到重读序列；

2.根据权利要求1所述的基于重音的语音合成方法，其特征在于，所述基于人工智能分词技术对目标句子进行词性分类处理，得到类别词性集，所述类别词性集的类别包括动词、名词和修饰词，包括：

3.根据权利要求1所述的基于重音的语音合成方法，其特征在于，所述对预置重音词汇集进行重读的重要性排序，得到重读序列，包括：

4.根据权利要求1所述的基于重音的语音合成方法，其特征在于，所述基于预置重读概率、所述重读序列、预置重读方式和所述句子结构对所述目标句子进行重读语音合成，得到目标合成语音，所述重读方式包括慢读和顿读，包括：

5.一种基于重音的语音合成装置，其特征在于，包括：

6.根据权利要求5所述的基于重音的语音合成装置，其特征在于，所述词性分类模块，具体用于：

7.根据权利要求5所述的基于重音的语音合成装置，其特征在于，所述重读排序模块，具体用于：

8.根据权利要求5所述的基于重音的语音合成装置，其特征在于，所述重读合成模块，具体用于：

9.一种基于重音的语音合成设备，其特征在于，所述设备包括处理器以及存储器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的基于重音的语音合成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的基于重音的语音合成方法。