CN112420017A - 语音合成方法及装置 - Google Patents
语音合成方法及装置 Download PDFInfo
- Publication number
- CN112420017A CN112420017A CN202011266074.1A CN202011266074A CN112420017A CN 112420017 A CN112420017 A CN 112420017A CN 202011266074 A CN202011266074 A CN 202011266074A CN 112420017 A CN112420017 A CN 112420017A
- Authority
- CN
- China
- Prior art keywords
- features
- determining
- processed
- acoustic
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 14
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 99
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 99
- 230000033764 rhythmic process Effects 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims description 65
- 238000000034 method Methods 0.000 claims description 33
- 230000011218 segmentation Effects 0.000 claims description 25
- 238000004891 communication Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 6
- 230000000737 periodic effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000011161 development Methods 0.000 description 7
- 230000018109 developmental process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种语音合成方法,本方法包括:接收来自用户终端的语音服务请求;确定与所述语音服务请求关联的待处理语料;确定针对所述待处理语料的文本特征,所述文本特征包括音素序列和音律特征;基于所述文本特征,确定针对所述待处理语料的声学特征;基于所述文本特征和所述声学特征,进行针对所述待处理语料的语音合成;将语音合成结果返回所述用户终端。本公开还提供了一种语音合成装置、一种电子设备及一种计算机可读存储介质。
Description
技术领域
本公开涉及人工智能领域,更具体地,涉及一种语音合成方法、一种语音合成装置、一种电子设备以及一种计算机可读存储介质。
背景技术
随着计算机技术的日益成熟,人工智能领域得以迅速发展,语音合成在人工智能领域中具有重要作用。随着人工智能技术的渗透,人们对语音合成服务的需求越来越高。
在实现本发明公开构思过程中,发明人发现由于不同平台的操作***和软件环境不同,需要针对不同平台设计对应的语音合成工具;并且,由于不同用户终端的硬件环境和配置参数不同,相同语音合成工具在不同用户终端中的运行性能可能不同。这一方面提高了语音合成工具的开发成本,另一方面影响了语音合成工具的使用性能。
发明内容
有鉴于此,本公开提供了一种开发成本低、通用性强、语音合成效果稳定的语音合成方法及装置。
本公开的一个方面提供了一种语音合成方法,应用于语音合成引擎,包括:接收来自用户终端的语音服务请求;确定与上述语音服务请求关联的待处理语料;确定针对上述待处理语料的文本特征,上述文本特征包括音素序列和音律特征;基于上述文本特征,确定针对上述待处理语料的声学特征;基于上述文本特征和上述声学特征,进行针对上述待处理语料的语音合成;将语音合成结果返回上述用户终端。
可选地,上述接收来自用户终端的语音服务请求,包括:通过预设通信链路接收上述语音服务请求,上述预设通信链路支持离线数据传输。
可选地,上述确定针对上述待处理语料的文本特征,包括:获得针对上述待处理语料的分词序列;确定与上述分词序列关联的音素序列;利用预设的音律结构模型,确定上述音素序列中的各音素的发音时长,以得到上述音律特征。
可选地,上述利用预设的音律结构模型,确定上述音素序列中的各音素的发音时长,以得到上述音律特征,包括:将上述音素序列输入上述音律结构模型,确定与上述音素序列关联的至少一个音律结构,其中,上述音律结构包括音律词结构、音律短语结构和语义短语结构中的至少之一;根据音律结构与停顿时长的预设关联关系,确定针对各上述音律结构的停顿时长;根据针对各上述音律结构的停顿时长,确定上述音素序列中的各音素的发音时长,以得到上述音律特征。
可选地,上述基于上述文本特征,确定针对上述待处理语料的声学特征,包括:根据上述音律特征指示的各音素的发音时长,将上述各音素转换为帧序列单元;利用预设的声学特征模型,确定与各上述帧序列单元关联的声学特征,以得到针对上述待处理语料的声学特征。
可选地,上述声学特征模型包括:基于通用样本数据训练得到的基础声学模型,和/或利用个性化样本数据对上述基础声学模型训练得到的个性化声学模型,其中,上述通用样本数据包括至少一个用户的语音和/或语料样本,上述个性化样本数据包括预设用户的语音和/或语料样本。
可选地,上述声学特征包括谱特征、基频特征、能量特征和非周期特征中的至少之一。
本公开的另一个方面提供了一种语音合成装置,包括接收模块,用于接收来自用户终端的语音服务请求;第一处理模块,用于确定与上述语音服务请求关联的待处理语料;第二处理模块,用于确定针对上述待处理语料的文本特征,上述文本特征包括音素序列和音律特征;第三处理模块,用于基于上述文本特征,确定针对上述待处理语料的声学特征;第四处理模块,用于基于上述文本特征和上述声学特征,进行针对上述待处理语料的语音合成;发送模块,用于将语音合成结果返回上述用户终端。
可选地,上述接收模块包括:接收子模块,用于通过预设通信链路接收上述语音服务请求,上述预设通信链路支持离线数据传输。
可选地,上述第二处理模块包括:第一处理子模块,用于获得针对上述待处理语料的分词序列;第二处理子模块,用于确定与上述分词序列关联的音素序列;第三处理子模块,用于利用预设的音律结构模型,确定上述音素序列中的各音素的发音时长,以得到上述音律特征。
可选地,上述第三处理子模块包括:第一处理单元,用于将上述音素序列输入上述音律结构模型,确定与上述音素序列关联的至少一个音律结构,其中,上述音律结构包括音律词结构、音律短语结构和语义短语结构中的至少之一;第二处理单元,用于根据音律结构与停顿时长的预设关联关系,确定针对各上述音律结构的停顿时长;第三处理单元,用于根据针对各上述音律结构的停顿时长,确定上述音素序列中的各音素的发音时长,以得到上述音律特征。
可选地,上述第三处理模块包括:第四处理子模块,用于根据上述音律特征指示的各音素的发音时长,将上述各音素转换为帧序列单元;第五处理子模块,用于利用预设的声学特征模型,确定与各上述帧序列单元关联的声学特征,以得到针对上述待处理语料的声学特征。
可选地,上述声学特征模型包括:基于通用样本数据训练得到的基础声学模型,和/或利用个性化样本数据对上述基础声学模型训练得到的个性化声学模型,其中,上述通用样本数据包括至少一个用户的语音和/或语料样本,上述个性化样本数据包括预设用户的语音和/或语料样本。
可选地,上述声学特征包括谱特征、基频特征、能量特征和非周期特征中的至少之一。
本公开的另一个方面提供了一种电子设备。上述电子设备包括至少一个处理器,以及与上述至少一个处理器通信连接的存储器。其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器实现本公开实施例的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,上述指令在被执行时用于实现本公开实施例的方法。
本公开的另一方面提供了一种计算机程序,计算机程序包括计算机可执行指令,上述指令在被执行时用于实现本公开实施例的方法。
通过本公开实施例,因为采用了接收来自用户终端的语音服务请求;确定与语音服务请求关联的待处理语料;确定针对待处理语料的文本特征,文本特征包括音素序列和音律特征;基于文本特征,确定针对待处理语料的声学特征;基于文本特征和声学特征,进行针对待处理语料的语音合成;将语音合成结果返回用户终端的技术方案,所以至少部分地克服了相关技术中存在的语音合成工具开发成本高、通用性差、语音合成效果不稳定的技术问题,进而达到了有效降低语音合成工具的开发成本、有效改善语音合成工具的使用性能的技术效果。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本公开实施例的语音合成***架构;
图2示意性示出了根据本公开实施例的一种语音合成方法的流程图;
图3示意性示出了根据本公开实施例的语音合成方法的应用示意图;
图4示意性示出了根据本公开实施例的语音合成过程的整体示意图;
图5示意性示出了根据本公开实施例的确定文本特征方法的流程图;
图6示意性示出了根据本公开实施例的语音合成装置的框图;
图7示意性示出了根据本公开实施例的适于实现语音合成方法和装置的电子设备的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性地,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、操步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。
本公开的各个实施例提供了一种语音合成方法以及能够应用该方法的语音合成装置。其中,该方法可以包括首先接收来自用户终端的语音服务请求,然后确定与语音服务请求关联的待处理语料,和确定针对待处理语料的文本特征,文本特征包括音素序列和音律特征;之后基于文本特征,确定针对待处理语料的声学特征,和基于文本特征和声学特征,进行针对待处理语料的语音合成,最后将语音合成结果返回用户终端。
如图1所示,该***架构100包括至少一个用户终端(图中示出了多个,如用户终端101、102、103)和语音合成引擎104。在该***架构100中,语音合成引擎104接收来自用户终端(如用户终端101、102、103)的语音服务请求,语音合成引擎104确定与语音服务请求关联的待处理语料,和确定针对待处理语料的文本特征,文本特征包括音素序列和音律特征;然后基于文本特征,确定针对待处理语料的声学特征,和基于文本特征和声学特征,进行针对待处理语料的语音合成,最后将语音合成结果返回用户终端(如用户终端101、102、103)。
以下将结合附图和具体实施例详细阐述本公开。
图2示意性示出了根据本公开实施例的一种语音合成方法的流程图,本方法应用于语音合成引擎。
如图2所示,该方法例如可以包括操作S210~S260。
在操作S210,接收来自用户终端的语音服务请求。
在本公开实施例中,具体地,语音合成引擎接收来自用户终端的语音服务请求,具体地,语音合成引擎可接收来自不同操作***中用户终端的语音服务请求,不同操作***例如可以包括Andriod、IOS、Ubuntu、Linux、Windows、Generic Linux等。此外,语音合成引擎还可接收来自不同软件环境、不同硬件环境、不同配置条件下用户终端的语音服务请求。不同软件环境中的编程语言和编程接口参数可能不同,不同硬件环境中的CPU/GPU计算能力、内存大小等参数可能不同。值得注意的是,本方案中的“用户”可以包括具有语音合成需要的任何对象。
语音合成引擎通过预设通信链路接收语音服务请求,预设通信链路支持离线数据传输。具体地,语音合成引擎通过向不同操作***、不同软硬件环境、不同配置条件的应用程序授权应用程序接口,实现通过应用程序接口获取来自用户终端的语音服务请求,以此实现基于前端调用、后端合成的离线语音合成功能。示例性地,语音合成引擎向用户终端开放Objective-C API(Application Programming Interface,应用程序接口),和通过Objective-C API获取来自用户终端的语音服务请求,Objective-C API支持离线数据传输,其中,Objective-C为一种在C语言基础上加入面向对象特性扩充而成的编程语言。
该种设计不仅有利于提升语音合成引擎的通用程度,还有利于降低语音合成引擎的开发成本。由于预设通信链路支持离线数据传输,这能够有效满足无网络环境或弱网络环境中用户的语音合成需要。
图3示意性示出了根据本公开实施例的语音合成方法的应用示意图,如图3所示,不同用户通过用户终端发起语音服务请求,与用户终端关联的业务服务器通过交互接口与语音合成引擎进行数据交互,具体地,语音合成引擎从业务服务器中获取与语音服务请求关联的待处理语料,通过确定针对待处理语料的文本特征和声学特征,和基于文本特征和声学特征进行语音合成,得到合成语音,并将合成语音通过业务服务器返回用户终端,以此实现为不同用户终端的用户提供语音合成服务。其中,交互接口具体可以是基于C/C++的应用程序接口。
接下来,在操作S220,确定与语音服务请求关联的待处理语料。
在本公开实施例中,具体地,确定与语音服务请求关联的待处理语料,具体可以是用户终端中需要进行语音合成的待处理语料,例如可以是有声应用的待播读语料(有声应用例如可以包括听书软件、导航软件、视频软件等),或者可以是交互应用的待播报语料(交互应用例如可以包括游戏软件、学习软件等),或者可以是智能交互设备的待交互语料(智能交互设备例如可以包括智能音响、车载设备、可穿戴设备、个人数字助理、销售终端、智能机器人等),或者还可以是公共服务设备的待通报语料(公共服务设备例如可以包括公共交通工具、共享单车)等。
接下来,在操作S230,确定针对待处理语料的文本特征,文本特征包括音素序列和音律特征。
在本公开实施例中,具体地,在获得与语音服务请求关联的待处理语料后,对待处理语料进行分词处理,得到针对待处理语料的分词序列。具体可利用现有的分词工具,将待处理语料分割为若干个分词片段,分词片段按序排列构成分词序列,分词工具例如可以包括SnowNLP、NLPIR、THULAC等。示意性地,针对待处理语料“距发布会还有十五分钟”,分词结果包括“距”(介词)、“发布会”(名词)、“还”(副词)、“有”(动词)、“十五”(数词)、“分钟”(量词)。
可选地,在对待处理语料进行分词处理前,还可进行针对待处理语料的例如文本替换、文本归一化的预处理,通过将待处理语料中的非标准文本转换成标准文本,这有利于提升后续分词处理的准确度。
在得到针对待处理语料的分词序列后,进行基于分词序列的G2P(Grapheme toPhoneme,字素到音素)推理,得到与分词序列关联的音素序列。音素是根据语音的自然属性划分出来的最小语音单位,根据音节里的发音动作分析,一个发音动作构成一个音素,音素分为元音、辅音两大类。例如对于“发”字,该字包括/f/(辅音)和/a:/(元音)两个音素。
确定与分词序列中的各字素关联的音素,得到针对待处理语料的音素序列,例如针对待处理语料“大家好”,针对待处理语料的音素序列为“S_d_a_4_SP0_j_ia_1_SP1_h_ao_3_E”,其中,S为开始标记,E为句尾标记,数字4、1、3分别为音调标记,SP0、SP1为停顿标记,不同音素之间通过空格“_”分隔。在确定出音素序列后,利用预设的音律结构模型,确定音素序列中的各音素的发音时长、发音轻重等信息,得到针对待处理语料的音律特征。
接下来,在操作S240,基于文本特征,确定针对待处理语料的声学特征。
在本公开实施例中,具体地,声学特征例如可以包括谱特征、基频特征、能量特征和非周期特征中的至少之一。谱特征可用于指示声道形状变化与发声运动之间的相关性,谱特征例如可以包括线性预测倒谱系数、Mel频率倒谱系数等。基频包含大量能够表征语音情感的特征,在语音感情识别中具有重要作用。基频特征包括基音周期,基音周期为声带振动周期,其用于指示人发出浊音时,气流通过声道使其声带振动的周期。能量特征具体可以包括强度特征或音量特征,其用于指示声音大小。非周期特征例如可以包括语速特征、情感强度、韵律特征等,韵律特征例如可以包括用于表征语调、音调、重音强调、停顿、节奏等信息的特征。
基于与待处理语料关联的音素序列和音律特征,确定针对待处理语料的声学特征,具体可以根据音律特征指示的各音素的发音时长,将各音素扩展为一个帧序列单元,得到与待处理语料关联的帧序列。帧序列单元包含的帧数与音素的发音时长一致,帧序列单元中的每一帧具有对应的声学特征。音素的发音时长由音素的开始时间和结束时间决定,其可由操作S230中的音律结构模型输出得到。
在利用预设的声学特征模型,确定与帧序列单元关联的声学特征时,具体确定与帧序列单元中的每一帧关联的声学特征。声学特征模型为预先训练好的神经网络模型,声学特征模型的输入为各帧序列单元中的每个帧的帧特征,输出为针对各帧序列单元中每个的帧的声学特征。任一帧的帧特征对应于与该帧关联的音素的音素特征,音素特征例如可以包括声调特征、韵律特征、在字典中的位置等信息。除此之外,帧特征还包括当前帧在帧序列单元的位置索引、当前帧在对应音素序列中的位置索引等。
声学特征模型可以是基于通用样本数据训练得到的基础声学模型,也可以是利用个性化样本数据对基础声学模型训练得到的个性化声学模型,其中,通用样本数据包括至少一个用户的语音和/或语料样本,个性化样本数据包括预设用户的语音和/或语料样本。基础声学模型是以数量较大、多个不同说话人或者多种不同说话风格的语音和/或语料样本作为样本数据训练得到的。个性化声学模型是在基础声学模型的基础上,利用目标人的语音和/或语料样本作为样本数据训练得到的。个性化声学模型能够较好地满足语音合成功能的个性化需求,能够为用户提供具有选择性的差异化配置,有利于提高语音合成功能的风格多样性,和有利于改善语音合成引擎的通用程度。
接下来,在操作S250,基于文本特征和声学特征,进行针对待处理语料的语音合成。
在本公开实施例中,具体地,在得到帧序列中各个帧的声学特征后,基于与待处理语料关联的文本特征和声学特征,进行针对待处理语料的语音合成。语音合成方法可采用现有技术实现,本申请在此不做赘述。
接下来,在操作S260,将语音合成结果返回用户终端。
在本公开实施例中,具体地,将语音合成结果通过预设通信链路,例如通过语音合成引擎向用户终端开放的应用程序接口,将语音合成结果返回用户终端,这有效实现了基于不同边缘计算设备、不同操作***、不同软硬件环境和不同配置环境,提供统一的语音合成服务,语音合成工具不仅具有通用性强的优势,并且还能针对不同用户及不同边缘计算设备提供差异化的语音合成功能。同时,该种设计还有利于保障语音合成引擎性能的稳定性,能够有效实现输出质量稳定、合成效果良好的合成语音。
图4示意性示出了根据本公开实施例的语音合成过程的整体示意图,如图4所示,由通用样本数据训练得到基础声学模型,由个性化样本数据对基础声学模型进行训练得到个性化声学模型。在获得与语音服务请求关联的待处理语料后,利用音律结构模型确定针对待处理语料的文本特征,利用个性化声学模型基于确定出的文本特征,确定针对待处理语料的声学特征。然后,基于针对待处理语料的文本特征和声学特征进行语音合成,得到合成语音的音频文件,并将音频文件返回用户终端。
在本公开实施例中,通过接收来自用户终端的语音服务请求;确定与语音服务请求关联的待处理语料;确定针对待处理语料的文本特征,文本特征包括音素序列和音律特征和/或音律特征;基于文本特征,确定针对待处理语料的声学特征;基于文本特征和声学特征,进行针对待处理语料的语音合成;将语音合成结果返回用户终端。由于语音合成引擎并非集成于用户终端或用户终端的操作***中,语音合成引擎通过接收来自用户终端的语音服务请求,并进行针对语音服务请求的语音合成处理,然后将语音合成结果返回给用户终端,该种设计使得语音合成引擎能够满足不同操作***、不同软硬件环境、不同配置条件下的语音合成需求,除能够有效提升语音合成引擎的通用程度,和降低语音合成引擎的开发成本外,还能够有效保证语音合成效果的稳定性。
图5示意性示出了根据本公开实施例的确定文本特征方法的流程图。
如图5所示,操作S230例如可以包括操作S510~S520。
在操作S510,确定与待处理语料关联的音素序列。
在本公开实施例中,具体地,确定与待处理语料关联的音素序列,包括:获取针对待处理语料的分词序列,和确定与分词序列关联的音素序列,具体请见操作S230描述,在此不做赘述。
接下来,在操作S520,利用预设的音律结构模型,确定音素序列中的各音素的发音时长,以得到音律特征。
在本公开实施例中,具体地,将音素序列输入音律结构模型,确定与音素序列关联的至少一个音律结构,其中,音律结构包括音律词结构、音律短语结构和语义短语结构中的至少之一,然后根据音律结构与停顿时长的预设关联关系,确定针对各音律结构的停顿时长,最后根据针对各音律结构的停顿时长,确定音素序列中的各音素的发音时长和发音轻重,以得到音律特征。
利用预设的音律结构模型确定音素序列的层级结构,层级结构一般包括音律词、音律短语结构和语义短语结构。示例性地,对于待处理语料“距发布会开始还有十五分钟,我们出发吧”,分词片段“距”“发布会”“开始”“还有”等各被标注为音律词,假设相邻音律词之间的停顿为T1;“距发布会开始”“还有十五分钟”被标注为一个音律短语,假设相邻音律短语之间的停顿为T2;“距发布会开始还有十五分钟”“我们出发吧”被分别标注为一个语义短语,假设相邻语义短语之间的停顿为T3。被标注为同一音律词的不同字素之间不停顿,相同层级的不同音律结构之间的停顿时长不同,其中,相邻音律词之间的停顿时长最短,相邻音律短语之间的停顿时长居中,相邻语义短语之间的停顿时长最长,因此,T1<T2<T3。
在确定出针对各音律结构的停顿时长后,确定音素序列中的各音素的开始时间和结束时间,进而确定出各音素的发音时长,得到针对待处理语料的音律特征。同时,也可根据分词片段对应的词性,利用音律结构模型确定音素序列中需要重读和轻读的音素,得到针对待处理语料的音律特征,其中,音律结构模型是利用大量具有标注结果的语料样本训练得到的。
图6示意性示出了根据本公开实施例的语音合成装置的框图。
如图6所示,该装置可以包括获取模块601、第一处理模块601、第二处理模块603、第三处理模块604、第四处理模块605和发送模块606。
具体地,接收模块601,用于接收来自用户终端的语音服务请求;第一处理模块602,用于确定与语音服务请求关联的待处理语料;第二处理模块603,用于确定针对待处理语料的文本特征,文本特征包括音素序列和/或音律特征;第三处理模块604,用于基于文本特征,确定针对待处理语料的声学特征;第四处理模块605,用于基于文本特征和声学特征,进行针对待处理语料的语音合成;发送模块606,用于将语音合成结果返回用户终端。
在本公开实施例中,通过接收来自用户终端的语音服务请求;确定与语音服务请求关联的待处理语料;确定针对待处理语料的文本特征,文本特征包括音素序列和音律特征和/或音律特征;基于文本特征,确定针对待处理语料的声学特征;基于文本特征和声学特征,进行针对待处理语料的语音合成;将语音合成结果返回用户终端。由于语音合成引擎并非集成于用户终端或用户终端的操作***中,语音合成引擎通过接收来自用户终端的语音服务请求,并进行针对语音服务请求的语音合成处理,然后将语音合成结果返回给用户终端,该种设计使得语音合成引擎能够满足不同操作***、不同软硬件环境、不同配置条件下的语音合成需求,除能够有效提升语音合成引擎的通用程度,和降低语音合成引擎的开发成本外,还能够有效保证语音合成效果的稳定性。
作为一种可选的实施例,接收模块包括:接收子模块,用于通过预设通信链路接收语音服务请求,预设通信链路支持离线数据传输。
作为一种可选的实施例,第二处理模块包括:第一处理子模块,用于获得针对待处理语料的分词序列;第二处理子模块,用于确定与分词序列关联的音素序列;第三处理子模块,用于利用预设的音律结构模型,确定音素序列中的各音素的发音时长,以得到音律特征。
作为一种可选的实施例,第三处理子模块包括:第一处理单元,用于将音素序列输入音律结构模型,确定与音素序列关联的至少一个音律结构,其中,音律结构包括音律词结构、音律短语结构和语义短语结构中的至少之一;第二处理单元,用于根据音律结构与停顿时长的预设关联关系,确定针对各音律结构的停顿时长;第三处理单元,用于根据针对各音律结构的停顿时长,确定音素序列中的各音素的发音时长,以得到音律特征。
作为一种可选的实施例,第三处理模块包括:第四处理子模块,用于根据音律特征指示的各音素的发音时长,将各音素转换为帧序列单元;第五处理子模块,用于利用预设的声学特征模型,确定与各帧序列单元关联的声学特征,以得到针对待处理语料的声学特征。
作为一种可选的实施例,声学特征模型包括:基于通用样本数据训练得到的基础声学模型,和/或利用个性化样本数据对基础声学模型训练得到的个性化声学模型,其中,通用样本数据包括至少一个用户的语音和/或语料样本,个性化样本数据包括预设用户的语音和/或语料样本。
作为一种可选的实施例,声学特征包括谱特征、基频特征、能量特征和非周期特征中的至少之一。
可选地,获取模块601、第一处理模块601、第二处理模块603、第三处理模块604、第四处理模块605和发送模块606中的模块、子模块中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者根据本公开实施例的模块中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,获取模块601、第一处理模块601、第二处理模块603、第三处理模块604、第四处理模块605和发送模块606中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。可选地,获取模块601、第一处理模块601、第二处理模块603、第三处理模块604、第四处理模块605和发送模块606中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块601、第一处理模块601、第二处理模块603、第三处理模块604、第四处理模块605和发送模块606中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图7示意性示出了根据本公开实施例的适于实现语音合成方法和装置的电子设备的框图。图7示出的计算机***仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,根据本公开实施例的计算机***700包括处理器701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 703中,存储有***700操作所需的各种程序和数据。处理器701、ROM 702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
可选地,***700还可以包括输入/输出(I/O)接口705,输入/输出(I/O)接口705也连接至总线704。***700还可以包括连接至I/O接口705的以下部件中的一项或多项:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口706。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
可选地,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时,执行本公开实施例的***中限定的上述功能。可选地,上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的;也可以是单独存在,而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
可选地,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。例如,可选地,计算机可读存储介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (10)
1.一种语音合成方法,应用于语音合成引擎,包括:
接收来自用户终端的语音服务请求;
确定与所述语音服务请求关联的待处理语料;
确定针对所述待处理语料的文本特征,所述文本特征包括音素序列和音律特征;
基于所述文本特征,确定针对所述待处理语料的声学特征;
基于所述文本特征和所述声学特征,进行针对所述待处理语料的语音合成;
将语音合成结果返回所述用户终端。
2.根据权利要求1所述的方法,其中,所述接收来自用户终端的语音服务请求,包括:
通过预设通信链路接收所述语音服务请求,所述预设通信链路支持离线数据传输。
3.根据权利要求1所述的方法,其中,所述确定针对所述待处理语料的文本特征,包括:
获得针对所述待处理语料的分词序列;
确定与所述分词序列关联的音素序列;
利用预设的音律结构模型,确定所述音素序列中的各音素的发音时长,以得到所述音律特征。
4.根据权利要求3所述的方法,其中,所述利用预设的音律结构模型,确定所述音素序列中的各音素的发音时长,以得到所述音律特征,包括:
将所述音素序列输入所述音律结构模型,确定与所述音素序列关联的至少一个音律结构,其中,所述音律结构包括音律词结构、音律短语结构和语义短语结构中的至少之一;
根据音律结构与停顿时长的预设关联关系,确定针对各所述音律结构的停顿时长;
根据针对各所述音律结构的停顿时长,确定所述音素序列中的各音素的发音时长,以得到所述音律特征。
5.根据权利要求3所述的方法,其中,所述基于所述文本特征,确定针对所述待处理语料的声学特征,包括:
根据所述音律特征指示的各音素的发音时长,将所述各音素转换为帧序列单元;
利用预设的声学特征模型,确定与各所述帧序列单元关联的声学特征,以得到针对所述待处理语料的声学特征。
6.根据权利要求5所述的方法,其中,所述声学特征模型包括:
基于通用样本数据训练得到的基础声学模型,和/或利用个性化样本数据对所述基础声学模型训练得到的个性化声学模型,
其中,所述通用样本数据包括至少一个用户的语音和/或语料样本,所述个性化样本数据包括预设用户的语音和/或语料样本。
7.根据权利要求5所述的方法,其中,所述声学特征包括谱特征、基频特征、能量特征和非周期特征中的至少之一。
8.一种语音合成装置,包括:
接收模块,用于接收来自用户终端的语音服务请求;
第一处理模块,用于确定与所述语音服务请求关联的待处理语料;
第二处理模块,用于确定针对所述待处理语料的文本特征,所述文本特征包括音素序列和音律特征;
第三处理模块,用于基于所述文本特征,确定针对所述待处理语料的声学特征;
第四处理模块,用于基于所述文本特征和所述声学特征,进行针对所述待处理语料的语音合成;
发送模块,用于将语音合成结果返回所述用户终端。
9.一种电子设备,包括:
一个或多个处理器;以及
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011266074.1A CN112420017A (zh) | 2020-11-13 | 2020-11-13 | 语音合成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011266074.1A CN112420017A (zh) | 2020-11-13 | 2020-11-13 | 语音合成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112420017A true CN112420017A (zh) | 2021-02-26 |
Family
ID=74832216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011266074.1A Pending CN112420017A (zh) | 2020-11-13 | 2020-11-13 | 语音合成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112420017A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113178187A (zh) * | 2021-04-26 | 2021-07-27 | 北京有竹居网络技术有限公司 | 一种语音处理方法、装置、设备及介质、程序产品 |
CN113555003A (zh) * | 2021-07-23 | 2021-10-26 | 平安科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN114613353A (zh) * | 2022-03-25 | 2022-06-10 | 马上消费金融股份有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016065900A (ja) * | 2014-09-22 | 2016-04-28 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
US20180254034A1 (en) * | 2015-10-20 | 2018-09-06 | Baidu Online Network Technology (Beijing) Co., Ltd | Training method for multiple personalized acoustic models, and voice synthesis method and device |
CN108597492A (zh) * | 2018-05-02 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN110136692A (zh) * | 2019-04-30 | 2019-08-16 | 北京小米移动软件有限公司 | 语音合成方法、装置、设备及存储介质 |
CN110264993A (zh) * | 2019-06-27 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN110797006A (zh) * | 2020-01-06 | 2020-02-14 | 北京海天瑞声科技股份有限公司 | 端到端的语音合成方法、装置及存储介质 |
CN111369971A (zh) * | 2020-03-11 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
US10706837B1 (en) * | 2018-06-13 | 2020-07-07 | Amazon Technologies, Inc. | Text-to-speech (TTS) processing |
CN111599339A (zh) * | 2020-05-19 | 2020-08-28 | 苏州奇梦者网络科技有限公司 | 具有高自然度的语音拼接合成方法、***、设备及介质 |
CN111754978A (zh) * | 2020-06-15 | 2020-10-09 | 北京百度网讯科技有限公司 | 韵律层级标注方法、装置、设备和存储介质 |
-
2020
- 2020-11-13 CN CN202011266074.1A patent/CN112420017A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016065900A (ja) * | 2014-09-22 | 2016-04-28 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
US20180254034A1 (en) * | 2015-10-20 | 2018-09-06 | Baidu Online Network Technology (Beijing) Co., Ltd | Training method for multiple personalized acoustic models, and voice synthesis method and device |
CN108597492A (zh) * | 2018-05-02 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
US10706837B1 (en) * | 2018-06-13 | 2020-07-07 | Amazon Technologies, Inc. | Text-to-speech (TTS) processing |
CN110136692A (zh) * | 2019-04-30 | 2019-08-16 | 北京小米移动软件有限公司 | 语音合成方法、装置、设备及存储介质 |
CN110264993A (zh) * | 2019-06-27 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN110797006A (zh) * | 2020-01-06 | 2020-02-14 | 北京海天瑞声科技股份有限公司 | 端到端的语音合成方法、装置及存储介质 |
CN111369971A (zh) * | 2020-03-11 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN111599339A (zh) * | 2020-05-19 | 2020-08-28 | 苏州奇梦者网络科技有限公司 | 具有高自然度的语音拼接合成方法、***、设备及介质 |
CN111754978A (zh) * | 2020-06-15 | 2020-10-09 | 北京百度网讯科技有限公司 | 韵律层级标注方法、装置、设备和存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113178187A (zh) * | 2021-04-26 | 2021-07-27 | 北京有竹居网络技术有限公司 | 一种语音处理方法、装置、设备及介质、程序产品 |
CN113555003A (zh) * | 2021-07-23 | 2021-10-26 | 平安科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN113555003B (zh) * | 2021-07-23 | 2024-05-28 | 平安科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN114613353A (zh) * | 2022-03-25 | 2022-06-10 | 马上消费金融股份有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN114613353B (zh) * | 2022-03-25 | 2023-08-08 | 马上消费金融股份有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10614802B2 (en) | Method and device for recognizing speech based on Chinese-English mixed dictionary | |
US11450313B2 (en) | Determining phonetic relationships | |
US10163436B1 (en) | Training a speech processing system using spoken utterances | |
US11881210B2 (en) | Speech synthesis prosody using a BERT model | |
US9761219B2 (en) | System and method for distributed text-to-speech synthesis and intelligibility | |
CN112420017A (zh) | 语音合成方法及装置 | |
KR19980701676A (ko) | 음조 언어(tonal language) 인식을 위해 콘텍스트 의존형(context dependent) 부음절(sub-syllable) 모델을 생성하고 사용하기 위한 시스템 및 방법 | |
Ma et al. | Incremental text-to-speech synthesis with prefix-to-prefix framework | |
US11830474B2 (en) | Predicting parametric vocoder parameters from prosodic features | |
US11289068B2 (en) | Method, device, and computer-readable storage medium for speech synthesis in parallel | |
CN110930975A (zh) | 用于输出信息的方法和装置 | |
WO2023035261A1 (en) | An end-to-end neural system for multi-speaker and multi-lingual speech synthesis | |
Hamad et al. | Arabic text-to-speech synthesizer | |
Sitaram et al. | Text to speech in new languages without a standardized orthography | |
KR102626618B1 (ko) | 감정 추정 기반의 감정 음성 합성 방법 및 시스템 | |
Mullah | A comparative study of different text-to-speech synthesis techniques | |
WO2023197206A1 (en) | Personalized and dynamic text to speech voice cloning using incompletely trained text to speech models | |
Maia et al. | An HMM-based Brazilian Portuguese speech synthesizer and its characteristics | |
Lobanov et al. | Development of multi-voice and multi-language TTS synthesizer (languages: Belarussian, Polish, Russian) | |
Iyanda et al. | Development of a Yorúbà Textto-Speech System Using Festival | |
Yeh et al. | A consistency analysis on an acoustic module for Mandarin text-to-speech | |
US20240071368A1 (en) | System and Method for Adapting Natural Language Understanding (NLU) Engines Optimized on Text to Audio Input | |
Louw | Neural speech synthesis for resource-scarce languages | |
US20230018384A1 (en) | Two-Level Text-To-Speech Systems Using Synthetic Training Data | |
Pleva et al. | Speech applications for human-robot interaction systems. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |