CN103403797A

CN103403797A - 语音合成装置以及语音合成方法

Info

Publication number: CN103403797A
Application number: CN2012800106378A
Authority: CN
Inventors: 广濑良文; 釜井孝浩
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2011-08-01
Filing date: 2012-07-12
Publication date: 2013-11-20
Also published as: US20130262120A1; WO2013018294A1; JP5148026B1; JPWO2013018294A1; US9147392B2

Abstract

语音合成装置具备：开口度生成部（102），利用表示根据输入的文本生成的音素的种类和该音素在文本中的位置的信息，按根据文本生成的每个音素，以在文本中位于句首的音素的开口度大于位于句末的音素的开口度的方式，生成与口腔内的容积对应的开口度；片段选择部（105），根据存储着各自包含音素的种类、开口度的信息以及语音片段数据的多个片段信息的片段存储部，按根据文本生成的每个音素，基于该音素的种类以及开口度，从存储于片段存储部的多个片段信息之中选择与该音素对应的片段信息；以及合成部（106），利用片段选择部（105）所选择的片段信息以及根据文本生成的韵律信息，生成文本的合成音。

Description

语音合成装置以及语音合成方法

技术领域

本发明涉及能够生成自然的合成语音的语音合成装置及其方法。

背景技术

最近，由于语音合成技术的发达，能够制成非常高音质的合成音。作为真声感高的语音合成装置，存在从大规模的片段存储部选择语音波形并连接的波形连接方式的语音合成装置（例如，参照专利文献1）。图17为波形连接型的语音合成装置的典型的构成图。

图17所示的语音合成装置包括语言解析部501、韵律生成部502、语音片段DB（数据库）503、片段选择部504、以及波形连接部505。

语言解析部501语言性地解析输入的文本，输出发音记号以及重音信息。韵律生成部502基于由语言解析部501输出的发音记号以及重音信息，针对每个发音记号生成基频、持续时间长度、功率等的韵律信息。语音片段DB503为片段存储部，存储作为事先收录的语音片段数据（以下，仅称为“语音片段”）的语音波形。片段选择部504基于由韵律生成部502生成的韵律信息，从语音片段DB503选择最佳的语音片段。波形连接部505通过连接由片段选择部504选择的语音片段，生成合成音。

在先技术文献

专利文献

专利文献1：日本特开平10-247097号公报

专利文献2：日本特开2004-125843号公报

非专利文献

非专利文献1：北村达也等，「母音発声時の声道断面積関数の個人差について（关于母音发音时的声道截面积函数的个人差异）」，日本音响学会2004年春季研究发表会演讲论文集-I-，社团法人日本音响学会，2004年3月

非专利文献2：杨长盛等，「声道形状の違いがフオルマソト周波数の非一様性に及ぼす影響（声道形状的差异对共振峰频率的非一致性造成的影响）」、日本音响学会研究发表会议演讲论文集春I，1996年

发明的概要

发明要解决的问题

专利文献1的语音合成装置通过基于针对输入的文本的音素环境以及韵律信息，选择存储于片段存储部的语音片段，连接选择的语音片段，据此合成语音。

可是，只通过上述的音素环境以及韵律信息决定合成语音所应保有的声质是困难的。

本申请发明人们发现如下问题点，即若发声形态的时间变化异于输入语音的时间变化，则无法保持合成语音中的发声形态的变化的自然性，其结果是，合成音的自然性大为劣化。

发明内容

本发明便是鉴于上述问题点而提出的，其目的在于提供一种语音合成装置，保持自然产生被输入的文本时的语音所保有的发声形态的时间性变动并且合成语音，据此降低语音合成时的自然性的劣化。

用于解决问题的手段

本发明的某一方面所涉及的语音合成装置为生成输入的文本的合成音的语音合成装置，包括：开口度生成部，利用表示根据所述文本生成的音素的种类与该音素在所述文本中的位置的信息，按根据所述文本生成的每个音素，以在所述文本中位于句首的音素的开口度大于位于句末的音素的开口度的方式，生成与口腔内的容积对应的开口度；片段选择部，从存储有各自包含音素的种类、开口度的信息以及语音片段数据的多个片段信息的片段存储部，按根据所述文本生成的每个音素，基于该音素的种类以及开口度，从存储于所述片段存储部的所述多个片段信息之中，选择与该音素对应的片段信息；以及合成部，利用所述片段选择部所选择的所述片段信息与根据所述文本生成的韵律信息，生成所述文本的合成音。

另外，这些整体性或者具体性的形态通过***、方法、集成电路、计算机程序或者计算机可读取的CD-ROM等记录介质来实现亦可，通过***、方法、集成电路、计算机程序以及记录介质的任意组合来实现亦可。

发明效果

本发明保持自然产生被输入的文本时的语音所保有的发声形态的时间性变动并且合成语音，由此能够合成降低了语音合成时自然性的劣化的语音。

附图说明

图1为表示人类的发声机构的图。

图2为表示因发声形态的差异而致的声道传递特性的差异的图。

图3为表示发声形态的时间性变动的概念图。

图4为表示因发声形态的差异而致的共振峰频率的差异的一例的图。

图5为表示因发声形态的差异而致的声道截面积函数的差异的图。

图6为本发明的实施方式1的语音合成装置的构成图。

图7为用于说明韵律信息的生成方法的图。

图8为表示声道截面积函数的例子的图。

图9为表示发声内的开口度的时间模式（pattern）的图。

图10为表示用作解释变量的控制因素与其类别的例子的图。

图11为表示存储于片段存储部的片段信息的例子的图。

图12为表示本发明的实施方式1的语音合成装置的动作的流程图。

图13为本发明的实施方式1的变形例1所涉及的语音合成装置的构成图。

图14为本发明的实施方式1的变形例2所涉及的语音合成装置的构成图。

图15为表示本发明的实施方式1的变形例2所涉及的语音合成装置的动作的流程图。

图16为具备本发明所必需的构成要素的语音合成装置的构成图。

图17为以往的语音合成装置的构成图。

具体实施方式

（成为本发明的基础的见解）

自然的发声下的声质受到包括语音的说话速度、说话中的语音的位置、或者重音词组内的位置在内的各种各样的因素的影响。例如，在自然的说话中，存在句首清楚且明确度高地发声，而在句末发生了发音的怠惰，明确度降低的倾向。进而言之，在说话中，存在如下倾向，即在强调某一单词时，该单词的声质与未强调时相比较，明确度变高。

图1表示人类的声带以及声道。以下，说明人类的语音的生成原理。说明人类的语音的生成过程。通过图1所示的声带1601的振动生成的音源波形通过由声门1602至嘴唇1603构成的声道1604。在通过声道1604时，由于受到由舌等调音器官引起的狭窄等的影响而被生成。分析合成型语音合成法基于如此的语音的生成原理分析人类的语音。具体而言，通过将语音分离为声道信息与音源信息，取得声道信息以及音源信息。例如，作为语音的分析方法使用称为“声道音源模型”的模型。在声道音源模型的分析中，基于语音的生成过程，将人类的语音分离为音源信息与声道信息。

在图2中，示出了由上述声道音源模型鉴定而得的声道传递特性。图2的横轴表示频率，纵轴表示频谱强度。图2示出了分析由同一说话人所发声的语音且紧前的音素相同的音素而得的结果的声道传递特性。将作为对象的音素的紧前的音素称为“在先音素”。

图2所示的曲线201表示发声为“めまいがします（/memaigashimasxu/）”时的“めまい（memai）”的/ma/的/a/所具有的声道传递特性。曲线202表示发声为“お湯が出ません（/oyugademaseN/）”时的/ma/的/a/所具有的声道传递特性。在图2中，上方向的峰值表示共振频率的共振峰。如图2所示，可知的是，共振峰的位置（频率）以及频谱强度即使在具有相同的在先音素的元音之间相比较，也存在较大不同。

曲线201接近句首，且为内容词（content word，实词）。另一方面，曲线202接近句末，且为功能词（function word，虚词）。在此，所谓“功能词”是指具有语法上的作用的词，在英语中，包括前置词（preposition）、连接词（conjunction）、冠词（article）、助动词（adverb）等。另外，所谓“内容词”是指之外的具有普遍的意思的词，在英语中，包括名词（noun）、形容词（adjective）、动词（verb）、副词（adverb）等。另外，即使在听感上，具有由曲线201表示的声道传递特性的元音/a/听起来更明确。如此，在自然的说话中，根据句子内的音素的位置，发声音素的方法不同。人类按照“清楚发声，明确的语音”或者“怠惰地发声，不明确的语音”的方式，有意识或者无意识地改变发声的方法。在本说明书中，将如此的发声方法的差异称为“发声形态”。发声形态因不仅受到音素在句子内的位置的影响，还受到其他各种各样的语言上以及生理上的影响而变动。将音素在句子内的位置称为“音素环境”。如以上，即使音素环境相同，若发声形态不同则声道传递特性也不同。即，应选择的语音片段不同。

专利文献1的语音合成装置并未考虑上述的发声形态的变动，便利用音素环境以及韵律信息选择语音片段，并利用选择的语音片段，进行语音合成。合成而得的语音的发声形态不同于自然地发声而得的语音所具有的发声形态。其结果是，合成音中的发声形态的时间变化不同于自然语音的时间变化。因此，合成音相对于人类的通常的说话变成非常不自然的语音。

在图3中，示出了发声形态的时间变化。图3（a）表示自然地发声为“めまいがします（/memaigashimasxu/）”时的发声形态的时间变化。在自然地发声而得的语音中，存在句首清楚且明确度高地发声的倾向，存在在接近句末时变得怠惰的发声的倾向。在图3中，以X表示的音素为清楚的发声，并且，明确度高。以Y表示的音素为怠惰的发声，并且，明确度低。即，在该例子中，句子的前半部分由于X的音素多而为明确度高的发声形态。句子的后半部分由于Y的音素多而表示明确度低的发声形态。

另一方面，图3（b）表示按照以往的选择基准选择语音片段时的合成音所具有的发声形态的时间变化。在以往的选择基准中，通过音素环境或者韵律信息等选择语音片段。因此，发声形态不受输入的选择基准的制约地变动。

例如，如图3（b）所示，可认为是，以X表示的清楚且明确地发声而得的音素与以Y表示的怠惰地发声而得的音素交替出现。

如此地，具有在自然的发声中不会发生的发声形态的时间变化的合成音的自然性大为劣化。

图4表示针对发声为“お湯が出ません（/oyugademaseN/）”而得的语音，利用清楚且明确度高地发声时的/a/来合成语音的情况下的共振峰401的变动的一例。

图4的横轴表示时刻，纵轴表示共振峰频率。从频率低的位置起依次表示第1、第2、第3共振峰。可知的是，在/ma/中，利用其他发声形态（清楚且明确度高地发声）的/a/来合成语音时的共振峰402与原本的发声（清楚且明确度高的发声）的共振峰401的共振峰频率大为不同。如此地，在选择共振峰频率与原本的发声的语音片段大为不同的语音片段时，如图4的虚线所示那样地各共振峰的时间上的变动大，因此不仅声质不同就连合成音也局部地变得不自然。

为解决如此的问题，本发明的一方式所涉及的语音合成装置生成被输入的文本的合成音，包括：韵律生成部，利用所述文本生成韵律信息；开口度生成部，利用表示根据所述文本生成的音素的种类与该音素在所述文本中的位置的信息，按根据所述文本生成的每个音素，以在所述文本中位于句首的音素的开口度大于位于句末的音素的开口度的方式，生成与口腔内的容积对应的开口度；片段存储部，存储有各自包含音素的种类、开口度的信息以及语音片段数据的多个片段信息；片段选择部，按根据所述文本生成的每个音素，基于该音素的种类以及开口度，从存储于所述片段存储部的所述多个片段信息之中，选择与该音素对应的片段信息；以及合成部，利用所述片段选择部所选择的所述片段信息与所述韵律生成部所生成的所述韵律信息，生成所述文本的合成音。

根据该构成，选择具有与基于输入文本的开口度一致的开口度的片段信息。因此，能够选择具有与基于输入文本的发声形态（清楚的明确度高的发声或者怠惰的明确度低的发声）相同的发声形态的片段信息（语音片段）。因此，能够保存基于输入文本的发声形态的时间性变化，并且合成语音。其结果是，对于合成的语音而言，由于保存着发声形态的变化的时间模式，因此能够降低语音合成时的自然性（流畅度）的劣化。

另外，上述的语音合成装置，还包括开口度一致度算出部，按根据所述文本生成的每个音素，从存储于所述片段存储部的片段信息之中选择与该音素的种类相比音素的种类一致的片段信息，算出所述开口度生成部所生成的开口度与选择的片段信息所包含的开口度的一致度；所述片段选择部，按根据所述文本生成的每个音素，基于针对该音素算出的一致度，选择与该音素对应的片段信息亦可。

根据该构成，根据基于输入文本的开口度与片段信息所包含的开口度的一致度，选择片段信息。因此，即使具有与基于输入文本的开口度相同的开口度的片段信息并未存储于片段存储部，也能够选择具有与基于输入文本的开口度类似的开口度的片段信息。

例如，所述片段选择部，按根据所述文本生成的每个音素，选择包含针对该音素算出的一致度所表示的一致性最高的一致度的片段信息。

根据该构成，即使具有与基于输入文本的开口度相同的开口度的片段信息并未存储于片段存储部，也能够选择具有与基于输入文本的开口度最类似的开口度的片段信息。

另外，存储于所述片段存储部的各片段信息还包括表示位于音素的前或者后的音素的种类的音素环境信息、以及韵律信息，所述片段选择部按根据所述文本生成的每个音素，基于该音素的种类、开口度、该音素的音素环境信息、以及韵律信息，从存储于所述片段存储部的所述多个片段信息之中，选择与该音素对应的片段信息亦可。

根据该构成，通过考虑音素环境以及韵律信息的一致性与开口度的一致性这二者选择片段信息，能够在考虑音素环境以及韵律信息的基础上，还考虑开口度。因此，与仅以音素环境以及韵律信息选择片段信息的情况相比较，能够再现自然的发声形态的时间变化，因此能够得到自然性高的合成语音。

另外，上述的语音合成装置，还包括目标成本算出部，按根据所述文本生成的每个音素，从存储于所述片段存储部的片段信息之中选择与该音素相比音素的种类一致的片段信息，算出表示该音素的音素环境信息与所选择的片段信息所包含的音素环境信息的一致性的成本，所述片段选择部按根据所述文本生成的每个音素，基于针对该音素算出的一致度以及成本，选择与该音素对应的片段信息亦可。

另外，所述片段选择部按根据所述文本生成的每个音素，针对对该音素算出的成本，进行存储于所述片段存储部的片段信息的数量越大则权重越大的加权，基于加权而得的成本与所述开口度一致度算出部所算出的一致度，选择与该音素对应的片段信息亦可。

根据该构成，在选择片段信息时，存储于片段存储部的片段信息的数量越大，则使开口度一致度算出部所算出的一致度的权重越小。即，使目标成本算出部所算出的的音素环境信息以及韵律信息的成本的权重变大。据此，在存储于片段存储部的片段信息的数量小的情况下，即使不存在音素环境信息以及韵律信息的类似性高的片段信息时，也选择开口度的一致度高的片段信息，据此，选择发声形态一致的片段信息。据此，整体而言，由于能够再现自然的发声形态的时间变化，因此能够得到自然性高的合成语音。

另外，所述开口度一致度算出部按根据所述文本生成的每个音素，针对与该音素相比音素的种类一致的存储于所述片段存储部的片段信息所包含的开口度、以及所述开口度生成部所生成的开口度，按音素的每个种类进行正规化（归一化、标准化），算出正规化后的开口度彼此的一致度作为所述一致度亦可。

根据该构成，利用按每个音素的种类进行正规化而得的开口度算出开口度的一致度。因此，能够在区别音素的种类的基础上算出一致度。据此，能够针对每个音素选择合适的片段信息，因此能够再现自然的发声形态的时间变化，能够得到自然性高的合成语音。

另外，所述开口度一致度算出部按根据所述文本生成的每个音素，算出所述开口度生成部所生成的开口度的时间方向的差分（差量）和与该音素相比音素的种类一致的存储于所述片段存储部的片段信息所包含的开口度的时间方向的差分的一致度作为所述一致度亦可。

根据该构成，能够基于开口度的时间上的变化算出开口度的一致度。因此，由于能够在添加在先的音素的开口度的基础上选择片段信息，因此能够再现自然的发声形态的时间变化，能够得到自然性高的合成语音。

另外，上述的语音合成装置，还包括：开口度算出部，根据说话者的语音，算出与所述说话者的口腔内的容积对应的开口度；以及片段登记部，将包含音素的种类、所述开口度算出部所算出的所述开口度的信息、以及语音片段数据的片段信息登记至所述片段存储部亦可。

根据该构成，能够制成利用于语音合成的片段信息。因此，能够随时更新用于语音合成的片段信息。

另外，上述的语音合成装置，还包括：声道信息提取部，根据说话者的语音提取声道信息，所述开口度算出部根据所述声道信息提取部所提取的所述声道信息算出表示声道的截面积的声道截面积函数，将以算出的声道截面积函数表示的声道截面积之和作为所述开口度算出亦可。

根据该构成，通过利用声道截面积函数算出开口度，能够算出不仅考虑到嘴唇的打开程度，而且还考虑到连无法从外界直观观测的口腔内的形状（例如，舌的位置）的开口度。

另外，所述开口度算出部根据所述声道信息提取部所提取的所述声道信息，算出表示每个区间的声道的截面积的声道截面积函数，将以算出的声道截面积表示的从与嘴唇对应的区间起直到规定区间为止的声道截面积之和作为所述开口度算出亦可。

根据该构成，能够算出考虑接近嘴唇的口腔内的形状而得的开口度。

另外，所述开口度生成部利用根据所述文本生成的音素的种类与表示该音素在重音词组内的位置的信息，生成所述开口度亦可。

如此，通过利用音素在重音词组内的位置生成开口度，能够生成更好地考虑了语言性的影响而得的开口度。

另外，在所述重音词组内的位置为在所述重音词组内距重音位置的距离亦可。

由于存在重音位置在发声中被强调的倾向，因此存在开口度变大的倾向。根据该构成，能够生成考虑如此的影响而得的开口度。

另外，所述开口度生成部还利用表示根据所述文本生成的音素所属的语素的词类的信息，生成所述开口度亦可。

存在可形成名词或动词等的内容词的语素被强调的可能性。被强调时，存在开口度变大的倾向。根据该构成，能够生成考虑如此的倾向而得的开口度。

另外，本发明的其他一个方面所涉及的语音合成装置为生成被输入的文本的合成音的语音合成装置，包括：开口度生成部，利用表示根据所述文本生成的音素的种类与该音素在所述文本中的位置的信息，按根据所述文本生成的每个音素，以在所述文本中位于句首的音素的开口度大于位于句末的音素的开口度的方式，生成与口腔内的容积对应的开口度；片段选择部，从存储有各自包含音素的种类、开口度的信息以及语音片段数据的多个片段信息的片段存储部，按根据所述文本生成的每个音素，基于该音素的种类以及开口度，从存储于所述片段存储部的所述多个片段信息之中，选择与该音素对应的片段信息；以及合成部，利用所述片段选择部所选择的所述片段信息与根据所述文本生成的韵律信息，生成所述文本的合成音。

另外，这些整体性或者具体性的形态通过***、方法、集成电路、计算机程序或者计算机可读取的CD-ROM等记录介质来实现亦可，通过***、方法、集成电路、计算机程序或者记录介质的任意组合来实现亦可。

以下，对照附图说明本发明的实施方式。另外，以下说明的实施方式皆是表示本发明的优选的一具体例的实施方式。在以下的实施方式所示的数值、构成要素、构成要素的配置位置以及连接方式、步骤、步骤的顺序等仅为一例，并非对本发明的限定。另外，在以下实施方式的构成要素中，对于表示最上位概念的独立权利要求没有记载的构成要素，作为任意的构成要素进行说明。

（实施方式1）

如上所述，在根据文本合成语音时，保持自然地发声输入文本时的发声形态的时间上的变动是极为重要的。所谓“发声形态”例如为清楚的明确度高的发声、怠惰的明确度低的发声。

发声形态受语音的说话速度、说话中的位置、或者重音词组内的位置等各种各样的因素的影响。例如，在自然的说话中，在句首清楚且明确地发声。但是，存在在句末发生怠惰，明确度降低的倾向。另外，在输入文本中，强调地发声某一单词时的发声形态不同于不强调地发声时的发声形态。

可是，如以往技术那样地以根据输入文本假想的音素环境或者韵律信息为基准，选择语音片段时，选择的语音片段无法保证保持自然的发声形态的时间模式。为了实现该保证，必须在片段存储部中与包含与输入文本相同的发声相应地构筑庞大的片段存储部，而在现实中不可能构筑如此的片段存储部。

例如，在片段连接型的语音规则合成***中，在构筑片段数据库时准备数小时至数十小时的语音也是很平常的，但尽管如此，针对全部的输入文本实现自然的发声形态的时间模式还是困难的。

根据本实施方式，即使在片段存储部的数据数比较少量时，也能够考虑前述的自然的发声形态的时间模式地进行语音合成。

图5（a）表示发声为前述的“めまいがします（/memaigashimasxu/）”时的“めまい（memai）”的/ma/的/a/的对数声道截面积函数，图5（b）表示发声为“お湯が出ません（/oyugademaseN/）”时的/ma/的/a/的对数声道截面积函数。

图5（a）的/a/接近句首，并且为内容词（独立词）所包含的音，因此作为发声形态清楚且明确地说话。另一方面，图5（b）的/a/接近句末，作为发声形态发生怠惰，明确程度低。

本申请发明人们通过仔细地观察如此的发声形态的差异与对数声道截面积函数的关系，发现了发声形态与口腔内的容积存在关联这一见解。

即，存在口腔内的容积越大，发声形态越清楚明确的倾向，反之存在口腔内的容积越小，发声形态带有怠惰，明确度低的倾向。

通过将可根据语音算出的口腔内容积作为开口度的指标，能够从片段存储部找出具有希望的发声形态的语音片段。由于通过以口腔内容积这样的一个值表示发声形态，便无需考虑说话内位置、重音词组内位置、或者有无强调之类的多样的组合的信息，因此容易从片段存储部找出具有希望的特性的语音片段。再有，并非在全部的音素区别音素环境，而是将特性接近的音素作为一个类别（category）来削减音素环境的种类，据此能够减少语音片段的需求量。

本发明通过利用口腔内的容积，实现保存发声形态的时间上的变动，自然性的劣化少的语音合成。即，通过与句末的开口度相比变大句首的开口度，合成保存了产生形态的时间上的变动的语音。据此，能够合成具有句首清楚且明确地说话，而在句末因怠惰明确度低地说话的自然的产生形态的语音。

图6为表示实施方式1的语音合成装置的功能性的构成的框图。语音合成装置包括韵律生成部101、开口度生成部102、片段存储部103、开口度一致度算出部104、片段选择部105、以及合成部106。

韵律生成部101利用输入的文本，生成韵律信息。即，韵律生成部101生成音素信息、以及与音素对应的韵律信息。

开口度生成部102基于输入的文本，生成在自然地发声输入的文本时的开口度的时间模式。即，开口度生成部102利用表示根据输入的文本生成的音素的种类与该音素在文本中的位置的信息，按根据文本生成的每个音素生成与口腔内的容积对应的开口度。

片段存储部103是用于存储为生成合成音的片段信息的存储装置，例如，由HDD（Hard Disk Drive：硬盘驱动器）等构成。即，片段存储部103存储各自包含音素的种类、开口度的信息以及声道信息的多个片段信息。在此，声道信息为语音片段的一种。存储于片段存储部103的片段信息的细节后述。

开口度一致度算出部104算出由开口度生成部102生成的音素单位下的开口度与存储于片段存储部103的各音素的片段的开口度的一致度。即，开口度一致度算出部104按根据文本生成的每个音素，从存储于片段存储部103的片段信息之中选择与该音素的种类相比音素的种类一致的片段信息，算出开口度生成部102所生成的开口度与选择的片段信息所包含的开口度的一致度。

片段选择部105基于由开口度一致度算出部104算出的一致度，从存储于片段存储部103的片段信息中选择最佳的片段信息，连接选择的片段信息所包含的语音片段，据此选择语音片段序列。另外，在片段选择部105中存储有有关全部的开口度的片段信息时，片段选择部105仅需从存储于片段存储部103的片段信息之中选择与开口度生成部102所生成的开口度一致的片段信息即可。因此，此时，开口度一致度算出部104不装备于语音合成装置亦可。

合成部106利用由片段选择部105选择的语音片段序列，生成合成音。

通过如以上那样构成的语音合成装置，能够生成具有在自然地发声输入文本时的发声形态的时间上的变动的合成音。

以下，详细说明各个构成要素。

<韵律生成部101>

韵律生成部101基于输入的文本，生成在发声输入的文本时的韵律信息。输入的文本由多个字符构成。韵律生成部101在输入有包含多个句子的文本时，以句号等的信息为基础，将文本分割为单句，以单句单位生成韵律。另外，韵律生成部101即使在用英文记载的文本等中也同样地，将文本分割为单句并进行处理，生成韵律。

另外，韵律生成部101语言性地解析句子，取得发音记号列与重音等语言信息。在语言信息中，包含有距句首的音拍（mora）数、距句末的音拍数、该重音词组距句首的位置、该重音词组距句末的位置、该重音词组的重音型、距重音位置的距离、该语素的词类等。

例如，输入“今日の天気は晴れです。”这样的句子时，韵律生成部101如图7所示，首先将句子分割为语素。韵律生成部101在将句子分割为语素时，同时也解析各语素的词类信息等。韵律生成部101对分割而得的语素赋予读音。韵律生成部101对赋予的读音信息赋予重音词组以及重音位置。韵律生成部101通过以上的方式取得语言信息。韵律生成部101以取得的语言信息（发音记号列以及重音信息等）为基础，生成韵律信息。另外，在对文本事先赋予语言信息时，无需如此的解析处理。

所谓“韵律信息”是指各音素的持续时间长度、基频模式、或者功率（power）等。

在韵律信息的生成中，例如存在利用数量化I类的方法、或HMM（Hidden Markov Model：隐马尔可夫模型）生成韵律信息的方法等。

例如，在利用数量化I类生成基频模式时，以基频为目标变量，以基于输入文本的音素记号列、重音位置等为解释变量，据此能够生成基频模式。同样地，以持续时间长度或者功率为目标变量，据此能够生成持续时间长度模式或者功率模式。

<开口度生成部102>

如前述，本申请发明人们通过仔细地观察发声形态的差异与对数声道截面积函数的关系，据此发现了发声形态与口腔内的容积存在关联这一崭新的见解。

具体而言，存在口腔内的容积越大，发声形态越清楚明确的倾向。反之，存在口腔内的容积越小，发声形态越带有怠惰，明确度越低的倾向。

通过将可根据语音算出的口腔内容积作为开口度的指标，能够从片段存储部103找出具有希望的发声形态的语音片段。

开口度生成部102基于输入的文本，生成与口腔内的容积对应的开口度。具体而言，开口度生成部102利用表示事先学习了的开口度的变化的时间模式的模型，生成开口度的变化的时间模式。模型通过从事先发声而得的语音数据中提取开口度的变化的时间模式，基于提取的时间模式与文本信息进行学习来生成。

首先，说明模型学习时的开口度的算出方法。具体而言，说明如下方法，即基于声道音源模型将语音分离为声道信息与音源信息，根据声道信息算出开口度。

在利用线性预测模型（LPC模型）作为声道音源模型时，通过之前的p个标本值预测语音波形（语音信号）所存在的标本值s（n），如式1所示。

[数1]

s (n) &cong; α_{1} s (n - 1) + α_{2} s (n - 2) + α_{3} s (n - 3) + \cdot \cdot \cdot + α_{p} s (n - p)

(式1)

与p个标本值对应的系数α_i（i=1～p）能够通过利用相关法或协方差法算出。利用算出的系数，则输入的语音信号能够通过式2来生成。

[数2]

S (z) = \frac{1}{A (z)} U (z)

(式2)

在此，S（z）为语音信号s（n）的z变换后的值，U（z）为音源信号u（n）的z变换后的值，表示以声道特征1/A（z）对输入语音S（z）进行逆滤波而得的信号。

再有，利用通过LPC分析分析而得的线性预测系数α，算出PARCOR系数（偏自相关系数）亦可。众所周知的是，PARCOR系数与线性预测系数比较，插值特性好。PARCOR系数能够通过Levinson-Durbin-Itakura算法来算出。另外，PARCOR系数保有下面的特征。

（特征1）越低次的系数其变动对频谱的影响越大，随着变为高次变动的影响变小。

（特性2）高次的系数的变动的影响平坦地遍及全域。

在以下的说明中，利用PARCOR作为声道特征来说明。另外，所利用的声道特征不限于PARCOR系数，利用线性预测系数亦可。再有，利用线谱对（LSP）亦可。

另外，作为声道音源模型利用ARX模型亦可。该情况下，利用ARX（Autoregressive with exogenous input：具有外源输入的自我回归）分析，分离声道与音源。ARX分析在作为音源利用数式音源模型的点上与LPC分析大为不同。另外，在ARX分析中，不同于LPC分析，即使在分析区间内包含多个基波周期时，也能够更准确地分离声道与音源的信息（非专利文献3：大塚贵弘、粕谷英树，「音源パルス列を考慮した頑健なARX音声分析法（考虑声源脉冲列的健壮的ARX语音分析法）」，日本音响学会志58卷7号，2002年，pp.386-397）。

在ARX分析中，语音通过式3所示的生成过程来生成。在式3中，S（z）表示语音信号s（n）的z变换后的值。U（z）表示有声音源信号u（n）的z变换后的值。E（z）表示无声噪音音源e（n）的z变换后的值。即，在ARX分析中，有声音（浊音）通过式3的右边第一项来生成声音，而无声音（清音）通过右边第2项来生成。

[数3]

S (z) = \frac{1}{A (Z)} U (z) + \frac{1}{A (z)} E (z)

（式3）

此时，作为有声音源信号u（t）=u（nTs）的模型，利用式4所示的音模型（Ts为采样周期）。

[数4]

(式4)

a = \frac{27 AV}{4 O Q^{2} T 0}, b = \frac{27 AV}{4 O Q^{3} T 0^{2}}

其中，AV表示有声音源振幅，T0表示基音周期、OQ表示声门开放率。有声音时使用式4的第1项，无声音时使用式4的第2项。声门开放率OQ表示1基音周期中的声门所开放的比例。众所周知的是，存在声门开放率OQ越大越会形成柔和的语音的倾向。

ARX分析与LPC分析比较存在以下的优点。

（优点1）由于在分析窗内分配与多个基音周期对应的音源脉冲列来进行分析，因此即使女性或者儿童等的高基音周期也能够稳定地提取声道信息。

（优点2）尤其是，在基音频率F0与第1共振峰频率F1接近的/i/、/u/等的闭元音的声道音源分离性能高的有声音区间中，与LPC分析时同样地，通过以声道特征1/A（z）对输入语音S（z）进行逆滤波能够得出U（z）。

与LPC分析时同样地，在ARX分析中，声道特征1/A（z）为与LPC分析中的***函数相同的形式。据此，根据与LPC分析同样的方法，求出PARCOR系数亦可。

开口度生成部102根据如此而得的声道信息，算出表示口腔内的容积的开口度。具体而言，根据作为声道特征而提取的PARCOR系数，利用式5，算出声道截面积函数。

[数5]

\frac{A_{i}}{A_{i + 1}} = \frac{1 - k_{i}}{1 + k_{i}} (i = 1, \cdot \cdot \cdot, N)

(式5)

在此，k_i表示i次的PARCOR系数，A_i表示第i个声道截面积，设为A_N+1=1。

图8为表示某一发声的元音/a/的对数声道截面积函数的图。将从声门至嘴唇的声道分割为11个区间（段），段11表示声门，段1表示嘴唇。

在图8中，阴影区域能够考虑为大致口腔内。于是，若将从段1至段T考虑为口腔内（在图8中T=5），开口度C能够通过式6定义。优选的是，T根据LPC分析或者ARX分析的次数变更。例如，10次的LPC分析时，优选3至5程度。其中，并不限定具体的次数。

[数6]

C = Σ_{i = 1}^{T} A_{i}

(式6)

开口度生成部102针对发声而得的语音算出由式6定义的开口度C。通过如此地利用声道截面积函数算出开口度（口腔内的容积），不仅考虑到嘴唇的打开程度，还考虑到无法从外界直观观测的口腔内的形状（例如，舌的位置）。

图9表示在“めまいがします（/memaigashimasxu/）”这一发声中，通过式6算出的开口度的时间性的变化。

开口度生成部102按照通过以上的方式算出的开口度为目标变量，以根据输入的文本得到的信息（例如，音素种类、重音信息、韵律信息）为解释变量，与基频等的韵律信息的学习同样地学习开口度生成模型。

具体而言，叙述根据文本生成音素种类、重音信息、韵律信息的方法。

输入的文本由多个字符构成。开口度生成部102在输入有包含多个句子的文本时，以句号等的信息为基础，将文本分割为单句，以单句单位生成韵律。另外，开口度生成部102即使在用英文记载的文本等中也同样地，将文本分割为单句并进行处理，生成韵律。

另外，开口度生成部102语言性地解析句子，取得发音记号列与重音等语言信息。在语言信息中，包含有距句首的音拍（mora）数、距句末的音拍数、该重音词组距句首的位置、该重音词组距句末的位置、该重音词组的重音型、距重音位置的距离、该语素的词类等。

例如，输入“今日の天気は晴れです。”这样的句子时，开口度生成部102如图7所示，首先将句子分割为语素。开口度生成部102在将句子分割为语素时，同时也解析各语素的词类信息等。开口度生成部102对分割而得的语素赋予读音。开口度生成部102对赋予的读音信息赋予重音词组以及重音位置。开口度生成部102通过以上的方式取得语言信息。

再有，开口度生成部102将通过韵律生成部101取得的韵律信息（各音素的持续时间、强度、基频）用作解释变量。

开口度生成部102以按照这样的方式得出的语言信息以及韵律信息（发音记号列以及重音信息等）为基础，生成开口度信息。另外，在对文本事先赋予语言信息以及韵律信息时，无需如此的解析处理。

学习方法并不特殊地限定，例如，能够利用数量化I类，学习从文本信息提取的语言性的信息与开口度的关系。

以下，说明利用数量化I类来生成开口度的方法。作为生成开口度的单位，利用音素。单位并不限定于音素，利用音拍或音节等亦可。

在数量化I类中，利用式7，按各解释变量的每个类别学习数量，作为其总和推定目标变量的数量。

[数7]

{\hat{y}}_{i} = \overset{&OverBar;}{y} + \underset{f}{Σ} \underset{c}{Σ} x_{fc} δ_{fc} (i = 1, \cdot \cdot \cdot, N)

（式7）

在式7中，

[数8]

为第i个音素的开口度的推定值，

[数9]

为学***均值。x_fc为解释变量f的类别c的数量，δ_fc是只在解释变量f取类别c时赋予1，在之外时赋予0的函数。通过基于学习数据决定数量x_fc，能够学习模型。

如前述，开口度与音素种类、重音信息、韵律信息、以及其他语言信息关联地变动。于是，将这些信息用作解释变量。在图10中示出了用作解释变量的控制因素与其类别的例子的图。“音素种类”为文本的第i个音素的种类。根据音素，嘴唇的打开程度或腭的打开程度等变化，据此在推定开口度时有用。例如，/a/为开元音，存在开口度变大的倾向。另一方面，/i/等的闭元音存在开口度变小的倾向。“距句首的音拍数”为表示包含该音素的音拍从句首数起是第几音拍的解释变量。由于开口度在通常的发声中存在从句首至句末变小的倾向，在推定开口度时有用。同样地，“距句末的音拍数”在根据以何种程度接近句末来推定开口度时有用。“该重音词组距句首的位置”以及“该重音词组距句末的位置”表示包含该音素的重音词组在句内的音拍位置。不仅利用音拍数还利用重音词组的位置，据此能够更好地考虑语言性的影响。

“该重音词组的重音型”表示包含该音素的重音词组的重音型。通过利用重音型，能够考虑基频的变化的模式。

“距重音位置的距离”表示该音素从重音位置偏离多少音拍。由于存在重音位置在发声中被强调的倾向，因此存在开口度变大的倾向。

“该语素的词类”为包含该音素的语素的词类。存在可形成名词或动词等内容词的语素被强调的可能性。被强调时，存在开口度变大的倾向，因此考虑该语素。

“该音素的基频”为发声该音素时的基频。存在基频越高越被强调的可能性。例如，“<100”表示基频为不足100Hz。

“该音素的持续时间长度”为产生该音素时的时间长度。存在持续时间长度较长的音素被强调的可能性。例如，“<10”表示持续时间长度为不足10msec。

利用如以上的解释变量，学习推定开口度的解释变量的数量x_fc，据此能够通过输入的文本推定开口度的时间模式，能够推定合成语音所具有的发声形态。即，开口度生成部102通过将值代入至式7的解释变量，算出作为目标变量的值的开口度。解释变量的值通过韵律生成部101生成。

另外，解释变量并不限于以上叙述的，新追加对开口度的变化赋予影响的变量亦可。

另外，开口度的算出方法不限于上述的方法，例如，在语音发声时，利用MRI（Magnetic Resonance Imaging：磁共振成像）提取声道的形状，根据提取的声道形状与上述的方法同样地通过与口腔内对应的区间的容积算出开口度亦可。或者，在发声时将磁标记黏贴至口腔内，根据磁标记的位置信息推定作为口腔内的容积的开口度亦可。

<片段存储部103>

片段存储部103存储包括语音片段与开口度的片段信息。语音片段例如以音素、音节、音拍等的单位来存储。在以后的说明中，以语音片段的单位为音素来说明。片段存储部103存储音素种类相同且开口度不同的片段信息。

片段存储部103所存储的语音片段的信息为语音波形。另外，语音片段的信息为前述的基于声道音源模型分离而得的声道信息与音源信息。与各语音片段对应的开口度能够按照上述的方法算出。

图11表示存储于片段存储部103的片段信息的例子。在图11中，在音素号码1以及2的片段信息中，音素种类/a/相同。另一方面，相对于音素号码1的开口度10，音素号码2的开口度为12。如上述，片段存储部103存储音素种类相同，并且，开口度不同的片段信息。但是，无需对全部的音素种类存储开口度不同的片段信息。

具体而言，片段存储部103存储用于识别片段信息的音素号码、音素种类、作为语音片段的声道信息（PARCOR系数）、开口度、作为语音片段的音素环境、作为语音片段的在规定区间中的音源信息、作为语音片段的韵律信息、持续时间长度。音素环境例如包括前方或者后方的音素信息、前方或者后方的的音节信息、前方或者后方的音素的调音点。在图11中示出了前方或者后方的音素信息。音源信息包括频谱倾斜以及声门开放度。韵律信息包括基频（F0）以及功率等。

<开口度一致度算出部104>

开口度一致度算出部104确定存储于片段存储部103的片段信息之中的、音素的种类与输入文本所包含的音素相同的片段信息。开口度一致度算出部104算出所确定的片段信息所包含的开口度与开口度生成部102所生成的开口度的一致度即开口度一致度S_ij。开口度一致度算出部104通过有线或者无线与片段存储部103连接，进行包含片段信息的信息的收发。开口度一致度S_ij能够如下地算出。以下所示的开口度一致度S_ij的值越小表示开口度C_i与开口度C_j的一致性越高。

（1）开口度的差分

开口度一致度算出部104按根据输入文本生成的每个音素，通过如图8所示通过开口度生成部102算出的开口度C_i与存储于片段存储部103的与对象音素相同的音素种类的片段信息所包含的开口度C_j的差分，算出开口度一致度S_ij。

[数10]

S_ij＝|C_i-C_j|(式8)

（2）按每个元音正规化

另外，开口度一致度算出部104按照以下的式9以及式10，按根据输入文本生成的每个音素算出开口度亦可。即，开口度一致度算出部104如式10所示，根据该音素的开口度的平均值以及标准偏差对由开口度生成部102算出的开口度C_i进行正规化，据此算出音素正规化开口度C_i ^P。另外，开口度一致度算出部104根据该音素的开口度的平均值与标准偏差对存储于片段存储部103的与对象音素相同的音素种类的片段信息所包含的开口度C_j进行正规化，据此算出音素正规化开口度C_j ^P。开口度一致度算出部104根据音素正规化开口度C_i ^P与音素正规化开口度C_j ^P的差分算出开口度一致度S_ij。

[数11]

S_{ij} = | C_{i}^{P} - C_{j}^{P} |

(式9)

[数12]

C_{i}^{P} = \frac{| C_{i} - E^{i} |}{V^{i}}

(式10)

在此，Eⁱ表示第i个音素的开口度的平均，Vⁱ表示第i个音素的开口度的标准偏差。

另外，在片段存储部103中，事先存储有音素正规化开口度C_j ^P亦可。该情况下，开口度一致度算出部104无需算出音素正规化开口度C_j ^P。

（3）观察变动

另外，开口度一致度算出部104按照以下的式9以及式10，按根据输入文本生成的每个音素，算出开口度亦可。即，开口度一致度算出部104如式11所示，算出由开口度生成部102生成的开口度C_i与在先的音素的开口度的差分即开口度差分值C_i ^D。另外，开口度一致度算出部104算出存储于片段存储部103的与该音素相同的音素种类的数据的开口度C_j与该音素的在先音素的开口度的差分即开口度差分值C_j ^D。开口度一致度算出部104根据开口度差分值C_i ^D与开口度差分值C_j ^D的差分算出开口度一致度。

[数13]

S_{ij} = | C_{i}^{D} - C_{j}^{D} |

(式11)

另外，开口度的一致度通过组合上述的方法来算出亦可。具体而言，通过上述一致度的加权和来算出亦可。

<片段选择部105>

片段选择部105按根据输入文本生成的每个音素，基于对象音素的种类以及开口度，从存储于片段存储部103的多个片段信息之中，选择与对象音素对应的片段信息。

即，片段选择部105利用由开口度一致度算出部104算出的一致度，针对与输入文本对应的各音素，从片段存储部103选择语音片段。

具体而言，如式12所示，针对输入文本的音素序列，从片段存储部103选择开口度一致度算出部104所算出的开口度一致度S_i,j（i）以及邻接片段间的连接成本C^C _{j（i-1）,j（i）}为最小的语音片段。“连接成本为最小”是指类似度高。

若将连续的语音片段设为u_j（i-1）、u_j（i），则邻接片段间的连接成本C^C _j（i-1），j_（i）例如能够通过u_j（i-1）的终端与u_j（i）的始端的连续性算出。连接成本的算出方法并不特殊限定，例如，能够通过利用语音片段的连接位置中的倒频谱距离等来算出。

[数14]

j (i) = \underset{j}{\arg \min} [Σ_{i = 1}^{N} (S_{i, j (i)} + C_{j (i - 1), j (i)}^{C})]

(式12)

在式12中，i为输入文本所包含的第i个音素，N为输入文本的音素数，j（i）表示被选择为第i个音素的片段。

另外，在片段存储部103所存储的片段信息中，含有前述的通过声道音源模型分析而得的声道特征、以及音源特征的参数时，能够通过分析参数间的插值使语音片段间连续地连接。因此，语音片段的连接因较少的音质劣化而比较容易进行，因此只利用开口度的一致度进行片段选择亦可。具体而言，选择如式13所示的语音片段的序列j（i）。

[数15]

j (i) = \underset{j}{\arg \min} [Σ_{i = 1}^{N} S_{i, j (i)}]

(式13)

再有，通过对存储于片段存储部103的开口度进行量化，片段选择部105从片段存储部103唯一选择与开口度生成部102所生成的开口度对应的语音片段亦可。

<合成部106>

合成部106利用由片段选择部105选择的片段信息与韵律生成部101所生成的韵律信息，生成读完输入的文本而得的合成音（文本的合成音）。

片段存储部103所存储的语音片段所包含的语音片段为语音波形时，通过连接语音波形进行合成。连接的方法并不特殊限定，例如，通过语音片段的连接时的失真为最小的连接点来连接即可。另外，在连接语音片段时，直接连接由片段选择部105选择的语音片段序列亦可，对照由韵律生成部101生成的韵律信息对各语音片段进行变形之后进行连接亦可。

或者，片段存储部103存储基于声道音源模型的声道信息与音源信息作为语音片段时，合成部106分别连接声道信息与音源信息，合成语音。合成的方法并不特殊地限定，作为声道信息利用PARCOR系数时，利用PARCOR合成即可。或者，从PARCOR系数变换为LPC系数之后进行语音合成亦可，提取共振峰，通过共振峰合成进行语音合成亦可。再有，根据PARCOR系数算出LSP系数，通过LSP合成进行语音合成亦可。

另外，将声道信息以及音源信息对照韵律生成部101所生成的韵律信息进行变形之后进行语音合成亦可。该情况下，即使在片段存储部103所存储的片段的数少时，也能够得到高音质的合成音。

（流程图）

利用图12所示的流程图说明本实施方式所涉及的语音合成装置的具体的动作。

在步骤S101中，韵律生成部101基于输入文本，生成韵律信息。

在步骤S002中，开口度生成部102基于输入文本，生成输入文本所包含的音素序列的开口度的时间模式。

在步骤S003中，开口度一致度算出部104算出在步骤S002算出的输入文本所包含的音素序列的各音素的开口度与存储于片段存储部103的音素信息的开口度的一致度。另外，片段选择部105基于算出的一致度及/或在步骤S101算出的韵律信息，针对输入文本所包含的各音素序列选择语音片段。

在步骤S004中，合成部106利用在步骤S003选择的语音片段序列，合成语音。

（效果）

根据如此的构成，在根据输入文本合成语音时，能够保存基于输入文本的发声形态的时间性变化，并且合成语音。其结果是，合成的语音由于保存了发声形态的变化的时间模式，因此降低了合成时的自然性（流畅度）的劣化。

例如，如图3（a）所示，基于输入文本的各音素的发声形态（明确度）的变化与合成音的发声形态的变化（清楚或怠惰的时间模式）变得与从实际发声的语音学习而得的发声形态的变化相同，因此降低了由发声形态的不自然引起的音质的劣化。

另外，由于作为语音片段的选择基准以口腔内的容积（开口度）为基准，因此若与直接考虑语言上生理上的诸条件来构筑片段存储部103的情形比较，则也具有能够减少片段存储部103的数据数之类的效果。

另外，在本实施方式中，通过日语的语音进行了说明，但并不限于日语，即使在以英语为代表的其他语言中，也能够同样地进行语音合成。

例如，通常发声时，在发声为“Can I make a phone call from this plain?”的情况下，句末的plain的[ei]与“May I have a thermometer?”的句首的May的[ei]/e/的发声形态不同（[]内为国际音标（International PhoneticAlphabet））。另外，与日语同样地发声形态根据句内位置、内容词或功能词的种类、或者有无强调等而变化，因此若以以往的音素环境或韵律信息为选择基准来选择语音片段，则与日语同样地起因于发声形态的时间性变化失真，合成语音的自然性劣化。因此，即使在英语中也以开口度为基准来选择语音片段，据此能够保存基于输入文本的发声形态的时间性变化，并合成语音。其结果是，由于合成的语音保存了发声形态的变化的时间模式，因此能够实现降低了自然性（流畅度）的劣化的语音合成。

（实施方式1的变形例1）

图13为表示本发明的实施方式1的语音合成装置的变形例的构成图。在图13中，对与图6相同的构成要素利用相同的标记，省略说明。

即，实施方式1的变形例1所涉及的语音合成装置具有对如图6所示的语音合成装置的构成追加目标成本算出部109而得的构成。

在本变形例中，其不同之处在于，在片段选择部105从片段存储部103选择片段序列时，不仅基于由开口度一致度算出部104算出的开口度的一致度，还基于输入语音所包含的音素的音素环境、片段存储部103所包含的各音素的音素环境以及韵律信息的类似度选择语音片段。

<目标成本算出部109>

目标成本算出部109针对输入文本所包含的各音素，基于音素的音素环境以及由韵律生成部101生成的韵律信息、片段存储部103所包含的片段信息的音素环境、以及韵律信息的类似度算出成本。

具体而言，目标成本算出部109通过算出关注音素的前后的音素种类的类似度来算出成本。例如，在输入文本所包含的音素的在先音素与具有与关注音素相同的音素种类的片段信息的音素环境中的在先音素的种类不一致时，作为处罚加上成本d。同样地，在输入文本所包含的音素的后续音素与具有与关注音素相同的音素种类的片段信息的音素环境中的后续音素不一致时，作为处罚加上成本d。成本d在在先音素与后续因素中不为相同的值亦可，例如优先在先音素的一致度亦可。或者，即使在在先音素不一致时，也根据音素的类似度变更处罚的大小亦可。例如，音素类别（破裂音、摩擦音等）相同时减少处罚亦可。另外，调音位置（齿槽音、腭音等）相同时减少处罚亦可。按照以上的方式，算出表示输入文本所包含的音素的音素环境与片段存储部所包含的片段信息的音素环境的一致性的成本C_ENV。

另外，有关韵律信息，根据韵律生成部101所算出的基频、持续时间长度、功率与片段存储部103所存储的片段信息的基频、持续时间长度、功率的差分分别算出成本C_F0、F_DUR、C_POW。

目标成本算出部109如式14所示通过对上述的成本分别加权相加，算出目标成本。权重p1、p2、p3的设定方法并不特殊限定。

[数16]

D_i,j＝C_ENV+p₁C_F0+p₂C_DUR+p₃C_POW(式14)

<片段选择部105>

片段选择部105利用由开口度一致度算出部104算出的一致度，由目标成本算出部109算出的成本、以及语音片段间的连接成本，针对各音素，从片段存储部103选择语音片段序列。

具体而言，如式15所示，针对输入语音的元音序列，从片段存储部103选择开口度一致度算出部104所算出的开口度一致度S_ij、由目标成本算出部109算出的目标成本D_ij、以及邻接片段间的连接成本为最小的语音片段序列j（i）（i=1，…，N）。

若将连续的语音片段设为u_i、u_j，则邻接片段间的连接成本C^c例如能够通过u_i的终端与u_j的始端的连续性算出。连接成本的算出方法并不特殊限定，例如，能够通过利用语音片段的连接位置处的倒频谱距离等来算出。

[数17]

j (i) = \underset{j}{\arg \min} [Σ_{i}^{N} (S_{i, j} + w_{1} \times D_{i, j} + w_{2} C_{j (i - 1), j (i)}^{C}]

(式15)

权重w₁、w₂的设定方法并不特殊限定，事前适宜决定即可。另外，根据片段存储部103的数据大小，调整权重亦可。具体而言，片段存储部103所存储的片段信息的数量越大，则越增大由目标成本算出部109算出的成本的权重w₁；片段存储部103所存储的片段信息的数量越小，则越减小由目标成本算出部109算出的成本的权重w₁。

根据以上的构成，在合成语音时，能够维持音韵性并且保存发声形态的时间变化。其结果是，由于能够保存各音素的音韵性与发声形态的时间模式，因此能够实现降低了自然性（流畅度）的劣化的高音质的语音合成。

另外，根据该构成，即使在存储于片段存储部103的片段信息的数量小时，也能够实现无损发声形态的时间变化的语音合成，因此在所有的利用方式中可用性高。

另外，在通过片段选择部105选择语音片段序列时，根据存储于片段存储部103的片段信息的数量，调整权重（存储于片段存储部103的片段信息的数量越小，则越减少由目标成本算出部109算出的成本的权重），据此在存储于片段存储部103的片段信息的数量小时，使开口度的一致度优先。据此，即使在不存在音素环境等的一致度高的语音片段时，通过选择开口度的一致度高的语音片段，发声形态也会一致。因此，整体而言，由于能够再现自然的发声形态的时间变化，因此能够得到自然性高的合成音。

另一方面，能够在存储于片段存储部103的片段信息的数量大时，考虑成本与开口度的一致度这双方并选择语音片段。因此，能够在考虑音素环境基础上，还考虑开口度的一致度，与以以往的选择基准选择的情形比较，能够再现自然的发声形态的时间变化，因此能够得到自然性高的合成音。

（实施方式1的变形例2）

图14为表示本发明的实施方式1的语音合成装置的另一变形例的构成图。在图14中，对与图6相同的构成要素利用相同的标记，省略说明。

即，实施方式1的变形例2所涉及的语音合成装置具有对图6所示的语音合成装置的构成追加语音收录部110、音素环境提取部111、韵律信息提取部112、声道信息提取部115、开口度算出部113以及片段登记部114而得的构成。即，在本变形例中，还具有构筑片段存储部103的处理部这一点不同于实施方式1。

语音收录部110收录说话者的语音。音素环境提取部111针对收录的语音所包含的各音素，提取包含前方以及后方的音素种类的音素环境。韵律信息提取部112针对收录的语音所包含的各音素，提取包含持续时间、基频、功率信息的韵律信息。声道信息提取部115根据说话者的语音提取声道信息。开口度算出部113根据所述声道信息提取部所提取的所述声道信息，针对收录的语音所包含的各音素，算出开口度。开口度的算出方法与实施方式1中的在开口度生成部102生成表示开口度的变化的时间模式的模型时的开口度的算出方法相同。

片段登记部114将通过音素环境提取部111、韵律信息提取部112以及开口度算出部113得出的信息作为片段信息登记至片段存储部103。

利用图15的流程图说明登记至片段存储部103的片段信息的制作方法。

在步骤S201中，说话者说出句子，语音收录部110收录句集的语音。并不限定句子数，语音收录部110例如收录数百句至数千句规模的语音。收录的语音的规模并不特殊限定。

在步骤S202中，音素环境提取部111针对收录的句集的语音所包含的各音素，提取包含前方以及后方的音素种类的音素环境。

在步骤S203中，音素环境提取部112针对收录的句集的语音所包含的各音素，提取包含持续时间长度、基频、功率的韵律信息。

在步骤S204中，声道信息提取部115针对收录的句集的语音所包含的各音素，提取声道信息。

在步骤S205中，开口度算出部113针对收录的句集的语音所包含的各音素，算出开口度。具体而言，开口度算出部113利用声道信息算出开口度。即，根据声道信息提取部115所提取的声道信息算出表示声道的截面积的声道截面积函数，将以算出的声道截面积函数表示的声道截面积之和作为开口度算出。声道信息提取部115将以算出的声道截面积表示的从与嘴唇对应的区间起直到规定区间为止的声道截面积之和作为开口度算出亦可。

在步骤S206中，片段登记部114将通过步骤S202～S205得到的信息，以及语音收录部110所收录的语音所包含的音素的语音片段（例如，语音波形）登记至片段存储部103。

另外，实施步骤S202～S205的处理的次序未必是该次序亦可。

根据以上的处理，在语音合成装置中，能够收录说话者的语音，制作片段存储部103，因此能够随时更新得到的合成音的品质。

通过利用如以上那样制成的片段存储部103，在根据输入文本合成语音时，能够维持音韵性并且保存发声形态的时间变化。其结果是，由于能够保存各元音的音韵性与发声形态的时间模式，因此能够实现降低了自然性（流畅度）的劣化的高音质的语音合成。

以上，基于本发明的实施方式所涉及的语音合成装置，但本发明并不限于该实施方式。

例如，上述的各装置，具体而言，构成为由微处理器、ROM、RAM、硬盘驱动器、显示器单元、键盘、鼠标等构成的计算机***亦可。在RAM或者硬盘驱动器中，存储有计算机程序。微处理器按照计算机程序进行动作，据此各装置达成其功能。在此，计算机程序是为了达成规定的功能而组合表示针对计算机的指令的多个命令代码来构成的程序。

例如，该计算机程序使计算机执行如下步骤：利用文本生成韵律信息的步骤；利用表示根据文本生成的音素的种类与该音素在文本中的位置的信息，按根据文本生成的每个音素，以在文本中位于句首的音素的开口度大于位于句末的音素的开口度的方式，生成与口腔内的容积对应的开口度的步骤；按根据文本生成的每个音素，基于该音素的种类以及开口度，从存储于片段存储部的、各自包含音素的种类、开口度的信息以及语音片段数据的多个片段信息之中，选择与该音素对应的片段信息的步骤；以及利用所选择的片段信息与所生成的韵律信息，生成文本的合成音的步骤。

再有，构成上述的各装置的构成要素的一部分或者全部也可由1个***LSI（Large Scale Integration：大规模集成电路）构成亦可。***LSI为将多个构成部集成至一个芯片上制造而成的超多功能LSI，具体而言，为通过含有微处理器、ROM、RAM等而构成的计算机***。在RAM中，存储有计算机程序。微处理器按照计算机程序进行动作，据此***LSI达成其功能。

再有，另外，构成上述的各装置的构成要素的一部分或者全部也可由针对各装置可装卸的IC卡或者单一模块构成亦可。IC卡或者模块为由微处理器、ROM、RAM等构成的计算机***。IC卡或者模块含有上述的超多功能LSI亦可。微处理器按照计算机程序进行动作，据此IC卡或者模块达成其功能。该IC卡或者该模块具有防篡改技术亦可。

另外，本发明为上述所示的方法亦可。另外，为通过计算机实现这些方法的计算机程序亦可，为由所述计算机程序组成的数字信号亦可。

再有，关于本发明，也可将上述计算机程序或者上述数字信号记录至计算机可读取的非临时性的记录介质，例如软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD（Blu-ray Disc（注册商标）：蓝光光盘）、半导体存储器等。另外，为记录至这些非临时性的记录介质的上述数字信号亦可。

另外，关于本发明，将上述计算机程序或者上述数字信号经电信线路、无线或有线传输线路、以互联网为代表的网络、数据广播等来传输亦可。

另外，本发明为具有微处理器和存储器的计算机***，上述存储器存储上述计算机程序，上述微处理器按照所述计算机程序进行动作亦可。

另外，通过将上述程序或上述数字信号记录至上述非临时性的记录介质并转送，或者通过将上述程序或上述数字信号经上述网络等转送，从而通过独立的其他的计算机***来实施亦可。

另外，只要不脱离本发明的主旨，将本领域技术人员所想到的各种变形施行于本实施方式，或者组合不同实施方式的构成要素来构筑的方式也可包含于本发明的一个或者多个形态的范围内。

另外，图17为表示具有本发明所必需的构成要素的语音合成装置的功能性的构成的框图。语音合成装置为生成输入的文本的合成音的装置，包括开口度生成部102、片段选择部105、合成部106。

即，开口度生成部102利用表示根据文本生成的音素的种类与该音素在文本中的位置的信息，按根据文本生成的每个音素，以在文本中位于句首的音素的开口度大于位于句末的音素的开口度的方式，生成与口腔内的容积对应的开口度。

片段选择部105从存储着各自包含音素的种类、开口度的信息以及语音片段数据的多个片段信息的片段存储部（未图示），按根据文本生成的每个音素，基于该音素的种类以及开口度，从存储于片段存储部的多个片段信息之中，选择与该音素对应的片段信息。

合成部106利用由片段选择部105所选择的片段信息与根据文本生成的韵律信息，生成文本的合成音。另外，合成部106生成韵律信息亦可，从外部（例如，实施方式1所示的韵律生成部101）取得亦可。

应理解为本次公开的实施方式在所有的点上均为例示而非限制。应留意如下事实，即本发明的范围并不限于上述的说明而是由权利要求的范围限定，包括与权利要求的范围均等的含义以及在范围内的所有的变更。

工业实用性

本发明所涉及的语音合成装置具有保存根据输入文本推定而得的自然发声时的发声形态的时间性变化并且合成语音的功能，需在要自然的合成音的信息设备或家电设备的用户界面等的用途中有用。

附图标记说明

101 韵律生成部；

102 开口度生成部；

103 片段存储部；

104 开口度一致度算出部；

105 片段选择部；

106 合成部；

109 目标成本算出部。

Claims

1.一种语音合成装置，生成被输入的文本的合成音，具备：

韵律生成部，利用所述文本生成韵律信息；

开口度生成部，利用表示根据所述文本生成的音素的种类以及该音素在所述文本中的位置的信息，按根据所述文本生成的每个音素，以在所述文本中位于句首的音素的开口度大于位于句末的音素的开口度的方式，生成与口腔内的容积对应的开口度；

片段存储部，存储着各自包含音素的种类、开口度的信息以及语音片段数据的多个片段信息；

片段选择部，按根据所述文本生成的每个音素，基于该音素的种类以及开口度，从存储于所述片段存储部的所述多个片段信息之中，选择与该音素对应的片段信息；以及

合成部，利用所述片段选择部所选择的所述片段信息以及所述韵律生成部所生成的所述韵律信息，生成所述文本的合成音。

2.如权利要求1所述的语音合成装置，

该语音合成装置还具备开口度一致度算出部，该开口度一致度算出部按根据所述文本生成的每个音素，从存储于所述片段存储部的片段信息之中选择与该音素的种类相比音素的种类一致的片段信息，算出所述开口度生成部所生成的开口度与选择的片段信息所包含的开口度的一致度；

所述片段选择部按根据所述文本生成的每个音素，基于针对该音素算出的一致度，选择与该音素对应的片段信息。

3.如权利要求2所述的语音合成装置，

所述片段选择部按根据所述文本生成的每个音素，选择包含针对该音素算出的一致度所表示的一致性最高的一致度的片段信息。

4.如权利要求2所述的语音合成装置，

存储于所述片段存储部的各片段信息还包括表示位于音素的前或后的音素的种类的音素环境信息、以及韵律信息，

所述片段选择部按根据所述文本生成的每个音素，基于该音素的种类、开口度、该音素的音素环境信息、以及韵律信息，从存储于所述片段存储部的所述多个片段信息之中，选择与该音素对应的片段信息。

5.如权利要求4所述的语音合成装置，

该语音合成装置还具备目标成本算出部，该目标成本算出部按根据所述文本生成的每个音素，从存储于所述片段存储部的片段信息之中选择与该音素相比音素的种类一致的片段信息，算出表示该音素的音素环境信息与所选择的片段信息所包含的音素环境信息的一致性的成本，

所述片段选择部按根据所述文本生成的每个音素，基于针对该音素算出的一致度以及成本，选择与该音素对应的片段信息。

6.如权利要求5所述的语音合成装置，

所述片段选择部按根据所述文本生成的每个音素，对针对该音素算出的成本进行加权，基于加权后的成本以及所述开口度一致度算出部所算出的一致度，选择与该音素对应的片段信息，在上述加权中，存储于所述片段存储部的片段信息的数量越大则权重越大。

7.如权利要求2～6中任一项所述的语音合成装置，

所述开口度一致度算出部按根据所述文本生成的每个音素，针对与该音素相比音素的种类一致的存储于所述片段存储部的片段信息所包含的开口度、以及所述开口度生成部所生成的开口度，按音素的每个种类进行正规化，算出正规化后的开口度彼此的一致度，来作为所述一致度。

8.如权利要求2～6中任一项所述的语音合成装置，

所述开口度一致度算出部按根据所述文本生成的每个音素，算出下述两个差分的一致度，来作为所述一致度，

上述两个差分分别为：所述开口度生成部所生成的开口度的时间方向的差分、以及与该音素相比音素的种类一致的存储于所述片段存储部的片段信息所包含的开口度的时间方向的差分。

9.如权利要求1～8中任一项所述的语音合成装置，还具备：

开口度算出部，根据说话者的语音，算出与所述说话者的口腔内的容积对应的开口度；以及

片段登记部，将包含音素的种类、所述开口度算出部所算出的所述开口度的信息、以及语音片段数据在内的片段信息登记至所述片段存储部。

10.如权利要求9所述的语音合成装置，

该语音合成装置还具备声道信息提取部，该声道信息提取部根据说话者的语音提取声道信息，

所述开口度算出部根据所述声道信息提取部所提取的所述声道信息，算出表示声道的截面积的声道截面积函数，算出以算出的声道截面积函数表示的声道截面积之和，来作为所述开口度。

11.如权利要求10所述的语音合成装置，

所述开口度算出部根据所述声道信息提取部所提取的所述声道信息，算出表示每个区间的声道的截面积的声道截面积函数，算出以算出的声道截面积表示的从与嘴唇对应的区间到规定区间为止的声道截面积之和，来作为所述开口度。

12.如权利要求1～11中任一项所述的语音合成装置，

所述开口度生成部利用表示根据所述文本生成的音素的种类和该音素在重音词组内的位置的信息，生成所述开口度。

13.如权利要求12所述的语音合成装置，

在所述重音词组内的位置，是在所述重音词组内距重音位置的距离。

14.如权利要求12或13所述的语音合成装置，

所述开口度生成部还利用表示根据所述文本生成的音素所属的语素的词类的信息，生成所述开口度。

15.一种语音合成装置，生成被输入的文本的合成音，具备：

片段选择部，从存储着各自包含音素的种类、开口度的信息以及语音片段数据的多个片段信息的片段存储部，按根据所述文本生成的每个音素，基于该音素的种类以及开口度，从存储于所述片段存储部的所述多个片段信息之中，选择与该音素对应的片段信息；以及

合成部，利用所述片段选择部所选择的所述片段信息以及根据所述文本生成的韵律信息，生成所述文本的合成音。

16.一种语音合成方法，生成被输入的文本的合成音，包括下述步骤：

利用所述文本生成韵律信息；

利用表示根据所述文本生成的音素的种类以及该音素在所述文本中的位置的信息，按根据所述文本生成的每个音素，以在所述文本中位于句首的音素的开口度大于位于句末的音素的开口度的方式，生成与口腔内的容积对应的开口度；

按根据所述文本生成的每个音素，基于该音素的种类以及开口度，从存储于片段存储部的各自包含音素的种类、开口度的信息以及语音片段数据的多个片段信息之中，选择与该音素对应的片段信息；以及

利用所选择的所述片段信息以及所生成的所述韵律信息，生成所述文本的合成音。

17.一种程序，用于使计算机执行权利要求16所述的语音合成方法。