具体实施方式
以下,参照附图详细说明该发明的实施方式。另外对图中同一或者相应的部分采用同一符号,不重复其说明。
(第1实施方式)
<声音对话型接口的构成>
图1表示根据第1实施方式的声音对话型接口的构成。该接口介于数字信息设备(例如数字电视机和汽车导航***等)和使用者之间,通过和使用者之间用声音进行信息的交流(对话)对使用者的设备操作进行支援。该接口包括声音识别部10、对话处理部20和声音合成部30。
声音识别部10识别使用者发出的声音。
对话处理部20将和由声音识别部10的识别结果对应的控制信号送到数字信息设备,或者将由声音识别部10的识别结果以及/或者根据来自数字信息设备的控制信号的应答文(文本)和控制赋予该应答文感情的信号送到声音合成部30。
声音合成部30以来自对话处理部20的文本以及控制信号为基准,通过规则合成方式生成合成声音。声音合成部30包括语言处理部31、韵律生成部32、波形分离部33、波形数据库(DB)34、相位操作部35和波形重叠部36。
语言处理部31分析来自对话处理部20的文本,变换为发音以及重音信息。
韵律生成部32生成对应于来自对话处理部20的控制信号的抑扬顿挫模式。
波形DB34中存储了事先录音的波形数据和对其加入的音调标记的数据。其波形和音调标记的例子如图2所示。
波形分离部33从波形DB34中分离所期望的音调波形。此时,利用典型的Hanning窗函数(在中央的增益为1向两端平滑地收敛至0附近的函数)进行分离。其样子如图2所示。
相位操作部35通过将由波形分离部33分离的音调波形的相位频谱定型,其后根据来自对话处理部20的控制信号通过只将高域的相位成分随机扩散加入相位波动。下面,对相位操作部35的动作详细阐述。
首先,相位操作部35将从波形分离部33输入的音调波形进行DFT(Discrete Fourier Transform:离散傅里叶变换)、变换为频域信号。输入的音调波形由矢量
以式1的形式表示。
(式1)
在式1中下标i是音调波形的编号,S
i(n)是从音调波形开始第n号的采样值,将其通过DFT变换为频域的矢量
以式2表示。
(式2)
这里,从Si(0)开始至Si(N/2-1)为止表示正的频率成分,从Si(N/2)开始至Si(N-1)为止表示负的频率成分。另外Si(0)表示0Hz即直流成分。因为各频率成分Si(k)是复数,所以能表示成式3。
Si(k)=|Si(k)|ejθ(i,k) (式3)
xi(k)=Re(Si(k)),yi(k)=Im(Si(k))
这里,Re(c)表示复数c的实数部分,Im(c)表示c的虚数部分。作为相位操作部35前半部分的处理将式3的Si(k)由式4变换为i(k)。
i(k)=|Si(k)|ejp(k) (式4)
这里,ρ(k)是频率k的相位频谱的值,是和音调编号i独立的只是k的函数。即ρ(k)对于全部的音调波形都相同。由此,因为全体音调波形的相位频谱是同一频谱,所以除去了相位波动。典型地可以取ρ(k)为常数0。这样的话相位成分被完全除去。
接着作为相位操作部35后半部分的处理,对应于来自对话处理部20的控制信号决定适当的边界频率ωk,在比ωk高的频率成分上加入相位的波动。例如象式5那样通过将相位成分随机化而将相位扩散。
`Si=i(h)Φ (式5)
这里,Φ是随机的值,另外k是对应于边界频率ω
k的频率成分的号数。这样得到的由
(h)得到的矢量
象式6那样定义。
(式6)
通过将该
由IDFT(Inverse Discrete Fourier Transform:反向离散傅里叶变换)变换为时域信号,得到式7的
(式7)
该
是在进行相位定型化的只在高域加入相位波动的完成了相位操作的音调波形。式4的ρ(k)为常数0时,
为准对称波形。其样子由图3表示。
图4表示相位操作部35的内部构成。即设置了DFT部351,其输出与相位定型部352相连。相位定型部352的输出与相位扩散部353相连,其输出与IDFT部354相连。DFT部351完成式1向式2的转换,相位定型部352完成式3向式4的转换,相位扩散部353完成式5的转换,IDFT部354完成式6向式7的转换。
这样得到的完成了相位操作的音调波形通过波形重叠部36以所期望的间隔排列,重叠地配置。此时,为达到要求的振幅也进行振幅调制。
以上说明的从波形分离开始至重叠为止的样子在图5以及图6中表示。图5表示没有改变音调的情况,图6表示改变音调的情况。另外在图7~图9中,对于字面“ぉ前たちがねぇ(是你们啊)”,表示了原始声音、没有加入波动的合成声音、在“ぉ前”的“ぇ”处加入波动的合成声音的频谱表示。
<加入相位波动的时间以及频域的例子>
图1所示的接口中,通过在对话处理部20中控制由相位操作部35加入波动的时间以及频域,能对合成声音赋予各种各样的感情。对合成声音赋予的感情种类和加入波动的时间以及频域的对应关系的一例在图10中表示。另外在图11中表示在“すみません、ぉつしゃつていることがわかりません(对不起,不明白您所说的话)”这样的合成声音中融入强烈道歉的感情时,加入的波动的量。
<对话的例子>
这样的图1所示的对话处理部20根据状况决定赋予合成声音的感情的种类,在对应于其感情的种类的时间以及频域上加入相位波动,由此对相位操作部35进行控制。这样,与使用者之间进行的对话变得顺利。
将图1所示的声音对话型接口安装在数字电视机上时和使用者之间进行的对话例子在图12中表示。当催促使用者选择电视节目时,生成融入了快乐的感情(中度喜悦)的合成声音“请选择想看的电视节目”。对于此,使用者情绪良好地说“那选择体育节目吧”。利用声音识别部10识别该使用者的声音,生成为了让使用者确认其结果的合成声音“是新闻节目啊”。在该合成声音中也融入快乐的感情(中度喜悦)。因为识别结果是错误的,所以使用者再次说出想看的节目“不对,是体育节目呀”。在这里因为是第1次的误识别,所以使用者的感情没有特别的变化。利用声音识别部10识别该使用者的声音,从其结果中对话处理部20判断出上次的识别结果是错误的,然后为了让使用者确认再次的识别结果的合成声音“对不起,是经济节目吧”在声音合成部30被生成。因为这次是第2次的确认,所以在合成声音中融入抱歉的感情(中度抱歉)。虽然识别结果再次产生错误,但因为是抱歉的合成声音,所以使用者没有感觉到不快而是以普通的感情第三次说出想看的节目“不对不对,是体育节目”。对话处理部20判断出在声音识别部10中对该声音不能进行正确的识别。因为连续2次识别失败,对话处理部20为声音合成部30生成催促使用者不是利用声音而是利用遥控器的按钮选择节目的合成声音“对不起,因为不能识别您所说的话,所以能否请您利用按钮选择节目呢”。在这里融入比上次更加抱歉的感情(强度道歉)。于是使用者没有感觉到不快,而利用遥控器的按钮选择节目。
根据状况使合成声音中带有适当的感情时和使用者的对话的过程就是以上那样。与此相对,不管在什么样的状况下都以所谓生硬语调的合成声音应对时和使用者的对话过程如图13所示。用这样的无表情、无感情的合成声音应对时,随着反复的误识别会而让使用者感到强烈的不快感。随着不快感的增强,使用者的声音也产生变化,其结果使在声音识别部10的识别精度也降低。
<效果>
为了表现感情人们使用的方法是各种各样的。例如面部的表情和身体晃动、手摆动都是这样,在声音中也有抑扬顿挫模式、速度、停顿的方式等所有的方法。但是,人是采用所有这些来发挥表现力的,而不止是采用音调模式的变化来表现感情的。即为了通过声音合成进行有效的感情表现,在音调模式以外也有必要利用各种各样的表现方法。如果观察融入感情说话的声音会发现柔和的声音实际上被有效的使用。柔和的声音中包含较多的杂音成分。作为生成杂音的方法大体上有以下的2种方法。
1.补足杂音的方法
2.随机调制相位的方法(加入波动)
1的方法虽简单但音质不好。另一方面,2的方法音质良好,最近受到关注。因此在第1实施方式中采用2的方法,有效的实现柔和的声音(包含杂音的合成声音),提高了合成声音的自然度。
另外因为利用从自然的声音波形中分离出来的音调波形,所以能再现自然声音的频谱的微细构造。进一步,音调变更时产生的杂音感,通过由相位定型部352将声音波形中本来具有的波动成分除去能被抑制,关于其另一方面,由于除去波动产生的蜂鸣音的音质,通过相位扩散部353重新对其高域成分加入相位波动能够降低。
<变形例>
这里在相位操作部35中是按照1)DFT、2)相位定型化、3)高域相位扩散、4)IDFT这样的过程进行处理的。但是,相位定型部和高域相位扩散没有必要同时进行,根据诸条件进行IDFT之后重新进行相当于相位扩散的处理有时是方便的。对于这样的情况,将在相位处理部35的处理变换为1)DFT、2)相位定型化、3)IDFT、4)加入相位波动这样的过程。这种情况下相位操作部35的内部构成在图14中表示。该构成的情况省略了相位扩散部353,代之以进行时域处理的相位波动赋予部355连接在IDFT354之后。相位波动赋予部355通过图14(b)那样的构成能够实现。另外,作为在完全的时域处理,以图15所示的构成实现也可以。该实现例的动作在以下说明。
式8是2阶全通电路的传递函数。
(式8)
如果采用该电路,能得到以ωc为中心,具有式9的峰值的群迟延特性。
T(1+r)/T(1-r) (式9)
因此,适当地在高频范围设定ωc,通过对每个音调波形在0<r<1的范围内随机改变r的值,能够对相位特性加入波动。在式8以及式9中T是采样周期。
(第2实施方式)
在第1实施方式中,相位定型化和高域相位扩散是在分开的步骤中进行的。如果应用这些,在暂时通过相位定型化被整形的音调波形上施加某种其他的操作都是可能的。在第2实施方式中,其特征是通过将暂时整形的音调波形集群化,进行数据存储容量的削减。
根据第2实施方式的接口包括图16所示的声音合成部40,代替图1所示的声音合成部30。其他的构成要素和图1所示的相同。图16所示的声音合成部40包括:语言处理部31、韵律生成部32、音调波形选择部41、代表音调波形数据库(DB)42、相位波动赋予部355和波形重叠部36。
在代表音调波形DB42中事先存储通过图17(a)所示装置(与声音对话型接口分开独立的装置)得到的代表音调波形。在图17(a)所示装置中,设置了波形DB34,其输出与波形分离部33相连。该两者的动作和第1实施方式完全相同。接着,其输出与相位波动除去部43相连接,在该阶段音调波形被变形。相位波动除去部43的构成在图17(b)中表示。这样的整形的全部音调波形在音调波形DB43中暂时存储。全部的音调波形的整形进行后,音调波形DB44中存储的音调波形通过集群部45分为相似波形的集群,只将各集群的代表波形(例如,与集群的中心最接近的波形)存储在代表音调波形DB42中。
接着由音调波形选择部41选择与所希望的音调波形形状最相近的代表音调波形,输入到相位波动赋予部355,在加入了高域的相位波动之后,在波形重叠部36被变换为合成声音。
象以上这样,通过除去相位波动,进行音调波形整形处理,音调波形之间成为相似的波形的几率增加,其结果认为通过集群使存储容量的削减效果增大。即能够削减为存储音调波形数据所必要的存储容量(DB42的存储容量)。典型地通过使相位成分全部为0将音调波形对称化,波形成为相似波形的几率提高,这点从直觉上也能理解。
有很多集群化的方法,因为一般地集群化是定义数据间的距离尺度,距离近的数据之间作为一个集群聚集这样的操作,所以在此也并非仅限定于上述方法。作为距离尺度,利用音调波形之间的欧几里德距离等即可。作为集群化方法的例子有在文献“Classification and Regression Trees(分类与回归树),Leo Breiman著、CRC Press、ISBN:0412048148”中所记载的方法。
(第3实施方式)
通过集群化带来存储容量的削减效果,即集群化效率的提高除了通过除去相位波动对音调波形整形之外,进行振幅以及时间长度的标准化也是有效的。在第3实施方式中,存储音调波形时,设计了振幅以及时间长度标准化的步骤。另外,读取音调波形时,采用将振幅以及时间长度与合成声音配合进行适当变换的构成。
采用第3实施方式的接口包括图18(a)所示的声音合成部50,代替图1所示的声音合成部30。其他的构成要素和图1所示相同。图18(a)所示的声音合成部50是在图16所示的声音合成部40的构成要素上进一步增加了变形部51。变形部51设置在音调波形选择部41和相位波动赋予部355之间。
代表音调波形DB42中事先存储由图18(b)所示装置(和声音对话型接口是分开独立的装置)得到的代表音调波形。图18(b)所示装置在图17(a)所示装置的构成要素上进一步增加了标准化部52。标准化部52设置在相位波动除去部43和音调波形DB44之间。标准化部52将输入的整形完成之后的音调波形强制性地变换为定的长度(例如200采样)以及特定的振幅(例如30000)。即输入到标准化部52的所谓的整形完成的音调波形从标准化部52输出时,已经被全部聚集为相同的长度以及相同的振幅。因此,代表音调波形DB42中存储的波形也全部是相同的长度以及相同的振幅。
因为由音调波形选择部42选择的音调波形当然也是相同长度以及相同振幅,所以在变形部51中被变形为对应于声音合成目的的长度以及振幅。
在标准化部52以及变形部51中,例如对于时间长度的变形可以采用图19所示的线性插值,对于振幅的变形可以将各采样的值乘以常数即可。
通过第3实施方式,音调波形的集群化效率提高,与第2实施方式相比,如果是相同的音质,能再削减存储容量,如果是相同的存储容量则能更加提高音质。
(第4实施方式)
在第3实施方式中表示了为了提高集群化效率,对于音调波形整形处理采用了振幅以及时间长度的标准化的方法。在第4实施方式中表示进一步采用不同的方法提高集群化效率的方法。
至此为止的实施方式中,集群化的对象是时域上的音调波形。即相位波动除去部43按照以下方法进行波形整形:步骤1)将音调波形通过DFT变换为频域的信号表现;步骤2)除去在频域上的相位波动;步骤3)通过IDFT再次回到时域的信号表现。此后,集群化部45将整形后的音调波形集群化。
另一方面,在声音合成处理中相位波动赋予部355以图14(b)的实现方式,是进行了以下处理:步骤1)将音调波形经过DFT变为频域的信号表现;步骤2)在频域上高域的相位扩散;步骤3)通过IDFT再次回到时域的信号表现。
在此表明,因为相位波动除去部43的步骤3和相位波动赋予部355的步骤1是相互的逆变换,所以可以省略通过在频域实施集群化。
基于这样的想法构成的第4实施方式如图20所示。在图18中设置相位波动除去部43的部分置换为DFT部351、相位定型部352。其输出与标准化部相连。在图18中的标准化部52、音调波形DB44、集群化部45、代表音调波形DB42、选择部41、变形部51分别置换为标准化部52b、音调波形DB44b、集群化部45b、代表音调波形DB42b、选择部41b、变形部51b。另外在图18中设置相位波动赋予部355的部分置换为相位扩散部353和IDFT部354。
象标准化部52b那样加入了角标b的构成要素意味着在图18的构成中进行的过程置换为在频域的处理。其具体的处理以下进行说明。
标准化部52b将音调波形在频域进行振幅标准化,即从标准化部52b输出的音调波形是在频域使其变为全部相同的振幅。例如,音调波形以式2那样在频域表现时,以式10表示的值都相同,进行一致性处理。
(式10)
音调波形DB44b将进行了DFT的音调波形以其在频域的表现的状态存储。集群部45b也是以音调波形频域的表现状态集群化。为了进行集群化有必要定义音调波形间的距离D(i,j),例如象式11那样定义即可。
(式11)
式中,w(k)是频率权重函数。通过进行频率加权,能使由于频率引起的听觉感的差异反映在距离计算中,能更加提高音质。例如,因为听觉感在非常低的频带内的差异是感觉不到的,所以在该频带内的幅度差也可以不包含在距离计算中。进一步,采用在文献“新版听觉和声音(社团法人电子通信学会1970年)的第2卷听觉的心理、2.8.2等噪音曲线、图2.55(147页)”中介绍的听感校正曲线等也可以。同书中记载的听感校正曲线的例子在图21中表示。
另外与第3实施方式相比,因为DFT、IDFT的步骤都减少了一次,所以具有计算成本降低这样的优点。
(第5实施方式)
合成声音时,在声音波形上加入一些变形是必要的。即有必要变换为和原始声音不同的韵律。在第1~第3实施方式中是将声音波形直接进行变换的。作为其方法采用了波形分离和波形重叠。但是,通过采用先分析波形,置换为参数之后再合成修正这样的,即所谓参数的声音合成法,能使在进行韵律的变形时产生的劣化减少。在第5实施方式中,提供了先分析声音波形后,分离参数和音源波形的方法。
根据第5实施方式的接口包括图22所示的声音合成部60,代替图1所示的声音合成部30。其他的构成要素和图1所示的相同。图22所示的声音合成部包括:语言处理部31、韵律生成部32、分析部61、参数存储器62、波形DB34、波形分离部33、相位操作部35、波形重叠部36和合成部63。
分析部61将来自波形DB34的声音波形分为声道和声带两种成分,即分离为声道参数和音源波形。由分析部61分开的两种成分之中,声道参数存储在参数存储器62中,音源波形输入到波形分离部33中。波形分离部33的输出经由相位操作部35输入到波形重叠部36。相位操作部35的构成和图4相同。波形重叠部36的输出是将被相位定型化以及相位扩散的音源波形变形为目的韵律的波形。该波形输入到合成部63中。合成部63适当的利用由参数存储部62输出的参数将其变换为声音波形。
分析部61以及合成部63可以利用所谓的LPC分析合成***等,能精度良好的分离声道和声带的特性的也可以。优选适用文献“An ImprovedSpeech Analysis-Synthesis Algorithm based on the Autoregressive withExogenous Input Speech Production Model(改进的基于自动回归的外部输入语音产生模型的声音分析一合成算法),大塚等、ICSLP2000”中所示的ARX分析合成***。
通过采用这样的构成,即使增大韵律的变形量音质的劣化也很少,能合成进一步具有自然的波动的良好的声音。
另外也可以在相位操作部35中实施和第1实施方式中同样的变形。
(第6实施方式)
在第2实施方式中表示了将整形后的波形通过集群化削减了数据存储容量的方法。对于第5实施方式也能采用同样的想法。
根据第6实施方式的接口包括图23所示的声音合成部70,代替图1所示的声音合成部30。其他的构成要素和图1所示的相同。在图23所示的代表音调波形DB71中事先存储通过图24所示装置(与声音对话型接口是分开独立的装置)得到的代表音调波形。在图23以及图24所示的构成中,对应于图16以及图17(a)所示的构成增加了分析部61和参数存储器62以及合成部63。通过这样的构成,与第5实施方式相比,能削减数据存储容量,进一步通过进行分析和合成,与第2实施方式相比,由韵律变形引起的音质劣化有可能减少。
另外作为该构成的优点,通过分析声音波形变换为音源波形,即由于从声音中除去了声音韵律信息,所以集群化的效率比声音波形的情况更提高数倍。也就是说,从集群化效率上面来说也期望能比第2实施方式以较少的数据存储容量或者高音质实现。
(第7实施方式)
在第3实施方式中表示了通过音调波形的时间长度以及振幅标准化提高集群化的效率,由此削减了数据存储容量的方法。对于第6实施方式也能适用同样的想法。
根据第7实施方式的接口包括图25所示的声音合成部80,代替图1所示的声音合成部30。其他的构成要素和图1所示的相同。在图25所示的代表音调波形DB71中事先存储通过图26所示装置(与声音对话型接口是分开独立的装置)得到的代表音调波形。在图25以及图26所示的构成中,对应于图23以及图24所示的构成增加了标准化部52和变形部51。通过这样的构成,与第6实施方式相比,能提高集群化效率,即使相同的音质也可能以较少的数据存储容量存储,另外,如果是相同的存储容量能够生成更好音质的合成声音。
和第6实施方式同样,通过从声音中除去声音韵律信息,集群化效率更加提高,进一步能实现高音质或者小存储容量。
(第8实施方式)
在第4实施方式中表示了通过将音调波形在频域集群化提高集群化效率的方法。对于第7实施方式也能适用同样的想法。
根据第8实施方式的接口包括由图27所示的相位扩散部353以及IDFT部354,代替图25所示的相位波动赋予部355。另外代表音调波形DB71、选择部41、变形部51分别置换为代表音调波形DB71b、选择部41b、变形部51b。代表音调波形DB71b中事先存储通过图28所示装置(与声音对话型接口是分开独立的装置)得到的代表音调波形。图28的装置包括DFT部351和相位定型部352,代替图26所示装置的相位波动除去部43。另外,标准化部52、音调波形DB42、集群化部45、代表音调波形DB71分别置换为标准化部52b、音调波形DB42b、集群化部45b、代表音调波形DB71b。加入了角标b的构成要素意味着和在第4实施方式中所说明的同样,进行在频域的处理。
通过这样的构成,除了第7实施方式的效果外还能发挥以下新增的效果。即通过在频域的集群化,和在第4实施方式中所说明的同样,通过进行频率加权,能使听觉感的差异被反映在距离计算中,能更加提高音质。另外与第7实施方式相比,因为DFT、IDFT的步骤都减少了一次,所以计算成本降低。
在以上说明的第1~第8实施方式中,作为相位扩散方法采用了式1~式7所示的方法以及式8~式9所示的方法,除此之外的方法,采用例如特开平10-97287号公报中所记载的方法,文献“An Improved SpeechAnalysis-Synthesis Algorithm based on the Autoregressive with ExogenousInput Speech Production Model(改进的基于自动回归的外部输入语音产生模型的声音分析一合成算法),大塚等、ICSLP2000”中所记载的方法等也可以。
在波形分离部33中采用了Hanning窗函数,也可以采用其他的窗函数(例如Hamming窗函数、Blackman窗函数等)。
作为将音调波形在频域和时域上相互变换的方法采用了DFT以及IDFT,但也可以采用FFT(Fast Fourier Transform:快速傅里叶变换)以及IFFT(Inverse Fast Fourier Transform:逆快速傅里叶变换)。
作为标准化部52以及变形部51的时间长度变形采用了线性插值,但也可以采用其他的方法(例如2次插值、样条差值等)。
相位波动赋予部43和标准化部52的连接顺序以及变形部51和相位波动赋予部53的连接顺序之中的任何一个相反也可以。
从第5到第7实施方式中,没有特别触及到作为分析对象的原始声音的性质,但由于原始声音的性质每种分析方法都会产生种种音质的劣化。例如,在上述示例的ARX分析合成***中,当作为分析对象的原始声音包含过多的轻柔声音的成分时,分析精度降低,发生生成咕噜咕噜这样的不圆滑的合成声音的问题。这里,通过应用本发明,发明者发现能够减轻咕噜咕噜的感觉,变为平滑的音质。其原因虽然还未探明,但可以认为可能是对于轻柔声音成分较强的声音,分析误差被集中在音源波形中,其结果随机的相位成分被过多的加在音源波形中的原因。也就是说,考虑是否是因为根据本发明,通过从音源波形中暂时除去相位波动成分,能够有效的除去分析误差。当然即使在这种情况下,通过再次加入随机的相位成分,再现原始声音中所包含的轻柔成分是可能的。
另外关于式4中的ρ(k),以具体例子采用常数0的情况为中心进行了说明,但没有必要限定为常数0。只要ρ(k)对于全体的音调波形来说是相同的,采用什么都可以。例如k的1阶函数、2阶函数、其他什么样的函数都可以。