CN102473416A

CN102473416A - 音质变换装置及其方法、元音信息制作装置及音质变换***

Info

Publication number: CN102473416A
Application number: CN2011800026487A
Authority: CN
Inventors: 广濑良文; 釜井孝浩
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2010-06-04
Filing date: 2011-03-16
Publication date: 2012-05-23
Also published as: JP5039865B2; JPWO2011151956A1; US20120095767A1; WO2011151956A1

Abstract

音质变换装置具备：声道音源分离部(101)，将输入声音分离为声道信息和音源信息；开口度计算部(102)，根据元音的声道信息计算开口度；目标元音数据库存储部(103)，存储有多个关于目标讲话者的、包括元音种类、开口度的信息和声道信息的元音信息；开口度一致度计算部(104)，计算所计算出的开口度与存储于目标元音数据库存储部(103)中的各元音信息所包含的开口度的一致度；目标元音选择部(105)，基于一致度，从存储在目标元音数据库存储部(103)中的多个元音信息之中选择元音信息；元音变形部(106)，使用包含在所选择的元音信息中的声道信息，将包含在输入声音中的元音的声道信息变形；以及合成部(108)，使用将元音的声道信息变形后的输入声音的声道信息和音源信息，将声音合成。

Description

音质变换装置及其方法、元音信息制作装置及音质变换***

技术领域

本发明涉及将声音的音质变换的音质变换装置。特别涉及通过将声道信息变换来变换声音的音质的音质变换装置。

背景技术

近年来，因为声音合成技术的发展，能够制作非常高音质的合成音。但是，以往的合成音的用途中，将新闻文章以播音员语调朗读等的统一的用途为中心。

另一方面，在便携电话的服务等中，提供了代替便携电话的来电音而使用名人的声音消息的服务。这样，有特征的声音作为内容流通。例如，所谓有特征的声音，是个人再现性较高的合成音、因儿童等的年岁、或者地域特有的方言等而具有特征性的韵律及音质的合成音等。这样，为了增加个人间的通讯的乐趣，对于制作特征性的声音的要求提高。

人的声音如图17所示，通过声带1601的振动生成的音源波形当通过由声门1602到***1603构成的声道1604时、通过受到舌等调音器官的缩窄等的影响而生成。分析合成型声音合成法通过基于这样的声音的生成原理分析声音，将声音分离为声道信息和音源信息，通过将分离的声道信息和音源信息变形，能够变换合成音的音质。例如，作为声音的分析方法，使用称作声道音源模型的模型。在通过声道音源模型的分析中，将声音基于其生成过程分离为音源信息和声道信息。通过将分离的音源信息和声道信息分别变形，能够变换音质。

以往，作为使用少量的声音变换讲话者特征的方法，已知有按每个元音准备多个用来将元音谱包络变换的映射函数、使用基于前后音素的种类(音韵环境)选择的映射函数将谱包络变换来进行音质变换的音质变换装置(例如，参照专利文献1)。在图18中表示专利文献1中记载的以往的音质变换装置的功能性结构。

图18所示的以往的音质变换装置具备谱包络提取部11、谱包络变换部12、声音合成部13、声音标签赋予部14、声音标签信息存储部15、变换标签制作部16、音素间变换表推测部17、变换表选择部18和谱包络变换表存储部19。

谱包络提取部11从变换源讲话者的输入声音中提取谱包络。谱包络变换部12将由谱包络提取部11提取的谱包络变换。声音合成部13根据由谱包络变换部12变换后的谱包络合成变换目标讲话者的声音。

声音标签赋予部14赋予声音标签信息。声音标签信息存储部15将由声音标签赋予部14赋予的上述声音标签信息存储。变换标签制作部16基于存储在声音标签信息存储部15中的上述声音标签信息，制作表示用来变换谱包络的控制信息的变换标签。音素间变换表推测部17推测构成变换源讲话者的输入声音的音素间的谱包络变换表。变换表选择部18基于由变换标签制作部16制作的变换标签，从后述的谱包络变换表存储部19中选择谱包络变换表。谱包络变换表存储部19存储有作为已学习的元音的谱包络变换规则的元音谱包络变换表19a以及作为辅音的谱包络变换规则的辅音谱包络变换表19b。

变换表选择部18从元音谱包络变换表19a及辅音谱包络变换表19b中分别选择与构成变换源讲话者的输入声音的音素的元音及辅音对应的谱包络变换表。音素间变换表推测部17基于所选择的谱包络变换表，推测构成变换源讲话者的输入声音的音素间的谱包络变换表。谱包络变换部12基于上述选择的谱包络变换表和推测的音素间的谱包络变换表，将由谱包络提取部11从变换源讲话者的输入声音提取的谱包络变换。声音合成部13根据变换后的谱包络合成变换目标讲话者的音质的声音。

现有技术文献

专利文献

专利文献1：特开2002-215198号公报

发明内容

发明要解决的课题

在上述专利文献1的音质变换装置中，为了进行音质变换，基于变换源讲话者发声的声音的前后的音素的信息即音韵环境选择用来变换谱包络的变换规则，通过将所选择的变换规则适用于输入声音的谱包络，将输入声音的音质变换。

但是，仅通过音韵环境决定作为目标的声音应拥有的音质是困难的。

自然的发声的音质受到声音的讲话速度、讲话中的位置、或者重音句内的位置等各种各样的因素影响。例如，在自然的讲话中，有句首清楚且高清晰度地发声、而在句尾发生发音的慵懒而清晰度下降的倾向。或者，在变换源讲话者的讲话中强调了某个单词的情况下，该单词的音质与没有协调的情况相比有清晰度变高的倾向。

图19是表示由同一讲话者进行的之前的音素为同一个的相同元音的声道传递特性的曲线图。在图19中，横轴表示频率，纵轴表示谱强度。

曲线201表示发声“めまいがします(/memaigashimasxu/)”时的“めまい”的/ma/的/a/具有的声道传递特性。曲线202表示发声“お湯が出ません(/oyugademaseN/)”时的/ma/的/a/具有的声道传递特性。根据该曲线图可知，即使在具有表示共振频率的共振峰(上方向的峰值)的位置及强度相同的之前的音素的元音彼此中比较，声道传递特性也较大地不同。

作为其原因，可以举出，具有由曲线201表示的声道传递特性的元音/a/接近于句首、并且是包含在内容词(content word)中的音素，相对于此，具有由曲线202表示的声道传递特性的元音/a/接近于句尾、并且是包含在功能词(function word)中的音素。此外，在听感上，具有由曲线201表示的声道传递特性的元音/a/听起来更清晰。这里，所谓功能词，是具有语法性的作用的词，在英语中包括前置词(preposition)、连接词(conjunction)、冠词(article)、助动词(adverb)等。此外，所谓内容词，是除此以外的一般性的意思的词，在英语中包括名词(noun)、形容词(adjective)、动词(verb)、副词(adverb)等。

这样，在自然的讲话中，根据文章内的位置而发声方法不同。即，存在“干脆地发声、清晰的声音”或“慵懒地发声、不清晰的声音”等有意识或无意识的发声方法的差异。将这样的发声方法的差异以后称作“发声形态”。

发声形态不仅受到音韵环境、而且受到其他各种各样的语言性及生理性的影响而变动。

专利文献1的音质变换装置由于没有考虑这样的发声形态的变动、而使用音韵环境选择映射函数并进行音质变换，所以音质变换后的声音的发声形态与变换源讲话者的发声具有的发声形态不同。结果，音质变换后的声音的发声形态的时间变化模式与变换源讲话者的发声的时间变化模式不同，成为非常不自然的声音。

对于该发声形态的时间变化，使用图20的概念图进行说明。图20(a)对于作为输入声音发声的声音“めまいがします/memaigashimasxu/”表示包含在声音中的各元音的发声形态(清晰度)的变化。X的区域是清楚的发声，表示清晰度较高的音韵。Y的区域是慵懒的发声，表示清晰度较低的音韵。例如，这样前半是清晰度较高的发声形态、后半是清晰度较低的发声形态。

另一方面，图20(b)是仅根据音韵环境选择变换规则而进行音质变换的情况下的变换声音具有的发声形态的时间变化的示意图。由于仅以音韵环境为基准选择变换规则，所以发声形态与输入声音的特征无关地变动。例如，在如图20(b)那样发声形态变动的情况下，能够得到清楚而清晰度较高地发声的元音(/a/)和慵懒而清晰度较低地发声的元音(/e/、/i/)交替地反复那样的发声形态的变换声音。

此外，图21表示对于发声“お湯が出ません(/oyugademaseN/)”的声音使用清楚而清晰度较高地发声的情况下的/a/进行音质变换的情况下的共振峰401的运动的一例。

在图21中，横轴表示时刻，纵轴表示共振峰频率，从频率较低一方起，表示第1、第2及第3共振峰。可知在/ma/中，进行了向别的发声形态(清楚而清晰度较高地发声)的元音/a/的变换后的共振峰402与原来的发声的共振峰401相比频率较大地不同。在这样实施共振峰频率较大地不同的变换的情况下，如图中的虚线所示，各共振峰402的时间性的运动变大，所以不仅音质不同，音质变换后的音质也变差。

如果这样发声形态的时间变化模式与输入声音的时间变化模式不同，则不能保持音质变换后的声音中的发声形态的变化的自然性，结果具有音质变换声音的自然性大为恶化的问题。

本发明是解决上述问题的，目的是提供一种通过一边保持变换源讲话者的发声拥有的发声形态的时间性变动一边变换音质、由此音质变换时的自然性即流畅度不下降的音质变换装置。

用于解决课题的手段

有关本发明的一技术方案的音质变换装置，是变换输入声音的音质的音质变换装置，具备：声道音源分离部，将输入声音分离为声道信息和音源信息；开口度计算部，根据由上述声道音源分离部分离的上述输入声音所包含的元音的声道信息，计算与口腔内的容积对应的开口度；目标元音数据库存储部，存储有多个元音信息，该元音信息与作为变换上述输入声音的音质的目标的目标讲话者相关，且包括元音种类、开口度的信息和声道信息；开口度一致度计算部，计算元音种类相互一致的、上述开口度计算部计算出的开口度、与包含在存储于上述目标元音数据库存储部中的各上述元音信息中的开口度的一致度；目标元音选择部，基于上述开口度一致度计算部计算出的一致度，从存储在上述目标元音数据库存储部中的多个元音信息之中选择元音信息；元音变形部，使用包含在上述目标元音选择部选择的元音信息中的声道信息，将包含在上述输入声音中的元音的声道信息变形；合成部，使用在上述元音变形部中将元音的声道信息变形后的上述输入声音的声道信息和由上述声道音源分离部分离后的上述音源信息，将声音合成。

根据该结构，选择具有与输入声音的开口度一致的开口度的元音信息。因此，能够选择发声形态(清楚与清晰度较高的发声或慵懒的清晰度较低的发声)与输入声音相同的元音。因而，在将输入声音的音质变换为目标音质时，能够在保存输入声音的发声形态的时间性变化模式的同时变换为目标的音质。结果，音质变换后的声音保存有发声形态的变化的时间模式，所以能够进行不使音质变换时的自然性(流畅度)变差的音质变换。

优选的是，上述元音信息还包括元音的音韵环境；上述音质变换装置还具备计算元音种类相互一致的、上述输入声音的音韵环境与包含在存储于上述目标元音数据库存储部中的各上述元音信息中的音韵环境之间的距离的音韵环境距离计算部；上述目标元音选择部使用上述开口度一致度计算部计算出的一致度和上述音韵环境距离计算部计算出的距离，从存储在上述目标元音数据库存储部中的多个元音信息之中选择用来将包含在上述输入声音中的元音的声道信息变换的元音信息。

根据该结构，通过在考虑音韵环境的距离和开口度的一致度的两者的同时选择目标元音的元音信息，能够在考虑音韵环境的基础上、还考虑开口度。因此，与仅根据音韵环境选择元音信息的情况相比，能够将自然的发声形态的时间变化模式再现，所以能够得到自然性较高的音质变换声音。

更优选的是，上述目标元音选择部使用上述开口度一致度计算部计算出的一致度和上述音韵环境距离计算部计算出的距离，使得存储在上述目标元音数据库存储部中的上述元音信息的数量越多、则上述距离对于上述一致度的权重越大，基于被加权的上述一致度及上述距离，从存储在上述目标元音数据库存储部中的多个元音信息之中选择用来将包含在上述输入声音中的元音的声道信息变换的元音信息。

根据该结构，在选择元音信息时，存储在目标元音数据库存储部中的元音信息的数量越大，使音韵环境的距离的权重越大。由此，通过在存储在目标元音数据库存储部中的元音信息的数量较少的情况下以开口度的一致度为优先，在没有音韵环境的类似性较高的元音的情况下，也通过选择开口度一致度较高的元音的元音信息，由此选择发声形态一致的元音信息。由此，整体上能够再现自然的发声形态的时间变化模式，所以能够得到自然性较高的音质变换声音。

另一方面，在存储在目标元音数据库存储部中的元音信息的数量较多的情况下，通过在考虑音韵环境的距离和开口度的一致度的两者的同时选择目标元音的元音信息，能够在考虑到音韵环境的基础上、还考虑开口度。因此，与以往的仅根据音韵环境选择元音信息的情况相比，能够将自然的发声形态的时间变化模式再现，所以能够得到自然性较高的音质变换声音。

优选的是，上述开口度一致度计算部将元音种类相互一致的、上述开口度计算部计算出的开口度和包含在存储于上述目标元音数据库存储部中的各上述元音信息中的开口度按照讲话者归一化，作为上述一致度，计算归一化后的开口度彼此的一致度。

根据该结构，使用按照讲话者归一化的开口度计算开口度的一致度。因此，能够在区别发声形态不同的讲话者(例如清楚、清晰地讲话的讲话者和以模糊的声音叽叽咕咕讲话的讲话者)的基础上计算一致度。由此，能够选择与讲话者的发声形态相匹配的适当的元音信息，所以能够按照讲话者再现自然的发声形态的时间变化模式，能够得到自然性较高的音质变换声音。

此外，也可以是，上述开口度一致度计算部将元音种类相互一致的、上述开口度计算部计算出的开口度和包含在存储于上述目标元音数据库存储部中的各上述元音信息中的开口度按照元音的种类归一化，作为上述一致度，计算归一化后的开口度彼此的一致度。

根据该结构，使用按照元音的种类归一化的开口度计算开口度的一致度。因此，能够在区别元音的种类的基础上计算一致度。由此，能够按照元音选择适当的元音信息，所以能够再现自然的发声形态的时间变化模式，能够得到自然性较高的音质变换声音。

还可以是，上述开口度一致度计算部作为上述一致度，计算元音种类相互一致的、上述开口度计算部计算出的开口度的时间方向的差、与包含在存储于上述目标元音数据库存储部中的各上述元音信息中的开口度的时间方向的差的一致度。

根据该结构，能够基于开口度的变化计算开口度的一致度。因此，能够在兼顾之前的元音的开口度的基础上选择元音信息，所以能够再现自然的发声形态的时间变化模式，能够得到自然性较高的音质变换声音。

有关本发明的另一技术方案的音质变换装置，是变换输入声音的音质的音质变换装置，具备：声道音源分离部，将输入声音分离为声道信息和音源信息；开口度计算部，根据由上述声道音源分离部分离的上述输入声音所包含的元音的声道信息，计算与口腔内的容积对应的开口度；开口度一致度计算部，参照存储在目标元音数据库存储部中的、分别关于作为将上述输入声音的音质变换的目标的目标讲话者的、包括元音种类、开口度的信息和声道信息的多个元音信息，计算元音种类相互一致的、上述开口度计算部计算出的开口度与包含在各上述元音信息中的开口度的一致度；目标元音选择部，基于上述开口度一致度计算部计算出的一致度，从存储在上述目标元音数据库中的多个元音信息之中选择元音信息；元音变形部，使用包含在上述目标元音选择部选择的元音信息中的声道信息，将包含在上述输入声音中的元音的声道信息变形；合成部，使用在上述元音变形部中将元音的声道信息变形后的上述输入声音的声道信息和由上述声道音源分离部分离后的上述音源信息，将声音合成。

根据该结构，选择具有与输入声音的开口度一致的开口度的元音信息。因此，能够选择发声形态(清楚、清晰度较高的发声或者慵懒的清晰度较低的发声)与输入声音相同的元音。因而，在将输入声音的音质变换为目标音质时，能够在保存输入声音的发声形态的时间性变化模式的同时变换为目标的音质。结果，音质变换后的声音保存有发声形态的变化的时间模式，所以能够进行不使音质变换时的自然性(流畅度)变差的音质变换。

有关本发明的再另一技术方案的元音信息制作装置，是制作在输入声音的音质变换中使用的目标讲话者的元音信息的元音信息制作装置，具备：声道音源分离部，将目标讲话者的声音分离为声道信息和音源信息；开口度计算部，根据由上述声道音源分离部分离后的上述目标讲话者的声音的声道信息，计算与口腔内的容积对应的开口度；目标元音信息制作部，制作关于上述目标讲话者的、包括元音种类、上述开口度计算部计算出的上述开口度的信息和上述声道音源分离部分离后的上述声道信息的元音信息。

根据该结构，能够制作在音质变换中使用的元音信息。因此，能够将目标音质随时更新。

有关本发明的再另一技术方案的音质变换***，具备上述音质变换装置和上述目标元音信息制作装置。

此外，能够制作在音质变换中使用的元音信息。因此，能够将目标音质随时更新。

另外，本发明不仅能够作为具备这样的特征性的处理部的音质变换装置实现，还能够作为以包含在音质变换装置中的特征性的处理部执行的处理为步骤的音质变换方法实现。此外，也可以作为使计算机执行包含在音质变换方法中的特征性的步骤的程序实现。并且，当然可以使这样的程序经由CD-ROM(Compact Disc-Read Only Memory)等计算机可读取的非易失性的记录媒体或因特网等的通信网络流通。

发明效果

根据有关本发明的音质变换装置，在将输入声音的音质变换为目标音质时，能够维持输入声音的发声形态的时间性变化模式。即，在音质变换后的声音中，保存有发声形态的变化的时间模式，所以能够进行不使自然性(流畅度)变差的音质变换。

附图说明

图1是表示由发声形态引起的声道截面积函数的差异的图。

图2是表示有关本发明的实施方式的音质变换装置的功能性结构的框图。

图3是表示声道截面积函数的例子的图。

图4是表示发声内的开口度的时间变化模式的图。

图5是表示存储在目标元音DB存储部中的目标元音的构建方法的流程图。

图6是表示存储在目标元音DB存储部中的元音信息的例子的图。

图7是表示通过元音变形部变换的元音区间的PARCOR系数的图。

图8是表示通过元音变形部变换的元音的声道截面积函数的图。

图9是表示有关本发明的实施方式的音质变换装置执行的处理的流程图。

图10是表示有关本发明的实施方式的变形例1的音质变换装置的功能性结构的框图。

图11是表示有关本发明的实施方式的变形例1的音质变换装置执行的处理的流程图。

图12是表示有关本发明的实施方式的变形例2的音质变换***的功能性结构的框图。

图13是表示用来实施本发明的音质变换装置的最小结构的框图。

图14是表示存储在目标元音DB存储部中的元音信息的最小结构的图。

图15是表示音质变换装置的外观图。

图16是表示音质变换装置的硬件结构的框图。

图17是表示人的面部的剖视图。

图18是表示以往的音质变换装置的功能性结构的框图。

图19是表示由发声形态引起的声道传递特性的差异的图。

图20是表示发声形态的时间性变动的概念图。

图21是表示由发声形态的差异引起的共振峰频率的差异的一例的图。

具体实施方式

以下，参照附图对本发明的实施方式进行说明。

这里，以选择具有作为目标的声音(目标声音)的特性的元音的元音信息、对变换源的声音(输入声音)的元音区间的特性进行规定的运算来进行音质变换的方法为例进行说明。

如已经叙述那样，当进行音质变换时，保持输入声音中的发声形态(清楚和清晰度较高的发声或慵懒的清晰度较低的发声)的时间性变动是重要的。

发声形态例如受到声音的讲话速度、讲话内的位置、或者重音句内的位置影响。例如，在自然的讲话中，有句首清楚而清晰地发声、但在句尾发生慵懒而清晰度下降的倾向。此外，在变换源讲话者的讲话中，强调了某个单词的情况下的发声形态与没有强调的情况下的发声形态不同。

但是，实现在如以往技术那样考虑到输入声音的音韵环境的基础上、除此以外还全部考虑讲话内位置、重音句内位置、单词的强调等的信息的元音选择法是困难的。这是因为，如果涵盖这些全部的模式，则需要大量地准备目标声音的信息。

例如，在片段连接型的声音规则合成***中，当构建片段数据库时准备几小时到几十小时的声音的情况也不少。在音质变换中也可以考虑收集这样的大量的目标声音。但是，如果这样是可能的，则根本不用使用音质变换技术，只要使用收集到的目标声音构建片段连接型声音合成***就可以。

即，音质变换技术的优点在于，与片段连接型声音合成***相比使用少量的目标声音得到目标音质的合成音。

根据本实施方式所示的音质变换装置，能够使用少量的目标声音并且考虑上述的发声形态而克服其反面的课题。

图1(a)表示发声上述的“めまいがします(/memaigashimasxu/)”时的“めまい”的/ma/的/a/的对数声道截面积函数，图1(b)表示发声“お湯が出ません(/oyugademaseN/)”时的/ma/的/a/的对数声道截面积函数。

图1(a)的/a/由于接近于句首、此外是内容词(自立语)，所以作为发声形态被清楚和清晰地讲话。另一方面，图1(b)的/a/接近于句尾，作为发声形态而发生慵懒，清晰度较低。

本发明者们通过着意观察这样的发声形态的差异和对数声道截面积函数的关系，得到了发声形态与口腔内的容积有关联的认识。

即，有口腔内的容积越大则发声形态越清楚和清晰的倾向，反之，有口腔内的容积越小、则发声形态伴随着慵懒而清晰度越低的倾向。

通过将能够根据声音计算的口腔内容积作为开口度的指标，能够从目标声音数据中找出具有希望的发声形态的元音。通过将发声形态用称作口腔内容积的一个值表示，不再需要考虑讲话内位置、重音句内位置、或强调的有无等多种多样的组合的信息，所以能够从少量的目标声音数据中找出具有希望的特性的元音。进而，通过不是在全部的音素中区别音韵环境、而将特性接近的音素作为一个类别削减音韵环境的种类，能够减少目标声音数据的需要量。

用一句话讲，在本发明中，通过使用口腔内的容积而保存发声形态的时间性变动，实现自然性的恶化较少的音质变换。

音质变换装置具备声道音源分离部101、开口度计算部102、目标元音DB(数据库)存储部103、开口度一致度计算部104、目标元音选择部105、元音变形部106、音源生成部107和合成部108。

声道音源分离部101将输入声音分离为声道信息和音源信息。

开口度计算部102使用由声道音源分离部101分离后的元音的声道信息，根据输入声音的各时刻的声道截面积计算开口度。即，开口度计算部102根据由声道音源分离部101分离的输入声音的声道信息计算对应于口腔内的容积的开口度。

目标元音DB存储部103是存储有多个作为目标的音质的元音信息的存储装置。即，目标元音DB存储部103存储有多个关于作为变换输入声音的音质的目标的目标讲话者的、包括元音种类、开口度的信息和声道信息的元音信息。元音信息的详细情况在后面叙述。

开口度一致度计算部104计算元音种类相互一致的、开口度计算部102计算出的开口度、与包含在存储在目标元音数据库存储部103中的各元音信息中的开口度的一致度。

目标元音选择部105基于由开口度一致度计算部104计算出的一致度，从存储在目标元音DB存储部103中的元音信息之中，选择用来将包含在输入声音中的元音的声道信息变换的元音信息。

元音变形部106通过使用包含在由目标元音选择部105选择的元音信息中的声道信息将输入声音的各元音的声道信息变形，将音质变换。

音源生成部107使用由声道音源分离部101分离的音源信息生成音源波形。

合成部108使用由元音变形部106音质变换后的声道信息和由音源生成部107生成的音源波形，生成合成音。

通过以上那样构成的音质变换装置，能够在保持输入声音的发声形态的时间性变动的同时进行向目标元音DB存储部103保持的音质的变换。

以下，对各个构成单元详细地说明。

<声道音源分离部101>

声道音源分离部101对输入声音使用声道音源模型(将声音的发声机构模型化的声音生成模型)，进行声道信息和音源信息的分离。对于在分离中使用的声道音源模型没有限制，是怎样的模型都可以。

例如，在作为声道音源模型而使用线性预测模型(LPC模型)的情况下，是将声音波形的某个标本值s(n)根据比其靠前的p个标本值预测的模型，标本值s(n)如式1那样表示。

[数式1]

s (n) &cong; α_{1} s (n - 1) + α_{2} s (n - 2) + α_{3} s (n - 3) + . . . + α_{p} s (n - p)

(式1)

对于p个标本值的系数α_i(i＝n-1～n-p)可以通过使用相关法或共分散法等来计算。如果使用计算出的系数，则输入的声音信号能够通过式2生成。

[数式2]

S (z) = \frac{1}{A (z)} U (z)

(式2)

这里，S(z)是声音信号s(n)的z变换后的值，U(z)是音源信号u(n)的z变换后的值，是将输入声音S(z)用声道信息1/A(z)逆滤波后的信号。

声道音源分离部101还可以使用通过LPC分析分析出的线性预测系数计算PARCOR系数(偏自相关系数)。已知PARCOR系数与线性预测系数相比插补特性良好。PARCOR系数可以通过使用Levinson-Durbin-Itakura算法来计算。另外，PARCOR系数具有以下的两个特征。

(特征1)越是低次的系数则其变动对谱的影响越大，随着变为高次而变动的影响变小。

(特征2)高次的系数的变动的影响平坦地遍及全域。

在以下的说明中，作为声道信息而使用PARCOR系数进行说明。另外，使用的声道信息并不限定于PARCOR系数，也可以使用线性预测系数。还可以使用线谱对(LSP)。

此外，声道音源分离部101在作为声道音源模型而使用ARX模型的情况下，使用ARX(Autoregressive with exogenous input)分析将声道与音源分离。ARX分析使用数式音源模型作为音源这一点与LPC分析较大地不同。此外，在ARX分析中，与LPC分析不同，在分析区间内包含多个基本周期的情况下，也能够更正确地将声道与音源的信息分离(非专利文献1：大塚，粕谷，“考虑到音源脉冲列的健壮的ARX声音分析法”，日本音响学会志58卷7号，2002年，pp.386-397)。

在ARX分析中，声音通过式3所示的生成过程生成。在式3中，S(z)表示声音信号s(n)的z变换后的值。U(z)表示有声音源信号u(n)的z变换后的值。E(z)表示无声噪音音源e(n)的z变换后的值。即，在ARX分析中，有声音通过式3的右边第1项生成声音，无声音通过右边第2项生成。

[数式3]

S (z) = \frac{1}{A (z)} U (z) + \frac{1}{A (z)} E (z)

(式3)

此时，作为有声音源信号u(t)＝u(nTs)的模型，使用式4所示的声音模型。这里，Ts表示采样周期。

[数式4]

(式4)

a = \frac{27 AV}{4 O Q^{2} T 0},

b = \frac{27 AV}{4 O Q^{3} {T 0}^{2}}

其中，AV表示有声音源振幅，T0表示基本周期，OQ表示声门开放率。在有声音的情况下使用式4的第1项，在无声音的情况下使用式4的第2项。声门开放率OQ表示1基本周期中的声门开放的比例。已知有声门开放率OQ的值越大则为越柔和的声音的倾向。

ARX分析与LPC分析相比，具有以下的优点。

(优点1)由于对分析窗内分配对应于多个基本周期的音源脉冲列来进行分析，所以即使是女性或儿童等高音调声音也能够稳定地提取声道信息。

(优点2)特别是，基本频率F0与第1共振峰频率F1接近的/i/、/u/等窄元音的声道音源分离性能较高。

在有声音区间中，与LPC分析的情况同样，U(z)可以通过将输入声音S(z)用声道信息1/A(z)逆滤波来得到。

与LPC分析的情况同样，在ARX分析中，声道信息1/A(z)也是与LPC分析中的***函数相同的形式。因此，声道音源分离部101也可以通过与LPC分析同样的方法将声道信息变换为PARCOR系数。

<开口度计算部102>

开口度计算部102使用由声道音源分离部101分离的声道信息，对包含在输入声音中的元音系列按照元音计算对应于口腔内的容积的开口度。例如在“お湯が出ません(/oyugademaseN/)”的输入声音的情况下，对于元音系列(Vn＝{/o/，/u/，/a/，/e/，/a/，/e/})，按照元音计算开口度。

具体而言，开口度计算部102根据作为声道信息提取的PARCOR系数，使用式5计算声道截面积函数。

[数式5]

\frac{A_{i}}{A_{i + 1}} = \frac{1 - k_{i}}{1 + k_{i}} (i = 1, . . ., N)

(式5)

这里，k_i表示i次的PARCOR系数，A_i表示第i个声道截面积，设为A_N+1＝1。

图3是表示某个发声的元音/a/的对数声道截面积函数的图。将从声门到***的声道划分为11个区间(区段)(N＝10)，横轴表示区段号码，纵轴表示对数声道截面积。此外，区段11表示声门，区段1表示***。

在该图中，阴影区域可以大致考虑作口腔内。所以，如果将区段1到区段T考虑作口腔内(在图3中是T＝5)，则开口度C可以由式6定义。这里，T优选的是根据LPC分析或ARX分析的次数而变更。例如在10次LPC分析的情况下，优选的是3至5左右。但是，关于具体的次数并没有限定。

[数式6]

C = Σ_{i = 1}^{T} A_{i}

(式6)

开口度计算部102对包含在输入声音中的各元音计算由式6定义的开口度C。或者，也可以如式7所示那样通过对数截面积和计算。

[数式7]

C = Σ_{i = 1}^{T} \log A_{i}

(式7)

在图4中，表示在“めまいがします(/memaigashimasxu/)”的发声中按照式6计算出的开口度的时间性变化。

这样，开口度随时间而变动，如果将该时间变化模式破坏，则变得不自然。

通过使用这样用声道截面积函数计算的开口度(口腔内的容积)，不单单仅是***的打开状况，能够也考虑不能从外界直接观测的口腔内的形状(例如舌的位置)。

<目标元音DB存储部103>

目标元音DB存储部103是存储有在音质变换时作为目标的音质的元音信息的存储装置。元音信息假设预先准备并存储在目标元音DB存储部103中。关于存储在目标元音DB存储部103中的元音信息的构建例，使用图5的流程图进行说明。

在步骤S101中，收录使具有作为目标的音质的讲话者朗读文章的文集。文章数并没有限定，收录几篇到几十篇规模的声音。收录声音，以使得对于1种元音得到至少两个以上的发声。

在步骤S102中，对收录的文集的声音进行声道音源分离。具体而言，使用声道音源分离部101将朗读的文集的声音的声道信息分离。

在步骤S103中，从在步骤S102中分离的声道信息中提取相当于元音的区间。提取方法没有特别限定。既可以由人提取元音区间，也可以使用自动贴标签方法来自动提取元音区间。

在步骤S104中，对于在步骤S103中提取的各元音区间计算开口度。具体而言，使用开口度计算部102计算开口度。开口度计算部102计算所提取的元音区间的中心部的开口度。当然，不仅是中心部，也可以全部计算元音区间的特征，也可以计算元音区间的开口度的平均值。或者，也可以计算元音区间的开口度的中央值。

在步骤S105中，将在步骤S104中计算出的元音的开口度和在进行音质变换时使用的信息按照元音作为元音信息登录到目标元音DB存储部103中。具体而言，如图6所示，元音信息包括识别元音信息的元音号码、元音种类、作为元音区间的声道信息的PARCOR系数、开口度、元音的音韵环境(例如前后音素信息、前后音节信息、或前后音素的调音点等)、元音区间中的音源信息(谱倾斜或声门开放度等)、及韵律信息(基本频率FO、强度等)。

<开口度一致度计算部104>

开口度一致度计算部104将由开口度计算部102计算出的输入声音中的各元音的开口度(C)、与存储在目标元音DB存储部103中的与输入声音所包含的元音相同的元音种类的元音信息比较，计算开口度的一致度。

在本实施方式中，开口度一致度S_ij可以通过以下的某个计算方法计算。另外，开口度一致度S_ij越是两个开口度一致则表示越小的值，越是不一致则表示越大的值。另外，也可以设定开口度一致度以使得开口度一致度的值越大则开口度越一致。

(第1计算方法)

开口度一致度计算部104如式8所示，通过由开口度计算部102计算出的开口度C_i、与存储在目标元音DB存储部103中的与输入声音所包含的元音相同的元音种类的元音信息的开口度C_j的差计算开口度一致度S_ij。

[数式8]

S_ij＝|C_i-C_j| (式8)

(第2计算方法)

开口度一致度计算部104如式9所示，通过讲话者归一化开口度C_i ^S与讲话者归一化开口度C_j ^S的差计算开口度一致度S_ij。这里，讲话者归一化开口度C_i ^S是将由开口度计算部102计算出的开口度C_i按照讲话者通过输入声音的开口度的平均值及标准偏差归一化的开口度。此外，讲话者归一化开口度C_j ^S是将存储于目标元音DB存储部103中的与输入声音所包含的元音相同的元音种类的数据的开口度C_j通过目标讲话者的开口度的平均值和标准偏差归一化的开口度。

根据第2计算方法，使用按照讲话者归一化的开口度计算开口度一致度。因此，能够在区别发声形态不同的讲话者(例如，清楚而清晰地讲话的讲话者、以模糊的声音叽叽咕咕讲话的讲话者)区别的基础上计算开口度一致度。由此，能够选择与讲话者的发声形态匹配的适当的元音信息，能够按照讲话者再现自然的发声形态的时间变化模式，能够得到自然性较高的音质变换声音。

[数式9]

S_{ij} = | C_{i}^{S} - C_{j}^{S} |

(式9)

归一化的开口度(C_i ^S)例如可以通过式10计算。

[数式10]

C_{i}^{S} = \frac{C_{i} - μ^{S}}{σ^{S}}

(式10)

其中，μ^S表示对象讲话者的开口度的平均值，σ^S表示标准偏差。

(第3计算方法)

开口度一致度计算部104如式11所示，根据音韵归一化开口度C_i ^P与音韵归一化开口度C_j ^P的差计算开口度一致度S_ij。这里，音韵归一化开口度C_i ^P是将由开口度计算部102计算出的开口度C_i通过输入声音的该元音的开口度的平均值及标准偏差归一化的开口度。此外，音韵归一化开口度C_j ^P是将存储于目标元音DB存储部103中的与输入声音所包含的元音相同的元音种类的数据的开口度C_j通过目标讲话者的该元音的开口度的平均值和标准偏差归一化的开口度。

[数式11]

S_{ij} = | C_{i}^{P} - C_{j}^{P} |

(式11)

音韵归一化开口度C_i ^P例如可以通过式12计算。

[数式12]

C_{i}^{P} = \frac{C_{i} - μ^{P}}{σ^{P}}

(式12)

其中，μ^P表示对象讲话者的对象元音的开口度的平均值，σ^P表示标准偏差。

根据第3计算方法，使用按照元音的种类归一化的开口度计算开口度一致度。因此，能够在将元音的种类区别的基础上计算开口度一致度。由此，能够按照元音选择适当的元音信息，所以能够将自然的发声形态的时间变化模式再现，能够得到自然性较高的音质变换声音。

(第4计算方法)

开口度一致度计算部104如式13所示，根据开口度差值C_i ^D与开口度差值C_j ^D的差计算开口度一致度S_ij。这里，开口度差值C_i ^D是表示由开口度计算部102计算出的开口度C_i与输入声音的与开口度C_i对应的元音之前的元音的开口度的差的开口度。此外，开口度差值C_j ^D是表示存储于目标元音DB存储部103中的与输入声音所包含的元音相同的元音种类的数据的开口度C_j、与该元音之前的元音的开口度的差的开口度。另外，假设在通过第4计算方法计算开口度一致度的情况下，在图6所示的目标元音DB存储部103的各元音信息中包含有开口度差值C_j ^D或之前的元音的开口度。

[数式13]

S_{ij} = | C_{i}^{D} - C_{j}^{D} |

(式13)

开口度差值C_i ^D例如可以通过式14计算。

[数式14]

C_{i}^{D} = C_{i} - C_{i - 1}

(式14)

其中，C_i-1表示C_i的前一个元音的开口度。

根据第4计算方法，能够基于开口度的变化计算开口度一致度。因此，能够在兼顾添加了之前的元音的开口度的基础上选择元音信息，所以能够再现自然的发声形态的时间变化模式，能够得到自然性较高的音质变换声音。

<目标元音选择部105>

目标元音选择部105基于由开口度一致度计算部104计算出的一致度，对包含在输入声音中的各元音从目标元音DB存储部103中选择元音信息。

具体而言，目标元音选择部105对于包含在输入声音中的元音系列，从目标元音DB存储部103中选择开口度一致度计算部104计算出的开口度一致度为最小的元音信息。即，目标元音选择部105对于包含在输入声音中的元音系列，从存储在目标元音DB存储部103中的元音信息中按照元音选择开口度最一致的元音信息。

<元音变形部106>

元音变形部106将包含在输入声音中的元音系列的各个元音的声道信息向由目标元音选择部105选择的元音信息具有的声道信息变形(变换)。

以下说明详细的变换方法。

元音变形部106对包含在输入声音中的元音系列的各元音，通过式15所示的多项式近似由元音区间的PARCOR系数表现的声道信息的各维的系列。例如10次的PARCOR系数在各个次数中通过式15所示的多项式近似。由此，能够得到10种多项式。多项式的次数并没有特别限定，可以设定适当的次数。

[数式15]

{\hat{y}}_{a} = Σ_{i = 0}^{p} a_{i} x^{i}

(式15)

这里，

[数式16]

{\hat{y}}_{a}

表示通过多项式近似的PARCOR系数，a_i表示多项式的系数，x表示时刻。

此时，作为采用多项式近似的单位，例如可以将一个音素区间作为近似的单位。此外，也可以不是音素区间、而将从音素中心到下个音素中心的时间宽度作为近似的单位。另外，在以下的说明中，以音素区间为单位进行说明。

作为多项式的次数，设想为例如5次，但多项式的次数也可以不是5次。另外，也可以在通过多项式的近似以外还通过按照音素单位时间的回归直线来近似。

同样，元音变形部106将在由目标元音选择部105选择的元音信息中用PARCOR系数表现的声道信息通过式16所示的多项式近似，取得多项式的系数b_i。

[数式17]

{\hat{y}}_{b} = Σ_{i = 0}^{p} b_{i} x^{i}

(式16)

这里，

[数式18]

{\hat{y}}_{b}

表示通过多项式近似的PARCOR系数，b_i表示多项式的系数，x表示时刻。

接着，元音变形部106使用包含在输入声音中的元音的PARCOR系数的多项式的系数(a_i)、由目标元音选择部105选择的元音信息的PARCOR系数的多项式的系数(b_i)和变换比率(r)，通过式17求出变形后的PARCOR系数的多项式的系数c_i。

[数式19]

c_i＝a_i+(b_i-a_i)×r (式17)

通常，变换比率r在-1≤r≤1的范围中指定。

但是，在变换比率r超过该范围的情况下，也能够通过式17变换系数。在r超过1的情况下，成为将被变换声道信息(a_i)与目标母声音道信息(b_i)的差进一步强调那样的变换。另一方面，在变换比率r为负的值的情况下，成为将被变换声道信息(a_i)与目标母声音道信息(b_i)的差向反方向进一步强调那样的变换。

元音变形部106使用计算出的变换后的多项式的系数c_i，用式18求出变形后的声道信息。

[数式20]

{\hat{y}}_{c} = Σ_{i = 0}^{p} c_{i} x^{i}

(式18)

通过将以上的变换在PARCOR系数的各维中计算，能够向由目标元音选择部105选择的元音信息的PARCOR系数进行指定的变换比率下的变换。

在图7中表示实际对元音/a/进行上述变换的例子。在该图中，横轴表示归一化后的时间，纵轴表示第1维的PARCOR系数。所谓归一化后的时间，是通过用元音区间的持续时间长将时间归一化、取0到1的值的时刻。这是在被变换声音的元音持续时间与由目标元音选择部105选择的元音信息(以下称作“目标元音信息”)的持续时间不同的情况下、用来使时间轴一致的处理。图7(a)表示男性讲话者的/a/的发声的系数的推移。同样，图7(b)表示女性讲话者的/a/的发声的系数的推移。图7(c)表示使用上述变换方法将男性讲话者的系数以变换比率0.5变换为女性讲话者的系数时的系数的推移。由图7可知，通过上述变形方法，对讲话者间的PARCOR系数进行插补。

为了防止在音素边界、PARCOR系数的值变得不连续，元音变形部106在音素边界设置适当的过渡区间而进行插补处理。插补的方法并没有特别限定，但也可以例如通过线性插补将PARCOR系数的不连续消除。

在图8中表示变换后的元音区间的时间性中心的声道截面积。图8是将图7所示的PARCOR系数的时间性中心点的PARCOR系数用式5变换为声道截面积后的声道截面积的曲线图。

图8(a)是表示变换源的男性讲话者的声道截面积的曲线图，图8(b)是表示目标讲话者的女性的声道截面积的曲线图，图8(c)是表示用变换比率0.5变换时的声道截面积的曲线图。由该图也可知，图8(c)表示变换源与变换目标之间的中间的声道形状。

<音源生成部107>

音源生成部107使用由声道音源分离部101分离后的音源信息生成音质变换后的合成音的音源信息。

具体而言，音源生成部107通过变更输入声音的基本频率或强度，生成作为目标的音质的音源信息。基本频率或强度的变更方法没有特别限定，但音源生成部107例如变更输入声音的音源信息的基本频率及强度以使包含在目标元音信息中的平均基本频率及平均强度一致。具体而言，在变换平均基本频率的情况下，通过使用PSOLA法(pitch synchronous overlap add)(非专利文献2：“Diphone Synthesis using an Overlap-Add technique forSpeech Waveforms Concatenation”Proc.IEEE Int.Conf.Acoust.，Speech，Signal Processing.1997，pp.2015-2018)，能够变更音源信息的基本频率。此外，通过在由PSOLA法变更基本频率时按照音调波形调整强度，能够变换输入声音的强度。

<合成部108>

合成部108使用由元音变形部106变换后的声道信息和由音源生成部107生成的音源信息，将声音合成。合成的方法并没有特别限定，但在作为声道信息而使用PARCOR系数的情况下，只要使用PARCOR合成就可以。或者，既可以在从PARCOR系数变换为LPC系数后合成，也可以提取共振峰、通过共振峰合成来合成。进而，也可以根据PARCOR系数计算LSP系数、通过LSP合成进行合成。

(流程图)

关于有关本实施方式的音质变换装置的具体的动作，使用图9所示的流程图进行说明。

声道音源分离部101将输入声音分离为声道信息和音源信息(步骤S101)。开口度计算部102使用在步骤S101中分离的声道信息，计算包含在输入声音中的元音系列的开口度(步骤S002)。

开口度一致度计算部104计算在步骤S002中计算出的包含在输入声音中的元音系列的各元音的开口度、与存储在目标元音DB存储部103中的目标元音候选(元音种类与包含在输入声音中的元音一致的元音信息)的开口度的开口度一致度(步骤S003)。

目标元音选择部105基于在步骤S003中计算出的开口度一致度，对包含在输入声音中的元音系列的各个元音选择目标元音的元音信息(步骤S004)。即，目标元音选择部105对于包含在输入声音中的元音系列，从存储在目标元音DB存储部103中的元音信息之中按照元音选择开口度最一致的元音信息。

元音变形部106对于包含在输入声音中的元音系列的各个元音，使用在步骤S004中选择的目标元音的元音信息，将声道信息变形(步骤S005)。

音源生成部107使用在步骤S001中分离的输入声音的音源信息，生成音源波形(步骤S006)。

合成部108使用在步骤S005中变形的声道信息和在步骤S006中生成的音源波形，将声音合成(步骤S007)。

(效果)

根据该结构，在将输入声音的音质变换为目标音质时，能够一边将输入声音中的发声形态的时间性变化模式保存、一边变换为目标的音质。结果，音质变换后的声音保存有发声形态的变化的时间模式，所以能够进行不使音质变换时的自然性(流畅度)变差的音质变换。

例如，图20(a)所示那样的包含在输入声音中的各元音的发声形态(清晰度)的变化模式(清楚或慵懒的时间模式)、与音质变换后的声音的发声形态的变化模式相同。因此，不发生由起因于声音的发声形态的不自然引起的音质的变差。

此外，作为目标元音的选择基准，使用包含在输入声音中的元音系列的口腔内的容积(开口度)，所以与直接考虑输入声音的语言的生理性的各条件的情况相比，还具有能够减小存储在目标元音DB存储部103中的元音信息的大小的效果。

另外，在本实施方式中，对日语的声音进行了说明，但本发明的适用范围并不限于日语，在以英语为代表的其他语言中也同样能够进行音质变换。

例如，在发声“Can I make a phone call from this plane？”的情况下，句尾的plane的/e/与“May I have a thermometer？”的句首的May的/e/的发声形态不同。此外，与日语同样，因句内位置、内容词或功能词的种类、或强调的有无等，其发声形态变化，所以如果仅根据音韵环境选择目标元音的元音信息，则与日语同样，发声形态的时间性变化模式破坏。因此，音质变换声音的变得不自然。因而，在英语中，也通过以开口度为基准选择目标元音的元音信息，能够在保持输入声音的发声形态的时间性变化模式的同时变换为目标的音质。结果，在音质变换后的声音中保存有发声形态的变化的时间模式，所以能够进行不使音质变换时的自然性(流畅度)变差的音质变换。

(变形例1)

图10是表示本发明的实施方式的音质变换装置的变形例的功能性结构的框图。在图10中，对于与图2相同的构成单元使用相同的标号而省略说明。

在本变形例中，当目标元音选择部105从目标元音DB存储部103中选择目标元音的元音信息时、不仅基于由开口度一致度计算部104计算的开口度一致度、还基于包含在输入声音中的元音的音韵环境与包含在目标元音DB存储部103中的各元音的音韵环境之间的距离选择目标元音的元音信息这一点不同。

有关本变形例的音质变换装置除了图2所示的音质变换装置的结构以外，还具备音韵环境距离计算部109。

<音韵环境距离计算部109>

在图10中，音韵环境距离计算部109计算元音种类相互一致的、包含在输入声音中的元音的音韵环境与包含在目标元音DB存储部103中的元音信息的音韵环境的距离。

具体而言，通过调查前后音素种类的一致度来计算距离。

例如，音韵环境距离计算部109在之前的音素种类不一致的情况下对距离加上罚分d。同样，在后续音素种类不一致的情况下对距离加上罚分d。罚分d也可以不是相同的值，例如也可以以之前的音素的一致度为优先。

或者，在之前的音素不一致的情况下，也可以根据音素的类似度来变更罚分的大小。例如，也可以在音素类别(***音、摩擦音等)相同的情况下减小罚分。此外，也可以在调音位置(齿槽音、颚音等)相同的情况下减小罚分。

<目标元音选择部105>

目标元音选择部105使用由开口度一致度计算部104计算出的一致度和由音韵环境距离计算部109计算出的音韵环境的距离，从目标元音DB存储部103中对包含在输入声音中的各元音选择元音信息。

具体而言，目标元音选择部105如式19所示，对于包含在输入声音中的元音系列，从目标元音DB存储部103中选择开口度一致度计算部104计算出的开口度一致度S_ij与音韵环境距离计算部109计算出的音韵环境的距离D_ij的加权和为最小的元音(j)的元音信息。

[数式21]

j = \underset{j}{\arg \min} [S_{i, j} + w \times D_{i, j}]

(式19)

权重w的设定方法并没有特别限定，在事前适当地决定。另外，也可以根据目标元音DB存储部103的数据大小而使权重变化。具体而言，也可以使得存储在目标元音DB存储部103中的元音信息的数量越大、则由音韵环境距离计算部109计算出的音韵环境的距离的权重越大。进行这样的加权是因为，在元音信息的数量较多的情况下，从音韵环境一致的元音信息之中选择开口度一致者能够进行更自然的音质变换。另一方面，在元音信息的数量较少的情况下，有不能得到与输入声音的音韵环境一致的音韵环境的元音信息的情况。在这样的情况下，即使勉强选择音韵环境类似的元音信息，也有不能进行更自然的音质变换的元音信息的情况，所以优先选择开口度一致的元音信息能够进行更自然的音质变换。

(流程图)

关于有关本变形例的音质变换装置的具体的动作，使用图11所示的流程图进行说明。

声道音源分离部101将输入声音分离为声道信息和音源信息(步骤S101)。开口度计算部102使用在步骤S101中分离的声道信息，计算包含在输入声音中的元音系列的开口度(步骤S102)。

开口度一致度计算部104计算在步骤S002中计算出的包含在输入声音中的元音系列的各元音的开口度与存储在目标元音DB存储部103中的目标元音候选的开口度的开口度一致度(步骤S103)。

音韵环境距离计算部109计算包含在输入声音中的元音系列的各元音的音韵环境与存储在目标元音DB存储部103中的目标元音候选的音韵环境的距离(步骤S104)。

目标元音选择部105基于在步骤S103中计算出的开口度一致度和在步骤S104中计算出的音韵环境的距离，对包含在输入声音中的元音系列的各个元音选择目标元音的元音信息(步骤S105)。

元音变形部106对于包含在输入声音中的元音系列的各个元音，使用在步骤S105中选择的目标元音的元音信息，将声道信息变形(步骤S106)。

音源生成部107使用在步骤S101中分离的输入声音的音源信息，生成音源波形(步骤S107)。

合成部108使用在步骤S106中变形后的声道信息和在步骤S107中生成的音源波形，将声音合成(步骤S108)。

在通过以上的处理将输入声音的音质变换为目标声音的音质时，能够在维持音韵性的同时保存发声形态的时间变化模式。结果，能够保存各元音的音韵性和发声形态的时间变化模式，所以能够进行不使自然性(流畅度)变差的高音质的音质变换。

此外，根据该结构，即使使用少量的目标声音数据也能够进行不损害发声形态的时间变化模式的音质变换，所以在所有的使用形态中有用性都较高。例如，用户通过进行少量的发声，能够将储存有多个声音消息的信息设备的输出变换为自己的音质。

此外，在通过目标元音选择部105选择目标元音的元音信息时，根据目标元音DB存储部103的数据大小来调整权重(使得存储在目标元音DB存储部103中的元音信息数越大、则由音韵环境距离计算部109计算的音韵环境的距离的权重越大)。由此，在目标元音DB存储部103的数据大小较小的情况下，通过以开口度一致度为优先，即使在没有音韵环境的类似性较高的元音的情况下，也能够通过选择开口度一致度较高的元音的元音信息、来选择发声形态一致的元音信息。由此，整体上能够再现自然的发声形态的时间变化模式，所以能够得到自然性较高的音质变换声音。

另一方面，在目标元音DB存储部103的数据大小较大的情况下，通过在考虑音韵环境距离和开口度一致度两者的同时选择目标元音的元音信息，能够在考虑到音韵环境的基础上、还考虑开口度。因此，与以往的仅根据音韵环境选择元音信息的情况相比，能够再现自然的发声形态的时间变化模式，所以能够得到自然性较高的音质变换声音。

(变形例2)

图12是表示有关本发明的实施方式的变形例的音质变换***的功能性结构的框图。在图12中，对于与图2相同的构成单元使用相同的标号，省略说明。

音质变换***包括音质变换装置1701和元音信息制作装置1702。音质变换装置1701和元音信息制作装置1702既可以通过有线或无线直接连接，也可以经由因特网或LAN(Local Area Network)等网络连接。

音质变换装置1701具有与图2所示的有关实施方式1的音质变换装置同样的结构。

元音信息制作装置1702具备目标讲话者声音收录部110、声道音源分离部101b、元音区间提取部111、开口度计算部102b和目标元音DB制作部112。另外，在元音信息制作装置1702中，必需的构成单元是声道音源分离部101b、开口度计算部102b和目标元音DB制作部112。

目标讲话者声音收录部110以几篇到几十篇的规模收录目标讲话者的声音。元音区间提取部111从收录的声音中提取元音区间。目标元音DB制作部112使用由目标讲话者声音收录部110收录的目标讲话者的声音生成元音信息，写入到目标元音DB存储部103中。

声道音源分离部101b及开口度计算部102b具有与图2所示的声道音源分离部101及开口度计算部102分别同样的结构。因此，其详细的说明在这里不重复。

使用图5的流程图说明存储在目标元音DB存储部103中的元音信息的制作方法。

使具有作为目标的音质的讲话者读讲文章，目标讲话者声音收录部110收录由讲话的声音构成的文集(步骤S101)。文章数并没有限定，收录几篇到几十篇规模的声音。目标讲话者声音收录部110收录声音，以使其对1种元音能够得到至少两个以上的发声。

声道音源分离部101b对收录的文集的声音进行声道音源分离(步骤S102)。

元音区间提取部111从在步骤S102中分离的声道信息中提取相当于元音的区间(步骤S103)。提取方法并没有特别限定。例如，也可以使用自动贴标签方法来自动提取元音区间。

开口度计算部102b对在步骤S103中提取的各元音区间计算开口度(步骤S104)。开口度计算所提取的元音区间的中心部的开口度。当然，不仅是中心部，也可以全部计算元音区间的特征，也可以计算元音区间的开口度的平均值。或者，也可以计算元音区间的开口度的中央值。

目标元音DB制作部112将在步骤S104中计算出的各元音的开口度和在进行音质变换时使用的各信息按照元音作为元音信息登录到目标元音DB存储部103中(步骤S105)。具体而言，如图6所示，元音信息包括识别元音信息的元音号码、元音种类、作为元音区间的声道信息的PARCOR系数、开口度、元音的音韵环境(例如前后音素信息、前后音节信息、或前后音素的调音点等)、元音区间中的音源信息(谱倾斜或声门开放度等)、及韵律信息(基本频率、强度等)。

通过以上的处理，在元音信息制作装置中能够收录目标讲话者的声音，制作存储在目标元音DB存储部103中的元音信息。因此，能够将目标音质随时更新。

通过使用如以上那样制作的目标元音DB存储部103，在将输入声音的音质变换为目标声音的音质时，能够在维持音韵性的同时保存发声形态的时间变化模式。结果，能够保存各元音的音韵性和发声形态的时间变化模式，所以能够进行不使自然性(流畅度)变差的高音质的音质变换。

另外，音质变换装置1701和元音信息制作装置1702也可以处于同一装置内。在此情况下，声道音源分离部101b也可以设计为使其使用声道音源分离部101。同样，开口度计算部102b也可以设计为使其使用开口度计算部102。

另外，用来实施本发明的最小构成单元为以下这样。

图13是表示用来实施本发明的音质变换装置的最小结构的框图。在图13中，音质变换装置包括声道音源分离部101、开口度计算部102、目标元音DB存储部103、开口度一致度计算部104、目标元音选择部105、元音变形部106和合成部108。即，为在图2所示的音质变换装置的结构中不具备音源生成部107的结构。图13所示的音质变换装置的合成部108不是使用由音源生成部107生成的音源信息将声音合成的，而使用由声道音源分离部101分离的音源信息将声音合成。即，在声音合成中使用的音源信息在本发明中没有特别限定。

此外，图14是表示存储在目标元音DB存储部103中的元音信息的最小结构的图。即，元音信息包括元音种类、声道信息(PARCOR系数)和开口度。如果有该元音信息，则能够基于开口度进行声道信息的选择，能够进行声道信息的变形。

如果基于开口度适当地选择了元音的声道信息，则在将输入声音的音质变换为目标音质时，能够在保存输入声音的发声形态的时间性变化模式的同时变换为目标的音质。结果，音质变换后的声音保存有发声形态的变化的时间模式，所以能够进行不使音质变换时的自然性(流畅度)劣化的音质变换。

另外，目标元音DB存储部103也可以装备在音质变换装置的外部，在此情况下，不为音质变换装置的必须的构成单元。

以上，对有关本发明的实施方式的音质变换装置及音质变换***进行了说明，但本发明并不限定于该实施方式。

例如，在上述实施方式及变形例中说明的各装置可以由计算机实现。

图15是音质变换装置20的外观图。音质变换装置20包括计算机34、用来对计算机34给出指示的键盘36及鼠标38、用来提示计算机34的运算结果等的信息的显示器32、用来读取由计算机34执行的程序的CD-ROM(Compact Disc-Read Only Memory)装置40及通信调制解调器(未图示)。

用于进行音质变换的程序存储在作为能够由计算机读取的媒体的CD-ROM42中，由CD-ROM装置40读取。或者，通过计算机网络26由通信调制解调器读取。

图16是表示音质变换装置20的硬件结构的框图。计算机34包括CPU(Central Processing Unit)44、ROM(Read Only Memory)46、RAM(RandomAccess Memory)48、硬盘50、通信调制解调器52和总线54。

CPU44执行经由CD-ROM装置40或通信调制解调器52读取的程序。ROM46存储计算机34的动作所需要的程序或数据。RAM48存储程序执行时的参数等的数据。硬盘50存储程序或数据等。通信调制解调器52经由计算机网络26进行与其他计算机的通信。总线54将CPU44、ROM46、RAM48、硬盘50、通信调制解调器52、显示器32、键盘36、鼠标38及CD-ROM装置40相互连接。

另外，元音信息制作装置也同样能够由计算机实现。

此外，构成上述各装置的构成单元的一部分或全部也可以由1个***LSI(Large Scale Integration：大规模集成电路)构成。***LSI是将多个构成部集成在1个芯片上而制造的超多功能LSI，具体而言是包括微处理器、ROM、RAM等而构成的计算机***。在RAM中，存储有计算机程序。通过微处理器按照计算机程序动作，***LSI实现其功能。

进而，构成上述各装置的构成单元的一部分或全部也可以由相对于各装置可拆装的IC卡或单体的模组构成。IC卡或模组是由微处理器、ROM、RAM等构成的计算机***。IC卡或模组也可以包括上述超多功能LSI。通过微处理器按照计算机程序动作，IC卡或模组达到该功能。该IC卡或该模组也可以具有耐篡改性。

此外，本发明也可以为上述所示的方法。此外，也可以是将这些方法通过计算机实现的计算机程序，也可以是由上述计算机程序构成的数字信号。

进而，本发明也可以是将上述计算机程序或上述数字信号记录到计算机可读取的非易失性的记录媒体、例如软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray Disc(注册商标))、半导体存储器等中的产品。此外，也可以是记录在这些非易失性的记录媒体中的上述数字信号。

此外，本发明也可以将上述计算机程序或上述数字信号经由电气通信线路、无线或有线通信线路、以因特网为代表的网络、数据广播等传送。

此外，本发明也可以是具备微处理器和存储器的计算机***，上述存储器存储有上述计算机程序，上述微处理器按照上述计算机程序动作。

此外，也可以通过将上述程序或上述数字信号记录到上述非易失性的记录媒体中并移送、或者将上述程序或上述数字信号经由上述网络等移送，由独立的其他计算机***实施。

进而，也可以将上述实施方式及上述变形例分别组合。

这里公开的实施方式在所有的方面都是例示，而不应被认为是限制性的。本发明的技术范围不是由上述说明、而由权利要求书表示，意味着包含与权利要求书等价的意义及范围内的全部的变更。

工业实用性

有关本发明的音质变换装置具有在将输入声音中的发声形态的时间性变化模式保存的同时变换为目标的音质的功能，在需要多种音质的信息设备或家电设备的用户界面、或变换为自己用的音质的来电音等娱乐等用途中具有实用性。此外，还能够应用于便携电话等的声音通信中的语音转变器等的用途。

附图标记说明

101、101b 声道音源分离部

102、102b 开口度计算部

103 目标元音DB(数据库)存储部

104 开口度一致度计算部

105 目标元音选择部

106 元音变形部

107 音源生成部

108 合成部

109 音韵环境距离计算部

110 目标讲话者声音收录部

111 元音区间提取部

112 目标元音DB(数据库)制作部

1701 音质变换装置

1702 元音信息制作装置

Claims

1.一种音质变换装置，变换输入声音的音质，具备：

声道音源分离部，将输入声音分离为声道信息和音源信息；

开口度计算部，根据由上述声道音源分离部分离的上述输入声音所包含的元音的声道信息，计算与口腔内的容积对应的开口度；

目标元音数据库存储部，存储有多个元音信息，该元音信息与作为变换上述输入声音的音质的目标的目标讲话者相关，且包括元音种类、开口度的信息和声道信息；

开口度一致度计算部，计算元音种类相互一致的、由上述开口度计算部计算出的开口度与存储在上述目标元音数据库存储部中的各上述元音信息所包含的开口度之间的一致度；

目标元音选择部，基于上述开口度一致度计算部计算出的一致度，从存储在上述目标元音数据库存储部中的多个元音信息之中选择元音信息；

元音变形部，使用由上述目标元音选择部选择的元音信息所包含的声道信息，将上述输入声音所包含的元音的声道信息变形；以及

合成部，使用在上述元音变形部中将元音的声道信息变形后的上述输入声音的声道信息、以及由上述声道音源分离部分离的上述音源信息，合成声音。

2.如权利要求1所述的音质变换装置，其中，

上述目标元音选择部基于上述开口度一致度计算部计算出的一致度，从存储在上述目标元音数据库存储部中的多个元音信息之中，选择具有与上述输入声音所包含的元音的开口度最一致的开口度的元音信息。

3.如权利要求1所述的音质变换装置，其中，

上述元音信息还包括元音的音韵环境；

上述音质变换装置还具备音韵环境距离计算部，该音韵环境距离计算部计算元音种类相互一致的、上述输入声音的音韵环境与存储于上述目标元音数据库存储部中的各上述元音信息所包含的音韵环境之间的距离；

上述目标元音选择部使用上述开口度一致度计算部计算出的一致度、以及上述音韵环境距离计算部计算出的距离，从存储在上述目标元音数据库存储部中的多个元音信息之中，选择用于变换上述输入声音所包含的元音的声道信息的元音信息。

4.如权利要求3所述的音质变换装置，其中，

上述目标元音选择部使用上述开口度一致度计算部计算出的一致度、以及上述音韵环境距离计算部计算出的距离，若存储在上述目标元音数据库存储部中的上述元音信息的数量越多，则使上述距离相对于上述一致度的权重越大，基于被加权的上述一致度及上述距离，从存储在上述目标元音数据库存储部中的多个元音信息之中，选择用于变换上述输入声音所包含的元音的声道信息的元音信息。

5.如权利要求1所述的音质变换装置，其中，

上述开口度计算部根据由上述声道音源分离部分离的上述输入声音所包含的元音的声道信息计算声道截面积函数，作为由计算出的上述声道截面积函数表示的声道截面积的和来计算上述开口度。

6.如权利要求5所述的音质变换装置，其中，

上述开口度计算部根据由上述声道音源分离部分离的上述输入声音所包含的元音的声道信息计算声道截面积函数，在将声道划分为多个区间的情况下，作为用计算出的上述声道截面积函数表示的各区间的声道截面积的和来计算上述开口度。

7.如权利要求1所述的音质变换装置，其中，

上述开口度一致度计算部按讲话者，将元音种类相互一致的、由上述开口度计算部计算出的开口度和存储于上述目标元音数据库存储部中的各上述元音信息所包含的开口度归一化，作为上述一致度而计算归一化后的开口度彼此的一致度。

8.如权利要求1所述的音质变换装置，其中，

上述开口度一致度计算部按元音的种类，将元音种类相互一致的、由上述开口度计算部计算出的开口度和存储于上述目标元音数据库存储部中的各上述元音信息所包含的开口度归一化，作为上述一致度而计算归一化后的开口度彼此的一致度。

9.如权利要求1所述的音质变换装置，其中，

上述开口度一致度计算部作为上述一致度，计算元音种类相互一致的、由上述开口度计算部计算出的开口度的时间方向的差与存储于上述目标元音数据库存储部中的各上述元音信息所包含的开口度的时间方向的差之间的一致度。

10.如权利要求1所述的音质变换装置，其中，

上述元音变形部以规定的变换比率，将上述输入声音所包含的元音的声道信息，变形为上述目标元音选择部选择的元音信息所包含的声道信息。

11.一种音质变换装置，变换输入声音的音质，具备：

声道音源分离部，将输入声音分离为声道信息和音源信息；

开口度一致度计算部，参照存储在目标元音数据库存储部中的多个元音信息，计算元音种类相互一致的、由上述开口度计算部计算出的开口度与各上述元音信息所包含的开口度之间的一致度，该多个元音信息分别与作为变换上述输入声音的音质的目标的目标讲话者相关，且包括元音种类、开口度的信息和声道信息；

目标元音选择部，基于上述开口度一致度计算部计算出的一致度，从存储在上述目标元音数据库中的多个元音信息之中选择元音信息；

12.一种元音信息制作装置，制作在输入声音的音质变换中使用的目标讲话者的元音信息，具备：

声道音源分离部，将目标讲话者的声音分离为声道信息和音源信息；

开口度计算部，根据由上述声道音源分离部分离的上述目标讲话者的声音的声道信息，计算与口腔内的容积对应的开口度；以及

目标元音信息制作部，制作元音信息，该元音信息与上述目标讲话者相关，且包括元音种类、上述开口度计算部计算出的上述开口度的信息、以及上述声道音源分离部分离的上述声道信息。

13.一种音质变换***，具备：

权利要求1所述的音质变换装置；以及

权利要求12所述的元音信息制作装置。

14.一种音质变换方法，变换输入声音的音质，包括：

声道音源分离步骤，将输入声音分离为声道信息和音源信息；

开口度计算步骤，根据上述声道音源分离步骤中分离的上述输入声音所包含的元音的声道信息，计算与口腔内的容积对应的开口度；

开口度一致度计算步骤，计算元音种类相互一致的、在上述开口度计算步骤中计算出的开口度与存储有多个元音信息的目标元音数据库存储部中存储的各上述元音信息所包含的开口度之间的一致度，该元音信息与作为变换上述输入声音的音质的目标的目标讲话者相关，且包括元音种类、开口度的信息和声道信息；

目标元音选择步骤，基于在上述开口度一致度计算步骤中计算出的一致度，从存储在上述目标元音数据库存储部中的多个元音信息之中，选择用于变换上述输入声音所包含的元音的声道信息的元音信息；

元音变形步骤，使用上述目标元音选择步骤中选择的元音信息所包含的声道信息，将上述输入声音所包含的元音的声道信息变形；以及

合成步骤，使用在上述元音变形步骤中将元音的声道信息变形后的上述输入声音的声道信息、以及在上述声道音源分离步骤中分离的上述音源信息，合成声音。

15.如权利要求14所述的音质变换装置，其中，

在目标元音选择步骤中，基于在上述开口度一致度计算步骤中计算出的一致度，从存储在上述目标元音数据库存储部中的多个元音信息之中，选择具有与上述输入声音所包含的元音的开口度最一致的开口度的元音信息。

16.一种程序，是用于变换输入声音的音质的计算机可执行的程序，

上述计算机具备目标元音数据库存储部，该目标元音数据库存储部存储有多个元音信息，该元音信息包括元音种类、开口度的信息和声道信息；

上述程序用于使计算机执行以下步骤：

开口度计算步骤，根据在上述声道音源分离步骤中分离的上述输入声音所包含的元音的声道信息，计算与口腔内的容积对应的开口度；

开口度一致度计算步骤，计算元音种类相互一致的、在上述开口度计算步骤中计算出的开口度与存储于上述目标元音数据库存储部中的与作为变换上述输入声音的音质的目标的目标讲话者相关的各上述元音信息所包含的开口度之间的一致度；

目标元音选择步骤，基于在上述开口度一致度计算步骤中计算出的一致度，从存储在上述目标元音数据库存储部中的多个元音信息之中选择元音信息；