具体实施方式
以下,参照附图来说明本发明的具体实施方式。
(实施例1)
图4是表示本发明的实施例1所涉及的音质编辑装置的轮廓图。音质编辑装置是利用个人电脑或EWS(Engineering Workstation:工程工作站)等普通的计算机被实现的。
图5是表示本发明的实施例1所涉及的音质编辑装置的构成的框图。
音质编辑装置是对多个音质进行编辑从而生成新的音质的装置,包括:音质特征DB(数据库)101、音质间距离算出部102、权重设定部103、输入部104、尺度构成部105、讲话者属性DB106、显示部107、位置输入部108、权重记忆部109、音质混合部110。
音质特征DB101是保持音质编辑装置所保有的多个声音的声特征量的记忆装置,由硬盘或存储器等构成。以下,将“声音的声特性量”称为适宜的“音质”或“音质特性”。
音质间距离算出部102是计算音质特征DB101所保有的音质间的距离的处理部。权重设定部103是在音质间距离算出部102计算音质间距离时,设定表示被重视的物理参数的权重的处理部。输入部104是在由权重设定部103决定权重之时,接受来自用户的输入的输入装置,例如,为键盘或滑鼠等。尺度构成部105是根据音质间距离算出部102计算的音质间距离,决定音质特征DB101所保持的各个音质的空间坐标的处理部。
讲话者属性DB106是保持与音质特征DB101所保持的各个音质相关联的讲话者属性信息的记忆装置,由硬盘或存储器等构成。显示部107是针对音质特征DB101所保持的各个音质,在由尺度构成部105决定了的坐标上显示与讲话者属性DB106所保持的各个音质相对应的讲话者属性信息的显示装置,例如,为LCD(Liquid Crystal Display:液晶显示器)等。位置输入部108是从用户接受由显示部107出示了的在音质空间中的位置的输入装置,例如,为键盘或滑鼠等。
权重记忆部109是记忆由权重设定部103设定的权重的记忆装置,例如,由硬盘或存储器等构成。音质混合部110是根据由位置输入部108输入的音质空间上的坐标及权重记忆部109所保持的权重,通过混合音质特征DB101所保持的音质,从而生成与用户通过位置输入部108输入的音质空间上的坐标相对应的音质的处理部。
音质间距离算出部102、权重设定部103、尺度构成部105以及音质混合部110,通过在计算机的CPU(Central Processing Unit)上执行程序而被实现。
其次,关于音质特征DB101进行详细的说明。
音质特征DB101在是日语的情况下,按每个音质,保持至少五个元音(/aiueo/)的、来自目标讲话者的声道形状的声道的信息。再者,在其他的语言的情况下,与日语的情况相同,音质特征DB101按每种元音的种类来保持来自声道形状的声道的信息即可。音质特征DB101还可以设计成保持后述的声源的信息。
作为声道信息的表现方式,例如存在声道截面面积函数。声道截面面积函数表述如图6(a)所示的,在以可变圆形截面面积的声管来模拟声道的声管模型中的各个声管的截面面积。众所周知,此截面面积与基于LPC(Linear Predictive Coding:线性预测编码)分析的PARCOR(Partial AutoCorrelation:偏自相关)系数一一对应,并能够通过公式1来转换。在本实施例中,设通过PARCOR系数ki来表现声道信息。以后,虽然利用PARCOR系数来说明声道信息,但是,声道信息并不只限定于PARCOR系数,也可以利用与PARCOR系数等价的LSP(Line Spectrum Pairs:线谱对)或LPC等。而且,所述声管模型中的声管之间的反射系数和PARCOR系数的关系,仅在于符号是相反的。因此,利用反射系数本身也没关系。
(公式1)
在此,An表示如图4(b)所示的第i区间的声管的截面面积,ki表示第i区间和第(i+1)区间的边界的PARCOR系数(反射系数)。
利用根据LPC分析被分析出的线性预测系数,能够算出PARCOR系数。具体而言,通过利用Levinson-Durbin-Itakura算法,能够算出PARCOR系数。
再者,不仅限于根据LPC分析的PARCOR系数,也可以根据ARX分析(非专利文献:「音源パルス列を考虑した顽健なARX音声分析法」(“考虑了声源脉冲串的强健的ARX声音分析法”),日本声学学会会刊58卷7号(2002年)、pp.386-397、大冢等)算出PARCOR系数。
其次,关于音质特征DB101所保持的音质特征(声音的声特征量)的制作方法,一边举例一边进行说明。例如,音质特征能够通过由目标讲话者发出了的孤立发音元音来构筑。
图7是表示根据由某个讲话者发出了的孤立发音元音抽取音质特征的处理部的构成的图。
元音稳定区间抽取部301从被输入的孤立发音元音中抽取孤立的元音的区间。并不特别限定抽取方法。例如,也可以将一定功率以上的区间作为稳定区间,并将该稳定区间作为孤立的元音的区间来抽取。
音质特征算出部302针对由元音稳定区间抽取部301抽取的孤立的元音的区间,算出上述PARCOR系数。通过针对音质编辑装置保有的所有的音质进行以上的处理,音质特征DB101被构筑。
再者,抽取音质特征的声音数据不限于孤立发音元音,在日语中只要是至少包含五个元音(/aiueo/)的某些声音即可。例如,可以是目标讲话者临时自由地讲话后的声音,也可以是预先被收录的声音。另外,还可以利用歌唱数据等的声乐音带的声音。
在此情况下,为了抽取元音区间,通过对于声音数据进行音素识别,来检测元音的声音数据。其次,元音稳定区间抽取部301依据元音的声音数据抽取稳定的元音区间。作为抽取的方法,例如,能够将音素识别结果的可靠性高的区间(似然高的区间)作为稳定的元音区间来使用。如此通过抽取稳定的元音区间,能够排除由音素识别错误产生的影响。
音质特征算出部302通过在抽取后的元音的稳定区间制作声道信息,从而能够构筑音质特征DB101。例如,由音质特征算出部302进行的音质特征的算出,通过算出前述的PARCOR系数来进行。
并且,音质特征DB101所保持的音质特征的制作方法,并不限定于此,只要是从稳定的元音区间抽取音质特征的方法,则也可以为其他的方法。
图8A至图8J是表示以十次反射系数表现的针对元音/a/的声道信息的一个例子的图。
在各图所示的各个图形中,纵座标轴表示反射系数,横坐标轴表示时间。从k1至k10表示反射系数的次数。通过利用象这样被孤立发音的且稳定的元音区间的声音数据,能够将依据反射系数的声道信息作为在时间上稳定的参数来算出。而且,在将反射系数登记在音质特征DB101之时,既可以直接登记如图8A至图8J所示的反射系数,也可以将元音区间内的平均值或者中值作为代表值来登记。
作为声源信息,例如也能够利用Rosenberg-Klatt(RK)模型,在利用RK模型的情况下,能够将对于有声声源振幅(AV)、基频(FO)以及音调周期(基频的倒数)的声门打开的时间的比率(声门开放比率)(OQ)等作为声源信息来利用。并且,也能够将声源所具有的非周期成分(AF)作为声源信息来利用。
若汇集音质特征DB101所保持的音质特征,就会得到如图9所示的信息。即,作为音质特征,声道信息和声源信息被保持。作为声道信息,在是日语的情况下,有关五个元音的声道形状的信息(例如,反射系数)被保持。另一方面,作为声源信息,基频(F0)、有声声源振幅(AV)、声门开放比率(OQ)、声源的非周期成分边界频率(AF)等被保持。再者,音质特征DB101所存储的音质特征并不限定于此,只要是关于音质的特征量则在此以外的也可以。
图10是表示讲话者属性DB106所保持的讲话者属性的一个例子的图。讲话者属性DB106所保持的讲话者属性是作为,不用直接听取音质特征DB101所保持的音质特征,就能够理解此音质特征的信息,即、只要看见此信息用户就能够想起与此信息相关联的音质的信息。作为具体的例子,是能够对发出了在抽取音质特征DB101所保持的音质特征之时所使用了的声音的人物进行特定的讲话者属性,例如,面部图像、人名等。如此,通过利用能够特定人物的讲话者属性,如果用户知道被出示的个人,则只看到面部图像就能够容易地想起此面部图像的人物具有怎样的音质。即,通过利用这样的讲话者属性,关于出示的音质,则不需要使用各种各样的评价尺度来定义此音质。
再者,讲话者属性不仅限于讲话的人物的面部图像、人名,只要能够直接想起讲话的人的声音的讲话者属性,则也可以是其他的形式。例如,在是卡通人物或吉祥物的情况下,不仅利用以后期录音的方式发出此卡通人物或吉祥物的声音的人物的面部图像或名字,还可以将卡通人物或吉祥物的图像或角色名字等作为讲话者属性来利用。并且,例如,在是外国影片的演员等的情况下,不仅利用进行配音的讲话者的属性,还可以利用被配音的演员的讲话者属性。而且,在讲话的人物是解说员的情况下,不仅利用解说员本人的讲话者属性,还可以将解说员出场的节目的节目名或节目标志作为讲话者属性来利用。
根据以上的构成,能够生成用户指定了的音质。
其次,关于音质编辑装置的工作,使用图11的流程图来进行说明。
权重设定部103接受来自输入部104的输入,以决定在算出音质间的距离时的声参数的权重(步骤S001)。权重设定部103将决定了的权重保存在权重记忆部109。权重的具体的决定方法以后再述。
音质间距离算出部102利用在步骤S001设定的权重,算出音质特征DB101所保持的所有的音质间的距离(步骤S002)。具体而言,音质间的距离的定义如下所述。即,在将登记在音质特征DB101中的音质以矢量表现的情况下,两个矢量之间的距离(音质间的距离)能够作为如公式2所述的加权欧几里得距离来定义。但是,权重wl必需满足公式3所示的条件。距离的计算方法不仅限于此,也可以利用余弦相似度来算出距离。在此情况下,需要将余弦相似度变换为距离,例如也可以将矢量之间形成的角度作为距离来定义。在此情况下,对于余弦相似度能够根据反余弦函数算出距离。
(公式2)
(公式3)
在此wl是表示针对音质特征DB101所保持的各个参数(声道形状参数、基频等)的重要度的权重参数,音质特征DB101所保持的音质特征vi表示第i个的音质特征,vil表示音质特征vi的第l个参数的物理量。
如上所述,通过制作音质特征DB101所保持的音质间的距离,能够制作如图12所示的距离矩阵。距离矩阵中的i行j列的元素di,j表示音质特征vi和音质特征vj之间的距离。
其次,尺度构成部105利用在步骤S002计算了的音质特征DB101所保持的音质间的距离(距离矩阵),算出各个音质在音质空间上的坐标(步骤S003)。并不特别限定计算坐标的方法,例如,通过利用多维标度法(MDS),能够在二维或三维空间上建立与各自的音质的对应关系。
图13是表示利用多维标度法,在二维空间上配置音质特征DB101所保持的音质特征的一个例子的图。
例如,在权重设定部103中,与基频(F0)对应的音质参数的权重被设定得大的情况下,将某音质特征作为基准,基频(F0)接近的音质特征在二维平面上被靠近配置。另一方面,在基频(F0)大不相同的情况下,则在二维平面上的离得远的位置上被配置。通过这样地配置音质特征,用户所重视的音质参数相近的音质特征,彼此在音质空间上被靠近配置。因此,用户能够容易地想起位于被配置的多个音质特征之间的音质。
再者,不仅利用多维标度法,还可以通过对音质特征DB101所保持的各个物理参数进行主要成分分析,来抽取主要成分,并在成为代表的贡献度大的主要成分之中,由2-3个主要成分构成空间,算出各个音质的坐标。
其次,显示部107针对音质特征DB101所保持的各个音质,在步骤S003所生成的坐标位置上显示讲话者属性DB106所保持的与该音质对应的讲话者属性(步骤S004)。图14表现被显示的音质空间的例子。虽然在图14中,使用作为讲话者属性信息的、具有音质的讲话者的面部图像,但是也可以不限于面部图像,只要是能够想起此音质的讲话者属性即可。例如,可以是讲话者的名字、角色图像或者角色名字等。
通过这样显示讲话者属性信息,用户通过观察被显示的讲话者属性信息,能够直观地想起讲话者的音质,并且能够直观地掌握所出示的音质空间。
而且,在图14中,虽然显示部107在一个显示区域中显示着所有的音质,但是不言而喻,也可以只显示特定的一部分音质,还可以设计成另外接受来自用户的输入,并按照该输入进行放大、缩小或滚动显示。
其次,用户利用位置输入部108,输入具有所期望的音质的坐标位置(步骤S005)。具体的输入方法并不特别限定。例如,可以是用户使用滑鼠来指定显示部107所显示的音质空间上的一个点,还可以使用键盘来输入坐标值。进而,也可以使用滑鼠以外的指点器来输入坐标值。
其次,音质混合部110生成与在步骤S005中指定的坐标相对应的音质(步骤S006)。关于具体的生成方法使用图15进行说明。
图15是表示音质混合部110的详细的构成的图。音质混合部110包括:接近音质候选选择部201、混合比率算出部202、特征量混合部203。
接近音质候选选择部201选择与在步骤S005中被输入的坐标位置相接近的音质。对选择时的工作进行详细的说明。设在步骤S004中如图16所示的音质空间被显示,并且在步骤S005中坐标位置801被指定。接近音质候选选择部201在音质空间中,选择与坐标位置801相距预先设定的距离以内的音质。例如,在图16所示的音质空间中,选择位于与坐标位置801相距预先设定的距离的范围802之内的音质803、804及805。
其次,混合比率算出部202,针对由接近音质候选选择部201选择的音质,算出进行混合的比率。在图16的例子的情况下,混合比率算出部202分别算出由用户输入的坐标位置801与由接近音质候选选择部201选择的音质803、804及805之间的距离。混合比率算出部202,根据算出的距离的倒数,来算出混合比率。在图16的例子的情况下,例如,如果设坐标位置801与音质803、804及805之间的距离的比率为“1∶2∶2”,则混合比率为“2∶1∶1”。
其次,特征量混合部203根据由混合比率算出部202算出的混合比率,将由接近音质候选选择部201选择的音质,按每一个音质特征DB101所保持的声特征量进行混合。
例如,通过将表示声道形状的反射系数以上述比率进行混合,能够制作新的声道形状。在此之外还可以将反射系数的各个因次依据函数进行近似,并通过混合近似后的函数,制作新的声道形状。例如,作为函数能够使用多项式。在此情况下,函数的混合能够通过多项式的系数的加权平均来进行混合。
而且,关于作为声源信息的基频(F0)、有声声源振幅(AV)、声门开放比率(OQ)、非周期成分边界频率(AF),通过以上述的比率取得加权平均从而能够制作新的声源信息。
在图16的例子的情况下,特征量混合部203将音质803、804及805的音质特征以“2∶1∶1”的比率进行混合。
具体的混合方法并不特别限定,例如,也可以根据混合比率,通过求出音质特征DB101所保持的音质特征的各个参数的加权平均,来混合音质特征。
再者,也可以使接近音质候选选择部201选择音质空间内的所有的音质。在此情况下,混合比率算出部202以所有的音质特征为对象来决定混合比率。
通过以上的处理,音质混合部110能够生成与在步骤S005中指定的坐标相对应的音质。
(权重设定方法1)
其次,关于在步骤S001中权重设定部103进行的具体的权重设定方法进行说明。在权重设定时,权重设定部103以外的处理部也工作。
图17是表示权重设定部103的详细的构成的框图。权重设定部103包括:权重DB401、权重选择部402。
权重DB401是保持***设计员预先设计了的多个权重的记忆装置,由硬盘或存储器等构成。权重选择部402是根据来自输入部104的指示,从权重DB401选择权重,并保存在权重记忆部109的处理部。关于各个部的工作,使用图18所示的流程图来进行说明。
权重选择部402从权重DB401所保持的权重之中,选择一个利用输入部104由用户选择了的权重(步骤S101)。
音质间距离算出部102利用在步骤S101选择的权重,算出音质特征DB101所保持的各个音质间的距离,以制作距离矩阵(步骤S102)。
尺度构成部105利用在步骤S102制作的距离矩阵,算出音质特征DB101所保持的各个音质的在音质空间上的坐标(步骤S103)。
显示部107针对音质特征DB101所保持的各个音质,在步骤S103算出的音质空间上的坐标上,显示讲话者属性DB106所保持的与该音质对应的讲话者属性信息(步骤S104)。
用户对在步骤S104被布置在音质空间上的音质特征DB101所保持的各个音质位置的状况进行观察,从而确认此音质空间是否符合自己的感觉(步骤S105)。即,判断自己感觉到相似的音质是否被彼此靠近配置,且判断自己感觉到不相似的音质是否被彼此远离配置。用户利用输入部104输入判断结果。
在用户不满足当前显示的音质空间的情况下(步骤S105的“否”),则直到用户满意为止,重复从步骤S101至步骤S105的处理。
在用户满足当前显示的音质空间的情况下(步骤S105的“是”),权重选择部402将在步骤S101选择的权重登记在权重记忆部109,以结束权重设定处理(步骤S106)。图19表示权重记忆部109中保存的权重的一个例子。在图19中,w1、w2、···、wn是针对音质特征DB101所存储的各个音质特性(例如作为声道信息的反射系数、基频等)的权重参数。
这样,通过直到用户满意为止重复从步骤S101至步骤S105的处理,从而能够设定符合用户对于音质的感觉的权重。而且,通过根据此权重生成音质空间,从而能够构筑与用户的感觉相符的音质空间。
以上说明了的权重设定方法中,在用户选择权重之后,虽然根据选择的权重进行音质的显示,但是,也可以在根据权重DB401所登记的多个权重显示音质之后,选择与用户的感觉最接近的权重。图20是这样的权重设定方法的流程图。
音质间距离算出部102利用权重DB401所保持的多个权重的每一个,算出音质特征DB101所保持的各个音质间的距离,以制作距离矩阵(步骤S111)。
尺度构成部105按每个权重,利用在步骤S111制作的距离矩阵,算出音质特征DB101所保持的各个音质的在音质空间上的坐标(步骤S112)。
显示部107按每个权重,针对音质特征DB101所保持的各个音质,在步骤S112算出的音质空间上的坐标上,显示讲话者属性DB106所保持的与该音质对应的讲话者属性信息(步骤S113)。图21是表示步骤S113中的显示的一个例子的图。在该图中,关于四个权重的每一个,都表示着讲话者属性信息。四个权重是指,例如,针对基频(表示是高音还是低音的音质特征)的权重,针对声道形状(表示是粗声还是细声的音质特征)的权重,针对非周期成分(表示是沙哑的声音还是清晰悦耳的声音的音质特征)的权重,针对声门开放比率(表示是生硬的声音还是柔和的声音的音质特征)的权重。在图21中,显示着分别针对这四个权重的四个音质空间,在各个音质空间中显示着讲话者属性信息。
用户对在步骤S113中被布置在四个音质空间上的音质特征DB101所保持的各个音质位置的状况进行观察,从而选择最符合自己的感觉的音质空间(步骤S114)。权重选择部402从权重DB401选择与被选择的音质空间相对应的权重。权重选择部402将选择了的权重存储在权重记忆部109(步骤S106)。
而且,也可以使权重记忆部109按每个用户来记忆权重。通过按每个用户记忆权重,在其他的用户编辑音质时,从权重记忆部109取得与此用户对应的权重,并通过在音质间距离算出部102以及音质混合部110使用,从而能够出示符合此用户的感觉的音质空间。
如上所述的权重设定,因为能够从预先决定了的候选中选择性地决定,所以即使在用户没有特别的知识的情况下,也能够适当地决定权重。而且,还能够减少用户为决定权重所需要的工作量。
(权重设定方法2)
其次,关于另外的权重设定方法进行说明。
权重设定部103也可以通过以下的方法来设定权重。图22是用于实现权重设定部103的框图。权重设定部103包括:音质代表DB403、音质出示部404、权重算出部405。
音质代表DB403是从音质特征DB101所保持的音质特征数据中预先抽取代表性的音质特征,并保持音质特征代表的数据库。因此,并不一定需要设置新的记忆部以保持音质特征代表,也可以只保持音质特征DB101内的音质特征代表的标识符。音质出示部404向用户出示音质代表DB403所保持的音质特征。出示方法并不特别限定,也可以通过再生在制作音质特征DB101时使用了的声音来出示。此外,还可以从讲话者属性DB106中选择与音质代表DB403所保持的音质代表相对应的讲话者属性,并利用显示部107来出示。
输入部104从由音质出示部404出示的音质代表中,接受用户判断为相似的音质的音质组的输入。具体的输入方法并不特别限定。例如,可以在设想将滑鼠作为输入部104的情况下,通过用户使用滑鼠指定判断为相似的音质的音质特征,来接受音质组的输入。而且,输入部104并不限于滑鼠,也可以是其他的指点器。
权重算出部405根据由输入部104指定的用户感觉到相似的音质组,算出权重。
其次,使用图23所示的流程图,关于权重设定处理进行说明。
音质出示部404向用户出示音质代表DB403所登记的音质特征(步骤S201)。例如,音质出示部404也可以是如图24所示的在显示部107显示画面。在图24所示的画面中,显示了五名讲话者信息(面部图像),在其旁边显示着五个再生按钮901。用户操作输入部104,按下与想要再生的讲话者声音对应的再生按钮901。音质出示部404再生与被押下的再生按钮901相对应的讲话者的声音。
其次,用户利用输入部104,输入感觉到音质相似的音质特征组(步骤S202)。例如,在图24所示的例子中,通过在复选框902中划勾,来指定两个相似的音质。
其次,权重算出部405利用在步骤S202中输入的音质组,来决定权重(步骤S203)。具体而言,以被指定了的音质组中的公式2,使算出的音质间距离在公式3的限定下成为最小,来决定各个音质i的权重wi即可。
以下表述具体的权重决定方法的一个例子。在本决定方法中,进一步设置如公式4所示的限定,使公式2最小化。
wi≥Δw (公式4)
具体而言,首先根据公式5决定两组的各个因次的差分的平方成为最小的因数1min。
(公式5)
并且,根据公式6决定各个权重wi。
(公式6)
权重算出部405将在步骤S203中设定了的权重保存在权重记忆部109(步骤S204)。
并不限定权重的决定方法。例如,不是根据公式5,决定一个两组的各个因次的差分的平方成为最小的因数,也可以决定多个。
而且,若使所选择的两个音质之间的距离变小来决定权重,则并不特别限定权重决定方法。
再者,被输入的声音组存在多组的情况下,也可以同样地使从各组求出的距离之和为最小来设定权重。
如上所述,通过设定权重,从而能够设定符合用户对于音质的感觉的权重。同时,通过根据此权重生成音质空间,从而能够构筑符合用户对于音质的感觉的音质空间。
此权重设定方法与权重设定方法1相比,能够更详细地设定用户对于音质的感觉。即,不是选择预先决定了的权重,而是通过选择用户感到相似的音质,来增大针对此音质间的共同的特征量的权重。因此,能够抽取为了用户感到相似的重要的特征量。
(权重设定方法3)
其次,关于另外的权重设定方法进行说明。
权重设定部103也可以通过以下的方法来设定权重。图25是用于实现权重设定部103的框图。权重设定部103包括:主观轴出示部406、权重算出部407。
主观轴出示部406向用户出示如图26所示的“高音-低音”等主观性的主观轴。输入部104接受,由主观轴出示部406出示了的针对各个时间轴的重要度的输入。例如,在图26所示的例子中,通过对输入栏903输入数值,或操作标度盘904,能够进行所谓如“高音-低音”的主观轴的重要度为“1”,“沙哑的声音-清晰悦耳的声音”的主观轴的重要度为“3”,“粗声-细声”的主观轴的重要度为“3”等的输入。在此例中为用户进行了所谓“沙哑的声音-清晰悦耳的声音”的主观轴是重要的输入。权重算出部407根据由输入部104输入的主观轴的重要度来决定权重。
其次,使用图27所示的流程图,关于权重设定处理进行说明。
主观轴出示部406向用户出示音质编辑装置能够使用的主观轴(步骤S301)。出示方法并不特别限定,例如,通过如图26所示的,同时出示各个主观轴的名称及能够输入此重要度的输入栏903或标度盘904,能够出示主观轴。另外,并不限定于此出示方法,也可以出示表现各自的主观轴的图标。
用户输入针对在步骤S301出示的各自的主观轴的重要度(步骤S302)。并不特别限定输入方法,也可以如图26所示,通过对输入栏903输入数值,或旋转标度盘904来进行指定,还可以设置滑动器以代替标度盘904,并通过调节滑动器的位置输入重要度。
权重算出部407根据在步骤S302中被输入的各个主观轴的重要度,算出在音质间距离算出部102算出距离时使用的权重(步骤S303)。
具体而言,设定权重,以使主观轴出示部406所出示的主观轴与音质特征DB101所保存的物理参数相对应,并使主观轴的重要度与物理参数的重要度相对应。
例如,主观轴“高音-低音”与音质特征DB101所保持的“基频”相对应。因此,如果用户输入的是主观轴“高音-低音”重要,则可以设定权重,以使物理参数“基频”的重要度增大。
而且,在主观轴为“沙哑的声音-清晰悦耳的声音”的情况下,与物理参数“非周期成分(AF)”相对应。并且,主观轴“粗声-细声”与物理参数“声道形状(k)”相对应。
再者,在公式3所示的权重的和为1的条件下,具体的权重可以根据各个主观轴的重要度的比率来决定。
依据此方法的权重设定方法,能够根据主观轴来决定权重。因此,与权重设定方法2相比,能够简单地设定权重。即,在用户能够理解各个主观轴的情况下,不用听取一个一个的声音,只需决定所重视的主观轴即可。
再者,这些权重设定方法可以按照用户所具有的对于声音的知识或为设定权重而能够使用的时间,来有选择性地切换。例如,在完全没有对声音的知识的情况下,可以使用权重设定方法1。而且,在虽然具有对声音的知识,但是,想要迅速决定的情况下,可以使用权重设定方法3。并且,在具有对声音的知识,并想要详细地设定权重的情况下,可以使用权重设定方法2。权重设定方法的选择并不限定于此。
通过以上的方法,能够设定用于生成与用户的感觉相符的音质空间的权重。再者,权重的设定方法并不限于上述方法,只要是将用户的感觉信息作为输入来调节权重即可。
其次,利用由本发明的音质编辑装置制作的音质特征,关于实际的转换音质的方法进行说明。
图28是表示利用由本发明所涉及的音质编辑装置生成的音质特征,进行音质转换的音质转换装置的构成的图。音质转换装置能够利用普通的计算机来构成。
音质转换装置包括:元音转换部601、子音声道信息保持部602、子音选择部603、子音变形部604、声源变形部605、合成部606。
元音转换部601是将附带音素边界信息的声道信息和由本发明所涉及的音质编辑装置生成的音质特征作为输入,并根据所生成的音质特征,对附带音素边界信息的声道信息所包含的元音的声道信息进行转换的处理部。附带音素边界信息的声道信息是指,在输入声音的声道信息中附带了音素标记的信息。音素标记是指,包含与输入声音相对应的音素信息和各个音素的时间长度的信息的信息。
子音声道信息保持部602是预先保持由与输入声音的讲话者不同的另外的讲话者发音的子音的声道信息的记忆装置,由硬盘或存储器等构成。
子音选择部603是针对由元音转换部601转换了元音区间的声道信息的附带音素边界信息的声道信息,从子音声道信息保持部602中选择适合转换后的元音区间的声道信息的子音的声道信息。
子音变形部604是进行变形,以使由子音选择部603选择的子音的声道信息与位于该子音的前后的元音的声道信息之间的连接变形变小的处理部。
声源变形部605是利用在由本发明的音质编辑装置生成的音质特征之中有关声源的信息,进行变形的处理部。
合成部606是利用由子音变形部604变形的声道信息和由声源变形部605变形的声源信息,来合成声音的处理部。
元音转换部601、子音声道信息保持部602、子音选择部603、子音变形部604、声源变形部605及合成部606,通过以计算机的CPU执行程序来实现。
根据以上的构成,能够利用由本发明的音质编辑装置生成的音质特征,对被输入的声音的音质进行转换。
元音转换部601通过将被输入的附带音素边界信息的声道信息的元音区间的声道信息和由本发明的音质编辑装置生成的声道信息,根据被输入的变形比率进行混合,来转换附带音素边界信息的声道信息的元音区间的声道信息。以下对详细的转换方法进行说明。
首先,附带音素边界信息的声道信息通过,从转换前的声音取得依据前述的PARCOR系数的声道信息,并且将音素标记付与该声道信息而被生成。
进而,在输入声音是通过从文本合成声音的文本合成装置合成的声音的情况下,能够通过文本合成装置取得音素标记。而且,还能够容易地从合成后的声音算出PARCOR系数。并且,在以脱机的状态使用音质转换装置的情况下,当然也可以预先通过手动将音素边界信息付与声道信息。
图8A至图8J表示以十次反射系数表现的元音/a/的声道信息的例子。在该图中,纵座标轴表示反射系数,横坐标轴表示时间。由此图可知,PARCOR系数比较平滑的随时间进行变动。
元音转换部601如上所述,对被输入的附带音素边界信息的声道信息所包含的元音的声道信息进行转换。
首先,元音转换部601根据由本发明的音质编辑装置生成的音质特征,取得与转换对象的元音相对应的目标的声道信息(目标元音声道信息)。在存在多个成为对象的目标元音声道信息的情况下,配合成为转换对象的元音的音韵环境(例如前后的音素种类等)的状况,取得最合适的目标元音声道信息。
元音转换部601根据输入的转换比率,将转换对象的元音转换为目标元音声道信息。
在被输入的附带音素边界信息的声道信息中,根据公式7所示的多项式,对以成为转换对象的元音区间的PARCOR系数表现的声道信息的各因次的时间序列进行近似。例如,在声道信息为十次PARCOR系数的情况下,根据公式7所示的多项式,对各自的次数的PARCOR系数进行近似。
(公式7)
不过,
表示被近似的输入声音的PARCOR系数,a
i表示被近似的PARCOR系数的多项式的系数。
因此,能够得出十种多项式。多项式的次数没有特别的限定,并能够设定适当的次数。
此时作为适用多项式近似的单位,例如,能够将一个音素区间设为近似的单位。而且,也可以不是音素区间,而可以是从音素中心到下一个音素中心为止的时间范围。另外,在以下的说明中,设音素区间为单位来进行说明。
图29A至图29D是分别表示,根据五次多项式对PARCOR系数进行近似,并以音素单位在时间方向上进行平滑化时的从一次至四次PARCOR系数的图。各图中的纵座标轴表示反射系数,横坐标轴表示时间。
在本实施例中,作为多项式的次数虽然以五次为例进行了说明,但是多项式的次数也可以不是五次。并且,在根据多项式近似之外,也可以根据按每个音素单位时间的回归线,对PARCOR系数进行近似。
同样,元音转换部601根据公式8所示的多项式,对以由本发明的音质编辑装置生成的音质特征所包含的PARCOR系数表现的目标元音声道信息进行近似,从而取得多项式的系数bi。
(公式8)
其次,元音转换部601利用被转换参数(ai)、目标元音声道信息(bi)、转换比率(r),根据公式9求出转换后的声道信息(PARCOR系数)的多项式的系数ci。
ci=ai+(bi-ai)×r (公式9)
元音转换部601利用算出的转换后的多项式的系数c
i,根据公式10求出转换后的声道信息
(公式10)
元音转换部601对于各因次的PARCOR系数进行以上的转换处理。通过此处理,能够以指定的转换比率,实现从表示被转换声音的元音声道信息的PARCOR系数向表示目标声音的元音声道信息的PARCOR系数的转换。
图30表示实际上针对元音/a/进行了上述转换的例子。在该图中,横坐标轴表示被归一化了的时间,纵座标轴表示第一次PARCOR系数。图中的(a)表示被转换声音的男性讲话者的/a/的发音的系数的推移。同样,(b)表示目标声音的女性讲话者的/a/的发音的系数的推移。(c)表示利用上述转换方法,将男性讲话者的系数以转换比率0.5转换为女性讲话者的系数时的系数的推移。从该图可知,通过上述的转换方法,即能够对讲话者之间的PARCOR系数进行插值。
图31A至图31C是表示在转换后的元音区间的时间上的中心的声道截面面积的图。此图是根据公式1,将图30所示的在PARCOR系数的时间上的中心点的PARCOR系数转换为声道截面面积的图。在图31A至图31C的各个图形中,横坐标轴表示在声管中的位置,纵座标轴表示声道截面面积。图31A是转换前的男性讲话者的声道截面面积,图31B是目标讲话者的女性的声道截面面积,图31C是以转换比率50%,将转换前的PARCOR系数对应于转换后的PARCOR系数的声道截面面积。从这些的图也可得知,图31C所示的声道截面面积为转换前和转换后之间的中间的声道截面面积。
为了将音质转换为目标讲话者,虽然将在元音转换部601被输入的附带音素边界信息的声道信息所包含的元音转换为目标讲话者的元音声道信息,但是,由于转换元音声道信息,因而在子音和元音的连接边界上发生声道信息的不连续。
图32是在VCV(V表示元音,C表示子音)音素列中,将元音转换部601进行元音的转换之后的某个PARCOR系数模式化表示的图。
在该图中,横坐标轴表示时间轴,纵座标轴表示PARCOR系数。图32(a)是输入声音的声道信息。在此之中的元音部分的PARCOR系数通过元音转换部601,利用图32(b)所示的目标讲话者的声道信息被变形。其结果为,得到如图32(c)所示的元音部分的声道信息10a及10b。但是,子音部分的声道信息10c未被转换,表示出输入声音的声道信息。因此,元音部分的声道信息和子音部分的声道信息之间的边界发生不连续性。因而子音部分的声道信息也需要转换。
以下关于子音区间的转换方法进行说明。声音的个人特性在考虑元音和子音的持续时间和稳定性等的情况下,可以考虑为主要根据元音来表现的。
于是,关于子音,能够不使用目标讲话者的声道信息,而从预先准备好的子音的多个声音信息之中,通过选择适合由元音转换部601转换后的元音声道信息的子音的声道信息,来缓和与转换后的元音在连接边界上的不连续性。在图32(c)中,从子音声道信息保持部602所记忆的子音的声道信息中,通过选择与前后的元音的声道信息10a及10b的连接性好的子音的声道信息10d,能够实现缓和在音素边界上的不连续性。
为了实现以上的处理,预先从多个讲话者的多个发音中提出子音区间,并通过从各个子音区间的声道信息算出PARCOR系数,来制作记忆在子音声道信息保持部602的子音声道信息。
子音选择部603从子音声道信息保持部602,选择适合由元音转换部601转换了的元音声道信息的子音的声道信息。子音的选择标准是根据子音的种类(音素),以及子音的始点及终点的连接点中的声道信息的连续性。即,能够根据PARCOR系数的连接点中的声道信息的连续性,来评价被选择的子音。具体而言,子音选择部603进行满足公式11的子音声道信息(Ci)的检索。
(公式11)
在此,Ui-1表示前面的音素的声道信息,Ui+1表示后续的音素的声道信息。而且,weight是前面的音素与选择对象的子音之间的连续性和选择对象的子音与后续的音素之间的连续性的权重。权重被适当地设定,以便重视与后续音素的连接性。之所以重视与后续音素的连接性,是因为子音与后续的元音的结合比前面的音素强。
并且,函数Cc是表示两个音素的声道信息的连续性的函数,例如,该函数的值能够通过两个音素的边界上的PARCOR系数的差的绝对值来表现。而且,也可以设计成PARCOR系数越是低次的系数,权重就越大。
这做,子音选择部603从子音声道信息保持部602,选择适合于向目标音质的转换后的元音的声道信息的子音的声道信息。因此,能够变成声道信息的平滑的连接,并且能够提高合成声音的自然性。
再者,也可以设计成设子音选择部603中的进行选择的子音只是有声子音,无声子音使用被输入的附带音素边界信息的声道信息所包含的声道信息。这是因为,无声子音是不伴随声带的振荡的发音,声音的生成过程与生成元音或有声子音时不同。
虽然子音选择部603能够取得适合由元音转换部601转换后的元音声道信息的子音声道信息,但是,存在连接点的连续性并不一定充分的情况。因此,子音变形部604将选择了的子音的声道信息进行变形,以使子音选择部603所选择的子音的声道信息和后续元音的声道信息在后续元音的连接点上连续地连接。
具体而言,子音变形部604使子音的PARCOR系数移动,以便在与后续元音的连接点上,PARCOR系数和后续元音的PARCOR系数一致。但是,为了保证稳定性,PARCOR系数必须在[-1,1]的范围内。因此,暂且根据tanh-1函数等将PARCOR系数映射在[-∞,∞]的空间上,并在映射后的空间上进行线性移动之后,再次根据tanh函数返回[-1,1]的范围。因此,既保证了稳定性,又能够改善子音区间与后续元音区间的声道形状的连续性。
声源变形部605使用由本发明的音质编辑装置生成的音质特征所包含的声源信息,对转换前声音(输入声音)的声源信息进行变形。通常,在LPC***的分析合成中,作为激励声源使用脉冲串的情况较多。因此,也可以在根据预先设定了的基频等信息将声源信息(FO、功率等)进行变形之后,合成声源信息。据此,在音质转换装置中,不仅能够进行依据声道信息的声调的转换,也能够进行依据基频等的韵律或者声源信息的转换。
而且,例如,也能够在合成部606,利用Rosenberg-Klatt模型等的声门声源模型。在使用了这样的构成的情况下,还能够使用利用从被转换声音的Rosenberg-Klatt模型的参数(OQ、TL、AV、F0等)向目标声音移动后的值等方法。
合成部606利用音质转换后的声道信息和在声源变形部605被变形后的声源信息来合成声音。虽然没有特别限定合成的方法,但是,在利用PARCOR系数作为声道信息的情况下,利用PARCOR合成即可。或者,也可以在从PARCOR系数转换成LPC系数之后,合成LPC系数;还可以从PARCOR系数中抽取共振峰,从而进行共振峰合成。进而,也可以从PARCOR系数算出LSP系数,从而进行LSP合成。
通过使用如上所述的音质转换装置,能够生成具有由本发明的音质编辑装置生成的音质特征的合成音。再者,音质转换方法并不限于上述的方法,只要是使用由本发明的音质编辑装置生成的音质特征来进行音质转换,则也可以是其他的方法。
(效果)
而且,通过由权重设定部103调节权重,音质间距离算出部102能够算出反映了用户感到的距离感的音质间距离。并且,根据用户的距离感觉,尺度构成部105算出各个音质的坐标位置。因此,显示部107能够显示与用户的感觉相符的音质空间。进而,此音质空间是与用户的感觉相符的距离空间。因此,设想位于被显示的多个音质之间的音质的情况,与使用预先决定的距离尺度来设想音质的情况相比,变得容易。因而,容易利用位置输入部108来指定与用户所期望的音质相对应的坐标。
进而,以音质混合部110混合音质之时,如下所述,来决定音质候选的混合比率。即,在使用了由用户决定的权重的音质空间中,接近音质候选被选择。而且,根据此音质空间上的音质间的距离,来决定被选择的各个音质候选的混合比率。因此,能够使所决定的混合比率与用户设想的音质的混合比率一致。并且,在利用位置输入部108生成与用户所指定的坐标相对应的音质之时,也使用权重记忆部109所保持的由用户设定的权重。因此,能够生成与用户共有的、音质编辑装置中的与音质空间上的位置相对应的音质。
即,将权重记忆部109所保持的权重作为媒介,能够共有用户所设想的音质空间和音质编辑装置所保持的音质空间。因此,只要输入音质编辑装置出示的音质空间上的坐标,就能够指定并生成用户所期望的音质。
进而,通常,如果不实际听取声音,则很难使用户想起此声音是怎样的音质。但是,在对用户显示音质空间之时,显示部107显示讲话者属性DB106所保持的面部图像等讲话者属性信息。因此,用户通过观察面部图像,能够容易地想起该面部图像的个人的音质。因此,即使是没有对声音的专门的知识的用户,也能够容易地进行音质的编辑。
进而,本发明的音质编辑装置利用音质特征DB101所保持的音质特征,只进行生成用户所期望的音质特征的音质编辑处理,与利用音质特征进行声音的音质转换的音质转换装置是分开的。因此,能够暂且通过本发明的音质编辑装置来决定音质,并仅将决定后的音质特征另外保存。据此,之后,在利用此音质特征进行声音的音质转换之时,具有只要再次利用保存着的音质特征即可,而不需要每次都进行重新编辑音质的工作的效果。
再者,本发明的音质编辑装置的各个构成部分,例如,如图33所示,由计算机来实现。即,显示部107由显示器来实现,输入部104及位置输入部108由键盘或滑鼠等输入装置来实现。而且,权重设定部103、音质间距离算出部102、尺度构成部105、音质混合部110通过在CPU上执行程序来实现。并且,音质特征DB101、讲话者属性DB106、权重记忆部109能够通过计算机内的内存来实现。
再者,作为依据本发明的音质编辑装置的音质空间的显示例,虽然记述了在二维平面上布置各个音质特征,但是,并不限于此显示方法,也可以设计成在伪三维空间上配置,还可以在球面上配置。
(变形例)
在实施例1中,利用所有的音质特征DB101所保持的音质特征来编辑用户所期望的音质,而本变形例的特征是,则利用音质特征DB101所保持的音质特征的一部分来使用户编辑音质。
在本发明的实施例1中,显示部107显示与音质特征DB101所保持的音质特征相对应的讲话者属性。但是,在用户不知道被显示的讲话者属性的情况下,存在即使音质编辑装置向用户出示讲话者属性,用户也不能想起此音质的问题。本变形例就是要解决这个问题。
图34是表示本变形例所涉及的音质编辑装置的构成的框图。在图34中,关于与图5相同的构成部分使用同样的标记,并省略对其的说明。图34所示的音质编辑装置具有,在图5所示的音质编辑装置上又增加了用户信息管理DB501的构成。
用户信息管理DB501是管理用户已知的音质的信息的数据库。图35是表示用户信息管理DB501管理的信息的一个例子的图。用户信息管理DB501至少保持利用音质编辑装置的用户的用户ID和按每个用户保持用户所知道的已知音质ID。在该图的例子中,可知用户1知道保持音质1及音质2的音质的人物。并且,可知用户2知道保持音质1、音质3及音质5的音质的人物。通过利用这样的信息,显示部107能够仅向用户出示用户所知道的音质的信息。
再者,在上述说明中,虽然说明的是用户所知道的音质为几个,但是也可以指定更多数量的音质。
同时,被用户信息控制数据库501保持的资料项目的作成方式不是特别被限定,不过,譬如,根据请选择预先用户从被被声音性质特性数据库101保持的声音性质及讲话人属性数据库106保持的讲话人属性,自己知道的声音性质及讲话人属性的事制作就行了。
或者,也可以决定按每个音质编辑装置所预先设想的用户的属性来显示的音质及讲话者属性。例如,按每一性别或年龄定义用户组以代替用户ID。并且,预先设定可以想象到的属于此组的性别或年龄的人所知道的音质及讲话者属性。音质编辑装置通过使用户输入性别或年龄,能够决定利用用户信息管理DB501所应该显示的音质。通过采用这样的构成,可以预先不使用户指定自己所知道的音质数据,就能够特定被认为是用户所知道的音质。
或者,也可以不使用户指定已知音质ID,而从用户使用的外部数据库中取得该外部数据库所保持的讲话者识别信息,并仅将所取得的与讲话者识别信息相对应的讲话者的音质作为已知音质来管理。作为外部数据库,例如,能够利用用户所有的音乐内容的演唱者的信息。或者,能够利用在用户所保有的影像内容中出场的演员的信息,来制作外部数据库。再者,讲话者识别信息的制作方法并不仅限于此,只要制作能够从音质特征DB101所保持的音质中特定用户所知道的音质的信息即可。
因而,用户只要将自己所保持的声音内容的数据提供给音质编辑装置,则音质编辑装置就能够自动取得用户所知道的音质的信息,从而能够制作用户信息管理DB501。因此,能够减小用户的处理负荷。
(效果)
通过构成如上所述的音质编辑装置,显示部107所出示的音质空间仅由用户所知道的音质构成。因此,进一步能够构成与用户的感觉相符的音质空间。因而,在指定用户所期望的音质之时,由于所出示的空间与用户的感觉相符,所以能够简单地设定想要指定的坐标。
再者,在通过音质混合部110混合音质特征DB101所登记的多个音质之时,也可以不仅利用由用户信息管理DB501管理的用户所知道的音质特征,而是利用音质特征DB101所登记的所有的音质特征,来生成用户所指定的坐标位置的音质。
在此情况下,用户所指定的坐标位置和由接近音质候选选择部201选择的接近音质之间的距离,与只利用由用户信息管理DB501管理的音质信息的情况相比,能够变小,其结果是,不需大幅度改变音质就能够混合用户所指定的坐标位置的音质。因此,音质的变形量少,则音质的劣化也能够减少,从而具有能够生成高音质的音质特征的效果。
再者,也可以是权重设定部103利用由权重设定部103设定的权重,对音质特征DB101所保持的音质特征进行分群,用户信息管理DB501保持代表群的音质。
据此,能够在保持与用户的感觉相符的音质空间的同时,抑制音质空间所显示的音质数量。因此,具有容易把握向用户出示的音质空间的效果。
(实施例2)
本发明的实施例1所涉及的音质编辑装置以一台计算机进行音质编辑。但是,常有一个人使用多台计算机的情况。而且,如今各种各样的服务不仅针对计算机,并且面向移动电话或移动终端。因此,还能够考虑将在某台计算机上构筑了的自己的环境,在其他的计算机、移动电话、移动终端上利用。因此,在实施例2中,关于能够在多个终端上实现同样的编辑环境的音质编辑***进行说明。
图36是表示本发明的实施例2所涉及的音质编辑***的构成的图。音质编辑***包括与网络704互相连接的终端701、终端702及服务器703。终端701是编辑音质的装置。终端702是编辑另外的音质的装置。服务器703是管理由终端701及终端702编辑后的音质的装置。而且,终端的数量并不限于此。
终端701及终端702包括:音质特征DB101、音质间距离算出部102、权重设定部103、输入部104、尺度构成部105、讲话者属性DB106、显示部107、位置输入部108以及音质混合部110。
服务器703包括权重记忆部109。
在由终端701的权重设定部103设定了权重的情况下,终端701通过网络将权重发送到服务器703。
服务器703的权重记忆部109按每个用户保存并管理权重。
在用户使用终端702(设定了权重的终端之外的终端)编辑音质的情况下,通过网络取得服务器703所保持的用户的权重。
通过使用终端702的音质间距离算出部102取得的权重,算出音质间距离,以作为另外的终端的终端702再现与以终端701设定了的音质空间相同的音质空间。
关于以终端701设定权重,使用所设定的权重以终端702编辑音质的例子,对其工作进行说明。
首先,终端701的权重设定部103决定权重。例如,图17所示的构成的权重设定部103以图18所示的流程图的流程来进行处理。
即,终端701的权重设定部103,从权重DB401所保持的权重之中,选择一个利用输入部104由用户选择了的权重(步骤S101)。
利用在步骤S101选择的权重,音质间距离算出部102算出音质特征DB101所保持的各个音质间的距离,以制作距离矩阵(步骤S102)。
利用在步骤S102制作的距离矩阵,尺度构成部105算出音质特征DB101所保持的各个音质的在音质空间上的坐标(步骤S103)。
显示部107针对音质特征DB101所保持的各个音质,在步骤S103算出的音质空间上的坐标上,显示讲话者属性DB106所保持的与该音质对应的讲话者属性信息(步骤S104)。
用户对在步骤S104被布置在音质空间上的音质特征DB101所保持的各个音质位置的状况进行观察,从而确认此音质空间是否符合自己的感觉(步骤S105)。即,判断自己感觉到相似的音质是否被彼此靠近配置,且判断自己感觉到不相似的音质是否被彼此远离配置。
在用户不满足当前显示的音质空间的情况下(步骤S105的“否”),则直到用户满意为止,重复从步骤S101至步骤S105的处理。
在用户满足当前显示的音质空间的情况下(步骤S105的“是”),权重选择部402将在步骤S101选择的权重通过网络704发送到服务器703,在权重记忆部109登记服务器703接收的权重,以结束权重设定处理(步骤S106)。
这样,通过直到用户满意为止重复从步骤S101至步骤S105的处理,从而能够设定对于音质的符合用户的感觉的权重。而且,通过根据此权重生成音质空间,从而能够构筑与用户的感觉相符的音质空间。
再者,在上述的说明中,虽然以图17的构成对权重设定部103进行了说明,但是也可以通过图22或图25的构成来实现。
其次,关于利用另外的终端702编辑音质的处理,使用图37的流程图来进行说明。
音质间距离算出部102通过网络704取得被登记在服务器703上的权重信息(步骤S401)。音质间距离算出部102利用在步骤S101取得的权重,算出音质特征DB101所保持的所有的音质间的距离(步骤S002)。
其次,尺度构成部105利用在步骤S002计算了的音质特征DB101所保持的音质间的距离(距离矩阵),算出音质的音质空间上的坐标(步骤S003)。
其次,显示部107针对音质特征DB101所保持的各个音质,在由步骤S003生成的坐标位置上显示讲话者属性DB106所保持的与该音质对应的讲话者属性(步骤S004)。
其次,用户利用位置输入部108,输入具有所期望的音质的坐标位置(步骤S005)。
其次,音质混合部110生成与在步骤S005中指定的坐标相对应的音质(步骤S006)。
通过以上的处理,能够利用以终端701设定的权重,以终端702进行音质编辑的工作。
(效果)
根据所涉及的构成,能够在多个终端的共同的音质空间上,进行音质的编辑。例如,实施例1所涉及的音质编辑装置中,在用户以计算机或移动终端等多个终端来决定音质的情况下,需要在各个终端决定权重。但是,通过使用实施例2所涉及的音质编辑***,通过在一个终端决定权重,并将决定了的权重保存在服务器中,从而不需要在其他的终端决定权重。即,其他的终端只需从服务器中取得权重即可。因此具有,与在每个终端都进行音质编辑中的音质空间的构成所需要的权重设定工作量的情况相比,能够大幅度削减用户决定音质之时的负担的效果。
应该能够认识到,此次公开的实施例的所有内容都是例示而非限制性的内容。本发明的范围并非上述说明的范围,而是根据权利要求的范围来表述的,并试图包含与权利要求的范围同等的意思以及在范围内的所有的变更。
本发明所涉及的音质编辑装置通过制作与用户的感觉相符的音质空间,从而能够出示直观的容易理解的音质空间,并且,具有通过输入所出示的音质空间上的坐标位置,从而生成用户所期望的音质的功能。因此,作为需要各种各样的音质的用户界面或娱乐等非常有用。并且,还能够应用于通过移动电话等的声音通信中的语音变换器等音质指定的用途上。