CN101622659A - 音质编辑装置及音质编辑方法 - Google Patents

音质编辑装置及音质编辑方法 Download PDF

Info

Publication number
CN101622659A
CN101622659A CN200880001664A CN200880001664A CN101622659A CN 101622659 A CN101622659 A CN 101622659A CN 200880001664 A CN200880001664 A CN 200880001664A CN 200880001664 A CN200880001664 A CN 200880001664A CN 101622659 A CN101622659 A CN 101622659A
Authority
CN
China
Prior art keywords
tonequality
feature
weight
remembered
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200880001664A
Other languages
English (en)
Other versions
CN101622659B (zh
Inventor
广濑良文
釜井孝浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN101622659A publication Critical patent/CN101622659A/zh
Application granted granted Critical
Publication of CN101622659B publication Critical patent/CN101622659B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明的音质编辑装置包括:音质特征DB(101),记忆多个音质特征;讲话者属性DB(106),关于各个音质特征,记忆用户能够想起的与该音质特征对应的音质的标识符;权重设定部(103),按每个音质的声特征量设定权重;尺度构成部(105),关于各个音质特征,根据构成该音质特征的多个声特征量和权重设定部(103)所设定的权重,算出该音质特征的显示坐标;显示部(107),关于各个音质特征,在算出的显示坐标上显示与该音质特征对应的标识符;位置输入部(108),接受坐标的输入;音质混合部(110),关于多个音质特征的一部分或全部的每一个,通过算出该音质特征的显示坐标与所述接受了的坐标之间的距离,并根据算出的距离的比率,混合多个音质特征的一部分或全部的声特征量,生成新的音质特征。

Description

音质编辑装置及音质编辑方法
技术领域
本发明涉及对声音的音质进行编辑的装置及方法。
背景技术
近几年,随着声音合成技术的发展,已经能够制作出极高音质的合成音。
但是,以往的合成音的用途主要以播音员的风格朗读新闻等用途为中心。
另一方面,在移动电话服务等领域,提供使用名人的声音信息来代替铃声之类的服务等,有特征的声音(个人再现性高的合成音,以及女高中生腔调或者关西方言腔调等具有特征性的韵律和音质的合成音)作为一个内容开始流通。为了增加这样的人际交流中的乐趣,可以想像对于制作给对方听的特征性的声音的需求今后会更高。
再者,作为合成声音的方法,大致分为以下两种。即,从预先准备好的声音单元DB(数据库)中选择适当的声音单元,并通过将其进行连接来合成声音的波形连接型声音合成方法,和对声音参数进行分析,以分析后的参数为基础来合成声音的分析合成型声音合成方法。
如果考虑使上述合成音的音质进行各种各样的变化,则在波形连接型声音合成方法中,需要尽量准备必要的声音单元DB,并切换声音单元DB,同时需要对单元进行连接。因此,为了制作各种各样音质的合成音,需要庞大的费用。
另一方面,分析合成型声音合成方法通过使分析后的声音参数进行变形,从而能够转换合成音的音质。
而且,存在利用讲话者适应技术来转换音质的方法。即为通过使预先准备的其他的讲话者的声音的特征适用于分析后的声音参数,来转换音质的方法。
为了改变声音的音质,需要以某种方法使用户指定想改变为怎样的音质。例如,作为指定音质的方法,存在如图1所示的,使用几个感性轴的滑动器,来使用户指定音质的方法。但是,缺乏有关声音的预备知识的用户,通过这样调节滑动器难以得到想要的音质。这是因为,用户将自己想制作的音质通过感性语言来语言化的事情本身就很难。例如,在图1的例子中,“年龄在30岁左右,非常女性化,但是,稍带阴郁,无感情,····”等之类的,必须根据自己设想的音质来调节滑动器,但是,这样的操作在缺乏声音的预备知识的情况下很难。而且,反过来,根据滑动器的状态来想起此状态所表示的音质的情况同样是困难的。
另一方面,平时,在听到了未知的音质的声音的情况下,进行如下的表现是自然的。即,听到了未知的音质的声音的用户,所谓“象X先生一样的声音,不过,又有点象Y先生的声音”(在此,X、Y表示用户知道的个人)等那样,利用用户已经知道的具体的人名来表现未知的音质是自然的。在此,可以考虑到通过将具体的个人(具备某种特征的个人所具有的音质)进行组合,从而能够直观地指定音质。
这样,在通过对***预先保持的具体的个人的音质进行组合,来使用户编辑音质的情况下,***以容易理解的方法来出示所保持的音质的出示方法变得重要。并且,通过利用编辑后的音质的声音特征来进行依据讲话者适应技术的音质转换,能够生成具有用户所期望的音质的合成声音。
再者,具有如专利文献1那样的,向用户出示登记在数据库的声信息,以供选择的方法。专利文献1公开了一种从各种各样的效果音中,使用户选择所期望的效果音的方法。在专利文献1所记载的方法中,根据声特征和感性信息,将所保有的效果音配置在声空间中,并出示与效果音的声特征对应的图标。
图2是专利文献1所记载的声浏览装置的框图。
声浏览装置包括:声数据存储部1、声空间坐标数据生成部2、声空间坐标数据存储部3、图标图像生成部4、声数据显示部5、声空间坐标输入部6、立体声再生处理部7、声数据再生部8。
声数据存储部1,将声数据本身、在画面上显示该声数据时使用的图标图像、有关该声数据的声特征量作为一组来存储。声空间坐标数据生成部2根据被存储在声数据存储部1的声特征量,生成应该显示在画面上的声空间中的该声数据的坐标数据。即,算出在声空间中,该声数据应该被显示在哪个位置上。
在画面上显示的图标图像根据声特征量,在图标图像生成部4被生成。具体而言,根据该效果音的频谱分布和感性参数,来生成图标图像。
在专利文献1中,通过这样的在空间中配置个别的效果音,从而使用户容易指定效果音。然而,出示效果音的坐标是由声空间坐标数据生成部2决定了的坐标,是固定的。因此,未必是与用户的感觉相符的声空间。
另一方面,具有如专利文献2那样的,在数据显示处理***中,按照用户的输入来修正信息的重要度的方法。专利文献2所记载的数据显示处理***是按照该***保有的信息的重要度,来改变信息的显示大小的***。数据显示处理***接受依据用户的重要度的修正,并根据修正后的信息,对算出重要度时的权重进行修正。
图3是专利文献2的数据显示处理***的框图。在图3中,编辑处理部11是进行有关作为成为显示对象的有意义的数据的单位的数据元素的集合的编辑处理的处理部。编辑数据记忆部14是记忆编辑对象及显示对象的文章或图解数据的记忆装置。加权系数记忆部15是记忆用于预先决定了的几个基本重要度函数的结合的加权系数的记忆装置。重要度计算部16是通过根据加权系数结合了基本重要度函数的函数,计算成为显示对象的各个数据元素的重要度的处理部。加权描绘处理部17是按照计算后的各个数据元素的重要度,决定各个数据元素的显示大小或者是否显示,并通过进行各个数据元素的显示布局,来制作显示数据的处理部。显示控制部18进行使显示装置20显示加权描绘处理部17制作的显示数据的控制。编辑处理部11具有加权系数变更单元12,该加权系数变更单元12根据来自输入装置19的输入,对加权系数记忆部15所记忆的与各个基本重要度函数对应的加权系数进行变更。而且,数据显示处理***还包括机械学习处理部13。机械学习处理部13根据伴随由编辑处理部11通知的用户指示的显示大小的变更等的操作信息,通过学习加权系数记忆部15记忆的加权系数来进行自动变更的处理。加权描绘处理部17按照各个数据元素的重要度,进行可见度型加权描绘处理、两数值大小型加权描绘处理或比例大小型加权描绘处理,或者进行对其中的几个进行组合后的加权描绘处理。
专利文献1:(日本)特开2001-5477号公报
专利文献2:(日本)特开平6-130921号公报
但是,在试图将专利文献2的技术利用于音质编辑的情况下,存在如何构成适合用户的感性的音质空间的问题,以及如何生成被用户指定了的音质的问题。
即,虽然在专利文献2中对各个数据的重要度进行调节,但是,对于声音难以适用同样的想法。换言之,数据的重要度作为单一的指标,能够依据个人的价值观来决定。但是,在试图将声音的特征配合个人的要求进行编辑的情况下,这样的一个指标是不够的。
对此问题进行具体的说明。例如设针对声音决定一个指标。作为此指标,设选择了所谓声音的高低的轴。在此情况下,用户能够改变声音的高低,而即使感到的是同样高度的声音也存在无数的音质。因此,只根据一个指标来进行音质的编辑是困难的。另一方面,如果选择所谓重要度或好感度等综合性的指标,则对于每个声音能够如专利文献2那样,根据个人的价值观来数值化。但是,即使感到的是同样重要的声音,也存在无数音质不同的例子。
这个问题是,若不深入考虑到如何重要、为什么感到好感度高的层次,就不能接近目标音质的本质性的问题。因此,归根到底,需要对如图1那样的多个参数进行调节,从而需要关于声音的专门知识。
而且,在专利文献1的出示方法中,能够选择被配置在向用户出示的音质空间的声音。但是,若只切换适合用户的感觉的音质空间的构成方法,则具有在从于音质空间内选择了的声音位置稍微移动后的位置而得到的所期望的音质和,***生成的音质之间产生乖离的问题。这是因为,不具有将以此感觉尺度构成的空间对应于***所具有的内部参数的空间的方案。
并且,在专利文献1中,通过图标图像出示声音,此图标图像根据声特征量来制作。因此,存在为了进行音质的编辑,需要关于声音的专门知识的问题。
发明内容
本发明就是为了解决上述的问题,其目的在于,提供一种即使是不具备关于声音的专门知识的用户,也能够容易地进行音质的编辑的音质编辑装置。
为了达到上述目的,本发明的某个局面所涉及的音质编辑装置通过对各自由多个音质的声特征量构成的多个音质特征进行编辑,从而生成新的音质特征,所述音质编辑装置包括:音质特征数据库,记忆多个音质特征;讲话者属性数据库,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,记忆用户能够想起的与该音质特征对应的音质的标识符;权重设定部,按每个音质的声特征量来设定权重;显示坐标算出部,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,根据构成该音质特征的所述多个声特征量和所述权重设定部所设定的权重,算出该音质特征的显示坐标;显示部,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,在所述显示坐标算出部所算出的显示坐标上显示与该音质特征对应的、并被记忆在所述讲话者属性数据库中的标识符;位置输入部,接受坐标的输入;以及音质混合部,关于所述音质特征数据库所记忆的所述多个音质特征的一部分或者全部的每一个,通过算出该音质特征的显示坐标与由所述位置输入部接受了的所述坐标之间的距离,根据算出的距离的比率,混合所述多个音质特征的一部分或者全部的声特征量,从而生成新的音质特征。
根据此构成,显示部所显示的标识符是用户能够想起音质的标识符。因此,用户通过观察被显示的标识符,能够想起音质。因此,即使是没有对声音的专门的知识的用户,也能够容易地进行音质特征的编辑。而且,根据由权重设定部设定的权重,算出音质特征的显示坐标。因此,能够在有关音质特征间的距离的与用户的感觉相符的显示坐标上,显示与音质特征相对应的标识符。
最好是,所述讲话者属性数据库,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,记忆具有该音质特征的声音的讲话者的面部图像、肖像画或名字、或者发出具有该音质特征的声音的角色的图像或名字,所述显示部,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,在所述显示坐标算出部所算出的显示坐标上显示讲话者的面部图像、肖像画或名字、或者角色的图像或名字,所述讲话者的面部图像、肖像画或名字、或者角色的图像或名字与该音质特征对应、并被记忆在所述讲话者属性数据库中。
根据此构成,用户根据被显示的面部图像等,能够直接想起音质。
最好,所述音质编辑装置还包括用户信息管理数据库,记忆与用户所知道的音质相对应的音质特征的识别信息,所述显示部,关于在所述音质特征数据库所记忆的所述多个音质特征之中的、识别信息被记忆在所述用户信息管理数据库中的音质特征的每一个,将与该音质特征对应的、并被记忆在所述讲话者属性数据库中的标识符,显示在所述显示坐标算出部所算出的显示坐标上。
根据此构成,与显示部所显示的标识符对应的所有的音质都是用户知道的音质。因此,用户通过观察被显示的标识符,能够确实想起音质。因而,即使是没有对声音的专门的知识的用户,也能够容易地进行音质特征的编辑,从而能够减轻音质特征的编辑所需要的用户的负荷。
进而最好,所述音质编辑装置还包括:个人特征输入部,接受用户的性别或年龄的输入;以及用户信息管理数据库,按每个用户的性别或年龄,记忆该性别或该年龄的用户有可能知道的音质的音质特征的识别信息,所述显示部,关于在所述音质特征数据库所记忆的所述多个音质特征之中的、识别信息与被记忆在所述用户信息管理数据库中的、与所述个人特征输入部所接受的用户的性别或年龄对应的识别信息一致的音质特征的每一个,将与该音质特征对应的、并被记忆在所述讲话者属性数据库中的标识符,显示在所述显示坐标算出部所算出的显示坐标上。
根据此构成,用户只需输入自己的性别或年龄,就能够限制与自己可能不知道的音质相对应的标识符的显示。因此,能够减轻音质编辑所需要的用户的负荷。
本发明的其他局面所涉及的音质编辑***,通过对各自由多个音质的声特征量构成的多个音质特征进行编辑,从而生成新的音质特征,通过网络而互相连接的第一终端、第二终端以及服务器,所述第一终端及所述第二终端分别具有:音质特征数据库,记忆多个音质特征;讲话者属性数据库,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,记忆用户能够想起的与该音质特征对应的音质的标识符;权重设定部,按每个音质的声特征量来设定权重,并发送到所述服务器;音质间距离算出部,从所述音质特征数据库所记忆的多个音质特征之中抽取由任意两个音质特征组成的音质特征组,按每个被抽取的音质特征组,对构成该组所包含的音质特征的声特征量,以所述服务器所保持的权重进行加权,并算出加权后的所述音质特征间的距离;尺度构成部,根据由所述音质间距离算出部算出的音质特征间的距离,算出所述音质特征数据库所记忆的所述多个音质特征的显示坐标;显示部,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,在所述尺度构成部所算出的显示坐标上显示与该音质特征对应的、并被记忆在所述讲话者属性数据库中的标识符;位置输入部,接受坐标的输入;以及音质混合部,关于所述音质特征数据库所记忆的所述多个音质特征的一部分或者全部的每一个,通过算出该音质特征的显示坐标与由所述位置输入部接受了的所述坐标之间的距离,并根据算出的距离的比率,混合所述多个音质特征的一部分或者全部的声特征量,从而生成新的音质特征,所述服务器具有权重记忆部,记忆从所述第一终端或者所述第二终端发送的权重。
根据此构成,第一终端及第二终端能够共有服务器所管理的权重。因此,在第一终端及第二终端保持相同的音质特征的情况下,能够在相同的显示坐标上显示音质特征的标识符。因而,第一终端和第二终端能够进行相同的工作。并且,不需要按每个终端进行权重的设定。因此,与按每个终端进行权重设定的情况相比,能够大幅度削减权重设定所需要的负担。
并且,本发明不仅可以作为具备如此特征性单元的音质编辑装置来实现,还可以作为将音质编辑装置所包括的特征性单元作为步骤的音质编辑方法来实现,并作为使计算机执行音质编辑方法中所包括的特征性步骤的程序来实现。并且,不言而喻,能够使这样的程序通过CD-ROM(CompactDisc-Read Only Memory:只读存储光盘)等记录介质或互联网等通信网络流通。
根据本发明的音质编辑装置,即使是没有对声音的专门的知识的用户,也能够容易地进行音质的编辑。
而且,通过由权重设定部调节权重,音质间距离算出部能够算出反映了用户感到的距离感的音质间距离。并且,根据距离感觉,尺度构成部算出各个音质的标识符的显示坐标。因此,显示部能够显示与用户的感觉相符的音质空间。而且,此音质空间是与用户的感觉相符的距离空间。因此,与利用预先决定的距离尺度来显示音质的情况相比,能够容易地设想位于被显示的音质之间的音质。因此,用户容易利用位置输入部来指定与所期望的音质相对应的坐标。
进而,在以音质混合部混合音质之时,取得使用了权重的音质空间中的接近音质候选,并进一步根据此音质空间上的距离,能够决定被选择了的各个音质候选的混合比率。能够使决定后的混合比率与用户设想的音质的混合比率一致。并且,在生成与用户所指定的坐标相对应的音质之时,使用权重记忆部所保持的、由用户通过权重设定部设定的权重。因此,能够生成与用户共有的、音质编辑装置中的与音质空间上的位置相对应的音质。
即,将权重作为媒介,能够共有用户设想的音质空间和音质编辑装置所保持的音质空间。因此,只要输入音质编辑装置出示的音质空间上的坐标,就能够指定并生成用户所期望的音质。
附图说明
图1是表示音质编辑界面的一个例子的图。
图2是表示专利文献1所记载的声浏览装置的构成的框图。
图3是表示专利文献2所记载的数据显示装置的构成的框图。
图4是本发明的实施例1所涉及的音质编辑装置的轮廓图。
图5是表示本发明的实施例1所涉及的音质编辑装置的构成的框图。
图6是表示声道截面面积函数和PARCOR系数(偏相关系数)的关系的图。
图7是表示音质特性DB所存储的音质特性的抽取方法的图。
图8A是表示根据元音/a/的一次反射系数的声道信息的一个例子的图。
图8B是表示根据元音/a/的二次反射系数的声道信息的一个例子的图。
图8C是表示根据元音/a/的三次反射系数的声道信息的一个例子的图。
图8D是表示根据元音/a/的四次反射系数的声道信息的一个例子的图。
图8E是表示根据元音/a/的五次反射系数的声道信息的一个例子的图。
图8F是表示根据元音/a/的六次反射系数的声道信息的一个例子的图。
图8G是表示根据元音/a/的七次反射系数的声道信息的一个例子的图。
图8H是表示根据元音/a/的八次反射系数的声道信息的一个例子的图。
图8I是表示根据元音/a/的九次反射系数的声道信息的一个例子的图。
图8J是表示根据元音/a/的十次反射系数的声道信息的一个例子的图。
图9是表示音质特性DB所存储的音质特性的一个例子的图。
图10是表示讲话者属性DB所存储的讲话者属性的一个例子的图。
图11是表示在本发明的施实例1中的音质编辑装置的基本操作的流程图。
图12是表示由音质间距离算出部算出的距离矩阵的数据结构的图。
图13是表示由尺度构成部算出的各个音质的坐标位置的一个例子的图。
图14是表示由显示部显示的讲话者属性的一个例子的图。
图15是表示音质混合部的具体构成的框图。
图16是将由接近音质候选选择部选择的音质模式化表现的图。
图17是表示权重设定部的具体构成的框图。
图18是权重设定方法的流程图。
图19是表示由权重设定部设定的权重的数据结构的图。
图20是权重设定方法的流程图。
图21是表示显示部所显示的多个音质空间的一个例子的图。
图22是表示权重设定部的具体构成的框图。
图23是权重设定方法的流程图。
图24是用于说明关于根据音质出示部的音质的出示的图。
图25是表示权重设定部的具体构成的框图。
图26是表示由主观轴出示部出示的主观轴的一个例子的图。
图27是权重设定方法的流程图。
图28是表示利用由音质编辑装置生成的音质特征进行音质转换的音质转换装置的构成的图。
图29A是表示被多项式近似后的元音的声道形状的一个例子的图。
图29B是表示被多项式近似后的元音的声道形状的一个例子的图。
图29C是表示被多项式近似后的元音的声道形状的一个例子的图。
图29D是表示被多项式近似后的元音的声道形状的一个例子的图。
图30是用于对关于通过元音转换部的元音区间的PARCOR系数的转换处理进行说明的图。
图31A是表示转换前的男性讲话者的声道截面面积的情况的图。
图31B是表示目标讲话者的女性的声道截面面积的情况的图。
图31C是表示与以转换率50%转换要转换的PARCOR系数之后的PARCOR系数相对应的声道截面面积的情况的图。
图32是用于说明通过子音选择部选择子音声道信息的处理的模式图。
图33是表示本发明的实施例1所涉及的音质编辑装置的在计算机上的构成的图。
图34是表示涉及本发明的实施例1的变形例中的音质编辑装置的构成的框图。
图35是表示用户信息管理DB501管理的信息数据结构的一个例子的图。
图36是表示本发明的实施例2所涉及的音质编辑***的构成的图。
图37是表示本发明的实施例2所涉及的音质编辑***所具备的终端进行处理的流程图。
附图标记说明
101  音质特征DB
102  音质间距离算出部
103  权重设定部
104  输入部
105  尺度构成部
106  讲话者属性DB
107  显示部
108  位置输入部
109  权重记忆部
110  音质混合部
201 接近音质候选选择部
202 混合比率算出部
203 特征量混合部
301 元音稳定区间抽取部
302 音质特征算出部
401 权重DB
402 权重选择部
403 音质代表DB
404 音质出示部
405、407 权重算出部
406 主观轴出示部
501 用户信息管DB
601 元音转换部
602 子音声道信息保持部
603 子音选择部
604 子音变形部
605 声源变形部
606 合成部
701、702 终端
703 服务器
704 网络
具体实施方式
以下,参照附图来说明本发明的具体实施方式。
(实施例1)
图4是表示本发明的实施例1所涉及的音质编辑装置的轮廓图。音质编辑装置是利用个人电脑或EWS(Engineering Workstation:工程工作站)等普通的计算机被实现的。
图5是表示本发明的实施例1所涉及的音质编辑装置的构成的框图。
音质编辑装置是对多个音质进行编辑从而生成新的音质的装置,包括:音质特征DB(数据库)101、音质间距离算出部102、权重设定部103、输入部104、尺度构成部105、讲话者属性DB106、显示部107、位置输入部108、权重记忆部109、音质混合部110。
音质特征DB101是保持音质编辑装置所保有的多个声音的声特征量的记忆装置,由硬盘或存储器等构成。以下,将“声音的声特性量”称为适宜的“音质”或“音质特性”。
音质间距离算出部102是计算音质特征DB101所保有的音质间的距离的处理部。权重设定部103是在音质间距离算出部102计算音质间距离时,设定表示被重视的物理参数的权重的处理部。输入部104是在由权重设定部103决定权重之时,接受来自用户的输入的输入装置,例如,为键盘或滑鼠等。尺度构成部105是根据音质间距离算出部102计算的音质间距离,决定音质特征DB101所保持的各个音质的空间坐标的处理部。
讲话者属性DB106是保持与音质特征DB101所保持的各个音质相关联的讲话者属性信息的记忆装置,由硬盘或存储器等构成。显示部107是针对音质特征DB101所保持的各个音质,在由尺度构成部105决定了的坐标上显示与讲话者属性DB106所保持的各个音质相对应的讲话者属性信息的显示装置,例如,为LCD(Liquid Crystal Display:液晶显示器)等。位置输入部108是从用户接受由显示部107出示了的在音质空间中的位置的输入装置,例如,为键盘或滑鼠等。
权重记忆部109是记忆由权重设定部103设定的权重的记忆装置,例如,由硬盘或存储器等构成。音质混合部110是根据由位置输入部108输入的音质空间上的坐标及权重记忆部109所保持的权重,通过混合音质特征DB101所保持的音质,从而生成与用户通过位置输入部108输入的音质空间上的坐标相对应的音质的处理部。
音质间距离算出部102、权重设定部103、尺度构成部105以及音质混合部110,通过在计算机的CPU(Central Processing Unit)上执行程序而被实现。
其次,关于音质特征DB101进行详细的说明。
音质特征DB101在是日语的情况下,按每个音质,保持至少五个元音(/aiueo/)的、来自目标讲话者的声道形状的声道的信息。再者,在其他的语言的情况下,与日语的情况相同,音质特征DB101按每种元音的种类来保持来自声道形状的声道的信息即可。音质特征DB101还可以设计成保持后述的声源的信息。
作为声道信息的表现方式,例如存在声道截面面积函数。声道截面面积函数表述如图6(a)所示的,在以可变圆形截面面积的声管来模拟声道的声管模型中的各个声管的截面面积。众所周知,此截面面积与基于LPC(Linear Predictive Coding:线性预测编码)分析的PARCOR(Partial AutoCorrelation:偏自相关)系数一一对应,并能够通过公式1来转换。在本实施例中,设通过PARCOR系数ki来表现声道信息。以后,虽然利用PARCOR系数来说明声道信息,但是,声道信息并不只限定于PARCOR系数,也可以利用与PARCOR系数等价的LSP(Line Spectrum Pairs:线谱对)或LPC等。而且,所述声管模型中的声管之间的反射系数和PARCOR系数的关系,仅在于符号是相反的。因此,利用反射系数本身也没关系。
A i A i + 1 = 1 - k i 1 + k i (公式1)
在此,An表示如图4(b)所示的第i区间的声管的截面面积,ki表示第i区间和第(i+1)区间的边界的PARCOR系数(反射系数)。
利用根据LPC分析被分析出的线性预测系数,能够算出PARCOR系数。具体而言,通过利用Levinson-Durbin-Itakura算法,能够算出PARCOR系数。
再者,不仅限于根据LPC分析的PARCOR系数,也可以根据ARX分析(非专利文献:「音源パルス列を考虑した顽健なARX音声分析法」(“考虑了声源脉冲串的强健的ARX声音分析法”),日本声学学会会刊58卷7号(2002年)、pp.386-397、大冢等)算出PARCOR系数。
其次,关于音质特征DB101所保持的音质特征(声音的声特征量)的制作方法,一边举例一边进行说明。例如,音质特征能够通过由目标讲话者发出了的孤立发音元音来构筑。
图7是表示根据由某个讲话者发出了的孤立发音元音抽取音质特征的处理部的构成的图。
元音稳定区间抽取部301从被输入的孤立发音元音中抽取孤立的元音的区间。并不特别限定抽取方法。例如,也可以将一定功率以上的区间作为稳定区间,并将该稳定区间作为孤立的元音的区间来抽取。
音质特征算出部302针对由元音稳定区间抽取部301抽取的孤立的元音的区间,算出上述PARCOR系数。通过针对音质编辑装置保有的所有的音质进行以上的处理,音质特征DB101被构筑。
再者,抽取音质特征的声音数据不限于孤立发音元音,在日语中只要是至少包含五个元音(/aiueo/)的某些声音即可。例如,可以是目标讲话者临时自由地讲话后的声音,也可以是预先被收录的声音。另外,还可以利用歌唱数据等的声乐音带的声音。
在此情况下,为了抽取元音区间,通过对于声音数据进行音素识别,来检测元音的声音数据。其次,元音稳定区间抽取部301依据元音的声音数据抽取稳定的元音区间。作为抽取的方法,例如,能够将音素识别结果的可靠性高的区间(似然高的区间)作为稳定的元音区间来使用。如此通过抽取稳定的元音区间,能够排除由音素识别错误产生的影响。
音质特征算出部302通过在抽取后的元音的稳定区间制作声道信息,从而能够构筑音质特征DB101。例如,由音质特征算出部302进行的音质特征的算出,通过算出前述的PARCOR系数来进行。
并且,音质特征DB101所保持的音质特征的制作方法,并不限定于此,只要是从稳定的元音区间抽取音质特征的方法,则也可以为其他的方法。
图8A至图8J是表示以十次反射系数表现的针对元音/a/的声道信息的一个例子的图。
在各图所示的各个图形中,纵座标轴表示反射系数,横坐标轴表示时间。从k1至k10表示反射系数的次数。通过利用象这样被孤立发音的且稳定的元音区间的声音数据,能够将依据反射系数的声道信息作为在时间上稳定的参数来算出。而且,在将反射系数登记在音质特征DB101之时,既可以直接登记如图8A至图8J所示的反射系数,也可以将元音区间内的平均值或者中值作为代表值来登记。
作为声源信息,例如也能够利用Rosenberg-Klatt(RK)模型,在利用RK模型的情况下,能够将对于有声声源振幅(AV)、基频(FO)以及音调周期(基频的倒数)的声门打开的时间的比率(声门开放比率)(OQ)等作为声源信息来利用。并且,也能够将声源所具有的非周期成分(AF)作为声源信息来利用。
若汇集音质特征DB101所保持的音质特征,就会得到如图9所示的信息。即,作为音质特征,声道信息和声源信息被保持。作为声道信息,在是日语的情况下,有关五个元音的声道形状的信息(例如,反射系数)被保持。另一方面,作为声源信息,基频(F0)、有声声源振幅(AV)、声门开放比率(OQ)、声源的非周期成分边界频率(AF)等被保持。再者,音质特征DB101所存储的音质特征并不限定于此,只要是关于音质的特征量则在此以外的也可以。
图10是表示讲话者属性DB106所保持的讲话者属性的一个例子的图。讲话者属性DB106所保持的讲话者属性是作为,不用直接听取音质特征DB101所保持的音质特征,就能够理解此音质特征的信息,即、只要看见此信息用户就能够想起与此信息相关联的音质的信息。作为具体的例子,是能够对发出了在抽取音质特征DB101所保持的音质特征之时所使用了的声音的人物进行特定的讲话者属性,例如,面部图像、人名等。如此,通过利用能够特定人物的讲话者属性,如果用户知道被出示的个人,则只看到面部图像就能够容易地想起此面部图像的人物具有怎样的音质。即,通过利用这样的讲话者属性,关于出示的音质,则不需要使用各种各样的评价尺度来定义此音质。
再者,讲话者属性不仅限于讲话的人物的面部图像、人名,只要能够直接想起讲话的人的声音的讲话者属性,则也可以是其他的形式。例如,在是卡通人物或吉祥物的情况下,不仅利用以后期录音的方式发出此卡通人物或吉祥物的声音的人物的面部图像或名字,还可以将卡通人物或吉祥物的图像或角色名字等作为讲话者属性来利用。并且,例如,在是外国影片的演员等的情况下,不仅利用进行配音的讲话者的属性,还可以利用被配音的演员的讲话者属性。而且,在讲话的人物是解说员的情况下,不仅利用解说员本人的讲话者属性,还可以将解说员出场的节目的节目名或节目标志作为讲话者属性来利用。
根据以上的构成,能够生成用户指定了的音质。
其次,关于音质编辑装置的工作,使用图11的流程图来进行说明。
权重设定部103接受来自输入部104的输入,以决定在算出音质间的距离时的声参数的权重(步骤S001)。权重设定部103将决定了的权重保存在权重记忆部109。权重的具体的决定方法以后再述。
音质间距离算出部102利用在步骤S001设定的权重,算出音质特征DB101所保持的所有的音质间的距离(步骤S002)。具体而言,音质间的距离的定义如下所述。即,在将登记在音质特征DB101中的音质以矢量表现的情况下,两个矢量之间的距离(音质间的距离)能够作为如公式2所述的加权欧几里得距离来定义。但是,权重wl必需满足公式3所示的条件。距离的计算方法不仅限于此,也可以利用余弦相似度来算出距离。在此情况下,需要将余弦相似度变换为距离,例如也可以将矢量之间形成的角度作为距离来定义。在此情况下,对于余弦相似度能够根据反余弦函数算出距离。
d i , j = Σ l = 1 n w l × ( v il - v jl ) 2 (公式2)
Σ l = 1 n w l = 1 (公式3)
在此wl是表示针对音质特征DB101所保持的各个参数(声道形状参数、基频等)的重要度的权重参数,音质特征DB101所保持的音质特征vi表示第i个的音质特征,vil表示音质特征vi的第l个参数的物理量。
如上所述,通过制作音质特征DB101所保持的音质间的距离,能够制作如图12所示的距离矩阵。距离矩阵中的i行j列的元素di,j表示音质特征vi和音质特征vj之间的距离。
其次,尺度构成部105利用在步骤S002计算了的音质特征DB101所保持的音质间的距离(距离矩阵),算出各个音质在音质空间上的坐标(步骤S003)。并不特别限定计算坐标的方法,例如,通过利用多维标度法(MDS),能够在二维或三维空间上建立与各自的音质的对应关系。
图13是表示利用多维标度法,在二维空间上配置音质特征DB101所保持的音质特征的一个例子的图。
例如,在权重设定部103中,与基频(F0)对应的音质参数的权重被设定得大的情况下,将某音质特征作为基准,基频(F0)接近的音质特征在二维平面上被靠近配置。另一方面,在基频(F0)大不相同的情况下,则在二维平面上的离得远的位置上被配置。通过这样地配置音质特征,用户所重视的音质参数相近的音质特征,彼此在音质空间上被靠近配置。因此,用户能够容易地想起位于被配置的多个音质特征之间的音质。
再者,不仅利用多维标度法,还可以通过对音质特征DB101所保持的各个物理参数进行主要成分分析,来抽取主要成分,并在成为代表的贡献度大的主要成分之中,由2-3个主要成分构成空间,算出各个音质的坐标。
其次,显示部107针对音质特征DB101所保持的各个音质,在步骤S003所生成的坐标位置上显示讲话者属性DB106所保持的与该音质对应的讲话者属性(步骤S004)。图14表现被显示的音质空间的例子。虽然在图14中,使用作为讲话者属性信息的、具有音质的讲话者的面部图像,但是也可以不限于面部图像,只要是能够想起此音质的讲话者属性即可。例如,可以是讲话者的名字、角色图像或者角色名字等。
通过这样显示讲话者属性信息,用户通过观察被显示的讲话者属性信息,能够直观地想起讲话者的音质,并且能够直观地掌握所出示的音质空间。
而且,在图14中,虽然显示部107在一个显示区域中显示着所有的音质,但是不言而喻,也可以只显示特定的一部分音质,还可以设计成另外接受来自用户的输入,并按照该输入进行放大、缩小或滚动显示。
其次,用户利用位置输入部108,输入具有所期望的音质的坐标位置(步骤S005)。具体的输入方法并不特别限定。例如,可以是用户使用滑鼠来指定显示部107所显示的音质空间上的一个点,还可以使用键盘来输入坐标值。进而,也可以使用滑鼠以外的指点器来输入坐标值。
其次,音质混合部110生成与在步骤S005中指定的坐标相对应的音质(步骤S006)。关于具体的生成方法使用图15进行说明。
图15是表示音质混合部110的详细的构成的图。音质混合部110包括:接近音质候选选择部201、混合比率算出部202、特征量混合部203。
接近音质候选选择部201选择与在步骤S005中被输入的坐标位置相接近的音质。对选择时的工作进行详细的说明。设在步骤S004中如图16所示的音质空间被显示,并且在步骤S005中坐标位置801被指定。接近音质候选选择部201在音质空间中,选择与坐标位置801相距预先设定的距离以内的音质。例如,在图16所示的音质空间中,选择位于与坐标位置801相距预先设定的距离的范围802之内的音质803、804及805。
其次,混合比率算出部202,针对由接近音质候选选择部201选择的音质,算出进行混合的比率。在图16的例子的情况下,混合比率算出部202分别算出由用户输入的坐标位置801与由接近音质候选选择部201选择的音质803、804及805之间的距离。混合比率算出部202,根据算出的距离的倒数,来算出混合比率。在图16的例子的情况下,例如,如果设坐标位置801与音质803、804及805之间的距离的比率为“1∶2∶2”,则混合比率为“2∶1∶1”。
其次,特征量混合部203根据由混合比率算出部202算出的混合比率,将由接近音质候选选择部201选择的音质,按每一个音质特征DB101所保持的声特征量进行混合。
例如,通过将表示声道形状的反射系数以上述比率进行混合,能够制作新的声道形状。在此之外还可以将反射系数的各个因次依据函数进行近似,并通过混合近似后的函数,制作新的声道形状。例如,作为函数能够使用多项式。在此情况下,函数的混合能够通过多项式的系数的加权平均来进行混合。
而且,关于作为声源信息的基频(F0)、有声声源振幅(AV)、声门开放比率(OQ)、非周期成分边界频率(AF),通过以上述的比率取得加权平均从而能够制作新的声源信息。
在图16的例子的情况下,特征量混合部203将音质803、804及805的音质特征以“2∶1∶1”的比率进行混合。
具体的混合方法并不特别限定,例如,也可以根据混合比率,通过求出音质特征DB101所保持的音质特征的各个参数的加权平均,来混合音质特征。
再者,也可以使接近音质候选选择部201选择音质空间内的所有的音质。在此情况下,混合比率算出部202以所有的音质特征为对象来决定混合比率。
通过以上的处理,音质混合部110能够生成与在步骤S005中指定的坐标相对应的音质。
(权重设定方法1)
其次,关于在步骤S001中权重设定部103进行的具体的权重设定方法进行说明。在权重设定时,权重设定部103以外的处理部也工作。
图17是表示权重设定部103的详细的构成的框图。权重设定部103包括:权重DB401、权重选择部402。
权重DB401是保持***设计员预先设计了的多个权重的记忆装置,由硬盘或存储器等构成。权重选择部402是根据来自输入部104的指示,从权重DB401选择权重,并保存在权重记忆部109的处理部。关于各个部的工作,使用图18所示的流程图来进行说明。
权重选择部402从权重DB401所保持的权重之中,选择一个利用输入部104由用户选择了的权重(步骤S101)。
音质间距离算出部102利用在步骤S101选择的权重,算出音质特征DB101所保持的各个音质间的距离,以制作距离矩阵(步骤S102)。
尺度构成部105利用在步骤S102制作的距离矩阵,算出音质特征DB101所保持的各个音质的在音质空间上的坐标(步骤S103)。
显示部107针对音质特征DB101所保持的各个音质,在步骤S103算出的音质空间上的坐标上,显示讲话者属性DB106所保持的与该音质对应的讲话者属性信息(步骤S104)。
用户对在步骤S104被布置在音质空间上的音质特征DB101所保持的各个音质位置的状况进行观察,从而确认此音质空间是否符合自己的感觉(步骤S105)。即,判断自己感觉到相似的音质是否被彼此靠近配置,且判断自己感觉到不相似的音质是否被彼此远离配置。用户利用输入部104输入判断结果。
在用户不满足当前显示的音质空间的情况下(步骤S105的“否”),则直到用户满意为止,重复从步骤S101至步骤S105的处理。
在用户满足当前显示的音质空间的情况下(步骤S105的“是”),权重选择部402将在步骤S101选择的权重登记在权重记忆部109,以结束权重设定处理(步骤S106)。图19表示权重记忆部109中保存的权重的一个例子。在图19中,w1、w2、···、wn是针对音质特征DB101所存储的各个音质特性(例如作为声道信息的反射系数、基频等)的权重参数。
这样,通过直到用户满意为止重复从步骤S101至步骤S105的处理,从而能够设定符合用户对于音质的感觉的权重。而且,通过根据此权重生成音质空间,从而能够构筑与用户的感觉相符的音质空间。
以上说明了的权重设定方法中,在用户选择权重之后,虽然根据选择的权重进行音质的显示,但是,也可以在根据权重DB401所登记的多个权重显示音质之后,选择与用户的感觉最接近的权重。图20是这样的权重设定方法的流程图。
音质间距离算出部102利用权重DB401所保持的多个权重的每一个,算出音质特征DB101所保持的各个音质间的距离,以制作距离矩阵(步骤S111)。
尺度构成部105按每个权重,利用在步骤S111制作的距离矩阵,算出音质特征DB101所保持的各个音质的在音质空间上的坐标(步骤S112)。
显示部107按每个权重,针对音质特征DB101所保持的各个音质,在步骤S112算出的音质空间上的坐标上,显示讲话者属性DB106所保持的与该音质对应的讲话者属性信息(步骤S113)。图21是表示步骤S113中的显示的一个例子的图。在该图中,关于四个权重的每一个,都表示着讲话者属性信息。四个权重是指,例如,针对基频(表示是高音还是低音的音质特征)的权重,针对声道形状(表示是粗声还是细声的音质特征)的权重,针对非周期成分(表示是沙哑的声音还是清晰悦耳的声音的音质特征)的权重,针对声门开放比率(表示是生硬的声音还是柔和的声音的音质特征)的权重。在图21中,显示着分别针对这四个权重的四个音质空间,在各个音质空间中显示着讲话者属性信息。
用户对在步骤S113中被布置在四个音质空间上的音质特征DB101所保持的各个音质位置的状况进行观察,从而选择最符合自己的感觉的音质空间(步骤S114)。权重选择部402从权重DB401选择与被选择的音质空间相对应的权重。权重选择部402将选择了的权重存储在权重记忆部109(步骤S106)。
而且,也可以使权重记忆部109按每个用户来记忆权重。通过按每个用户记忆权重,在其他的用户编辑音质时,从权重记忆部109取得与此用户对应的权重,并通过在音质间距离算出部102以及音质混合部110使用,从而能够出示符合此用户的感觉的音质空间。
如上所述的权重设定,因为能够从预先决定了的候选中选择性地决定,所以即使在用户没有特别的知识的情况下,也能够适当地决定权重。而且,还能够减少用户为决定权重所需要的工作量。
(权重设定方法2)
其次,关于另外的权重设定方法进行说明。
权重设定部103也可以通过以下的方法来设定权重。图22是用于实现权重设定部103的框图。权重设定部103包括:音质代表DB403、音质出示部404、权重算出部405。
音质代表DB403是从音质特征DB101所保持的音质特征数据中预先抽取代表性的音质特征,并保持音质特征代表的数据库。因此,并不一定需要设置新的记忆部以保持音质特征代表,也可以只保持音质特征DB101内的音质特征代表的标识符。音质出示部404向用户出示音质代表DB403所保持的音质特征。出示方法并不特别限定,也可以通过再生在制作音质特征DB101时使用了的声音来出示。此外,还可以从讲话者属性DB106中选择与音质代表DB403所保持的音质代表相对应的讲话者属性,并利用显示部107来出示。
输入部104从由音质出示部404出示的音质代表中,接受用户判断为相似的音质的音质组的输入。具体的输入方法并不特别限定。例如,可以在设想将滑鼠作为输入部104的情况下,通过用户使用滑鼠指定判断为相似的音质的音质特征,来接受音质组的输入。而且,输入部104并不限于滑鼠,也可以是其他的指点器。
权重算出部405根据由输入部104指定的用户感觉到相似的音质组,算出权重。
其次,使用图23所示的流程图,关于权重设定处理进行说明。
音质出示部404向用户出示音质代表DB403所登记的音质特征(步骤S201)。例如,音质出示部404也可以是如图24所示的在显示部107显示画面。在图24所示的画面中,显示了五名讲话者信息(面部图像),在其旁边显示着五个再生按钮901。用户操作输入部104,按下与想要再生的讲话者声音对应的再生按钮901。音质出示部404再生与被押下的再生按钮901相对应的讲话者的声音。
其次,用户利用输入部104,输入感觉到音质相似的音质特征组(步骤S202)。例如,在图24所示的例子中,通过在复选框902中划勾,来指定两个相似的音质。
其次,权重算出部405利用在步骤S202中输入的音质组,来决定权重(步骤S203)。具体而言,以被指定了的音质组中的公式2,使算出的音质间距离在公式3的限定下成为最小,来决定各个音质i的权重wi即可。
以下表述具体的权重决定方法的一个例子。在本决定方法中,进一步设置如公式4所示的限定,使公式2最小化。
wi≥Δw  (公式4)
具体而言,首先根据公式5决定两组的各个因次的差分的平方成为最小的因数1min
l min = arg min l ( v il - v jl ) 2 (公式5)
并且,根据公式6决定各个权重wi
w i = 1 - n × Δw ; i = l min Δw ; otherelse (公式6)
权重算出部405将在步骤S203中设定了的权重保存在权重记忆部109(步骤S204)。
并不限定权重的决定方法。例如,不是根据公式5,决定一个两组的各个因次的差分的平方成为最小的因数,也可以决定多个。
而且,若使所选择的两个音质之间的距离变小来决定权重,则并不特别限定权重决定方法。
再者,被输入的声音组存在多组的情况下,也可以同样地使从各组求出的距离之和为最小来设定权重。
如上所述,通过设定权重,从而能够设定符合用户对于音质的感觉的权重。同时,通过根据此权重生成音质空间,从而能够构筑符合用户对于音质的感觉的音质空间。
此权重设定方法与权重设定方法1相比,能够更详细地设定用户对于音质的感觉。即,不是选择预先决定了的权重,而是通过选择用户感到相似的音质,来增大针对此音质间的共同的特征量的权重。因此,能够抽取为了用户感到相似的重要的特征量。
(权重设定方法3)
其次,关于另外的权重设定方法进行说明。
权重设定部103也可以通过以下的方法来设定权重。图25是用于实现权重设定部103的框图。权重设定部103包括:主观轴出示部406、权重算出部407。
主观轴出示部406向用户出示如图26所示的“高音-低音”等主观性的主观轴。输入部104接受,由主观轴出示部406出示了的针对各个时间轴的重要度的输入。例如,在图26所示的例子中,通过对输入栏903输入数值,或操作标度盘904,能够进行所谓如“高音-低音”的主观轴的重要度为“1”,“沙哑的声音-清晰悦耳的声音”的主观轴的重要度为“3”,“粗声-细声”的主观轴的重要度为“3”等的输入。在此例中为用户进行了所谓“沙哑的声音-清晰悦耳的声音”的主观轴是重要的输入。权重算出部407根据由输入部104输入的主观轴的重要度来决定权重。
其次,使用图27所示的流程图,关于权重设定处理进行说明。
主观轴出示部406向用户出示音质编辑装置能够使用的主观轴(步骤S301)。出示方法并不特别限定,例如,通过如图26所示的,同时出示各个主观轴的名称及能够输入此重要度的输入栏903或标度盘904,能够出示主观轴。另外,并不限定于此出示方法,也可以出示表现各自的主观轴的图标。
用户输入针对在步骤S301出示的各自的主观轴的重要度(步骤S302)。并不特别限定输入方法,也可以如图26所示,通过对输入栏903输入数值,或旋转标度盘904来进行指定,还可以设置滑动器以代替标度盘904,并通过调节滑动器的位置输入重要度。
权重算出部407根据在步骤S302中被输入的各个主观轴的重要度,算出在音质间距离算出部102算出距离时使用的权重(步骤S303)。
具体而言,设定权重,以使主观轴出示部406所出示的主观轴与音质特征DB101所保存的物理参数相对应,并使主观轴的重要度与物理参数的重要度相对应。
例如,主观轴“高音-低音”与音质特征DB101所保持的“基频”相对应。因此,如果用户输入的是主观轴“高音-低音”重要,则可以设定权重,以使物理参数“基频”的重要度增大。
而且,在主观轴为“沙哑的声音-清晰悦耳的声音”的情况下,与物理参数“非周期成分(AF)”相对应。并且,主观轴“粗声-细声”与物理参数“声道形状(k)”相对应。
再者,在公式3所示的权重的和为1的条件下,具体的权重可以根据各个主观轴的重要度的比率来决定。
依据此方法的权重设定方法,能够根据主观轴来决定权重。因此,与权重设定方法2相比,能够简单地设定权重。即,在用户能够理解各个主观轴的情况下,不用听取一个一个的声音,只需决定所重视的主观轴即可。
再者,这些权重设定方法可以按照用户所具有的对于声音的知识或为设定权重而能够使用的时间,来有选择性地切换。例如,在完全没有对声音的知识的情况下,可以使用权重设定方法1。而且,在虽然具有对声音的知识,但是,想要迅速决定的情况下,可以使用权重设定方法3。并且,在具有对声音的知识,并想要详细地设定权重的情况下,可以使用权重设定方法2。权重设定方法的选择并不限定于此。
通过以上的方法,能够设定用于生成与用户的感觉相符的音质空间的权重。再者,权重的设定方法并不限于上述方法,只要是将用户的感觉信息作为输入来调节权重即可。
其次,利用由本发明的音质编辑装置制作的音质特征,关于实际的转换音质的方法进行说明。
图28是表示利用由本发明所涉及的音质编辑装置生成的音质特征,进行音质转换的音质转换装置的构成的图。音质转换装置能够利用普通的计算机来构成。
音质转换装置包括:元音转换部601、子音声道信息保持部602、子音选择部603、子音变形部604、声源变形部605、合成部606。
元音转换部601是将附带音素边界信息的声道信息和由本发明所涉及的音质编辑装置生成的音质特征作为输入,并根据所生成的音质特征,对附带音素边界信息的声道信息所包含的元音的声道信息进行转换的处理部。附带音素边界信息的声道信息是指,在输入声音的声道信息中附带了音素标记的信息。音素标记是指,包含与输入声音相对应的音素信息和各个音素的时间长度的信息的信息。
子音声道信息保持部602是预先保持由与输入声音的讲话者不同的另外的讲话者发音的子音的声道信息的记忆装置,由硬盘或存储器等构成。
子音选择部603是针对由元音转换部601转换了元音区间的声道信息的附带音素边界信息的声道信息,从子音声道信息保持部602中选择适合转换后的元音区间的声道信息的子音的声道信息。
子音变形部604是进行变形,以使由子音选择部603选择的子音的声道信息与位于该子音的前后的元音的声道信息之间的连接变形变小的处理部。
声源变形部605是利用在由本发明的音质编辑装置生成的音质特征之中有关声源的信息,进行变形的处理部。
合成部606是利用由子音变形部604变形的声道信息和由声源变形部605变形的声源信息,来合成声音的处理部。
元音转换部601、子音声道信息保持部602、子音选择部603、子音变形部604、声源变形部605及合成部606,通过以计算机的CPU执行程序来实现。
根据以上的构成,能够利用由本发明的音质编辑装置生成的音质特征,对被输入的声音的音质进行转换。
元音转换部601通过将被输入的附带音素边界信息的声道信息的元音区间的声道信息和由本发明的音质编辑装置生成的声道信息,根据被输入的变形比率进行混合,来转换附带音素边界信息的声道信息的元音区间的声道信息。以下对详细的转换方法进行说明。
首先,附带音素边界信息的声道信息通过,从转换前的声音取得依据前述的PARCOR系数的声道信息,并且将音素标记付与该声道信息而被生成。
进而,在输入声音是通过从文本合成声音的文本合成装置合成的声音的情况下,能够通过文本合成装置取得音素标记。而且,还能够容易地从合成后的声音算出PARCOR系数。并且,在以脱机的状态使用音质转换装置的情况下,当然也可以预先通过手动将音素边界信息付与声道信息。
图8A至图8J表示以十次反射系数表现的元音/a/的声道信息的例子。在该图中,纵座标轴表示反射系数,横坐标轴表示时间。由此图可知,PARCOR系数比较平滑的随时间进行变动。
元音转换部601如上所述,对被输入的附带音素边界信息的声道信息所包含的元音的声道信息进行转换。
首先,元音转换部601根据由本发明的音质编辑装置生成的音质特征,取得与转换对象的元音相对应的目标的声道信息(目标元音声道信息)。在存在多个成为对象的目标元音声道信息的情况下,配合成为转换对象的元音的音韵环境(例如前后的音素种类等)的状况,取得最合适的目标元音声道信息。
元音转换部601根据输入的转换比率,将转换对象的元音转换为目标元音声道信息。
在被输入的附带音素边界信息的声道信息中,根据公式7所示的多项式,对以成为转换对象的元音区间的PARCOR系数表现的声道信息的各因次的时间序列进行近似。例如,在声道信息为十次PARCOR系数的情况下,根据公式7所示的多项式,对各自的次数的PARCOR系数进行近似。
y ^ a = Σ i = 0 p a i x i
(公式7)
不过,
Figure A20088000166400332
表示被近似的输入声音的PARCOR系数,ai表示被近似的PARCOR系数的多项式的系数。
因此,能够得出十种多项式。多项式的次数没有特别的限定,并能够设定适当的次数。
此时作为适用多项式近似的单位,例如,能够将一个音素区间设为近似的单位。而且,也可以不是音素区间,而可以是从音素中心到下一个音素中心为止的时间范围。另外,在以下的说明中,设音素区间为单位来进行说明。
图29A至图29D是分别表示,根据五次多项式对PARCOR系数进行近似,并以音素单位在时间方向上进行平滑化时的从一次至四次PARCOR系数的图。各图中的纵座标轴表示反射系数,横坐标轴表示时间。
在本实施例中,作为多项式的次数虽然以五次为例进行了说明,但是多项式的次数也可以不是五次。并且,在根据多项式近似之外,也可以根据按每个音素单位时间的回归线,对PARCOR系数进行近似。
同样,元音转换部601根据公式8所示的多项式,对以由本发明的音质编辑装置生成的音质特征所包含的PARCOR系数表现的目标元音声道信息进行近似,从而取得多项式的系数bi
y ^ b = Σ i = 0 p b i x i (公式8)
其次,元音转换部601利用被转换参数(ai)、目标元音声道信息(bi)、转换比率(r),根据公式9求出转换后的声道信息(PARCOR系数)的多项式的系数ci
ci=ai+(bi-ai)×r  (公式9)
元音转换部601利用算出的转换后的多项式的系数ci,根据公式10求出转换后的声道信息
Figure A20088000166400342
y ^ c = Σ i = 0 p c i x i (公式10)
元音转换部601对于各因次的PARCOR系数进行以上的转换处理。通过此处理,能够以指定的转换比率,实现从表示被转换声音的元音声道信息的PARCOR系数向表示目标声音的元音声道信息的PARCOR系数的转换。
图30表示实际上针对元音/a/进行了上述转换的例子。在该图中,横坐标轴表示被归一化了的时间,纵座标轴表示第一次PARCOR系数。图中的(a)表示被转换声音的男性讲话者的/a/的发音的系数的推移。同样,(b)表示目标声音的女性讲话者的/a/的发音的系数的推移。(c)表示利用上述转换方法,将男性讲话者的系数以转换比率0.5转换为女性讲话者的系数时的系数的推移。从该图可知,通过上述的转换方法,即能够对讲话者之间的PARCOR系数进行插值。
图31A至图31C是表示在转换后的元音区间的时间上的中心的声道截面面积的图。此图是根据公式1,将图30所示的在PARCOR系数的时间上的中心点的PARCOR系数转换为声道截面面积的图。在图31A至图31C的各个图形中,横坐标轴表示在声管中的位置,纵座标轴表示声道截面面积。图31A是转换前的男性讲话者的声道截面面积,图31B是目标讲话者的女性的声道截面面积,图31C是以转换比率50%,将转换前的PARCOR系数对应于转换后的PARCOR系数的声道截面面积。从这些的图也可得知,图31C所示的声道截面面积为转换前和转换后之间的中间的声道截面面积。
为了将音质转换为目标讲话者,虽然将在元音转换部601被输入的附带音素边界信息的声道信息所包含的元音转换为目标讲话者的元音声道信息,但是,由于转换元音声道信息,因而在子音和元音的连接边界上发生声道信息的不连续。
图32是在VCV(V表示元音,C表示子音)音素列中,将元音转换部601进行元音的转换之后的某个PARCOR系数模式化表示的图。
在该图中,横坐标轴表示时间轴,纵座标轴表示PARCOR系数。图32(a)是输入声音的声道信息。在此之中的元音部分的PARCOR系数通过元音转换部601,利用图32(b)所示的目标讲话者的声道信息被变形。其结果为,得到如图32(c)所示的元音部分的声道信息10a及10b。但是,子音部分的声道信息10c未被转换,表示出输入声音的声道信息。因此,元音部分的声道信息和子音部分的声道信息之间的边界发生不连续性。因而子音部分的声道信息也需要转换。
以下关于子音区间的转换方法进行说明。声音的个人特性在考虑元音和子音的持续时间和稳定性等的情况下,可以考虑为主要根据元音来表现的。
于是,关于子音,能够不使用目标讲话者的声道信息,而从预先准备好的子音的多个声音信息之中,通过选择适合由元音转换部601转换后的元音声道信息的子音的声道信息,来缓和与转换后的元音在连接边界上的不连续性。在图32(c)中,从子音声道信息保持部602所记忆的子音的声道信息中,通过选择与前后的元音的声道信息10a及10b的连接性好的子音的声道信息10d,能够实现缓和在音素边界上的不连续性。
为了实现以上的处理,预先从多个讲话者的多个发音中提出子音区间,并通过从各个子音区间的声道信息算出PARCOR系数,来制作记忆在子音声道信息保持部602的子音声道信息。
子音选择部603从子音声道信息保持部602,选择适合由元音转换部601转换了的元音声道信息的子音的声道信息。子音的选择标准是根据子音的种类(音素),以及子音的始点及终点的连接点中的声道信息的连续性。即,能够根据PARCOR系数的连接点中的声道信息的连续性,来评价被选择的子音。具体而言,子音选择部603进行满足公式11的子音声道信息(Ci)的检索。
C i = arg min C k [ weight × Cc ( U i - 1 , C k ) + ( 1 - weight ) Cc ( C k , U i + 1 ) ] (公式11)
在此,Ui-1表示前面的音素的声道信息,Ui+1表示后续的音素的声道信息。而且,weight是前面的音素与选择对象的子音之间的连续性和选择对象的子音与后续的音素之间的连续性的权重。权重被适当地设定,以便重视与后续音素的连接性。之所以重视与后续音素的连接性,是因为子音与后续的元音的结合比前面的音素强。
并且,函数Cc是表示两个音素的声道信息的连续性的函数,例如,该函数的值能够通过两个音素的边界上的PARCOR系数的差的绝对值来表现。而且,也可以设计成PARCOR系数越是低次的系数,权重就越大。
这做,子音选择部603从子音声道信息保持部602,选择适合于向目标音质的转换后的元音的声道信息的子音的声道信息。因此,能够变成声道信息的平滑的连接,并且能够提高合成声音的自然性。
再者,也可以设计成设子音选择部603中的进行选择的子音只是有声子音,无声子音使用被输入的附带音素边界信息的声道信息所包含的声道信息。这是因为,无声子音是不伴随声带的振荡的发音,声音的生成过程与生成元音或有声子音时不同。
虽然子音选择部603能够取得适合由元音转换部601转换后的元音声道信息的子音声道信息,但是,存在连接点的连续性并不一定充分的情况。因此,子音变形部604将选择了的子音的声道信息进行变形,以使子音选择部603所选择的子音的声道信息和后续元音的声道信息在后续元音的连接点上连续地连接。
具体而言,子音变形部604使子音的PARCOR系数移动,以便在与后续元音的连接点上,PARCOR系数和后续元音的PARCOR系数一致。但是,为了保证稳定性,PARCOR系数必须在[-1,1]的范围内。因此,暂且根据tanh-1函数等将PARCOR系数映射在[-∞,∞]的空间上,并在映射后的空间上进行线性移动之后,再次根据tanh函数返回[-1,1]的范围。因此,既保证了稳定性,又能够改善子音区间与后续元音区间的声道形状的连续性。
声源变形部605使用由本发明的音质编辑装置生成的音质特征所包含的声源信息,对转换前声音(输入声音)的声源信息进行变形。通常,在LPC***的分析合成中,作为激励声源使用脉冲串的情况较多。因此,也可以在根据预先设定了的基频等信息将声源信息(FO、功率等)进行变形之后,合成声源信息。据此,在音质转换装置中,不仅能够进行依据声道信息的声调的转换,也能够进行依据基频等的韵律或者声源信息的转换。
而且,例如,也能够在合成部606,利用Rosenberg-Klatt模型等的声门声源模型。在使用了这样的构成的情况下,还能够使用利用从被转换声音的Rosenberg-Klatt模型的参数(OQ、TL、AV、F0等)向目标声音移动后的值等方法。
合成部606利用音质转换后的声道信息和在声源变形部605被变形后的声源信息来合成声音。虽然没有特别限定合成的方法,但是,在利用PARCOR系数作为声道信息的情况下,利用PARCOR合成即可。或者,也可以在从PARCOR系数转换成LPC系数之后,合成LPC系数;还可以从PARCOR系数中抽取共振峰,从而进行共振峰合成。进而,也可以从PARCOR系数算出LSP系数,从而进行LSP合成。
通过使用如上所述的音质转换装置,能够生成具有由本发明的音质编辑装置生成的音质特征的合成音。再者,音质转换方法并不限于上述的方法,只要是使用由本发明的音质编辑装置生成的音质特征来进行音质转换,则也可以是其他的方法。
(效果)
而且,通过由权重设定部103调节权重,音质间距离算出部102能够算出反映了用户感到的距离感的音质间距离。并且,根据用户的距离感觉,尺度构成部105算出各个音质的坐标位置。因此,显示部107能够显示与用户的感觉相符的音质空间。进而,此音质空间是与用户的感觉相符的距离空间。因此,设想位于被显示的多个音质之间的音质的情况,与使用预先决定的距离尺度来设想音质的情况相比,变得容易。因而,容易利用位置输入部108来指定与用户所期望的音质相对应的坐标。
进而,以音质混合部110混合音质之时,如下所述,来决定音质候选的混合比率。即,在使用了由用户决定的权重的音质空间中,接近音质候选被选择。而且,根据此音质空间上的音质间的距离,来决定被选择的各个音质候选的混合比率。因此,能够使所决定的混合比率与用户设想的音质的混合比率一致。并且,在利用位置输入部108生成与用户所指定的坐标相对应的音质之时,也使用权重记忆部109所保持的由用户设定的权重。因此,能够生成与用户共有的、音质编辑装置中的与音质空间上的位置相对应的音质。
即,将权重记忆部109所保持的权重作为媒介,能够共有用户所设想的音质空间和音质编辑装置所保持的音质空间。因此,只要输入音质编辑装置出示的音质空间上的坐标,就能够指定并生成用户所期望的音质。
进而,通常,如果不实际听取声音,则很难使用户想起此声音是怎样的音质。但是,在对用户显示音质空间之时,显示部107显示讲话者属性DB106所保持的面部图像等讲话者属性信息。因此,用户通过观察面部图像,能够容易地想起该面部图像的个人的音质。因此,即使是没有对声音的专门的知识的用户,也能够容易地进行音质的编辑。
进而,本发明的音质编辑装置利用音质特征DB101所保持的音质特征,只进行生成用户所期望的音质特征的音质编辑处理,与利用音质特征进行声音的音质转换的音质转换装置是分开的。因此,能够暂且通过本发明的音质编辑装置来决定音质,并仅将决定后的音质特征另外保存。据此,之后,在利用此音质特征进行声音的音质转换之时,具有只要再次利用保存着的音质特征即可,而不需要每次都进行重新编辑音质的工作的效果。
再者,本发明的音质编辑装置的各个构成部分,例如,如图33所示,由计算机来实现。即,显示部107由显示器来实现,输入部104及位置输入部108由键盘或滑鼠等输入装置来实现。而且,权重设定部103、音质间距离算出部102、尺度构成部105、音质混合部110通过在CPU上执行程序来实现。并且,音质特征DB101、讲话者属性DB106、权重记忆部109能够通过计算机内的内存来实现。
再者,作为依据本发明的音质编辑装置的音质空间的显示例,虽然记述了在二维平面上布置各个音质特征,但是,并不限于此显示方法,也可以设计成在伪三维空间上配置,还可以在球面上配置。
(变形例)
在实施例1中,利用所有的音质特征DB101所保持的音质特征来编辑用户所期望的音质,而本变形例的特征是,则利用音质特征DB101所保持的音质特征的一部分来使用户编辑音质。
在本发明的实施例1中,显示部107显示与音质特征DB101所保持的音质特征相对应的讲话者属性。但是,在用户不知道被显示的讲话者属性的情况下,存在即使音质编辑装置向用户出示讲话者属性,用户也不能想起此音质的问题。本变形例就是要解决这个问题。
图34是表示本变形例所涉及的音质编辑装置的构成的框图。在图34中,关于与图5相同的构成部分使用同样的标记,并省略对其的说明。图34所示的音质编辑装置具有,在图5所示的音质编辑装置上又增加了用户信息管理DB501的构成。
用户信息管理DB501是管理用户已知的音质的信息的数据库。图35是表示用户信息管理DB501管理的信息的一个例子的图。用户信息管理DB501至少保持利用音质编辑装置的用户的用户ID和按每个用户保持用户所知道的已知音质ID。在该图的例子中,可知用户1知道保持音质1及音质2的音质的人物。并且,可知用户2知道保持音质1、音质3及音质5的音质的人物。通过利用这样的信息,显示部107能够仅向用户出示用户所知道的音质的信息。
再者,在上述说明中,虽然说明的是用户所知道的音质为几个,但是也可以指定更多数量的音质。
同时,被用户信息控制数据库501保持的资料项目的作成方式不是特别被限定,不过,譬如,根据请选择预先用户从被被声音性质特性数据库101保持的声音性质及讲话人属性数据库106保持的讲话人属性,自己知道的声音性质及讲话人属性的事制作就行了。
或者,也可以决定按每个音质编辑装置所预先设想的用户的属性来显示的音质及讲话者属性。例如,按每一性别或年龄定义用户组以代替用户ID。并且,预先设定可以想象到的属于此组的性别或年龄的人所知道的音质及讲话者属性。音质编辑装置通过使用户输入性别或年龄,能够决定利用用户信息管理DB501所应该显示的音质。通过采用这样的构成,可以预先不使用户指定自己所知道的音质数据,就能够特定被认为是用户所知道的音质。
或者,也可以不使用户指定已知音质ID,而从用户使用的外部数据库中取得该外部数据库所保持的讲话者识别信息,并仅将所取得的与讲话者识别信息相对应的讲话者的音质作为已知音质来管理。作为外部数据库,例如,能够利用用户所有的音乐内容的演唱者的信息。或者,能够利用在用户所保有的影像内容中出场的演员的信息,来制作外部数据库。再者,讲话者识别信息的制作方法并不仅限于此,只要制作能够从音质特征DB101所保持的音质中特定用户所知道的音质的信息即可。
因而,用户只要将自己所保持的声音内容的数据提供给音质编辑装置,则音质编辑装置就能够自动取得用户所知道的音质的信息,从而能够制作用户信息管理DB501。因此,能够减小用户的处理负荷。
(效果)
通过构成如上所述的音质编辑装置,显示部107所出示的音质空间仅由用户所知道的音质构成。因此,进一步能够构成与用户的感觉相符的音质空间。因而,在指定用户所期望的音质之时,由于所出示的空间与用户的感觉相符,所以能够简单地设定想要指定的坐标。
再者,在通过音质混合部110混合音质特征DB101所登记的多个音质之时,也可以不仅利用由用户信息管理DB501管理的用户所知道的音质特征,而是利用音质特征DB101所登记的所有的音质特征,来生成用户所指定的坐标位置的音质。
在此情况下,用户所指定的坐标位置和由接近音质候选选择部201选择的接近音质之间的距离,与只利用由用户信息管理DB501管理的音质信息的情况相比,能够变小,其结果是,不需大幅度改变音质就能够混合用户所指定的坐标位置的音质。因此,音质的变形量少,则音质的劣化也能够减少,从而具有能够生成高音质的音质特征的效果。
再者,也可以是权重设定部103利用由权重设定部103设定的权重,对音质特征DB101所保持的音质特征进行分群,用户信息管理DB501保持代表群的音质。
据此,能够在保持与用户的感觉相符的音质空间的同时,抑制音质空间所显示的音质数量。因此,具有容易把握向用户出示的音质空间的效果。
(实施例2)
本发明的实施例1所涉及的音质编辑装置以一台计算机进行音质编辑。但是,常有一个人使用多台计算机的情况。而且,如今各种各样的服务不仅针对计算机,并且面向移动电话或移动终端。因此,还能够考虑将在某台计算机上构筑了的自己的环境,在其他的计算机、移动电话、移动终端上利用。因此,在实施例2中,关于能够在多个终端上实现同样的编辑环境的音质编辑***进行说明。
图36是表示本发明的实施例2所涉及的音质编辑***的构成的图。音质编辑***包括与网络704互相连接的终端701、终端702及服务器703。终端701是编辑音质的装置。终端702是编辑另外的音质的装置。服务器703是管理由终端701及终端702编辑后的音质的装置。而且,终端的数量并不限于此。
终端701及终端702包括:音质特征DB101、音质间距离算出部102、权重设定部103、输入部104、尺度构成部105、讲话者属性DB106、显示部107、位置输入部108以及音质混合部110。
服务器703包括权重记忆部109。
在由终端701的权重设定部103设定了权重的情况下,终端701通过网络将权重发送到服务器703。
服务器703的权重记忆部109按每个用户保存并管理权重。
在用户使用终端702(设定了权重的终端之外的终端)编辑音质的情况下,通过网络取得服务器703所保持的用户的权重。
通过使用终端702的音质间距离算出部102取得的权重,算出音质间距离,以作为另外的终端的终端702再现与以终端701设定了的音质空间相同的音质空间。
关于以终端701设定权重,使用所设定的权重以终端702编辑音质的例子,对其工作进行说明。
首先,终端701的权重设定部103决定权重。例如,图17所示的构成的权重设定部103以图18所示的流程图的流程来进行处理。
即,终端701的权重设定部103,从权重DB401所保持的权重之中,选择一个利用输入部104由用户选择了的权重(步骤S101)。
利用在步骤S101选择的权重,音质间距离算出部102算出音质特征DB101所保持的各个音质间的距离,以制作距离矩阵(步骤S102)。
利用在步骤S102制作的距离矩阵,尺度构成部105算出音质特征DB101所保持的各个音质的在音质空间上的坐标(步骤S103)。
显示部107针对音质特征DB101所保持的各个音质,在步骤S103算出的音质空间上的坐标上,显示讲话者属性DB106所保持的与该音质对应的讲话者属性信息(步骤S104)。
用户对在步骤S104被布置在音质空间上的音质特征DB101所保持的各个音质位置的状况进行观察,从而确认此音质空间是否符合自己的感觉(步骤S105)。即,判断自己感觉到相似的音质是否被彼此靠近配置,且判断自己感觉到不相似的音质是否被彼此远离配置。
在用户不满足当前显示的音质空间的情况下(步骤S105的“否”),则直到用户满意为止,重复从步骤S101至步骤S105的处理。
在用户满足当前显示的音质空间的情况下(步骤S105的“是”),权重选择部402将在步骤S101选择的权重通过网络704发送到服务器703,在权重记忆部109登记服务器703接收的权重,以结束权重设定处理(步骤S106)。
这样,通过直到用户满意为止重复从步骤S101至步骤S105的处理,从而能够设定对于音质的符合用户的感觉的权重。而且,通过根据此权重生成音质空间,从而能够构筑与用户的感觉相符的音质空间。
再者,在上述的说明中,虽然以图17的构成对权重设定部103进行了说明,但是也可以通过图22或图25的构成来实现。
其次,关于利用另外的终端702编辑音质的处理,使用图37的流程图来进行说明。
音质间距离算出部102通过网络704取得被登记在服务器703上的权重信息(步骤S401)。音质间距离算出部102利用在步骤S101取得的权重,算出音质特征DB101所保持的所有的音质间的距离(步骤S002)。
其次,尺度构成部105利用在步骤S002计算了的音质特征DB101所保持的音质间的距离(距离矩阵),算出音质的音质空间上的坐标(步骤S003)。
其次,显示部107针对音质特征DB101所保持的各个音质,在由步骤S003生成的坐标位置上显示讲话者属性DB106所保持的与该音质对应的讲话者属性(步骤S004)。
其次,用户利用位置输入部108,输入具有所期望的音质的坐标位置(步骤S005)。
其次,音质混合部110生成与在步骤S005中指定的坐标相对应的音质(步骤S006)。
通过以上的处理,能够利用以终端701设定的权重,以终端702进行音质编辑的工作。
(效果)
根据所涉及的构成,能够在多个终端的共同的音质空间上,进行音质的编辑。例如,实施例1所涉及的音质编辑装置中,在用户以计算机或移动终端等多个终端来决定音质的情况下,需要在各个终端决定权重。但是,通过使用实施例2所涉及的音质编辑***,通过在一个终端决定权重,并将决定了的权重保存在服务器中,从而不需要在其他的终端决定权重。即,其他的终端只需从服务器中取得权重即可。因此具有,与在每个终端都进行音质编辑中的音质空间的构成所需要的权重设定工作量的情况相比,能够大幅度削减用户决定音质之时的负担的效果。
应该能够认识到,此次公开的实施例的所有内容都是例示而非限制性的内容。本发明的范围并非上述说明的范围,而是根据权利要求的范围来表述的,并试图包含与权利要求的范围同等的意思以及在范围内的所有的变更。
本发明所涉及的音质编辑装置通过制作与用户的感觉相符的音质空间,从而能够出示直观的容易理解的音质空间,并且,具有通过输入所出示的音质空间上的坐标位置,从而生成用户所期望的音质的功能。因此,作为需要各种各样的音质的用户界面或娱乐等非常有用。并且,还能够应用于通过移动电话等的声音通信中的语音变换器等音质指定的用途上。

Claims (11)

1、一种音质编辑装置,通过对各自由多个音质的声特征量构成的多个音质特征进行编辑,从而生成新的音质特征,所述音质编辑装置包括:
音质特征数据库,记忆多个音质特征;
讲话者属性数据库,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,记忆用户能够想起的与该音质特征对应的音质的标识符;
权重设定部,按每个音质的声特征量来设定权重;
显示坐标算出部,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,根据构成该音质特征的所述多个声特征量和所述权重设定部所设定的权重,算出该音质特征的显示坐标;
显示部,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,在所述显示坐标算出部所算出的显示坐标上显示与该音质特征对应的、并被记忆在所述讲话者属性数据库中的标识符;
位置输入部,接受坐标的输入;以及
音质混合部,关于所述音质特征数据库所记忆的所述多个音质特征的一部分或者全部的每一个,通过算出该音质特征的显示坐标与由所述位置输入部接受了的所述坐标之间的距离,并根据算出的距离的比率,混合所述多个音质特征的一部分或者全部的声特征量,从而生成新的音质特征。
2、如权利要求1所述的音质编辑装置,
所述讲话者属性数据库,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,记忆具有该音质特征的声音的讲话者的面部图像、肖像画或名字、或者发出具有该音质特征的声音的角色的图像或名字,
所述显示部,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,在所述显示坐标算出部所算出的显示坐标上显示讲话者的面部图像、肖像画或名字、或者角色的图像或名字,所述讲话者的面部图像、肖像画或名字、或者角色的图像或名字与该音质特征对应、并被记忆在所述讲话者属性数据库中。
3、如权利要求1所述的音质编辑装置,
所述显示坐标算出部包括:
音质间距离算出部,从所述音质特征数据库所记忆的多个音质特征之中抽取由任意两个音质特征组成的音质特征组,按每个被抽取的音质特征组,对构成该组所包含的音质特征的声特征量,以所述权重设定部所设定的权重进行加权,并算出加权后的所述音质特征间的距离;以及
尺度构成部,根据由所述音质间距离算出部算出的音质特征间的距离,算出所述音质特征数据库所记忆的所述多个音质特征的显示坐标,
所述显示部,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,在所述尺度构成部所算出的显示坐标上显示与该音质特征对应的、并被记忆在所述讲话者属性数据库中的标识符。
4、如权利要求1所述的音质编辑装置,
所述权重设定部包括:
权重记忆部,记忆权重信息,所述权重信息由在所述多个音质的声特征量的加权中分别使用的多个权重组成;
权重指定部,指定权重信息;以及
权重选择部,通过从所述权重记忆部之中选择所述权重指定部所指定的权重信息,从而设定每个音质的声特征量的权重。
5、如权利要求1所述的音质编辑装置,
所述权重设定部包括:
音质代表记忆部,记忆在所述音质特征数据库所记忆的所述多个音质特征之中预先选择的两个以上的音质特征;
音质出示部,对用户出示所述音质代表记忆部所记忆的音质特征;
音质特征组输入部,从由所述音质出示部出示的音质特征之中,接受音质特征组的输入;以及
权重算出部,算出多个音质的声特征量的权重,所述多个音质的声特征量的权重使由所述输入部输入的所述音质特征组中包含的音质特征间的距离为最小。
6、如权利要求1所述的音质编辑装置,
所述权重设定部包括:
主观性表现出示部,按每个音质的声特征量,出示表现该声特征量的主观性表现;
重要度输入部,按每个由所述主观性表现出示部出示的主观性表现,接受针对该主观性表现的重要度的输入;以及
权重算出部,通过根据所述重要度输入部所接受的重要度,决定权重,从而算出每个音质的声特征量的权重,所述权重以该重要度越高针对该重要度的音质的声特征量的权重就越高的方式被决定。
7、如权利要求1所述的音质编辑装置,还包括
用户信息管理数据库,记忆与用户所知道的音质相对应的音质特征的识别信息,
所述显示部,关于在所述音质特征数据库所记忆的所述多个音质特征之中的、识别信息被记忆在所述用户信息管理数据库中的音质特征的每一个,将与该音质特征对应的、并被记忆在所述讲话者属性数据库中的标识符,显示在所述显示坐标算出部所算出的显示坐标上。
8、如权利要求1所述的音质编辑装置,
还包括:
个人特征输入部,接受用户的性别或年龄的输入;以及
用户信息管理数据库,按每个用户的性别或年龄,记忆该性别或该年龄的用户有可能知道的音质的音质特征的识别信息,
所述显示部,关于在所述音质特征数据库所记忆的所述多个音质特征之中的、识别信息与被记忆在所述用户信息管理数据库中的、与所述个人特征输入部所接受的用户的性别或年龄对应的识别信息一致的音质特征的每一个,将与该音质特征对应的、并被记忆在所述讲话者属性数据库中的标识符,显示在所述显示坐标算出部所算出的显示坐标上。
9、一种音质编辑方法,通过音质编辑装置,对各自由多个音质的声特征量构成的多个音质特征进行编辑,从而生成新的音质特征,
所述音质编辑装置包括:
音质特征数据库,记忆多个音质特征;
讲话者属性数据库,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,记忆用户能够想起的与该音质特征对应的音质的标识符,
所述音质编辑方法包括以下步骤:
按每个音质的声特征量来设定权重的步骤;
关于所述音质特征数据库所记忆的所述多个音质特征的每一个,根据构成该音质特征的所述多个声特征量和所述被设定的权重,算出该音质特征的显示坐标的步骤;
关于所述音质特征数据库所记忆的所述多个音质特征的每一个,在显示装置的所述算出的显示坐标上显示与该音质特征对应的、并被记忆在所述讲话者属性数据库中的标识符的步骤;
接受坐标的输入的步骤;以及
关于所述音质特征数据库所记忆的所述多个音质特征的一部分或者全部的每一个,通过算出该音质特征的显示坐标与所述接受了的坐标之间的距离,并根据算出的距离的比率,混合所述多个音质特征的一部分或者全部的声特征量,从而生成新的音质特征的步骤。
10、一种计算机能够执行的程序,通过对各自由多个音质的声特征量构成的多个音质特征进行编辑,从而生成新的音质特征,
所述计算机包括:
音质特征数据库,记忆多个音质特征;
讲话者属性数据库,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,记忆用户能够想起的与该音质特征对应的音质的标识符;
所述程序使计算机执行以下步骤:
按每个音质的声特征量来设定权重的步骤;
关于所述音质特征数据库所记忆的所述多个音质特征的每一个,根据构成该音质特征的所述多个声特征量和所述被设定的权重,算出该音质特征的显示坐标的步骤;
关于所述音质特征数据库所记忆的所述多个音质特征的每一个,在显示装置的所述算出的显示坐标上显示与该音质特征对应的、并被记忆在所述讲话者属性数据库中的标识符的步骤;
接受坐标的输入的步骤;以及
关于所述音质特征数据库所记忆的所述多个音质特征的一部分或者全部的每一个,通过算出该音质特征的显示坐标与所述接受了的坐标之间的距离,并根据算出的距离的比率,混合所述多个音质特征的一部分或者全部的声特征量,从而生成新的音质特征的步骤。
11、一种音质编辑***,通过对各自由多个音质的声特征量构成的多个音质特征进行编辑,从而生成新的音质特征,
所述音质编辑***包括:
通过网络而互相连接的第一终端、第二终端以及服务器,
所述第一终端及所述第二终端分别具有:
音质特征数据库,记忆多个音质特征;
讲话者属性数据库,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,记忆用户能够想起的与该音质特征对应的音质的标识符;
权重设定部,按每个音质的声特征量来设定权重,并发送到所述服务器;
音质间距离算出部,从所述音质特征数据库所记忆的多个音质特征之中抽取由任意两个音质特征组成的音质特征组,按每个被抽取的音质特征组,对构成该组所包含的音质特征的声特征量,以所述服务器所保持的权重进行加权,并算出加权后的所述音质特征间的距离;
尺度构成部,根据由所述音质间距离算出部算出的音质特征间的距离,算出所述音质特征数据库所记忆的所述多个音质特征的显示坐标;
显示部,关于所述音质特征数据库所记忆的所述多个音质特征的每一个,在所述尺度构成部所算出的显示坐标上显示与该音质特征对应的、并被记忆在所述讲话者属性数据库中的标识符;
位置输入部,接受坐标的输入;以及
音质混合部,关于所述音质特征数据库所记忆的所述多个音质特征的一部分或者全部的每一个,通过算出该音质特征的显示坐标与由所述位置输入部接受了的所述坐标之间的距离,并根据算出的距离的比率,混合所述多个音质特征的一部分或者全部的声特征量,从而生成新的音质特征,
所述服务器具有权重记忆部,记忆从所述第一终端或者所述第二终端发送的权重。
CN2008800016642A 2007-06-06 2008-06-04 音质编辑装置及音质编辑方法 Expired - Fee Related CN101622659B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007151022 2007-06-06
JP151022/2007 2007-06-06
PCT/JP2008/001407 WO2008149547A1 (ja) 2007-06-06 2008-06-04 声質編集装置および声質編集方法

Publications (2)

Publication Number Publication Date
CN101622659A true CN101622659A (zh) 2010-01-06
CN101622659B CN101622659B (zh) 2012-02-22

Family

ID=40093379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800016642A Expired - Fee Related CN101622659B (zh) 2007-06-06 2008-06-04 音质编辑装置及音质编辑方法

Country Status (4)

Country Link
US (1) US8155964B2 (zh)
JP (1) JP4296231B2 (zh)
CN (1) CN101622659B (zh)
WO (1) WO2008149547A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102484762A (zh) * 2010-05-28 2012-05-30 松下电器产业株式会社 听觉显示装置及方法
CN103632662A (zh) * 2012-08-20 2014-03-12 株式会社东芝 韵律编辑装置、方法及程序
CN106575500A (zh) * 2014-09-25 2017-04-19 英特尔公司 基于面部结构合成话音的方法和装置
CN108682413A (zh) * 2018-04-24 2018-10-19 上海师范大学 一种基于语音转换的情感疏导***
CN112164387A (zh) * 2020-09-22 2021-01-01 腾讯音乐娱乐科技(深圳)有限公司 音频合成方法、装置及电子设备和计算机可读存储介质

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147579A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Discriminative training using boosted lasso
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
TWI384423B (zh) * 2008-11-26 2013-02-01 Ind Tech Res Inst 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法
JP5275102B2 (ja) * 2009-03-25 2013-08-28 株式会社東芝 音声合成装置及び音声合成方法
CN101727899B (zh) * 2009-11-27 2014-07-30 北京中星微电子有限公司 一种音频数据处理方法及音频数据处理***
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
JP5039865B2 (ja) * 2010-06-04 2012-10-03 パナソニック株式会社 声質変換装置及びその方法
US8731931B2 (en) * 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
US20140207456A1 (en) * 2010-09-23 2014-07-24 Waveform Communications, Llc Waveform analysis of speech
US9520125B2 (en) * 2011-07-11 2016-12-13 Nec Corporation Speech synthesis device, speech synthesis method, and speech synthesis program
JP5194197B2 (ja) 2011-07-14 2013-05-08 パナソニック株式会社 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法
JP5148026B1 (ja) * 2011-08-01 2013-02-20 パナソニック株式会社 音声合成装置および音声合成方法
USD732555S1 (en) * 2012-07-19 2015-06-23 D2L Corporation Display screen with graphical user interface
USD733167S1 (en) * 2012-07-20 2015-06-30 D2L Corporation Display screen with graphical user interface
US9542939B1 (en) * 2012-08-31 2017-01-10 Amazon Technologies, Inc. Duration ratio modeling for improved speech recognition
JP6127422B2 (ja) * 2012-09-25 2017-05-17 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置
US20140236602A1 (en) * 2013-02-21 2014-08-21 Utah State University Synthesizing Vowels and Consonants of Speech
JP5802807B2 (ja) * 2014-07-24 2015-11-04 株式会社東芝 韻律編集装置、方法およびプログラム
JP6483578B2 (ja) 2015-09-14 2019-03-13 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP6639285B2 (ja) 2016-03-15 2020-02-05 株式会社東芝 声質嗜好学習装置、声質嗜好学習方法及びプログラム
JPWO2017168870A1 (ja) * 2016-03-28 2019-02-07 ソニー株式会社 情報処理装置及び情報処理方法
US9653096B1 (en) * 2016-04-19 2017-05-16 FirstAgenda A/S Computer-implemented method performed by an electronic data processing apparatus to implement a quality suggestion engine and data processing apparatus for the same
US11195542B2 (en) 2019-10-31 2021-12-07 Ron Zass Detecting repetitions in audio data
US20180018300A1 (en) * 2016-07-16 2018-01-18 Ron Zass System and method for visually presenting auditory information
US10204098B2 (en) * 2017-02-13 2019-02-12 Antonio GONZALO VACA Method and system to communicate between devices through natural language using instant messaging applications and interoperable public identifiers
CN109146450A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 支付方法、客户端、电子设备、存储介质和服务器
KR20190108364A (ko) * 2018-03-14 2019-09-24 삼성전자주식회사 전자 장치 및 그의 동작 방법
US11423920B2 (en) * 2018-09-28 2022-08-23 Rovi Guides, Inc. Methods and systems for suppressing vocal tracks
EP3693957A4 (en) * 2018-10-29 2021-06-02 KAINUMA, Ken-ichi VOICE PROCESSING DEVICE AND PROGRAM
CN110795593A (zh) 2019-10-12 2020-02-14 百度在线网络技术(北京)有限公司 语音包的推荐方法、装置、电子设备和存储介质
JP7394411B2 (ja) 2020-09-08 2023-12-08 パナソニックIpマネジメント株式会社 音信号処理システム、及び、音信号処理方法
US11386919B1 (en) * 2020-12-31 2022-07-12 AC Global Risk, Inc. Methods and systems for audio sample quality control
WO2023166850A1 (ja) * 2022-03-04 2023-09-07 ソニーグループ株式会社 音声処理装置及び音声処理方法、情報端末、情報処理装置、並びにコンピュータプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3251662B2 (ja) 1992-10-19 2002-01-28 富士通株式会社 データ表示処理システム
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
JP3739967B2 (ja) * 1999-06-24 2006-01-25 富士通株式会社 音響ブラウジング装置及び方法
JP2003515768A (ja) * 1999-11-23 2003-05-07 ジェイ. キーオ,スティーブン 特定の人間の音声をテンプレート化するためのシステムおよび方法
US7099828B2 (en) * 2001-11-07 2006-08-29 International Business Machines Corporation Method and apparatus for word pronunciation composition
US7315820B1 (en) * 2001-11-30 2008-01-01 Total Synch, Llc Text-derived speech animation tool
JP4196052B2 (ja) 2002-02-19 2008-12-17 パナソニック株式会社 楽曲検索再生装置、及びそのシステム用プログラムを記録した媒体
KR100814143B1 (ko) * 2003-10-03 2008-03-14 아사히 가세이 가부시키가이샤 데이터 처리 장치 및 데이터 처리 장치 제어 프로그램
JP3895758B2 (ja) * 2004-01-27 2007-03-22 松下電器産業株式会社 音声合成装置
JP4430960B2 (ja) * 2004-03-01 2010-03-10 日本電信電話株式会社 音声素片探索用データベース構成方法およびこれを実施する装置、音声素片探索方法、音声素片探索プログラムおよびこれを記憶する記憶媒体
JP2007534995A (ja) * 2004-04-29 2007-11-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声信号を分類する方法及びシステム
JP4403996B2 (ja) * 2005-03-29 2010-01-27 日本電気株式会社 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム
WO2006123539A1 (ja) * 2005-05-18 2006-11-23 Matsushita Electric Industrial Co., Ltd. 音声合成装置
US8036899B2 (en) * 2006-10-20 2011-10-11 Tal Sobol-Shikler Speech affect editing systems
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102484762A (zh) * 2010-05-28 2012-05-30 松下电器产业株式会社 听觉显示装置及方法
US8989396B2 (en) 2010-05-28 2015-03-24 Panasonic Intellectual Property Management Co., Ltd. Auditory display apparatus and auditory display method
CN103632662A (zh) * 2012-08-20 2014-03-12 株式会社东芝 韵律编辑装置、方法及程序
US9601106B2 (en) 2012-08-20 2017-03-21 Kabushiki Kaisha Toshiba Prosody editing apparatus and method
CN106575500A (zh) * 2014-09-25 2017-04-19 英特尔公司 基于面部结构合成话音的方法和装置
CN108682413A (zh) * 2018-04-24 2018-10-19 上海师范大学 一种基于语音转换的情感疏导***
CN108682413B (zh) * 2018-04-24 2020-09-29 上海师范大学 一种基于语音转换的情感疏导***
CN112164387A (zh) * 2020-09-22 2021-01-01 腾讯音乐娱乐科技(深圳)有限公司 音频合成方法、装置及电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
JP4296231B2 (ja) 2009-07-15
US8155964B2 (en) 2012-04-10
WO2008149547A1 (ja) 2008-12-11
JPWO2008149547A1 (ja) 2010-08-19
CN101622659B (zh) 2012-02-22
US20100250257A1 (en) 2010-09-30

Similar Documents

Publication Publication Date Title
CN101622659B (zh) 音质编辑装置及音质编辑方法
CN101578659B (zh) 音质转换装置及音质转换方法
US20180349495A1 (en) Audio data processing method and apparatus, and computer storage medium
WO2009087860A1 (ja) 音声対話装置及び音声対話プログラムを記憶したコンピュータ読み取り可能な媒体
CN101490740A (zh) 声音合成装置
JPWO2020145353A1 (ja) コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
WO2019116889A1 (ja) 信号処理装置および方法、学習装置および方法、並びにプログラム
US11942071B2 (en) Information processing method and information processing system for sound synthesis utilizing identification data associated with sound source and performance styles
KR20080050231A (ko) 믹스신호의 인터페이스 표시 방법 및 장치
CN103370743A (zh) 音质变换***、音质变换装置及其方法、声道信息生成装置及其方法
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
JP2022081691A (ja) 音声合成装置及びプログラム
WO2020095951A1 (ja) 音響処理方法および音響処理システム
CN106708789A (zh) 一种文本处理方法及装置
Peters et al. Matching artificial reverb settings to unknown room recordings: A recommendation system for reverb plugins
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
JP2007241015A (ja) 音評価システム
Franck et al. A system architecture for semantically informed rendering of object-based audio
US20210295820A1 (en) Method and system for creating object-based audio content
CN111863026A (zh) 键盘乐器弹奏音乐的处理方法、装置、电子装置
JP4992295B2 (ja) 情報処理装置
Midtlyng et al. Voice adaptation by color-encoded frame matching as a multi-objective optimization problem for future games
Rojc et al. Gradient-descent based unit-selection optimization algorithm used for corpus-based text-to-speech synthesis
Azmy et al. The creation of emotional effects for an Arabic speech synthesis system
Lee et al. Synthesis of Wind Instruments using BiLSTM and Gaussian Mixture Model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140930

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140930

Address after: Seaman Avenue Torrance in the United States of California No. 2000 room 200

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120222