CN105122360A

CN105122360A - 分离用数据处理装置以及程序

Info

Publication number: CN105122360A
Application number: CN201480014346.5A
Authority: CN
Inventors: 木村繁树
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-03-15
Filing date: 2014-03-12
Publication date: 2015-12-02
Also published as: KR20150119013A; WO2014142201A1; JP2014178641A

Abstract

存储装置(144)对在强调或者压抑音频信号(SA)的特定成分的分离处理中使用的分离用数据(Q)进行存储。更新用数据取得部(44)从多个终端装置(12)分别经由通信网(16)取得反映有由在使用了分离用数据(Q)的分离处理后的音频信号(SB)的播放音的收听者进行的输入的更新用数据(U)。更新处理部(46)利用更新用数据取得部(44)取得的各更新用数据(U)，对存储装置(144)的分离用数据(Q)进行更新。

Description

分离用数据处理装置以及程序

技术领域

本发明涉及对音频信号的特定的成分(以下称为“特定成分”)进行分离(强调或者压抑)的技术。

背景技术

当前，提出了针对表示多个音频的混合音的音频信号，将该音频信号的特定成分进行压抑的技术。例如在专利文献1中公开了下述技术：针对每个频率成分算出音频信号的声像所定位的位置，从音频信号对声像定位于特定范围的频率成分进行压抑。

专利文献1：日本特开2012－163861号公报

发明内容

但是，在专利文献1的技术中，适当地指定频率以及声像位置以高精度地压抑音频信号的期望成分，这在实际中是不容易的。另外，成为压抑对象的歌唱音等音频成分的频率、声像位置，由于例如对于每个乐曲而可能不同，所以为了针对例如与不同的乐曲对应的各音频信号高精度地压抑特定成分，必须针对每个乐曲单独地设定频率、声像位置，在现实中是困难的。考虑到以上情况，本发明的目的在于，简便地生成能够高精度地对音频信号的特定成分进行分离(压抑或者强调)的分离用数据。

为了解决以上的课题，本发明的分离用数据处理装置具有：存储部(例如存储装置144)，其存储分离用数据，该分离用数据使用于对音频信号的特定成分进行强调或者压抑的分离处理中；更新用数据取得部，其取得更新用数据，该更新用数据反映有由收听到在使用了分离用数据的分离处理后的音频信号(例如音频信号SB)的播放音的利用者进行的输入；以及更新处理部，其利用更新用数据取得部所取得的更新用数据，对存储部的分离用数据进行更新。

在以上的方式中，利用反映有由在使用了分离用数据的分离处理后的音频信号(例如音频信号SB)的播放音的收听者进行的输入的更新用数据，对分离用数据进行更新。因此，存在下述优点，即，能够简便地生成能够高精度地对音频信号的特定成分进行分离的可靠性高的分离用数据。

更新用数据取得部也可以取得更新用数据，该更新用数据包含与在使用了分离用数据的分离处理中压抑了特定成分的音频信号的播放并行地收录到的收录音(即，与分离处理后的音频信号的播放音并行地由利用者歌唱出的歌唱音)所对应的收录数据。

在以上的方式中，利用包含收录数据的更新用数据，对分离用数据进行更新，该收录数据对应于与压抑了特定成分的音频信号的播放并行地收录到的收录音。

更新用数据取得部也可以取得包含评价数据和与收录信号对应的收录数据的更新用数据，该评价数据对应于与在使用了分离用数据的分离处理中压抑了特定成分的音频信号的播放并行地收录到的收录信号、和在使用了分离用数据的分离处理中强调了特定成分的音频信号之间的比较结果。

在以上的方式中，与压抑了特定成分的音频信号的播放并行地收录到的收录信号和强调了特定成分的音频信号之间的比较结果所对应的评价数据，被作为更新用数据而用于分离用数据的更新中。因此，存在下述优点，即，能够反映各终端装置的利用者的发音(典型来说，是歌唱)的优劣，生成可靠性高的分离用数据。

更新处理部也可以以收录信号和强调了特定成分的音频信号越类似，收录数据对分离用数据的更新的影响(统计上的加权)越增加的方式，与更新用数据对应地对分离用数据进行更新。

根据以上的方式，存在下述优点，即，能够使音频特性与强调了特定成分的音频信号相背离的收录信号的影响减少，高效地生成可靠性高的分离用数据。

更新用数据取得部也可以包含调整数据，该调整数据与由在使用了分离用数据的分离处理后的音频信号的播放音的收听者作出的调整指示对应。

在以上的方式中，与由分离处理后的音频信号的播放音的收听者作出的调整指示对应的调整数据，被作为更新用数据而在分离用数据的更新中使用。因此，存在下述优点，即，能够生成反映了利用者收听到分离处理后的音频信号的播放音的结果的、可靠性高的分离用数据。

更新用数据取得部也可以从大于或等于1个终端装置经由通信网取得更新用数据。

在以上的方式中，由于将从大于或等于1个终端装置经由通信网取得的更新用数据用在分离用数据的更新中，所以前述的效果非常显著，该效果为，能够简便地生成能够高精度地对音频信号的特定成分进行分离的可靠性高的分离用数据。

在本发明中，提供分离用数据处理方法，其对在强调或者压抑音频信号的特定成分的分离处理中使用的分离用数据进行存储，取得包含收录数据的更新用数据，利用上述取得的更新用数据，对上述分离用数据进行更新，其中，该收录数据对应于与在使用了上述分离用数据的分离处理中压抑了特定成分的音频信号的播放并行地收录到的收录音。

以上的各方式所涉及的分离用数据处理装置，除了通过音频信号的处理所专用的DSP(DigitalSignalProcessor)等硬件(电子电路)实现之外，也可通过CPU(CentralProcessingUnit)等通用的运算处理装置和程序的协同动作而实现。具体地说，本发明所涉及的程序，使得具有对在强调或者压抑音频信号的特定成分的分离处理中使用的分离用数据进行存储的存储部的计算机执行：更新用数据取得部，其取得更新用数据，该更新用数据中反映有由在使用了分离用数据的分离处理后的音频信号的播放音的收听者进行的输入；以及更新处理部，其利用更新用数据取得部所取得的各更新用数据，对存储部的分离用数据进行更新。

以上的各方式所涉及的程序，以在计算机可读取的记录介质中存储的方式提供，能够向计算机安装。记录介质是例如非一时性(non-transitory)的记录介质，优选CD-ROM等光学式记录介质(光盘)，但可以包含半导体记录介质、磁性记录介质等公知的任意形式的记录介质。另外，例如，本发明的程序以经由通信网进行递送的方式提供，能够向计算机安装。

附图说明

图1是本发明的第1实施方式所涉及的音频处理***的框图。

图2是分离处理的说明图。

图3是音频处理***的概略动作的说明图。

图4是各终端装置以及分离用数据处理装置的功能结构图。

图5是第2实施方式中的各终端装置以及分离用数据处理装置的功能结构图。

图6是本发明的第3实施方式所涉及的分离用数据处理装置的功能结构图。

图7是变形例所涉及的各终端装置以及分离用数据处理装置的功能结构图。

图8是变形例所涉及的分离用数据处理装置的功能结构图。

具体实施方式

＜第1实施方式＞

图1是本发明的第1实施方式所涉及的音频处理***100的框图。如图1所示，音频处理***100是具有多个终端装置12和分离用数据处理装置14A的通信***。各终端装置12是例如移动电话、智能手机等通信终端，经由通信网16(例如移动通信网或互联网)而与分离用数据处理装置14A彼此通信。

对于1个终端装置12，如图1的代表性的图示所示，各终端装置12由计算机***实现，该计算机***具有控制装置121、存储装置122、通信装置123、显示装置124、输入装置125、拾音装置126以及放音装置127。控制装置121是通过执行存储在存储装置122中的程序而执行各种控制处理以及运算处理的运算处理装置。通信装置123经由通信网16与分离用数据处理装置14A通信。此外，关于终端装置12和通信网16之间的通信，典型来说，是无线通信，但例如在将固定型的信息处理装置作为终端装置12利用的情况下，也可以使终端装置12和通信网16进行有线通信。

显示装置124(例如液晶显示面板)对从控制装置121指示的图像进行显示。输入装置125是接受来自利用者的针对终端装置12的指示的仪器，包含例如由利用者操作的多个操作件而构成。此外，也可以采用与显示装置124一体构成的触摸屏作为输入装置125。

存储装置122(例如半导体记录介质)对控制装置121执行的程序及控制装置121所使用的各种数据进行存储。第1实施方式的存储装置122对与不同的乐曲对应的多个音频信号SA进行存储。音频信号SA是表示多个音频的混合音的时间波形的、左右2声道的立体声信号。具体地说，将歌唱乐曲旋律的歌唱音和构成乐曲伴奏的多个乐器的演奏音之间的混合音，以音频信号SA来表现。将属性数据MA与存储在存储装置122中的各音频信号SA相关联。属性数据MA是与乐曲相关的信息。具体地说，由属性数据MA指定出乐曲名、歌手名等属性信息。

在第1实施方式的各终端装置12中，执行对音频信号SA的特定成分进行分离(压抑或者强调)的分离处理。具体地说，生成立体声形式的音频信号SB，该音频信号SB表示的是，对音频信号SA的歌唱音进行压抑(理想的是去除)，并且对伴奏音进行了强调(理想的是提取)的音频。图2是第1实施方式中的分离处理的说明图。在图2中示出定位-频率平面中的音频信号的各频率成分的分布(散布图)。定位-频率平面是设定有下述轴的坐标平面，即：定位轴XL，其表示音频信号的各频率成分的声像所定位的位置(以下称为“声像位置”)θ；以及频率轴XF，其表示各频率成分的频率。例如定位轴XL上的原点(θ＝0)相当于收听者的正面方向。第1实施方式的分离处理是对音频信号SA所表示的音频中在图2的定位-频率平面内划定的特定范围(以下称为“分离对象范围”)R内的成分进行压抑或者强调的处理。如图2所示，分离对象范围R是由频率轴XF上的特定范围(以下称为“对象频率范围”)RF和定位轴XL上的特定范围(以下称为“对象定位范围”)RL规定的。在图2中例示出对分离对象范围R内的成分进行了压抑的情况。

图1的放音装置127播放与控制装置121通过分离处理生成的音频信号SB对应的音频(即，对乐曲的歌唱音进行了压抑的音频)。因此，利用者能够一边收听乐曲的伴奏音一边对乐曲的旋律(歌唱声部)进行歌唱(即卡拉OK)。拾音装置126生成表示利用者的歌唱音的时间波形的收录信号V。即，收录信号V是表示与乐曲的伴奏音的播放并行地收录的收录音的音频信号。此外，为了方便，省略了将音频信号SB向模拟信号变换的D/A变换器、根据模拟信号生成数字式收录信号V的A/D变换器的图示。

图1的分离用数据处理装置14A是对使用于各终端装置12的分离处理中的分离用数据Q进行管理的服务器装置(典型来说，的是网络服务器)，由具有控制装置142、存储装置144以及通信装置146的计算机***实现。此外，也可以利用彼此分体地构成的多个装置(例如经由通信网16彼此通信的多个服务器装置)实现分离用数据处理装置14A。控制装置142通过执行存储在存储装置144中的程序而执行各种控制处理以及运算处理。通信装置146经由通信网16与各终端装置12通信。

存储装置144对控制装置142执行的程序、控制装置142所使用的各种数据进行存储。例如可以采用半导体记录介质或磁性记录介质等记录介质或者多种记录介质的组合作为存储装置144。此外，也可以采用下述结构，即，在与分离用数据处理装置14A分体的外部装置(例如外部服务器装置)中设置存储装置144，分离用数据处理装置14A经由通信网16对存储装置144执行信息的写入、读出。

第1实施方式的存储装置144对与不同的乐曲对应的多个分离用数据Q进行存储。分离用数据Q是使用在各终端装置12的分离处理中的设定数据，例如用于对音频信号SA中分离处理的分离对象进行指定。具体地说，第1实施方式的分离用数据Q对图2的分离对象范围R进行指定。即，对象频率范围RF(频率轴XF上的上限值以及下限值)和对象定位范围RL(定位轴XL上的上限值以及下限值)由分离用数据Q指定。在以下的说明中，为了方便而例示出下述结构，即，分离用数据Q指定的分离对象范围R在乐曲的整个区间不变化的结构(即，分离用数据Q仅对1种分离对象范围R进行指定的结构)。此外，也可以采用分离用数据Q仅对对象频率范围RF进行指定的结构(省略了对象定位范围RL的指定的结构)。

为了使音频信号SA中乐曲的歌唱音包含于分离对象中，而针对每个乐曲单独地生成分离用数据Q。由于歌唱音的频带、声像位置θ针对每个乐曲而不同，所以分离用数据Q指定的对象频率范围RF以及对象定位范围RL针对每个乐曲而不同。此外，在以下的说明中，例示分离用数据Q对1个分离对象范围R进行指定的情况，但也可以采用分离用数据Q对多个分离对象范围R进行指定(即，在音频信号SA中对不同的多个成分进行分离)的结构。如图1所示，属性数据MB与各分离用数据Q相关联。属性数据MB与属性数据MA相同地是与乐曲相关的信息(例如乐曲名、歌手名等属性信息)。此外，也可以由属性数据MB指定与音频信号SA的分离对象相关的信息(例如人声、吉他等声部名)。

图3是音频处理***100的概略动作的说明图。终端装置12的利用者通过适当地操作输入装置125，从而对音频信号SA已被存储在存储装置122中的多个乐曲中的期望的乐曲(以下称为“对象曲”)的播放进行指示。如果指示了对象曲的播放，则终端装置12向分离用数据处理装置14A请求对象曲的分离用数据Q(S1)，分离用数据处理装置14A与来自终端装置12的请求对应地，将对象曲的分离用数据Q向作为请求源的终端装置12发送(S2)。终端装置12针对对象曲的音频信号SA执行使用从分离用数据处理装置14A提供的分离用数据Q的分离处理(S3)。然后，终端装置12生成与分离处理的结果对应的更新用数据U，并向分离用数据处理装置14A发送(S4)。概略地说，更新用数据U是对应于收听分离处理后的播放音的利用者与该播放音关联地执行的输入动作(例如与播放音并行的歌唱)而生成的。分离用数据处理装置14A利用从终端装置12发送的更新用数据U，更新对象曲的分离用数据Q(S5)。在每次向各终端装置12指示对象曲的播放时执行以上的处理。即，从多个终端装置12分别向分离用数据处理装置14A发送更新用数据U。因此，分离用数据处理装置14A的存储在存储装置144中的各乐曲的分离用数据Q，对应于每次各终端装置12中的该乐曲的播放而累积性地更新，通过使用分离用数据Q的分离处理而分离歌唱音的精度(以下称为“分离用数据Q的可靠性”)随着时间而提高。下面，对以上简述的结构以及动作的详细内容进行说明。

图4是第1实施方式中的各终端装置12以及分离用数据处理装置14A的功能结构图。如图4所示，终端装置12的控制装置121通过执行存储在存储装置122中的程序(乐曲播放程序)，从而实现用于音频信号SA的播放以及更新用数据U的生成的多个功能(分离用数据取得部22、分离处理部24、播放控制部26、解析处理部30)。此外，也可以采用将控制装置121的各功能分散于多个集成电路中的结构、或将控制装置121的功能的一部分由专用的电子电路(例如DSP)实现的结构。

分离用数据取得部22从分离用数据处理装置14A取得对象曲的分离用数据Q。具体地说，分离用数据取得部22将包含终端装置12的利用者选择的对象曲的属性数据MA的请求，从通信装置123向分离用数据处理装置14A发送(图3的步骤S1)，从通信装置123取得与来自终端装置12的请求对应地从分离用数据处理装置14A发送的分离用数据Q(图3的步骤S2)。

图4的分离处理部24针对对象曲的音频信号SA执行使用分离用数据取得部22取得的分离用数据Q的分离处理(图3的步骤S3)。第1实施方式的分离处理部24包含压抑处理部242和强调处理部244而构成。压抑处理部242生成对对象曲的音频信号SA的歌唱音进行压抑，并且对伴奏音进行了强调的音频信号SB。另一方面，强调处理部244生成对音频信号SA的歌唱音进行强调(理想的是提取)，并且对伴奏音进行了压抑(理想的是去除)的音频信号SC。即，第1实施方式的分离处理包含压抑歌唱音的压抑处理和强调歌唱音的强调处理。下面详述分离处理的具体例。

分离处理部24针对对象曲的音频信号SA的各频率成分算出声像位置θ。对于声像位置θ的算出，可以任意采用公知的技术，但优选例如如专利文献1的公开所示，利用音频信号SA的各声道的强度比进行的运算。压抑处理部242通过对音频信号SA的多个频率成分中位于分离用数据Q指定的对象频率范围RF内、且声像位置θ包含在分离用数据Q指定的对象定位范围RL内的频率成分的强度进行压抑，从而生成音频信号SB。另一方面，强调处理部244通过对音频信号SA的多个频率成分中分离用数据Q指定的对象频率范围RF外的频率成分、或者声像位置θ包含在分离用数据Q指定的对象定位范围RL外的频率成分的强度进行压抑，从而生成音频信号SC。此外，也可以通过从音频信号SA中减去音频信号SB以及音频信号SC中的一个，从而生成音频信号SB以及音频信号SC中的另一个。

播放控制部26将分离处理部24(压抑处理部242)生成的音频信号SB和从拾音装置126供给的收录信号V混合，并且在执行各种音频效果(例如回声)的赋予、信号强度的放大等音频处理的基础上，从放音装置127作为声波而播放。利用者与分离处理后的音频信号SB表示的对象曲的伴奏音的播放并行地对对象曲的旋律(歌唱声部)进行歌唱。即，从放音装置127播放的是，从乐曲的音频信号SA压抑了歌唱音的伴奏音(音频信号SB)和利用者的歌唱音(收录信号V)的混合音。

解析处理部30生成对象曲的更新用数据U。第1实施方式的更新用数据U是对应于与音频信号SB的播放音并行地由拾音装置126生成的收录信号V(即，与乐曲的伴奏音同步的歌唱音)而生成的。如图4的例示所示，第1实施方式的解析处理部30包含评价处理部32和变换处理部34而构成。

评价处理部32将拾音装置126生成的收录信号V和由分离处理部24(强调处理部244)强调了歌唱音的音频信号SC进行比较，并且生成与比较结果对应的评价数据DS。即，评价处理部32将音频信号SA所包含的歌唱音和拾音装置126收录的利用者的歌唱音进行比较，算出与两者间的类似度(典型来说，是相关度)对应的评价数据DS。由于音频信号SA所包含的歌唱音相当于乐曲的规范的或者标准的歌唱音，所以也可以说评价处理部32是对利用者的歌唱的优劣(与规范的或者标准的歌唱的近似或者差异程度)进行评价的要素。对于评价处理部32的评价数据DS的生成，可以任意采用公知的歌唱评价技术(例如在多个音频信号彼此间对音高、音量等特征量进行比较的技术)。评价处理部32所生成的评价数据DS所表示的评价(得分)显示在显示装置124上。

变换处理部34生成与拾音装置126生成的收录信号V对应的收录数据DV。具体地说，变换处理部34生成表现收录信号V的MIDI(MusicalInstrumentDigitalInterface)形式的收录数据DV。即，收录数据DV是将多组事件数据、和时间数据排列得到的时序数据，该事件数据用于指定收录信号V所表示的歌唱音的各音符的音高(音符编号；notenumber)以及强度(速度；velocity)而对发音或者消音进行指示，该时间数据用于指定各事件数据的处理时刻(例如前后的各事件数据的处理间隔)。对于收录数据DV的生成，任意采用公知的变换技术(音频(Audio)－MIDI变换)。

如图4所示，包含评价处理部32生成的评价数据DS和变换处理部34生成的收录数据DV的对象曲的更新用数据U，从终端装置12的通信装置123经由通信网16向分离用数据处理装置14A发送(图3的步骤S4)。即，将与终端装置12的利用者的歌唱音对应的收录数据DV和表示该歌唱音的评价结果(优劣)的评价数据DS，作为更新用数据U而发送。

如图4所示，分离用数据处理装置14A的控制装置142通过执行存储在存储装置144中的程序(分离用数据更新程序)，从而实现用于与各终端装置12相对的分离用数据Q的提供以及利用了更新用数据U而进行的分离用数据Q的更新的多个功能(分离用数据提供部42、更新用数据取得部44、更新处理部46)。此外，也可以采用将控制装置142的各功能分散至多个集成电路中的结构，或将控制装置142的功能的一部分由专用的电子电路(例如DSP)实现的结构。

分离用数据提供部42将对象曲的分离用数据Q向终端装置12提供。具体地说，分离用数据提供部42从存储装置144检索与由从终端装置12发送的请求(图3的步骤S1)指定的属性数据MA对应(典型来说，是一致)的对象曲的属性数据MB，将与该属性数据MB对应的对象曲的分离用数据Q从通信装置146向作为请求源的终端装置12发送(图3的步骤S2)。

更新用数据取得部44经由通信网16以及通信装置146，从多个终端装置12分别取得对象曲的更新用数据U。具体地说，更新用数据取得部44从终端装置12取得包含终端装置12的解析处理部30生成的对象曲的评价数据DS和收录数据DV的更新用数据U。

更新处理部46利用更新用数据取得部44取得的对象曲的更新用数据U(收录数据DV、评价数据DS)，对存储在存储装置144中的对象曲的分离用数据Q进行更新(图3的步骤S5)。例如，更新处理部46确定收录数据DV指定的歌唱音的音高范围，对对象曲的分离用数据Q进行更新，以使得由对象曲的分离用数据Q指定的对象频率范围RF接近收录数据DV的音高范围。另外，例如也可以采用下述结构，即，更新分离用数据Q以使得以由收录数据DV指定的音高作为基频的各倍音成分受到压抑的结构，或利用收录数据DV将打击乐器音等的非谐波音排除在压抑对象之外(恢复)的结构。利用MIDI数据等时序数据改善分离精度的技术，在例如日本特开2012－108453号公报中也已公开。此外，也可以将在分离用数据Q的更新中利用的收录数据DV针对每个乐曲而积蓄于存储装置144中。针对每个乐曲而积蓄的收录数据DV在乐曲检索等各种处理中被利用。例如，优选下述结构，即，将积蓄有与利用者通过输入装置125的操作指定的旋律类似的收录数据DV的乐曲，作为对象曲而检索的结构，或由分离用数据提供部42将利用收录数据DV检索出的对象曲的分离用数据Q向终端装置12发送(S2)的结构。

另外，对于各终端装置12的利用者，歌唱的优劣不同。在将善于歌唱的利用者的收录数据DV反映至分离用数据Q的情况下，分离用数据Q的可靠性(品质)提高，但在将不善于歌唱的利用者的收录数据DV反映至分离用数据Q的情况下，可能反而使分离用数据Q的可靠性降低。考虑到以上情况，第1实施方式的更新处理部46将表示利用者的歌唱优劣的评价数据DS应用于利用收录数据DV实现的分离用数据Q的更新。具体地说，更新处理部46以评价数据DS所表示的评价越高(收录信号V所表示的收录音和音频信号SC所表示的歌唱音越类似)，越使得收录数据DV对分离用数据Q的更新的影响(统计上的加权)增加的方式，与收录数据DV(更新用数据U)对应地对对象曲的分离用数据Q进行更新。在评价数据DS所表示的评价低于阈值的情况下(例如利用者的歌唱太差的情况下或在音频信号SB播放时利用者没有歌唱的情况下)，更新用数据U的收录数据DV不向分离用数据Q反映。如根据以上的说明所理解的那样，第1实施方式的评价数据DS相当于体现出表示利用者的歌唱音的收录数据DV(收录信号V)对分离用数据Q的可靠性的提高作出贡献的程度(歌唱音的妥当性)的指标，仅作为分离用数据Q更新时的收录数据DV的加权值而利用。

如参照图3而进行的说明所示，在每次各终端装置12的利用者指示对象曲的播放时执行以上的处理。即，分离用数据处理装置14A从多个终端装置12，分别多次反复地取得与收听到在使用了已有的分离用数据Q的分离处理后的音频信号SB的播放音的利用者的输入动作(对象曲的歌唱)对应的更新用数据U，利用从各终端装置12取得的更新用数据U，对存储装置144内的各乐曲的分离用数据Q进行更新。在每次从终端装置12取得更新用数据U时，逐次地执行使用该更新用数据U进行的分离用数据Q的更新。

如根据以上的说明所理解的那样，在第1实施方式中，利用从多个终端装置12分别取得的更新用数据U对存储装置144内的各乐曲的分离用数据Q进行更新。即，将各终端装置12的多个利用者的歌唱向分离用数据Q反映。因此，存在下述优点，即，能够简便地生成能够高精度地对音频信号SA的特定成分(歌唱音)进行分离的可靠性高的分离用数据Q。

在第1实施方式中，评价数据DS所表示的评价越高(收录信号V所表示的收录音和音频信号SC所表示的歌唱音越类似)，收录数据DV对分离用数据Q的更新的影响越增加。因此，与无论各终端装置12的利用者的歌唱优劣如何都将收录数据DV向分离用数据Q反映的结构相比，还具有能够高效地改善各乐曲的分离用数据Q的可靠性的优点。

＜第2实施方式＞

对本发明的第2实施方式进行说明。在以下例示的各方式中，对于作用、功能与第1实施方式等同的要素，沿用第1实施方式的说明中参照的标号，适当地省略各自的详细说明。

图5是第2实施方式中的各终端装置12以及分离用数据处理装置14A的功能结构图。如图5所示，第2实施方式的终端装置12的控制装置121，除了作为与第1实施方式相同的要素(分离用数据取得部22、分离处理部24、播放控制部26、解析处理部30)以外，还作为显示控制部28起作用。显示控制部28在显示装置124中显示表现使用分离用数据Q进行的分离处理的分离处理图像。分离处理图像与图2的例示相同地，是将定位-频率平面中的音频信号SB(或者音频信号SA)的各频率成分的分布(散布图)和分离对象范围R向利用者提示的图像。

利用者通过一边确认显示装置124所显示的分离处理图像一边适当地操作输入装置125，从而能够对分离处理图像的分离对象范围R进行调整。通过对分离对象范围R进行调整，从而使分离处理后的音频信号SB的播放音中的歌唱音的音量增减。利用者通过一边收听从放音装置127放出的音频信号SB的播放音一边对输入装置125进行操作(调整操作)，从而对分离对象范围R的对象频率范围RF以及对象定位范围RL进行调整，以在分离处理中高精度地减少对象曲的歌唱音(即，播放音中的歌唱音的音量充分地减少)。

存在下述倾向，即，越是为了高精度地压抑对象曲的歌唱音而设定分离对象范围R，在强调处理后的音频信号SC中越是抑制歌唱音以外的成分的混杂，因此，评价处理部32的收录信号V的评价容易上升(分离对象范围R越不适当，歌唱音的评价越降低)。即，强调处理后的音频信号SC和利用者的歌唱音的收录信号V之间的是否相似的评价(针对利用者的歌唱评价结果的提示)，作为用于使利用者适当地执行下述调整操作的诱因起作用，该调整操作为，对分离对象范围R进行调整以高精度地压抑对象曲的歌唱音。

如图5所示，第2实施方式的解析处理部30在与第1实施方式相同的要素(评价处理部32、变换处理部34)的基础上，包含调整管理部36而构成。调整管理部36生成与利用者对分离对象范围R的调整操作对应的调整数据DC。具体地说，调整管理部36生成对利用者的调整操作后的分离对象范围R(对象频率范围RF、对象定位范围RL)进行指定的调整数据DC。此外，利用调整管理部36生成调整数据DC的生成时期是任意的。例如，可以采用下述结构，即，在对象曲的播放完成的时刻生成调整数据DC的结构，或在对象曲中途的时刻(例如间奏时刻)生成调整数据DC的结构。

在第2实施方式中，将除了评价处理部32生成的评价数据DS和变换处理部34生成的收录数据DV以外，还包含调整管理部36生成的调整数据DC的对象曲的更新用数据U，从终端装置12向分离用数据处理装置14A发送(图3的步骤S4)。分离用数据处理装置14A的更新用数据取得部44从多个终端装置12分别取得更新用数据U，更新处理部46利用更新用数据取得部44取得的各更新用数据U，对对象曲的分离用数据Q进行更新。

第2实施方式的更新处理部46，除了与更新用数据U的收录数据DV以及评价数据DS对应地，与第1实施方式相同地对对象曲的分离用数据Q进行更新之外，还利用终端装置12的调整管理部36生成的调整数据DC，对对象曲的分离用数据Q进行更新。具体地说，更新处理部46对对象曲的分离用数据Q指定的分离对象范围R(对象频率范围RF、对象定位范围RL)进行更新，以接近调整数据DC指定的分离对象范围R。通过反复进行利用从多个终端装置12发送的调整数据DC实施的分离用数据Q的更新，从而将各乐曲的分离用数据Q指定的分离对象范围R调整为，各终端装置12的利用者针对该乐曲在过去指定的多个分离对象范围R的平均范围。

在第2实施方式中，实现与第1实施方式相同的效果。另外，在第2实施方式中，由于将与在使用了分离用数据Q的分离处理后的播放音的收听者的调整操作对应的调整数据DC用于该分离用数据Q的更新，所以前述的效果非常显著，即，该前述的效果为，能够简便地生成能够高精度地对音频信号SA的特定成分(歌唱音)进行分离的可靠性高的分离用数据Q。此外，在以上的例示中，例示出包含评价数据DS、收录数据DV、调整数据DC的更新用数据U，但也可以采用更新用数据U仅包含调整数据DC的结构(省略了评价数据DS、收录数据DV的结构)。即，也可以省略评价处理部32或者变换处理部34。

＜第3实施方式＞

在第1实施方式以及第2实施方式中，例示出音频处理***100，该音频处理***100的分离用数据处理装置14A从各终端装置12经由通信网16接收更新用数据U，对分离用数据Q进行更新。第3实施方式的分离用数据处理装置14B独自执行更新用数据U的生成和分离用数据Q的更新。

图6是第3实施方式的分离用数据处理装置14B的框图。如图6所示，分离用数据处理装置14B由计算机***实现，该计算机***具有控制装置181、存储装置182、显示装置184、输入装置185、拾音装置186以及放音装置187。例如将移动电话、智能手机、个人计算机等信息处理装置作为分离用数据处理装置14B而利用。此外，由于在第3实施方式中不需要经由通信网16的分离用数据Q或者更新用数据U的接收或发送，所以分离用数据处理装置14B有无通信功能均可。

存储装置182针对多个乐曲分别存储音频信号SA和分离用数据Q。显示装置184与第2实施方式的显示装置124相同地显示分离处理图像，输入装置185与第1实施方式的输入装置125相同地从利用者接受对象曲的选择等指示。拾音装置186与第1实施方式的拾音装置126相同地生成收录信号V，放音装置187与第1实施方式的放音装置127相同地播放分离处理后的音频信号SB。

控制装置181通过执行存储在存储装置182中的程序(乐曲播放程序、分离用数据更新程序)，从而实现用于音频信号SA的播放以及更新用数据U的生成、分离用数据Q的更新的多个功能(分离处理部54、播放控制部56、显示控制部58、更新用数据取得部60、更新处理部70)。此外，也可以采用将控制装置181的各功能分散至多个集成电路中的结构，或将控制装置181的功能的一部分由专用的电子电路(例如DSP)实现的结构。

分离处理部54(压抑处理部542、强调处理部544)与第1实施方式的分离处理部24相同地，通过针对对象曲的音频信号SA执行使用利用者指定的对象曲的分离用数据Q进行的分离处理(压抑处理、强调处理)，从而生成压抑(理想的是去除)了音频信号SA的歌唱音的音频信号SB和强调(理想的是提取)了歌唱音的音频信号SC。播放控制部56与第1实施方式的播放控制部26相同地，将分离处理部54(压抑处理部542)生成的音频信号SB和从拾音装置186供给的收录信号V混合，并使放音装置187进行播放。与第1实施方式相同地，利用者一边收听放音装置187播放的对象曲的伴奏音一边歌唱乐曲的旋律(歌唱声部)。

更新用数据取得部60取得对象曲的更新用数据U。具体地说，更新用数据取得部60与第2实施方式的解析处理部30相同地，包含评价处理部62、变换处理部64、调整管理部66而构成，生成包含评价数据DS、收录数据DV、调整数据DC的更新用数据U。评价处理部62与第1实施方式的评价处理部32相同地，生成与音频信号SC和收录信号V的比较结果对应的评价数据DS，变换处理部64与第1实施方式的变换处理部34相同地，生成与收录信号V对应的收录数据DV。另外，调整管理部66与第2实施方式的调整管理部36相同地，生成对利用者指示的分离对象范围R进行指定的调整数据DC。

更新处理部70与第1实施方式的更新处理部46相同地，利用更新用数据取得部60取得(生成)的更新用数据U，对对象曲的分离用数据Q进行更新。分离用数据Q的更新方法与第1实施方式相同。在每次利用者指示乐曲的播放时，执行更新用数据U的生成和分离用数据Q的更新。即，与第1实施方式相同地，各乐曲的分离用数据Q多次反复地被更新。因此，在第3实施方式中，也实现与第1实施方式、第2实施方式相同的效果。

如根据以上的说明所理解的那样，第1实施方式的更新用数据取得部44以及第3实施方式的更新用数据取得部60，被概括为下述要素，即，取得反映有由收听到在使用了分离用数据Q的分离处理后的音频信号SB的播放音的利用者进行的输入(针对拾音装置进行的歌唱、对输入装置的指示)的更新用数据U。即，无论取得更新用数据U的要素(更新用数据取得部)是如第1实施方式所示从外部装置(终端装置12)取得更新用数据U，还是如第3实施方式所示自身生成更新用数据U，都可以。

＜变形例＞

前述的各方式可以多样地变形。下面例示具体的变形方式。从以下的例示中任意选择的大于或等于2个方式可以适当地组合。

(1)在前述的各方式中，针对多个乐曲分别准备了分离用数据Q，但不需要针对每个乐曲单独地准备分离用数据Q。例如，也可以是针对每种乐曲属性(例如歌唱者、体裁、录音形式)而准备分离用数据Q的结构。对于属性彼此共通的多个乐曲的分离处理，使用共通的分离用数据Q。根据以上的结构，由于针对多个乐曲使用共通的分离用数据Q，所以与针对每个乐曲保存分离用数据Q的结构相比，存在分离用数据Q的存储所需的容量减少的优点。

(2)在前述的各方式中，例示出分离对象范围R在乐曲的整个区间不变化的结构，但也可以采用使分离对象范围R在乐曲内随时间变化的结构。即，分离用数据Q对分离对象范围R的时序(时间的迁移)进行指定。在以上的结构中，更新用数据U在乐曲内反复地生成，用在分离用数据Q指定的各分离对象范围R的更新中。

(3)分离处理的具体内容并不限定于以上的各方式的例示，可任意采用从音频信号SA分离(压抑或者强调)特定成分的公知的音频处理技术(例如音源分离技术)。分离用数据Q或者更新用数据U的形式可与分离处理的内容对应地适当变更。也可以采用下述结构，即，例如将以时间顺序对乐曲的各音符的音高进行指定的MIDI形式的时序数据(例如收录数据DV)，作为分离用数据Q利用，将分离用数据Q指定的各音高的音频成分作为特定成分而从音频信号SA分离。在以上的结构中，与收录信号V对应的收录数据DV(或者从各终端装置12发送的多个收录数据DV的平均数据)作为分离用数据Q而存储。

(4)也可以在规定的条件成立的情况下结束分离用数据Q的更新。例如，采用在以规定的次数更新了分离用数据Q的情况下，结束分离用数据Q的更新(确定分离用数据Q)的结构，或采用在使用更新用数据U进行的更新时的分离用数据Q的变化足够小的情况下(分离用数据Q收敛的情况下)，结束分离用数据Q的更新的结构。

(5)在第1实施方式以及第2实施方式中，将各乐曲的音频信号SA存储于终端装置12的存储装置122中，但也可以将各乐曲的音频信号SA存储于分离用数据处理装置14A的存储装置144中。如果向终端装置12指示对象曲的播放，则分离用数据处理装置14A(分离用数据提供部42)从存储装置144取得对象曲的分离用数据Q和音频信号SA，并向作为请求源的终端装置12发送。根据以上的结构，存在不需要针对每个终端装置12保存音频信号SA的优点。

在分离用数据处理装置14A的存储装置144中存储有音频信号SA的结构中，也可以将向存储在存储装置144中的对象曲的音频信号SA应用分离用数据Q的分离处理部24，设置于分离用数据处理装置14A中。在以上的结构中，分离用数据处理装置14A的分离处理部24进行分离处理后的音频信号(SB、SC)经由通信网16向终端装置12发送。音频信号SB通过播放控制部26从放音装置127播放，音频信号SC在评价处理部32的收录信号V的评价中使用。根据以上的结构，存在不需要将分离处理部24向各终端装置12中搭载的优点。此外，也可以由设置于分离用数据处理装置14A中的分离处理部24，对从终端装置12经由通信网16接收到的音频信号SA进行处理。

另外，也可以在分离用数据处理装置14A中仅设置分离处理部24所包含的压抑处理部242以及强调处理部244中的一个。例如，采用下述结构，即，将强调处理部244和评价处理部32设置于分离用数据处理装置14A中，并且将压抑处理部242设置于终端装置12中。在以上的结构中，歌唱音的收录信号V从终端装置12向分离用数据处理装置14A发送，通过对分离用数据处理装置14A的强调处理部244生成的音频信号SC和从终端装置12接收到的收录信号V进行对比，从而由分离用数据处理装置14A的歌唱评价部32生成评价数据DS。此外，在将强调处理部244设置于分离用数据处理装置14A中的结构的基础上，向存储装置144中存储音频信号SA的情况下，存储装置144内的音频信号SA在分离用数据处理装置14A的强调处理部244的音频信号SC的生成中使用，且，在从分离用数据处理装置14A向终端装置12发送的基础上，在终端装置12的压抑处理部242的音频信号SB的生成中使用。另一方面，在将强调处理部244设置于分离用数据处理装置14A中的结构的基础上，向终端装置12的存储装置122中存储音频信号SA的情况下，存储装置122内的音频信号SA在终端装置12的压抑处理部242的音频信号SB的生成中使用，且，在从终端装置12向分离用数据处理装置14A发送的基础上，在分离用数据处理装置14A的强调处理部244的音频信号SC的生成中使用。此外，在以上的说明中例示出将强调处理部244设置于分离用数据处理装置14A中的结构，但也可以将压抑处理部242设置于分离用数据处理装置14A中。

(6)如图7的例示所示，在第2实施方式中，也可以使利用者对输入装置125的调整操作，随时地向分离处理部24的分离处理中使用的分离用数据Q反映。在图7的结构中，通过分离处理(压抑处理)从音频信号SA压抑的特定成分，与利用者的调整操作对应地实时变更。因此，利用者可以一边实际收听音频信号SB的播放音，确认调整操作的效果(期望的特定成分是否适当地被压抑)，一边执行调整操作。此外，也可以是下述结构，即，在收听到音频信号SB的播放音的利用者向输入装置125施加用于确定分离对象范围R的规定操作的情况下，执行针对分离用数据处理装置14A的更新用数据U的发送(直至分离对象范围R的确定为止不发送更新用数据U)。

(7)图8是第1实施方式的变形例所涉及的解析处理部30的框图。图8的变换处理部38生成与分离处理部24(强调处理部244)生成的音频信号SC对应的变换数据DA。变换数据DA例如是表现音频信号SC的MIDI形式的时序数据。图8的选择部82将分离处理部24生成的音频信号SC和变换处理部38生成的变换数据DA中的某一个选作参照数据DREF。

另一方面，图8的变换处理部34生成与拾音装置126生成的收录信号V对应的变换数据DB。变换数据DB与第1实施方式或第2实施方式的收录数据DV相同地，例如是表现收录信号V的MIDI形式的时序数据。选择部84将拾音装置126生成的收录信号V和变换处理部34生成的变换数据DB中的某一个选作收录数据DV。评价处理部32通过将选择部82选择的参照数据DREF和选择部84选择的收录数据DV进行比较，从而生成评价数据DS。

选择部82以及选择部84的动作(选择对象)，例如与来自利用者的对输入装置125的指示对应地被控制。利用者可以对第1评价处理以及第2评价处理进行选择。在选择第1评价处理的情况下，选择部82将音频信号SC选作参照数据DREF，并且选择部84将收录信号V选作收录数据DV。因此，评价处理部32生成与音频信号SC和收录信号V的比较结果对应的评价数据DS(第1评价处理)。另一方面，在选择第2评价处理的情况下，选择部82将变换数据DA选作参照数据DREF，并且选择部84将变换数据DB选作收录数据DV。因此，评价处理部32生成与变换数据DA和变换数据DB的比较结果对应的评价数据DS(第2评价处理)。在第1评价处理以及第2评价处理的任一个中，都生成与音频信号SC(音频信号SC或者变换数据DA)和收录信号V(收录信号V或者变换数据DB)的比较结果对应的评价数据DS。

此外，在图8中对以第1实施方式的结构为基础的变形例进行了说明，但在第2实施方式及第3实施方式中，也可以采用相同的结构(即，选择地执行第1评价处理和第2评价处理的结构)。

(8)在第1实施方式以及第2实施方式中，例示出分离用数据处理装置14A的更新用数据取得部44接收终端装置12的解析处理部30生成的更新用数据U的结构，但也可以由分离用数据处理装置14A的更新用数据取得部44通过与解析处理部30相同的结构以及动作而生成更新用数据U。具体地说，更新用数据取得部44从终端装置12接收终端装置12的拾音装置126生成的收录信号V和强调了歌唱音的音频信号SC，生成与收录信号V和音频信号SC的比较结果对应的评价数据DS(评价处理部32)，并且生成与收录信号V对应的收录数据DV(变换处理部34)。另外，更新用数据取得部44从终端装置12取得来自利用者的对终端装置12的输入装置125的指示(调整操作)，生成与调整操作对应的调整数据DC(调整管理部36)。更新处理部46与更新用数据取得部44生成的更新用数据U(评价数据DS、收录数据DV、调整数据DC)对应地更新对象曲的分离用数据Q。

如根据以上的说明所理解的那样，第1实施方式以及第2实施方式的更新用数据取得部44，被概括为下述要素，即，取得反映有由收听到在使用了分离用数据Q的分离处理后的音频信号SB的播放音的利用者进行的输入(针对拾音装置126进行的歌唱、对输入装置125的指示)的更新用数据U，该更新用数据取得部44无论是如第1实施方式所示从外部装置(终端装置12)取得更新用数据U，还是如变形例的例示那样，自身生成更新用数据U，都可以。

(9)在前述的各方式中，例示出音频信号SA的歌唱音的分离，但从音频信号SA分离的成分并不限定于歌唱音。例如对音频信号SA中特定的乐器的演奏音进行分离的结构，适合利用于该乐器的演奏练习中。另外，也可以将音频信号SA的多个成分(例如多个乐器的演奏音)作为分离对象。此外，在以上的说明中例示出针对乐曲的音频信号SA的分离处理，但在本发明中不是必须从音乐的角度出发。例如，也可以从收录有特定语言的会话音等的语言学习用音频信号SA中分离特定成分(例如多个讲话者的会话音中的特定讲话者的声音)。

本申请基于2013年3月15日申请的日本专利申请(特愿2013－054217)，在这里引入其内容作为参照。

工业实用性

根据本发明，能够简便地生成能够高精度地对音频信号的特定成分进行分离(压抑或者强调)的分离用数据。

标号的说明

100……音频处理***，12……终端装置，14……分离用数据处理装置，121，142，181……控制装置，122，144，182……存储装置，123，146……通信装置，124，184……显示装置，125，185……输入装置，126，186……拾音装置，127，187……放音装置，16……通信网，22……分离用数据取得部，24，54……分离处理部，26，56……播放控制部，30……解析处理部，32，62……评价处理部，34，64……变换处理部，36，66……调整管理部。42……分离用数据提供部，44，60……更新用数据取得部，46，70……更新处理部。

Claims

1.一种分离用数据处理装置，其具有：

存储部，其存储分离用数据，该分离用数据使用于对音频信号的特定成分进行强调或者压抑的分离处理中；

更新用数据取得部，其取得更新用数据，该更新用数据包含与在使用了所述分离用数据的分离处理中压抑了所述特定成分的音频信号的播放并行地收录到的收录音所对应的收录数据；以及

更新处理部，其利用所述更新用数据取得部所取得的更新用数据，对所述存储部的分离用数据进行更新。

2.根据权利要求1所述的分离用数据处理装置，其中，

所述更新用数据取得部取得包含评价数据和与所述收录信号对应的所述收录数据的所述更新用数据，该评价数据对应于与在使用了所述分离用数据的分离处理中压抑了特定成分的音频信号的播放并行地收录到的收录信号、和在使用了所述分离用数据的分离处理中强调了所述特定成分的音频信号之间的比较结果。

3.根据权利要求2所述的分离用数据处理装置，其中，

所述更新处理部以所述收录信号和强调了所述特定成分的音频信号越类似，所述收录数据对所述分离用数据的更新的影响越增加的方式，与所述更新用数据对应地更新所述分离用数据。

4.根据权利要求1至3中任一项所述的分离用数据处理装置，其中，

所述更新用数据取得部包含调整数据，该调整数据与由在使用了所述分离用数据的分离处理后的音频信号的播放音的收听者作出的调整指示对应。

5.根据权利要求1至4中任一项所述的分离用数据处理装置，其中，

所述更新用数据取得部从终端装置经由通信网取得所述更新用数据。

6.一种程序，其使计算机作为更新用数据取得部和更新处理部起作用，该计算机具有存储部，该存储部存储分离用数据，该分离用数据使用于对音频信号的特定成分进行强调或者压抑的分离处理中，

该更新用数据取得部取得更新用数据，该更新用数据包含与在使用了所述分离用数据的分离处理中压抑了所述特定成分的音频信号的播放并行地收录到的收录音所对应的收录数据，

该更新处理部利用所述更新用数据取得部所取得的更新用数据，对所述存储部的分离用数据进行更新。

7.一种分离用数据处理方法，在该方法中，

存储分离用数据，

取得更新用数据，

利用所述取得的更新用数据对所述的分离用数据进行更新，

其中，该分离用数据使用于对音频信号的特定成分进行强调或者压抑的分离处理中，该更新用数据包含与在使用了所述分离用数据的分离处理中压抑了所述特定成分的音频信号的播放并行地收录到的收录音所对应的收录数据。