JP2017181793A

JP2017181793A - 音響処理装置、及びプログラム

Info

Publication number: JP2017181793A
Application number: JP2016069029A
Authority: JP
Inventors: 誠司黒川; Seiji Kurokawa
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2017-10-05

Abstract

【課題】適切な歌唱音声を音響信号から分離する技術の提供。
【解決手段】音響処理装置は、取得部と、抽出部と、合成部と、除去部とを備える。取得部は、指定楽曲の伴奏音と歌唱音声とが混合された音響データを取得する（Ｓ１２０）。抽出部は、その取得した音響データから、歌唱音声の基本周波数の推移を抽出する（Ｓ１４０）。そして、合成部は、指定楽曲における歌唱旋律の楽譜を表す楽譜データと、当該指定楽曲の歌詞を表す歌詞データと、抽出した歌唱音声の基本周波数の推移とに基づいて、歌詞を当該歌唱旋律に割り当てて歌唱し、非調波成分を含む合成音であって、音響データにおいて前記指定楽曲を歌唱した歌手の歌い回しに近づけた合成音を出力する（Ｓ１７０，Ｓ１８０）。さらに、除去部は、取得部で取得した音響データから、合成部から出力された合成音を除去する（Ｓ２００）。
【選択図】図２

Description

本発明は、音響データを処理する音響処理装置、及びプログラムに関する。

特許文献１に記載されているように、音響信号から歌唱音を分離する技術が知られている。
特許文献１に記載された技術では、歌唱音を表す参照音響信号について、有声区間と無声区間とを特定し、歌唱音と伴奏音との混合音である音響信号の有声区間から歌唱音の有声成分が分離され、及び音響信号の無声区間から歌唱音の無声成分が分離される。有声成分には、歌唱音の母音が相当し、無声成分には、歌唱音の子音が相当する。

特開２０１５−０７９１２２号公報

音響信号に含まれる歌唱音には、有声成分と無声成分である母音と子音に相当する成分のほか、ノイズ成分が含まれる。このノイズ成分には、例えば、歌唱時の息漏れに起因する成分や歌唱旋律において声帯が振動することにより生じる成分が含まれる。しかしながら、特許文献１に記載された技術では、音響信号の有声区間から歌唱音の有声成分を分離し、音響信号の無声区間から歌唱音の無声成分を分離しているものの、ノイズ成分は考慮されていない。

特許文献１に記載された技術では、音響信号から有声成分と無声成分を分離した残余信号には、ノイズ成分が残る。そのため、残余信号を再生すると、歌唱音声が多く残った音に聞こえてしまうという課題がある。あるいは、仮に音響信号からノイズ成分を十分に除去するために、ノイズ成分として予め想定した成分を含んだ有声成分と無声成分とを、音響信号から除去すると、音響信号から伴奏音を分離しすぎてしまう。

そこで、本発明は、適切な歌唱音声を音響信号から分離する技術を提供することを目的とする。

上記目的を達成するためになされた本発明の一態様は、取得部と、抽出部と、合成部と、除去部とを備える、音響処理装置に関する。
取得部は、指定楽曲の伴奏音と歌唱音声とが混合された音響データを取得する。

抽出部は、取得部で取得した音響データから、歌唱音声の基本周波数の推移を抽出する。
合成部は、楽譜データと、歌詞データと、抽出部で抽出した歌唱音声の基本周波数の推移とに基づいて、歌詞を当該歌唱旋律に割り当てて歌唱し、非調波成分を含む合成音であって、音響データにおいて指定楽曲を歌唱した歌手の歌い回しに近づけた合成音を出力する。楽譜データとは、指定楽曲における歌唱旋律の楽譜を表すデータである。歌詞データとは、当該指定楽曲の歌詞を表すデータである。

除去部は、取得部で取得した音響データから、合成部から出力された合成音を除去する。
このような音響処理装置によれば、歌唱における非調波成分を含む合成音を、音響データから除去することができる。

音響処理装置によって生成される残余信号は、非調波成分が除去されるため、歌唱音声が多く残ることや、逆に伴奏音を分離しすぎることを低減できる。
さらに、音響データから除去される合成音は、指定楽曲を歌唱した歌手の歌い回しに近づけられているため、音響データに含まれる歌唱音声に近いものとすることができる。

したがって、音響処理装置によって生成される残余信号に、歌唱音声が多く残ることや、逆に伴奏音を分離しすぎることを低減できる。
以上説明したように、音響処理装置によれば、適切な歌唱音声を音響信号から分離することができる。

さらに、合成部は、歌詞の子音を発声することで生じる非調波成分である子音ノイズ成分を、非調波成分の１つとして含む合成音を出力してもよい。
このような音響処理装置によれば、子音ノイズ成分を非調波成分の１つとして含む合成音を生成できる。そして、音響処理装置によれば、音響データから、その音響データの歌唱音声に含まれる子音ノイズ成分を除去できる。

また、合成部は、調波成分以外の周波数成分であって、歌唱旋律における調波成分で声帯が振動することで生じる息漏れノイズ成分を、非調波成分の１つとして含む合成音を出力してもよい。息漏れノイズ成分は、例えば、歌詞の発声時に息が漏れるために生じるノイズ成分や歌唱旋律における調波成分で声帯が振動することで生じるノイズ成分を含む。

このような音響処理装置によれば、息漏れノイズ成分を非調波成分の１つとして含む合成音を生成できる。そして、音響処理装置によれば、音響データから息漏れノイズ成分を除去できる。

合成部は、合成音において、歌詞の発声タイミングを、音響データにおける歌詞の発声タイミングに近づけてもよい。
このような音響処理装置によれば、音響データにおける歌詞の発声タイミングに、合成音における歌詞の発声タイミングを近づけることができる。

そして、音響処理装置によれば、発声タイミングを近づけた合成音を除去することで、音響データから歌声をより適切に分離できる。
さらに、合成部は、合成音において、基本周波数の振幅を、抽出部で抽出された基本周波数の振幅に近づけてもよい。

このような音響処理装置によれば、音響データにおける歌唱音声の基本周波数の振幅に、合成音における基本周波数の振幅を近づけることができる。
そして、音響処理装置によれば、振幅を近づけた合成音を除去することで、音響データから歌声をより適切に分離できる。

本発明の一態様は、コンピュータが実行するプログラムであってもよい。
この場合のプログラムは、取得手順と、抽出手順と、合成手順と、除去手順とをコンピュータに実行させる。

取得手順では、音響データを取得する。抽出手順では、取得した音響データから、歌唱音声の基本周波数の推移を抽出する。合成手順では、楽譜データと歌詞データと歌唱音声の基本周波数の推移とに基づいて、合成音を出力する。ここで言う合成音は、歌詞を当該歌唱旋律に割り当てて歌唱し、非調波成分を含む合成音であって、音響データにおいて指定楽曲を歌唱した歌手の歌い回しに近づけた合成音である。

さらに、除去手順では、取得した音響データから合成音を除去する。
このように、プログラムとしてなされていれば、記録媒体から必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。

そして、コンピュータに各手順を実行させることで、そのコンピュータを上述した音響処理装置として機能させることができる。
なお、ここで言う記録媒体には、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読み取り可能な電子媒体を含む。

音響処理システムの概略構成を示すブロック図である。伴奏データ生成処理の処理手順を示すフローチャートである。（Ａ）は音響データのスペクトログラムを示す図であり、（Ｂ）は歌唱音声における基本周波数の推移を示す図である。（Ａ）は歌唱旋律に沿って歌詞を歌唱させた場合の合成音のスペクトログラムを示す図であり、（Ｂ）は図４（Ａ）に示すスペクトログラムを有する合成音を、歌手の歌い方に近づけた場合の合成音のスペクトログラムを示す図である。伴奏データを示す図である。

以下に本発明の実施形態を図面と共に説明する。
＜１．１情報処理システム＞
図１に示す情報処理システム１は、入力受付部４と、表示部６と、スピーカ８と、情報処理装置１０とを備えている。

入力受付部４は、情報の入力を受け付ける装置である。この入力受付部４には、キーボードやポインティングデバイス、タッチパッド、タッチパネル、スイッチなどの各種入力機器を含む。

表示部６は、情報処理装置１０からの信号に基づいて情報を表示する装置である。スピーカ８は、情報処理装置１０からの音源信号を音に換えて出力する装置である。
情報処理装置１０は、通信部１２と、記憶部１４と、制御部１６とを備えている。

通信部１２は、通信網を介して、情報処理装置１０が外部との間で通信を行う。通信網は、有線による通信網であってもよいし、無線による通信網であってもよい。
記憶部１４は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部１４には、楽曲ごとの楽曲データＭＤと、楽曲ごとの音響データＳＤとが記憶される。

なお、楽曲とは、時間軸に沿って配置された複数の音符のうち少なくとも一部に歌詞が割り当てられた音楽の曲である。図１に示す符号「ｎ」は、記憶部１４に記憶されている楽曲データＭＤを識別する識別子である。符号「ｎ」は、１以上の自然数である。符号「ｍ」は、記憶部１４に記憶されている音響データＳＤを識別する識別子である。符号「ｍ」は、１以上の自然数である。

制御部１６は、ＲＯＭ１８，ＲＡＭ２０，ＣＰＵ２２を備えたマイクロコンピュータを中心に構成された制御装置である。
ＲＯＭ１８は、電源を切断しても記憶内容を保持する必要のあるデータやプログラムを記憶する。ＲＡＭ２０は、データを一時的に格納する。ＣＰＵ２２は、ＲＯＭ１８またはＲＡＭ２０に記憶されたプログラムに従って処理を実行する。

記憶部１４または制御部１６のＲＯＭ１８には、伴奏データ生成処理を制御部１６が実行するための処理プログラムが格納されている。伴奏データ生成処理とは、楽曲の伴奏音と歌唱音声とが混合された音響データを取得し、その音響データから歌唱音声を除去して伴奏データを生成する処理である。
＜１．２楽曲データ＞
楽曲データＭＤの各々は、楽譜データと、歌詞データと、属性データとを有している。

このうち、楽譜データは、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格によって、一つの楽曲の楽譜を表したデータである。すなわち、楽譜データには、ＭＩＤＩ音源から出力される個々の演奏音について、少なくとも、音高（いわゆるノートナンバー）と、ＭＩＤＩ音源が演奏音を出力する期間（以下、音価）とが規定されている。楽譜トラックにおける音価は、当該演奏音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング（いわゆるノートオンタイミング）と、当該演奏音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング（いわゆるノートオフタイミング）とによって規定されている。

歌詞データは、楽曲の歌詞に関するデータである。歌詞データは、歌詞テロップデータと、歌詞割当データとを備えている。歌詞テロップデータは、楽曲の歌詞を構成する文字（以下、歌詞構成文字とする）を表す。歌詞割当データは、歌詞構成文字の出力タイミングである歌詞出力タイミングを、楽譜データを構成する各音符の演奏と対応付けるタイミング対応関係が規定されたデータである。

タイミング対応関係では、楽譜データの演奏を開始するタイミングに、歌詞テロップデータの出力を開始するタイミングが対応付けられている。さらに、タイミング対応関係では、楽曲の時間軸に沿った各歌詞構成文字の歌詞出力タイミングが、楽譜データの演奏開始からの経過時間によって規定されている。これにより、楽譜トラックに規定された個々の演奏音（即ち、音符）と、歌詞構成文字それぞれとが対応付けられる。

属性データは、楽曲の属性を表すデータであり、少なくとも、楽曲ＩＤを含む。楽曲ＩＤは、当該楽曲を識別する識別情報である。
＜１．３音響データ＞
音響データＳＤは、楽曲の伴奏音と歌唱音声とが混合された混合音の音声波形を表すデータである。音響データＳＤは、楽曲ごとに予め用意されている。

伴奏音とは、楽曲を構成する旋律を演奏した音であり、例えば、鍵盤楽器や電子楽器などの楽器を演奏した音である。歌唱音声とは、楽曲におけるオリジナルな歌手によって歌唱された音声である。また、ここで言うオリジナルな歌手とは、楽曲を持ち歌として歌うプロの歌手である。

本実施形態の音響データＳＤには、楽曲ＩＤが対応付けられている。
＜１．４伴奏データ生成処理＞
情報処理装置１０の制御部１６が実行する伴奏データ生成処理について説明する。

図２に示す伴奏データ生成処理が起動されると、制御部１６は、まず、指定楽曲の楽曲ＩＤを取得する（Ｓ１１０）。指定楽曲とは、伴奏データを生成する対象としての楽曲であり、情報処理装置１０の入力受付部４を介してユーザに指定される楽曲である。

続いて、制御部１６は、Ｓ１１０で取得した楽曲ＩＤが対応付けられた音響データＳＤを取得する（Ｓ１２０）。このＳ１２０で取得される音響データＳＤは、例えば、図３（Ａ）に示すように、歌唱音声の調波成分と、歌唱音声における非調波成分と、伴奏音の調波成分と、伴奏音における非調波成分とが含まれる。

伴奏音における調波成分および非調波成分は、楽器の発音に起因するものである。伴奏音の調波成分は、例えば、ピアノ等に多く含まれる。伴奏音における非調波成分は、例えば、打楽器の音に多く含まれる。伴奏音における非調波成分は、例えば、スネアドラムの打音やバスドラムの打音に多く含まれる。

歌唱音声における非調波成分とは、歌詞を当該歌唱旋律に割り当てて歌唱した場合の音声における非調波成分である。歌唱音声および伴奏音のいずれにおいても、非調波成分とは、周波数成分において、調波成分以外の成分という意味である。

歌唱音声における非調波成分には、子音ノイズ成分と、息漏れノイズ成分とが含まれる。
子音ノイズ成分とは、歌詞の子音を発声することで生じる非調波成分である。また、息漏れノイズ成分とは、調波成分以外の周波数成分であって歌詞の発声時に息が漏れるために生じる成分および歌唱旋律における調波成分で声帯が振動することで生じる成分を含む非調波成分である。

歌唱旋律とは、歌唱されるパートの旋律であり、例えば、主旋律やコーラスの旋律である。
さらに、制御部１６は、音響データＳＤに対して前処理を実行する（Ｓ１３０）。前処理には、周知のセンター抽出処理を含む。センター抽出処理とは、優勢な音声（即ち、歌唱音声）をセンター音として抽出する処理である。

そして、伴奏データ生成処理では、制御部１６は、Ｓ１３０で抽出したセンター音をｆ０解析する（Ｓ１４０）。このｆ０解析は、センター音を周波数解析することで実現される。また、周波数解析の一例として、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）が考えられる。さらに、ｆ０解析では、周波数解析の結果に基づく周知の処理を実行することで、センター音に含まれる、基本周波数ｆ０と、倍音成分ｆ１〜ｆｎとを特定する。基本周波数ｆ０とは、音声の調波構造において、周波数が最も低い成分である。この基本周波数ｆ０の推移を表した図が、図３（Ｂ）である。

さらに、伴奏データ生成処理では、制御部１６は、Ｓ１１０で取得した楽曲ＩＤに対応する楽譜データを取得する（Ｓ１５０）。続いて、制御部１６は、Ｓ１１０で取得した楽譜ＩＤに対応する歌詞データを取得する（Ｓ１６０）。

そして、伴奏データ生成処理では、制御部１６は、詳しくは後述するＳ１８０で生成される合成音が、音響データＳＤにおいて指定楽曲を歌唱した歌手の歌い回しに近づくように、音声合成に用いる各種の指標を調整する（Ｓ１７０）。このＳ１７０では、制御部１６は、歌詞の発声タイミングを、音響データＳＤにおける歌詞の発声タイミングに近づけるように調整する。さらに、Ｓ１７０では、制御部１６は、合成音における基本周波数ｆ０の振幅を、Ｓ１４０で抽出した基本周波数ｆ０の振幅に近づけるように調整する。

また、Ｓ１７０では、制御部１６は、合成音における調波成分の推移の態様を、センター音の基本周波数ｆ０における推移の態様に近づけるように調整する。すなわち、合成音における歌い回しが、音響データＳＤにおいて指定楽曲を歌唱した歌手の歌い回しに近づくように調整する。歌い回しとは、歌唱の技巧や歌い方の特徴であり、例えば、ビブラートやしゃくり、こぶし、しゃくり上げなどである。

この歌い回しの調整は、図４（Ａ）に示すような合成音における調波成分が、指定楽曲を歌唱した歌手の歌い回しとしてのビブラートやしゃくりなどが反映された合成音の調波成分（図４（Ｂ）参照）となるように調整する。

なお、Ｓ１７０における各種の調整は、例えば、特開２０１０−００９０３４号に記載されているように周知の手法を用いればよい。
続いて、制御部１６は、Ｓ１５０で取得した楽譜データと、Ｓ１６０で取得した歌詞データとに基づいて、音声合成を実行し、合成音を生成する（Ｓ１８０）。音声合成は、いわゆる波形接続によって実現されていてもよいし、いわゆるフォルマント合成によって実現されていてもよい。ただし、これらのいずれの手法を用いる場合であっても、音声合成によって生成される合成音は、歌詞を当該歌唱旋律に割り当てて歌唱し、歌唱音声における非調波成分を含むものである。このため、フォルマント合成においても、非調波成分がモデル化されているものとして説明する。なお、ここで言う非調波成分にも、子音ノイズ成分と、息漏れノイズ成分とを含む。

なお、合成音は、音声合成によって生成される音声である。
さらに、伴奏音データ生成処理では、制御部１６は、Ｓ１８０で生成した合成音における声質を、音響データＳＤにおいて指定楽曲を歌唱した歌手の声質に近づけるように調整する（Ｓ１９０）。この声質の調整は、例えば、指定楽曲を歌唱したオリジナル歌手の声質を表す各種のパラメータを予め用意し、その各種のパラメータに近づくように、合成音におけるパラメータを調整することで実現すればよい。

続いて、伴奏音データ生成処理では、制御部１６は、音響データＳＤによって表される音声波形から、Ｓ１９０で声質が調整された合成音を除去する（Ｓ２００）。このＳ２００により、制御部１６は、図５に示すような、音響データＳＤから、歌唱音声が除去され、伴奏音だけが残った伴奏音データを生成する。

Ｓ２００では、制御部１６は、生成した伴奏音データを記憶する。伴奏音データの記憶先は、記憶部１４であってもよいし、外部のサーバであってもよい。
制御部１６は、その後、本伴奏音データ生成処理を終了する。

なお、伴奏音データ生成処理を実行する情報処理装置１０の制御部１６が音響処理装置として機能する。
［２．実施形態の効果］
（２ａ）伴奏音データ生成処理によれば、歌唱における非調波成分を含む合成音を、音響データＳＤから除去することができる。

（２ｂ）伴奏音データ生成処理によれば、子音ノイズ成分を非調波成分の１つとして含む合成音を生成できる。そして、伴奏音データ生成処理によれば、音響データＳＤから子音ノイズ成分を除去できる。

（２ｃ）伴奏音データ生成処理によれば、息漏れノイズ成分を非調波成分の１つとして含む合成音を生成できる。そして、伴奏音データ生成処理によれば、音響データＳＤから息漏れノイズ成分を除去できる。

（２ｄ）したがって、情報処理装置１０によれば、伴奏音データにおいて、歌唱音声が多く残ることや、逆に伴奏音を分離しすぎることを低減できる。
（２ｅ）伴奏音データ生成処理によれば、音響データＳＤにおける歌詞の発声タイミングに、合成音における歌詞の発声タイミングを近づけることができる。

（２ｆ）伴奏音データ生成処理において、音響データＳＤから除去される合成音は、指定楽曲を歌唱した歌手の歌い回しに近づけられているため、音響データＳＤに含まれる歌唱音声に近いものである。

（２ｆ）さらには、伴奏音データ生成処理において、音響データＳＤから除去される合成音における声質は、指定楽曲を歌唱した歌手の声質に近づけられている。
（２ｇ）したがって、伴奏音データ生成処理によれば、発声タイミングや歌い回し、声質を近づけた合成音を除去することで、音響データＳＤから歌声をより適切に分離できる。これにより、情報処理装置１０によって生成される伴奏音データに、歌唱音声が多く残ることや、逆に伴奏音を分離しすぎることをより低減できる。

（２ｈ）以上説明したように、情報処理装置１０によれば、適切な歌唱音声を音響信号から分離することができる。
［３．その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

（３ａ）上記実施形態の伴奏音データ生成処理におけるＳ１９０では、合成音における声質を、音響データＳＤにおいて指定楽曲を歌唱した歌手の声質に近づけるように調整していたが、このＳ１９０は省略されていてもよい。

この場合、伴奏音データ生成処理におけるＳ２００では、Ｓ１８０で生成した合成音を、音響データによって表される音声波形の推移から分離除去してもよい。
（３ｂ）なお、上記実施形態の構成の一部を省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。
［４．対応関係の一例］
上記実施形態の伴奏音データ生成処理におけるＳ１２０を実行することで得られる機能が取得部の一例に相当する。Ｓ１４０を実行することで得られる機能が抽出部の一例に相当する。Ｓ１７０及びＳ１８０を実行することで得られる機能が合成部の一例に相当する。さらに、Ｓ２００を実行することで得られる機能が除去部の一例に相当する。

１…情報処理システム４…入力受付部６…表示部８…スピーカ１０…情報処理装置１２…通信部１４…記憶部１６…制御部１８…ＲＯＭ２０…ＲＡＭ２２…ＣＰＵ

Claims

指定楽曲の伴奏音と歌唱音声とが混合された音響データを取得する取得部と、
前記取得部で取得した音響データから、前記歌唱音声の基本周波数の推移を抽出する抽出部と、
前記指定楽曲における歌唱旋律の楽譜を表す楽譜データと、当該指定楽曲の歌詞を表す歌詞データと、前記抽出部で抽出した前記歌唱音声の基本周波数の推移とに基づいて、前記歌詞を当該歌唱旋律に割り当て、さらに前記歌唱音声の基本周波数の推移を反映して作成した非調波成分を含む合成音を出力する合成部と、
前記取得部で取得した音響データから、前記合成部から出力された合成音を除去する除去部と
を備える、音響処理装置。
前記合成部は、
前記歌詞の子音を発声することで生じる非調波成分である子音ノイズ成分を、前記非調波成分の１つとして含む合成音を出力する、請求項１に記載の音響処理装置。
前記合成部は、
前記調波成分以外の周波数成分であって、前記歌唱旋律における調波成分で声帯が振動することで生じる息漏れノイズ成分を、前記非調波成分の１つとして含む合成音を出力する、請求項１または請求項２に記載の音響処理装置。
前記合成部は、
前記合成音において、歌詞の発声タイミングを、前記音響データにおける歌詞の発声タイミングに近づける、請求項１から請求項３までのいずれか一項に記載の音響処理装置。
前記合成部は、
前記合成音において、基本周波数の振幅を、前記抽出部で抽出された基本周波数の振幅に近づける、請求項１から請求項４までのいずれか一項に記載の音響処理装置。
コンピュータに実行させるプログラムであって、
指定楽曲の伴奏音と歌唱音声とが混合された音響データを取得する取得手順と、
前記取得手順で取得した音響データから、前記歌唱音声の基本周波数の推移を抽出する抽出手順と、
前記指定楽曲における歌唱旋律の楽譜を表す楽譜データと、当該指定楽曲の歌詞を表す歌詞データと、前記抽出手順で抽出した前記歌唱音声の基本周波数の推移とに基づいて、前記歌詞を当該歌唱旋律に割り当てて歌唱し、非調波成分を含む合成音であって、前記音響データにおいて前記指定楽曲を歌唱した歌手の歌い回しに近づけた合成音を出力する合成手順と、
前記取得手順で取得した音響データから、前記合成手順で出力された合成音を除去する除去手順とを、
前記コンピュータに実行させる、プログラム。