JP5658506B2

JP5658506B2 - 音響信号変換装置及び音響信号変換プログラム

Info

Publication number: JP5658506B2
Application number: JP2010173946A
Authority: JP
Inventors: 渡辺　馨; 馨渡辺; 小森　智康; 智康小森
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2010-08-02
Filing date: 2010-08-02
Publication date: 2015-01-28
Anticipated expiration: 2030-08-02
Also published as: JP2012034295A

Description

本発明は、音響信号変換装置及び音響信号変換プログラムに係り、特に多チャンネル音響信号をダウンミックスする場合に最適な音響に変換するための音響信号変換装置及び音響信号変換プログラムに関する。

５．１チャンネル（ｃｈ）サラウンド音響方式よりも更に臨場感の高い音響を再生ができる「３次元（立体）音響方式」が開発されている。また、３次元音響方式を用いた番組制作は、多数のスピーカを標準配置した制作環境で行われるが、家庭においては３次元音響方式に対応した音響用スピーカ設備を実現できない場合も多く、通常は、２チャンネル音響や５．１チャンネルサラウンド音響装置で再生される。

そこで、３次元音響方式等の多チャンネル音響信号を２チャンネル音響や５．１チャンネルサラウンド音響装置で再生する手法として、「３次元音響方式等の多チャンネル音響信号に並行して、２チャンネル音響や５．１チャンネルサラウンド音響信号を伝送するサイマルキャスト方式」や「受信した多チャンネル音響信号を受信側で２チャンネル音響信号や５．１チャンネルサラウンド音響信号等に変換するダウンミックス方式」があり、ダウンミックス方式については規定の変換式が存在する（例えば、非特許文献１参照）。

また近年では、よりよい音響を視聴者（ユーザ）に提供するために、例えばナレーション信号とバックグラウンドミュージック（以下、「ＢＧＭ」と表す。）信号とのミキシングを行う際に、ミキシングバランスの状態を聴感に対応させて表示し、調整することができるミキシングバランス表示装置（例えば、特許文献１参照）や、健聴者に不快感を与えることなく、感音性難聴者の聴覚特性を正確に模擬することができるミキシングバランス表示システム（例えば、特許文献２参照）が開示されている。

特開２００８−１２４８９２号公報特開２００９−１５９０８３号公報

ＩＴＵ−ＲＤｏｃ６Ｃ／２５３−Ｅ "ＰＲＯＰＯＳＥＤＰＲＥＬＩＭＩＮＡＲＹＤＲＡＦＴＮＥＷＲＥＣＯＭＭＥＮＤＡＴＩＯＮＩＴＵ−ＲＢＳ．［３Ｄ−ＳＯＵＮＤ］"、２６Ｏｃｔｏｒｂｅｒ２００９

ところで、番組制作等において音響信号を制作する場合、その音響信号に含まれるスピーチ、ナレーション、会話、セリフ等のユーザに情報を伝えるための発話音と、ＢＧＭ、環境音等の効果音とのバランスにおいて、番組制作者や音響調整者等の意図に沿った最適な多チャンネル音響の音響コンテンツを制作したとしても、従来の規定された変換式によるダウンミックス手法を使用して、例えば２チャンネル音響や５．１チャンネルサラウンド音響信号にダウンミックスを行うと、発話音／効果音のバランスが劣化し、例えばＢＧＭ音によりナレーション音が聞きづらくなる等、番組制作者の意図に沿った発話音／効果音のバランスとはならない場合があった。

なお、上述した発話音／効果音のバランスの劣化とは、例えば、多チャンネル音響信号に含まれる信号レベルの異なる２つの音響信号をダウンミックスした際に生じる音声バランス（ミキシングバランス）の劣化を意味しており、具体的には、従来のダウンミックスを行うことで再生チャンネル数やスピーカ位置による空間的な音響マスキング条件の相違やダウンミックスによる意図しない信号レベル上昇等により、発話音／効果音のバランスが劣化することをいう。

したがって、このような場合には、２チャンネル音響や５．１チャンネルサラウンド音響信号用に別途ミキシングを行う必要があり手間がかかっていた。

また従来では、多チャンネル音響信号を受信側で２チャンネル音響信号や５．１チャンネルサラウンド音響信号等にダウンミックスする場合にも、上述したような発話音／効果音のバランスの劣化を改善する技術は開発されていなかった。

本発明は、上述した問題点に鑑みなされたものであり、多チャンネル音響信号をダウンミックスする場合に、発話音と効果音とのバランスを劣化させずに最適な音響に変換するための音響信号変換装置及び音響信号変換プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、第１の信号レベルと第２の信号レベルとからなる音響信号を予め設定されたチャンネル数に対応させて変換する音響信号変換装置において、第１のチャンネル数に対応する音響信号から第２のチャンネル数に対応する音響信号にダウンミックスされたときの前記第１の信号レベルの音響信号と、前記第２の信号レベルの音響信号とに対する信号レベルのミックスバランスを測定するバランス測定手段と、前記バランス測定手段により得られる前記第１の信号レベルと前記第２の信号レベルとの相対レベル差に対応させて、前記第１の信号レベル又は前記第２の信号レベルのゲイン調整量を算出するゲイン調整量算出手段と、前記ゲイン調整量算出手段により得られるゲイン調整量に基づいて、前記第１の信号レベル及び／又は前記第２の信号レベルのゲインを調整するゲイン調整手段と、前記ゲイン調整手段により得られるゲイン調整された音響信号を用いて、前記第１の信号レベルの音響信号及び前記第２の信号レベルの音響信号を合成し、前記第２のチャンネル数に対応する音響信号を出力する合成手段とを有し、前記ゲイン調整手段は、前記ゲイン調整量算出手段により得られる前記ゲイン調整量の増加量又は減少量の大きさに応じた長さの調整時間を設定し、設定された調整時間で前記合成手段による合成後のトータル音量が一定に保たれるようにゲインを調整することを特徴とする。

請求項１記載の発明によれば、多チャンネル音響信号をダウンミックスする場合に、２つの異なる信号レベルのミックスバランスを劣化させずに最適な音響に変換することができる。

請求項２に記載された発明は、制作側から伝送された第１の信号レベルと第２の信号レベルとからなる音響信号を予め設定されたチャンネル数に対応させて変換する音響信号変換装置において、前記制作側から伝送された多重化信号から、第１のチャンネル数に対応する音響信号と、前記第１のチャンネル数から第２のチャンネル数にダウンミックスされたときの前記第１の信号レベル及び前記第２の信号レベルのミックスバランスに対応した記第１の信号レベル又は前記第２の信号レベルのゲイン量と、前記第１の信号レベル及び前記第２の信号レベルの音響信号を識別するための識別メタデータとに分離するミキシングメタデータ分離手段と、前記ミキシングメタデータ分離手段により得られる第１のチャンネル数に対応する音響信号に対して、前記識別メタデータを用いて、第２のチャンネル数に対応する音響信号にダウンミックスされたときの前記第１の信号レベルの音響信号と、前記第２の信号レベルの音響信号とに分離するチャンネル分離手段と、前記第１の信号レベル及び／又は前記第２の信号レベルのゲインを、前記第１の信号レベルと前記第２の信号レベルとの相対レベル差に対応させたゲイン調整量に基づいて調整するゲイン調整手段と、前記ゲイン調整手段により得られるゲイン調整された音響信号を用いて、前記第１の信号レベルの音響信号及び前記第２の信号レベルの音響信号を合成し、前記第２のチャンネル数に対応する音響信号を出力する合成手段とを有し、前記ゲイン調整手段は、前記ゲイン調整量の増加量又は減少量の大きさに応じた長さの調整時間を設定し、設定された調整時間で前記合成手段による合成後のトータル音量が一定に保たれるようにゲインを調整することを特徴とする。

請求項２記載の発明によれば、多チャンネル音響信号をダウンミックスする場合に、２つの異なる信号レベルのミックスバランスを劣化させずに最適な音響に変換することができる。

請求項３に記載された発明は、前記合成手段は、前記ゲイン調整手段によりゲイン調整された音響信号の変化量に応じて、前記第２のチャンネル数に対応する音響信号の音量を調整することを特徴とする。

請求項４に記載された発明は、前記第１の信号レベルと第２の信号レベルとからなる音響信号は、発話音と効果音であることを特徴とする。

請求項５に記載された発明は、入力される前記第１の信号レベルと前記第２の信号レベルとからなる音響信号は、予め設定される聴覚の臨界帯域幅を用いて前記発話音又は前記効果音に分離されていることを特徴とする。

請求項６に記載された発明は、コンピュータを、請求項１乃至５の何れか１項に記載の音響信号変換装置が有する各手段として機能させるための音響信号変換プログラムである。

請求項６記載の発明によれば、多チャンネル音響信号をダウンミックスする場合に、２つの異なる信号レベルのミックスバランスを劣化させずに最適な音響に変換することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に音響信号変換処理を実現することができる。

なお、本発明の構成要素、表現又は構成要素の任意の組み合わせを、方法、装置、システム、コンピュータプログラム、記録媒体、データ構造等に適用したものも本発明の態様として有効である。

本発明によれば、多チャンネル音響信号をダウンミックスする場合に、２つの異なる信号レベルのミックスバランスを劣化させずに最適な音響に変換することができる。

第１の実施形態における音響信号変換システムの一例を示す図である。２２．２チャンネル時における音響スピーカの配置例を示す図である。２２．２チャンネルの音響信号からダウンミックスする際の計算式の一例を示す図である。本実施形態におけるゲイン調整量算出例を説明するための図である。第２の実施形態における音響信号変換システム（送信側）の一例を示す図である。第２の実施形態における音響信号変換システム（受信側）の一例を示す図である。臨界帯域番号と周波数との関係の一例を示す図である。第１の実施形態における音響信号変換処理手順の一例を示すフローチャートである。第２の実施形態における音響信号変換処理手順の一例を示すシーケンス図である。

＜本発明について＞
本発明は、例えば、３次元音響方式等の多数の音響チャンネル（第１のチャンネル数）を有する多チャンネル音響コンテンツの制作と同時並行して、多チャンネル音響信号コンテンツから２チャンネル音響信号や５．１チャンネルサラウンドコンテンツの音響信号等のチャンネル数（第２のチャンネル数）の音響信号コンテンツに自動的に変換（ダウンミックス）する。また、本発明では、多数の音響チャンネルを有する番組コンテンツとこれに付随して生成されたメタデータを用いて、受信側において、上述したメタデータに基づいて２チャンネル音響信号や５．１チャンネルサラウンド音響信号等、受信側の音響設備等に対応した音響信号に変換（ダウンミックス）する。なお、本発明では、上述した音響信号の変換において、発話音と効果音とのバランス調整を行うための機能を有する。

次に、上述したような特徴を有する本発明における音響信号変換装置及び音響信号変換プログラムを好適に実施した形態について、図面等を用いて詳細に説明する。なお、以下の実施形態では、制作側で多チャンネル音響信号と同時並行してダウンミックスにより２チャンネル音響信号を制作する場合、及び、受信側で多チャンネル音響信号からダウンミックスにより２チャンネル音響信号を制作する場合について説明する。なお、本実施形態では、以下に説明する２チャンネル音響信号を他のチャンネル数からなる音響信号（例えば、５．１チャンネルサラウンド音響信号等）に容易に置き換えることができる。

＜音響信号変換システム：第１の実施形態＞
図１は、第１の実施形態における音響信号変換システムの一例を示す図である。図１に示す音響信号変換システム１０は、音響収録再生装置１１と、音声入力手段としてのマイク１２と、音響ミキシング装置１３と、音響信号変換装置１４とを有するよう構成されている。音響信号変換装置１４は、発話音／効果音バランス測定装置２１と、ゲイン調整量算出手段２２と、ゲイン調整手段２３と、合成手段２４とを有している。

なお、図１に示す音響信号変換システム１０は、制作側において、多数の音響チャンネルを有する音響コンテンツの制作と同時並行して行われる２チャンネル音響信号の自動ダウンミックス手法の一例を示している。

図１に示す音響信号変換システム１０において、音響収録再生装置１１は、予め収録されているナレーション、スピーチ等の発話音やＢＧＭ等の効果音等の音響信号について、それぞれの音の種類等の音響内容を把握するために予め設定された属性データ「発話音／効果音識別」を付加した音響信号を生成する。

また、マイク１２は、アナウンサー等のナレーション、スピーチ等の発話音や環境音等の効果音を直接入力し、それぞれの入力に対して上述した属性データ「発話音／効果音識別」を付加した音響信号を生成する。つまり、音響収録再生装置１１及びマイク１２から得られる音源素材は、音響信号の意味内容に関する属性「発話音／効果音識別」が音響信号毎に付加されて出力される。

ここで、属性データとしての「発話音／効果音識別」とは、例えば、音響チャンネル信号毎にチャンネルの音響内容が、例えば「発話音」か「効果音」の何れかを示す識別情報である。第１の実施形態の場合、音響収録再生装置１１及びマイク１２には、通常「発話音」又は「効果音」の何れか１つの音響信号が入力されるため、入力される音響信号に対して予め設定された対応する識別情報を付加することができる。

例えば、音響収録再生装置１１には「効果音」に相当する音響信号が入力され、マイク１２には「発話音」に相当する音響信号が入力される場合、それぞれ対応する識別情報の属性データを付加することになる。なお、本実施形態においては、これに限定されるものではなく、例えば音響収録再生装置１１に「発話音」の音響信号が入力されてもよく、マイク１２に「効果音」の音響信号が入力されてもよい。また、本実施形態では、音響収録再生装置１１及びマイク１２がそれぞれ１又は複数有しているため、それぞれの入力に対してその音響信号に対応する１つの識別情報を付加して音響ミキシング装置１３に出力される。

音響ミキシング装置１３は、１又は複数の音響収録再生装置１１又はマイク１２から１又は複数の音響信号（音源素材）を入力し、入力した音響信号を用いて３次元音響方式等の多数の音響チャンネルを有する音響コンテンツを生成するために音響調整者が予め設定する条件等によりミキシングを行い、目的とする多数の音響チャンネル（例えば、２２．２チャンネル等）に対応した音響コンテンツを生成する。また、音響ミキシング装置１３は、生成された多チャンネル音響信号コンテンツ３１を出力する。

なお、図１の例では、音響ミキシング装置１３が制作する多チャンネル音響信号コンテンツ３１は、例えば番組のジャンル等によって設定される番組制作者の意図に沿った発話音／効果音のバランスを音響調整者が調整することで最適な音響信号が制作される。

また、音響ミキシング装置１３は、制作した多チャンネル音響信号コンテンツ３１に対して、上述した属性データ「発話音／効果音識別」を用いて、発話音及び効果音毎に分別し、発話音及び効果音毎に対して予め設定された変換式等を用いて、２チャンネル音響信号にダウンミックス（音響信号変換）を行い、発話音ダウンミックス信号３２及び効果音ダウンミックス信号３３を出力する。

また、上述した変換式としては、例えば、上述した非特許文献１に示すような規定された変換式を用いることができるが、本発明においてはこの変換式に限定されるものではなく、例えば受信側での音響設備の環境（空間や音声を出力するスピーカの性能等）、音響を聞く人（ユーザ）か難聴者であるか高齢者であるか等に応じて他の変換式を用いることができる。なお、変換式を用いたダウンミックスの具体例については後述する。

上述したように音響ミキシング装置１３は、番組制作者の意図及び訓練された音響調整者の操作するミキシング情報に基づいて、番組制作者の意図に沿った最適な発話音／効果音のバランスで制作された多チャンネル音響の音響コンテンツ３１を出力すると共に、上述した２チャンネル音響の２種類のダウンミックス信号（発話音ダウンミックス信号３２及び効果音ダウンミックス信号３３）を出力する。

音響信号変換装置１４において、発話音／効果音バランス測定装置２１は、発話音ダウンミックス信号３２及び効果音ダウンミックス信号３３を入力して、例えば上述した特許文献１や特許文献２に示されるミキシングバランス表示装置や表示システムに入力し、発話音／効果音のバランスを測定する。

具体的には、特許文献１に示すように、第１及び第２の音信号（発話音ダウンミックス信号３２及び効果音ダウンミックス信号３３）のレベルを所定時間間隔のフレーム毎に検出し、第１の音信号と第２の音信号とのレベル差を算出し、レベル差に対して第１の音信号のレベルに応じた重み付けを行って重み付きレベル差を算出し、現フレームから過去のｎ個のフレームまでの間において重み付きレベル差の値の大きいものから順にｍ個の値の平均値を算出し、現フレームから過去の所定数のフレームまでの間における第１の音信号のレベル平均値を算出し、それぞれの算出結果により第１の音信号と第２の音信号とのミキシングバランスの状態を示す表示値を決定する。

また、特許文献２に示すように、第１及び第２の音信号（発話音ダウンミックス信号３２及び効果音ダウンミックス信号３３）のエネルギレベルを周波数バンド毎に算出し、第１の音信号のエネルギレベルと第２の音信号のエネルギレベルとの差に基づいて感音性難聴者の聴覚マスキング特性を模擬するためのマスキング補正量を周波数バンド毎に算出し、第１の音信号のエネルギレベルと第２の音信号のエネルギレベルとの和に基づいて感音性難聴者のリクルートメント現象を模擬するためのリクルートメント補正量を周波数バンド毎に算出し、マスキング補正量及びリクルートメント補正量に基づいて第１及び第２の音信号にそれぞれ対応する感音性難聴者の聴覚特性を模擬した第１及び第２の聴覚特性模擬信号を算出する。

また、発話音／効果音バランス測定装置２１は、発話音／効果音のそれぞれのバランス測定結果（信号レベル等）をゲイン調整量算出手段２２に出力する。

ゲイン調整量算出手段２２は、発話音／効果音バランス測定装置２１から得られる発話音／効果音のバランスの測定結果に基づき、発話音ダウンミックス信号３２のレベルに対するゲイン調整量を算出する。なお、本発明においてはこれに限定されるものではなく、ゲイン調整量算出手段２２は、例えば発話音／効果音のバランスの測定結果に基づき、効果音ダウンミックス信号３３のレベルに対するゲイン調整量を算出してもよい。更には、発話音／効果音のバランスの測定結果に基づき、発話音ダウンミックス信号３２及び効果音ダウンミックス信号３３の両方の信号レベルに対してゲイン調整量を算出してもよい。なお、本実施形態におけるゲイン調整量の算出手法については後述する。ゲイン調整量算出手段２２は、得られたゲイン調整量をゲイン調整手段２３に出力する。

ゲイン調整手段２３は、ゲイン調整量算出手段２２により得られるゲイン調整量に基づいて、発話音ダウンミックス信号３２に対してゲイン調整を行う。なお、本発明においてはこれに限定されるものではなく、ゲイン調整手段２３は、例えばゲイン調整量算出手段２２により効果音ダウンミックス信号３３のレベルに対するゲイン調整量を算出しているのであれば、効果音ダウンミックス信号３３に対してゲイン調整を行う。更に、ゲイン調整手段２３は、ゲイン調整量算出手段２２により発話音ダウンミックス信号３２及び効果音ダウンミックス信号３３の両方の信号レベルに対してゲイン調整量を算出しているのであれば、発話音ダウンミックス信号３２及び効果音ダウンミックス信号３３に対してゲイン調整を行う。

更に、ゲイン調整手段２３は、発話音ダウンミックス信号３２のゲイン調整による時間的な連続性を保つため、例えば番組内又はある一定時間内においてゲイン調整値の急激な変動を起こさないようにする。具体的には、ゲイン調整手段２３は、ゲイン調整量に応じた調整時間を設定し、例えばゲイン調整量の増加幅又は減少量が大きい場合には、その大きさに応じて調整時間を長く設定し、時間をかけて急激な変動がないように調整する。

合成手段２４は、ゲイン調整手段２３によりゲイン調整された発話音ダウンミックス信号３２と、効果音ダウンミックス信号３３とを合成することで、番組制作者の意図に沿った発話音／効果音のバランスを有する２チャンネル音響信号コンテンツ３４を出力する。なお、合成手段２４において合成される発話音ダウンミックス信号３２及び効果音ダウンミックス信号３３は、一方又は両方がゲイン調整されていてもよい。

ここで、図１に示す実施形態においては、発話音ダウンミックス信号３２のゲイン調整を行う場合に、その調整量が大きいと合成手段２４による合成を行ったダウンミックス音響のレベルが上昇又は下降してしまう場合がある。したがって、本実施形態における合成手段２４は、ゲイン調整手段２３によりゲイン調整された音響信号（発話音ダウンミックス信号３２）の変化量に応じて、例えば合成後のトータル音量がほぼ一定に保たれるように、発話音ダウンミックス信号３２と効果音ダウンミックス信号３３の合成前又は合成後に音量の調整を行う。例えば、合成手段２４は、発話音ダウンミックス信号３２のゲイン調整により信号レベルを上昇させた場合には、合成前の効果音ダウンミックス信号３３の信号レベルを上昇の割合に対応させて下降させてもよく、また合成後の２チャンネル音響信号の信号レベルをトータル音量がほぼ一定になるように下降させてよい。

上述した第１の実施形態によれば、多チャンネル音響の音響コンテンツ制作のための音源素材（又は多チャンネル音響の音響コンテンツ）からダウンミックスにより自動制作することができる。また、第１の実施形態によれば、制作側で多チャンネル音響信号と同時並行してダウンミックスにより２チャンネル音響信号を制作することができる。

したがって、第１の実施形態にて得られる多チャンネル音響信号コンテンツ３１と２チャンネル音響信号コンテンツ３４とをそれぞれ異なる用途で使用することができ、また多チャンネル音響信号コンテンツ３１と２チャンネル音響信号コンテンツ３４を同時に伝送してサイマルキャスト方式として音響信号コンテンツをユーザに提供することができる。

上述した第１の実施形態によれば、制作側における自動ダウンミックスにおいて、３次元音響方式等の多数の音響チャンネルを有する音響コンテンツの制作と同時並行して、適切な発話音／効果音のバランスが保たれた２チャンネル音響や５．１チャンネルサラウンド音響等の音響コンテンツを自動的にダウンミックス制作することができる。また、規定のダウンミックスの計算式及び音響信号の意味内容に関する発話音／効果音識別信号に則って、発話音のダウンミックス信号及び効果音のダウンミックス信号を生成し、また、発話音信号及び効果音信号から発話音／効果音のバランスを測定し、発話音／効果音のバランス測定結果に基づき、発話音信号のレベルをゲイン調整し、ゲイン調整した発話音信号と効果音信号を合成して、適切な発話音／効果音のバランスが保たれたダウンミックス信号を制作することができる。

＜変換式を用いたダウンミックスの具体例＞
ここで、上述した変換式を用いたダウンミックスの具体例について図を用いて説明する。なお、以下の説明では、多チャンネル音響の一例として、２２．２チャンネル音響を用いこととするが、本発明においてはこれに限定されるものではない。

図２は、２２．２チャンネル時における音響スピーカ（サウンドシステム）の配置例を示す図である。また、図３は、２２．２チャンネルの音響信号からダウンミックスする際の計算式の一例を示す図である。

なお、図３（ａ）は、２２．２チャンネルから２チャンネルへのダウンミックス式とベース音響チャンネルの例を示し、図３（ｂ）は、２２．２チャンネルから５．１ｃｈへのダウンミックス式とベース音響チャンネルの例を示している。

例えば、２２．２チャンネルでは、図２に示すように、テレビスクリーン（ＴＶＳｃｒｅｅｎ）に対する立体空間上のスピーカの配置において、トップ層に９チャンネル（ＴｐＦＬ，ＴｐＦＣ，ＴｐＦＲ，ＴｐＳｉＬ，ＴｐＣ，ＴｐＳｉＲ，ＴｐＢＬ，ＴｐＢＣ，ＴｐＢＲ）、ミドル層に１０チャンネル（ＦＬ，ＦＬｃ，ＦＣ，ＦＲｃ，ＦＲ，ＳｉＲ，ＢＲ，ＢＣ，ＢＬ，ＳｉＬ）、ボトム層に３チャンネル（ＢｔＦＬ，ＢｔＦＣ，ＢｔＦＲ）、ＬＦＥ（ＬｏｗＦｒｅｑｕｅｎｃｙＥｆｆｅｃｔ；低域効果音）に２チャンネル（ＬＦＥ１，ＬＦＥ２）を有している。

この場合、２２．２チャンネルから２チャンネルにダウンミックスする場合には、例えば図３（ａ）に示す（１），（２）式を用いることにより、ベース音響チャンネルである２チャンネル（Ｌ，Ｒ）の音響信号を算出することができる。

なお、本実施形態によれば、同様に他のチャンネルにもダウンミックスすることができ、例えば２２．２チャンネルから５．１チャンネルにダウンミックスする場合には、図３（ｂ）に示す（３）〜（７）式を用いて計算することにより、ベース音響チャンネルである５．１チャンネル（Ｌ，Ｒ，Ｃ，ＬＳ，ＲＳ，ＬＦＥ）の音響信号を算出することができる。

なお、図３に示すようなダウンミックス式は、例えば上述した非特許文献１等に示されている。

＜本実施形態に適用可能なチャンネル数の例＞
ここで、上述した本実施形態における音響信号変換（ダウンミックス）を行うために入力可能な音響信号については、上述した２２．２チャンネルに限定されるものではなく、例えば１２．２チャンネル、１０．２チャンネル、９．１チャンネル、８．１チャンネル、７．１チャンネル、６．１チャンネル等を用いることができる。

また、ダウンミックスされるチャンネル数としては、例えば一般家庭において実現可能な音響設備のチャンネル数に対応していることが好ましく、例えば上述した２チャンネルや５．１チャンネル、更には１チャンネルや３チャンネル、５チャンネル（ＬＦＥなし）等でも適用することができる。

＜ゲイン調整量の算出例＞
次に、ゲイン調整量算出手段２２におけるゲイン調整量算出例について図を用いて説明する。図４は、本実施形態におけるゲイン調整量算出例を説明するための図である。なお、図４では、発話音信号（発話音ダウンミックス信号３２）レベルのゲイン調整値関数の例を示している。

図４に示すように、横軸を重み付き相対レベル差（「効果音」−「発話音」）とし、縦軸をゲイン調整量（ｄＢ）とした場合、例えば、重み付き相対レベル差が「−６」から「０」に増加するに従い、ゲイン調整量（ｄＢ）を「０」から「６」に線形に増加させるようにゲイン調整を行っている。上述したように、予め設定されるゲイン調整値関数を用いることにより、発話音／効果音のバランスの測定結果に基づいて、対応する調整量を容易に算出することができる。

なお、図４に示す例では、発話音信号レベルのゲイン調整値関数の例を示しているが、本発明においてはこれに限定されるものではなく、例えば効果音信号（効果音ダウンミックス信号３３）レベルのゲイン調整値関数を設定しておき、効果音信号レベルを調整してもよく、上述した関数を用いて発話音信号レベル及び効果音信号レベルの両方の調整を行ってもよい。

また、図４に示す関数は、発話音信号レベル及び効果音信号レベル毎に別の関数を設定し、またダウンミックスされるチャンネル数に応じて別の関数を設定しておくことで、音の種類やチャンネル数に応じて最適なレベル調整を実現することができる。

なお、本実施形態において、発話音信号のゲイン調整に伴うダウンミックス音のレベル上昇は、トータルの音量が保たれるように、例えば発話音信号と効果音信号の合成後（ダウンミックス後）又は合成前に調整する。また、発話音信号のゲイン調整による時間的な連続性を保つため、番組内又はある一定時間内でゲイン調整値の急激な変動を起こさないようにする。

＜音響信号変換システム：第２の実施形態＞
次に、音響信号変換システムの第２の実施形態について図を用いて説明する。
図５は、第２の実施形態における音響信号変換システム（送信側）の一例を示す図である。また、図６は、第２の実施形態における音響信号変換システム（受信側）の一例を示す図である。つまり、第２の実施形態における音響信号変換システム４０は、図５に示す送信側の音響信号変換システム４０−１と、図６に示す受信側の音響信号変換システム４０−２とに大別される。

第２の実施形態では、音響信号変換装置で多チャンネル音響信号からダウンミックスにより２チャンネル音響信号を生成してユーザに提供するため、送信側の音響信号制作装置においてミキシングメタデータの生成を行い、受信側の音響信号変換装置において、音響信号制作装置から伝送されたミキシングメタデータを受信し、そのミキシングメタデータを用いた２チャンネル音響ダウンミックス信号を生成する例を示している。

なお、以下の説明において、上述した図１に示す第１の実施形態における同様の機能構成については、同一の符号を付するものとし、ここでの具体的な説明は省略する。

＜音響信号変換システムの送信側の構成について＞
図５に示す音響信号変換システム４０−１は、音響収録再生装置１１と、音声入力手段としてのマイク１２と、音響ミキシング装置４３と、音響信号制作装置４４とを有するよう構成されている。音響信号制作装置４４は、発話音／効果音バランス測定装置２１と、ゲイン調整量算出手段２２と、ミキシングメタデータ多重手段４５とを有している。

図５に示す送信側の音響信号変換システム４０−１では、上述した第１の実施形態で示すように、１又は複数の音響収録再生装置１１及びマイク１２により出力される１又は複数の音響信号（音源素材）を音響ミキシング装置４３で入力する。なお、多チャンネル音響の音響コンテンツ制作のための音源素材には、上述したように音響信号の意味内容に関する属性データである「発話音／効果音識別」が入力される音響信号毎に事前に付加されている。

音響ミキシング装置４３は、番組制作者の意図に沿った最適な発話音／効果音のバランスの多チャンネル音響の音響コンテンツを作成する。つまり、制作時においては、番組制作者の意図等に応じて訓練された音響調整者が操作するミキシング情報に基づいて、番組制作者の意図等に沿った最適な発話音／効果音のバランスで制作された多チャンネル音響の音響コンテンツが制作される。

また、音響ミキシング装置４３は、上述した第１の実施形態と同様に多チャンネル音響信号コンテンツ３１、発話音ダウンミックス信号３２、及び効果音ダウンミックス信号３３を出力し、更に発話音／効果音識別メタデータ５１を出力する。つまり、第２の実施形態では、音響ミキシング装置４３にて制作される多チャンネル音響信号には、音響調整者が操作したミキシング情報に基づいてチャンネル音響信号毎に発話音／効果音識別メタデータ５１が生成される。

具体的に説明すると、発話音ゲインメタデータ及びチャンネル音響信号毎に付随される発話音／効果音識別メタデータ５１は、まず、事前に付加されている属性データの「発話音／効果音識別」と音響調整者が操作したミキシング情報とに基づいて、設定される各音響チャンネル信号毎の発話音／効果音識別メタデータ５１を生成する。なお、そのチャンネル信号の音響内容が「発話音」と「効果音」の両方を含む場合には、周波数帯域を例えば聴覚の臨界帯域幅を有する複数の周波数帯域に分割し、分割した周波数帯域の信号毎に「発話音／効果音識別」を付加することもできる。「発話音／効果音識別」の付加例については後述する。

次に、音響ミキシング装置４３は、事前に付加されている属性データ「発話音／効果音識別」に従い発話音の２チャンネル音響ダウンミックス及び効果音の２チャンネル音響ダウンミックスの２種類のダウンミックス信号を、音響調整者の操作するミキシング情報及び図３（ａ），（ｂ）に示すような規定のダウンミックスの計算式に則って生成する。

音響信号制作装置４４の発話音／効果音バランス測定装置２１は、入力された発話音ダウンミックス信号３２と、効果音ダウンミックス信号３３とに基づいて、バランス測定を行う。なお、第２の本実施形態では、発話音信号及び効果音信号を、例えば特許文献１や特許文献２に示されるミキシングバランス表示装置等に入力し、発話音／効果音のバランスを測定する。

また、ゲイン調整量算出手段２２は、入力される発話音／効果音のバランス測定結果に基づき、上述したように、例えば発話音信号のレベルをゲイン調整するための、２チャンネル音響ダウンミックス信号用の発話音ゲインメタデータからなるゲイン調整量５２を算出する。

ここで、「発話ゲインメタデータ」とは、例えば、上述する図４と同様に発話音／効果音のバランス測定結果に基づいた発話音信号レベルのゲイン調整値の関数の出力値で構成される。

なお、第２の実施形態でも上述した第１の実施形態と同様に、効果音ダウンミックス信号３３の信号レベルについてのゲイン調整量５２を算出したり、発話音ダウンミックス信号３２及び効果音ダウンミックス信号３３の信号レベルについてのゲイン調整量５２を算出してもよい。

したがって、第２の実施形態では、ゲイン調整量算出手段２２から、例えば全音響チャンネルに１つ付随される発話音ゲインメタデータとしてのゲイン調整量５２が生成されて出力される。

また、第２の実施形態におけるゲイン調整値は、例えば受信側で、難聴者や高齢者、ユーザ毎の音の好み等、各ユーザの条件等に応じてレベルを変更できるように、複数のゲイン調整値を含めてもよい。このように複数のゲイン調整値を含めることにより、受信側でユーザ等が自分に合った音響を選択することができる。

ミキシングメタデータ多重手段４５は、多チャンネル音響信号コンテンツ３１に、ミキシングメタデータとして、チャンネル音響信号毎の発話音／効果音識別メタデータ５１、及び全音響チャンネルに１つのゲイン調整量５２等を用いて多重化し、多重化したミキシング信号が音響信号変換装置６０側に送信する。

なお、ミキシングメタデータ多重手段４５により多チャンネル音響信号コンテンツ３１に、発話音／効果音識別メタデータ５１及びゲイン調整量５２を多重されるタイミングは、例えば予め設定された時間間隔毎であることが好ましい。これにより、例えば、受信側で番組の途中で他の番組に切り替えた場合でも、迅速に調整された最適な音響をユーザに提供することができる。なお、本発明においてはこれに限定されるものではなく、例えば提供される複数の番組（音響コンテンツ）の切り替わり毎であってもよく、受信側からの音響調整要求があったときでもよい。

＜音響信号変換システムの受信側の構成について＞
次に、図６を用いて音響信号変換システム４０−１の音響信号制作装置４４から送信されたミキシング信号を受信し、受信した信号をスピーカ等の音響出力手段等を用いて出力する受信側の音響信号変換システム４０−２である音響信号変換装置６０の機能構成について図を用いて説明する。

図６に示す音響信号変換装置６０は、ミキシングメタデータ分離手段６１と、チャンネル分離手段６２と、ゲイン調整手段６３と、合成手段６４とを有するよう構成されている。なお、図６に示す音響信号変換装置６０は、２チャンネル音響信号７１を出力する。なお、本発明においてはこれに限定されるものではなく、例えば上述した５．１チャンネル音響信号を出力してもよい。

音響信号変換装置６０は、音響信号変換システム４０から送信されたミキシング信号を受信すると、ミキシングメタデータ分離手段６１は、ミキシングメタデータを分離し、上述したゲイン調整量５２、発話音／効果音識別メタデータ５１、及び多チャンネル音響信号コンテンツ３１を取得する。

また、チャンネル分離手段６２は、多チャンネル音響信号コンテンツ３１を入力し、発話音／効果音識別メタデータ５１を用いて発話音ダウンミックス信号３２と効果音ダウンミックス信号３３とに分離して出力する。

ここで、ゲイン調整手段６３は、発話音ダウンミックス信号３２を入力し、ゲイン調整量５２に基づいて信号レベルの調整を行う。なお、本実施形態においては、信号レベルの調整だけではなく、上述したように発話音ダウンミックス信号３２及び効果音ダウンミックス信号３３の信号レベルを調整してもよい。また、スピーチレベルと効果音レベルの両方を調整してもよい。

また、ゲイン調整手段６３は、入力されるゲイン調整量５２に複数の調整値が含まれている場合には、ユーザが何れかの調整値を設定することで、難聴者や高齢者、ユーザ毎の音の好み等に対して、自分に適した音響にゲイン調整することができる。

また、合成手段６４は、ゲイン調整手段６３から得られる発話音ダウンミックス信号３２と、効果音ダウンミックス信号３３とを合成し、２チャンネル音響信号７１を出力する。

上述したように、第２の実施形態では、まず制作側で、３次元音響方式等の多数の音響チャンネルを有する音響コンテンツの制作に並行して、「発話音／効果音のバランス」の劣化を改善するために必要なミキシングメタデータを、音響信号の意味内容に関する属性「発話音／効果音識別」データ、及び各音響チャンネルのミキシングレベル情報及び発話音／効果音のバランス測定結果に基づいて自動的に生成し、次に、多数の音響チャンネルを有する番組コンテンツとこれに付随するミキシングメタデータを伝送する。これに対し受信側では、番組コンテンツの音響信号とこれに付随したミキシングメタデータに基づいて２チャンネル音響信号にダウンミックスすることにより、最適な発話音／効果音のバランスの音響信号を聞くことができる。

つまり、受信側では、多チャンネル音響信号とこれに付随したミキシングメタデータを受信し、このミキシングメタデータに基づいて２チャンネル音響信号にダウンミックスするが、このミキシングメタデータを利用した２チャンネル音響ダウンミックスは、番組制作者の意図に沿った「発話音／効果音のバランス」が実現され、「発話音／効果音のバランス」の劣化が改善される。

＜「発話音／効果音識別」の付加例＞
次に、上述した属性データとしての「発話音／効果音識別」の付加例について具体的に説明する。

本実施形態では、送信される多チャンネル音響信号の各音響チャンネルは、「発話音」又は「効果音」の内容のみを含む場合と、「発話音」と「効果音」の両者を含む場合がある。ここで、全周波数帯域にわたり「発話音」又は「効果音」の内容のみを含む場合は、当該チャンネルに１度だけ音響内容が「発話音」又は「効果音」の何れかを示す「発話音／効果音識別」を音響信号に付加して送付する。

一方、「発話音」と「効果音」の両者を含む場合は、例えば、周波数帯域を予め設定される聴覚の臨界帯域幅を有する複数の周波数帯域に分割し、分割した各周波数帯域に対応させて「発話音」又は「効果音」の何れかを示す「発話音／効果音識別」を音響信号に付加して送付する。したがって、「発話音／効果音識別」において、「発話音」識別が付けられた周波数帯域信号は発話音成分とし、「効果音」識別が付けられた周波数帯域信号は効果音成分とみなす。これにより、当該チャンネルの音響信号を発話音信号と効果音信号の両者のうち何れかに分離することができる。なお、どの周波数帯域を「発話音」とし、どの周波数帯域を「効果音」とするかについては、番組制作者の意図や音響信号の内容等に応じて予め設定しておくものとする。

上述した聴覚の臨界帯域幅とは、例えば「Ｅ．ヴィッカー／原著者、山田由紀子／訳者、心理音響学、原書名：ＰＳＹＣＨＯＡＫＵＳＴＩＫ、Ｐ．７４」等の文献に記載されている臨界周波数表等を用いることができる。

図７は、臨界帯域番号と周波数との関係の一例を示す図である。なお、図７では、臨界帯域番号と周波数の関係の他にも臨界帯域幅△ｆｇとその中止周波数ｆｍの関係も示している。なお、中心周波数ｆｍに属する臨界帯域番号ｚも同様に掲げてある。臨界帯域幅に属する互いに隣接した臨界帯域の境界周波数ｆｕとｆ０は、２列目に示された値に相当する。

図７に示すように、帯域番号ｚと周波数ｆとの関係は、聴覚の働きを理解するのに非常に重要である。そのため、この臨界帯域幅を用いて高精度にチャンネルの音響信号を発話音信号と効果音信号の何れかに分離することができる。

ここで、上述した第１及び第２の実施形態は、本発明においてはこれに限定されるものではなく、例えば第１及び第２の実施形態を組み合わせた実施形態でもよい。

＜音響信号変換プログラム＞
なお、上述した実施形態は、上述した音響信号変換システムにおける専用の装置構成により、本発明における上述した音響信号変換手順を行うこともできるが、上述した音響信号変換手順に関する各処理をコンピュータに実行させることができる実行プログラム（音響信号変換プログラム）を生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等に音響信号変換プログラムをインストールすることにより本発明における音響信号変換が実現可能となる。

つまり、上述した音響信号変換システム１０や音響信号変換装置１４，４４は、ＣＰＵ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータを表示する表示部、並びに外部と通信するためのインタフェースを備えたコンピュータによって構成することができる。

したがって、音響信号変換システムや音響信号変換装置１４，４４が有する各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク（フロッピィーディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記録媒体に格納して頒布することもできる。

つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム（音響信号変換プログラム）を生成し、例えば、汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、コンピュータを、上述した音響信号変換システムや音響信号変換装置として機能させることができる。

ここで、上述した第１及び第２の実施形態に対応させた音響信号変換プログラムによる音響信号変換処理を流れについてフローチャート又はシーケンス図を用いて説明する。

＜音響信号変換処理手順：第１の実施形態＞
図８は、第１の実施形態における音響信号変換処理手順の一例を示すフローチャートである。図８において、まず１又は複数の音響信号（「発話音／効果音識別」等の属性データ付き）を取得し（Ｓ０１）、得られた音響信号等から多チャンネル音響信号コンテンツを制作する（Ｓ０２）。このとき、多チャンネル音響信号コンテンツは、音響調整者等により最適な音響に調整されている。

次に、多チャンネル音響信号コンテンツの制作と並行して、上述したように変換式等により発話音ダウンミックス信号と効果音ダウンミックス信号を生成し（Ｓ０３）、生成した発話音ダウンミックス信号と効果音ダウンミックス信号に基づいて、バランス測定を行う（Ｓ０４）。また、Ｓ０４の処理により得られたバランス測定結果から２チャンネル音響等のダウンミックスされた音響信号に対応するゲイン調整量を算出し（Ｓ０５）、算出されたゲイン調整量に基づいてゲイン調整を行う（Ｓ０６）。

次に、Ｓ０６の処理によりゲイン調整された発話音ダウンミックス信号と効果音ダウンミックス信号の合成を行い（Ｓ０７）、合成された２チャンネル音響信号コンテンツを出力する（Ｓ０８）。

＜音響信号変換処理手順：第２の実施形態＞
図９は、第２の実施形態における音響信号変換処理手順の一例を示すシーケンス図である。図９において、まず送信側の音響信号制作装置４４において、１又は複数の音響信号（「発話音／効果音識別」等の属性データ付き）を取得し（Ｓ１１）、得られた音響信号等から多チャンネル音響信号コンテンツを制作する（Ｓ１２）。このとき、多チャンネル音響信号コンテンツは、音響調整者等により最適な音響に調整されている。また、発話音／効果音の識別メタデータを生成する（Ｓ１３）。

次に、多チャンネル音響信号コンテンツの制作と並行して、上述したように変換式等により発話音ダウンミックス信号と効果音ダウンミックス信号を生成し（Ｓ１４）、生成した発話音ダウンミックス信号と効果音ダウンミックス信号に基づいて、バランス測定を行う（Ｓ１５）。また、Ｓ１５の処理により得られたバランス測定結果から２チャンネル音響等のダウンミックスされた音響信号に対応するゲイン調整量を算出し（Ｓ１６）、算出されたゲイン調整量と、多チャンネル音響信号コンテンツと、発話音／効果音識別メタデータとを多重化し（Ｓ１７）、多重化したミキシング信号を受信側に送信する（Ｓ１８）。

次に、受信側の音響信号変換装置６０において、音響信号制作装置４４から送信されたミキシング信号について、ミキシングメタデータの分離処理を行い（Ｓ１９）、ゲイン調整量と、多チャンネル音響信号コンテンツと、発話音／効果音識別メタデータとを分離する。次に、分離された多チャンネル音響信号コンテンツと、発話音／効果音識別メタデータに基づいてチャンネル分離処理を行い（Ｓ２０）、発話音ダウンミックス信号と効果音ダウンミックス信号を取得し、得られた発話音ダウンミックス信号に対して、更にＳ１９の処理で得られたゲイン調整量による調整を行う（Ｓ２１）。次に、Ｓ２１の処理によりゲイン調整された発話音ダウンミックス信号と効果音ダウンミックス信号の合成を行い（Ｓ２２）、合成された２チャンネル音響信号コンテンツを出力する（Ｓ２３）。

上述したように、実行プログラムをコンピュータにインストールすることにより、容易に上述した音響信号変換処理を実現することができる。

上述したように本発明によれば、多チャンネル音響信号をダウンミックスする場合に、発話音と効果音とのバランスを劣化させずに最適な音響に変換することができる。具体的には、従来のダウンミックスを行うと、「発話音／効果音のバランス」が劣化し、例えばＢＧＭ音によりナレーション音が聞きづらくなる等、番組制作者の意図に沿った「発話音／効果音のバランス」とはならない場合があったが、本発明を適用することにより、３次元音響方式等の多数の音響チャンネルを有する番組コンテンツの制作と同時並行して、適切な「発話音／効果音のバランス」が保たれた２チャンネル音響信号や５．１チャンネルサラウンド音響信号等を自動的にダウンミックス制作することが可能となる。

また、音響信号変換装置においては、本発明を適用することにより、３次元音響方式等の多数の音響チャンネルを有する番組コンテンツの音響信号とこれに付随した当該ミキシングメタデータを受信し、２チャンネル音響信号や５．１チャンネルサラウンド音響信号等にダウンミックスする場合、規定のダウンミックスで発生する「発話音／効果音のバランス」の劣化を改善することが可能となる。

以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

１０，４０音響信号変換システム
１１音響収録再生装置
１２マイク（音声入力手段）
１３，４３音響ミキシング装置
１４，６０音響信号変換装置
２１発話音／効果音バランス測定装置
２２ゲイン調整量算出手段
２３，６３ゲイン調整手段
２４，６４合成手段
３１発話音ダウンミックス信号
３２効果音ダウンミックス信号
３３多チャンネル音響信号コンテンツ
３４２チャンネル音響信号コンテンツ
４４音響信号制作装置
４５ミキシングメタデータ多重手段
５１発話音／効果音識別メタデータ
５２ゲイン調整量
６１ミキシングメタデータ分離手段
６２チャンネル分離手段

Claims

第１の信号レベルと第２の信号レベルとからなる音響信号を予め設定されたチャンネル数に対応させて変換する音響信号変換装置において、
第１のチャンネル数に対応する音響信号から第２のチャンネル数に対応する音響信号にダウンミックスされたときの前記第１の信号レベルの音響信号と、前記第２の信号レベルの音響信号とに対する信号レベルのミックスバランスを測定するバランス測定手段と、
前記バランス測定手段により得られる前記第１の信号レベルと前記第２の信号レベルとの相対レベル差に対応させて、前記第１の信号レベル又は前記第２の信号レベルのゲイン調整量を算出するゲイン調整量算出手段と、
前記ゲイン調整量算出手段により得られるゲイン調整量に基づいて、前記第１の信号レベル及び／又は前記第２の信号レベルのゲインを調整するゲイン調整手段と、
前記ゲイン調整手段により得られるゲイン調整された音響信号を用いて、前記第１の信号レベルの音響信号及び前記第２の信号レベルの音響信号を合成し、前記第２のチャンネル数に対応する音響信号を出力する合成手段とを有し、
前記ゲイン調整手段は、前記ゲイン調整量算出手段により得られる前記ゲイン調整量の増加量又は減少量の大きさに応じた長さの調整時間を設定し、設定された調整時間で前記合成手段による合成後のトータル音量が一定に保たれるようにゲインを調整することを特徴とする音響信号変換装置。
制作側から伝送された第１の信号レベルと第２の信号レベルとからなる音響信号を予め設定されたチャンネル数に対応させて変換する音響信号変換装置において、
前記制作側から伝送された多重化信号から、第１のチャンネル数に対応する音響信号と、前記第１のチャンネル数から第２のチャンネル数にダウンミックスされたときの前記第１の信号レベル及び前記第２の信号レベルのミックスバランスに対応した記第１の信号レベル又は前記第２の信号レベルのゲイン量と、前記第１の信号レベル及び前記第２の信号レベルの音響信号を識別するための識別メタデータとに分離するミキシングメタデータ分離手段と、
前記ミキシングメタデータ分離手段により得られる第１のチャンネル数に対応する音響信号に対して、前記識別メタデータを用いて、第２のチャンネル数に対応する音響信号にダウンミックスされたときの前記第１の信号レベルの音響信号と、前記第２の信号レベルの音響信号とに分離するチャンネル分離手段と、
前記第１の信号レベル及び／又は前記第２の信号レベルのゲインを、前記第１の信号レベルと前記第２の信号レベルとの相対レベル差に対応させたゲイン調整量に基づいて調整するゲイン調整手段と、
前記ゲイン調整手段により得られるゲイン調整された音響信号を用いて、前記第１の信号レベルの音響信号及び前記第２の信号レベルの音響信号を合成し、前記第２のチャンネル数に対応する音響信号を出力する合成手段とを有し、
前記ゲイン調整手段は、前記ゲイン調整量の増加量又は減少量の大きさに応じた長さの調整時間を設定し、設定された調整時間で前記合成手段による合成後のトータル音量が一定に保たれるようにゲインを調整することを特徴とする音響信号変換装置。
前記合成手段は、
前記ゲイン調整手段によりゲイン調整された音響信号の変化量に応じて、前記第２のチャンネル数に対応する音響信号の音量を調整することを特徴とする請求項１又は２に記載の音響信号変換装置。
前記第１の信号レベルと第２の信号レベルとからなる音響信号は、発話音と効果音であることを特徴とする請求項１乃至３の何れか１項に記載の音響信号変換装置。
入力される前記第１の信号レベルと前記第２の信号レベルとからなる音響信号は、予め設定される聴覚の臨界帯域幅を用いて前記発話音又は前記効果音に分離されていることを特徴とする請求項４に記載の音響信号変換装置。
コンピュータを、請求項１乃至５の何れか１項に記載の音響信号変換装置が有する各手段として機能させるための音響信号変換プログラム。