JP6482880B2

JP6482880B2 - ミキシング装置、信号ミキシング方法、及びミキシングプログラム

Info

Publication number: JP6482880B2
Application number: JP2015007380A
Authority: JP
Inventors: 弘太高橋
Original assignee: THE UNIVERSITY OF ELECTRO-COMUNICATINS
Current assignee: THE UNIVERSITY OF ELECTRO-COMUNICATINS
Priority date: 2015-01-19
Filing date: 2015-01-19
Publication date: 2019-03-13
Anticipated expiration: 2035-01-19
Also published as: JP2016134706A

Description

本発明は、２以上の入力信号のミキシング技術に関する。

ミキシングの基本構成は、複数の入力信号の加算である。レコーディングや放送の現場では、ミキシングされた各種楽器や音声をバランスよく聴かせるために、加算器の前後にイコライザが配置されている。イコライザを用いることで、入力信号ごとに所望の周波数帯域を強調したり、バックグラウンドの中の重要でない周波数帯域の音量を下げて混合音中の優先音を引き立てる等の処理が行われる。

一方、入力信号を時間周波数平面上に展開し、時間周波数平面上の点ごとに振幅調整と位相調整を行った後に加算して、時間軸上の信号に戻す「スマートミキシング」の手法が提案されている（たとえば、特許文献１参照）。音声や楽器音は、時間周波数平面上できめ細かな構造を持っている。各種入力信号を、時間周波数平面上での構造に合わせてミキシング処理を行うことで、よりきめ細かなミキシング処理が可能になる。特許文献１では、時間周波数平面上での処理対象点と所定の関係を有する他の点の入力データを用いて処理対象点の信号特性を判断し、その信号特性に応じて優先音の明りょう度を決定している。

特許第５０５７５３５号

特許文献１では、入力信号に与えられるゲインを最適化する合理的な方法が規定されていない。特許文献１のミキシング方法を現実に応用する場合、周波数ごとのゲインは音源にあわせて試行錯誤で決定されることになり、適切なゲインが設定されない場合がある。また、従来からの一般的なミキシング技術は経験と勘に頼っており、ゲイン設定やイコライザの特性設定に関しての合理的な基準が確立されていない。

ミキシングで優先的に明瞭化されるべき音（以下、「優先音」と称する）の周波数ごとのゲインが適切に設定されないと、以下の問題が生じる。まず、優先音のゲインの変化が強すぎると、出力（混合音）中の優先音として不自然な感じになり、音として聴こえても音声として内容を聴き分けることができない。また、優先音の音量変化や音質変化が強すぎて不快感を生じさせることがある。逆にゲインの変化が弱すぎると、優先音が十分に聴き取れない。

優先音以外の音(以下、「非優先音」と称する)のゲインが適切に設定できないと、以下の問題が生じる。ゲインの変化が強すぎると、出力（混合音）において非優先音の欠落や音質急変が目立ってしまい、違和感を感じる。違和感に気をとられることで優先音の聴き取りが阻害されてしまう。逆に、ゲインの変化が弱すぎると、優先音を十分に引き立てることができない。

そこで、オーディオデータミキシング時の合理的なゲイン設定方法を確立して、ミキシング装置の動作の向上と安定を図ることを課題とする。

上記課題を解決するために、本発明では、次の２つの原理を基本原理として用いる。
（１）出力信号の対数強度を入力信号の対数強度の和を超えない範囲に限定する。これを「対数強度の和の原理」と称する。「対数強度の和の原理」によって、優先音が増強されすぎて混合音に違和感が生じることを抑制する。
（２）非優先音のパワーの減少を、優先音のパワー増加分を超えない範囲に制限する。これを「穴埋めの原理」と称する。「穴埋めの原理」によって、混合音において非優先音が抑制されすぎて違和感が生じることを抑制する。

具体的には、本発明の一側面において、ミキシング装置は、
時間領域の第１入力信号と第２入力信号をそれぞれ時間周波数平面上の第１信号と第２信号に展開する周波数解析部と、
前記第１信号と前記第２信号を混合した混合信号を生成する信号処理部と、
前記混合信号を時間領域の信号に変換する周波数時間変換部と、
前記変換された信号を出力する信号出力部と、
を有し、
前記信号処理部は、
前記時間周波数平面の各点ごとに、出力信号の対数強度が前記第１信号の対数強度と前記第２信号の対数強度の和を超えない範囲内で前記第１信号のパワーを調整する第１ゲインと、前記第１信号のパワーの増加分を超えない範囲内で前記第２信号のパワーを減少させる第２ゲインとを決定するゲイン決定部と、
前記第１ゲインで調整された前記第１信号と前記第２ゲインで調整された前記第２信号を加算する加算部と、
を有する。

入力信号のミキシング時に適切なゲインが設定され、ミキシング装置の動作の向上と安定を図ることができる。

本発明の基本原理を説明する図である。実施形態のミキシング装置の概略構成図である。優先音と非優先音のパワーをリスナーの可聴レベルとともに示す図である。図３の優先音と非優先音のそれぞれから可聴レベルを減算して、リスナーが感じる音強度（聴感補正パワー）としてプロットした図である。図４の優先音と非優先音の対数尺度での和を示す図である。図４の優先音と非優先音の単純加算和を一定倍した結果を示す図である。図５（対数強度和）と図６（単純加算和の一定倍）の双方を満たす範囲を加算(ミキシング)時の上限とする図である。図７の範囲内でゲイン調整された優先音と非優先音を示す図である。最小可聴パワーの選択に用いるラウドネス曲線の例を示す図である。実施形態のミキシング装置の動作例を示す図である。ゲインを平滑化した場合のミキシング装置の動作状態を示す図である。補正係数Ｂ［ｋ］を直接設定する場合の例を示す図である。実施形態のミキシング信号処理方法の一例を示すフローチャートである。実施形態のミキシング信号処理方法の一例を示すフローチャートであり図１３Ａに続くフローチャートである。実施形態のミキシング信号処理方法の別の例を示すフローチャートである。

図１は、本発明の基本原理を説明する図である。以下の説明では、入力信号ｘ１［ｎ］とｘ２［ｎ］をミキシングする場合を例にとる。入力信号ｘ１［ｎ］は、たとえば音声等の優先信号とする。入力信号ｘ２［ｎ］は、バックグラウンド音等の非優先信号とする。

入力信号ｘ１［ｎ］とｘ２［ｎ］は、周波数解析によって、それぞれ時間周波数平面（図中「ｔｆ平面」と表記されている）上に展開される。周波数解析は、短時間ＦＦＴ（Fast Fourier Transform）、短時間フーリエ変換、ウェーブレット変換、フィルタバンクによる変換、ウイグナー分布などの時間周波数分布への変換等、任意の手法を用いることができる。時間周波数平面上に展開された各信号を、Ｘ１［ｉ，ｋ］、Ｘ２［ｉ、ｋ］とする。Ｘ１［ｉ，ｋ］、Ｘ２［ｉ，ｋ］は、時間方向の座標値ｉと、周波数方向の座標値ｋで表される時間周波数平面上での入力信号の点である。

時間周波数平面に展開された入力信号の各点のパワーに基づき、「対数強度の和の原理」と「穴埋めの原理」を用いて、各点での優先音と非優先音のゲインを決定する。「対数強度の和の原理」は、上述のように出力信号のパワーを入力信号の対数強度の和を超えない範囲に限定する処理である。「穴埋めの原理」は、非優先音のパワーの低減を、優先音のパワー増加分を超えない範囲に限定する処理である。これらの原理の具体的な処理方法については後述する。

なお、実施形態では最適なゲインの決定のために、対数強度の和の原理に基づく処理（１）と、穴埋めの原理に基づく処理（２）に加えて、オプションとしてさらに以下の処理（３）〜（５）を導入する。
（３）ゲイン決定に際して、(a)対数強度の和の原理により決定されるパワーの増加率に対して、入力音の単純加算値を一定倍したレベルを超えないように上限を設ける、(b)優先音のゲインに固定的な上限を設ける、(c)非優先音のゲインに固定的な下限を設ける、という３つの条件のうちの少なくとも１つを加える。これにより、混合音をさらに自然で穏やかにすることができる。
（４）極端に信号対雑音比が低下している時間区間では、上記（３）の上限や下限を緩和する。これにより、信号対雑音比が低い時間区間でも優先音を目立たせてリスナーにとって聴き取りやすい音にする。
（５）ミキシング処理におけるパラメータは、最適化問題の解として算出するのではなく逐次更新するように構成する。逐次更新の採用によって、「方程式を解く」ことを「不等式の真偽の判定」に置き換えることができ、指数関数、対数関数、乗算などの演算を排除して、乗算と加減算だけの高速アルゴリズムを構成することができる。これにより、ＦＰＧＡ（Field-programmable gate array）等のプログラマブルロジックデバイスへの実装や、ＤＡＷ（digital audio workstation）用のプラグインとしての実装が容易になり、リアルタイム処理が実現する。

時間周波数平面上の各点で、Ｘ１［ｉ，ｋ］、Ｘ２［ｉ、ｋ］にそれぞれ対応するゲインを乗算する。ゲイン乗算後の信号を、Ｍ１［ｉ，ｋ］、Ｍ２［ｉ，ｋ］とする。ゲイン調整された信号Ｍ１［ｉ，ｋ］、Ｍ２［ｉ，ｋ］を加算して時間周波数平面上で２つの信号を重ね合わせる。その後、時間領域の信号に戻して、混合音を出力する。

このように、時間周波数平面上の各点で入力信号に対するゲインを決定して乗算することで、自然な混合音を生成することができる。

図２は、実施形態のミキシング装置１の概略図である。ミキシング装置１は、信号入力部１１、周波数解析部１２、信号処理部１５、周波数時間変換部１６、及び信号出力部１７を有する。信号入力部１１は、ミキシングの対象となる複数の入力信号を入力する。入力信号はたとえばオーディオ信号であり、音声等の優先信号と、バックグラウンド音等の非優先信号を含む。

周波数解析部１２はたとえば、短時間ＦＦＴにより入力信号を時間周波数平面上に展開する。信号処理部１５は、時間周波数平面上の各点で、入力信号のパワーを算出し、パワーを平滑化した後、ゲイン決定部１５１で優先信号と非優先信号に対するゲインをそれぞれ算出する。そして、優先信号と非優先信号に対して算出されたそれぞれのゲインを乗算した後、加算して加算結果を出力する。周波数時間変換部１６は、信号処理部１５からの出力信号を時間領域の信号に変換する。信号出力部１７は、時間領域に復元された信号を出力する。

図３〜図８を参照して、信号処理部１５での基本処理を説明する。以下の説明で用いられる記号を、表１と表２に示す。表１は定数の記号の一覧であり、表２は変数の記号の一覧である。

＜対数強度の和の原理＞
図３は、時間周波数平面のある時刻における優先音（太線）と非優先音（実線）のパワー［ｄＢ］を周波数の関数として模式的に示したものである。このパワーは、信号処理部１５で平滑化されたパワー値Ｅである。点線は、このレベル以上であればリスナーが音を検知できる聴力限界を示す。

人間の聴覚は、パワーの対数で音の強さを感じると言われている。この考え方に基づけば、点線の可聴限界よりも１０ｄＢ高い音成分同士はほぼ同じ強さに感じられ、聴力限界よりも２０ｄＢ高い音成分同士もほぼ同じ強さに感じられる。また、可聴限界よりも１０ｄＢ高い音成分と、２０ｄＢ高い音成分の音量差は、可聴限界よりも２０ｄＢ高い音成分と、３０ｄＢ高い音線分の音量差と同じであるとみなすことができる。

図４は、図３の優先音と非優先音のそれぞれから、点線の聴力限界可聴レベルを減算してプロットしたものである。図４で得られる優先信号と非優先信号のパワー値は、人間の聴力限界をゼロｄＢとして補正された「聴感補正パワーＰ」である。図４の縦軸の大きさが、リスナーが感じる音強度となる。

図５は、図４で聴感補正された優先音と非優先音の対数尺度での和を点線Ａで示す。上述した人間の聴覚についての知見によれば、リスナーに聴感補正された優先音と非優先音の和（対数強度の和）を混合音として感じさせることが妥当であるという原理に行き着く。すなわち、混合音のパワーを図４の点線Ａとする。これが、「対数強度の和の原理」である。人間の聴力限界と等しい音の大きさを１倍とすると、２０ｄＢは１０倍であり、その対数は１である。４０ｄＢは１００倍であり、その対数は２である。対数の尺度で表現すると、人間の聴力限界の１０倍の音と１００倍の音の和は、１０^３すなわち１０００倍のパワーとなる。

ただし、この原理をそのまま使うと、聴感補正後（図４）の優先音のパワーＰ１と非優先音のパワーＰ２の和で表される混合音のパワーはＰ１×Ｐ２になり、場合によってはパワーが大きくなりすぎる。たとえば、Ｐ１＝Ｐ２＝１０^５であれば、混合音のパワーは１０^１０になり、多くの処理系でオーバーフローが起きる可能性がある。そこで、「対数強度の和の原理」で導かれる混合音のパワーをミキシングの上限値として用いる。
＜追加条件＞
対数強度の和の原理で求められる混合音は場合によって音量が強くなりすぎるという問題を解決するために、処理（３）の３つの条件(a)〜(c)の少なくともひとつを追加する。

図６は、条件(a)を示す図である。条件(a)は、混合音のパワー増加率を、２つの入力音のパワーの単純加算値の一定倍率（比率）に制限するものである。自然界において、人間は２つの音の加算（混合音）を聴くときに、単純加算での混合を聴いている。たとえば、聴力限界の１０倍の入力音と、１００倍の入力音の単純加算値は１１０倍である。これに対して、対数尺度での加算値は１０００倍となる。

そこで、混合パワーの増幅限界Ｔ_Ｇを設定する。混合パワーの増幅限界Ｔ_Ｇは単純加算値の振幅比で表わし、たとえばＴ_Ｇ＝４．０と設定する。この場合、単純加算で求められる振幅（たとえば１１０）の４．０倍が混合パワーの増幅限界となる。図６の点線Ｂが、優先音と非優先音の和（混合）のパワーを単純加算値の所定倍率Ｔ_Ｇに制限する増幅限界である。

図７は、図５の対数強度の和の原理で求められる混合音パワーの上限と、図６の単純加算の一定倍で設定される増幅限界の双方を満たすレベル、すなわちいずれか低い方のパワーレベルを信号加算の上限として設定する処理を示す。図７で、点線Ａ（対数強度の和の原理で求められる上限）と、点線Ｂ（単純加算に基づく増幅限界）のパワーの低い方を選択した実線が、信号加算時の上限となる。
＜穴埋めの原理＞
図８は、図７の信号加算の上限の範囲内でのゲインの設定を示す図である。優先音の聴き取りを向上させるためには、時間周波数平面上の必要な部分において、非優先音を抑制する必要がある。抑制量は多ければ多いほどよいというものではない。非優先音を無条件に抑制してしまうと、非優先音の音量変化が刺激的になりすぎて、違和感が増すだけでなく、優先音の聴き取りが妨害され得るからである。したがって、非優先音の抑制に対しても合理的な基準が必要になる。

実施形態では、優先音のゲインを増加させたことによってパワーが増大した分を超えない範囲で、非優先音のパワーが低減される。つまり、非優先音の抑制によって作られた穴を、優先音の増大によって埋める。この処理により、非優先音に対する違和感の発生を回避できる。

図８において、優先音は、図７の信号加算の上限の範囲内で増幅される。点線Ｃがゲイン調整後の優先音のパワーである。他方、非優先音は、優先音の変化量（すなわちパワー増大分）を超えない範囲で低減される。点線Ｄが、ゲイン調整後の非優先音のパワーである。

このように、信号処理部１５は、優先音パワーの増大に対する制限と、非優先音パワーの減少に対する制限に基づいて、それぞれのゲインを決定する。時間周波数平面の各点での優先音の増大と非優先音の減少（凹凸）を決定したものがゲインマスクである。

なお、処理（３）の条件(a)に替えて、あるいは条件(a)に加えて、優先音のゲインに固定的な上限を設定する条件(b)や、非優先音のゲインに固定的な下限を設定する条件(c)を追加してもよい。対数強度の和の原理と、穴埋めの原理にこれらの条件を追加することで自然な混合音を生成することができる。
＜短時間ＦＦＴ＞
次に、周波数解析部１２の処理の詳細を説明する。実施形態では、周波数解析部１２はＦＦＴ点数として２５６程度の短時間ＦＦＴを実施する。この短時間ＦＦＴは、一次元の入力信号を、２次元の時間周波数（ｔｆ）平面上に展開する処理である。

サンプリング周波数Ｆ_ｓで採取された信号ｘ１［ｎ］とｘ２［ｎ］を、それぞれ優先音と非優先音とする。両信号ｘｊ［ｎ］（ｊ＝１，２）をＮ_ｄ点シフトでＮ_Ｆ点の短時間フーリエ変換する。ブロック番号ｉ、周波数ビン番号ｋにおける変換結果をＸｊ［ｉ，ｋ］とすると、Ｘｊ［ｉ，ｋ］は式（１）で表される。

ここで、ｈ［ｎ］は窓関数である。Ｎ_ｈは窓関数の幅を決めるパラメータであり、｜ｎ｜≧Ｎ_ｈであるｎに対して、ｈ［ｎ］＝０とする。窓関数としては、ハン窓、ハニング窓、ガウス窓等、任意の窓関数を用いることができる。実施形態では、式（２）のガウス窓を使用する。

ここで、σは窓関数の幅を調整するパラメータである。

実信号のＦＦＴ結果は、正負の周波数出力が互いに複素共役の関係にあるため、負の周波数を扱う必要はない。Ｎ_Ｈ＝Ｎ_Ｆ／２として、０≦ｋ≦Ｎ_Ｈの範囲の周波数ビンのみを扱えばよい。また、Ｎ_ｄ＝１のときの逆ＦＦＴを、加算と加算後の定数倍だけですませるために、式（３）の変換を行っておく。加算と乗算のみの演算により計算量を軽減する。

逆ＦＦＴは、ミキシング装置１の周波数時間変換部１６で行われる。実施形態の信号処理部１５は位相処理を行わず、振幅処理だけで入力信号を混合する。これはＦＦＴの点数Ｎ_Ｆが少ないためである。一例として、Ｎ_Ｆ＝２５６、サンプリング周波数Ｆ_Ｓ＝４４．１ｋＨｚとする。これらの条件では音声の線スペクトル構造を分解するには不十分であり、ひとつの周波数ビンに複数の高調波成分が混在し位相の利用が困難になる。

実施形態では振幅処理のみを行うので、ミキシング出力Ｙ［ｉ，ｋ］は、Ｘ１［ｉ，ｋ］とＸ２［ｉ，ｋ］に、それぞれゲインα１［ｉ，ｋ］とα２［ｉ，ｋ］を乗算して加算することで生成される。

時間領域での出力ｙは、式（４）のＹ［ｉ，ｋ］を逆ＦＦＴして得られる。

ここで、１サンプルシフト（Ｎ_ｄ＝１）の場合は、ｎをゼロに固定してもｙを生成できるので、式（６）のように簡単な処理になる。

さらに、Ｘ［ｉ，ｋ］について、式（３）の変換をしておくことで、加算する周波数ビン数を、式（７）のようにほぼ半分に減らすことができる。

＜平滑化パワーの計算＞
次に、信号処理部１５による平滑化パワーの計算を説明する。パワーの平滑化に先立って、時間周波数領域の信号Ｘｊ［ｉ，ｋ］の絶対値の２乗（|Ｘj［i,k］|^２）を計算し、これを平滑化する。平滑化として、たとえば式（８）で示される指数平滑化を用いる。指数平滑化法は、計算量と必要なメモリ量が少ないので、ＦＰＧＡ化に適している。

ここで、μは指数平滑化法の係数であり、平滑の時定数τ_ｓから式（９）で導出する。

式（８）をＩＩＲ（Infinite Impulse Response）型ディジタルフィルタとみたとき、そのインパルス応答がピーク値の１／ｅに減衰する時間がτ_ｓである。実施形態では、平滑化に指数平滑化を用いるが、ＦＩＲ（Finite Impulse Response）フィルタ、ＩＩＲフィルタ等、任意の平滑化法を用いることができる。
＜最小可聴パワーの計算＞
入力信号のミキシングには、時間周波数平面上での各点の成分について、それが聴こえる成分なのか、聴こえない成分なのかを判定する必要がある。そのために、それぞれの音源ｊの各周波数ビンｋについて、その成分が可聴であるための最小のパワーＡ［ｋ］を定義する。

図９（Ａ）は、国際標準化規格ＩＳＯ２２６：２００３で規定された等ラウドネス曲線のうち、２０ phonと７０ phonの曲線から主要部分を抽出してサンプリングしたものである。これらをそれぞれＣ_２０［ｋ］とＣ_７０［ｋ］と呼ぶ。

本来であれば、０ phonの曲線が最小可聴パワーである。しかし、リスナーにどのような音量で音が提示されるかは電気音響装置のボリューム設定によってその都度違うので、実施形態のミキシング装置１の信号処理部１５は、ラウドネスレベルが指定された値になったときに可聴であると判断する。ミキシング装置１のユーザが最小可聴パワーとして、等ラウドネス曲線の中からＬ_ｐ phonの曲線を選択できるように設計してもよい。Ｌ_ｐ phonの曲線は、Ｃ_２０［ｋ］とＣ_７０［ｋ］を補間または補外した近似値として、式（１０）で得ることができる。

なお、平滑化されたパワーレベルＥｊ［ｉ，ｋ］が可聴であるか否かを判断するとき、Ｅｊ［ｉ，ｋ］をＣ_Lp［ｋ］と比較することはできず、信号ｘｊ［ｎ］の絶対値の最大値ｘ_maxや窓関数ｈ［ｎ］を勘案する必要がある。そこで、Ｃ_Lp［ｋ］を式（１１）のように変換し、最小可聴パワーＡ［ｋ］を導出する。

ここで、定数Ｌｆは、ｘｊ［ｎ］がフルスケールの信号であったときに、それを図９（Ａ）の縦軸の音圧レベル（ＳＰＬ：Sound Pressure Level）の何ｄＢに相当させるかを自由に設定するための定数である。

ミキシング装置１の動作を自由に設定するという観点に立てば、Ｃ_２０［ｋ］とＣ_７０［ｋ］をＩＳＯ２２６：２００３に準拠させる必然性はなく、図９（Ｂ）のような等ラウドネス曲線を生成してもよい。図９（Ｂ）の曲線を用いると、８ｋＨｚ程度の高い周波数の音は可聴とみなされやすくなるので、優先音においてこの帯域付近の成分は尊重されることになる。結果として、優先音にメリハリがつくので、実際に聴いた感じとして高評価が得られやすい。後述する実験結果は、図９（Ｂ）のＣ_２０［ｋ］とＣ_７０［ｋ］を用いている。
＜聴感補正パワーの計算＞
ゲインを決定するための聴感補正パワーの計算について説明する。聴感補正パワーの計算は図４の処理に該当する。平滑化後のパワーＥｊ［ｉ，ｋ］を最小可聴パワーＡ［ｋ］で除算した結果が１より大きければ可聴であり、その可聴のレベルは、Ｅｊ［ｉ，ｋ］／Ａ［ｋ］で表現される。たとえば、Ｅｊ［ｉ，ｋ］／Ａ［ｋ］＝１００であれば、最小可聴の音に比べて１００倍のパワーを持っている。

この評価法では除算が生じるが、ＦＰＧＡは除算が苦手である。そこで、最小可聴パワーＡ［ｋ］は事前に決定されているので、あらかじめその逆数Ｂ［ｋ］を作っておくことで除算を回避する。

この補正係数Ｂ［ｋ］を用いて、平滑化パワーＥｊ［ｉ，ｋ］から聴感補正パワーＰｊ［ｉ，ｋ］を式（１４）の乗算により生成する。

聴感補正パワーＰｊ［ｉ，ｋ］は、時間周波数平面の１点ごとに値が決まる量である。各点での聴感補正パワーＰｊ［ｉ，ｋ］から、式（１５）で定義する聴感補正総パワーＱｊ［ｉ］を算出する。

聴感補正総パワーＱｊ［ｉ］は、各点のパワーを周波数方向に積算した量であり、リスナーが感じることのできる音のエネルギーの簡略化された推定値である。聴感補正総パワーＱｊ［ｉ］は、以下で説明する時区間の属性判定に用いられる。
＜時区間の属性判定計算＞
信号処理部１５は、ミキシング処理を行う際に各時間区間において、有音判定、低ＳＮＲ（Signal to Noise Ratio：信号対雑音比）判定、及びブースト判定を行う。これらの判定は、上述した処理（４）と関連する。

まず、有音判定について説明する。有音でない部分でミキシング処理を行うと、優先信号に含まれるわずかな音、たとえばナレーションの合間の風の音などが増強され、好ましくない混合音が生成される。これを防ぐために、優先音の中でこの時間区間は聴き落してはならないという部分を有音部としてあらかじめ設定しておく。

有音部の判定は、有音時に１となる関数ｅ［ｉ］を式（１６）により定義する。

ここで、Ｔｅは有音判定のためのパラメータである。たとえば、Ｔｅ＝１．０とすれば、全ビンが可聴判定ぎりぎりであるときに有音と判定される。

次に、低ＳＮＲ判定について説明する。図５〜図７を参照して説明したように、ミキシング装置１では、優先音のゲインに上限を設ける。このため、優先音が非優先音に比べて極端にレベルが低い場合は、ゲインの上限値を使っても、優先音の聴き取りが困難になる場合がある。これを防ぐため、低ＳＮＲか否かを判定し、低ＳＮＲと判定された時間区間で上限の引き上げを行う。

低ＳＮＲの判定は、低ＳＮＲ時に１となる関数l［ｉ］を式（１７）で定義することができる。

ここで、Ｔ_ＳＮは低ＳＮＲ判定のためのパラメータである。たとえば、Ｔ_ＳＮ＝１０．０とすれば、聴感補正総パワーについて、優先音と非優先音の間に、振幅比で１０倍（パワー比で１００倍）の開きがあるときに低ＳＮＲと判定される。

最後に、ブースト判定について説明する。ブースト判定は、優先音が有音であり、かつ低ＳＮＲであるときに行われる。ブースト時に１となるｂ［ｉ］を、式（１８）で定義する。

ブースト判定が真となったときに、除算なしでブースト動作を行うために、ブーストレシオを分数表示したときの分子ｂ_ｎと分母ｂ_ｄを、それぞれ式（１９）と式（２０）で求めておく。これらを用いて、各種の評価基準に対してｂ_ｎ／ｂ_ｄのブーストが行われる。

＜ゲインの生成＞
ゲインの生成は実施形態のミキシング処理の核心である。優先音のためのゲインα１［ｉ，ｋ］と、非優先音のためのゲインα２［ｉ，ｋ］を生成する。ミキシング装置１の動作開始時は、両ゲインを１に初期化しておく。すべてのｋについて、α１［０，ｋ］＝α２［０，ｋ］＝１である。

今、時間ブロックｉに関する処理を始めたところであるとする。このとき、すべてのｋについてα１［ｉ−１，ｋ］とα２［ｉ−１，ｋ］がすでに決定している。α１［ｉ，ｋ］はα１［ｉ−１，ｋ］にΔ１を使った増減を行うことで更新される。α２［ｉ，ｋ］はα２［ｉ−１，ｋ］にΔ２を使った増減を行うことで更新される。

α１［ｉ，ｋ］の増減はα１［ｉ−１，ｋ］に対して（１＋Δ１）の乗算、もしくは（１＋Δ１）^−１の乗算を行うことで実現する。一方、α２［ｉ，ｋ］の増減は、α２［ｉ−１，ｋ］に±Δ２を加算することで行う。

このように異なる更新方法を採用する理由を説明する。優先音のためのゲインα１［ｉ，ｋ］は、条件によっては１０以上の値にすることがある。特に、α１［ｉ，ｋ］が大きいときには変化の差分を大きくする必要があり、乗算的更新が適している。一方、非優先音のためのゲインα２［ｉ，ｋ］は、０から１の範囲に限定されているため、一定刻みで十分であるし、一定刻みのほうが低レベルになったときの信号の抑圧をシャープに行うことができる。

ゲインα１［ｉ，ｋ］、α２［ｉ，ｋ］の更新を加減算と乗算のみにしたのは、処理（５）で説明したとおり、演算を軽くするためである。方程式を解いて次のゲインを決めるという方法では、多くの場合、除算や平方根等が発生する。また、ゲインが大きく変動して出力波形に不連続が生じることも懸念される。

これに対し、実施形態では微小量の増減に限定することで、ゲインは滑らかに変化し、出力に段差が生じることを抑止できる。
（Ａ）ゲイン調整信号の聴感補正パワーの計算
もし、ゲインの増減を行わず、ひとつ前のフレームのゲインαｊ［ｉ−１，ｋ］をそのまま用いた場合、すなわち、αｊ［ｉ，ｋ］＝αｊ［ｉ−１，ｋ］とした場合、音源ｊに関する優先音と非優先音の聴感補正パワーは、それぞれ式（２１）と式（２２）で表される。

このとき、ミキシング出力の聴感補正パワーＬ［ｉ，ｋ］は、両音源の寄与の和として式（２３）で表される。

優先音のゲインを増加させた場合の聴感補正パワーをＬ_１ｐ［ｉ，ｋ］と定義しておく。

増加時のミキシング出力の聴感補正パワーをＬ_ｐ［ｉ，ｋ］とする。

非優先音のゲインをΔ２だけ減少させた増加させた場合の聴感補正パワーをＬ_２ｍ［ｉ，ｋ］と定義しておく。

調整後のゲインα１［ｉ，ｋ］を用いた場合の優先音に関する聴感補正パワーをＬ_１α［ｉ，ｋ］と定義しておく。

（Ｂ）操作する帯域の制限
次に、ゲイン調整する帯域の制限について説明する。０Ｈｚに相当する周波数ビンの信号ゲインを操作すると、音の自然感が損なわれる場合がある。また、高い周波数の信号ゲインを操作すると、聴き取り易さ向上のメリットよりも耳障りな音の付加というデメリットが大きくなる場合がある。

そこで、優先音に対しては、ｆ_１Ｌ≦ｆ≦ｆ_１Ｈの範囲にある周波数ｆでのみα１［ｉ，ｋ］を更新する。この範囲は、周波数ビンｋの範囲で、ｋ_１Ｌ≦ｋ≦ｋ_１Ｈの範囲に相当する。ただし、
ｋ_１Ｌ＝ｒｄ（Ｎ_Ｆｆ_１Ｌ／Ｆ_ｓ）
ｋ_１Ｈ＝ｒｄ（Ｎ_Ｆｆ_１Ｈ／Ｆ_ｓ）
である。ここで、「ｒｄ（）」は最も近い整数への丸め関数（四捨五入関数）を意味する。

非優先音に対しても、同様に、ｆ_２Ｌ≦ｆ≦ｆ_２Ｈの範囲に限定してゲイン調整を行い、ｋ_２Ｌ≦ｋ≦ｋ_２Ｈを満たすα２［ｉ，ｋ］だけを増減させる。
（Ｃ）α１を増加するための条件
α１の増加、すなわちα１［ｉ，ｋ］＝（１＋Δ１）×α１［ｉ−１，ｋ］の演算を行うのは、式（２８）〜（３２）の条件がすべて満たされるときである。

式（２８）と式（２９）は、優先音と非優先音の双方が可聴であるときにのみ増加を行うことを規定している。式（３０）は、混合音の対数強度（パワー）が優先音と非優先音の対数強度の和を上回らないように働く（対数強度の和の原理）。式（３１）は、優先音に対するゲインを一定値（Ｔ_１Ｈ）以下に抑えるように働く。式（３２）は、単純加算の場合の混合と比較して、時間周波数平面の局所であってもパワーの上昇を一定限界（振幅比でＴ_Ｇ倍）以下に抑えるように働く（処理（３）の条件(a)）。

式（３０）〜（３２）に対しては、低ＳＮＲ判定時には補正をかけるのが望ましい。この補正は、Ｐ１を（ｂ_ｎ／ｂ_ｄ）Ｐ１に置き換えることによって優先音のレベルを上昇させたとみなすことによって行われる。
(Ｄ) α１を減少するための条件
α１の減少、すなわちα１［ｉ，ｋ］＝（１＋Δ１）^−１×α１［ｉ−１，ｋ］の演算を行うのは、式（３３）〜（３７）のいずれかが成り立ち、かつ式（３８）が成り立つときである。

式（３３）と式（３４）は、時間周波数平面上の点（ｉ，ｋ）において、優先音と非優先音の少なくとも一方が可聴レベルを満たさない場合は、優先音のゲインを戻すことを意図する。式（３５）は、混合音の対数強度が優先音と非優先音の対数強度の和を上回っている場合に、優先音のゲインを戻すように働く。式（３６）は、優先音に対するゲインα１があらかじめ設定された上限Ｔ_１Ｈを超えていたとき、その超過を解消する方向に働く（処理（３）の条件(b)）。式（３７）は、単純加算による混合音に所定の倍率（比率）Ｔ_Ｇを乗算したレベル（図６参照）を超える場合に優先音のゲインを戻す方向に働く。式（３８）は、優先音のゲイン値が１よりも大きいときにのみ減少させることを示す。

式（３３）〜（３６）は、式（２８）〜（３１）の否定である。一方、式（３７）は式（３２）の否定になっていない。式（３７）は、修正前に対する条件式であり、式（３２）は修正後に対する条件式であるという差異がある。この差異により、ゲインが振動することを抑制している。

このような減少操作によって、α１は増加の必要がないときには１に戻っていく。減少操作によってα１［ｉ，ｋ］＜１となってしまった場合は、１を強制代入することで、α１［ｉ，ｋ］＝１を回復させる。この回復操作がある場合は、式（３８）の条件は必ずしも必要ではないが、ソフトウエア実装の場合は、無駄な乗算時間の増大を防止するため、ＦＰＧＡ実装の場合は消費電力抑制のために、式（３８）の判定があったほうがよい。

α１の増加と減少の条件がどちらも満たされない場合は、値の保持、すなわちα１［ｉ，ｋ］＝α１［ｉ−１，ｋ］を行う。
（Ｅ）α２を減少するための条件
α２の減少、すなわちα２［ｉ，ｋ］＝α２［ｉ−１，ｋ］−Δ２の演算を行うのは、式（３９）と式（４０）の双方が満たされる場合である。

式（３９）は、優先音のパワー増加分を超えない量であれば、非優先音のパワーを減少させてもよいことを示す。式（４０）は、非優先音に対するゲインを一定値（Ｔ_２Ｌ）以上に保つように働く。
（Ｆ）α２を増加するための条件
α２の増加、すなわちα２［ｉ，ｋ］＝α２［ｉ−１，ｋ］＋Δ２の演算を行うのは、式（４１）と式（４２）の双方が満たされる場合である。

式（４１）は、この時点までに決定されたゲインα１［ｉ，ｋ］、α２［ｉ−１，ｋ］を用いると、優先音のパワー増加分よりも非優先音のパワー減少のほうがおおきくなってしまうことを示している。式（４１）は式（３９）の否定に近いが、式（４１）は修正前に対する条件式であるのに対し、式（３９）は修正後に対する条件式であるという差異がある。この差異によって、ゲインが振動することを防止する。

この操作により、α２は減少させる必要がないときは１に戻っていく。α２の増加によりα２［ｉ，ｋ］＞１となった場合は、１を強制代入することで、α２［ｉ，ｋ］＝１を回復する。

α２の増加と減少の条件がどちらも満たされない場合は、値の保持、すなわちα２［ｉ，ｋ］＝α２［ｉ−１，ｋ］を行う。
＜動作例＞
図１０は、実施形態のミキシング装置１の動作例を示す図である。２つの音源セット（セット１、セット２）を用意し、各音源セットで音声を優先音とし、楽器音を非優先音とした。図１０（Ａ）はブーストが効いていない場合の例、図１０（Ｂ）はブーストが効いている場合の例であり、ともに音源セット１を対象にしたものである。上述のように、優先音が有音であって、かつ低ＳＮＲのときにブースト処理が行われる。図１０（Ａ）と図１０（Ｂ）はともに、修正前の各種変量をプロットしている。

図中のＭＵＬは、ｂ_ｎＰ１・Ｐ２／ｂ_ｄ（ｂｎ／ｂｄはブーストレシオ）であり、ＰＬＵＳは、Ｔ_Ｇ ^２（ｂ_ｎＰ１＋ｂ_ｄＰ２）／ｂ_ｄである。図中のＬは、式（２３）で定義したミキシング出力の聴感補正パワーＬである。ＬをＭＵＬを超えない範囲でできるだけ大きくするというのが式（３０）の条件であり、ＬをＰＬＵＳを超えない範囲でできるだけ大きくするというのが式（３２）の条件である。

図１０（Ａ）と図１０（Ｂ）の双方で、ＭＵＬとＰＬＵＳの大小関係は周波数に依存しており、常にどちらかが高いということはない。このことから、式（３０）と式（３２）の条件は両方とも効いており、併用すべきであることがわかる。
＜発展例１＞
発展例１として、ゲインの平滑化による改良例を示す。上述した方法で、２つの音源セットのいずれに対しても良好な結果を得ることができたが、入力のＳＮＲが低い部分で混合音がやや聴き取りにくくなることがわかった。

その原因を探ったところ、優先音のゲインα１の上昇が穏やかすぎて必要な値が確保できていないためであるとわかった。これに対処するためにはゲイン増加のステップサイズΔ１を大きくすればよいが、Δ１を大きくすると、ゲインの推移やゲインの差分の推移に大きな不連続が生じるおそれがある。この場合、スペクトルの散逸（ノイズの発生）が起こってしまう。

そこで、発展例１では、以下のようにしてα１、α２を平滑化し、平滑化されたゲインβ１、β２を用いる。これによってゲイン調整のステップサイズΔ１、Δ２を１０倍以上に大きくしても、スペクトル散逸の問題を回避することができる。

ここで、ηは指数平滑化法の係数であり、平滑の時定数τ_αから式（４４）で導出する。

このようにして生成したβ１、β２は、上述した音源セット１、セット２のいずれに対しても良好なミキシング結果をもたらす。計算負荷や回路規模に支障がなければ、発展例１のゲインの平滑化を行うのが望ましい。

図１１は、音源セット２を用い、平滑化されたゲインβ１、β２でミキシングしたときのミキシング装置１の動作状態を示す。図１１で、横軸は時間、縦軸は周波数である。図１１（Ａ）は優先信号Ｘ１としての音声、図１１（Ｂ）は非優先信号Ｘ２としての音楽、図１１（Ｃ）は従来の単純加算によるミキシング結果（Ｘ１＋Ｘ２）、図１１（Ｄ）は実施形態のミキシング結果である。図１１（Ｅ）は優先信号の平滑化後のパワーＥ１、図１１（Ｆ）は非優先信号の平滑化後のパワーＥ２である（図３参照）。図１１（Ｇ）は聴感補正後のパワーＰ１、図１１（Ｈ）は聴感補正後のパワーＰ２（図４参照）を諧調表示したものである。

図１１（Ｇ）と図１１（Ｈ）において、淡い灰色の領域が０ｄＢ以上２０ｄＢ未満、黒色の領域が２０ｄＢ以上４０ｄＢ未満、濃い灰色の領域が４０ｄＢ以上の領域である。すなわち、聴感補正により可聴として取り扱われたのは、白色以外の領域である。図１１（Ｇ）で、線分ｅで示される領域が有音判定（ｅ［ｉ］）された領域、線分lで示される領域が低ＳＮＲ判定（l［ｉ］）された領域、線分ｂで示される領域がブースト判定（ｂ［ｉ］）された領域である。用いた音源セット２は、優先音のＳＮＲが低い音源セットであり、５秒以降の時間区間では、有音区間はすべてブースト処理の対象となっている。

図１１（Ｉ）は、発展例１で平滑化されたゲインβ１に基づいて作成された優先音のゲインマスクであり、β１の対数を濃淡表示した図である。白色が０ｄＢ、黒色が３５ｄＢに相当する。図１１（Ｊ）は、発展例１で平滑化されたゲインβ２に基づいて作成された非優先音のゲインマスクであり、β２の値を濃淡表示した図である。白色が１．０、黒色が０．０に相当する。

図１１（Ｉ）及び図１１（Ｊ）のゲインマスクを用いてゲイン調整した後に加算することによって、時間周波数平面でのきめ細かなミキシングが可能になる。従来法による図１１（Ｃ）では、低周波領域で非優先音（ギター）の成分しか見えないのに対し、図１１（Ｄ）では、優先音（音声）の成分が混ざりあっている。
＜発展例２＞
上述した実施形態では、演算量を低減するために、方程式を解くのではなく、不等式の真偽判定による逐次更新を行っている（処理（５））。特に、ＦＰＧＡの実装に際しては、極力処理を簡略化したい。そこで、７０ phonと２０ phonのラウドネス曲線を信号処理部１５にセットして、式（１０）〜（１２）により順次Ｃ_Ｌｐ［ｋ］、Ａ［ｋ］、Ｂ［ｋ］を導出する方法に替えて、最初からＢ［ｋ］を与える。たとえば出荷時に補正係数Ｂ［ｋ］（最小可聴パワーＡ［ｉ］の逆数）を定数テーブルとして与えておく。動作中に一時的に合理性を無視しても特に強い優先感を与えたくなったりしたなどの場合、Ｂ［ｋ］に強制的に任意の値を代入して自由に好みの特性を持たせることも可能である。

図１２は、図９（Ｂ）の等ラウドネス曲線を設定し、発展例２を適用したときの補正係数Ｂ［ｉ］の具体例を示す。図１２の場合、Ｂ［ｉ］をテーブルとして記憶する替わりに関数としてあらかじめ記憶しておいてもよい。
＜処理フロー＞
図１３Ａ及び図１３Ｂは、ミキシング装置１の信号処理部１５のゲイン決定部１５１で実行されるゲイン決定の処理の一例を示すフローである。この処理フローは、ゲインαを平滑化してゲインβを生成する発展例１に対応する。

まず、α１［ｋ］、α２［ｋ］、β１［ｋ］、β２［ｋ］をすべての周波数ビンｋについて「１」に初期化し、聴感補正総パワーＱ１＝０、Ｑ２＝０、ｉ＝０に設定して係数Ｂ［ｋ］を読み込む（Ｓ１１）。ｋ＝０から処理を開始し（Ｓ１２），平滑化パワーＥ１［ｉ，ｋ］、Ｅ２［ｉ，ｋ］を読み込んで（Ｓ１３）、聴感補正パワーＰ１［ｉ，ｋ］、Ｐ２［ｉ，ｋ］を求め（Ｓ１４）、聴感補正総パワーＱ１［ｉ］とＱ２［ｉ］を計算する（Ｓ１５）。ｋの値をインクリメントして（Ｓ１６）、ｋが周波数ビン数Ｎ_Ｈに達するまで（Ｓ１７でＮＯ）、Ｓ１３〜Ｓ１６を繰り返す。これは、周波数ビンｋについてのループの１回目のパスである。

ｋがＮ_Ｈを超えると（Ｓ１７でＹＥＳ）、有音判定結果ｅ［ｉ］、低ＳＮＲ判定結果l［ｉ］、ブースト判定結果ｂ［ｉ］、ブーストレシオの分子ｂ_ｎ［ｉ］、ブーストレシオの分母ｂ_ｄ［ｉ］を求めて（Ｓ１８）、ｋについてのループの２回目のパスの処理を開始する（Ｓ１９）。周波数ビンｋについて、優先音のｋがゲイン調整する最低ビンｋ_１Ｌと最高ビンｋ_１Ｈの範囲内にあるか否かを判断する（Ｓ２０）。範囲内にある場合に、平滑化パワーＥ１［ｉ，ｋ］、Ｅ２［ｉ，ｋ］を読み込み（Ｓ２１）、Ｐ１（優先音の聴感補正パワー），Ｐ２（非優先音の聴感補正パワー）、Ｌ１（更新前のゲインα１での優先音の聴感補正パワー）、Ｌ_１ｐ（優先音のゲインを増加させたときの聴感補正パワー）、Ｌ２（更新前のゲインα２での非優先音の聴感補正パワー）、Ｌ_２ｍ（非優先音のゲインをΔ２減少させたときの聴感補正パワー）、Ｌ（式（２３））、Ｌ_ｐ（式（２５））を求める（Ｓ２２）。

求めた値を用いて、式（２８）〜式（３２）のすべてが成立するか否か、すなわちα１を増加するか否かを判断する（Ｓ２３）。成立する場合に（Ｓ２３でＹＥＳ）、α１を増加し（Ｓ２４）、成立しない場合は（Ｓ２３でＮＯ）、α１を維持する。

次に、式（３３）〜式（３７）のいずれかが成立し、かつ式（３８）が成立するか否か、すなわちα１を減少するか否かを判断する（Ｓ２５）。Ｓ２５の条件が満たされない場合はα１を維持し、満たされる場合にα１を減少する（Ｓ２６）。さらに、減少後のα１が１未満か否かを判断する（Ｓ２７）。α１が１未満になった場合はα１を１に戻し（Ｓ２８）、α１が１以上であれば更新されたα１を維持する。

続いて、非優先音のｋがゲイン調整する最低ビンｋ_２Ｌと最高ビンｋ_２Ｈの範囲内にあるか否かを判断する（Ｓ２９）。範囲内にある場合に、Ｌ_１ａ（調整後のゲインα１を用いた場合の優先音に関する聴感補正パワー）を求め（Ｓ３０）、式（３９）と式（４０）が成立するか否か、すなわちα２を減少するか否かを判断する（Ｓ３１）。成立する場合に（Ｓ３１でＹＥＳ）、α２を減少し（Ｓ３２）、成立しない場合は（Ｓ３１でＮＯ）、α２を維持する。

次に、式（４１）と式（４２）が成立するか否か、すなわちα２を増加するか否かを判断する（Ｓ３３）。Ｓ３３の条件が満たされない場合はα２を維持し、満たされる場合にα２を増加する（Ｓ３４）。さらに、増加後のα２が１を超えるか否かを判断し（Ｓ３５）、１以下であれば増加後のα２を維持し、１を超える場合はα２を１に戻す（Ｓ３６）。

次に、式（４３）に基づき、α２とα１をそれぞれ平滑化してβ２とβ１を生成し（Ｓ３７及びＳ３８）、β１とα１を出力する（Ｓ３９）。その後、ｋをインクリメントして（Ｓ４０）、ｋがＮ_Ｈに達するまで（Ｓ４１でＮＯ）、Ｓ２０〜Ｓ４０を繰り返す。

ｋがＮ_Ｈを超えると（Ｓ４１でＹＥＳ）、時間ブロックｉをインクリメントして（Ｓ４２），最後の時間ブロックｉになるまで（Ｓ４３でＮＯ），Ｓ１２〜Ｓ４２を繰り返し、最後の時間ブロックｉの処理が終わったらプロセスを終了する。

図１３Ａ及び図１３Ｂの処理では、ブーストレシオの分子ｂ_ｎ［ｉ］と分母ｂ_ｄ［ｉ］を決定するために（Ｓ１８）、すべての周波数ビンｋについてＸ１［ｉ，ｋ］とＸ２［ｉ，ｋ］を参照しなければならない。一方、ゲインα１［ｋ］とα２［ｋ］の更新には、Ｘ１［ｉ，ｋ］とＸ２［ｉ，ｋ］だけではなく、ｂ_ｎ［ｉ］とｂ_ｄ［ｉ］が必要である。このため周波数ビンｋについてのループ処理を２回行わないと、ゲインを１回更新することができない。

そこで、図１４では、ブーストレシオだけは前回のサンプルで計算しておき、これを流用することによって、２パスの処理から１パスの処理へ軽減する。これにより、回路の簡素化や高速化が実現する。

図１４では、図１３Ａ及び図１３Ｂとの差分のみを説明する。Ｓ１１〜Ｓ１５で、初期化、必要なパラメータの読み込みと算出を行った後、Ｓ２０に飛んで、Ｓ２１〜Ｓ２８によるα１の調整と、Ｓ２９〜Ｓ３６によるα２の調整を行う。その後、調整後のα１、α２を平滑化してβ１、β２を求め、着目している時間ブロックｉについて処理範囲のすべての周波数ｋについてゲインを求める（Ｓ１３〜Ｓ４１の繰り返し）。その後、時間ブロックｉをインクリメントし（Ｓ４２）、ｅ［ｉ］、l［ｉ］、ｂ［ｉ］、ｂ_ｎ［ｉ］、ｂ_ｄ［ｉ］を求め（Ｓ５１）、これらのパラメータを次の時間ブロックｉ＝ｉ＋１の処理に用いる。

この簡略化について、優先音のＳＮＲが低い音源セット２について調べたところ、出力値は完全に同一ではないが、その差分は聴き取ることのできない微小なレベルであった。

以上述べた方法により、入力信号１と入力信号２のそれぞれにつき、合理的な判定基準に基づいて最適なゲイン値を決定することができる。また、加減算と乗算のみの演算による逐次更新により、演算量を大幅に低減することができる。

上述した信号処理部１５の処理は、ハードウエアによってもソフトウエアによっても実現することができる。信号処理部１５の処理により、入力信号をそのまま用いてミキシング処理を行い、自然な聴感で優先音を目立たせ（処理（１）の対数強度の和の原理）、非優先音を違和感なく抑制することができる（処理（２）の穴埋めの原理）。優先音と非優先音のゲインを決める規範が合理的に決められているため（処理（１）〜処理（３））、ユーザが音を聴きながらパラメータの調整をする必要はない。

非優先音に対して優先音のパワーが極端に小さい場合でも、優先音を目立たせることができる（処理（４））。たとえば、音楽にナレーションを重ねる場合に、ささやき声でも音楽に埋もれることなく聴き取らせることができる。

また、乗算と加減算だけでゲインを更新する手法により、ＦＰＧＡ上へのハードウエア実装が容易になる（処理（５））。また、ＤＡＷ上のプラグインとして実装し、リアルタイムに動作するミキシング装置が実現される。これは、逐次更新によって計算負荷を軽くしたことと、ゲインだけの調整で高性能のミキシングが可能になったためＦＦＴの点数を２５６点程度まで小さくできることから生じる効果である。

なお、優先音と非優先音のパワーの平滑化は必須ではなく、時間周波数平面上に展開された入力信号のパワーから直接ゲインα１、α２を求めてもよい。

上述したミキシング装置は、入力されたオーディオ信号を、合理的に決定されるゲインを用いて高速に自動合成できるため、レコーディングだけではなく、ニュース速報、カーナビゲーション、ディスクジョッキー、会議、カラオケ装置などに広く適用することができる。たとえば、番組を邪魔せずに緊急速報を報道する、カーステレオで音楽を流している場合でもカーナビゲーションの音声が聴こえやすい、ディスクジョッキーが音楽の音量を下げずにトークできる、会議時に司会者の声を際立たせる、伴奏に対してボーカル音を自動調整する、などである。

また、パソコンやスマートフォン等のユーザ端末装置にミキシングプログラムをインストールすることで、ユーザが所望の音楽をミキシングし、あるいは所望の画像に所望の音楽を重畳して、通信相手に送信することができる。受信側では、受け取ったデータに対してさらに音声を重畳して保存、あるいは返信することができる。

１ミキシング装置
１１信号入力部
１２周波数解析部
１５信号処理部
１６周波数時間変換部
１７信号出力部
１５１ゲイン決定部

Claims

時間領域の第１入力信号と第２入力信号をそれぞれ時間周波数平面上の第１信号と第２信号に展開する周波数解析部と、
前記第１信号と前記第２信号を混合した混合信号を生成する信号処理部と、
前記混合信号を時間領域の信号に変換する周波数時間変換部と、
前記変換された信号を出力する信号出力部と、
を有し、
前記信号処理部は、
前記時間周波数平面の各点ごとに、出力信号の対数強度が前記第１信号の対数強度と前記第２信号の対数強度の和を超えないという条件で決定されるゲインであって、前記第１信号のパワーを第１の方向に調整する第１ゲインと、前記第１信号のパワーの調整分を超えないという条件で決定されるゲインであって、前記第２信号のパワーを前記第１の方向と逆の第２の方向に変化させる第２ゲインとを決定するゲイン決定部と、
前記第１ゲインで調整された前記第１信号と前記第２ゲインで調整された前記第２信号を加算する加算部と、
を有することを特徴とするミキシング装置。
前記ゲイン決定部は、（ａ）前記第１信号と前記第２信号を単純加算したパワーの一定倍を超えないように前記第１ゲインの調整に第１上限を設定する、（ｂ）前記第１ゲインに固定的な第２上限を設ける、または（ｃ）前記第２ゲインに固定的な下限を設ける、の少なくとも１つの条件を追加し、前記追加された条件を満たす範囲で前記第１ゲインと前記第２ゲインを決定することを特徴とする請求項１に記載のミキシング装置。
前記ゲイン決定部は、前記第２信号のパワーに対する前記第１信号のパワーの比率が所定の比率以下である場合に、前記少なくとも１つの条件を緩和することを特徴とする請求項２に記載のミキシング装置。
前記ゲイン決定部は、前記第１信号のパワーと前記第２信号のパワーを、それぞれ聴力限界レベルを基準とする第１聴感補正パワーと第２聴感補正パワーに補正し、前記出力信号の対数強度が、前記第１聴感補正パワーの対数強度と前記第２聴感補正パワーの対数強度の和を超えない範囲で前記第１ゲイン及び前記第２ゲインを決定することを特徴とする請求項１に記載のミキシング装置。
前記ゲイン決定部は、前記第１ゲインを平滑化した第３ゲインと、前記第２ゲインを平滑化した第４ゲインを生成し、
前記加算部は、前記第３ゲインで調整された前記第１信号と、前記第４ゲインで調整された前記第２信号を加算することを特徴とする請求項１に記載のミキシング装置。
前記ゲイン決定部は、前記第１ゲインと前記第２ゲインを前記時間周波数平面上の各点について逐次更新することを特徴とする、請求項１〜５のいずれか１項に記載のミキシング装置。
前記第１入力信号はミキシング処理で優先的に明瞭化される優先音であり、前記第２入力信号は前記優先音以外の非優先音であることを特徴とする請求項１〜６のいずれか１項に記載のミキシング装置。
時間領域の第１入力信号と第２入力信号を受け取り、
前記第１入力信号と前記第２入力信号を、それぞれ時間周波数平面上の第１信号と第２信号に展開し、
前記時間周波数平面の各点ごとに、出力信号の対数強度が前記第１信号の対数強度と前記第２信号の対数強度の和を超えないという条件で決定されるゲインであって、前記第１信号のパワーを第１の方向に調整する第１ゲインと、前記第１信号のパワーの調整分を超えないという条件で決定されるゲインであって、前記第２信号のパワーを前記第１の方向と逆の第２の方向に変化させる第２ゲインとを決定し、
前記第１信号を前記第１ゲインで乗算した第１乗算結果と、前記第２信号を前記第２ゲインで乗算した第２乗算結果を加算して混合信号を生成し、
前記混合信号を時間領域の信号に変換して出力する、
ことを特徴とする信号ミキシング方法。
信号ミキシング処理をコンピュータに実行させるミキシングプログラムであって、前記コンピュータに、
時間領域の第１入力信号と第２入力信号を受け取らせる手順と、
前記第１入力信号と前記第２入力信号を、それぞれ時間周波数平面上の第１信号と第２信号に展開させる手順と、
前記時間周波数平面の各点ごとに、出力信号の対数強度が前記第１信号の対数強度と前記第２信号の対数強度の和を超えないという条件で決定されるゲインであって、前記第１信号のパワーを第１の方向に調整する第１ゲインと、前記第１信号のパワーの調整分を超えないという条件で決定されるゲインであって、前記第２信号のパワーを前記第１の方向と逆の第２の方向に変化させる第２ゲインとを決定させる手順と、
前記第１信号を前記第１ゲインで乗算した第１乗算結果と、前記第２信号を前記第２ゲインで乗算した第２乗算結果を加算して混合信号を生成させる手順と、
前記混合信号を時間領域の信号に変換して出力させる手順と、
を実行させることを特徴とするミキシングプログラム。