JP2008504783A

JP2008504783A - 音声信号のラウドネスを自動的に調整する方法及びシステム

Info

Publication number: JP2008504783A
Application number: JP2007518744A
Authority: JP
Inventors: ブルノタウルヴェ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-06-30
Filing date: 2005-06-13
Publication date: 2008-02-14
Also published as: EP1763923A1; CN1981433A; WO2006003536A1; US20080095385A1

Abstract

本発明は、音声信号のラウドネスを自動的に調整する方法であって、入力される前記音声信号（１）の標本に関するラウドネス尺度を計算するステップと、前記ラウドネス尺度の中で複数の個別のラウドネス線（Ｌ１、Ｌ２、Ｌ３、Ｌ４）を経時的に識別するステップと、調整されたラウドネスを出力音声信号（５）に与えるために、前記入力音声信号（１）の前記標本を前記識別されたラウドネス線（Ｌ１、Ｌ２、Ｌ３、Ｌ４）に従い変更するステップと、を有する方法を説明する。

Description

本発明は、音声信号のラウドネスを自動的に調整する方法に関する。

本発明は、更に、音声信号のラウドネスを自動的に調整するシステムに関する。

本発明は、更に、音声信号のラウドネスを調整する自動ラウドネス制御装置に関する。

自動レベル調整法又は自動等化法として既知である音声信号のラウドネスレベルを制御する試みにおいて、多数の方法が開発されてきた。自動レベル調整タスクを実行すると主張する既存の自動レベル調整機能は、音声信号の無音部分のラウドネスを増加させ、当該信号の耳障りな部分のラウドネスを減らするために圧縮／拡張アルゴリズムを用いる。これらのアルゴリズムは、通常、音楽の音声波形のその瞬間の振幅を見て、適切なゲインの値を出力に供給することによって超過な又は不十分なラウドネスを補償するために、前記振幅を修正する。例えば、米国特許第5892834号は、自動車環境におけるＣＤプレーヤの出力のラウドネスを制限する方法を提案し、それによると、音声信号のその瞬間の振幅は、特定のしきい値を超えるかを確認するために検査される。前記しきい値が超える場合、音声信号の振幅は、修正された出力信号を与えるために減衰される。

しかし、ゲイン増加すなわちリリース時間（ゲインを目標レベルへと増加させる又は減少させるのに係る時間）の選択は、それ自体の問題が伴う。短いゲイン増加すなわちリリース時間を用いることは、通常、低及び高ゲインレベル間における急激なスイッチングの結果として生じる「ポンプ効果」になる。ポンプ効果は、著しい音量減少が後に続く音量の過渡成分を有する出力信号を生じさせ、聞くのに不快である信号になる。より長いゲイン増加時間を用いることは、ある程度当該ポンプ効果を低減するが、ゲイン調整機能の性能は、このことが出力信号のボリュームを効果的に増幅させる又は減衰させるのに長すぎる時間を掛けるので、結果として低減される。どちらの場合においても、生じる出力信号は、生じる歪みのせいで聞くことが不快である。

したがって、本発明の目的は、音声信号のラウドネスのレベルを、当該音声信号の性質を保持する一方で、特に当該信号を歪ませることなく自動的に等化させるのに用いられ得る方法及びシステムを提供することである。

この目的を果たすために、本発明は、音声信号のラウドネスを自動的に調整する方法であって、入力される前記音声信号の標本に関するラウドネス尺度を計算するステップと、前記ラウドネス尺度の中で経時的に複数の個別のラウドネス線を識別するステップと、調整されたラウドネスを出力音声信号に与えるために、前記入力音声信号の前記標本を前記識別されたラウドネス線に従い変更するステップと、を有する方法を提供する。

これによると、「ラウドネス線」は、ある部分では音の大きさが増し、他の部分では静かになり、更に他の部分では本質的に一定なラウドネスを維持して、経時的に通常変化し得る音声信号のラウドネスにおける持続時間及び変化率などのラウドネス傾向の特性を記述する方法の１つである。音が大きさが増す、静かになる又は同一の状態を維持するこれらの傾向は、音声信号が従う傾向として記述される。

音声信号のラウドネスの自動調整に関する適切なシステムは、入力音声信号の標本に関するラウドネス尺度を計算する計算ユニットと、前記ラウドネス尺度の中で複数の個別のラウドネス線を識別する識別ユニットと、出力音声信号に調整されたラウドネスを与えるために、前記識別されたラウドネス線に従い前記音声信号の標本を変換する変換ユニットと、を備える。

当該方法及び当該システムは、斯様にして、音声信号のラウドネスのレベルを自動的に調整し、聴取者に本質的に一貫したラウドネスの歪みのない音声信号を与え、該聴取者がラウドネスを手動で調整する必要性を取り除く簡単な方法を与える。本発明は、音声信号により従われるラウドネスの傾向を識別し、当該音声信号のラウドネスを適宜調整するので、当該調整された出力信号は、既存の方法を特徴付けるいかなる不所望なポンプ効果もない。例えば、音楽及びラジオ、又はテレビ番組を聴取する経験は、番組、コマーシャル又は音楽の一部などの間において音を発せられるラウドネス変化の不快な効果が減少させられ、ラウドネスの全体レベルは本質的に一定を維持するので、本発明により相当改善される。例えばヘッドセット又はインイヤーモニタなどの他のアプリケーションにおいて、当該自動ラウドネス調整は、音声信号のラウドネスをすばやく自動的に調整するのに用いられ得、これにより、前記ラウドネスは特定のしきい値を越えず、聴取者が過大音量信号の結果としての聴取の害を被らないことを保証する。

従属項及び後続の説明は、本発明の特に有利な実施例及び特徴を開示する。

「音声信号」は、例えばアンテナ又は衛星受信機などの好ましくはデジタルのいかなる音声信号ソース、又はラジオ、テレビ、若しくはスピーカなどの装置へ入力される音声、又は音楽データファイル、又はＭＰ３音楽ファイルなど、から生じ得るいかなる信号でもあり得る。当該音声信号は、マイクなどのアナログソールからも生じ得、通常の方法で標本化することによって更に処理するのに適したデジタル形式に後に変換され得る。

ラウドネスは、人間の耳によって知覚される物理的音圧レベルに関する主観的な尺度(measure)である。研究は、ラウドネスの人間の知覚をモデル化する幾つかの複雑な数学的方法に終わったが、これらの方法は、実行するのにかなり時間集約的であり、ゆえに、これらは、実時間状況におけるアプリケーションに関して不適切である。したがって、本発明の好ましい実施例において、ラウドネスが音のエネルギに強く関連し、これにより、計算するのが比較的簡単である音声信号のエネルギの尺度が、より複雑な数学的モデルの代わりに用いられるという事実が利用される。本発明の特に好ましい実施例において、デジタル入力信号の標本の振幅を用いて計算される二乗平均平方根（ＲＭＳ）値がラウドネス知覚に関して代表的数学モデルとして用いられる。複数の連続的標本に関して計算されるＲＭＳ値は、斯様にして、これらの標本に関する代表的ラウドネス尺度である。この種類の計算において、標本の振幅の絶対値が用いられる。ＲＭＳ計算に加えて又は代えて、標本の絶対値が、ラウドネス尺度として直接的に用いられ得る。この場合、低域通過フィルタが、入力信号の動的な振る舞いを平滑化するために、好ましくは、絶対値計算の後に続く。

時間が経過するにしたがい、計算されるラウドネス尺度の数は増加する。これらのラウドネス尺度が時間に対してプロットされる場合、これらは、クラスタ又は群を形成し得る。１つの群は、隣接する群に合流し得るか、又は隣接する群から明確に個別なものであり得る。本発明の方法は、好ましくは、ラウドネス尺度の群のそれぞれに関する個別の傾向又はラウドネス線を識別する。ラウドネス尺度の群は、ラウドネスに基づき互いに区別され得る音声信号の区分に対応する。例えば、ラウドネス尺度の群は、大きさの増加又は減少の傾向に従い得るか、経時的に多少は一定であり得るか、又は近隣よりも著しく高く又は低く位置され得る。また好ましい実施例において、新しい群は、ユーザが特定の種類の動作を実行すると直ちに確立され得、前記動作は、例えば、テレビのチャネルを切り替えることによるか、ノブを回すことにより若しくはリモコンの適切なボタンを押下することにより音量を手動で変化させることによるか、又はＭＰ３プレーヤなどの音声聴取装置において別の曲に切り替えることによる、ラウドネスの即時の変化によって通常伴われる。

本発明の方法は、例えば適切な標本のゲインを調整するなどによって音声信号のラウドネスを調整するために、ラウドネス線の特性を解釈することによって得られる情報を適用する。必要なゲイン調整の程度を決定するために、ラウドネスの参照レベルは、所定であるか、又はユーザによって特定され得る。例えば、特定の聴取者は、ラウドネスの全体レベルを比較的静かにしたいと望み得る一方で、他の聴取者は、音の大きい音量が時間に渡り維持されることを好み得る。最大ラウドネスレベル及び／又は最低ラウドネスレベルが規定されるか、又はラウドネスの平均全体レベルを規定することで十分であり得る。

所望のラウドネスの出力音声信号を与えるために入力音声信号の標本にどの調整が行われるべきかを決定するために、本発明は、傾き及び相対位置などのラウドネス線の特性を決定する。例えば、急勾配に上昇する又は以前のラウドネス線よりも高く位置されるラウドネス線は、入力信号のラウドネスの全体レベルが上昇したことを示し得る。この群に関する標本の振幅は、出力音声信号の対応する部分のラウドネスが減衰されるように調整される。同様に、入力音声信号の一部に関するラウドネス線が最低所望ラウドネスレベルより下であると識別された場合、対応する標本は、出力音声信号のラウドネスがその部分に亘り増加されるように増幅される。

音声標本の減衰又は増幅は、ラウドネス線の傾きを保存し得、又はこれを補償し得る。例えば、ラウドネス線が、対応する群が、減少するラウドネスでもある一方で、音が大きすぎると示す場合、対応する標本は、同じ量だけ全て減衰され得、これにより、減少するラウドネスが出力音声信号において反映されるか、ゲインがより小さい値だけ減衰され得、これにより、出力音声信号は、対応する部分に亘り比較的一定のラウドネスのレベルを維持する。

本発明の好ましい実施例において、ラウドネス尺度は、その値がある群に関する許容値の所定のマージンにある場合、当該群に属するとして識別される。この許容値のマージンは、一定値であり得るか、又はユーザによって設定され得る。許容値の低いマージンは、より多くの数の識別される個別のラウドネス線になり得る一方で、より許容値の高いマージンは、識別されるラウドネス線の全体数を低減し得る。許容値のマージンは、したがって、低いマージンが、出力音声信号への対応するより多くの数の調整になり得るので、当該システムの性能の品質の尺度としてみなされ得る。

多数の既知の方法がラウドネス尺度の群に関するラウドネス線を計算するのに適用され得る。前記ラウドネス線は、直線である必要は必ずしもないが、群の傾向に最も一致する２次又はそれ以上のオーダの曲線に等しくあり得る。しかし、より簡単な方法がより速い計算を可能にするので、本発明の好ましい実施例は、連続するラウドネス尺度の群内において個別のラウドネス線を識別するために、群のラウドネス尺度に線形補間又は平均計算の技法を適用する。

本発明は、テレビ音声出力信号又はインイヤーモニタ信号のラウドネスを自動的に調整するような実時間状況において適用され得る。しかし、本発明は、事前走査音声信号にも適用され得、これにより、必要なゲイン調整値は、当該音声信号を聞く前に計算され得る。

事前走査モードにおける本発明の使用は、その結果が直ちに利用可能である必要がないので、高いレベルの計算的正確性を可能にする。斯様なアプリケーションの１つの例は、例えば、携帯型記憶装置、計算機、又は携帯型オーディオ装置において記憶される音楽コレクションにおける多数の曲になされるべきゲイン調整を事前に計算することであり得、これにより、全体のラウドネスレベルが曲の再生において維持される。別の例において、テレビ録画の音声コンテンツのラウドネスになされるべきゲイン調整は、聴取者が後日当該録画を見る時に、既定の全体ラウドネスレベルを享受することが可能であるように、事前に計算され得る。

ゲイン調整の値は、これらゲイン調整値を適用するのに必要とされる情報の全てとともに、音声情報とともに、又は別個のデータファイルにおいて、記憶され得る。例えば、ゲイン調整の値及びいかなる関連する情報も、後の時間における適用に関して適した形式で、ＭＰ３音楽ファイルのヘッダ又はＭＰ３ストリーム自体に記憶され得る。代替的に、ゲイン調整の値及びいかなる関連する情報も、これらが適用されるべき音声ファイルに特定の方法でリンクされて、別個のファイルに記憶され得る。

本発明の更なる実施例において、ゲイン調整値は、入力音声信号の標本に直接適用され得、修正された音声ファイルに記憶され得る。当該入力音声信号が音声ファイルから生じる場合、この音声ファイルは、変更されないままにあるか、又は前記修正された音声ファイルによって置換され得る。

自動ラウドネス調整に関するシステムは、ラウドネス調整目的のみに関するスタンドアローン装置であり、且つ例えば、衛星受信機又はセットトップボックスとテレビ音量の自動調整用のスピーカとの間などに位置され得る、いかなる音声処理装置においても実現され得る。この場合、音声処理装置は、音声信号に関するライン入力と、好ましくはデジタルである信号処理を前記音声信号に実行する手段とを有するいかなる装置であるように理解される。等しくは、自動ラウドネス調整に関するシステムは、例えば、上述の装置、電話、ウォークマン、インイヤーモニタ、又はスピーカ若しくは出力を備えるいかなる種類の装置のうちの１つにおいて、当該システムがユーザに関して均等なラウドネスレベルを自動的に保障する別の装置の一部として組み込まれ得る。

更なる実施において、当該自動ラウドネス調整システムは、ラウドネス調整信号及び／又はラウドネス調整を記述する情報を内部又は外部メモリに記憶する手段をも特徴とし得る。したがって、「自動ラウドネス調整システム」は、いかなる所要のラウドネス調整も計算するために、音声入力信号を処理し得、また所望の出力信号を与えるためにこれらの調整を適用し得、及び／又は当該情報をメモリ記憶装置に記憶するシステムとして理解されるべきである。

例えば、好ましいアプリケーションにおいて、自動ラウドネス調整システムは、カーラジオに組み込まれ得、これにより、ラジオ局の音量は、異なる放送地域に亘り局を自動的に変更する場合にも、比較的一定のレベルに維持する。別の実施例において、斯様な自動ラウドネス調整システムは、電話に組み込まれ得、これにより、スピーカを介した出力のラウドネスは、所望のしきい値を超えず、当該電話を使用する者が、いらつかせしばしば不快であるもう一方の側における非常にうるさいスピーカの効果、及び保留にされる場合のうるさい音楽にさらされないことを保障する。多くのユーザによって理解され得るアプリケーションの１つは、斯様なラウドネス調整装置をテレビと組み合わせての使用であり、これにより、コマーシャルのラウドネスが、もはや、先行及び後続の番組コンテンツのラウドネスを越えないようになる。

本発明による自動ラウドネス調整に関するシステム、又は斯様なシステムを備える音声処理装置は、ソフトウェアモジュール又は計算機プログラム製品を実施化することによって上述の処理ステップの幾つかを実行し得る。斯様な計算機プログラム製品は、家庭用hi-fiシステム、ＰＣ、電話又はウォークマンなどにおいて見受けられ得るプログラム可能な音声処理装置のメモリに直接ロード可能であり得る。入力音声信号をバッファし、ＲＭＳ値を計算し、群平均を計算し、そして調整値をフィルタ処理するユニットの幾つかは、これにより、計算機プログラム製品の形式で実現され得る。いかなる所要のソフトウェア又はアルゴリズムもハードウェア装置の処理器で符号化され得るので、既存の音声処理装置は、本発明の特徴から利益を得るように容易に適合され得る。代替的に、記載のユニットのいくつかは、適切である場合、ハードウェアモジュールを用いることによって、同等に実現され得る。

当該音声信号、及びそれに関連するラウドネス線、並びに／又はゲイン調整値は、本発明に従いメモリ装置に記憶され得る。斯様なメモリ装置は、例えばＣＤ，ハードディスク、ＤＶＤ、又はメモリースティックなどであり得る。当該ラウドネス線及び／又はゲイン調整値は、データファイルに音声信号とともに組み込まれ得るか、又はメモリの個別のセクタ又はブロックに記憶され得る。この場合、音声信号を可聴音声に再生するのに最終的に用いられる音声処理装置は、ラウドネス尺度を計算する計算ユニットと、ラウドネス線を識別する識別ユニットとを備える必要はない。この音声処理装置は、メモリから先行して計算されたラウドネス線及び／又は音声信号に関連付けられたゲイン調整値を取得し、スピーカに修正された信号を渡す前に、当該音声信号を適用することで十分である。

本発明の他の目的及び特徴が添付の図を組み合わせて考慮された以下の詳細な説明から明らかになる。しかし、当該図が、本発明の制限の規定としてではなく、例証の目的のためのみに設計されていることを理解されるべきである。

以下の図面の記載において、同様の参照符号は同様のオブジェクトを参照する。

図１は、音声信号のラウドネスの自動調整に関するシステム６の簡単なブロック図を示し、調整されたラウドネスを音声出力信号５に与えるための、前記入力される音声信号１を分析することに関わる基本的なステップを例証する。入力音声信号１は、受信器又はデータベースなどのソース９から生じ得、標本化されたデジタルの形式である。出力音声信号５は、スピーカ１０へ転送され得るか、後の時間における再生のためにデータベース１１に記憶され得る。

最初の処理ステップにおいて、計算ユニット２は、入力音声信号１の標本に関するラウドネス尺度を計算する。前記ラウドネス尺度は、本質的に、システム６が実時間状況で使用されている場合次々に計算されるか、又は当該システムが事前走査アプリケーションで使用されている場合並列に又はバッチモードで計算され得る。

この実施例において、ＲＭＳ（二乗平均平方根）が、

に従い入力音声信号１の標本に関して計算され、ここで、
x_iは、ｉ番目の振幅であり、
Nは、ＲＭＳが計算される標本の数である。

全てのｘ_ｉの平均である

は、

によって与えられる。

Nの値は、前記入力信号の標本をバッファするのに用いられるバッファの大きさと、前記音声信号の標本レートによって決定される。例えば、0.1sのバッファと44100Hzの標本レートとに関しては、Nは、4410になり得る。Nに関する一般式は、
N=F_s・BL
であり、ここで、
F_sは、ヘルツ（Ｈｚ）で表現される標本レートであり、
BLは、秒で表される当該バッファのサイズである。

ＤＣバイアスのない（音楽のような）通常の音声信号に関して、数式２における平均値

は、０であり、これにより、式は、数式１により与えられるように、このＲＭＳ値に関して考慮されるN個の標本に関する振幅 x_iの二乗された値の全てを合計し、当該合計の二乗平均を取り、これを標本の数Nで割ることに減らされる。

例証の目的のために、ＲＭＳ値は、図２において時間に対してプロットされて示される。当該グラフにおける各点は、複数の標本の振幅を用いて計算された１つのＲＭＳ値を表現する。前記点は、クラスタすなわち群G₁, G₂, G₃, G₄を形成することが明白に確認され得る。当該群G₁, G₂, G₃, G₄は、群G₁及びG₂、のように互いに明確に分離してあり得るか、又はG₃及びG₄のように、１つの群が、別の群へと導き得る。

ＲＭＳ値は、後に続く識別ユニット３へと転送され、当該識別ユニット３は、現在のＲＭＳ値が以前のものに十分近いかを決定するために、各ＲＭＳ値の以前のＲＭＳ値との関係を検査する。この目的を果たすために、識別ユニット３は、現在のＲＭＳ値を先に計算された平均値と比較する。Cmが現在の群G₁, G₂, G₃, G₄の現在の平均値を表し、Crが許容値の幅すなわち許容偏差である場合、当該決定は、不等式

を確認することに帰着する。

現在のＲＭＳ値がこの不等式を満たす場合、この値は、群G₁, G₂, G₃, G₄に含まれ、群G₁, G₂, G₃, G₄の平均値Cmは適宜更新される。

代替的に、Cmは、群G₁, G₂, G₃, G₄の既存の傾向に基づき、次に予想されるＲＭＳ値も表現し得る。

線形補間すなわち平均計算の適切な技法を適用することによって、識別ユニット３は、現在の群G₁, G₂, G₃, G₄に関する「ラウドネス線」L₁, L₂, L₃, L₄を計算する。図２のグラフにおいて点のクラスタにより描画される直線として示される現在の群G₁, G₂, G₃, G₄に関する「ラウドネス線」L₁, L₂, L₃, L₄は、経時的に音声信号１のラウドネスによって取られた傾向の線形表示である。当該ラウドネス線の傾きは、音声信号１がより静かになるか若しくはうるさくなっていくか、又は音声信号１のラウドネスのレベルが維持されるかを示す。ラウドネス線yに関する数式は、

として表現され得、ここで、
bは、群の開始におけるゲイン(dB)であり、
aは、ラウドネスの傾き、すなわち毎秒のゲインの変化(dB/s)であり、
tは、時間の尺度(s)である。

この信号１に関するラウドネス線L₁, L₂, L₃, L₄が識別されると、変換ユニット４は、音声信号１の標本を変換するためにこの情報を適用し得る。当該システムが実時間アプリケーションで運用される場合、当該変換ユニットは、前記音声信号の標本に調整を実施する。事前走査モードにおいて、変換ユニット４は、全てのラウドネス線が計算された後に、いかなる調整をも初めに実行し得る。変換ユニット４は、出力音声信号５の全体に亘り所定のラウドネスレベルを維持するために、各標本に適用されるべきゲインを計算する。経時的に適用されるべきゲインは、以下の数式

によって計算され、ここで、
gは、補間されたゲイン値(dB)であり、
LTは、しきい値(通常10dB)である。

図３ａは、入力音声信号１を示し、当該信号の全体ラウドネスにおける経時的な変動を特に示している。点線は、所望の全体ラウドネスレベルLを示す。当該音声信号の一部がこのレベルLから相当変動することは明らかである。

システム６において、音声信号１を処理し、出力音声信号５の標本に関するゲインを調整した後に、生じる音声信号５は、図３ｂに示されるように現れる。ここにおいて、当該適用される調整は、音声信号波形に重ねされる異なる傾きの直線A₁, A₂, A₃, A₄として示され、当該信号の振幅への対応する調整が確認され得る。調整された音声出力信号５は、その全体の特性形状を維持するが、この信号５のラウドネスの変動は、入力音声信号１においてあるようには音を発せられない。

実際のアプリケーションは、図４のブロック図に示され、自動ラウドネス調整に関するシステム６は、デバイス７に組み込まれる。テレビ信号１５は、受信器９を介して受信され、スプリッタ１４に転送され、そこで音声信号１は抽出される。音声信号１は、自動ラウドネス調整装置７に渡され、当該装置は、時間に渡って調整されるラウドネスレベルを出力音声信号５に与える上述のステップを実行する。当該出力音声信号の所望のラウドネスレベルは、当該図に示されないユーザによって、例えばリモートコントロールなどの通常のユーザインターフェイスを用いて識別され得る。調整された音声出力信号５は、その後、スピーカ１０で当該ユーザに再生される。スピーカ１０は、テレビセット８に組み込まれ得るか、又はテレビセット８から分離されてもよい。スプリッタ１４によって抽出されるいかなるビデオ信号も、自動ラウドネス調整装置７で生じされるいかなる遅延をも補償するために、遅延されたビデオ信号１６としてテレビ８へ転送される前に、遅延ユニット１７で遅延され得る。このアプリケーションは、番組とコマーシャルとの間をスイッチングする場合に通常生じるラウドネスレベルを等化するのに特に有用であり得る。前記等化ラウドネスレベルは、別の場合、音の大きい音響効果及び音楽サウンドトラックを特徴とする映画における比較的静かな会話を理解するのに困難を有し得るユーザによっても理解され得る。この状況において、自動ラウドネス調整装置７は、所望である場合音響効果又は音楽のラウドネスのレベルを低減する一方で、会話の静かな部分に関するラウドネスを自動的に増加させる。当該ユーザは、自身で音量を絶えず調整する必要がなく映画を単純に楽しむことが可能である。

自動ラウドネス調整に含まれる処理ステップをより詳細に例証するフローチャートが図５〜７に示される。当該フローチャートは、特定の処理ステップが実行され得るユニットをはっきりと見えるようにもしている。

図５は、入力音声信号１の実時間処理に含まれるステップを示す。初めに、入力信号１は、ＲＭＳ値の計算が複数の以前の標本を必要とするので、入力バッファ２０にバッファされる（0.1s以下の大きさのオーダ）。後に続く計算ユニット２は、前記標本に関するＲＭＳ値を計算し、識別ユニット３に位置されるブロック２１において当該値を実際の群平均と比較する。前記群平均は、例えば0.5などの定数によって初期化されるが、いかなる実正数値でも本質的にあり得る。ブロック２１は、新しいＲＭＳ値を実際の群平均と比較する。当該新しいＲＭＳ値が前記群平均に十分に近くない場合、このことは、新しい群が形成され得ること、すなわち音声信号１のラウドネスが顕著に音が大きく又は静かになっているかもしれないことを暗示する。決定ブロック２２は、以前のＲＭＳ値が記憶されてあるか否かを見るために確認する。否である場合、新しいＲＭＳ値が記憶され、そうでない場合、新しい群が群平均を計算するために記憶された及び新しいＲＭＳの値を用いて形成され、ブロック２８に記憶される。この群平均は、この場合、新しい郡の平均値である。次のＲＭＳ値が計算され、ブロック２１においてこの群平均と比較される。このＲＭＳ値が前記平均に近く、且つ何の以前のＲＭＳ値も記憶されてなかった場合、当該群平均は、ブロック２７において更新される。ブロック２６で確認されるＲＭＳの以前の値が記憶されていた場合、このことは、１つの記憶されている値が群平均からかなり外れていたが、しかしそれにもかかわらず新しい群が確立されていないことを意味する。前記記憶された値は、この場合、新しいＲＭＳとともに、ブロック２７における群平均の計算においても考慮される。当該更新された群平均は、ブロック２８に記憶される。
当該継続的に更新される群平均値は、各群に関してラウドネス線L₁, L₂, L₃, L₄の傾きを与える。変換ユニット４は、所望な全体のラウドネスレベルLからラウドネスのいかなる変動も補償するのに必要とされる音声ゲイン調整をブロック２９において計算するために、この情報を用いる。

前記ゲイン調整は、例えば、0.1の正規化されたカットオフ周波数を有する第１オーダの低域通過フィルタ１２などの低域通過フィルタ１２を用いて平滑化される。通常、改善された聴取品質を与える低カットオフ周波数と、所要の遅延の長さ１３との間にトレードオフがなされなければならず、すなわち、フィルタ１２のカットオフ周波数が低い程、経時的なゲインは平滑になるが、より長い遅延１３が結果として必要とされる。実時間アプリケーションにおいて、遅延が可能な限り小さく保たれるべきである場合、低域通過フィルタ１２のカットオフ周波数は、適宜選択される。しかし、システム６が必要なフィルタ処理を実行するのに必要とする時間において入力信号１をバッファし得る事前走査アプリケーションにおいて、カットオフ周波数の満足できる値は、出力音声信号において平滑なゲイン変化を与えるように選択され得、これにより、最適な聴取経験が保証され得る。

当該音声ゲイン調整を計算することは特定の時間を必要とするので、入力音声信号は、しばらくの間、一連のバッファによりブロック１３においてバッファされる。変換ユニットがその音声ゲイン調整を準備出来る状態にある場合、バッファブロック１３の出力は、音声出力信号５に調整されたラウドネスレベルを与えるために、乗算ブロック３０において、平滑化されたゲインを用いて乗算される。出力音声信号は、その後、スピーカ１０へと向けられる。

図６に示される事前走査アプリケーションにおいて、入力音声信号１は、音声遅延がもはや問題ではないので、より長い時間においてバッファされ得る。この場合、バッファ２０は、２秒又はそれ以上の大きさのオーダであり得る。ＲＭＳ値は、計算ユニット２において計算され、動作が図５に記載されている識別ユニット３の第１決定ブロック２１に転送される。ブロック２５のみが、新しい群が識別された場合に、古い群と新しい群との間の移行点を位置特定する処理が初期化される点において異なる。この処理は、以下により詳細に個別に説明される。

このフローチャートにおける変換ユニット４は、音声ゲイン調整をファイル又はデータベース１１に記憶する前にこれらの音声ゲイン調整を計算するのみである点において、上述のものとは異なる。平滑化された音声ゲイン調整３１を有する音声入力ファイル１の標本の実際の乗算は、後の時間に行われ得る。当然、このフローチャートに示されない状況において、適するように遅延された入力音声信号１の乗算は、その後ファイルに記憶され得る全体的に調整された音声出力信号を与えるために、当該音声ゲイン調整を平滑化した後で行われ得ることも実現可能である。

事前走査モードにおいて音声ファイル１を処理するのにより多くの時間が利用可能なので、このことが、群の対の間における移行をより正確性をもって位置特定することによってシステム６の性能を向上させるために利用され得る。このことは、音声信号のラウドネスが急激に音が大きい場合と静かな場合との間で変化する場合に特に重要である。というのも、音が大きい部分の開始部又は終了部をカットオフすること、又は静かな部分の開始部又は終了部を不必要に増幅することが不所望であるからである。図７におけるフローチャートは、この改善の処理を例証する。時間t₁及びt₂の間における音声入力信号１の抽出は、例えば0.1秒などの比較的小さいバッファを用いてバッファされる。古い群の最後のＲＭＳになるバッファの開始時間は、t₁によって与えられる一方で、t₂は、新しい群の最初のＲＭＳになるバッファの終了時間である。当該検索は、この場合、より小さいバッファ２０を用いることによって改善され、これにより、より大きい数の標本が新しいＲＭＳ値を計算するのに用いられる。当該識別ユニットは、ブロック２５’の例外があるが、上述のものと非常に同じに動作する。

ＲＭＳ値は、前記のように計算され、時間t1で開始し、以前の群の群平均に沿って継続し、継続的にブロック２１、２４、２６、２７及び２８を用いて群平均を更新する。結果的に、以前の群の群平均から外れているＲＭＳ値は、ブロック２１によって識別され、ブロック２３に記憶される。以前の群の群平均から外れているＲＭＳの後続の値がブロック２１及び２２によって識別される場合、その場合、ブロック２５’は、当該移行時間が以前の記憶されたＲＭＳの値を計算するのに用いられる標本のブロックの開始時間によって与えられることを報告し得る。斯様にして正確に示される当該情報は、正確な音声ゲイン調整を与えるために変換ユニット４において用いられ得る。

本発明は、好ましい実施例及び変形態様の形式で開示されているが、本発明の範囲から逸脱することなく多数の追加的な修正態様及び変更態様がされ得ることを理解され得る。例えば、入力音声信号の標本は直列に処理され得、すなわち、ラウドネスの尺度は、実時間状況における方法を適用する場合のように、連続的な標本に関して計算される。

ゲイン調整の値は、ラウドネス線(L₁, L₂, L₃, L₄)を分析することによって導出されたゲイン調整関数を用いることによって生成され得ることを言及されるべきである。

明瞭性のために、本願における単数形の使用は、複数形を排除せず、「有する」なる語句は、他のステップ又は要素を排除しないことも理解されるべきである。「ユニット」なる語句は、単一の実体として明白に述べられなければ、複数のブロック又は装置を有し得る。

図１は、本発明の実施例による自動ラウドネス調整用のシステムのブロック図である。図２は、時間に対してプロットされたラウドネス尺度のグラフを示す。図３ａは、時間に対してプロットされた振幅を用いた、音声信号のグラフを示す。図３ｂは、時間に対してプロットされた振幅を用いた、調整された音声信号のグラフを示す。図４は、本発明の実施例による自動ラウドネス調整用のシステムを用いたアプリケーションを示すブロック図である。図５は、音声信号の実時間処理の方法におけるステップを示すフローチャートである。図６は、音声信号の事前処理の方法におけるステップを示すフローチャートである。図７は、音声信号の事前処理における移行時間を決定する方法におけるステップを示すフローチャートである。

Claims

音声信号のラウドネスを自動的に調整する方法であって、
入力される前記音声信号の標本に関するラウドネス尺度を計算するステップと、
前記ラウドネス尺度の中で複数の個別のラウドネス線を経時的に識別するステップと、
調整されたラウドネスを出力音声信号に与えるために、前記識別されたラウドネス線に従い前記入力音声信号の前記標本を変更するステップと、
を有する方法。
個別のラウドネス線が、連続するラウドネス尺度の群内で識別され、これらの値のそれぞれが、この群に関する所定の許容幅内にある、請求項１に記載の方法。
前記入力音声信号の前記標本が、所定のラウドネスレベルからの、連続するラウドネス尺度の群の前記ラウドネス線の偏差を補償するために変更される、請求項２に記載の方法。
個別のラウドネス線が、連続するラウドネス尺度の群内で、前記群の前記ラウドネス尺度に対して線形若しくは高次補間法、又は平均値計算法を適用することによって識別される、請求項２又は３に記載の方法。
各標本に関するゲイン調整の値が、ラウドネス尺度の対応する群の当該ラウドネス線を用いて計算される、請求項２ないし４の何れか一項に記載の方法。
前記入力音声信号の標本に関する前記ラウドネス尺度が、二乗平均平方根計算法を前記入力標本に実行することによって計算される、請求項１ないし５の何れか一項に記載の方法。
調整されたラウドネスを有する前記音声出力信号が、音声ファイルに記憶される、請求項１ないし６の何れか一項に記載の方法。
将来の自動ラウドネス調整に関する音声信号を準備する方法であって、ラウドネス線及び任意追加的にゲイン調整値が、請求項１ないし６の何れか一項に記載の方法を用いて前記入力される音声信号に関して識別され、前記識別されたラウドネス線及び／又は対応するゲイン調整値を記述する情報が、後の時間における適用に関して適した形式で記憶される方法。
前記識別されたラウドネス線及び／又はゲイン調整値を記述する前記情報が、前記入力された音声信号とともに音声ファイルに記憶される、請求項８に記載の方法。
音声信号のラウドネスを自動的に調整するシステムであって、
入力される前記音声信号の標本に関するラウドネス尺度を計算する計算ユニットと、
前記ラウドネス尺度の中で複数の個別のラウドネス線を識別する識別ユニットと、
調整されたラウドネスを出力音声信号に与えるために、前記識別されたラウドネス線に従い前記入力音声信号の前記標本を変更する変更ユニットと、
を有するシステム。
請求項１０に記載の自動ラウドネス調整用のシステムを備える、音声信号のラウドネスを調整する音声処理装置。
音声信号に関して事前に識別されたラウドネス線及び／又はゲイン調整値を取得する取得ユニットと、調整されたラウドネスを出力音声信号に与えるために、前記識別されたラウドネス線に従い前記入力音声信号の前記標本を変更する変更ユニットと、を備える音声処理装置。
プログラム可能な音声処理装置のメモリに直接ロード可能な計算機プログラムであって、前記プログラムが前記音声処理装置において実行される場合に、請求項１ないし９の何れか一項に記載の方法のステップを実行するソフトウェアコード部分を備える計算機プログラム。
音声入力信号と、請求項８に記載の方法を用いて発生される前記識別されたラウドネス線及び／又はゲイン値を記述する情報とを備える音声ファイルを記憶するメモリ媒体。
請求項７に記載の方法を用いて発生される調整された音声信号を有する音声ファイルを記憶するメモリ媒体。