JP2008504783A - 音声信号のラウドネスを自動的に調整する方法及びシステム - Google Patents
音声信号のラウドネスを自動的に調整する方法及びシステム Download PDFInfo
- Publication number
- JP2008504783A JP2008504783A JP2007518744A JP2007518744A JP2008504783A JP 2008504783 A JP2008504783 A JP 2008504783A JP 2007518744 A JP2007518744 A JP 2007518744A JP 2007518744 A JP2007518744 A JP 2007518744A JP 2008504783 A JP2008504783 A JP 2008504783A
- Authority
- JP
- Japan
- Prior art keywords
- loudness
- audio signal
- signal
- sample
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G7/00—Volume compression or expansion in amplifiers
- H03G7/007—Volume compression or expansion in amplifiers of digital or coded signals
Landscapes
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Circuit For Audible Band Transducer (AREA)
- Control Of Amplification And Gain Control (AREA)
Abstract
本発明は、音声信号のラウドネスを自動的に調整する方法であって、入力される前記音声信号(1)の標本に関するラウドネス尺度を計算するステップと、前記ラウドネス尺度の中で複数の個別のラウドネス線(L1、L2、L3、L4)を経時的に識別するステップと、調整されたラウドネスを出力音声信号(5)に与えるために、前記入力音声信号(1)の前記標本を前記識別されたラウドネス線(L1、L2、L3、L4)に従い変更するステップと、を有する方法を説明する。
Description
本発明は、音声信号のラウドネスを自動的に調整する方法に関する。
本発明は、更に、音声信号のラウドネスを自動的に調整するシステムに関する。
本発明は、更に、音声信号のラウドネスを調整する自動ラウドネス制御装置に関する。
自動レベル調整法又は自動等化法として既知である音声信号のラウドネスレベルを制御する試みにおいて、多数の方法が開発されてきた。自動レベル調整タスクを実行すると主張する既存の自動レベル調整機能は、音声信号の無音部分のラウドネスを増加させ、当該信号の耳障りな部分のラウドネスを減らするために圧縮/拡張アルゴリズムを用いる。これらのアルゴリズムは、通常、音楽の音声波形のその瞬間の振幅を見て、適切なゲインの値を出力に供給することによって超過な又は不十分なラウドネスを補償するために、前記振幅を修正する。例えば、米国特許第5892834号は、自動車環境におけるCDプレーヤの出力のラウドネスを制限する方法を提案し、それによると、音声信号のその瞬間の振幅は、特定のしきい値を超えるかを確認するために検査される。前記しきい値が超える場合、音声信号の振幅は、修正された出力信号を与えるために減衰される。
しかし、ゲイン増加すなわちリリース時間(ゲインを目標レベルへと増加させる又は減少させるのに係る時間)の選択は、それ自体の問題が伴う。短いゲイン増加すなわちリリース時間を用いることは、通常、低及び高ゲインレベル間における急激なスイッチングの結果として生じる「ポンプ効果」になる。ポンプ効果は、著しい音量減少が後に続く音量の過渡成分を有する出力信号を生じさせ、聞くのに不快である信号になる。より長いゲイン増加時間を用いることは、ある程度当該ポンプ効果を低減するが、ゲイン調整機能の性能は、このことが出力信号のボリュームを効果的に増幅させる又は減衰させるのに長すぎる時間を掛けるので、結果として低減される。どちらの場合においても、生じる出力信号は、生じる歪みのせいで聞くことが不快である。
したがって、本発明の目的は、音声信号のラウドネスのレベルを、当該音声信号の性質を保持する一方で、特に当該信号を歪ませることなく自動的に等化させるのに用いられ得る方法及びシステムを提供することである。
この目的を果たすために、本発明は、音声信号のラウドネスを自動的に調整する方法であって、入力される前記音声信号の標本に関するラウドネス尺度を計算するステップと、前記ラウドネス尺度の中で経時的に複数の個別のラウドネス線を識別するステップと、調整されたラウドネスを出力音声信号に与えるために、前記入力音声信号の前記標本を前記識別されたラウドネス線に従い変更するステップと、を有する方法を提供する。
これによると、「ラウドネス線」は、ある部分では音の大きさが増し、他の部分では静かになり、更に他の部分では本質的に一定なラウドネスを維持して、経時的に通常変化し得る音声信号のラウドネスにおける持続時間及び変化率などのラウドネス傾向の特性を記述する方法の1つである。音が大きさが増す、静かになる又は同一の状態を維持するこれらの傾向は、音声信号が従う傾向として記述される。
音声信号のラウドネスの自動調整に関する適切なシステムは、入力音声信号の標本に関するラウドネス尺度を計算する計算ユニットと、前記ラウドネス尺度の中で複数の個別のラウドネス線を識別する識別ユニットと、出力音声信号に調整されたラウドネスを与えるために、前記識別されたラウドネス線に従い前記音声信号の標本を変換する変換ユニットと、を備える。
当該方法及び当該システムは、斯様にして、音声信号のラウドネスのレベルを自動的に調整し、聴取者に本質的に一貫したラウドネスの歪みのない音声信号を与え、該聴取者がラウドネスを手動で調整する必要性を取り除く簡単な方法を与える。本発明は、音声信号により従われるラウドネスの傾向を識別し、当該音声信号のラウドネスを適宜調整するので、当該調整された出力信号は、既存の方法を特徴付けるいかなる不所望なポンプ効果もない。例えば、音楽及びラジオ、又はテレビ番組を聴取する経験は、番組、コマーシャル又は音楽の一部などの間において音を発せられるラウドネス変化の不快な効果が減少させられ、ラウドネスの全体レベルは本質的に一定を維持するので、本発明により相当改善される。例えばヘッドセット又はインイヤーモニタなどの他のアプリケーションにおいて、当該自動ラウドネス調整は、音声信号のラウドネスをすばやく自動的に調整するのに用いられ得、これにより、前記ラウドネスは特定のしきい値を越えず、聴取者が過大音量信号の結果としての聴取の害を被らないことを保証する。
従属項及び後続の説明は、本発明の特に有利な実施例及び特徴を開示する。
「音声信号」は、例えばアンテナ又は衛星受信機などの好ましくはデジタルのいかなる音声信号ソース、又はラジオ、テレビ、若しくはスピーカなどの装置へ入力される音声、又は音楽データファイル、又はMP3音楽ファイルなど、から生じ得るいかなる信号でもあり得る。当該音声信号は、マイクなどのアナログソールからも生じ得、通常の方法で標本化することによって更に処理するのに適したデジタル形式に後に変換され得る。
ラウドネスは、人間の耳によって知覚される物理的音圧レベルに関する主観的な尺度(measure)である。研究は、ラウドネスの人間の知覚をモデル化する幾つかの複雑な数学的方法に終わったが、これらの方法は、実行するのにかなり時間集約的であり、ゆえに、これらは、実時間状況におけるアプリケーションに関して不適切である。したがって、本発明の好ましい実施例において、ラウドネスが音のエネルギに強く関連し、これにより、計算するのが比較的簡単である音声信号のエネルギの尺度が、より複雑な数学的モデルの代わりに用いられるという事実が利用される。本発明の特に好ましい実施例において、デジタル入力信号の標本の振幅を用いて計算される二乗平均平方根(RMS)値がラウドネス知覚に関して代表的数学モデルとして用いられる。複数の連続的標本に関して計算されるRMS値は、斯様にして、これらの標本に関する代表的ラウドネス尺度である。この種類の計算において、標本の振幅の絶対値が用いられる。RMS計算に加えて又は代えて、標本の絶対値が、ラウドネス尺度として直接的に用いられ得る。この場合、低域通過フィルタが、入力信号の動的な振る舞いを平滑化するために、好ましくは、絶対値計算の後に続く。
時間が経過するにしたがい、計算されるラウドネス尺度の数は増加する。これらのラウドネス尺度が時間に対してプロットされる場合、これらは、クラスタ又は群を形成し得る。1つの群は、隣接する群に合流し得るか、又は隣接する群から明確に個別なものであり得る。本発明の方法は、好ましくは、ラウドネス尺度の群のそれぞれに関する個別の傾向又はラウドネス線を識別する。ラウドネス尺度の群は、ラウドネスに基づき互いに区別され得る音声信号の区分に対応する。例えば、ラウドネス尺度の群は、大きさの増加又は減少の傾向に従い得るか、経時的に多少は一定であり得るか、又は近隣よりも著しく高く又は低く位置され得る。また好ましい実施例において、新しい群は、ユーザが特定の種類の動作を実行すると直ちに確立され得、前記動作は、例えば、テレビのチャネルを切り替えることによるか、ノブを回すことにより若しくはリモコンの適切なボタンを押下することにより音量を手動で変化させることによるか、又はMP3プレーヤなどの音声聴取装置において別の曲に切り替えることによる、ラウドネスの即時の変化によって通常伴われる。
本発明の方法は、例えば適切な標本のゲインを調整するなどによって音声信号のラウドネスを調整するために、ラウドネス線の特性を解釈することによって得られる情報を適用する。必要なゲイン調整の程度を決定するために、ラウドネスの参照レベルは、所定であるか、又はユーザによって特定され得る。例えば、特定の聴取者は、ラウドネスの全体レベルを比較的静かにしたいと望み得る一方で、他の聴取者は、音の大きい音量が時間に渡り維持されることを好み得る。最大ラウドネスレベル及び/又は最低ラウドネスレベルが規定されるか、又はラウドネスの平均全体レベルを規定することで十分であり得る。
所望のラウドネスの出力音声信号を与えるために入力音声信号の標本にどの調整が行われるべきかを決定するために、本発明は、傾き及び相対位置などのラウドネス線の特性を決定する。例えば、急勾配に上昇する又は以前のラウドネス線よりも高く位置されるラウドネス線は、入力信号のラウドネスの全体レベルが上昇したことを示し得る。この群に関する標本の振幅は、出力音声信号の対応する部分のラウドネスが減衰されるように調整される。同様に、入力音声信号の一部に関するラウドネス線が最低所望ラウドネスレベルより下であると識別された場合、対応する標本は、出力音声信号のラウドネスがその部分に亘り増加されるように増幅される。
音声標本の減衰又は増幅は、ラウドネス線の傾きを保存し得、又はこれを補償し得る。例えば、ラウドネス線が、対応する群が、減少するラウドネスでもある一方で、音が大きすぎると示す場合、対応する標本は、同じ量だけ全て減衰され得、これにより、減少するラウドネスが出力音声信号において反映されるか、ゲインがより小さい値だけ減衰され得、これにより、出力音声信号は、対応する部分に亘り比較的一定のラウドネスのレベルを維持する。
本発明の好ましい実施例において、ラウドネス尺度は、その値がある群に関する許容値の所定のマージンにある場合、当該群に属するとして識別される。この許容値のマージンは、一定値であり得るか、又はユーザによって設定され得る。許容値の低いマージンは、より多くの数の識別される個別のラウドネス線になり得る一方で、より許容値の高いマージンは、識別されるラウドネス線の全体数を低減し得る。許容値のマージンは、したがって、低いマージンが、出力音声信号への対応するより多くの数の調整になり得るので、当該システムの性能の品質の尺度としてみなされ得る。
多数の既知の方法がラウドネス尺度の群に関するラウドネス線を計算するのに適用され得る。前記ラウドネス線は、直線である必要は必ずしもないが、群の傾向に最も一致する2次又はそれ以上のオーダの曲線に等しくあり得る。しかし、より簡単な方法がより速い計算を可能にするので、本発明の好ましい実施例は、連続するラウドネス尺度の群内において個別のラウドネス線を識別するために、群のラウドネス尺度に線形補間又は平均計算の技法を適用する。
本発明は、テレビ音声出力信号又はインイヤーモニタ信号のラウドネスを自動的に調整するような実時間状況において適用され得る。しかし、本発明は、事前走査音声信号にも適用され得、これにより、必要なゲイン調整値は、当該音声信号を聞く前に計算され得る。
事前走査モードにおける本発明の使用は、その結果が直ちに利用可能である必要がないので、高いレベルの計算的正確性を可能にする。斯様なアプリケーションの1つの例は、例えば、携帯型記憶装置、計算機、又は携帯型オーディオ装置において記憶される音楽コレクションにおける多数の曲になされるべきゲイン調整を事前に計算することであり得、これにより、全体のラウドネスレベルが曲の再生において維持される。別の例において、テレビ録画の音声コンテンツのラウドネスになされるべきゲイン調整は、聴取者が後日当該録画を見る時に、既定の全体ラウドネスレベルを享受することが可能であるように、事前に計算され得る。
ゲイン調整の値は、これらゲイン調整値を適用するのに必要とされる情報の全てとともに、音声情報とともに、又は別個のデータファイルにおいて、記憶され得る。例えば、ゲイン調整の値及びいかなる関連する情報も、後の時間における適用に関して適した形式で、MP3音楽ファイルのヘッダ又はMP3ストリーム自体に記憶され得る。代替的に、ゲイン調整の値及びいかなる関連する情報も、これらが適用されるべき音声ファイルに特定の方法でリンクされて、別個のファイルに記憶され得る。
本発明の更なる実施例において、ゲイン調整値は、入力音声信号の標本に直接適用され得、修正された音声ファイルに記憶され得る。 当該入力音声信号が音声ファイルから生じる場合、この音声ファイルは、変更されないままにあるか、又は前記修正された音声ファイルによって置換され得る。
自動ラウドネス調整に関するシステムは、ラウドネス調整目的のみに関するスタンドアローン装置であり、且つ例えば、衛星受信機又はセットトップボックスとテレビ音量の自動調整用のスピーカとの間などに位置され得る、いかなる音声処理装置においても実現され得る。この場合、音声処理装置は、音声信号に関するライン入力と、好ましくはデジタルである信号処理を前記音声信号に実行する手段とを有するいかなる装置であるように理解される。等しくは、自動ラウドネス調整に関するシステムは、例えば、上述の装置、電話、ウォークマン、インイヤーモニタ、又はスピーカ若しくは出力を備えるいかなる種類の装置のうちの1つにおいて、当該システムがユーザに関して均等なラウドネスレベルを自動的に保障する別の装置の一部として組み込まれ得る。
更なる実施において、当該自動ラウドネス調整システムは、ラウドネス調整信号及び/又はラウドネス調整を記述する情報を内部又は外部メモリに記憶する手段をも特徴とし得る。したがって、「自動ラウドネス調整システム」は、いかなる所要のラウドネス調整も計算するために、音声入力信号を処理し得、また所望の出力信号を与えるためにこれらの調整を適用し得、及び/又は当該情報をメモリ記憶装置に記憶するシステムとして理解されるべきである。
例えば、好ましいアプリケーションにおいて、自動ラウドネス調整システムは、カーラジオに組み込まれ得、これにより、ラジオ局の音量は、異なる放送地域に亘り局を自動的に変更する場合にも、比較的一定のレベルに維持する。別の実施例において、斯様な自動ラウドネス調整システムは、電話に組み込まれ得、これにより、スピーカを介した出力のラウドネスは、所望のしきい値を超えず、当該電話を使用する者が、いらつかせしばしば不快であるもう一方の側における非常にうるさいスピーカの効果、及び保留にされる場合のうるさい音楽にさらされないことを保障する。多くのユーザによって理解され得るアプリケーションの1つは、斯様なラウドネス調整装置をテレビと組み合わせての使用であり、これにより、コマーシャルのラウドネスが、もはや、先行及び後続の番組コンテンツのラウドネスを越えないようになる。
本発明による自動ラウドネス調整に関するシステム、又は斯様なシステムを備える音声処理装置は、ソフトウェアモジュール又は計算機プログラム製品を実施化することによって上述の処理ステップの幾つかを実行し得る。斯様な計算機プログラム製品は、家庭用hi-fiシステム、PC、電話又はウォークマンなどにおいて見受けられ得るプログラム可能な音声処理装置のメモリに直接ロード可能であり得る。入力音声信号をバッファし、RMS値を計算し、群平均を計算し、そして調整値をフィルタ処理するユニットの幾つかは、これにより、計算機プログラム製品の形式で実現され得る。いかなる所要のソフトウェア又はアルゴリズムもハードウェア装置の処理器で符号化され得るので、既存の音声処理装置は、本発明の特徴から利益を得るように容易に適合され得る。代替的に、記載のユニットのいくつかは、適切である場合、ハードウェアモジュールを用いることによって、同等に実現され得る。
当該音声信号、及びそれに関連するラウドネス線、並びに/又はゲイン調整値は、本発明に従いメモリ装置に記憶され得る。斯様なメモリ装置は、例えばCD,ハードディスク、DVD、又はメモリースティックなどであり得る。当該ラウドネス線及び/又はゲイン調整値は、データファイルに音声信号とともに組み込まれ得るか、又はメモリの個別のセクタ又はブロックに記憶され得る。この場合、音声信号を可聴音声に再生するのに最終的に用いられる音声処理装置は、ラウドネス尺度を計算する計算ユニットと、ラウドネス線を識別する識別ユニットとを備える必要はない。この音声処理装置は、メモリから先行して計算されたラウドネス線及び/又は音声信号に関連付けられたゲイン調整値を取得し、スピーカに修正された信号を渡す前に、当該音声信号を適用することで十分である。
本発明の他の目的及び特徴が添付の図を組み合わせて考慮された以下の詳細な説明から明らかになる。しかし、当該図が、本発明の制限の規定としてではなく、例証の目的のためのみに設計されていることを理解されるべきである。
以下の図面の記載において、同様の参照符号は同様のオブジェクトを参照する。
図1は、音声信号のラウドネスの自動調整に関するシステム6の簡単なブロック図を示し、調整されたラウドネスを音声出力信号5に与えるための、前記入力される音声信号1を分析することに関わる基本的なステップを例証する。入力音声信号1は、受信器又はデータベースなどのソース9から生じ得、標本化されたデジタルの形式である。出力音声信号5は、スピーカ10へ転送され得るか、後の時間における再生のためにデータベース11に記憶され得る。
最初の処理ステップにおいて、計算ユニット2は、入力音声信号1の標本に関するラウドネス尺度を計算する。前記ラウドネス尺度は、本質的に、システム6が実時間状況で使用されている場合次々に計算されるか、又は当該システムが事前走査アプリケーションで使用されている場合並列に又はバッチモードで計算され得る。
Nの値は、前記入力信号の標本をバッファするのに用いられるバッファの大きさと、前記音声信号の標本レートによって決定される。例えば、0.1sのバッファと44100Hzの標本レートとに関しては、Nは、4410になり得る。Nに関する一般式は、
N=Fs・BL
であり、ここで、
Fsは、ヘルツ(Hz)で表現される標本レートであり、
BLは、秒で表される当該バッファのサイズである。
N=Fs・BL
であり、ここで、
Fsは、ヘルツ(Hz)で表現される標本レートであり、
BLは、秒で表される当該バッファのサイズである。
DCバイアスのない(音楽のような)通常の音声信号に関して、数式2における平均値
は、0であり、これにより、式は、数式1により与えられるように、このRMS値に関して考慮されるN個の標本に関する振幅 xiの二乗された値の全てを合計し、当該合計の二乗平均を取り、これを標本の数Nで割ることに減らされる。
は、0であり、これにより、式は、数式1により与えられるように、このRMS値に関して考慮されるN個の標本に関する振幅 xiの二乗された値の全てを合計し、当該合計の二乗平均を取り、これを標本の数Nで割ることに減らされる。
例証の目的のために、RMS値は、図2において時間に対してプロットされて示される。当該グラフにおける各点は、複数の標本の振幅を用いて計算された1つのRMS値を表現する。前記点は、クラスタすなわち群G1, G2, G3, G4を形成することが明白に確認され得る。当該群G1, G2, G3, G4は、群G1及びG2、のように互いに明確に分離してあり得るか、又はG3及びG4のように、1つの群が、別の群へと導き得る。
RMS値は、後に続く識別ユニット3へと転送され、当該識別ユニット3は、現在のRMS値が以前のものに十分近いかを決定するために、各RMS値の以前のRMS値との関係を検査する。この目的を果たすために、識別ユニット3は、現在のRMS値を先に計算された平均値と比較する。Cmが現在の群G1, G2, G3, G4の現在の平均値を表し、Crが許容値の幅すなわち許容偏差である場合、当該決定は、不等式
を確認することに帰着する。
現在のRMS値がこの不等式を満たす場合、この値は、群G1, G2, G3, G4に含まれ、群G1, G2, G3, G4の平均値Cmは適宜更新される。
代替的に、Cmは、群G1, G2, G3, G4の既存の傾向に基づき、次に予想されるRMS値も表現し得る。
線形補間すなわち平均計算の適切な技法を適用することによって、識別ユニット3は、現在の群G1, G2, G3, G4に関する「ラウドネス線」L1, L2, L3, L4を計算する。図2のグラフにおいて点のクラスタにより描画される直線として示される現在の群G1, G2, G3, G4に関する「ラウドネス線」L1, L2, L3, L4は、経時的に音声信号1のラウドネスによって取られた傾向の線形表示である。当該ラウドネス線の傾きは、音声信号1がより静かになるか若しくはうるさくなっていくか、又は音声信号1のラウドネスのレベルが維持されるかを示す。ラウドネス線yに関する数式は、
として表現され得、ここで、
bは、群の開始におけるゲイン(dB)であり、
aは、ラウドネスの傾き、すなわち毎秒のゲインの変化(dB/s)であり、
tは、時間の尺度(s)である。
bは、群の開始におけるゲイン(dB)であり、
aは、ラウドネスの傾き、すなわち毎秒のゲインの変化(dB/s)であり、
tは、時間の尺度(s)である。
この信号1に関するラウドネス線L1, L2, L3, L4が識別されると、変換ユニット4は、音声信号1の標本を変換するためにこの情報を適用し得る。当該システムが実時間アプリケーションで運用される場合、当該変換ユニットは、前記音声信号の標本に調整を実施する。事前走査モードにおいて、変換ユニット4は、全てのラウドネス線が計算された後に、いかなる調整をも初めに実行し得る。変換ユニット4は、出力音声信号5の全体に亘り所定のラウドネスレベルを維持するために、各標本に適用されるべきゲインを計算する。経時的に適用されるべきゲインは、以下の数式
によって計算され、ここで、
gは、補間されたゲイン値(dB)であり、
LTは、しきい値(通常10dB)である。
gは、補間されたゲイン値(dB)であり、
LTは、しきい値(通常10dB)である。
図3aは、入力音声信号1を示し、当該信号の全体ラウドネスにおける経時的な変動を特に示している。点線は、所望の全体ラウドネスレベルLを示す。当該音声信号の一部がこのレベルLから相当変動することは明らかである。
システム6において、音声信号1を処理し、出力音声信号5の標本に関するゲインを調整した後に、生じる音声信号5は、図3bに示されるように現れる。ここにおいて、当該適用される調整は、音声信号波形に重ねされる異なる傾きの直線A1, A2, A3, A4として示され、当該信号の振幅への対応する調整が確認され得る。調整された音声出力信号5は、その全体の特性形状を維持するが、この信号5のラウドネスの変動は、入力音声信号1においてあるようには音を発せられない。
実際のアプリケーションは、図4のブロック図に示され、自動ラウドネス調整に関するシステム6は、デバイス7に組み込まれる。テレビ信号15は、受信器9を介して受信され、スプリッタ14に転送され、そこで音声信号1は抽出される。音声信号1は、自動ラウドネス調整装置7に渡され、当該装置は、時間に渡って調整されるラウドネスレベルを出力音声信号5に与える上述のステップを実行する。当該出力音声信号の所望のラウドネスレベルは、当該図に示されないユーザによって、例えばリモートコントロールなどの通常のユーザインターフェイスを用いて識別され得る。調整された音声出力信号5は、その後、スピーカ10で当該ユーザに再生される。スピーカ10は、テレビセット8に組み込まれ得るか、又はテレビセット8から分離されてもよい。スプリッタ14によって抽出されるいかなるビデオ信号も、自動ラウドネス調整装置7で生じされるいかなる遅延をも補償するために、遅延されたビデオ信号16としてテレビ8へ転送される前に、遅延ユニット17で遅延され得る。このアプリケーションは、番組とコマーシャルとの間をスイッチングする場合に通常生じるラウドネスレベルを等化するのに特に有用であり得る。前記等化ラウドネスレベルは、別の場合、音の大きい音響効果及び音楽サウンドトラックを特徴とする映画における比較的静かな会話を理解するのに困難を有し得るユーザによっても理解され得る。この状況において、自動ラウドネス調整装置7は、所望である場合音響効果又は音楽のラウドネスのレベルを低減する一方で、会話の静かな部分に関するラウドネスを自動的に増加させる。当該ユーザは、自身で音量を絶えず調整する必要がなく映画を単純に楽しむことが可能である。
自動ラウドネス調整に含まれる処理ステップをより詳細に例証するフローチャートが図5〜7に示される。当該フローチャートは、特定の処理ステップが実行され得るユニットをはっきりと見えるようにもしている。
図5は、入力音声信号1の実時間処理に含まれるステップを示す。初めに、入力信号1は、RMS値の計算が複数の以前の標本を必要とするので、入力バッファ20にバッファされる(0.1s以下の大きさのオーダ)。後に続く計算ユニット2は、前記標本に関するRMS値を計算し、識別ユニット3に位置されるブロック21において当該値を実際の群平均と比較する。前記群平均は、例えば0.5などの定数によって初期化されるが、いかなる実正数値でも本質的にあり得る。ブロック21は、新しいRMS値を実際の群平均と比較する。当該新しいRMS値が前記群平均に十分に近くない場合、このことは、新しい群が形成され得ること、すなわち音声信号1のラウドネスが顕著に音が大きく又は静かになっているかもしれないことを暗示する。決定ブロック22は、以前のRMS値が記憶されてあるか否かを見るために確認する。否である場合、新しいRMS値が記憶され、そうでない場合、新しい群が群平均を計算するために記憶された及び新しいRMSの値を用いて形成され、ブロック28に記憶される。この群平均は、この場合、新しい郡の平均値である。次のRMS値が計算され、ブロック21においてこの群平均と比較される。このRMS値が前記平均に近く、且つ何の以前のRMS値も記憶されてなかった場合、当該群平均は、ブロック27において更新される。ブロック26で確認されるRMSの以前の値が記憶されていた場合、このことは、1つの記憶されている値が群平均からかなり外れていたが、しかしそれにもかかわらず新しい群が確立されていないことを意味する。前記記憶された値は、この場合、新しいRMSとともに、ブロック27における群平均の計算においても考慮される。当該更新された群平均は、ブロック28に記憶される。
当該継続的に更新される群平均値は、各群に関してラウドネス線L1, L2, L3, L4の傾きを与える。変換ユニット4は、所望な全体のラウドネスレベルLからラウドネスのいかなる変動も補償するのに必要とされる音声ゲイン調整をブロック29において計算するために、この情報を用いる。
当該継続的に更新される群平均値は、各群に関してラウドネス線L1, L2, L3, L4の傾きを与える。変換ユニット4は、所望な全体のラウドネスレベルLからラウドネスのいかなる変動も補償するのに必要とされる音声ゲイン調整をブロック29において計算するために、この情報を用いる。
前記ゲイン調整は、例えば、0.1の正規化されたカットオフ周波数を有する第1オーダの低域通過フィルタ12などの低域通過フィルタ12を用いて平滑化される。通常、改善された聴取品質を与える低カットオフ周波数と、所要の遅延の長さ13との間にトレードオフがなされなければならず、すなわち、フィルタ12のカットオフ周波数が低い程、経時的なゲインは平滑になるが、より長い遅延13が結果として必要とされる。実時間アプリケーションにおいて、遅延が可能な限り小さく保たれるべきである場合、低域通過フィルタ12のカットオフ周波数は、適宜選択される。しかし、システム6が必要なフィルタ処理を実行するのに必要とする時間において入力信号1をバッファし得る事前走査アプリケーションにおいて、カットオフ周波数の満足できる値は、出力音声信号において平滑なゲイン変化を与えるように選択され得、これにより、最適な聴取経験が保証され得る。
当該音声ゲイン調整を計算することは特定の時間を必要とするので、入力音声信号は、しばらくの間、一連のバッファによりブロック13においてバッファされる。変換ユニットがその音声ゲイン調整を準備出来る状態にある場合、バッファブロック13の出力は、音声出力信号5に調整されたラウドネスレベルを与えるために、乗算ブロック30において、平滑化されたゲインを用いて乗算される。出力音声信号は、その後、スピーカ10へと向けられる。
図6に示される事前走査アプリケーションにおいて、入力音声信号1は、音声遅延がもはや問題ではないので、より長い時間においてバッファされ得る。この場合、バッファ20は、2秒又はそれ以上の大きさのオーダであり得る。RMS値は、計算ユニット2において計算され、動作が図5に記載されている識別ユニット3の第1決定ブロック21に転送される。ブロック25のみが、新しい群が識別された場合に、古い群と新しい群との間の移行点を位置特定する処理が初期化される点において異なる。この処理は、以下により詳細に個別に説明される。
このフローチャートにおける変換ユニット4は、音声ゲイン調整をファイル又はデータベース11に記憶する前にこれらの音声ゲイン調整を計算するのみである点において、上述のものとは異なる。平滑化された音声ゲイン調整31を有する音声入力ファイル1の標本の実際の乗算は、後の時間に行われ得る。当然、このフローチャートに示されない状況において、適するように遅延された入力音声信号1の乗算は、その後ファイルに記憶され得る全体的に調整された音声出力信号を与えるために、当該音声ゲイン調整を平滑化した後で行われ得ることも実現可能である。
事前走査モードにおいて音声ファイル1を処理するのにより多くの時間が利用可能なので、このことが、群の対の間における移行をより正確性をもって位置特定することによってシステム6の性能を向上させるために利用され得る。このことは、音声信号のラウドネスが急激に音が大きい場合と静かな場合との間で変化する場合に特に重要である。というのも、音が大きい部分の開始部又は終了部をカットオフすること、又は静かな部分の開始部又は終了部を不必要に増幅することが不所望であるからである。図7におけるフローチャートは、この改善の処理を例証する。時間t1及びt2の間における音声入力信号1の抽出は、例えば0.1秒などの比較的小さいバッファを用いてバッファされる。古い群の最後のRMSになるバッファの開始時間は、t1によって与えられる一方で、t2は、新しい群の最初のRMSになるバッファの終了時間である。当該検索は、この場合、より小さいバッファ20を用いることによって改善され、これにより、より大きい数の標本が新しいRMS値を計算するのに用いられる。当該識別ユニットは、ブロック25’の例外があるが、上述のものと非常に同じに動作する。
RMS値は、前記のように計算され、時間t1で開始し、以前の群の群平均に沿って継続し、継続的にブロック21、24、26、27及び28を用いて群平均を更新する。結果的に、以前の群の群平均から外れているRMS値は、ブロック21によって識別され、ブロック23に記憶される。以前の群の群平均から外れているRMSの後続の値がブロック21及び22によって識別される場合、その場合、ブロック25’は、当該移行時間が以前の記憶されたRMSの値を計算するのに用いられる標本のブロックの開始時間によって与えられることを報告し得る。斯様にして正確に示される当該情報は、正確な音声ゲイン調整を与えるために変換ユニット4において用いられ得る。
本発明は、好ましい実施例及び変形態様の形式で開示されているが、本発明の範囲から逸脱することなく多数の追加的な修正態様及び変更態様がされ得ることを理解され得る。例えば、入力音声信号の標本は直列に処理され得、すなわち、ラウドネスの尺度は、実時間状況における方法を適用する場合のように、連続的な標本に関して計算される。
ゲイン調整の値は、ラウドネス線(L1, L2, L3, L4)を分析することによって導出されたゲイン調整関数を用いることによって生成され得ることを言及されるべきである。
明瞭性のために、本願における単数形の使用は、複数形を排除せず、「有する」なる語句は、他のステップ又は要素を排除しないことも理解されるべきである。「ユニット」なる語句は、単一の実体として明白に述べられなければ、複数のブロック又は装置を有し得る。
Claims (15)
- 音声信号のラウドネスを自動的に調整する方法であって、
入力される前記音声信号の標本に関するラウドネス尺度を計算するステップと、
前記ラウドネス尺度の中で複数の個別のラウドネス線を経時的に識別するステップと、
調整されたラウドネスを出力音声信号に与えるために、前記識別されたラウドネス線に従い前記入力音声信号の前記標本を変更するステップと、
を有する方法。 - 個別のラウドネス線が、連続するラウドネス尺度の群内で識別され、これらの値のそれぞれが、この群に関する所定の許容幅内にある、請求項1に記載の方法。
- 前記入力音声信号の前記標本が、所定のラウドネスレベルからの、連続するラウドネス尺度の群の前記ラウドネス線の偏差を補償するために変更される、請求項2に記載の方法。
- 個別のラウドネス線が、連続するラウドネス尺度の群内で、前記群の前記ラウドネス尺度に対して線形若しくは高次補間法、又は平均値計算法を適用することによって識別される、請求項2又は3に記載の方法。
- 各標本に関するゲイン調整の値が、ラウドネス尺度の対応する群の当該ラウドネス線を用いて計算される、請求項2ないし4の何れか一項に記載の方法。
- 前記入力音声信号の標本に関する前記ラウドネス尺度が、二乗平均平方根計算法を前記入力標本に実行することによって計算される、請求項1ないし5の何れか一項に記載の方法。
- 調整されたラウドネスを有する前記音声出力信号が、音声ファイルに記憶される、請求項1ないし6の何れか一項に記載の方法。
- 将来の自動ラウドネス調整に関する音声信号を準備する方法であって、ラウドネス線及び任意追加的にゲイン調整値が、請求項1ないし6の何れか一項に記載の方法を用いて前記入力される音声信号に関して識別され、前記識別されたラウドネス線及び/又は対応するゲイン調整値を記述する情報が、後の時間における適用に関して適した形式で記憶される方法。
- 前記識別されたラウドネス線及び/又はゲイン調整値を記述する前記情報が、前記入力された音声信号とともに音声ファイルに記憶される、請求項8に記載の方法。
- 音声信号のラウドネスを自動的に調整するシステムであって、
入力される前記音声信号の標本に関するラウドネス尺度を計算する計算ユニットと、
前記ラウドネス尺度の中で複数の個別のラウドネス線を識別する識別ユニットと、
調整されたラウドネスを出力音声信号に与えるために、前記識別されたラウドネス線に従い前記入力音声信号の前記標本を変更する変更ユニットと、
を有するシステム。 - 請求項10に記載の自動ラウドネス調整用のシステムを備える、音声信号のラウドネスを調整する音声処理装置。
- 音声信号に関して事前に識別されたラウドネス線及び/又はゲイン調整値を取得する取得ユニットと、調整されたラウドネスを出力音声信号に与えるために、前記識別されたラウドネス線に従い前記入力音声信号の前記標本を変更する変更ユニットと、を備える音声処理装置。
- プログラム可能な音声処理装置のメモリに直接ロード可能な計算機プログラムであって、前記プログラムが前記音声処理装置において実行される場合に、請求項1ないし9の何れか一項に記載の方法のステップを実行するソフトウェアコード部分を備える計算機プログラム。
- 音声入力信号と、請求項8に記載の方法を用いて発生される前記識別されたラウドネス線及び/又はゲイン値を記述する情報とを備える音声ファイルを記憶するメモリ媒体。
- 請求項7に記載の方法を用いて発生される調整された音声信号を有する音声ファイルを記憶するメモリ媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04103071 | 2004-06-30 | ||
PCT/IB2005/051942 WO2006003536A1 (en) | 2004-06-30 | 2005-06-13 | Method of and system for automatically adjusting the loudness of an audio signal |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008504783A true JP2008504783A (ja) | 2008-02-14 |
Family
ID=34970080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007518744A Pending JP2008504783A (ja) | 2004-06-30 | 2005-06-13 | 音声信号のラウドネスを自動的に調整する方法及びシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20080095385A1 (ja) |
EP (1) | EP1763923A1 (ja) |
JP (1) | JP2008504783A (ja) |
CN (1) | CN1981433A (ja) |
WO (1) | WO2006003536A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016506640A (ja) * | 2012-11-19 | 2016-03-03 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | オーディオラウドネス制御システム |
JP2018528705A (ja) * | 2015-05-29 | 2018-09-27 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 音量制御のための装置および方法 |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101200615B1 (ko) | 2006-04-27 | 2012-11-12 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어 |
US7873104B2 (en) | 2006-10-12 | 2011-01-18 | Lg Electronics Inc. | Digital television transmitting system and receiving system and method of processing broadcasting data |
JP5396685B2 (ja) * | 2006-12-25 | 2014-01-22 | ソニー株式会社 | 音声出力装置、音声出力方法、音声出力システムおよび音声出力処理用プログラム |
KR101361052B1 (ko) * | 2007-02-14 | 2014-02-10 | 삼성전자주식회사 | 휴대용 오디오 장치의 오디오 신호 출력 레벨 제어 방법 및그 장치 |
KR101285887B1 (ko) | 2007-03-26 | 2013-07-11 | 엘지전자 주식회사 | 디지털 방송 시스템 및 데이터 처리 방법 |
KR101285888B1 (ko) | 2007-03-30 | 2013-07-11 | 엘지전자 주식회사 | 디지털 방송 시스템 및 데이터 처리 방법 |
US8213624B2 (en) * | 2007-06-19 | 2012-07-03 | Dolby Laboratories Licensing Corporation | Loudness measurement with spectral modifications |
JP5248625B2 (ja) | 2007-12-21 | 2013-07-31 | ディーティーエス・エルエルシー | オーディオ信号の知覚ラウドネスを調節するシステム |
CN101471664B (zh) * | 2007-12-29 | 2011-11-16 | 安凯(广州)微电子技术有限公司 | 一种修复已失真的数字声音信号的方法 |
US8274611B2 (en) * | 2008-06-27 | 2012-09-25 | Mitsubishi Electric Visual Solutions America, Inc. | System and methods for television with integrated sound projection system |
WO2010075377A1 (en) | 2008-12-24 | 2010-07-01 | Dolby Laboratories Licensing Corporation | Audio signal loudness determination and modification in the frequency domain |
US8422699B2 (en) * | 2009-04-17 | 2013-04-16 | Linear Acoustic, Inc. | Loudness consistency at program boundaries |
US8380334B2 (en) | 2010-09-07 | 2013-02-19 | Linear Acoustic, Inc. | Carrying auxiliary data within audio signals |
CN102044249B (zh) * | 2010-12-10 | 2012-05-30 | 北京中科大洋科技发展股份有限公司 | 一种适用于文件播出***的音频响度一致性控制方法 |
US9423944B2 (en) | 2011-09-06 | 2016-08-23 | Apple Inc. | Optimized volume adjustment |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
US9565508B1 (en) | 2012-09-07 | 2017-02-07 | MUSIC Group IP Ltd. | Loudness level and range processing |
US10027303B2 (en) | 2012-11-13 | 2018-07-17 | Snell Advanced Media Limited | Management of broadcast audio loudness |
GB2510323B (en) * | 2012-11-13 | 2020-02-26 | Snell Advanced Media Ltd | Management of broadcast audio loudness |
WO2014083569A1 (en) * | 2012-11-29 | 2014-06-05 | Ghose Anirvan | A system for recording and playback for achieving standardization of loudness of soundtracks in cinemas |
CN107093991B (zh) * | 2013-03-26 | 2020-10-09 | 杜比实验室特许公司 | 基于目标响度的响度归一化方法和设备 |
CN103701419B (zh) * | 2013-12-06 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 一种音量调节方法及装置 |
EP2945356A1 (en) | 2014-05-13 | 2015-11-18 | Thomson Licensing | Method of and apparatus for replacing telephone on-hold music |
EP2961146A1 (en) | 2014-06-24 | 2015-12-30 | Laboratories Thomson Ltd. | Method and system for setting detection parameters in an apparatus for on-hold music detection |
FR3031852B1 (fr) * | 2015-01-19 | 2018-05-11 | Devialet | Amplificateur a reglage de niveau sonore automatique |
US9590580B1 (en) * | 2015-09-13 | 2017-03-07 | Guoguang Electric Company Limited | Loudness-based audio-signal compensation |
DE102015217565A1 (de) | 2015-09-15 | 2017-03-16 | Ford Global Technologies, Llc | Verfahren und Vorrichtung zur Verarbeitung von Audio-Signalen |
CN108848411B (zh) * | 2018-08-01 | 2020-09-25 | 夏颖 | 基于音频信号波形界定节目边界和广告边界的***和方法 |
EP3629475A1 (en) | 2018-09-25 | 2020-04-01 | InterDigital CE Patent Holdings | Audio device with learning and adaptive quiet mode capabilities |
CN109842839A (zh) * | 2019-01-29 | 2019-06-04 | 惠州市华智航科技有限公司 | 一种等响度补偿方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10200996A (ja) * | 1997-01-09 | 1998-07-31 | Matsushita Electric Ind Co Ltd | 補聴器および補聴器調整方法 |
US6198830B1 (en) * | 1997-01-29 | 2001-03-06 | Siemens Audiologische Technik Gmbh | Method and circuit for the amplification of input signals of a hearing aid |
US6535846B1 (en) * | 1997-03-19 | 2003-03-18 | K.S. Waves Ltd. | Dynamic range compressor-limiter and low-level expander with look-ahead for maximizing and stabilizing voice level in telecommunication applications |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4887299A (en) * | 1987-11-12 | 1989-12-12 | Nicolet Instrument Corporation | Adaptive, programmable signal processing hearing aid |
GB2254988B (en) * | 1991-03-20 | 1995-05-10 | British Broadcasting Corp | Dynamic range compression |
US5832444A (en) * | 1996-09-10 | 1998-11-03 | Schmidt; Jon C. | Apparatus for dynamic range compression of an audio signal |
US6882735B2 (en) * | 2001-01-11 | 2005-04-19 | Autodesk, Inc. | Dynamic range compression of an audio signal |
-
2005
- 2005-06-13 EP EP05746201A patent/EP1763923A1/en not_active Withdrawn
- 2005-06-13 WO PCT/IB2005/051942 patent/WO2006003536A1/en not_active Application Discontinuation
- 2005-06-13 US US11/570,799 patent/US20080095385A1/en not_active Abandoned
- 2005-06-13 JP JP2007518744A patent/JP2008504783A/ja active Pending
- 2005-06-13 CN CNA2005800223507A patent/CN1981433A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10200996A (ja) * | 1997-01-09 | 1998-07-31 | Matsushita Electric Ind Co Ltd | 補聴器および補聴器調整方法 |
US6198830B1 (en) * | 1997-01-29 | 2001-03-06 | Siemens Audiologische Technik Gmbh | Method and circuit for the amplification of input signals of a hearing aid |
US6535846B1 (en) * | 1997-03-19 | 2003-03-18 | K.S. Waves Ltd. | Dynamic range compressor-limiter and low-level expander with look-ahead for maximizing and stabilizing voice level in telecommunication applications |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016506640A (ja) * | 2012-11-19 | 2016-03-03 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | オーディオラウドネス制御システム |
JP2018528705A (ja) * | 2015-05-29 | 2018-09-27 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 音量制御のための装置および方法 |
JP7141946B2 (ja) | 2015-05-29 | 2022-09-26 | フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 音量制御のための装置および方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1763923A1 (en) | 2007-03-21 |
CN1981433A (zh) | 2007-06-13 |
WO2006003536A1 (en) | 2006-01-12 |
US20080095385A1 (en) | 2008-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008504783A (ja) | 音声信号のラウドネスを自動的に調整する方法及びシステム | |
US10734962B2 (en) | Loudness-based audio-signal compensation | |
US8787595B2 (en) | Audio signal adjustment device and audio signal adjustment method having long and short term gain adjustment | |
US10355658B1 (en) | Automatic volume control and leveler | |
US10109288B2 (en) | Dynamic range and peak control in audio using nonlinear filters | |
US9093968B2 (en) | Sound reproducing apparatus, sound reproducing method, and recording medium | |
WO2010131470A1 (ja) | ゲイン制御装置及びゲイン制御方法、音声出力装置 | |
US8363854B2 (en) | Device and method for automatically adjusting gain | |
JP2010513974A (ja) | 音声データを処理するシステム | |
JP2006524968A (ja) | 映画館における音量及び圧縮の制御 | |
KR20190055272A (ko) | 인코딩된 오디오 메타데이터 기반 라우드니스 등화 및 drc 동안의 동적 등화 | |
JP2013537321A (ja) | 知覚スペクトルアンバランス改善のための音声信号動的補正 | |
US9647624B2 (en) | Adaptive loudness levelling method for digital audio signals in frequency domain | |
US9431982B1 (en) | Loudness learning and balancing system | |
JP7266916B2 (ja) | ラウドネスレベルを制御するオーディオ信号処理方法及び装置 | |
JP2013521539A (ja) | 単一再生モードにおいてラウドネス測定値を合成するシステム | |
US10466959B1 (en) | Automatic volume leveler | |
US9571055B2 (en) | Level adjustment device and method | |
US20140044268A1 (en) | System and method for controlled dynamics adaptation for musical content | |
JP2008527882A (ja) | 音声信号の音響レベルを周波数に依存して増幅する信号処理装置及び音声システム及びその方法 | |
KR20070022116A (ko) | 오디오 신호의 크기를 자동적으로 조정하는 방법 및 시스템 | |
KR20220071954A (ko) | 오디오 신호의 정규화를 수행하는 방법 및 이를 위한 장치 | |
US20240048904A1 (en) | Audio signal processing system, loudspeaker and electronics device | |
TWI584275B (zh) | 電子裝置和聲音信號的分析與播放方法 | |
KR102509783B1 (ko) | 자동 사운드 레벨 조절 기능을 가진 증폭기 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080612 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100824 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110201 |