JP4837123B1

JP4837123B1 - 音質制御装置及び音質制御方法

Info

Publication number: JP4837123B1
Application number: JP2010169638A
Authority: JP
Inventors: 広和竹内; 裕米久保
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-07-28
Filing date: 2010-07-28
Publication date: 2011-12-14
Anticipated expiration: 2030-07-28
Also published as: US20120029913A1; JP2012032447A; US8457954B2

Abstract

【課題】信号特性の切り替わりに対する追従性を向上した音質制御をすることができる音質制御装置及び音質制御方法を提供する。
【解決手段】過去一定区間の音声スコアおよび音楽スコアを蓄積する手段と、過去一定区間のオーディオ入力信号のパワー値を蓄積する手段と、過去の前記パワー値と現在の前記パワー値との比較結果、および過去の前記音楽スコアと現在の前記音楽検出スコアとの比較結果、および過去の前記音声スコアと現在の前記音声スコアとの比較結果に応じて、現在の前記音楽スコアあるいは現在の前記音声スコアを補正するパワー連動スコア補正手段と、前記パワー連動スコア補正手段から得られる前記音声スコアまたは音楽スコアの少なくともいずれか一方を使って前記入力オーディオ信号の音質制御を行う音質制御手段とを備えた音質制御装置。
【選択図】図２

Description

本発明の実施形態は、入力される音響信号の信号特性の切り替わりに追従する音質制御装置及び音質制御方法に関する。

周知のように、例えばテレビジョン放送を受信する放送受信機器や、情報記録媒体からその記録情報を再生する情報再生機器等にあっては、受信した放送信号や情報記録媒体から読み取った信号等からオーディオ信号を再生する際に、オーディオ信号に音質制御処理を施すことによって、より一層の高音質化を図るようにしている。

この場合、オーディオ信号に施す音質制御処理の内容は、オーディオ信号が人の話し声のような音声信号であるか、楽曲のような音楽（非音声）信号であるかに応じて異なる。すなわち、音声信号に対しては、トークシーンやスポーツ実況等のようにセンター定位成分を強調して明瞭化するように音質制御処理を施すことで音質が向上し、音楽信号に対しては、ステレオ感を強調した拡がりのある音質制御処理を施すことで音質が向上する。

このため、取得したオーディオ信号が音声信号か音楽信号かを判別し、その判別結果に応じて対応する音質制御処理を施すことが考えられている。例えば特許文献１には、入力される音響信号の零交差回数やパワー変動等を分析することによって、音響信号を「音声」と「非音声(音楽)」と「不定」との３種類に分類判定し、その判定結果に基づいて音響信号に対する周波数特性を、段階的に制御する構成が開示されている。

この制御方法は、音声向けの音声帯域を強調する周波数特性から非音声(音楽)向けの音声帯域以外も含めたフラットな周波数特性(音声のみに比較して広帯域)まで複数の段階的に異なる帯域強調特性を持つイコライザを使って、判別結果に基づいて「音声」であれば音声向けの特性に、「非音声(音楽)」であればフラットな特性に、「不定」であれば前の判定を保持するように周波数特性を段階的に遷移させるものである。

しかしながら、通常の放送番組では明確に音声のみ非音声(音楽)のみというシーンは少なく、混合された信号に対しては「不定」判定に陥りやすくなったり、前判定を保持するため誤判定を引きずったりして誤った音質制御になりやすい。また更に、信号のパワー値に応じた判定を行うわけではないため、信号としてはあまり重要でないパワーの小さい背景雑音やBGM等の信号区間に対しても通常と同様に判定を行うと、その後の信号特性の切り替わりに対する音質制御の追従性が問題になる場合がある。

かかる問題点に対処する要望を実現するための手段は知られていない。

特開平７−１３５８６号公報

本発明は、信号特性の切り替わりに対する追従性を向上した音質制御をすることができる音質制御装置及び音質制御方法を提供することを目的とする。

上記課題を解決するために、実施形態の音質制御装置によれば、入力オーディオ信号の特性を解析し特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段の出力から音声信号特性との類似度を表す音声スコアを算出する音声スコア算出手段と、前記特徴量抽出手段の出力から音楽信号特性との類似度を表す音楽スコアを算出する音楽スコア算出手段と、過去一定区間の前記音声スコアおよび音楽スコアを蓄積する手段と、前記特徴量抽出手段から得られる過去一定区間の前記オーディオ入力信号のパワー値を蓄積する手段と、過去の前記パワー値と現在の前記パワー値との比較結果、および過去の前記音楽スコアと現在の前記音楽検出スコアとの比較結果、および過去の前記音声スコアと現在の前記音声スコアとの比較結果に応じて、現在の前記音楽スコアあるいは現在の前記音声スコアを補正するパワー連動スコア補正手段と、前記パワー連動スコア補正手段から得られる前記音声スコアまたは音楽スコアの少なくともいずれか一方を使って前記入力オーディオ信号の音質制御を行う音質制御手段とを備えた。

この発明の一実施形態を示すブロック構成図。同実施形態の音質制御装置全体ブロック図。同実施形態の音声スコアおよび音楽スコア算出処理フロー。同実施形態のパワー値と検出スコアの関係を説明するために示す特性図。同実施形態のパワー連動スコア補正処理フロー(音楽)。同実施形態のパワー連動スコア補正処理フロー(音声)。

以下、本発明の実施形態を説明する。
（第１の実施形態）
本発明による第１の実施形態を図１乃至図６を参照して説明する。
図１は、この発明の一実施形態を示すブロック構成図を示している。
図１は、この発明の一実施形態であるデジタルテレビジョン放送受信装置１１の主要な信号処理系を示している。すなわち、ＢＳ／ＣＳ（broadcasting satellite／communication satellite）デジタル放送受信用のアンテナ４３で受信した衛星デジタルテレビジョン放送信号は、入力端子４４を介して衛星デジタル放送用のチューナ４５に供給されることにより、所望のチャンネルの放送信号が選局される。

そして、このチューナ４５で選局された放送信号は、ＰＳＫ（phase shift keying）復調器４６及びＴＳ（transport stream）復号器４７に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、信号処理部４８に出力される。

また、地上波放送受信用のアンテナ４９で受信した地上デジタルテレビジョン放送信号は、入力端子５０を介して地上デジタル放送用のチューナ５１に供給されることにより、所望のチャンネルの放送信号が選局される。

そして、このチューナ５１で選局された放送信号は、例えば日本ではＯＦＤＭ（orthogonal frequency division multiplexing）復調器５２及びＴＳ復号器５３に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、上記信号処理部４８に出力される。

また、上記地上波放送受信用のアンテナ４９で受信した地上アナログテレビジョン放送信号は、入力端子５０を介して地上アナログ放送用のチューナ５４に供給されることにより、所望のチャンネルの放送信号が選局される。そして、このチューナ５４で選局された放送信号は、アナログ復調器５５に供給されてアナログの映像信号及びオーディオ信号に復調された後、上記信号処理部４８に出力される。

ここで、上記信号処理部４８は、ＴＳ復号器４７，５３からそれぞれ供給されたデジタルの映像信号及びオーディオ信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理部５６及びオーディオ処理部５７に出力している。

また、上記信号処理部４８には、複数（図示の場合は４つ）の入力端子５８ａ，５８ｂ，５８ｃ，５８ｄが接続されている。これら入力端子５８ａ〜５８ｄは、それぞれ、アナログの映像信号及びオーディオ信号を、デジタルテレビジョン放送受信装置１１の外部から入力可能とするものである。

そして、上記信号処理部４８は、上記アナログ復調器５５及び各入力端子５８ａ〜５８ｄからそれぞれ供給されたアナログの映像信号及びオーディオ信号を選択的にデジタル化し、このデジタル化された映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、グラフィック処理部５６及びオーディオ処理部５７に出力する。

グラフィック処理部５６は、信号処理部４８から供給されるデジタルの映像信号に、ＯＳＤ（on screen display）信号生成部５９で生成されるＯＳＤ信号を重畳して出力する機能を有する。このグラフィック処理部５６は、信号処理部４８の出力映像信号と、ＯＳＤ信号生成部５９の出力ＯＳＤ信号とを選択的に出力すること、また、両出力をそれぞれ画面の半分を構成するように組み合わせて出力することができる。

グラフィック処理部５６から出力されたデジタルの映像信号は、映像処理部６０に供給される。この映像処理部６０は、入力されたデジタルの映像信号を、前記映像表示器１４で表示可能なフォーマットのアナログ映像信号に変換した後、映像表示器１４に出力して映像表示させるとともに、出力端子６１を介して外部に導出させる。

また、上記オーディオ処理部５７は、入力されたデジタルのオーディオ信号に対して、後述する音質補正処理を施した後、前記スピーカ１５で再生可能なフォーマットのアナログオーディオ信号に変換している。そして、このアナログオーディオ信号は、スピーカ１５に出力されてオーディオ再生に供されるとともに、出力端子６２を介して外部に導出される。スピーカ１５は、音質制御された出力オーディオ信号を出力する出力手段となる。

ここで、このデジタルテレビジョン放送受信装置１１は、上記した各種の受信動作を含むその全ての動作を制御部６３によって統括的に制御されている。この制御部６３は、ＣＰＵ（central processing unit）６４を内蔵しており、前記操作部１６からの操作情報、または、リモートコントローラ１７から送出され前記受光部１８に受信された操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。

この場合、制御部６３は、主として、そのＣＰＵ６４が実行する制御プログラムを格納したＲＯＭ（read only memory）６５と、該ＣＰＵ６４に作業エリアを提供するＲＡＭ（random access memory）６６と、各種の設定情報及び制御情報等が格納される不揮発性メモリ６７とを利用している。

また、この制御部６３は、カードＩ／Ｆ（interface）６８を介して、前記第１のメモリカード１９が装着可能なカードホルダ６９に接続されている。これによって、制御部６３は、カードホルダ６９に装着された第１のメモリカード１９と、カードＩ／Ｆ６８を介して情報伝送を行なうことができる。

さらに、上記制御部６３は、カードＩ／Ｆ７０を介して、前記第２のメモリカード２０が装着可能なカードホルダ７１に接続されている。これにより、制御部６３は、カードホルダ７１に装着された第２のメモリカード２０と、カードＩ／Ｆ７０を介して情報伝送を行なうことができる。

また、上記制御部６３は、通信Ｉ／Ｆ７２を介して第１のＬＡＮ端子２１に接続されている。これにより、制御部６３は、第１のＬＡＮ端子２１に接続されたＬＡＮ対応のＨＤＤ２５と、通信Ｉ／Ｆ７２を介して情報伝送を行なうことができる。この場合、制御部６３は、ＤＨＣＰ（dynamic host configuration protocol）サーバ機能を有し、第１のＬＡＮ端子２１に接続されたＬＡＮ対応のＨＤＤ２５にＩＰ（internet protocol）アドレスを割り当てて制御している。

さらに、上記制御部６３は、通信Ｉ／Ｆ７３を介して第２のＬＡＮ端子２２に接続されている。これにより、制御部６３は、第２のＬＡＮ端子２２に接続された各機器と、通信Ｉ／Ｆ７３を介して情報伝送を行なうことができる。

また、上記制御部６３は、ＵＳＢＩ／Ｆ７４を介して前記ＵＳＢ端子２３に接続されている。これにより、制御部６３は、ＵＳＢ端子２３に接続された各機器と、ＵＳＢＩ／Ｆ７４を介して情報伝送を行なうことができる。

さらに、上記制御部６３は、ＩＥＥＥ１３９４Ｉ／Ｆ７５を介してＩＥＥＥ１３９４端子２４に接続されている。これにより、制御部６３は、ＩＥＥＥ１３９４端子２４に接続された各機器と、ＩＥＥＥ１３９４Ｉ／Ｆ７５を介して情報伝送を行なうことができる。

以下では、オーディオ信号特徴検出の実施例について説明する。
図２は、オーディオ処理部５７内に備えられ適応的に音質制御処理を施す音質制御装置の全体構成である。本装置は、特徴パラメータ算出部８１、音声スコア算出部８３、音楽スコア算出部８４、検出スコア蓄積メモリ８５、パワー値蓄積メモリ８６、スコア補正部８７ａ、パワー連動スコア適用判定部８７ｂ、音質制御部８８から構成されている。音質制御部８８から出力されたオーディオ信号を出力する出力手段としては、スピーカ１５を用いることができる。本装置は、入力オーディオ信号に対して混合信号や背景音(拍手、歓声、BGM等)が重畳された入力信号に対して音声か音楽かの判定において各特徴パラメータ値から音声の度合いおよび音楽の度合いをスコアリングすると共に、過去の入力信号のパワー値と検出スコアに応じて、信号パワーが低くかつ検出スコアが高い場合にパワー値に連動してスコアの補正を行い、そのスコアに基づいて信号特性に適した音質制御を行う。こうすることで、入力信号の信号特性に適した音質制御が実現できると共に、ドラマ等での会話の合間の弱いBGMや背景音に過剰に反応して音楽スコアが高くなり、それに応じて(会話のシーン等に)信号特性が切り替わる場合に音声向けの音質制御の追従性向上を図る。

特徴パラメータ算出部８１は言わば特徴量抽出手段であり、入力オーディオ信号を数百msec程度毎にをフレームとして切り出し、更にそれらを数十msecのサブフレームに分割し、サブフレーム単位でのパワー値、零交差周波数、およびステレオ信号の場合には左右(LR)信号のパワー比を求め、これらについてフレーム単位で統計量(平均/分散/最大/最小等)を算出して時間領域特徴パラメータとして抽出する。また、上記サブフレームに対応する信号単位で離散フーリエ変換を行うことで周波数領域の信号に変換する。この周波数領域の信号から、スペクトル変動やMFCC(メルケプストラム係数)変動や特定周波数帯域(楽器のベース成分)のエネルギー集中度を求め、これらについてフレーム単位で統計量(平均/分散/最大/最小等)を算出して周波数領域特徴パラメータとする。音声スコア算出部８３および音楽スコア算出部８４は、本願発明者らによる既出願特許(特願P2009-156004号, 特願P2009-217941号)と同様に、時間領域および周波数領域特徴パラメータから音声(スピーチ)信号の特性に近いか音楽(楽曲)の信号特性に近いかをそれぞれ音声スコアSSおよび音楽スコアSMとして算出する。それぞれのスコア算出にあたっては、まず、下式のように特徴パラメータセットxiを重み係数Aiで線形加算した音声・音楽識別スコアS1を算出する。これは、音楽度合いの方が高ければ正値になるように、また音声度合いの方が高ければ負値になるように線形識別するスコアである。

ここで重み係数Aiは、予め準備した多くの既知の音声信号データおよび音楽信号データを参照データとして予めオフライン学習させて決定する。学習は、全参照データに対する音声・音楽識別スコアS1が、音楽の場合には1.0、音声の場合には-1.0とする参照スコアとの誤差が最小になるよう係数を決定する。

また、背景音と音楽を識別するために背景音・音楽識別スコアS2を算出する。これは、音声・音楽識別スコアS1と同様に特徴パラメータの重み付け加算として算出するが、背景音と音楽とを区別するためのベース成分のエネルギー集中度といった特徴量を新たに加えている。S2は、音楽度合いの方が高ければ正値になるように、また背景音の音声度合いの方が高ければ負値になるように線形識別するスコアである。

ここで重み係数Biは、音声・音楽識別と同様に予め準備した多くの既知の背景音信号データおよび音楽信号データを参照データとして予めオフライン学習させて決定する。上記のようなこれらS1およびS2とから、前記既出願特許と同様に図３に示すとおりの背景音補正および安定化処理を経て音種別毎のスコアとして音声スコアSSおよび音楽スコアSMを算出する。音声スコアSSおよび音楽スコアSMは、前述の音声・音楽識別スコアS1および背景音・音楽識別スコアS2に基づいて算出される。

図３ではまず各スコア算出部が上記S1とS2とを算出する(ステップS31)。続いてスコア補正部８７ａによる以下の背景音補正は、S1<0(音楽より音声に近い、ステップS32のYes)かつS2>0(背景音より音楽に近い、ステップS33のYes)場合には、音声スコアSSは音声・音楽識別スコアS1が負値であるため絶対値|S1|(ステップS34)、音楽スコアSMは音声信号特性に近いので0に設定する(ステップS35)。S1<0(音楽より音声に近い、ステップS32のYes)かつS2>0でない(音楽より背景音に近い、ステップS33のNo)場合には、音声スコアSSはS1は負値であるため絶対値|S1|に加えて背景音に含まれる音声成分を考慮してαs×|S2|分だけ補正し(ステップS36)、音楽スコアSMは音声信号特性に近いので0に設定する(ステップS37)。

またS1<0でなく(音声より音楽に近い、ステップS32のNo)かつS2>0(背景音より音楽に近い、ステップS38のYes)場合には、音声スコアSSは音楽信号特性に近いので0(ステップS39)、音楽スコアSMは音楽信号度合いに対応するS1に設定する(ステップS40)。S1<0でなく(音声より音楽に近い)かつS2>0でない(音楽より背景音に近い、ステップS38のNo)場合には、音声スコアSSは音声度合いに対応するスコアである-S1に対して背景音に含まれる音声成分を考慮してαs×|S2|分だけ補正し(ステップS41)、音楽スコアSMは音楽信号度合いに対応するS1に対して背景音の度合いを考慮してαm×|S2|分だけ減算して補正する(ステップS42)。

また、安定化補正は、背景音補正して得られた音声スコアSSあるいは音楽スコアSMの連続性に応じて補正するパラメータである初期値0のSS3およびSM3を加算することにより行う。

例えば、ステップS35とステップS37の後に連続するフレームで既定回数Cs以上SS>0ならSS3にSS3を適正化するためのある既定の正値βsを加え、SM3からSM3を適正化するための既定の正値γmをひく(ステップS43)。また、ステップS40とステップS41の後に連続するフレームで既定回数Cｍ以上SM>0ならSS3からγsをひきSM3にβmを加える(ステップS44)。

その後、スコア補正部８７ａは、上記ステップS43またはステップS44で生成された安定化パラメータSS3およびSM3による過度の補正を防ぐために、これら安定化パラメータが予め設定された最小値Ｓと最大値との範囲内に収まるように、クリップ処理を施している(ステップS45)。

最後にSS3およびSM3による安定化補正をし(ステップS46)、必要ならスコアの平滑化として、過去フレームのスコアとの平均（移動平均等)をとる。
図２にもどり、パワー値蓄積メモリ８６は、特徴パラメータ算出部８１の計算過程で得られる入力信号のフレーム毎のパワー値を過去Nフレームに渡って保持する。検出スコア蓄積メモリ８５は、音声スコア算出部８３および音楽スコア算出部８４で得られた検出スコアを過去Nフレームに渡って保持する。パワー連動スコア補正部８７は、パワー値蓄積メモリ８６および検出スコア蓄積メモリ８５の情報に基づいて現フレームに対して検出スコアのパワー値に連動したスコア補正を行うかを判定するパワー連動スコア適用判定部８７ｂと、判定結果に応じてこれら情報に基づいてスコアを補正するスコア補正部８７ａから成り、必要に応じて補正を行った各音種別の検出スコアを音質制御部８８に出力する。このパワー連動スコア補正部８７の処理の詳細については別図にて後述する。音質制御部は、音声スコアおよび音楽スコアに応じて前記既出願特許と同様に音声向けあるいは音楽向けの音質制御の度合いを制御してコンテンツの信号特性にあった最適な音質制御を実現する。

図４は、ある信号区間（複数フレーム）に関するパワー値および各音種別に対するスコア、またそれらの平均値との相対関係を時系列で示している。例えば、ドラマや映画等での会話や街頭でのインタビュー等のシーン(区間B、D)では、実際に音声発話している時には音声信号との類似度が高いため音声スコア算出部から出力される音声スコアが高いと同時に、信号のパワー値も高い。図の棒グラフはフレーム単位のスコアおよびパワー値を示している。ただし、実際の信号区間はもっと多くのフレーム数から成りるが、図の表現上、数は少ない。一方、会話の合間等の音声がない時に弱いBGMが流れていたり背景に生活雑音や雑踏音が存在したりするシーン(区間A、C)では、信号パワー値は低いが、それらが音楽信号と類似しているとパワー値に関わらず音楽スコア算出部は高い音楽スコアを出力することがある。このような場合、スコア算出時の遅延や後段の平滑化処理の影響により後続の発話(区間B、D)の冒頭部分で音楽スコアが高めになることがあり、結果としてそれに応じた音質制御に悪影響を与えることがある。また、スコアを表示する等の視覚化した際に、再生しているオーディオ信号のボリュームが小さい(パワー値が低い)にも関わらずスコアが高いと主観的イメージとのずれを感じることがある。その他、音楽シーン(区間F)では、でパワー値および音楽スコアが共に高い状態であり問題はない。音楽信号とも音声信号とも類似度の低いノイズ性の強いシーン(区間E、G)では、共にスコアは低い状態であり問題ない。ここで、前述した音声の合間の区間(例えば、区間C)での高い音楽スコアに対して、パワー値に合わせて単純にスコアをスケーリングする方法では、パワー値の低い区間のスコア上昇を抑えられるものの、パワー値の高い音声区間(例えば、区間A、C)では相対的に音楽スコアの上昇を招いたり、楽曲区間等でパワー値の応じて頻繁に音楽スコアが変動したりすることになり好ましくない。そこで、本提案手法では、パワー値と共に過去のスコア判定に着目しながら前述の低パワー値かつ高音楽スコア区間にだけ適切なスコアに補正する制御を行う。

図５は、図４で示した状況を踏まえて過去のパワー値と検出スコア(音楽)の情報に応じて適切なスコアに補正するパワー連動スコア補正の処理の流れを示したものである。まず、前半部のパワー連動スコア適用判定では、特徴パラメータ算出部８１の処理過程で得られるフレーム毎のパワー値を蓄積したパワー値蓄積メモリ８６から過去Nフレーム分のパワー平均値Paveをパワー連動スコア適用判定部８７ｂが算出する（ステップＳ５１）。次に、音楽スコア算出部８４より出力された音楽スコアを蓄積した検出スコア蓄積メモリ８５から過去Nフレーム分の音楽スコアの平均値SMaveをパワー連動スコア適用判定部８７ｂが算出する（ステップＳ５２）。これらの値と現フレームのパワー値Pcurと音楽スコアSMとから現フレームをスコア補正すべきか以下のようにパワー連動スコア適用判定部８７ｂが順次判定し、条件を満たせば次のステップを実行する。

まず、現フレームのパワー値PcurとPaveとを比較しPcur<αpm×Paveが成り立つか、つまり現フレームのパワーがこれまでの信号より低いかチェックする（ステップＳ５３）。ここで、αpmは1.0以下の値で平均値にマージンを持たせた値で閾値判定するための係数である。条件を満たせばスコア補正候補であり、満たさなければスコア補正を適用しないで終了する。次に、現フレームの音楽スコアSMとSMaveとを比較しSM>βsm×SMaveが成り立つか、つまり現フレームの音楽スコアがこれまで信号より高いかチェックする（ステップＳ５４）。ここで、βsmは1.0以上の値で平均値にマージンを持たせた値で閾値判定するための係数である。条件を満たせばスコア補正候補であり、満たさなければスコア補正を適用しないで終了する。

これら判定条件を図示したものが図４のパワー相対関係(対平均)と音楽スコア相対関係(対平均)である。図で前者の矢印が下向き(平均よりも低い)かつ後者の矢印が上向き(平均よりも高い)の条件に区間AおよびCが該当する。また、過去Nフレーム区間で上記該当フレーム数Nsmが占める割合をNsm>γsm×Nが成り立つかでチェックする（ステップＳ５５）。ここで、γsmは該当フレームが占める割合を示す閾値で1.0以下の係数である。これは、楽曲区間等でほとんどの区間でパワー値および音楽スコアは高いが、途中の一時的なボリューム低下時に音楽スコアを誤って低下補正することを緩和するための条件である。条件を満たせばスコア補正候補であり、満たさなければスコア補正を適用しないで終了する。上記条件を満たしたフレームに対しては以下の後半部のスコア補正部８７ａによるスコア補正処理を行う。

まず、補正するスコア値を決めるためにベース音楽スコアSMbを算出する（ステップＳ５６）。これは、音声やノイズ等の音楽スコアが低い区間のスコアに基づいた値とするため、過去Nフレームの内のβsmb×SMave以下となるフレームのスコアの平均値SMbとする。ここで、βsmbは1.0以下の値で平均値にマージンを持たせた値である。次に、音楽スコアSMを補正値に更新する（ステップＳ５７）。補正値としてはSMbをそのまま設定する以外に、所定の低スコアの固定値、あるいは過去直近のSMb以下の値、あるいはSMが規定値以下になるように補正値を減算した値(ただし、減算後の値が0以下になる場合には0とする)を利用する方法でもよい。

図６は、音声スコアに対するパワー連動スコア補正の処理の流れを示したものである。図５は音楽スコアに関するスコア補正について述べたが、一方、音声は信号特性としてパワーの低い区間でスコアが高くなる現象は発生しにくく、むしろ台詞等の発話区間中の短時間の間(パワー値は低い)に対して音質制御の連続性を考慮してスコアを落とさない補正が望ましい。従って、音声スコアに対しては以下に述べるスコア補正を適用する。

まず、前半部のパワー連動スコア適用判定では、図５と同様に過去Nフレーム分のパワー平均値Paveをパワー連動スコア適用判定部８７ｂが算出する（ステップＳ６１）。次に、音声スコア算出部８３より出力された音声スコアを蓄積した検出スコア蓄積メモリ８５から過去Nフレーム分の音声スコアの平均値SSaveをパワー連動スコア適用判定部８７ｂが算出する（ステップＳ６２）。これらの値と現フレームのパワー値Pcurと音声スコアSSとから現フレームをスコア補正すべきか以下のようにパワー連動スコア適用判定部８７ｂが順次判定し、条件を満たせば次のステップを実行する。

まず、現フレームのパワー値PcurとPaveとを比較しPcur<αps×Paveが成り立つか、つまり現フレームのパワーがこれまでの信号より低いかチェックする（ステップＳ６３）。ここで、αpsは1.0以下の値で平均値にマージンを持たせた値で閾値判定するための係数である。条件を満たせばスコア補正候補であり、満たさなければスコア補正を適用しないで終了する。次に、現フレームの音声スコアSSとSSaveとを比較しSS<βss×SSaveが成り立つか、つまり現フレームの音声スコアがこれまで信号より低いかチェックする（ステップＳ６４）。ここで、βssは1.0以下の値で平均値にマージンを持たせた値で閾値判定するための係数である。条件を満たせばスコア補正候補であり、満たさなければスコア補正を適用しないで終了する。

また、過去Nフレーム区間で上記該当フレーム数Nssが占める割合をNss<γss×Nが成り立つかでチェックする（ステップＳ６５）。ここで、γssは該当フレームが占める割合を示す閾値で1.0以下の係数である。これは、会話の合間の発話と発話の間の時間が比較的長い区間でパワー値および音声スコアが低い場合に、継続的に誤って音声スコアを増幅補正することを緩和するための条件である。条件を満たせば(つまり、会話の合間が短い場合に)スコア補正候補であり、満たさなければスコア補正を適用しないで終了する。上記条件を満たしたフレームに対しては以下の後半部のスコア補正部８７ａによるスコア補正処理を行う。

まず、補正するスコア値を決めるためにベース音声スコアSSbを算出する（ステップＳ６６）。これは、発話区間での音声スコアに基づいた値とするため、過去Nフレームの内のβssb×SSave以上となるフレームのスコアの平均値SSbとする。ここで、βssbは1.0以上の値で平均値にマージンを持たせた値である。次に、音声スコアSSを補正値に更新する（ステップＳ６７）。補正値としてはSSbをそのまま設定する以外に、所定の高スコアの固定値、あるいは過去直近のSSb以上の値、あるいはSSが規定値以上になるように補正値を加算した値(ただし、加算後の値がSSが取り得る最大値以下になるようにクリップする)を利用する方法でもよい。

以上説明した実施例によれば、オーディオ信号に対して音声あるいは音楽の識別を行う際に、入力信号のパワー値と各音種別に対するスコア(類似度)を考慮してスコアの補正を行い、この補正した結果に応じて音質制御を行うことにより、信号特性が切り替わる場合に(会話のシーン等)音声制御の追従性を向上させ高音質化を図ることができる。

以上のようにして入力信号の特性を解析して音声あるいは音楽にどの程度近いかを検出しスコアを算出し、過去の入力信号のパワー値と検出スコアに応じて、信号パワーが低くかつ検出スコアが高い場合にパワー値に連動してスコアの補正を行う。また、そのスコアに基づいて信号特性に適した音質制御を行う。こうすることで、ドラマ等での会話の合間の弱いBGMや背景音に過剰に反応して音楽スコアが高くなり、それに応じて信号特性が切り替わる場合に(会話のシーン等)音声制御の追従性が向上する。また、検出スコアを視覚化した際にも主観的な印象と一致しやすい。

（実施形態のポイント）
（１）オーディオ入力信号の特性を解析して音声あるいは音楽にどの程度近いかを検出しスコア判定する際に、過去の入力信号のパワー値と検出スコアに応じて、信号パワーが低い場合にパワー値に連動してスコアの補正を行う。また、そのスコアに基づいて信号特性に適した音質制御を行う。

（２）音楽スコア補正適用の判定方法は、現信号のパワー値が所定時間の過去信号のパワー平均値に基づく閾値以下、かつ現信号のスコアが所定時間の過去信号のスコア平均値に基づく閾値以上であることを条件とする。また、音楽区間での短時間のパワー低下による影響を排除するために、前記条件に該当する区間が所定時間の内の閾値以上であることを加えてもよい。

（３）音楽スコア補正方法は、前記適用条件に該当する信号に対して、該当区間以外の平均スコア、あるいは所定のスコア、あるいは該当区間以外の直近のスコア、あるいは現在のスコアに所定の補正値を減算したスコアに設定する。

（４）音声スコアの補正適用の判定方法は、現信号のパワー値が所定時間の過去信号のパワー平均値に基づく閾値以下、かつ現信号のスコアが所定時間の過去信号のスコア平均値に基づく閾値以下であることを条件とする。また、発話区間中の短時間の間に対するスコアの連続性を考慮して、前記条件に該当する区間が所定時間の内の閾値以下であることを加えてもよい。

（５）音声スコア補正方法は、前記適用条件に該当する信号に対して、該当区間以外の平均スコア、あるいは所定のスコア、あるいは該当区間以外の直近のスコア、あるいは現在のスコアに所定の補正値を加算したスコアに設定する。

なお、この発明は上記実施形態に限定されるものではなく、この外その要旨を逸脱しない範囲で種々変形して実施することができる。例えば、各係数の値は変化させてもよく、経験的に設定した値を適応的に変化させる構成としてもよい。

また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係わる構成要素を適宜組み合わせても良いものである。

１１…デジタルテレビジョン放送受信装置、１４…映像表示器、１５…スピーカ、１６…操作部、１７…リモートコントローラ、１８…受光部、１９…第１のメモリカード、２０…第２のメモリカード、２１…第１のＬＡＮ端子、２２…第２のＬＡＮ端子、２３…ＵＳＢ端子、２４…ＩＥＥＥ１３９４端子、４３…アンテナ、４４…入力端子、４５…チューナ、４６…ＰＳＫ復調器、４７…ＴＳ復号器、４８…信号処理部、４９…アンテナ、５０…入力端子、５１…チューナ、５２…ＯＦＤＭ復調器、５３…ＴＳ復号器、５４…チューナ、５５…アナログ復調器、５６…グラフィック処理部、５７…オーディオ処理部、５８ａ〜５８ｄ…入力端子、５９…ＯＳＤ信号生成部、６０…映像処理部、６１，６２…出力端子、６３…制御部、６４…ＣＰＵ、６５…ＲＯＭ、６６…ＲＡＭ、６７…不揮発性メモリ、６８…カードＩ／Ｆ、６９…カードホルダ、７０…カードＩ／Ｆ、７１…カードホルダ、７２，７３…通信Ｉ／Ｆ、７４…ＵＳＢＩ／Ｆ、７５…ＩＥＥＥ１３９４Ｉ／Ｆ、８１…特徴パラメータ算出部、８３…音声スコア算出部、８４…音楽スコア算出部、８５…検出スコア蓄積メモリ、８６…パワー値蓄積メモリ、８７…パワー連動スコア補正部、８７ａ…スコア補正部、８７ｂ…パワー連動スコア適用判定部、８８…音質制御部。

Claims

入力オーディオ信号の特性を解析し特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段の出力から音声信号特性との類似度を表す音声スコアを算出する音声スコア算出手段と、
前記特徴量抽出手段の出力から音楽信号特性との類似度を表す音楽スコアを算出する音楽スコア算出手段と、
前記入力オーディオ信号に対してパワーを測定した結果であるパワー値を取得するパワー値取得手段と、
過去一定区間の前記音声スコアおよび音楽スコアを蓄積する手段と、前記特徴量抽出手段から得られる過去一定区間の前記オーディオ入力信号のパワー値を蓄積する手段と、過去の前記パワー値と現在の前記パワー値との比較結果、および過去の前記音楽スコアと現在の前記音楽検出スコアとの比較結果、および過去の前記音声スコアと現在の前記音声スコアとの比較結果に応じて、現在の前記音楽スコアあるいは現在の前記音声スコアを補正するパワー連動スコア補正手段と、
前記パワー連動スコア補正手段から得られる前記音声スコアまたは音楽スコアの少なくともいずれか一方を使って前記入力オーディオ信号の音質制御を行う音質制御手段とを
備えた音質制御装置。
前記パワー連動スコア補正手段における音楽スコア補正適用の判定条件は、現在の前記パワー値が所定時間の過去信号の前記パワー値の平均に基づく閾値以下、かつ現在の音楽スコアが所定時間の過去信号のスコア平均値に基づく閾値以上であることを特徴とする請求項１に記載の音質制御装置。
前記パワー連動スコア補正手段における音楽スコア補正適用の判定条件は、前記判定条件に加え、前記判定条件に該当する区間が所定時間の内の閾値以上であることを特徴とする請求項２に記載の音質制御装置。
前記パワー連動スコア補正手段における音楽スコア補正方法は、前記適用条件に該当する信号に対して、該当区間以外の平均スコア、あるいは所定のスコア、あるいは該当区間以外の直近のスコア、あるいは現在のスコアに所定の補正値を減算したスコアに設定することを特徴とする請求項１に記載の音質制御装置。
前記パワー連動スコア補正手段における音声スコアの補正適用の判定条件は、現在のパワー値が所定時間の過去信号のパワー平均値に基づく閾値以下、かつ現信号のスコアが所定時間の過去信号のスコア平均値に基づく閾値以下であることを特徴とする請求項１に記載の音質制御装置。
前記パワー連動スコア補正手段における音声スコアの補正適用の判定条件は、前記判定条件に加え、前記条件に該当する区間が所定時間の内の閾値以下であることを特徴とする請求項５に記載の音質制御装置。
前記パワー連動スコア補正手段における音声スコア補正方法は、前記適用条件に該当する信号に対して、該当区間以外の平均スコア、あるいは所定のスコア、あるいは該当区間以外の直近のスコア、あるいは現在のスコアに所定の補正値を加算したスコアに設定することを特徴とする請求項１に記載の音質制御装置。
入力オーディオ信号の特性を解析し特徴量を抽出し、
前記特徴量から音声信号特性との類似度を表す音声スコアを算出し、
前記特徴量から音楽信号特性との類似度を表す音楽スコアを算出し、
前記入力オーディオ信号に対してパワーを測定した結果であるパワー値を取得し、
過去一定区間の前記音声スコアおよび音楽スコアを蓄積する手段と、前記特徴量抽出手段から得られる過去一定区間の前記オーディオ入力信号のパワー値を蓄積する手段と、過去の前記パワー値と現在の前記パワー値との比較結果、および過去の前記音楽スコアと現在の前記音楽検出スコアとの比較結果、および過去の前記音声スコアと現在の前記音声スコアとの比較結果に応じて、現在の前記音楽スコアあるいは現在の前記音声スコアを補正し、
かく補正された前記音声スコアまたは音楽スコアの少なくともいずれか一方を使って前記入力オーディオ信号の音質制御を行う音質制御方法。