JP4837123B1 - 音質制御装置及び音質制御方法 - Google Patents

音質制御装置及び音質制御方法 Download PDF

Info

Publication number
JP4837123B1
JP4837123B1 JP2010169638A JP2010169638A JP4837123B1 JP 4837123 B1 JP4837123 B1 JP 4837123B1 JP 2010169638 A JP2010169638 A JP 2010169638A JP 2010169638 A JP2010169638 A JP 2010169638A JP 4837123 B1 JP4837123 B1 JP 4837123B1
Authority
JP
Japan
Prior art keywords
score
music
signal
voice
sound quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010169638A
Other languages
English (en)
Other versions
JP2012032447A (ja
Inventor
広和 竹内
裕 米久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010169638A priority Critical patent/JP4837123B1/ja
Priority to US13/096,813 priority patent/US8457954B2/en
Application granted granted Critical
Publication of JP4837123B1 publication Critical patent/JP4837123B1/ja
Publication of JP2012032447A publication Critical patent/JP2012032447A/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】信号特性の切り替わりに対する追従性を向上した音質制御をすることができる音質制御装置及び音質制御方法を提供する。
【解決手段】過去一定区間の音声スコアおよび音楽スコアを蓄積する手段と、過去一定区間のオーディオ入力信号のパワー値を蓄積する手段と、過去の前記パワー値と現在の前記パワー値との比較結果、および過去の前記音楽スコアと現在の前記音楽検出スコアとの比較結果、および過去の前記音声スコアと現在の前記音声スコアとの比較結果に応じて、現在の前記音楽スコアあるいは現在の前記音声スコアを補正するパワー連動スコア補正手段と、前記パワー連動スコア補正手段から得られる前記音声スコアまたは音楽スコアの少なくともいずれか一方を使って前記入力オーディオ信号の音質制御を行う音質制御手段とを備えた音質制御装置。
【選択図】 図2

Description

本発明の実施形態は、入力される音響信号の信号特性の切り替わりに追従する音質制御装置及び音質制御方法に関する。
周知のように、例えばテレビジョン放送を受信する放送受信機器や、情報記録媒体からその記録情報を再生する情報再生機器等にあっては、受信した放送信号や情報記録媒体から読み取った信号等からオーディオ信号を再生する際に、オーディオ信号に音質制御処理を施すことによって、より一層の高音質化を図るようにしている。
この場合、オーディオ信号に施す音質制御処理の内容は、オーディオ信号が人の話し声のような音声信号であるか、楽曲のような音楽(非音声)信号であるかに応じて異なる。すなわち、音声信号に対しては、トークシーンやスポーツ実況等のようにセンター定位成分を強調して明瞭化するように音質制御処理を施すことで音質が向上し、音楽信号に対しては、ステレオ感を強調した拡がりのある音質制御処理を施すことで音質が向上する。
このため、取得したオーディオ信号が音声信号か音楽信号かを判別し、その判別結果に応じて対応する音質制御処理を施すことが考えられている。例えば特許文献1には、入力される音響信号の零交差回数やパワー変動等を分析することによって、音響信号を「音声」と「非音声(音楽)」と「不定」との3種類に分類判定し、その判定結果に基づいて音響信号に対する周波数特性を、段階的に制御する構成が開示されている。
この制御方法は、音声向けの音声帯域を強調する周波数特性から非音声(音楽)向けの音声帯域以外も含めたフラットな周波数特性(音声のみに比較して広帯域)まで複数の段階的に異なる帯域強調特性を持つイコライザを使って、判別結果に基づいて「音声」であれば音声向けの特性に、「非音声(音楽)」であればフラットな特性に、「不定」であれば前の判定を保持するように周波数特性を段階的に遷移させるものである。
しかしながら、通常の放送番組では明確に音声のみ非音声(音楽)のみというシーンは少なく、混合された信号に対しては「不定」判定に陥りやすくなったり、前判定を保持するため誤判定を引きずったりして誤った音質制御になりやすい。また更に、信号のパワー値に応じた判定を行うわけではないため、信号としてはあまり重要でないパワーの小さい背景雑音やBGM等の信号区間に対しても通常と同様に判定を行うと、その後の信号特性の切り替わりに対する音質制御の追従性が問題になる場合がある。
かかる問題点に対処する要望を実現するための手段は知られていない。
特開平7−13586号公報
本発明は、信号特性の切り替わりに対する追従性を向上した音質制御をすることができる音質制御装置及び音質制御方法を提供することを目的とする。
上記課題を解決するために、実施形態の音質制御装置によれば、入力オーディオ信号の特性を解析し特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段の出力から音声信号特性との類似度を表す音声スコアを算出する音声スコア算出手段と、前記特徴量抽出手段の出力から音楽信号特性との類似度を表す音楽スコアを算出する音楽スコア算出手段と、過去一定区間の前記音声スコアおよび音楽スコアを蓄積する手段と、前記特徴量抽出手段から得られる過去一定区間の前記オーディオ入力信号のパワー値を蓄積する手段と、過去の前記パワー値と現在の前記パワー値との比較結果、および過去の前記音楽スコアと現在の前記音楽検出スコアとの比較結果、および過去の前記音声スコアと現在の前記音声スコアとの比較結果に応じて、現在の前記音楽スコアあるいは現在の前記音声スコアを補正するパワー連動スコア補正手段と、前記パワー連動スコア補正手段から得られる前記音声スコアまたは音楽スコアの少なくともいずれか一方を使って前記入力オーディオ信号の音質制御を行う音質制御手段とを備えた。
この発明の一実施形態を示すブロック構成図。 同実施形態の音質制御装置全体ブロック図。 同実施形態の音声スコアおよび音楽スコア算出処理フロー。 同実施形態のパワー値と検出スコアの関係を説明するために示す特性図。 同実施形態のパワー連動スコア補正処理フロー(音楽)。 同実施形態のパワー連動スコア補正処理フロー(音声)。
以下、本発明の実施形態を説明する。
(第1の実施形態)
本発明による第1の実施形態を図1乃至図6を参照して説明する。
図1は、この発明の一実施形態を示すブロック構成図を示している。
図1は、この発明の一実施形態であるデジタルテレビジョン放送受信装置11の主要な信号処理系を示している。すなわち、BS/CS(broadcasting satellite/communication satellite)デジタル放送受信用のアンテナ43で受信した衛星デジタルテレビジョン放送信号は、入力端子44を介して衛星デジタル放送用のチューナ45に供給されることにより、所望のチャンネルの放送信号が選局される。
そして、このチューナ45で選局された放送信号は、PSK(phase shift keying)復調器46及びTS(transport stream)復号器47に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、信号処理部48に出力される。
また、地上波放送受信用のアンテナ49で受信した地上デジタルテレビジョン放送信号は、入力端子50を介して地上デジタル放送用のチューナ51に供給されることにより、所望のチャンネルの放送信号が選局される。
そして、このチューナ51で選局された放送信号は、例えば日本ではOFDM(orthogonal frequency division multiplexing)復調器52及びTS復号器53に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、上記信号処理部48に出力される。
また、上記地上波放送受信用のアンテナ49で受信した地上アナログテレビジョン放送信号は、入力端子50を介して地上アナログ放送用のチューナ54に供給されることにより、所望のチャンネルの放送信号が選局される。そして、このチューナ54で選局された放送信号は、アナログ復調器55に供給されてアナログの映像信号及びオーディオ信号に復調された後、上記信号処理部48に出力される。
ここで、上記信号処理部48は、TS復号器47,53からそれぞれ供給されたデジタルの映像信号及びオーディオ信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理部56及びオーディオ処理部57に出力している。
また、上記信号処理部48には、複数(図示の場合は4つ)の入力端子58a,58b,58c,58dが接続されている。これら入力端子58a〜58dは、それぞれ、アナログの映像信号及びオーディオ信号を、デジタルテレビジョン放送受信装置11の外部から入力可能とするものである。
そして、上記信号処理部48は、上記アナログ復調器55及び各入力端子58a〜58dからそれぞれ供給されたアナログの映像信号及びオーディオ信号を選択的にデジタル化し、このデジタル化された映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、グラフィック処理部56及びオーディオ処理部57に出力する。
グラフィック処理部56は、信号処理部48から供給されるデジタルの映像信号に、OSD(on screen display)信号生成部59で生成されるOSD信号を重畳して出力する機能を有する。このグラフィック処理部56は、信号処理部48の出力映像信号と、OSD信号生成部59の出力OSD信号とを選択的に出力すること、また、両出力をそれぞれ画面の半分を構成するように組み合わせて出力することができる。
グラフィック処理部56から出力されたデジタルの映像信号は、映像処理部60に供給される。この映像処理部60は、入力されたデジタルの映像信号を、前記映像表示器14で表示可能なフォーマットのアナログ映像信号に変換した後、映像表示器14に出力して映像表示させるとともに、出力端子61を介して外部に導出させる。
また、上記オーディオ処理部57は、入力されたデジタルのオーディオ信号に対して、後述する音質補正処理を施した後、前記スピーカ15で再生可能なフォーマットのアナログオーディオ信号に変換している。そして、このアナログオーディオ信号は、スピーカ15に出力されてオーディオ再生に供されるとともに、出力端子62を介して外部に導出される。スピーカ15は、音質制御された出力オーディオ信号を出力する出力手段となる。
ここで、このデジタルテレビジョン放送受信装置11は、上記した各種の受信動作を含むその全ての動作を制御部63によって統括的に制御されている。この制御部63は、CPU(central processing unit)64を内蔵しており、前記操作部16からの操作情報、または、リモートコントローラ17から送出され前記受光部18に受信された操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。
この場合、制御部63は、主として、そのCPU64が実行する制御プログラムを格納したROM(read only memory)65と、該CPU64に作業エリアを提供するRAM(random access memory)66と、各種の設定情報及び制御情報等が格納される不揮発性メモリ67とを利用している。
また、この制御部63は、カードI/F(interface)68を介して、前記第1のメモリカード19が装着可能なカードホルダ69に接続されている。これによって、制御部63は、カードホルダ69に装着された第1のメモリカード19と、カードI/F68を介して情報伝送を行なうことができる。
さらに、上記制御部63は、カードI/F70を介して、前記第2のメモリカード20が装着可能なカードホルダ71に接続されている。これにより、制御部63は、カードホルダ71に装着された第2のメモリカード20と、カードI/F70を介して情報伝送を行なうことができる。
また、上記制御部63は、通信I/F72を介して第1のLAN端子21に接続されている。これにより、制御部63は、第1のLAN端子21に接続されたLAN対応のHDD25と、通信I/F72を介して情報伝送を行なうことができる。この場合、制御部63は、DHCP(dynamic host configuration protocol)サーバ機能を有し、第1のLAN端子21に接続されたLAN対応のHDD25にIP(internet protocol)アドレスを割り当てて制御している。
さらに、上記制御部63は、通信I/F73を介して第2のLAN端子22に接続されている。これにより、制御部63は、第2のLAN端子22に接続された各機器と、通信I/F73を介して情報伝送を行なうことができる。
また、上記制御部63は、USB I/F74を介して前記USB端子23に接続されている。これにより、制御部63は、USB端子23に接続された各機器と、USBI/F74を介して情報伝送を行なうことができる。
さらに、上記制御部63は、IEEE1394I/F75を介してIEEE1394端子24に接続されている。これにより、制御部63は、IEEE1394端子24に接続された各機器と、IEEE1394I/F75を介して情報伝送を行なうことができる。
以下では、オーディオ信号特徴検出の実施例について説明する。
図2は、オーディオ処理部57内に備えられ適応的に音質制御処理を施す音質制御装置の全体構成である。本装置は、特徴パラメータ算出部81、音声スコア算出部83、音楽スコア算出部84、検出スコア蓄積メモリ85、パワー値蓄積メモリ86、スコア補正部87a、パワー連動スコア適用判定部87b、音質制御部88から構成されている。音質制御部88から出力されたオーディオ信号を出力する出力手段としては、スピーカ15を用いることができる。本装置は、入力オーディオ信号に対して混合信号や背景音(拍手、歓声、BGM等)が重畳された入力信号に対して音声か音楽かの判定において各特徴パラメータ値から音声の度合いおよび音楽の度合いをスコアリングすると共に、過去の入力信号のパワー値と検出スコアに応じて、信号パワーが低くかつ検出スコアが高い場合にパワー値に連動してスコアの補正を行い、そのスコアに基づいて信号特性に適した音質制御を行う。こうすることで、入力信号の信号特性に適した音質制御が実現できると共に、ドラマ等での会話の合間の弱いBGMや背景音に過剰に反応して音楽スコアが高くなり、それに応じて(会話のシーン等に)信号特性が切り替わる場合に音声向けの音質制御の追従性向上を図る。
特徴パラメータ算出部81は言わば特徴量抽出手段であり、入力オーディオ信号を数百msec程度毎にをフレームとして切り出し、更にそれらを数十msecのサブフレームに分割し、サブフレーム単位でのパワー値、零交差周波数、およびステレオ信号の場合には左右(LR)信号のパワー比を求め、これらについてフレーム単位で統計量(平均/分散/最大/最小等)を算出して時間領域特徴パラメータとして抽出する。また、上記サブフレームに対応する信号単位で離散フーリエ変換を行うことで周波数領域の信号に変換する。この周波数領域の信号から、スペクトル変動やMFCC(メルケプストラム係数)変動や特定周波数帯域(楽器のベース成分)のエネルギー集中度を求め、これらについてフレーム単位で統計量(平均/分散/最大/最小等)を算出して周波数領域特徴パラメータとする。音声スコア算出部83および音楽スコア算出部84は、本願発明者らによる既出願特許(特願P2009-156004号, 特願P2009-217941号)と同様に、時間領域および周波数領域特徴パラメータから音声(スピーチ)信号の特性に近いか音楽(楽曲)の信号特性に近いかをそれぞれ音声スコアSSおよび音楽スコアSMとして算出する。それぞれのスコア算出にあたっては、まず、下式のように特徴パラメータセットxiを重み係数Aiで線形加算した音声・音楽識別スコアS1を算出する。これは、音楽度合いの方が高ければ正値になるように、また音声度合いの方が高ければ負値になるように線形識別するスコアである。
Figure 0004837123
ここで重み係数Aiは、予め準備した多くの既知の音声信号データおよび音楽信号データを参照データとして予めオフライン学習させて決定する。学習は、全参照データに対する音声・音楽識別スコアS1が、音楽の場合には1.0、音声の場合には-1.0とする参照スコアとの誤差が最小になるよう係数を決定する。
また、背景音と音楽を識別するために背景音・音楽識別スコアS2を算出する。これは、音声・音楽識別スコアS1と同様に特徴パラメータの重み付け加算として算出するが、背景音と音楽とを区別するためのベース成分のエネルギー集中度といった特徴量を新たに加えている。S2は、音楽度合いの方が高ければ正値になるように、また背景音の音声度合いの方が高ければ負値になるように線形識別するスコアである。
Figure 0004837123
ここで重み係数Biは、音声・音楽識別と同様に予め準備した多くの既知の背景音信号データおよび音楽信号データを参照データとして予めオフライン学習させて決定する。上記のようなこれらS1およびS2とから、前記既出願特許と同様に図3に示すとおりの背景音補正および安定化処理を経て音種別毎のスコアとして音声スコアSSおよび音楽スコアSMを算出する。音声スコアSSおよび音楽スコアSMは、前述の音声・音楽識別スコアS1および背景音・音楽識別スコアS2に基づいて算出される。
図3ではまず各スコア算出部が上記S1とS2とを算出する(ステップS31)。続いてスコア補正部87aによる以下の背景音補正は、S1<0(音楽より音声に近い、ステップS32のYes)かつS2>0(背景音より音楽に近い、ステップS33のYes)場合には、音声スコアSSは音声・音楽識別スコアS1が負値であるため絶対値|S1|(ステップS34)、音楽スコアSMは音声信号特性に近いので0に設定する(ステップS35)。S1<0(音楽より音声に近い、ステップS32のYes)かつS2>0でない(音楽より背景音に近い、ステップS33のNo)場合には、音声スコアSSはS1は負値であるため絶対値|S1|に加えて背景音に含まれる音声成分を考慮してαs×|S2|分だけ補正し(ステップS36)、音楽スコアSMは音声信号特性に近いので0に設定する(ステップS37)。
またS1<0でなく(音声より音楽に近い、ステップS32のNo)かつS2>0(背景音より音楽に近い、ステップS38のYes)場合には、音声スコアSSは音楽信号特性に近いので0(ステップS39)、音楽スコアSMは音楽信号度合いに対応するS1に設定する(ステップS40)。S1<0でなく(音声より音楽に近い)かつS2>0でない(音楽より背景音に近い、ステップS38のNo)場合には、音声スコアSSは音声度合いに対応するスコアである-S1に対して背景音に含まれる音声成分を考慮してαs×|S2|分だけ補正し(ステップS41)、音楽スコアSMは音楽信号度合いに対応するS1に対して背景音の度合いを考慮してαm×|S2|分だけ減算して補正する(ステップS42)。
また、安定化補正は、背景音補正して得られた音声スコアSSあるいは音楽スコアSMの連続性に応じて補正するパラメータである初期値0のSS3およびSM3を加算することにより行う。
例えば、ステップS35とステップS37の後に連続するフレームで既定回数Cs以上SS>0ならSS3にSS3を適正化するためのある既定の正値βsを加え、SM3からSM3を適正化するための既定の正値γmをひく(ステップS43)。また、ステップS40とステップS41の後に連続するフレームで既定回数Cm以上SM>0ならSS3からγsをひきSM3にβmを加える(ステップS44)。
その後、スコア補正部87aは、上記ステップS43またはステップS44で生成された安定化パラメータSS3およびSM3による過度の補正を防ぐために、これら安定化パラメータが予め設定された最小値Sと最大値との範囲内に収まるように、クリップ処理を施している(ステップS45)。
最後にSS3およびSM3による安定化補正をし(ステップS46)、必要ならスコアの平滑化として、過去フレームのスコアとの平均(移動平均等)をとる。
図2にもどり、パワー値蓄積メモリ86は、特徴パラメータ算出部81の計算過程で得られる入力信号のフレーム毎のパワー値を過去Nフレームに渡って保持する。検出スコア蓄積メモリ85は、音声スコア算出部83および音楽スコア算出部84で得られた検出スコアを過去Nフレームに渡って保持する。パワー連動スコア補正部87は、パワー値蓄積メモリ86および検出スコア蓄積メモリ85の情報に基づいて現フレームに対して検出スコアのパワー値に連動したスコア補正を行うかを判定するパワー連動スコア適用判定部87bと、判定結果に応じてこれら情報に基づいてスコアを補正するスコア補正部87aから成り、必要に応じて補正を行った各音種別の検出スコアを音質制御部88に出力する。このパワー連動スコア補正部87の処理の詳細については別図にて後述する。音質制御部は、音声スコアおよび音楽スコアに応じて前記既出願特許と同様に音声向けあるいは音楽向けの音質制御の度合いを制御してコンテンツの信号特性にあった最適な音質制御を実現する。
図4は、ある信号区間(複数フレーム)に関するパワー値および各音種別に対するスコア、またそれらの平均値との相対関係を時系列で示している。例えば、ドラマや映画等での会話や街頭でのインタビュー等のシーン(区間B、D)では、実際に音声発話している時には音声信号との類似度が高いため音声スコア算出部から出力される音声スコアが高いと同時に、信号のパワー値も高い。図の棒グラフはフレーム単位のスコアおよびパワー値を示している。ただし、実際の信号区間はもっと多くのフレーム数から成りるが、図の表現上、数は少ない。一方、会話の合間等の音声がない時に弱いBGMが流れていたり背景に生活雑音や雑踏音が存在したりするシーン(区間A、C)では、信号パワー値は低いが、それらが音楽信号と類似しているとパワー値に関わらず音楽スコア算出部は高い音楽スコアを出力することがある。このような場合、スコア算出時の遅延や後段の平滑化処理の影響により後続の発話(区間B、D)の冒頭部分で音楽スコアが高めになることがあり、結果としてそれに応じた音質制御に悪影響を与えることがある。また、スコアを表示する等の視覚化した際に、再生しているオーディオ信号のボリュームが小さい(パワー値が低い)にも関わらずスコアが高いと主観的イメージとのずれを感じることがある。その他、音楽シーン(区間F)では、でパワー値および音楽スコアが共に高い状態であり問題はない。音楽信号とも音声信号とも類似度の低いノイズ性の強いシーン(区間E、G)では、共にスコアは低い状態であり問題ない。ここで、前述した音声の合間の区間(例えば、区間C)での高い音楽スコアに対して、パワー値に合わせて単純にスコアをスケーリングする方法では、パワー値の低い区間のスコア上昇を抑えられるものの、パワー値の高い音声区間(例えば、区間A、C)では相対的に音楽スコアの上昇を招いたり、楽曲区間等でパワー値の応じて頻繁に音楽スコアが変動したりすることになり好ましくない。そこで、本提案手法では、パワー値と共に過去のスコア判定に着目しながら前述の低パワー値かつ高音楽スコア区間にだけ適切なスコアに補正する制御を行う。
図5は、図4で示した状況を踏まえて過去のパワー値と検出スコア(音楽)の情報に応じて適切なスコアに補正するパワー連動スコア補正の処理の流れを示したものである。まず、前半部のパワー連動スコア適用判定では、特徴パラメータ算出部81の処理過程で得られるフレーム毎のパワー値を蓄積したパワー値蓄積メモリ86から過去Nフレーム分のパワー平均値Paveをパワー連動スコア適用判定部87bが算出する(ステップS51)。次に、音楽スコア算出部84より出力された音楽スコアを蓄積した検出スコア蓄積メモリ85から過去Nフレーム分の音楽スコアの平均値SMaveをパワー連動スコア適用判定部87bが算出する(ステップS52)。これらの値と現フレームのパワー値Pcurと音楽スコアSMとから現フレームをスコア補正すべきか以下のようにパワー連動スコア適用判定部87bが順次判定し、条件を満たせば次のステップを実行する。
まず、現フレームのパワー値PcurとPaveとを比較しPcur<αpm×Paveが成り立つか、つまり現フレームのパワーがこれまでの信号より低いかチェックする(ステップS53)。ここで、αpmは1.0以下の値で平均値にマージンを持たせた値で閾値判定するための係数である。条件を満たせばスコア補正候補であり、満たさなければスコア補正を適用しないで終了する。次に、現フレームの音楽スコアSMとSMaveとを比較しSM>βsm×SMaveが成り立つか、つまり現フレームの音楽スコアがこれまで信号より高いかチェックする(ステップS54)。ここで、βsmは1.0以上の値で平均値にマージンを持たせた値で閾値判定するための係数である。条件を満たせばスコア補正候補であり、満たさなければスコア補正を適用しないで終了する。
これら判定条件を図示したものが図4のパワー相対関係(対平均)と音楽スコア相対関係(対平均)である。図で前者の矢印が下向き(平均よりも低い)かつ後者の矢印が上向き(平均よりも高い)の条件に区間AおよびCが該当する。また、過去Nフレーム区間で上記該当フレーム数Nsmが占める割合をNsm>γsm×Nが成り立つかでチェックする(ステップS55)。ここで、γsmは該当フレームが占める割合を示す閾値で1.0以下の係数である。これは、楽曲区間等でほとんどの区間でパワー値および音楽スコアは高いが、途中の一時的なボリューム低下時に音楽スコアを誤って低下補正することを緩和するための条件である。条件を満たせばスコア補正候補であり、満たさなければスコア補正を適用しないで終了する。上記条件を満たしたフレームに対しては以下の後半部のスコア補正部87aによるスコア補正処理を行う。
まず、補正するスコア値を決めるためにベース音楽スコアSMbを算出する(ステップS56)。これは、音声やノイズ等の音楽スコアが低い区間のスコアに基づいた値とするため、過去Nフレームの内のβsmb×SMave以下となるフレームのスコアの平均値SMbとする。ここで、βsmbは1.0以下の値で平均値にマージンを持たせた値である。次に、音楽スコアSMを補正値に更新する(ステップS57)。補正値としてはSMbをそのまま設定する以外に、所定の低スコアの固定値、あるいは過去直近のSMb以下の値、あるいはSMが規定値以下になるように補正値を減算した値(ただし、減算後の値が0以下になる場合には0とする)を利用する方法でもよい。
図6は、音声スコアに対するパワー連動スコア補正の処理の流れを示したものである。図5は音楽スコアに関するスコア補正について述べたが、一方、音声は信号特性としてパワーの低い区間でスコアが高くなる現象は発生しにくく、むしろ台詞等の発話区間中の短時間の間(パワー値は低い)に対して音質制御の連続性を考慮してスコアを落とさない補正が望ましい。従って、音声スコアに対しては以下に述べるスコア補正を適用する。
まず、前半部のパワー連動スコア適用判定では、図5と同様に過去Nフレーム分のパワー平均値Paveをパワー連動スコア適用判定部87bが算出する(ステップS61)。次に、音声スコア算出部83より出力された音声スコアを蓄積した検出スコア蓄積メモリ85から過去Nフレーム分の音声スコアの平均値SSaveをパワー連動スコア適用判定部87bが算出する(ステップS62)。これらの値と現フレームのパワー値Pcurと音声スコアSSとから現フレームをスコア補正すべきか以下のようにパワー連動スコア適用判定部87bが順次判定し、条件を満たせば次のステップを実行する。
まず、現フレームのパワー値PcurとPaveとを比較しPcur<αps×Paveが成り立つか、つまり現フレームのパワーがこれまでの信号より低いかチェックする(ステップS63)。ここで、αpsは1.0以下の値で平均値にマージンを持たせた値で閾値判定するための係数である。条件を満たせばスコア補正候補であり、満たさなければスコア補正を適用しないで終了する。次に、現フレームの音声スコアSSとSSaveとを比較しSS<βss×SSaveが成り立つか、つまり現フレームの音声スコアがこれまで信号より低いかチェックする(ステップS64)。ここで、βssは1.0以下の値で平均値にマージンを持たせた値で閾値判定するための係数である。条件を満たせばスコア補正候補であり、満たさなければスコア補正を適用しないで終了する。
また、過去Nフレーム区間で上記該当フレーム数Nssが占める割合をNss<γss×Nが成り立つかでチェックする(ステップS65)。ここで、γssは該当フレームが占める割合を示す閾値で1.0以下の係数である。これは、会話の合間の発話と発話の間の時間が比較的長い区間でパワー値および音声スコアが低い場合に、継続的に誤って音声スコアを増幅補正することを緩和するための条件である。条件を満たせば(つまり、会話の合間が短い場合に)スコア補正候補であり、満たさなければスコア補正を適用しないで終了する。上記条件を満たしたフレームに対しては以下の後半部のスコア補正部87aによるスコア補正処理を行う。
まず、補正するスコア値を決めるためにベース音声スコアSSbを算出する(ステップS66)。これは、発話区間での音声スコアに基づいた値とするため、過去Nフレームの内のβssb×SSave以上となるフレームのスコアの平均値SSbとする。ここで、βssbは1.0以上の値で平均値にマージンを持たせた値である。次に、音声スコアSSを補正値に更新する(ステップS67)。補正値としてはSSbをそのまま設定する以外に、所定の高スコアの固定値、あるいは過去直近のSSb以上の値、あるいはSSが規定値以上になるように補正値を加算した値(ただし、加算後の値がSSが取り得る最大値以下になるようにクリップする)を利用する方法でもよい。
以上説明した実施例によれば、オーディオ信号に対して音声あるいは音楽の識別を行う際に、入力信号のパワー値と各音種別に対するスコア(類似度)を考慮してスコアの補正を行い、この補正した結果に応じて音質制御を行うことにより、信号特性が切り替わる場合に(会話のシーン等)音声制御の追従性を向上させ高音質化を図ることができる。
以上のようにして入力信号の特性を解析して音声あるいは音楽にどの程度近いかを検出しスコアを算出し、過去の入力信号のパワー値と検出スコアに応じて、信号パワーが低くかつ検出スコアが高い場合にパワー値に連動してスコアの補正を行う。また、そのスコアに基づいて信号特性に適した音質制御を行う。こうすることで、ドラマ等での会話の合間の弱いBGMや背景音に過剰に反応して音楽スコアが高くなり、それに応じて信号特性が切り替わる場合に(会話のシーン等)音声制御の追従性が向上する。また、検出スコアを視覚化した際にも主観的な印象と一致しやすい。
(実施形態のポイント)
(1)オーディオ入力信号の特性を解析して音声あるいは音楽にどの程度近いかを検出しスコア判定する際に、過去の入力信号のパワー値と検出スコアに応じて、信号パワーが低い場合にパワー値に連動してスコアの補正を行う。また、そのスコアに基づいて信号特性に適した音質制御を行う。
(2)音楽スコア補正適用の判定方法は、現信号のパワー値が所定時間の過去信号のパワー平均値に基づく閾値以下、かつ現信号のスコアが所定時間の過去信号のスコア平均値に基づく閾値以上であることを条件とする。また、音楽区間での短時間のパワー低下による影響を排除するために、前記条件に該当する区間が所定時間の内の閾値以上であることを加えてもよい。
(3)音楽スコア補正方法は、前記適用条件に該当する信号に対して、該当区間以外の平均スコア、あるいは所定のスコア、あるいは該当区間以外の直近のスコア、あるいは現在のスコアに所定の補正値を減算したスコアに設定する。
(4)音声スコアの補正適用の判定方法は、現信号のパワー値が所定時間の過去信号のパワー平均値に基づく閾値以下、かつ現信号のスコアが所定時間の過去信号のスコア平均値に基づく閾値以下であることを条件とする。また、発話区間中の短時間の間に対するスコアの連続性を考慮して、前記条件に該当する区間が所定時間の内の閾値以下であることを加えてもよい。
(5)音声スコア補正方法は、前記適用条件に該当する信号に対して、該当区間以外の平均スコア、あるいは所定のスコア、あるいは該当区間以外の直近のスコア、あるいは現在のスコアに所定の補正値を加算したスコアに設定する。
なお、この発明は上記実施形態に限定されるものではなく、この外その要旨を逸脱しない範囲で種々変形して実施することができる。例えば、各係数の値は変化させてもよく、経験的に設定した値を適応的に変化させる構成としてもよい。
また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係わる構成要素を適宜組み合わせても良いものである。
11…デジタルテレビジョン放送受信装置、14…映像表示器、15…スピーカ、16…操作部、17…リモートコントローラ、18…受光部、19…第1のメモリカード、20…第2のメモリカード、21…第1のLAN端子、22…第2のLAN端子、23…USB端子、24…IEEE1394端子、43…アンテナ、44…入力端子、45…チューナ、46…PSK復調器、47…TS復号器、48…信号処理部、49…アンテナ、50…入力端子、51…チューナ、52…OFDM復調器、53…TS復号器、54…チューナ、55…アナログ復調器、56…グラフィック処理部、57…オーディオ処理部、58a〜58d…入力端子、59…OSD信号生成部、60…映像処理部、61,62…出力端子、63…制御部、64…CPU、65…ROM、66…RAM、67…不揮発性メモリ、68…カードI/F、69…カードホルダ、70…カードI/F、71…カードホルダ、72,73…通信I/F、74…USBI/F、75…IEEE1394 I/F、81…特徴パラメータ算出部、83…音声スコア算出部、84…音楽スコア算出部、85…検出スコア蓄積メモリ、86…パワー値蓄積メモリ、87…パワー連動スコア補正部、87a…スコア補正部、87b…パワー連動スコア適用判定部、88…音質制御部。

Claims (8)

  1. 入力オーディオ信号の特性を解析し特徴量を抽出する特徴量抽出手段と、
    前記特徴量抽出手段の出力から音声信号特性との類似度を表す音声スコアを算出する音声スコア算出手段と、
    前記特徴量抽出手段の出力から音楽信号特性との類似度を表す音楽スコアを算出する音楽スコア算出手段と、
    前記入力オーディオ信号に対してパワーを測定した結果であるパワー値を取得するパワー値取得手段と、
    過去一定区間の前記音声スコアおよび音楽スコアを蓄積する手段と、前記特徴量抽出手段から得られる過去一定区間の前記オーディオ入力信号のパワー値を蓄積する手段と、過去の前記パワー値と現在の前記パワー値との比較結果、および過去の前記音楽スコアと現在の前記音楽検出スコアとの比較結果、および過去の前記音声スコアと現在の前記音声スコアとの比較結果に応じて、現在の前記音楽スコアあるいは現在の前記音声スコアを補正するパワー連動スコア補正手段と、
    前記パワー連動スコア補正手段から得られる前記音声スコアまたは音楽スコアの少なくともいずれか一方を使って前記入力オーディオ信号の音質制御を行う音質制御手段とを
    備えた音質制御装置。
  2. 前記パワー連動スコア補正手段における音楽スコア補正適用の判定条件は、現在の前記パワー値が所定時間の過去信号の前記パワー値の平均に基づく閾値以下、かつ現在の音楽スコアが所定時間の過去信号のスコア平均値に基づく閾値以上であることを特徴とする請求項1に記載の音質制御装置。
  3. 前記パワー連動スコア補正手段における音楽スコア補正適用の判定条件は、前記判定条件に加え、前記判定条件に該当する区間が所定時間の内の閾値以上であることを特徴とする請求項2に記載の音質制御装置。
  4. 前記パワー連動スコア補正手段における音楽スコア補正方法は、前記適用条件に該当する信号に対して、該当区間以外の平均スコア、あるいは所定のスコア、あるいは該当区間以外の直近のスコア、あるいは現在のスコアに所定の補正値を減算したスコアに設定することを特徴とする請求項1に記載の音質制御装置。
  5. 前記パワー連動スコア補正手段における音声スコアの補正適用の判定条件は、現在のパワー値が所定時間の過去信号のパワー平均値に基づく閾値以下、かつ現信号のスコアが所定時間の過去信号のスコア平均値に基づく閾値以下であることを特徴とする請求項1に記載の音質制御装置。
  6. 前記パワー連動スコア補正手段における音声スコアの補正適用の判定条件は、前記判定条件に加え、前記条件に該当する区間が所定時間の内の閾値以下であることを特徴とする請求項5に記載の音質制御装置。
  7. 前記パワー連動スコア補正手段における音声スコア補正方法は、前記適用条件に該当する信号に対して、該当区間以外の平均スコア、あるいは所定のスコア、あるいは該当区間以外の直近のスコア、あるいは現在のスコアに所定の補正値を加算したスコアに設定することを特徴とする請求項1に記載の音質制御装置。
  8. 入力オーディオ信号の特性を解析し特徴量を抽出し、
    前記特徴量から音声信号特性との類似度を表す音声スコアを算出し、
    前記特徴量から音楽信号特性との類似度を表す音楽スコアを算出し、
    前記入力オーディオ信号に対してパワーを測定した結果であるパワー値を取得し、
    過去一定区間の前記音声スコアおよび音楽スコアを蓄積する手段と、前記特徴量抽出手段から得られる過去一定区間の前記オーディオ入力信号のパワー値を蓄積する手段と、過去の前記パワー値と現在の前記パワー値との比較結果、および過去の前記音楽スコアと現在の前記音楽検出スコアとの比較結果、および過去の前記音声スコアと現在の前記音声スコアとの比較結果に応じて、現在の前記音楽スコアあるいは現在の前記音声スコアを補正し、
    かく補正された前記音声スコアまたは音楽スコアの少なくともいずれか一方を使って前記入力オーディオ信号の音質制御を行う音質制御方法。
JP2010169638A 2010-07-28 2010-07-28 音質制御装置及び音質制御方法 Expired - Fee Related JP4837123B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010169638A JP4837123B1 (ja) 2010-07-28 2010-07-28 音質制御装置及び音質制御方法
US13/096,813 US8457954B2 (en) 2010-07-28 2011-04-28 Sound quality control apparatus and sound quality control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010169638A JP4837123B1 (ja) 2010-07-28 2010-07-28 音質制御装置及び音質制御方法

Publications (2)

Publication Number Publication Date
JP4837123B1 true JP4837123B1 (ja) 2011-12-14
JP2012032447A JP2012032447A (ja) 2012-02-16

Family

ID=45418215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010169638A Expired - Fee Related JP4837123B1 (ja) 2010-07-28 2010-07-28 音質制御装置及び音質制御方法

Country Status (2)

Country Link
US (1) US8457954B2 (ja)
JP (1) JP4837123B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012063726A (ja) * 2010-09-17 2012-03-29 Toshiba Corp 音質補正装置及び音声補正方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5307886B2 (ja) * 2008-04-29 2013-10-02 トムソン ライセンシング 無線ネットワークを介してマルチキャストに前方誤り訂正を適応する方法及びシステム
KR20120132342A (ko) * 2011-05-25 2012-12-05 삼성전자주식회사 보컬 신호 제거 장치 및 방법
JP2013171089A (ja) * 2012-02-17 2013-09-02 Toshiba Corp 音声補正装置、方法、及びプログラム
JP5242826B1 (ja) 2012-03-22 2013-07-24 株式会社東芝 情報処理装置及び情報処理方法
BR112016004299B1 (pt) * 2013-08-28 2022-05-17 Dolby Laboratories Licensing Corporation Método, aparelho e meio de armazenamento legível por computador para melhora de fala codificada paramétrica e codificada com forma de onda híbrida
CN105637769B (zh) * 2013-10-15 2018-01-02 三菱电机株式会社 数字广播接收装置以及选台方法
WO2015097826A1 (ja) * 2013-12-26 2015-07-02 株式会社東芝 電子機器、制御方法およびプログラム
JP6274251B2 (ja) * 2016-05-17 2018-02-07 株式会社Jvcケンウッド 画像データ発生装置及び画像データ発生方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69214882T2 (de) * 1991-06-06 1997-03-20 Matsushita Electric Ind Co Ltd Gerät zur Unterscheidung von Musik und Sprache
JP3186315B2 (ja) * 1993-02-27 2001-07-11 ソニー株式会社 信号圧縮装置、信号伸張装置、信号送信装置、信号受信装置及び信号送受信装置
JP2835483B2 (ja) 1993-06-23 1998-12-14 松下電器産業株式会社 音声判別装置と音響再生装置
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US6820054B2 (en) * 2001-05-07 2004-11-16 Intel Corporation Audio signal processing for speech communication
EP1430749A2 (en) * 2001-09-06 2004-06-23 Koninklijke Philips Electronics N.V. Audio reproducing device
IL148592A0 (en) * 2002-03-10 2002-09-12 Ycd Multimedia Ltd Dynamic normalizing
JP4348970B2 (ja) * 2003-03-06 2009-10-21 ソニー株式会社 情報検出装置及び方法、並びにプログラム
JP2007171289A (ja) 2005-12-19 2007-07-05 Mitsubishi Electric Corp 曲検出装置
US20080033583A1 (en) * 2006-08-03 2008-02-07 Broadcom Corporation Robust Speech/Music Classification for Audio Signals
JP4871182B2 (ja) * 2007-03-23 2012-02-08 パイオニア株式会社 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム
JP2009192725A (ja) * 2008-02-13 2009-08-27 Sanyo Electric Co Ltd 楽曲記録装置
JP4327888B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
JP4327886B1 (ja) 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
JP4364288B1 (ja) 2008-07-03 2009-11-11 株式会社東芝 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
JP4621792B2 (ja) 2009-06-30 2011-01-26 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
US8340964B2 (en) * 2009-07-02 2012-12-25 Alon Konchitsky Speech and music discriminator for multi-media application
JP2011065093A (ja) 2009-09-18 2011-03-31 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012063726A (ja) * 2010-09-17 2012-03-29 Toshiba Corp 音質補正装置及び音声補正方法

Also Published As

Publication number Publication date
US20120029913A1 (en) 2012-02-02
JP2012032447A (ja) 2012-02-16
US8457954B2 (en) 2013-06-04

Similar Documents

Publication Publication Date Title
JP4837123B1 (ja) 音質制御装置及び音質制御方法
US7864967B2 (en) Sound quality correction apparatus, sound quality correction method and program for sound quality correction
RU2440627C2 (ru) Повышение разборчивости речи в звукозаписи развлекательных программ
JP5267115B2 (ja) 信号処理装置、その処理方法およびプログラム
US7957966B2 (en) Apparatus, method, and program for sound quality correction based on identification of a speech signal and a music signal from an input audio signal
JP4364288B1 (ja) 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
JP4709928B1 (ja) 音質補正装置及び音質補正方法
US7844452B2 (en) Sound quality control apparatus, sound quality control method, and sound quality control program
JP2011065093A (ja) オーディオ信号補正装置及びオーディオ信号補正方法
EP2538559B1 (en) Audio controlling apparatus, audio correction apparatus, and audio correction method
US8837744B2 (en) Sound quality correcting apparatus and sound quality correcting method
JP4869420B2 (ja) 音情報判定装置、及び音情報判定方法
JP4587916B2 (ja) 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体
CN114930865A (zh) 用于设置包括音频的媒体内容的回放速度的计算机实施的方法、设备和计算机程序产品
JP5695896B2 (ja) 音質制御装置、音質制御方法及び音質制御用プログラム
JP6290260B2 (ja) テレビシステムとサーバ装置及びテレビ装置
JP4886907B2 (ja) オーディオ信号補正装置及びオーディオ信号補正方法
JP2006093918A (ja) デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体
JP2013164518A (ja) 音声信号補正装置、音声信号補正方法、及び音声信号補正プログラム
JP2007095135A (ja) 映像記録再生装置
JP2010231241A (ja) 音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110927

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees