JP5460709B2 - 音響信号処理装置および方法 - Google Patents

音響信号処理装置および方法 Download PDF

Info

Publication number
JP5460709B2
JP5460709B2 JP2011518267A JP2011518267A JP5460709B2 JP 5460709 B2 JP5460709 B2 JP 5460709B2 JP 2011518267 A JP2011518267 A JP 2011518267A JP 2011518267 A JP2011518267 A JP 2011518267A JP 5460709 B2 JP5460709 B2 JP 5460709B2
Authority
JP
Japan
Prior art keywords
section
acoustic signal
background noise
signal processing
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011518267A
Other languages
English (en)
Other versions
JPWO2010140355A1 (ja
Inventor
直也 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2011518267A priority Critical patent/JP5460709B2/ja
Publication of JPWO2010140355A1 publication Critical patent/JPWO2010140355A1/ja
Application granted granted Critical
Publication of JP5460709B2 publication Critical patent/JP5460709B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、入力音響信号の特性を分析することにより、入力音響信号の種類を分類する装置に関する。
長時間の映像音響信号から、何らかの特徴を有するシーンである特定シーンのみを切り出して視聴する機能は、テレビ番組を録画視聴する機器(レコーダ)等に用いられ、「ハイライト再生」「ダイジェスト再生」等と呼ばれる。従来、特定シーンを抽出するための技術としては、映像信号もしくは音響信号を分析することによって、それぞれの信号の特徴を表すパラメータを算出し、算出したパラメータを用いてあらかじめ定められた条件に従って判定を行うことにより入力映像音響信号を分類し、特定シーンとみなす区間を切り出していた。特定シーンを判定するルールは、対象とする入力映像音響信号の内容や、どのような部分を視聴者に提供するかの機能によって異なる。例えば、特定シーンとしてスポーツ番組における盛り上がりシーンを再生する機能であれば、特定シーンを判定するルールは、入力音響信号に含まれる観客の歓声の大きさが指針となる。観客の歓声は、音響信号特性としては雑音的であり、入力音響信号に含まれる背景雑音として検出できる。音声の信号レベル、ピーク周波数、主要音声スペクトル幅等を用いて特定シーンを判定する、音響信号に対する判定処理の一例が開示されている(特許文献1参照)。この手法によれば、入力音響信号の周波数特性と信号レベル変化を利用して、観客の歓声が上がった区間を分類することができる。しかしながら、例えばピーク周波数は、入力音響信号の変化に敏感であるため、安定した判定結果を得ることが難しいという課題がある。
他方、入力音響信号のスペクトル変化を滑らかに、かつ、精度良く表現するパラメータとしては、スペクトル包絡と呼ばれるスペクトル分布の大まかな形を表すパラメータがあり、代表的な例として、線形予測係数(LPC:Liner Prediction Coefficients)、反射係数(RC:Reflection Coefficients)、線スペクトル対(LSP:Line Spectral Pairs)等がある。この一例として、特徴パラメータとしてLSPを使用し、過去のLSPパラメータの移動平均に対する現在のLSPパラメータの変化量を判定パラメータの一つとして用いる方法が開示されている(特許文献2参照)。この手法に拠れば、入力音響信号の周波数特性を利用して、入力音響信号が背景雑音区間であるかスピーチ区間であるかを安定して判定し、分類することができる。
特許第2960939号公報 特許第3363336号公報
しかしながら、特にスポーツ番組の盛り上がりシーンにおいては、入力音響信号は特有の特性を示す。図1は、盛り上がりシーンにおけるスピーチと背景雑音との関係、及び従来の手法により決定されるハイライト区間を示す音響信号の特性を示す図であり、201はアナウンサの解説音声からなるスピーチ信号、202は観客の歓声を含む背景雑音信号である。スピーチ信号と背景雑音信号は重ね合わされた状態にあるが、どちらが支配的かによって、スピーチ区間204と背景雑音区間203および背景雑音区間205に分類できる。スピーチ信号と背景雑音信号の時間的なレベル変化は、盛り上がりシーンで発生したイベント(得点シーン等)の前後において、特徴的な変化を示す。すなわち、正しいイベント発生点206に向けて背景雑音レベルが次第に上昇し、イベント発生点付近で急激に上昇する。また、イベント発生点の前からイベント発生点にかけては、イベント内容を解説するスピーチ信号が重ね合わされる。イベント終了後は、背景雑音レベルが減少に転ずる。ここで注目すべき特性として、正しいイベント発生点206付近ではスピーチ信号が支配的であり、スピーチ区間204として分類されることである。従って、背景雑音区間における信号レベルの急激な上昇を検出する方法を用いると、たとえばこの例では背景雑音区間205の開始点であるスピーチ区間204と背景雑音区間205との接続点207がイベント発生点となり、正しいイベント発生点206を捉えることは難しい。また、盛り上がりシーンを視聴するにおいては、イベント発生までの過程を知るために、視聴区間(以降、「視聴に適したハイライト区間208」と定義する)に正しいイベント発生点206が含まれていることに加えて、イベント内容の解説がなされるスピーチ区間204全体も含まれていることが望ましい。したがって、ハイライト区間の開始点209はスピーチ区間204の開始点とすべきである。また、ハイライト区間の終了点210については、観客の歓声が収まった位置、すなわち、減少に転じた背景雑音レベルが十分に下がった位置に配置することが望ましい。このように、ハイライト区間決定のためには、検出したイベント発生点の前後区間について、適切な開始点および終了点を決める必要がある。
特に、ハイライト区間の開始点の位置については、検出したイベント発生点を開始点とする第1の従来手法では、スピーチ区間204と背景雑音区間205との接続点207がイベント発生点となるので、スピーチ区間204と背景雑音区間205との接続点207を開始点とするハイライト区間211が決定される。このように第1の従来手法で決定されたハイライト区間211には、イベント前の解説音声のスピーチ区間204が含まれないため問題が大きい。また、検出したイベント発生点に対してあらかじめ定められた時間オフセット212を与えることによって、ハイライト区間の開始点213を、イベント検出点であるスピーチ区間204と背景雑音区間205との接続点207に対して時間オフセット212だけ時間的に前に設置する第2の従来手法では、スピーチ区間204の長さはそれぞれのシーンによって異なるので、ハイライト区間の開始点213がスピーチ区間204内に配置されてしまうことがある。その場合、第2の従来手法で決定されたハイライト区間214の再生時には話しの途中の位置から開始されることになり、言葉の意味が取れない等の問題が発生する。
また、入力音響信号の分類のために、スペクトル包絡を用いて入力音響信号の特徴を精度良く表現するためには、スペクトル包絡パラメータの次数を増やす必要があり、一般的には8次から20次程度のパラメータが用いられる。ある次数のスペクトル包絡パラメータを算出するためには、同じ次数の自己相関係数を算出する必要があるため、処理量が大きくなるという問題がある。
本発明は、上記課題を解決するものであって、より少ない処理量で、入力音響信号が背景雑音区間であるかスピーチ区間であるかを分類し、音響信号の時間的な変化の特性を利用することによって、盛り上がりシーンを含むハイライト区間を適切に選択することができる音響信号処理装置を提供することを目的とする。
上記課題を解決するために、本発明の一形態である音響信号処理装置は、入力された音響信号をあらかじめ定められた時間長のフレームに分割し、分割されたフレーム毎に音響信号の性質を分類することによって、入力音響信号の一部である特定の特徴を有するシーンを含むハイライト区間を抽出する装置であって、フレーム毎に入力音響信号のスペクトル分布の傾きを表すパラメータを算出するパラメータ算出手段と、隣接するフレーム間での前記スペクトル分布の傾きを表すパラメータの変化の大きさを、互いに隣接する複数のフレームに渡って算出し、算出結果をあらかじめ定めた閾値と比較する比較手段と、前記比較の結果に基づいて、入力音響信号を背景雑音区間とスピーチ区間とに分類する分類手段と、前記分類手段によって前記背景雑音区間と分類された区間の信号エネルギから、前記背景雑音区間内の背景雑音レベルを算出するレベル算出手段と、算出された前記背景雑音レベルの急激な上昇を検出して、イベント発生点を検出するイベント検出手段と、検出された前記イベント発生点前後の前記背景雑音区間及び前記スピーチ区間の分類結果と、前記背景雑音レベルとの関係から、ハイライト区間の開始点および終了点を決定するハイライト区間決定手段とを備える。
また、本発明の他の形態である音響信号処理装置では、前記入力音響信号の前記スペクトル分布の傾きを表すパラメータは、1次の反射係数であるとしてもよい。
本発明のさらに他の形態である音響信号処理装置では、前記分類手段は、単位時間内における前記スペクトル分布の傾きを表すパラメータの変化の大きさを、前記閾値と比較し、変化の大きさが前記閾値よりも小さい場合には、入力音響信号が背景雑音区間であると分類し、変化の大きさが前記閾値よりも大きい場合には、入力音響信号がスピーチ区間であると分類するとしてもよい。
また、本発明のさらに他の形態である音響信号処理装置では、前記ハイライト区間決定手段は、前記イベント発生点から時間を遡って、前記イベント発生点の直近のスピーチ区間を検索し、前記ハイライト区間の開始点を、前記検索の結果として得られたスピーチ区間の開始点に一致させるとしてもよい。
なお、本発明は、装置として実現できるだけでなく、その装置を構成する処理手段をステップとする方法として実現したり、それらステップをコンピュータに実行させるプログラムとして実現したり、そのプログラムを記録したコンピュータ読み取り可能なCD−ROMなどの記録媒体として実現したり、そのプログラムを示す情報、データ又は信号として実現したりすることもできる。そして、それらプログラム、情報、データ及び信号は、インターネット等の通信ネットワークを介して配信してもよい。
本発明によれば、盛り上がり区間における入力音響信号の時間的な変化の特性を利用することによって、適切なハイライト区間を選択することができる。
また、本発明によれば、前記入力音響信号の時間的な変化の特性を検出するためのパラメータとして、1次の反射係数を用いることによって、より少ない処理量で適切なハイライト区間を選択することができる。
図1は、盛り上がりシーンにおけるスピーチと背景雑音との関係、及び従来の手法により決定されるハイライト区間を示す音響信号の特性を示す図である。 図2は、本発明の実施の形態1の音響信号処理装置の構成を示す図である。 図3(a)、図3(b)および図3(c)は、盛り上がりシーンにおけるスピーチ区間と背景雑音区間とでのスペクトル分布の特性を示す図である。 図4は、盛り上がりシーンにおけるスピーチと背景雑音との関係、及び本発明でのスピーチ区間と背景雑音区間との分類結果を示す音響信号の特性を示す図である。 図5は、ハイライト区間決定処理における音響信号処理装置の動作を示すフローチャートである。
(実施の形態1)
図2は本実施の形態1の音響信号処理装置の構成を示す図である。図2において、処理部間の矢印はデータの流れを示し、矢印に付された参照符号は処理部間で受け渡されるデータを示している。同図に示すように、盛り上がり区間における入力音響信号の成分の時間的変化の特性に基づいて、少ない演算量でハイライト区間を決定する音響信号処理装置は、フレーミング部11、反射係数算出部12、反射係数比較部13、音響信号分類部14、背景雑音レベル算出部15、イベント検出部16及びハイライト区間決定部17を備える。フレーミング部11は、入力された音響信号101をあらかじめ定められたフレーム長のフレーム信号102に分割する。反射係数算出部12は、決められたフレーム長のフレーム信号102からフレームごとの反射係数103を算出する。反射係数比較部13は、フレームごとの反射係数103を隣接しあう複数のフレームにわたって比較し、比較結果104を出力する。音響信号分類部14は、反射係数の比較結果に基づいて入力音響信号をスピーチ区間と背景雑音区間とに分類し、分類結果105を出力する。背景雑音レベル算出部15は、分類結果105に基づいて、入力音響信号の背景雑音区間における背景雑音レベル106を算出する。イベント検出部16は、背景雑音レベル106の変化に基づいて、イベント発生点107を検出する。ハイライト区間決定部17は、入力音響信号の分類結果105、背景雑音レベル106及びイベント発生点107の情報に基づいてハイライト区間108を決定し、出力する。
ここで、本発明の音響信号処理装置が利用するパラメータと、スポーツ番組の盛り上がりシーンにおける入力音響信号の特性との関係を説明する。図3(a)〜図3(c)はスポーツ番組の盛り上がりシーンの音響信号をスペクトル分析した結果を示す図である。同図(a)において横軸は時間であり時間長は9秒、縦軸は周波数であり周波数範囲は0から8kHzまで、明度が高い部分ほど信号レベルが高いことを示している。この盛り上がりシーンを含む視聴に適したハイライト区間208は、正しいイベント発生点206を含み、スピーチ区間204と背景雑音区間205とから成る。中央縦線で区切りを示しているスピーチ区間204と背景雑音区間205との接続点207は、音響信号におけるスピーチと背景雑音との支配的な成分の切り替わり点である。図4は、盛り上がりシーンにおけるスピーチと背景雑音との関係、及び本発明でのスピーチ区間204と背景雑音区間205との分類結果を示す音響信号の特性を示す図である。従って、図4に示すように、音響信号分類部14によって分類されることにより、音響信号におけるスピーチと背景雑音との支配的な成分が切り替わる、スピーチ区間204と背景雑音区間205との接続点207で、スピーチ区間204と背景雑音区間205とが切り替えられることになる。
具体的には、図3(a)及び図3(b)に示すように、前半のスピーチ区間においては、音響信号のスペクトル分布は数十から数百msecの比較的短い時間で大きく変化する。これはスピーチ信号が、大きく分けて子音・母音・空白の3つの要素から構成され、それぞれが比較的短い時間で切り替わるためである。それぞれの要素のスペクトル分布の特徴は、以下の通りである。
子音: 中高域(3kHz付近以上)の成分が強い
母音: 中低域(数百Hzから2kHz程度)の成分が強い
空白: 背景雑音のスペクトル特徴が現れる
本発明では、特に子音と母音のスペクトル分布特性の違いに注目し、その特性を利用している。すなわち、中高域の成分が強いスペクトル分布と中低域の成分が強いスペクトル分布とが、比較的短い時間に切り替われば、その音響信号はスピーチ信号であるとみなすことができる。スペクトル分布において、中高域成分が強いか中低域成分が強いかを判定するためには、スペクトル分布の傾きが分かれば十分である。すなわち、高次のスペクトル包絡パラメータを用いて、スペクトル包絡形状の評価を行う必要は無い。スペクトル分布の傾きを表す最も処理量の少ないパラメータとして1次の反射係数があり、次式で算出される。なお、ここでは1次の反射係数を用いたが、反射係数の代わりに、例えば、低次のLPC又はLSPを用いてもよい。ただし、LPC又はLSPを用いる場合でも、1次のLPC又は1次のLSPが、より好ましい。
Figure 0005460709
1次の反射係数が正であれば、スペクトル高域側の成分が強く、逆に負であればスペクトル低域側の成分が強いことを示す。図3(c)前半に示すように、入力音響信号がスピーチ信号であれば、1次の反射係数の値は比較的短い時間で大きく変化することになる。図3(a)後半の背景雑音区間においては、時間的なスペクトル分布の変化は穏やかである。これは、背景雑音を構成する観客の歓声が多数の人の声が重なり合って平均化されたものだからである。このようなスペクトル分布の特徴を表現する上でも1次の反射係数は有用である。すなわち、スペクトル分布の変化が穏やかであるため、スペクトル分布の傾きはほぼ一定となり、図3(c)後半に示すように、1次反射係数の値はほとんど変化しなくなる。以上の特性を利用することにより、入力音響信号をスピーチ区間と背景雑音区間の2種類に分類するに当たっては、従来の様にスペクトル包絡を表す高次のスペクトル包絡パラメータを使用することなく、スペクトル分布の傾きを表す1次の反射係数を用いるのみで実現できる。
以上で説明した入力音響信号の特性と1次反射係数の特性の関係を前提に、本発明の音響信号処理装置の動作を説明する。図5は、ハイライト区間決定処理における音響信号処理装置の動作を示すフローチャートである。入力された音響信号101は、フレーミング部11において、あらかじめ定められた長さのフレーム信号102に分割される。フレームの長さは、スピーチ信号における子音と母音間の変化を捉える必要性から、50msecから100msec程度に設定することが望ましい。反射係数算出部12は、フレームごとに1次の反射係数103を算出する。反射係数比較部13は、隣接する複数のフレーム間において1次反射係数を比較し、比較結果104として1次反射係数の変化の大きさを出力する。1次反射係数の変化の大きさの尺度としては、例えば、次式(式2)で与えられる平均差分値を用いる。この平均差分値は、「隣接するフレーム間での前記スペクトル分布の傾きを表すパラメータの変化の大きさ」の一例である。なお、ここでは式2で表される平均差分値で表す例を示したが、平均差分値の代わりに、単なる差分絶対値和、または差分の2乗和などで表してもよい。
Figure 0005460709
平均を取るフレーム数Nkは、フレームの時間長によって異なるが、例えばフレーム長が100msecならば、Nk=5から10程度が適当である。音響信号分類部14は、1次反射係数の変化の大きさに基づいて、入力音響信号をスピーチ区間と背景雑音区間に分類する(S301)。先に説明したように、スピーチ区間においては1次反射係数の変化は大きく、逆に背景雑音区間では変化は小さい。式2で示した前記平均差分値をあらかじめ定められた閾値TH_k1と比較することによって分類が行われる。閾値の一例として、TH_k1=0.05である。
Figure 0005460709
背景雑音レベル算出部15は、分類結果105に基づいて、背景雑音区間であると分類された区間においてのみ、フレームごとの信号エネルギを算出し(S302)、背景雑音レベル106とする。イベント検出部16は、隣接する複数フレーム間に渡って背景雑音レベルの変化を評価し、イベント発生点107(スピーチ区間204と背景雑音区間205との接続点207に相当)を検出する(S303〜S305)。評価方法の例として、過去複数フレームにおける平均背景雑音レベルと現フレームの背景雑音レベルの比率を、あらかじめ定められた閾値TH_Ebと比較する方法を用いる。閾値の一例として、TH_Eb=2.818(=4.5dB)である。
Figure 0005460709
図2に示したように、ハイライト区間決定部17は、音響信号の分類結果105とイベント発生点107の検出結果に基づいて、視聴に適したハイライト区間208に等しいハイライト区間108を決定し出力する。ハイライト区間の始点および終点の決定方法は、先に説明した盛り上がりシーンにおける音響信号特性を利用する。まず、イベント発生点107から時間を遡る方向にスピーチ区間204を検索する。スピーチ区間204が見つかったら、該当するスピーチ区間の開始点をハイライト区間の開始点209とする(S306)。次に、イベント発生点から時間に順方向に、背景雑音レベルを評価し、背景雑音レベルが十分に低下した点、例えば、背景雑音レベルが最高値から10dB低下した点をハイライト区間の終了点210とする(S307)。ただし、背景雑音レベルが十分に低下する前にスピーチ区間が現れた場合には、終了点検出は行わずに背景雑音レベルの最高値をホールドし、スピーチ区間が終了して再び背景雑音区間となってから、終了点検出を再開する。すなわち、ハイライト区間決定部17は、ホールドした背景雑音レベルの最高値から10dB低下した点をハイライト区間108の終了点210とする。このように、ハイライト区間108の開始点と終了点を決定することによって、当該ハイライト区間が確定する。
以上で説明したように本発明の音響信号処理装置を用いれば、スペクトル分布の評価指標として、スペクトル分布の傾きを表す1次反射係数を用いて入力音響信号を分類し、さらに、盛り上がりシーンにおける時間的な信号特性変化の特徴を利用することによって、少ない処理量でハイライト区間108として視聴に適したハイライト区間208の抽出を行うことができる。
なお、上記の実施の形態の説明においては、前記フレーム毎に入力音響信号のスペクトル分布の傾きを表すパラメータを算出するパラメータ算出手段は、前記フレームに含まれる入力音響信号の一部のみを利用して、前記入力音響信号のスペクトル分布の傾きを表すパラメータを算出しても良い。例えば、前記フレームの時間長が100msである場合、その中央部分の50msの入力音響信号のみを用いて、前記入力音響信号のスペクトル分布の傾きを表すパラメータを算出する。これにより、パラメータ算出に係わる処理量をさらに削減することができる。
なお、上記の実施の形態の説明においては、特定シーンとして、スポーツ番組における盛り上がりシーンを前提としたが、本発明の適用範囲はそれだけに限定されない。例えば、バラエティ番組、演劇および演芸などの盛り上がりシーン等においても、出演者のスピーチ区間と観客の声援を中心とする背景雑音区間から構成される点は同様であり、本発明の構成を用いることによって、盛り上がりシーンを含むハイライト区間の抽出が可能である。
(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるディジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記ディジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記ディジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記ディジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記ディジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記ディジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
(5)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
本発明の音響信号処理装置は、DVD/BDレコーダ等の音響映像記録再生機器、ICレコーダ等の音声記録再生機器に適用できる。これによって、録画/録音された情報から特定シーンのみを切り出して、短時間で視聴する機能を実現することができる。
11 フレーミング部
12 反射係数算出部
13 反射係数比較部
14 音響信号分類部
15 背景雑音レベル算出部
16 イベント検出部
17 ハイライト区間決定部
101 音響信号
102 フレーム信号
103 反射係数
104 比較結果
105 分類結果
106 背景雑音レベル
107 イベント発生点
108、208 視聴に適したハイライト区間
201 スピーチ信号
202 背景雑音信号
203、205 背景雑音区間
204 スピーチ区間
206 正しいイベント発生点
207 スピーチ区間と背景雑音区間の接続点
209、213 ハイライト区間の開始点
210 ハイライト区間の終了点
211、214 ハイライト区間
212 時間オフセット

Claims (7)

  1. 入力された音響信号をあらかじめ定められた時間長のフレームに分割し、分割されたフレーム毎に音響信号の性質を分類することによって、入力音響信号から特定の特徴を有するシーンを含むハイライト区間を抽出する音響信号処理装置であって、
    フレーム毎に入力音響信号のスペクトル分布の傾きを表すパラメータを算出するパラメータ算出手段と、
    隣接するフレーム間での前記スペクトル分布の傾きを表すパラメータの変化の大きさを、互いに隣接する複数のフレームに渡って算出し、算出結果とあらかじめ定めた閾値とを比較する比較手段と、
    前記比較の結果に基づいて、入力音響信号を背景雑音区間とスピーチ区間とに分類する分類手段と、
    前記分類手段によって前記背景雑音区間と分類された区間の信号エネルギから、前記背景雑音区間内の背景雑音レベルを算出するレベル算出手段と、
    算出された前記背景雑音レベルの急激な上昇を検出して、イベント発生点を検出するイベント検出手段と、
    検出された前記イベント発生点前後の前記背景雑音区間及び前記スピーチ区間の分類結果と、前記背景雑音レベルとの関係から、ハイライト区間の開始点および終了点を決定するハイライト区間決定手段とを備える
    音響信号処理装置。
  2. 前記入力音響信号の前記スペクトル分布の傾きを表すパラメータは、1次の反射係数である
    請求項1に記載の音響信号処理装置。
  3. 前記分類手段は、単位時間内における前記スペクトル分布の傾きを表すパラメータの変化の大きさを、前記閾値と比較し、変化の大きさが前記閾値よりも小さい場合には、入力音響信号が背景雑音区間であると分類し、変化の大きさが前記閾値よりも大きい場合には、入力音響信号がスピーチ区間であると分類する
    請求項1に記載の音響信号処理装置。
  4. 前記ハイライト区間決定手段は、前記イベント発生点から時間を遡って、前記イベント発生点の直近のスピーチ区間を検索し、前記ハイライト区間の開始点を、前記検索結果として得られたスピーチ区間の開始点に一致させる
    請求項1に記載の音響信号処理装置。
  5. 入力された音響信号をあらかじめ定められた時間のフレームに分割し、分割されたフレーム毎に音響信号の性質を分類することによって、入力音響信号から特定の特徴を有するシーンを含むハイライト区間を抽出する音響信号処理方法であって、
    フレーム毎に入力音響信号のスペクトル分布の傾きを表すパラメータを算出するパラメータ算出ステップと、
    隣接するフレーム間での前記スペクトル分布の傾きを表すパラメータの変化の大きさを、互いに隣接する複数のフレームに渡って算出し、算出結果をあらかじめ定めた閾値と比較する比較ステップと、
    前記比較の結果に基づいて、入力音響信号を背景雑音区間とスピーチ区間とに分類する分類ステップと、
    前記分類ステップによって前記背景雑音区間と分類された区間の信号エネルギから、前記背景雑音区間内の背景雑音レベルを算出するレベル算出ステップと、
    算出された前記背景雑音レベルの急激な上昇を検出して、イベント発生点を検出するイベント検出ステップと、
    検出された前記イベント発生点前後の前記背景雑音区間及び前記スピーチ区間の分類結果と、前記背景雑音レベルとの関係から、ハイライト区間の開始点および終了点を決定するハイライト区間決定ステップとを含む
    音響信号処理方法。
  6. 請求項5に記載の音響信号処理方法に含まれる各ステップを、コンピュータに実行させるためのプログラム。
  7. 請求項1に記載の音響信号処理装置に含まれる構成を備える集積回路。
JP2011518267A 2009-06-04 2010-06-02 音響信号処理装置および方法 Expired - Fee Related JP5460709B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011518267A JP5460709B2 (ja) 2009-06-04 2010-06-02 音響信号処理装置および方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009135598 2009-06-04
JP2009135598 2009-06-04
JP2011518267A JP5460709B2 (ja) 2009-06-04 2010-06-02 音響信号処理装置および方法
PCT/JP2010/003676 WO2010140355A1 (ja) 2009-06-04 2010-06-02 音響信号処理装置および方法

Publications (2)

Publication Number Publication Date
JPWO2010140355A1 JPWO2010140355A1 (ja) 2012-11-15
JP5460709B2 true JP5460709B2 (ja) 2014-04-02

Family

ID=43297498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011518267A Expired - Fee Related JP5460709B2 (ja) 2009-06-04 2010-06-02 音響信号処理装置および方法

Country Status (3)

Country Link
US (1) US8886528B2 (ja)
JP (1) JP5460709B2 (ja)
WO (1) WO2010140355A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103053173B (zh) 2011-06-02 2016-09-07 松下电器(美国)知识产权公司 兴趣区间确定装置、兴趣区间确定方法及兴趣区间确定集成电路
CN103716470B (zh) * 2012-09-29 2016-12-07 华为技术有限公司 语音质量监控的方法和装置
DE102013111784B4 (de) * 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
CN104934032B (zh) * 2014-03-17 2019-04-05 华为技术有限公司 根据频域能量对语音信号进行处理的方法和装置
JP6596924B2 (ja) * 2014-05-29 2019-10-30 日本電気株式会社 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
WO2016018186A1 (en) 2014-07-29 2016-02-04 Telefonaktiebolaget L M Ericsson (Publ) Estimation of background noise in audio signals
JP2016144080A (ja) * 2015-02-03 2016-08-08 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP6560503B2 (ja) * 2015-02-05 2019-08-14 日本放送協会 盛り上がり通知システム
US9311924B1 (en) 2015-07-20 2016-04-12 Tls Corp. Spectral wells for inserting watermarks in audio signals
US10115404B2 (en) 2015-07-24 2018-10-30 Tls Corp. Redundancy in watermarking audio signals that have speech-like properties
US9626977B2 (en) 2015-07-24 2017-04-18 Tls Corp. Inserting watermarks into audio signals that have speech-like properties
US20170092089A1 (en) * 2015-09-30 2017-03-30 Tianjin Hualai Technology Co., Ltd. Security monitoring apparatus, camera having the same and security monitoring method
KR20180082033A (ko) * 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치
CN107799126B (zh) * 2017-10-16 2020-10-16 苏州狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN111613250B (zh) * 2020-07-06 2023-07-18 泰康保险集团股份有限公司 长语音端点检测方法与装置、存储介质、电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01279300A (ja) * 1988-05-02 1989-11-09 Ricoh Co Ltd 音声信号の区間判別方法
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
JPH113091A (ja) * 1997-06-13 1999-01-06 Matsushita Electric Ind Co Ltd 音声信号の立ち上がり検出装置
JP2960939B2 (ja) * 1989-08-24 1999-10-12 日本電信電話株式会社 シーン抽出処理方法
JP2003029772A (ja) * 2001-07-17 2003-01-31 Sony Corp 信号処理装置および方法、記録媒体、並びにプログラム
JP2003530027A (ja) * 2000-03-31 2003-10-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ビデオ信号分析及び蓄積

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5121428A (en) 1988-01-20 1992-06-09 Ricoh Company, Ltd. Speaker verification system
US5774849A (en) 1996-01-22 1998-06-30 Rockwell International Corporation Method and apparatus for generating frame voicing decisions of an incoming speech signal
US6691087B2 (en) * 1997-11-21 2004-02-10 Sarnoff Corporation Method and apparatus for adaptive speech detection by applying a probabilistic description to the classification and tracking of signal components
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6973256B1 (en) * 2000-10-30 2005-12-06 Koninklijke Philips Electronics N.V. System and method for detecting highlights in a video program using audio properties
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7266287B2 (en) * 2001-12-14 2007-09-04 Hewlett-Packard Development Company, L.P. Using background audio change detection for segmenting video
US7386217B2 (en) * 2001-12-14 2008-06-10 Hewlett-Packard Development Company, L.P. Indexing video by detecting speech and music in audio
JP4036328B2 (ja) * 2002-09-30 2008-01-23 株式会社Kddi研究所 動画像データのシーン分類装置
US20040167767A1 (en) 2003-02-25 2004-08-26 Ziyou Xiong Method and system for extracting sports highlights from audio signals
JP4424590B2 (ja) * 2004-03-05 2010-03-03 株式会社Kddi研究所 スポーツ映像の分類装置
US7558809B2 (en) * 2006-01-06 2009-07-07 Mitsubishi Electric Research Laboratories, Inc. Task specific audio classification for identifying video highlights
US8503770B2 (en) * 2009-04-30 2013-08-06 Sony Corporation Information processing apparatus and method, and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01279300A (ja) * 1988-05-02 1989-11-09 Ricoh Co Ltd 音声信号の区間判別方法
JP2960939B2 (ja) * 1989-08-24 1999-10-12 日本電信電話株式会社 シーン抽出処理方法
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
JPH113091A (ja) * 1997-06-13 1999-01-06 Matsushita Electric Ind Co Ltd 音声信号の立ち上がり検出装置
JP2003530027A (ja) * 2000-03-31 2003-10-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ビデオ信号分析及び蓄積
JP2003029772A (ja) * 2001-07-17 2003-01-31 Sony Corp 信号処理装置および方法、記録媒体、並びにプログラム

Also Published As

Publication number Publication date
WO2010140355A1 (ja) 2010-12-09
US20120089393A1 (en) 2012-04-12
US8886528B2 (en) 2014-11-11
JPWO2010140355A1 (ja) 2012-11-15

Similar Documents

Publication Publication Date Title
JP5460709B2 (ja) 音響信号処理装置および方法
JP5034516B2 (ja) ハイライトシーン検出装置
KR101101384B1 (ko) 파라미터화된 시간 특징 분석
KR101726208B1 (ko) 볼륨 레벨러 제어기 및 제어 방법
EP2979359B1 (en) Equalizer controller and controlling method
EP3598448B1 (en) Apparatuses and methods for audio classifying and processing
US20050187765A1 (en) Method and apparatus for detecting anchorperson shot
Kos et al. Acoustic classification and segmentation using modified spectral roll-off and variance-based features
US20060245724A1 (en) Apparatus and method of detecting advertisement from moving-picture and computer-readable recording medium storing computer program to perform the method
JP2006319980A (ja) イベントを利用した動画像要約装置、方法及びプログラム
US7769761B2 (en) Information processing apparatus, method, and program product
JP2005173569A (ja) オーディオ信号の分類装置及び方法
JP2005532582A (ja) 音響信号に音響クラスを割り当てる方法及び装置
JP2008252667A (ja) 動画イベント検出装置
JP2008005167A (ja) 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体
JP3757719B2 (ja) 音響データ分析方法及びその装置
US20090030947A1 (en) Information processing device, information processing method, and program therefor
JP2008153920A (ja) 動画像一覧表示装置
JP2005167456A (ja) Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置
JP4884163B2 (ja) 音声分類装置
JP2009135754A (ja) ダイジェスト作成装置及び方法
JP5424306B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP2007127761A (ja) 会話区間検出装置及び会話区間検出プログラム
JP2008242213A (ja) 楽曲信号抽出装置、楽曲信号抽出方法、および楽曲信号抽出プログラム
JP2009192739A (ja) 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140114

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5460709

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees