JP5460709B2

JP5460709B2 - 音響信号処理装置および方法

Info

Publication number: JP5460709B2
Application number: JP2011518267A
Authority: JP
Inventors: 直也田中
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2009-06-04
Filing date: 2010-06-02
Publication date: 2014-04-02
Anticipated expiration: 2030-06-02
Also published as: WO2010140355A1; US20120089393A1; US8886528B2; JPWO2010140355A1

Description

本発明は、入力音響信号の特性を分析することにより、入力音響信号の種類を分類する装置に関する。

長時間の映像音響信号から、何らかの特徴を有するシーンである特定シーンのみを切り出して視聴する機能は、テレビ番組を録画視聴する機器（レコーダ）等に用いられ、「ハイライト再生」「ダイジェスト再生」等と呼ばれる。従来、特定シーンを抽出するための技術としては、映像信号もしくは音響信号を分析することによって、それぞれの信号の特徴を表すパラメータを算出し、算出したパラメータを用いてあらかじめ定められた条件に従って判定を行うことにより入力映像音響信号を分類し、特定シーンとみなす区間を切り出していた。特定シーンを判定するルールは、対象とする入力映像音響信号の内容や、どのような部分を視聴者に提供するかの機能によって異なる。例えば、特定シーンとしてスポーツ番組における盛り上がりシーンを再生する機能であれば、特定シーンを判定するルールは、入力音響信号に含まれる観客の歓声の大きさが指針となる。観客の歓声は、音響信号特性としては雑音的であり、入力音響信号に含まれる背景雑音として検出できる。音声の信号レベル、ピーク周波数、主要音声スペクトル幅等を用いて特定シーンを判定する、音響信号に対する判定処理の一例が開示されている（特許文献１参照）。この手法によれば、入力音響信号の周波数特性と信号レベル変化を利用して、観客の歓声が上がった区間を分類することができる。しかしながら、例えばピーク周波数は、入力音響信号の変化に敏感であるため、安定した判定結果を得ることが難しいという課題がある。

他方、入力音響信号のスペクトル変化を滑らかに、かつ、精度良く表現するパラメータとしては、スペクトル包絡と呼ばれるスペクトル分布の大まかな形を表すパラメータがあり、代表的な例として、線形予測係数（ＬＰＣ：ＬｉｎｅｒＰｒｅｄｉｃｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔｓ）、反射係数（ＲＣ：ＲｅｆｌｅｃｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔｓ）、線スペクトル対（ＬＳＰ：ＬｉｎｅＳｐｅｃｔｒａｌＰａｉｒｓ）等がある。この一例として、特徴パラメータとしてＬＳＰを使用し、過去のＬＳＰパラメータの移動平均に対する現在のＬＳＰパラメータの変化量を判定パラメータの一つとして用いる方法が開示されている（特許文献２参照）。この手法に拠れば、入力音響信号の周波数特性を利用して、入力音響信号が背景雑音区間であるかスピーチ区間であるかを安定して判定し、分類することができる。

特許第２９６０９３９号公報特許第３３６３３３６号公報

しかしながら、特にスポーツ番組の盛り上がりシーンにおいては、入力音響信号は特有の特性を示す。図１は、盛り上がりシーンにおけるスピーチと背景雑音との関係、及び従来の手法により決定されるハイライト区間を示す音響信号の特性を示す図であり、２０１はアナウンサの解説音声からなるスピーチ信号、２０２は観客の歓声を含む背景雑音信号である。スピーチ信号と背景雑音信号は重ね合わされた状態にあるが、どちらが支配的かによって、スピーチ区間２０４と背景雑音区間２０３および背景雑音区間２０５に分類できる。スピーチ信号と背景雑音信号の時間的なレベル変化は、盛り上がりシーンで発生したイベント（得点シーン等）の前後において、特徴的な変化を示す。すなわち、正しいイベント発生点２０６に向けて背景雑音レベルが次第に上昇し、イベント発生点付近で急激に上昇する。また、イベント発生点の前からイベント発生点にかけては、イベント内容を解説するスピーチ信号が重ね合わされる。イベント終了後は、背景雑音レベルが減少に転ずる。ここで注目すべき特性として、正しいイベント発生点２０６付近ではスピーチ信号が支配的であり、スピーチ区間２０４として分類されることである。従って、背景雑音区間における信号レベルの急激な上昇を検出する方法を用いると、たとえばこの例では背景雑音区間２０５の開始点であるスピーチ区間２０４と背景雑音区間２０５との接続点２０７がイベント発生点となり、正しいイベント発生点２０６を捉えることは難しい。また、盛り上がりシーンを視聴するにおいては、イベント発生までの過程を知るために、視聴区間（以降、「視聴に適したハイライト区間２０８」と定義する）に正しいイベント発生点２０６が含まれていることに加えて、イベント内容の解説がなされるスピーチ区間２０４全体も含まれていることが望ましい。したがって、ハイライト区間の開始点２０９はスピーチ区間２０４の開始点とすべきである。また、ハイライト区間の終了点２１０については、観客の歓声が収まった位置、すなわち、減少に転じた背景雑音レベルが十分に下がった位置に配置することが望ましい。このように、ハイライト区間決定のためには、検出したイベント発生点の前後区間について、適切な開始点および終了点を決める必要がある。

特に、ハイライト区間の開始点の位置については、検出したイベント発生点を開始点とする第１の従来手法では、スピーチ区間２０４と背景雑音区間２０５との接続点２０７がイベント発生点となるので、スピーチ区間２０４と背景雑音区間２０５との接続点２０７を開始点とするハイライト区間２１１が決定される。このように第１の従来手法で決定されたハイライト区間２１１には、イベント前の解説音声のスピーチ区間２０４が含まれないため問題が大きい。また、検出したイベント発生点に対してあらかじめ定められた時間オフセット２１２を与えることによって、ハイライト区間の開始点２１３を、イベント検出点であるスピーチ区間２０４と背景雑音区間２０５との接続点２０７に対して時間オフセット２１２だけ時間的に前に設置する第２の従来手法では、スピーチ区間２０４の長さはそれぞれのシーンによって異なるので、ハイライト区間の開始点２１３がスピーチ区間２０４内に配置されてしまうことがある。その場合、第２の従来手法で決定されたハイライト区間２１４の再生時には話しの途中の位置から開始されることになり、言葉の意味が取れない等の問題が発生する。

また、入力音響信号の分類のために、スペクトル包絡を用いて入力音響信号の特徴を精度良く表現するためには、スペクトル包絡パラメータの次数を増やす必要があり、一般的には８次から２０次程度のパラメータが用いられる。ある次数のスペクトル包絡パラメータを算出するためには、同じ次数の自己相関係数を算出する必要があるため、処理量が大きくなるという問題がある。

本発明は、上記課題を解決するものであって、より少ない処理量で、入力音響信号が背景雑音区間であるかスピーチ区間であるかを分類し、音響信号の時間的な変化の特性を利用することによって、盛り上がりシーンを含むハイライト区間を適切に選択することができる音響信号処理装置を提供することを目的とする。

上記課題を解決するために、本発明の一形態である音響信号処理装置は、入力された音響信号をあらかじめ定められた時間長のフレームに分割し、分割されたフレーム毎に音響信号の性質を分類することによって、入力音響信号の一部である特定の特徴を有するシーンを含むハイライト区間を抽出する装置であって、フレーム毎に入力音響信号のスペクトル分布の傾きを表すパラメータを算出するパラメータ算出手段と、隣接するフレーム間での前記スペクトル分布の傾きを表すパラメータの変化の大きさを、互いに隣接する複数のフレームに渡って算出し、算出結果をあらかじめ定めた閾値と比較する比較手段と、前記比較の結果に基づいて、入力音響信号を背景雑音区間とスピーチ区間とに分類する分類手段と、前記分類手段によって前記背景雑音区間と分類された区間の信号エネルギから、前記背景雑音区間内の背景雑音レベルを算出するレベル算出手段と、算出された前記背景雑音レベルの急激な上昇を検出して、イベント発生点を検出するイベント検出手段と、検出された前記イベント発生点前後の前記背景雑音区間及び前記スピーチ区間の分類結果と、前記背景雑音レベルとの関係から、ハイライト区間の開始点および終了点を決定するハイライト区間決定手段とを備える。

また、本発明の他の形態である音響信号処理装置では、前記入力音響信号の前記スペクトル分布の傾きを表すパラメータは、１次の反射係数であるとしてもよい。

本発明のさらに他の形態である音響信号処理装置では、前記分類手段は、単位時間内における前記スペクトル分布の傾きを表すパラメータの変化の大きさを、前記閾値と比較し、変化の大きさが前記閾値よりも小さい場合には、入力音響信号が背景雑音区間であると分類し、変化の大きさが前記閾値よりも大きい場合には、入力音響信号がスピーチ区間であると分類するとしてもよい。

また、本発明のさらに他の形態である音響信号処理装置では、前記ハイライト区間決定手段は、前記イベント発生点から時間を遡って、前記イベント発生点の直近のスピーチ区間を検索し、前記ハイライト区間の開始点を、前記検索の結果として得られたスピーチ区間の開始点に一致させるとしてもよい。

なお、本発明は、装置として実現できるだけでなく、その装置を構成する処理手段をステップとする方法として実現したり、それらステップをコンピュータに実行させるプログラムとして実現したり、そのプログラムを記録したコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体として実現したり、そのプログラムを示す情報、データ又は信号として実現したりすることもできる。そして、それらプログラム、情報、データ及び信号は、インターネット等の通信ネットワークを介して配信してもよい。

本発明によれば、盛り上がり区間における入力音響信号の時間的な変化の特性を利用することによって、適切なハイライト区間を選択することができる。

また、本発明によれば、前記入力音響信号の時間的な変化の特性を検出するためのパラメータとして、１次の反射係数を用いることによって、より少ない処理量で適切なハイライト区間を選択することができる。

図１は、盛り上がりシーンにおけるスピーチと背景雑音との関係、及び従来の手法により決定されるハイライト区間を示す音響信号の特性を示す図である。図２は、本発明の実施の形態１の音響信号処理装置の構成を示す図である。図３（ａ）、図３（ｂ）および図３（ｃ）は、盛り上がりシーンにおけるスピーチ区間と背景雑音区間とでのスペクトル分布の特性を示す図である。図４は、盛り上がりシーンにおけるスピーチと背景雑音との関係、及び本発明でのスピーチ区間と背景雑音区間との分類結果を示す音響信号の特性を示す図である。図５は、ハイライト区間決定処理における音響信号処理装置の動作を示すフローチャートである。

（実施の形態１）
図２は本実施の形態１の音響信号処理装置の構成を示す図である。図２において、処理部間の矢印はデータの流れを示し、矢印に付された参照符号は処理部間で受け渡されるデータを示している。同図に示すように、盛り上がり区間における入力音響信号の成分の時間的変化の特性に基づいて、少ない演算量でハイライト区間を決定する音響信号処理装置は、フレーミング部１１、反射係数算出部１２、反射係数比較部１３、音響信号分類部１４、背景雑音レベル算出部１５、イベント検出部１６及びハイライト区間決定部１７を備える。フレーミング部１１は、入力された音響信号１０１をあらかじめ定められたフレーム長のフレーム信号１０２に分割する。反射係数算出部１２は、決められたフレーム長のフレーム信号１０２からフレームごとの反射係数１０３を算出する。反射係数比較部１３は、フレームごとの反射係数１０３を隣接しあう複数のフレームにわたって比較し、比較結果１０４を出力する。音響信号分類部１４は、反射係数の比較結果に基づいて入力音響信号をスピーチ区間と背景雑音区間とに分類し、分類結果１０５を出力する。背景雑音レベル算出部１５は、分類結果１０５に基づいて、入力音響信号の背景雑音区間における背景雑音レベル１０６を算出する。イベント検出部１６は、背景雑音レベル１０６の変化に基づいて、イベント発生点１０７を検出する。ハイライト区間決定部１７は、入力音響信号の分類結果１０５、背景雑音レベル１０６及びイベント発生点１０７の情報に基づいてハイライト区間１０８を決定し、出力する。

ここで、本発明の音響信号処理装置が利用するパラメータと、スポーツ番組の盛り上がりシーンにおける入力音響信号の特性との関係を説明する。図３（ａ）〜図３（ｃ）はスポーツ番組の盛り上がりシーンの音響信号をスペクトル分析した結果を示す図である。同図（ａ）において横軸は時間であり時間長は９秒、縦軸は周波数であり周波数範囲は０から８ｋＨｚまで、明度が高い部分ほど信号レベルが高いことを示している。この盛り上がりシーンを含む視聴に適したハイライト区間２０８は、正しいイベント発生点２０６を含み、スピーチ区間２０４と背景雑音区間２０５とから成る。中央縦線で区切りを示しているスピーチ区間２０４と背景雑音区間２０５との接続点２０７は、音響信号におけるスピーチと背景雑音との支配的な成分の切り替わり点である。図４は、盛り上がりシーンにおけるスピーチと背景雑音との関係、及び本発明でのスピーチ区間２０４と背景雑音区間２０５との分類結果を示す音響信号の特性を示す図である。従って、図４に示すように、音響信号分類部１４によって分類されることにより、音響信号におけるスピーチと背景雑音との支配的な成分が切り替わる、スピーチ区間２０４と背景雑音区間２０５との接続点２０７で、スピーチ区間２０４と背景雑音区間２０５とが切り替えられることになる。

具体的には、図３（ａ）及び図３（ｂ）に示すように、前半のスピーチ区間においては、音響信号のスペクトル分布は数十から数百ｍｓｅｃの比較的短い時間で大きく変化する。これはスピーチ信号が、大きく分けて子音・母音・空白の３つの要素から構成され、それぞれが比較的短い時間で切り替わるためである。それぞれの要素のスペクトル分布の特徴は、以下の通りである。

子音：中高域（３ｋＨｚ付近以上）の成分が強い
母音：中低域（数百Ｈｚから２ｋＨｚ程度）の成分が強い
空白：背景雑音のスペクトル特徴が現れる
本発明では、特に子音と母音のスペクトル分布特性の違いに注目し、その特性を利用している。すなわち、中高域の成分が強いスペクトル分布と中低域の成分が強いスペクトル分布とが、比較的短い時間に切り替われば、その音響信号はスピーチ信号であるとみなすことができる。スペクトル分布において、中高域成分が強いか中低域成分が強いかを判定するためには、スペクトル分布の傾きが分かれば十分である。すなわち、高次のスペクトル包絡パラメータを用いて、スペクトル包絡形状の評価を行う必要は無い。スペクトル分布の傾きを表す最も処理量の少ないパラメータとして１次の反射係数があり、次式で算出される。なお、ここでは１次の反射係数を用いたが、反射係数の代わりに、例えば、低次のＬＰＣ又はＬＳＰを用いてもよい。ただし、ＬＰＣ又はＬＳＰを用いる場合でも、１次のＬＰＣ又は１次のＬＳＰが、より好ましい。

１次の反射係数が正であれば、スペクトル高域側の成分が強く、逆に負であればスペクトル低域側の成分が強いことを示す。図３（ｃ）前半に示すように、入力音響信号がスピーチ信号であれば、１次の反射係数の値は比較的短い時間で大きく変化することになる。図３（ａ）後半の背景雑音区間においては、時間的なスペクトル分布の変化は穏やかである。これは、背景雑音を構成する観客の歓声が多数の人の声が重なり合って平均化されたものだからである。このようなスペクトル分布の特徴を表現する上でも１次の反射係数は有用である。すなわち、スペクトル分布の変化が穏やかであるため、スペクトル分布の傾きはほぼ一定となり、図３（ｃ）後半に示すように、１次反射係数の値はほとんど変化しなくなる。以上の特性を利用することにより、入力音響信号をスピーチ区間と背景雑音区間の２種類に分類するに当たっては、従来の様にスペクトル包絡を表す高次のスペクトル包絡パラメータを使用することなく、スペクトル分布の傾きを表す１次の反射係数を用いるのみで実現できる。

以上で説明した入力音響信号の特性と１次反射係数の特性の関係を前提に、本発明の音響信号処理装置の動作を説明する。図５は、ハイライト区間決定処理における音響信号処理装置の動作を示すフローチャートである。入力された音響信号１０１は、フレーミング部１１において、あらかじめ定められた長さのフレーム信号１０２に分割される。フレームの長さは、スピーチ信号における子音と母音間の変化を捉える必要性から、５０ｍｓｅｃから１００ｍｓｅｃ程度に設定することが望ましい。反射係数算出部１２は、フレームごとに１次の反射係数１０３を算出する。反射係数比較部１３は、隣接する複数のフレーム間において１次反射係数を比較し、比較結果１０４として１次反射係数の変化の大きさを出力する。１次反射係数の変化の大きさの尺度としては、例えば、次式（式２）で与えられる平均差分値を用いる。この平均差分値は、「隣接するフレーム間での前記スペクトル分布の傾きを表すパラメータの変化の大きさ」の一例である。なお、ここでは式２で表される平均差分値で表す例を示したが、平均差分値の代わりに、単なる差分絶対値和、または差分の２乗和などで表してもよい。

平均を取るフレーム数Ｎｋは、フレームの時間長によって異なるが、例えばフレーム長が１００ｍｓｅｃならば、Ｎｋ＝５から１０程度が適当である。音響信号分類部１４は、１次反射係数の変化の大きさに基づいて、入力音響信号をスピーチ区間と背景雑音区間に分類する（Ｓ３０１）。先に説明したように、スピーチ区間においては１次反射係数の変化は大きく、逆に背景雑音区間では変化は小さい。式２で示した前記平均差分値をあらかじめ定められた閾値ＴＨ＿ｋ１と比較することによって分類が行われる。閾値の一例として、ＴＨ＿ｋ１＝０．０５である。

背景雑音レベル算出部１５は、分類結果１０５に基づいて、背景雑音区間であると分類された区間においてのみ、フレームごとの信号エネルギを算出し（Ｓ３０２）、背景雑音レベル１０６とする。イベント検出部１６は、隣接する複数フレーム間に渡って背景雑音レベルの変化を評価し、イベント発生点１０７(スピーチ区間２０４と背景雑音区間２０５との接続点２０７に相当)を検出する（Ｓ３０３〜Ｓ３０５）。評価方法の例として、過去複数フレームにおける平均背景雑音レベルと現フレームの背景雑音レベルの比率を、あらかじめ定められた閾値ＴＨ＿Ｅｂと比較する方法を用いる。閾値の一例として、ＴＨ＿Ｅｂ＝２．８１８（＝４．５ｄＢ）である。

図２に示したように、ハイライト区間決定部１７は、音響信号の分類結果１０５とイベント発生点１０７の検出結果に基づいて、視聴に適したハイライト区間２０８に等しいハイライト区間１０８を決定し出力する。ハイライト区間の始点および終点の決定方法は、先に説明した盛り上がりシーンにおける音響信号特性を利用する。まず、イベント発生点１０７から時間を遡る方向にスピーチ区間２０４を検索する。スピーチ区間２０４が見つかったら、該当するスピーチ区間の開始点をハイライト区間の開始点２０９とする（Ｓ３０６）。次に、イベント発生点から時間に順方向に、背景雑音レベルを評価し、背景雑音レベルが十分に低下した点、例えば、背景雑音レベルが最高値から１０ｄＢ低下した点をハイライト区間の終了点２１０とする（Ｓ３０７）。ただし、背景雑音レベルが十分に低下する前にスピーチ区間が現れた場合には、終了点検出は行わずに背景雑音レベルの最高値をホールドし、スピーチ区間が終了して再び背景雑音区間となってから、終了点検出を再開する。すなわち、ハイライト区間決定部１７は、ホールドした背景雑音レベルの最高値から１０ｄＢ低下した点をハイライト区間１０８の終了点２１０とする。このように、ハイライト区間１０８の開始点と終了点を決定することによって、当該ハイライト区間が確定する。

以上で説明したように本発明の音響信号処理装置を用いれば、スペクトル分布の評価指標として、スペクトル分布の傾きを表す１次反射係数を用いて入力音響信号を分類し、さらに、盛り上がりシーンにおける時間的な信号特性変化の特徴を利用することによって、少ない処理量でハイライト区間１０８として視聴に適したハイライト区間２０８の抽出を行うことができる。

なお、上記の実施の形態の説明においては、前記フレーム毎に入力音響信号のスペクトル分布の傾きを表すパラメータを算出するパラメータ算出手段は、前記フレームに含まれる入力音響信号の一部のみを利用して、前記入力音響信号のスペクトル分布の傾きを表すパラメータを算出しても良い。例えば、前記フレームの時間長が１００ｍｓである場合、その中央部分の５０ｍｓの入力音響信号のみを用いて、前記入力音響信号のスペクトル分布の傾きを表すパラメータを算出する。これにより、パラメータ算出に係わる処理量をさらに削減することができる。

なお、上記の実施の形態の説明においては、特定シーンとして、スポーツ番組における盛り上がりシーンを前提としたが、本発明の適用範囲はそれだけに限定されない。例えば、バラエティ番組、演劇および演芸などの盛り上がりシーン等においても、出演者のスピーチ区間と観客の声援を中心とする背景雑音区間から構成される点は同様であり、本発明の構成を用いることによって、盛り上がりシーンを含むハイライト区間の抽出が可能である。

（１）上記の各装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（２）上記の各装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

（３）上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。前記ＩＣカードまたは前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカードまたは前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカードまたは前記モジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

（４）本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるディジタル信号であるとしてもよい。

また、本発明は、前記コンピュータプログラムまたは前記ディジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記ディジタル信号であるとしてもよい。

また、本発明は、前記コンピュータプログラムまたは前記ディジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

また、前記プログラムまたは前記ディジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記ディジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

（５）上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。

本発明の音響信号処理装置は、ＤＶＤ／ＢＤレコーダ等の音響映像記録再生機器、ＩＣレコーダ等の音声記録再生機器に適用できる。これによって、録画／録音された情報から特定シーンのみを切り出して、短時間で視聴する機能を実現することができる。

１１フレーミング部
１２反射係数算出部
１３反射係数比較部
１４音響信号分類部
１５背景雑音レベル算出部
１６イベント検出部
１７ハイライト区間決定部
１０１音響信号
１０２フレーム信号
１０３反射係数
１０４比較結果
１０５分類結果
１０６背景雑音レベル
１０７イベント発生点
１０８、２０８視聴に適したハイライト区間
２０１スピーチ信号
２０２背景雑音信号
２０３、２０５背景雑音区間
２０４スピーチ区間
２０６正しいイベント発生点
２０７スピーチ区間と背景雑音区間の接続点
２０９、２１３ハイライト区間の開始点
２１０ハイライト区間の終了点
２１１、２１４ハイライト区間
２１２時間オフセット

Claims

入力された音響信号をあらかじめ定められた時間長のフレームに分割し、分割されたフレーム毎に音響信号の性質を分類することによって、入力音響信号から特定の特徴を有するシーンを含むハイライト区間を抽出する音響信号処理装置であって、
フレーム毎に入力音響信号のスペクトル分布の傾きを表すパラメータを算出するパラメータ算出手段と、
隣接するフレーム間での前記スペクトル分布の傾きを表すパラメータの変化の大きさを、互いに隣接する複数のフレームに渡って算出し、算出結果とあらかじめ定めた閾値とを比較する比較手段と、
前記比較の結果に基づいて、入力音響信号を背景雑音区間とスピーチ区間とに分類する分類手段と、
前記分類手段によって前記背景雑音区間と分類された区間の信号エネルギから、前記背景雑音区間内の背景雑音レベルを算出するレベル算出手段と、
算出された前記背景雑音レベルの急激な上昇を検出して、イベント発生点を検出するイベント検出手段と、
検出された前記イベント発生点前後の前記背景雑音区間及び前記スピーチ区間の分類結果と、前記背景雑音レベルとの関係から、ハイライト区間の開始点および終了点を決定するハイライト区間決定手段とを備える
音響信号処理装置。
前記入力音響信号の前記スペクトル分布の傾きを表すパラメータは、１次の反射係数である
請求項１に記載の音響信号処理装置。
前記分類手段は、単位時間内における前記スペクトル分布の傾きを表すパラメータの変化の大きさを、前記閾値と比較し、変化の大きさが前記閾値よりも小さい場合には、入力音響信号が背景雑音区間であると分類し、変化の大きさが前記閾値よりも大きい場合には、入力音響信号がスピーチ区間であると分類する
請求項１に記載の音響信号処理装置。
前記ハイライト区間決定手段は、前記イベント発生点から時間を遡って、前記イベント発生点の直近のスピーチ区間を検索し、前記ハイライト区間の開始点を、前記検索結果として得られたスピーチ区間の開始点に一致させる
請求項１に記載の音響信号処理装置。
入力された音響信号をあらかじめ定められた時間のフレームに分割し、分割されたフレーム毎に音響信号の性質を分類することによって、入力音響信号から特定の特徴を有するシーンを含むハイライト区間を抽出する音響信号処理方法であって、
フレーム毎に入力音響信号のスペクトル分布の傾きを表すパラメータを算出するパラメータ算出ステップと、
隣接するフレーム間での前記スペクトル分布の傾きを表すパラメータの変化の大きさを、互いに隣接する複数のフレームに渡って算出し、算出結果をあらかじめ定めた閾値と比較する比較ステップと、
前記比較の結果に基づいて、入力音響信号を背景雑音区間とスピーチ区間とに分類する分類ステップと、
前記分類ステップによって前記背景雑音区間と分類された区間の信号エネルギから、前記背景雑音区間内の背景雑音レベルを算出するレベル算出ステップと、
算出された前記背景雑音レベルの急激な上昇を検出して、イベント発生点を検出するイベント検出ステップと、
検出された前記イベント発生点前後の前記背景雑音区間及び前記スピーチ区間の分類結果と、前記背景雑音レベルとの関係から、ハイライト区間の開始点および終了点を決定するハイライト区間決定ステップとを含む
音響信号処理方法。
請求項５に記載の音響信号処理方法に含まれる各ステップを、コンピュータに実行させるためのプログラム。
請求項１に記載の音響信号処理装置に含まれる構成を備える集積回路。