JP6682222B2

JP6682222B2 - 検知装置及びその制御方法、コンピュータプログラム

Info

Publication number: JP6682222B2
Application number: JP2015187441A
Authority: JP
Inventors: 智彦黒木
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-09-24
Filing date: 2015-09-24
Publication date: 2020-04-15
Anticipated expiration: 2035-09-24
Also published as: JP2017062349A; CN106558317A; EP3147902A1; EP3147902B1; US20170092296A1; US10109299B2

Description

本発明は検知装置及びその制御方法、コンピュータプログラムに関し、特に音声を検知する技術に関する。

監視カメラシステムにおいて、撮影現場の音声をユーザが監視するための音声モニタリングが知られている。特に近年の監視カメラシステムでは、監視員が２４時間モニタリングしなくも現場の音声から異常を自動的に検知し、通知を行う異常音検知が知られている。特許文献１には、音声の周波数やケプストラムなどの特徴量を基に異常音を検知し通知することや、誤検知低減のために周囲の環境音の特徴量が記憶された特徴量データベースを備え環境音が異常音か否かを判定することが記載されている。

特開２００４−３５７０１４号公報

しかしながら、従来の構成では、ある特定の状況において事前に現場環境の特徴量を登録した特徴量データベースを参照して判定を行う。このため、データベースの特徴量を取得した環境と異なる状況においては、十分な検知精度を得ることができなかった。特に、２４時間監視を行う監視カメラにおいては時間帯における現場環境の変化が顕著に表れ、その状況によっては検知精度に大きく低下していた。

そこで、本発明の目的は、高精度に特定の音を検知することが可能な技術を提供することである。

上記目的を達成するため、本発明による検知装置は以下の構成を備える。即ち、
撮影対象を撮影して生成された画像データから該撮影対象の状況を検出する検出手段と、
前記撮影対象の周辺の音声を集音して生成された音声データから音声の特徴量を抽出する抽出手段と、
前記検出手段によって検出された前記撮影対象の状況に応じた特定音の特徴量と、前記抽出手段によって抽出された特徴量とを比較して、特定音を検知する検知手段と、を備え、
前記検出手段は、前記撮影対象の状況として、前記画像データに基づく画像に含まれる特定の物体の数を検出する。
また、本発明の他の態様による検知装置は以下の構成を備える。即ち、
撮影対象を撮影して生成された画像データから該撮影対象の状況を検出する検出手段と、
前記撮影対象の周辺の音声を集音して生成された音声データから音声の特徴量を抽出する抽出手段と、
前記検出手段によって検出された前記撮影対象の状況に応じた特定音の特徴量と、前記抽出手段によって抽出された特徴量とを比較して、特定音を検知する検知手段と、を備え、
前記検出手段は、前記撮影対象の状況として、前記画像データに基づく画像の明るさを検出する。

本発明によれば、高精度に特定の音を検知することが可能な技術を提供することができる。

監視カメラシステムの機能構成を示すブロック図監視カメラシステムのハードウェア構成を示すブロック図特徴量データベース構成を示す図異常音検知の手順を示すフローチャート監視カメラシステムのブロック構成図異常音検知の手順を示すフローチャート監視カメラシステムのブロック構成図特徴量データベース構成を示す図異常音検知の手順を示すフローチャート監視カメラシステムのブロック構成図異常音検知の手順を示すフローチャート

以下、添付の図面を参照しながら、本発明の実施形態を詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。

＜＜実施形態１＞＞
（監視システム）
本発明の第一の実施形態（実施形態１）に係る監視システムの構成例について、図１を参照して説明する。図１は本実施形態に係る監視システムの機能構成を示すブロック図である。

異常音監視システムＡ１０００は、撮影現場にいる人の異常を監視するシステムであり、撮影現場で人の悲鳴や罵声などが発生した場合にそれを異常音として検知し、監視モニタ装置Ａ１０１４にイベント通知を行う。異常音監視システムＡ１０００は、映像入力装置Ａ１００８、音声入力装置Ａ１００１、情報処理部Ａ１０１５、及び、通信部Ａ１０１３を有しており、通信部Ａ１０１３は外部の監視モニタ装置Ａ１０１４に接続されている。音声入力装置Ａ１００１は撮影対象の周辺の音声を集音して生成された音声データを入力する装置であり、マイク等により構成される。映像入力装置Ａ１００８は周囲を撮影して撮影画像（映像）を生成・入力する装置であり、カメラ等により構成される。

情報処理部Ａ１０１５は、映像情報処理部Ａ１０１６と、音声情報処理部Ａ１０１７、検出タイマ部Ａ１０１８、及び、イベント通知部Ａ１０１２を有する。映像情報処理部Ａ１０１６は入力された映像情報を処理し、音声情報処理部Ａ１０１７は入力された音声情報を処理する。検出タイマ部Ａ１０１８はタイマにより映像検出の頻度を決定し、イベント通知部Ａ１０１２は外部に通知イベントを出力する。

映像情報処理部Ａ１０１６は、入力された映像を保持する映像入力部Ａ１００９、及び、入力された映像から現在の周辺情報を検出する周辺状況検出部Ａ１０１０を有する。周辺状況検出部Ａ１０１０は、撮影対象を撮影して生成された画像データから該撮影対象の状況を検出する。本実施形態では、周辺状況検出部Ａ１０１０は、映像入力部Ａ１００９から入力された映像をもとに画面内に映る人物の人数を数え、その結果を単体、複数人、多人数（群衆）の三段階で出力する。人数を数える手法として、例えば顔検知やテンプレートマッチング法など用いる。顔検知やテンプレートマッチング法としては、いかなる手法も利用することができる。ここで、出力結果の判断基準は、人が居ない場合も含め０〜１名の場合は単体、人数が２〜２０名の場合は複数人、２０名以上の場合は多人数とする。

音声情報処理部Ａ１０１７は、音声入力部Ａ１００２、特徴量抽出部Ａ１００３、特徴量マッチング部Ａ１００４、特徴量データベースＡ１００５、尤度計算部Ａ１００６、検知結果判断部Ａ１００７、及び、データベース構成判断部Ａ１０１１を有する。音声入力部Ａ１００２は音声入力装置Ａ１００１から入力音声を入力し、特徴量抽出部Ａ１００３は音声入力部Ａ１００２で入力された音声データ（入力音声）から音声の特徴量を抽出する機能を持つ。ここで使用する特徴量は、音声の基本周波数、フォルマント周波数、スペクトラム、ケプストラムから得られるメル周波数ケプストラム係数（ＭＦＣＣ）やゼロクロス、サブバンドエナジーなどである。ＭＦＣＣはMel-Frequency Cepstrum Coefficientsの略称である。メル周波数ケプストラム係数やゼロクロス、サブバンドエナジーについては、詳細な説明を省略する。

特徴量データベースＡ１００５は異常音を含む特定音の特徴量を格納・保持している。後述するように、特徴量データベースＡ１００５は、複数の周囲の状況（本実施形態では入力映像に映っている人物の人数）ごとに音声の特徴を表す特徴量を保持している。特徴量マッチング部Ａ１００４は特徴量抽出部Ａ１００３で抽出した特徴量と特徴量データベースＡ１００５の周囲の状況に対応する各特徴量とを比較する機能を持つ。

尤度計算部Ａ１００６は、特徴量マッチング部Ａ１００４の結果をもとに特徴量データベースＡ１００５の各々のマッチング対象の特徴量に対する入力音声の特徴量の尤度を計算する。そして、検知結果の候補をその尤度計算のスコアとともにいわゆるN-Bestで出力する。N-Bestについては詳細な説明を省略する。

検知結果判断部Ａ１００７は尤度計算部Ａ１００６から出力された候補のトップを検知結果として用いる。その候補が異常音として登録した音声であり、スコアが規定の閾値を超えた場合、異常が発生したと判断してイベント通知部Ａ１０１２に異常を通知する。

データベース構成判断部Ａ１０１１は周辺状況検出部Ａ１０１０で検出した人の数や混み具合の情報から特徴量データベースＡ１００５に登録されている特徴量の構成を切り替える機能を持つ。

図２は、本実施形態に係る異常音監視システムＡ１０００のハードウェア構成例を示すブロック図である。異常音監視システムＡ１０００は、パーソナルコンピュータ（ＰＣ）やタブレット端末等により実現される。

図２において、ＣＰＵ９９０は中央演算処理装置であり、コンピュータプログラムに基づいて他の構成要素と協働し、異常音監視システムＡ１０００全体の動作を制御する。ＲＯＭ９９１は読出し専用メモリであり、基本プログラムや基本処理に使用するデータ等を記憶する。ＲＡＭ９９２は書込み可能メモリであり、ＣＰＵ９９０のワークエリア等として機能する。

外部記憶ドライブ９９３は記録媒体へのアクセスを実現し、ＵＳＢメモリ等のメディア（記録媒体）９９４に記憶されたコンピュータプログラムやデータを本システムにロードすることができる。ストレージ９９５はＳＳＤ（ソリッドステートドライブ）等の大容量メモリとして機能する装置である。ストレージ９９５には、各種コンピュータプログラムやデータが格納される。

操作部９９６はユーザからの指示やコマンドの入力を受け付ける装置であり、キーボードやポインティングデバイス、タッチパネル等がこれに相当する。ディスプレイ９９７は、操作部９９６から入力されたコマンドや、それに対する異常音監視システムＡ１０００の応答出力等を表示する表示装置である。インターフェイス（Ｉ／Ｆ）９９８は外部装置とのデータのやり取りを中継する装置である。システムバス９９９は、異常音監視システムＡ１０００内のデータの流れを司るデータバスである。

図１に示した異常音監視システムＡ１０００の各機能要素はＣＰＵ９９０がコンピュータプログラムに基づき装置全体を制御することにより実現されるが、機能要素の全部または一部を専用のハードウェアにより構成してもよい。

（特徴量データベース）
図３は、本実施形態に係る特徴量データベースＡ１００５の構成例を示す図である。特徴量データベースＡ１００５は、悲鳴音特徴量Ｄ００２、苦手音（検出精度が低くなってしまう特定音）特徴量［群衆］Ｄ００３、苦手音特徴量［複数人］Ｄ００４、及び、苦手音特徴量［単体］Ｄ００５から構成されている。悲鳴音特徴量Ｄ００２は、悲鳴、罵声、唸り等の人の異常音の特徴量である。

苦手音特徴量は、悲鳴音に近い苦手音の特徴量である。本実施形態では誤検知低減のために、人の数に応じて苦手音の特徴量を、苦手音特徴量［群衆］Ｄ００３、苦手音特徴量［複数人］Ｄ００４、及び、苦手音特徴量［単体］Ｄ００５に分類して保持している。苦手音特徴量［群衆］Ｄ００３は人が多人数いないと発生しないような音声である「歓声」「喝采」「ざわめき」などの特徴量を有する。苦手音特徴量［複数人］Ｄ００４は人が複数人いないと発生しないような音声である「会話(複数人)」「笑い声(複数人)」「拍手(複数)」などの特徴量を有する。苦手音特徴量［単体］Ｄ００５は人が単体でも発生しうる音声である「笑い声」「泣き声」「呼び声」などの特徴量を有する。

このように特徴量データベースＡ１００５内の特徴量はその内容に応じてグルーピングされた複数の特徴量データの集まりで構成されている。これらの特徴量は、必要に応じて動的にデータベースから解除・設定することで、特徴量マッチング部Ａ１００４のマッチング対象から除外・包含することができる（Ｄ００６）。

（動作手順）
ここで、図４のフローチャートを参照しながら映像から入力される現在の状況に合わせ特徴量データベースの構成を入れ替える動作の処理手順について説明する。以下の各ステップは、ＣＰＵ９９０の制御に基づき実行される。

本実施形態では、周辺状況検出部Ａ１０１０によって検出された撮影対象の状況に応じた特定音の特徴量と、特徴量抽出部Ａ１００３によって抽出された特徴量とを比較して、特定音を検知する。具体的には、図４のＳ１０１〜Ｓ１１２では、入力された映像情報を基に検出された撮影対象の状況に応じて特徴量データベースＡ１００５の構成を更新する特徴量データベース構成更新処理を実行する。そして、Ｓ１１３〜Ｓ１２０では、更新された特徴量データベースＡ１００５を用いて異常音を検知する異常音検知処理を実行する。このように本実施形態では、撮影対象の状況に応じた特徴量データベースＡ１００５を用いて異常音を検知するため、撮影対象の状況に関わらず高精度で異常音を検知することができる。

異常音監視システムＡ１０００は起動すると、Ｓ１０１において映像入力装置Ａ１００８から映像情報を入力し、映像入力部Ａ１００９に格納する。そして、Ｓ１０２において、入力された映像情報を周辺状況検出部Ａ１０１０にて解析し、映像上の人の数や混雑具合（混雑度）を検出する。

次に、Ｓ１０３において、周辺状況検出部Ａ１０１０にて検出した情報を基に、その混雑具合が多人数レベル（群衆）であるか否かを判定する。真の場合（Ｓ１０３でＹＥＳ）はＳ１０５へ進み、偽の場合（Ｓ１０３でＮＯ）はＳ１０４へ進む。

Ｓ１０４において、現在の特徴量データベースＡ１００５に苦手音特徴量［群衆］Ｄ００３が設定されているかを判定する。真の場合（Ｓ１０４でＹＥＳ）はＳ１０６へ進み、偽の場合（Ｓ１０４でＮＯ）はＳ１０８へ進む。

Ｓ１０５において、現在の特徴量データベースＡ１００５に苦手音特徴量［群衆］Ｄ００３が設定されているかを判定する。真の場合（Ｓ１０５でＹＥＳ）はＳ１０９へ進み、偽の場合はＳ１０７へ進む。

Ｓ１０６において、現在の状況では発声されることのない群衆時の音声の特徴量が格納されている苦手音特徴量［群衆］Ｄ００３を特徴量データベースＡ１００５から解除する。そして、Ｓ１０８へ進む。

Ｓ１０７において、現在の状況から発声される可能性のある群衆時の音声の特徴量が格納されている苦手音種特徴量［群衆］Ｄ００３を特徴量データベースＡ１００５に設定する。そして、Ｓ１０９へ進む。

Ｓ１０８において、周辺状況検出部Ａ１０１０にて検出した情報を基にその混雑具合が複数人レベルか否かを判定する。真の場合（Ｓ１０８でＹＥＳ）はＳ１０９に進み、偽の場合（Ｓ１０８でＮＯ）はＳ１１０に進む。

Ｓ１０９において、現在の特徴量データベースＡ１００５に苦手音特徴量［複数人］Ｄ００４が設定されているかを判定する。真の場合（Ｓ１０９でＹＥＳ）はＳ１１３へ進み、偽の場合（Ｓ１０９でＮＯ）はＳ１１１へ進む。

Ｓ１１０において、現在の特徴量データベースＡ１００５に苦手音特徴量［複数人］Ｄ００４が設定されているかを判定する。真の場合（Ｓ１１０でＹＥＳ）はＳ１１２に進み、偽の場合（Ｓ１１０でＮＯ）はＳ１１３に進む。

Ｓ１１１において、現在の状況から発声される可能性のある、群衆時の音声の特徴量が格納されている苦手音種特徴量［複数人］Ｄ００４を特徴量データベースＡ１００５に設定する。そして、Ｓ１１３に進む。

Ｓ１１２において、現在の状況では発声されることのない複数人時の音声の特徴量が格納されている苦手音特徴量［複数人］Ｄ００４を特徴量データベースＡ１００５から解除する。そして、Ｓ１１３に進む。

Ｓ１１３において、特徴量データベースＡ１００５を更新するための次の周辺状況検出を行うタイムアウト時間５ｓｅｃ（５秒）を検出タイマ部Ａ１０１８に設定する。Ｓ１１４において、音声入力部Ａ１００２に入力された音声の特徴量を特徴量抽出部Ａ１００３にて抽出する。そして、Ｓ１１５において、特徴量抽出部Ａ１００３にて抽出した特徴量と特徴量データベースＡ１００５の各特徴量との比較を特徴量マッチング部Ａ１００４にて行う。

次に、Ｓ１１６において、データベースＡ１００５の各特徴量と入力音声の特徴量との間における尤度計算を尤度計算部Ａ１００６にて行う。

Ｓ１１７において、尤度計算結果で最も近かった音声が悲鳴音であり、その尤度が予め定められた閾値を超えているかを検知結果判断部Ａ１００７にて判定する。悲鳴音の尤度が閾値を超えている悲鳴の異常音を検知した場合には、イベント通知部Ａ１０１２に通知する。イベント情報は通信部Ａ１０１３を介して監視モニタ装置Ａ１０１４に通知される。

Ｓ１１８において、音声入力部Ａ１００２に音声が入力されたか否かを判定する。真の場合（Ｓ１１８でＹＥＳ）はＳ１１３へ、偽の場合（Ｓ１１８でＮＯ）はＳ１１９に進む。

Ｓ１１９において、不図示の異常音検知システムＯｎ／ＯｆｆＳＷ（スイッチ）がユーザにより操作されたかどうかを判定する。真の場合（Ｓ１１９でＹＥＳ）はフローチャートに係る処理を終了し、偽の場合（Ｓ１１９でＮＯ）はＳ１２０に進む。

Ｓ１２０において、検出タイマ部Ａ１０１８がタイムアウトしたか否かを判定する。真の場合（Ｓ１２０でＹＥＳ）はＳ１０１へ、偽の場合（Ｓ１２０でＮＯ）はＳ１１８へ進む。

以上のように、特徴量データベース構成更新処理ではＳ１０２で検出された人の混雑度に対応する特徴量を設定し、異常音検知処理において、その特徴量に基づき異常音を検出する。このように、現在の状況に最適な特徴量データベースで異常音検知を行うことで、検知精度を向上させることができる。また、本実施形態では撮影対象の状況に基づき、特徴量データベースの特徴量を更新し、更新された特徴量データベースの特徴量と、抽出された特徴量とを比較して、特定音を検知する。具体的には、撮影対象の状況に対応する特徴量データを特徴量データベースに設定したり、不要な特徴量データを特徴量データベースから解除したりする。これにより、特徴量の比較処理や尤度計算処理のコストを低減化し、その結果ＣＰＵ負荷の低減や処理速度が向上をもたらすことが可能となる。

なお、図４のフローチャートは、混雑レベルが群衆レベルと判定された場合（Ｓ１０３でＹＥＳ）には、苦手音特徴量［群衆］Ｄ００３だけでなく苦手音特徴量［複数人］Ｄ００４を設定する例を示している（Ｓ１０７、Ｓ１１１）。しかし、より効率的な処理のため、混雑レベルが群衆レベルのときは、苦手音特徴量［群衆］Ｄ００３のみを設定するようにしてもよい。

また、本実施形態では、撮影対象の状況として、画像データに基づく画像に含まれる人物の数を検出する例を説明したが、これに限られない。例えば、撮影対象の状況として、人物の数に限られず、車、電車、船、製造装置等の特定の物体の数を検出するようにしてもよい。あるいは、撮影対象の状況として、画像データに基づく画像の明るさを検出するようにしてもよい。

＜＜実施形態２＞＞
実施形態１では、検出された撮影対象の状況に応じて特徴量データベースの内容を更新することで、音声データから抽出された特徴量との比較対象を撮影対象の状況に応じた特定音の特徴量とする例を説明した。本実施形態では、検出された撮影対象の状況に応じて、特徴量データベースに保持されている特徴量の尤度に重みづけを行うことで、比較対象を撮影対象の状況に応じた特定音の特徴量とする例について説明する。

（監視システム）
本発明の第二の実施形態（実施形態２）に係る監視システムの構成例について、図５を参照して説明する。図５は本実施形態に係る監視システムの機能構成を示すブロック図である。なお、監視システムのハードウェア構成は実施形態１（図２）と同様である。

異常音監視システムＢ１０００は、撮影現場にいる人の異常を監視するシステムであり、撮影現場で人の悲鳴や罵声などが発生した場合それ異常音として検知し、監視モニタ装置Ａ１０１４にイベント通知を行う。

本実施形態の異常音監視システムＢ１０００は図１の異常音監視システムＡ１０００と異なり、データベース構成判断部Ａ１０１１の代わりに、周辺状況から尤度計算の重みづけを変更する尤度重みづけ判断部Ｂ１０１１を有する。また、本実施形態の尤度計算部Ｂ１００６は、周辺状況に応じて重み付けされた尤度計算の結果を加味して尤度の計算を行う点が、図１の尤度計算部Ａ１００６と異なる。その他の構成は実施形態１に記載した図１の異常音監視システムＡ１０００と同様であるため、詳細な説明を省略する。特徴量データベースＡ１００５の構成例も実施形態１と同様に、図３に示される。

重みづけ判断部Ｂ１０１１は、周辺状況検出部Ａ１０１０の結果から特徴量データベースＡ１００５の各特徴量の音声が現在発声される可能性がどのくらいあるかを判断し、各特徴量の尤度計算スコアに重みづけの係数を算出する。具体的には、検出された撮影対象の状況に対応する特徴量の尤度に対して、この検出された撮影対象の状況に対応しない特徴量の尤度よりも大きな値で重みづけを行う。例えば、重みづけの係数は周辺状況検出部Ａ１０１０の結果が多人数（群衆）の場合は、特徴量データベースＡ１００５内のすべて音声について発声する確率が十分にあると判断し、図５のすべての苦手音特徴量Ｄ００３〜Ｄ００５の重みづけ係数を１とする。

周辺状況検出部Ａ１０１０の結果が複数人であるが多人数ではない場合は、苦手音特徴量［群衆］Ｄ００３の特徴量の音声が発声される確率が低いと判断し、苦手音特徴量［群衆］Ｄ００３の重みづけ係数を０．９とする。他の苦手音特徴量Ｄ００４、Ｄ００５は発声確率が十分だと判断して重みづけ係数を１とする。

周辺状況検出部Ａ１０１０の結果が単体の場合は、苦手音特徴量［群衆］Ｄ００３は発声させる確率が最も低いと判断しその重みづけ係数を０．８とする。苦手音特徴量［複数人］Ｄ００４の特徴量の音声は発声される確率が低いと判断し重みづけ係数を０．９とする。苦手音特徴量［単体］Ｄ００５は発声確率が十分だと判断して重みづけ係数を１とする。また、異常音である悲鳴音特徴量Ｄ００２の重みづけ係数は、周辺状況の検出結果にかかわらず１とする。

尤度計算部Ｂ１００６はＡ１００６の機能に加え、重みづけ判断部Ｂ１０１１の結果をもとに尤度スコアに重みづけの係数を乗算し、最終的な尤度計算結果を算出する。例えば、周辺状況検出部Ａ１０１０の結果が単体の場合で、検知結果候補が歓声：７０、悲鳴：６９、拍手：６６の順で算出されたとする。この場合、それぞれ０．８、１．０、０．９の重みづけ係数が乗算され、最終的な候補とスコアは悲鳴：６９、拍手：５９、歓声：５６となる。

（動作手順）
ここで、図６のフローチャートを参照しながら映像から入力される現在の状況に合わせ尤度計算の重みづけを行う動作の処理手順について説明する。以下の各ステップは、ＣＰＵ９９０の制御に基づき実行される。なお、図６において、図４と同様の処理には同一の符号を付している。

図６のＳ１０１〜Ｓ２０４では、入力された映像情報を基に検出された撮影対象の状況に応じて各特徴量に対して適用する尤度の重み付けを変更する尤度計算重みづけ変更処理を実行する。そして、Ｓ１１３〜Ｓ１２０では、変更された尤度の重みづけを用いて異常音を検知する異常音検知処理を実行する。このように本実施形態では、撮影対象の状況に応じて尤度に重みづけを行って異常音を検知するため、撮影対象の状況に関わらず高精度で異常音を検知することができる。

異常音監視システムＢ１０００は起動すると、Ｓ１０１において映像入力装置Ａ１００８からの映像情報を映像入力部Ａ１００９に格納する。そして、Ｓ１０２において、入力された映像情報を周辺状況検出部Ａ１０１０にて解析し、映像上の人の数や混雑具合（混雑度）を検出する。

次に、Ｓ２０３において、Ｓ１０２の結果から苦手音特徴量［群衆］Ｄ００３の尤度重みづけ係数算出を、尤度重みづけ判断部Ｂ１０１１にて行う。ここでは、人数が単体の場合は０．８、複数人の場合は０．９、多人数（群衆）の場合は１．０を重みづけ係数として設定する。

Ｓ２０４において、Ｓ１０２の結果から苦手音特徴量［複数人］Ｄ００４の尤度重みづけ係数算出を、尤度重みづけ判断部Ｂ１０１１にて行う。人数が単体の場合は０．９、複数人及び多人数の場合は１．０を重みづけ係数として設定する。

Ｓ２０５において、Ｓ１０２の結果から苦手音特徴量［単体］Ｄ００５の尤度重みづけ係数算出を、尤度重みづけ判断部Ｂ１０１１にて行う。苦手音特徴量［単体］Ｄ００５の場合は、検出された人の人数にかかわらず１．０を重みづけ係数として設定する。

Ｓ１１３において、特徴量データベースＡ１００５を更新する次の周辺状況検出を行うタイムアウト時間を５ｓｅｃを検出タイマ部Ａ１０１８に設定する。Ｓ１１４において、音声入力部Ａ１００２に入力された音声の特徴量を特徴量抽出部Ａ１００３にて抽出する。Ｓ１１５において、特徴量抽出部Ａ１００３にて抽出した特徴量と特徴量データベースＡ１００５の特徴量の比較を特徴量マッチング部Ａ１００４にて行う。

Ｓ２１６において、尤度重みづけ判断部Ｂ１０１１にて算出した係数を乗算した特徴量データベースＡ１００５の各特徴量と入力音声の特徴量との間における尤度計算を、尤度計算部Ｂ１００６にて行う。

Ｓ１１９において不図示の異常音検知システムＯｎ／ＯｆｆＳＷがユーザにより操作されたかどうかを判定する。真の場合（Ｓ１１９でＹＥＳ）はフローチャートに係る処理を終了し、偽の場合（Ｓ１１９でＮＯ）はＳ１２０に進む。

以上のように、本実施形態では、これにより現在の状況から発声する可能性を加味し、尤度計算に重みづけを行って検知結果を導出する。このため、撮影対象の状況により適合した特徴量により異常音等の特定音を検知することができ、異常音検知の検知精度を向上させることが可能となる。

＜＜実施形態３＞＞
実施形態１では、撮影対象の状況として、画像データに基づく画像に含まれる特定の物体（人物）の数を検出する場合の例を説明した。本実施形態では、撮影対象の状況として車の通過頻度や渋滞具合を検出し、交通環境の例外音（特定音）を検知する例を説明する。

（監視システム）
本発明の第三の実施形態（実施形態３）に係る監視システムの構成例について、図７を参照して説明する。図７は本実施形態に係る監視システムの機能構成を示すブロック図である。なお、監視システムのハードウェア構成は実施形態１（図２）と同様である。

本実施形態の異常音監視システムＣ１０００は、道路の交通状況の異常を監視するシステムであり、撮影現場で衝突音やガラス破壊音、破裂音などが発生した場合、それを異常音として検知し、監視モニタ装置Ａ１０１４にイベント通知を行う。

本実施形態の異常音監視システムＣ１０００は図１の異常音監視システムＡ１０００と異なり、周辺状況検出部Ａ１０１０の代わりに交通状況検出部Ｃ１０１０を備えている。また、悲鳴音に関する特徴量を記憶した特徴量データベースＡ１００５の代わりに、交通音の特徴量を記憶した特徴量データベース（交通音特徴量データベース）Ｃ１００５を有する。

交通状況検出部Ｃ１０１０は、映像入力部Ａ１００９から入力された映像を基に画面内の自動車の数や通過速度、通過頻度を検出し、それらの情報から交通状況を判断する。本実施形態では、一例として、画面内の車のうち５台以上の車が通過速度２０km/h以下で走行する状態が１５分以上続いた場合、交通状況を”渋滞中”として出力する。このため、片方向の車線だけが渋滞している場合も渋滞中と判断する。また、上記渋滞中に当てはまらない状態で、１５分毎の自動車の通過台数が１２５台以上の場合、交通状況を”交通量多い”と出力する。それ以外の場合は交通状況を”通常”と出力する。

車の台数を数える手法として、例えばテンプレートマッチングなどを用いることができる。また、車の通過速度や通過頻度を求める手法として、動体検知や通過検知などを用いることができる。テンプレートマッチングや動体検知、通過検知については公知の手法を用いることができる。その他の構成は実施形態１に記載した図１の異常音監視システムＡ１０００と同様である。

（特徴量データベース）
図８は、本実施形態に係る特徴量データベースＣ１００５の構成例を示す図である。特徴量データベースＣ１００５は、衝突・破壊音特徴量Ｄ１０２と環境音特徴量［渋滞］Ｄ１０３、環境音特徴量［交通量多］Ｄ１０４、及び、環境音特徴量［基本］Ｄ１０５から構成されている。衝突・破壊音特徴量Ｄ１０２は、交通の異常音特徴量である。

環境音特徴量は撮影対象周辺の環境音の特徴量である。本実施形態では、誤検知低減のために、自動車の渋滞度や交通量に応じて、環境音の特徴量を、環境音特徴量［渋滞］Ｄ１０３、環境音特徴量［交通量多］Ｄ１０４、及び、環境音特徴量［基本］Ｄ１０５に分類して保持している。環境音特徴量［渋滞］Ｄ１０３は交通状況として車が渋滞している状態でないと発生しないような音声である「アイドリング（普通車）」「アイドリング（大型車）」「クラクション（複数）」などの特徴量を有する。環境音特徴量［交通量多］Ｄ１０４は、渋滞はしていないが交通量が非常に多い状態でないと発生しないような音声である「通過音（複数）」「振動音」「エンジン音」などの特徴量を有する。環境音特徴量［基本］Ｄ１０５は、基本的な交通状況で発生しうる音声である「クラクション（単体）」「ブレーキ音」「サイレン音」などの特徴量を有する。

特徴量データベースＣ１００５内の特徴量はその内容に応じてグルーピングされた複数の特徴量データの集まりで構成されている。これらの特徴量は、必要に応じて動的にデータベースから解除・設定することで、特徴量マッチング部Ａ１００４のマッチング対象から除外・包含することができる（Ｄ１０６）。

（動作手順）
ここで、図９のフローチャートを参照しながら映像から入力される現在の状況に合わせ特徴量データベースの構成を入れ替える動作の処理手順について説明する。以下の各ステップは、ＣＰＵ９９０の制御に基づき実行される。なお、図９において、図４と同様の処理には同一の符号を付している。

図９のＳ１０１〜Ｓ３１２では、入力された映像情報を基に検出された撮影対象の状況に応じて特徴量データベースＣ１００５の構成を更新する特徴量データベース構成更新処理を実行する。そして、Ｓ１１３〜Ｓ１２０では、更新された特徴量データベースＣ１００５を用いて異常音を検知する異常音検知処理を実行する。このように本実施形態では、撮影対象の状況に応じた特徴量データベースＣ１００５を用いて異常音を検知するため、撮影対象の状況に関わらず高精度で異常音を検知することができる。

異常音監視システムＣ１０００は起動すると、Ｓ１０１において映像入力装置Ａ１００８からの映像情報を映像入力部Ａ１００９に格納する。Ｓ３０２において、入力された映像情報を交通状況検出部Ｃ１０１０にて解析し、映像上の車の数や通過速度、通過頻度から渋滞具合や交通量を検出する。Ｓ３０３において、交通状況検出部Ｃ１０１０にて検出した情報を基に、その交通状況が渋滞しているか否かを判定する。真の場合（Ｓ３０３でＹＥＳ）はＳ３０５へ進み、偽の場合（Ｓ３０３でＮＯ）はＳ３０４へ進む。

Ｓ３０４において、現在の特徴量データベースＣ１００５に環境音特徴量［渋滞］Ｄ１０３が設定されているかを判定する。真の場合（Ｓ３０４でＹＥＳ）はＳ３０６へ進み、偽の場合（Ｓ３０４でＮＯ）はＳ３０８へ進む。

Ｓ３０５において、現在の特徴量データベースＣ１００５に環境音特徴量［渋滞］Ｄ１０３が設定されているかを判定する。真の場合（Ｓ３０５でＹＥＳ）はＳ３０９へ進み、偽の場合（Ｓ３０５でＮＯ）はＳ３０７へ進む。

Ｓ３０６において、現在の交通状況では発生しない音声である渋滞時の音声の特徴量が格納されている環境音特徴量［渋滞］Ｄ１０３を特徴量データベースＣ１００５から解除する。そして、Ｓ３０８へ進む。

Ｓ３０７において、現在の交通状況から発生する可能性のある音声である渋滞時の音声の特徴量が格納されている環境音特徴量［渋滞］Ｄ１０３を特徴量データベースＣ１００５に設定する。

Ｓ３０８において、交通状況検出部Ｃ１０１０にて検出した情報を基に、その交通量が多いか否かを判定する。真の場合（Ｓ３０８でＹＥＳ）はＳ３１０へ進み、偽の場合（Ｓ３０８でＮＯ）はＳ３０９へ進む。

Ｓ３０９において、現在の特徴量データベースＣ１００５に環境音特徴量［交通量多］Ｄ１０４が設定されているかを判定する。真の場合（Ｓ３０９でＹＥＳ）はＳ３１１へ進み、負の場合（Ｓ３０９でＮＯ）はＳ１１３へ進む。

Ｓ３１０において、現在の特徴量データベースＣ１００５に環境音特徴量［交通量多］Ｄ１０４が設定されているかを判定する。真の場合（Ｓ３１０でＹＥＳ）はＳ１１３へ進み、負の場合（Ｓ３１０でＮＯ）はＳ３１２へ進む。

Ｓ３１１において、現在の交通状況から発生しない音声である交通量が多い時の音声の特徴量が格納されている環境音特徴量［交通量多］Ｄ１０４を特徴量データベースＣ１００５から解除する。そして、Ｓ１１３へ進む。

Ｓ３１２において、現在の交通状況から発生する可能性のある音声である交通量が多い時の音声の特徴量が格納されている環境音特徴量［交通量多］Ｄ１０４を特徴量データベースＣ１００５に設定する。そして、Ｓ１１３へ進む。

Ｓ１１３において、特徴量データベースＡ１００５を更新するための次の交通状況検出を行うタイムアウト時間５ｓｅｃを検出タイマ部Ａ１０１８に設定する。Ｓ１１４において、音声入力部Ａ１００２に入力された音声の特徴量を特徴量抽出部Ａ１００３にて抽出する。そして、Ｓ３１５において、特徴量抽出部Ａ１００３にて抽出した特徴量と特徴量データベースＣ１００５の各特徴量との比較を特徴量マッチング部Ａ１００４にて行う。

次に、Ｓ１１６において、データベースＣ１００５の各特徴量と入力音声の特徴量との間における尤度計算を尤度計算部Ａ１００６にて行う。

Ｓ１１７において、尤度計算結果で最も近かった音声が衝突・破壊音であり、その尤度が予め定められた閾値を超えているかを検知結果判断部Ａ１００７にて判定する。尤度が閾値を超えている衝突・破壊音の異常音を検知した場合には、イベント通知部Ａ１０１２に通知する。イベント情報は通信部Ａ１０１３を介して監視モニタ装置Ａ１０１４に通知される。

Ｓ１１８において音声入力部Ａ１００２に音声が入力されたか否かを判定する。真の場合（Ｓ１１８でＹＥＳ）はＳ１１３へ、偽の場合（Ｓ１１８でＮＯ）はＳ１１９に進む。

Ｓ１１９において不図示の異常音検知システムＯｎ／ＯｆｆＳＷが操作されたかどうかを判定する。真の場合（Ｓ１１９でＹＥＳ）はフローチャートに係る処理を終了し、偽の場合（Ｓ１１９でＮＯ）はＳ１２０に進む。

上記のように、本実施形態では、現在の状況に応じて特徴量データベースを更新し、最適な特徴量データベースで異常音検知を行う。このため、交通状況にかかわらず、高度な検知精度を維持することができる。また、本実施形態では不要な特徴量データを特徴量データベースから解除することで特徴量の比較処理や尤度計算処理が少なくなる。これにより、ＣＰＵ負荷の低減や処理速度を向上させることができる。

＜＜実施形態４＞＞
実施形態３では、交通環境を撮影する場合において、検出された撮影対象の状況に応じて特徴量データベースの内容を更新することで、音声データから抽出された特徴量との比較対象を撮影対象の状況に応じた特定音の特徴量とする例を説明した。本実施形態では、検出された撮影対象の状況に応じて、特徴量データベースに保持されている特徴量の尤度に重みづけを行うことで、比較対象を撮影対象の状況に応じた特定音の特徴量とする例について説明する。

（監視システム）
本発明の第四の実施形態（実施形態４）に係る監視システムの構成例について、図１０を参照して説明する。図１０は本実施形態に係る監視システムの機能構成を示すブロック図である。なお、監視システムのハードウェア構成は実施形態１（図２）と同様である。

本実施形態の異常音監視システムＤ１０００は、道路の交通状況の異常を監視するシステムであり、撮影現場で衝突音やガラス破壊音、破裂音などが発生した場合、それを異常音として検知し監視モニタ装置Ａ１０１４にイベント通知を行う。

本実施形態の異常音監視システムＤ１０００は図７の異常音監視システムＣ１０００と異なり、データベース構成判断部Ａ１０１１の代わりに周辺状況から尤度計算の重みづけを変更する尤度重みづけ判断部Ｂ１０１１を備えている。また、本実施形態の尤度計算部Ｂ１００６は、周辺状況に応じて重み付けされた尤度計算の結果を加味して尤度の計算を行う点が、図７の尤度計算部Ａ１００６と異なる。その他の構成は実施形態３に記載した図７の異常音監視システムＣ１０００と同様であるため、詳細な説明を省略する。

重みづけ判断部Ｂ１０１１は、交通状況検出部Ｃ１０１０の結果から特徴量データベースＣ１００５の各特徴量の音声が現在発声される可能性がどのくらいあるかを判断し、各特徴量の尤度計算スコアに重みづけの係数を算出する。交通状況検出部Ｃ１０１０の結果が”渋滞”の場合には、特徴量データベースＣ１００５内の環境音特徴量［渋滞］Ｄ１０３の特徴量の音声の発生確率が十分にあるとして、重みづけ係数を１とする。一方、渋滞中では環境音特徴量［交通量多］Ｄ１０４の特等量の音声は発生する確率が最も低いと判断し、重みづけ係数を０．８とする。

交通状況検出部Ｃ１０１０の結果が”交通量多い”の場合には、特徴量データベースＣ１００５内の環境音特徴量［交通量多］Ｄ１０４の特徴量の音声の発生確率が十分にあるとして、重みづけ係数を１とする。一方、交通量が多いものの渋滞には至っていない状況では環境音特徴量［渋滞］Ｄ１０３の特等量の音声は発生する確率が最も低いと判断し、重みづけ係数を０．８とする。

交通状況検出部Ｃ１０１０の結果が”通常”の場合には、特徴量データベースＣ１００５内の環境音特徴量［渋滞］Ｄ１０３及び環境音特徴量［交通量多］Ｄ１０４の特徴量の音声が発生する確率は低いと判断し、重みづけ係数は０．９とする。環境音特徴量［基本］Ｄ１０５はいかなる状態でも発生する確率が十分にあるため、図８の全ての環境音特徴量Ｄ０１０３〜Ｄ０１０５について重みづけ係数を１とする。また、異常音である衝突・破壊音特徴量Ｄ１０２の重みづけ係数は、交通量にかかわらず１とする。

尤度計算部Ｂ１００６はＡ１００６の機能に加え、重みづけ判断部Ｂ１０１１の結果をもとに尤度スコアに重みづけの係数を乗算して最終的な尤度計算結果を算出する。例えば、交通状況検出部Ｃ１０１０の結果が”交通量多い”の場合で、検知結果候補がアイドリング（大型車）：７０、破裂音：６９、振動音：５９の順で算出された場合、それぞれ０．８、１．０、１．０の重みづけ係数が掛けられる。重みづけ係数が掛けられた結果、最終的な候補とスコアは破裂音：６９、振動音：５９、アイドリング音（大型車）：５６の順となる。

（動作手順）
ここで、図１１のフローチャートを参照して映像から入力される現在の状況に合わせ尤度計算の重みづけを行う動作の処理手順について説明する。以下の各ステップは、ＣＰＵ９９０の制御に基づき実行される。なお、図１１において、図４と同様の処理には同一の符号を付している。

図１１のＳ１０１〜Ｓ４０５では、入力された映像情報を基に検出された撮影対象の状況に応じて各特徴量に対して適用する尤度の重み付けを変更する尤度計算重みづけ変更処理を実行する。そして、Ｓ１１３〜Ｓ１２０では、変更された尤度の重みづけを用いて異常音を検知する異常音検知処理を実行する。このように本実施形態では、撮影対象の状況に応じて尤度に重みづけを行って異常音を検知するため、撮影対象の状況に関わらず高精度で異常音を検知することができる。

異常音監視システムＤ１０００は起動すると、Ｓ１０１において映像入力装置Ａ１００８からの映像情報を映像入力部Ａ１００９に格納する。そして、Ｓ３０２において、入力された映像情報を交通状況検出部Ｃ１０１０にて解析し、映像上の車の数や通過速度、通過頻度から渋滞具合や交通量（交通状況）を検出する。

次に、Ｓ４０３において、Ｓ３０２の結果から環境音特徴量［渋滞］Ｄ１０３の尤度重みづけ係数算出を、尤度重みづけ判断部Ｂ１０１１にて行う。ここでは、”渋滞中”の場合は１．０を、”交通量多い”の場合は０．８を、”通常”の場合は０．９を尤度重みづけ係数として設定する。

Ｓ４０４において、Ｓ３０２の結果から環境音特徴量［交通量多］Ｄ１０４の尤度重みづけ係数算出を、尤度重みづけ判断部Ｂ１０１１にて行う。”渋滞中”の場合は０．８を、”交通量多い”の場合は１．０を、”通常”の場合は０．９を尤度重みづけ係数として設定する。

Ｓ４０５において、Ｓ３０２の結果から環境音特徴量［基本］Ｄ１０５の尤度重みづけ係数算出を、尤度重みづけ判断部Ｂ１０１１にて行う。環境音特徴量［基本］Ｄ１０５の場合は、検出された交通状況にかかわらず１．０を重みづけ係数として設定する。

Ｓ１１３において、特徴量データベースＡ１００５を更新するための次の交通状況検出を行うタイムアウト時間５ｓｅｃを検出タイマ部Ａ１０１８に設定する。Ｓ１１４において、音声入力部Ａ１００２に入力された音声の特徴量を特徴量抽出部Ａ１００３にて抽出する。Ｓ３１５において、特徴量抽出部Ａ１００３にて抽出した特徴量と特徴量データベースＣ１００５の特徴量の比較を特徴量マッチング部Ａ１００４にて行う。

Ｓ２１６において、尤度重み付け判断部Ｂ１０１１にて算出した係数を乗算した特徴量データベースＣ１００５の各特徴量と入力音声の特徴量との間における尤度計算を、尤度計算部Ｂ１００６にて行う。

以上のように、本実施形態では、交通環境を撮影する場合において、現在の状況から発声する可能性を加味し、尤度計算に重みづけを行って検知結果を導出する。このため、撮影状況に変化に関わらず異常音検知の検知精度を向上させることができる。

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

例えば、電車の線路周辺の異常音を検知する異常音監視システムにおいて、特徴量データベースＡ１００５に警報音や電車の通過音を環境音として備えるようにしてもよい。この場合、周辺状況検出部Ａ１０１０の代わりに、カメラ映像から踏切の開閉や信号機の点滅を判断する検出部を備え、検出部にて検出した電車の通過判断に応じて特徴量データベースの入れ替えや尤度の重みづけの変更を行うようにしてもよい。

また、例えば、港周辺の異常音を検知する異常音監視システムであれば、特徴量データベースＡ１００５に汽笛音や停泊音を環境音として備えるようにしてもよい。この場合、周辺状況検出部Ａ１０１０の代わりに、カメラ映像から港の船の発着動作を判断する検出部を備え、検出部にて検出した船の発着動作判断に応じて特徴量データベースの入れ替えや尤度の重みづけの変更を行うようにしてもよい。

また、例えば、工場などで製造装置の異常音を検知する異常音監視システムであれば、特徴量データベースＡ１００５に機械音を環境音として備えるようにしてもよい。この場合、周辺状況検出部Ａ１０１０の代わりに、カメラ映像から製造装置の動作を判断する検出部を備え、検出部にて検出した製造装置の動作検出状況に応じて特徴量データベースの入れ替えや重みづけの変更を行うようにしてもよい。

また、例えば、屋外の交通の異常音を検知する異常音監視システムであれば、特徴量データベースＡ１００５に晴天、雨天、雷雨、暴風、積雪時などその天候状況に応じた環境音を備えるようにしてもよい。この場合、周辺状況検出部Ａ１０１０の代わりに、カメラ映像から撮影環境の天候を判断する検出部を備え、検出部による天候の検出状況に応じて特徴量データベースの入れ替えや尤度の重みづけの変更を行うようにしてもよい。

また、例えば、倉庫の異常音を検知する異常音監視システムであれば、特徴量データベースＡ１００５に暗闇で行わない作業の作業音・動作音を環境音として分類分けして備えるようにしてもよい。この場合、周辺状況検出部Ａ１０１０の代わりに、カメラ映像から撮影環境の明るさを判断する検出部を備え、検出部による明るさの検出状況に応じて特徴量データベースの入れ替えや重みづけの変更を行うようにしてもよい。

また、例えば、店舗の異常音をする異常音監視システムであれば、特徴量データベースＡ１００５に夜間の暗闇中では盗難を疑われるレジ開閉などの音を環境音として備えるようにしてもよい。この場合、周辺状況検出部Ａ１０１０の代わりに、カメラ映像から撮影環境の明るさを判断する検出部を備え、検出部による明るさの検出状況に応じて特徴量データベースに環境音として登録するか異常音として登録するかを切り替えるようにしてもよい。

また、検知対象とする異常音として、人の悲鳴音、人の罵声音、銃の発砲音、ガラスの破壊音、車の衝突・破壊音、電車の衝突・破壊音、船の衝突・破壊音等を対象としてもよい。

上記各実施形態の構成によれば、音声による異常監視を行うときに、現在の状況に合わせ検知精度を向上させることができる。

＜＜その他の実施形態＞＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。例えば、上述の各フローチャートは、ＣＰＵ９９０がメモリに読み込まれたプログラムに基づく処理を行うことで実行可能である。

Ａ１０００：異常音監視システム、Ａ１００３：特徴量抽出部、Ａ１００７：検知結果判断部、Ａ１０１０：周辺情報検出部、Ａ１０１５：情報処理部

Claims

撮影対象を撮影して生成された画像データから該撮影対象の状況を検出する検出手段と、
前記撮影対象の周辺の音声を集音して生成された音声データから音声の特徴量を抽出する抽出手段と、
前記検出手段によって検出された前記撮影対象の状況に応じた特定音の特徴量と、前記抽出手段によって抽出された特徴量とを比較して、特定音を検知する検知手段と、を備え、
前記検出手段は、前記撮影対象の状況として、前記画像データに基づく画像に含まれる特定の物体の数を検出することを特徴とする検知装置。
撮影対象を撮影して生成された画像データから該撮影対象の状況を検出する検出手段と、
前記撮影対象の周辺の音声を集音して生成された音声データから音声の特徴量を抽出する抽出手段と、
前記検出手段によって検出された前記撮影対象の状況に応じた特定音の特徴量と、前記抽出手段によって抽出された特徴量とを比較して、特定音を検知する検知手段と、を備え、
前記検出手段は、前記撮影対象の状況として、前記画像データに基づく画像の明るさを検出することを特徴とする検知装置。
特定音の特徴量を保持するデータベースをさらに備え、
前記検知手段は、前記データベースによって保持される特定音の特徴量と、前記抽出手段によって抽出された特徴量とを比較して、特定音を検知する
ことを特徴とする請求項１または２に記載の検知装置。
前記検出手段によって検出された前記撮影対象の状況に基づき、前記データベースの特徴量を更新する更新手段をさらに備え、
前記検知手段は、更新された前記データベースの特徴量と、前記抽出手段によって抽出された特徴量とを比較して、特定音を検知する
ことを特徴とする請求項３に記載の検知装置。
前記データベースは撮影対象の状況に対応づけて前記特徴量を保持し、
前記更新手段は、前記検出手段によって検出された前記撮影対象の状況に対応する特徴量が前記データベースによって保持されていない場合に、当該特徴量を前記データベースに設定する
ことを特徴とする請求項４に記載の検知装置。
前記データベースは撮影対象の状況に対応づけて前記特徴量を保持し、
前記更新手段は、前記検出手段によって検出された前記撮影対象の状況に対応しない特徴量が前記データベースによって保持されている場合に、当該特徴量を前記データベースから解除する
ことを特徴とする請求項４に記載の検知装置。
前記データベースは撮影対象の状況に対応づけて前記特徴量を保持し、
前記検出手段によって検出された前記撮影対象の状況に応じて、前記データベースに保持されている特徴量の尤度に重みづけを行う重みづけ手段をさらに備え、
前記検知手段は、前記尤度の重みづけが行われた特徴量と、前記抽出手段によって抽出された特徴量とを比較して、特定音を検知する
ことを特徴とする請求項３に記載の検知装置。
前記重みづけ手段は、前記検出手段によって検出された前記撮影対象の状況に対応する特徴量の尤度に対して、該検出された撮影対象の状況に対応しない特徴量の尤度よりも大きな値で重みづけを行うことを特徴とする請求項７に記載の検知装置。
撮影対象を撮影して生成された画像データから該撮影対象の状況を検出する検出工程と、
前記撮影対象の周辺の音声を集音して生成された音声データから音声の特徴量を抽出する抽出工程と、
前記検出工程によって検出された前記撮影対象の状況に応じた特定音の特徴量と、前記抽出工程によって抽出された特徴量とを比較して、特定音を検知する検知工程と、を備え、
前記検出工程は、前記撮影対象の状況として、前記画像データに基づく画像に含まれる特定の物体の数を検出することを特徴とする検知装置の制御方法。
撮影対象を撮影して生成された画像データから該撮影対象の状況を検出する検出工程と、
前記撮影対象の周辺の音声を集音して生成された音声データから音声の特徴量を抽出する抽出工程と、
前記検出工程によって検出された前記撮影対象の状況に応じた特定音の特徴量と、前記抽出工程によって抽出された特徴量とを比較して、特定音を検知する検知工程と、を備え、
前記検出工程は、前記撮影対象の状況として、前記画像データに基づく画像の明るさを検出することを特徴とする検知装置の制御方法。
コンピュータを請求項１から８のいずれか１項に記載の検知装置が備える各手段として機能させるためのコンピュータプログラム。