JP6682222B2 - 検知装置及びその制御方法、コンピュータプログラム - Google Patents

検知装置及びその制御方法、コンピュータプログラム Download PDF

Info

Publication number
JP6682222B2
JP6682222B2 JP2015187441A JP2015187441A JP6682222B2 JP 6682222 B2 JP6682222 B2 JP 6682222B2 JP 2015187441 A JP2015187441 A JP 2015187441A JP 2015187441 A JP2015187441 A JP 2015187441A JP 6682222 B2 JP6682222 B2 JP 6682222B2
Authority
JP
Japan
Prior art keywords
feature amount
situation
detection
sound
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015187441A
Other languages
English (en)
Other versions
JP2017062349A (ja
Inventor
智彦 黒木
智彦 黒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2015187441A priority Critical patent/JP6682222B2/ja
Priority to EP16183924.6A priority patent/EP3147902B1/en
Priority to US15/258,386 priority patent/US10109299B2/en
Priority to CN201610844554.9A priority patent/CN106558317A/zh
Publication of JP2017062349A publication Critical patent/JP2017062349A/ja
Application granted granted Critical
Publication of JP6682222B2 publication Critical patent/JP6682222B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/16Actuation by interference with mechanical vibrations in air or other fluid
    • G08B13/1654Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems
    • G08B13/1672Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems using sonic detecting means, e.g. a microphone operating in the audio frequency range
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19695Arrangements wherein non-video detectors start video recording or forwarding but do not generate an alarm themselves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Alarm Systems (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Traffic Control Systems (AREA)
  • Emergency Alarm Devices (AREA)

Description

本発明は検知装置及びその制御方法、コンピュータプログラムに関し、特に音声を検知する技術に関する。
監視カメラシステムにおいて、撮影現場の音声をユーザが監視するための音声モニタリングが知られている。特に近年の監視カメラシステムでは、監視員が24時間モニタリングしなくも現場の音声から異常を自動的に検知し、通知を行う異常音検知が知られている。特許文献1には、音声の周波数やケプストラムなどの特徴量を基に異常音を検知し通知することや、誤検知低減のために周囲の環境音の特徴量が記憶された特徴量データベースを備え環境音が異常音か否かを判定することが記載されている。
特開2004−357014号公報
しかしながら、従来の構成では、ある特定の状況において事前に現場環境の特徴量を登録した特徴量データベースを参照して判定を行う。このため、データベースの特徴量を取得した環境と異なる状況においては、十分な検知精度を得ることができなかった。特に、24時間監視を行う監視カメラにおいては時間帯における現場環境の変化が顕著に表れ、その状況によっては検知精度に大きく低下していた。
そこで、本発明の目的は、高精度に特定の音を検知することが可能な技術を提供することである。
上記目的を達成するため、本発明による検知装置は以下の構成を備える。即ち、
撮影対象を撮影して生成された画像データから該撮影対象の状況を検出する検出手段と、
前記撮影対象の周辺の音声を集音して生成された音声データから音声の特徴量を抽出する抽出手段と、
前記検出手段によって検出された前記撮影対象の状況に応じた特定音の特徴量と、前記抽出手段によって抽出された特徴量とを比較して、特定音を検知する検知手段と、を備え、
前記検出手段は、前記撮影対象の状況として、前記画像データに基づく画像に含まれる特定の物体の数を検出する
また、本発明の他の態様による検知装置は以下の構成を備える。即ち、
撮影対象を撮影して生成された画像データから該撮影対象の状況を検出する検出手段と、
前記撮影対象の周辺の音声を集音して生成された音声データから音声の特徴量を抽出する抽出手段と、
前記検出手段によって検出された前記撮影対象の状況に応じた特定音の特徴量と、前記抽出手段によって抽出された特徴量とを比較して、特定音を検知する検知手段と、を備え、
前記検出手段は、前記撮影対象の状況として、前記画像データに基づく画像の明るさを検出する。
本発明によれば、高精度に特定の音を検知することが可能な技術を提供することができる。
監視カメラシステムの機能構成を示すブロック図 監視カメラシステムのハードウェア構成を示すブロック図 特徴量データベース構成を示す図 異常音検知の手順を示すフローチャート 監視カメラシステムのブロック構成図 異常音検知の手順を示すフローチャート 監視カメラシステムのブロック構成図 特徴量データベース構成を示す図 異常音検知の手順を示すフローチャート 監視カメラシステムのブロック構成図 異常音検知の手順を示すフローチャート
以下、添付の図面を参照しながら、本発明の実施形態を詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
<<実施形態1>>
(監視システム)
本発明の第一の実施形態(実施形態1)に係る監視システムの構成例について、図1を参照して説明する。図1は本実施形態に係る監視システムの機能構成を示すブロック図である。
異常音監視システムA1000は、撮影現場にいる人の異常を監視するシステムであり、撮影現場で人の悲鳴や罵声などが発生した場合にそれを異常音として検知し、監視モニタ装置A1014にイベント通知を行う。異常音監視システムA1000は、映像入力装置A1008、音声入力装置A1001、情報処理部A1015、及び、通信部A1013を有しており、通信部A1013は外部の監視モニタ装置A1014に接続されている。音声入力装置A1001は撮影対象の周辺の音声を集音して生成された音声データを入力する装置であり、マイク等により構成される。映像入力装置A1008は周囲を撮影して撮影画像(映像)を生成・入力する装置であり、カメラ等により構成される。
情報処理部A1015は、映像情報処理部A1016と、音声情報処理部A1017、検出タイマ部A1018、及び、イベント通知部A1012を有する。映像情報処理部A1016は入力された映像情報を処理し、音声情報処理部A1017は入力された音声情報を処理する。検出タイマ部A1018はタイマにより映像検出の頻度を決定し、イベント通知部A1012は外部に通知イベントを出力する。
映像情報処理部A1016は、入力された映像を保持する映像入力部A1009、及び、入力された映像から現在の周辺情報を検出する周辺状況検出部A1010を有する。周辺状況検出部A1010は、撮影対象を撮影して生成された画像データから該撮影対象の状況を検出する。本実施形態では、周辺状況検出部A1010は、映像入力部A1009から入力された映像をもとに画面内に映る人物の人数を数え、その結果を単体、複数人、多人数(群衆)の三段階で出力する。人数を数える手法として、例えば顔検知やテンプレートマッチング法など用いる。顔検知やテンプレートマッチング法としては、いかなる手法も利用することができる。ここで、出力結果の判断基準は、人が居ない場合も含め0〜1名の場合は単体、人数が2〜20名の場合は複数人、20名以上の場合は多人数とする。
音声情報処理部A1017は、音声入力部A1002、特徴量抽出部A1003、特徴量マッチング部A1004、特徴量データベースA1005、尤度計算部A1006、検知結果判断部A1007、及び、データベース構成判断部A1011を有する。音声入力部A1002は音声入力装置A1001から入力音声を入力し、特徴量抽出部A1003は音声入力部A1002で入力された音声データ(入力音声)から音声の特徴量を抽出する機能を持つ。ここで使用する特徴量は、音声の基本周波数、フォルマント周波数、スペクトラム、ケプストラムから得られるメル周波数ケプストラム係数(MFCC)やゼロクロス、サブバンドエナジーなどである。MFCCはMel-Frequency Cepstrum Coefficientsの略称である。メル周波数ケプストラム係数やゼロクロス、サブバンドエナジーについては、詳細な説明を省略する。
特徴量データベースA1005は異常音を含む特定音の特徴量を格納・保持している。後述するように、特徴量データベースA1005は、複数の周囲の状況(本実施形態では入力映像に映っている人物の人数)ごとに音声の特徴を表す特徴量を保持している。特徴量マッチング部A1004は特徴量抽出部A1003で抽出した特徴量と特徴量データベースA1005の周囲の状況に対応する各特徴量とを比較する機能を持つ。
尤度計算部A1006は、特徴量マッチング部A1004の結果をもとに特徴量データベースA1005の各々のマッチング対象の特徴量に対する入力音声の特徴量の尤度を計算する。そして、検知結果の候補をその尤度計算のスコアとともにいわゆるN-Bestで出力する。N-Bestについては詳細な説明を省略する。
検知結果判断部A1007は尤度計算部A1006から出力された候補のトップを検知結果として用いる。その候補が異常音として登録した音声であり、スコアが規定の閾値を超えた場合、異常が発生したと判断してイベント通知部A1012に異常を通知する。
データベース構成判断部A1011は周辺状況検出部A1010で検出した人の数や混み具合の情報から特徴量データベースA1005に登録されている特徴量の構成を切り替える機能を持つ。
図2は、本実施形態に係る異常音監視システムA1000のハードウェア構成例を示すブロック図である。異常音監視システムA1000は、パーソナルコンピュータ(PC)やタブレット端末等により実現される。
図2において、CPU990は中央演算処理装置であり、コンピュータプログラムに基づいて他の構成要素と協働し、異常音監視システムA1000全体の動作を制御する。ROM991は読出し専用メモリであり、基本プログラムや基本処理に使用するデータ等を記憶する。RAM992は書込み可能メモリであり、CPU990のワークエリア等として機能する。
外部記憶ドライブ993は記録媒体へのアクセスを実現し、USBメモリ等のメディア(記録媒体)994に記憶されたコンピュータプログラムやデータを本システムにロードすることができる。ストレージ995はSSD(ソリッドステートドライブ)等の大容量メモリとして機能する装置である。ストレージ995には、各種コンピュータプログラムやデータが格納される。
操作部996はユーザからの指示やコマンドの入力を受け付ける装置であり、キーボードやポインティングデバイス、タッチパネル等がこれに相当する。ディスプレイ997は、操作部996から入力されたコマンドや、それに対する異常音監視システムA1000の応答出力等を表示する表示装置である。インターフェイス(I/F)998は外部装置とのデータのやり取りを中継する装置である。システムバス999は、異常音監視システムA1000内のデータの流れを司るデータバスである。
図1に示した異常音監視システムA1000の各機能要素はCPU990がコンピュータプログラムに基づき装置全体を制御することにより実現されるが、機能要素の全部または一部を専用のハードウェアにより構成してもよい。
(特徴量データベース)
図3は、本実施形態に係る特徴量データベースA1005の構成例を示す図である。特徴量データベースA1005は、悲鳴音特徴量D002、苦手音(検出精度が低くなってしまう特定音)特徴量[群衆]D003、苦手音特徴量[複数人]D004、及び、苦手音特徴量[単体]D005から構成されている。悲鳴音特徴量D002は、悲鳴、罵声、唸り等の人の異常音の特徴量である。
苦手音特徴量は、悲鳴音に近い苦手音の特徴量である。本実施形態では誤検知低減のために、人の数に応じて苦手音の特徴量を、苦手音特徴量[群衆]D003、苦手音特徴量[複数人]D004、及び、苦手音特徴量[単体]D005に分類して保持している。苦手音特徴量[群衆]D003は人が多人数いないと発生しないような音声である「歓声」「喝采」「ざわめき」などの特徴量を有する。苦手音特徴量[複数人]D004は人が複数人いないと発生しないような音声である「会話(複数人)」「笑い声(複数人)」「拍手(複数)」などの特徴量を有する。苦手音特徴量[単体]D005は人が単体でも発生しうる音声である「笑い声」「泣き声」「呼び声」などの特徴量を有する。
このように特徴量データベースA1005内の特徴量はその内容に応じてグルーピングされた複数の特徴量データの集まりで構成されている。これらの特徴量は、必要に応じて動的にデータベースから解除・設定することで、特徴量マッチング部A1004のマッチング対象から除外・包含することができる(D006)。
(動作手順)
ここで、図4のフローチャートを参照しながら映像から入力される現在の状況に合わせ特徴量データベースの構成を入れ替える動作の処理手順について説明する。以下の各ステップは、CPU990の制御に基づき実行される。
本実施形態では、周辺状況検出部A1010によって検出された撮影対象の状況に応じた特定音の特徴量と、特徴量抽出部A1003によって抽出された特徴量とを比較して、特定音を検知する。具体的には、図4のS101〜S112では、入力された映像情報を基に検出された撮影対象の状況に応じて特徴量データベースA1005の構成を更新する特徴量データベース構成更新処理を実行する。そして、S113〜S120では、更新された特徴量データベースA1005を用いて異常音を検知する異常音検知処理を実行する。このように本実施形態では、撮影対象の状況に応じた特徴量データベースA1005を用いて異常音を検知するため、撮影対象の状況に関わらず高精度で異常音を検知することができる。
異常音監視システムA1000は起動すると、S101において映像入力装置A1008から映像情報を入力し、映像入力部A1009に格納する。そして、S102において、入力された映像情報を周辺状況検出部A1010にて解析し、映像上の人の数や混雑具合(混雑度)を検出する。
次に、S103において、周辺状況検出部A1010にて検出した情報を基に、その混雑具合が多人数レベル(群衆)であるか否かを判定する。真の場合(S103でYES)はS105へ進み、偽の場合(S103でNO)はS104へ進む。
S104において、現在の特徴量データベースA1005に苦手音特徴量[群衆]D003が設定されているかを判定する。真の場合(S104でYES)はS106へ進み、偽の場合(S104でNO)はS108へ進む。
S105において、現在の特徴量データベースA1005に苦手音特徴量[群衆]D003が設定されているかを判定する。真の場合(S105でYES)はS109へ進み、偽の場合はS107へ進む。
S106において、現在の状況では発声されることのない群衆時の音声の特徴量が格納されている苦手音特徴量[群衆]D003を特徴量データベースA1005から解除する。そして、S108へ進む。
S107において、現在の状況から発声される可能性のある群衆時の音声の特徴量が格納されている苦手音種特徴量[群衆]D003を特徴量データベースA1005に設定する。そして、S109へ進む。
S108において、周辺状況検出部A1010にて検出した情報を基にその混雑具合が複数人レベルか否かを判定する。真の場合(S108でYES)はS109に進み、偽の場合(S108でNO)はS110に進む。
S109において、現在の特徴量データベースA1005に苦手音特徴量[複数人]D004が設定されているかを判定する。真の場合(S109でYES)はS113へ進み、偽の場合(S109でNO)はS111へ進む。
S110において、現在の特徴量データベースA1005に苦手音特徴量[複数人]D004が設定されているかを判定する。真の場合(S110でYES)はS112に進み、偽の場合(S110でNO)はS113に進む。
S111において、現在の状況から発声される可能性のある、群衆時の音声の特徴量が格納されている苦手音種特徴量[複数人]D004を特徴量データベースA1005に設定する。そして、S113に進む。
S112において、現在の状況では発声されることのない複数人時の音声の特徴量が格納されている苦手音特徴量[複数人]D004を特徴量データベースA1005から解除する。そして、S113に進む。
S113において、特徴量データベースA1005を更新するための次の周辺状況検出を行うタイムアウト時間5sec(5秒)を検出タイマ部A1018に設定する。S114において、音声入力部A1002に入力された音声の特徴量を特徴量抽出部A1003にて抽出する。そして、S115において、特徴量抽出部A1003にて抽出した特徴量と特徴量データベースA1005の各特徴量との比較を特徴量マッチング部A1004にて行う。
次に、S116において、データベースA1005の各特徴量と入力音声の特徴量との間における尤度計算を尤度計算部A1006にて行う。
S117において、尤度計算結果で最も近かった音声が悲鳴音であり、その尤度が予め定められた閾値を超えているかを検知結果判断部A1007にて判定する。悲鳴音の尤度が閾値を超えている悲鳴の異常音を検知した場合には、イベント通知部A1012に通知する。イベント情報は通信部A1013を介して監視モニタ装置A1014に通知される。
S118において、音声入力部A1002に音声が入力されたか否かを判定する。真の場合(S118でYES)はS113へ、偽の場合(S118でNO)はS119に進む。
S119において、不図示の異常音検知システムOn/Off SW(スイッチ)がユーザにより操作されたかどうかを判定する。真の場合(S119でYES)はフローチャートに係る処理を終了し、偽の場合(S119でNO)はS120に進む。
S120において、検出タイマ部A1018がタイムアウトしたか否かを判定する。真の場合(S120でYES)はS101へ、偽の場合(S120でNO)はS118へ進む。
以上のように、特徴量データベース構成更新処理ではS102で検出された人の混雑度に対応する特徴量を設定し、異常音検知処理において、その特徴量に基づき異常音を検出する。このように、現在の状況に最適な特徴量データベースで異常音検知を行うことで、検知精度を向上させることができる。また、本実施形態では撮影対象の状況に基づき、特徴量データベースの特徴量を更新し、更新された特徴量データベースの特徴量と、抽出された特徴量とを比較して、特定音を検知する。具体的には、撮影対象の状況に対応する特徴量データを特徴量データベースに設定したり、不要な特徴量データを特徴量データベースから解除したりする。これにより、特徴量の比較処理や尤度計算処理のコストを低減化し、その結果CPU負荷の低減や処理速度が向上をもたらすことが可能となる。
なお、図4のフローチャートは、混雑レベルが群衆レベルと判定された場合(S103でYES)には、苦手音特徴量[群衆]D003だけでなく苦手音特徴量[複数人]D004を設定する例を示している(S107、S111)。しかし、より効率的な処理のため、混雑レベルが群衆レベルのときは、苦手音特徴量[群衆]D003のみを設定するようにしてもよい。
また、本実施形態では、撮影対象の状況として、画像データに基づく画像に含まれる人物の数を検出する例を説明したが、これに限られない。例えば、撮影対象の状況として、人物の数に限られず、車、電車、船、製造装置等の特定の物体の数を検出するようにしてもよい。あるいは、撮影対象の状況として、画像データに基づく画像の明るさを検出するようにしてもよい。
<<実施形態2>>
実施形態1では、検出された撮影対象の状況に応じて特徴量データベースの内容を更新することで、音声データから抽出された特徴量との比較対象を撮影対象の状況に応じた特定音の特徴量とする例を説明した。本実施形態では、検出された撮影対象の状況に応じて、特徴量データベースに保持されている特徴量の尤度に重みづけを行うことで、比較対象を撮影対象の状況に応じた特定音の特徴量とする例について説明する。
(監視システム)
本発明の第二の実施形態(実施形態2)に係る監視システムの構成例について、図5を参照して説明する。図5は本実施形態に係る監視システムの機能構成を示すブロック図である。なお、監視システムのハードウェア構成は実施形態1(図2)と同様である。
異常音監視システムB1000は、撮影現場にいる人の異常を監視するシステムであり、撮影現場で人の悲鳴や罵声などが発生した場合それ異常音として検知し、監視モニタ装置A1014にイベント通知を行う。
本実施形態の異常音監視システムB1000は図1の異常音監視システムA1000と異なり、データベース構成判断部A1011の代わりに、周辺状況から尤度計算の重みづけを変更する尤度重みづけ判断部B1011を有する。また、本実施形態の尤度計算部B1006は、周辺状況に応じて重み付けされた尤度計算の結果を加味して尤度の計算を行う点が、図1の尤度計算部A1006と異なる。その他の構成は実施形態1に記載した図1の異常音監視システムA1000と同様であるため、詳細な説明を省略する。特徴量データベースA1005の構成例も実施形態1と同様に、図3に示される。
重みづけ判断部B1011は、周辺状況検出部A1010の結果から特徴量データベースA1005の各特徴量の音声が現在発声される可能性がどのくらいあるかを判断し、各特徴量の尤度計算スコアに重みづけの係数を算出する。具体的には、検出された撮影対象の状況に対応する特徴量の尤度に対して、この検出された撮影対象の状況に対応しない特徴量の尤度よりも大きな値で重みづけを行う。例えば、重みづけの係数は周辺状況検出部A1010の結果が多人数(群衆)の場合は、特徴量データベースA1005内のすべて音声について発声する確率が十分にあると判断し、図5のすべての苦手音特徴量D003〜D005の重みづけ係数を1とする。
周辺状況検出部A1010の結果が複数人であるが多人数ではない場合は、苦手音特徴量[群衆]D003の特徴量の音声が発声される確率が低いと判断し、苦手音特徴量[群衆]D003の重みづけ係数を0.9とする。他の苦手音特徴量D004、D005は発声確率が十分だと判断して重みづけ係数を1とする。
周辺状況検出部A1010の結果が単体の場合は、苦手音特徴量[群衆]D003は発声させる確率が最も低いと判断しその重みづけ係数を0.8とする。苦手音特徴量[複数人]D004の特徴量の音声は発声される確率が低いと判断し重みづけ係数を0.9とする。苦手音特徴量[単体]D005は発声確率が十分だと判断して重みづけ係数を1とする。また、異常音である悲鳴音特徴量D002の重みづけ係数は、周辺状況の検出結果にかかわらず1とする。
尤度計算部B1006はA1006の機能に加え、重みづけ判断部B1011の結果をもとに尤度スコアに重みづけの係数を乗算し、最終的な尤度計算結果を算出する。例えば、周辺状況検出部A1010の結果が単体の場合で、検知結果候補が歓声:70、悲鳴:69、拍手:66の順で算出されたとする。この場合、それぞれ0.8、1.0、0.9の重みづけ係数が乗算され、最終的な候補とスコアは悲鳴:69、拍手:59、歓声:56となる。
(動作手順)
ここで、図6のフローチャートを参照しながら映像から入力される現在の状況に合わせ尤度計算の重みづけを行う動作の処理手順について説明する。以下の各ステップは、CPU990の制御に基づき実行される。なお、図6において、図4と同様の処理には同一の符号を付している。
図6のS101〜S204では、入力された映像情報を基に検出された撮影対象の状況に応じて各特徴量に対して適用する尤度の重み付けを変更する尤度計算重みづけ変更処理を実行する。そして、S113〜S120では、変更された尤度の重みづけを用いて異常音を検知する異常音検知処理を実行する。このように本実施形態では、撮影対象の状況に応じて尤度に重みづけを行って異常音を検知するため、撮影対象の状況に関わらず高精度で異常音を検知することができる。
異常音監視システムB1000は起動すると、S101において映像入力装置A1008からの映像情報を映像入力部A1009に格納する。そして、S102において、入力された映像情報を周辺状況検出部A1010にて解析し、映像上の人の数や混雑具合(混雑度)を検出する。
次に、S203において、S102の結果から苦手音特徴量[群衆]D003の尤度重みづけ係数算出を、尤度重みづけ判断部B1011にて行う。ここでは、人数が単体の場合は0.8、複数人の場合は0.9、多人数(群衆)の場合は1.0を重みづけ係数として設定する。
S204において、S102の結果から苦手音特徴量[複数人]D004の尤度重みづけ係数算出を、尤度重みづけ判断部B1011にて行う。人数が単体の場合は0.9、複数人及び多人数の場合は1.0を重みづけ係数として設定する。
S205において、S102の結果から苦手音特徴量[単体]D005の尤度重みづけ係数算出を、尤度重みづけ判断部B1011にて行う。苦手音特徴量[単体]D005の場合は、検出された人の人数にかかわらず1.0を重みづけ係数として設定する。
S113において、特徴量データベースA1005を更新する次の周辺状況検出を行うタイムアウト時間を5secを検出タイマ部A1018に設定する。S114において、音声入力部A1002に入力された音声の特徴量を特徴量抽出部A1003にて抽出する。S115において、特徴量抽出部A1003にて抽出した特徴量と特徴量データベースA1005の特徴量の比較を特徴量マッチング部A1004にて行う。
S216において、尤度重みづけ判断部B1011にて算出した係数を乗算した特徴量データベースA1005の各特徴量と入力音声の特徴量との間における尤度計算を、尤度計算部B1006にて行う。
S117において、尤度計算結果で最も近かった音声が悲鳴音であり、その尤度が予め定められた閾値を超えているかを検知結果判断部A1007にて判定する。悲鳴音の尤度が閾値を超えている悲鳴の異常音を検知した場合には、イベント通知部A1012に通知する。イベント情報は通信部A1013を介して監視モニタ装置A1014に通知される。
S118において、音声入力部A1002に音声が入力されたか否かを判定する。真の場合(S118でYES)はS113へ、偽の場合(S118でNO)はS119に進む。
S119において不図示の異常音検知システムOn/Off SWがユーザにより操作されたかどうかを判定する。真の場合(S119でYES)はフローチャートに係る処理を終了し、偽の場合(S119でNO)はS120に進む。
S120において、検出タイマ部A1018がタイムアウトしたか否かを判定する。真の場合(S120でYES)はS101へ、偽の場合(S120でNO)はS118へ進む。
以上のように、本実施形態では、これにより現在の状況から発声する可能性を加味し、尤度計算に重みづけを行って検知結果を導出する。このため、撮影対象の状況により適合した特徴量により異常音等の特定音を検知することができ、異常音検知の検知精度を向上させることが可能となる。
<<実施形態3>>
実施形態1では、撮影対象の状況として、画像データに基づく画像に含まれる特定の物体(人物)の数を検出する場合の例を説明した。本実施形態では、撮影対象の状況として車の通過頻度や渋滞具合を検出し、交通環境の例外音(特定音)を検知する例を説明する。
(監視システム)
本発明の第三の実施形態(実施形態3)に係る監視システムの構成例について、図7を参照して説明する。図7は本実施形態に係る監視システムの機能構成を示すブロック図である。なお、監視システムのハードウェア構成は実施形態1(図2)と同様である。
本実施形態の異常音監視システムC1000は、道路の交通状況の異常を監視するシステムであり、撮影現場で衝突音やガラス破壊音、破裂音などが発生した場合、それを異常音として検知し、監視モニタ装置A1014にイベント通知を行う。
本実施形態の異常音監視システムC1000は図1の異常音監視システムA1000と異なり、周辺状況検出部A1010の代わりに交通状況検出部C1010を備えている。また、悲鳴音に関する特徴量を記憶した特徴量データベースA1005の代わりに、交通音の特徴量を記憶した特徴量データベース(交通音特徴量データベース)C1005を有する。
交通状況検出部C1010は、映像入力部A1009から入力された映像を基に画面内の自動車の数や通過速度、通過頻度を検出し、それらの情報から交通状況を判断する。本実施形態では、一例として、画面内の車のうち5台以上の車が通過速度20km/h以下で走行する状態が15分以上続いた場合、交通状況を”渋滞中”として出力する。このため、片方向の車線だけが渋滞している場合も渋滞中と判断する。また、上記渋滞中に当てはまらない状態で、15分毎の自動車の通過台数が125台以上の場合、交通状況を”交通量多い”と出力する。それ以外の場合は交通状況を”通常”と出力する。
車の台数を数える手法として、例えばテンプレートマッチングなどを用いることができる。また、車の通過速度や通過頻度を求める手法として、動体検知や通過検知などを用いることができる。テンプレートマッチングや動体検知、通過検知については公知の手法を用いることができる。その他の構成は実施形態1に記載した図1の異常音監視システムA1000と同様である。
(特徴量データベース)
図8は、本実施形態に係る特徴量データベースC1005の構成例を示す図である。特徴量データベースC1005は、衝突・破壊音特徴量D102と環境音特徴量[渋滞]D103、環境音特徴量[交通量多]D104、及び、環境音特徴量[基本]D105から構成されている。衝突・破壊音特徴量D102は、交通の異常音特徴量である。
環境音特徴量は撮影対象周辺の環境音の特徴量である。本実施形態では、誤検知低減のために、自動車の渋滞度や交通量に応じて、環境音の特徴量を、環境音特徴量[渋滞]D103、環境音特徴量[交通量多]D104、及び、環境音特徴量[基本]D105に分類して保持している。環境音特徴量[渋滞]D103は交通状況として車が渋滞している状態でないと発生しないような音声である「アイドリング(普通車)」「アイドリング(大型車)」「クラクション(複数)」などの特徴量を有する。環境音特徴量[交通量多]D104は、渋滞はしていないが交通量が非常に多い状態でないと発生しないような音声である「通過音(複数)」「振動音」「エンジン音」などの特徴量を有する。環境音特徴量[基本]D105は、基本的な交通状況で発生しうる音声である「クラクション(単体)」「ブレーキ音」「サイレン音」などの特徴量を有する。
特徴量データベースC1005内の特徴量はその内容に応じてグルーピングされた複数の特徴量データの集まりで構成されている。これらの特徴量は、必要に応じて動的にデータベースから解除・設定することで、特徴量マッチング部A1004のマッチング対象から除外・包含することができる(D106)。
(動作手順)
ここで、図9のフローチャートを参照しながら映像から入力される現在の状況に合わせ特徴量データベースの構成を入れ替える動作の処理手順について説明する。以下の各ステップは、CPU990の制御に基づき実行される。なお、図9において、図4と同様の処理には同一の符号を付している。
図9のS101〜S312では、入力された映像情報を基に検出された撮影対象の状況に応じて特徴量データベースC1005の構成を更新する特徴量データベース構成更新処理を実行する。そして、S113〜S120では、更新された特徴量データベースC1005を用いて異常音を検知する異常音検知処理を実行する。このように本実施形態では、撮影対象の状況に応じた特徴量データベースC1005を用いて異常音を検知するため、撮影対象の状況に関わらず高精度で異常音を検知することができる。
異常音監視システムC1000は起動すると、S101において映像入力装置A1008からの映像情報を映像入力部A1009に格納する。S302において、入力された映像情報を交通状況検出部C1010にて解析し、映像上の車の数や通過速度、通過頻度から渋滞具合や交通量を検出する。S303において、交通状況検出部C1010にて検出した情報を基に、その交通状況が渋滞しているか否かを判定する。真の場合(S303でYES)はS305へ進み、偽の場合(S303でNO)はS304へ進む。
S304において、現在の特徴量データベースC1005に環境音特徴量[渋滞]D103が設定されているかを判定する。真の場合(S304でYES)はS306へ進み、偽の場合(S304でNO)はS308へ進む。
S305において、現在の特徴量データベースC1005に環境音特徴量[渋滞]D103が設定されているかを判定する。真の場合(S305でYES)はS309へ進み、偽の場合(S305でNO)はS307へ進む。
S306において、現在の交通状況では発生しない音声である渋滞時の音声の特徴量が格納されている環境音特徴量[渋滞]D103を特徴量データベースC1005から解除する。そして、S308へ進む。
S307において、現在の交通状況から発生する可能性のある音声である渋滞時の音声の特徴量が格納されている環境音特徴量[渋滞]D103を特徴量データベースC1005に設定する。
S308において、交通状況検出部C1010にて検出した情報を基に、その交通量が多いか否かを判定する。真の場合(S308でYES)はS310へ進み、偽の場合(S308でNO)はS309へ進む。
S309において、現在の特徴量データベースC1005に環境音特徴量[交通量多]D104が設定されているかを判定する。真の場合(S309でYES)はS311へ進み、負の場合(S309でNO)はS113へ進む。
S310において、現在の特徴量データベースC1005に環境音特徴量[交通量多]D104が設定されているかを判定する。真の場合(S310でYES)はS113へ進み、負の場合(S310でNO)はS312へ進む。
S311において、現在の交通状況から発生しない音声である交通量が多い時の音声の特徴量が格納されている環境音特徴量[交通量多]D104を特徴量データベースC1005から解除する。そして、S113へ進む。
S312において、現在の交通状況から発生する可能性のある音声である交通量が多い時の音声の特徴量が格納されている環境音特徴量[交通量多]D104を特徴量データベースC1005に設定する。そして、S113へ進む。
S113において、特徴量データベースA1005を更新するための次の交通状況検出を行うタイムアウト時間5secを検出タイマ部A1018に設定する。S114において、音声入力部A1002に入力された音声の特徴量を特徴量抽出部A1003にて抽出する。そして、S315において、特徴量抽出部A1003にて抽出した特徴量と特徴量データベースC1005の各特徴量との比較を特徴量マッチング部A1004にて行う。
次に、S116において、データベースC1005の各特徴量と入力音声の特徴量との間における尤度計算を尤度計算部A1006にて行う。
S117において、尤度計算結果で最も近かった音声が衝突・破壊音であり、その尤度が予め定められた閾値を超えているかを検知結果判断部A1007にて判定する。尤度が閾値を超えている衝突・破壊音の異常音を検知した場合には、イベント通知部A1012に通知する。イベント情報は通信部A1013を介して監視モニタ装置A1014に通知される。
S118において音声入力部A1002に音声が入力されたか否かを判定する。真の場合(S118でYES)はS113へ、偽の場合(S118でNO)はS119に進む。
S119において不図示の異常音検知システムOn/Off SWが操作されたかどうかを判定する。真の場合(S119でYES)はフローチャートに係る処理を終了し、偽の場合(S119でNO)はS120に進む。
S120において、検出タイマ部A1018がタイムアウトしたか否かを判定する。真の場合(S120でYES)はS101へ、偽の場合(S120でNO)はS118へ進む。
上記のように、本実施形態では、現在の状況に応じて特徴量データベースを更新し、最適な特徴量データベースで異常音検知を行う。このため、交通状況にかかわらず、高度な検知精度を維持することができる。また、本実施形態では不要な特徴量データを特徴量データベースから解除することで特徴量の比較処理や尤度計算処理が少なくなる。これにより、CPU負荷の低減や処理速度を向上させることができる。
<<実施形態4>>
実施形態3では、交通環境を撮影する場合において、検出された撮影対象の状況に応じて特徴量データベースの内容を更新することで、音声データから抽出された特徴量との比較対象を撮影対象の状況に応じた特定音の特徴量とする例を説明した。本実施形態では、検出された撮影対象の状況に応じて、特徴量データベースに保持されている特徴量の尤度に重みづけを行うことで、比較対象を撮影対象の状況に応じた特定音の特徴量とする例について説明する。
(監視システム)
本発明の第四の実施形態(実施形態4)に係る監視システムの構成例について、図10を参照して説明する。図10は本実施形態に係る監視システムの機能構成を示すブロック図である。なお、監視システムのハードウェア構成は実施形態1(図2)と同様である。
本実施形態の異常音監視システムD1000は、道路の交通状況の異常を監視するシステムであり、撮影現場で衝突音やガラス破壊音、破裂音などが発生した場合、それを異常音として検知し監視モニタ装置A1014にイベント通知を行う。
本実施形態の異常音監視システムD1000は図7の異常音監視システムC1000と異なり、データベース構成判断部A1011の代わりに周辺状況から尤度計算の重みづけを変更する尤度重みづけ判断部B1011を備えている。また、本実施形態の尤度計算部B1006は、周辺状況に応じて重み付けされた尤度計算の結果を加味して尤度の計算を行う点が、図7の尤度計算部A1006と異なる。その他の構成は実施形態3に記載した図7の異常音監視システムC1000と同様であるため、詳細な説明を省略する。
重みづけ判断部B1011は、交通状況検出部C1010の結果から特徴量データベースC1005の各特徴量の音声が現在発声される可能性がどのくらいあるかを判断し、各特徴量の尤度計算スコアに重みづけの係数を算出する。交通状況検出部C1010の結果が”渋滞”の場合には、特徴量データベースC1005内の環境音特徴量[渋滞]D103の特徴量の音声の発生確率が十分にあるとして、重みづけ係数を1とする。一方、渋滞中では環境音特徴量[交通量多]D104の特等量の音声は発生する確率が最も低いと判断し、重みづけ係数を0.8とする。
交通状況検出部C1010の結果が”交通量多い”の場合には、特徴量データベースC1005内の環境音特徴量[交通量多]D104の特徴量の音声の発生確率が十分にあるとして、重みづけ係数を1とする。一方、交通量が多いものの渋滞には至っていない状況では環境音特徴量[渋滞]D103の特等量の音声は発生する確率が最も低いと判断し、重みづけ係数を0.8とする。
交通状況検出部C1010の結果が”通常”の場合には、特徴量データベースC1005内の環境音特徴量[渋滞]D103及び環境音特徴量[交通量多]D104の特徴量の音声が発生する確率は低いと判断し、重みづけ係数は0.9とする。環境音特徴量[基本]D105はいかなる状態でも発生する確率が十分にあるため、図8の全ての環境音特徴量D0103〜D0105について重みづけ係数を1とする。また、異常音である衝突・破壊音特徴量D102の重みづけ係数は、交通量にかかわらず1とする。
尤度計算部B1006はA1006の機能に加え、重みづけ判断部B1011の結果をもとに尤度スコアに重みづけの係数を乗算して最終的な尤度計算結果を算出する。例えば、交通状況検出部C1010の結果が”交通量多い”の場合で、検知結果候補がアイドリング(大型車):70、破裂音:69、振動音:59の順で算出された場合、それぞれ0.8、1.0、1.0の重みづけ係数が掛けられる。重みづけ係数が掛けられた結果、最終的な候補とスコアは破裂音:69、振動音:59、アイドリング音(大型車):56の順となる。
(動作手順)
ここで、図11のフローチャートを参照して映像から入力される現在の状況に合わせ尤度計算の重みづけを行う動作の処理手順について説明する。以下の各ステップは、CPU990の制御に基づき実行される。なお、図11において、図4と同様の処理には同一の符号を付している。
図11のS101〜S405では、入力された映像情報を基に検出された撮影対象の状況に応じて各特徴量に対して適用する尤度の重み付けを変更する尤度計算重みづけ変更処理を実行する。そして、S113〜S120では、変更された尤度の重みづけを用いて異常音を検知する異常音検知処理を実行する。このように本実施形態では、撮影対象の状況に応じて尤度に重みづけを行って異常音を検知するため、撮影対象の状況に関わらず高精度で異常音を検知することができる。
異常音監視システムD1000は起動すると、S101において映像入力装置A1008からの映像情報を映像入力部A1009に格納する。そして、S302において、入力された映像情報を交通状況検出部C1010にて解析し、映像上の車の数や通過速度、通過頻度から渋滞具合や交通量(交通状況)を検出する。
次に、S403において、S302の結果から環境音特徴量[渋滞]D103の尤度重みづけ係数算出を、尤度重みづけ判断部B1011にて行う。ここでは、”渋滞中”の場合は1.0を、”交通量多い”の場合は0.8を、”通常”の場合は0.9を尤度重みづけ係数として設定する。
S404において、S302の結果から環境音特徴量[交通量多]D104の尤度重みづけ係数算出を、尤度重みづけ判断部B1011にて行う。”渋滞中”の場合は0.8を、”交通量多い”の場合は1.0を、”通常”の場合は0.9を尤度重みづけ係数として設定する。
S405において、S302の結果から環境音特徴量[基本]D105の尤度重みづけ係数算出を、尤度重みづけ判断部B1011にて行う。環境音特徴量[基本]D105の場合は、検出された交通状況にかかわらず1.0を重みづけ係数として設定する。
S113において、特徴量データベースA1005を更新するための次の交通状況検出を行うタイムアウト時間5secを検出タイマ部A1018に設定する。S114において、音声入力部A1002に入力された音声の特徴量を特徴量抽出部A1003にて抽出する。S315において、特徴量抽出部A1003にて抽出した特徴量と特徴量データベースC1005の特徴量の比較を特徴量マッチング部A1004にて行う。
S216において、尤度重み付け判断部B1011にて算出した係数を乗算した特徴量データベースC1005の各特徴量と入力音声の特徴量との間における尤度計算を、尤度計算部B1006にて行う。
S117において、尤度計算結果で最も近かった音声が衝突・破壊音であり、その尤度が予め定められた閾値を超えているかを検知結果判断部A1007にて判定する。尤度が閾値を超えている衝突・破壊音の異常音を検知した場合には、イベント通知部A1012に通知する。イベント情報は通信部A1013を介して監視モニタ装置A1014に通知される。
S118において音声入力部A1002に音声が入力されたか否かを判定する。真の場合(S118でYES)はS113へ、偽の場合(S118でNO)はS119に進む。
S119において不図示の異常音検知システムOn/Off SWが操作されたかどうかを判定する。真の場合(S119でYES)はフローチャートに係る処理を終了し、偽の場合(S119でNO)はS120に進む。
S120において、検出タイマ部A1018がタイムアウトしたか否かを判定する。真の場合(S120でYES)はS101へ、偽の場合(S120でNO)はS118へ進む。
以上のように、本実施形態では、交通環境を撮影する場合において、現在の状況から発声する可能性を加味し、尤度計算に重みづけを行って検知結果を導出する。このため、撮影状況に変化に関わらず異常音検知の検知精度を向上させることができる。
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
例えば、電車の線路周辺の異常音を検知する異常音監視システムにおいて、特徴量データベースA1005に警報音や電車の通過音を環境音として備えるようにしてもよい。この場合、周辺状況検出部A1010の代わりに、カメラ映像から踏切の開閉や信号機の点滅を判断する検出部を備え、検出部にて検出した電車の通過判断に応じて特徴量データベースの入れ替えや尤度の重みづけの変更を行うようにしてもよい。
また、例えば、港周辺の異常音を検知する異常音監視システムであれば、特徴量データベースA1005に汽笛音や停泊音を環境音として備えるようにしてもよい。この場合、周辺状況検出部A1010の代わりに、カメラ映像から港の船の発着動作を判断する検出部を備え、検出部にて検出した船の発着動作判断に応じて特徴量データベースの入れ替えや尤度の重みづけの変更を行うようにしてもよい。
また、例えば、工場などで製造装置の異常音を検知する異常音監視システムであれば、特徴量データベースA1005に機械音を環境音として備えるようにしてもよい。この場合、周辺状況検出部A1010の代わりに、カメラ映像から製造装置の動作を判断する検出部を備え、検出部にて検出した製造装置の動作検出状況に応じて特徴量データベースの入れ替えや重みづけの変更を行うようにしてもよい。
また、例えば、屋外の交通の異常音を検知する異常音監視システムであれば、特徴量データベースA1005に晴天、雨天、雷雨、暴風、積雪時などその天候状況に応じた環境音を備えるようにしてもよい。この場合、周辺状況検出部A1010の代わりに、カメラ映像から撮影環境の天候を判断する検出部を備え、検出部による天候の検出状況に応じて特徴量データベースの入れ替えや尤度の重みづけの変更を行うようにしてもよい。
また、例えば、倉庫の異常音を検知する異常音監視システムであれば、特徴量データベースA1005に暗闇で行わない作業の作業音・動作音を環境音として分類分けして備えるようにしてもよい。この場合、周辺状況検出部A1010の代わりに、カメラ映像から撮影環境の明るさを判断する検出部を備え、検出部による明るさの検出状況に応じて特徴量データベースの入れ替えや重みづけの変更を行うようにしてもよい。
また、例えば、店舗の異常音をする異常音監視システムであれば、特徴量データベースA1005に夜間の暗闇中では盗難を疑われるレジ開閉などの音を環境音として備えるようにしてもよい。この場合、周辺状況検出部A1010の代わりに、カメラ映像から撮影環境の明るさを判断する検出部を備え、検出部による明るさの検出状況に応じて特徴量データベースに環境音として登録するか異常音として登録するかを切り替えるようにしてもよい。
また、検知対象とする異常音として、人の悲鳴音、人の罵声音、銃の発砲音、ガラスの破壊音、車の衝突・破壊音、電車の衝突・破壊音、船の衝突・破壊音等を対象としてもよい。
上記各実施形態の構成によれば、音声による異常監視を行うときに、現在の状況に合わせ検知精度を向上させることができる。
<<その他の実施形態>>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。例えば、上述の各フローチャートは、CPU990がメモリに読み込まれたプログラムに基づく処理を行うことで実行可能である。
A1000:異常音監視システム、A1003:特徴量抽出部、A1007:検知結果判断部、A1010:周辺情報検出部、A1015:情報処理部

Claims (11)

  1. 撮影対象を撮影して生成された画像データから該撮影対象の状況を検出する検出手段と、
    前記撮影対象の周辺の音声を集音して生成された音声データから音声の特徴量を抽出する抽出手段と、
    前記検出手段によって検出された前記撮影対象の状況に応じた特定音の特徴量と、前記抽出手段によって抽出された特徴量とを比較して、特定音を検知する検知手段と、を備え、
    前記検出手段は、前記撮影対象の状況として、前記画像データに基づく画像に含まれる特定の物体の数を検出することを特徴とする検知装置。
  2. 撮影対象を撮影して生成された画像データから該撮影対象の状況を検出する検出手段と、
    前記撮影対象の周辺の音声を集音して生成された音声データから音声の特徴量を抽出する抽出手段と、
    前記検出手段によって検出された前記撮影対象の状況に応じた特定音の特徴量と、前記抽出手段によって抽出された特徴量とを比較して、特定音を検知する検知手段と、を備え、
    前記検出手段は、前記撮影対象の状況として、前記画像データに基づく画像の明るさを検出することを特徴とする検知装置。
  3. 特定音の特徴量を保持するデータベースをさらに備え、
    前記検知手段は、前記データベースによって保持される特定音の特徴量と、前記抽出手段によって抽出された特徴量とを比較して、特定音を検知する
    ことを特徴とする請求項1または2に記載の検知装置。
  4. 前記検出手段によって検出された前記撮影対象の状況に基づき、前記データベースの特徴量を更新する更新手段をさらに備え、
    前記検知手段は、更新された前記データベースの特徴量と、前記抽出手段によって抽出された特徴量とを比較して、特定音を検知する
    ことを特徴とする請求項に記載の検知装置。
  5. 前記データベースは撮影対象の状況に対応づけて前記特徴量を保持し、
    前記更新手段は、前記検出手段によって検出された前記撮影対象の状況に対応する特徴量が前記データベースによって保持されていない場合に、当該特徴量を前記データベースに設定する
    ことを特徴とする請求項に記載の検知装置。
  6. 前記データベースは撮影対象の状況に対応づけて前記特徴量を保持し、
    前記更新手段は、前記検出手段によって検出された前記撮影対象の状況に対応しない特徴量が前記データベースによって保持されている場合に、当該特徴量を前記データベースから解除する
    ことを特徴とする請求項に記載の検知装置。
  7. 前記データベースは撮影対象の状況に対応づけて前記特徴量を保持し、
    前記検出手段によって検出された前記撮影対象の状況に応じて、前記データベースに保持されている特徴量の尤度に重みづけを行う重みづけ手段をさらに備え、
    前記検知手段は、前記尤度の重みづけが行われた特徴量と、前記抽出手段によって抽出された特徴量とを比較して、特定音を検知する
    ことを特徴とする請求項に記載の検知装置。
  8. 前記重みづけ手段は、前記検出手段によって検出された前記撮影対象の状況に対応する特徴量の尤度に対して、該検出された撮影対象の状況に対応しない特徴量の尤度よりも大きな値で重みづけを行うことを特徴とする請求項に記載の検知装置。
  9. 撮影対象を撮影して生成された画像データから該撮影対象の状況を検出する検出工程と、
    前記撮影対象の周辺の音声を集音して生成された音声データから音声の特徴量を抽出する抽出工程と、
    前記検出工程によって検出された前記撮影対象の状況に応じた特定音の特徴量と、前記抽出工程によって抽出された特徴量とを比較して、特定音を検知する検知工程と、を備え、
    前記検出工程は、前記撮影対象の状況として、前記画像データに基づく画像に含まれる特定の物体の数を検出することを特徴とする検知装置の制御方法。
  10. 撮影対象を撮影して生成された画像データから該撮影対象の状況を検出する検出工程と、
    前記撮影対象の周辺の音声を集音して生成された音声データから音声の特徴量を抽出する抽出工程と、
    前記検出工程によって検出された前記撮影対象の状況に応じた特定音の特徴量と、前記抽出工程によって抽出された特徴量とを比較して、特定音を検知する検知工程と、を備え、
    前記検出工程は、前記撮影対象の状況として、前記画像データに基づく画像の明るさを検出することを特徴とする検知装置の制御方法。
  11. コンピュータを請求項1からのいずれか1項に記載の検知装置が備える各手段として機能させるためのコンピュータプログラム。
JP2015187441A 2015-09-24 2015-09-24 検知装置及びその制御方法、コンピュータプログラム Active JP6682222B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2015187441A JP6682222B2 (ja) 2015-09-24 2015-09-24 検知装置及びその制御方法、コンピュータプログラム
EP16183924.6A EP3147902B1 (en) 2015-09-24 2016-08-12 Sound processing apparatus, sound processing method, and computer program
US15/258,386 US10109299B2 (en) 2015-09-24 2016-09-07 Sound processing apparatus, sound processing method, and storage medium
CN201610844554.9A CN106558317A (zh) 2015-09-24 2016-09-22 声音处理装置和声音处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015187441A JP6682222B2 (ja) 2015-09-24 2015-09-24 検知装置及びその制御方法、コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2017062349A JP2017062349A (ja) 2017-03-30
JP6682222B2 true JP6682222B2 (ja) 2020-04-15

Family

ID=57083042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015187441A Active JP6682222B2 (ja) 2015-09-24 2015-09-24 検知装置及びその制御方法、コンピュータプログラム

Country Status (4)

Country Link
US (1) US10109299B2 (ja)
EP (1) EP3147902B1 (ja)
JP (1) JP6682222B2 (ja)
CN (1) CN106558317A (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7062879B2 (ja) * 2017-03-31 2022-05-09 サクサ株式会社 表示制御装置及び表示制御方法
CN109036461A (zh) * 2017-06-12 2018-12-18 杭州海康威视数字技术股份有限公司 一种通知信息的输出方法、服务器及监控***
US11431887B2 (en) * 2018-07-24 2022-08-30 Sony Semiconductor Solutions Corporation Information processing device and method for detection of a sound image object
CN109999488A (zh) * 2018-12-29 2019-07-12 瑞声科技(新加坡)有限公司 一种振动方法、终端及存储介质
CN110363991B (zh) * 2019-07-16 2021-01-08 珠海市杰理科技股份有限公司 路况分析方法、装置、处理设备、路况分析***和车辆
CN110459242A (zh) * 2019-08-21 2019-11-15 广州国音智能科技有限公司 变声检测方法、终端及计算机可读存储介质
CN113947855A (zh) * 2021-09-18 2022-01-18 中标慧安信息技术股份有限公司 一种基于语音识别的智能楼宇人员安全报警***
CN115116230A (zh) * 2022-07-26 2022-09-27 浪潮卓数大数据产业发展有限公司 一种交通环境监测方法、设备及介质
CN115035913B (zh) * 2022-08-11 2022-11-11 合肥中科类脑智能技术有限公司 一种声音异常检测方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229592A (ja) * 2001-01-30 2002-08-16 Nec Corp 音声認識装置
JP2003169171A (ja) * 2001-11-30 2003-06-13 Canon Inc 画像形成装置
JP2003296757A (ja) 2002-03-29 2003-10-17 Canon Inc 情報処理方法および装置
JP4100243B2 (ja) * 2003-05-06 2008-06-11 日本電気株式会社 映像情報を用いた音声認識装置及び方法
JP4175180B2 (ja) 2003-05-29 2008-11-05 松下電工株式会社 監視通報システム
US7697026B2 (en) * 2004-03-16 2010-04-13 3Vr Security, Inc. Pipeline architecture for analyzing multiple video streams
CN1776807A (zh) * 2004-11-15 2006-05-24 松下电器产业株式会社 声音辨识***及具有该***的安全装置
MX2009001254A (es) * 2006-08-03 2009-02-11 Ibm Sistema de vigilancia de video y metodo con reconocimiento de video y audio combinado.
JP2009092976A (ja) * 2007-10-10 2009-04-30 Xanavi Informatics Corp 車載装置
US8315430B2 (en) * 2007-11-07 2012-11-20 Viewdle Inc. Object recognition and database population for video indexing
JP5452158B2 (ja) * 2009-10-07 2014-03-26 株式会社日立製作所 音響監視システム、及び音声集音システム
JP2011166442A (ja) * 2010-02-09 2011-08-25 Sanyo Electric Co Ltd 撮像装置
JP5917270B2 (ja) * 2011-05-27 2016-05-11 キヤノン株式会社 音検出装置及びその制御方法、プログラム
CN102737480B (zh) * 2012-07-09 2014-03-05 广州市浩云安防科技股份有限公司 一种基于智能视频的异常语音监控***及方法
FR2994495B1 (fr) * 2012-08-10 2015-08-21 Thales Sa Procede et systeme pour detecter des evenements sonores dans un environnement donne
KR101932535B1 (ko) * 2012-08-27 2018-12-27 한화테크윈 주식회사 실내 감시 시스템 및 실내 감시 방법
CN103196838B (zh) 2013-03-15 2014-11-26 辽宁师范大学 一种海岸河口富营养化高光谱遥感监测方法
CN103198838A (zh) * 2013-03-29 2013-07-10 苏州皓泰视频技术有限公司 一种用于嵌入式***的异常声音监控方法和监控装置
US9946921B2 (en) * 2013-04-26 2018-04-17 Nec Corporation Monitoring device, monitoring method and monitoring program
JP6427902B2 (ja) * 2014-03-17 2018-11-28 富士通株式会社 抽出プログラム、方法、及び装置
US9516412B2 (en) * 2014-03-28 2016-12-06 Panasonic Intellectual Property Management Co., Ltd. Directivity control apparatus, directivity control method, storage medium and directivity control system
CN104144328B (zh) * 2014-07-31 2017-06-16 中国人民解放军63908部队 一种智能视频监控方法
US10068445B2 (en) * 2015-06-24 2018-09-04 Google Llc Systems and methods of home-specific sound event detection

Also Published As

Publication number Publication date
JP2017062349A (ja) 2017-03-30
CN106558317A (zh) 2017-04-05
EP3147902A1 (en) 2017-03-29
EP3147902B1 (en) 2020-01-01
US20170092296A1 (en) 2017-03-30
US10109299B2 (en) 2018-10-23

Similar Documents

Publication Publication Date Title
JP6682222B2 (ja) 検知装置及びその制御方法、コンピュータプログラム
US11433855B2 (en) Intelligent detection and alerting of potential intruders
US9761248B2 (en) Action analysis device, action analysis method, and action analysis program
US10614693B2 (en) Dangerous situation notification apparatus and method
KR101116273B1 (ko) 교통사고 인식장치 및 그 방법
JP6532106B2 (ja) 監視装置、監視方法および監視用プログラム
US9311930B2 (en) Audio based system and method for in-vehicle context classification
Andersson et al. Fusion of acoustic and optical sensor data for automatic fight detection in urban environments
CN112744174B (zh) 车辆碰撞监测方法、装置、设备及计算机可读存储介质
CN112277936B (zh) 车辆碰撞检测处理方法、装置、车载终端和存储介质
De Godoy et al. Paws: A wearable acoustic system for pedestrian safety
SG178563A1 (en) Method and system for event detection
Suliman et al. Detection of impulsive sounds in stream of audio signals
KR101736466B1 (ko) 음향 정보 기반 상황 인식 장치 및 방법
JP3847738B2 (ja) 車両周辺監視システム
KR101794260B1 (ko) 음성인식을 이용한 보안등 및 보안시스템
CN111862529A (zh) 报警方法及设备
KR101882309B1 (ko) 음성인식을 이용한 보안등 및 보안시스템
CN114511978B (zh) 一种入侵预警方法、装置、车辆和计算机可读存储介质
CN117445805B (zh) 面向公交车司乘冲突的人员预警和行车控制方法及***
Kim et al. Discriminative training of GMM via log-likelihood ratio for abnormal acoustic event classification in vehicular environment
KR102141657B1 (ko) 음성 및 영상기반 비상유도시스템
KR20220161686A (ko) 사고음 딥러닝을 통한 음향기반 도로 사고 자동 검지 시스템
WO2021199311A1 (ja) 監視装置、監視方法、および記録媒体
Gunathilake et al. Deep Learning-Based Approach for Real-Time Traffic Signal Optimization and Vehicle Surveillance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200325

R151 Written notification of patent or utility model registration

Ref document number: 6682222

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151