JP5043940B2 - Video surveillance system and method combining video and audio recognition - Google Patents

Video surveillance system and method combining video and audio recognition Download PDF

Info

Publication number
JP5043940B2
JP5043940B2 JP2009522745A JP2009522745A JP5043940B2 JP 5043940 B2 JP5043940 B2 JP 5043940B2 JP 2009522745 A JP2009522745 A JP 2009522745A JP 2009522745 A JP2009522745 A JP 2009522745A JP 5043940 B2 JP5043940 B2 JP 5043940B2
Authority
JP
Japan
Prior art keywords
video
audio
recognition
recognition information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009522745A
Other languages
Japanese (ja)
Other versions
JP2009545911A (en
Inventor
キンツレー、マーティン、ジー
シェイニン、ヴァディム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2009545911A publication Critical patent/JP2009545911A/en
Application granted granted Critical
Publication of JP5043940B2 publication Critical patent/JP5043940B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/16Actuation by interference with mechanical vibrations in air or other fluid
    • G08B13/1654Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems
    • G08B13/1672Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems using sonic detecting means, e.g. a microphone operating in the audio frequency range
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B19/00Alarms responsive to two or more different undesired or abnormal conditions, e.g. burglary and fire, abnormal temperature and abnormal rate of flow
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B31/00Predictive alarm systems characterised by extrapolation or other computation using updated historic data

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Emergency Management (AREA)
  • Signal Processing (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Burglar Alarm Systems (AREA)
  • Alarm Systems (AREA)

Description

本発明は、一般に、セキュリティを確保するための監視システムおよび方法に関し、更に具体的には、監視システムのための新規なオンライン(リアルタイム)のビデオおよびオーディオ認識システムおよびプロセスに関する。   The present invention relates generally to surveillance systems and methods for ensuring security, and more specifically to novel online (real-time) video and audio recognition systems and processes for surveillance systems.

従来のビデオ監視システムは、通常、オーディオを監視するための機能も設備も含まない。すなわち、監視システムは、オーディオ入力を全く含まない。米国特許第6,724,421号および第6,175,382号に記載されたもの等の典型的なビデオ監視システムは、せいぜい、視覚情報および聴覚情報の同時記録を行うだけである。これらの参考文献に記載された双方のタイプのビデオ監視システムにおいて、ビデオ・データは高性能(smart)監視エンジンによって分析され、デジタル・ストレージ用に圧縮される。これらのエンジンは、顔認識、動作検出、パニック検出、突き刺すような動作の検出等、様々な認識アルゴリズムを実施する。例えば、高層ビルの入口を監視している場合に警報が発せられるある状況では、突然ある人物が別の人物に対して素早い動きをして、強盗、暴行、または同様の行動の可能性が示唆される。この場合、高性能監視エンジンは、突然の素早い動きを認識し(100%未満の成功レベルで)、監視ステーションにおいて警報を発生する。かかる警報の結果、監視対象の位置に警察を派遣することができる。当然、突然の素早い動きは、子供が彼/彼女の親/友達に向かって走っていったために発生した可能性もある。この場合、発生した警報は誤警報となるが、これによってコストの高い警察の派遣が行われてしまう。高性能監視エンジンの誤検出が引き起こす別の例は、本当の非常時に警報が発せられないことである。これが起こるのは、例えば現場に2人以上の人がいる場合である。現在の監視システムの更に別の欠点は、真の非常事態が起こっている場合に警察が派遣されないことである。   Conventional video surveillance systems typically do not include functions or facilities for monitoring audio. That is, the surveillance system does not include any audio input. Typical video surveillance systems, such as those described in US Pat. Nos. 6,724,421 and 6,175,382, at best, only record visual and auditory information simultaneously. In both types of video surveillance systems described in these references, video data is analyzed by a smart surveillance engine and compressed for digital storage. These engines implement various recognition algorithms such as face recognition, motion detection, panic detection, and stab motion detection. For example, in some situations where an alarm is triggered when monitoring a high-rise building entrance, one person suddenly moves quickly against another person, suggesting the possibility of burglary, assault, or similar behavior. Is done. In this case, the high performance monitoring engine recognizes sudden and rapid movement (with a success level of less than 100%) and generates an alarm at the monitoring station. As a result of the alarm, the police can be dispatched to the position to be monitored. Of course, a sudden quick move may have occurred because the child was running towards his / her parents / friends. In this case, the generated alarm becomes a false alarm, but this causes an expensive police dispatch. Another example of high performance monitoring engine false detections is that no alarm is triggered in a real emergency. This occurs, for example, when there are two or more people at the site. Yet another disadvantage of current surveillance systems is that police are not dispatched in the event of a true emergency.

図1に、従来のビデオのみの監視システムを示す。カメラ・アレイ10は、ビデオ・リンク11を介してビデオ圧縮エンジン12内にビデオ情報を供給する。ビデオ情報は圧縮され、リンク16を介してストレージ・デバイス14に送られ、長期的にストアされる。ビデオ情報は、更に、同じビデオ・リンク11を介してビデオ認識エンジン13に供給される。ビデオ認識エンジン13は、顔認識、動き検出、およびその他のビデオ認識タスクを実行し、イベントおよび警報を発生して、これらがリンク17を介してイベント・データベース15および監視ステーション18に送られる。監視ステーション18は、有人監視ステーションを含み、これによってオペレータは特定の量のカメラをリアルタイムで視覚的に監視することができる。非常事態が起こったとオペレータによって解釈されると、監視対象の領域に警察または他の非常時対応チームを派遣するか否かが、彼/彼女によって決断される。上述の説明から、監視対象の領域においてオーディオ情報が利用可能であることが極めて多いにもかかわらず、かかる情報が無駄になっていることは明らかである。   FIG. 1 shows a conventional video-only surveillance system. The camera array 10 provides video information into the video compression engine 12 via a video link 11. The video information is compressed and sent over link 16 to storage device 14 for long-term storage. Video information is further fed to the video recognition engine 13 via the same video link 11. Video recognition engine 13 performs face recognition, motion detection, and other video recognition tasks and generates events and alerts that are sent via link 17 to event database 15 and monitoring station 18. The monitoring station 18 includes a manned monitoring station that allows an operator to visually monitor a certain amount of cameras in real time. When the operator interprets that an emergency has occurred, he / she decides whether to dispatch a police or other emergency response team to the monitored area. From the above description, it is clear that such information is wasted despite the very high availability of audio information in the monitored area.

図2に、オーディオ記録を用いた従来技術のビデオ監視システムを示す。カメラ・アレイ20は、ビデオ・リンク21を介してビデオおよびオーディオ圧縮エンジン22内にビデオ情報を供給する。同時に、オーディオ情報が、マイクロフォン・アレイ29からオーディオ・リンク30を介してビデオおよびオーディオ圧縮エンジン22に供給される。ビデオおよびオーディオ情報は圧縮され、リンク26を介してストレージ・デバイス24に送られ、長期的にストアされる。ビデオ情報は、同様に、同じビデオ・リンク21を介してビデオ認識エンジン23に供給される。ビデオ認識エンジン23は、顔認識、動き検出、およびその他のビデオ認識タスクを実行し、イベントおよび警報を発生して、これらがリンク27を介してデータベース25および監視ステーション28に送られる。監視ステーション28は、有人監視ステーションであり、これによってオペレータは特定の量のカメラを視覚的に監視する。非常事態が起こったとオペレータによって解釈されると、監視対象の領域に警察または他の非常時対応チームを派遣するか否かが、彼/彼女によって決断される。上述の説明から、監視対象の領域から取得したオーディオ信号においてオーディオ入力からの有用な情報が利用可能であることが非常に多いにもかかわらず、かかる情報が抽出されていないことは明らかである。   FIG. 2 shows a prior art video surveillance system using audio recording. Camera array 20 provides video information into video and audio compression engine 22 via video link 21. At the same time, audio information is provided from the microphone array 29 via the audio link 30 to the video and audio compression engine 22. Video and audio information is compressed and sent over link 26 to storage device 24 for long-term storage. Video information is likewise provided to the video recognition engine 23 via the same video link 21. Video recognition engine 23 performs face recognition, motion detection, and other video recognition tasks and generates events and alerts that are sent via link 27 to database 25 and monitoring station 28. The monitoring station 28 is a manned monitoring station that allows an operator to visually monitor a certain amount of cameras. When the operator interprets that an emergency has occurred, he / she decides whether to dispatch a police or other emergency response team to the monitored area. From the above description, it is clear that such information is not extracted even though very often useful information from the audio input is available in the audio signal obtained from the monitored area.

上述のように、第2のタイプの監視システムは、ビデオおよびオーディオ情報を同時に記録し、様々なビデオ認識タスク用の高性能監視エンジンを組み込む。今日、これらのシステムにおいて、オーディオ情報は圧縮され記録されるが、分析されることはない。
米国特許6,724,421号 米国特許6,175,382号
As mentioned above, the second type of surveillance system records video and audio information simultaneously and incorporates a high performance surveillance engine for various video recognition tasks. Today, in these systems, audio information is compressed and recorded, but not analyzed.
US Pat. No. 6,724,421 US Pat. No. 6,175,382

今日の監視システムは、ビデオ入力を分析する場合、貴重なオーディオ情報を全く利用しない。当然、このオーディオ情報は入手可能であり、多くの監視状況において極めて広範囲に渡って使用可能である。 Today's surveillance systems do not use any valuable audio information when analyzing video input. Of course, the audio information is available and can be used over a very wide range in many monitoring situations.

従って、ビデオ監視システムにおいてオーディオ情報の使用を組み込むことは極めて望ましいであろう。このオーディオ情報の使用によって、監視システムが発生する誤警報の数を減らすと共に、検出される真の警報の割合を高め、同時に、警報を評価する人物にいっそう多くの情報を提供することが期待される。更に、ビデオ情報のみを用いた場合は検出されなかったイベントであっても、オーディオおよびビデオ情報を用いて検出することが可能となる。   Therefore, it would be highly desirable to incorporate the use of audio information in video surveillance systems. The use of this audio information is expected to reduce the number of false alarms generated by the surveillance system, increase the percentage of true alarms detected, and at the same time provide more information to the person evaluating the alarm. The Furthermore, even when only video information is used, even an event that has not been detected can be detected using audio and video information.

従って、本発明の目的は、監視対象の領域から取得したオーディオ情報と組み合わせてビデオ情報を用いることを取り入れたビデオ監視システムおよび方法を提供することである。   Accordingly, it is an object of the present invention to provide a video surveillance system and method that incorporates the use of video information in combination with audio information acquired from the monitored area.

本発明の監視システムは、ビデオ信号入力およびオーディオ信号入力の双方を含む。ビデオ入力はデジタルまたはアナログ・カメラから供給し、オーディオ入力は監視対象の領域に設置されたマイクロフォンから受信する。ビデオおよびオーディオ情報を圧縮し、デジタル・ストレージ・デバイスに送信する。実施する全てのカメラおよびマイクロフォンに必要なデジタル・ストレージの量を節約するために、オーディオおよびビデオ情報を圧縮することが好ましい。記録と同時に、ビデオおよびオーディオ入力を高性能認識エンジンに供給する。このエンジンは、ビデオ認識、オーディオ認識を実行し、ビデオ−オーディオ認識からの結果を即時に相関付けて、例えば甲高い叫び声、爆発、発砲等のパニック状況を示す特定のイベント・セットを検出/認識する。高性能認識エンジンによって発生した警報は、監視ステーションに送信することができる。ここで、人間のオペレータが、警察または緊急事態に対応する人員を監視対象領域に派遣するか否かを決断する。   The surveillance system of the present invention includes both a video signal input and an audio signal input. Video input is provided from a digital or analog camera, and audio input is received from a microphone installed in the monitored area. Compress video and audio information and send it to a digital storage device. In order to save the amount of digital storage required for all cameras and microphones implemented, it is preferable to compress the audio and video information. Simultaneously with recording, video and audio inputs are fed into a high performance recognition engine. The engine performs video recognition, audio recognition, and instantly correlates the results from video-audio recognition to detect / recognize a specific set of events that indicate a panic situation such as shouts, explosions, fires, etc. . Alarms generated by the high performance recognition engine can be sent to the monitoring station. Here, the human operator decides whether or not to dispatch the police or personnel corresponding to the emergency situation to the monitoring target area.

本発明の一態様によれば、高性能認識エンジンは、顔認識、動き検出等の利用可能なビデオ認識アルゴリズム、および、特定の言葉(「助けて」、「強盗」等)の音声認識のためのオーディオ/音声認識アルゴリズムを実行する。オーディオ認識エンジンは、発砲、爆発等、ならびに、警報または緊急事態を示す甲高い声および他の音声特徴等の特別なオーディオ信号を認識するように訓練することができる。   In accordance with one aspect of the present invention, a high performance recognition engine can be used for video recognition algorithms such as face recognition, motion detection, and voice recognition of certain words (“help”, “robbery”, etc.). The audio / speech recognition algorithm is executed. The audio recognition engine can be trained to recognize special audio signals such as firing, explosions, and the like, and high-pitched voices and other voice features that indicate an alarm or emergency.

マイクロフォン・アレイを特定の方位に配置して用いて、音声の方向を決定することができる。次いで、方向性オーディオ情報をカメラ制御ユニットに送信して、カメラ/複数のカメラを対象の方向に向けることができる。そして、ビデオ/オーディオ認識を、もっと効率良く実行することができる。このため、例えば、監視対象の領域において、マイクロフォン・アレイを用いたオーディオ認識エンジンによって爆発音を検出することができる。この結果、カメラは爆発の方向に向き、監視ステーションへの警報から場面認識/把握までの後続動作をビデオ認識エンジンにおいて行う。ビデオおよびオーディオ認識からの結果をすぐに用いて、記録したオーディオおよびビデオの評価を行い、更に、新しいビデオおよびオーディオ入力の記録を改善することで、検出の精度が向上し、警報の性質を決定するためにかかる時間が短縮し、状況を評価している人間のオペレータに多くの情報が与えられるので、有利である。   A microphone array can be used in a particular orientation to determine the direction of speech. Directional audio information can then be sent to the camera control unit to direct the camera / multiple cameras in the direction of interest. And video / audio recognition can be performed more efficiently. Therefore, for example, explosion sound can be detected by an audio recognition engine using a microphone array in the monitored area. As a result, the camera is directed in the direction of the explosion, and the video recognition engine performs subsequent operations from alarm to the monitoring station to scene recognition / understanding. Immediately use the results from video and audio recognition to evaluate recorded audio and video, and improve the recording of new video and audio inputs to improve detection accuracy and determine the nature of the alarm This is advantageous because it reduces the time it takes to do so and gives more information to the human operator evaluating the situation.

ビデオ認識エンジンおよびオーディオ認識エンジンからの出力を、共同認識エンジンによって分析し、この結果、最終的な警報を発生して監視ステーションに転送する。   The output from the video recognition engine and the audio recognition engine is analyzed by the joint recognition engine, which results in a final alarm being transmitted to the surveillance station.

本発明の好適な態様によれば、これらおよび他の目的を達成するため、監視システムおよび方法、およびコンピュータ・プログラムが提供される。このシステムは、
監視対象の領域上で取得されたビデオ情報を含むリアルタイム・ビデオ信号を発生させるための手段と、
監視対象の領域からのオーディオ情報を含むリアルタイム・オーディオ信号を取得するための手段と、
ビデオ信号およびオーディオ信号を同時に受信し、そこから関連するビデオおよびオーディオ認識情報を求め、リアルタイム・オーディオおよびビデオ情報を相互に相関付けて特定のイベントの発生の可能性を求めるための手段と、
特定のイベントの発生に基づいて警報状況を発生させるための手段と、
を含む。
In accordance with preferred aspects of the present invention, a monitoring system and method, and a computer program are provided to accomplish these and other objectives. This system
Means for generating a real-time video signal containing video information acquired on the monitored area;
Means for obtaining a real-time audio signal including audio information from the monitored area;
Means for simultaneously receiving a video signal and an audio signal, determining related video and audio recognition information therefrom, and correlating real-time audio and video information with each other to determine the likelihood of occurrence of a particular event;
A means for generating an alarm condition based on the occurrence of a specific event;
including.

本発明の構造および方法の更に別の特徴、態様、および利点は、以下の説明、特許請求の範囲、および添付図面を参照して、いっそう充分に理解されよう。   Further features, aspects, and advantages of the structure and method of the present invention will be better understood with reference to the following description, appended claims, and accompanying drawings.

図3は、本発明による、ビデオおよびオーディオ認識を用いたビデオ監視システムを示す。図3に示すように、カメラ・アレイ40は、例えばCCDまたはCMOSカメラのような、カラーまたはモノクロの1つ以上の静止またはビデオ電子カメラを含むか、または同等のコンポーネントの組み合わせを有して、監視対象の領域を捕捉し、ビデオ通信リンク41を介して、デジタル・ビデオおよびオーディオ圧縮エンジン42内に、ビデオ信号を供給する。カメラ・アレイ40の各カメラ・デバイスの動きおよび動作は、例えばコンピュータあるいはソフトウェアまたはそれら両方の制御のもとに、受信した制御信号によって制御することができる。更に、パン/チルト・ミラー、レンズ・システム、フォーカス・モータ、パン・モータ、およびチルト・モータ制御を含むカメラ・アレイ40の各カメラの動作パラメータは、受信した制御信号によって制御される。これについては、後に本明細書内で更に詳しく説明する。デジタル・ビデオ信号を出力する前に、例えばノイズを低減するため、またはフィルタリング/画質向上の技法を実行するために、多くの信号処理技法を適用することができる。   FIG. 3 illustrates a video surveillance system using video and audio recognition according to the present invention. As shown in FIG. 3, the camera array 40 includes one or more color or monochrome still or video electronic cameras, such as CCD or CMOS cameras, or has a combination of equivalent components, A region to be monitored is captured and a video signal is provided via the video communication link 41 into the digital video and audio compression engine 42. The movement and operation of each camera device in the camera array 40 can be controlled by received control signals, for example under the control of a computer and / or software. In addition, the operating parameters of each camera in the camera array 40, including pan / tilt mirror, lens system, focus motor, pan motor, and tilt motor control, are controlled by received control signals. This will be described in more detail later in this specification. Many signal processing techniques can be applied before outputting a digital video signal, for example, to reduce noise or to perform filtering / image enhancement techniques.

同時に、音響圧力を電気信号に変換することができるマイクロフォン・センサ・デバイス(全方向性あるいは高度な指向性を有するまたはそれら両方のマイクロフォン)を含むマイクロフォン・アレイ49を設けて、オーディオ通信リンク50を介してデジタル・ビデオおよびオーディオ圧縮エンジン42にオーディオ信号を供給する。当業者には既知のように、マイクロフォン・アレイの指向性レベルは音の周波数に対して変動するので、マイクロフォンの数およびマイクロフォン間の距離は、いずれかの所与の指向性を与えるために必要な周波数範囲を考慮して決定することができる。アレイに組み込まれるマイクロフォンは、例えばこれらの目的を達成するためにソフトウェア制御のもとで制御することができ、例えば人の声、爆発、発砲等の範囲における様々な周波数受信に対して明らかにバイアスをかけることができるピックアップ・パターンを有するように構成したトランスデューサを含むことができる。このようにして、マイクロフォン・アレイは、高い精度で音響イベントの音場に応答するような感度を有することが保証されている。更に別のオーディオ信号調整技法を適用して、例えばA/D変換器を用いて取得したアナログ・オーディオ信号をデジタル化すること、および、例えば利得制御、ノイズの低減/除去を行うことができる。デジタル化したビデオおよびオーディオ情報は、デジタルに圧縮されて、リンク46を介してメモリ・ストレージ・デバイス44に送られ、長期的にストアされる。デバイス44は、例えば、データベース、ハード・ディスク・ドライブ、CD−ROM、DVD、テープ、プラッタ、ディスク・アレイ等を含むがこれらには限定されない磁気または光媒体等である。カメラ・アレイ40の各カメラの出力は、MPEG1、MPEG2等の圧縮フォーマットでストレージ媒体にストアされる。更に、アレイの各カメラの出力は、そのカメラに関連付けたストレージ媒体上の特定の位置にストアすることができ、または、ストアされた各出力がどのカメラに対応するかを示す指示と共にストアされる。   At the same time, a microphone array 49 containing microphone sensor devices (omnidirectional and / or highly directional microphones) capable of converting acoustic pressure into electrical signals is provided to provide an audio communication link 50. Via the digital video and audio compression engine 42. As known to those skilled in the art, since the directivity level of a microphone array varies with the frequency of sound, the number of microphones and the distance between the microphones is necessary to give any given directivity. It can be determined in consideration of a specific frequency range. The microphones incorporated into the array can be controlled under software control, for example to achieve these objectives, and are clearly biased against various frequency receptions, for example in the range of human voice, explosions, firing, etc. And a transducer configured to have a pickup pattern that can be applied. In this way, the microphone array is guaranteed to be sensitive enough to respond to the sound field of an acoustic event with high accuracy. Yet another audio signal conditioning technique can be applied to digitize an analog audio signal acquired using, for example, an A / D converter, and to perform gain control, noise reduction / removal, for example. Digitized video and audio information is digitally compressed and sent over link 46 to memory storage device 44 for long-term storage. The device 44 is, for example, a magnetic or optical medium including but not limited to a database, a hard disk drive, a CD-ROM, a DVD, a tape, a platter, a disk array, and the like. The output of each camera in the camera array 40 is stored in a storage medium in a compression format such as MPEG1 or MPEG2. In addition, the output of each camera in the array can be stored at a particular location on the storage medium associated with that camera, or stored with an indication that indicates which camera each stored output corresponds to. .

図3に更に示すように、同じビデオ情報およびオーディオ情報が、各ビデオ・リンク41およびオーディオ・リンク50を介して高性能認識エンジン43にも同時に供給される。各カメラ・アレイ、オーディオ・マイクロフォン・アレイ、ビデオおよびオーディオ圧縮エンジン42、高性能認識エンジン43間の通信リンク41および50は、配線によって接続することができるか、または無線リンクを使用可能であることは理解されよう。更に、これらの通信リンクが、ケーブル、衛星、RFおよびマイクロ波伝送、光ファイバ等の形態を取ることも本発明の範囲内である。   As further shown in FIG. 3, the same video and audio information is simultaneously provided to the high performance recognition engine 43 via each video link 41 and audio link 50. Communication links 41 and 50 between each camera array, audio microphone array, video and audio compression engine 42, high performance recognition engine 43 can be connected by wiring or can use a wireless link Will be understood. Further, it is within the scope of the present invention for these communication links to take the form of cables, satellites, RF and microwave transmissions, optical fibers, and the like.

本発明中において後に更に詳しく説明するように、また図4に示すように、高性能認識エンジン43は、ビデオ認識エンジン62、オーディオ認識エンジン63、共同認識エンジンおよび警報発生モジュール64を含む。高性能認識エンジン43は、コンピュータ・デバイスを制御してビデオ認識アルゴリズムおよび顔認識アルゴリズムを実施するための方法およびプロセスを実行するソフトウェアを組み込んでいる。これらは、動き検出アルゴリズム(例えば、個々のポイントを追跡する周知のパッチ相関または追跡アルゴリズム)によって、これと組み合わせて実行して、画像ストリーム内の特徴の動きを推定することができる。高性能認識エンジン43は、更に、コンピュータ・デバイスを制御してオーディオ認識および音声認識アルゴリズムを実施するための方法およびプロセスを実行するソフトウェアを組み込んでいる。コンピュータ読み取り可能命令、データ構造、プログラム・モジュール等として実施される音声認識アルゴリズムを用いて、非常事態または警報を発すべき状況を示すと考えられる特定の話し言葉を認識することができる(例えば「助けて」、「強盗」等)。   As will be described in more detail later in the present invention and as shown in FIG. 4, the high performance recognition engine 43 includes a video recognition engine 62, an audio recognition engine 63, a joint recognition engine and an alarm generation module 64. The high performance recognition engine 43 incorporates software that performs a method and process for controlling a computing device to implement video and face recognition algorithms. These can be performed in combination with a motion detection algorithm (eg, well-known patch correlation or tracking algorithms that track individual points) to estimate the motion of features in the image stream. The high performance recognition engine 43 further incorporates software that performs the methods and processes for controlling the computing device to implement audio recognition and speech recognition algorithms. Speech recognition algorithms implemented as computer readable instructions, data structures, program modules, etc. can be used to recognize specific spoken words that are considered to indicate an emergency or situation that should trigger an alarm (eg, “help "," Robberies ", etc.).

コンピュータ読み取り可能命令、データ構造、プログラム・モジュールまたは他のデータを含むオーディオ認識エンジン63は、発砲、爆発、例えば叫びや悲鳴等の甲高い声、および、警報を引き起こすと考えられる既知のイベントに関連した他の音声特徴等の特別なオーディオ信号を認識するように訓練することができる。しかしながら、本発明に従って、従来の訓練を必要としない様々な認識アルゴリズムを使用可能であることは理解されよう。   Audio recognition engine 63 containing computer readable instructions, data structures, program modules or other data related to firing, explosions, high pitched voices such as screams and screams, and known events that are believed to cause alarms It can be trained to recognize special audio signals such as other audio features. However, it will be appreciated that various recognition algorithms may be used in accordance with the present invention that do not require conventional training.

実施されるコンピューティング・デバイス(複数のデバイス)は、PC、デバイス、ラップトップ、モバイル・デバイス等の汎用コンピュータ・デバイスを含み、処理ユニット、システム・メモリ、およびシステム・メモリから処理ユニットを含む様々なシステム・コンポーネントを結合するシステム・バスを含むがこれらには限定されないコンポーネントを有する。コンピュータ・デバイスは、高性能認識エンジンおよびオーディオ認識エジンを実行するためにこれらのコンポーネントを実施する。これらのエンジンは、着脱可能媒体、着脱不可能媒体、揮発性媒体、および不揮発性媒体を含む、コンピュータ・デバイスがアクセス可能ないずれかの利用可能な媒体を含む周知のコンピュータ読み取り可能媒体上にストアされる。コンピュータ読み取り可能記録は、1つの位置に集中化するか、または、例えばネットワークを介して接続されたコンピュータ・システム上に分散化することができる。コンピュータ読み取り可能認識アルゴリズムは、コンピュータ読み取り可能記録媒体にストアし、分散化して実行することができる。   The computing device (s) implemented may include general purpose computer devices such as PCs, devices, laptops, mobile devices, etc., including processing units, system memory, and system memory to processing units. Having components including, but not limited to, a system bus that couples various system components. The computing device implements these components to implement a high performance recognition engine and audio recognition engine. These engines are stored on well-known computer readable media including any available media accessible to a computing device, including removable media, non-removable media, volatile media, and non-volatile media. Is done. Computer readable records can be centralized in one location or distributed over computer systems connected via a network, for example. The computer readable recognition algorithm can be stored in a computer readable recording medium and executed in a distributed manner.

図3に戻ると、マイクロフォン・アレイ49を特定の方位で用いて、音声の方向を決定することができる。検知したオーディオ・イベントに関する方向性情報は、有線または無線の通信リンク53を介して、カメラ・マイクロフォン制御モジュール52に送信される。カメラ/マイクロフォン制御モジュール52は、制御信号54によって対象の方向にカメラ/カメラ・アレイ40を向けると共にマイクロフォン・アレイ49の位置を制御するようにモータ位置制御を実行するために必要なソフトウェアを全て含む。例えば、制御信号はカメラ・アレイ40に入力して、カメラ・パン/チルト・ミラー、レンズ・システム(複数のシステム)、フォーカス・モータ、パン・モータ、およびチルト・モータ・コンポーネント、およびサブ・システムを調節または制御することができる。更に、これらの制御信号を用いて、カメラの視野を自動的に方向制御し、実際の警報または実際のイベントに関する情報を多く有するように中央に置いた画像、またはズームした画像、焦点の合った画像、解像した画像を得る。限定ではない1つの例では、高性能認識エンジンによる発砲オーディオ信号のオーディオ認識に応答して、制御信号を発生し、カメラ・アレイの1つ以上のカメラをその現場に向けて、発砲の方向に「ロック」することができる。発砲のオーディオ認識によってビデオ・カメラ・アレイが犯罪の場所に向けられた場合、「犯罪イベント」認識の方が有用である。なぜなら、発砲に関してもっと多くの情報が利用可能になるからである。あるいは、またはこれに加えて、これらの制御信号を発生し、これらを用いて、マイクロフォンの方位およびマイクロフォン間の距離を自動的に調節して、付随するオーディオ情報を更に良好に受信することができる。更に、マイクロフォンの方位は、必要な周波数範囲のオーディオ信号を検出することを考慮して、またはいずれかの所与の指向性を与えるように調節することができる。このため、例えば、ビデオ認識イベントに応答して、1つ以上のマクロフォンの向きを変えて、ある特定の方向から「聴く」ことも可能である。   Returning to FIG. 3, the microphone array 49 can be used in a particular orientation to determine the direction of speech. The direction information regarding the detected audio event is transmitted to the camera / microphone control module 52 via a wired or wireless communication link 53. The camera / microphone control module 52 includes all of the software necessary to direct the camera / camera array 40 in the direction of interest by the control signal 54 and to perform motor position control to control the position of the microphone array 49. . For example, control signals are input to the camera array 40 for camera pan / tilt mirror, lens system (s), focus motor, pan motor, and tilt motor components, and subsystems. Can be adjusted or controlled. In addition, these control signals can be used to automatically steer the camera's field of view and to have a centralized or zoomed image, in-focus that has a lot of information about the actual alarm or actual event. Obtain images and resolved images. In one non-limiting example, in response to audio recognition of the fired audio signal by the high performance recognition engine, a control signal is generated and one or more cameras in the camera array are directed to the scene in the direction of fire. Can be “locked”. “Criminal event” recognition is more useful when the video camera array is pointed to a crime location by firing audio recognition. This is because more information about firing is available. Alternatively, or in addition, these control signals can be generated and used to automatically adjust the microphone orientation and the distance between the microphones to better receive the accompanying audio information. . Furthermore, the orientation of the microphone can be adjusted to take into account the detection of audio signals in the required frequency range or to provide any given directivity. Thus, for example, in response to a video recognition event, one or more microphones can be turned to “listen” from a particular direction.

更に具体的には、図4に示すように、ビデオ認識エンジン62およびオーディオ認識エンジン63からの出力を共同認識エンジン64によって分析して、同時に受信したビデオおよびオーディオ認識情報を処理し、最終的に警報状況が存在するか否かを判定する。このようにして、警報を発生し、通信リンク47を介して有人監視ステーション48に転送することができる。すなわち、共同認識エンジン64において用いられる、コンピュータ読み取り可能命令、データ構造、プログラム・モジュール等として使用される認識プロセスは、一般に、パターン・マッチングあるいは仮説評価またはそれら両方に基づいている。評価段階の間、様々なイベントの確率の推定値を求める。これを行うには、リアルタイム・ビデオ認識情報およびオーディオ信号から、認識された各ビデオ場面およびそれに付随する認識された音声またはオーディオ特徴間にどの程度の相関が存在するかを求めれば良い。認識イベントの一例において、突き刺すような動きを認識する際には、様々なビデオ場面の確率を評価するために、ビデオ情報を用いる。かかる場面に甲高い声(叫び等)が伴うことがわかっていれば、オーディオ入力から甲高い声を検出することは、それがビデオ信号で捕捉された突き刺すような動きの結果である確率を高める。オペレータは、カメラ・アレイ40によって監視された特定領域を視覚的に監視し、警報発生ユニットによって警報指示が与えられると、監視対象の領域に警察または非常事態の対応人員を派遣するか否かがオペレータによって決断される。上述の説明から、オーディオ入力から有用な情報が抽出されることは明らかであろう。これをビデオ認識イベントと組み合わせて、監視システムの全体的な動作を向上させる。   More specifically, as shown in FIG. 4, the outputs from the video recognition engine 62 and the audio recognition engine 63 are analyzed by the joint recognition engine 64 to process the simultaneously received video and audio recognition information, and finally Determine whether an alarm condition exists. In this way, an alarm can be generated and forwarded to the manned monitoring station 48 via the communication link 47. That is, the recognition process used in the co-recognition engine 64 as computer readable instructions, data structures, program modules, etc. is generally based on pattern matching and / or hypothesis evaluation. During the evaluation phase, estimate the probabilities of various events. To do this, real-time video recognition information and audio signals can be used to determine how much correlation exists between each recognized video scene and the associated recognized speech or audio features. In one example of a recognition event, when recognizing a piercing motion, video information is used to evaluate the probabilities of various video scenes. If it is known that a high-pitched voice (such as a scream) is associated with such a scene, detecting a high-pitched voice from the audio input increases the probability that it is the result of a piercing movement captured in the video signal. The operator visually monitors a specific area monitored by the camera array 40, and when an alarm instruction is given by the alarm generation unit, the operator determines whether to dispatch police or emergency response personnel to the monitored area. Determined by the operator. From the above description, it will be apparent that useful information is extracted from the audio input. This is combined with video recognition events to improve the overall operation of the surveillance system.

更に図4に示すように、ビデオ認識エンジン62と共同認識エンジン64との間の通信リンク60は双方向性であり、オーディオ認識エンジン63と共同認識エンジン64との間の通信リンク61も同様である。リンク60および61の双方向性によって、上述のようにビデオおよびオーディオ認識アルゴリズムの相互の作用が可能となり、これは結果として、ビデオおよびオーディオの認識レベルを高め、以前は検出が不可能であった特定のイベントを検出する可能性が生まれる。   Further, as shown in FIG. 4, the communication link 60 between the video recognition engine 62 and the joint recognition engine 64 is bidirectional, and the communication link 61 between the audio recognition engine 63 and the joint recognition engine 64 is similar. is there. The bidirectional nature of the links 60 and 61 allows the video and audio recognition algorithms to interact as described above, which results in an increased level of video and audio recognition that was previously impossible to detect. The possibility of detecting a specific event is born.

本発明について、その例示的な実行された実施形態に関連付けて具体的に図示し記載したが、本発明の意図および範囲から逸脱することなく、形態および詳細において前述およびその他の変更を実施可能であり、本発明の意図および範囲は特許請求の範囲によってのみ制限されることは、当業者には理解されよう。   Although the invention has been particularly shown and described in connection with exemplary implementations thereof, the foregoing and other changes in form and detail may be made without departing from the spirit and scope of the invention. Those skilled in the art will appreciate that the spirit and scope of the present invention is limited only by the claims.

従来技術によるビデオのみの監視システムを示す。1 shows a video-only surveillance system according to the prior art. 従来技術によるオーディオ記録機能を有するビデオ監視システムを示す。1 shows a video surveillance system having an audio recording function according to the prior art. 本発明によるビデオおよびオーディオ認識を用いたビデオ監視システムを示す。1 illustrates a video surveillance system using video and audio recognition according to the present invention. 本発明による高性能認識エンジンの詳細を示す。2 shows details of a high performance recognition engine according to the present invention.

Claims (11)

ビデオおよびオーディオ認識を利用した監視システムであって、
監視対象の領域上で取得されたビデオ情報を含むリアルタイム・ビデオ信号を発生させるための1つ以上のビデオ・カメラ・デバイスと、
前記監視対象の領域からのオーディオ情報を含むリアルタイム・オーディオ信号を取得するための1つ以上のマイクロフォン・デバイスと、
前記リアルタイム・ビデオ信号および前記リアルタイム・オーディオ信号を同時に受信し、それらから関連するビデオ認識情報およびオーディオ認識情報を求め、前記ビデオ認識情報および前記オーディオ認識情報を相互に相関付けて、特定のイベントの発生の可能性を求めるための処理手段と、
前記特定のイベントの発生に基づいて警報状況を発生させるための手段と
を含み、
前記処理手段が、前記オーディオ認識情報およびビデオ認識情報を相関付けると共に特定のイベントの発生を検出する共同認識手段を含み、当該共同認識手段が、潜在的なイベントの前記ビデオ認識情報に基づいて前記イベントの発生を認識したことに応答して、オーディオ認識情報の捕捉を可能とするように前記マイクロフォン・デバイスの1つ以上のマイクロフォンを前記特定のイベントの方向に向けるための制御信号を発生させるための手段を更に含み、前記マイクロフォン・デバイスの各々が、前記制御信号に応答して、必要な周波数範囲のオーディオ信号の検出を考慮して前記マイクロフォンの方位を自動的に調節する、前記監視システム。
A surveillance system using video and audio recognition,
One or more video camera devices for generating a real-time video signal containing video information acquired on the monitored area;
One or more microphone devices for obtaining real-time audio signals including audio information from the monitored area;
Simultaneously receiving the real-time video signal and the real-time audio signal, determining associated video recognition information and audio recognition information from them, correlating the video recognition information and the audio recognition information with each other, and Processing means for determining the likelihood of occurrence;
Means for generating an alarm condition based on the occurrence of the specific event,
The processing means includes joint recognition means for correlating the audio recognition information and video recognition information and detecting the occurrence of a specific event, the joint recognition means based on the video recognition information of a potential event. In response to recognizing the occurrence of an event, to generate a control signal for directing one or more microphones of the microphone device in the direction of the particular event so as to enable capture of audio recognition information further seen including a means, each of said microphone devices, in response to the control signal, automatically adjusts the orientation of the microphone in consideration of the detection of the required frequency range of the audio signal, the monitoring system .
前記処理手段が、前記ビデオ認識情報を求めるための前記ビデオ信号を処理するための第1の認識エンジンを含む、請求項1記載のシステム。The system of claim 1 , wherein the processing means includes a first recognition engine for processing the video signal for determining the video recognition information. 前記処理手段が、前記オーディオ認識情報を求めるための前記オーディオ信号を処理するための第2の認識エンジンを含む、請求項1記載のシステム。The system of claim 1 , wherein the processing means includes a second recognition engine for processing the audio signal for determining the audio recognition information. 前記ビデオ・カメラ・デバイスの各々が、前記ビデオ・カメラ・デバイスのパン、チルト、ズーム、回転、ドリー、平行移動制御パラメータの1つ以上を調節するために、前記制御信号に応答するパン/チルト・ミラー、レンズ・システム、フォーカス・モータ、パン・モータ、およびチルト・モータ・コンポーネントの1つ以上を含む、請求項1〜のいずれか一項に記載のシステム。Each of the video camera devices is responsive to the control signal to adjust one or more of the pan, tilt, zoom, rotation, dolly, translation control parameters of the video camera device. Miller, lens system, a focus motor, pan motor, and one or more tilt motor components, according to any one of claims 1 to 3 system. 前記共同認識手段が、潜在的なイベントの前記オーディオ認識情報に基づいて前記イベントの発生を認識したことに応答して、ビデオ信号の捕捉を可能とするように前記ビデオ・カメラ・デバイスの1つ以上を前記特定のイベントの方向に向けるための制御信号を発生させるための手段を更に含む、請求項1に記載の監視システム。  One of the video camera devices to enable capture of a video signal in response to the joint recognition means recognizing the occurrence of the event based on the audio recognition information of a potential event. The monitoring system of claim 1, further comprising means for generating a control signal to direct the above in the direction of the particular event. ビデオおよびオーディオ認識を利用した監視システムであって、
監視対象の領域上で取得されたビデオ情報を含むリアルタイム・ビデオ信号を発生させるための1つ以上のビデオ・カメラ・デバイスと、
前記監視対象の領域からのオーディオ情報を含むリアルタイム・オーディオ信号を取得するための1つ以上のマイクロフォン・デバイスと、
前記リアルタイム・ビデオ信号および前記リアルタイム・オーディオ信号を同時に受信し、それらから関連するビデオ認識情報およびオーディオ認識情報を求め、前記ビデオ認識情報および前記オーディオ認識情報を相互に相関付けて、特定のイベントの発生の可能性を求めるための処理手段と、
前記特定のイベントの発生に基づいて警報状況を発生させるための手段と
を含み、
前記処理手段が、前記オーディオ認識情報およびビデオ認識情報を相関付けると共に特定のイベントの発生を検出する共同認識手段を含み、当該共同認識手段が、潜在的なイベントの前記ビデオ認識情報に基づいて前記イベントの発生を認識したことに応答して、オーディオ認識情報の捕捉を可能とするように前記マイクロフォン・デバイスの1つ以上のマイクロフォンを前記特定のイベントの方向に向けるための制御信号を発生させるための手段を更に含み、
前記マイクロフォン・デバイスの各々が、前記制御信号に応答して、いずれかの所与の指向性でのオーディオ信号の受信を考慮して前記マイクロフォンの方位を自動的に調節する、前記監視システム。
A surveillance system using video and audio recognition,
One or more video camera devices for generating a real-time video signal containing video information acquired on the monitored area;
One or more microphone devices for obtaining real-time audio signals including audio information from the monitored area;
Simultaneously receiving the real-time video signal and the real-time audio signal, determining associated video recognition information and audio recognition information from them, correlating the video recognition information and the audio recognition information with each other, and Processing means for determining the likelihood of occurrence;
Means for generating an alarm condition based on the occurrence of the specific event;
Including
The processing means includes joint recognition means for correlating the audio recognition information and video recognition information and detecting the occurrence of a specific event, the joint recognition means based on the video recognition information of a potential event. In response to recognizing the occurrence of an event, to generate a control signal for directing one or more microphones of the microphone device in the direction of the particular event so as to enable capture of audio recognition information Further comprising:
The monitoring system , wherein each of the microphone devices automatically adjusts the orientation of the microphone in response to receiving the audio signal at any given directivity in response to the control signal.
ビデオおよびオーディオ認識を利用した監視方法であって、
監視対象の領域上で取得されたビデオ情報を含むリアルタイム・ビデオ信号および前記監視対象の領域からのオーディオ情報を含むリアルタイム・オーディオ信号を、処理手段において同時に受信するステップと、
前記受信したリアルタイム・ビデオ信号およびリアルタイム・オーディオ信号から関連するビデオ認識およびオーディオ認識情報を求めるステップと、
前記リアルタイム・オーディオおよびビデオ認識情報を相互に相関付けて特定のイベントの発生の可能性を求めるステップと、
前記特定のイベントの発生に基づいて警報状況を発生させるステップと
を含み、前記処理手段が、前記オーディオ認識情報およびビデオ認識情報を相関付けると共に特定のイベントの発生を検出する共同認識手段を含み、当該共同認識手段が、潜在的なイベントの前記ビデオ認識情報に基づいて前記イベントの発生を認識したことに応答して、オーディオ認識情報の捕捉を可能とするように前記マイクロフォン・デバイスの1つ以上のマイクロフォンを前記特定のイベントの方向に向けるための制御信号を発生させ、前記マイクロフォン・デバイスの各々が、前記制御信号に応答して、必要な周波数範囲のオーディオ信号の検出を考慮して前記マイクロフォンの方位を自動的に調節する、
前記方法。
A monitoring method using video and audio recognition,
Simultaneously receiving in a processing means a real-time video signal including video information acquired on a monitored area and a real-time audio signal including audio information from the monitored area;
Determining associated video recognition and audio recognition information from the received real-time video signal and real-time audio signal;
Correlating the real-time audio and video recognition information with each other to determine the likelihood of occurrence of a particular event;
Generating an alarm condition based on the occurrence of the specific event, and wherein the processing means includes co-recognition means for correlating the audio recognition information and video recognition information and detecting the occurrence of the specific event, One or more of the microphone devices to enable capture of audio recognition information in response to the joint recognition means recognizing the occurrence of the event based on the video recognition information of a potential event A control signal for directing the microphone in the direction of the specific event, each of the microphone devices responding to the control signal and taking into account the detection of an audio signal in the required frequency range Automatically adjust the orientation of
Said method.
前記ビデオ・カメラ・デバイスの各々が、前記ビデオ・カメラ・デバイスのパン、チルト、ズーム、回転、ドリー、平行移動制御パラメータの1つ以上を調節するために、前記制御信号に応答するパン/チルト・ミラー、レンズ・システム、フォーカス・モータ、パン・モータ、およびチルト・モータ・コンポーネントの1つ以上を含む、請求項に記載の方法。Each of the video camera devices is responsive to the control signal to adjust one or more of the pan, tilt, zoom, rotation, dolly, translation control parameters of the video camera device. 8. The method of claim 7 , comprising one or more of a mirror, a lens system, a focus motor, a pan motor, and a tilt motor component. 前記共同認識手段が、潜在的なイベントの前記オーディオ認識情報に基づいて前記イベントの発生を認識したことに応答して、ビデオ信号の捕捉を可能とするように前記ビデオ・カメラ・デバイスの1つ以上を前記特定のイベントの方向に向けるための制御信号を更に発生させる、請求項に記載の方法。One of the video camera devices to enable capture of a video signal in response to the joint recognition means recognizing the occurrence of the event based on the audio recognition information of a potential event. 8. The method of claim 7 , further generating a control signal to direct the above in the direction of the specific event. ビデオおよびオーディオ認識を利用した監視方法であって、
監視対象の領域上で取得されたビデオ情報を含むリアルタイム・ビデオ信号および前記監視対象の領域からのオーディオ情報を含むリアルタイム・オーディオ信号を、処理手段において同時に受信するステップと、
前記受信したリアルタイム・ビデオ信号およびリアルタイム・オーディオ信号から関連するビデオ認識およびオーディオ認識情報を求めるステップと、
前記リアルタイム・オーディオおよびビデオ認識情報を相互に相関付けて特定のイベントの発生の可能性を求めるステップと、
前記特定のイベントの発生に基づいて警報状況を発生させるステップと
を含み、前記処理手段が、前記オーディオ認識情報およびビデオ認識情報を相関付けると共に特定のイベントの発生を検出する共同認識手段を含み、当該共同認識手段が、潜在的なイベントの前記ビデオ認識情報に基づいて前記イベントの発生を認識したことに応答して、オーディオ認識情報の捕捉を可能とするように前記マイクロフォン・デバイスの1つ以上のマイクロフォンを前記特定のイベントの方向に向けるための制御信号を発生させ、
前記マイクロフォン・デバイスの各々が、前記制御信号に応答して、いずれかの所与の指向性でのオーディオ信号の受信を考慮して前記マイクロフォンの方位を自動的に調節する、前記方法。
A monitoring method using video and audio recognition,
Simultaneously receiving in a processing means a real-time video signal including video information acquired on a monitored area and a real-time audio signal including audio information from the monitored area;
Determining associated video recognition and audio recognition information from the received real-time video signal and real-time audio signal;
Correlating the real-time audio and video recognition information with each other to determine the likelihood of occurrence of a particular event;
Generating an alarm condition based on the occurrence of the specific event;
And wherein the processing means correlates the audio recognition information and video recognition information and detects the occurrence of a specific event, the joint recognition means including the video recognition information of a potential event. In response to recognizing the occurrence of the event based on, a control signal for directing one or more microphones of the microphone device in the direction of the particular event to enable capture of audio recognition information Generate
Each of the microphone device, in response to the control signal, automatically adjusts the orientation of the microphone in consideration of the reception of the audio signal at any given directivity, said method.
コンピュータに、請求項7〜10のいずれか一項に記載の方法の各ステップを実行させるためのプログラム。The program for making a computer perform each step of the method as described in any one of Claims 7-10 .
JP2009522745A 2006-08-03 2006-08-03 Video surveillance system and method combining video and audio recognition Expired - Fee Related JP5043940B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2006/030560 WO2008016360A1 (en) 2006-08-03 2006-08-03 Video surveillance system and method with combined video and audio recognition

Publications (2)

Publication Number Publication Date
JP2009545911A JP2009545911A (en) 2009-12-24
JP5043940B2 true JP5043940B2 (en) 2012-10-10

Family

ID=38997456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009522745A Expired - Fee Related JP5043940B2 (en) 2006-08-03 2006-08-03 Video surveillance system and method combining video and audio recognition

Country Status (6)

Country Link
JP (1) JP5043940B2 (en)
CN (1) CN101501564B (en)
BR (1) BRPI0621897B1 (en)
CA (1) CA2656268A1 (en)
MX (1) MX2009001254A (en)
WO (1) WO2008016360A1 (en)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2466242B (en) 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
US9286911B2 (en) 2008-12-15 2016-03-15 Audio Analytic Ltd Sound identification systems
CN102082948B (en) * 2009-11-30 2012-07-25 ***通信集团北京有限公司 System, method and equipment for acquiring video information
CN103067655A (en) * 2011-10-24 2013-04-24 鸿富锦精密工业(深圳)有限公司 System and method of controlling video camera device
CN103136899B (en) * 2013-01-23 2016-01-20 宁凯 Based on the intelligent alarm method for supervising of Kinect somatosensory device
JP5958833B2 (en) * 2013-06-24 2016-08-02 パナソニックIpマネジメント株式会社 Directional control system
CN103747217A (en) * 2014-01-26 2014-04-23 国家电网公司 Video monitoring method and device
EP2927885A1 (en) * 2014-03-31 2015-10-07 Panasonic Corporation Sound processing apparatus, sound processing system and sound processing method
US10182280B2 (en) 2014-04-23 2019-01-15 Panasonic Intellectual Property Management Co., Ltd. Sound processing apparatus, sound processing system and sound processing method
EP2938097B1 (en) * 2014-04-24 2017-12-27 Panasonic Corporation Sound processing apparatus, sound processing system and sound processing method
CN105338294A (en) * 2014-08-07 2016-02-17 富士通株式会社 Monitoring device and method
CN104269016A (en) * 2014-09-22 2015-01-07 北京奇艺世纪科技有限公司 Alarm method and device
CN104333686B (en) * 2014-11-27 2018-03-27 天地伟业技术有限公司 Intelligent monitoring camera and its control method based on face and Application on Voiceprint Recognition
US9813484B2 (en) 2014-12-31 2017-11-07 Motorola Solutions, Inc. Method and apparatus analysis of event-related media
US20160241818A1 (en) * 2015-02-18 2016-08-18 Honeywell International Inc. Automatic alerts for video surveillance systems
JP6682222B2 (en) 2015-09-24 2020-04-15 キヤノン株式会社 Detecting device, control method thereof, and computer program
US9598076B1 (en) * 2015-10-22 2017-03-21 Ford Global Technologies, Llc Detection of lane-splitting motorcycles
CN105491336B (en) * 2015-12-08 2018-07-06 成都芯软科技发展有限公司 A kind of low power image identification module
CN106028217B (en) * 2016-06-20 2020-01-21 咻羞科技(深圳)有限公司 Intelligent equipment interaction system and method based on audio recognition technology
CN106023515A (en) * 2016-07-06 2016-10-12 中警科技(江苏)开发有限公司 Remote automatic alarm police kiosk
WO2018075068A1 (en) 2016-10-21 2018-04-26 Empire Technology Development Llc Selecting media from mass social monitoring devices
CN106600876A (en) * 2017-01-24 2017-04-26 璧典寒 Automatic machine room duty alarming system and alarming method
US10810854B1 (en) 2017-12-13 2020-10-20 Alarm.Com Incorporated Enhanced audiovisual analytics
CN109033997A (en) * 2018-07-02 2018-12-18 厦门快商通信息技术有限公司 A kind of lumbering event detecting method and system
EP3829161B1 (en) * 2018-07-24 2023-08-30 Sony Group Corporation Information processing device and method, and program
CN109089087B (en) * 2018-10-18 2020-09-29 广州市盛光微电子有限公司 Multi-channel audio-video linkage device
CN109543538A (en) * 2018-10-23 2019-03-29 深圳壹账通智能科技有限公司 Obtain method, apparatus, computer equipment and the storage medium of the track of alert object
TWI687753B (en) * 2018-12-06 2020-03-11 宏碁股份有限公司 Panoramic camera and panoramic photography system
CN110336976A (en) * 2019-06-13 2019-10-15 长江大学 A kind of intelligent monitoring probe and system
CN111091073A (en) * 2019-11-29 2020-05-01 清华大学 Abnormal event monitoring equipment and method combining video and audio
EP3839909A1 (en) * 2019-12-18 2021-06-23 Koninklijke Philips N.V. Detecting the presence of an object in a monitored environment
CN111460907B (en) * 2020-03-05 2023-06-20 浙江大华技术股份有限公司 Malicious behavior identification method, system and storage medium
DE102020209025A1 (en) 2020-07-20 2022-01-20 Robert Bosch Gesellschaft mit beschränkter Haftung Method for determining a conspicuous partial sequence of a surveillance image sequence
CN111818237A (en) * 2020-07-21 2020-10-23 南京智金科技创新服务中心 Video monitoring analysis system and method
CN112396801A (en) * 2020-11-16 2021-02-23 苏州思必驰信息科技有限公司 Monitoring alarm method, monitoring alarm device and storage medium
GB202019713D0 (en) * 2020-12-14 2021-01-27 Vaion Ltd Security system
CN112929372A (en) * 2021-02-06 2021-06-08 北京第七九七音响股份有限公司 Network intelligent audio terminal, monitoring method and monitoring system
CN113920660B (en) * 2021-09-30 2023-04-18 中国工商银行股份有限公司 Safety monitoring method and system suitable for safety storage equipment
GB2620594A (en) * 2022-07-12 2024-01-17 Ava Video Security Ltd Computer-implemented method, security system, video-surveillance camera, and server

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3381343B2 (en) * 1993-12-03 2003-02-24 株式会社日立製作所 Monitoring device
JPH0983856A (en) * 1995-09-07 1997-03-28 Nippon Telegr & Teleph Corp <Ntt> Intelligent camera equipment
US6175382B1 (en) * 1997-11-24 2001-01-16 Shell Oil Company Unmanned fueling facility
US6611206B2 (en) * 2001-03-15 2003-08-26 Koninklijke Philips Electronics N.V. Automatic system for monitoring independent person requiring occasional assistance
CN1186923C (en) * 2003-04-03 2005-01-26 上海交通大学 Abnormal object automatic finding and tracking video camera system
JP4175180B2 (en) * 2003-05-29 2008-11-05 松下電工株式会社 Monitoring and reporting system
CN1716329A (en) * 2004-06-29 2006-01-04 乐金电子(沈阳)有限公司 Baby monitoring system and its method using baby's crying frequency
CN200966113Y (en) * 2006-11-08 2007-10-24 天津三星电子有限公司 A monitor with the audio locking functions

Also Published As

Publication number Publication date
MX2009001254A (en) 2009-02-11
CN101501564A (en) 2009-08-05
BRPI0621897A2 (en) 2011-03-29
WO2008016360A1 (en) 2008-02-07
JP2009545911A (en) 2009-12-24
CN101501564B (en) 2012-02-08
CA2656268A1 (en) 2008-02-07
BRPI0621897B1 (en) 2018-03-20

Similar Documents

Publication Publication Date Title
JP5043940B2 (en) Video surveillance system and method combining video and audio recognition
US20080309761A1 (en) Video surveillance system and method with combined video and audio recognition
JP4861723B2 (en) Monitoring system
JP4912184B2 (en) Video surveillance system and video surveillance method
WO2016150045A1 (en) Housebreaking alarm method and device
JP6758918B2 (en) Image output device, image output method and program
KR101899436B1 (en) Safety Sensor Based on Scream Detection
JP4622301B2 (en) Surveillance system and surveillance camera
KR102132086B1 (en) Unmanned shop control device and method thereof
KR101384781B1 (en) Apparatus and method for detecting unusual sound
JP5636205B2 (en) Image recording control apparatus and monitoring system
JP2006331388A (en) Crime prevention system
KR101772391B1 (en) Exetended Monitoring Device Using Voice Recognition Module Installed in Multi Spot
JP4175180B2 (en) Monitoring and reporting system
KR102034176B1 (en) Emergency Situation Perception Method by Voice Recognition, and Managing Server Used Therein
US20220189267A1 (en) Security system
TW202044207A (en) Help-seeking detection warning system and operation method thereof
KR100368448B1 (en) A Multipurpose Alarm System
KR100902275B1 (en) Cctv system for intelligent security and method thereof
JP4940205B2 (en) Monitoring system
KR102319687B1 (en) Surveillance system adopting wireless acoustic sensors
KR20020066920A (en) Voice guard system
WO2023002563A1 (en) Monitoring device, monitoring system, monitoring method, and non-transitory computer-readable medium having program stored therein
Kotus et al. Multimodal surveillance based personal protection system
KR102511093B1 (en) Smart city elevator crime prevention system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100921

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101213

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20101213

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20101213

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20101215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110905

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111125

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120106

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120628

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120628

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20120628

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120712

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150720

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees