JP2006285878A - Video analyzing device and video analyzing program - Google Patents

Video analyzing device and video analyzing program Download PDF

Info

Publication number
JP2006285878A
JP2006285878A JP2005108094A JP2005108094A JP2006285878A JP 2006285878 A JP2006285878 A JP 2006285878A JP 2005108094 A JP2005108094 A JP 2005108094A JP 2005108094 A JP2005108094 A JP 2005108094A JP 2006285878 A JP2006285878 A JP 2006285878A
Authority
JP
Japan
Prior art keywords
silhouette
area
video
tracking
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005108094A
Other languages
Japanese (ja)
Other versions
JP4644022B2 (en
Inventor
Toshihiko Misu
俊彦 三須
Masaki Takahashi
正樹 高橋
Makoto Tadenuma
眞 蓼沼
Hideki Sumiyoshi
英樹 住吉
Masaki Sano
雅規 佐野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2005108094A priority Critical patent/JP4644022B2/en
Publication of JP2006285878A publication Critical patent/JP2006285878A/en
Application granted granted Critical
Publication of JP4644022B2 publication Critical patent/JP4644022B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a video analyzing device and a video analyzing program for analyzing a video, and detecting an event in the video, especially, an event(specific play or the like) in a sport video. <P>SOLUTION: A video analyzing device 1 for analyzing an inputted video, is provided with a silhouette video generation means 2 for generating a silhouette video, a figure tracing means 3 for tracing a figure region, a color identifying means 4 for outputting a color classification number, a feature vector extracting means 5 for calculating feature vectors, an event detection means 6 for detecting the event and a post filter means 7 for specifying the event. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、映像の解析に係り、特に、スポーツ映像を対象にして、当該スポーツ映像内に含まれている人物の座標、移動速度、色等を評価して、スポーツ映像におけるシーンを解析する映像解析装置および映像解析プログラムに関する。   The present invention relates to video analysis, and in particular, for a sports video, a video for analyzing a scene in a sports video by evaluating the coordinates, moving speed, color, etc. of a person included in the sports video. The present invention relates to an analysis apparatus and a video analysis program.

従来の映像解析装置(画像解析システム)としては、入力された映像内における物体領域を追跡して、当該物体領域の座標を出力するものが開示されている(例えば、特許文献1〜3)。   As a conventional video analysis apparatus (image analysis system), an apparatus that tracks an object area in an input video and outputs coordinates of the object area is disclosed (for example, Patent Documents 1 to 3).

特許文献1に開示されている「運動物体計測装置および球技分析システムおよびデータサービスシステム」は、サッカー等の球技を対象として、複数組のTVカメラを利用して撮影した映像により、横方向や奥行き方向のみではなく、高さ方向を含めた3次元で、ボール位置を計測する手法である。   The “moving object measuring device, ball game analysis system, and data service system” disclosed in Patent Document 1 is directed to a ball game such as soccer, and uses a plurality of TV cameras to capture a horizontal direction and a depth. This is a technique for measuring the ball position in three dimensions including not only the direction but also the height direction.

特許文献2に開示されている「画像解析システム、画像解析方法および画像解析プログラム記録媒体」は、入力された映像を解析して、複数の物体の分離・合体を想定した追跡手法である。
特許文献3に開示されている「画像特徴抽出装置、画像特徴照合装置および画像検索装置」は、入力された映像を構成する画像から得られた様々な特徴量をファジィルールによって、演算することで、所望の画像を当該映像から検索する手法である。
特開2001−273500号公報 特開2002−63577号公報 特開平5−6437号公報
The “image analysis system, image analysis method, and image analysis program recording medium” disclosed in Patent Document 2 is a tracking method that analyzes an input video and assumes separation / merging of a plurality of objects.
The “image feature extraction device, image feature matching device, and image search device” disclosed in Patent Document 3 calculates various feature amounts obtained from images constituting an input video according to fuzzy rules. In this method, a desired image is searched from the video.
JP 2001-273500 A JP 2002-63577 A JP-A-5-6437

しかしながら、従来の映像解析装置(画像解析システム)では、映像を構成する画像から物体追跡を行って、この追跡した物体の座標を出力するか、または、映像を構成する画像から直接得られる特徴量(色など)によって、当該画像を分類するものが主流を占めており、画像からの物体追跡の結果と、画像から得られる特徴量を複合的に解析することにより、映像におけるイベント(出来事)、特に、スポーツ映像におけるイベント(特定のプレイ等)を検出することが可能なものが存在していないかった。   However, in a conventional video analysis device (image analysis system), an object is tracked from an image constituting a video and the coordinates of the tracked object are output, or a feature amount obtained directly from an image constituting the video Those that classify the image by (color etc.) dominate, and by analyzing the result of object tracking from the image and the feature amount obtained from the image in combination, the event (event) in the video, In particular, there is no thing that can detect an event (specific play or the like) in a sports video.

そこで、本発明では、映像を解析して、当該映像におけるイベント(出来事)、特に、スポーツ映像におけるイベント(特定のプレイ等)を検出することができる映像解析装置および映像解析プログラムを提供することを目的とする。   Therefore, the present invention provides a video analysis apparatus and a video analysis program that can analyze a video and detect an event (event) in the video, in particular, an event (specific play, etc.) in a sports video. Objective.

前記課題を解決するため、請求項1に記載の映像解析装置は、入力された映像を解析する映像解析装置であって、シルエット映像生成手段と、領域追跡手段と、色識別手段と、特徴ベクトル計算手段と、イベント検出手段と、ポストフィルタ手段と、を備える構成とした。   In order to solve the above problem, the video analysis device according to claim 1 is a video analysis device for analyzing an input video, wherein a silhouette video generation unit, a region tracking unit, a color identification unit, a feature vector, A calculation means, an event detection means, and a post filter means are provided.

かかる構成によれば、映像解析装置は、シルエット映像生成手段によって、入力された映像からシルエット映像を生成する。シルエット映像とは、背景色の情報に基づいて、人物等の被写体のシルエットを抽出した映像であり、例えば、背景差分法を用いて生成する。なお、ここでいうシルエットとは、背景色と設定した色と異なった色の、任意の面積を有している領域を指し、人物、物体、風景等を指している。続いて、映像解析装置は、領域追跡手段によって、シルエット映像生成手段で生成されたシルエット映像を構成するシルエット画像に含まれるシルエットを追跡領域とし、シルエット画像間の差に基づいて追跡し、当該追跡領域を識別するための識別番号と対応付けて、当該追跡領域の推定座標および推定速度と、当該追跡領域の面積とを出力する。   According to this configuration, the video analysis apparatus generates a silhouette video from the input video by the silhouette video generation unit. A silhouette video is a video in which a silhouette of a subject such as a person is extracted based on background color information, and is generated using, for example, a background subtraction method. Note that the silhouette here refers to a region having an arbitrary area of a color different from the set color and a person, an object, a landscape, and the like. Subsequently, the video analysis device uses the area tracking unit to set the silhouette included in the silhouette image included in the silhouette video generated by the silhouette video generation unit as a tracking area, and tracks the silhouette based on the difference between the silhouette images. In association with the identification number for identifying the region, the estimated coordinates and estimated speed of the tracking region and the area of the tracking region are output.

そして、映像解析装置は、色識別手段によって、推定座標と、シルエット映像と、映像とに基づき、追跡領域の色を識別して、識別した結果に基づいて、当該色を分類するために予め設定した色分類番号と識別番号とを出力し、特徴ベクトル計算手段によって、識別番号と対応付けられた、推定座標および推定速度と、追跡領域の面積と、色分類番号との少なくとも一つに基づき、特徴ベクトルに含める特徴量を計算する。   Then, the video analysis device identifies the color of the tracking region based on the estimated coordinates, the silhouette video, and the video by the color identification unit, and sets in advance to classify the color based on the identified result Output the color classification number and the identification number, and based on at least one of the estimated coordinates and the estimated speed, the area of the tracking region, and the color classification number associated with the identification number by the feature vector calculation means, The feature amount included in the feature vector is calculated.

それから、映像解析装置は、イベント検出手段によって、特徴ベクトル計算手段で計算された特徴ベクトルに含まれる特徴量が、予め設定した条件を満たした場合を、映像に含まれる各シーンで発生した出来事を示すイベントとして検出し、検出した結果を示すフラグ信号を出力し、ポストフィルタ手段によって、イベント検出手段で出力されたフラグ信号に、時間方向のフィルタ処理と、フラグ信号間の論理演算との少なくとも一方の処理を行って、イベントを特定するイベント出力信号を出力する。   Then, the video analysis device detects an event that has occurred in each scene included in the video when the feature amount included in the feature vector calculated by the feature vector calculation unit satisfies a preset condition by the event detection unit. A flag signal indicating the detected result is output, and the post-filter means outputs at least one of a time-direction filtering process and a logical operation between the flag signals to the flag signal output from the event detection means. To output an event output signal that identifies the event.

なお、予め設定した条件とは、例えば、特徴量ごとの閾値を予め設定しておき、特徴量のいずれかが閾値を越えた場合や、複数の特徴量の組み合わせにおいて、それぞれの特徴量が閾値を越えた場合を指すものである。また、時間方向のフィルタ処理とは、時間方向において、起こりうるイベントを予測することで、フラグ信号を絞り込んでいく処理を指し、フラグ信号間の論理演算とは、フラグ信号同士で、論理演算を行うことで、同一時刻に起こり得ないイベントを除去していく処理を指している。   The preset condition is, for example, that a threshold value for each feature value is set in advance, and when any of the feature values exceeds the threshold value, or in a combination of a plurality of feature values, each feature value is a threshold value. It means the case where it exceeds. The filtering process in the time direction refers to a process of narrowing down flag signals by predicting possible events in the time direction, and the logical operation between flag signals is the logical operation between flag signals. This is a process for removing events that cannot occur at the same time.

請求項2に記載の映像解析装置は、請求項1に記載の映像解析装置において、前記領域追跡手段が、ラベリング手段と、面積判定手段と、逆投影変換手段と、検出追跡手段と、予測推定手段と、遅延手段と、を備える構成とした。   The video analysis apparatus according to claim 2 is the video analysis apparatus according to claim 1, wherein the area tracking unit includes a labeling unit, an area determination unit, a back projection conversion unit, a detection tracking unit, and a prediction estimation unit. Means and a delay means.

かかる構成によれば、映像解析装置は、ラベリング手段によって、シルエット画像に含まれるそれぞれのシルエットを単連結領域とし、この単連結領域に対してラベル番号を付加し、当該ラベル番号を付加した単連結領域の形状に関する領域情報を生成する。なお、単連結領域とは、ある領域がその内部を通る曲線によって、2点を繋ぐことができる場合を連結領域とすると、この連結領域上での任意の単一閉曲線の内部が常に当該連結領域の内部である場合を指すものである。また、領域情報は、少なくとも単連結領域の形状を推定することが可能な座標や長さ(座標間距離)を含むものである。   According to such a configuration, the video analysis apparatus uses the labeling unit to set each silhouette included in the silhouette image as a single connection region, and adds a label number to the single connection region, and the single connection includes the label number. Region information relating to the shape of the region is generated. A single connected region is a connected region where a certain region can connect two points by a curve passing through the inside of the region, and the interior of any single closed curve on the connected region is always the connected region. Indicates the case of being inside. The area information includes at least coordinates and lengths (distance between coordinates) that can estimate the shape of the single connected area.

続いて、映像解析装置は、面積判定手段によって、領域情報に基づいて、各単連結領域の面積を求め、求めた面積が一定範囲内にある単連結領域について、ラベル番号および単連結領域の面積を出力する。そして、映像解析装置は、逆投影変換手段によって、ラベリング手段で生成された領域情報と映像を撮影したカメラの投影中心に基づいて、3次元空間(実際の空間)における各単連結領域の存在場所を示す実座標を、ラベル番号と共に出力する。そして、映像解析装置は、検出追跡手段によって、追跡領域の座標および速度の予測された予測座標および予測速度が予め設定された所定単位時間遅延されて出力された、遅延予測座標および遅延予測速度と、ラベル番号と、面積判定手段から出力された単連結領域の面積と、実座標とに基づいて、ラベル番号に対応させた識別番号と、実座標と遅延予測座標とを対応させた観測座標とを出力すると共に、面積判定手段から出力された単連結領域の面積を追跡領域の面積として出力する。   Subsequently, the video analysis device obtains the area of each single connected region based on the region information by the area determination unit, and for the single connected region where the obtained area is within a certain range, the label number and the area of the single connected region Is output. Then, the video analysis apparatus uses the back projection conversion unit to determine the location of each single connected region in the three-dimensional space (actual space) based on the region information generated by the labeling unit and the projection center of the camera that captured the video. The real coordinates indicating are output together with the label number. Then, the video analysis apparatus outputs the delayed predicted coordinates and the delayed predicted speed, which are output after the predicted predicted coordinates and predicted speed of the tracking region coordinates and speed are delayed by a predetermined unit time set in advance by the detection tracking unit. , Based on the label number, the area of the single connected region output from the area determination means, and the real coordinates, the identification number corresponding to the label number, and the observation coordinates corresponding to the real coordinates and the delayed predicted coordinates Is output, and the area of the single connected region output from the area determining means is output as the area of the tracking region.

そして、映像解析装置は、予測推定手段によって、検出追跡手段で出力された観測座標を、時間方向に濾波予測し、推定座標および推定速度と、予測座標および予測速度とを、識別信号と共にそれぞれ出力し、遅延手段によって、予測推定手段から出力された予測座標および予測速度を所定単位時間遅延して、識別番号と共に検出追跡手段に出力する。   Then, the video analysis apparatus predicts the observation coordinates output by the detection and tracking means by the prediction estimation means in the time direction, and outputs the estimated coordinates and estimated speed, and the predicted coordinates and predicted speed together with the identification signal. Then, the delay means delays the prediction coordinates and the prediction speed output from the prediction estimation means by a predetermined unit time, and outputs them together with the identification number to the detection tracking means.

請求項3に記載の映像解析装置は、請求項1または請求項2に記載の映像解析装置において、前記特徴ベクトルが、シルエット数推定値、シルエット群分布定量化値、シルエット間距離定量化値、シルエット群重心定量化値、シルエット速さ定量化値、シルエット速度定量化値および判定値の少なくとも一つ以上の特徴量によって構成されることを特徴とする。   The video analysis apparatus according to claim 3 is the video analysis apparatus according to claim 1 or 2, wherein the feature vector includes an estimated number of silhouettes, a silhouette group distribution quantification value, a silhouette distance quantification value, It is characterized by comprising at least one feature quantity of a silhouette group centroid quantification value, a silhouette speed quantification value, a silhouette speed quantification value, and a judgment value.

かかる構成によれば、特徴ベクトル計算手段により計算した特徴ベクトルを構成する特徴量(値)の一つとなるシルエット数推定値は、シルエットの数を推定したものであり、シルエット群分布定量化値は、複数のシルエットからなるシルエット群の分布の散らばり度合いを定量化したものであり、シルエット間距離定量化値は、シルエット間の距離を定量化したものである。また、シルエット群重心定量化値は、シルエット群の分布を代表する座標を定量化したものであり、シルエット速さ定量化値は、シルエットの速さを定量化したものである。また、特徴ベクトルを構成する値の一つとなるシルエット速度定量化値は、シルエットの速度を定量化したものであり、判定値は、予め特定したシルエットである特定シルエットが特定の場所に存在するか否かを判定したものである。   According to this configuration, the estimated number of silhouettes, which is one of the feature quantities (values) constituting the feature vector calculated by the feature vector calculation means, is an estimate of the number of silhouettes, and the silhouette group distribution quantification value is The degree of dispersion of the distribution of silhouette groups composed of a plurality of silhouettes is quantified, and the distance quantification value between silhouettes is a quantification of the distance between silhouettes. The silhouette group centroid quantification value is a quantification of coordinates representative of the distribution of silhouette groups, and the silhouette speed quantification value is a quantification of silhouette speed. The silhouette speed quantification value, which is one of the values constituting the feature vector, is a quantification of the silhouette speed, and the judgment value is whether a specific silhouette, which is a previously specified silhouette, exists in a specific place. It is determined whether or not.

請求項4に記載の映像解析装置は、入力されたスポーツ映像を解析する映像解析装置であって、シルエット映像生成手段と、領域追跡手段と、色識別手段と、特徴ベクトル計算手段と、イベント検出手段と、ポストフィルタ手段と、を備える構成とした。   The video analysis device according to claim 4 is a video analysis device for analyzing an input sports video, wherein a silhouette video generation unit, a region tracking unit, a color identification unit, a feature vector calculation unit, an event detection And a post filter means.

かかる構成によれば、映像解析装置は、シルエット映像生成手段によって、スポーツ映像からシルエット映像を生成し、領域追跡手段によって、シルエット映像生成手段で生成されたシルエット映像を構成するシルエット画像に含まれる所定面積範囲の領域である人物のシルエットを追跡領域とし、シルエット画像間の差に基づいて当該追跡領域を追跡し、当該追跡領域を識別するための識別番号と対応付けて、当該追跡領域の推定座標および推定速度と、当該追跡領域の面積とを出力する。   According to such a configuration, the video analysis device generates a silhouette video from the sports video by the silhouette video generation unit, and the predetermined image included in the silhouette image constituting the silhouette video generated by the silhouette video generation unit by the region tracking unit. Estimated coordinates of the tracking area in which the silhouette of a person who is an area range area is set as a tracking area, the tracking area is tracked based on a difference between silhouette images, and is associated with an identification number for identifying the tracking area. And the estimated speed and the area of the tracking area are output.

続いて、映像解析装置は、色識別手段によって、推定座標と、シルエット映像と、スポーツ映像とに基づき、追跡領域の色を識別して、識別した結果に基づいて、当該色を分類するために予め設定した色分類番号と識別番号とを対応付けて出力し、特徴ベクトル計算手段によって、識別番号と対応付けられた、推定座標および推定速度と、追跡領域の面積と、色分類番号との少なくとも一つに基づき、特徴ベクトルに含める特徴量を計算する。   Subsequently, the video analyzing apparatus identifies the color of the tracking area based on the estimated coordinates, the silhouette video, and the sports video by the color identification unit, and classifies the color based on the identified result. A color classification number set in advance and an identification number are output in association with each other, and at least of the estimated coordinates and the estimated speed, the area of the tracking region, and the color classification number associated with the identification number by the feature vector calculation means Based on one, the feature amount included in the feature vector is calculated.

そして、映像解析装置は、イベント検出手段によって、特徴ベクトル計算手段で計算された特徴ベクトルに含まれる特徴量が、予め設定した条件を満たした場合を、スポーツ映像に含まれる各シーンで発生した特定のプレイを示すイベントとして検出し、検出した結果を示すフラグ信号を出力し、ポストフィルタ手段によって、イベント検出手段で出力されたフラグ信号に、時間方向のフィルタ処理と、フラグ信号間の論理演算との少なくとも一方の処理を行って、イベントを特定するイベント出力信号を出力する。   Then, the video analysis device uses the event detection unit to specify the occurrence that occurred in each scene included in the sports video when the feature amount included in the feature vector calculated by the feature vector calculation unit satisfies a preset condition. Is detected as an event indicating a play, and a flag signal indicating the detected result is output, and the post-filter means outputs a flag signal output from the event detection means to a time direction filtering process and a logical operation between the flag signals. At least one of the processes is performed to output an event output signal that identifies the event.

請求項5に記載の映像解析装置は、請求項4に記載の映像解析装置において、前記領域追跡手段が、ラベリング手段と、面積判定手段と、逆投影変換手段と、検出追跡手段と、予測推定手段と、遅延手段と、を備える構成とした。   The video analysis apparatus according to claim 5 is the video analysis apparatus according to claim 4, wherein the area tracking unit includes a labeling unit, an area determination unit, a back projection conversion unit, a detection tracking unit, and a prediction estimation unit. Means and a delay means.

かかる構成によれば、映像解析装置は、ラベリング手段によって、シルエット画像に含まれるそれぞれの所定面積範囲の領域である人物のシルエットを単連結領域とし、この単連結領域に対してラベル番号を付加し、当該ラベル番号を付加した単連結領域に関する領域情報を生成し、面積判定手段によって、領域情報に基づいて、各単連結領域の面積を求め、求めた面積が一定範囲内にある単連結領域について、ラベル番号および面積を出力する。そして、映像解析装置は、逆投影変換手段によって、ラベリング手段で生成された領域情報とスポーツ映像を撮影したカメラの投影中心とに基づいて、3次元空間における各単連結領域の存在場所を示す実座標を、ラベル番号と共に出力する。   According to such a configuration, the video analysis apparatus uses the labeling unit to make the silhouette of a person, which is an area of each predetermined area included in the silhouette image, a single connected area, and adds a label number to the single connected area. The area information relating to the single connected region to which the label number is added is generated, and the area determination unit obtains the area of each single connected region based on the region information, and the obtained area is within a certain range. , Output the label number and area. Then, the video analysis device uses the back projection conversion unit to indicate the location of each single connected region in the three-dimensional space based on the region information generated by the labeling unit and the projection center of the camera that captured the sports video. Coordinates are output along with the label number.

そして、映像解析装置は、検出追跡手段によって、追跡領域の座標および速度の予測された予測座標および予測速度が予め設定された所定単位時間遅延されて出力された、遅延予測座標および遅延予測速度と、ラベル番号と、面積判定手段から出力された単連結領域の面積と、実座標とに基づいて、ラベル番号に対応させた識別番号と、実座標と遅延予測座標とを対応させた観測座標とを出力すると共に、面積判定手段から出力された単連結領域の面積を追跡領域の面積として出力する。そして、映像解析装置は、予測推定手段によって、検出追跡手段で出力された観測座標を、時間方向に濾波予測し、推定座標および推定速度と、予測座標および予測速度とを、識別信号と共にそれぞれ出力し、遅延手段によって、予測推定手段から出力された予測座標および予測速度を所定単位時間遅延して、識別番号と共に検出追跡手段に出力する。   Then, the video analysis apparatus outputs the delayed predicted coordinates and the delayed predicted speed, which are output after the predicted predicted coordinates and predicted speed of the tracking region coordinates and speed are delayed by a predetermined unit time set in advance by the detection tracking unit. , Based on the label number, the area of the single connected region output from the area determination means, and the real coordinates, the identification number corresponding to the label number, and the observation coordinates corresponding to the real coordinates and the delayed predicted coordinates Is output, and the area of the single connected region output from the area determining means is output as the area of the tracking region. Then, the video analysis apparatus predicts the observation coordinates output by the detection and tracking means by the prediction estimation means in the time direction, and outputs the estimated coordinates and estimated speed, and the predicted coordinates and predicted speed together with the identification signal. Then, the delay means delays the prediction coordinates and the prediction speed output from the prediction estimation means by a predetermined unit time, and outputs them together with the identification number to the detection tracking means.

請求項6に記載の映像解析装置は、請求項4または請求項5に記載の映像解析装置において、前記特徴ベクトルが、人物領域数推定値、人物領域群分布定量化値、人物領域間距離定量化値、人物群重心定量化値、人物領域速さ定量化値、人物領域速度定量化値および判定値の少なくとも一つ以上の特徴量によって構成されることを特徴とする。   The video analysis apparatus according to claim 6 is the video analysis apparatus according to claim 4 or 5, wherein the feature vector includes an estimated number of person areas, a person area group distribution quantification value, and a distance between person areas. It is characterized by comprising at least one feature quantity of a quantified value, a person group centroid quantified value, a person area speed quantified value, a person area speed quantified value, and a judgment value.

かかる構成によれば、特徴ベクトル計算手段により計算された特徴ベクトルを構成する特徴量(値)の一つとなる人物領域数推定値は、人物のシルエットの数を推定したものであり、人物領域群分布定量化値は、複数の人物のシルエットからなる人物シルエット群の分布の散らばり度合いを定量化したものであり、人物間距離定量化値は、人物のシルエット間の距離を定量化したものである。また、人物群重心定量化値は、人物シルエット群の分布を代表する座標を定量化したものであり、人物領域速さ定量化値は、人物のシルエットの速さを定量化したものである。また、特徴ベクトルを構成する値の一つとなる人物領域速度定量化値は、人物のシルエットの速度を定量化したものであり、判定値は、予め特定した人物のシルエットである特定人物シルエットが特定の場所に存在するか否かを判定したものである。   According to such a configuration, the estimated number of person regions that is one of the feature amounts (values) constituting the feature vector calculated by the feature vector calculating means is an estimate of the number of person silhouettes. The distribution quantification value is a quantification of the degree of dispersion of the distribution of a group of person silhouettes consisting of a plurality of person silhouettes, and the interpersonal distance quantification value is a quantification of the distance between silhouettes of people. . The person group center-of-gravity quantification value is obtained by quantifying the coordinates representing the distribution of the person silhouette group, and the person region speed quantification value is obtained by quantifying the speed of the silhouette of the person. The person region speed quantification value, which is one of the values constituting the feature vector, is a quantification of the silhouette of a person's silhouette, and the judgment value is specified by a specific person silhouette that is a silhouette of a person specified in advance. It is determined whether or not it exists in the place.

請求項7に記載の映像解析プログラムは、入力された映像を解析するために、コンピュータを、シルエット映像生成手段、領域追跡手段、色識別手段、特徴ベクトル計算手段、イベント検出手段、ポストフィルタ手段、として機能させる構成とした。   The video analysis program according to claim 7, in order to analyze the input video, the computer includes a silhouette video generation unit, a region tracking unit, a color identification unit, a feature vector calculation unit, an event detection unit, a post filter unit, It was set as the structure made to function as.

かかる構成によれば、映像解析プログラムは、シルエット映像生成手段によって、映像からシルエット映像を生成し、領域追跡手段によって、シルエット映像生成手段で生成されたシルエット映像を構成するシルエット画像に含まれるシルエットを追跡領域とし、シルエット画像間の差に基づいて当該追跡領域を追跡し、当該追跡領域を識別するための識別番号と対応付けて、当該追跡領域の推定座標および推定速度と、当該追跡領域の面積とを出力する。続いて、映像解析プログラムは、色識別手段によって、推定座標と、シルエット映像と、映像とに基づき、追跡領域の色を識別して、識別した結果に基づいて、当該色を分類するために予め設定した色分類番号と識別番号とを対応付けて出力し、特徴ベクトル計算手段によって、識別番号と対応付けられた、推定座標および推定速度と、追跡領域の面積と、色分類番号との少なくとも一つに基づき、特徴ベクトルに含める特徴量を計算する。   According to such a configuration, the video analysis program generates a silhouette video from the video by the silhouette video generation unit, and the silhouette included in the silhouette image constituting the silhouette video generated by the silhouette video generation unit by the region tracking unit. The tracking area is tracked based on the difference between the silhouette images, and the tracking area is estimated in coordinates and speed, and the tracking area is associated with an identification number for identifying the tracking area. Is output. Subsequently, the video analysis program identifies the color of the tracking area based on the estimated coordinates, the silhouette video, and the video by the color identification unit, and classifies the color based on the identified result in advance. The set color classification number and the identification number are output in association with each other, and at least one of the estimated coordinates and the estimated speed, the tracking area area, and the color classification number associated with the identification number by the feature vector calculation means. Based on the above, the feature amount to be included in the feature vector is calculated.

そして、映像解析プログラムは、イベント検出手段によって、特徴ベクトル計算手段で計算された特徴ベクトルに含まれる特徴量が、予め設定した条件を満たした場合を、映像に含まれる各シーンで発生した出来事を示すイベントとして検出し、検出した結果を示すフラグ信号を出力し、ポストフィルタ手段によって、イベント検出手段で出力されたフラグ信号に、時間方向のフィルタ処理と、フラグ信号間の論理演算との少なくとも一方の処理を行って、イベントを特定するイベント出力信号を出力する。   Then, the video analysis program detects an event that occurred in each scene included in the video when the feature amount included in the feature vector calculated by the feature vector calculation unit satisfies a preset condition by the event detection unit. A flag signal indicating the detected result is output, and the post-filter means outputs at least one of a time-direction filtering process and a logical operation between the flag signals to the flag signal output from the event detection means. To output an event output signal that identifies the event.

請求項8に記載の映像解析プログラムは、入力されたスポーツ映像を解析するために、コンピュータを、シルエット映像生成手段、領域追跡手段、色識別手段、特徴ベクトル計算手段、イベント検出手段、ポストフィルタ手段、として機能させる構成とした。   9. The video analysis program according to claim 8, wherein the computer analyzes a silhouette video generation means, a region tracking means, a color identification means, a feature vector calculation means, an event detection means, and a post filter means in order to analyze the input sports video. It was set as the structure made to function as.

かかる構成によれば、映像解析プログラムは、シルエット映像生成手段によって、スポーツ映像からシルエット映像を生成し、領域追跡手段によって、シルエット映像生成手段で生成されたシルエット映像を構成するシルエット画像に含まれる所定面積範囲の領域である人物のシルエットを追跡領域とし、シルエット画像間の差に基づいて当該追跡領域を追跡し、当該追跡領域を識別するための識別番号と対応付けて、当該追跡領域の推定座標および推定速度と、当該追跡領域の面積とを出力する。続いて、映像解析プログラムは、色識別手段によって、推定座標と、シルエット映像と、スポーツ映像とに基づき、追跡領域の色を識別して、識別した結果に基づいて、当該色を分類するために予め設定した色分類番号と識別番号とを対応付けて出力し、特徴ベクトル計算手段によって、識別番号と対応付けられた、推定座標および推定速度と、追跡領域の面積と、色分類番号との少なくとも一つに基づき、特徴ベクトルに含める特徴量を計算する。   According to such a configuration, the video analysis program generates a silhouette video from the sports video by the silhouette video generation unit, and the predetermined image included in the silhouette image constituting the silhouette video generated by the silhouette video generation unit by the region tracking unit. Estimated coordinates of the tracking area in which the silhouette of a person who is an area range area is set as a tracking area, the tracking area is tracked based on a difference between silhouette images, and is associated with an identification number for identifying the tracking area. And the estimated speed and the area of the tracking area are output. Subsequently, the video analysis program uses the color identification means to identify the color of the tracking area based on the estimated coordinates, the silhouette video, and the sports video, and to classify the color based on the identified result. A color classification number set in advance and an identification number are output in association with each other, and at least of the estimated coordinates and the estimated speed, the area of the tracking region, and the color classification number associated with the identification number by the feature vector calculation means Based on one, the feature amount included in the feature vector is calculated.

そして、映像解析プログラムは、イベント検出手段によって、特徴ベクトル計算手段で計算された特徴ベクトルに含まれる特徴量が、予め設定した条件を満たした場合を、スポーツ映像に含まれる各シーンで発生した特定のプレイを示すイベントとして検出し、検出した結果を示すフラグ信号を出力し、ポストフィルタ手段によって、イベント検出手段で出力されたフラグ信号に、時間方向のフィルタ処理と、前記フラグ信号間の論理演算との少なくとも一方の処理を行って、イベントを特定するイベント出力信号を出力する。   Then, the video analysis program identifies the event that has occurred in each scene included in the sports video when the feature amount included in the feature vector calculated by the feature vector calculation unit satisfies a preset condition by the event detection unit. Is detected as an event indicating the play of the player, a flag signal indicating the detected result is output, and the post-filter means outputs the flag signal output from the event detection means to the time direction filtering process and the logical operation between the flag signals And an event output signal for specifying the event is output.

請求項1、7に記載の発明によれば、映像からシルエット映像を生成し、シルエット映像に含まれるシルエットを追跡領域とし、当該追跡領域の推定座標および推定速度と、当該追跡領域の面積と、当該追跡領域の色を示す色分類番号を出力し、これらの少なくとも一つに基づき、特徴ベクトルに含める特徴量を計算する。さらに、特徴ベクトルに含まれる特徴量が、予め設定した条件を満たした場合を、映像に含まれる各シーンで発生した出来事を示すイベントとして検出し、時間方向のフィルタ処理と、フラグ信号間の論理演算との少なくとも一方の処理を行って、イベントを特定する。このため、入力された映像を解析して、当該映像に含まれている被写体(人物や物体等)の実際の空間上における座標と、速度と、色と、大きさ(面積)によって特徴付けられるイベント(出来事)を検出することができる。   According to the inventions of claims 1 and 7, a silhouette video is generated from a video, a silhouette included in the silhouette video is set as a tracking area, an estimated coordinate and an estimated speed of the tracking area, an area of the tracking area, A color classification number indicating the color of the tracking area is output, and a feature amount included in the feature vector is calculated based on at least one of them. Further, when the feature amount included in the feature vector satisfies a preset condition, it is detected as an event indicating an event that has occurred in each scene included in the video, and the temporal filtering process and the logic between the flag signals are detected. An event is specified by performing at least one of the processing with the operation. For this reason, the input video is analyzed, and is characterized by coordinates, speed, color, and size (area) of the subject (person, object, etc.) in the actual space in the actual space. An event can be detected.

請求項2に記載の発明によれば、シルエット映像に含まれるそれぞれのシルエットを単連結領域とし、ラベル番号を付加し、各単連結領域の面積が一定範囲内にある単連結領域について、遅延予測座標および遅延予測速度と、ラベル番号と、単連結領域の面積と、実座標とに基づいて、ラベル番号に対応させた識別番号と、実座標と遅延予測座標とを対応させた観測座標とを出力すると共に、面積判定手段から出力された単連結領域の面積を追跡領域の面積として出力する。そして、出力された観測座標を、時間方向に濾波予測し、推定座標および推定速度を出力する。このため、映像に含まれる被写体(人物や物体等)を、当該映像の進行時間に沿って(時間方向に)追跡して、当該被写体の座標を出力すると共に、当該被写体の速度および当該被写体の見かけの大きさを出力することができる。   According to the second aspect of the present invention, each silhouette included in the silhouette video is defined as a single connected region, a label number is added, and the single connected region in which the area of each single connected region is within a certain range is subjected to delay prediction. Based on the coordinates and delay prediction speed, the label number, the area of the single connected region, and the real coordinates, the identification number corresponding to the label number, and the observation coordinates corresponding to the real coordinates and the delay prediction coordinates In addition to outputting, the area of the single connected region output from the area determining means is output as the area of the tracking region. The output observation coordinates are predicted to be filtered in the time direction, and the estimated coordinates and the estimated speed are output. For this reason, the subject (person, object, etc.) included in the video is tracked along the time of progress of the video (in the time direction), the coordinates of the subject are output, and the speed of the subject and the subject The apparent size can be output.

請求項3に記載の発明によれば、特徴ベクトルに含まれる特徴量が、シルエット数推定値と、シルエット群分布定量化値と、シルエット速さ定量化値と、シルエット速度定量化値と、判定値との少なくとも1つを備えているので、こういった座標と、速度と、面積と、色分類といった低次の映像特徴量を、映像のイベントに関する高次の映像特徴量に変換することができる。   According to the third aspect of the present invention, the feature amount included in the feature vector is determined by determining the silhouette number estimation value, the silhouette group distribution quantification value, the silhouette speed quantification value, the silhouette speed quantification value, Because it has at least one of the values, it is possible to convert low-order video feature quantities such as coordinates, speed, area, and color classification into higher-order video feature quantities related to video events. it can.

請求項4、8に記載の発明によれば、スポーツ映像からシルエット映像を生成し、シルエット映像に含まれる人物のシルエットを追跡領域とし、当該追跡領域の推定座標および推定速度と、当該追跡領域の面積と、当該追跡領域の色を示す色分類番号を出力し、これらの少なくとも一つに基づき、特徴ベクトルに含める特徴量を計算する。さらに、特徴ベクトルに含まれる特徴量が、予め設定した条件を満たした場合を、スポーツ映像に含まれる各シーンで発生した特定のプレイを示すイベントとして検出し、時間方向のフィルタ処理と、フラグ信号間の論理演算との少なくとも一方の処理を行って、イベントを特定する。このため、スポーツ映像を解析して、当該スポーツ映像における特定のプレイ等を検出することができる。   According to the fourth and eighth aspects of the present invention, a silhouette video is generated from a sports video, the silhouette of a person included in the silhouette video is set as a tracking area, the estimated coordinates and speed of the tracking area, and the tracking area A color classification number indicating the area and the color of the tracking region is output, and a feature amount included in the feature vector is calculated based on at least one of them. Further, when the feature amount included in the feature vector satisfies a preset condition, it is detected as an event indicating a specific play occurring in each scene included in the sports video, and filtering in the time direction and flag signal are detected. An event is specified by performing at least one of the logical operations. For this reason, it is possible to analyze a sports video and detect a specific play or the like in the sports video.

請求項5に記載の発明によれば、シルエット映像に含まれるそれぞれの人物のシルエットを単連結領域とし、ラベル番号を付加し、各単連結領域の面積が一定範囲内にある単連結領域について、遅延予測座標および遅延予測速度と、ラベル番号と、単連結領域の面積と、実座標とに基づいて、ラベル番号に対応させた識別番号と、実座標と遅延予測座標とを対応させた観測座標とを出力すると共に、面積判定手段から出力された単連結領域の面積を追跡領域の面積として出力する。そして、出力された観測座標を、時間方向に濾波予測し、推定座標および推定速度を出力する。このため、スポーツ映像に含まれる被写体(選手等)を、当該スポーツ映像の進行時間に沿って(時間方向に)追跡して、当該被写体の座標を出力すると共に、当該被写体の速度および当該被写体の見かけの大きさを出力することができる。   According to the invention of claim 5, the silhouette of each person included in the silhouette video is a single connected region, a label number is added, and the single connected region where the area of each single connected region is within a certain range, Based on the delay prediction coordinates and delay prediction speed, the label number, the area of the single connected region, and the real coordinates, the identification number corresponding to the label number, and the observation coordinates corresponding to the real coordinates and the delay prediction coordinates Are output, and the area of the single connected region output from the area determining means is output as the area of the tracking region. The output observation coordinates are predicted to be filtered in the time direction, and the estimated coordinates and the estimated speed are output. Therefore, a subject (player, etc.) included in the sports video is tracked along the time of progress of the sports video (in the time direction), the coordinates of the subject are output, and the speed of the subject and the subject The apparent size can be output.

請求項6に記載の発明によれば、特徴ベクトルに含まれる特徴量が、人物数推定値と、人物群分布定量化値と、人物速さ定量化値と、人物速度定量化値と、判定値との少なくとも1つを備えているので、こういった座標と、速度と、面積と、色分類といった低次の映像特徴量を、スポーツ映像のイベント(特定のプレイ等)に関する高次の映像特徴量に変換することができる。   According to the sixth aspect of the present invention, the feature amount included in the feature vector is determined based on the estimated number of persons, the person group distribution quantified value, the person speed quantified value, the person speed quantified value, Because it has at least one of the values, these higher-order videos related to sports video events (specific play, etc.), such as coordinates, speed, area and color classification It can be converted into a feature value.

次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
(映像解析装置の構成)
図1は映像解析装置のブロック図である。図1に示すように、映像解析装置1は、入力された映像(入力映像)を解析して、当該入力映像によって表現されているイベント(出来事)を出力するもので、シルエット映像生成手段2と、人物追跡手段(領域追跡手段)3と、色識別手段4と、特徴ベクトル抽出手段(特徴ベクトル計算手段)5と、イベント検出手段6と、ポストフィルタ手段7とを備えている。特に、この映像解析装置1は、スポーツ映像を解析して、当該スポーツ映像のイベント(特定のプレイ等)を出力するものである。
Next, embodiments of the present invention will be described in detail with reference to the drawings as appropriate.
(Configuration of video analysis device)
FIG. 1 is a block diagram of a video analysis apparatus. As shown in FIG. 1, the video analysis device 1 analyzes an input video (input video) and outputs an event (event) expressed by the input video. A person tracking means (area tracking means) 3, a color identification means 4, a feature vector extraction means (feature vector calculation means) 5, an event detection means 6, and a post filter means 7. In particular, the video analysis device 1 analyzes a sports video and outputs an event (specific play or the like) of the sports video.

この映像解析装置1では、入力映像を構成する1枚1枚の画像を入力画像I(x,y)とし、この入力画像I(x,y)の画像座標(x,y)に含まれている画素値をi(x,y)とする。なお、画素値i(x,y)は、輝度値のみで表される場合もあれば、色(色彩)を表現する2次元以上のベクトルで表される場合もある。この映像解析装置1では、例えば、画素値i(x,y)として、色彩を表現する赤成分、緑成分および青成分からなる3次元の色ベクトルを用いることができる。また、この映像解析装置1では、画素値i(x,y)として、輝度値および2種類の色差値からなる3次元の色ベクトルを用いることができる。なお、この実施形態では、画素値i(x,y)として、輝度値および2種類の色差値からなる3次元の色ベクトルを用いている。   In this video analysis apparatus 1, each image constituting the input video is set as an input image I (x, y), and is included in the image coordinates (x, y) of the input image I (x, y). Let i (x, y) be the pixel value. Note that the pixel value i (x, y) may be represented by only a luminance value, or may be represented by a two-dimensional or higher vector representing a color (color). In the video analysis apparatus 1, for example, a three-dimensional color vector composed of a red component, a green component, and a blue component expressing colors can be used as the pixel value i (x, y). In the video analysis apparatus 1, a three-dimensional color vector composed of a luminance value and two kinds of color difference values can be used as the pixel value i (x, y). In this embodiment, a three-dimensional color vector including a luminance value and two types of color difference values is used as the pixel value i (x, y).

シルエット映像生成手段2は、入力画像I(x,y)から人物領域(追跡領域)と、非人物領域とを分割した2値(0または1)のシルエット画像S(x,y)を生成するものである。なお、シルエット映像は、複数のシルエット画像S(x,y)によって構成される。ここでは、例えば、所定面積範囲の領域である人物領域(人物のシルエット)にはS(x,y)=1の値を、非人物領域にはS(x,y)=0の値をそれぞれ割り当てるものとする。なお、ここでいうシルエットとは、背景色と設定した色と異なった色の、任意の面積を有している領域を指し、人物、物体、風景等を指している。   The silhouette video generation means 2 generates a binary (0 or 1) silhouette image S (x, y) obtained by dividing a person area (tracking area) and a non-person area from an input image I (x, y). Is. The silhouette video is composed of a plurality of silhouette images S (x, y). Here, for example, a value of S (x, y) = 1 is set for a human region (person silhouette) that is a region of a predetermined area range, and a value of S (x, y) = 0 is set for a non-human region. Shall be assigned. Note that the silhouette here refers to a region having an arbitrary area of a color different from the set color and a person, an object, a landscape, and the like.

このシルエット映像生成手段2によって、シルエット画像S(x,y)を生成する手法としては、例えば、ハードクロマキーに代表されるような背景色情報に基づく手法を用いることができる。この背景色情報に基づく手法では、まず、色ベクトルcに対して、K(c)なる関数を定義する。この関数K(c)は、背景色が色ベクトルcで表されるときにはK(c)=0となり、背景色が色ベクトルcで表されないときにはK(c)=1となるように予め設定されているものである。   As a method for generating the silhouette image S (x, y) by the silhouette video generation unit 2, for example, a method based on background color information represented by a hard chroma key can be used. In the method based on the background color information, first, a function K (c) is defined for the color vector c. This function K (c) is preset so that K (c) = 0 when the background color is represented by the color vector c, and K (c) = 1 when the background color is not represented by the color vector c. It is what.

このような関数K(c)は、色ベクトルcを入力とする表形式の要素群(データ群)、つまり、ルックアップテーブル(予め設定した色分類番号に相当)によって実現することができる。この場合、ルックアップテーブルの各要素のうち、背景色に対応する要素には“0”を、その他の要素には“1”を予め設定(登録)しておくものとする。例えば、芝生で行うスポーツに関する入力映像の場合、芝生らしい色(例えば、緑色)に対応する要素を“0”とし、それ以外の色に対応する要素を“1”と設定しておくことが想定される。   Such a function K (c) can be realized by a tabular element group (data group) having the color vector c as an input, that is, a lookup table (corresponding to a preset color classification number). In this case, among the elements of the lookup table, “0” is set (registered) in advance for the element corresponding to the background color, and “1” is set for the other elements. For example, in the case of an input video related to sports performed on a lawn, it is assumed that an element corresponding to a lawn-like color (for example, green) is set to “0” and elements corresponding to other colors are set to “1”. Is done.

具体的に説明すると、関数K(c)を用いたハードクロマキーは、次に示す(1)式を用いることで実現される。

Figure 2006285878
More specifically, the hard chroma key using the function K (c) is realized by using the following equation (1).
Figure 2006285878

また、シルエット映像生成手段2によって、シルエット画像S(x,y)を生成する手法としては、例えば、背景差分法を用いることができる。この背景差分法による場合、予め、人物の映っていない画像(以下、背景画像という)B(x,y)を作成しておき、入力画像I(x,y)との差分を計算し、さらに、閾値処理することでシルエット画像S(x,y)を生成する。例えば、閾値処理を行う関数をT(c)として、次に示す(2)式を用いることで、シルエット画像S(x,y)が生成される。

Figure 2006285878
Further, as a method for generating the silhouette image S (x, y) by the silhouette video generation means 2, for example, a background difference method can be used. In the case of this background subtraction method, an image (hereinafter referred to as background image) B (x, y) in which no person is shown is created in advance, and the difference from the input image I (x, y) is calculated. The silhouette image S (x, y) is generated by threshold processing. For example, a silhouette image S (x, y) is generated by using the following equation (2), where T (c) is a function that performs threshold processing.
Figure 2006285878

(2)式において、閾値処理の関数T(c)は、入力画像I(x,y)の画素値が輝度値のみである場合には、例えば、ゼロ未満(以下)の閾値θ0およびゼロ以上(を越える)の閾値θ1に基づいて定義される、次に示す(3)式を用いることができる。 In the equation (2), the threshold processing function T (c) is, for example, a threshold value θ 0 and zero that are less than zero (below) when the pixel value of the input image I (x, y) is only a luminance value. The following equation (3) defined based on the above threshold value θ 1 (exceeding) can be used.

Figure 2006285878
Figure 2006285878

また、入力画像I(x,y)の画素値として、多次元の色ベクトルを用いる場合には、色ベクトルcが色ベクトル空間内の一定領域内にある場合には、T(c)=0、それ以外の場合にはT(c)=1とする。例えば、色ベクトルcが赤成分cR、緑成分cGおよび青成分cBにより構成される場合に、ゼロ未満(以下)の三つの閾値θR0、θG0およびθB0、並びに、ゼロ以上(を越える)の三つの閾値θR1、θG1およびθB1に基づいて定義される、次に示す(4)式を用いることができる。 When a multidimensional color vector is used as the pixel value of the input image I (x, y), T (c) = 0 when the color vector c is in a certain region in the color vector space. In other cases, T (c) = 1. For example, when the color vector c is composed of a red component c R , a green component c G and a blue component c B , three threshold values θ R0 , θ G0 and θ B0 that are less than (less than) zero, and zero or more ( (4) defined below based on three threshold values θ R1 , θ G1, and θ B1 .

Figure 2006285878
Figure 2006285878

人物追跡手段3は、シルエット映像生成手段2で生成された複数のシルエット画像からなるシルエット映像中の各人物のシルエット(追跡領域)を追跡して、時間方向の対応付けを行って、実空間(実際の空間、3次元空間)内における各人物の座標、速度および大きさに関する情報を出力するものである。この人物追跡手段3の詳細な構成を、図2に示す。   The person tracking means 3 tracks the silhouette (tracking area) of each person in a silhouette video made up of a plurality of silhouette images generated by the silhouette video generating means 2 and performs time direction matching to match the real space ( Information on the coordinates, speed, and size of each person in an actual space (three-dimensional space) is output. A detailed configuration of the person tracking means 3 is shown in FIG.

図2に示すように、人物追跡手段3は、ラベリング手段31と、面積判定手段32と、逆投影変換手段33と、検出・追跡手段(検出追跡手段)34と、予測・推定手段(予測推定手段)35と、遅延手段36とを備えている。   As shown in FIG. 2, the person tracking unit 3 includes a labeling unit 31, an area determination unit 32, a backprojection conversion unit 33, a detection / tracking unit (detection tracking unit) 34, and a prediction / estimation unit (prediction estimation). Means) 35 and delay means 36.

ラベリング手段31は、入力されたシルエット映像を構成するシルエット画像S(x,y)に含まれている各シルエットに対して、各々異なるラベル番号l∈{1,2,・・・,N}を付加(付与)するものである。ここで、シルエット画像S(x,y)に含まれている各シルエットは単連結領域であり、S(x,y)=1で表すこととする。   The labeling means 31 assigns different label numbers lε {1, 2,..., N} to the silhouettes included in the silhouette images S (x, y) constituting the inputted silhouette video. It is added (given). Here, each silhouette included in the silhouette image S (x, y) is a single connected region and is represented by S (x, y) = 1.

面積判定手段32は、ラベリング手段31でラベル番号が付加された各シルエットの面積A(l)を求めると共に、このシルエット面積A(l)が人物の大きさとして妥当であるか否かを判定し、判定した結果、妥当な面積のシルエットのみを抽出するものである。なお、抽出されたラベル番号の集合をLとすると、この集合Lは次に示す(5)式で表せる。つまり、集合Lは、人物として妥当な面積のシルエットの集合であるといえる。
L={l|A(l)が人物の大きさとして妥当、l∈{1,2,・・・,N}}
・・・(5)式
The area determination unit 32 obtains the area A (l) of each silhouette to which the label number is added by the labeling unit 31 and determines whether the silhouette area A (l) is appropriate as the size of the person. As a result of the determination, only silhouettes with a reasonable area are extracted. If the set of extracted label numbers is L, this set L can be expressed by the following equation (5). That is, the set L can be said to be a set of silhouettes having a reasonable area as a person.
L = {l | A (l) is valid as the size of a person, l∈ {1, 2,..., N}}
... (5) formula

そして、この面積判定手段32は、集合Lを領域情報として、逆投影変換手段33に出力すると共に、ラベル番号lおよびシルエット面積A(l)を検出・追跡手段34に出力する。なお、領域情報は、シルエット(単連結領域)の形状に関するものであればよい。例えば、領域情報として、シルエットの座標、座標間距離(長さ)等を含んでいればよい。   The area determination unit 32 outputs the set L as region information to the backprojection conversion unit 33 and outputs the label number l and the silhouette area A (l) to the detection / tracking unit 34. Note that the area information may be related to the shape of the silhouette (single connected area). For example, the region information may include silhouette coordinates, inter-coordinate distance (length), and the like.

この面積判定手段32において、各シルエットの面積A(l)が人物の大きさとして妥当であるか否かの判定の仕方は、ここでは、人物の大きさとして妥当であるとする面積の上限および下限の閾値を設け、所定範囲を設定しておき、各シルエットの面積A(l)が所定範囲にある場合には妥当であると判定する仕方を採用している。   In this area determination means 32, the method of determining whether or not the area A (l) of each silhouette is appropriate as the size of a person is, here, the upper limit of the area that is appropriate as the size of the person and A method is adopted in which a lower limit threshold is set, a predetermined range is set, and when the area A (l) of each silhouette is within the predetermined range, it is determined to be appropriate.

ここで、集合Lを求める手法について、図3、図4を参照して説明する。
図3に示すように、ラベル番号lのシルエットの重心(シルエット領域の画像上における重心)G(l)を求め、入力映像を撮影したカメラ(図示せず)の投影中心からシルエット画像平面上のシルエットの重心G(l)を通る半直線を引く。この半直線が実空間上における地面から高さhの平面と交差する点H(l)を求める。例えば、高さhの値として人物の身長(例えば、成人の平均身長)の1/2程度の値を設定することにより、シルエットの重心G(l)が当該シルエットの高さのほぼ1/2の高さに位置することから、点H(l)は、実空間上における人物の重心座標とほぼ一致することになる。なお、この点H(l)が実座標に相当している。
Here, a method for obtaining the set L will be described with reference to FIGS.
As shown in FIG. 3, the center of gravity of the silhouette with the label number l (the center of gravity on the silhouette region image) G (l) is obtained, and on the silhouette image plane from the projection center of the camera (not shown) that captured the input video. Draw a half line through the center of gravity G (l) of the silhouette. A point H (l) where this half line intersects the plane of height h from the ground in real space is obtained. For example, by setting a value of about half of the height of a person (for example, the average height of an adult) as the value of height h, the center of gravity G (l) of the silhouette is approximately ½ of the height of the silhouette. Therefore, the point H (l) substantially coincides with the barycentric coordinates of the person in the real space. This point H (l) corresponds to real coordinates.

続いて、図4に示すように、人物の大きさ程度の立体(人物の体積に相当する立体、直方体や円柱等)を点H(l)の座標に配置したと仮定し、この立体を透視変換して、シルエット画像平面上における立体の像を求める。人物の大きさ程度の立体として、直方体を用いた場合には、当該直方体を投影面(表示装置(図示せず)の表示面)に写像した際の像の輪郭は、四角形、五角形または六角形の多角形の形状となる。   Subsequently, as shown in FIG. 4, it is assumed that a solid approximately the size of a person (a solid corresponding to the volume of the person, a rectangular parallelepiped, a cylinder, etc.) is placed at the coordinates of the point H (l), and this solid is seen through. Conversion is performed to obtain a three-dimensional image on the silhouette image plane. When a rectangular parallelepiped is used as a solid that is about the size of a person, the outline of the image when the rectangular parallelepiped is mapped onto a projection plane (display surface of a display device (not shown)) is a quadrangle, pentagon, or hexagon. It becomes the shape of a polygon.

そして、得られた直方体の像において、投影面に対面する面の面積、または、得られた直方体の像に外接する方形(バウンディングボックス)の面積を求め、Aest(l)とする。また、0<k0≦k1に基づいて定義される、次に示す(6)式を用いた閾値処理により集合Lを求めてもよい。 Then, in the obtained rectangular parallelepiped image, the area of the surface facing the projection plane or the area of the rectangle (bounding box) circumscribing the obtained rectangular parallelepiped image is obtained and is defined as A est (l). Alternatively, the set L may be obtained by threshold processing using the following equation (6) defined based on 0 <k 0 ≦ k 1 .

Figure 2006285878
Figure 2006285878

これら図3、図4を参照して説明した、集合Lを求める手法では、カメラ(図示せず)から人物までの距離に応じて、正規化した面積を評価しているので、カメラから人物までの距離によらずに人物らしい大きさのシルエット(領域)のみを抽出することができる。   In the method for obtaining the set L described with reference to FIGS. 3 and 4, the normalized area is evaluated according to the distance from the camera (not shown) to the person. It is possible to extract only silhouettes (regions) of a person-like size regardless of the distance.

図2に戻って、映像解析装置1における人物追跡手段3の構成の説明を続ける。
逆投影変換手段33は、面積判定手段32から出力された集合L(人物として妥当な面積のシルエットに付加されているラベル番号の集合)に属する各シルエット(各人物領域)のシルエット画像平面上における重心を、実空間に逆投影することにより、実空間上での人物の座標を計算するものである。ここでは、逆投影変換手段33は、図3に示した点H(l)を人物の実座標として、ラベル番号lと共に、検出・追跡手段34に出力している。
Returning to FIG. 2, the description of the configuration of the person tracking means 3 in the video analysis device 1 will be continued.
The backprojection conversion means 33 on the silhouette image plane of each silhouette (each person region) belonging to the set L (a set of label numbers added to silhouettes having an appropriate area as a person) output from the area determination means 32. The coordinates of the person in the real space are calculated by back projecting the center of gravity into the real space. Here, the backprojection conversion means 33 outputs the point H (l) shown in FIG. 3 to the detection / tracking means 34 together with the label number l as the real coordinates of the person.

検出・追跡手段34は、集合Lに属する各ラベル番号l(l∈L)のシルエット(以下、人物領域という)の各実座標(H(l))と、遅延手段36から出力された1単位時間前(所定単位時間)までに追跡・予測されているシルエットの各座標との距離を比較することで、ラベル番号lと、既に(1単位時間前までに)追跡・予測されている人物のシルエット(人物領域)に付加(付与)されている識別番号mとの対応付け行うものである。   The detection / tracking means 34 includes the real coordinates (H (l)) of silhouettes (hereinafter referred to as person regions) of each label number l (lεL) belonging to the set L, and one unit output from the delay means 36. By comparing the distance to each coordinate of the silhouette that has been tracked / predicted by time (predetermined unit time), the label number l and the person already tracked / predicted (by 1 unit time ago) This is associated with the identification number m added (given) to the silhouette (person area).

この検出・追跡手段34は、例えば、ラベル番号lの人物領域の実空間上での座標H(l)と、既に追跡されている識別番号mの人物領域との座標(遅延手段36から出力された予測座標)xt|t-1(m)との距離に基づいて、次に示す(7)式を用いて、識別番号mに対応するラベル番号lmatch(m)を求める。このラベル番号lmatch(m)を求めることで、ラベル番号lと識別番号mとの対応付けがなされることになる。 This detection / tracking means 34 is, for example, a coordinate (output from the delay means 36) between the coordinates H (l) in the real space of the person area with the label number l and the person area with the identification number m already tracked. The label number l match (m) corresponding to the identification number m is obtained using the following equation (7) based on the distance from the predicted coordinate) x t | t-1 (m). By obtaining the label number l match (m), the label number l and the identification number m are associated with each other.

Figure 2006285878
Figure 2006285878

或いは、検出・追跡手段34は、ラベル番号lmatch(m)を求める際に、実座標H(l)と予測座標xt|t-1(m)との距離が閾値以内でない場合には、対応付けに失敗したとして、ラベル番号lmatch(m)に特別な値を設定してもよい。つまり、ラベル番号lmatch(m)に特別な値を設定しておくことで、ラベル番号lmatch(m)が当該特別な値をとった場合、ラベル番号lに対応する識別番号mは存在していないとする。この特別な値には、例えば、“0”を用いることができる。このように閾値を用いて、実座標H(l)と予測座標xt|t-1(m)との対応付けを行う場合、次に示す(8)式を用いる。 Alternatively, when the detection / tracking means 34 obtains the label number l match (m), if the distance between the actual coordinate H (l) and the predicted coordinate x t | t−1 (m) is not within the threshold value, A special value may be set for the label number l match (m), assuming that the association has failed. In other words, by setting the special value label number l match (m), if the label number l match (m) took the special value, the identification number m corresponding to the label number l is present Suppose not. For this special value, for example, “0” can be used. When the real coordinates H (l) and the predicted coordinates x t | t−1 (m) are associated with each other using the threshold value, the following equation (8) is used.

Figure 2006285878
Figure 2006285878

そして、検出・追跡手段34は、実座標と予測座標との対応付けを行った結果であるラベル番号lmatch(m)が付加された人物領域のシルエット画像上における座標に基づいて、識別番号mが付加された人物領域の実空間上における座標(以下、観測座標という)yt(m)を求める。ここでは、ラベル番号lmatch(m)が付加された人物領域の実空間上における重心H(lmatch(m))の示す座標を、観測座標yt(m)としている。 The detection / tracking means 34 then identifies the identification number m based on the coordinates on the silhouette image of the person region to which the label number l match (m), which is the result of associating the actual coordinates with the predicted coordinates, is added. The coordinates (hereinafter referred to as observation coordinates) y t (m) in the real space of the person region to which is added are obtained. Here, the coordinates indicated by the center of gravity H (l match (m)) in the real space of the person region to which the label number l match (m) is added are set as the observation coordinates y t (m).

なお、検出・追跡手段34は、集合Lには存在するが、対応する識別番号mの存在しないラベル番号lが検出された場合には、当該ラベル番号lに、新たな識別番号mを付加(付与)し、且つ、この新たな識別番号mが付加された人物領域の実空間上における座標H(l)に基づいて観測座標yt(m)を設定し、出力してもよい。 The detection / tracking means 34 adds a new identification number m to the label number l when a label number l that exists in the set L but does not have a corresponding identification number m is detected ( And the observation coordinates y t (m) may be set and output based on the coordinates H (l) in the real space of the person region to which the new identification number m is added.

また、検出・追跡手段34は、対応するラベル番号lの無い識別番号mが存在した場合には、当該識別番号mを無効とし、当該識別番号mが付加されている人物領域の観測座標yt(m)を出力しなくてもよい。 Further, when there is an identification number m without a corresponding label number l, the detection / tracking means 34 invalidates the identification number m, and observes coordinates y t of the person region to which the identification number m is added. (M) may not be output.

さらに、検出・追跡手段34は、逆投影変換手段33からラベル番号lごとに入力された面積A(l)の中から、ラベル番号lmatch(m)のものを面積α(m)として出力する。すなわち、α(m)=A(lmatch(m))とする。なお、この面積α(m)および識別番号mは、特徴ベクトル抽出手段5(図1)に出力される。 Further, the detection / tracking means 34 outputs the area with the label number l match (m) as the area α (m) from the area A (l) inputted for each label number 1 from the back projection conversion means 33. . That is, α (m) = A (l match (m)). The area α (m) and the identification number m are output to the feature vector extraction means 5 (FIG. 1).

予測・推定手段35は、検出・追跡手段34から出力された識別番号mと、観測座標yt(m)とを受け取って、観測座標yt(m)にフィルタ処理を行うことで、推定座標xt|t(m)、推定速度vt|t(m)、予測座標xt+1|t(m)および予測速度vt+1|t(m)を出力するものである。 The prediction / estimation means 35 receives the identification number m output from the detection / tracking means 34 and the observation coordinates y t (m), and performs a filtering process on the observation coordinates y t (m) to thereby estimate the coordinates. x t | t (m), estimated speed v t | t (m), predicted coordinates x t + 1 | t (m), and predicted speed v t + 1 | t (m) are output.

この予測・推定手段35は、例えば、推定座標xt|t(m)として、観測座標yt(m)をそのまま出力してもよい。また、予測・推定手段35は、推定速度vt|t(m)を推定座標xt|t(m)の履歴から計算することが可能である。予測・推定手段35は、例えば、次に示す(9)式を用いて、推定速度vt|t(m)を、現在の推定座標xt|t(m)と、1単位時間過去における推定座標xt-1|t-1(m)との差分から計算することが可能である。 For example, the prediction / estimation unit 35 may output the observation coordinates y t (m) as the estimated coordinates x t | t (m). Further, the prediction / estimation means 35 can calculate the estimated speed v t | t (m) from the history of the estimated coordinates x t | t (m). The prediction / estimation means 35 estimates the estimated speed v t | t (m), the current estimated coordinates x t | t (m), and the past for one unit time, for example, using the following equation (9). It is possible to calculate from the difference from the coordinate x t-1 | t-1 (m).

Figure 2006285878
Figure 2006285878

また、予測・推定手段35は、推定座標xt|t(m)を計算する際に、例えば、ラベル番号lmatch(m)の観測座標yt(m)の履歴と、推定座標xt|t(m)の履歴とを重み付けして、加算した値を、現在の推定座標xt|t(m)とすることも可能である。 Further, when calculating the estimated coordinate x t | t (m), the prediction / estimation unit 35, for example, records the observed coordinate y t (m) of the label number l match (m) and the estimated coordinate x t | It is also possible to weight the history of t (m) and add the resulting value to the current estimated coordinate x t | t (m).

さらに、予測・推定手段35は、例えば、カルマン(kalman)フィルタ、或いは、拡張カルマンフィルタによって、推定座標xt|t(m)と推定速度vt|t(m)との少なくとも一方を求めてもよい。予測・推定手段35がカルマンフィルタを採用する場合は、次に示す(10)式を用いて、状態ベクトルzt|tを定義する。 Further, the prediction / estimation means 35 may obtain at least one of the estimated coordinates x t | t (m) and the estimated speed v t | t (m) by, for example, a Kalman filter or an extended Kalman filter. Good. When the prediction / estimation means 35 employs a Kalman filter, the state vector z t | t is defined using the following equation (10).

Figure 2006285878
Figure 2006285878

また、遅延手段36(詳細は後記する)から出力される、遅延された予測座標xt|t-1(m)と、遅延された予測速度vt|t-1(m)とにより構成される状態ベクトルzt|t-1を、次に示す(11)式を用いて定義する。 Further, it is composed of a delayed predicted coordinate x t | t−1 (m) and a delayed predicted speed v t | t−1 (m) output from the delay means 36 (details will be described later). The state vector z t | t−1 is defined using the following equation (11).

Figure 2006285878
Figure 2006285878

このように、状態ベクトルzt|tと、状態ベクトルzt|t-1とから、次に示す(12)式(カルマンフィルタを観測更新式)を適用することにより、遅延手段36から出力される、遅延された予測座標xt|t-1(m)および遅延された予測速度vt|t-1(m)から、現在(現時点)の推定座標xt|t(m)および推定速度vt|t(m)を求めることができる。 In this way, the state vector z t | t and the state vector z t | t−1 are output from the delay means 36 by applying the following equation (12) (Kalman filter is an observation update equation). From the delayed predicted coordinate x t | t-1 (m) and the delayed predicted speed v t | t-1 (m), the current (current) estimated coordinate x t | t (m) and the estimated speed v t | t (m) can be obtained.

Figure 2006285878
Figure 2006285878

なお、この(12)式において、Pt|t-1は、時点t−1までの情報から推定された、時点tにおける状態ベクトルの誤差共分散行列であり、P0|-1を初期値として、例えば、4行×4列の任意の半正定値行列を設定している。Ktは、時点tにおけるカルマンフィルタからの出力(推定座標xt|t(m)および推定速度vt|t(m))を示す行列である。また、(12)式において、Aは観測行列であり、I2×2は2行2列の単位行列であり、O2×2は2行2列のゼロ行列であり、次に示す(13)式によって定義される。 In Equation (12), P t | t−1 is an error covariance matrix of the state vector at time t estimated from information up to time t−1, and P 0 | −1 is an initial value. For example, an arbitrary semi-definite matrix of 4 rows × 4 columns is set. K t is a matrix indicating outputs (estimated coordinates x t | t (m) and estimated speed v t | t (m)) from the Kalman filter at time t. In Equation (12), A is an observation matrix, I 2 × 2 is a 2-by-2 unit matrix, O 2 × 2 is a 2-by-2 zero matrix, ) Defined by the formula.

Figure 2006285878
Figure 2006285878

この(13)式では、観測行列Aとして、2行4列の行列を設定している。さらに、Rtは時点tにおける観測雑音の共分散行列であり、次に示す(14)式によって定義される。 In this equation (13), a 2 × 4 matrix is set as the observation matrix A. Further, R t is a covariance matrix of observation noise at time t, and is defined by the following equation (14).

Figure 2006285878
Figure 2006285878

この(14)式では、観測雑音の共分散行列Rtとして、2行2列の対角行列を設定している。なお、この(14)式におけるρxおよびρyには、適切な正の定数、若しくは、経過時間に伴って変化する正の変数を設定することが可能である。例えば、(7)式または(8)式の計算に用いた座標H(l)と予測座標xt|t-1(m)との距離に応じて、ρxまたはρyを変化させてもよい。なお、予測・推定手段35がカルマンフィルタを採用する場合、対応するラベル番号lの存在しない識別番号m(すなわち、観測座標yt(m)が予測・推定手段35に入力されなかった場合)に対しては、(9)式の代わりに、次に示す(15)式を用いることとする。 In the equation (14), a 2-by-2 diagonal matrix is set as the observation noise covariance matrix R t . It should be noted that an appropriate positive constant or a positive variable that changes with the elapsed time can be set in ρ x and ρ y in the equation (14). For example, even if ρ x or ρ y is changed according to the distance between the coordinate H (l) used in the calculation of the expression (7) or the expression (8) and the predicted coordinate x t | t−1 (m). Good. When the prediction / estimation means 35 employs a Kalman filter, for the identification number m that does not have the corresponding label number l (that is, when the observation coordinates y t (m) are not input to the prediction / estimation means 35). Therefore, the following equation (15) is used instead of equation (9).

Figure 2006285878
Figure 2006285878

さらに、予測・推定手段35は、推定座標xt|t(m)と推定速度vt|t(m)に基づき、次の時点t+1における予測座標xt+1|t(m)と予測速度vt+1|t(m)を、次に示す(16)式を用いて求め、出力する。 Further, the prediction / estimation means 35, based on the estimated coordinate x t | t (m) and the estimated speed v t | t (m), predicts the coordinate x t + 1 | t (m) at the next time point t + 1 and the predicted speed. v t + 1 | t (m) is obtained using the following equation (16) and output.

Figure 2006285878
Figure 2006285878

この(16)式では、等速度モデルを参照することで、予測座標xt+1|t(m)と予測速度vt+1|t(m)とを求めることができる。なお、(16)式において、Δtは処理の時間間隔であり、例えば、1単位時間周期(周期T)で行う場合、Δt=1となる。 In this equation (16), the predicted coordinate x t + 1 | t (m) and the predicted speed v t + 1 | t (m) can be obtained by referring to the constant velocity model. In the equation (16), Δt is a processing time interval. For example, Δt = 1 when the processing is performed in one unit time period (period T).

また、予測・推定手段35は、カルマンフィルタを採用した場合、次に示す(17)式(漸化式)を用いて、予測座標xt+1|t(m)と予測速度vt+1|t(m)とを求めることが可能である。 Further, when the Kalman filter is employed, the prediction / estimation means 35 uses the following equation (17) (recurrence equation) to predict the predicted coordinate x t + 1 | t (m) and the predicted speed v t + 1 | t (m) can be obtained.

Figure 2006285878
Figure 2006285878

この(17)式において、Fは、1単位時間における状態遷移モデルを表す行列(状態遷移行列)であり、この状態遷移行列Fは、等速度モデルを参照する場合、次に示す(18)式によって定義される。   In this equation (17), F is a matrix (state transition matrix) representing a state transition model in one unit time. When this state transition matrix F refers to a constant velocity model, the following equation (18) Defined by

Figure 2006285878
Figure 2006285878

また、(17)式において、Qは、状態遷移行列Fによる予測によって、新たに加えられる誤差をモデル化したプロセス雑音の共分散行列であり、例えば、プロセス雑音の共分散行列Qは、4行4列の半正定値行列を設定している。   In Equation (17), Q is a process noise covariance matrix in which a newly added error is modeled by prediction using the state transition matrix F. For example, the process noise covariance matrix Q is 4 rows. A four-column semi-definite matrix is set.

さらに、(17)式において、状態ベクトルの誤差共分散行列Pt|tまたはPt+1|tのある成分、若しくは、いずかの行列、或いは、トレースがある数値範囲に入った場合、すなわち、推定誤差が大きくなったと想定された場合には、予測・推定手段35は、該当する識別番号mを無効とし、該当する推定座標xt|t(m)、予測座標xt+1|t(m)、推定速度vt|t(m)および予測速度vt+1|t(m)を出力しない。 Further, in the equation (17), when a state vector error covariance matrix P t | t or P t + 1 | t , any matrix, or trace enters a certain numerical range, That is, when it is assumed that the estimation error has increased, the prediction / estimation means 35 invalidates the corresponding identification number m, and the corresponding estimated coordinate x t | t (m), predicted coordinate x t + 1 | t (m), estimated speed v t | t (m) and predicted speed v t + 1 | t (m) are not output.

つまり、推定誤差が大きくなったと想定された場合には、状態ベクトルの誤差共分散行列Pt|tまたはPt+1|tのある成分が大きくなることが確認されており、これらの行列のある成分、特に対角成分に着目し、当該対角成分が、ある閾値を越えた場合には、該当する推定座標xt|t(m)および推定速度vt|t(m)、または、予測座標xt+1|t(m)、および予測速度vt+1|t(m)が信頼できないものとして無効化する。例えば、次に示す(19)式のように、状態ベクトルの誤差共分散行列Pt|tのトレースが閾値θP以上になった場合には、予測・推定手段35は、該当する識別番号mを無効にすることができる。 That is, when it is assumed that the estimation error has increased, it has been confirmed that a certain component of the state vector error covariance matrix P t | t or P t + 1 | t increases. When attention is paid to a certain component, particularly a diagonal component, and the diagonal component exceeds a certain threshold value, the corresponding estimated coordinate x t | t (m) and estimated velocity v t | t (m), or The predicted coordinate x t + 1 | t (m) and the predicted speed v t + 1 | t (m) are invalidated as unreliable. For example, when the trace of the error covariance matrix P t | t of the state vector is equal to or greater than the threshold θ P as shown in the following equation (19), the prediction / estimation unit 35 determines the corresponding identification number m Can be disabled.

Figure 2006285878
Figure 2006285878

遅延手段36は、予測・推定手段35から出力された予測座標xt+1|t(m)および予測速度vt+1|t(m)を、1単位時間遅延して、遅延された予測座標xt|t-1(m)および遅延された予測速度vt|t-1(m)を、検出・追跡手段34に出力するものである。 The delay means 36 delays the prediction coordinates x t + 1 | t (m) and the prediction speed v t + 1 | t (m) output from the prediction / estimation means 35 by one unit time, and delays the prediction. The coordinates x t | t-1 (m) and the delayed predicted speed v t | t-1 (m) are output to the detection / tracking means 34.

図1に戻って、映像解析装置1の構成の説明を続ける。
色識別手段4は、入力映像と、シルエット映像生成手段2で生成されたシルエット映像(複数のシルエット画像S(x,y))と、人物追跡手段3の予測・推定手段35から出力された識別番号m、推定座標xt|t(m)および推定速度vt|t(m)とに基づいて、入力映像中の各人物のシルエット(各追跡領域、識別番号m)の着衣の色(追跡領域の色)を識別して、色分類番号C(m)を出力するものである。
この色識別手段4は、例えば、特願2005−11959の「色識別装置および色識別プログラム」に記載されている手法を用いることができる。
Returning to FIG. 1, the description of the configuration of the video analysis apparatus 1 will be continued.
The color identification unit 4 includes an input video, a silhouette video (a plurality of silhouette images S (x, y)) generated by the silhouette video generation unit 2, and an identification output from the prediction / estimation unit 35 of the person tracking unit 3. Based on the number m, the estimated coordinates x t | t (m), and the estimated speed v t | t (m), the color of the clothing (tracking) of the silhouette of each person (each tracking area, identification number m) in the input video The color of the area) is identified, and the color classification number C (m) is output.
For example, the technique described in “Color Identification Device and Color Identification Program” of Japanese Patent Application No. 2005-11959 can be used as the color identification means 4.

例えば、当該装置1に入力する入力映像を、サッカー競技映像とする場合、一方のチームのフィールド選手を“0”、一方のチームのゴールキーパーを“1”、他方のチームのフィールド選手を“2”、他方のチームのゴールキーパーを“3”、審判を“4”、その他(ボールボーイ、監督、観客等)を“5”といったように、色分類番号C(m)を定める(割り振る)ことができる。   For example, when the input video input to the device 1 is a soccer game video, the field player of one team is “0”, the goalkeeper of one team is “1”, and the field player of the other team is “2”. Determine (assign) the color classification number C (m), such as “3” for the other team ’s goalkeeper, “4” for the referee, and “5” for others (ballboy, director, spectator, etc.). Can do.

特徴ベクトル抽出手段5は、人物追跡手段3の検出・追跡手段34から出力された識別番号mおよび面積α(m)と、人物追跡手段3の予測・推定手段35から出力された識別番号m、推定座標xt|t(m)および推定速度vt|t(m)と、色識別手段4から出力された識別番号mおよび色分類番号C(m)とに基づいて、特徴ベクトルに含める特徴量を求めて出力するものである。 The feature vector extraction unit 5 includes an identification number m and an area α (m) output from the detection / tracking unit 34 of the person tracking unit 3, and an identification number m output from the prediction / estimation unit 35 of the person tracking unit 3. Features to be included in the feature vector based on the estimated coordinates x t | t (m) and the estimated speed v t | t (m) and the identification number m and the color classification number C (m) output from the color identification unit 4 The amount is obtained and output.

なお、この特徴ベクトル抽出手段5では、識別番号mと対応付けられた、面積α(m)と、推定座標xt|t(m)と、推定速度vt|t(m)と、色分類番号C(m)との少なくとも一つの入力情報に基づいて、特徴ベクトルに含める特徴量を計算しているが、入力情報の種類(数)が増加するほど、特徴ベクトルに含める特徴量の種類(数)も増加することになり、この結果、イベント検出手段6によるイベントの検出精度が向上することになる。この特徴ベクトル抽出手段5の詳細な構成を図5に示す。 In this feature vector extraction means 5, the area α (m), the estimated coordinates x t | t (m), the estimated speed v t | t (m), and the color classification associated with the identification number m. The feature amount included in the feature vector is calculated based on at least one input information with the number C (m). As the type (number) of input information increases, the type of feature amount included in the feature vector ( Number) also increases, and as a result, the accuracy of event detection by the event detection means 6 is improved. A detailed configuration of the feature vector extracting means 5 is shown in FIG.

図5に示すように、特徴ベクトル抽出手段5は、人数計測手段51と、人物群分散計測手段52と、人物間距離計測手段53と、人物群重心計測手段54と、平均速さ計測手段55と、平均速度計測手段56と、特定領域監視手段57とを備えている。   As shown in FIG. 5, the feature vector extraction means 5 includes a person counting means 51, a person group variance measuring means 52, a person distance measuring means 53, a person group centroid measuring means 54, and an average speed measuring means 55. And an average speed measuring means 56 and a specific area monitoring means 57.

人数計測手段51は、入力された各人物(各追跡領域)の識別番号mの推定座標xt|t(m)、推定速度vt|t(m)、色分類番号C(m)および面積α(m)の少なくとも1つの情報に基づいて、入力映像内に含まれる人物の数(人数)N(シルエット数推定値、人物数推定値)を推定するものである。この人数計測手段51は、最も簡単な手法として、入力された識別番号mの総数を数えることで、人数Nを求めることができる。また、人数計測手段51は、図6に示す構成によって、人数Nを求めてもよい。 The number-of-people counting means 51 receives the estimated coordinates x t | t (m), the estimated speed v t | t (m), the color classification number C (m), and the area of the input identification number m of each person (each tracking area). Based on at least one piece of information of α (m), the number (number of people) N (number of silhouettes estimated value, number of people estimated value) included in the input video is estimated. As the simplest method, the number counting means 51 can determine the number N of people by counting the total number of input identification numbers m. Further, the number-of-people counting means 51 may obtain the number of people N by the configuration shown in FIG.

図6に示すように、人数計測手段51は、クロック手段511と、順次面積選択手段512と、順次座標選択手段513と、人物像面積推定手段514と、除算手段515と、総和演算手段516とを備えている。   As shown in FIG. 6, the person counting means 51 includes a clock means 511, a sequential area selecting means 512, a sequential coordinate selecting means 513, a person image area estimating means 514, a dividing means 515, and a sum calculating means 516. It has.

クロック手段511は、順次増加または減少する数値時系列を生成して、この数値時系列を、順次面積選択手段512、順次座標選択手段513および総和演算手段516に出力するものである。この数値時系列は、各手段512、513、516において、入力された情報を処理するタイミングを同期させるために基準となるものである。   The clock unit 511 generates a numerical time series that sequentially increases or decreases, and outputs the numerical time series to the area selecting unit 512, the sequential coordinate selecting unit 513, and the sum calculating unit 516 sequentially. This numerical time series is a reference for synchronizing the timing of processing the input information in each means 512, 513, 516.

順次面積選択手段512は、識別番号m、面積α(m)および色分類番号C(m)が入力され、クロック手段511から出力された数値時系列に従ったタイミングで、順次指定される識別番号mの色分類番号C(m)が特定の値(色識別手段4の説明のところで示した例であれば、0〜5の整数)のものを抽出して、該当したものの面積α(m)を除算手段515に出力するものである。   The sequential area selection unit 512 receives the identification number m, the area α (m), and the color classification number C (m), and is sequentially specified at the timing according to the numerical time series output from the clock unit 511. The color classification number C (m) of m is extracted with a specific value (in the example shown in the description of the color identification means 4, an integer of 0 to 5), and the area α (m) of the corresponding one is extracted. Is output to the dividing means 515.

例えば、前記したように、当該装置1に入力された入力映像がサッカー競技映像であり、一方のチームのフィールド選手が“0”、一方のチームのゴールキーパーが“1”、他方のチームのフィールド選手が“2”、他方のチームのゴールキーパーが“3”、審判が“4”、その他(ボールボーイ、監督、観客等)が“5”と、色分類番号C(m)が設定されている場合、色分類番号C(m)が“0”から“3”のもののみを抽出することにより、選手のみを選択する(選び出す)ことができる。   For example, as described above, the input video input to the device 1 is a soccer game video, the field player of one team is “0”, the goalkeeper of one team is “1”, the field of the other team The color classification number C (m) is set as “2” for the player, “3” for the goalkeeper of the other team, “4” for the referee, and “5” for others (ballboy, director, spectator, etc.) If there is, the player can be selected (selected) only by extracting the color classification numbers C (m) from “0” to “3”.

順次座標選択手段513は、識別番号m、色分類番号C(m)、推定座標xt|t(m)および推定速度vt|t(m)が入力され、クロック手段511から出力された数値時系列に従ったタイミングで、順次指定される識別番号mの色分類番号C(m)が特定の値(色識別手段4の説明のところで示した例であれば、0〜5の整数)のものを抽出して、該当したものの推定座標xt|t(m)を人物像面積推定手段514に出力するものである。この順次座標選択手段513は、順次面積選択手段512と同様に、色分類番号C(m)が特定の値のものを抽出し、そして、識別番号mを介在させ、当該識別番号mが対応している推定座標xt|t(m)を出力している。順次座標選択手段513は、順次面積選択手段512と同様に、入力映像がサッカー競技映像である場合、特定の値を“0”から“3”とすれば、選手のみを選択する(選び出す)ことができる。 The sequential coordinate selection means 513 receives the identification number m, the color classification number C (m), the estimated coordinates x t | t (m) and the estimated speed v t | t (m), and the numerical value output from the clock means 511. The color classification number C (m) of the identification number m sequentially specified at a timing according to the time series is a specific value (in the example shown in the description of the color identification means 4, an integer of 0 to 5). An object is extracted, and the estimated coordinates x t | t (m) of the corresponding object are output to the person image area estimation means 514. Similar to the sequential area selection unit 512, the sequential coordinate selection unit 513 extracts the color classification number C (m) having a specific value, interposes the identification number m, and the identification number m corresponds to the sequential coordinate selection unit 513. The estimated coordinates x t | t (m) are output. Similar to the sequential area selection means 512, the sequential coordinate selection means 513 selects (selects) only the players if the specific value is changed from “0” to “3” when the input video is a soccer game video. Can do.

人物像面積推定手段514は、人物の大きさ程度の立体(人物の体積に相当する立体、直方体や円柱等)を、順次座標選択手段513から出力された推定座標xt|t(m)に配置したと仮定し、透視変換を行うことで、画像平面における像を推定するものである。図7に示すように、立体として、直方体を用いた場合には、当該直方体を画像平面(投影面、表示装置(図示せず)の表示面)に写像した際の像の輪郭は、四角形、五角形または六角形の多角形の形状となる。 The person image area estimation unit 514 converts a solid (e.g., a solid corresponding to the volume of a person, a rectangular parallelepiped, a cylinder, or the like) about the size of the person into the estimated coordinates x t | t (m) sequentially output from the coordinate selection unit 513. The image on the image plane is estimated by performing perspective transformation on the assumption that they are arranged. As shown in FIG. 7, when a rectangular parallelepiped is used as a solid, the contour of the image when the rectangular parallelepiped is mapped to an image plane (projection surface, display surface of a display device (not shown)) is a quadrangle, It becomes a pentagonal or hexagonal polygonal shape.

そして、人物像面積推定手段514は、得られた直方体の像において、画像平面(投影面)に対面する面の面積、または、得られた像に外接する方形(バウンディングボックス)の面積を求め、推定面積αest(m)とする。 Then, the human image area estimating means 514 obtains the area of the surface facing the image plane (projection plane) or the area of the rectangle (bounding box) circumscribing the obtained image in the obtained rectangular parallelepiped image, It is assumed that the estimated area α est (m).

図6に戻って、映像解析装置1の特徴ベクトル抽出手段5の人数計測手段51の構成の説明を続ける。
除算手段515は、順次面積選択手段512から出力された面積α(m)を、人物像面積推定手段514から出力された推定面積αest(m)で除算して、除算した結果である面積比r(m)を総和演算手段516に出力するものである。この除算手段515から出力される面積比r(m)は、次に示す(20)式で表される。
Returning to FIG. 6, the description of the configuration of the number-of-people measuring means 51 of the feature vector extracting means 5 of the video analysis apparatus 1 will be continued.
The division unit 515 sequentially divides the area α (m) output from the area selection unit 512 by the estimated area α est (m) output from the person image area estimation unit 514 and divides the area ratio. r (m) is output to the sum calculating means 516. The area ratio r (m) output from the dividing means 515 is expressed by the following equation (20).

Figure 2006285878
Figure 2006285878

この(20)式で表される面積比r(m)は、入力画像I(x,y)に映っている人物間のオクルージョンがなく(重なり合いがなく)、シルエット画像S(x,y)に含まれているシルエット一つに対して、人物一人が丁度含まれている場合には、入力映像を撮影しているカメラの撮影地点(カメラの投影中心)から、人物までの距離によらずにほぼ一定の値をとる。   The area ratio r (m) represented by the equation (20) has no occlusion (no overlap) between the persons shown in the input image I (x, y), and the silhouette image S (x, y). If only one person is included for one included silhouette, regardless of the distance from the shooting point (camera projection center) of the camera that is shooting the input video to the person The value is almost constant.

また、シルエット画像S(x、y)に含まれているシルエット一つに対して、複数の人物が含まれている場合には、通常、含まれている人物数の増加に伴って、面積比r(m)の値も増加することが推測される。   In addition, when a plurality of persons are included with respect to one silhouette included in the silhouette image S (x, y), the area ratio is usually increased as the number of included persons increases. It is presumed that the value of r (m) also increases.

そこで、(20)式の代わりに、次に示す(21)式を用いて、面積比r(m)を求めてもよい。   Therefore, the area ratio r (m) may be obtained using the following equation (21) instead of the equation (20).

Figure 2006285878
Figure 2006285878

この(21)式において、kは定数とし、この定数の値は、面積比r(m)が一つのシルエット内に含まれる人物の数とほぼ一致するような値をとることが好適である。   In this equation (21), k is a constant, and it is preferable that the value of the constant be a value such that the area ratio r (m) substantially matches the number of persons included in one silhouette.

総和演算手段516は、除算手段515から出力された面積比r(m)を、クロック手段511から出力された数値時系列に従ったタイミングで累積し、累積した結果(累積結果)を人数Nとし、特徴ベクトルを構成する特徴量の一つとして出力するものである。   The sum calculating means 516 accumulates the area ratio r (m) output from the dividing means 515 at a timing according to the numerical time series output from the clock means 511, and sets the accumulated result (accumulated result) as the number N of people. Are output as one of the feature quantities constituting the feature vector.

図5に示した人物群分散計測手段52は、入力された各人物(各追跡領域)の識別番号mの推定座標xt|t(m)、推定速度vt|t(m)、色分類番号C(m)に基づいて、入力映像内に含まれる人物の分布が広がっている度合いを定量化し、人物群分布面積V(シルエット群分布定量化値、人物群分布定量化値)として出力するものである。この人物群分散計測手段52の詳細な構成を図8に示す。 The person group dispersion measuring unit 52 shown in FIG. 5 is configured to input the estimated coordinates x t | t (m) of the identification number m of each person (each tracking area), the estimated speed v t | t (m), and the color classification. Based on the number C (m), the degree to which the distribution of the persons included in the input video is quantified is quantified and output as a person group distribution area V (silhouette group distribution quantified value, person group distribution quantified value). Is. A detailed configuration of the person group dispersion measuring unit 52 is shown in FIG.

図8に示すように、人物群分散計測手段52は、クロック手段521と、順次座標選択手段522と、共分散行列演算手段523と、分布面積演算手段524とを備えている。なお、クロック手段521および順次座標選択手段522は、図6に示したクロック手段511および順次座標選択手段513と同様であるので、説明を省略する。   As shown in FIG. 8, the person group variance measurement unit 52 includes a clock unit 521, a sequential coordinate selection unit 522, a covariance matrix calculation unit 523, and a distribution area calculation unit 524. The clock means 521 and the sequential coordinate selection means 522 are the same as the clock means 511 and the sequential coordinate selection means 513 shown in FIG.

共分散行列演算手段523は、順次座標選択手段522から出力された推定座標xt|t(m)の共分散行列を求めるものである。この共分散行列演算手段523は、例えば、順次座標選択手段522から出力された推定座標xt|t(m)およびxt|t(m)[xt|t(m)]T(Tはベクトルの転置を表す)を、クロック手段521から出力された数値時系列に従ったタイミングで累積すると共に、順次座標選択手段522から出力された推定座標xt|t(m)の個数(サンプル数)を数えることで、共分散行列Dを求める。 The covariance matrix calculation means 523 obtains a covariance matrix of the estimated coordinates x t | t (m) sequentially output from the coordinate selection means 522. For example, the covariance matrix calculating unit 523 may include the estimated coordinates x t | t (m) and x t | t (m) [x t | t (m)] T (T is output from the coordinate selecting unit 522 sequentially. The vector transposition) is accumulated at a timing according to the numerical time series output from the clock unit 521, and the number of estimated coordinates x t | t (m) output from the coordinate selection unit 522 sequentially (number of samples) ) To obtain a covariance matrix D.

この共分散行列演算手段523により求められた共分散行列Dの各成分を、次に示す(22)式によって定義する。   Each component of the covariance matrix D obtained by the covariance matrix calculation means 523 is defined by the following equation (22).

Figure 2006285878
Figure 2006285878

分布面積演算手段524は、共分散行列演算手段523で求められた共分散行列Dに基づいて、実空間上での人物分布範囲を定量化した人物群分布面積Vを求め、特徴ベクトルを構成する特徴量の一つとして出力するものである。人物群分布面積Vは、実空間上での面積と同じ次元を有しており、次に示す(23)式を用いて求めることができる。なお、(23)式において、βは、0以上の定数である。   Based on the covariance matrix D obtained by the covariance matrix computing means 523, the distribution area computing means 524 obtains a person group distribution area V obtained by quantifying the person distribution range in the real space and constructs a feature vector. This is output as one of the feature quantities. The person group distribution area V has the same dimension as the area in the real space, and can be obtained using the following equation (23). In the equation (23), β is a constant of 0 or more.

Figure 2006285878
Figure 2006285878

図5に示した人物間距離計測手段53は、入力された各人物(各追跡領域)の識別番号mの推定座標xt|t(m)および推定速度vt|t(m)に基づいて、入力映像内に含まれる人物間が近接している度合いを定量化し、人物間距離d(シルエット間距離定量化値、人物間距離定量化値)として出力するものである。この人物間距離計測手段53の詳細な構成を図9に示す。 The inter-person distance measuring means 53 shown in FIG. 5 is based on the input estimated coordinates x t | t (m) and estimated speed v t | t (m) of the identification number m of each person (each tracking area). The degree of proximity between persons included in the input video is quantified and output as an interpersonal distance d (interval silhouette distance quantified value, interpersonal distance quantified value). A detailed configuration of the interpersonal distance measuring means 53 is shown in FIG.

図9に示すように、人物間距離計測手段53は、カウンタ手段531と、第一番号対応座標選択手段532と、第二番号対応座標選択手段533と、距離演算手段534と、最小値演算手段535と、平均値演算手段536とを備えている。   As shown in FIG. 9, the inter-person distance measuring unit 53 includes a counter unit 531, a first number corresponding coordinate selecting unit 532, a second number corresponding coordinate selecting unit 533, a distance calculating unit 534, and a minimum value calculating unit. 535 and average value calculation means 536.

カウンタ手段531は、二つのカウンタ(図示せず)を備えてなり、当該カウンタの出力m1およびm2を組み合わせて、二つの識別番号m1およびm2の全ての組み合わせを走査するものである。なお、ここでいう「走査」とは、いわゆるラスタスキャンを指しており、ここでは、(m1,m2)を(0,0)(1,0)(2,0)、・・・、(0,1)(1,1)(2,1)、・・・、(0,2)(1,2)(2,2)といったように全ての組み合わせを発生させることを意味している。 The counter means 531 includes two counters (not shown), and scans all combinations of the two identification numbers m 1 and m 2 by combining the outputs m 1 and m 2 of the counter. . Here, “scan” refers to a so-called raster scan, and (m 1 , m 2 ) is replaced with (0, 0) (1, 0) (2, 0),. (0,1) (1,1) (2,1), ..., (0,2) (1,2) (2,2) means that all combinations are generated. .

第一番号対応座標選択手段532は、識別番号mの推定座標xt|t(m)および推定速度vt|t(m)が入力され、カウンタ手段531から出力された識別番号m1に対応する推定座標xt|t(m1)を、距離演算手段534に出力するものである。 The first number corresponding coordinate selection means 532 receives the estimated coordinates x t | t (m) and the estimated speed v t | t (m) of the identification number m, and corresponds to the identification number m 1 output from the counter means 531. The estimated coordinates x t | t (m 1 ) to be output are output to the distance calculation means 534.

第二番号対応座標選択手段533は、識別番号mの推定座標xt|t(m)および推定速度vt|t(m)が入力され、カウンタ手段531から出力された識別番号m2に対応する推定座標xt|t(m2)を、距離演算手段534に出力するものである。 The second number corresponding coordinate selection means 533 receives the estimated coordinates x t | t (m) and the estimated speed v t | t (m) of the identification number m, and corresponds to the identification number m 2 output from the counter means 531. The estimated coordinates x t | t (m 2 ) to be output are output to the distance calculation means 534.

距離演算手段534は、第一番号対応座標選択手段532から出力された識別番号m1の推定座標xt|t(m1)と、第二番号対応座標選択手段533から出力された識別番号m2の推定座標xt|t(m2)との距離をdm1,m2を求め、最小値演算手段535に出力するものである。この距離dm1,m2は、次に示す(24)式によって表される。 The distance calculation means 534 includes the estimated coordinates x t | t (m 1 ) of the identification number m 1 output from the first number corresponding coordinate selection means 532 and the identification number m output from the second number corresponding coordinate selection means 533. 2 of the estimated coordinates x t | a distance between t (m 2) obtains the d m1, m2, and outputs the minimum value calculating means 535. This distance d m1, m2 is expressed by the following equation (24).

Figure 2006285878
Figure 2006285878

最小値演算手段535は、距離演算手段534から出力された距離dm1,m2と、カウンタ手段531から出力された識別番号m1とに基づいて、識別番号m2の推定座標xt|t(m2)から最も距離の近い推定座標xt|t(m1)までの距離dmin(m2)を、次に示す(25)式を用いて求め、平均値演算出手段536に出力するものである。 Minimum value calculating means 535, the distance d m1, m @ 2, which is output from the distance calculating unit 534, based on the identification number m 1 output from the counter means 531, the identification number m 2 estimated coordinates x t | t ( from m 2) whose distance estimation coordinates close in x t | distance d min to t (m 1) and (m 2), determined using the following equation (25), and outputs the average value calculation detecting means 536 Is.

Figure 2006285878
Figure 2006285878

平均値演算手段536は、最小値演算手段535から出力された距離dmin(m2)と、カウンタ手段531から出力された識別番号m2とに基づいて、次に示す(26)式を用いて、距離dmin(m2)を識別番号m2に亘って平均演算を行って、平均値dを求め、この平均値dを人物間距離dとし、特徴ベクトルを構成する特徴量の一つとして出力するものである。 Based on the distance d min (m 2 ) output from the minimum value calculator 535 and the identification number m 2 output from the counter 531, the average value calculator 536 uses the following expression (26). Then, the distance d min (m 2 ) is averaged over the identification number m 2 to obtain the average value d, and this average value d is set as the inter-person distance d, which is one of the feature quantities constituting the feature vector. Is output as

Figure 2006285878
Figure 2006285878

図5に示した人物群重心計測手段54は、入力された各人物(各追跡領域)の識別番号mの推定座標xt|t(m)、推定速度vt|t(m)および色分類番号C(m)に基づいて、入力映像内に含まれる人物が分布している人物分布(人物群)の重心を、人物群重心g(シルエット群重心定量化値、人物群重心定量化値)として出力するものである。この人物群重心計測手段54の詳細な構成を図10に示す。 The person group center-of-gravity measuring means 54 shown in FIG. 5 has the input estimated coordinates x t | t (m) of the identification number m of each person (each tracking area), the estimated speed v t | t (m), and the color classification. Based on the number C (m), the centroid of the person distribution (person group) in which the persons included in the input video are distributed is the person group centroid g (silhouette group centroid quantification value, person group centroid quantification value). Is output as FIG. 10 shows a detailed configuration of the person group centroid measuring means 54.

図10に示すように、人物群重心計測手段54は、クロック手段541と、順次座標選択手段542と、平均値演算手段543とを備えている。クロック手段541および順次座標選択手段542は、図6に示したクロック手段511および順次座標選択手段513と同様であるので、説明を省略する。   As shown in FIG. 10, the person group center-of-gravity measurement unit 54 includes a clock unit 541, a sequential coordinate selection unit 542, and an average value calculation unit 543. The clock means 541 and the sequential coordinate selection means 542 are the same as the clock means 511 and the sequential coordinate selection means 513 shown in FIG.

平均値演算手段543は、順次座標選択手段542から出力された推定座標xt|t(m)の平均値(ベクトル)を、次に示す(27)式を用いて、クロック手段541から出力された数値時系列に従ったタイミングで求め、人物群重心gとし、特徴ベクトルを構成する特徴量の一つとして出力するものである。 The average value calculation means 543 outputs the average value (vector) of the estimated coordinates x t | t (m) sequentially output from the coordinate selection means 542 from the clock means 541 using the following equation (27). It is obtained at a timing according to the numerical time series, and is output as one of the feature quantities constituting the feature vector as the person group centroid g.

Figure 2006285878
Figure 2006285878

図5に示した平均速さ計測手段55は、入力された各人物(各追跡領域)の識別番号mの推定座標xt|t(m)、推定速度vt|t(m)および色分類番号C(m)に基づいて、入力映像内に含まれる人物が分布している人物分布(人物群)の重心の速さを、平均速さs(シルエット速さ定量化値、人物速さ定量化値)として出力するものである。この平均速さ計測手段55の詳細な構成を図11に示す。 The average speed measuring means 55 shown in FIG. 5 receives the estimated coordinates x t | t (m), the estimated speed v t | t (m) of the input identification number m of each person (each tracking area), and the color classification. Based on the number C (m), the speed of the center of gravity of the person distribution (person group) in which the persons included in the input video are distributed is expressed as the average speed s (silhouette speed quantification value, person speed quantification). Output as a conversion value). A detailed configuration of the average speed measuring means 55 is shown in FIG.

図11に示すように、平均速さ計測手段55は、クロック手段551と、順次速度選択手段552と、絶対値演算手段553と、平均値演算手段554とを備えている。クロック手段551は、図6に示したクロック手段511と同様であるので、説明を省略する。   As shown in FIG. 11, the average speed measuring means 55 includes a clock means 551, a sequential speed selecting means 552, an absolute value calculating means 553, and an average value calculating means 554. The clock means 551 is the same as the clock means 511 shown in FIG.

順次速度選択手段552は、識別番号m、色分類番号C(m)、推定座標xt|t(m)および推定速度vt|t(m)が入力され、クロック手段551から出力された数値時系列に従ったタイミングで、順次指定される識別番号mの色分類番号C(m)が特定の値のものを抽出して、該当したものの推定速度vt|t(m)を、絶対値演算手段553に出力するものである。順次速度選択手段552は、前記したように、入力映像がサッカー競技映像である場合、特定の値を“0”から“3”とすれば、選手のみの推定速度vt|t(m)を選択する(選び出す)ことができる。 The sequential speed selection means 552 receives the identification number m, the color classification number C (m), the estimated coordinates x t | t (m) and the estimated speed v t | t (m), and the numerical value output from the clock means 551. At the timing in accordance with the time series, the color classification number C (m) of the identification number m sequentially specified is extracted with a specific value, and the estimated speed v t | t (m) of the corresponding one is extracted as an absolute value. This is output to the calculation means 553. As described above, the sequential speed selection means 552 determines the estimated speed v t | t (m) only for the player if the specific value is changed from “0” to “3” when the input video is a soccer game video. Can be selected (selected).

絶対値演算手段553は、順次速度選択手段552から出力された推定速度vt|t(m)の絶対値を求めるものである。この推定速度vt|t(m)の絶対値は、次に示す(28)式によって定義される。 The absolute value calculation means 553 obtains the absolute value of the estimated speed v t | t (m) output from the speed selection means 552 sequentially. The absolute value of the estimated speed v t | t (m) is defined by the following equation (28).

Figure 2006285878
Figure 2006285878

平均値演算手段554は、絶対値演算手段553から出力された推定速度vt|t(m)の絶対値の平均値を、次に示す(29)式を用いて求めた平均速さsとし、特徴ベクトルを構成する特徴量の一つとして出力するものである。 The average value calculating means 554 sets the average value of the absolute values of the estimated speed v t | t (m) output from the absolute value calculating means 553 as the average speed s obtained using the following equation (29). Are output as one of the feature quantities constituting the feature vector.

Figure 2006285878
Figure 2006285878

図5に示した平均速度計測手段56は、入力された各人物(各追跡領域)の識別番号mの推定座標xt|t(m)、推定速度vt|t(m)および色分類番号C(m)に基づいて、入力映像内に含まれる人物が分布している人物分布(人物群)の重心の速度を、平均速度u(シルエット速度定量化値、人物速度定量化値)として出力するものである。この平均速度計測手段56の詳細な構成を図12に示す。 The average speed measuring means 56 shown in FIG. 5 is configured to input the estimated coordinates x t | t (m), the estimated speed v t | t (m), and the color classification number of the identification number m of each person (each tracking area). Based on C (m), the speed of the center of gravity of the person distribution (person group) in which persons included in the input video are distributed is output as an average speed u (silhouette speed quantified value, person speed quantified value). To do. A detailed configuration of the average speed measuring means 56 is shown in FIG.

図12に示すように、平均速度計測手段56は、クロック手段561と、順次速度選択手段562と、平均値演算手段563とを備えている。なお、クロック手段561は図6に示したクロック手段511と同様であり、順次速度選択手段562は図11に示した順次速度選択手段552と同様であるので、説明を省略する。   As shown in FIG. 12, the average speed measurement means 56 includes a clock means 561, a sequential speed selection means 562, and an average value calculation means 563. The clock means 561 is the same as the clock means 511 shown in FIG. 6, and the sequential speed selection means 562 is the same as the sequential speed selection means 552 shown in FIG.

平均値演算手段563は、順次速度選択手段552から出力された推定速度vt|t(m)の平均値を、次に示す(30)式を用いて、クロック手段561から出力された数値時系列に従ったタイミングで求め、平均速度uとし、特徴ベクトルを構成する特徴量の一つとして出力するものである。 The average value calculation means 563 calculates the average value of the estimated speeds v t | t (m) sequentially output from the speed selection means 552 by using the following equation (30) and the numerical value output from the clock means 561. It is obtained at a timing according to the series, and is output as one of the feature quantities constituting the feature vector, with the average speed u.

Figure 2006285878
Figure 2006285878

図5に示した特定領域監視手段57は、入力された各人物(各追跡領域)の識別番号mの推定座標xt|t(m)、推定速度vt|t(m)および色分類番号C(m)に基づいて、入力映像内に含まれる人物が特定領域に含まれているか否かを判定し、判定した結果を、監視結果w(判定値)として出力するものである。この特定領域監視手段57の詳細な構成を図13に示す。 The specific area monitoring means 57 shown in FIG. 5 uses the estimated coordinates x t | t (m), the estimated speed v t | t (m), and the color classification number of the input identification number m of each person (each tracking area). Based on C (m), it is determined whether or not a person included in the input video is included in the specific area, and the determined result is output as a monitoring result w (determination value). A detailed configuration of the specific area monitoring unit 57 is shown in FIG.

図13に示すように、特定領域監視手段57は、クロック手段571と、順次番号対応座標選択手段572と、色分類別2次元閾値演算手段573とを備えている。なお、クロック手段571は、図6に示したクロック手段511と同様であるので、説明を省略する。   As shown in FIG. 13, the specific area monitoring unit 57 includes a clock unit 571, a sequential number corresponding coordinate selection unit 572, and a color classification-specific two-dimensional threshold value calculation unit 573. The clock means 571 is the same as the clock means 511 shown in FIG.

順次番号対応座標選択手段572は、識別番号m、推定座標xt|t(m)および推定速度vt|t(m)が入力され、クロック手段571から出力された数値時系列に従ったタイミングで、順次指定される識別番号mの推定座標xt|t(m)を、色分類別2次元閾値演算手段573に出力するものである。 The sequential number corresponding coordinate selection means 572 receives the identification number m, the estimated coordinates x t | t (m) and the estimated speed v t | t (m), and the timing according to the numerical time series output from the clock means 571. Thus, the estimated coordinates x t | t (m) of the identification number m sequentially specified are output to the two-dimensional threshold value calculation means 573 classified by color classification.

色分類別2次元閾値演算手段573は、識別番号mおよび色分類番号C(m)が入力され、順次番号対応座標選択手段572から出力された識別番号mの推定座標xt|t(m)に基づいて、色分類番号C(m)ごとに予め設定された領域W(C)内に、当該色分類番号C(m)が付加(付与)されている人物の識別番号mの推定座標xt|t(m)(色分類番号C(m)が該当している人物の推定座標xt|t(m)とする)が含まれているか否かを判定するものである。 The two-dimensional threshold value calculation means 573 for each color classification receives the identification number m and the color classification number C (m), and sequentially estimates the estimated coordinates x t | t (m) of the identification number m output from the number corresponding coordinate selection means 572. The estimated coordinates x of the identification number m of the person to which the color classification number C (m) is added (given) in the area W (C) set in advance for each color classification number C (m) t | t (m) (estimated coordinates of a person color classification number C (m) is applicable x t | a t (m)) is to determine whether or not included.

そして、色分類別2次元閾値演算手段573は、次に示す(31)式を用いて、領域W(C)内に、色分類番号C(m)が該当している人物の推定座標xt|t(m)が含まれている場合には、監視結果w=TRUEを、領域W(C)内に、色分類番号C(m)が該当している人物の推定座標xt|t(m)が含まれていない場合には、監視結果w=FALSEを、特徴ベクトルを構成する特徴量の一つとして出力するものである。 Then, the color classification two-dimensional threshold value calculation means 573 uses the following equation (31) to estimate the estimated coordinates x t of the person corresponding to the color classification number C (m) in the region W (C). If | t (m) is included, the monitoring result w = TRUE is obtained, and the estimated coordinates x t | t (of the person corresponding to the color classification number C (m) in the region W (C) If m) is not included, the monitoring result w = FALSE is output as one of the feature quantities constituting the feature vector.

Figure 2006285878
Figure 2006285878

例えば、色分類別2次元閾値演算手段573は、入力映像がサッカー競技映像である場合、サッカーコートの右側の二つのコーナー(右奥または右手前のコーナー)を中心とするそれぞれ半径qメートルの2円内の和集合で構成される領域W(1)と、サッカーコートの左側の二つのコーナー(左奥または左手前のコーナー)を中心とするそれぞれ半径qメートルの2円内の和集合で構成される領域W(3)とする。   For example, when the input video is a soccer game video, the color classification-specific two-dimensional threshold value calculation means 573 has a radius of q meters each having two corners on the right side of the soccer court (the right back corner or the right front corner). Consists of the union of two circles with a radius of q meters centering on the area W (1) composed of the union in the circle and the two left corners (left back or left front corner) of the soccer court. Region W (3) to be performed.

なお、これらW(1)およびW(3)の括弧内の数字“1”および“3”は色分類番号を指している。ここでは、この色分類番号は、右側に向かって攻撃するチームのフィールド選手を“1”、右側に向かって攻撃するチームのゴールキーパーを“2”、左側に向かって攻撃するチームのフィールド選手を“3”、左側に向かって攻撃するチームのゴールキーパーを“4”、審判を“5”、その他(ボールボーイ、監督、観客等)を“6”としている。   The numbers “1” and “3” in parentheses of W (1) and W (3) indicate color classification numbers. Here, the color classification number is “1” for the field player of the team attacking toward the right side, “2” for the goalkeeper of the team attacking toward the right side, and the field player of the team attacking toward the left side. “3”, “4” for the goalkeeper of the team attacking to the left, “5” for the referee, and “6” for others (ballboy, director, spectator, etc.).

つまり、W(1)は、色分類番号1の選手(右側に向かって攻撃するチームのフィール選手)が右奥または右手前のコーナーに来た(いる)場合、W(3)は色分類番号3の選手(左側に向かって攻撃するチームのフィールド選手)が左奥または左手前のコーナーに来た(いる)場合に監視結果w=TRUEとなる。なお、通常、右側または左側に向かって攻撃しているチーム(攻撃側)のゴールキーパーが、守備側のコーナーに来ることはないので、W(2)(色分類番号2のゴールキーパー(右側に向かって攻撃するチームのゴールキーパー)が右奥または右手前のコーナーに来た(いる)場合)と、W(4)(色分類番号4のゴールキーパー(左側に向かって攻撃するチームのゴールキーパー)が左奥または左手前のコーナーに来た(いる)場合)とは空集合φとしておく。   That is, W (1) is the color classification number 1 when the player of the color classification number 1 (the feel player of the team attacking toward the right side) comes to the right back or right front corner (is present). When three players (field players of the team attacking toward the left side) have come to the left back corner or the left front corner, the monitoring result w = TRUE. Normally, the goalkeeper of the team attacking to the right or left (attacking side) does not come to the corner on the defensive side, so W (2) (color classification number 2 goalkeeper (on the right side) W (4) (color classification number 4 goalkeeper (goalkeeper of the team attacking toward the left side) (when the goalkeeper of the team attacking towards) is in the right back or right front corner) ) Comes to (being in) the left back corner or the left front corner), the empty set φ is set.

また、W(5)(色分類番号5の審判がいずれかのコーナーに来た(いる)場合)およびW(6)(色分類番号6のボールボーイ、監督、観客等がいずれかのコーナーに来た(いる)場合)も空集合φと設定しておく。そうすることで、守備側のコーナーに、攻撃側の選手(フィールド選手)がいるか否かを判定することができる。   In addition, W (5) (when the referee of color classification number 5 is in any corner) (W) (6) (ball boy, director, spectator, etc. of color classification number 6 is in any corner) If it comes (if there is), it is set as an empty set φ. By doing so, it is possible to determine whether or not there is an attacking player (field player) in the defensive corner.

なお、特徴ベクトル抽出手段5(図1、図5参照)を実装する場合には、クロック手段511(図6参照)、クロック手段521(図8参照)、クロック手段541(図10参照)、クロック手段551(図11参照)、クロック手段561(図12参照)およびクロック手段571(図13参照)を共通化し、順次座標選択手段513(図6参照)、順次座標選択手段522(図8参照)および順次座標選択手段542(図10参照)を共通化し、順次速度選択手段552(図11参照)および順次速度選択手段562(図12参照)を共通化して、より少ない手段数によって行ってもよい。   When the feature vector extracting means 5 (see FIGS. 1 and 5) is mounted, the clock means 511 (see FIG. 6), the clock means 521 (see FIG. 8), the clock means 541 (see FIG. 10), the clock The means 551 (see FIG. 11), the clock means 561 (see FIG. 12) and the clock means 571 (see FIG. 13) are made common, and the sequential coordinate selection means 513 (see FIG. 6) and the sequential coordinate selection means 522 (see FIG. 8). Alternatively, the sequential coordinate selection means 542 (see FIG. 10) may be shared, and the sequential speed selection means 552 (see FIG. 11) and sequential speed selection means 562 (see FIG. 12) may be shared, and the number of means may be reduced. .

図1に戻って、映像解析装置1の構成の説明を続ける。
イベント検出手段6は、特徴ベクトル抽出手段5から出力された特徴ベクトルの少なくとも1つの成分(特徴量)に基づいて、入力映像に含まれている映像シーンを特徴付けるイベント(出来事)を検出し、検出した結果を、フラグE(フラグ信号)として、ポストフィルタ手段7に出力するものである。なお、このイベント検出手段6は、必要に応じた数n(nは任意の整数)のイベント検出手段6(6−1)、6(6−2)、・・・、6(6−n)を備えることができる。
Returning to FIG. 1, the description of the configuration of the video analysis apparatus 1 will be continued.
The event detection unit 6 detects and detects an event (event) that characterizes the video scene included in the input video based on at least one component (feature amount) of the feature vector output from the feature vector extraction unit 5. The result is output to the post filter means 7 as a flag E (flag signal). The event detection means 6 includes a number n (n is an arbitrary integer) of event detection means 6 (6-1), 6 (6-2), ..., 6 (6-n) as necessary. Can be provided.

つまり、このイベント検出手段6は、特徴ベクトルに含まれている特徴量が、予め設定した条件を満たした場合を、イベントとして検出し、検出した結果を示すフラグE(フラグ信号)として出力するものである。なお、予め設定した条件とは、ここでは、入力映像を、サッカー映像として、後記する(36)式から(42)式までに示した条件を採用している。このイベント検出手段6の詳細な構成を図14に示す。   That is, the event detection means 6 detects a case where the feature amount included in the feature vector satisfies a preset condition as an event, and outputs it as a flag E (flag signal) indicating the detection result. It is. Here, the conditions set in advance are based on the conditions shown in equations (36) to (42), which will be described later, where the input image is a soccer image. A detailed configuration of the event detection means 6 is shown in FIG.

図14に示すように、イベント検出手段6は、特徴ベクトルを構成する特徴量の数nに応じた数の特徴量間演算手段61(61−1)、61(61−2)、・・・、61(61−n)と、閾値演算手段62(62−1)、62(62−2)、・・・、62(62−n)と、論理演算手段63と、遅延手段64とを備えている。   As shown in FIG. 14, the event detection means 6 has a number of feature quantity calculation means 61 (61-1), 61 (61-2),... According to the number n of feature quantities constituting the feature vector. , 61 (61-n), threshold value calculating means 62 (62-1), 62 (62-2),..., 62 (62-n), logic calculating means 63, and delay means 64. ing.

特徴量間演算手段61は、特徴ベクトルを構成する複数の特徴量の間で演算を行って、演算した結果の値をγとして、閾値演算手段62に出力するものである。以下、γを複合特徴量と呼称し、必要に応じて下付きの添え字をして区別するものとする。   The feature amount calculation means 61 performs a calculation between a plurality of feature amounts constituting a feature vector, and outputs the calculated result value to the threshold value calculation means 62 as γ. Hereinafter, γ is referred to as a composite feature amount, and is distinguished by subscripts as necessary.

この特徴量間演算手段61は、例えば、入力された特徴ベクトルの複数種類の特徴量の中から、一種類の特徴量のみを選択し、選択した特徴量の値を変換すること無く出力することができる。次に示す(32)式は、人数N、人物間距離d、平均速さsに関する複合特徴量(一種類(単一)の特徴量をそのまま選択して出力しているので、実際には複合していないが、便宜上、複合特徴量と呼称する)γpop、γdistおよびγspdの一例を示している。 This inter-feature quantity calculation means 61, for example, selects only one type of feature quantity from a plurality of types of feature quantities of the input feature vector and outputs the selected feature quantity value without conversion. Can do. In the following equation (32), a composite feature value (one type (single) feature value) related to the number of people N, the distance d between people, and the average speed s is selected and output as it is. Although not shown for convenience, they are referred to as composite feature values). Examples of γ pop , γ dist and γ spd are shown.

Figure 2006285878
Figure 2006285878

なお、この場合、イベント検出手段6には、特徴量間演算手段61を設けずに、一種類の特徴ベクトルのみを直接、閾値演算手段62に入力するようにしてもよい。
また、特徴量間演算手段61は、例えば、入力れた特徴ベクトルのうち、一種類の特徴量のベクトル値を選択し、当該特徴量に線形または非線形の変換を施して出力することが可能である。次に示す(33)式は、人物群重心gの第一成分(水平成分)、平均速度uの第一成分(水平成分)を抽出した複合特徴量γgravおよびγveloの一例を示している。
In this case, the event detection unit 6 may be configured to directly input only one type of feature vector to the threshold value calculation unit 62 without providing the feature amount calculation unit 61.
Also, the feature quantity calculation means 61 can select, for example, a vector value of one type of feature quantity from among the input feature vectors, and perform linear or nonlinear conversion on the feature quantity and output it. is there. The following equation (33) shows an example of the composite feature amounts γ grav and γ velo obtained by extracting the first component (horizontal component) of the person group center of gravity g and the first component (horizontal component) of the average velocity u. .

Figure 2006285878
Figure 2006285878

さらに、特徴量間演算手段61は、例えば、入力された特徴ベクトルのうち、複数種の特徴量の間で演算を行った結果を、複合特徴量γとして出力することが可能である。例えば、人数Nと人物群分布面積Vとに基づいて、次に示す(34)式を用いて、人口密度に相当する複合特徴量γpdを演算(計算)することが可能である。 Further, the inter-feature quantity calculation means 61 can output, for example, a result obtained by performing computation among a plurality of types of feature quantities among the input feature vectors as a composite feature quantity γ. For example, based on the number of people N and the person group distribution area V, it is possible to calculate (calculate) the composite feature quantity γ pd corresponding to the population density using the following equation (34).

Figure 2006285878
Figure 2006285878

さらにまた、特徴量間演算手段61は、例えば、入力された特徴ベクトルのうち、真理値たる一種類の特徴量のみを選択し、当該真理値のTRUEおよびFALSEに応じて、それぞれ異なる値を出力することが可能である。次に示す(35)式は、特定領域監視手段57から出力された監視結果wに応じた複合特徴量γrgnの一例を示している。 Furthermore, the feature quantity calculation means 61 selects, for example, only one kind of feature quantity that is a truth value from the input feature vectors, and outputs different values according to the truth values TRUE and FALSE. Is possible. The following equation (35) shows an example of the composite feature amount γ rgn corresponding to the monitoring result w output from the specific area monitoring unit 57.

Figure 2006285878
Figure 2006285878

なお、この特定領域監視手段57から出力された監視結果wに応じた複合特徴量γrgnの場合、イベント検出手段6には、特徴量間演算手段61および閾値演算手段62を設けずに、監視結果w(真理値たる一種類の特徴量)を直接、論理演算手段63に入力してもよい。 In the case of the composite feature amount γ rgn corresponding to the monitoring result w output from the specific region monitoring unit 57, the event detection unit 6 is not provided with the inter-feature amount calculation unit 61 and the threshold value calculation unit 62, and is monitored. The result w (one kind of feature value as a truth value) may be directly input to the logical operation means 63.

閾値演算手段62は、特徴量間演算手段61から出力された複合特徴量γが、予め設定された範囲内にある場合に、真理値L=TRUEを、予め設定された範囲内にない場合に、真理値L=FALSEを、論理演算手段63に出力するものである。この閾値演算手段62は、例えば、複合特徴量γとして、平均速さγsが入力され、予め設定された閾値θs(以下、θに下付添え字は、添え字に対応した閾値を示す)により設定された範囲γs≧θsを、平均速さγsが満たす場合、真理値L=TRUEを、平均速さγsを満たさない場合、真理値L=FALSEを出力することが可能である。 The threshold value calculation means 62, when the composite feature quantity γ output from the feature quantity calculation means 61 is within a preset range, when the truth value L = TRUE is not within the preset range. , Truth value L = FALSE is output to the logical operation means 63. This threshold value calculation means 62 receives, for example, an average speed γ s as a composite feature amount γ, and a preset threshold value θ s (hereinafter, subscripts attached to θ indicate threshold values corresponding to the subscripts). ) If the average speed γ s satisfies the range γ s ≧ θ s set by), the truth value L = TRUE can be output, and if the average speed γ s is not satisfied, the truth value L = FALSE can be output. It is.

論理演算手段63は、少なくとも1つの閾値演算手段62から出力された真理値L1、L2、・・・、Ln(以下、真理値Lの下付添え字により、複数の真理値Lを区別する)および遅延手段64から出力された真理値J(詳細は後記する)に基づいて、予め設定した論理演算を行って、この論理演算を行った演算結果を、イベントを示すフラグE(以下、フラグEの下付添え字により、複数のフラグEを区別する)として出力するものである。 The logical operation means 63 outputs the truth values L 1 , L 2 ,..., L n (hereinafter referred to as truth value L subscripts) from the at least one threshold value operation means 62. And a logical operation set in advance based on the truth value J (details will be described later) output from the delay means 64, and the operation result obtained by performing this logical operation is represented by a flag E (hereinafter referred to as an event). , A plurality of flags E are distinguished by a subscript of the flag E).

この論理演算手段63は、遅延手段64から出力された真理値Jが存在する場合には、当該真理値Jに対しても、真理値Lに行った論理演算と、同一または異なる論理演算を行って、この論理演算を行った演算結果を、真理値(複数の真理値からなるベクトル)eとして、遅延手段64に出力する。   When there is a truth value J output from the delay means 64, the logic operation means 63 performs the same or different logic operation on the truth value J as the logic operation performed on the truth value L. The result of the logical operation is output to the delay means 64 as a truth value (vector consisting of a plurality of truth values) e.

遅延手段64は、論理演算手段63から出力された真理値e(真理値eがベクトルの場合、各成分)を所定時間遅延して、真理値Jとして、論理演算手段63に出力するものである。なお、イベント検出手段6には、遅延手段64を設けずに、論理演算手段63から真理値eを出力することと、真理値Jを出力することとを省略してもよい。   The delay means 64 delays the truth value e output from the logic operation means 63 (each component when the truth value e is a vector) by a predetermined time, and outputs it to the logic operation means 63 as a truth value J. . Note that the event detection means 6 may be omitted without providing the delay means 64 and outputting the truth value e from the logic operation means 63 and outputting the truth value J.

ここで、入力映像がサッカー映像である場合のイベント検出手段6の処理について説明する。
サッカー映像において、コーナーキックのイベントを検出する場合には、例えば、コーナーに一人の攻撃側の選手がいて、攻撃側の選手および守備側の選手の動きが少なく、ペナルティエリア内に多くの選手が存在し、且つ、人口密度が高い状態を検出すればよいことになる。こういった状況を、次に示す(36)式を用いて表し、コーナーキックのイベントに関するフラグECKを求めることができる。
Here, the processing of the event detection means 6 when the input video is a soccer video will be described.
When detecting a corner kick event in a soccer video, for example, there is one attacking player in the corner, there is little movement of the attacking player and the defensive player, and there are many players in the penalty area. It is only necessary to detect a state that exists and has a high population density. Such a situation can be expressed using the following equation (36), and the flag ECK relating to the corner kick event can be obtained.

Figure 2006285878
Figure 2006285878

この(36)式において、Lcorner1は、コーナー(右側の2コーナーに設定した半径qメートルの2つ円内の和集合W(1)および左側の2コーナーに設定した半径qメートルの2つの円内の和集合W(3)、並びに、空集合φであるW(2)、W(4)、W(5)およびW(6))のいずれかに選手がいるか否かを示す真理値であり、この場合、w(TRUE)であるので、コーナーに選手がいることを示している。Lstatic1は、平均速さsが平均速さsの閾値θstatic1以内または以上であるかを示す真理値であり、この場合、s≦θstatic1であるので、平均速さsは閾値θstatic1以内であることを示している。また、Lmany1は、人数Nが人数Nの閾値θmany1以内または以上であるかを示す真理値であり、この場合、N≧θmanyであるので、人数Nは閾値θmany1以上であることを示している。Ldense1は、人口密度γpdが人口密度の閾値θdense1以内または以上であるかを示す真理値であり、この場合、γpd≧θdense1であるので、人口密度γpdはθdense1以上であることを示している。Eck1は、コーナーキックのイベントに関するフラグの一つであり、この場合、Lcorner1、Lstatic1、Lmany1およびLdense1のすべてを満たす場合に検出される。 In this equation (36), L corner1 is a corner (the union W (1) in two circles with a radius of q meters set at the two right corners and two circles with a radius of q meters set at the two left corners) Truth value indicating whether or not there is a player in any of the union set W (3) and the empty set φ W (2), W (4), W (5) and W (6)) Yes, in this case, w (TRUE), indicating that there is a player in the corner. L static1 is a truth value indicating whether the average speed s is within or above the threshold θ static1 of the average speed s. In this case, since s ≦ θ static1 , the average speed s is within the threshold θ static1. It is shown that. Further, L many1 is a truth value indicating whether the number N is within the threshold value θ many1 of the number N or more. In this case, N ≧ θ many , so that the number N is equal to or more than the threshold value θ many1. Show. L dense1 is a truth value indicating whether the population density γ pd is within or above the population density threshold θ dense1 , and in this case, since γ pd ≧ θ dense1 , the population density γ pd is greater than or equal to θ dense1. It is shown that. E ck1 is one of the flags related to the corner kick event. In this case, E ck1 is detected when all of L corner1 , L static1 , L many1 and L dense1 are satisfied.

なお、ここでは、イベント検出手段61は、特定領域監視手段57(図5、図13参照)から出力された監視結果wを、特徴量間演算手段61および閾値演算手段62を介さずに、直接、真理値Lcorner1として、設定している。また、イベント検出手段61は、人物計測手段51(図5、図6参照)から出力された人数Nと、平均速さ計測手段55(図5、図11参照)から出力された平均速さsとを、特徴量間演算手段61を介さず、直接、閾値演算手段62に入力し、この閾値演算手段62の演算結果(計算結果)を、真理値Lmany1、Lstatic1として設定している。 Here, the event detection unit 61 directly outputs the monitoring result w output from the specific region monitoring unit 57 (see FIGS. 5 and 13) without using the feature amount calculation unit 61 and the threshold value calculation unit 62. , The truth value L corner1 is set. Further, the event detection means 61 includes the number N of people output from the person measurement means 51 (see FIGS. 5 and 6) and the average speed s output from the average speed measurement means 55 (see FIGS. 5 and 11). Are directly input to the threshold value calculation unit 62 without using the feature quantity calculation unit 61, and the calculation results (calculation results) of the threshold value calculation unit 62 are set as the truth values L many1 and L static1 .

また、サッカー映像において、フリーキックのイベントを検出する場合、フリーキックのイベントに関するフラグEFKは、次に示す(37)式を用いて求めることができる。 Further, when a free kick event is detected in a soccer video, the flag EFK related to the free kick event can be obtained using the following equation (37).

Figure 2006285878
Figure 2006285878

この(37)式において、Lcorner2は、コーナー(右側の2コーナーに設定した半径qメートルの2つ円内の和集合W(1)および左側の2コーナーに設定した半径qメートルの2つの円内の和集合W(3)、並びに、空集合φであるW(2)、W(4)、W(5)およびW(6))のいずれかに選手がいるか否かを示す真理値であり、この場合、w(TRUE)であるので、コーナーに選手がいることを示している。Lstatic2は、平均速さsが平均速さsの閾値θstatic2以内または以上であるかを示す真理値であり、この場合、s≦θstatic2であるので、平均速さsは閾値θstatic2以内であることを示している。また、Lmany2は、人数Nが人数Nの閾値θmany2以内または以上であるかを示す真理値であり、この場合、N≧θmany2であるので、人数Nは閾値θmany2以上であることを示している。Ldense2は、人口密度γpdが人口密度の閾値θdense以内または以上であるかを示す真理値であり、この場合、γpd≧θdense2であるので、人口密度γpdはθdense2以上であることを示している。EFk2は、フリーキックのイベントに関するフラグの一つであり、この場合、Lcorner2に(¬:論理否定)が付加されているので、Lcorner2を満たさず、且つ、Lstatic2、Lmany2およびLdense2を満たす場合に検出される。
つまり、フリーキックの場合、コーナーキックとは異なり、コーナーエリアに選手がいることはないと想定でき、他の状況はコーナーキックとほぼ同じとなる。
In this equation (37), L corner2 is a corner (a union W (1) in two circles with a radius of q meters set at the two right corners and two circles with a radius of q meters set at the two left corners) Truth value indicating whether or not there is a player in any of the union set W (3) and the empty set φ W (2), W (4), W (5) and W (6)) Yes, in this case, w (TRUE), indicating that there is a player in the corner. L static2 is a truth value indicating whether the average speed s is within the threshold value θ static2 of the average speed s or more, and in this case, since s ≦ θ static2 , the average speed s is within the threshold value θ static2. It is shown that. In addition, L many2 is a truth value indicating whether the number N is within the threshold value θ many2 of the number N or more. In this case, N ≧ θ many2 , so that the number N is equal to or more than the threshold value θ many2. Show. L dense2 is a truth value indicating whether the population density γ pd is within or above the population density threshold θ dense . In this case, since γ pd ≧ θ dense2 , the population density γ pd is greater than or equal to θ dense2. It is shown that. E Fk2 is one of the flags relating to the free kick event. In this case, since ( corner : logical negation) is added to L corner2 , L corner2 is not satisfied, and L static2 , L many2 and L Detected when dense2 is satisfied.
In other words, unlike a corner kick, in the case of a free kick, it can be assumed that there are no players in the corner area, and other situations are almost the same as the corner kick.

また、サッカー映像において、左側に向かって攻撃しているイベントを検出する場合、左側に向かって攻撃しているイベントに関するフラグEleftは、次に示す(38)式を用いて求めることができる。 Further, when an event attacking toward the left side is detected in the soccer video, the flag E left related to the event attacking toward the left side can be obtained using the following equation (38).

Figure 2006285878
Figure 2006285878

この(38)式において、Lleft3は、平均速度uの第一成分(右向きを正とした場合の平均速度uの水平成分)を符号反転した−γvelo(左に向かう選手の平均速度)が平均速度uの閾値θleft3以内または以上であるかを示す真理値であり、この場合、−γvelo≧θleft3であるので、平均速度uの第一成分を符号反転した−γveloは閾値θleft3以上であることを示している。また、Lmany3は、人数Nが人数Nの閾値θmany3以内または以上であるかを示す真理値であり、この場合、N≧θmany3であるので、人数Nは閾値θmany3以上であることを示している。Eleft3は、左側に向かって攻撃しているイベントに関するフラグの一つであり、この場合、Lleft3およびLmany3を満たす場合に検出される。 In this equation (38), L left3 is -γ velo (the average speed of the player heading to the left) obtained by inverting the sign of the first component of the average speed u (the horizontal component of the average speed u when the right direction is positive). Truth value indicating whether the average velocity u is within or above the threshold value θ left3 , and in this case, −γ velo ≧ θ left3 , and therefore −γ velo obtained by inverting the sign of the first component of the average velocity u is the threshold θ Indicates that it is more than left3 . In addition, L many3 is a truth value indicating whether the number N is within the threshold value θ many3 of the number N or more. In this case, N ≧ θ many3 , so that the number N is equal to or more than the threshold value θ many3. Show. E left3 is one of the flags related to the event that is attacking toward the left side. In this case, E left3 is detected when L left3 and L many3 are satisfied.

また、サッカー映像において、右側に向かって攻撃しているイベントを検出する場合、右側に向かって攻撃しているイベントに関するフラグErightは、次に示す(39)式を用いて求めることができる。 Further, when an event attacking toward the right side is detected in the soccer video, the flag E right related to the event attacking toward the right side can be obtained using the following equation (39).

Figure 2006285878
Figure 2006285878

この(39)式において、Lright4は、平均速度uの第一成分(右向きを正とした場合の平均速度uの水平成分)γvelo(右に向かう選手の平均速度)が平均速度uの閾値θright4以内または以上であるかを示す真理値であり、この場合、γvelo≧θright4であるので、平均速度uの第一成分γveloは閾値θright4以上であることを示している。また、Lmany4は、人数Nが人数Nの閾値θmany4以内または以上であるかを示す真理値であり、この場合、N≧θmany4であるので、人数Nは閾値θmany4以上であることを示している。Eright4は、右側に向かって攻撃しているイベントに関するフラグの一つであり、この場合、Lright4およびLmany4を満たす場合に検出される。 In this equation (39), L right4 is the first component of the average speed u (the horizontal component of the average speed u when the right direction is positive) γ velo (the average speed of the player heading to the right) is the threshold value of the average speed u It is a truth value indicating whether it is within or above θ right4 . In this case, since γ velo ≧ θ right4 , the first component γ velo of the average speed u is greater than or equal to the threshold θ right4 . Further, L many4 is a truth value indicating whether the number N is within the threshold value θ many4 of the number N or more. In this case, N ≧ θ many4 , so that the number N is equal to or more than the threshold value θ many4. Show. E right4 is one of the flags relating to the event that is attacking toward the right side. In this case, E right4 is detected when L right4 and L many4 are satisfied.

さらに、サッカー映像において、左側のゴール付近で、左側に向かって攻撃しているイベントを検出する場合、この左側ゴール付近で、左側に向かって攻撃しているイベントに関するフラグEleft_goalは、次に示す(40)式を用いて求めることができる。 Further, when an event attacking toward the left side is detected near the left goal in the soccer video, the flag E left_goal related to the event attacking toward the left side near the left goal is as follows. (40) It can obtain | require using Formula.

Figure 2006285878
Figure 2006285878

この(40)式において、Lleft5は、平均速度uの第一成分(右向きを正とした場合の平均速度uの水平成分)を符号反転した−γvelo(左に向かう選手の平均速度)が平均速度uの閾値θleft5以内または以上であるかを示す真理値であり、この場合、−γvelo≧θleft5であるので、平均速度uの第一成分を符号反転した−γveloは閾値θleft5以上であることを示している。また、Lgoal5は、人物群重心gの第一成分(右向きを正とした場合の人物群重心gの水平成分)を符合反転した−γgravが人物群重心gの閾値θgoal5以内または以上であるかを示す真理値であり、この場合、−γgrav≧θgoal5であるので、人物群重心gの第一成分を符合反転した−γgravは閾値θgoal5以上であることを示している。Lmany5は、人数Nが人数Nの閾値θmany5以内または以上であるかを示す真理値であり、この場合、N≧θmany5であるので、人数Nは閾値θmany5以上であることを示している。Eleft_goal5は、左側ゴール付近で、左側に向かって攻撃しているイベントに関するフラグの一つであり、この場合、Lleft5、Lgoal5およびLmany5を満たす場合に検出される。 In this equation (40), L left5 is -γ velo (average speed of the player heading to the left) obtained by inverting the sign of the first component of the average speed u (the horizontal component of the average speed u when the right direction is positive). This is a truth value indicating whether the average speed u is within or above the threshold value θ left5 , and in this case, −γ velo ≧ θ left5 , and therefore −γ velo obtained by inverting the sign of the first component of the average speed u is the threshold θ Indicates that it is more than left5 . Further, L Goal5 is the first component of the person group centroid g (the right positive and the horizontal component of the person group centroid g in the case of) a sign inverted-gamma grav threshold theta Goal5 within or more person group centroid g the truth value indicating whether, in this case, since it is -γ grav θ goal5, -γ grav that sign inverting the first component of the person group centroid g indicates that the threshold value theta Goal5 more. L many5 is a truth value indicating whether the number N is within the threshold θ many5 of the number N or more, and in this case, since N ≧ θ many5 , it indicates that the number N is the threshold θ many5 or more. Yes. E left_goal5 is one of the flags related to the event that is attacking toward the left side near the left goal, and is detected when L left5 , L goal5, and L many5 are satisfied.

さらにまた、サッカー映像において、右側のゴール付近で、右側に向かって攻撃しているイベントを検出する場合、この右側ゴール付近で、右側に向かって攻撃しているイベントに関するフラグEright_goalは、次に示す(41)式を用いて求めることができる。 Furthermore, in the soccer video, when an event attacking toward the right side is detected near the right goal, the flag E right_goal regarding the event attacking toward the right side near the right goal is It can be obtained using the equation (41) shown.

Figure 2006285878
Figure 2006285878

この(41)式において、Lright6は、平均速度uの第一成分(右向きを正とした場合の平均速度uの水平成分)γvelo(右に向かう選手の平均速度)が平均速度uの閾値θright6以内または以上であるかを示す真理値であり、この場合、γvelo≧θright6であるので、平均速度uの第二成分γveloは閾値θright6以上であることを示している。また、Lgoal6は、人物群重心gの第一成分(右向きを正とした場合の人物群重心gの水平成分)γgravが人物群重心gの閾値θgoal6以内または以上であるかを示す真理値であり、この場合、γgrav≧θgoal6であるので、人物群重心gの第一成分γgravは閾値θgoal6以上であることを示している。Lmany6は、人数Nが人数Nの閾値θmany6以内または以上であるかを示す真理値であり、この場合、N≧θmany6であるので、人数Nは閾値θmany6以上であることを示している。Eright_goal6は、右側ゴール付近で、右側に向かって攻撃しているイベントに関するフラグの一つであり、この場合、Lright6、Lgoal6およびLmany6を満たす場合に検出される。 In this equation (41), L right6 is the threshold value of the first component of the average speed u (the horizontal component of the average speed u when the right direction is positive) γ velo (the average speed of the player toward the right) is the average speed u It is a truth value indicating whether it is within or above θ right6 . In this case, since γ velo ≧ θ right6 , the second component γ velo of the average speed u is greater than or equal to the threshold θ right6 . Also, L goal6 is a truth indicating whether the first component of the human group gravity center g (the horizontal component of the human group gravity center g when the right direction is positive) γ grav is within or above the threshold θ goal6 of the human group gravity center g. In this case, since γ grav ≧ θ goal 6 , the first component γ grav of the person group center of gravity g indicates a threshold θ goal 6 or more. L many6 is a truth value indicating whether the number N is within the threshold value θ many6 of the number N or more. In this case, since N ≧ θ many6 , the number N indicates that the number N is the threshold value θ many6 or more. Yes. E right_goal6 is one of the flags related to the event that is attacking toward the right side near the right side goal. In this case, E right_goal6 is detected when L right6 , L goal6, and L many6 are satisfied.

或いはまた、サッカー映像において、攻撃の方向が右方向から左方向に、または、左方向から右方向に変化する瞬間のイベントに関するフラグEturnは、次に示す(42)式を用いて求めることができる。 Alternatively, in the soccer video, the flag E turn related to the event at the moment when the attack direction changes from the right direction to the left direction or from the left direction to the right direction can be obtained using the following equation (42). it can.

Figure 2006285878
Figure 2006285878

この(42)式において、Lright7は、平均速度uの第一成分γvelo(右に向かう選手の平均速度)が平均速度uの閾値θright7以内または以上であるかを示す真理値であり、この場合、γvelo≧θright7であるので、平均速度uの第一成分γveloは閾値θright7以上であることを示している。Lleft7は、平均速度uの第一成分を符合反転した−γvelo(左に向かう選手の平均速度)が平均速度uの閾値θleft7以内または以上であるかを示す真理値であり、この場合、−γvelo≦θleft7であるので、平均速度uの第一成分を符合反転した−γveloは閾値θleft7以内であることを示している。また、Lmany7は、人数Nが人数Nの閾値θmany7以内または以上であるかを示す真理値であり、この場合、N≧θmany7であるので、人数Nは閾値θmany7以上であることを示している。eright7はフラグEturnを検出するために遅延手段64に入力する真理値の一つであり、Lright7およびLmany7を満たす場合に検出される。eleft7はフラグEturnを検出するために遅延手段64に入力する真理値の一つであり、Lleft7およびLmany7を満たす場合に検出される。Eturn7は、攻撃の方向が右方向から左方向に、または、左方向から右方向に変化する瞬間のイベントに関するフラグの一つであり、この場合、Lleft7および1単位時間過去のeright7(遅延手段64で遅延されたeright7)を満たすか、または、Lright7および1単位時間過去のeleft7(遅延手段64で遅延されたeleft7)を満たし、且つ、Lmany7を満たす場合に検出される。 In this equation (42), L right7 is a truth value indicating whether the first component γ velo of the average speed u (the average speed of the player heading to the right) is within or above the threshold θ right7 of the average speed u, In this case, since γ velo ≧ θ right7 , the first component γ velo of the average speed u is greater than or equal to the threshold θ right7 . L left7 is a truth value indicating whether -γ velo (average speed of the player heading to the left) obtained by sign- inverting the first component of the average speed u is within or above the threshold θ left7 of the average speed u. since in -γ velo θ left7, -γ velo which the first component and sign inversion of the average velocity u indicates that it is within the threshold θ left7. In addition, L many7 is a truth value indicating whether the number N is within the threshold value θ many7 of the number N or more. In this case, since N ≧ θ many7 , the number N is equal to or more than the threshold value θ many7. Show. e right7 is one of the truth values input to the delay means 64 in order to detect the flag E turn, and is detected when L right7 and L many7 are satisfied. e left7 is one of the truth values input to the delay means 64 in order to detect the flag E turn and is detected when L left7 and L many7 are satisfied. E turn7 is one of the flags relating to the event at the moment when the attack direction changes from right to left or from left to right. In this case, L left7 and e right7 (one right past e right7 ( meet or e right7) delayed by the delay means 64, or satisfies L Right7 and 1 unit of time past e left7 (delay means 64 e is delayed by Left7), and are detected when satisfying L Many7 The

図1に戻って、映像解析装置1の構成の説明を続ける。
ポストフィルタ手段7は、イベント検出手段6から出力された1以上のフラグEに対して、時間方向のフィルタ処理と、フラグE間の論理演算処理との少なくとも一方の処理を行って、最終的なイベント出力(イベントを特定するイベント出力信号)εを求めるものである。以下、イベント出力εに付される下付添え字(後記する)により、複数のイベント出力εを区別することとする。このポストフィルタ手段7の詳細な構成を図15に示す。
Returning to FIG. 1, the description of the configuration of the video analysis apparatus 1 will be continued.
The post filter means 7 performs at least one of a time-direction filtering process and a logical operation process between the flags E on one or more flags E output from the event detecting means 6 to obtain a final result. Event output (event output signal for specifying an event) ε is obtained. Hereinafter, a plurality of event outputs ε are distinguished by subscripts (described later) attached to the event output ε. A detailed configuration of the post filter means 7 is shown in FIG.

図15に示すように、ポストフィルタ手段7は、時間率フィルタ手段71(71−1、71−2、・・・、71−7)と、タイムアウト処理手段72(72−1、72−2、・・・、72−7)と、イベント特定論理演算手段73(73−2、73−4、73−5、73−6)とを備えている。   As shown in FIG. 15, the post filter means 7 includes a time rate filter means 71 (71-1, 71-2,..., 71-7) and a timeout processing means 72 (72-1, 72-2, 72-7) and event specifying logic operation means 73 (73-2, 73-4, 73-5, 73-6).

時間率フィルタ手段71は、入力されたフラグEそれぞれに対して、時間方向のフィルタ処理を施すものである。この時間率フィルタ手段71の詳細な構成を図16に示す。
図16に示すように、時間率フィルタ手段71は、遅延手段711(711−1、711−2、711−3、・・・、711−(Δ−1))と、時間率演算手段712と、閾値演算手段713とを備えている。
The time rate filter means 71 performs filtering in the time direction for each of the input flags E. A detailed configuration of this time rate filter means 71 is shown in FIG.
As shown in FIG. 16, the time rate filter means 71 includes delay means 711 (711-1, 711-2, 711-3,..., 711- (Δ−1)), time rate calculation means 712, , And threshold value calculation means 713.

遅延手段711は、複数(Δ−1)個(Δは1以上の整数)から構成されており、入力されたフラグEを1単位時間遅延させて、時間率演算手段712に出力すると共に、連続して配置されている次の遅延手段711に出力するものである。   The delay means 711 is composed of a plurality (Δ−1) (Δ is an integer equal to or greater than 1). The delay means 711 delays the input flag E by one unit time and outputs it to the time rate calculation means 712 and continuously. Are output to the next delay means 711.

時間率演算手段712は、時間率フィルタ手段71に入力されるフラグEの真理値TRUEおよび遅延手段711から出力される(Δ−1)個のフラグEの真理値TRUEの総数を数え、数えた総数をΔで除算した結果(除算結果、時間率ρ)を、閾値演算手段713に出力するものである。   The time rate calculation means 712 counts and counts the total number of truth values TRUE of the flag E input to the time rate filter means 71 and the truth value TRUE of (Δ−1) flags E output from the delay means 711. The result obtained by dividing the total number by Δ (division result, time rate ρ) is output to the threshold value calculation means 713.

閾値演算手段713は、時間率演算手段712から出力された除算結果(時間率ρ)が、予め設定した閾値θρ以上上であるか否かを判定し、閾値θρ以上であった場合に、真理値TRUEを、閾値θρ以上でなかった場合に、真理値FALSEを、タイムアウト処理手段72(図15)に出力するものである。   The threshold value calculation means 713 determines whether or not the division result (time rate ρ) output from the time rate calculation means 712 is greater than or equal to a preset threshold value θρ. When the value TRUE is not equal to or greater than the threshold value θρ, the truth value FALSE is output to the timeout processing means 72 (FIG. 15).

ここで、時間率フィルタ手段71の処理を、図17に示すフラグEの真理値(TRUEまたはFALSE)の例を参照して説明する(適宜、図16参照)。
まず、時間率フィルタ手段71は、(Δ−1)個の遅延手段711によって、時刻t(現時点t)から時刻t−Δ(Δ単位時間過去の時点t−Δ)に至る幅Δの窓を、入力されたフラグEの真理値の時系列に対して設定する。続いて、時間率フィルタ手段71は、時間率演算手段712によって、当該窓内において、真理値がTRUEであった割合(時間率ρ)を求めて閾値演算手段713に出力する。そして、時間率フィルタ手段71は、閾値演算手段713によって、時間率ρと閾値θρとの比較を行い、時間率ρが閾値θρ以上になった場合には、出力をTRUE(入力真理値をTRUE)とし、時間率ρが閾値θρ未満の場合には、出力をFALSE(入力真理値をFALSE)とする。
Here, the processing of the time rate filter means 71 will be described with reference to an example of the truth value (TRUE or FALSE) of the flag E shown in FIG. 17 (see FIG. 16 as appropriate).
First, the time rate filter means 71 uses the (Δ−1) delay means 711 to open a window of width Δ from time t (current time t) to time t−Δ (Δ unit time past time t−Δ). , It is set for the time series of the truth value of the input flag E. Subsequently, the time rate filter unit 71 obtains a ratio (time rate ρ) in which the truth value is TRUE within the window by the time rate calculation unit 712, and outputs it to the threshold value calculation unit 713. Then, the time rate filter means 71 compares the time rate ρ with the threshold value θρ by the threshold value calculating means 713, and when the time rate ρ becomes equal to or greater than the threshold value θρ, the output is TRUE (the input truth value is TRUE). If the time rate ρ is less than the threshold θρ, the output is FALSE (the input truth value is FALSE).

図15に示したタイムアウト処理手段72は、時間率フィルタ手段71から入力された入力真理値(TRUEまたはFALSE)を、δ単位時間に基づいて、タイムアウト処理を行って、真理値TRUEまたは真理値FALSEを、イベント特定論理演算手段73に出力するものである。   The time-out processing means 72 shown in FIG. 15 performs a time-out process on the input truth value (TRUE or FALSE) input from the time rate filter means 71 based on the δ unit time, and the truth value TRUE or the truth value FALSE. Is output to the event specifying logic operation means 73.

すなわち、このタイムアウト処理手段72は、時間率フィルタ手段71から入力された入力真理値がTRUEの場合には、真理値TRUEを、イベント特定論理演算手段73に出力するものである。また、タイムアウト処理手段72は、入力真理値がFALSEであり、且つ、入力真理値がTRUEからFALSEに立ち下がった時点からδ単位時間を経過するまでの間は、真理値TRUEを出力する。   That is, when the input truth value input from the time rate filter means 71 is TRUE, the timeout processing means 72 outputs the truth value TRUE to the event specifying logic operation means 73. Further, the timeout processing means 72 outputs the truth value TRUE from the time when the input truth value is FALSE and the input truth value falls from TRUE to FALSE until a δ unit time elapses.

また、このタイムアウト処理手段72は、時間率フィルタ手段71から入力された入力真理値がFALSEであり、且つ、入力真理値がTRUEからFALSEに立ち下がった時点からδ単位時間を超える場合には、真理値FALSEを出力する。このタイムアウト処理手段72の詳細な構成を図18に示す。   The time-out processing unit 72 is configured such that when the input truth value input from the time rate filter unit 71 is FALSE and the input truth value exceeds δ unit time from the time when the input truth value falls from TRUE to FALSE, The truth value FALSE is output. A detailed configuration of the time-out processing means 72 is shown in FIG.

図18に示すように、タイムアウト処理手段72は、単安定マルチバイブレータ手段721と、論理和演算手段722とを備えている。
単安定マルチバイブレータ手段721は、入力真理値(TRUEまたはFALSE)の立ち下がりエッジ(TRUEからFALSEになった瞬間)を検出し、最近(直近)の立ち下がりの時点からδ単位時間を経過するまでの間のみ真理値TRUEを、論理和演算手段722に出力する。また、単安定マルチバイブレータ手段721は、最近の立ち下がり時点からδ単位時間を経過した後は、真理値FALSEを、論理和演算手段722に出力するものである。
As shown in FIG. 18, the timeout processing means 72 includes monostable multivibrator means 721 and OR operation means 722.
The monostable multivibrator means 721 detects the falling edge (the moment when TRUE or FALSE) of the input truth value (TRUE or FALSE), and until δ unit time elapses from the latest (most recent) falling time The truth value TRUE is output to the logical sum operation means 722 only during The monostable multivibrator unit 721 outputs the truth value FALSE to the logical sum operation unit 722 after δ unit time has elapsed from the latest falling point.

論理和演算手段722は、タイムアウト処理手段72に入力された入力真理値と、単安定マルチバイブレータ手段721から出力された真理値との論理和を演算(計算)し、演算結果を出力するものである。   The logical sum calculation means 722 calculates (calculates) the logical sum of the input truth value input to the timeout processing means 72 and the truth value output from the monostable multivibrator means 721, and outputs the calculation result. is there.

ここで、タイムアウト処理手段72の処理を、図19に示す入力真理値の例を参照して説明する(適宜、図18参照)。
まず、タイムアウト処理手段72は、入力真理値の時系列に対して、単安定マルチバイブレータ手段721によって、入力真理値の立ち下がりエッジを検出し、最近(直近)の立ち下がりの時点からδ単位時間を経過するまでの間のみ真理値TRUEを、最近の立ち下がり時点からδ単位時間を経過した後は、真理値FALSEを、論理和演算手段722に出力する。そして、タイムアウト処理手段72は、論理和演算手段722によって、入力された入力真理値と、単安定マルチバイブレータ手段721から出力された真理値との論理和(いわゆる、or)をとる。つまり、タイムアウト処理手段72の入力と、単安定マルチバイブレータ手段721の出力とのいずれかがTRUEの場合には、真理値TRUEを出力する。
Here, the processing of the timeout processing means 72 will be described with reference to an example of the input truth value shown in FIG. 19 (see FIG. 18 as appropriate).
First, the time-out processing means 72 detects the falling edge of the input truth value by the monostable multivibrator means 721 with respect to the time series of the input truth value, and the δ unit time from the latest (most recent) fall time point. The truth value TRUE is output to the logical sum calculation means 722 only after the lapse of δ, and the truth value FALSE is output after δ unit time has elapsed from the latest falling point. Then, the time-out processing means 72 takes the logical sum (so-called or) of the input truth value input from the OR operation means 722 and the truth value output from the monostable multivibrator means 721. That is, when either the input of the timeout processing unit 72 or the output of the monostable multivibrator unit 721 is TRUE, the truth value TRUE is output.

なお、図15に示したイベント特定論理演算手段73は、タイムアウト処理手段72から出力された真理値TRUEまたは真理値FALSEとに基づいて、論理演算を行って、論理演算を行った結果をイベント出力(イベント出力信号)として出力するものである。   The event specifying logic operation means 73 shown in FIG. 15 performs a logic operation based on the truth value TRUE or the truth value FALSE output from the timeout processing means 72, and outputs the result of the logic operation as an event output. (Event output signal).

例えば、イベント特定論理演算手段73(73−2)は、タイムアウト処理手段72(72−1)から出力された真理値FALSEと、タイムアウト処理手段72(72−1)から出力された真理値との論理積(いわゆる、and)を計算し、論理演算を行った結果を、イベント出力εFKとして出力する。 For example, the event specifying logic operation means 73 (73-2) calculates the truth value FALSE output from the timeout processing means 72 (72-1) and the truth value output from the timeout processing means 72 (72-1). The logical product (so-called and) is calculated, and the result of the logical operation is output as the event output ε FK .

このように、コーナーキックのイベント出力εCKと、フリーキックのイベント出力εFKとの論理積をとっている理由は、サッカー映像において、コーナーキックとフリーキックとを比較すると、ボールを蹴る位置(コーナーか任意の箇所)が異なっているだけで、選手の平均速さや人口密度といった状況は似かよっていて、区別が難しいからである。つまり、コーナーキックとフリーキックとは同時には起こり得ないことを根拠に、この論理積をとることによって、いずれかのイベントを特定することができる。 In this way, the reason for the logical product of the corner kick event output ε CK and the free kick event output ε FK is that the position of kicking the ball ( This is because the situation such as the average speed and population density of the players is similar, and it is difficult to distinguish them, only in the corners or arbitrary places). That is, any event can be specified by taking this logical product on the basis that a corner kick and a free kick cannot occur at the same time.

例えば、イベント特定論理演算手段73(73−4)は、タイムアウト処理手段72(72−3)から出力された真理値FALSEと、タイムアウト処理手段72(72−4)から出力された真理値との論理積(いわゆる、and)を計算し、論理演算を行った結果を、イベント出力εright_goalとして出力する。 For example, the event specifying logic operation means 73 (73-4) calculates the truth value FALSE output from the timeout processing means 72 (72-3) and the truth value output from the timeout processing means 72 (72-4). The logical product (so-called and) is calculated, and the result of the logical operation is output as the event output ε right_goal .

このように、左側ゴール付近で、左側に向かって攻撃しているイベント出力εleft_goaと、右側ゴール付近で、右側に向かって攻撃しているイベント出力εright_goaとの論理積をとっている理由は、サッカー映像において、ボールの位置する場所が左側ゴール付近にあるのか右側ゴール付近にあるのかが異なっているだけで、選手の平均速さや人物群重心の場所は似かよっていて、区別が難しいからである。つまり、左側ゴール付近と右側ゴール付近とには同時にボールが存在しないことを根拠に、この論理積をとることによって、いずれかのイベントを特定することができる。 In this way, in the vicinity of the left side of the goal, and the event output ε left_goa that are attacking towards the left side, in the vicinity of the right goal, the reason for taking a logical product of the event output ε right_goa attacking toward the right side In soccer video, it is difficult to distinguish the place where the ball is located near the left goal or the right goal, because the average speed of the players and the location of the center of gravity of the group of people are similar. is there. That is, any event can be specified by taking this logical product on the basis that there is no ball in the vicinity of the left goal and the right goal.

例えば、イベント特定論理演算手段73(73−5)は、イベント特定論理演算手段73(73−4)から出力されたイベント出力εright_goalの論理否定と、タイムアウト処理手段72(72−5)から出力された真理値との論理積(いわゆる、and)を計算し、論理演算を行った結果を、イベント出力εleftとして出力する。 For example, the event specifying logic operation means 73 (73-5) outputs a logical negation of the event output ε right_goal output from the event specifying logic operation means 73 (73-4) and the timeout processing means 72 (72-5). The logical product (so-called “and”) with the calculated truth value is calculated, and the result of the logical operation is output as the event output ε left .

このように、右側ゴール付近で、右側に向かって攻撃しているイベント出力εright_goalと、左側に向かって攻撃しているイベント出力εleftとの論理積をとっている理由は、サッカー映像において、右側ゴール付近にボールが位置しているが、左側に攻撃する選手にボールが奪われた、いわゆる“カウンター”を検出するためである。 Thus, in the vicinity of the right goal, the reason for taking the logical product of the event output ε right_goal attacking toward the right side and the event output ε left attacking toward the left side is This is to detect a so-called “counter” in which the ball is positioned near the right-side goal, but the player has attacked the left-hand side.

例えば、イベント特定論理演算手段73(73−6)は、イベント特定論理演算手段73(73−5)から出力されたイベント出力εleftの論理否定と、タイムアウト処理手段72(72−6)から出力された真理値との論理積(いわゆる、and)を計算し、論理演算を行った結果を、イベント出力εrightとして出力する。 For example, the event specifying logic operation unit 73 (73-6) outputs a logical negation of the event output ε left output from the event specifying logic operation unit 73 (73-5) and the timeout processing unit 72 (72-6). The logical product (so-called “and”) with the calculated truth value is calculated, and the result of the logical operation is output as the event output ε right .

このように、左側に向かって攻撃しているイベント出力εleftと、右側に向かって攻撃しているイベント出力εrightとの論理積をとっている理由は、サッカー映像において、ボールを蹴っている選手が左方向に攻撃する選手なのか右方向に攻撃する選手なのかが異なっているだけで、選手の平均速さや人物群重心の場所は似かよっていて、区別が難しいからである。つまり、右側に向かって攻撃することと左側に向かって攻撃することとは同時に発生しないことを根拠に、この論理積をとることによって、いずれかのイベントを特定することができる。 In this way, the reason for taking the logical product of the event output ε left attacking toward the left side and the event output ε right attacking toward the right side is kicking the ball in the soccer video The only difference is whether the player is attacking in the left direction or the player attacking in the right direction, and the average speed of the players and the location of the center of gravity of the group of people are similar and difficult to distinguish. That is, any event can be specified by taking this logical product on the basis that attacking toward the right side and attacking toward the left side do not occur simultaneously.

なお、ポストフィルタ手段7(図15参照)は、入力されたフラグEの真理値や、時間率フィルタ手段71から出力された真理値や、タイムアウト処理手段72から出力された真理値や、イベント特定論理演算手段73から出力されたイベント出力を、任意の時間率フィルタ手段71、タイムアウト処理手段72およびイベント特定論理演算手段73に出力することが可能である(ポストフィルタ手段7内の各構成の任意の接続が可能である)。   Note that the post filter means 7 (see FIG. 15) is configured to input the truth value of the flag E, the truth value output from the time rate filter means 71, the truth value output from the timeout processing means 72, and the event specification. The event output output from the logic operation means 73 can be output to any time rate filter means 71, time-out processing means 72, and event specific logic operation means 73 (arbitrary components in the post filter means 7). Can be connected).

例えば、図20に示すように、ポストフィルタ手段7Aを、構成することも可能である。図20に示したポストフィルタ手段7Aは、フラグECKの真理値とフラグEFKの真理値とを入力とし、図15に示した時間率フィルタ手段71(71−1)およびタイムアウト処理手段72(72−1)によってイベント出力εCKを出力する系統と、時間率フィルタ71(71−2)、タイムアウト処理手段72(72−2)およびイベント特定論理演算手段73(73−2)によってイベント出力εFKを出力する系統とに、新たに、イベント特定論理演算手段73(73−8)およびイベント特定論理演算手段73(73−9)を付加した構成となっている。 For example, as shown in FIG. 20, the post filter means 7A can be configured. The post filter means 7A shown in FIG. 20 receives the truth value of the flag ECK and the truth value of the flag E FK as input, and the time rate filter means 71 (71-1) and the timeout processing means 72 ( 72-1), the event output ε CK is output by the time rate filter 71 (71-2), the time-out processing means 72 (72-2), and the event specifying logic operation means 73 (73-2). An event specifying logic operation unit 73 (73-8) and an event specifying logic operation unit 73 (73-9) are newly added to the system that outputs FK .

イベント特定論理演算手段73(73−8)は、フラグECKの真理値とフラグEFKの真理値とに基づいて、イベント出力εを時間率フィルタ71(71−2)に出力するものである。
イベント特定論理演算手段73(73−9)は、時間率フィルタ手段71(71−1)から出力された真理値と、時間率フィルタ手段71(71−2)から出力された真理値とに基づいて、イベント出力εをタイムアウト処理手段72(72−2)に出力するものである。
Event specific logical operation unit 73 (73-8), based on the truth value of truth and flags E FK flags E CK, and outputs an event output ε time constant filter 71 (71-2) .
The event specifying logic operation means 73 (73-9) is based on the truth value output from the time rate filter means 71 (71-1) and the truth value output from the time rate filter means 71 (71-2). The event output ε is output to the timeout processing means 72 (72-2).

図1に示した映像解析装置1によれば、シルエット映像生成手段2によって、スポーツ映像からシルエット映像を生成し、シルエット映像に含まれる人物のシルエットを追跡領域とし、当該追跡領域の推定座標および推定速度と、当該追跡領域の面積と、当該追跡領域の色を示す色分類番号を出力し、特徴ベクトル抽出手段5によって、これらの少なくとも一つに基づき、特徴ベクトルに含める特徴量を計算し、イベント検出手段6によって、特徴量が、予め設定した条件を満たした場合を、スポーツ映像に含まれる各シーンで発生した特定のプレイを示すイベントとして検出し、ポストフィルタ手段7によって、イベントを特定する。このため、スポーツ映像を解析して、当該スポーツ映像における特定のプレイ等を検出することができる。   According to the video analysis apparatus 1 shown in FIG. 1, a silhouette video generation unit 2 generates a silhouette video from a sports video, uses a person's silhouette included in the silhouette video as a tracking area, and estimates coordinates and estimations of the tracking area. The speed, the area of the tracking region, and the color classification number indicating the color of the tracking region are output, and the feature vector extraction means 5 calculates the feature amount to be included in the feature vector based on at least one of these, and the event The case where the feature amount satisfies a preset condition is detected by the detecting unit 6 as an event indicating a specific play occurring in each scene included in the sports video, and the event is specified by the post filter unit 7. For this reason, it is possible to analyze a sports video and detect a specific play or the like in the sports video.

また、この映像解析装置1によれば、人物追跡手段3によって、シルエット映像に含まれるそれぞれの人物のシルエットを単連結領域とし、ラベル番号を付加し、各単連結領域の面積が一定範囲内にある単連結領域について、遅延予測座標および遅延予測速度と、ラベル番号と、単連結領域の面積と、実座標とに基づいて、ラベル番号に対応させた識別番号と、実座標と遅延予測座標とを対応させた観測座標とを出力すると共に、面積判定手段から出力された単連結領域の面積を追跡領域の面積として出力する。そして、出力された観測座標を、時間方向に濾波予測し、推定座標および推定速度を出力する。このため、スポーツ映像に含まれる被写体(選手等)を、当該スポーツ映像の進行時間に沿って(時間方向に)追跡して、当該被写体の座標を出力すると共に、当該被写体の速度および当該被写体の見かけの大きさを出力することができる。   In addition, according to this video analysis apparatus 1, the person tracking means 3 makes each person's silhouette included in the silhouette video a single connected area, adds a label number, and the area of each single connected area is within a certain range. For a single connected region, based on the delay prediction coordinate and delay prediction speed, the label number, the area of the single connection region, and the real coordinate, the identification number corresponding to the label number, the real coordinate, and the delayed prediction coordinate And the coordinate of the single connected region output from the area determining means is output as the area of the tracking region. The output observation coordinates are predicted to be filtered in the time direction, and the estimated coordinates and the estimated speed are output. Therefore, a subject (player, etc.) included in the sports video is tracked along the time of progress of the sports video (in the time direction), the coordinates of the subject are output, and the speed of the subject and the subject The apparent size can be output.

さらに、この映像解析装置1によれば、特徴ベクトル抽出手段5によって、特徴ベクトルに含まれる特徴量が、人物数推定値と、人物群分布定量化値と、人物間距離定量化値と、人物速さ定量化値と、人物速度定量化値と、判定値との少なくとも1つを備えているので、こういった座標と、速度と、面積と、色分類といった低次の映像特徴量を、スポーツ映像のイベント(特定のプレイ等)に関する高次の映像特徴量に変換することができる。   Furthermore, according to this video analysis apparatus 1, the feature vector extraction means 5 uses the feature vector extraction means 5 to calculate the number of persons, the person group distribution quantification value, the interpersonal distance quantification value, Since it has at least one of speed quantification value, person speed quantification value, and judgment value, low-order video features such as coordinates, speed, area, and color classification, It can be converted into a higher-order video feature amount related to an event (specific play or the like) of a sports video.

(映像解析装置の全体動作)
次に、図21に示すフローチャートを参照して、映像解析装置1の全体の動作を説明する(適宜、図1参照)。なお、この図21に示したフローチャートは、入力映像として、サッカー映像が入力された場合に、映像解析装置1の概略の動作を説明したものである。
(Overall operation of video analyzer)
Next, the overall operation of the video analysis apparatus 1 will be described with reference to the flowchart shown in FIG. 21 (see FIG. 1 as appropriate). Note that the flowchart shown in FIG. 21 describes the general operation of the video analysis apparatus 1 when a soccer video is input as an input video.

まず、映像解析装置1は、シルエット映像生成手段2によって、入力映像(複数の入力画像I(x,y))からシルエット映像(複数のシルエット画像S(x,y))を生成し(ステップS1)、人物追跡手段3によって、シルエット映像に含まれている領域(人物のシルエット)を追跡領域とし、識別番号m、推定座標xt|t(m)、推定速度vt|t(m)および面積α(m)を出力する(ステップS2)。 First, the video analysis apparatus 1 generates silhouette videos (plural silhouette images S (x, y)) from the input videos (plural input images I (x, y)) by the silhouette video generation means 2 (step S1). ), By the person tracking means 3, the area included in the silhouette video (the silhouette of the person) is set as the tracking area, the identification number m, the estimated coordinates x t | t (m), the estimated speed v t | t (m) and The area α (m) is output (step S2).

また、映像解析装置1は、入力映像と、シルエット映像生成手段2から出力されたシルエット映像と、人物追跡手段3から出力された追跡領域および識別番号mとから、色識別手段4によって、識別番号mと色分類番号C(m)とを対応付ける(ステップS3)。そして、映像解析装置1は、特徴ベクトル抽出手段5によって、入力された識別番号m、推定座標xt|t(m)、推定速度vt|t(m)、面積α(m)および色分類番号C(m)とに基づいて、人数N、人物分布面積V、人物間距離d、人物群重心g、平均速さs、平均速度uおよび監視結果wの少なくとも1つを含む特徴ベクトルを出力する(ステップS4)。 Also, the video analysis apparatus 1 uses the color identification unit 4 to identify the identification number from the input video, the silhouette video output from the silhouette video generation unit 2, the tracking area and the identification number m output from the person tracking unit 3. The m is associated with the color classification number C (m) (step S3). Then, the video analysis apparatus 1 uses the feature vector extraction means 5 to input the identification number m, the estimated coordinates x t | t (m), the estimated speed v t | t (m), the area α (m), and the color classification. Based on the number C (m), a feature vector including at least one of the number of people N, the person distribution area V, the distance d between people, the person group center of gravity g, the average speed s, the average speed u, and the monitoring result w is output. (Step S4).

そして、映像解析装置1は、イベント検出手段6によって、イベント(特定のプレイ)を示すフラグによって、当該イベントを検出し(ステップS5)、ポストフィルタ手段7によって、イベントを特定し、コーナーキックを示すイベント出力εCKと、フリーキックを示すイベント出力εFKと、左側ゴール付近で、左側に向かって攻撃していることを示すイベント出力εleft_goalと、右側ゴール付近で、右側に向かって攻撃していることを示すイベント出力εright_goalと、左側に向かって攻撃していることを示すイベント出力εleftと、右側に向かって攻撃イベント出力εrightと、選手の攻撃する向き(右方向から左方向、または、左方向から右方向)が変わったことを示すイベント出力εturnとのいずれかを出力する(ステップS6)。 Then, the video analysis device 1 detects the event by the event detection unit 6 using a flag indicating the event (specific play) (step S5), specifies the event by the post filter unit 7, and indicates a corner kick. Event output ε CK , event output ε FK indicating a free kick, event output ε left_goal indicating that the player is attacking to the left near the left goal, and attacking toward the right near the right goal Event output ε right_goal indicating that he is attacking, event output ε left indicating that he is attacking toward the left side, attack event output ε right toward the right side, and the player's attack direction (from right to left, Alternatively , one of the event outputs ε turn indicating that the left direction has changed (to the right direction) is output (step S6).

以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、映像解析装置1に入力される入力映像を、専ら、スポーツ映像として説明したがこれに限定されるものではなく、風景が描写された映像や、ドラマの映像等であってもよい。   As mentioned above, although embodiment of this invention was described, this invention is not limited to the said embodiment. For example, in the present embodiment, the input video input to the video analysis device 1 has been described exclusively as a sports video. However, the present invention is not limited to this, and may be a video depicting a landscape, a drama video, or the like. May be.

また、映像解析装置1の各構成の処理を行わせるように、一般的または汎用的なコンピュータ言語によって記述した映像解析プログラムとして構成することも可能である。この場合、映像解析装置1と同様の効果を得ることができる。   Moreover, it is also possible to configure as a video analysis program described in a general or general-purpose computer language so that the processing of each component of the video analysis device 1 is performed. In this case, the same effect as the video analysis device 1 can be obtained.

本発明の実施形態に係る映像解析装置のブロック図である。1 is a block diagram of a video analysis apparatus according to an embodiment of the present invention. 図1に示した人物追跡手段の構成の一例を示したブロック図である。It is the block diagram which showed an example of the structure of the person tracking means shown in FIG. 面積判定手段による処理の概念を説明した図である。It is a figure explaining the concept of the process by an area determination means. 面積判定手段および逆投影手段による処理の概念を説明した図である。It is a figure explaining the concept of the process by an area determination means and a back projection means. 特徴ベクトル抽出手段の構成の一例を示したブロック図である。It is the block diagram which showed an example of the structure of the feature vector extraction means. 人数計測手段の構成の一例を示したブロック図である。It is the block diagram which showed an example of the structure of a people count means. 人物像面積推定手段の構成の一例を示したブロック図である。It is the block diagram which showed an example of the structure of a person image area estimation means. 人物群分散計測手段の構成の一例を示したブロック図である。It is the block diagram which showed an example of the structure of a person group dispersion | distribution measurement means. 人物間距離計測手段の構成の一例を示したブロック図である。It is the block diagram which showed an example of the structure of the distance measurement means between persons. 人物群重心計測手段の構成の一例を示したブロック図である。It is the block diagram which showed an example of the structure of a person group gravity center measurement means. 平均速さ計測手段の構成の一例を示したブロック図である。It is the block diagram which showed an example of the structure of the average speed measurement means. 平均速度計測手段の構成の一例を示したブロック図である。It is the block diagram which showed an example of the structure of the average speed measurement means. 特定領域監視手段の構成の一例を示したブロック図である。It is the block diagram which showed an example of the structure of the specific area | region monitoring means. イベント検出手段の構成の一例を示したブロック図である。It is the block diagram which showed an example of the structure of an event detection means. ポストフィルタ手段の構成の一例を示したブロック図である。It is the block diagram which showed an example of the structure of the post filter means. 時間率フィルタ手段の構成の一例を示したブロック図である。It is the block diagram which showed an example of the structure of the time rate filter means. 時間率フィルタ手段による処理を説明した図である。It is a figure explaining the process by a time rate filter means. タイムアウト処理手段の構成の一例を示したブロック図である。It is the block diagram which showed an example of the structure of the time-out process means. タイムアウト処理手段による処理を説明した図である。It is a figure explaining the process by the time-out process means. ポストフィルタ手段の別の構成の一例を示したブロック図である。It is the block diagram which showed an example of another structure of a post filter means. 図1に示した映像解析装置の全体動作を説明したフローチャートである。2 is a flowchart illustrating an overall operation of the video analysis apparatus illustrated in FIG. 1.

符号の説明Explanation of symbols

1 映像解析装置
2 シルエット映像生成手段
3 人物追跡手段
4 色識別手段
5 特徴ベクトル抽出手段(特徴ベクトル計算手段)
6 イベント検出手段
7 ポストフィルタ手段
31 ラベリング手段
32 面積判定手段
33 逆投影変換手段
34 検出・追跡手段(検出追跡手段)
35 予測・推定手段(予測推定手段)
36 遅延手段
51 人数計測手段
52 人物群分散計測手段
53 人物間距離計測手段
54 人物群重心計測手段
55 平均速さ計測手段
56 平均速度計測手段
57 特定領域監視手段
61 特徴量間演算手段
62 閾値演算手段
63 論理演算手段
64 遅延手段
71 時間率フィルタ手段
72 タイムアウト処理手段
73 イベント特定論理演算手段
511 クロック手段
512 順次面積選択手段
513 順次座標選択手段
514 人物像面積推定手段
515 除算手段
516 総和演算手段
521 クロック手段
522 順次座標選択手段
523 共分散行列演算手段
524 分布面積演算手段
531 クロック手段
532 第一番号対応座標選択手段
533 第二番号対応座標選択手段
534 距離演算手段
535 最小値演算手段
536 平均値演算手段
541 クロック手段
542 順次座標選択手段
543 平均値演算手段
551 クロック手段
552 順次速度選択手段
553 絶対値演算手段
554 平均値演算手段
561 クロック手段
562 順次速度選択手段
563 平均値演算手段
571 クロック手段
572 順次番号対応座標選択手段
573 色分類別2次元閾値演算手段
711 遅延手段
712 時間率演算手段
713 閾値演算手段
721 単安定マルチバイブレータ手段
722 論理和演算手段
DESCRIPTION OF SYMBOLS 1 Image | video analysis apparatus 2 Silhouette image | video production | generation means 3 Person tracking means 4 Color identification means 5 Feature vector extraction means (feature vector calculation means)
6 Event detection means 7 Post filter means 31 Labeling means 32 Area determination means 33 Backprojection conversion means 34 Detection / tracking means (detection tracking means)
35 Prediction / estimation means (prediction estimation means)
36 delay means 51 person count means 52 person group dispersion measurement means 53 person distance measurement means 54 person group center of gravity measurement means 55 average speed measurement means 56 average speed measurement means 57 specific area monitoring means 61 feature quantity calculation means 62 threshold value calculation Means 63 Logical operation means 64 Delay means 71 Time rate filter means 72 Timeout processing means 73 Event specific logic operation means 511 Clock means 512 Sequential area selection means 513 Sequential coordinate selection means 514 Human image area estimation means 515 Division means 516 Summation operation means 521 Clock means 522 Sequential coordinate selection means 523 Covariance matrix calculation means 524 Distribution area calculation means 531 Clock means 532 First number corresponding coordinate selection means 533 Second number corresponding coordinate selection means 534 Distance calculation means 535 Minimum value calculation means 536 Average value calculation Calculation means 541 Clock means 542 Sequential coordinate selection means 543 Average value calculation means 551 Clock means 552 Sequential speed selection means 553 Absolute value calculation means 554 Average value calculation means 561 Clock means 562 Sequential speed selection means 563 Average value calculation means 571 Clock means 572 Sequential number corresponding coordinate selection means 573 Two-dimensional threshold value calculation means by color classification 711 Delay means 712 Time rate calculation means 713 Threshold value calculation means 721 Monostable multivibrator means 722 OR operation means

Claims (8)

入力された映像を解析する映像解析装置であって、
前記映像からシルエット映像を生成するシルエット映像生成手段と、
このシルエット映像生成手段で生成されたシルエット映像を構成するシルエット画像に含まれるシルエットを追跡領域とし、前記シルエット画像間の差に基づいて当該追跡領域を追跡し、当該追跡領域を識別するための識別番号と対応付けて、当該追跡領域の推定座標および推定速度と、当該追跡領域の面積とを出力する領域追跡手段と、
前記推定座標と、前記シルエット映像と、前記映像とに基づき、前記追跡領域の色を識別し、識別した結果に基づいて、当該色を分類するために予め設定した色分類番号と前記識別番号とを対応付けて出力する色識別手段と、
前記識別番号と対応付けられた、前記推定座標および前記推定速度と、前記追跡領域の面積と、前記色分類番号との少なくとも一つに基づき、特徴ベクトルに含める特徴量を計算する特徴ベクトル計算手段と、
この特徴ベクトル計算手段で計算された特徴ベクトルに含まれる特徴量が、予め設定した条件を満たした場合を、前記映像に含まれる各シーンで発生した出来事を示すイベントとして検出し、検出した結果を示すフラグ信号を出力するイベント検出手段と、
このイベント検出手段で出力されたフラグ信号に、時間方向のフィルタ処理と、前記フラグ信号間の論理演算との少なくとも一方の処理を行って、前記イベントを特定するイベント出力信号を出力するポストフィルタ手段と、
を備えることを特徴とする映像解析装置。
A video analysis device that analyzes input video,
Silhouette video generation means for generating a silhouette video from the video;
Identification for identifying the tracking area by tracking the tracking area based on the difference between the silhouette images, using the silhouette included in the silhouette image constituting the silhouette video generated by the silhouette video generation means as the tracking area. An area tracking means for outputting the estimated coordinates and estimated speed of the tracking area and the area of the tracking area in association with the number;
Based on the estimated coordinates, the silhouette image, and the image, the color of the tracking area is identified, and based on the identified result, a color classification number set in advance to classify the color and the identification number Color identification means for associating and outputting,
Feature vector calculation means for calculating a feature quantity to be included in a feature vector based on at least one of the estimated coordinates and the estimated speed, the area of the tracking region, and the color classification number associated with the identification number When,
When the feature amount included in the feature vector calculated by the feature vector calculating means satisfies a preset condition, it is detected as an event indicating an event occurring in each scene included in the video, and the detection result is Event detection means for outputting a flag signal indicating;
Post-filter means for outputting an event output signal for identifying the event by performing at least one of a time-direction filtering process and a logical operation between the flag signals on the flag signal output by the event detection means When,
A video analysis apparatus comprising:
前記領域追跡手段は、
前記シルエット画像に含まれるそれぞれのシルエットを単連結領域とし、この単連結領域に対してラベル番号を付加し、当該ラベル番号を付加した単連結領域の形状に関する領域情報を生成するラベリング手段と、
前記領域情報に基づいて、各単連結領域の面積を求め、求めた面積が一定範囲内にある単連結領域について、前記ラベル番号および前記単連結領域の面積を出力する面積判定手段と、
前記ラベリング手段で生成された領域情報と前記映像を撮影したカメラの投影中心とに基づいて、3次元空間における各単連結領域の存在場所を示す実座標を、前記ラベル番号と共に出力する逆投影変換手段と、
前記追跡領域の座標および速度の予測された予測座標および予測速度が予め設定された所定単位時間遅延されて出力された、遅延予測座標および遅延予測速度と、前記ラベル番号と、前記面積判定手段から出力された単連結領域の面積と、前記実座標とに基づいて、前記ラベル番号に対応させた前記識別番号と、前記実座標と前記遅延予測座標とを対応させた観測座標とを出力すると共に、前記面積判定手段から出力された単連結領域の面積を前記追跡領域の面積として出力する検出追跡手段と、
この検出追跡手段で出力された観測座標を、時間方向に濾波予測し、前記推定座標および前記推定速度と、前記予測座標および前記予測速度とを、前記識別番号と共にそれぞれ出力する予測推定手段と、
この予測推定手段から出力された前記予測座標および前記予測速度を、前記所定単位時間遅延して、前記識別番号と共に前記検出追跡手段に出力する遅延手段と、
を備えることを特徴とする請求項1に記載の映像解析装置。
The region tracking means includes
Labeling means for making each silhouette included in the silhouette image a single connected region, adding a label number to the single connected region, and generating region information regarding the shape of the single connected region to which the label number is added,
Based on the region information, the area of each single connected region is obtained, and for the single connected region where the obtained area is within a certain range, an area determination unit that outputs the label number and the area of the single connected region;
Based on the area information generated by the labeling means and the projection center of the camera that captured the video, back projection transformation that outputs real coordinates indicating the location of each single connected area in a three-dimensional space together with the label number Means,
The predicted coordinates and the predicted speed of the tracking area coordinates and speed, which are output after being delayed by a predetermined unit time set in advance, the delayed predicted coordinates and the delayed predicted speed, the label number, and the area determination unit Based on the output area of the single connected region and the real coordinates, the identification number corresponding to the label number and the observation coordinates corresponding to the real coordinates and the delayed predicted coordinates are output. Detecting and tracking means for outputting the area of the single connected region output from the area determining means as the area of the tracking region;
Prediction estimating means for predicting filtered observation coordinates output by the detection tracking means in the time direction, and outputting the estimated coordinates and the estimated speed, and the predicted coordinates and the predicted speed together with the identification number,
Delay means for delaying the predicted coordinates and the predicted speed output from the prediction estimation means to the detection tracking means together with the identification number;
The video analysis apparatus according to claim 1, further comprising:
前記特徴ベクトルは、前記シルエットの数を推定したシルエット数推定値、複数の前記シルエットからなるシルエット群の分布の散らばり度合いを定量化したシルエット群分布定量化値、前記シルエット間の距離を定量化したシルエット間距離定量化値、前記シルエット群の分布を代表する座標を定量化したシルエット群重心定量化値、前記シルエットの速さを定量化したシルエット速さ定量化値、前記シルエットの速度を定量化したシルエット速度定量化値および予め特定したシルエットである特定シルエットが特定の場所に存在するか否かを判定した判定値の少なくとも一つ以上の特徴量によって構成されることを特徴とする請求項1または請求項2に記載の映像解析装置。   The feature vector is an estimated number of silhouettes that estimates the number of silhouettes, a silhouette group distribution quantification value that quantifies the degree of dispersion of the distribution of silhouette groups composed of a plurality of silhouettes, and a distance between the silhouettes. Distance quantification value between silhouettes, silhouette group centroid quantification value quantifying coordinates representing the distribution of the silhouette group, silhouette speed quantification value quantifying the speed of the silhouette, quantifying the speed of the silhouette The at least one feature amount of the determined silhouette speed quantification value and a determination value for determining whether or not a specific silhouette, which is a silhouette specified in advance, exists in a specific place is characterized in that Or the video-analysis apparatus of Claim 2. 入力されたスポーツ映像を解析する映像解析装置であって、
前記スポーツ映像からシルエット映像を生成するシルエット映像生成手段と、
このシルエット映像生成手段で生成されたシルエット映像を構成するシルエット画像に含まれる所定面積範囲の領域である人物のシルエットを追跡領域とし、前記シルエット画像間の差に基づいて当該追跡領域を追跡し、当該追跡領域を識別するための識別番号と対応付けて、当該追跡領域の推定座標および推定速度と、当該追跡領域の面積とを出力する領域追跡手段と、
前記推定座標と、前記シルエット映像と、前記スポーツ映像とに基づき、前記追跡領域の色を識別し、識別した結果に基づいて、当該色を分類するために予め設定した色分類番号と前記識別番号とを対応付けて出力する色識別手段と、
前記識別番号と対応付けられた、前記推定座標および前記推定速度と、前記追跡領域の面積と、前記色分類番号との少なくとも一つに基づき、特徴ベクトルを計算する特徴ベクトル計算手段と、
この特徴ベクトル計算手段で計算された特徴ベクトルに含まれる特徴量が、予め設定した条件を満たした場合を、前記スポーツ映像に含まれる各シーンで発生した特定のプレイを示すイベントとして検出し、検出した結果を示すフラグ信号を出力するイベント検出手段と、
このイベント検出手段で出力されたフラグ信号に、時間方向のフィルタ処理と、前記フラグ信号間の論理演算との少なくとも一方の処理を行って、前記イベントを特定するイベント出力信号を出力するポストフィルタ手段と、
を備えることを特徴とする映像解析装置。
A video analysis device for analyzing an input sports video,
Silhouette video generation means for generating a silhouette video from the sports video;
The tracking area is a silhouette of a person that is a region of a predetermined area included in the silhouette image constituting the silhouette video generated by the silhouette video generation means, and the tracking area is tracked based on the difference between the silhouette images. In association with an identification number for identifying the tracking region, region tracking means for outputting the estimated coordinates and estimated speed of the tracking region and the area of the tracking region;
Based on the estimated coordinates, the silhouette video, and the sports video, the color of the tracking area is identified, and based on the identified result, a color classification number and the identification number set in advance to classify the color Color identification means for outputting
Feature vector calculation means for calculating a feature vector based on at least one of the estimated coordinates and the estimated speed, the area of the tracking region, and the color classification number associated with the identification number;
When the feature amount included in the feature vector calculated by the feature vector calculation means satisfies a preset condition, it is detected as an event indicating a specific play occurring in each scene included in the sports video, and is detected. Event detection means for outputting a flag signal indicating the result obtained,
Post-filter means for outputting an event output signal for identifying the event by performing at least one of a time-direction filtering process and a logical operation between the flag signals on the flag signal output by the event detection means When,
A video analysis apparatus comprising:
前記領域追跡手段は、
前記シルエット画像に含まれるそれぞれの所定面積範囲の領域である人物のシルエットを単連結領域とし、この単連結領域に対してラベル番号を付加し、当該ラベル番号を付加した単連結領域の形状に関する領域情報を生成するラベリング手段と、
前記領域情報に基づいて、各単連結領域の面積を求め、求めた面積が一定範囲内にある単連結領域について、前記ラベル番号および前記単連結領域の面積を出力する面積判定手段と、
前記ラベリング手段で生成された領域情報と前記スポーツ映像を撮影したカメラの投影中心とに基づいて、3次元空間における各単連結領域の存在場所を示す実座標を、前記ラベル番号と共に出力する逆投影変換手段と、
前記追跡領域の座標および速度の予測された予測座標および予測速度が予め設定された所定単位時間遅延されて出力された、遅延予測座標および遅延予測速度と、前記ラベル番号と、前記面積判定手段から出力された単連結領域の面積と、前記実座標とに基づいて、前記ラベル番号に対応させた前記識別番号と、前記実座標と前記遅延予測座標とを対応させた観測座標とを出力すると共に、前記面積判定手段から出力された単連結領域の面積を前記追跡領域の面積として出力する検出追跡手段と、
この検出追跡手段で出力された観測座標を、時間方向に濾波予測し、前記推定座標および前記推定速度と、前記予測座標および前記予測速度とを、前記識別番号と共にそれぞれ出力する予測推定手段と、
この予測推定手段から出力された前記予測座標および前記予測速度を前記所定単位時間遅延して、前記識別番号と共に前記検出追跡手段に出力する遅延手段と、
を備えることを特徴とする請求項4に記載の映像解析装置。
The region tracking means includes
A region related to the shape of a single connected region to which a silhouette of a person, which is a region of a predetermined area range included in the silhouette image, is a single connected region, a label number is added to the single connected region, and the label number is added. A labeling means for generating information;
Based on the region information, the area of each single connected region is obtained, and for the single connected region where the obtained area is within a certain range, an area determination unit that outputs the label number and the area of the single connected region;
Based on the area information generated by the labeling means and the projection center of the camera that captured the sports video, back projection that outputs real coordinates indicating the location of each single connected area in a three-dimensional space together with the label number Conversion means;
The predicted coordinates and the predicted speed of the tracking area coordinates and speed, which are output after being delayed by a predetermined unit time set in advance, the delayed predicted coordinates and the delayed predicted speed, the label number, and the area determination unit Based on the output area of the single connected region and the real coordinates, the identification number corresponding to the label number and the observation coordinates corresponding to the real coordinates and the delayed predicted coordinates are output. Detecting and tracking means for outputting the area of the single connected region output from the area determining means as the area of the tracking region;
Prediction estimating means for predicting filtered observation coordinates output by the detection tracking means in the time direction, and outputting the estimated coordinates and the estimated speed, and the predicted coordinates and the predicted speed together with the identification number,
Delay means for delaying the predicted coordinates and the predicted speed output from the prediction estimation means to the detection tracking means together with the identification number;
The video analysis apparatus according to claim 4, further comprising:
前記特徴ベクトルは、前記人物のシルエットの数を推定した人物数推定値、複数の前記人物のシルエットからなる人物シルエット群の分布の散らばり度合いを定量化した人物群分布定量化値、前記人物のシルエット間の距離を定量化した人物間距離定量化値、前記人物群の分布を代表する座標を定量化した人物群重心定量化値、前記人物のシルエットの速さを定量化した人物速さ定量化値、前記人物のシルエットの速度を定量化した人物速度定量化値および予め特定した人物のシルエットである特定人物シルエットが特定の場所に存在するか否かを判定した判定値の少なくとも一つ以上の特徴量によって構成されることを特徴とする請求項4または請求項5に記載の映像解析装置。   The feature vector includes a person number estimation value obtained by estimating the number of silhouettes of the person, a person group distribution quantification value obtained by quantifying the degree of dispersion of a distribution of person silhouette groups including a plurality of silhouettes of the person, and the silhouette of the person. Quantified distance between persons quantified distance, quantified value of centroid of person group quantified coordinates representing the distribution of the person group, quantified person speed quantified the speed of the silhouette of the person At least one of a value, a human speed quantification value obtained by quantifying the speed of the person's silhouette, and a determination value used to determine whether or not a specific person silhouette that is a previously specified person silhouette exists in a specific place 6. The video analysis apparatus according to claim 4, wherein the video analysis apparatus is constituted by a feature amount. 入力された映像を解析するために、コンピュータを、
前記映像からシルエット映像を生成するシルエット映像生成手段、
このシルエット映像生成手段で生成されたシルエット映像を構成するシルエット画像に含まれるシルエットを追跡領域とし、前記シルエット画像間の差に基づいて当該追跡領域を追跡し、当該追跡領域を識別するための識別番号と対応付けて、当該追跡領域の推定座標および推定速度と、当該追跡領域の面積とを出力する領域追跡手段、
前記推定座標と、前記シルエット映像と、前記映像とに基づき、前記追跡領域の色を識別し、識別した結果に基づいて、当該色を分類するために予め設定した色分類番号と前記識別番号とを対応付けて出力する色識別手段、
前記識別番号と対応付けられた、前記推定座標および前記推定速度と、前記追跡領域の面積と、前記色分類番号との少なくとも一つに基づき、特徴ベクトルに含める特徴量を計算する特徴ベクトル計算手段、
この特徴ベクトル計算手段で計算された特徴ベクトルに含まれる特徴量が、予め設定した条件を満たした場合を、前記映像に含まれる各シーンで発生した出来事を示すイベントとして検出し、検出した結果を示すフラグ信号を出力するイベント検出手段、
このイベント検出手段で出力されたフラグ信号に、時間方向のフィルタ処理と、前記フラグ信号間の論理演算との少なくとも一方の処理を行って、前記イベントを特定するイベント出力信号を出力するポストフィルタ手段、
として機能させることを特徴とする映像解析プログラム。
In order to analyze the input video, computer
Silhouette video generation means for generating a silhouette video from the video,
Identification for identifying the tracking area by tracking the tracking area based on the difference between the silhouette images, using the silhouette included in the silhouette image constituting the silhouette video generated by the silhouette video generation means as the tracking area. Region tracking means for outputting the estimated coordinates and estimated speed of the tracking region and the area of the tracking region in association with the number;
Based on the estimated coordinates, the silhouette image, and the image, the color of the tracking area is identified, and based on the identified result, a color classification number set in advance to classify the color and the identification number Color identification means for associating and outputting
Feature vector calculation means for calculating a feature quantity to be included in a feature vector based on at least one of the estimated coordinates and the estimated speed, the area of the tracking region, and the color classification number associated with the identification number ,
When the feature amount included in the feature vector calculated by the feature vector calculating means satisfies a preset condition, it is detected as an event indicating an event occurring in each scene included in the video, and the detection result is Event detection means for outputting a flag signal indicating,
Post-filter means for outputting an event output signal for identifying the event by performing at least one of a time-direction filtering process and a logical operation between the flag signals on the flag signal output by the event detection means ,
A video analysis program characterized by functioning as
入力されたスポーツ映像を解析するために、コンピュータを、
前記スポーツ映像からシルエット映像を生成するシルエット映像生成手段、
このシルエット映像生成手段で生成されたシルエット映像を構成するシルエット画像に含まれる所定面積範囲の領域である人物のシルエットを追跡領域とし、前記シルエット画像間の差に基づいて当該追跡領域を追跡し、当該追跡領域を識別するための識別番号と対応付けて、当該追跡領域の推定座標および推定速度と、当該追跡領域の面積とを出力する領域追跡手段、
前記推定座標と、前記シルエット映像と、前記スポーツ映像とに基づき、前記追跡領域の色を識別し、識別した結果に基づいて、当該色を分類するために予め設定した色分類番号と前記識別番号とを対応付けて出力する色識別手段、
前記識別番号と対応付けられた、前記推定座標および前記推定速度と、前記追跡領域の面積と、前記色分類番号との少なくとも一つに基づき、特徴ベクトルに含める特徴量を計算する特徴ベクトル計算手段、
この特徴ベクトル計算手段で計算された特徴ベクトルに含まれる特徴量が、予め設定した条件を満たした場合を、前記スポーツ映像に含まれる各シーンで発生した特定のプレイを示すイベントとして検出し、検出した結果を示すフラグ信号を出力するイベント検出手段、
このイベント検出手段で出力されたフラグ信号に、時間方向のフィルタ処理と、前記フラグ信号間の論理演算との少なくとも一方の処理を行って、前記イベントを特定するイベント出力信号を出力するポストフィルタ手段、
として機能させることを特徴とする映像解析プログラム。
In order to analyze the input sports video, computer
Silhouette video generation means for generating a silhouette video from the sports video,
The tracking area is a silhouette of a person that is a region of a predetermined area included in the silhouette image constituting the silhouette video generated by the silhouette video generation means, and the tracking area is tracked based on the difference between the silhouette images. An area tracking means for outputting the estimated coordinates and estimated speed of the tracking area and the area of the tracking area in association with an identification number for identifying the tracking area;
Based on the estimated coordinates, the silhouette video, and the sports video, the color of the tracking area is identified, and based on the identified result, a color classification number and the identification number set in advance to classify the color Color identification means for outputting
Feature vector calculation means for calculating a feature quantity to be included in a feature vector based on at least one of the estimated coordinates and the estimated speed, the area of the tracking region, and the color classification number associated with the identification number ,
When the feature amount included in the feature vector calculated by the feature vector calculation means satisfies a preset condition, it is detected as an event indicating a specific play occurring in each scene included in the sports video, and is detected. Event detection means for outputting a flag signal indicating the result obtained,
Post-filter means for outputting an event output signal for identifying the event by performing at least one of a time-direction filtering process and a logical operation between the flag signals on the flag signal output by the event detection means ,
A video analysis program characterized by functioning as
JP2005108094A 2005-04-04 2005-04-04 Video analysis apparatus and video analysis program Expired - Fee Related JP4644022B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005108094A JP4644022B2 (en) 2005-04-04 2005-04-04 Video analysis apparatus and video analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005108094A JP4644022B2 (en) 2005-04-04 2005-04-04 Video analysis apparatus and video analysis program

Publications (2)

Publication Number Publication Date
JP2006285878A true JP2006285878A (en) 2006-10-19
JP4644022B2 JP4644022B2 (en) 2011-03-02

Family

ID=37407706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005108094A Expired - Fee Related JP4644022B2 (en) 2005-04-04 2005-04-04 Video analysis apparatus and video analysis program

Country Status (1)

Country Link
JP (1) JP4644022B2 (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007109126A (en) * 2005-10-17 2007-04-26 Advanced Telecommunication Research Institute International Moving body distribution estimation device, moving body distribution estimation method, and moving body distribution estimation program
JP2008165636A (en) * 2006-12-28 2008-07-17 Nippon Hoso Kyokai <Nhk> Parameter information preparation device, parameter information preparation program, event detection device, and event detection program
JP2008198038A (en) * 2007-02-15 2008-08-28 Nippon Hoso Kyokai <Nhk> Event discrimination device and event discrimination program
JP2010074774A (en) * 2008-09-22 2010-04-02 Sony Corp Display controller, display control method and program
JP2010522926A (en) * 2007-03-26 2010-07-08 トムソン ライセンシング Method and apparatus for detecting interest in soccer video by color segmentation and shape analysis
JP2013156855A (en) * 2012-01-30 2013-08-15 Nippon Telegr & Teleph Corp <Ntt> Method for tracking mobile object and computer program
JP2015177470A (en) * 2014-03-17 2015-10-05 富士通株式会社 Extraction program, extraction method, and extraction device
WO2019017046A1 (en) 2017-07-21 2019-01-24 ソニー株式会社 Information processing device and information processing method
CN110674769A (en) * 2019-09-29 2020-01-10 新华智云科技有限公司 Deep learning algorithm-based classification method for non-goal, common goal and location ball of football video clip
CN113542671A (en) * 2020-04-21 2021-10-22 株式会社日立制作所 Event analysis system and event analysis method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099918A (en) * 2000-09-12 2002-04-05 Internatl Business Mach Corp <Ibm> Method and system for processing image and storage medium
JP2003032544A (en) * 2001-07-13 2003-01-31 Nippon Hoso Kyokai <Nhk> Scene contents information attachment device and scene contents information attaching method
JP2004005462A (en) * 2002-03-07 2004-01-08 Samsung Electronics Co Ltd Method and its device for tracking object from picture signal
JP2004046647A (en) * 2002-07-12 2004-02-12 Univ Waseda Method and device for tracking moving object based on dynamic image data
JP2004240848A (en) * 2003-02-07 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> Data analysis device, its method and data analysis program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099918A (en) * 2000-09-12 2002-04-05 Internatl Business Mach Corp <Ibm> Method and system for processing image and storage medium
JP2003032544A (en) * 2001-07-13 2003-01-31 Nippon Hoso Kyokai <Nhk> Scene contents information attachment device and scene contents information attaching method
JP2004005462A (en) * 2002-03-07 2004-01-08 Samsung Electronics Co Ltd Method and its device for tracking object from picture signal
JP2004046647A (en) * 2002-07-12 2004-02-12 Univ Waseda Method and device for tracking moving object based on dynamic image data
JP2004240848A (en) * 2003-02-07 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> Data analysis device, its method and data analysis program

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007109126A (en) * 2005-10-17 2007-04-26 Advanced Telecommunication Research Institute International Moving body distribution estimation device, moving body distribution estimation method, and moving body distribution estimation program
JP4670010B2 (en) * 2005-10-17 2011-04-13 株式会社国際電気通信基礎技術研究所 Mobile object distribution estimation device, mobile object distribution estimation method, and mobile object distribution estimation program
JP2008165636A (en) * 2006-12-28 2008-07-17 Nippon Hoso Kyokai <Nhk> Parameter information preparation device, parameter information preparation program, event detection device, and event detection program
JP4764332B2 (en) * 2006-12-28 2011-08-31 日本放送協会 Parameter information creation device, parameter information creation program, event detection device, and event detection program
JP4764362B2 (en) * 2007-02-15 2011-08-31 日本放送協会 Event discrimination device and event discrimination program
JP2008198038A (en) * 2007-02-15 2008-08-28 Nippon Hoso Kyokai <Nhk> Event discrimination device and event discrimination program
JP2010522926A (en) * 2007-03-26 2010-07-08 トムソン ライセンシング Method and apparatus for detecting interest in soccer video by color segmentation and shape analysis
JP4670923B2 (en) * 2008-09-22 2011-04-13 ソニー株式会社 Display control apparatus, display control method, and program
JP2010074774A (en) * 2008-09-22 2010-04-02 Sony Corp Display controller, display control method and program
JP2013156855A (en) * 2012-01-30 2013-08-15 Nippon Telegr & Teleph Corp <Ntt> Method for tracking mobile object and computer program
JP2015177470A (en) * 2014-03-17 2015-10-05 富士通株式会社 Extraction program, extraction method, and extraction device
US9892320B2 (en) 2014-03-17 2018-02-13 Fujitsu Limited Method of extracting attack scene from sports footage
WO2019017046A1 (en) 2017-07-21 2019-01-24 ソニー株式会社 Information processing device and information processing method
US11132553B2 (en) 2017-07-21 2021-09-28 Sony Corporation Information processing apparatus and information processing method
CN110674769A (en) * 2019-09-29 2020-01-10 新华智云科技有限公司 Deep learning algorithm-based classification method for non-goal, common goal and location ball of football video clip
CN113542671A (en) * 2020-04-21 2021-10-22 株式会社日立制作所 Event analysis system and event analysis method

Also Published As

Publication number Publication date
JP4644022B2 (en) 2011-03-02

Similar Documents

Publication Publication Date Title
JP4644022B2 (en) Video analysis apparatus and video analysis program
JP6525453B2 (en) Object position estimation system and program thereof
US8619135B2 (en) Detection of abnormal behaviour in video objects
CN109076198B (en) Video-based object tracking occlusion detection system, method and equipment
US10965886B2 (en) System and method of generating a composite frame
Hu et al. Moving object detection and tracking from video captured by moving camera
Baysal et al. Sentioscope: a soccer player tracking system using model field particles
Denman et al. Improved simultaneous computation of motion detection and optical flow for object tracking
Ren et al. Tracking the soccer ball using multiple fixed cameras
Khan Congestion detection in pedestrian crowds using oscillation in motion trajectories
Ferryman et al. Performance evaluation of crowd image analysis using the PETS2009 dataset
Ren et al. Multi-camera video surveillance for real-time analysis and reconstruction of soccer games
JP2013232181A (en) Image processing apparatus, and image processing method
Srivastava et al. Crowd flow estimation using multiple visual features for scenes with changing crowd densities
JP6850751B2 (en) Object tracking device, object tracking method, and computer program
David An intellectual individual performance abnormality discovery system in civic surroundings
KR101030257B1 (en) Method and System for Vision-Based People Counting in CCTV
TWI493510B (en) Falling down detection method
JP2009163639A (en) Object trajectory identification device, object trajectory identification method, and object trajectory identification program
Aziz et al. Pedestrian Head Detection and Tracking Using Skeleton Graph for People Counting in Crowded Environments.
Heydari et al. An MLP-based player detection and tracking in broadcast soccer video
CN104123569B (en) Video person number information statistics method based on supervised learning
Herrmann et al. Online multi-player tracking in monocular soccer videos
JP4533037B2 (en) Offside line detection device and program thereof
Li et al. Evaluating the performance of systems for tracking football players and ball

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100810

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101109

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101203

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees