JP2004297669A - Information holding system for moving picture searching - Google Patents

Information holding system for moving picture searching Download PDF

Info

Publication number
JP2004297669A
JP2004297669A JP2003089969A JP2003089969A JP2004297669A JP 2004297669 A JP2004297669 A JP 2004297669A JP 2003089969 A JP2003089969 A JP 2003089969A JP 2003089969 A JP2003089969 A JP 2003089969A JP 2004297669 A JP2004297669 A JP 2004297669A
Authority
JP
Japan
Prior art keywords
file
video
feature amount
scene
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003089969A
Other languages
Japanese (ja)
Inventor
Hanayo Suzuki
華代 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tama TLO Co Ltd
Original Assignee
Tama TLO Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tama TLO Co Ltd filed Critical Tama TLO Co Ltd
Priority to JP2003089969A priority Critical patent/JP2004297669A/en
Publication of JP2004297669A publication Critical patent/JP2004297669A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To improve a fitting rate in scene searching by reducing the search noise and to shorten the search time. <P>SOLUTION: The information holding system for the moving picture searching is provided with a video file 2 wherein a video scene composed of a series of image streams is stored, a feature amount file 4 wherein a motion feature amount relating to a motion of each image stream in the video file is stored in relation to frame numbers of images, and an XML file 1 wherein comment information on contents of the images is stored, and for integrally managing the video file and the feature amount file. A reference feature amount 5 is then generated for the scene desired to watch by a viewer, a frame number with the moving feature amount close to the reference feature amount is specified from the feature amount file 4 on the basis of the reference feature amount 5 and the comment information stored in the XML file 1, and a scene similar to the scene desired to watch by the viewer is selected out of the video file 2 on the basis of the frame number. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、記録媒体上に記録された画像列から視聴者が見たいと思うシーンに合致する画像列を探し出すための、動画像検索に適する情報保持方式に関する。
【0002】
【従来の技術】
多チャンネル化され、双方向サービスが可能なデジタル放送が普及しつつある現在では、記憶媒体の大容量化、低価格化が達成されている。これらの技術により長期にわたる番組記録が可能な映像サーバの構成が可能になりつつある。これにともない、視聴者がいつでも好みの番組や特定のシーンを検索し、表示することが可能な新しい映像データベースシステムの開発が期待されており、目下、このような検索システムを搭載したシーン取出機能付ビデオデッキやシーン取出機能付セットトップボックスの実用化が進められている。
【0003】
画像の動きに関する情報を抽出して統計的に処理すれば、画像の動きの変化や特徴を表す「動き特徴量」と呼ばれる量が得られる。この動き特徴量を利用して画像信号を検索すれば、大容量の番組映像の中から好みの番組や特定のシーンを選び出すことができると考えられ、このような手法で動画像検索を行った事例が公表されている(例えば、非特許文献1参照)。
【0004】
【非特許文献1】
渡部昭彦、臼杵潤、小宮一三「動きベクトルに基づくTV映像解析と特徴記述の検討」画像電子学会(琉球大学)2002年3月11日
【0005】
野球中継を例にとれば、野球には回の裏表、バッターの交代、各投球などのシーンがサイクリックに出現する。また、カメラワークも同じであることが多く、野球中継全体を通じて定形的である。そこで、画像間の動きベクトルを算出し、統計的に処理することで画像の動き量を算出する。このとき、1画面を幾つかの領域に分割し、それぞれの領域内の動きベクトルから動き特徴量を算出する。
【0006】
検索時には、検索対象の映像から算出される動き特徴量と、予め準備しておいた検索要求シーンの動き特徴量を比較する。全ての動き特徴量の比較誤差が許容範囲以内であれば、その部分の検索対象の映像は、検索要求シーンであると判断できる。検索要求シーンの動き特徴量を抽出する方法として、動きベクトルに基づくテレビ映像解析と特徴記述の最適な検索パラメータのアルゴリズムが記載されている。
【0007】
上記文献では、検索要求シーンの判定方法は次のように定義されている。すなわち、検索は検索要求シーンのN個の動き特徴量Mpを、検索対象から求めたN個の動き特徴量Mdと比較したとき、全ての動き特徴量の比較誤差が、標準偏差Msdの範囲内にあれば、その部分の映像は検索要求シーンであると判定される。
【0008】
上記の動き特徴量を用いて野球中継シーンについて行う検索において、検索成績を表す量として再現率と適合率が次のように定義されている。
再現率=正確に投球シーンを判定した数/実際の投球シーン数
適合率=正確に投球シーンを判定した数/検索で判定された投球シーン数
【0009】
上記文献では、画面の分割数N、映像信号取り込み開始位置のシフトフレーム量L、連続取り込みフレーム数Dの3つをパラメータとして検索実験を行った。分割数Nは9、16、25の3段階で変化させ、例えば分割数N=9において、シフト量L=15〜60と、連続取り込みフレーム数D=30〜180と変化させた。
【0010】
上記の実験では、N=9ではD=135、L=60の時、N=16ではD=135、L=45の時,またN=25ではD=105,L=45の時に最も良い結果が得られたが、その時の再現率、適合率はともに約60%であった。これらの結果について上記文献の著者らは、パラメータの定義方法には検討すべき点があるとしている。また、検索時にビデオファイルから動き特徴量を計算するので、検索に時間がかかるという問題もある。
【0011】
【発明が解決しようとする課題】
本発明が解決しようとする課題は、検索ノイズを減らして上記文献にいう再現率、適合率をともに高めること、および検索時間の短縮を図ることである。
【0012】
【課題を解決するための手段】
本発明では、検索結果の再現率、適合率を高めるために、動き特徴量のほかに、XMLファイルに蓄積された映像に関するコメントデータを参照し、これと動き特徴量との関係より参照すべきフレームを検出することにする。また、動き特徴量を予め映像ファイルから計算し、特徴量ファイルに蓄積しておくことにより、目的シーンと映像ファイルの比較の際の処理速度を上げるようにする。
【0013】
【発明の実施の形態】
図1に本発明の一実施形態としての情報保持方式の構成を示す。視聴者は、XMLファイル1を参照して、あるビデオファイル2を指定して、目的のビデオシーン3を探す。このときビデオファイル2の各フレームの動き特徴量はXMLファイル1によって統合管理されている動き特徴量ファイル4に蓄積されている。目的のビデオシーン3からは参照すべき動き特徴量(参照特徴量)5が生成される。生成された参照特徴量5は特徴量ファイル4と比較されて、参照特徴量に近い動き特徴量を持つフレーム番号が特定される。
【0014】
ここで特定されたフレーム番号に相当するビデオファイル2のフレームを再生することにより、視聴者に目的のビデオシーンを提供することができる。参照特徴量に合致するシーンが複数ある場合は、参照すべき動き特徴量に対応して複数のビデオファイルのシーンが選択され、再生される。
【0015】
図2に本実施形態におけるビデオファイルの内容構成を示す。ビデオファイルには各フレームのデジタルデータが蓄積されており、フレーム番号と録画した時刻情報により検索することができる。ビデオ情報はデジタル化されているので、これより動き特徴量を算出して特徴量ファイルに蓄積する。画面の内容を示すコメント情報はXMLファイルに蓄積され、動き特徴量と共に、参照すべき動き特徴量を比較検索するのに使用される。
【0016】
図3は本実施形態における信号の流れを示すブロック図である。XMLファイル、ビデオファイルおよび特徴量ファイルを再生する再生回路8により当該ビデオ情報を再生し、動き特徴量算出回路9により動き特徴量を計算し、その結果を、XMLファイル、ビデオファイルおよび特徴量ファイルに戻して記憶する。
【0017】
検出の対象シーンのビデオ画像を再生する再生回路6が動作して、その動き特徴量を照合回路10に蓄積する。照合時は再度XMLファイル、ビデオファイルおよび特徴量ファイルを再生する再生回路8を動作させて、その出力と、照合回路10に蓄積されている対象シーンの出力を照合する。適合率を向上させるためにXMLファイルに蓄積されているコメント情報も参照する。照合動作の結果を知るためおよびビデオファイルの内容を見るために、表示装置11が使用される。
【0018】
図4は本実施形態の動作を示すフローチャートである。検出対象のビデオシーンを指定し(S2)、目的のビデオから参照すべき動き特徴量を抽出する(S3)。特徴量ファイルから参照すべき動き特徴量に近い値を持つフレーム番号を探す(S4)。XMLファイルを参照して抽出すべきシーンであるか問い合わせる(S5)。もしXMLファイルのコメントが目的のビデオに合致しないときは再度S4へ戻る。合致する場合は、探されたフレーム番号のビデオストリームを特定する(S6)。最終フレームまで照合が終了すれば(S7)、動作を終了する。目的のビデオシーンと似たシーンのフレーム番号を、照合回路10に蓄積し、再生動作により目的のシーンを表示装置11に再生する。
【0019】
【実施例】
本発明に係る情報保持方式は、独立型のビデオデッキに組み込むことができる。この場合は、ビデオデッキの内部に、目的のビデオシーンから参照すべき参照すべき動き特徴量を生成する回路と参照すべき動き特徴量を参照データとして、動き特徴量ファイルに蓄積されている各フレームの動き特徴量を比較する回路と、比較の結果特定されたフレーム番号に基づいてビデオを再生する機能を有する。
【0020】
本発明に係る情報保持方式は、ネットワークに接続されたセットトップボックスにも応用できる。 この場合は、ビデオコンテントの管理機能に、目的のビデオシーンから参照すべき動き特徴量を生成する回路と、参照すべき動き特徴量を参照データとして特徴量ファイルに蓄積されている各フレームの動き特徴量を比較する回路を備え、比較の結果特定されたフレーム番号に基づいてビデオ信号を再生する。
【0021】
【発明の効果】
本発明の効果は、映像ビデオ内のビデオコンテントを早く正確に検出できることである。動き特徴量による照合に加えてコメント記述を参照することにより、ビデオファイル内の目的フレームを容易に検出できるので、検索ノイズが減少してシーン検索の適合率が向上する。また、動き特徴量を予め計算して動き特徴量ファイルに蓄積しておくので、所望のフレームを探し出すまでの照合時間を短縮することができる。
【0022】
【図面の簡単な説明】
【図1】本発明の一実施形態としての情報保持方式の構成を示す概念図である。
【図2】本実施形態におけるビデオファイルの内容構成を示す概念図である。
【図3】本実施形態における信号の流れを示すブロック図である。
【図4】本実施形態に係る情報保持方式の動作を示すフローチャートである。
【符号の説明】
1・・XMLファイル
2・・ビデオファイル
3・・目的のビデオシーン
4・・特徴量ファイル
5・・参照すべき動き特徴量
6・・対象シーンのビデオ画像再生回路
7・・信号抽出回路
8・・XMLファイル、ビデオファイル、特徴量ファイル再生回路
9・・動き特徴量算出回路
10・・照合回路
11・・表示装置
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an information holding method suitable for a moving image search for searching an image sequence that matches a scene desired by a viewer from an image sequence recorded on a recording medium.
[0002]
[Prior art]
At present, digital broadcasting capable of providing multi-channels and capable of interactive services is becoming widespread, and large-capacity and low-priced storage media have been achieved. These technologies are making it possible to configure a video server that can record programs for a long time. Along with this, development of a new video database system that allows viewers to search and display favorite programs and specific scenes at any time is expected, and scene retrieval functions equipped with such a search system are currently expected. Practical use of video decks and set-top boxes with scene extraction functions is being promoted.
[0003]
If information about the motion of the image is extracted and statistically processed, an amount called “motion feature amount” representing a change or a characteristic of the motion of the image can be obtained. It is thought that by searching for an image signal using this motion feature amount, a favorite program or a specific scene can be selected from a large-capacity program video, and a moving image search was performed using such a method. A case has been published (for example, see Non-Patent Document 1).
[0004]
[Non-patent document 1]
Akihiko Watanabe, Jun Usuki, Kazumi Komiya "Analysis of TV Video Analysis and Feature Description Based on Motion Vector" The Institute of Image Electronics Engineers of Japan (University of the Ryukyus) March 11, 2002 [0005]
Taking a baseball broadcast as an example, in baseball, scenes such as the front and back of a round, the change of batter, and each pitch appear cyclically. In addition, the camera work is often the same, and is standard throughout the baseball broadcast. Therefore, a motion vector between images is calculated, and the amount of motion of the image is calculated by performing statistical processing. At this time, one screen is divided into several regions, and a motion feature amount is calculated from a motion vector in each region.
[0006]
At the time of the search, the motion feature amount calculated from the video to be searched is compared with the motion feature amount of the search request scene prepared in advance. If the comparison errors of all the motion feature amounts are within the allowable range, it can be determined that the search target video in that portion is a search request scene. As a method for extracting a motion feature amount of a search request scene, an algorithm of an optimal search parameter for TV video analysis and feature description based on a motion vector is described.
[0007]
In the above document, the method of determining the search request scene is defined as follows. That is, in the search, when the N motion feature amounts Mp of the search request scene are compared with the N motion feature amounts Md obtained from the search target, the comparison errors of all the motion feature amounts are within the standard deviation Msd. , The video of that portion is determined to be a search request scene.
[0008]
In a search performed on a baseball broadcast scene using the above-described motion feature values, a recall rate and a precision rate are defined as quantities representing search results as follows.
Reproducibility = Number of pitched scenes determined accurately / Number of actual pitched scenes Matching rate = Number of pitched scenes determined accurately / Number of pitched scenes determined by search
In the above document, a search experiment was performed using three parameters of the number of screen divisions N, the shift frame amount L of the video signal capture start position, and the number of continuous capture frames D as parameters. The number of divisions N was changed in three stages of 9, 16, and 25. For example, when the number of divisions N = 9, the shift amount L was changed to 15 to 60, and the number of continuously captured frames D was changed to 30 to 180.
[0010]
In the above experiment, when N = 9, D = 135, L = 60, when N = 16, D = 135, L = 45, and when N = 25, the best result when D = 105, L = 45. Was obtained, and the recall and precision at that time were both about 60%. With respect to these results, the authors of the above-mentioned literature point out that there is a point to be considered in the method of defining parameters. In addition, since the motion feature amount is calculated from the video file at the time of the search, there is a problem that the search takes time.
[0011]
[Problems to be solved by the invention]
The problem to be solved by the present invention is to reduce the search noise to increase both the recall rate and the precision rate referred to in the above document, and to shorten the search time.
[0012]
[Means for Solving the Problems]
In the present invention, in order to increase the recall rate and the relevance rate of the search result, in addition to the motion feature amount, the comment data relating to the video stored in the XML file is referred to, and the relation between the comment data and the motion feature amount should be referred to. Let us detect the frame. Further, by calculating the motion feature amount from the video file in advance and storing it in the feature amount file, the processing speed in comparing the target scene with the video file is increased.
[0013]
BEST MODE FOR CARRYING OUT THE INVENTION
FIG. 1 shows a configuration of an information holding system as one embodiment of the present invention. The viewer refers to the XML file 1, specifies a certain video file 2, and searches for a target video scene 3. At this time, the motion feature amount of each frame of the video file 2 is stored in the motion feature amount file 4 which is integrated and managed by the XML file 1. From the target video scene 3, a motion feature amount (reference feature amount) 5 to be referred to is generated. The generated reference feature value 5 is compared with the feature value file 4, and a frame number having a motion feature value close to the reference feature value is specified.
[0014]
By reproducing the frame of the video file 2 corresponding to the specified frame number, a target video scene can be provided to the viewer. When there are a plurality of scenes that match the reference feature, scenes of a plurality of video files are selected and reproduced corresponding to the motion feature to be referenced.
[0015]
FIG. 2 shows the content structure of the video file in the present embodiment. Digital data of each frame is stored in the video file, and the video file can be searched by the frame number and the recorded time information. Since the video information is digitized, the motion feature amount is calculated from this and stored in the feature amount file. The comment information indicating the contents of the screen is stored in the XML file, and is used for comparing and searching the motion feature to be referred to together with the motion feature.
[0016]
FIG. 3 is a block diagram showing a signal flow in the present embodiment. The video information is reproduced by a reproduction circuit 8 for reproducing an XML file, a video file, and a feature file, and the motion feature is calculated by a motion feature calculation circuit 9. The result is converted into an XML file, a video file, and a feature file. Return to and memorize.
[0017]
The reproduction circuit 6 for reproducing the video image of the detection target scene operates, and the motion feature amount is stored in the collation circuit 10. At the time of collation, the reproduction circuit 8 for reproducing the XML file, the video file, and the feature file is operated again, and the output thereof is collated with the output of the target scene stored in the collation circuit 10. The comment information stored in the XML file is also referred to in order to improve the precision. The display device 11 is used to know the result of the matching operation and to view the contents of the video file.
[0018]
FIG. 4 is a flowchart showing the operation of the present embodiment. A video scene to be detected is designated (S2), and a motion feature to be referred to is extracted from the target video (S3). A frame number having a value close to the motion feature to be referred is searched from the feature file (S4). With reference to the XML file, an inquiry is made as to whether the scene should be extracted (S5). If the comment of the XML file does not match the target video, the process returns to S4. If they match, the video stream of the searched frame number is specified (S6). When the collation is completed up to the last frame (S7), the operation ends. The frame number of a scene similar to the target video scene is stored in the matching circuit 10, and the target scene is reproduced on the display device 11 by a reproducing operation.
[0019]
【Example】
The information holding method according to the present invention can be incorporated in a stand-alone video deck. In this case, a circuit for generating a motion feature to be referred from the target video scene and a motion feature to be referred to as reference data are stored in the motion feature file inside the VCR. It has a circuit for comparing motion feature amounts of frames and a function of reproducing a video based on a frame number specified as a result of the comparison.
[0020]
The information holding method according to the present invention can also be applied to a set-top box connected to a network. In this case, the video content management function includes a circuit for generating a motion feature to be referenced from the target video scene, and a motion of each frame stored in the feature file using the motion feature to be referenced as reference data. A circuit is provided for comparing feature values, and reproduces a video signal based on the frame number specified as a result of the comparison.
[0021]
【The invention's effect】
An advantage of the present invention is that video content in a video image can be detected quickly and accurately. By referring to the comment description in addition to the collation based on the motion feature amount, the target frame in the video file can be easily detected, so that the search noise is reduced and the relevance of the scene search is improved. Further, since the motion feature amount is calculated in advance and stored in the motion feature amount file, it is possible to reduce the collation time required for searching for a desired frame.
[0022]
[Brief description of the drawings]
FIG. 1 is a conceptual diagram showing a configuration of an information holding method as one embodiment of the present invention.
FIG. 2 is a conceptual diagram showing a content configuration of a video file in the embodiment.
FIG. 3 is a block diagram illustrating a signal flow according to the embodiment.
FIG. 4 is a flowchart showing an operation of the information holding method according to the embodiment.
[Explanation of symbols]
1 XML file 2 Video file 3 Target video scene 4 Feature file 5 Motion feature 6 to be referred to Video image reproduction circuit 7 of target scene 7 Signal extraction circuit 8 An XML file, a video file, a feature file reproducing circuit 9; a motion feature calculating circuit 10; a matching circuit 11;

Claims (1)

一連の画像列からなる映像シーンが蓄積されているビデオファイルと、ビデオファイル中の画像列の動きに関する動き特徴量が各画像のフレーム番号と関係付けられて蓄積されている特徴量ファイルと、各画像の内容に関するコメント情報が蓄積されビデオファイルと特徴量ファイルとを統合的に管理するXMLファイルとを備え、
視聴者が見たいシーンについて参照特徴量を生成し、当該参照特徴量とXMLファイルに蓄積されているコメント情報とに基づいて、前記特徴量ファイルから参照特徴量に近い動き特徴量を持つフレ−ム番号を特定し、当該フレーム番号に基づいて前記ビデオファイルから視聴者が見たいシーンに似たシーンを選び出すことができる情報保持方式。
A video file in which video scenes consisting of a series of image sequences are stored; a feature file in which motion feature values relating to the motion of the image sequences in the video file are stored in association with the frame numbers of the images; An XML file in which comment information on the content of the image is stored and which integrally manages the video file and the feature amount file;
A reference feature is generated for a scene desired by the viewer, and a frame having a motion feature close to the reference feature from the feature file based on the reference feature and the comment information stored in the XML file. An information holding method for specifying a system number and selecting a scene similar to a scene desired by a viewer from the video file based on the frame number.
JP2003089969A 2003-03-28 2003-03-28 Information holding system for moving picture searching Pending JP2004297669A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003089969A JP2004297669A (en) 2003-03-28 2003-03-28 Information holding system for moving picture searching

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003089969A JP2004297669A (en) 2003-03-28 2003-03-28 Information holding system for moving picture searching

Publications (1)

Publication Number Publication Date
JP2004297669A true JP2004297669A (en) 2004-10-21

Family

ID=33403711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003089969A Pending JP2004297669A (en) 2003-03-28 2003-03-28 Information holding system for moving picture searching

Country Status (1)

Country Link
JP (1) JP2004297669A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI505690B (en) * 2004-11-02 2015-10-21 Dell Products Lp System and method for information handling system image network communication

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI505690B (en) * 2004-11-02 2015-10-21 Dell Products Lp System and method for information handling system image network communication

Similar Documents

Publication Publication Date Title
JP5005154B2 (en) Apparatus for reproducing an information signal stored on a storage medium
US8265146B2 (en) Information processing apparatus, imaging device, information processing method, and computer program
US9036977B2 (en) Automatic detection, removal, replacement and tagging of flash frames in a video
US7483624B2 (en) System and method for indexing a video sequence
JP2004023798A (en) System and method for automatically creating video cliplet from digital video
JP2009171623A (en) Method of describing hint information
JP2007082088A (en) Contents and meta data recording and reproducing device and contents processing device and program
JP2000516434A (en) Visible indexing system
JP2006155384A (en) Video comment input/display method and device, program, and storage medium with program stored
JP2010072708A (en) Apparatus for registering face identification features, method for registering the same, program for registering the same, and recording medium
KR20030026529A (en) Keyframe Based Video Summary System
US20130058630A1 (en) Method and apparatus for generating data representing digests of pictures
JP2004153764A (en) Meta-data production apparatus and search apparatus
US20170040040A1 (en) Video information processing system
JP2008086030A (en) Hint information description method
JP2009129039A (en) Content storage device and content storage method
JPH11259061A (en) Digital dynamic image processor and method thereof
JP2008166895A (en) Video display device, its control method, program and recording medium
JP2004297669A (en) Information holding system for moving picture searching
US7471871B2 (en) Index validation system and method
JP5070179B2 (en) Scene similarity determination device, program thereof, and summary video generation system
JP3558886B2 (en) Video processing equipment
JP3931890B2 (en) Video search method and apparatus
JP5746765B2 (en) Determining the representative image of the video
JP2009049667A (en) Information processor, and processing method and program thereof