JP2009259167A - Video search digest generator and generation method, and program - Google Patents
Video search digest generator and generation method, and program Download PDFInfo
- Publication number
- JP2009259167A JP2009259167A JP2008110400A JP2008110400A JP2009259167A JP 2009259167 A JP2009259167 A JP 2009259167A JP 2008110400 A JP2008110400 A JP 2008110400A JP 2008110400 A JP2008110400 A JP 2008110400A JP 2009259167 A JP2009259167 A JP 2009259167A
- Authority
- JP
- Japan
- Prior art keywords
- video
- digest
- search
- keyword
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、映像検索ダイジェスト生成装置及び方法及びプログラムに係り、特に、音声、音楽を含む映像を検索してダイジェストを生成する映像検索ダイジェスト生成装置及び方法及びプログラムに関する。 The present invention relates to a video search digest generation apparatus, method, and program, and more particularly, to a video search digest generation apparatus, method, and program for searching video including voice and music to generate a digest.
映像数の増加に伴い、効率的な映像視聴方法が求められる。このためには、映像のダイジェストを視聴することが効果的な手法としてあげられる。例えば、強調音声区間を基に、ユーザの指定する任意の時間長でダイジェストを生成する手法がある(例えば、特許文献1参照)。 As the number of videos increases, an efficient video viewing method is required. For this purpose, viewing the video digest is an effective method. For example, there is a method of generating a digest with an arbitrary time length designated by the user based on the emphasized speech section (see, for example, Patent Document 1).
また、音声の感情状態に対応してダイジェストを生成する手法がある(例えば、特許文献2参照)。 In addition, there is a method of generating a digest corresponding to the emotional state of speech (see, for example, Patent Document 2).
また、動物体が大きく写っている映像区間を作成することができ、ダイジェスト的な映像区間閲覧のためのインデックスを利用者に提供することが可能な技術がある(例えば、特許文献3参照)。
しかしながら、従来提案されている方法は、装置、または、プログラムがダイジェストを生成するものである。各映像をダイジェスト視聴することにより、1映像あたりの視聴時間を短縮することはできても、映像数の増加、例えば、10000コンテンツを視聴するには、1映像を10秒でダイジェスト視聴したとしても、100000秒、約27時間以上を要してしまう。この問題を解決するには、ダイジェスト視聴技術に加え、検索技術が必要となる。 However, the conventionally proposed method is one in which a device or a program generates a digest. Although each video can be digested, the viewing time per video can be reduced, but to increase the number of videos, for example, to view 10000 content, even if one video is digested in 10 seconds. , 100,000 seconds, about 27 hours or more will be required. In order to solve this problem, search technology is required in addition to digest viewing technology.
本発明は、上記の点に鑑みなされたもので、検索要求を満足するダイジェストを同定し、該ダイジェストをユーザに提示する映像検索ダイジェスト生成装置及び方法及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, and an object of the present invention is to provide a video search digest generation apparatus, method, and program for identifying a digest that satisfies a search request and presenting the digest to a user.
図1は、本発明の原理構成図である。 FIG. 1 is a principle configuration diagram of the present invention.
本発明(請求項1)は、音声データを含む映像を検索してダイジェストを生成して提供する映像検索ダイジェスト生成装置であって、
映像を入力し、記憶手段14に格納する映像入力手段と131、
記憶手段14から映像を読み出して解析し、キーワードを抽出し、該記憶手段14に格納するキーワード抽出手段132と、
記憶手段14から映像を読み出して、該映像を分割した区間のダイジェストを生成するための情報である要約情報として記憶手段14に格納するダイジェスト生成手段133と、
ユーザから指定された検索語に対応するキーワードを前記記憶手段14から取得し、該キーワードに対応する要約情報を該記憶手段14から取得する、または、記憶手段14から該要約情報の区分の映像をダイジェストとして取得して出力する検索提示手段134と、を有する。
The present invention (Claim 1) is a video search digest generation device that searches video including audio data, generates a digest, and provides the digest.
A
A
Digest generation means 133 that reads video from the storage means 14 and stores it in the storage means 14 as summary information that is information for generating a digest of a section obtained by dividing the video;
A keyword corresponding to a search term designated by a user is acquired from the
また、本発明(請求項2)は、キーワード抽出手段132において、
映像と同梱されたメタデータ、映像を公開したサイトにおける該映像の表示位置付近のテキスト、該映像に付帯する音声を解析して求めた音素列、の少なくとも1つから、該映像のキーワードを抽出する手段を含む。
Further, the present invention (Claim 2) is the
The keyword of the video is selected from at least one of metadata bundled with the video, text near the display position of the video on the site where the video is released, and a phoneme string obtained by analyzing audio attached to the video. Means for extracting.
また、本発明(請求項3)は、キーワード抽出手段132において、
ネットワーク上のテキストと、映像に付帯する音声を解析して求めた音素列を対応付けて該映像のキーワードを抽出する手段を含む。
Further, according to the present invention (Claim 3), the
And means for extracting a keyword of the video by associating the text on the network with the phoneme string obtained by analyzing the voice attached to the video.
また、本発明(請求項4)は、ダイジェスト生成手段133において、
映像を一つ以上の区間に分割し、該区間について、ダイジェストに利用する優先順位を、音声特徴量、画像特徴量の少なくとも1つを用いて付与し、該優先順位を用いて複数の長さの要約情報を生成する手段を含む。
Further, the present invention (Claim 4) is the digest generating means 133,
The video is divided into one or more sections, and priorities used for digests are assigned to the sections using at least one of audio feature amounts and image feature amounts, and a plurality of lengths are used using the priority orders. Means for generating summary information.
図2は、本発明の原理を説明するための図である。 FIG. 2 is a diagram for explaining the principle of the present invention.
本発明(請求項5)は、音声データを含む映像を検索してダイジェストを生成して提供する映像検索ダイジェスト生成方法であって、
映像入力手段が、映像を入力し、記憶手段に格納する映像入力ステップ(ステップ1)と、
キーワード抽出手段が、記憶手段から映像を読み出して解析し、キーワードを抽出し、検記憶手段に格納するキーワード抽出ステップ(ステップ2)と、
ダイジェスト生成手段が、記憶手段から映像を読み出して、該映像を分割した区間のダイジェストを生成するための情報である要約情報として該記憶手段に格納するダイジェスト生成ステップ(ステップ3)と、
検索提示手段が、ユーザから指定された検索語に対応するキーワードを記憶手段から取得し、該キーワードに対応する要約情報を該記憶手段から取得する、または、記憶手段から該要約情報の区分の映像をダイジェストとして取得して出力する検索提示ステップ(ステップ4)と、を行う。
The present invention (Claim 5) is a video search digest generation method for searching for video including audio data and generating and providing a digest,
A video input step (step 1) for the video input means to input the video and store it in the storage means;
A keyword extracting unit that reads and analyzes the video from the storage unit, extracts a keyword, and stores the keyword in the test storage unit (step 2);
A digest generation step (Step 3) in which the digest generation means reads the video from the storage means and stores it in the storage means as summary information that is information for generating a digest of a section obtained by dividing the video;
The search presentation unit acquires a keyword corresponding to the search term designated by the user from the storage unit and acquires summary information corresponding to the keyword from the storage unit, or a video of the summary information section from the storage unit And a search presenting step (step 4) for obtaining and outputting the digest as a digest.
また、本発明(請求項6)は、キーワード抽出ステップ(ステップ2)において、
映像と同梱されたメタデータ、映像を公開したサイトにおける該映像の表示位置付近のテキスト、該映像に付帯する音声を解析して求めた音素列、の少なくとも1つから、該映像のキーワードを抽出するステップを行う。
Further, the present invention (Claim 6), in the keyword extraction step (Step 2),
The keyword of the video is selected from at least one of metadata bundled with the video, text near the display position of the video on the site where the video is released, and a phoneme string obtained by analyzing audio attached to the video. Perform the extraction step.
また、本発明(請求項7)は、キーワード抽出ステップ(ステップ2)において、
ネットワーク上のテキストと、映像に付帯する音声を解析して求めた音素列を対応付けて該映像のキーワードを抽出するステップを行う。
Further, according to the present invention (Claim 7), in the keyword extraction step (Step 2),
A step of extracting a keyword of the video by associating the text on the network with the phoneme string obtained by analyzing the voice attached to the video is performed.
また、本発明(請求項8)は、ダイジェスト生成ステップ(ステップ3)において、
映像を一つ以上の区間に分割し、該区間について、ダイジェストに利用する優先順位を、音声特徴量、画像特徴量の少なくとも1つを用いて付与し、該優先順位を用いて複数の長さの要約情報を生成するステップを行う。
In the digest generation step (step 3), the present invention (claim 8)
The video is divided into one or more sections, and priorities used for digests are assigned to the sections using at least one of audio feature amounts and image feature amounts, and a plurality of lengths are used using the priority orders. A step of generating summary information is performed.
本発明(請求項9)は、請求項1乃至4のいずれか1項に記載の映像検索ダイジェスト生成装置を構成する各手段としてコンピュータを機能させるための映像検索ダイジェスト提示プログラムである。
The present invention (Claim 9) is a video search digest presentation program for causing a computer to function as each means constituting the video search digest generation apparatus according to any one of
本発明によれば、映像のダイジェストとキーワードを抽出して保存しておくことにより、ユーザの指定した検索語を満足するダイジェストを高速に提示することが可能となる。 According to the present invention, by extracting and storing a video digest and a keyword, it is possible to present a digest that satisfies a search term designated by the user at high speed.
また、映像のキーワードを抽出することが可能となる。 Also, it is possible to extract video keywords.
さらに、ダイジェストに利用される一つ以上の区間について、ダイジェストに利用する優先順位を付与し、複数の長さのダイジェストを生成することが可能となる。 Furthermore, with respect to one or more sections used for the digest, it is possible to give priority to use for the digest and generate digests having a plurality of lengths.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図3は、本発明の一実施の形態における映像検索ダイジェスト生成装置の構成を示す。 FIG. 3 shows a configuration of the video search digest generation device according to the embodiment of the present invention.
同図に示す映像検索ダイジェスト生成装置は、中央処理ユニット(CPU:Central Processing Unit)11を備える。当該CPU11には、バス12を介して、プログラムメモリ13、データメモリ14、通信インタフェース(通信I/F)15がそれぞれ接続されている。
The video search digest generation apparatus shown in the figure includes a central processing unit (CPU) 11. A
プログラムメモリ13には、映像入力部131、キーワード抽出部132、ダイジェスト生成部133、検索要求検索提示部(以下、「検索提示部」と記す)134が格納されている。
The
データメモリ14には、コンテンツ記憶部141と検索ダイジェスト記憶部142が設けられている。
The
通信I/F15は、CPU11の制御の下、インターネット上のサーバ及びインターネットサイトとの間で、通信ネットワークにより規定される通信プロトコルに従い通信を行う。通信プロトコルとしては、例えば、TCP/IP(Transmission Control Protocol/Internet Protocol)が使用される。
The communication I /
プログラムメモリ13の映像入力部131は、映像ファイルが入力されると、コンテンツ記憶部141に記憶する。
When a video file is input, the
キーワード抽出部132は、コンテンツ記憶部141から映像ファイルを読み出して、当該映像ファイルの映像を解析してキーワードを抽出する。キーワードを抽出する際に、映像と同梱されたメタデータ、映像を公開したサイトにおける映像の表示付近のテキスト、映像に付帯する音声を解析して求めた音素列のいずれかまたは両方から映像のキーワードを抽出し、検索ダイジェスト記憶部142に格納する。また、ネットワーク上のテキストと映像に付帯する音声を解析して求めた音素列を対応付けて映像のキーワードを抽出してもよい。
The
ダイジェスト生成部133は、映像を一つ以上の区間に分割し、各区間について、ダイジェストに利用する優先順位を、音声特徴量、画像特徴量のいずれか一つ以上を用いて付与して、優先順位を用いて複数の長さのダイジェストを生成するためのダイジェスト要約情報を生成し、キーワード抽出部132で抽出されたキーワードと対応付けて検索ダイジェスト記憶部142に格納する。
The
検索提示部134は、ユーザから指定された検索語に対応するダイジェストをダイジェスト記憶部142から検索して、当該ダイジェスト要約に対応するコンテンツをコンテンツ記憶部141からダイジェストとして取得して、ユーザの表示手段(図示せず)に通信I/F15を介して表示する。
The
図4は、本発明の一実施の形態における映像検索ダイジェスト生成装置の動作のフローチャートである。 FIG. 4 is a flowchart of the operation of the video search digest generation device according to the embodiment of the present invention.
ステップ101) 映像が入力されると、映像入力部131は、データメモリ14のコンテンツ記憶部141に格納する。
Step 101) When a video is input, the
ステップ102) 次に、キーワード抽出部132において、コンテンツ記憶部141から映像を読み込んで、当該映像と同梱されたメタデータ、映像を公開したサイトにおける映像の表示付近のテキスト、映像に付帯する音声を解析して求めた音素列のいずれかまたは両方から映像のキーワードを抽出し、検索ダイジェスト記憶部142に格納する。
Step 102) Next, in the
ステップ103) ダイジェスト生成部133において、コンテンツ記憶部141から映像を読み込んで、当該映像を複数の区間に分割し、各区間について、ダイジェストを提示するための優先度、その区間の時間長等を含めた要約情報として、ステップ102で抽出されたキーワードに対応付けて検索ダイジェスト記憶部142に格納する。
Step 103) The digest
ステップ104) 検索提示部134は、ユーザから検索語が入力されると、当該検索語に基づいて、検索ダイジェスト記憶部142を検索し、当該検索語に対応するキーワードを取得し、当該キーワードに対応するダイジェスト要約情報を取得し、当該要約情報の優先度に基づいてN件の区間の映像をダイジェスト映像としてコンテンツ記憶部141から読み出して、ユーザの表示手段(図示せず)に通信I/F15を介して出力する。
Step 104) When a search word is input from the user, the
以下に、上記の構成の各要素について詳細に説明する。 Below, each element of said structure is demonstrated in detail.
<キーワード抽出部132>
まず、キーワード抽出部132について説明する。
<
First, the
キーワード抽出部132は、入力された映像データと共に、コンテンツについての説明が、映像ファイルに梱包されていれば、それを利用してキーワードを抽出する。例えば、mpeg7(http://www.itscj.ipsj.or.jp/mpeg7/)形式で記述された文書などが想定される。あるいは、映像ファイルには、ヘッダ部分と呼ばれる映像圧縮形式などが記された領域がある。その領域に、映像を説明する内容が記されていれば、それを利用してもよい。
The
あるいは、映像が公開されたネットワーク上のサイトのHTMLなどを解析することにより、映像と関連したキーワードを抽出してもよい。例えば、特開2005−115721号公報"植松幸生、竹野浩、小長井俊介、「画像検索方法、画像検索装置及び画像検索プログラム」"では、周辺テキストを、該画像のリンクについて記述するタグ前後の文字列として、該文字列と該画像を関連付ける方法が述べられている。この方法を該画像から該映像のリンクと変更することにより、該映像と該文字列を関連付けることが可能となる。さらに、該文字列からキーワードを抽出するには、例えば、特許第3575242号公報"別所克人、岩瀬成人、「キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体」"を用いればよい。 Alternatively, keywords related to the video may be extracted by analyzing HTML or the like of the site on the network where the video is released. For example, in Japanese Patent Application Laid-Open No. 2005-115721 “Yukio Uematsu, Hiroshi Takeno, Shunsuke Konagai,“ Image Search Method, Image Search Device, and Image Search Program ””, the text before and after the tag describing the link of the image is described. A method of associating the character string with the image is described as a column, and by changing the method from the image to the link of the video, it is possible to associate the video with the character string. In order to extract a keyword from the character string, for example, Japanese Patent No. 3575242, “Katsuto Bessho, Adult Iwase,“ Keyword Extraction Method and Apparatus, and Storage Medium Stored Keyword Extraction Program ”” may be used.
あるいは、映像に付帯する音声を解析して音素列を得て、それを利用するものであってもよい。例えば、音素列は、特許第3368989号公報"野田喜昭、嵯峨山茂樹、「音声認識方法」"、もしくは、特開2000−89791号公報"宮崎昇、川端豪「音声認識応答方法、その装置及びプログラム記録媒体」"の技術を用いて抽出すればよい。この音素列を上記の特許第3368989号公報に記載の技術により音声認識し、結果を上記の特許第3575242号公報に記載の技術により、キーワード抽出すればよい。 Alternatively, it may be possible to obtain a phoneme string by analyzing a voice attached to a video and use it. For example, the phoneme sequence is disclosed in Japanese Patent No. 3368899 “Yoshiaki Noda, Shigeki Hiyama,“ Voice Recognition Method ””, or Japanese Patent Laid-Open No. 2000-87991 “Noboru Miyazaki, Go Kawabata” voice recognition response method, apparatus thereof, and What is necessary is just to extract using the technique of a program recording medium "". This phoneme sequence is recognized by the technique described in the above-mentioned Japanese Patent No. 3368899, and the result is obtained by the technique described in the above-mentioned Japanese Patent No. 3575242. What is necessary is just to extract a keyword.
あるいは、映像ファイルから音声を抽出し、当該音声から音素列を求め、音素記号と無音区間情報からなるシンボル列を取得し、Web情報から取得した記事情報の音素列と文節情報からなるシンボル列とを用いて、音声シンボル集合に対する類似度を求め、映像ファイルと類似度が最大となる関連記事IDに対応する記事の文章を取得する。当該関連記事のテキストを前述の特許第3575242号の方法により、キーワード抽出すればよい。 Alternatively, audio is extracted from the video file, a phoneme sequence is obtained from the audio, a symbol sequence consisting of phoneme symbols and silent section information is acquired, and a symbol sequence consisting of phoneme sequence and article information of article information acquired from Web information Is used to obtain the similarity to the speech symbol set, and the article text corresponding to the related article ID having the maximum similarity to the video file is obtained. The text of the related article may be extracted by the method of the aforementioned Japanese Patent No. 3575242.
これまで述べてきたキーワードは、一つである必要はなく、例えば、前述の特許第3575242号の技術によれば、複数のキーワードを抽出できる。上記の一つ以上のキーワードを検索ダイジェスト記憶部142に記憶する方法については後述する。 The keyword described so far does not have to be one. For example, according to the technique of the aforementioned Japanese Patent No. 3575242, a plurality of keywords can be extracted. A method of storing the one or more keywords in the search digest storage unit 142 will be described later.
<ダイジェスト生成部133>
次に、ダイジェスト生成部133について詳細に説明する。
<
Next, the digest
ダイジェスト生成部133は、コンテンツ記憶部141から映像を読み込んで、当該映像を1つ以上の区間に分割し、ダイジェストに利用可能な区間に優先順位を付与する。
The digest
優先順位の付与方法としては、例えば、特許第3803311号公報"日高浩太、水野理、中嶌信弥「音声処理方法及びその方法を使用した装置及びそのプログラム」"に記載の技術を用いてもよい。音声の強調状態を確率的、すなわち、強調度として抽出する手法は、区間の優先順位を当該区間の強調度を降順にすることで付与することが可能となる。 As a method of assigning priorities, for example, the technique described in Japanese Patent No. 3803111 “Kouta Hidaka, Osamu Mizuno, Shinya Nakajo“ Speech Processing Method, Apparatus Using the Method, and Program ”” may be used. The method of extracting the voice emphasis state probabilistically, that is, as the degree of emphasis, can give the priority of the section by decreasing the emphasis degree of the section in descending order.
また、区間の音声の感情度を求め、感情度の降順に優先順位を付与する技術を用いてもよい。例えば、WO 2008/032787 A1に記載の技術を用いることが可能である。学習行程において、一つ以上の感情を設定しておくことにより当該感情毎の感情度を抽出する可能となる。あるいは、当該区間について、一つ以上の感情度の最大値/和算/乗算/平均のいずれかを最終的な感情度として規定し、優先順位を付与するものであってもよい。 Further, a technique may be used in which the emotion level of the voice in the section is obtained and priority is given in descending order of the emotion level. For example, the technique described in WO 2008/032787 A1 can be used. By setting one or more emotions in the learning process, the emotion level for each emotion can be extracted. Or about the said area, any one of the maximum value / summation / multiplication / average of one or more emotion degrees may be prescribed | regulated as a final emotion degree, and a priority may be provided.
または、下記の表情検出装置を用いて行ってもよい。以下の表情検出装置により、区間の画像情報を用いて、人間の笑い状態を検出し、感情度の降順に優先順位を付与する。 Or you may perform using the following facial expression detection apparatus. The following facial expression detection device detects the human laughing state using the image information of the section, and gives priority in descending order of emotion level.
図5は、本発明の一実施の形態における表情検出装置の構成を示し、図6は、本発明の一実施の形態における基本的な表情検出処理のフローチャートである。 FIG. 5 shows the configuration of a facial expression detection apparatus according to an embodiment of the present invention, and FIG. 6 is a flowchart of basic facial expression detection processing according to an embodiment of the present invention.
同図に示す表情検出装置は、動画入力部10、顔画像領域抽出部20、特徴点抽出部30、特徴量抽出部40、笑い状態検出部50、特徴点記憶部35、特徴量記憶部45から構成される。
The facial expression detection apparatus shown in FIG. 1 includes a moving
ステップ1) 動画入力部10は、動画を入力する。
Step 1) The moving
ステップ2) 顔画像領域抽出部20は、Adaboost学習によるHaar-like特徴を用いた識別器を用いるものとし、入力された動画像から人物の顔画像領域を抽出する。ここで、多数の弱識別器をカスケード型とし、該カスケード型識別器を識別対象の大きさ、位置を変化させて適用し、顔画像領域を特定する。これについては、例えば、文献「Paul Viola, Michael J. Jones. Robust Real-Time Face Detection. International Journal of Computer Vision. Vol. 57, No2 pp.137-154 (2004)」などに記載されている。
Step 2) The face image
ステップ3) 特徴点抽出部30は、顔画像領域抽出部20で抽出された顔画像領域から鼻の先端、口角の左右の位置を特徴点として抽出し、特徴点記憶部35に格納する。特徴点抽出処理を行う際に、事前処理として、図7に示す黒抜き丸で示す25点の特徴点を抽出している。特徴点は、輪郭、目玉、眉毛、鼻、口に関連して割り振っている。この特徴点の抽出方法としては、例えば、文献「Lades M., Vorbruggen J., Buhmann J., Lange J., Konen W., von der Malsburg C., Wurtz R. Distortion Invariant Object Recognition in the Dynamic Link Architecture. IEEE Trans. Computers, Vol. 42, No. 3 pp.300-311(1993)」、「Wiskott L., Fellous J.-M., Kruger N., von der Malsburg C. Face Recognition by Elastic Bunch Graph Matching. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19. Issue 7, pp. 775-779 (1997)」等の公知の方法を用いるものとする。これらの公知技術を参照することにより、例えば、人物が顔を動かすなどの行為を行ったとしても安定して、図7に示す25点の特徴を抽出可能である。この25点の特徴のうち、図8に示す二重丸の3点(h,i,j)のみを抽出し、残りの点は必要としない。これらは、鼻の先端、口角の左右の位置に相当する点である。また、25点の特徴を抽出することなく、必要な3点のみを直接抽出してもよい。このような方法により、不要な点の抽出処理を省くことができる。
Step 3) The feature
ステップ4) 特徴量抽出部40は、鼻の先端を基準としたときの口角の左右位置との角度を計測して特徴とする。図9の例では、鼻の先端hを基準としたときの左右の口角の位置i,jの角度αを計測し、特徴量とし、特徴量記憶部45に格納する。
Step 4) The feature
ステップ5) 笑い状態検出部50は、特徴量記憶部45から特徴量(角度α)を読み出して、各度αの時間変化を求め、時間変化から平衡状態からの立ち上がり状態、最大角度状態、平衡状態への立ち下がり状態の3状態に分割し、笑い状態からの開始から終了までの連続的な変化を捉える。具体的には、角度の特徴量をαとしたときのその時間履歴を図10のように計測する。更に、αの時間履歴から、同図に示すように、平衡状態からの立ち上がり、最大角度、平衡状態への立下りの3状態に分割する。実際には、人間が平衡状態にあるときに必ずしも口の形状が閉まっている状態ではないことが想定される。また、通常会話しているときも口の形状は開閉状態となる。このような場合においても、笑っているか否かを判断するためには、例えば、特徴量αの時間変化を観測すればよい。具体的には、図11に示すように、特徴量の時間微分dα/dtと、2つの閾値を用いる。2つの閾値については、高閾値「thupper」と低閾値「thlower」と呼ぶこととする。この閾値は静的に設定されるものでもよく、後述する方法により動的に設定されるものであってもよい。
Step 5) The laughter
以下に、笑い状態検出部50における、3状態に分割する方法について説明する。
Hereinafter, a method of dividing into three states in the laughter
平衡状態からの立ち上がり状態については、その開始時刻を時間微分dα/dtが高閾値thupperを超えた時刻の時間微分dα/dtから時間的に前方向を観測し、最短時間でdα/dt=0となる時刻t0とする。一方、終了時刻は、時間微分dα/dtが高閾値thupper越えた時刻の時間微分dα/dtから時間的に後ろ方向を観測し、最短時間でdα/dt=0となる時刻t1とする。この時刻t1は最大角度状態の開始時刻にも相当する。 For the rising state from the equilibrium state, the forward time is observed from the time derivative dα / dt at the time when the time derivative dα / dt exceeds the high threshold thupper, and dα / dt = 0 in the shortest time. It is assumed that time t0. On the other hand, the end time is the time t1 when the backward direction is observed from the time derivative dα / dt at the time when the time derivative dα / dt exceeds the high threshold thupper and dα / dt = 0 in the shortest time. This time t1 also corresponds to the start time of the maximum angle state.
平衡状態への立下り状態については、最大角度状態以降で、低閾値thlowerを下回った時刻の時間微分dα/dtから時間的に前方向を観測し、最短時間でdα/dt=0となる時刻t2を開始時刻とする。この時刻t2は、最大角度状態の終了時刻にも相当する。一方、開始時刻は、時間微分dα/dtが低閾値thlowerを下回った時刻の時間微分dα/dtから時間的に後ろ方向を観測し、最短時間でdα/dt=0となる時刻t3とする。 As for the falling state to the equilibrium state, the forward direction is observed from the time differential dα / dt at the time when the angle falls below the low threshold thlower after the maximum angle state, and the time when dα / dt = 0 in the shortest time. Let t2 be the start time. This time t2 also corresponds to the end time of the maximum angle state. On the other hand, the starting time is a time t3 when the backward direction is observed from the time derivative dα / dt at the time when the time derivative dα / dt falls below the low threshold thlower, and dα / dt = 0 in the shortest time.
前述のように、立上がり状態の開始時刻から平衡状態への立下り終了時刻までが一連の笑い状態として判別される。 As described above, from the start time of the rising state to the end time of falling to the equilibrium state is determined as a series of laughing states.
次に、前述の高閾値thupperと低閾値thlowerを動的に設定する方法について述べる。 Next, a method for dynamically setting the above-described high threshold thupper and low threshold thlower will be described.
例えば、高閾値と低閾値の標準偏差と平均値をそれぞれσupperとμupper、σlowerとμlowerとした場合、
thupper=a・σupper+b・μupper 式(1)
thlower=c・σlower+d・μlower 式(2)
としてもよい。ここで、a,b,c,dは、係数で任意の値とし、例えば、予め、試験用動画像を用意し、統計的な学習工程を経て設定するものであってもよい。具体的には、人手により本手法による笑い状態の上記の3状態の開始時刻と終了時刻の正解集合を設定し、これと本発明によって抽出された上記の3状態の開始時刻と終了時刻との時間差を最小限とするようにa,b,c,dを設定してもよい。
For example, when the standard deviation and average value of the high threshold and low threshold are σupper and μupper, σlower and μlower, respectively,
thupper = a · σupper + b · μupper Equation (1)
thlower = c · σlower + d · μlower (2)
It is good. Here, a, b, c, and d may be arbitrary values as coefficients, and for example, a test moving image may be prepared in advance and set through a statistical learning process. Specifically, a correct answer set of the start time and end time of the above three states of the laughing state according to the present method is manually set, and the start time and end time of the above three states extracted by the present invention are set. A, b, c, and d may be set so as to minimize the time difference.
人間は、発話を一切していない状態においても口の形状が微小に変化していることが想定される。例えば、唇を噛みしめたり、つばを飲み込む動作を考えるだけでもこれらは容易に想像できる。これらの微小な変化が、角度αに影響する。また、笑いを含む発声行為についても、人間は規則的に口を開閉するもではなく、ある程度の不規則さを伴って開閉することが想定される。いわゆるこのようなノイズの影響を軽減させるために、例えば、検出した角度にメディアンフィルタを適用する対策を施してもよい。 It is assumed that the shape of the mouth is slightly changed even when a human is not speaking at all. For example, these can be easily imagined simply by considering the action of biting the lips or swallowing the brim. These small changes affect the angle α. In addition, it is assumed that humans do not regularly open and close their mouths with utterances including laughter, but open and close with some irregularities. In order to reduce the influence of the so-called noise, for example, a measure of applying a median filter to the detected angle may be taken.
また、本発明による時間微分dα/dtでは、笑い状態と、一般の発声と区別が付かない場合も想定される。例えば、illegalと発声した場合、"ille"の部分でdα/dtが増加し、"gal"の部分でdα/dtが減少するため、笑い状態と似ている挙動となる可能性がある。そのような場合には、例えば、最大角度状態の時間に着目し、t2−t1>ttimeなどの時間的な閾値ttimeを設定することで問題を回避可能となる。 In addition, it is assumed that the time differentiation dα / dt according to the present invention cannot be distinguished from a laughing state and a general utterance. For example, when illegal is uttered, dα / dt increases at the “ille” portion and dα / dt decreases at the “gal” portion, which may result in behavior similar to that of a laughing state. In such a case, for example, focusing on the time in the maximum angle state, the problem can be avoided by setting a temporal threshold value ttime such as t2−t1> ttime.
当該笑い状態検出部50は、上記の処理により、時間、角度α、時間微分dα/dtからなる情報、または、3状態に分割された時刻の情報を出力する。
The laughing
これまで、本発明の基本的な例を述べてきたが、例えば、角度αのみに着目している場合、例えば、引きつった笑いや、いやみを発言するときなどに頻出する。鼻の稜線を基準線としたときの左右非対称の状態においても笑い状態と判別する可能性がある。このような問題に対しては、図12に示すように、口角の左右の位置i,jを結ぶ線分の中心と、鼻の先端hとを結ぶ線分を基準線とし、基準線に対する左右の口角位置との角度をそれぞれ、α1、α2としてこれらの値の差を考慮することで対象であるか否かを判定すればよい。 So far, a basic example of the present invention has been described. For example, when attention is paid only to the angle α, for example, it frequently appears when a laughter is pulled or an irritability is expressed. There is also a possibility of determining a laughing state even in an asymmetrical state when the ridgeline of the nose is used as a reference line. To solve such a problem, as shown in FIG. 12, the line segment connecting the center of the line segment connecting the left and right positions i and j of the mouth corner and the tip h of the nose is used as the reference line, It is only necessary to determine whether or not the object is a target by considering the difference between these values as α1 and α2 respectively.
例えば、それぞれの時間微分dα1/dt、dα2/dtの時間履歴を測定し、これらの相関係数を求め、例えば、0.5以上であるときに対象としてもよい。また、それぞれの時間微分がdα1/dt>0、dα2/dt>0となる時刻をts1、ts2としたときの│ts1−ts2│に閾値を設定するなどしてもよい。 For example, the time histories of the respective time derivatives dα1 / dt and dα2 / dt are measured, and these correlation coefficients are obtained. Alternatively, a threshold may be set to | ts1-ts2 | when the times at which the respective time derivatives are dα1 / dt> 0 and dα2 / dt> 0 are ts1 and ts2.
または、以下の方法によって行ってもよい。顔領域が画像中に支配的であるか否かの支配度度合いを求め、区間の支配度合いを降順に優先順位とする。このためには、例えば、特開2006−244074号公報"鳥井陽介、紺谷精一、森元正志「動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体」"に記載された技術を用いることが可能である。 Alternatively, the following method may be used. The degree of dominance of whether or not the face area is dominant in the image is obtained, and the degree of dominance of the sections is set in descending order of priority. For this purpose, for example, JP 2006-244074 A, Yosuke Torii, Seiichi Sugaya, Masashi Morimoto “Animal body up-frame detection method and program, storage medium storing the program, and animal body up-shot detection method and animal body It is possible to use the technique described in “Upframe or shot detection method, program, and storage medium storing program”.
上記の強調度、感情度、笑顔度、支配度を0〜1の範囲内で表現し、いずれか一つ以上について、和算、乗算、平均、最大のいずれかの値を降順に、優先順位を付与してもよい。 Express the above degree of emphasis, emotion, smile, and dominance within the range of 0 to 1, and for any one or more, priority is given to any one of the values of addition, multiplication, average, and maximum in descending order May be given.
区間毎の優先度の結果を検索ダイジェスト記憶部142に格納する。その際、例えば、特開2007−140951号公報"日高浩太、佐藤隆「データ編集装置都そのプログラム」"で述べられている要約管理情報の形式で記憶してもよい。さらに、キーワードについても併記してもよい。例えば、図13に示すように記述してもよい。本発明では、図4に示す(a)キーワード情報記述パートと、(b)要約管理情報記述パートを最低限列挙した記述方式を「検索ダイジェスト記述文書」と呼ぶ。図13(b)の開始時間、終了時間はダイジェスト生成部133について示した、区間の開始時刻、終了時刻に対応すればよく、これらから時間長を求めることができる。尤度は、上記の強調度、感情度、笑顔度、支配度を0〜1の範囲内で表現したものとすればよい。同図では、検索ダイジェスト記述文書の(b)要約管理情報パートについて、区間の時系列として記述しているが、図14に示すように、ダイジェスト時間長毎に記述するものであってもよい。図14では、例えば、ダイジェスト時間長を超えるまで優先順位の降順に区間を繋ぎ合わせる。例えば、ダイジェスト時間長5秒の時は区間番号"1"のみ、15秒のときは区間番号"1"と"3"が選択されている例を示している。このようにすることで、複数のダイジェストの生成方法を記述することが可能となる。あるいは、各ダイジェストが予め生成されている場合は、その保管場所を映像ファイル名、ダイジェスト時間長と対応付けて記述しておけばよい。図14では、映像ファイル名を"C1"とし、ダイジェスト時間長5秒のダイジェスト保管場所を、「http://www.abc.d.e.jp/C1/d05.mpg」で示している。
The result of the priority for each section is stored in the search digest storage unit 142. At that time, for example, the information may be stored in the form of summary management information described in Japanese Patent Application Laid-Open No. 2007-140951 “Kota Hidaka, Takashi Sato“ Data Editing Device Capital Program ”. For example, it may be described as shown in Fig. 13. In the present invention, (a) keyword information description part and (b) summary management information description part shown in Fig. 4 are listed at a minimum. The description method is called a “search digest description document”. The start time and end time in FIG. 13B may correspond to the start time and end time of the section shown for the digest
次に、検索提示部134について説明する。
Next, the
検索提示部134は、ユーザから検索条件が入力されると、当該検索条件と検索ダイジェスト記憶部142に格納された検索ダイジェスト記述文書とを対応付けることにより検索条件を満足する映像をユーザへ提示する。対応付けについては、例えば、特許第3371983号公報"小澤英昭、中川透「不完全文字列と文字列の照合方法及び装置」"に記載の技術を用いればよい。
When a search condition is input from the user, the
例えば、ユーザの検索条件「行政改革」が図13の検索ダイジェスト記憶部142の(b)要約情報記述パートの区間番号"1"に存在していたとする。その際の、ダイジェストは優先順位を考慮して区間"3"、"2"を繋ぎ合わせたものを提示する。 For example, it is assumed that the user search condition “administrative reform” exists in the section number “1” of the (b) summary information description part of the search digest storage unit 142 in FIG. 13. In this case, the digest presents a combination of the sections “3” and “2” in consideration of the priority order.
あるいは、ユーザの検索条件「衆議院」に対して、図13の(b)要約情報記述パートの区間番号"3"が該当すれば、ダイジェストは区間番号3のみで作成する。
Alternatively, if the section number “3” in the summary information description part of FIG. 13 corresponds to the user's search condition “the House of Representatives”, the digest is created with only the
また、ユーザの検索条件「行政改革」が複数のコンテンツに存在していたとする。例えば、図15に示すようなコンテンツがあったとする。図15の(b)要約情報記述パートの区間番号"3"に「行政改革」があり、当該優先順位が"1"だった場合、図15と図13の優先順位を比較し、図13のコンテンツよりも優先的に図15のコンテンツのダイジェストを作成して、ユーザに提示すればよい。 Further, it is assumed that the user search condition “administrative reform” exists in a plurality of contents. For example, assume that there is content as shown in FIG. If the section number “3” of the summary information description part of FIG. 15 has “administrative reform” and the priority is “1”, the priority order of FIG. 15 is compared with that of FIG. A digest of the content in FIG. 15 may be created with priority over the content and presented to the user.
このように複数のコンテンツを比較する場合、例えば、優先順位"1"の区間に検索条件が該当する複数のコンテンツが存在する場合も想定される。その場合は、コンテンツに付与されている映像作成、公開、改訂日時、または、検索ダイジェスト記憶部142に映像作成、公開、改訂日時設定しておくことにより比較し、より最近のコンテンツを優先してユーザに提示してもよい。 When a plurality of contents are compared in this way, for example, there may be a case where a plurality of contents satisfying the search condition exist in the section having the priority “1”. In that case, the video creation, release, revision date and time attached to the content, or the video digest, release, revision date set in the search digest storage unit 142 are compared, and the more recent content is given priority. It may be presented to the user.
上記では、ダイジェスト生成において、映像の区間の優先順位付与を強調度、感情度、笑顔度、支配度のいずれか一つ以上によって行ってきたが、これ以外にキーワードが出現する区間の優先順位を昇順にすることも可能である。 In the above, in the digest generation, prioritization of video sections has been performed according to any one or more of the emphasis level, emotion level, smile level, and dominance level. An ascending order is also possible.
例えば、映像に付帯する音声を解析して音素列を求める手法では、その後のキーワードが存在する時刻を知ることが可能となる。当該時刻と図13の(b)要約情報記述パートを対応付け、例えば、区間番号"2"に「内閣改造」というキーワードが含まれていることによって、当該区間の優先順位を"1"に変更するなどしてもよい。 For example, in the method of obtaining a phoneme string by analyzing audio attached to a video, it is possible to know the time when the subsequent keyword exists. 13b is associated with the summary information description part of FIG. 13, for example, the section number “2” includes the keyword “Cabinet Remodeling”, so that the priority of the section is changed to “1”. You may do it.
あるいは、図13の(a)キーワード情報記述パートのキーワードの含まれる個数に応じて、例えば、「内閣改造」「首相」「更迭」の3キーワードに含まれる当該区間の優先順位を"1"とし、「首相」「組閣」の2つのキーワードが含まれる区間の優先順位を"2"とするなどしてもよい。 Alternatively, according to the number of keywords included in the keyword information description part in FIG. 13A, for example, the priority order of the section included in the three keywords “Cabinet Remodeling”, “Prime Minister”, and “Farewell” is set to “1”. , “2” may be set as the priority of the section including the two keywords “Prime Minister” and “Kankaku”.
あるいは、検索条件を鑑みて、例えば「マニフェスト」と入力された場合は、当該キーワードを含む区間を優先順位"1"としてもよい。 Alternatively, in consideration of the search condition, for example, when “manifest” is input, a section including the keyword may be set to the priority “1”.
また、ユーザ検索条件に該当する区間については、図13、図15の(b)の要約情報記述パートに示される区間だけではなく、その優先順位に対応して前後の区間を追加してダイジェスト生成に用いてもよい。これは、ユーザが意図的に検索している当該区間をより理解できるように時系列的に伸張するものであり、例えば、検索要求「行政改革」が図13の(b)の要約情報記述パートの区間番号"3"に存在する場合、その前後の区間の優先順位を比較し、大の優先順位の前/後区間を追加する。例えば、最大で、当該区間の時間長と同長だけ前後に追加することを想定すれば、優先順位yと時間長dについて、2d×1/yだけ追加すると予め設定しておけばよい。例えば、検索要求「行政改革」が図13の(b)要約情報記述パートの区間番号"3"に存在する。すなわち、優先順位"1"の場合、2dとなるように、まず「区間2」と「区間4」との尤度を比較し、大となる「区間4」を追加し、次に、2dとなるまで、あるいは超えるまで、次は「区間2」、次は「区間1」と「区間5」の比較のうちどちらか、のように追加してもよい。
In addition, for the section corresponding to the user search condition, not only the section shown in the summary information description part of FIG. 13 and FIG. 15B but also the previous and subsequent sections corresponding to the priority order are added to generate a digest. You may use for. This expands in time series so that the user can intentionally search for the section that is intentionally searched. For example, the search request “administrative reform” is the summary information description part of FIG. , The priorities of the preceding and succeeding sections are compared, and the preceding / following sections having a higher priority are added. For example, if it is assumed that the maximum length is added before and after the same length as the time length of the section, the priority order y and the time length d may be set in advance by 2d × 1 / y. For example, the search request “administrative reform” exists in the section number “3” of the summary information description part in FIG. That is, in the case of the priority “1”, first, the likelihoods of “
また、図13に示すキーワード情報記述パートと図14に示すダイジェストを作成しておくことで、高速に映像数が増加した場合でも、高速にダイジェストを生成することが可能となる。 Also, by creating the keyword information description part shown in FIG. 13 and the digest shown in FIG. 14, it is possible to generate a digest at high speed even when the number of videos increases at high speed.
なお、図3に示す映像検索ダイジェスト生成装置の構成要素の動作をプログラムとして構築し、映像検索ダイジェスト生成装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。 The operation of the components of the video search digest generation device shown in FIG. 3 can be constructed as a program and installed in a computer used as the video search digest generation device, or can be distributed via a network. It is.
また、構築されたプログラムをハードディスクや、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。 In addition, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
本発明は、映像を検索してダイジェストを提供する技術に適用可能である。 The present invention can be applied to a technique for searching a video and providing a digest.
11 CPU
12 バス
13 プログラムメモリ
14 データメモリ
10 入力手段、入力部
20 顔画像領域抽出部
30 特徴店抽出部
35 特徴点記憶部
40 特徴量抽出部
45 特徴量記憶部
50 笑い状態検出部
131 映像入力手段、映像入力部
132 キーワード抽出手段、キーワード抽出部
133 ダイジェスト生成手段、ダイジェスト生成部
134 検索提示手段、検索提示部
141 映像コンテンツ記憶手段、コンテンツ記憶部
142 検索ダイジェスト記憶手段、検索ダイジェスト記憶部
11 CPU
12
Claims (9)
映像を入力し、記憶手段に格納する映像入力手段と、
前記記憶手段から前記映像を読み出して解析し、キーワードを抽出し、該記憶手段に格納するキーワード抽出手段と、
前記記憶手段から前記映像を読み出して、該映像を分割した区間のダイジェストを生成するための情報である要約情報として該記憶手段に格納するダイジェスト生成手段と、
ユーザから指定された検索語に対応するキーワードを前記記憶手段から取得し、該キーワードに対応する要約情報を該記憶手段から取得する、または、前記記憶手段から該要約情報の区分の映像をダイジェストとして取得して出力する検索提示手段と、
を有することを特徴とする映像検索ダイジェスト生成装置。 A video search digest generating device that searches video including audio data and generates and provides a digest,
Video input means for inputting video and storing it in storage means;
A keyword extracting unit that reads out and analyzes the video from the storage unit, extracts a keyword, and stores the keyword in the storage unit;
Digest generation means for reading the video from the storage means and storing it in the storage means as summary information that is information for generating a digest of a section obtained by dividing the video;
A keyword corresponding to a search term designated by a user is acquired from the storage unit, and summary information corresponding to the keyword is acquired from the storage unit, or a video of a section of the summary information from the storage unit is used as a digest. Search presentation means for obtaining and outputting; and
A video search digest generation device characterized by comprising:
前記映像と同梱されたメタデータ、映像を公開したサイトにおける該映像の表示位置付近のテキスト、該映像に付帯する音声を解析して求めた音素列、の少なくとも1つから、該映像のキーワードを抽出する手段を含む
請求項1記載の映像検索ダイジェスト生成装置。 The keyword extracting means includes
A keyword of the video from at least one of metadata bundled with the video, text near a display position of the video on a site where the video is released, and a phoneme string obtained by analyzing audio attached to the video The video search digest generation device according to claim 1, further comprising means for extracting a video.
ネットワーク上のテキストと、前記映像に付帯する音声を解析して求めた音素列を対応付けて該映像のキーワードを抽出する手段を含む
請求項1記載の映像検索ダイジェスト生成装置。 The keyword extracting means includes
2. The video search digest generation device according to claim 1, further comprising means for extracting a keyword of the video by associating a text on the network with a phoneme string obtained by analyzing a voice attached to the video.
前記映像を一つ以上の区間に分割し、該区間について、ダイジェストに利用する優先順位を、音声特徴量、画像特徴量の少なくとも1つを用いて付与し、該優先順位を用いて複数の長さの要約情報を生成する手段を含む
請求項1記載の映像検索ダイジェスト生成装置。 The digest generation means includes:
The video is divided into one or more sections, and priorities used for digest are assigned to the sections using at least one of audio feature amounts and image feature amounts, and a plurality of lengths are used using the priority orders. 2. The video search digest generation device according to claim 1, further comprising means for generating summary information.
映像入力手段が、映像を入力し、記憶手段に格納する映像入力ステップと、
キーワード抽出手段が、前記記憶手段から前記映像を読み出して解析し、キーワードを抽出し、該記憶手段に格納するキーワード抽出ステップと、
ダイジェスト生成手段が、前記記憶手段から前記映像を読み出して、該映像を分割した区間のダイジェストを生成するための情報である要約情報として該記憶手段に格納するダイジェスト生成ステップと、
検索提示手段が、ユーザから指定された検索語に対応するキーワードを前記記憶手段から取得し、該キーワードに対応する要約情報を該記憶手段から取得する、または、該記憶手段から該要約情報の区分の映像をダイジェストとして取得して出力する検索提示ステップと、
を行うことを特徴とする映像検索ダイジェスト生成方法。 A video search digest generation method for searching video including audio data and generating and providing a digest,
A video input means for inputting video and storing the video in the storage means;
A keyword extracting unit that reads and analyzes the video from the storage unit, extracts a keyword, and stores the keyword in the storage unit;
A digest generating step for reading out the video from the storage unit and storing it in the storage unit as summary information that is information for generating a digest of a section obtained by dividing the video;
The search presentation unit acquires a keyword corresponding to the search term designated by the user from the storage unit, acquires summary information corresponding to the keyword from the storage unit, or classifies the summary information from the storage unit A search and presentation step of acquiring and outputting the video of
A video search digest generation method characterized by:
前記映像と同梱されたメタデータ、映像を公開したサイトにおける該映像の表示位置付近のテキスト、該映像に付帯する音声を解析して求めた音素列、の少なくとも1つから、該映像のキーワードを抽出するステップを行う
請求項5記載の映像検索ダイジェスト生成方法。 In the keyword extraction step,
A keyword of the video from at least one of metadata bundled with the video, text near a display position of the video on a site where the video is released, and a phoneme string obtained by analyzing audio attached to the video The method of generating a video search digest according to claim 5, wherein the step of extracting the video is performed.
ネットワーク上のテキストと、前記映像に付帯する音声を解析して求めた音素列を対応付けて該映像のキーワードを抽出するステップを行う
請求項5記載の映像検索ダイジェスト生成方法。 In the keyword extraction step,
6. The video search digest generation method according to claim 5, wherein a step of extracting a keyword of the video by associating a text on the network with a phoneme sequence obtained by analyzing a voice attached to the video is performed.
前記映像を一つ以上の区間に分割し、該区間について、ダイジェストに利用する優先順位を、音声特徴量、画像特徴量の少なくとも1つを用いて付与し、該優先順位を用いて複数の長さの要約情報を生成するステップを行う
請求項5記載の映像検索ダイジェスト生成方法。 In the digest generation step,
The video is divided into one or more sections, and priorities used for digest are assigned to the sections using at least one of audio feature amounts and image feature amounts, and a plurality of lengths are used using the priority orders. The video search digest generation method according to claim 5, wherein a step of generating summary information is performed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008110400A JP2009259167A (en) | 2008-04-21 | 2008-04-21 | Video search digest generator and generation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008110400A JP2009259167A (en) | 2008-04-21 | 2008-04-21 | Video search digest generator and generation method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009259167A true JP2009259167A (en) | 2009-11-05 |
Family
ID=41386483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008110400A Pending JP2009259167A (en) | 2008-04-21 | 2008-04-21 | Video search digest generator and generation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009259167A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160060803A (en) * | 2014-11-20 | 2016-05-31 | 소프트온넷(주) | Apparatus and method for storing and searching image including audio and video data |
CN110753269A (en) * | 2018-07-24 | 2020-02-04 | Tcl集团股份有限公司 | Video abstract generation method, intelligent terminal and storage medium |
-
2008
- 2008-04-21 JP JP2008110400A patent/JP2009259167A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160060803A (en) * | 2014-11-20 | 2016-05-31 | 소프트온넷(주) | Apparatus and method for storing and searching image including audio and video data |
KR101640317B1 (en) * | 2014-11-20 | 2016-07-19 | 소프트온넷(주) | Apparatus and method for storing and searching image including audio and video data |
CN110753269A (en) * | 2018-07-24 | 2020-02-04 | Tcl集团股份有限公司 | Video abstract generation method, intelligent terminal and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Perez-Gaspar et al. | Multimodal emotion recognition with evolutionary computation for human-robot interaction | |
Metallinou et al. | Context-sensitive learning for enhanced audiovisual emotion classification | |
US7636662B2 (en) | System and method for audio-visual content synthesis | |
Cummins et al. | Multimodal bag-of-words for cross domains sentiment analysis | |
Dumpala et al. | Audio-visual fusion for sentiment classification using cross-modal autoencoder | |
Kim et al. | ISLA: Temporal segmentation and labeling for audio-visual emotion recognition | |
JP2010011409A (en) | Video digest apparatus and video editing program | |
Mower et al. | A hierarchical static-dynamic framework for emotion classification | |
Yang et al. | Modeling dynamics of expressive body gestures in dyadic interactions | |
WO2018210323A1 (en) | Method and device for providing social object | |
Fang et al. | Facial expression GAN for voice-driven face generation | |
Liang et al. | Computational modeling of human multimodal language: The mosei dataset and interpretable dynamic fusion | |
Paleari et al. | Toward emotion indexing of multimedia excerpts | |
Paleari et al. | Evidence theory-based multimodal emotion recognition | |
Abouelenien et al. | Multimodal gender detection | |
Maragos et al. | Cross-modal integration for performance improving in multimedia: A review | |
JP2009278202A (en) | Video editing device, its method, program, and computer-readable recording medium | |
Ivanko et al. | Lip-reading using pixel-based and geometry-based features for multimodal human–robot interfaces | |
Wu et al. | Speaker personality recognition with multimodal explicit many2many interactions | |
Fernandez-Lopez et al. | Automatic viseme vocabulary construction to enhance continuous lip-reading | |
JP2009259167A (en) | Video search digest generator and generation method, and program | |
Cambria et al. | Speaker-independent multimodal sentiment analysis for big data | |
Hussien et al. | Multimodal sentiment analysis: a comparison study | |
JP4802199B2 (en) | VIDEO EDITING DEVICE, VIDEO EDITING PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM CONTAINING THE PROGRAM | |
CN114627898A (en) | Voice conversion method, apparatus, computer device, storage medium and program product |