JPH1139325A

JPH1139325A - 類似検索方法及び類似検索システム

Info

Publication number: JPH1139325A
Application number: JP9195356A
Authority: JP
Inventors: Toshiaki Akimoto; 俊昭秋元; Natsuki Oka; 夏樹岡
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1997-07-22
Filing date: 1997-07-22
Publication date: 1999-02-12

Abstract

(57)【要約】【課題】サンプル画像が検索意図を反映した同一のカ
テゴリとなるように学習で得られた結果を検索キーとし
て抽出し、検索効率を向上できることを目的とする。【解決手段】指定した２つ以上の検索キー候補映像を
含む複数の検索キー候補映像の特徴量を抽出する特徴量
抽出手段5200と、抽出された特徴量の重みを学習する特
徴量重み学習手段5400と、重みづけされた特徴量を神経
回路網モデルを用いて分類する自動分類手段5500と、分
類した結果を評価する分類結果評価手段5600と、カテゴ
リを代表する特徴量とその重みと入出力ユニットのリン
クの重みを検索キーとして抽出する検索キー抽出手段57
00とを備え、検索キー候補映像の中から指定した検索キ
ー候補映像が同一分類となるように学習により生成した
検索キーにより類似した画像と音からなる映像を検索す
るとから構成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、映像情報を記憶し
ている媒体から、利用者が求める場面に類似したサンプ
ル映像から学習により生成した検索キーにより映像情報
を検索する類似検索方法及び類似検索システムに関する
ものである。

【０００２】

【従来の技術】近年、オーサリングシステムのように、
テキスト、静止画、サウンド、ＡＶデータ等の様々なデ
ータを扱うシステムにおいて、利用者が望むデータを効
率良く獲得できる検索システムが望まれている。現在、
キーワードを組み合わせた明示的な検索方法以外に、あ
いまいな検索意図を検索に適用するための方法がいくつ
か提案されている。類似検索は、その一例であり、自分
の検索意図に適合したサンプルを検索キーとして、検索
キーに類似したデータを検索対象とする方法である。従
来、類似検索システムとしては、特開平９−４４５１８
号公報に開示されたものが知られている。

【０００３】図８は、従来の類似検索システムのブロッ
ク構成図であり、図９は従来の類似検索システムの処理
を説明するフローチャートである。図８において、画像
データベースに画像データを登録する画像データベース
登録モジュール４と、上記画像データベース１から検索
条件に合う画像データを検索する画像データベース検索
モジュール５と、ファジィルールを適用するファジィ推
論手段３とからなる。上記画像データベース登録モジュ
ール４は、画像データから画像の特徴ベクトルを抽出す
る特徴ベクトル抽出手段４１と、上記特徴ベクトルを入
力し、ファジィルールを適用して高次の特徴ベクトルを
生成する高次特徴ベクトル生成手段４２と、上記画像デ
ータの上記特徴ベクトルを入力し、ファジィルールを適
用して上記入力された特徴ベクトルをパターンに分類す
るパターン分類手段４３とからなる。上記画像データベ
ース検索モジュール５は、上記画像データベース１に登
録された上記画像データの縮小アブストラクト画像を表
示し、上記表示された画像の中から検索用画像を選択
し、上記選択された画像の画像データに基づいて検索よ
うデータを生成する検索用データ生成手段５１と、上記
検索用生成手段５１により生成された上記検索用データ
を入力し、上記ファジィルールを適用して上記画像デー
タベース１に登録された画像データを検索するファジィ
検索手段５２とからなる。

【０００４】上記のように構成された従来の類似検索シ
ステムの動作を図９のフローチャートを用いて以下に説
明する。

【０００５】検索用の画像から上記画像の特徴量を表わ
す第１の特徴ベクトルを抽出する特徴抽出処理（ステッ
プ１０）と、上記画像の抽出された第１の特徴ベクトル
をファジィルールに従って階層的なカテゴリにパターン
分類するパターン分類処理（ステップ２０）と、上記第
１の特徴ベクトルと上記分類されたパターンから登録用
データを生成し、画像データベースに登録する画像デー
タ登録処理（ステップ３０）とからなる。順次に高次の
特徴ベクトルを抽出して、ステップ１０からステップ３
０を繰り返し行なうことにより、階層的なパターン分類
が行われる。

【０００６】更に、ファジィルールを用いて階層的なカ
テゴリにパターン分類された画像の特徴ベクトルに応じ
て、上記画像データベースに分類して登録された上記画
像データの縮小されたアブストラクト画像を表示する画
像表示処理（ステップ４０）と、上記表示された画像の
中から検索対象画像と類似した少なくとも一つの画像を
選択する検索条件指定処理（ステップ５０）と、上記選
択された少なくとも一つの画像の上記特徴ベクトルから
検索用データを生成する検索用データ生成処理（ステッ
プ６０）と、上記生成された検索用データを検索条件と
して上記画像データベースをファジィルールに基づいて
検索し、上記検索用データに対応する上記画像データが
分類されたパターンを得るファジィ検索処理（ステップ
７０）とからなる。

【０００７】このように、ファジールールを用いて検索
キーを階層的にパターン分類し、ファジィ検索すること
によって、あいまいな検索を行なうことができる。

【０００８】

【発明が解決しようとする課題】しかし、パターン分類
された結果は、特徴量とパターン分類方法により決定さ
れるものであり、必ずしも検索意図と一致した分類には
ならない。また、静止画や映像は、見方（検索意図）を
変えることによって複数のカテゴリに属することができ
るが、階層的な分類方法では、多様な見方に十分対応で
きない。つまり、検索キーに類似したデータは、カテゴ
リの多様性を反映して一意に決めることはできないの
で、従来の方法では効率良く検索することができない。

【０００９】この類似検索システムにおいては、検索意
図を反映したカテゴリに相当する検索キーを抽出するこ
とが求められている。

【００１０】本発明は、検索意図を特徴づける特徴量の
重み学習と、神経回路網モデルを用いた分類及び分類結
果の評価を繰り返すことにより、サンプル画像が検索意
図を反映した同一のカテゴリとなるように学習で得られ
た結果を検索キーとして抽出し、検索効率を向上できる
ことを目的とする。

【００１１】

【課題を解決するための手段】この課題を解決するため
に本発明は、検索キーにより類似した映像を検索する類
似検索方法において、検索キー候補映像の中から指定し
た検索キー候補映像が同一分類となるように学習により
検索キーを生成するものである。

【００１２】また、指定した２つ以上の検索キー候補映
像を含む複数の検索キー候補映像の特徴量を抽出する特
徴量抽出手段と、前記特徴量抽出手段で抽出された特徴
量に対して、指定された検索キー候補映像同士と指定さ
れた検索キー候補映像とそれ以外の検索キー候補映像の
組合せで特徴量の重みを学習する特徴量重み学習手段
と、前記特徴量重み学習手段で重みづけされた特徴量を
神経回路網モデルを用いて分類する自動分類手段と、前
記自動分類手段で分類した結果を評価する分類結果評価
手段と、前記特徴量重み学習手段からのカテゴリを代表
する特徴量とその重みと前記自動分類手段からのリンク
の重みを検索キーとして抽出する検索キー抽出手段とを
備え、検索キー候補映像の中から指定した検索キー候補
映像が同一分類となるように学習により生成した検索キ
ーにより類似した画像と音からなる映像を検索するもの
である。

【００１３】本発明によれば、検索意図を特徴づける特
徴量の重み学習と、神経回路網モデルを用いた分類及び
分類結果の評価を繰り返すことにより、サンプル画像が
検索意図を反映した同一カテゴリとなるように学習で得
られた検索キーにより、類似した画像と音からなる映像
を検索するもので、検索効率を向上できる。

【００１４】

【発明の実施の形態】本発明の請求項１に記載の発明
は、検索キーにより類似した画像または音を検索する類
似検索方法において、検索キー候補の中から検索したい
画像または音に類似した検索キーを生成することを特徴
とするものであり、検索意図を反映したカテゴリの特徴
量を検索キーとして抽出するという作用を有する。

【００１５】請求項２に記載の発明は、検索キーは、指
定した２つ以上の検索キー候補映像を含む複数の検索キ
ー候補映像の特徴量に対して、指定された検索キー候補
映像同士と指定された検索キー候補映像とそれ以外の検
索キー候補映像の組合せで特徴量の重み学習と学習した
特徴量の重み付けを用いて分類および分類結果の評価を
繰り返し、指定した検索キー候補映像が同一分類となる
ように学習した結果を検索キーとして生成することを特
徴とするものであり、検索意図を特徴づける特徴量の重
み学習と分類及び分類結果の評価を繰り返すことによ
り、検索意図を反映したカテゴリの特徴量を検索キーと
して抽出するという作用を有する。

【００１６】請求項３に記載の発明は、学習した特徴量
の重み付けを用いた分類は、神経回路網モデルを用いた
ことを特徴とするもので、学習した結果を検索キーとし
て利用できるという作用を有する。

【００１７】請求項４に記載の発明は、特徴量は、画像
の特徴量と音の特徴量を組み合わせたことを特徴とする
もので、画像と音の特徴量を用いることにより、多様な
分類を行なうという作用を有する。

【００１８】請求項５に記載の発明は、画像の特徴量
は、色のヒストグラム、エッヂ画素情報、２つのフレー
ムのエッヂ画素変化情報の一つまたは複数を組み合わせ
ることを特徴とするもので、映像による多様な分類を行
なうという作用を有する。

【００１９】請求項６に記載の発明は、音の特徴量は、
可聴音を３２のサブバンドに分割し、サブバンド毎に、
場面全体の平均音量、最大音量、音量分散値、または周
波数成分、ケフレンシー（周波数成分を対数変換した値
を逆周波数変換した成分）、音量を一つまたは複数を組
み合わせることを特徴とするもので、音による多様な分
類を行なうという作用を有する。

【００２０】請求項７に記載の発明は、画像または音か
らの検索意図を特徴づける特徴量は、映像の場面の変わ
り目のフレームから求めることを特徴とするもので、動
画像への適用を可能にするという作用を有する。

【００２１】請求項８に記載の発明は、検索キーは、カ
テゴリを代表する特徴量とその重み並びに入出力ユニッ
トのリンクの重みであることを特徴とするもので、学習
した結果が検索意図を反映したものであり、学習した結
果を検索キーとして利用できるという作用を有する。

【００２２】請求項９に記載の発明は、特徴量は、画像
または音からの検索意図を特徴づける特徴量から少なく
とも１つ以上の特徴量を選択することを特徴とするもの
で、特徴量の組み合わせを自由に変えられるという作用
を有する。

【００２３】請求項１０に記載の発明は、検索キーによ
り類似した画像または音を検索する類似検索方法におい
て、検索対象映像は予め特徴量を抽出した検索用データ
として求めておくことを特徴とするもので、予め検索用
データとして変換しておくことにより処理時間の大幅な
短縮を図ることができるという作用を有する。

【００２４】請求項１１に記載の発明は、検索キーに
は、検索キー候補映像の場面を反映したタグを付けるこ
とを特徴とするもので、場面を反映したタグにより容易
に検索キーを指定することができる。

【００２５】請求項１２に記載の発明は、指定した２つ
以上の検索キー候補映像を含む複数の検索キー候補映像
の特徴量を抽出する特徴量抽出手段と、前記特徴量抽出
手段で抽出された特徴量に対して、指定された検索キー
候補映像同士と指定された検索キー候補映像とそれ以外
の検索キー候補映像の組合せで特徴量の重みを学習する
特徴量重み学習手段と、前記特徴量重み学習手段で重み
づけされた特徴量を神経回路網モデルを用いて分類する
自動分類手段と、前記自動分類手段で分類した結果を評
価する分類結果評価手段と、前記特徴量重み学習手段か
らのカテゴリを代表する特徴量とその重みと前記自動分
類手段からのリンクの重みを検索キーとして抽出する検
索キー抽出手段とを備え、検索キー候補映像の中から指
定した検索キー候補映像が同一分類となるように学習に
より生成した検索キーにより類似した画像と音からなる
映像を検索するもので、検索意図を特徴づける特徴量の
重み学習と、神経回路網を用いた分類及び分類結果の評
価を繰り返すことにより、検索意図を反映したカテゴリ
の特徴量を検索キーとして抽出するという作用を有す
る。

【００２６】以下、本発明の実施の形態について、図を
用いて説明する。（実施の形態）図１は、本発明の実施の形態の類似検索
システムの構成図を示す。図１において、5000は検索キ
ー候補映像の中から利用者が指定した複数の検索キー候
補映像が同一分類となるように学習した結果を検索キー
として生成する検索キー生成部、4000は検索対象となる
映像、検索キー候補映像及び教師データを記憶、管理す
るデータ記憶管理部、3000は検索キー候補映像や検索の
結果見つかった映像や検索キー生成部5000で抽出された
検索キーの表示を行なう表示部、1000はキーボードやフ
ァイルなどからの、映像の検索指示や、検索キー生成部
5000で抽出した検索キーに対応する場面を表示する指示
や、検索キー生成部5000で行なう学習に必要なパラメー
タの入力や検索動作の指示を行なうデータ入力部、6000
は検索対象となる映像はデータ記憶管理部4000から読み
出され映像から特徴的なデータを抽出する検索用データ
生成部、7000はデータ記憶管理部4000から読み出した検
出用データを検索キー生成部5000で生成した検索キーを
用いて類似検索を行う検索部、2000はシステムの全ての
制御を行なう主制御部とから構成する。

【００２７】また、検索キー生成部5000は、指定した検
索キー候補映像を含む全ての検索キー候補映像の画像の
色やエッヂ強度の変化を分析することによって場面の変
わり目を検出する場面切替え検出部5100と、場面切替え
検出部5100によって検出された場面単位に、場面の特徴
量を抽出する特徴量抽出部5200と、特徴量抽出部5200で
抽出された特徴量の中から、データ入力部1000を使って
指示された特徴量を選択する特徴量選択部5300と、特徴
量選択部5300で選択された特徴量の重みを分類結果の評
価を用いて特徴量の重みを学習する特徴量重み学習部54
00と、特徴量重み学習部5400で重みづけされた特徴量
を、神経回路網モデルの１つである自己組織化マップと
呼ばれるニューラルネットワークを用いてリンク重みを
学習し、分類する自動分類部5500と、自動分類部5500で
分類した結果を合致検索キー候補（利用者が指定した複
数の検索キー候補映像）が含まれるカテゴリにおいて合
致検索キー候補が含まれる割合を計算することにより評
価する分類結果評価部5600と、自動分類部5500で分類し
た結果から代表的な特徴量を抽出し、その代表的な特徴
量と特徴量重みさらに自動分類部5500で学習したリンク
重みを検索キーとして抽出する検索キー抽出部5700と、
検索キー抽出部5700で抽出された検索キーを蓄積・管理
する検索キー管理・蓄積部5800とを備える。

【００２８】検索用データ生成部6000は、映像の色やエ
ッヂ強度の変化を分析することによって場面の変わり目
を検出する場面切替え検出部5100と、場面切替え検出部
5100によって検出された場面単位に、場面の特徴量を抽
出する特徴量抽出部5200とを備える。

【００２９】検索部7000は、検索キー生成部部5000で抽
出された検索キーを蓄積・管理する検索キー管理・蓄積
部5800と、データ記憶管理部4000から読み出した検索用
データを検索キーの重み付けされた特徴量を用いて神経
回路網モデルの１つである自己組織化マップと呼ばれる
ニューラルネットワークを用いて分類する自動分類部55
00とを備える。

【００３０】以上のように構成された類似検索システム
について、以下にその動作を述べる。

【００３１】類似検索システムの動作は、検索キー抽出
動作、検索用データ生成動作、検索動作の３つに分類さ
れる。

【００３２】まず、検索キー生成部5000の検索キー抽出
動作について説明する。検索キー生成部5000の検索キー
抽出動作は、検索動作前に行われ、既に検索キー抽出動
作が完了している場合には、データ入力部1000からの指
示により、抽出が完了した検索キーの指定を検索キー生
成部5000に対し行ない、検索キー抽出動作は行なわな
い。

【００３３】検索キー抽出動作は、入力部1000から検索
キー抽出の指示が入力されることによって開始する。主
制御部2000は、検索キー生成部5000に対して、検索キー
抽出命令を出し、続いてデータ記憶管理部4000に対し、
検索キー候補映像の読み出しを指示し、読み出した検索
キー候補映像の表示を表示部3000に指示する。表示部30
00に表示された検索キー候補映像を見て利用者は、デー
タ入力部1000を用いて、検索したい映像に合致する検索
キー候補映像（以下合致検索キー候補）を２つ以上指定
する。

【００３４】これを受けて検索キー生成部5000は、検索
キー抽出を行うもので、以下に詳細に説明する。

【００３５】場面検出部5100は、合致検索キー候補を含
む検索キー候補映像の場面切替え検出動作を行なうもの
で、場面切替え検出結果を場面の先頭フレーム番号ある
いは場面の先頭の時間として特徴量抽出部5200に出力す
るものである。場面検出部5100の場面切替え検出動作に
ついて、図２のフローチャートを用いて説明する。

【００３６】まず、データ記憶管理部4000から合致検索
キー候補を含む検索キー候補映像の時系列のフレーム画
像を逐次読み出す（ステップ１）。読み出しの終了かど
うかを判断し、終了の場合は動作を終了する（ステップ
２）。

【００３７】場面切替え（次シーン）候補及び、場面切
替え型を検出する。場面切替え型には、４種類あり、場
面切り替わりの時間の短い短時間長型とそれ以外の型に
分類され、さらに、短時間長型以外のゆっくり場面が切
り替わる型には、前シーンまたは次シーンが拡大・縮小
・変形・移動する映像移動型、前シーンと次シーンの間
の対応する画素を合成しながら切り替わる画素合成型、
前シーンの映像の一部分が次シーンの対応する画素に置
換され、置換される画素を拡大しながら切り替わる画素
置換型がある（ステップ３）。場面切替え（次シーン）
候補があるかどうかを判断し、ない場合はステップ１に
戻る（ステップ４）。

【００３８】場面切替え（次シーン）候補が検出された
場合に、場面切替え（次シーン）候補の先頭位置の検出
を行い、先頭位置として適当な条件を満たさなかった場
合には、場面切替えとはみなされない（ステップ５）。
先頭位置が検出されたかどうかを判断し、検出されない
場合はステップ１に戻る（ステップ６）。

【００３９】先頭位置を検出した場合には、先頭フレー
ム画像と前シーンの先頭画像の例えば色の類似度を求
め、類似度の値がしきい値以下の場合、場面切替えと判
断する（ステップ７）。

【００４０】先頭位置は、場面の切替え型によって異な
り、短時間長型は、色の類似度の時間変化を、また、映
像移動型、画素合成型は輝度変化量の大きい画素の時間
変化を、画素合成型は画面全体のエッヂ強度の時間変化
を用いて検出し、検出されなかった場合はステップ１に
戻る（ステップ８）。先頭位置が検出された場合は、先
頭のフレーム番号を通知しステップ１に戻る（ステップ
９）。

【００４１】なお、場面切替え検出方法に関しては、文
献「編集効果を含む映像のシーンチェンジ検出方法、マ
ルチメディアと映像処理シンポジウム'94（テレビジョ
ン学会）、p.21-26(1994)」に詳しい。

【００４２】なお、場面切替え処理については、さまざ
まな方式が提案されているが、本発明において、場面切
替え処理方法は上記場面切替え処理に限定するものでは
ない。

【００４３】次に、特徴抽出処理部5200の特徴量抽出動
作について詳細に説明する。特徴抽出処理部5200は、場
面単位に映像や音の情報を分析処理し、特徴量選択部53
00に出力するものである。特徴抽出処理部5200の特徴量
抽出動作は、場面切替えの単位に、映像、音に関して
（表１）に示すような特徴量を抽出する。

【００４４】

【表１】

【００４５】映像については、場面の先頭フレームの色
ヒストグラム（特徴量１）、場面先頭フレームのエッヂ
画素情報（特徴量２）、先頭フレームと先頭から１０フ
レーム目のエッヂ画素変化情報（特徴量３）、先頭から
１０フレーム目と先頭から２０フレーム目のエッヂ画素
変化情報（特徴量４）、場面末尾１０フレーム前と末尾
フレームのエッヂ画素変化情報（特徴量５）を抽出す
る。エッヂ画素変化情報とは、フレーム上の同じ位置に
ある画素に対し、変化前の画素がエッヂであるかどうか
（１ビット）、変化後の画素がエッヂであるかどうか
（１ビット）を表す情報であり、１画素あたり合計２ビ
ットで表現できる。

【００４６】なお、フレームを分割し、分割画面単位で
上記特徴量１から特徴量５までを抽出しても実施可能で
ある。また、以上の特徴量１及び特徴量２の説明では、
場面の先頭フレームを用いて説明したが、任意のフレー
ムについても同様に実施可能である。特徴量３、特徴量
４及び特徴量５の説明で用いたフレームの組み合わせ以
外でも実施可能である。

【００４７】音については、20kHzまでの可聴音を３２
のサブバンドに分割し、サブバンド毎に、場面全体の音
量平均（特徴量６）、音量最大値（特徴量７）、音量分
散（特徴量８）、500msecの切り出し区間で算出したケ
フレンシーの平均値において、切り出し区間の最小時間
におけるケフレンシー値が最大となるケフレンシー分布
パターン（特徴量９）、及び時間成分毎のケフレンシー
平均値の分布パターン（特徴量１０）、場面先頭200mse
c分の音量平均（特徴量１１）、場面末尾200msec分の音
量平均（特徴量１２）、場面先頭500msecから1000msec
までの音量平均（特徴量１３）、場面末尾1000msec前か
ら500msec前までの音量平均（特徴量１４）、7.5kHz以
上のサブバンド音に対しては、さらに細かい周波数に分
割し、各サブバンドの高域音量が０以上となる継続時間
（特徴量１５）を抽出する。

【００４８】なお、特徴量６において、可聴音の帯域と
して、20kHzまでの帯域を用いたが、20kHzを超えた帯域
を用いても同様に実施可能である。また、３２のサブバ
ンドに分割しているが、分割するサブバンド数を任意の
値にしても同様に実施可能である。特徴量１１から特徴
量１４までに示した音量の切り出し時間に任意の値を用
いても同様に実施可能である。

【００４９】ここで、ケフレンシーの算出方法につい
て、図３のフローチャートを用いて説明する。音の標本
値系列を切り出す（ただし、標本化された時系列をｘ
(n),(0≦n≦N)と表す：ここでＮは標本数を表す）（ス
テップ１）。切り出した区間の両端に急激な変化が起こ
らないように（数２）で示すハミング窓関数Ｗ_H(n)を乗
じる（ステップ２）。

【００５０】

【数１】

【００５１】

【数２】

【００５２】高速フーリエ変換アルゴリズムを用いて、
（数３）に示す離散的フーリエ変換Ｓ(w)を計算する
（ステップ３）。この離散的フーリエ変換を施された値
Ｓ(w)の絶対値をとり（| S(ω)|）（ステップ４）、対
数変換を行なう（log| S(ω)|）（ステップ５）。（数
４）に示す逆周波数変換した値Ｃｎがケプストラムであ
る（ステップ６）。

【００５３】

【数３】

【００５４】

【数４】

【００５５】なお、以上の説明で用いた特徴量以外に、
従来さまざまな特徴量が提案されており、本発明におい
て、その他の特徴量についても同様に実施可能である。

【００５６】次に、特徴量選択部5300の特徴量を選択
し、パターン化する処理について説明する。特徴量選択
部5300は、特徴抽出処理部5200の分析によって得られた
複数の特徴量の内、データ入力部1000から指示のあった
特徴量を選択し特徴量重み学習部5400に出力する。

【００５７】特徴量選択部5300の特徴量の選択は、デー
タ入力部1000の指示により行われる。例えば、全ての特
徴量を用いる指示や、特徴量１だけを用いる指示などが
ある。選択された特徴量をパターン化する処理を特徴量
１から特徴量１５を用いて説明する。

【００５８】特徴量１として抽出される１６色ヒストグ
ラムに対し、頻度の最大値が１、最小値が０となるよう
に規格化を行なった後、１６要素の入力パターンを生成
する。さらに、この１６色ヒストグラムの頻度分散を計
算し、１要素の入力パターンを生成する。従って、特徴
量１からは最大１７要素のパターンが生成される。な
お、ヒストグラムの色の種類は、色の値の量子化値を変
更する等の方法によって、任意の種類に変更でき、ヒス
トグラムの色の種類に任意の値を用いても同様に実施可
能である。

【００５９】特徴量２については、フレームを構成する
全画素に対するエッヂ画素の割合を算出し、全ての場面
について、最大となる割合が１、最小となる割合が０と
なるように規格化した値を１つのパターンとする。ま
た、フレームを縦横３分割、計９分割し、それぞれの分
割場面に含まれる画素に対するエッヂ画素の割合を算出
する。さらに、全ての場面について、それぞれの分割画
面のエッヂ画素割合の最大値が１、最小値が０となるよ
うに規格化したものをパターンとする。従って、特徴量
２からは１０パターンが生成される。なお、画面の分割
数に任意の値を用いても同様に実施可能である。

【００６０】特徴量３、４、５は対象となるフレームが
異なるだけでパターン化する処理は同様である。フレー
ムを構成する全画素に対する変化のあった画素（エッヂ
画素がエッヂでなくなった画素／エッヂでない画素がエ
ッヂになった画素）の割合を算出し、全ての場面につい
て、最大となる割合が１、最小となる割合が０となるよ
うに規格化した値を１つのパターンとする。また、フレ
ームを縦横３分割、計９分割し、それぞれの分割場面に
含まれる画素に対する変化のあった画素の割合を算出す
る。さらに、全ての場面について、それぞれの分割画面
の変化のあった画素割合の最大値が１、最小値が０とな
るように規格化したものをパターンとする。

【００６１】特徴量６については、３２のサブバンド毎
に音量平均の最大値が１、最小値が０となるように規格
化を行なう。同様に、特徴量７は音量最大値について、
特徴量８は、音量分散について規格化を行なう。

【００６２】特徴量９については、ケフレンシー成分毎
にそれぞれの最大値が１、最小値が０となるように規格
化する。ただし、ケフレンシー成分が１６を超える場合
には、隣接する成分の平均値等を用いて１６を超えない
ようにし、規格化を行なう。

【００６３】特徴量１０についても同様の動作を行な
う。なお、ケフレンシー成分のしきい値として１６以外
の値を用いても同様に実施可能である。

【００６４】特徴量１１については、場面先頭200msec
分の音量平均の最大値が１、最小値が０となるように規
格化する。特徴量１２、１３、１４についても対象とな
る音量が異なるだけで、同様の動作を行なう。

【００６５】特徴量１５についても、高域音持続時間の
最大値が１、最小値が０となるように規格化する。

【００６６】なお、以上の説明で用いた特徴量以外の特
徴量についても同様に実施可能である。

【００６７】次に、特徴量重み学習部5400、自動分類部
5500及び分類結果評価部5600の動作について、図４のフ
ローチャートを用いて説明する。

【００６８】上記合致検索キー候補の指定により得られ
たどこに分類するかを指示した教師データをデータ記憶
管理部4000より入力し（ステップ１）、特徴量抽出部52
00によって抽出された合致キー候補映像を含む全ての検
索キー候補映像の特徴量データを特徴量重み学習部5400
に入力する（ステップ２）。

【００６９】

【数５】

【００７０】特徴量毎に相関係数c_coefを（数５）で計
算する。ここで、P_numは、相関のあったデータ数であ
り、T_numは相関係数を算出するためのデータ数であ
る。相関係数を算出するためのデータ数は、合致検索キ
ー候補を２つ選ぶ組み合わせの数をN1とし、合致検索キ
ー候補の１つと合致検索キー候補以外の検索キー候補を
１つ選ぶ組み合わせ数をN2としたとき、最大N1とN2の積
(N1*N2)になる。相関があるかどうかの判定は、合致検
索キー候補の２つの組み合わせにおける差分二乗値を
A、合致検索キー候補の１つと合致検索キー候補以外の
合致検索キー候補の組み合わせにおける差分二乗値をB
とした時B-A>0となる組み合わせ数であり、特徴量毎に
計算する。αは学習係数であり、0<α<1を満たすように
定める（ステップ３）。

【００７１】終了条件１は、特徴量重み学習の繰り返し
回数であり、この条件によってあらかじめ設定された回
数の学習をおこなう（ステップ４）。既に学習済みの重
みを用いて学習するか、初期化するかの判定を行い（ス
テップ５）、初期化する場合は、特徴量重みの初期化を
行う（ステップ６）。初期化を行わない場合は、既に学
習済みの特徴量重みを用いて学習を行う（ステップ
７）。

【００７２】特徴量重みは学習を重ねることによって、
変化していき、ある特徴量の特徴量重みが上限に達した
かどうかの判定を行う（ステップ８）。ある特徴量の特
徴量重みが上限に達したときには、全ての特徴量重みと
学習係数を小さくする。例えば、特徴量重みを２分の１
にし、学習係数を１０分の１にする（ステップ９）。ス
テップ４からステップ９までを繰り返し行い、特徴量重
みを更新していく。

【００７３】ステップ４において設定した繰り返し回数
を終了した場合、自動分類部5500では、まず、自己組織
化特徴マップ（以下ＳＯＭ）と呼ばれるニューラルネッ
トワークのパラメータ設定、初期化が行なわれれ、この
後、設定された繰り返し回数に従い、重みづけされた特
徴量（入力ベクトル）を、ＳＯＭに繰り返し入力する。
入力ベクトルの繰り返し毎に学習は進行し、結果的に、
入力ベクトル空間で近い（類似した）パターンは、近い
出力ユニットに写像されるようになる。このようにし
て、入力ベクトルは出力ユニット単位に分類される（ス
テップ１０）。

【００７４】この分類結果は、分類結果評価部5600に伝
えられ、合致検索キー候補を含むカテゴリにおいて、合
致検索キー候補が含まれる割合、あるいは、全ての合致
検索キー候補に対する同じカテゴリに含まれる合致検索
キー候補の割合を計算することによって評価が行われる
（ステップ１１）。ステップ１１の評価結果を用いて終
了条件２の判定を行い（ステップ１２）、終了条件２を
満足していない場合、特徴量重み学習の繰り返し回数
（終了条件１）を変更し（ステップ１３）、ステップ４
に戻る。終了条件２を満足している場合、分類結果を検
索キー抽出部5700に出力する。

【００７５】ステップ４からステップ１３までの動作を
繰り返し行うことにより、検索意図と相関のある特徴量
の重みが増す結果として、指定された複数の合致検索キ
ー候補を含むカテゴリが同一のカテゴリに近づいていく
ことになる。ここで、繰り返しの終了条件は、繰り返し
回数あるいは分類結果の評価値のしきい値により設定さ
れる。

【００７６】次に、特徴量重み学習部5400の特徴量重み
学習動作について詳細に説明する。特徴量重み学習部54
00の特徴量重み学習は、合致検索キー候補を含むカテゴ
リを検索意図を反映した同一のカテゴリに近づけるため
に行なう動作である。

【００７７】合致検索キー候補を含むカテゴリに含まれ
る全ての検索キー候補を合致検索キー候補とそれ以外の
合致検索キー候補に分け、合致検索キー候補の類似度が
大きくなるように、かつ合致検索キー候補とそれ以外の
合致検索キー候補の類似度が小さくなるように特徴量重
みを更新するものである。

【００７８】特徴量重み更新処理を図５のフローチャー
トを用いて説明する。（ただし、ｔ時刻における特徴量
重みベクトルをＷ（ｔ）とし、学習率係数βを０＜β＜
１を満たすように定める。）初期の時刻をｔ＝０とし、特徴量重みベクトルＷ（ｔ）
の初期化を行なう（ステップ１）。終了条件を満たせば
動作を停止し、そうでなければステップ３に進む（ステ
ップ２）。合致検索キー候補の中から、ランダムに２つ
の場面を選択する（ステップ３）。ただし、ステップ３
では、２つの場面の選び方として、全ての組合せで選ん
でも良い。

【００７９】時刻ｔにおけるステップ２で選択された場
面の差分の２乗値をそれぞれの特徴量に対し計算する。
こうして時刻ｔにおける差分２乗ベクトルｄ１（ｔ）を
（数６）により得られる。（ステップ４）。

【００８０】

【数６】

【００８１】合致検索キー候補の中から、１つ、合致検
索キー候補以外の合致検索キー候補の中から１つランダ
ムに場面を選択する（ステップ５）。ただし、ステップ
５では、合致検索キー候補以外の選び方として均等に選
んでも良い。時刻ｔにおけるステップ４で選択された場
面の差分２乗ベクトルｄ２（ｔ）を計算する（ステップ
６）。

【００８２】

【数７】

【００８３】特徴量重みベクトルをＷ（ｔ＋１）を（数
７）とおく（ステップ７）。次に、ｔ＝ｔ＋１として、
ステップ２に戻る。

【００８４】このようにステップ２からステップ７まで
の動作を繰り返し行なうことにより、合致検索キー候補
の特徴量重みが大きくなるように、かつ合致検索キー候
補以外の合致検索キー候補の特徴量重みが小さくなるよ
うに学習されていく。

【００８５】なお、終了条件は、次の３つから選択す
る。（１）特徴量重み学習部5400にあらかじめ設定し
た、動作の繰り返し回数に達した時、（２）自動分類部
5500の分類結果を表示部に表示し、利用者の判断で、デ
ータ入力部1000の指示により強制的に終了指示した時、
または（３）自動分類部5500で分類された場面のグルー
プに合致検索キー候補が含まれる割合あるいは数が一定
値以上に達した時の３つから選択する。

【００８６】次に、自動分類部5500の自動分類動作につ
いて詳細に説明する。自動分類部5500の自動分類動作の
代表例として、ＳＯＭ法による教師なし競合学習の動作
を説明する。ＳＯＭ法は、ニューラルネットワークの一
種であり、1990年にT.Kohonenによって提案された。こ
のＳＯＭ法の特徴は、教師なしの学習によって、入力信
号パターンの似たもの同士は競合層上の空間的に近い位
置に、似ていないもの同士は、遠い位置に写像するよう
な入力信号パターンの組織化を行なうものである。

【００８７】まず、ＳＯＭ法のネットワーク構成図を図
６に示し、以下に説明する。ネットワークは、入力層と
競合層（出力層）の２層で構成され、入力層を構成する
ユニット（入力ユニット）は、１つの特徴量に対応し、
入力信号ベクトルと同じ数だけ用意され、競合層（出力
層）のユニットと全数結合している。一方、競合層（出
力層）を構成するユニット（出力ユニット）は、分類さ
れるグループに対応し、２次元格子に規則的に配置され
る。

【００８８】次に、ＳＯＭ法による学習動作を図７のフ
ローチャートを使って説明する。ｔ時刻における入力ユ
ニットｊへの入力をＸｊ（ｔ）、図６（ｂ）に示すよう
に入力ユニットｊから出力ユニットｋへのリンクの重み
をＷｋｊ（ｔ）とする。また、図６（ａ）に示すように
出力ユニットｋのｔ時刻における近傍集合をＮ（ｋ，
ｔ）とし、ｔ１＜ｔ２を満たす任意の時刻ｔ１，ｔ２
に対して、Ｎ（ｋ，ｔ１）⊂Ｎ（ｋ，ｔ２）が成り立つ
ように時間の経過とともに近傍の領域を小さくしてい
く。この時、全てのリンクの重みＷｋｊを小さなランダ
ム値に設定する（ステップ１）。

【００８９】初期の時刻をｔ＝０とし、全ての出力ユニ
ットｋに対して近傍領域Ｎ（ｋ，０）を定義する。例え
ば、ｋを中心とした大きな六角形をＮ（ｋ，ｔ１）とす
る。ここで、学習率α（０）を、０＜α（０）＜１か
つ、時間とともに減少していくとなるような関数として
定め、例えば（数８）のような関数とする（ステップ
２）。

【００９０】

【数８】

【００９１】ｔ＋１番目のデータがなければ動作を終了
し、そうでなければｔ＋１番目のデータを入力する（ス
テップ３）。

【００９２】出力ユニットｋと入力ユニットｊとの距離
Ｓｉｍ_kを、全ての出力ユニットｋに対して、Ｘ_j(t)−
Ｗ_kj(t)を２乗した和として（数９）で計算する（ステ
ップ４）。

【００９３】

【数９】

【００９４】

【数１０】

【００９５】出力ユニットｋと入力ユニットｊとの最小
距離Ｓｉｍ_{k_min}を、全ての出力ユニットｋに対し、ス
テップ４で計算した値の最小値を（数１０）で求め、そ
れにより最小値をもつ出力ユニットｋ_minが得られる
（ステップ５）。

【００９６】最終的に、自己組織化のリンク重みＷ_kj(t
+1)として、全ての出力ユニットｋ∈Ｎ（ｋ_min，ｔ）
について、全ての入力ユニットｊに対して（数１１）に
より求める（ステップ６）。

【００９７】

【数１１】

【００９８】ｔ＝ｔ＋１とおき、ステップ３に行く（ス
テップ７）。このようにステップ３からステップ６まで
の動作を繰り返し行なうことにより、入力ベクトルの分
布を代表するような結合重みが、いくつかの出力ユニッ
トに対して形成されるようになる。

【００９９】次に、検索キー抽出部5700は、自動分類部
5500から出力された学習結果から、合致検索キー候補を
含むカテゴリからそのカテゴリを代表する特徴量と重み
並びに、自動分類部5500の自己組織化のリンク重みが検
索キーとして抽出される。ここで、カテゴリを代表する
特徴量とは、合致検索キー候補から抽出した特徴量ある
いは合致検索キー候補から抽出した特徴量が最も強く反
応した出力ユニットにおいて、合致検索キー候補よりも
強く反応した合致検索キー候補の特徴量のことをいう。

【０１００】検索キー管理・蓄積部5800は、特徴量重み
学習部5400からの合致検索キー候補を含むカテゴリから
そのカテゴリを代表する特徴量と重み並び自動分類部55
00からの自己組織化のリンク重みが検索キーとして抽出
された検索キーを蓄積する。

【０１０１】なお、合致検索キー候補を含むカテゴリに
属する合致検索キー候補を表示部3000に出力した後、デ
ータ入力部1000からの指示によっても抽出できる。この
ようにして抽出された検索キーは、検索キー管理・蓄積
部5800に蓄積される。この時、検索キーの再利用に備え
て、利用者はデータ入力部1000を用いて、検索キーにタ
グを付けることもできる。

【０１０２】なお、自動分類部5500を自己組織化マップ
を用いて動作させる例で説明したが、その他の神経回路
網モデルについても同様に実施可能である。

【０１０３】次に、検索用データ生成部6000について説
明する。検索データ生成部6000は、図１に示すように検
索対象映像の色やエッヂ強度の変化を分析することによ
って場面の変わり目を検出する場面切替え検出部5100
と、場面切替え検出部5100によって検出された場面単位
に、場面の特徴量を抽出する特徴量抽出部5200とで構成
される。検索用データは、一般的に検索対象となるデー
タ量を削減するために、検索対象となる映像から特徴的
なデータを抽出したものである。

【０１０４】場面切替え検出部5100は、検索対象となる
映像はデータ記憶管理部4000から読み出され、場面切替
え検出部5100で検索キー候補映像の場面切替え検出動作
を行なうもので、場面切替え検出結果を場面の先頭フレ
ーム番号あるいは場面の先頭の時間として特徴量抽出部
5200に出力するものである。特徴抽出処理部5200は、場
面単位に映像や音の情報を分析処理し、特徴量選択部53
00に出力するものである。特徴抽出処理部5200の特徴量
抽出動作は、場面切替えの単位に、映像、音に関して表
１に示すような特徴量が検索用データとして抽出され、
再び、データ記憶管理部4000に記憶される。

【０１０５】場面切替え検出部5100と特徴抽出処理部52
00は、前述の検索キー生成部5000と同一のものであり、
詳細な説明は省略するものとする。

【０１０６】次に、検索部7000について説明する。検索
部7000は、図１に示すように検索キー生成部部5000で抽
出された検索キーを蓄積・管理する検索キー管理・蓄積
部5800と、データ記憶管理部4000から読み出した検索用
データを検索キーの重み付けされた特徴量を用いて神経
回路網モデルの１つである自己組織化マップと呼ばれる
ニューラルネットワークを用いて分類する自動分類部55
00から構成される。

【０１０７】検索部7000の検索動作は、予め検索キー生
成部5000で生成された検索キーを用いて、入力部1000か
ら検索キーに付けられた場面を反映したタグにより検索
指示が入力されることによって開始する。主制御部2000
は、検索キーのリンク重みを自動分類部5500に設定し、
検索キーの重みづけを行なって、データ記憶管理部4000
から読み出した検索用データを検索キーの特徴量ととも
に自動分類部5500に入力する。自動分類部5500は、学習
が終了したニューラルネットワークに、全場面の特徴ベ
クトルを入力し、それぞれの場面がどの出力ユニットの
近傍で最も強く反応するかを検出し、これを分類結果と
して出力し、表示部3000に表示される。この時検索キー
に類似した検索用データは、検索キーの近隣に表示され
る。この動作を全ての検索用データに対して行なう。

【０１０８】なお、検出結果に対し、検索意図に合致し
ているかどうかの評価を行い、検索キー候補映像に対し
て行なった検索キー生成動作と同様の動作も実施可能で
ある。

【０１０９】なお、自動分類部に神経回路網モデルを用
いた例で説明したが、これに限定されるものではなく、
パターン認識等で用いられる各種クラスタリング方法を
用いても良い。

【０１１０】

【発明の効果】以上のように本発明の類似検索システム
は、検索意図を特徴づける特徴量の重み学習と、神経回
路網モデルを用いた分類及び分類結果の評価を繰り返す
ことにより、サンプル画像が検索意図を反映した同一の
カテゴリとなるように学習で得られた結果を検索キーと
して抽出し、検索効率を向上できるという効果が得られ
る。

【０１１１】また、検索キーとして、特徴量重みおよび
入出力ユニットのリンク重みは学習した結果が検索意図
を反映したものであり、学習した結果を検索キーとして
利用できる。

【図面の簡単な説明】

【図１】本発明の実施の形態の類似検索システムの構成
図

【図２】同場面検出部の類似検索システムの場面切替え
検出動作を示すフローチャート

【図３】同類似検索システムの特徴量抽出部のケフレン
シーの算出動作を示すフローチャート

【図４】同類似検索システムの特徴量重み学習部、自動
分類部及び分類結果評価部の動作を示すフローチャート

【図５】同類似検索システムの特徴量重み学習部の特徴
量重み更新処理のフローチャート

【図６】同類似検索システムの自動分類部のＳＯＭ法の
ネットワーク構成図

【図７】同類似検索システムの自動分類部のＳＯＭ法の
学習動作のフローチャート

【図８】従来の類似検索システムのブロック構成図

【図９】従来の類似検索システムの動作説明のフローチ
ャート

【符号の説明】

１０００データ入力部２０００主制御部３０００表示部４０００データ記憶管理部４１００データ読み出し部４２００データ記憶部５０００検索キー生成部５１００場面切替え検出部５２００特徴量抽出部５３００特徴量選択部５４００特徴量重み学習部５５００自動分類部５６００分類結果評価部５７００検索キー抽出部５８００検索キー管理・蓄積部６０００検索用データ生成部７０００検索部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ０６Ｆ 15/403 ３５０Ｃ 15/70 ４６５Ａ

Claims

【特許請求の範囲】

【請求項１】検索キーにより類似した映像を検索する
類似検索方法において、検索キー候補映像の中から指定
した検索キー候補映像が同一分類となるように学習によ
り検索キーを生成することを特徴とする類似検索方法。
【請求項２】検索キーは、指定した２つ以上の検索キ
ー候補映像を含む複数の検索キー候補映像の特徴量に対
して、指定された検索キー候補映像同士と指定された検
索キー候補映像とそれ以外の検索キー候補映像の組合せ
で特徴量の重み学習と学習した特徴量の重み付けを用い
て分類および分類結果の評価を繰り返し、指定した検索
キー候補映像が同一分類となるように学習した結果を検
索キーとして生成することを特徴とする請求項１記載の
類似検索方法。
【請求項３】学習した特徴量の重み付けを用いた分類
は、神経回路網モデルを用いたことを特徴とする請求項
２記載の類似検索方法。
【請求項４】特徴量は、画像の特徴量と音の特徴量を
組み合わせたことを特徴とする請求項１または２記載の
類似検索方法。
【請求項５】画像の特徴量は、色のヒストグラム、エ
ッヂ画素情報、２つのフレームのエッヂ画素変化情報の
一つまたは複数を組み合わせることを特徴とする請求項
４記載の類似検索方法。
【請求項６】音の特徴量は、可聴音を３２のサブバン
ドに分割し、サブバンド毎に、場面全体の平均音量、最
大音量、音量分散値、または周波数成分、ケフレンシー
（周波数成分を対数変換した値を逆周波数変換した成
分）、音量を一つまたは複数を組み合わせることを特徴
とする請求項４記載の類似検索方法。
【請求項７】画像または音からの検索意図を特徴づけ
る特徴量は、映像の場面の変わり目のフレームから求め
ることを特徴とする請求項２乃至６のいずれかに記載の
類似検索方法。
【請求項８】検索キーは、同一分類となるように学習
した結果として、カテゴリを代表する特徴量とその重み
並びに入出力ユニットのリンク重みであることを特徴と
する請求項２乃至７のいずれかに記載の類似検索方法。
【請求項９】特徴量は、画像または音からの検索意図
を特徴づける特徴量から少なくとも１つ以上の特徴量を
選択することを特徴とする請求項４乃至６のいずれかに
記載の類似検索方法。
【請求項１０】検索キーにより類似した画像または音
を検索する類似検索方法において、検索対象映像は予め
特徴量を抽出した検索用データとして求めておくことを
特徴とする請求項１または２記載の類似検索方法。
【請求項１１】検索キーには、検索キー候補映像の場
面を反映したタグを付けることを特徴とする請求項１ま
たは１０記載の類似検索方法。
【請求項１２】指定した２つ以上の検索キー候補映像
を含む複数の検索キー候補映像の特徴量を抽出する特徴
量抽出手段と、前記特徴量抽出手段で抽出された特徴量
に対して、指定された検索キー候補映像同士と指定され
た検索キー候補映像とそれ以外の検索キー候補映像の組
合せで特徴量の重みを学習する特徴量重み学習手段と、
前記特徴量重み学習手段で重みづけされた特徴量を神経
回路網モデルを用いて分類する自動分類手段と、前記自
動分類手段で分類した結果を評価する分類結果評価手段
と、前記特徴量重み学習手段からのカテゴリを代表する
特徴量とその重みと前記自動分類手段からのリンクの重
みを検索キーとして抽出する検索キー抽出手段とを備
え、検索キー候補映像の中から指定した検索キー候補映
像が同一分類となるように学習により生成した検索キー
により類似した画像と音からなる映像を検索することを
特徴とする類似検索システム。